亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于新詞發(fā)現(xiàn)的古典文學(xué)作品分詞方法研究

        2021-09-28 10:11:24高嘉琦趙慶聰
        關(guān)鍵詞:文本方法

        高嘉琦,趙慶聰,2

        (1.北京信息科技大學(xué) 信息管理學(xué)院,北京 100192;2.綠色發(fā)展大數(shù)據(jù)決策北京市重點(diǎn)實(shí)驗(yàn)室,北京 100192)

        0 引 言

        中國歷史文化源遠(yuǎn)流長,有大量的古典文學(xué)作品流傳至今,這些作品展現(xiàn)了中華民族從古至今的人文精神,同時(shí)也傳承了上下五千年以來優(yōu)秀的傳統(tǒng)價(jià)值觀,是一筆寶貴財(cái)富。對(duì)古典文學(xué)作品進(jìn)行深入的分析和研究,在文化傳承、歷史研究、人文教育等方面都有十分重要的意義。

        對(duì)古典文學(xué)作品進(jìn)行文本挖掘,分詞是基礎(chǔ)。目前現(xiàn)代漢語的分詞方法技術(shù)已較為成熟,而對(duì)古代漢語的分詞處理尚處于探索、驗(yàn)證階段。國內(nèi)學(xué)者對(duì)古文分詞已進(jìn)行的研究有:石民[1]等采用條件隨機(jī)場模型,基于兩個(gè)模板進(jìn)行古文分詞標(biāo)注一體化,使得準(zhǔn)確率和召回率都有所提升。王嘉靈[2]選用條件隨機(jī)場模型,以《漢書》為語料,并選擇了核實(shí)的特征模板,制定了《漢書》分詞規(guī)范,進(jìn)行分詞實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果的F值達(dá)到94.4%。王曉玉等[3]選用中古時(shí)期的語料,選用條件隨機(jī)場和詞典的方法訓(xùn)練分詞模型,解決了人工分詞不一致問題。楊世超等[4]采用帶有古漢語特征的條件隨機(jī)場模型作為特征模型,獲得了較好的分詞效果。

        上述研究都需要大量的人工標(biāo)注,費(fèi)時(shí)費(fèi)力,缺乏通用性,也未能提出一種能快速構(gòu)建古漢語詞庫的有效方法[5]。古典文學(xué)作品中有大量的詞匯已不在現(xiàn)代使用,故也未收錄到現(xiàn)代漢語詞典中,這是造成分詞效果差的主要原因,如果對(duì)古典文學(xué)作品進(jìn)行新詞發(fā)現(xiàn),構(gòu)建古漢語分詞詞典,能有效提高分詞的準(zhǔn)確率。目前,中文新詞發(fā)現(xiàn)的研究主要集中在現(xiàn)代文語料,由于古文在字詞、短語和語法結(jié)構(gòu)方面都與現(xiàn)代文有所不同,所以,現(xiàn)有的現(xiàn)代文語料上的新詞發(fā)現(xiàn)技術(shù)無法直接應(yīng)用于古文語料[6]。文中提出一種基于新詞發(fā)現(xiàn)的古典文學(xué)作品分詞方法。首先,對(duì)古典文學(xué)作品采用N-Gram算法進(jìn)行切分,然后采用互信息和左右信息熵的新詞發(fā)現(xiàn)方法識(shí)別新詞,將新詞發(fā)現(xiàn)識(shí)別出的新詞與原有的基礎(chǔ)詞典相結(jié)合,構(gòu)建出古文分詞詞典,再使用Jieba中文分詞器對(duì)古典文學(xué)作品進(jìn)行分詞,最后通過實(shí)驗(yàn)以檢驗(yàn)分詞的準(zhǔn)確度。

        1 新詞發(fā)現(xiàn)的相關(guān)技術(shù)

        基于規(guī)則的新詞發(fā)現(xiàn)方法、基于統(tǒng)計(jì)的新詞發(fā)現(xiàn)方法和基于統(tǒng)計(jì)與規(guī)則相結(jié)合的新詞發(fā)現(xiàn)方法是現(xiàn)有常用的新詞發(fā)現(xiàn)方法[7]?;谝?guī)則的新詞發(fā)現(xiàn)方法[7-8]是指使用詞語的特性和成詞的原理和語義的特征來構(gòu)建數(shù)學(xué)模型對(duì)文本中的新詞進(jìn)行挖掘。該方法具有較高的準(zhǔn)確性,但具有較差的可擴(kuò)展性、通用性,后期維護(hù)也困難,需要人工構(gòu)建規(guī)則庫,會(huì)消耗大量的人力和物力,無法滿足新詞出現(xiàn)速度快、消亡快的需求?;诮y(tǒng)計(jì)的新詞發(fā)現(xiàn)方法[8-10]是指通過大量的實(shí)驗(yàn)對(duì)文本語料進(jìn)行處理,計(jì)算詞語的詞頻、成詞的概率、左右鄰接熵、鄰接變化數(shù)等統(tǒng)計(jì)特征來識(shí)別新詞。這種新詞發(fā)現(xiàn)方法有較強(qiáng)的普適性,方便擴(kuò)展和移植,不受不同種類文本的限制,但需要對(duì)模型進(jìn)行大量訓(xùn)練,同時(shí)具有準(zhǔn)確率較低的缺點(diǎn)。基于規(guī)則與統(tǒng)計(jì)相結(jié)合的新詞發(fā)現(xiàn)方法是盡量將兩種方法的優(yōu)點(diǎn)相結(jié)合,從而使新詞發(fā)現(xiàn)方法更加準(zhǔn)確也更高效[7]。

        文中先采用N-Gram算法切分古文語料,得出候選詞集,再采用規(guī)則與統(tǒng)計(jì)相結(jié)合的新詞發(fā)現(xiàn)方法,即互信息、左右信息熵的統(tǒng)計(jì)特征與停用詞、過濾首尾停用詞等規(guī)則相結(jié)合,最終實(shí)現(xiàn)新詞發(fā)現(xiàn)。

        1.1 N-Gram算法

        N-Gram是一種基于統(tǒng)計(jì)語言模型的算法,用于切分語料得出候選詞集,方便后續(xù)計(jì)算詞語的內(nèi)部凝固度和自由程度。N-Gram算法的具體思路是:使用大小為N的滑動(dòng)窗口對(duì)文本語料按字節(jié)流進(jìn)行滑動(dòng)操作,形成每個(gè)字節(jié)的片段稱為gram,形成的片段是長度為N的字節(jié)片段序列,提前設(shè)定閾值對(duì)gram按照出現(xiàn)的頻度進(jìn)行過濾,形成關(guān)鍵gram列表,列表中的每一種gram均為一個(gè)特征向量維度[11]。一般情況下,取N=3的情況較多。如果N的取值太大,會(huì)造成等價(jià)類太多,自由參數(shù)過多。

        1.2 互信息

        在信息論相關(guān)領(lǐng)域中,互信息(mutual information)是指兩個(gè)事件集合之間的相關(guān)性,是一種有用的信息度量[12]。互信息度量的是兩個(gè)隨機(jī)變量之間的統(tǒng)計(jì)相關(guān)性,是從隨機(jī)變量整體角度,在平均的意義上觀察問題,因此通常稱之為平均互信息?;バ畔⒈硎緝蓚€(gè)變量或多個(gè)變量之間共享的信息量,互信息越大,變量之間的相關(guān)性越強(qiáng)[13]。在文中,詞語是文章的最小結(jié)構(gòu)形式,可以獨(dú)立存在,詞語中的相鄰的字之間都有一定的關(guān)聯(lián)性。如果詞語中字與字的這種關(guān)聯(lián)性越大,說明可能是詞的可能性也就越大。可以用互信息計(jì)算新詞的內(nèi)部成詞概率,互信息一般可用于表示兩個(gè)事件相互關(guān)聯(lián)的程度,互信息值越大,表示兩個(gè)物體的關(guān)聯(lián)程度也就越大。在詞匯聚類、漢語自動(dòng)分詞、詞義消歧、文本分類和聚類等問題的研究中,互信息也具有重要用途?;バ畔⒂靡韵鹿絹碛?jì)算:

        (1)

        其中,p(m)表示字符m單獨(dú)出現(xiàn)在語料集中的概率;p(n)表示字符n單獨(dú)出現(xiàn)在語料集中的概率;p(m,n)表示字符m和字符n組合起來共同出現(xiàn)在語料集中的概率;PMI(m,n)表示字符m和字符n的相互關(guān)聯(lián)程度。若PMI(m,n)>0,表示字符m和字符n是相互關(guān)聯(lián)的,而且PMI的值越大,表示兩者相互關(guān)聯(lián)的程度越大,也就越有可能成為新詞;若PMI(m,n)=0,則表示字符m和字符n是彼此獨(dú)立的。

        1.3 左右信息熵

        熵是信息論的基本概念。熵又稱為自信息,熵可以作為數(shù)量用來描述一個(gè)隨機(jī)變量的不確定性。若用來描述隨機(jī)變量的熵越大,那這個(gè)隨機(jī)變量的不確定性越大,越不確定的隨機(jī)變量越需要大的信息量用以確定其值,正確估計(jì)其值的可能性就越小。信息的作用是消除人們對(duì)事物的不確定性,信息熵是對(duì)信息的量化度量,信息熵值越大則事物的不確定性也越大,所需要的信息量也就越大。候選新詞的左邊鄰接詞和右邊鄰接詞的不確定性可以用左右信息熵來衡量,其不確定性越大,說明該詞的周邊詞越豐富,其成詞的概率就越高。左信息熵和右信息熵的計(jì)算公式為:

        E(prew)=-sum(p(prew)log2p(prew))

        (2)

        其中,prew是候選詞鄰接字的集合,p(prew)表示候選詞的左右鄰接字的條件概率。

        2 基于新詞發(fā)現(xiàn)的古典文學(xué)作品分詞方法

        對(duì)古典文學(xué)作品進(jìn)行分詞是對(duì)古典文學(xué)作品進(jìn)行研究的基礎(chǔ)?;谠~表的分詞方法和基于統(tǒng)計(jì)的分詞方法是目前古漢語的自動(dòng)分詞任務(wù)常用的方法[14]。基于詞表的分詞方法需要人工標(biāo)注詞匯構(gòu)建古籍文本詞典,通過古籍文本詞典進(jìn)行分詞[5]。這種分詞方法準(zhǔn)確率較高,但要耗費(fèi)大量的人力物力,具有局限性;基于統(tǒng)計(jì)的分詞方法需要訓(xùn)練人工標(biāo)注的分詞語料,使用學(xué)習(xí)模型,從而實(shí)現(xiàn)古籍文本自動(dòng)分詞。以上兩種方法都需要先進(jìn)行人工標(biāo)注訓(xùn)練集,人工標(biāo)注需要較高的專業(yè)知識(shí),而且需要大量時(shí)間,難度和成本都比較高。

        2.1 古典文學(xué)作品分詞方法

        文中首先使用N-gram算法對(duì)古文語料進(jìn)行切分,統(tǒng)計(jì)各個(gè)詞的詞頻,使用詞頻和過濾停用詞等相關(guān)規(guī)則進(jìn)行初步篩選,得到初始詞表;然后用互信息計(jì)算內(nèi)部凝固度來對(duì)詞表進(jìn)行第二次篩選;最后用左右信息熵對(duì)二次篩選后的詞語計(jì)算其自由程度,根據(jù)自由度值進(jìn)行再次篩選,最終確定新詞詞表。將獲得的新詞詞表添加到Jieba中文分詞器中,形成古文分詞詞典,再對(duì)古典文學(xué)作品進(jìn)行分詞。這種方法省去了人工標(biāo)注環(huán)節(jié),可快速構(gòu)建古文分詞詞典。分詞流程如圖1所示。

        2.2 分詞方法的具體實(shí)現(xiàn)

        本研究選用了經(jīng)典的文言文章回小說作為文本語料。著名語言文學(xué)家王力先生在《古代漢語》中指出:“文言是指以先秦口語為基礎(chǔ)而形成的上古漢語書面語言以及后來歷代作家仿古的作品中的語言”[15]。顧名思義,文言文就是用文言寫成的文章,是中國古代的書面語言,沿用了兩三千年,也是現(xiàn)代漢語的源頭[15]。文言文章回小說篇幅長,既有古文的結(jié)構(gòu)和語法特點(diǎn),又有相當(dāng)數(shù)量的詞匯沿用到現(xiàn)代,便于研究人員采用現(xiàn)代文的分詞詞庫作為基礎(chǔ)詞典,在此基礎(chǔ)上進(jìn)行新詞發(fā)現(xiàn)。

        文中選擇了包括《三國演義》、《聊齋志異》、《鏡花緣》、《說唐》等在內(nèi)的68部章回小說文本作為基本語料,經(jīng)統(tǒng)計(jì)有27 960 539個(gè)漢字。

        (1)古文文本預(yù)處理。將文本轉(zhuǎn)換為TXT格式,利用正則表達(dá)式過濾非中文符號(hào)——將古文文本中用于斷句的標(biāo)點(diǎn)符號(hào)、特殊符號(hào)等噪聲數(shù)據(jù)過濾掉,得到預(yù)處理之后的文本語料。

        (2)語料切分。使用N-gram算法對(duì)預(yù)處理過的文本語料從左至右逐字進(jìn)行切分。由于古典文學(xué)作品中有三字詞語,如人名等。設(shè)置N為3,并得到1-gram~3-gram包含詞頻的gram詞表,獲得初始候選新詞結(jié)果。

        (3)計(jì)算候選詞的互信息。先將單字過濾掉,然后對(duì)其余初始候選新詞計(jì)算互信息,若該詞語的互信息大于設(shè)置的閾值,將其保留,生成候選新詞集。

        (4)計(jì)算候選詞的左右信息熵。對(duì)候選詞進(jìn)行左信息熵和右信息熵的統(tǒng)計(jì),將左信息熵和右信息熵相加,得到左右信息熵。設(shè)置左右信息熵的閾值,若該詞的左右信息熵大于設(shè)置的閾值,將其保留,最終得到新詞集。

        算法流程如圖2所示。

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)語料

        文中以文言文章回小說《三國演義》為例,展示使用基于新詞發(fā)現(xiàn)的古典文學(xué)作品分詞方法的分詞結(jié)果,并對(duì)分詞效果進(jìn)行了分析。

        對(duì)整篇《三國演義》文本語料進(jìn)行預(yù)處理后,使用N-Gram算法對(duì)文本進(jìn)行切分,切分部分結(jié)果如圖3所示。

        圖3 N-Gram算法的部分切分結(jié)果

        對(duì)上述切分得到的初始候選新詞計(jì)算互信息,互信息值大于設(shè)置閾值的保留,生成候選新詞集,得到16 081個(gè)候選新詞。

        再利用左右信息熵的算法進(jìn)行篩選,得到最終的新詞集合,獲得3 892個(gè)新詞,部分新詞結(jié)果如圖4所示。

        圖4 新詞發(fā)現(xiàn)的部分結(jié)果

        以《三國演義》第九十八回中的部分語料為例,從中提取了3個(gè)新詞:孔明、蜀兵、魏兵。

        在加入新詞前使用Jieba中文分詞器進(jìn)行分詞結(jié)果為:所憂者/但/魏延/一軍,在/陳倉道/口/拒住/王雙,急/不能/脫身;吾/已/令人/授以/密計(jì),教/斬/王雙,使/魏人/不敢/來/追。蜀/兵/更/不/回頭。雙/拍馬/趕來。背后/魏/兵/叫/曰:“城外/寨中/火/起,恐/中/敵人/奸計(jì)?!焙笕?有/詩/贊曰:“孔明妙/算/勝/孫/龐,耿若長/星/照/一方。進(jìn)退/行/兵/神/莫測(cè),陳倉/道口/斬/王雙?!盵16]

        加入新詞之后,Jieba中文器的分詞結(jié)果為:所憂者/但/魏延/一軍,在/陳倉道/口/拒住/王雙,急/不能/脫身;吾/已/令人/授以/密計(jì),教/斬/王雙,使/魏人/不敢/來/追。蜀兵/更/不/回頭。雙/拍馬/趕來。背后/魏兵/叫/曰:“城外/寨中/火/起,恐/中/敵人/奸計(jì)。”后人/有/詩贊曰:“孔明/妙算/勝/孫龐,耿若長/星/照/一方。進(jìn)退/行/兵/神/莫測(cè),陳倉/道口/斬/王雙。”[16]

        3.2 評(píng)價(jià)指標(biāo)

        文中采用準(zhǔn)確率P(precision)、召回率R(recall)和F值(F-measure)作為評(píng)價(jià)指標(biāo),來檢驗(yàn)利用基于互信息與左右信息熵的新詞方法發(fā)現(xiàn)的實(shí)驗(yàn)結(jié)果,計(jì)算公式如下:

        (3)

        (4)

        (5)

        其中,N表示實(shí)驗(yàn)獲得的新詞的總數(shù);M表示古典文學(xué)作品中本身存在的新詞總數(shù)(M值為經(jīng)古漢語專家人工標(biāo)注的新詞數(shù)量)。

        利用文中方法對(duì)《三國演義》進(jìn)行新詞發(fā)現(xiàn),得到的結(jié)果如表1所示。

        表1 新詞發(fā)現(xiàn)評(píng)價(jià)結(jié)果

        結(jié)合表1和對(duì)比分詞結(jié)果,雖然新詞發(fā)現(xiàn)的準(zhǔn)確率、召回率和F值略低,但通過比較加入新詞前后的兩個(gè)分詞結(jié)果,加入新詞之后分詞的準(zhǔn)確度有明顯提高。

        4 結(jié)束語

        文中采用互信息和左右信息熵的新詞發(fā)現(xiàn)方法對(duì)古典文學(xué)作品挖掘未登入的新詞,利用Jieba中文分詞器結(jié)合新詞詞表,對(duì)古典章回小說進(jìn)行分詞實(shí)驗(yàn),分詞效果得到明顯改善。該方法避免了古漢語文本分詞需要大量人工標(biāo)注的問題,快速構(gòu)建了古漢語分詞詞典,為后續(xù)對(duì)古典文學(xué)作品的深入研究打下了堅(jiān)實(shí)的基礎(chǔ)。該方法的不足之處是新詞發(fā)現(xiàn)的準(zhǔn)確率、召回率、F值都不高,未來還需要進(jìn)一步研究,以提高新詞發(fā)現(xiàn)和分詞的準(zhǔn)確率。

        猜你喜歡
        文本方法
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        學(xué)習(xí)方法
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国产精品久久久久久52avav| 中文字幕日本五十路熟女| 青青青爽在线视频免费播放| 无人区乱码一区二区三区| 激性欧美激情在线| 中文字幕亚洲欧美日韩在线不卡| 国产做床爱无遮挡免费视频| 亚洲97成人精品久久久| 波多野结衣av一区二区全免费观看| 天堂中文在线资源| 人妻精品丝袜一区二区无码AV | 一区二区三区人妻在线| 亚洲国产综合久久天堂| 亚洲va久久久噜噜噜久久男同| 欧美做受视频播放| 亚洲AV无码一区二区三区精神| 日本师生三片在线观看| 国产无遮挡又黄又爽高潮| 女同性黄网aaaaa片| 国产精品久久国产三级国电话系列| 国产一区二区美女主播| 久久久亚洲欧洲日产国码二区| 亚洲av产在线精品亚洲第三站 | 亚洲欧美一区二区三区在线| 亚洲熟妇一区无码| 亚洲天堂一区二区精品| 日本a级片免费网站观看| 婷婷射精av这里只有精品| 欧美极品少妇性运交| 亚洲人成网站在线播放小说| 精品久久中文字幕系列| 欧美性生交活xxxxxdddd| 亚洲av无码第一区二区三区| 国产美女在线一区二区三区| 免费看男女啪啪的视频网站| 亚洲男女内射在线播放| 无码手机线免费观看| 无码高潮久久一级一级喷水| 婷婷色精品一区二区激情| 一本色道无码道dvd在线观看| 男女野外做爰电影免费|