?
一種基于無監(jiān)督學(xué)習(xí)的交集型歧義處理改進(jìn)方法*
黃鵬1,3,張姝2,陳玉華1,文斌1
(1.云南師范大學(xué) 信息學(xué)院,云南 昆明 650500;2.云南師范大學(xué) 檔案館,云南 昆明 650500;
3.云南師范大學(xué) 民族教育信息化教育部重點實驗室,云南 昆明 650500)
摘要:歧義處理是中文分詞的難點之一,其中交集型歧義占該類問題的主要部分,而無監(jiān)督學(xué)習(xí)可以利用互聯(lián)網(wǎng)上的無標(biāo)注語料庫來處理該問題.文章將比較卡方統(tǒng)計量、t-測試差在歧義處理中的效果,通過對其研究提出一種改善歧義處理性能的方法.實驗結(jié)果表明,所提出的方法能有效進(jìn)行分詞,并提高了交集型歧義消解的性能.
關(guān)鍵詞:分詞;無監(jiān)督學(xué)習(xí);交集型歧義
1引言
分詞是中文文本信息處理的基礎(chǔ),它是將一串漢字切分成詞的過程.而歧義處理是其中的一個難點,其中交集型歧義占該類問題的90%左右[1].近年來,中文分詞算法得到長足發(fā)展,目前基于詞典和統(tǒng)計相結(jié)合的分詞方法以及字詞聯(lián)合解碼[2],能有效提高分詞效率和低頻詞的發(fā)現(xiàn),并能進(jìn)行歧義處理和未登錄詞(Out-Of-Vocabulary,OOV)的識別[3].其中統(tǒng)計方法主要分為有監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法[4],有監(jiān)督學(xué)習(xí)可以從標(biāo)注語料中統(tǒng)計更為準(zhǔn)確的語言模型、詞出現(xiàn)的概率、詞類之間的轉(zhuǎn)移概率、發(fā)射概率等信息,如:N-最短路徑方法[5]、支持向量機(jī)[6]、條件隨機(jī)場[7]、最大間隔馬爾科夫網(wǎng)絡(luò)[8]等,對訓(xùn)練語料來自同領(lǐng)域內(nèi)的切分歧義消解有優(yōu)勢,其分詞效果的F值高達(dá)0.95[9],但嚴(yán)重依賴于有標(biāo)注語料庫.無監(jiān)督學(xué)習(xí)可通過無標(biāo)注語料庫進(jìn)行分詞,但其F值最高僅為0.85[10].
基于這些工作,本文認(rèn)為隨著互聯(lián)網(wǎng)的發(fā)展,可以從網(wǎng)上獲取各個領(lǐng)域大規(guī)模無標(biāo)注語料庫,結(jié)合詞典分詞與改進(jìn)無監(jiān)督學(xué)習(xí)方法,通過大規(guī)模無標(biāo)注語料庫的運用,能有效改善文本分詞中所產(chǎn)生的交集型歧義能力.
2分詞中的歧義問題
2.1歧義類型
歧義是指中文分詞過程中,同一句話可能產(chǎn)生2種及以上的切分方法[11].下面分別定義幾種類型的歧義.
定義1在字段ABC中,AB∈W,并且BC∈W,則ABC稱為交集型歧義字段,其中A、B、C為字串,W為詞表.如“要了解和研究學(xué)生”,可以切分為“要了/解/和/研究/學(xué)生”和“要/了解/和/研究/學(xué)生”.
定義2在字段AB中AB∈W,A∈W,B∈W,則AB稱為組合型歧義字段,其中A、B為字串, W為詞表.如“請把手拿開”,可以切分為“請/把/手/拿開”和“請/把手/拿開”.
2.2交集型歧義識別
雙向最大匹配法可以發(fā)現(xiàn)文本中的交集型歧義,原理是通過正向最大匹配算法(Forward Maximum Matching,F(xiàn)MM)和逆向最大匹配算法(Reverse Maximum Matching,RMM)進(jìn)行分詞[12],通過比較兩種分詞方法所得出的結(jié)果找出交集型歧義.其中正向最大匹配算法基本思想為將文本斷句后,從左向右按詞典中的最大長度漢字取出字段,通過比較詞典中的詞,如能匹配則切分出來,如不能匹配則減去最末尾一個字,再重新匹配,直到最后一個字.逆向最大匹配法和正向最大匹配法類似,只是方向不同.
2.3卡方統(tǒng)計量
卡方統(tǒng)計量主要用來計算兩個字的向關(guān)聯(lián)度,能夠有效地解決歧義問題,提高文本分詞效果[13].其公式如下
(1)
其中,c1和c2分別代表連續(xù)的兩個字;A代表語料中c1、c2出現(xiàn)的次數(shù);B代表語料中第1個字為c1但第2個字不為c2的次數(shù);C代表語料中第1個字不為c1但第2個字為c2的次數(shù);D代表語料中第1個字不為c1且第2個字不為c2的次數(shù);N代表語料中所有二元組的個數(shù),即N=A+B+C+D.如果兩個字的卡方統(tǒng)計值比較大,則說明這兩個字傾向于連接,如果兩個字的卡方統(tǒng)計值較小,則說明這兩個字不經(jīng)常在一起出現(xiàn),傾向于分離.
2.4卡方統(tǒng)計量歸一化
在運用卡方統(tǒng)計量比較兩字關(guān)聯(lián)程度時,其值離散化較大,不方便比較,需要進(jìn)一步歸一化將卡方統(tǒng)計量歸一化到0到100以內(nèi),歸一化公式如下
(2)
通過對民族文化樣本庫中的文本處理,按照卡方統(tǒng)計量進(jìn)行處理存在并不能完全準(zhǔn)確的情況,如處理字符串“以極大地滿足佤族群眾”,發(fā)現(xiàn)“極大”存在歧義,其卡方統(tǒng)計量為0.101936,如按卡方統(tǒng)計值過小來處理,則“極大”應(yīng)該斷開,但在文中應(yīng)該連接.
2.5t-測試
針對卡方統(tǒng)計量只比較兩字之間的相關(guān)度,沒有比較字與上下文中其他字的相關(guān)度,而t-測試[14]可以解決相關(guān)問題.對有序字串xyz,漢字y相對于x及z的t-測試定義為:
(3)
其中,p(x|y)、p(z|y)分別是y關(guān)于x和z關(guān)于y的條件概率,σ2(p(y|x))、σ2(p(z|y))是各自的方差.從t-測試的定義可知:(1)如果tx,z(y)>0,則y與z有相連趨勢,值越大,趨勢越強(qiáng);(2)如果tx,z(y)<0,則y與x有相連趨勢,值越大,趨勢越強(qiáng);(3)如果tx,z(y)=0,則無任何傾向.
2.6t-測試差
針對t-測試不方便統(tǒng)計兩字之間的傾向度,本文采用t-測試差來進(jìn)行兩字間傾向度比較.
定義3對漢字串wxyz,漢字x、y之間的t-測試差定義為:
Δt(x:y)=tw,y(x)-tx,z(y)
(4)
其中,Δt(x:y)有如下兩種情況:(1)如有Δt(x:y)>0,則x,y則傾向于為詞;(2)如Δt(x:y)<0,則x、y之間傾向于獨立.
通過對民族文化樣本庫中的文本處理,按照t-測試差進(jìn)行處理存在并不能完全準(zhǔn)確的情況.如處理“地區(qū)性別比例不合理”字符串,發(fā)現(xiàn)歧義字段“例不”,其t-測試差為18.922889,按t-測試差方法進(jìn)行處理應(yīng)該連接成詞,但在文中正確處理應(yīng)該斷開.
2.7聯(lián)合卡方統(tǒng)計量和t-測試差
通過研究卡方統(tǒng)計量和t-測試差發(fā)現(xiàn),結(jié)合卡方統(tǒng)計量兩字的相關(guān)度和t-測試差上下文關(guān)聯(lián)度的優(yōu)點,提出了以組合的方式將卡方統(tǒng)計量和t-測試差值進(jìn)行合并,提高交集型歧義處理能力,其聯(lián)合公式如下
dc(x,y)=α×chi(x,y)*+β×Δt(x,y)+C
(5)
其中α、β為卡方統(tǒng)計量和t-測試差的權(quán)重值,C為線性疊加值.如果dc(x,y)>0則判斷為x、y傾向于連;如果dc(x,y)<0則判斷x、y傾向于斷.總體算法流程如圖1所示.

圖1 總體算法流程圖
3實驗結(jié)果及分析
以民族文化類文本構(gòu)建語料庫,該語料庫都爬取自互聯(lián)網(wǎng)上的真實語料信息,民族文化類別包括法律、教育、地理、歷史、軍事、文化、藝術(shù)等,語料庫規(guī)模大小為7M.實驗使用詞典方法進(jìn)行粗分,選用MM進(jìn)行分詞,通過FMM和RMM發(fā)現(xiàn)歧義.然后使用卡方統(tǒng)計量和t-測試差以單獨和組合的方式對交集型歧義進(jìn)行處理.詞典收錄了中文常用詞匯,其詞匯量達(dá)20萬條.
通過實驗發(fā)現(xiàn)α的值為10、β值為1/16、C為-3時,歧義處理效果好,其結(jié)果如表1所示.

表1 樣本中的卡方統(tǒng)計量和t-測試差聯(lián)合值
根據(jù)實驗結(jié)果可知,“上呈”、“例不”和“與其”的聯(lián)合值為負(fù)應(yīng)該斷開,切分正確;“形成”和“極大”的值為正應(yīng)該連接,切分正確.故以上結(jié)果表明通過聯(lián)合值能夠有效彌補(bǔ)卡方統(tǒng)計量和t-測試差的不足,提升交集型歧義處理效果.
運用卡方統(tǒng)計量和t-測試差等方法進(jìn)行歧義消解后得到樣本正確率等方面數(shù)據(jù),其結(jié)果如表2所示.

表2 樣本分詞效果
其中F值是綜合召回率和正確率的評估指標(biāo):F值=正確率×召回率×2/(正確率+召回率).實驗結(jié)果表明該方法能夠有效地提高歧義處理的效果,在召回率、正確率和F值方面比前3種分詞方法都有提升.
4結(jié)束語
本文比較卡方統(tǒng)計量、t-測試差在歧義處理中的效果,通過對其研究提出一種改善歧義處理性能的方法.實驗結(jié)果表明,提出的方法能有效進(jìn)行分詞,并提高了交集型歧義消解的性能.下一步將研究云計算環(huán)境下大規(guī)模語料庫的處理問題.
參考文獻(xiàn):
[1]劉健,張維明.一種快速的交集型歧義檢測方法[J].計算機(jī)應(yīng)用研究,2008,25(11):3259-3261.
[2]宋彥,蔡東風(fēng),張桂平,等.一種基于字詞聯(lián)合解碼的中文分詞方法[J].軟件學(xué)報,2009,20(9):2366-2375.
[3]韓冬煦,常寶寶.中文分詞模型的領(lǐng)域適應(yīng)性方法[J].計算機(jī)學(xué)報,2015,38(2):272-281.
[4]HUANG C N,ZHAO H.Chinese word segmentation:A decade review[J].Journal of Chinese Information Processing,2007,21(3):8-19.
[5]張華平,劉群.基于N-最短路徑方法的中文詞語粗分模型[J].中文信息學(xué)報,2002,16(5):1-7.
[6]BRERETON R G,LLOYD G R.Support vector machines for classification and regression.[J].Analyst,2010,135(2):230-267.
[7]LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields: probabilistic models for segmenting and labeling sequence data[C].Proc International Conference on Machine Learning,Williamstown,USA,2001.
[8]QIAO W,SUN M.Joint Chinese word segmentation and named entity recognition based on max-margin Markov networks[J].Journal of Tsinghua University,2010,50(5):758-757.
[9]孫茂松,肖明,鄒嘉彥.基于無指導(dǎo)學(xué)習(xí)策略的無詞表條件下的漢語自動分詞[J].計算機(jī)學(xué)報,2004,27(6):736-742.
[10]姜芳,李國和,岳翔,等.基于粗分和詞性標(biāo)注的中文分詞方法[J].計算機(jī)工程與應(yīng)用,2015,51(6):204-207.
[11]翟鳳文,赫楓齡,左萬利.基于統(tǒng)計規(guī)則的交集型歧義處理方法[J].吉林大學(xué)學(xué)報:理學(xué)版,2006,44(2):223-228.
[12]修馳.適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實現(xiàn)[D].北京:北京工業(yè)大學(xué),2013.
[13]CHANG B,HAN D.Enhancing domain portability of Chinese segmentation model using chi-square statistics and bootstrapping[C].Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing Association for Computational Linguistics,Massachusetts,USA,2010.
[14]曹衛(wèi)峰.中文分詞關(guān)鍵技術(shù)研究[D].南京:南京理工大學(xué),2009.
An Improved Method of Crossing Ambiguities
Based on Unsupervised Learning
HUANG Peng1,3, ZHANG Shu2, CHEN Yu-hua1, WEN Bin1
(1.School of Information,Yunnan Normal University,Kunming 650500,China;
2.Archives of Yunnan Normal University,Kunming 650500,China;3.Key Laboratory of Educational
Informatization for Nationalities of the Ministry of Education,Yunnan Normal University,Kunming 650500,China)
Abstract:Processing of ambiguities is the key problem in the automatic segmentation of Chinese words.The solution of crossing ambiguities is still an open issue in this problem,and unsupervised learning can make use of the in POS-untagged corpora from internet to deal with the problem.In this article, we compare the chi-square statistic,t-test results in the ambiguity processing. Based on analysis of them,some modified methods to further improve its capacity were proposed.The experimental results show that the proposed method can effectively segment Chinese words and improve the performance of crossing ambiguity processing.
Keywords:Word segmentation; Unsupervised learning; Crossing ambiguities
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
文章編號:1007-9793(2015)06-0045-05
通信作者:張姝.
作者簡介:黃鵬(1990-),男,湖南汨羅人,碩士研究生,主要從事知識工程方面研究.
基金項目:國家自然科學(xué)基金資助項目(61262071);云南省應(yīng)用基礎(chǔ)研究計劃青年資助項目(2013FD015).
收稿日期:*2015-09-13