熊明明, 劉艷超,郭劍毅,2, 余正濤,2,周蘭江,2,陳秀琴
(1. 昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3. 昆明理工大學(xué) 國際教育學(xué)院,云南 昆明 650093)
基于最大熵模型的越南語交叉歧義消解
熊明明1, 劉艷超1,郭劍毅1,2, 余正濤1,2,周蘭江1,2,陳秀琴3
(1. 昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3. 昆明理工大學(xué) 國際教育學(xué)院,云南 昆明 650093)
越南語中存在大量的交叉歧義片段。為了解決交叉歧義給分詞、詞性標(biāo)注、實(shí)體識別和機(jī)器翻譯等帶來的影響,該文選取統(tǒng)計(jì)特征、上下文特征和歧義字段內(nèi)部特征,嘗試性地構(gòu)建最大熵模型,對越南語的交叉歧義進(jìn)行消解。該文通過三種方法整理出包含174 646詞條的越南語詞典,然后通過正向和逆向最大匹配方法從25 981條人工標(biāo)注好的越南語分詞句子中抽取5 377條歧義字段,分別測試了三類特征對歧義模型的貢獻(xiàn)程度,并對歧義字段做五折交叉驗(yàn)證實(shí)驗(yàn),準(zhǔn)確率達(dá)到了87.86%。同時,與CRFs進(jìn)行對比實(shí)驗(yàn),結(jié)果表明該方法能更有效消解越南語交叉歧義。
交叉歧義;歧義消解;最大熵模型;越南語詞典;CRFs
Abstract: To deal with the rich cross ambiguities in Vietnamese, this paper adopts the Maximum Entropy approach using the selected statistical features, contextual features and internal features of the ambiguity segments. It constructs a Vietnamese dictionary of 174 646 entries, which brings about 5 377 segments of cross ambiguities among 25 981 Vietnamese sentences with golden labels. A 5-fold cross validation experiment shows that the accuracy of the proposed method canachieve 87.86% which out performs the CRFs.
Key words: cross ambiguity; disambiguation; maximum entropy model; Vietnamese dictionary; CRFs
收稿日期: 2015-10-25 定稿日期: 2016-03-18
基金項(xiàng)目: 國家自然科學(xué)基金(61262041,61472168);云南省自然科學(xué)基金(2013FA030)
切分歧義在自然語言處理過程中扮演著很重要的角色,比如分詞、詞性標(biāo)注、實(shí)體識別、機(jī)器翻譯和信息抽取等。據(jù)統(tǒng)計(jì),越南語中包含很多歧義字段,而歧義字段如何正確切分對越南語詞法分析來說是一個挑戰(zhàn),直接影響后續(xù)環(huán)節(jié),比如越南語分詞、詞性標(biāo)注等任務(wù)。因此,越南語歧義切分在越南語自然語言處理中是一個很重要的任務(wù)。
所謂切分歧義就是對某個歧義片段進(jìn)行正確的分詞。在越南語中主要有兩種歧義類型: 交叉歧義和組合歧義[1]。由于交叉歧義遠(yuǎn)遠(yuǎn)多于組合歧義,且組合歧義的處理難度較大,因此本文只討論交叉歧義問題。交叉歧義是指當(dāng)前詞素跟前面的詞素結(jié)合或者跟后面的詞素結(jié)合都能成詞從而引起的歧義。
交叉歧義的消解方法,在對漢語的研究中目前大致可分為以下幾類: (1)基于規(guī)則的方法[2]; (2)基于字符分類的方法[3]; (3)基于統(tǒng)計(jì)的方法[4]。文獻(xiàn)[2]中,鐘寧等人通過關(guān)聯(lián)規(guī)則對交叉歧義進(jìn)行切分,這種方法只能處理有限的語言現(xiàn)象,取得了一定的效果,但不具備通用性;李蓉等人[3]通過SVM和k-NN相結(jié)合的方法,將歧義片段的切分看成是一個分類問題,取得了一定的效果;文獻(xiàn)[4]中梁妍采用了詞概率統(tǒng)計(jì)方法對歧義字段進(jìn)行切分,取得了一定的成效。
然而,到目前為止,針對越南語的消歧工作才剛剛起步,還沒有供學(xué)術(shù)研究的資源可用,所以有必要對越南語的消歧問題進(jìn)行研究。Dinh[5]嘗試從英語的句法分析樹和英語—越南語平行語料庫入手,去構(gòu)建可供訓(xùn)練的歧義語料,但該文獻(xiàn)主要是標(biāo)記英語文本,忽略了越南語特點(diǎn),并且主要是把這種歧義消解用到了英語—越南語的機(jī)器翻譯方面;Nguyuen和 Shirai[6]考慮了越南語的特點(diǎn),并將其融入SVM模型,但它只考慮了越南語詞的多義性分類。
如上所述,交叉歧義的消解方法較多,對越南語而言,其不像英語有形態(tài)和語態(tài)形式,它是一種孤立語言,缺乏形態(tài)變化,和中文有一定的相似之處,所以,本文借鑒中文消歧方法,結(jié)合越南語特點(diǎn),選取統(tǒng)計(jì)特征、歧義字段上下文特征和歧義字段內(nèi)部特征,對越南語歧義片段進(jìn)行準(zhǔn)確的切分。另外,由于選取的特征較多,而最大熵模型建模時,只需集中精力選擇特征,而不需要花費(fèi)精力考慮如何使用這些特征,是一個成熟的統(tǒng)計(jì)模型,已經(jīng)在很多領(lǐng)域得到運(yùn)用[7-8],并取得了較好的效果。因此,本文嘗試采用最大熵模型對越南語交叉歧義字段進(jìn)行建模。
2.1 歧義消解的困難與挑戰(zhàn) 越南語有其獨(dú)特的語言特點(diǎn)。越 南 語 中,詞 素是最小的語言學(xué)單位,一個越南語詞可以由一個或者多個詞素構(gòu)成。由于越南語中有的詞素單獨(dú)有多個含義,如越南語詞素“bien”有“大?!薄罢信啤焙汀昂艽笠蝗喝恕比齻€意思,而且與不同的詞素結(jié)合又會有不同的意思,所以在確定詞邊界時會出現(xiàn)歧義現(xiàn)象。如何正確地切分越南語歧義字段是一個挑戰(zhàn)。
2.2 交叉歧義字段定義
有兩種類型的歧義出現(xiàn)在越南語中,一種是組合歧義,另一種是交叉歧義。分別定義如下。
定義1 若存在越南語字符串“A B”(A和B包含一個或者一個以上音節(jié)),如果A、B分別可以單獨(dú)成詞,且A和B合起來也可以成詞,這種情況稱為組合歧義。如: “Bàn là mt cng cu hoc tp.(桌子是一個學(xué)習(xí)工具。)” 音節(jié)“Bàn”是“桌子”的意思,“l(fā)à”是“是”的意思,而“Bàn là”又是“鐵”的意思。這種歧義很難處理,但是越南語中這種歧義遠(yuǎn)遠(yuǎn)少于交叉歧義[9],因此本文只專注于討論交叉歧義的消解。
2.3 交叉歧義形態(tài)
交叉歧義的消解主要有兩種情況: 如果存在歧義字段“A B C”,則“A /B C”和“A B/ C”是它的兩種切分結(jié)果。由于分量A、B和C中所含的詞素的個數(shù)不確定,導(dǎo)致其表現(xiàn)形式可能有多種,如表1所示。
表1 交叉歧義形態(tài)示例
續(xù)表
由于歧義字段的音節(jié)個數(shù)不同,導(dǎo)致其表現(xiàn)形式具有多樣性。抽取5 377個歧義片段中的形態(tài)進(jìn)行統(tǒng)計(jì),結(jié)果如表2所示。
表2 各個形態(tài)特征所占比例
從表2可以看出,表現(xiàn)形式為111、112、211和121的形態(tài)特征總和占到總數(shù)的98.16%,所以本文只考慮前四種形式的歧義,也就是音節(jié)個數(shù)為3和4的歧義片段。
2.4 交叉歧義字段獲取
有實(shí)驗(yàn)結(jié)果表明,單純使用正向最大匹配方法的錯誤率為0.59%,而逆向最大匹配方法的錯誤率為0.40%[10]。因此,本文采用正向和逆向最大匹配相結(jié)合的方法抽取越南語交叉歧義片段。為了有效的獲取歧義片段,越南語詞典的完整性是關(guān)鍵的一步。本文使用的詞典通過三種方式獲取并整合: 第一種方式是前期實(shí)驗(yàn)室同學(xué)從《新越漢詞典》掃描整理得到的詞典,包含131 071條詞;第二種方式是從越南語網(wǎng)站vdict.com中抽取,然后經(jīng)過人工方式校對和去重方式獲得30 565條詞;第三種是從維基百科中抽取,結(jié)果包含13 010條實(shí)體。三個來源共同組成了包含174 646條詞的詞典作為本文抽取交叉歧義字段的詞典。交叉歧義字段抽取流程如圖1所示。
圖1 交叉歧義字段抽取流程圖
歧義字段抽取的算法如下:
算法 Algorithm Description for getVnAmbiguity
輸入: 越南語句子D(D={ S1,S2,S3,…,Sn})
輸出: 交叉歧義片段
第一步: 詞典匹配分詞。分別使用正向和逆向最大匹配方法對越南語句子D進(jìn)行分詞,然后將分詞結(jié)果分別存到數(shù)組A和B中。
第二步: 判斷數(shù)組長度。判斷數(shù)組A和數(shù)組B的長度,如果兩數(shù)組長度不相等,則輸入下一條句子,執(zhí)行第一步;如果相等,則執(zhí)行第三步;
第三步: 判斷數(shù)組元素。判斷數(shù)組A和數(shù)組B對應(yīng)元素是否相同,如果相同,則輸入下一條句子執(zhí)行第一步;如果不同,則執(zhí)行第四步;
第四步: 抽取歧義片段。如果數(shù)組A和數(shù)組B第i和i+1處的對應(yīng)元素不相同,且與i+2處對應(yīng)元素相同,則取出數(shù)組A或數(shù)組B中的i和i+1處的元素為歧義片段,拼接后保存到List集合中。
3.1 最大熵理論 在基于特征向量的機(jī)器學(xué)習(xí)算法中,首先需要構(gòu)建特征向量形式的訓(xùn)練數(shù)據(jù)格式,然后使用各種機(jī)器學(xué)習(xí)算法來學(xué)習(xí),比如支持向量機(jī)、最大熵等。本文選用最大熵分類器來得到歧義字段的正確切分。
最大熵模型是最大熵分類器的理論基礎(chǔ),該模型的基本思想就是為所有已知的因素構(gòu)建模型,并把未知的因素排除在外。它的一個最顯著的特點(diǎn)就是不要求特征之間相互獨(dú)立,可以相對任意地加入對最終分類有用的特征,而不用管它們之間的相互影響;同時,最大熵模型訓(xùn)練的效率相對較高?;谧畲箪啬P偷膬?yōu)點(diǎn),本文采用最大熵分類器作為解決越南語歧義字段切分的二元分類工具。
在確定一個歧義字段的切分過程中,會涉及各種各樣的因素,假設(shè)x就是一個由這些因素構(gòu)成的向量,變量y的值為1(是一種切分方式)或者0(另外一種切分方式)。p(y|x)是指系統(tǒng)對某個歧義字段采用哪種切分方式的概率。這個概率可以用上述思想來估計(jì)。最大熵模型要求p(y|x)在滿足一定約束的條件下,必須使得下面定義的熵取得最大值,如式(1)所示。
(1)
這里的約束條件實(shí)際上就是指所有已知的切分方式,如式(2)所示。
(2)
稱fi(x,y)為最大熵模型的特征。n為所有特征的總數(shù)??梢钥吹竭@些特征描述了向量x與變量y之間的聯(lián)系。
最終概率輸出為:
(3)
其中λi是每個向量的權(quán)重,且z(x)的表達(dá)式如式(4)所示。
(4)
3.2 特征選取
雖然最大熵模型的特征選擇靈活,但是也要保證選擇的特征能夠反映不同類別之間的差異。在特征選擇中,我們著重考慮統(tǒng)計(jì)特征、交叉歧義字段的上下文特征和交叉歧義字段內(nèi)部特征作為本文研究的重點(diǎn)。
3.2.1 統(tǒng)計(jì)特征
如果用XYZ來表示交叉歧義片段,則考慮以下四類統(tǒng)計(jì)信息: (1)X的獨(dú)立成詞概率是否大于Z; (2)X與Y成詞概率是否大于Y與Z; (3)X作為詞首的概率是否大于Z作為詞尾的概率; (4)Y作為詞尾的概率是否大于Y作為詞首的概率。以上可以分別作為最大熵模型統(tǒng)計(jì)特征,分別定義如下:
以上的概率統(tǒng)計(jì)是在已經(jīng)人工標(biāo)注好的25 981條越南語分詞句子中進(jìn)行統(tǒng)計(jì)計(jì)算的。
3.2.2 交叉歧義的上下文特征
3.2.3 交叉歧義字段內(nèi)部特征
表3 交叉歧義特征選取示例
續(xù)表
最大熵模型的訓(xùn)練文件的格式如圖2所示。
圖2 交叉歧義模型的訓(xùn)練文件
圖2的訓(xùn)練文件中列與列之間用制表符“ ”分開。設(shè)歧義字段為“ABC”,第一列中的1,表示切分方式“A/BC”,0表示切分方式為: “AB/C”。第二列是歧義字段,第三列到最后一列分別表示表3中的三類特征。
5.1 實(shí)驗(yàn)語料的選取 本文采用的主要語料是通過在越南新聞網(wǎng)站收集的越南語句子作為訓(xùn)練語料和測試語料,收集的網(wǎng)頁經(jīng)過規(guī)則提取、去重、機(jī)器標(biāo)注和人工校對等步驟形成文本語料庫,其規(guī)模為25 981條句子。人工標(biāo)注分詞的句子有25 981條。通過詞典的正向和逆向最大匹配方式獲取歧義字段5 377條,包含174 646詞條的越南語詞典。所有語料的編碼方式均采用UTF-8。
5.2 實(shí)驗(yàn)設(shè)計(jì)
目前,還沒有關(guān)于越南語交叉歧義切分的文章,所以實(shí)驗(yàn)沒法和其他方法進(jìn)行比較,所有實(shí)驗(yàn)都是在本實(shí)驗(yàn)室自行獲取的語料上進(jìn)行。本文通過三組實(shí)驗(yàn)對本文提出的消解模型進(jìn)行了驗(yàn)證。
實(shí)驗(yàn)1 用選取的統(tǒng)計(jì)特征、歧義字段上下文特征和歧義字段內(nèi)部特征分別實(shí)驗(yàn),然后用評價標(biāo)準(zhǔn)評價各個特征的貢獻(xiàn)程度;
實(shí)驗(yàn)2 把抽取的5 377條越南語交叉歧義片段,均分成五份,做五折交叉驗(yàn)證實(shí)驗(yàn),用平均準(zhǔn)確率評價消解模型;
實(shí)驗(yàn)3 采用CRFs訓(xùn)練模型,并與最大熵訓(xùn)練模型進(jìn)行對比實(shí)驗(yàn)。
5.3 實(shí)驗(yàn)測評標(biāo)準(zhǔn)
實(shí)驗(yàn)采用準(zhǔn)確率作為對歧義模型的測評標(biāo)準(zhǔn),準(zhǔn)確率為正確的消歧結(jié)果。定義如式(9)所示。
(9)
其中,Nr為測試語料中切分正確的歧義片段的個數(shù),Nc為測試語料中的歧義片段總數(shù)。
5.4 各個特征貢獻(xiàn)度實(shí)驗(yàn)
為了弄清楚三類特征對歧義模型的貢獻(xiàn)度,我們將統(tǒng)計(jì)特征、上下文特征和內(nèi)部特征分別作為獨(dú)立特征構(gòu)建最大熵模型,各個特征的貢獻(xiàn)度通過準(zhǔn)確率進(jìn)行比較,如表4所示。
表4 三類特征的貢獻(xiàn)度
從表4可以看出,獨(dú)立使用統(tǒng)計(jì)特征構(gòu)建歧義模型時的準(zhǔn)確率為69.67%,比獨(dú)立使用上下文特征高出4.13%,比獨(dú)立使用內(nèi)部特征高出13.30%。由此可見,4類統(tǒng)計(jì)信息對歧義的正確切分有巨大影響,然后是上下文特征,最后是內(nèi)部特征。
5.5 五倍交叉驗(yàn)證實(shí)驗(yàn)
為了評估歧義模型的效果,我們將5 377條歧義字段分為五份,其中一份做測試語料,另外四份作為訓(xùn)練語料,做五折交叉驗(yàn)證實(shí)驗(yàn),然后求平均準(zhǔn)確率,作為歧義模型的測評結(jié)果。實(shí)驗(yàn)結(jié)果如表5所示。
表5 五倍交叉驗(yàn)證實(shí)驗(yàn)結(jié)果
從表5中可以看出,實(shí)驗(yàn)2的準(zhǔn)確率達(dá)到了89.39%,為局部最高。對五折交叉驗(yàn)證的實(shí)驗(yàn)結(jié)果求平均,得到歧義模型的準(zhǔn)確率為87.86%。
5.6 模型對比實(shí)驗(yàn)
為了進(jìn)一步評估歧義模型的效果,我們同時也用CRFs分別對歧義片段構(gòu)建切分模型,用平均準(zhǔn)確率與最大熵模型進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表6所示。
表6 模型對比實(shí)驗(yàn)結(jié)果
從表6中可以看出,通過最大熵訓(xùn)練得到的切分模型的平均準(zhǔn)確率比CRFs高4.32%??梢姳疚哪P湍P驮谇蟹制缌x的消解問題上比CRFs的效果好。
本文通過正向和逆向最大匹配方法從人工標(biāo)注的25 981條越南語分詞句子中,抽取了5 377條越南語交叉歧義字段。對歧義字段的形態(tài)特征進(jìn)行了總結(jié)和統(tǒng)計(jì),其中由三個和四個詞素構(gòu)成的歧義片段占總歧義片段的98.16%。因此,本文針對包含三個和四個詞素的歧義片段進(jìn)行實(shí)驗(yàn)。為了對歧義片段構(gòu)建歧義模型,本文考慮了統(tǒng)計(jì)特征、歧義字段內(nèi)部特征和歧義字段的上下文特征三個特征將其融入最大熵模型中,從而得到歧義消解模型。為了保證得到效果的準(zhǔn)確性,我們把實(shí)驗(yàn)數(shù)據(jù)均分為五份,進(jìn)行五折交叉驗(yàn)證實(shí)驗(yàn),平均準(zhǔn)確率達(dá)到了87.86%。與CRFs實(shí)驗(yàn)對比也表明了本文方法的有效性。同時,本文還考察了各個特征對模型的貢獻(xiàn)度,通過實(shí)驗(yàn)發(fā)現(xiàn),統(tǒng)計(jì)特征對歧義模型的貢獻(xiàn)度最大。下一步工作準(zhǔn)備抽取更多的歧義片段,同時考慮其他有效特征,進(jìn)一步實(shí)驗(yàn)。
[1] Phuong, L H, Huyen,N T M, Azim,R,et al. A hybrid approach to word segmentation of Vietnamese texts[C]//Proceedings of the 2nd International Conference on Language and Automata Theory and Applications,Tarragona,Spain. Springer LNCS 5196, 2008: p240-249.
[2] 鐘寧,袁鼑榮.基于關(guān)聯(lián)規(guī)則的交集型歧義消解算法[J].鄭州大學(xué)學(xué)報(理學(xué)版), 2010,42(1): 66-69.
[3] 李蓉,劉少輝,葉世偉,等.基于SVM和k-NN結(jié)合的漢語交集型歧義切分方法[J]. 中文信息學(xué)報,2001,15(6): 13-18.
[4] 梁妍.基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的中文詞法分析研究[D].南開大學(xué)博士學(xué)位論文,2009.
[5] Dinh. Building a training corpus for word sense disambiguation in English-to-Vietnamese machine translation[C]//Proceedings of the COLING-02 on Machine Translation in Asia Morristown,NJ,USA, Association for Computational Linguistics,2002: 1-7.
[6] Minh Hai Nguyuen,Kiyoaki Shirai.Study on supervied learning of Vietnamese word sense disambiguation classifier[J].Journal of Natural Language Processing,2012,19(1): 25-50.
[7] 于洪志,李亞超,冷本扎西,等. 融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J].中文信息學(xué)報,2013,27(5): 160-165.
[8] 何鐘豪,史曉東,黃研洲,等. 引入集成學(xué)習(xí)的最大熵短語調(diào)序模型[J].中文信息學(xué)報,2014,28(1): 87-93.
[9] H P Le,T M H Nguyen,A Roussanaly T V. A Hybrid Approach to Word Segmentation of Vietnamese Text[C]//Proceeding of 2nd LATA.
[10] 翟鳳文,赫楓齡,左萬利.字典與統(tǒng)計(jì)相結(jié)合的中文分詞方法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2006.27(9): 1766-1771.
熊明明(1987—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。
E-mail: 504609184@qq.com
劉艷超(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與信息抽取。
E-mail: 898559856@qq.com
郭劍毅(1964—),通信作者,教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、信息抽取、機(jī)器學(xué)習(xí)等。
Email: gjade86@hotmail.com
Vietnamese Cross Ambiguity Resolution Based on Maximum Entropy Model
XIONG Mingming1, LIU Yanchao1, GUO Jianyi1,2, YU Zhengtao1,2, ZHOU Lanjiang1,2, CHEN Xiuqin3
(1. School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunnan 650500,China;2. The Key Laboratory of Intelligent Information Processing,Kunming University of Science and Technology, Kunming, Yunnan 650500,China;3. School of International Education,Kunming University of Science and Technology, Kunming, Yunnan 650093,China)
1003-0077(2017)04-0063-07
TP301
A