包烏格德勒,鮑薇
(1.中央民族大學,北京100081;2.呼和浩特民族學院,呼和浩特010051)
基于條件隨機場的蒙古文地名識別
包烏格德勒1,2,鮑薇1
(1.中央民族大學,北京100081;2.呼和浩特民族學院,呼和浩特010051)
蒙古文地名識別是命名實體識別的一個子任務,也是蒙古文信息處理的一個基礎任務。實現(xiàn)基于條件隨機場的蒙古文地名識別。首先,分析蒙古文地名構(gòu)成特點和蒙古文地名識別難點,實現(xiàn)基于多種特征的蒙古文地名識別方法。在蒙古文新聞語料庫上進行測試,蒙古文地名識別的召回率和正確率分別達到60.8%和90.8%。
蒙古文;地名識別;條件隨機場
蒙古文信息處理經(jīng)過30多年的研究,取得了一系列豐碩的研究成果,如:大規(guī)模語料庫的建立、國際標準編碼的制定、各種詞典的建設、辦公軟件的開發(fā)等。這些成果為這些成果為內(nèi)蒙古自治區(qū)及全國推廣應用蒙古文信息處理技術創(chuàng)造了良好條件。當前,蒙古文的詞法分析、句法分析、語義分析等研究取得了較好的成績,但是命名實體研究還處于相當薄弱的地位。
所謂的命名實體(Named Entity)主要包括實體(組織名、人名、地名)、時間表達式(時間、時間)、數(shù)字表達式(貨幣值、百分數(shù))等。命名實體識別是對文本進行理解的前提工作,屬于文本信息處理的基礎研究領域,它的研究成果將對后續(xù)的一系列工作產(chǎn)生影響[1]。目前已有的命名實體識別方法可以大致分為基于規(guī)則的方法、基于統(tǒng)計的方法和規(guī)則與統(tǒng)計混合的方法、基于統(tǒng)計的方法。其中典型的方法有隱馬爾可夫模型(HMM),支持向量機(SVM),最大熵(ME),條件隨機場(CRF)等[2]。在中文地名識別方面,何炎祥等人利用基于CRF和規(guī)則相結(jié)合的方法進行識別和修正,F(xiàn)值達到91%[3]。
在蒙古文命名實體識別研究方面,那順烏日圖等利用規(guī)則的方法對蒙古文人名進行了自動識別,在20萬詞語料庫中經(jīng)過測試,召回率達89%,準確率達86%[4]。蘇依拉等運用本體技術構(gòu)建內(nèi)蒙古行政區(qū)劃地名本體,完成了蒙文文檔中地名的識別與標注工作[5]。通拉嘎在26萬詞的語料庫上使用統(tǒng)計的方法對蒙古文人名進行了識別,在封閉集上進行測試,正確率94.56%,召回率85.15%,F(xiàn)值89.61%,取得了較好的結(jié)果[6]。
統(tǒng)計方法中條件隨機場模型方法提供了一個特征使用靈活全局最優(yōu)的標注框架,它解決了標記偏置問題,本文采用該模型對蒙古文新聞語料中的地名進行識別。本文詳細介紹了基于CRF的蒙古文地名識別方法并通過實驗進行驗證。
1.1 蒙古語語法特點
蒙古語屬阿爾泰語系蒙古語族,屬于黏著語。現(xiàn)行的蒙古文有33個字母,其中有7個元音、17個基本輔音和9個借詞輔音,蒙古文單詞由各個字母拼寫而成,每個字母在字首、字中、字尾有不同的變體。蒙古文的詞語可分為“有詞形變化的詞類”和“無詞形變化的詞類”。“有詞形變化的詞類”又可分為“體詞”和“動詞”。體詞包含名詞、形容詞、代詞、數(shù)詞和時位詞等。蒙古文的構(gòu)形附加成分包括數(shù)、格、領屬、級范疇以及數(shù)詞變化形式;動詞的式、態(tài)、體范疇和形動詞、副動詞變化形式。因此蒙古文詞法形態(tài)變化豐富且復雜。
蒙古文單詞由詞干和詞綴組成,其結(jié)構(gòu)為:
蒙古文單詞=詞根+構(gòu)詞詞綴/構(gòu)形詞綴+構(gòu)詞詞綴/構(gòu)形詞綴…
1.2 蒙古文地名構(gòu)成類型
在蒙古文新聞語料中蒙古文地名可分為以下3類:
(1)蒙古語來源地名:地名來自蒙古語,主要表示內(nèi)蒙古地區(qū)地名。
例如:VLAGAN(由一個蒙古文單詞構(gòu)成)、HOHEH0TA(兩個蒙古文單詞構(gòu)成,連寫)、SILVGVN HOBEGETU CAGAN HVSIGV(多個蒙古文單詞構(gòu)成,分寫)等;
(2)漢語來源地名:地名來自漢語,主要表示國內(nèi)地名。
例如:$ANGHAI(兩個漢語單詞組成,連寫)、$I JIYA JVWANG(多個漢語單詞組成,分寫)等;
(3)拉丁語來源地名:地名來自拉丁語,主要表示外國地名。
例如:eUiR0PA、AMeRIKA等。
漢語來源地名和拉丁語來源地名用蒙古文表示時主要采用音譯方式,其中漢語來源地名把漢語拼音轉(zhuǎn)換為拉丁字母表示,有時連寫(省份直轄市名多數(shù)連寫),有時分寫;拉丁語來源地名直接音譯表示,多數(shù)時候是連寫,經(jīng)常包含蒙古文借詞輔音。蒙古文人名也可分為以上三種類型。
1.3 蒙古文地名識別難點
蒙古文地名識別是蒙古文命名實體識別的一個難點,主要表現(xiàn)在:
(1)無大小寫區(qū)分:蒙古文與漢文一樣,不存在首字母大寫的情況;
(2)具有二義性:部分蒙古文地名本身就是一個普通單詞,它的詞類可以是名詞、動詞、形容詞、數(shù)詞等,例如:“JIRUHE”作為普通單詞表示名詞“心臟”,“VLAGAN”作為普通單詞表示形容詞“紅”;
(3)有些地名單詞較多,這對識別工作帶來一定難度,例如:OBOR M0NGG0L-VN OBERTEGEN JASAHV 0R0N(內(nèi)蒙古自治區(qū))。
(4)蒙古與人名與地名在構(gòu)詞規(guī)則上相近,二者易混淆。
條件隨機場模型(Conditional Random Fields)是一種基于統(tǒng)計的無向圖模型,在序列標注和分割方面有著出色的表現(xiàn)。
2.1 條件隨機場介紹
在序列標注任務中,隨機變量X={X1,X2,…,Xn}表示可觀測序列;隨機變量Y={Y1,Y2,…,Yn}表示觀測序列對應的標記序列。在本文中X表示蒙古文新聞語料的文本序列,Y表示該文本序列的標記序列。
在序列標注任務中,我們可以觀測序列整體作為一個單元結(jié)點考慮,每個標記作為一個結(jié)點考慮。
圖1 條件隨機場模型
在序列標注任務中,可以觀測序列整體作為一個單元結(jié)點考慮,每個標記作為一個結(jié)點考慮。由于觀測序列X的復雜性,估計勢函數(shù)Z需要一定的獨立性假設。所以,在己知隨機變量X的情況下,使用條件式:
其中,Zx是只依賴于觀測序列的歸一化函數(shù),其公式為:
公式(2)即為條件隨機場模型。
2.2 特征選擇
本文充分考慮蒙古語語法特點,在單詞特征基礎上添加了詞性特征、常用地名和人名特征、常用地名和人名的前綴后綴特征、構(gòu)詞特征等。
(1)單詞特征
以單詞以及上下文為特征進行識別。
(2)詞性特征
本文遵循了《GBT 26235-2010信息技術信息處理用蒙古文詞語標記》標準的詞語分類體系,確定了名詞(N)、形容詞(A)、動詞(V)、數(shù)詞(M)、量詞(Q)、代詞(R)、時位詞(O)、副詞(D)、情態(tài)詞(H)、模擬詞(U)、后置詞(G)、語氣詞(S)、連接詞(C)、感嘆詞(I)、時間詞(T)等15類基本詞,還使用了字母(E)、附加成分(F)、標點符號(W)、不確定詞(P)等標記單位,未使用復合詞(Y)、固定詞(J)、成語(K)、習用語(X)、縮略語(L)等標記。
所以語料庫中共使用了共19種詞類標記,并且使用的都是第一級標記。
(3)常用地名和人名特征
為了提高識別的準確率建立了蒙古文常用地名詞典,其中包括了內(nèi)蒙古地區(qū)地名、中國常用地名和世界常用國家和地區(qū)地名。為了區(qū)別人名與地名,同時建立了蒙古文常用人名詞典。
(4)常用地名和人名的前綴后綴特征
通過分析新聞語料發(fā)現(xiàn),很多地名的前面和后面會出現(xiàn)一些常用詞,例如:TIB(洲)、VLVS(國)、M0JI(省)、XIAN(縣)等,這些單詞對識別地名有一定的幫助。而人名的前面和后面也會跟一些常用詞,例如:TERIGULEGCI(主席)、YERUNGHEYILEGCI(總統(tǒng))、$UJI(書記)等,這些單詞有助于區(qū)別地名和人名。
(5)構(gòu)詞特征
根據(jù)蒙古文地名構(gòu)成特點,漢語來源地名和拉丁語來源地名有一定的構(gòu)詞規(guī)則,它們都采用拉丁轉(zhuǎn)寫形式。對語料庫中的單詞分為3類進行標記:
①漢語拼音(P):單詞由漢語拼音拉丁轉(zhuǎn)寫形式構(gòu)成;
②借詞(L):單詞包括借詞輔音;
③其他(Y):其他單詞。
2.3 特征模板
在CRF模型的特征中上下文是以當前單詞為中心的一個觀察窗口,窗口的大小會直接影響識別的效果和效率。為了達到最佳的識別效果,本文選擇不同的窗口長度對每個特征進行對比實驗,根據(jù)F值確定窗口的大小。
本文采用的特征模板如下:
①上下文單詞特征w:
w0:當前單詞,w-i:前第i個單詞,wi:后第i個單詞。
②上下文詞性特征p:
p0:當前單詞詞性,p-i:前第i個單詞詞性,pi:后第i個單詞詞性。
③上下文地名人名特征n:
n0:當前單詞是否為常用地名人名,n-i:前第i個單詞是否為常用地名人名,ni:后第i個單詞是否為常用地名人名。
④上下文地名人名前綴/后綴特征s:
s0:當前單詞是否為常用地名人名前綴/后綴單詞,s-i:前第i個單詞是否為常用地名人名前綴/后綴單詞,si:后第i個單詞是否為常用地名人名前綴/后綴單詞。
⑤上下文構(gòu)詞特征f:
f0:當前單詞的構(gòu)詞特征,f-i:前第i個單詞的構(gòu)詞特征,fi:后第i個單詞的構(gòu)詞特征。
⑥組合特征:
上面5個特征進行組合生成的特征模板。
3.1 實驗語料
本文實驗所用語料來自人民網(wǎng)蒙古文版的國內(nèi)新聞和國際新聞兩個板塊,包含350句,其中訓練語料有250句,測試語料100句。對語料庫首先進行了校對、詞性標注、常用地名和人名標注、常用地名和人名前綴/后綴標注和構(gòu)詞標注。
語料中用于地名識別的標注有3個:B(地名開始)、I(地名內(nèi)部)和O(其他)。
3.2 評測指標
實驗評測標準為準確率P、召回率R和F值3種指標:
3.3實驗結(jié)果
(1)上下文單詞特征實驗
表1
(2)上下文詞性特征實驗
表2
(3)組合特征實驗
由以上2個實驗結(jié)果可知,上下文單詞特征窗口長度3時效果最好,上下文詞性特征窗口長度為6時效果最好,實驗1將以上兩個特征模板組合使用,實驗2在實驗1的特征模板中添加常用地名人名前綴/后綴特征,實驗3中添加常用地名人名特征,實驗4中添加構(gòu)詞特征。
3.4 實驗分析
分析實驗結(jié)果可知,單詞特征和詞性特征對蒙古文地名識別貢獻最大,加入常用地名和人名特征、常用地名和人名的前綴后綴特征對提高識別效果有很大幫助,構(gòu)詞特征對提高識別效果貢獻最小。
表3
對測試結(jié)果分析,錯誤主要表現(xiàn)在以下幾點:①對兼類的地名識別效果較差,特別是其左右不出現(xiàn)常用前綴/后綴的情況下;②詞性標注錯誤導致的識別錯誤??梢詮臄U充語料規(guī)模、擴充地名人名詞典、優(yōu)化特征模板、校對詞性標注等入手減少識別錯誤。
本文提出了采用CRF模型對蒙古文新聞語料中的地名進行識別的方法,并采用單詞、詞性、常用地名人名、常用地名人名前綴/后綴、構(gòu)詞等多種特征,準確率和召回率分別達到了60.8%和90.8%。目前的實驗結(jié)果發(fā)現(xiàn)召回率和準確率還有很大提升空間,還有很多問題需要深入研究,如擴充語料、擴充詞典、加入更多的特征等。
[1]李佳正,劉凱,麥熱哈巴·艾力,等.維吾爾語中漢族人名的識別及翻譯[J].中文信息學報,2011,25(4):82-87.
[2]宗成慶.統(tǒng)計自然語言處理[M].北京清華大學出版社,2008.
[3]何炎祥,羅楚威,胡彬堯.基于CRF和規(guī)則相結(jié)合的地理命名實體識別方法[J].計算機應用與軟件,2015,32(1):179-185,202.
[4]那順烏日圖,雪艷,淑琴,等.蒙古文人名自動識別研究[C].全國第七屆計算語言學聯(lián)合學術會議,2003:97-102.
[5]蘇依拉,孫日旺,譚艷梅,等.基于本體標注的蒙文地名識別研究[J].計算機工程與科學,2013,35(8):156-162.
[6]通拉嘎.基于蒙古文語料庫的人名自動識別[D].北京:中央民族大學,2013.
Approach to Recognizing Mongolian Location Names Based on Conditional Random Fields
BAOWugedele1,2,BAOWei1
(1.Minzu University of China,Beijing 100081;2.Hohhot Minzu College,Hohhot 010051)
The recognition ofMongolian location names is one of the subtasks of the named entity recognition,as a basic task ofMongolian information processing.Presents amethod to recognize Mongolian location names based on conditional random fields(CRFs).Firstly,introduces the agglutinative characteristics of Mongolian location names and the difficulties of the recognition of Mongolian location names,presents amethod to recognize Mongolian location names based onmulti-features.Tested on the Mongolian news corpus,the results show that the recall rate can reach 60.8%and the accuracy rate can reach 90.8%.
Mongolian;Location Names Recognition;Conditional Random Fields(CRFs)
2014 年國家語委科研項目(No.YB125-89)
1007-1423(2017)03-0006-05
10.3969/j.issn.1007-1423.2017.03.002
包烏格德勒(1979-),男,內(nèi)蒙古興安盟人,博士研究生,呼和浩特民族學院副教授,研究方向為計算語言學、蒙古文信息處理鮑薇(1990-),女,江蘇徐州人,博士研究生,研究方向為計算語言學
2016-12-07
2017-01-10