麥合甫熱提,米日姑·肉孜,麥熱哈巴·艾力,吐爾根·依布拉音+
(1.新疆大學 教務處,新疆 烏魯木齊830046;2.新疆大學 多語種信息技術重點實驗室,新疆烏魯木齊830046;3.新疆大學 信息科學與工程學院,新疆 烏魯木齊830046)
維吾爾語中機構名的構建比較復雜,機構名又包括人名、地名,所以維吾爾語中機構名的自動識別還包括人名和地名的識別,表明機構名識別的難度。在中文機構名識別領域中,研究者進行了一系列的研究并取得了不錯的成果,但還需要繼續(xù)探討和研究。維吾爾文機構名識別又是一個新的挑戰(zhàn),由于語義、語法上與漢語、英語等語言不同,維吾爾文機構名識別存在很大的難度。
目前為止所采用的命名實體識別方法也可以分為3個主要類別:基于規(guī)則 (rule-based)的方法[1](文獻 [1]把機構名分為簡單型機構名和復合型機構名,分別建立模板進行識別。);基于統(tǒng)計(statistic-based)的方法[2](如:最大熵 (ME)[3]、支持向量機 (SVM)[4]、條件隨機場(CRF)[5]等)以及基于規(guī)則和統(tǒng)計相結合[6]的方法。
維吾爾語的命名實體識別具有獨特的語法和語義特性,英語和漢語中廣泛使用的算法和模型不能直接套用。另一方面,由于目前尚沒有較大規(guī)模的人工標注語料庫,基于統(tǒng)計模型的命名實體識別研究仍然難以開展。我們針對機構名識別任務,立足于維吾爾語命名實體識別的研究現(xiàn)狀,設計了基于維吾爾語語法和語義知識的機構名識別系統(tǒng)。通過研究維吾爾語機構名的構成規(guī)律,我們設計了有效地識別規(guī)則和相應的知識庫,包括特征詞庫、修飾詞庫和地名庫;依據(jù)這些識別規(guī)則和知識庫,系統(tǒng)采用基于關鍵詞匹配和狀態(tài)轉移原理的識別算法,快速準確地識別出候選機構名實體。
為驗證機構名識別系統(tǒng)的有效性,我們從天山網(wǎng)新聞數(shù)據(jù)中選取有代表性的數(shù)百個實例構建了機構名識別的測試集。實驗結果顯示,我們的機構名識別系統(tǒng)具有很高地處理速度和識別精度,取得了F值83.05%的好成績。在下一步的工作中,我們將繼續(xù)深入進行維吾爾語機構名以及其他命名實體的識別研究,特別是嘗試采用無監(jiān)督和半監(jiān)督等先進的統(tǒng)計學習技術,以及統(tǒng)計技術和語法語義知識相結合的改進技術。我們希望通過本工作起到拋磚引玉的作用,推動學術界對維吾爾語命名實體識別的研究進展。
維吾爾語是典型的黏著性語言,是阿爾泰語系突厥語族成員之一,其詞的形態(tài)及句子結構與漢語、英語等具有很大不同的特點?,F(xiàn)行維吾爾文有8個元音字母,24個輔音字母,并且有120 多個字符形式。書寫方向是從右到左,行向從上到下。每個字母按出現(xiàn)在詞首、詞中、詞末的位置有2到8種書寫形式。構詞和構形附加成分很豐富,句子中的單詞一般由詞干與多個 (可以是0 個)后綴結合。詞干后面綴接附加成分的時候,按維吾爾語語音和諧規(guī)律有些語音會發(fā)生弱化、脫落、增音等現(xiàn)象[7]。比如:對機構名特征詞mektep (學校)而言,mektep+im (第一人稱單數(shù))=mektipim (我的學校)這里發(fā)生了語音弱化現(xiàn)象,也就是說mektep當中的最后一個元音字母e弱化成了i,這些現(xiàn)象加大機構名特征詞識別的難度。
機構名識別工作的另一個困難在于機構名包含了人名、地名,同時存在大量的未登錄詞[8],因此機構名識別本身部分涵蓋了人名識別、地名識別等工作,使得機構名識別工作比識別未登錄的人名、地名還復雜。
本文分析了大量語料中機構名的組成特點,我們總結了維吾爾語中機構名識別的特點和難點總結如下:
(1)維吾爾文機構名組成方式復雜,且含有大量的其他命名實體。在這些命名實體中,地名所占的比例最大。如:Dora Zawuti(西安制藥廠)中Shi’an(西安)是地名;Til Terbiylesh Merkizi(艾力西爾語言培訓中心)中Elishir是人名等。被嵌套在機構命中的實體名能否準確識別出,會影響組織機構名的識別效果。
(2)機構名的長度極其不固定,長度從2個詞到十幾個詞的情況都存在。如:Shinjang Universiteti(新疆大學)是由兩個詞構成的機構名;Zhongguo Komunistik yashlar ittipaqi Xinjang Uyghur Aptonom rayunluq zmin bayliqi nazariti(國共產(chǎn)主義青年團新疆維吾爾自治區(qū)國土資源廳)的長度達到了11個詞。很顯然這種情況會導致機構名邊界的確定[9,10]。
(3)機構名存在嵌套的情況,即機構名中包含另一機構名,這種復合機構名在實際語料中出現(xiàn)的較多。例如:Shinjang Uyghur Aptonom rayunluq qatnash nazariti tashyol qurulush süpitini nazaret qilish idarisi(新疆維吾爾自治區(qū)交通運輸廳公路工程質量監(jiān)督局)中虛下劃線和實下劃線標出的是2個獨立的機構名,構成了一個完整的機構名。
(4)有些機構名習慣用簡稱,簡稱一般是由其全稱中每個詞的第一個字母構成。如:BDT(全程是:Birleshken Dletler Teshkilati)(聯(lián)合國)等。機構名簡稱的出現(xiàn),使得機構名識別更加困難。
(5)機構名用詞非常廣泛,除了名詞,還包含形容詞、副詞、數(shù)詞等。特別是表示軍隊、醫(yī)院、學校類的機構名中,序數(shù)詞占有相當大的比例。如: “Shinjang Tibbi univrsitti qarmiqidiki 2-Doxturxana”(新疆醫(yī)科大學第二附屬醫(yī)院)。
根據(jù)以上維吾爾文機構名的結構特點,并分析了大量的機構名后發(fā)現(xiàn),機構名的結構特點可歸納為表示機構名的特征詞以及特征詞前的修飾詞,于是我們將維吾爾文機構名形式化描述為:w1+w2+…+wn+s,其中s表示機構名特征詞,w 表示特征修飾詞,n≥1。一般機構名由一個或一個以上機構名修飾詞 (如:tibbi(醫(yī)學)、pidagogika(師范)、lktiron (電子))加上機構名特征詞(如“universitti”(大學),“guruhi”(集團),“zawuti”(廠),“etriti”(隊))等組成。前者是后者的修飾語,而后者則是前者的中心語。
另外,機構名特征詞作為名詞可接的后綴 (維吾爾語名詞構形后綴達到40多個)。對維吾爾文語料進行分析后發(fā)現(xiàn),機構名中特征詞后面出現(xiàn)的后綴也有一定的規(guī)律存在,特征詞后面可能會出現(xiàn)的后綴總結見表1。若特征詞后面出現(xiàn)這些后綴,則可視為機構名邊界,從而進行修飾詞的識別。例如,“Biz bille Shinjang universitetigha barduq.”(我們一起去了新疆大學),“biz mushu universitetning oqughuchilir.”(我們是這個大學的學生)當中,第一個句子存在高校名稱 “xinjang universiteti”(新疆大學)而第二個句子雖然有特征詞,但不是一個高校名稱。
維吾爾文機構名中承擔中心語的特征詞為數(shù)也不是很多,例如 “univrsitti”(大學),“idarisi”(局),“bankisi”(銀行)等。如果這些特征詞后有表1中后綴出現(xiàn),則仍將它視為特征詞。我們對語料中出現(xiàn)的機構名進行分析后,總結出機構名中各成分的出現(xiàn)特征為如下幾種:
(1)地名+特征詞。如:“Shinjang univrsitti”(新疆大學)中,Shinjang (新疆)是地名。
(2)人名+特征詞。如: “Amine xirkiti” (阿米娜公司)中amine(阿米娜)是人名。
(3)學科及專業(yè)名+特征詞。如:“l(fā)iktiron pen-texnika univrsitti” (電子科技大學)中 liktiron pen-texnika(電子科技)是學科及專業(yè)名。
(4)地名+學科及專業(yè)名+特征詞。如: “Zhongguo siyasi qanun univrsitti”(中國政法大學)。
(5)人名+研究、生產(chǎn)、經(jīng)營等的對象+特征詞。如:“Arman soda cheklik xirkiti”(阿爾曼實業(yè)有限公司)。
(6)方位詞+特征詞。如: “Sherqiy shimal univrsitti”(東北大學)中sherqiy,shimal都是方位詞。
(7)專造名詞+特征詞。如: “Chinghua univrsitti”(清華大學)中Chinghua(清華)是專造詞。
(8)有不少機構名包含民族名稱,比如: “Shinjang uyghur aptonom rayunluq sayahet idarisi”,“Ili qazaq aptonom oblastliq ormanchiliq idarisi”等,其中uyghur,qazaq是民族名稱。
2.2.1 知識庫的設計
為了正確地識別機構名,需要準備相關的知識庫。本文使用新疆維吾爾自治區(qū)廣播電臺的新聞語料 (20.6 M),手工標注出了11500個真是機構名。怎樣組織并保存機構名是我們值得考慮的問題之一。合理地構建知識庫不僅關系到識別效率,也影響系統(tǒng)的空間復雜度和時間復雜度。經(jīng)過觀察和分析得到,一個機構名的生成可以看出是地名/人名、修飾詞及特征詞的動態(tài)組合,如圖1所示。
圖1 機構名組合示例
根據(jù)上述示例圖易得,對于一個機構名可將其各組成部分分開存貯,不僅可以避免創(chuàng)建龐大的機構名庫,而且其擴展性高,只要加一個關鍵詞,如地名,即可識別所有可能相關的機構名。于是,本文提出建立以下3個知識庫:
(1)特征詞庫:機構名特征詞指的是機構名末尾具有一定象征意義的詞,如 “univrsitti(大學),idarisi(局),bankisi(銀行)”。建立特征詞庫是將它作為觸發(fā)條件,得到機構名左邊界。
(2)修飾詞庫:修飾詞是指一個機構名中除特征詞和地名之外的其余詞。比如:Shinjang ilim-pen uchuri inistitoti(新疆科信學院)當中的ilim-pen和uchur是修飾詞。我們總共收集了3574個機構名修飾詞,并建立了機構名修飾詞庫。
(3)地名/人名庫:由于大多數(shù)機構由地名開頭,我們也建立了地名庫。這對維吾爾文機構名右邊界的識別起很大的作用。建立的地名庫總共包含4517個地名,里面有國外的和國內(nèi)的地名。其中,疆內(nèi)的地名占的比例最高。另外,還增加了常見人名576個。
2.2.2 整體架構
我們根據(jù)維吾爾文機構名的組織結構特點,設計并構建了機構名的識別規(guī)則和相應的知識庫。依據(jù)這些識別規(guī)則和知識庫,我們設計了基于關鍵詞匹配和狀態(tài)轉移原理的識別算法,能夠快速準確地識別出機構名實體。
機構名稱識別系統(tǒng)的整體結構如圖2所示。
圖2 機構名識別系統(tǒng)結構
2.2.3 基于詞匹配的識別流程
系統(tǒng)中識別引擎的識別流程如圖3 所示,其識別步驟如下:
步驟1 讀語料;
步驟2 若語料為空,則結束;否則取當前詞;
步驟3 找到機構名特征詞,獲取候選機構名位置;
步驟4 以機構名特征詞作為觸發(fā)點,向前開始匹配;
步驟5 判斷當前詞是否為修飾詞,若匹配成功,則保存,并去下一個詞,再轉到步驟5;否則,轉到步驟6;
步驟6 若當前詞為地名/人名,認為是機構名,標記并輸出,轉到步驟2;若不是,則轉到步驟2。
圖3 機構名匹配過程流程
用一實例說明系統(tǒng)的識別過程:Shinjang Pidagogika univrsitti(新疆師范大學)的識別過程是,首先在特征詞庫里進行匹配 (如:univrisitti)如果找到了就從特征詞往右 (維吾爾語是從右往左寫)進行前部詞匹配 (跟修飾詞庫和地名庫進行匹配,如果有就不斷地進行匹配等到?jīng)]有匹配為止);再往前進行地名匹配 (從地名庫進行匹配,如:Shinjang)匹配成功后標記為機構名。
最近,在維吾爾文信息處理方面進行了一些有關專有名的研究與分析,但是在機構名這一部分的研究相對少,在本論文中,通過研究與分析,并進行實驗,討論在論文中提到的有關規(guī)則在維吾爾文機構名識別中的研究及分析中的作用。
在測試中采用自然語言處理中使用最廣泛的3個性能評測指標,即準確率P、召回率R 和F值,定義如下
其中,β是準確率P 和召回率R 之間的權衡因子。β取為1,因此方程簡成
為了評估基于語法語義知識的維吾爾文機構名識別系統(tǒng)的識別效果,我們下載天山網(wǎng)的新聞,隨機抽取了178篇文章 (提取包含機構名的616個句子,總共有727 個機構名)進行測試。
系統(tǒng)識別出來的有648 個,其中正確識別出的有571個。正確率:88.11%,召回率:78.54%,F(xiàn)值:83.05%。
測試程序界面如圖4所示。
圖4 測試程序界面
通過實驗結果我們可以看出大多數(shù)機構名都被正確的識別出來了,但是由于知識庫包含的內(nèi)容不完備,造成識別不完整,漏識別等現(xiàn)象。因為基于知識庫的機構名識別方法中系統(tǒng)依賴于特征詞庫,修飾詞庫和地名庫的完備程度,3個庫中任意一個不完備,都可能導致識別錯誤和遺漏的情況。下面舉2個例子,如:besh aliy mektep(五所高校)、ottura bashlanghuch mektep (中小學)不是機構名,但是由于它們包含的單詞在特征詞庫和修飾詞庫里面存在,系統(tǒng)把它們錯誤的識別為機構名。另外算法的缺陷導致誤識別,比如:erkin yza igilik univrsittida oquydu.(艾爾肯在農(nóng)業(yè)大學上學)當系統(tǒng)識別這一句時,把erkin yza igilik univrsitti錯誤的識別為機構名。其中erkin (艾爾肯)是人名,但這個詞有另外一個意思 (自由),有第二種意思時,能當修飾詞,比如機構名:erkin dimikuratlar partiyisi“自由民主黨”。這種有歧義的人名也會導致系統(tǒng)的識別錯誤。要是剛才的句子改成erkin Shinjang univrsittida oquydu.(阿里木在新疆農(nóng)業(yè)大學上學。)的話,其識別結果是正確的。因為erkin后面有一個機構名首位邊界詞 (地名)Shinjang (新疆),沒有必要判斷前面一個單詞,這樣就避免了識別錯誤。只要能夠盡可能地完善這些知識庫,就能進一步提高系統(tǒng)的識別效率。
本文根據(jù)維吾爾語的語法和語義特性設計出有效地識別規(guī)則和相應的知識庫 (這些規(guī)則不僅能夠在維吾爾語文機構名識別中應用到,也可以在其它的命名實體識別,如:人名、地名等),并設計了基于狀態(tài)轉移原理的高效的識別算法。實驗結果表明,我們的機構名識別系統(tǒng)具有較高地處理速度和精度。在今后的工作中我們打算用統(tǒng)計的方法和規(guī)則的方法相結合,改進我們的識別系統(tǒng)并提高識別效率。
[1]LI Jun,WANG Ding,WANG Xin.Chinese organization name recognition based on template matching [J].Information Technology,2008(6):97-99(in Chinese).[李軍,王丁,王鑫.基于模板匹配的中文機構名識別[J].信息技術,2008(6):97-99.]
[2]XIA Yun,LI Zhishu.Chinese organization automatic recognition based on statistical method [J].Journal of Sichuan University (Natural Science Edition),2009,46 (3):613-617 (in Chinese).[夏赟,李志蜀.基于統(tǒng)計的中文機構名自動識別[J].四川大學學報(自然科學版),2009,46 (3) :613-617.]
[3]Bender O,Och FJ,Ney H.Maximum entropy models for named entity recognition [C]//Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL,2003:148-151.
[4]CHEN Xiao,LIU Hui,CHEN Yuquan.Chinese organization names recognition based on SVM [J].Application Research of Computers,2008,25 (2):362-364 (in Chinese). [陳霄,劉慧,陳玉泉.基于支持向量機方法的中文組織機構名的識別[J].計算機應用研究,2008,25 (2):362-364.]
[5]HUANG Degen,LI Zezhong,WAN Ru.Chinese organization name recognition using cascaded model based on SVM and CRF[J].Journal of Dalian University of Technology,2010,50(5):782-787 (in Chinese).[黃德根,李澤中,萬如基于SVM 和CRF的雙層模型中文機構名識別 [J].大連理工大學學報,2010,50 (5):782-787.]
[6]YAN Ping.Research on the identifiction for chinese named entity based on combination of rules and statistic analysis [J].Computer & Digital Engineering,2011,39 (9):88-91 (in Chinese).[閆萍.基于規(guī)則和概率統(tǒng)計相結合的中文命名實體識別研究[J].計算機與數(shù)字工程,2011,39 (9):88-91.]
[7]Mairehaba·Aili,JIANG Wenbin,Tuergen·Yibulayin.Lemmatization of Uyghur inflectional words[J].Journal of Chinese Information Processing,2012,26 (1):91-96 (in Chinese).[麥熱哈巴·艾力,姜文斌,吐爾根·依布拉音.維吾爾語詞法中音變現(xiàn)象的自動還原模型 [J].中文信息學報,2012,26(1):91-96.]
[8]ZHOU Lei,ZHU Qiaoming.Research on recognition method of unknown chinese words based on statistic and regulation [J].Computer Engineering,2007,33 (8):196-198 (in Chinese).[周蕾,朱巧明.基于統(tǒng)計和規(guī)則的未登錄詞識別方法研究[J].計算機工程,2007,33 (8):196-198.]
[9]SHEN Jiayi,LI Fang,XU Feiyu,et al.Recognition of Chinese organization mames and abbreviations [J].Journal of Chinese Information Processing,2007,21 (6):17-21 (in Chinese).[沈嘉懿,李芳,徐飛玉,等.中文組織機構名稱與簡稱的識別[J].中文信息學報,2007,21 (6):17-21.]
[10]ZHOU Junsheng,DAI Xinyu,YIN Cunyan,et al.Automatic recognition of Chinese organization name based on cascaded conditional random fields[J].Acta Electronica Sinica,2006,34 (5):804-809 (in Chinese).[周俊生,戴新宇,尹存燕,等.基于層疊條件隨機場模型的中文機構名自動識別 [J].電子學報,2006,34 (5):804-809.]
[11]Dimitra F,Vangelis K,John K,et al.Rule-based named entity recognition for greek financial texts[C]//Proceedings of the International Conference on Computational Lexicography and Multimedia Dictionaries,2000:75-78.
[12]HU Wanting,YANG Yan,YIN Hongfeng,et al.Organization name recognition based on word frequency statistics[J].Application Research of Computers,2013,30 (7):2014-2016 (in Chinese).[胡萬亭,楊燕,尹紅風,等.一種基于詞頻統(tǒng)計的組織機構名識別方法 [J].計算機應用研究,2013,30 (7):2014-2016.]
[13]FENG Jinghua,Guma·Altenbek,Mayra·Hapar.Kazakh organization name recognition based on N-gram model[J].Computer Engineering and Applications,2010,46 (31):135-138 (in Chinese).[馮鯨華,古麗拉·阿東別克,瑪依來·哈帕爾.基于N-gram 語言模型的哈薩克文機構名識別[J].計算機工程與應用,2010,46 (31):135-138.]
[14]Kurex·Mahmutjan·Raisi.Modern Uyghur language[M].Xinjiang:Xinjiang People’s Publishing House(in Uyghur),2003(in Chinese).[庫熱西· 買合木提江·熱義思.現(xiàn)代維吾爾語[M].新疆:新疆人民出版社(維吾爾文),2003.]