于光磊 徐毅 馬明達 俞珍珍 米克然阿依·艾爾肯
(大連民族大學(xué)理學(xué)院,遼寧大連 116600)
基于規(guī)則的維吾爾語命名實體識別研究
于光磊徐毅馬明達俞珍珍米克然阿依·艾爾肯
(大連民族大學(xué)理學(xué)院,遼寧大連116600)
命名實體(Named Entity, NE)是指文本中承載著人名、地名、組織機構(gòu)名等重要信息的詞語。命名實體識別(Named Entity Recognition,NER)是指在正確理解文本意義的基礎(chǔ)上,對文本中的命名實體進行識別,并按照其類型進行歸類。本次主要是基于對維吾爾語中的人名、地名進行研究,通過此次的研究,能夠使更多的人了解到維吾爾語,同時對了解維吾爾族人民的文化也起到積極的作用。維吾爾族語言中的人名、地名等都有相關(guān)的特征詞,通過特征詞能夠迅速而有效的找出文本中的人名、地名等信息,所以此次研究的方法主要依據(jù)基于規(guī)則的方法。
命名實體命名實體識別特征詞
從研究范圍方面來說,早期的命名實體識別研究主要集中在西方國家,以研究英文為主。1995年后學(xué)者開始了對中文、德文、日文等語言的研究。中國在中文命名實體識別研究上取得了較好成績,并且展開了對少數(shù)民族語言如維語、蒙語等語言的命名實體的研究。
本次的研究目的在于通過該軟件對我國少數(shù)名族中的維語能夠起到一個推動的作用,使更多的人能夠了解維語,同時在閱讀維語文章中能夠快速找到該文章的人名,地名,組織機構(gòu)等重要信息,對閱讀者起到一個非常重要的幫助。
2.1系統(tǒng)設(shè)計功能及實現(xiàn)原理
命名實體識別過程中,通過信息檢索,在一篇文章中能夠快速找到有用的信息。此次研究,主要針對數(shù)字,人名,地名等信息,由此,該系統(tǒng)的設(shè)計功能主要分為以下七大模塊:
(1)分詞功能:通過分詞功能,把讀取的文本數(shù)據(jù)進行分詞,方便取詞和查找人名地名時進行詞與詞之間的比對。
(2)數(shù)字識別:通過程序的控制,對數(shù)字進行直接的判斷,從而找出文本信息中出現(xiàn)的數(shù)字以及數(shù)字出現(xiàn)的位置。
(3)人名識別:在維語命名中,人們習(xí)慣把名字命名為具有一定寓意的詞語。因此,在人名中,我們提前建立一個人名數(shù)據(jù)詞庫,通過查找那些具有一定寓意的詞語,把它們總結(jié)起來進行錄入,然后通過分詞功能把文章中的每個詞語進行讀取和比對,再加上句子的語法構(gòu)成結(jié)構(gòu),從而判斷該詞是否屬于人名,如果文章中出現(xiàn)過的人名不在數(shù)據(jù)庫中,那么我們需要手動錄入該詞,使該詞保存到數(shù)據(jù)庫中,以便在下次使用中出現(xiàn)該詞語時會自動識別為人名。
(4)地名識別:地名識別的方法類似于人名的識別方法,不同的是,地名的詞語組成種類比較多,可分為以下四種:①單個詞語組成地名;②由地名首詞語+規(guī)則詞共同組成地名;③由地名首詞語+中間詞+規(guī)則詞共同組成地名;④多個連續(xù)地名組成一個特定地名。
通過程序的判斷,得出該詞屬于哪一種地名構(gòu)成的結(jié)構(gòu),從而得出一個較為完整和準確的地名。
(5)詞語添加:在使用的期間,用戶會發(fā)現(xiàn)有的人名或是地名在數(shù)據(jù)庫中沒有存在,那么為了下次使用時能夠判斷該詞屬于人名或是地名,我們需要手動的進行錄入,因此該軟件系統(tǒng)具有添加信息的功能。
(6)文本讀取:在如此多的文本格式中,需要對多種文本格式的支持,例如.txt,.doc等。
表1 人名識別結(jié)果統(tǒng)計表
表2 地名識別結(jié)果統(tǒng)計表
(7)編輯功能:編輯為文本提供常見的文本編輯功能,例如字號、顏色的設(shè)置、查找、選擇、導(dǎo)入/導(dǎo)出等功能。
2.2系統(tǒng)技術(shù)支持
后臺技術(shù):通過Java語言的控制與判斷,實現(xiàn)對文本的讀取,同時找出文本中的所要的信息,包括數(shù)字、人名、地名等。
前臺技術(shù):通過Java中的Swing組件與AWT組件,完成對前臺可視化的編輯,從而有一個更好的用戶體驗。
數(shù)據(jù)庫技術(shù):MySql數(shù)據(jù)庫是一個小型的,用戶數(shù)量最多、最廣的數(shù)據(jù)庫,因此,此系統(tǒng)通過MySql數(shù)據(jù)庫進行數(shù)據(jù)存儲,同時還能夠方便、快捷的對數(shù)據(jù)進行操作。
對系統(tǒng)的識別性能評估,我們用:準確率(P),召回率(R),綜合指標(F)值3個評測指標,其識別結(jié)果如表1,表2所示。
通過數(shù)據(jù)可以看出,我們這次完成的軟件系統(tǒng)對維語識別的正確率是很高的,但是還有好多的沒有識別出來,原因是數(shù)據(jù)庫中所存儲的人名、地名有限,我們不能完完整整的把所有數(shù)據(jù)都保存在數(shù)據(jù)庫中,只能通過后期的不斷應(yīng)用,不斷的添加數(shù)據(jù),完善自己的數(shù)據(jù)。對于這些問題,我們今后會對其改進,使正確率更高,更能有效地幫助人們在閱讀維語文章中找到有用的信息。
通過此次實驗研究,我們不但完成了軟件系統(tǒng)的功能實現(xiàn),還對維吾爾語的語言特點以及人名、地名構(gòu)成規(guī)則進行了深入研究,總結(jié)出維語人名、地名中的規(guī)則。與此同時,我們還建立了維語人名詞典庫和地名詞典庫,通過詞典庫中的信息,能夠在使用軟件時,快速而有效地找出文本中存在的人名、地名。
[1]劉群.機器翻譯研究新進展[J].當代語言學(xué),2009,02:147-158+190.
[2]鄧尚民,孫玉偉.信息抽取系統(tǒng)的研究現(xiàn)狀[J].現(xiàn)代圖書情報術(shù),2006.
[3]張小衡,王玲玲.中文機構(gòu)名稱的識別與分析[J].中文信息學(xué)報,1997.
[4]Dimitra Farmakiotou, Vangelis Karkaletsis, et al. Rule-based named entity recognition for Greek financial texts[C]//Proc. of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000). 2000: 75-78.