完么扎西 尼瑪扎西
(①青海師范大學(xué)民族師范學(xué)院 青海西寧810008②西藏大學(xué)圖書館和現(xiàn)代教育技術(shù)中心 西藏拉薩850000)
藏語自動分詞中的數(shù)詞識別方法研究
完么扎西①尼瑪扎西②
(①青海師范大學(xué)民族師范學(xué)院 青海西寧810008②西藏大學(xué)圖書館和現(xiàn)代教育技術(shù)中心 西藏拉薩850000)
藏語自動分詞技術(shù)是藏語自然語言處理的基礎(chǔ)。文章通過分析藏語真實(shí)文本中的數(shù)詞分類、數(shù)詞詞形以及數(shù)詞結(jié)構(gòu)等,提出了一種基于規(guī)則的識別方法。文章中的藏語數(shù)詞識別思想為:在自動分詞過程中,通過判斷待切分的詞(wi)和已切分的詞(wi-1)來重新組合。經(jīng)對小學(xué)一至六年級的數(shù)學(xué)藏文版教材及1500個含各類數(shù)詞的句子語料進(jìn)行測試后,數(shù)詞的識別準(zhǔn)確率達(dá)97.7%。
藏語自動分詞;藏語數(shù)詞;藏語數(shù)詞結(jié)構(gòu)
藏語自動分詞技術(shù)是藏語自然語言處理的基礎(chǔ),有著極其廣泛的應(yīng)用,包括藏語語料庫的構(gòu)建、句法分析、機(jī)器翻譯、語音合成、自動分類和搜索引擎等都需要對藏文文本進(jìn)行分詞處理。目前所采用的藏語自動技術(shù)是基于詞典的最大正向(逆向)匹配算法(機(jī)械分詞法)[1],分詞過程中需要頻繁地訪問詞典以獲取詞的信息,詞典的結(jié)構(gòu)和容量在很大程度上影響著分詞效率[2]。藏語真實(shí)文本中存在大量的數(shù)詞,使用很頻繁。藏語數(shù)詞與同一語系的漢語數(shù)詞在表示方法上雖有不少相同的地方,但它已成為一個獨(dú)立的語支,自然有它區(qū)別于其它語支、語族的特點(diǎn)[3]。因此,不能直接套用漢語數(shù)詞識別的方法來識別藏語數(shù)詞,也不可能收集所有藏語數(shù)詞后再用匹配的模式來識別,因?yàn)檫@樣分詞詞典的容量大大增大,造成資源的浪費(fèi)。因此,解決好藏語數(shù)詞識別問題對于提高藏語自動分詞的正確率具有重要意義。
1.1 基數(shù)詞
基數(shù)詞是表示數(shù)量多少的詞,藏語中的基數(shù)詞可以分為單基數(shù)詞、位數(shù)詞、數(shù)字連接詞和復(fù)基數(shù)詞。
1.1.1 單基數(shù)詞
1.1.2 位數(shù)詞
藏語中的位數(shù)詞可以兼單基數(shù)詞,但是位數(shù)詞繿翯(十)之前不用單基數(shù)詞并且位數(shù)詞之后直接可以用單基數(shù)詞,這些與同一語系的漢語位數(shù)詞的用法有很大的區(qū)別。
1.1.3 數(shù)字連接詞
1.1.4 復(fù)基數(shù)詞
藏語中的復(fù)基數(shù)詞是由單基數(shù)詞、位數(shù)詞和數(shù)字連接詞構(gòu)成,表示十以上的數(shù)。由位數(shù)詞等和一至九的單基數(shù)詞構(gòu)成復(fù)基數(shù)詞時,這些位數(shù)詞的前后都可以用一至九的單基數(shù)詞,即等;由位數(shù)詞百)和一至九的單基數(shù)詞構(gòu)成復(fù)基數(shù)詞時,一至九的單基數(shù)詞只能用在該位數(shù)詞之前,不能用在之后。若要用在后面,中間必須要加連詞,即等;由位數(shù)詞等和一至九的單基數(shù)詞構(gòu)成復(fù)基數(shù)詞時,一至九的單基數(shù)詞只能用在該位數(shù)詞之后,不能用在之前,即等。
由單基數(shù)詞、位數(shù)詞和數(shù)字連接詞構(gòu)成復(fù)基數(shù)詞時某些單基數(shù)詞的詞形需要發(fā)生變化,這將在藏語數(shù)詞詞形中詳細(xì)地介紹。
1.2 序數(shù)詞
1.3 總數(shù)詞
1.4 專指數(shù)詞
專指數(shù)詞是表示從多數(shù)中特別指出的第幾個的詞,一般由序數(shù)詞加后接成分或表示,即等。
1.5 倍數(shù)詞
1.6 分?jǐn)?shù)詞
1.7 概數(shù)詞
藏語的數(shù)詞與同一語系的漢語和同一語族的錯拉門巴、納西、載瓦等語言一樣,在使用的過程中,藏語數(shù)詞中的有些基數(shù)詞的詞形會發(fā)生變化[8]。
2.1 單基數(shù)詞詞形變化
2.1.1 單基數(shù)詞+單基數(shù)詞
單基數(shù)詞和單基數(shù)詞構(gòu)成十至二十之內(nèi)的復(fù)基數(shù)詞時,用在單基數(shù)詞和之前的的詞形要變?yōu)?,其余的不變。比如等?/p>
2.1.2 單基數(shù)詞+位數(shù)詞
2.1.3 名詞+單基數(shù)詞
2.1.4 單基數(shù)詞+量詞
2.1.5 單基數(shù)詞+倍數(shù)詞
2.1.6 單基數(shù)詞+概數(shù)詞
2.1.7 單基數(shù)詞“零”的詞形變化
2.2 位數(shù)詞詞形變化
2.3 序數(shù)詞詞形變化
藏語數(shù)詞中的單基數(shù)詞(包括變形的單基數(shù)詞)、數(shù)字連接詞、倍數(shù)詞、概數(shù)詞以及附加成分等一般都錄入在分詞詞典中。因此,本文的研究只涉及復(fù)基數(shù)詞及其他數(shù)詞的識別方法。下面將分析復(fù)基數(shù)詞及其他數(shù)詞的結(jié)構(gòu)。
3.1 復(fù)基數(shù)詞結(jié)構(gòu)
從以上分析可知,復(fù)基數(shù)詞由單基數(shù)詞、位數(shù)詞和數(shù)字連接詞構(gòu)成。若其中的位數(shù)為零,則用“位數(shù)詞+”表示。以下結(jié)構(gòu)中,中括號“[]”中的內(nèi)容可有可無,豎線“|”表示“或”。
3.2 序數(shù)詞結(jié)構(gòu)
3.3 總數(shù)詞結(jié)構(gòu)
3.4 專指數(shù)詞結(jié)構(gòu)
3.5 倍數(shù)詞結(jié)構(gòu)
3.6 分?jǐn)?shù)詞結(jié)構(gòu)
藏語自動分詞的一般過程是:先讀入一段內(nèi)容,然后從段中分句,句中分塊,最后從塊中切詞[9-11],如圖1所示。
圖1 藏語自動分詞過程
圖2 算法流程
5.1 測試數(shù)據(jù)
本文對一至六年級的數(shù)學(xué)藏文版教材及1500個含各類數(shù)詞的句子語料進(jìn)行測試,統(tǒng)計(jì)文中的基數(shù)詞、序數(shù)詞、總數(shù)詞、分?jǐn)?shù)詞、倍數(shù)詞、專指數(shù)詞和概數(shù)詞等出現(xiàn)的次數(shù)并通過識別準(zhǔn)確率的計(jì)算公式:
來計(jì)算數(shù)詞的識別準(zhǔn)確率,其測試結(jié)果如表1所示。
表1 識別準(zhǔn)確率
5.2 測試結(jié)果分析
經(jīng)測試發(fā)現(xiàn),本文提出的組合法基本能夠準(zhǔn)確地識別藏語各類數(shù)詞,平均準(zhǔn)確率達(dá)97.7%,但遇到如下幾種情況時會出現(xiàn)錯誤的識別結(jié)果:
在藏語自動分詞過程中本文提出的藏語數(shù)詞識別方法通過基數(shù)詞的組合很容易形成其他各類數(shù)詞的組合,識別準(zhǔn)確率達(dá)到97.7%。但由于藏語數(shù)詞的特殊結(jié)構(gòu)及存在兼類現(xiàn)象,分詞過程中需要頻繁地判斷,使得整個分詞系統(tǒng)的速度比較慢,并且從測試結(jié)果得知,基于規(guī)則的藏語自動分詞遠(yuǎn)遠(yuǎn)滿足不了藏語自然語言處理的實(shí)際需求。因此,藏語數(shù)詞結(jié)構(gòu)規(guī)則的形式化描述和采用統(tǒng)計(jì)的技術(shù),設(shè)計(jì)一種規(guī)則與統(tǒng)計(jì)相結(jié)合的藏語自動分詞系統(tǒng)是下一步的工作重點(diǎn)。
[1]才智杰.藏文自動分詞中緊縮詞的識別[J].中文信息學(xué)報(bào),2009,23(1):35-37.
[2]姚徐,郭淑妮,李永宏,等.多級索引的藏語分詞詞典設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用,2009,29:178-180.
[3]紫騰嘉,李學(xué)琴,等.藏語的數(shù)量詞[J].西南民族大學(xué)學(xué)報(bào),1999,20:25-29.
[4]扎西加,索南尖措,等.基于藏語信息處理的詞類體系研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,23(1):36-41.
[5]才讓加.藏語語料庫詞語分類體系及標(biāo)記集研究[J].中文信息學(xué)報(bào),2009,23(4):107-112.
[6]華銳桑杰.藏文語法四種機(jī)構(gòu)明晰[M].蘭州:甘肅民族出版社,2008,1:98-150.
[7]吉太加.現(xiàn)代藏文語法通論[M].蘭州:甘肅民族出版社,2000:135-157.
[8]完么扎西,尼瑪扎西,等.藏語自動分詞系統(tǒng)中的幾個關(guān)鍵問題的研究[J].中文信息學(xué)報(bào),2014,28(4):132-139.
[9]陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的藏文自動分詞方案[J].語言文字應(yīng)用,2003(1):75-82.
[10]才智杰,才讓卓瑪.藏文自動分詞系統(tǒng)的設(shè)計(jì)[J].計(jì)算機(jī)工程與科學(xué),2011,33(5):151-154.
[11]劉匯丹,諾明花,趙維納,吳健,賀也平,等.SegT:一個實(shí)用的藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2012,26(1):97-103.
[][]
Identification of Numerals in Tibetan W ord Segmentation
Wanme-Tashi①Nima-tashi②
(①M(fèi)inorities TeachersCollegeofQinghaiTeachersUniversity,Xining 810008,China;②Modern education technology centre TibetUniversity,Lhasa 850000,China)
Tibetan automatic word segmentation is the foundation in the processing of Tibetan natural language. An identificationmethod based on the rulewas proposed by analyzing the numeral classification,numeralword form and numeral structure in the Tibetan true texts.The baseline of thismethod is recombination by judging the word(wi)to be split and the segmented word(wi-1)in the segmentation process.The content ofmathematical textbooks of primary school in Tibetan and 1500 sentenceswith various numeralswere tested and the accuracy rateofnumeral recognition reached up to 97.7%.
Tibetan automaticword segmentation;Tibetan numeral;Tibetan numeralstructure
10.16249/j.cnki.54-1034/c.2015.02.016
TP391.1
A
1005-5738(2015)02-096-09
[責(zé)任編輯:索郎桑姆]
2015-09-08
完么扎西,男,藏族,青海循化人,西藏大學(xué)藏文信息技術(shù)研究中心博士研究生,青海師范大學(xué)民族師范學(xué)院副教授,主要研究方向?yàn)椴匚男畔⑻幚怼?/p>