高定國,扎西加,趙棟材
(1. 西藏大學(xué) 藏文信息技術(shù)研究中心,西藏 拉薩 850000;2. 西藏大學(xué) 工學(xué)院計(jì)算機(jī)科學(xué)系, 西藏 拉薩 850000)
近年來,隨著藏文信息處理技術(shù)的發(fā)展,藏語的信息處理已經(jīng)在字處理方面取得了很好的成績,現(xiàn)進(jìn)入到了語句研究的階段,語句處理的前提是對藏語詞的處理。藏語中的實(shí)詞由于其意義的實(shí)在以及在藏語的語義句法結(jié)構(gòu)中的重要地位,受到了藏文信息處理學(xué)者們的普遍重視,也取得了一定的成績,但面向信息處理的虛詞研究還有待于加強(qiáng)。虛詞自身雖然用法靈活,但虛詞與虛詞、虛詞與實(shí)詞的搭配常常構(gòu)成比較穩(wěn)定的語義塊標(biāo)記[1]。因此,從藏語的虛詞入手,根據(jù)虛詞的搭配及其在形成藏語語義塊結(jié)構(gòu)中的標(biāo)記作用來分析藏語語句的句法結(jié)構(gòu),并據(jù)此進(jìn)行藏語語句的語義塊自動切分等研究,對藏文句子研究有很重要的作用。
藏語虛詞在藏語文檔中出現(xiàn)的頻度很高,虛詞搭配規(guī)則形式化分析的可行性則由藏語虛詞自身的特點(diǎn)決定: 虛詞是封閉集合,其中的各個(gè)詞匯是可以一一枚舉的[2];虛詞盡管用法靈活,但它們是語言中性質(zhì)比較穩(wěn)定,不易產(chǎn)生變化的部分;虛詞與其他詞匯構(gòu)成的搭配是確定的,也是可以枚舉的[3]。虛詞搭配的可枚舉性、穩(wěn)定性和確定性等特點(diǎn),使得虛詞搭配關(guān)系的形式化規(guī)則特別有利于被擅長搜索和匹配的計(jì)算機(jī)所直接利用,從而對計(jì)算機(jī)句法分析提供簡單、高效和健壯的句法規(guī)則。
現(xiàn)代藏語虛詞搭配規(guī)則形式化分析研究以及由此派生的藏語語義塊自動切分技術(shù)的研究應(yīng)用于新一代Internet搜索引擎、藏語問答系統(tǒng)、自動抽取、自動語義塊切分、機(jī)器翻譯、自然語言理解、人工智能等多個(gè)領(lǐng)域。藏文虛詞的研究是藏文信息處理技術(shù)中詞、句及語義研究的基礎(chǔ)和前提,為進(jìn)一步研究藏語短語、藏語句法分析等提供依據(jù),也為開展藏文文法及語義的研究工作奠定基礎(chǔ),而計(jì)算機(jī)自動識別藏文虛詞又是藏語虛詞研究的前提。
藏語的詞匯可以分為實(shí)詞和虛詞兩大類。實(shí)詞是名詞、動詞、形容詞等具有實(shí)在意義的詞匯,能夠在藏語語句中充當(dāng)主要成分。虛詞是格助詞、關(guān)聯(lián)詞等沒有實(shí)在意義的、不能作為語句的主要成分,不能單獨(dú)用來回答問題[4]。與實(shí)詞相比,虛詞本身的意義雖然不夠“實(shí)在”,但是它能夠配合實(shí)詞表達(dá)出確切的語義,是將實(shí)詞連接起來構(gòu)成藏語語句表達(dá)確切語義的“粘合劑”。研究現(xiàn)代藏語語句的計(jì)算機(jī)句法分析,就不能不對這類具有將實(shí)詞組織起來形成一定句法結(jié)構(gòu)的功能性詞匯加以重點(diǎn)研究。藏語語句的構(gòu)成具有其他語言所不具備的特色: 一個(gè)藏語語句是由實(shí)詞經(jīng)過虛詞的再編碼從而有規(guī)則地進(jìn)入句法結(jié)構(gòu)而形成的語義塊序列[5]。按照這一思想,藏語語句的構(gòu)成過程可以大致描述如下: 首先由實(shí)詞和結(jié)構(gòu)助詞形成語義比較集中的語義塊,再由虛詞將這些語義塊按照一定的順序構(gòu)成語義塊序列。因此,虛詞是藏語語句結(jié)構(gòu)的有機(jī)組成部分,并且在藏文句子中藏語虛詞的出現(xiàn)頻率又很高,所以,虛詞對藏語句子的研究很重要。
藏語虛詞的研究,歷來受到語言學(xué)研究者的重視。但是,這些研究的目的主要是幫助人們更好地理解藏語,面向的是人而不是計(jì)算機(jī)。因此,這些語法書籍常常以將虛詞的用法分門別類舉例說明的方式編排,對于采用計(jì)算機(jī)的藏語語言處理來說,必須首先將這些語言學(xué)知識進(jìn)行形式化的處理,才能應(yīng)用于計(jì)算機(jī)自動句法分析。
顧名思義,自由虛詞的使用就不受前后字符的添接限制。理論上,在使用自由虛詞時(shí),可選擇與格相符的任何一個(gè)自由虛詞都可以,但實(shí)際使用時(shí),也受語言習(xí)慣等限制。有些格的虛詞中自由與不自由兼而有之,例如,作格、位格、飾集詞等。使用時(shí)按照該虛詞本身是自由還是不自由來確定該虛詞的使用情況。
藏文虛詞有兼類性、組合性、黏著變體性、結(jié)合性等特點(diǎn),這些特點(diǎn)加大了計(jì)算機(jī)識別藏語虛詞的難度。
1. 虛詞的兼類性。有些虛詞與實(shí)詞兼類,它既是虛詞又是實(shí)詞。例如,(虛詞后面括號中的中文就是該虛詞作為實(shí)詞時(shí)的意義)(隊(duì))、(病)、(坡)、(山羊)、(青稞)、(宿命)、(懂)、(臉)、(母)、(吻)、(尸體)、(年)、(齒)、(天)、(人)等; 部分虛詞與虛詞也兼類,例如,等。甚至有些虛詞兼多種類,例如:是實(shí)詞“煙”,又是位格的虛詞,還兼疑問代詞“多少”。藏語虛詞的兼類性增加了計(jì)算機(jī)識別虛詞的難度。
懂藏文的人在閱讀一句話時(shí),主要通過語義來確定虛詞的,但計(jì)算機(jī)不能像人一樣從語義來判斷,要理解語義的前提還是先分詞。藏文分詞算法基本上采用“規(guī)則+特征”的方法,首先通過虛詞把句子劃分成“塊”,再對“塊”用“最大匹配”算法來切分成詞[8],計(jì)算機(jī)識別藏文虛詞非常重要,按照藏文虛詞的使用方法和計(jì)算機(jī)識別藏文虛詞的難點(diǎn)分析,制定了首先排除虛詞的兼類性、再利用不自由虛詞的接續(xù)規(guī)則來判斷虛詞、再識別和還原黏著虛詞、最后結(jié)合中嵌否定詞和指人后綴的方法來識別藏文虛詞。藏文文本中識別虛詞和文本劃“塊”的過程如圖1所示。
圖1 藏文文本中識別虛詞和文本劃“塊”的過程
不自由虛詞的使用受到前后字符的限制,充分利用該特點(diǎn)建立一個(gè)虛詞詞典,格式如: {虛詞前導(dǎo)字符后接字符}。在藏文連續(xù)文本中找到這類虛詞時(shí),利用其“前導(dǎo)字符”和“后接字符”,即不自由虛詞的接續(xù)規(guī)則來識別這類虛詞。
按照藏語虛詞的黏著變體性特點(diǎn),分了三種情況來識別虛詞的黏著性。
if(“整塊與詞典匹配”成功)
該“塊”就是一個(gè)詞;
else{
if( “塊”與詞典匹配成功)
else{
if(“新塊”與詞典匹配成功)
分離黏著虛詞;
還原“被黏著”對象;
還原黏著虛詞;
else
“塊”中去掉最后一個(gè)藏文音節(jié);
}
else
“塊”中去掉最后一個(gè)藏文音節(jié);
}
}
“塊”中被劃出了詞和虛詞以后,剩下的部分又組成新的塊,調(diào)用同樣的算法來進(jìn)一步劃分詞和識別虛詞。
綜合考慮文獻(xiàn)的年代、類別、體裁、地域、風(fēng)格等,從經(jīng)典作品中選擇了2 525句。根據(jù)以上提到的“藏語虛詞的識別方法”,設(shè)計(jì)出了相應(yīng)的藏文虛詞的識別程序,識別藏文虛詞的同時(shí)進(jìn)行了藏文分詞。對結(jié)果進(jìn)行分析,2 525句藏文句子中有45 685個(gè)藏文音節(jié),其中包括10 126個(gè)藏文虛詞,程序正確識別了9 830個(gè)藏文虛詞,正確率高達(dá)97.076 8%,但同時(shí)也存在以下缺陷。
藏文虛詞在藏文自然語言處理研究中占有很重要的地位,文本詳細(xì)分析了藏文虛詞的兼類性、組合性、黏著變體性和結(jié)合型等現(xiàn)象,提出了首先排除虛詞的兼類性、其次利用不自由虛詞的接續(xù)規(guī)則來判斷虛詞、再識別和還原黏著虛詞、最后結(jié)合中嵌否定詞和指人后綴來識別藏文虛詞的方法。利用該方法識別藏文虛詞的正確率達(dá)97.076 8%。
文本還對結(jié)果的錯誤類型進(jìn)行了分析,指出了其錯誤主要由詞典的不完善和規(guī)則的缺陷導(dǎo)致,以后還需要在大量真實(shí)的藏文文本中不斷測試、不斷補(bǔ)充詞典和完善規(guī)則。同時(shí)引入統(tǒng)計(jì)模型來嘗試是否對識別藏文虛詞有利。
[1] 孫茂松,陳群秀.中國計(jì)算語言學(xué)研究前沿進(jìn)展(2007—2009)[M].清華大學(xué)出版社,2009.
[2] 吉太加.現(xiàn)在藏文語法通論[M].甘肅民族出版社.2000.
[3] Daniel Jurafsky,James H.Martin著,馮志偉、孫樂翻譯.自然語言處理綜論[M].電子工業(yè)出版社,2005.
[4] 色多五世羅桑崔臣嘉措.藏文文法根本頌色多氏大疏[M],民族出版社,2007.
[5] 江荻. 現(xiàn)代藏語動詞的句法語義分類及相關(guān)語法句式[J].中文信息學(xué)報(bào).2006(1):37-43.
[6] 格桑居冕,格桑央京.實(shí)用藏文文法教程[M].四川出版集團(tuán),四川民族出版社.2008.
[7] 扎西加,珠杰.面向信息處理的藏文分詞規(guī)范研究[J].中文信息學(xué)報(bào),2009,23(4):113-117.
[8] 陳玉忠,李保利,俞士汶,等.藏文自動分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2003,17(3):15-20.
[9] 才智杰藏文自動分詞系統(tǒng)中緊縮詞的識別[J].中文信息學(xué)報(bào),2009,23(1):35-37.
[10] 劉匯丹,諾明花,趙維納,等.SegT: 一個(gè)實(shí)用的藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2003,26(1):97-103.
[11] 宗成慶.統(tǒng)計(jì)自然語言處理[M].清華大學(xué)出版社,2008.