于詩畫 趙小兵
【摘 要】藏文分詞是藏文信息處理中最為基礎(chǔ)卻又十分重要的工作,而藏文的自動(dòng)分詞是提高藏文信息處理工作效率的重要技術(shù)。本文主要從藏文自動(dòng)分詞的意義、國內(nèi)研究現(xiàn)狀、分詞方法以及目前所面臨的主要問題等方面來簡單闡述藏文自動(dòng)分詞技術(shù)的相關(guān)內(nèi)容。
【關(guān)鍵詞】分詞;藏文分詞;分詞方法
1 藏文自動(dòng)分詞的主要意義
分詞其實(shí)就是按照一定的標(biāo)準(zhǔn)或規(guī)范將一系列連續(xù)的字序列重新劃分成詞序列的過程。在英文中, 單詞之間是以空格作為自然分界符的,因此在詞的理解上較為直觀,它直接跨越了分詞這一處理過程。而藏文的詞與詞之間是不具備任何形式的分界符的,這便給藏文的信息處理增加了一定的難度。而一段藏文在經(jīng)過分詞后,如果讓計(jì)算機(jī)來處理這樣一段由詞組成的藏文句子,它首先需要對(duì)句子的詞法進(jìn)行分析,然后才能夠進(jìn)一步去理解整個(gè)句子的具體含義。因此,藏文詞的正確切分在藏文信息處理工作中顯得尤為重要。
在保障詞的正確切分過程中,如果僅僅通過人工的方式進(jìn)行分詞處理,顯然是一個(gè)龐大而復(fù)雜的過程,并且會(huì)存在許多的弊端。而在飛速發(fā)展的信息技術(shù)社會(huì)背景下,如果用計(jì)算機(jī)按照一定的規(guī)則和程序來代替人工進(jìn)行藏文文本的自動(dòng)分詞,將具有很大的研究意義。目前,藏文信息處理技術(shù)的應(yīng)用已經(jīng)在文字處理的基礎(chǔ)上逐漸面向語言信息處理,但是作為語言的基本組成單元,分詞處理仍然是藏文信息處理中一項(xiàng)不可或缺的基礎(chǔ)工作。因?yàn)榉衷~結(jié)果的質(zhì)量將直接影響到藏文檢索主題排序、藏文機(jī)器翻譯、藏文語音識(shí)別等藏文信息處理技術(shù)的應(yīng)用和發(fā)展。進(jìn)而,藏文自動(dòng)分詞技術(shù)的研究與發(fā)展也即將對(duì)藏族人民的生活、學(xué)習(xí)和工作等具有積極的作用和重要的意義。
2 國內(nèi)藏文自動(dòng)分詞的研究現(xiàn)狀
迄今為止,隨著藏文信息處理技術(shù)的不斷研究與深入,藏文自動(dòng)分詞技術(shù)也取得了很多令人矚目的成果。比如,目前在國內(nèi)公開發(fā)表的關(guān)于藏文分詞方面的研究和系統(tǒng)有很多:1999年,中國藏學(xué)研究中心的扎西次仁所發(fā)表的“一個(gè)人機(jī)互助的藏文分詞和詞登錄系統(tǒng)的設(shè)計(jì)”可以看作是藏語分詞研究開始的標(biāo)志[1]; 2001年,陳玉忠設(shè)計(jì)實(shí)現(xiàn)了《一個(gè)基于格助詞和接續(xù)特征的藏文分詞系統(tǒng)》[2]。此外,祁坤鈺提出了切分與格框架、標(biāo)注一體化的藏語三級(jí)切分體系的藏文分詞方法[3];才智杰實(shí)現(xiàn)了一種藏文分詞方法,并首次提出了基于規(guī)則的方法“還原法”來處理藏語分詞中緊縮詞識(shí)別問題等[3]。
而由于標(biāo)注語料資源的限制,采用機(jī)器學(xué)習(xí)方法在最近三年才逐漸受到重視。其中,劉匯丹、李亞超各自采用基于條件隨機(jī)場(chǎng)的音節(jié)標(biāo)注方法,把分詞看成判斷音節(jié)在詞中位置的過程,并取得了很好的效果,該方法基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,是藏文分詞研究的最新研究成果[4]。
3 藏文自動(dòng)分詞的基本步驟
藏語是黏著性語言, 藏語句子的組織過程就是在詞與詞、短語與短語之間添加格助詞并與句末動(dòng)詞有效地結(jié)合的過程。因此,藏文分詞的關(guān)鍵是如何結(jié)合藏語字、詞、句各類形式特征來確定格助詞及其接續(xù)特征規(guī)則的識(shí)別算法。
藏語句子的各個(gè)功能性成分主要是詞和格助詞及其接續(xù)特征詞的結(jié)合體,同時(shí)還有一些則是短語或子句與格助詞組成的連續(xù)結(jié)合體,統(tǒng)一稱之為塊。由短語或子句組成的句節(jié)內(nèi)詞的切分必須借助詞典和接續(xù)特征規(guī)則。句節(jié)內(nèi)無法切分的“堆塊”以及由屬格格助詞引起的“截?cái)唷眴栴}在分析階段需綜合各類知識(shí)才能解決。據(jù)此,有專家提出利用字切分特征和字性庫先“認(rèn)字”,再用標(biāo)點(diǎn)符號(hào)和關(guān)聯(lián)詞 “斷句”,用格助詞“分塊”,再用詞典“認(rèn)詞”,充分利用各類接續(xù)特征“分詞”的多級(jí)切分策略。
4 藏文自動(dòng)分詞面臨的主要問題
目前的藏文分詞處理通常都是首先由計(jì)算機(jī)對(duì)藏文文本進(jìn)行自動(dòng)分詞,然后再對(duì)分詞結(jié)果附以人工校對(duì)。但無論是計(jì)算機(jī)自動(dòng)分詞還是人工校對(duì),前提是都需要符合一定的分詞標(biāo)準(zhǔn)或規(guī)范以保證分詞結(jié)果的正確性,從而也為藏文信息處理的后續(xù)工作提供統(tǒng)一的輸入。但即使如此,也并不能完全保證分詞結(jié)果的正確性,因?yàn)椴匚淖詣?dòng)分詞還面臨著兩個(gè)最大的困難:一是歧義切分問題,二是未登錄詞識(shí)別問題。
4.1 歧義切分問題
在分詞過程中,文句中某個(gè)片段可能存在兩個(gè)或兩個(gè)以上切分形式的字段,稱為分詞歧義字段[5]。針對(duì)分詞中的歧義現(xiàn)象,人們從不同的角度提出了不同的分類方式,從歧義字段的主要構(gòu)成形式來分,藏文分詞中歧義分為兩種: 一種是交集型歧義字段,另一種是組合型歧義字段。據(jù)統(tǒng)計(jì),藏文中交集型歧義占歧義問題的90%以上[6],因此, 如何解決好交集型歧義字段的切分問題,對(duì)于藏文歧義字段的切分具有重要的意義。
而對(duì)于藏文分詞中交集型歧義問題的研究,一般采用兩種解決方法。一是采用雙向掃描匹配方法,即對(duì)同一字段分別進(jìn)行正向最大匹配和逆向最大匹配,如果掃描結(jié)果不同,則認(rèn)為是交集型歧義;也有人采用最大概率方法來消解交集型歧義,主要利用詞頻信息來找出最佳的切分結(jié)果。但是由于高頻單音節(jié)對(duì)切分結(jié)果的影響,有時(shí)也往往無法得出期望的切分結(jié)果。因此,無論是哪一種消歧方法,還都有待于在實(shí)驗(yàn)中不斷改進(jìn)。
4.2 未登錄詞問題
大規(guī)模的藏文本處理中,會(huì)遇到很多機(jī)器可讀詞典中未收錄不能識(shí)別的詞匯,“包括中外人名、地名、機(jī)構(gòu)組織名、事件名、貨幣名、縮略名、派生詞及各種專業(yè)術(shù)語等,這些詞總稱為未登錄詞”。未登錄詞包括兩大類:一類是新涌現(xiàn)的普通詞匯或?qū)I(yè)術(shù)語;另一類是專有名詞,例如:人名、地名、國名、組織機(jī)構(gòu)等名。未登錄詞在藏語真實(shí)文本中普遍存在。
有實(shí)驗(yàn)統(tǒng)計(jì),用含7萬詞條的詞典,對(duì)2萬余字的藏文網(wǎng)頁新聞文本語料進(jìn)行自動(dòng)切分后發(fā)現(xiàn),其中有20%的詞不在詞典中;對(duì)1萬字的藏文科技文本進(jìn)行自動(dòng)切分,其中有40%的詞不在詞典中;對(duì)6萬字藏文文學(xué)、新聞、民俗等多種文本進(jìn)行自動(dòng)切分,發(fā)現(xiàn)絕大多數(shù)錯(cuò)誤是由未登錄詞造成。未登錄詞是影響藏文分詞正確率的主要因素,對(duì)分詞精度的影響超過了歧義切分。因此,要從根本上提高藏文分詞效率,解決未登錄詞問題尤為重要。
5 結(jié)語
藏文分詞是藏文文本處理中最基礎(chǔ)也最為首要的工作,其分詞的正確性將直接影響到藏文信息處理的有效性與應(yīng)用價(jià)值;而藏文自動(dòng)分詞技術(shù)則是藏語自然語言處理中的一項(xiàng)關(guān)鍵技術(shù),因?yàn)樵擁?xiàng)技術(shù)不僅直接運(yùn)用于藏文文字識(shí)別、藏文語音處理、藏語機(jī)器翻譯、藏語教學(xué)技術(shù)研究等方面,而且也是未來藏語的智能化研究以及藏語文化、信息傳播與交換的直接動(dòng)力與基礎(chǔ)支撐;同時(shí)這也將對(duì)藏族地區(qū)的社會(huì)生活與社會(huì)發(fā)展帶來深遠(yuǎn)的影響。當(dāng)然,藏文自動(dòng)分詞技術(shù)還并為成熟,還有很多亟待解決的問題,如程序中關(guān)于unicode編碼處理的問題、藏文文字的在線輸入問題、人工標(biāo)注庫的建立和完善等,這就需要相關(guān)研究人員投入進(jìn)一步的研究工作。
【參考文獻(xiàn)】
[1]何向真,李亞超,馬寧,于洪志.基于音節(jié)標(biāo)注的藏文自動(dòng)分詞研究[J].計(jì)算機(jī)應(yīng)用研究,2015,07:1989-1991.
[2]索郎桑姆.藏語語料庫構(gòu)建與加工技術(shù)研究[D].西藏大學(xué),2013.
[3]劉匯丹.藏文分詞及文本資源挖掘研究[D].中國科學(xué)院大學(xué),2012.
[4]湯小娜.詞義消歧在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用研究[D].廈門大學(xué),2007.
[5]李偉.中文分詞歧義消解技術(shù)的研究[D].青島科技大學(xué),2014.
[6]艾金勇.“藏文自動(dòng)分詞技術(shù)研究”報(bào)告[R].2013,12.
[責(zé)任編輯:楊玉潔]