才項(xiàng)措 達(dá)哇彭措
摘 要: 分詞就是將連續(xù)的文字序列按照特定的規(guī)范重新組合成詞語序列的過程,在藏文信息處理領(lǐng)域分詞是不可或缺的基礎(chǔ)性工作,也成為智能化藏文信息處理的關(guān)鍵所在。漢語信息處理中自動分詞的基本問題同樣存在于藏文信息處理之中,諸如分詞規(guī)范、歧義切分和未登錄詞識別三個(gè)方面,此外,藏文信息處理的自動分詞中還存在對緊縮詞識別的問題。
關(guān)鍵詞:藏文自動分詞 分詞規(guī)范 歧義切分 未登錄詞 緊縮詞
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-9082(2016)07-0008-01
筆者在從事藏文信息處理技術(shù)的工作和研究中,對藏文自動分詞技術(shù)中存在的基本問題形成了若干認(rèn)識,目前暫從分詞規(guī)范、歧義切分、未登錄詞識別和緊縮詞的識別四個(gè)部分試作分析。由于這一工作的長期性和復(fù)雜性,我們的專業(yè)水平也存在一定的局限,誠摯的希望得到相關(guān)領(lǐng)域不同專業(yè)學(xué)者的指導(dǎo)與批評。
一、分詞規(guī)范
藏文的分詞規(guī)范,就是根據(jù)藏文詞匯的語法功能,遵循藏文自身的特點(diǎn)及構(gòu)詞規(guī)律,將藏文的詞類進(jìn)行有效劃分的算法及規(guī)范方案。對于藏文詞類的劃分有關(guān)學(xué)者已經(jīng)提出了藏文分詞的算法及規(guī)范方案,比較全面的有:扎西加、珠杰等在面向信息處理的藏文分詞規(guī)范研究中,將藏文詞類劃分為26個(gè)基本類和9個(gè)特殊類,在26個(gè)基本類當(dāng)中繼續(xù)細(xì)分為不同的子類,基本類包括名詞、處所方位詞、時(shí)間詞、數(shù)詞、量詞、代詞、自動詞、他動詞、助動詞、存在動詞、斷詞、動名詞、行動詞、形容詞、狀態(tài)詞、簡別詞、區(qū)別詞、副詞、時(shí)態(tài)助詞、語氣助詞、原因助詞、目的助詞、終結(jié)助詞、介詞、連詞、嘆詞、擬聲詞,特殊類包括成語、習(xí)慣語、簡略語、前接成分、中接成分、后接成分、首飾符號、標(biāo)點(diǎn)符號、非藏文符號;[1]扎洛在語言信息處理的現(xiàn)代藏語詞性分類方法研究中將藏文詞性分為名詞、動詞、形容詞、數(shù)詞、量詞、副詞、代詞、狀態(tài)詞、嘆詞、擬聲詞、時(shí)間詞、方位詞、處所詞、助詞、連詞、祈使詞、終結(jié)詞、前綴、中綴、后綴、簡縮詞、習(xí)用詞、成語、標(biāo)號點(diǎn)號、垂符、首符、特殊符號等二十七個(gè)大類;[2]祁坤鈺在詞類劃分與標(biāo)注集的研究中將藏文詞類劃分為名詞、動詞、形容詞、副詞、代詞、介詞、助詞、數(shù)詞、量詞、終結(jié)詞、連詞、時(shí)間詞、擬聲詞、感嘆詞、成語詞、習(xí)慣詞、縮略詞、方位詞、語素、非語素、標(biāo)點(diǎn)符等21個(gè)大類。
對于未登錄詞的識別陳玉忠、李保利、俞士汶等撰寫的論文藏文自動分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)中采取標(biāo)記但不切分的謹(jǐn)慎策略;才智杰和才讓卓瑪撰寫的論文藏文自動分詞系統(tǒng)的設(shè)計(jì)中基于詞典分詞時(shí),由于查詢詞不在詞典庫中,從而文本分詞后會形成若干個(gè)連續(xù)的單字,形成了碎片,它或者是單字詞,或者是未登錄詞的一部分。
四、緊縮詞的識別
古藏文中所有的字與字之間都用字分隔符分開,隨著藏文字的發(fā)展,人們?yōu)榱朔奖銓⒂行┳峙c它前面字之間的分隔符省略,從而形成了緊縮詞。緊縮詞在藏文文本中出現(xiàn)的頻率非常高,這類詞的識別是藏文文本分詞的重點(diǎn)和難點(diǎn)。在才智杰撰寫的論文藏文自動分詞系統(tǒng)中緊縮詞的識別中,通過研究藏文自動分詞中的緊縮詞,首次提出了一種識別方案,即還原法,并給出了還原算法。其基本思想是:利用藏文緊縮詞的添接規(guī)則還原藏文原文,以達(dá)到進(jìn)行分詞的目的。對緊縮詞可以用“去除/添加”法將其還原成藏文原形,即還原法。
五、結(jié)語
藏語信息處理目前正處于向上發(fā)展的關(guān)鍵階段,要解決人與計(jì)算機(jī)接口、系統(tǒng)問答等一系列重要問題,首先要從能夠獨(dú)立表義的最小單位即詞匯研究開始。藏文分詞的關(guān)鍵是如何結(jié)合藏語字、詞、句各類形式特征來確定藏文分詞。藏文自動分詞是藏語信息處理中的基礎(chǔ)性課題,本文只是簡略地介紹了在藏文自動分詞中的幾個(gè)基本問題,其解決方法等還有待完善。
參考文獻(xiàn)
[1]扎西加,珠杰.面向信息處理的藏文分詞規(guī)范研究[J].中文信息學(xué)報(bào),2009,23(4)
[2]扎洛.語言信息處理的現(xiàn)代藏語詞性分類方法研究[J].青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,1
[3]完么扎西,尼瑪扎西.藏語自動分詞中的幾個(gè)關(guān)鍵問題的研究[J].中文信息學(xué)報(bào),2014,28(4)