亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于條件隨機(jī)場的藏語自動分詞方法研究與實現(xiàn)

2013-10-15 01:50:56李亞超加羊吉宗成慶于洪志

中文信息學(xué)報 2013年4期

李亞超，加羊吉，宗成慶，于洪志

（1.西北民族大學(xué) 中國民族語言文字信息技術(shù)重點實驗室，甘肅蘭州730030；2.中國科學(xué)院自動化研究所模式識別國家重點實驗室，北京100190）

1 引言

藏語是一種拼音文字，有30個輔音字母和4個元音字母，由這些字母組成音節(jié)，由音節(jié)構(gòu)成詞［1］。音節(jié)之間用音節(jié)點“”（tsheg）作為分隔符，例如，“”（我是老師，ng rang dge rgan yin）。與英語等拉丁語言不同，藏語的詞語間沒有分隔符來區(qū)分，如一個藏語句子“”（制銷劣質(zhì)產(chǎn)品，tsong sog rdzun ma bso vtsong byed）（本文用“／”表示藏語詞語、音節(jié)間的分割符），因此藏語信息處理需要面對與漢語、日語等語言共同遇到的分詞問題。在現(xiàn)代藏語中音節(jié)之間的分隔符存在省略現(xiàn)象，從而形成了緊縮詞。緊縮詞在藏語文本中出現(xiàn)的頻率非常高，大約30%左右的詞匯中會有緊縮詞現(xiàn)象，這些詞的識別是藏語分詞中的重點和難點。開展藏語分詞技術(shù)的研究，對于藏語信息處理、信息檢索以及藏語與其他語言之間的機(jī)器翻譯都具有很重要的應(yīng)用價值。

1999年，扎西次仁所發(fā)表的“一個人機(jī)互助的藏文分詞和詞登錄系統(tǒng)的設(shè)計”可以看作是藏語分詞研究開始的標(biāo)志［2］。2002年，陳玉忠等人根據(jù)藏文的字、詞、句切分的特點，提出了一種基于格助詞和連續(xù)特征的書面藏文自動分詞方法［3］，該方法在后來的實驗中被證明是一種較為有效的基于語言規(guī)則的分詞方法。祁坤鈺提出了切分與格框架、標(biāo)注一體化的藏語三級切分體系［4］。才智杰提出了基于規(guī)則的方法“還原法”，來處理藏語分詞中緊縮詞識別問題［5］，這種方法需要詞庫支持，不能夠處理“未登錄詞＋緊縮詞”情況下的緊縮詞。以上研究都是基于知識庫語法規(guī)則的藏語分詞方法，分詞系統(tǒng)的實現(xiàn)過程較為復(fù)雜，且分詞效果離完全實用化的要求還有一定的距離。Huidan Liu等研究了藏語分詞中的數(shù)字識別問題［6］，并且實現(xiàn)了基于音節(jié)標(biāo)注的藏語分詞方法［7］，該方法把分詞和緊縮詞識別融和到一個統(tǒng)一的標(biāo)注體系中。史曉東把一個基于HMM的漢語分詞系統(tǒng)Segtag移植到了藏語中，取得了91%的準(zhǔn)確率［8］，這是一個與藏語語言本身相對無關(guān)的較為成功的基于統(tǒng)計方法的藏語分詞系統(tǒng)。

綜上所述，藏語分詞經(jīng)過了十多年的研究，目前仍然存在許多問題需要解決，并沒有形成一個公認(rèn)的或者成熟的分詞方法，更沒有共享的開源系統(tǒng)。

與藏語分詞相比，漢語分詞經(jīng)過幾十年的研究，已經(jīng)取得了豐碩的成果，提出了很多有效的理論和方法。在2002年之前，漢語的自動分詞方法基本上是基于詞（或詞典）的，這些方法可以進(jìn)一步分成基于規(guī)則和基于統(tǒng)計兩大類［9－10］?；谧謽?biāo)注的分詞方法最早發(fā)表在2002年第一屆SIGHAN研討會上［11］，該方法把分詞過程抽象為序列化標(biāo)注問題，即判斷一個字在詞中的位置信息。近幾年來，通過大量的實驗證明，基于字標(biāo)注的方法是一種非常有效的分詞方法，因此，成為當(dāng)前漢語分詞研究中的主流技術(shù)，得到廣泛的應(yīng)用和推廣。

本文希望借鑒漢語分詞中由字構(gòu)詞的分詞思想，建立一種基于字標(biāo)注的藏語分詞方法，并對藏語分詞中緊縮詞識別問題提出新的解決方案。

本文的其余部分安排如下：第2節(jié)闡述我們提出的藏語自動分詞方法的基本思路；第3節(jié)介紹基于條件隨機(jī)場的藏語分詞方法；第4節(jié)給出實驗數(shù)據(jù)，并進(jìn)行結(jié)果分析；第5節(jié)為全文總結(jié)和下一步的工作。

2 本文的思路

藏語屬于漢藏語系，理論上，漢語中使用的自然語言處理方法都可以用在藏語信息處理中，但在實際使用過程中必須考慮藏語中存在的具體問題。藏語自然語言處理研究不論在人力還是物力上與漢語相比都有較大的差距，如果解決了限制成熟的自然語言處理方法在藏語上應(yīng)用的關(guān)鍵問題，那么可以使相關(guān)的藏語自然語言處理技術(shù)得到跨越式的發(fā)展。基于以上思想，本文擬將漢語中基于字標(biāo)注的分詞方法引入藏語自動分詞，通過分析并處理藏語分詞中特有的緊縮詞識別問題，實現(xiàn)一種基于條件隨機(jī)場的藏語自動分詞方法。

在分詞中首先要確定分詞的基本單位，然后利用規(guī)則或者統(tǒng)計方法把分詞基本單位組合成詞。在漢語分詞中由字組成詞，而在藏語分詞中則是由音節(jié)組成詞。在古藏語中，所有音節(jié)間都由音節(jié)點“”隔開，但是在現(xiàn)代藏語中，有些特殊的格助詞和前面的音節(jié)之間的音節(jié)點存在省略現(xiàn)象，稱為緊縮詞，例如，（過去的五年，vdas pai lo lnga），第三個切分單位屬格助詞“”和第二個切分單位“”之間沒有音節(jié)點隔開。由于緊縮詞在藏語文本中出現(xiàn)的頻率①詳細(xì)數(shù)據(jù)在3.2節(jié)說明很高，并且在不同的上下文語境中具有不同的作用，分詞時很難判定包含緊縮詞的音節(jié)是一個切分單位還是兩個切分單位，從而對分詞結(jié)果產(chǎn)生很大的影響。對于緊縮詞識別問題，才智杰根據(jù)藏語的語言規(guī)則采用“去除／添加”法將其還原成藏文原形，即“還原法”［5］。其基本思想為，如果一個字串中包含有某個緊縮詞時，去掉該緊縮詞后查找詞庫，根據(jù)查找的結(jié)果來判定是否是緊縮詞。格助詞是藏語語法的最大特征之一，也是分詞以及相關(guān)信息處理過程中最主要的難點之一［12］。在藏語分詞中需要處理的緊縮詞主要有：具格助詞“”（sa）、la類格助詞（ra）、屬格助詞（vi）、終結(jié)詞（vo）、飾集詞（vang）、離合詞（vam）等6個。根據(jù)我們對已有的分詞方法切分錯誤的分析，機(jī)械匹配分詞方法中交集型歧義、組合型歧義、緊縮詞識別錯誤占的比例分別為53%、26%、8%；基于格助詞分詞方法中，堆塊錯誤（詞間無格助詞，連續(xù)的詞未能切開）、格助詞識別（緊縮格和兼類格）、截斷（詞內(nèi)部出現(xiàn)格助詞，把一個詞切分成兩個詞）所占的比例分別為73%、16%、7%。以上問題都是基于規(guī)則的分詞方法很難解決的。

依據(jù)上述分析，如果能夠有效地確定分詞基本單位，就可以利用目前很多成熟的分詞方法進(jìn)行分詞，從而實現(xiàn)自動藏語分詞。根據(jù)以上的思路，本文采用基于條件隨機(jī)場的分詞方法，分詞系統(tǒng)流程如圖1所示。

圖1 分詞流程圖

根據(jù)這一分詞流程，我們首先對輸入的藏文文本以音節(jié)點為標(biāo)志進(jìn)行音節(jié)切分，音節(jié)切分時藏語中的符號，例如，單垂符、云頭符漢語標(biāo)點符號和英文字符要單獨切分開；切分好的音節(jié)單位輸入緊縮詞處理模塊進(jìn)行緊縮詞處理，其輸出結(jié)果作為分詞基本單位，分詞基本單位可以是藏語音節(jié)、數(shù)字、標(biāo)點符號等；處理好的分詞基本單位輸入基于CRF的分詞模塊進(jìn)行分詞處理，最后輸出分詞結(jié)果。

3 基于條件隨機(jī)場的藏語分詞方法

3.1 條件隨機(jī)場模型

條件隨機(jī)場（Conditional Random Field，CRF）是Lafferty等提出的一種統(tǒng)計的序列標(biāo)記模型［13］。在本文中簡單介紹CRF模型，詳細(xì)信息見參考文獻(xiàn)［14］。

我們把藏語分詞和緊縮詞識別都看成是序列標(biāo)記問題。在序列標(biāo)記問題中生成一個基于無向圖（undirected graph）G＝（V，E）的一階線性鏈?zhǔn)紺RF（linear－chain CRF）。V是隨機(jī)變量Y 的集合Y ＝｛Yi｜1≤i≤n｝，對于輸入一個句子的n個需要標(biāo)記單元，E ＝｛（Yi－1，Yi）｜1≤i≤n｝是n－1個邊構(gòu)成的線性鏈。對于每個句子x，定義兩個非負(fù)因子：

對于每個邊：

對于每個節(jié)點：

fk是一個二值特征函數(shù)，K和K′是定義在每個邊和相應(yīng)節(jié)點的特征數(shù)量。

給定一個需要標(biāo)記的序列x，其對應(yīng)的標(biāo)記序列y的條件概率為式（1）：

Z（x）是歸一化函數(shù)。給定訓(xùn)練集D，訓(xùn)練模型的參數(shù)是用來最大化條件似然值。當(dāng)給定了要標(biāo)記的序列x，其對應(yīng)的標(biāo)記序列y由參數(shù)Argmaxy′P（y′｜x）給出。

本文使用CRF＋＋（v 0.51）①http：／／crfpp.sourceforge.net／來實現(xiàn)基于CRF分詞、緊縮詞處理模型的序列標(biāo)記任務(wù)。

3.2 基于CRF的藏語緊縮詞識別

在一個包含78107個藏語詞條的詞典中（詞條由《藏漢大辭典》、《格西曲扎詞典》抽取的藏語詞條組成，下文稱為藏語詞典），“”、“”、“”、“”、“ ”、“ ”等6個緊縮詞一共出現(xiàn)了38 345次。我們通過對一個13.4M大小藏語文本語料（包含856 668個詞）統(tǒng)計得知，上述的緊縮詞共出現(xiàn)了298 777次。為了表示方便，下文中以S1，S2，...，S5，S6分別表示這6個緊縮詞。表1給出了6個緊縮詞整體上、單個出現(xiàn)的次數(shù)和所占總詞匯數(shù)的比例。

表1 緊縮詞出現(xiàn)的頻度

從表1可以看出，無論是文本語料還是藏語詞典，至少34%的詞匯都包含了這6個緊縮詞。因此，緊縮詞識別對于藏語分詞來說是必須面對的問題。后面的實驗將實驗緊縮詞識別對藏語分詞的影響。

我們可以把緊縮詞識別問題看成分類問題，這6個緊縮詞按照功能進(jìn)行劃分，可以分為兩大類，一類是作為格助詞，另外一類是非格助詞（包括基字和后加字）。判斷的依據(jù)為這些緊縮詞的上下文特征。這樣，我們就可以把緊縮詞識別轉(zhuǎn)化為序列標(biāo)注問題，進(jìn)而可以采用當(dāng)前成熟的序列標(biāo)注模型來進(jìn)行識別，本文采用基于CRF的序列標(biāo)注方法進(jìn)行緊縮詞識別。采用的標(biāo)記集為“YN”，其中Y、N分別表示非格助詞和格助詞。在本文中，我們對緊縮詞識別采用音節(jié)本身以及音節(jié)上下文特征信息，特征模板如表2所示。

表2 緊縮詞識別特征模板

3.3 基于CRF的藏語分詞

在基于字標(biāo)注的分詞方法中，需要對每一個字在詞中的位置信息進(jìn)行標(biāo)注，根據(jù)以上的分析，我們參照基于字標(biāo)注的漢語分詞方法［15］，在本文中選用“BMES”標(biāo)記集，根據(jù)每個藏文音節(jié)在詞中出現(xiàn)的位置，給予不同的標(biāo)簽，B代表詞的左邊界，E代表詞的右邊界，M代表詞的中間部分，S代表單音節(jié)詞，標(biāo)記示例如表3所示，超過3音節(jié)的詞中間部分都標(biāo)記為M。

表3 音節(jié)標(biāo)記示例

根據(jù)不同的緊縮詞處理方法，可以選用不同的音節(jié)標(biāo)注方法。用本文提出的緊縮詞處理模型，把音節(jié)序列處理成分詞基本單位，再進(jìn)行序列標(biāo)注的方法稱為TagSet－1。另外，緊縮詞識別和音節(jié)標(biāo)記可以融合到一個統(tǒng)一的標(biāo)注體系中，把包含緊縮詞的音節(jié)作為兩個切分單位的標(biāo)注方法稱為TagSet－2，把包含緊縮詞的音節(jié)作為一個切分單位的標(biāo)注方法稱為Liu，Liu是Huidan Liu在文獻(xiàn)［7］中提出的標(biāo)注方法，該方法除了B、M、E和S等4個標(biāo)記外，又增加了兩個標(biāo)記SS和ES，SS用于標(biāo)注包含緊縮詞的單音節(jié)詞，ES用于標(biāo)注多音節(jié)詞包含緊縮詞的末尾音節(jié)。TagSet－1標(biāo)注示例如表3所示，TagSet－2和Liu對普通詞的標(biāo)注示例在表3，對包含緊縮詞的標(biāo)記示例如表4中所示。

表4 標(biāo)注集示例

在特征選取上選取音節(jié)本身和音節(jié)上下文的特征信息，特征模板如表5所示。音節(jié)的特征信息，在本文中分為藏語音節(jié)、藏語標(biāo)點符號、漢語標(biāo)點符號、英文字母、英文數(shù)字、英文符號。

表5 分詞特征模板

4 實驗與分析

本實驗采用的藏語分詞語料為中國中文信息學(xué)會第七屆全國機(jī)器翻譯研討會（CWMT2011）藏漢報刊政論文獻(xiàn)平行語料中的藏語語料部分。把整體語料按照3∶7的比例分為測試語料和訓(xùn)練語料。測試語料詳細(xì)信息列在表6，訓(xùn)練語料大小為13.4M，包含71 629行，856 647個詞匯，用于藏語分詞模型和緊縮詞處理模型訓(xùn)練，在下文中稱為訓(xùn)練語料。測試分為封閉測試和開放測試兩種測試方法。

表6 測試集詳細(xì)信息

4.1 藏語分詞結(jié)果

我們進(jìn)行了兩種條件下的分詞實驗，這兩種實驗都采用相同CRF分詞模型，不同的是緊縮詞的處理方法。緊縮詞處理方法為：方法（1）利用本文提出的基于CRF的緊縮詞處理模型，簡稱自動模型；方法（2）以人工方式進(jìn)行緊縮詞處理，這種情況下可以完全處理緊縮詞問題，簡稱人工處理。表7為在不同的測試集上，兩種實驗的分詞結(jié)果。在表7以及下文中R、P、F、ROOV、RIV分別表示召回率、正確率、F值、未登錄詞召回率和登錄詞召回率等分詞指標(biāo)，“－”表示無此項數(shù)據(jù)。R、P、F 計算方法如式（2）、（3）、（4）所示：

ROOV表示測試語料中未登錄詞（在訓(xùn)練語料中沒有出現(xiàn)過的詞）的召回率，RIV表示測試語料中登錄詞（在訓(xùn)練語料中出現(xiàn)過的詞）的召回率。

表7 基于CRF的分詞結(jié)果

在開放測試中，采用本文的緊縮詞處理模型，分詞的R、P、F等指標(biāo)均達(dá)到了95%，說明基于CRF的藏語分詞可以取得較好的分詞效果。

在封閉測試中，分詞的各項指標(biāo)均超過了99%，雖然是在實驗條件下的分詞結(jié)果，但是可以說明利用CRF實現(xiàn)的基于字標(biāo)注的分詞方法對于藏語分詞是同樣有效的。

經(jīng)過對開放測試和封閉測試的分詞結(jié)果對比，本文提出的緊縮詞處理模型與人工處理的緊縮詞處理方法的分詞各項指標(biāo)較為接近，誤差在0.5%以內(nèi)，說明基于CRF的緊縮詞處理方案基本達(dá)到了實用的程度。

從開放測試實驗結(jié)果來看，標(biāo)記集TagSet－1和TagSet－2的 F 值均高于標(biāo)記集 Liu，TagSet－1和TagSet－2的F值很接近。由于標(biāo)記集TagSet－1需要單獨的處理緊縮詞，所以采用TagSet－1的分詞系統(tǒng)需要耗費(fèi)額外的緊縮詞處理時間，TagSet－2是分詞準(zhǔn)確率和耗費(fèi)時間的最好折中方案。

本分詞系統(tǒng)在報刊政論文獻(xiàn)語料上的分詞結(jié)果中，登錄詞的召回率是較為理想的，但是未登錄詞的召回率較低，為47%，對于未登錄詞召回率較低的原因在4.4節(jié)針對藏語分詞的召回率進(jìn)行專門的實驗。對分詞實驗結(jié)果的統(tǒng)計分析后發(fā)現(xiàn)，測試語料的題材為報刊政論文獻(xiàn)，未登錄詞大都是數(shù)字和本領(lǐng)域內(nèi)的專有名詞，切分錯誤主要集中在專有名詞切分錯誤上。導(dǎo)致切分錯誤的原因，除了標(biāo)準(zhǔn)語料自身的切分錯誤外，還有訓(xùn)練語料中詞語切分不一致導(dǎo)致未登錄詞很容易切分為多個登錄詞。一方面為了忠實于原有的語料，另一方面為了以后分詞實驗的對比，所以我們在此不對原始語料做任何人工的更改，實驗數(shù)據(jù)均按照原始語料給出。

4.2 緊縮詞識別結(jié)果

本文的緊縮詞識別實驗中，系統(tǒng)輸出結(jié)果的數(shù)量和標(biāo)準(zhǔn)答案的數(shù)量是相同的，所以正確率、召回率和F值都相同，因此本文僅使用正確率來表示緊縮詞識別結(jié)果?！斑€原法”的緊縮詞識別結(jié)果采用文獻(xiàn)［5］的數(shù)據(jù)，詳細(xì)數(shù)據(jù)列在表8。

表8 緊縮詞識別結(jié)果

從表8中可以看出，S1和S3在不同的測試集上識別的結(jié)果都比較穩(wěn)定，而S2的識別結(jié)果波動較大，并且在緊縮詞識別錯誤中S2占了66%。S4、S5、S6在語料中出現(xiàn)的次數(shù)較少，占整體的比例為0.39%，所以識別的結(jié)果不具有代表性。通過對語料的統(tǒng)計S1、S2、S3作為非格助詞和格助詞之比為13∶1、3∶1、0.03∶1，與S1、S3相比S2的上下文環(huán)境更為復(fù)雜，因此對S2的處理需要加入更多的特征信息。隨機(jī)抽取41個S2識別錯誤，經(jīng)過分析后發(fā)現(xiàn)，把格助詞識別為非格助詞稱為A類錯誤，非格助詞識別為格助詞稱為B類錯誤，A類錯誤的次數(shù)為35次，B類錯誤的次數(shù)為6次，分別占的比例為85%和15%。同樣，其余的緊縮詞識別錯誤也傾向于同一種錯誤類型。

與“還原法”相比，基于CRF的緊縮詞識別方法整體上識別效果較差。但是，本方法不需要詞庫的支持，導(dǎo)致的分詞錯誤還可以接受，在一定程度上克服了“還原法”不能識別“未登錄詞＋緊縮詞”條件下的緊縮詞的不足。

4.3 緊縮詞識別對藏語分詞結(jié)果的影響

為了實驗緊縮詞識別對基于CRF的藏語分詞結(jié)果的影響，本文實現(xiàn)了三種條件下的基于CRF的分詞實驗，這三種實驗采用相同的CRF分詞模型，為了消除未登錄詞的影響，實驗采用封閉測試，不同條件為：實驗（1）切分所有包含緊縮詞的音節(jié)；實驗（2）對藏語中的緊縮詞不進(jìn)行處理；實驗（3）以人工方式進(jìn)行的緊縮詞處理，這種情況下可以完全處理緊縮詞問題。

從表9的結(jié)果可以得出，不同的緊縮詞處理方法對基于CRF的藏語分詞結(jié)果影響非常大。同時也說明緊縮詞識別是藏語分詞過程中最主要的難點。

表9 緊縮詞識別對藏語分詞的影響

綜合分析可以得出，緊縮詞識別問題是阻礙很多分詞技術(shù)在藏語分詞上應(yīng)用的最大障礙。解決了緊縮詞識別問題后，很多成熟的基于統(tǒng)計的分詞技術(shù)都可以應(yīng)用到藏語分詞中，緊縮詞識別對藏語分詞技術(shù)的研究和應(yīng)用具有非常重要的意義。

4.4 藏語分詞未登錄詞召回率實驗

在4.1節(jié)的分詞結(jié)果中未登錄詞召回率較低，為47%。并且在此語料上ROOV很難有進(jìn)一步的提升，為了實驗基于CRF的藏語分詞是否對未登錄詞有較好的處理效果，我們進(jìn)行了在其他語料上的分詞實驗。選用的語料為藏語小學(xué)語文課本，本語料由西北民族大學(xué)中國民族信息技術(shù)研究院組織人工標(biāo)注，訓(xùn)練語料包含93 563個詞，測試語料包含17 767個詞，測試語料未登錄詞比例為10.36%。為了對藏語分詞和漢語分詞的效果進(jìn)行對比，漢語分詞結(jié)果采用汪昆在Coling 2010上實驗數(shù)據(jù)［15］，詳細(xì)實驗結(jié)果見表10。在本文中OOV Rate表示測試語料的未登錄詞比例，這個比例對分詞結(jié)果有較大的影響。

表10 藏語分詞結(jié)果及對比

在本語料上，藏語和漢語的分詞指標(biāo)如ROOV、RIV很接近，但是藏語分詞的F值較低。原因是藏語測試語料的未登錄詞比例較高，如果降低未登錄詞比例，那么分詞結(jié)果會有提升。

表11為報刊政論文獻(xiàn)和小學(xué)語文課本語料的交叉分詞測試結(jié)果。分為兩個實驗，實驗1用報刊政論文獻(xiàn)語料訓(xùn)練的模型測試小學(xué)語文課本語料，實驗2跟實驗1所用訓(xùn)練語料和測試語料的語料相反。

從表11可以看出，實驗2的ROOV、RIV均高于實驗1，結(jié)合表10的實驗數(shù)據(jù)可以說明基于CRF的藏語分詞對未登錄詞有較好處理效果。

表11 藏語分詞語料間交叉測試

報刊政論文獻(xiàn)語料不管是在本領(lǐng)域還是在小學(xué)語文課本上的分詞結(jié)果中未登錄詞召回率均較低，而小學(xué)語文課本語料在測試中可以一直保持較好的效果，說明了4.1節(jié)的藏語分詞結(jié)果中未登錄詞召回率較低是因為語料的問題。

在表11中R、P、F均較低是因為不同語料之間的題材差異導(dǎo)致分詞結(jié)果降低，這種現(xiàn)象同樣會出現(xiàn)在漢語分詞中，另外本實驗的訓(xùn)練語料和測試語料為不同的題材，測試語料中未登錄詞比例較高，導(dǎo)致分詞F值嚴(yán)重降低。

在藏語分詞中，因為語料缺乏，并且質(zhì)量也不太好，有些分詞指標(biāo)在不同的語料上有較大的差異。

5 結(jié)論與下一步的工作

本文根據(jù)藏語的特點實現(xiàn)了一種基于CRF的藏語分詞系統(tǒng)，說明基于字標(biāo)注的分詞方法對于藏語分詞同樣適用。而且，我們利用基于CRF的方法有效地解決了藏語分詞中緊縮詞識別問題，使之與分詞模塊很好地結(jié)合在一起，與其他的標(biāo)記集相比，采用獨立的緊縮詞處理方法的標(biāo)記集TagSet－1取得了最好的實驗結(jié)果。但是，頻率最高的緊縮詞S1、S2識別錯誤中超過80%是把非格助詞識別為格助詞，這樣分詞基本單位數(shù)量超過標(biāo)準(zhǔn)的數(shù)量，導(dǎo)致在開放測試中分詞召回率普遍高于準(zhǔn)確率。其余的緊縮詞識別錯誤也較為有規(guī)律，同樣傾向于同一個錯誤類型。接下來，我們希望通過加入藏語語法規(guī)則來減少緊縮詞識別錯誤，平衡分詞的召回率和準(zhǔn)確率，另外要在分詞系統(tǒng)中加入人名、地名、機(jī)構(gòu)名等命名實體的自動識別。

［1］山木旦，鄭紹功，扎喜拉旦等.新編藏文字典［M］.西寧：青海民族出版社，1979.

［2］扎西次仁.一個人機(jī)互助的藏文分詞和詞登錄系統(tǒng)的設(shè)計［C］.中國少數(shù)民族語言文字現(xiàn)代化文集，北京：民族出版社，1999：322－327.

［3］陳玉忠，李保利，俞士汶，等.基于格助詞和連續(xù)特征的藏文自動分詞方案［J］.語言文字應(yīng)用，2003，（1）：75－82.

［4］祁坤鈺.信息處理用藏文自動分詞研究［J］.西北民族大學(xué)學(xué)報（哲學(xué)社會科學(xué)版），2006，（4）：92－97.

［5］才智杰.藏文自動分詞系統(tǒng)中緊縮詞的識別［J］.中文信息學(xué)報，2009，23（1）：35－37.

［6］Huidan Liu，Weina Zhao，Minghua Nuo，et al.Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation［C］／／Proceedings of the 23rd International Conference on Computational Linguistics（Posters Volume）（Coling 2010），2010：719－724.

［7］Huidan Liu，Minghua Nuo，Longlong Ma，et al.Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields［C］／／Proceedings of the 25th Pacific Asia Conference on Language，Information and Computation （PACLIC－2011），2011：168－177.

［8］史曉東，盧亞軍.央金藏文分詞系統(tǒng)［J］.中文信息學(xué)報，2011，25（4）：54－56.

［9］黃昌寧，趙海.中文分詞十年回顧［J］.中文信息學(xué)報，2007，21（3）：8－20.

［10］宗成慶.統(tǒng)計自然語言處理［M］.清華大學(xué)出版社，2008.

［11］Neinwen Xue，Susan P.Converse.Combining classifiers for Chinese word segmentation［C］／／Proceedings of the First SIGHAN Workshop on Chinese Language Processing，Taipei，2002，Taiwan，2002：63－70.

［12］關(guān)白.淺析藏文分詞中的幾個概念［J］.西藏大學(xué)學(xué)報（自然科學(xué)版），2009，24（1）：65－69.

［13］J.Lafferty，A.McCallum，F(xiàn).Pereira.Conditional Random Fields：Probabilistic Models for Segmenting and Labeling Sequence Data［C］／／Proceedings of ICML－2001，2001：282－289.

［14］Nianwen Xue.Chinese word segmentation as character tagging［C］／／International Journal of Computational Linguistics and Chinese Language Processing，2003：29－48.

［15］Kun Wang，Chengqing Zong，Keh－Yih Su.A Character－Based Joint Model for Chinese Word Segmentation［C］／／Coling 2010，2010：1173－1181.