亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于混合策略的藏文虛詞識(shí)別方法

2019-08-05 02:28:16拉瑪扎西才智杰班瑪寶

中文信息學(xué)報(bào) 2019年7期

關(guān)鍵詞：特征模型

拉瑪扎西,才智杰,班瑪寶

(1. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院，青海西寧 810016;2. 青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室，青海西寧 810008;3. 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室，青海西寧 810008)

0 引言

藏文是一種典型邏輯格語法體系的拼音文字[1]，由實(shí)詞和虛詞按一定的語法結(jié)構(gòu)組合而成。實(shí)詞具有具體詞匯意義，包括名詞、代詞、動(dòng)詞、形容詞、數(shù)詞等，可以單獨(dú)使用；而虛詞沒有實(shí)際意義，包括語法虛詞[2](格助詞和接續(xù)助詞)和關(guān)聯(lián)詞等，不能單獨(dú)使用。計(jì)算機(jī)自動(dòng)識(shí)別虛詞對(duì)文本的歧義消解、句法分析、句型及語義處理等具有重要作用，并在藏文分詞[3]和停用詞選取[4]等方面有重要的應(yīng)用價(jià)值。現(xiàn)有文獻(xiàn)中未見詳細(xì)面向自然語言處理的藏文虛詞特征及其個(gè)數(shù)的分析，并且沒有研究多音節(jié)虛詞的識(shí)別。本文在分析傳統(tǒng)藏文虛詞研究成果的基礎(chǔ)上，初步統(tǒng)計(jì)了面向自然語言處理的藏文虛詞，并分析了藏文虛詞的特征，從而提出了基于規(guī)則和最大熵模型相結(jié)合的藏文虛詞識(shí)別策略。

本文組織結(jié)構(gòu)如下: 第1節(jié)分析藏文虛詞識(shí)別的研究現(xiàn)狀和主要技術(shù)方法；第2節(jié)歸納并總結(jié)傳統(tǒng)藏文文法和面向自然語言處理的藏文虛詞，確定面向自然語言處理的虛詞數(shù)量及特征；第3節(jié)設(shè)計(jì)基于規(guī)則和最大熵模型相結(jié)合的藏文虛詞識(shí)別方法；第4節(jié)實(shí)驗(yàn)驗(yàn)證算法的有效性，并對(duì)存在的問題進(jìn)行分析；第5節(jié)是結(jié)論與展望。

1 研究現(xiàn)狀

分詞既是藏語自然語言處理的一項(xiàng)基礎(chǔ)性研究工作，也是一個(gè)存在很多難點(diǎn)的研究范疇。陳玉忠等[2]在分析藏文文本自動(dòng)切分難點(diǎn)時(shí)指出，藏文分詞中較難解決的問題有四類: ①由實(shí)詞—實(shí)詞、實(shí)詞—虛詞、虛詞—實(shí)詞、虛詞—虛詞的交集性字段引起的錯(cuò)誤； ②由實(shí)詞—實(shí)詞、實(shí)詞—虛詞、虛詞—實(shí)詞、虛詞—虛詞的組合型歧義字段引起的錯(cuò)誤； ③由緊縮詞識(shí)別引起的錯(cuò)誤； ④由未登錄詞引起的錯(cuò)誤。在這四類錯(cuò)誤中，前三項(xiàng)與虛詞的識(shí)別有關(guān)。因此，藏文虛詞(包括緊縮詞)的識(shí)別問題引起學(xué)者們的關(guān)注。其中，緊縮詞是一種特殊的虛詞，學(xué)者們先后研究了緊縮詞的識(shí)別問題。才智杰[5]首次提出了緊縮詞的“添加—還原法”識(shí)別方法，識(shí)別準(zhǔn)確率達(dá)99.83%，取得了理想效果。完么扎西等[6]在“添加—還原法”的基礎(chǔ)上利用藏文文法規(guī)則識(shí)別緊縮詞，其識(shí)別準(zhǔn)確率達(dá)99.95%。李亞超等[7]為解決無法識(shí)別未登錄詞后的緊縮詞問題，提出了基于條件隨機(jī)場(chǎng)的緊縮詞識(shí)別方法，其識(shí)別準(zhǔn)確率達(dá)98.91%，克服了“還原法”中不能識(shí)別“未登錄詞+緊縮詞”的問題。華卻才讓等[8]利用藏文緊縮詞識(shí)別音節(jié)的方法，識(shí)別準(zhǔn)確率達(dá)到了99.91%?？挡女彽萚9]采用基于詞位的統(tǒng)計(jì)分析方法識(shí)別藏文緊縮詞的準(zhǔn)確率為95.89%，解決了未登錄詞對(duì)識(shí)別效果的影響。拉瑪扎西等[10]通過剖析現(xiàn)有藏文緊縮詞識(shí)別方法，分析藏文字詞的特征，有針對(duì)性地提出了基于規(guī)則、添加—還原法與最大熵模型相結(jié)合的藏文緊縮格識(shí)別方法，其識(shí)別準(zhǔn)確率達(dá)到了99.26%，相比現(xiàn)有準(zhǔn)確率，有明顯的提高。同樣，在一般虛詞識(shí)別方面，學(xué)者們也提出了若干識(shí)別方法。趙棟材[11]通過建立虛詞兼類詞典庫，在采用正向最大匹配算法對(duì)文本切分后，利用不自由虛詞的接續(xù)規(guī)則識(shí)別虛詞(單音節(jié)虛詞)。高定國(guó)等[12]提出了基于規(guī)則的藏文虛詞識(shí)別方法，其識(shí)別準(zhǔn)確率達(dá)97.08%。拉巴頓珠等[13]通過建立虛詞兼類詞典、單音節(jié)詞典、規(guī)則的不自由虛詞詞典庫等識(shí)別藏文虛詞。由以上文獻(xiàn)可見，特殊虛詞緊縮詞的識(shí)別問題利用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法可以得到解決，但一般虛詞的識(shí)別還不能滿足實(shí)際需求。一般虛詞的識(shí)別主要有兩個(gè)不足點(diǎn): ①識(shí)別方法只用了規(guī)則法。由于虛詞的多樣性，僅依靠規(guī)則不能識(shí)別出好的效果。正如文獻(xiàn)[12]在實(shí)驗(yàn)分析中指出，在規(guī)則法的基礎(chǔ)上引入統(tǒng)計(jì)方法，可以提高藏文虛詞識(shí)別率。②沒有具體分析虛詞的特征，只是籠統(tǒng)地將藏文文法中提到的虛詞認(rèn)定為面向自然語言處理的虛詞對(duì)象，其識(shí)別對(duì)象沒有完全囊括藏文文本中的虛詞。

2 藏文虛詞及其特征

在藏文虛詞識(shí)別研究的文獻(xiàn)中，沒有明確藏文虛詞及其數(shù)量，因而在自然語言處理的各項(xiàng)研究中沒能獲得理想的成果。研究面向藏語自然語言處理的藏文虛詞識(shí)別方法，依據(jù)藏文文法理論，并將其具體化，才能取得好的效果。本節(jié)通過分析傳統(tǒng)藏文文法中虛詞的定義及數(shù)量，確定了面向自然語言處理的藏文虛詞，并分析其特點(diǎn)。

2.1 傳統(tǒng)藏文文法中的虛詞

藏文文法《三十頌》是一部最早闡述藏文文法的專著，里面有專門闡述藏文虛詞的內(nèi)容?！度灐窂恼Z法功能角度給出了虛詞的定性描述: 虛詞是指按語境添接在實(shí)詞的前或中或尾部后，使各零散的實(shí)詞具有一定意義的功能詞[14]?！度灐分辛_列的虛詞都是單音節(jié)虛詞。在后續(xù)的研究中，學(xué)者們對(duì)《三十頌》做了很多不同的解讀，將虛詞按音節(jié)數(shù)分為單音節(jié)虛詞和多音節(jié)虛詞[15]。文獻(xiàn)[14，16-18]解讀《三十頌》中對(duì)虛詞的闡述，羅列了藏文虛詞(下文中把這類虛詞稱為語法虛詞)，各文獻(xiàn)收錄的藏文語法虛詞數(shù)量統(tǒng)計(jì)見表1。

表1 藏文語法虛詞數(shù)量統(tǒng)計(jì)表

表2 藏文補(bǔ)遺虛詞統(tǒng)計(jì)表

表2中的補(bǔ)遺虛詞不包含語法虛詞，語法虛詞在藏文真實(shí)文本中經(jīng)常出現(xiàn)，起到轉(zhuǎn)折、關(guān)聯(lián)等作用。

2.2 面向自然語言處理的藏文虛詞

由于自然語言處理的特殊需求，面向自然語言處理的虛詞不能直接選用傳統(tǒng)藏文文法中規(guī)定的虛詞，需要分析語法虛詞中單音節(jié)虛詞的語法作用以及在文本中的詞性，并對(duì)個(gè)別在藏文文法中提到的補(bǔ)遺虛詞進(jìn)行相應(yīng)處理后，才能最終確定虛詞識(shí)別任務(wù)的處理對(duì)象。

本文在選取和識(shí)別面向自然語言處理的虛詞時(shí)，遵循以下5條原則。

本文從表1、表2羅列的虛詞中，遵循以上5條原則，確定了面向自然語言處理的552個(gè)虛詞，面向自然語言處理的藏文虛詞及其分布如表3所示。

表3 面向自然語言處理的藏文虛詞及分布表

由表3可知，在552個(gè)面向自然語言處理的藏文虛詞中，有72個(gè)語法虛詞和480個(gè)補(bǔ)遺虛詞。72個(gè)語法虛詞中兼類虛詞有50個(gè)，480個(gè)補(bǔ)遺虛詞中兼類虛詞有16個(gè)。藏文語法虛詞中兼類虛詞所占比例高達(dá)69.44%，對(duì)虛詞的識(shí)別帶來了困難。語法虛詞中自由虛詞有12個(gè)，不自由虛詞有60個(gè)，占語法虛詞總數(shù)的83.33%，480個(gè)補(bǔ)遺虛詞都為自由虛詞。從虛詞所含音節(jié)角度看，單音節(jié)虛詞有106個(gè)，多音節(jié)虛詞有446個(gè)，可見藏文虛詞以多音節(jié)為主。

2.3 藏文虛詞的特征

藏文虛詞除了表示語法意義和不能單獨(dú)使用的共性特征外，還具有以下5種個(gè)性特征。

(1) 黏著特征

(2) 兼類特征

(3) 實(shí)詞中包含單音節(jié)虛詞的特征

(4) 多音節(jié)虛詞包含單音節(jié)虛詞的特征

(5) 多音節(jié)虛詞具有嵌套特征。

3 藏文虛詞識(shí)別

3.1 藏文虛詞識(shí)別策略

本文采用逆向最大匹配法和最大熵模型相結(jié)合的混合策略識(shí)別藏文虛詞。其識(shí)別模型如圖1所示。

圖1 基于混合策略的藏文虛詞識(shí)別模型

圖1是根據(jù)藏文虛詞特征提出的基于規(guī)則法和最大熵模型相結(jié)合的混合策略模型。針對(duì)虛詞中具有黏著特征的緊縮詞識(shí)別已有很多研究，其識(shí)別準(zhǔn)確率達(dá)99.83%以上，本文運(yùn)用了文獻(xiàn)[5,10]中提出的“添加—還原法”和基于規(guī)則、添加還原法與最大熵模型相結(jié)合的藏文緊縮詞識(shí)別方法，具體參見文獻(xiàn)[5,10]。針對(duì)藏文虛詞的第(4)類特征，文章采用多音節(jié)虛詞優(yōu)先識(shí)別策略，因此，基于混合策略的藏文虛詞識(shí)別模型包含多音節(jié)虛詞識(shí)別模塊和單音節(jié)虛詞識(shí)別模塊。

多音節(jié)虛詞識(shí)別模塊在“包含虛詞的實(shí)詞庫”中對(duì)文本預(yù)處理中逆向提取的8音節(jié)字串進(jìn)行查找，若找到，則可斷定8音節(jié)字串中無虛詞；否則，在“多音節(jié)虛詞庫”上采用逆向最大匹配法判斷是否為多音節(jié)虛詞。這里只提取8音節(jié)字串的原因是藏文多音節(jié)虛詞中最大音節(jié)數(shù)為8，而且“包含虛詞的實(shí)詞庫”中的最大音節(jié)數(shù)也不超過8個(gè)。其中，“包含虛詞的實(shí)詞庫”含719個(gè)詞條，“多音節(jié)虛詞庫”含446個(gè)詞條。

單音節(jié)識(shí)別模塊首先判斷多音節(jié)模塊未能識(shí)別的最后一個(gè)單音節(jié)虛詞是否為兼類詞，若該單音節(jié)虛詞不是兼類虛詞，則一定為虛詞；否則，該單音節(jié)有可能是虛詞，也有可能是實(shí)詞。然后，對(duì)這個(gè)單音節(jié)用最大熵模型判別其是否為虛詞。由于單音節(jié)兼類虛詞有33個(gè)，因而判別虛詞的兼類性也比較簡(jiǎn)單。

3.2 最大熵特征模板

Jaynes于1957年首次提出最大熵原理，被廣泛應(yīng)用于自然語言處理領(lǐng)域。其基本原理是，在已知部分信息的前提下，關(guān)于未知分布最合理的推斷應(yīng)該符合已知信息最不確定或最大隨機(jī)的推斷[20]。藏文虛詞識(shí)別可看作是一個(gè)序列標(biāo)注問題，標(biāo)注時(shí)對(duì)每個(gè)對(duì)象隨機(jī)標(biāo)注一個(gè)標(biāo)簽，并建立已知特征x的條件下輸出標(biāo)簽y的概率分布模型p(p∈P)。其中,x屬于上下文信息集X(x∈X)，y屬于對(duì)應(yīng)的標(biāo)簽集Y(y∈Y)。從訓(xùn)練集中可獲得N個(gè)樣本集，即S={(x1,y1),(x2,y2),…,(xn,yn)}，根據(jù)這些樣本可以定義一個(gè)事件空間，其特征是一個(gè)二值函數(shù)f:X×Y→{0,1}，其定義如式(1)所示。

則模型p的熵為:

(1)

從式(1)中可得出最大熵模型，如式(2)所示。

(2)

式(2)中的C為符合約束條件的模型集合，然后計(jì)算滿足C條件的最大p*，如式(3)所示。

(3)

其中,z(x)是歸一化常數(shù)，并有式(4)。

(4)

式(3)、式(4)中的λi為模型參數(shù)，即特征fi對(duì)應(yīng)的權(quán)重λi，可通過IIS算法來估計(jì)。

最大熵模型中，如何針對(duì)研究對(duì)象選擇有效的上下文特征是一個(gè)關(guān)鍵問題。本文根據(jù)藏文詞語音節(jié)的分布特點(diǎn)及上下文激發(fā)環(huán)境確定模型，并抽取特征模板。本文選取的特征模板如表4所示。

表4 特征模板

4 實(shí)驗(yàn)數(shù)據(jù)及分析

為了驗(yàn)證本文提出的藏文虛詞識(shí)別方法的有效性，我們從青海師范大學(xué)才智杰教授研究小組建立的藏語語料庫中選取了含30 404個(gè)音節(jié)的語料作為測(cè)試語料，語料領(lǐng)域包括政治、教材、歷史、小說、新聞等五種題材。語料中含9 187個(gè)藏文虛詞，利用本文提出的藏文虛詞識(shí)別方法正確識(shí)別出了9 040個(gè)虛詞，共出現(xiàn)187個(gè)識(shí)別錯(cuò)誤，實(shí)驗(yàn)數(shù)據(jù)見表5。

表5 虛詞識(shí)別實(shí)驗(yàn)數(shù)據(jù)

5 結(jié)論與展望

藏語虛詞識(shí)別既是藏語自然語言處理的一項(xiàng)基礎(chǔ)性工作，也是一項(xiàng)具有挑戰(zhàn)性的研究工作，在藏文分詞和停用詞選取等方面有重要的應(yīng)用價(jià)值。本文重點(diǎn)探討了面向自然語言處理的藏語虛詞及其語法特征，確定了面向自然語言處理的虛詞及數(shù)量，提出了規(guī)則法和最大熵模型相結(jié)合的藏文虛詞識(shí)別混合策略。實(shí)驗(yàn)表明，該方法識(shí)別藏文虛詞的準(zhǔn)確率、召回率和F1值分別達(dá)98.39%、98.75%、98.57%。今后在該研究成果的基礎(chǔ)上，將進(jìn)一步研究藏文分詞及停用詞選取技術(shù)，為藏文詞向量表示奠定基礎(chǔ)。