亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合策略的藏文虛詞識(shí)別方法

        2019-08-05 02:28:16拉瑪扎西才智杰班瑪寶
        中文信息學(xué)報(bào) 2019年7期
        關(guān)鍵詞:特征模型

        拉瑪扎西,才智杰,班瑪寶

        (1. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810016;2. 青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3. 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

        0 引言

        藏文是一種典型邏輯格語法體系的拼音文字[1],由實(shí)詞和虛詞按一定的語法結(jié)構(gòu)組合而成。實(shí)詞具有具體詞匯意義,包括名詞、代詞、動(dòng)詞、形容詞、數(shù)詞等,可以單獨(dú)使用;而虛詞沒有實(shí)際意義,包括語法虛詞[2](格助詞和接續(xù)助詞)和關(guān)聯(lián)詞等,不能單獨(dú)使用。計(jì)算機(jī)自動(dòng)識(shí)別虛詞對(duì)文本的歧義消解、句法分析、句型及語義處理等具有重要作用,并在藏文分詞[3]和停用詞選取[4]等方面有重要的應(yīng)用價(jià)值。現(xiàn)有文獻(xiàn)中未見詳細(xì)面向自然語言處理的藏文虛詞特征及其個(gè)數(shù)的分析,并且沒有研究多音節(jié)虛詞的識(shí)別。本文在分析傳統(tǒng)藏文虛詞研究成果的基礎(chǔ)上,初步統(tǒng)計(jì)了面向自然語言處理的藏文虛詞,并分析了藏文虛詞的特征,從而提出了基于規(guī)則和最大熵模型相結(jié)合的藏文虛詞識(shí)別策略。

        本文組織結(jié)構(gòu)如下: 第1節(jié)分析藏文虛詞識(shí)別的研究現(xiàn)狀和主要技術(shù)方法;第2節(jié)歸納并總結(jié)傳統(tǒng)藏文文法和面向自然語言處理的藏文虛詞,確定面向自然語言處理的虛詞數(shù)量及特征;第3節(jié)設(shè)計(jì)基于規(guī)則和最大熵模型相結(jié)合的藏文虛詞識(shí)別方法;第4節(jié)實(shí)驗(yàn)驗(yàn)證算法的有效性,并對(duì)存在的問題進(jìn)行分析;第5節(jié)是結(jié)論與展望。

        1 研究現(xiàn)狀

        分詞既是藏語自然語言處理的一項(xiàng)基礎(chǔ)性研究工作,也是一個(gè)存在很多難點(diǎn)的研究范疇。陳玉忠等[2]在分析藏文文本自動(dòng)切分難點(diǎn)時(shí)指出,藏文分詞中較難解決的問題有四類: ①由實(shí)詞—實(shí)詞、實(shí)詞—虛詞、虛詞—實(shí)詞、虛詞—虛詞的交集性字段引起的錯(cuò)誤; ②由實(shí)詞—實(shí)詞、實(shí)詞—虛詞、虛詞—實(shí)詞、虛詞—虛詞的組合型歧義字段引起的錯(cuò)誤; ③由緊縮詞識(shí)別引起的錯(cuò)誤; ④由未登錄詞引起的錯(cuò)誤。在這四類錯(cuò)誤中,前三項(xiàng)與虛詞的識(shí)別有關(guān)。因此,藏文虛詞(包括緊縮詞)的識(shí)別問題引起學(xué)者們的關(guān)注。其中,緊縮詞是一種特殊的虛詞,學(xué)者們先后研究了緊縮詞的識(shí)別問題。才智杰[5]首次提出了緊縮詞的“添加—還原法”識(shí)別方法,識(shí)別準(zhǔn)確率達(dá)99.83%,取得了理想效果。完么扎西等[6]在“添加—還原法”的基礎(chǔ)上利用藏文文法規(guī)則識(shí)別緊縮詞,其識(shí)別準(zhǔn)確率達(dá)99.95%。李亞超等[7]為解決無法識(shí)別未登錄詞后的緊縮詞問題,提出了基于條件隨機(jī)場(chǎng)的緊縮詞識(shí)別方法,其識(shí)別準(zhǔn)確率達(dá)98.91%,克服了“還原法”中不能識(shí)別“未登錄詞+緊縮詞”的問題。華卻才讓等[8]利用藏文緊縮詞識(shí)別音節(jié)的方法,識(shí)別準(zhǔn)確率達(dá)到了99.91%??挡女彽萚9]采用基于詞位的統(tǒng)計(jì)分析方法識(shí)別藏文緊縮詞的準(zhǔn)確率為95.89%,解決了未登錄詞對(duì)識(shí)別效果的影響。拉瑪扎西等[10]通過剖析現(xiàn)有藏文緊縮詞識(shí)別方法,分析藏文字詞的特征,有針對(duì)性地提出了基于規(guī)則、添加—還原法與最大熵模型相結(jié)合的藏文緊縮格識(shí)別方法,其識(shí)別準(zhǔn)確率達(dá)到了99.26%,相比現(xiàn)有準(zhǔn)確率,有明顯的提高。同樣,在一般虛詞識(shí)別方面,學(xué)者們也提出了若干識(shí)別方法。趙棟材[11]通過建立虛詞兼類詞典庫,在采用正向最大匹配算法對(duì)文本切分后,利用不自由虛詞的接續(xù)規(guī)則識(shí)別虛詞(單音節(jié)虛詞)。高定國(guó)等[12]提出了基于規(guī)則的藏文虛詞識(shí)別方法,其識(shí)別準(zhǔn)確率達(dá)97.08%。拉巴頓珠等[13]通過建立虛詞兼類詞典、單音節(jié)詞典、規(guī)則的不自由虛詞詞典庫等識(shí)別藏文虛詞。由以上文獻(xiàn)可見,特殊虛詞緊縮詞的識(shí)別問題利用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法可以得到解決,但一般虛詞的識(shí)別還不能滿足實(shí)際需求。一般虛詞的識(shí)別主要有兩個(gè)不足點(diǎn): ①識(shí)別方法只用了規(guī)則法。由于虛詞的多樣性,僅依靠規(guī)則不能識(shí)別出好的效果。正如文獻(xiàn)[12]在實(shí)驗(yàn)分析中指出,在規(guī)則法的基礎(chǔ)上引入統(tǒng)計(jì)方法,可以提高藏文虛詞識(shí)別率。②沒有具體分析虛詞的特征,只是籠統(tǒng)地將藏文文法中提到的虛詞認(rèn)定為面向自然語言處理的虛詞對(duì)象,其識(shí)別對(duì)象沒有完全囊括藏文文本中的虛詞。

        2 藏文虛詞及其特征

        在藏文虛詞識(shí)別研究的文獻(xiàn)中,沒有明確藏文虛詞及其數(shù)量,因而在自然語言處理的各項(xiàng)研究中沒能獲得理想的成果。研究面向藏語自然語言處理的藏文虛詞識(shí)別方法,依據(jù)藏文文法理論,并將其具體化,才能取得好的效果。本節(jié)通過分析傳統(tǒng)藏文文法中虛詞的定義及數(shù)量,確定了面向自然語言處理的藏文虛詞,并分析其特點(diǎn)。

        2.1 傳統(tǒng)藏文文法中的虛詞

        藏文文法《三十頌》是一部最早闡述藏文文法的專著,里面有專門闡述藏文虛詞的內(nèi)容?!度灐窂恼Z法功能角度給出了虛詞的定性描述: 虛詞是指按語境添接在實(shí)詞的前或中或尾部后,使各零散的實(shí)詞具有一定意義的功能詞[14]?!度灐分辛_列的虛詞都是單音節(jié)虛詞。在后續(xù)的研究中,學(xué)者們對(duì)《三十頌》做了很多不同的解讀,將虛詞按音節(jié)數(shù)分為單音節(jié)虛詞和多音節(jié)虛詞[15]。文獻(xiàn)[14,16-18]解讀《三十頌》中對(duì)虛詞的闡述,羅列了藏文虛詞(下文中把這類虛詞稱為語法虛詞),各文獻(xiàn)收錄的藏文語法虛詞數(shù)量統(tǒng)計(jì)見表1。

        表1 藏文語法虛詞數(shù)量統(tǒng)計(jì)表

        表2 藏文補(bǔ)遺虛詞統(tǒng)計(jì)表

        表2中的補(bǔ)遺虛詞不包含語法虛詞,語法虛詞在藏文真實(shí)文本中經(jīng)常出現(xiàn),起到轉(zhuǎn)折、關(guān)聯(lián)等作用。

        2.2 面向自然語言處理的藏文虛詞

        由于自然語言處理的特殊需求,面向自然語言處理的虛詞不能直接選用傳統(tǒng)藏文文法中規(guī)定的虛詞,需要分析語法虛詞中單音節(jié)虛詞的語法作用以及在文本中的詞性,并對(duì)個(gè)別在藏文文法中提到的補(bǔ)遺虛詞進(jìn)行相應(yīng)處理后,才能最終確定虛詞識(shí)別任務(wù)的處理對(duì)象。

        本文在選取和識(shí)別面向自然語言處理的虛詞時(shí),遵循以下5條原則。

        本文從表1、表2羅列的虛詞中,遵循以上5條原則,確定了面向自然語言處理的552個(gè)虛詞,面向自然語言處理的藏文虛詞及其分布如表3所示。

        表3 面向自然語言處理的藏文虛詞及分布表

        由表3可知,在552個(gè)面向自然語言處理的藏文虛詞中,有72個(gè)語法虛詞和480個(gè)補(bǔ)遺虛詞。72個(gè)語法虛詞中兼類虛詞有50個(gè),480個(gè)補(bǔ)遺虛詞中兼類虛詞有16個(gè)。藏文語法虛詞中兼類虛詞所占比例高達(dá)69.44%,對(duì)虛詞的識(shí)別帶來了困難。語法虛詞中自由虛詞有12個(gè),不自由虛詞有60個(gè),占語法虛詞總數(shù)的83.33%,480個(gè)補(bǔ)遺虛詞都為自由虛詞。從虛詞所含音節(jié)角度看,單音節(jié)虛詞有106個(gè),多音節(jié)虛詞有446個(gè),可見藏文虛詞以多音節(jié)為主。

        2.3 藏文虛詞的特征

        藏文虛詞除了表示語法意義和不能單獨(dú)使用的共性特征外,還具有以下5種個(gè)性特征。

        (1) 黏著特征

        (2) 兼類特征

        (3) 實(shí)詞中包含單音節(jié)虛詞的特征

        (4) 多音節(jié)虛詞包含單音節(jié)虛詞的特征

        (5) 多音節(jié)虛詞具有嵌套特征。

        3 藏文虛詞識(shí)別

        3.1 藏文虛詞識(shí)別策略

        本文采用逆向最大匹配法和最大熵模型相結(jié)合的混合策略識(shí)別藏文虛詞。其識(shí)別模型如圖1所示。

        圖1 基于混合策略的藏文虛詞識(shí)別模型

        圖1是根據(jù)藏文虛詞特征提出的基于規(guī)則法和最大熵模型相結(jié)合的混合策略模型。針對(duì)虛詞中具有黏著特征的緊縮詞識(shí)別已有很多研究,其識(shí)別準(zhǔn)確率達(dá)99.83%以上,本文運(yùn)用了文獻(xiàn)[5,10]中提出的“添加—還原法”和基于規(guī)則、添加還原法與最大熵模型相結(jié)合的藏文緊縮詞識(shí)別方法,具體參見文獻(xiàn)[5,10]。針對(duì)藏文虛詞的第(4)類特征,文章采用多音節(jié)虛詞優(yōu)先識(shí)別策略,因此,基于混合策略的藏文虛詞識(shí)別模型包含多音節(jié)虛詞識(shí)別模塊和單音節(jié)虛詞識(shí)別模塊。

        多音節(jié)虛詞識(shí)別模塊在“包含虛詞的實(shí)詞庫”中對(duì)文本預(yù)處理中逆向提取的8音節(jié)字串進(jìn)行查找,若找到,則可斷定8音節(jié)字串中無虛詞;否則,在“多音節(jié)虛詞庫”上采用逆向最大匹配法判斷是否為多音節(jié)虛詞。這里只提取8音節(jié)字串的原因是藏文多音節(jié)虛詞中最大音節(jié)數(shù)為8,而且“包含虛詞的實(shí)詞庫”中的最大音節(jié)數(shù)也不超過8個(gè)。其中,“包含虛詞的實(shí)詞庫”含719個(gè)詞條,“多音節(jié)虛詞庫”含446個(gè)詞條。

        單音節(jié)識(shí)別模塊首先判斷多音節(jié)模塊未能識(shí)別的最后一個(gè)單音節(jié)虛詞是否為兼類詞,若該單音節(jié)虛詞不是兼類虛詞,則一定為虛詞;否則,該單音節(jié)有可能是虛詞,也有可能是實(shí)詞。然后,對(duì)這個(gè)單音節(jié)用最大熵模型判別其是否為虛詞。由于單音節(jié)兼類虛詞有33個(gè),因而判別虛詞的兼類性也比較簡(jiǎn)單。

        3.2 最大熵特征模板

        Jaynes于1957年首次提出最大熵原理,被廣泛應(yīng)用于自然語言處理領(lǐng)域。其基本原理是,在已知部分信息的前提下,關(guān)于未知分布最合理的推斷應(yīng)該符合已知信息最不確定或最大隨機(jī)的推斷[20]。藏文虛詞識(shí)別可看作是一個(gè)序列標(biāo)注問題,標(biāo)注時(shí)對(duì)每個(gè)對(duì)象隨機(jī)標(biāo)注一個(gè)標(biāo)簽,并建立已知特征x的條件下輸出標(biāo)簽y的概率分布模型p(p∈P)。其中,x屬于上下文信息集X(x∈X),y屬于對(duì)應(yīng)的標(biāo)簽集Y(y∈Y)。從訓(xùn)練集中可獲得N個(gè)樣本集,即S={(x1,y1),(x2,y2),…,(xn,yn)},根據(jù)這些樣本可以定義一個(gè)事件空間,其特征是一個(gè)二值函數(shù)f:X×Y→{0,1},其定義如式(1)所示。

        則模型p的熵為:

        (1)

        從式(1)中可得出最大熵模型,如式(2)所示。

        (2)

        式(2)中的C為符合約束條件的模型集合,然后計(jì)算滿足C條件的最大p*,如式(3)所示。

        (3)

        其中,z(x)是歸一化常數(shù),并有式(4)。

        (4)

        式(3)、式(4)中的λi為模型參數(shù),即特征fi對(duì)應(yīng)的權(quán)重λi,可通過IIS算法來估計(jì)。

        最大熵模型中,如何針對(duì)研究對(duì)象選擇有效的上下文特征是一個(gè)關(guān)鍵問題。本文根據(jù)藏文詞語音節(jié)的分布特點(diǎn)及上下文激發(fā)環(huán)境確定模型,并抽取特征模板。本文選取的特征模板如表4所示。

        表4 特征模板

        4 實(shí)驗(yàn)數(shù)據(jù)及分析

        為了驗(yàn)證本文提出的藏文虛詞識(shí)別方法的有效性,我們從青海師范大學(xué)才智杰教授研究小組建立的藏語語料庫中選取了含30 404個(gè)音節(jié)的語料作為測(cè)試語料,語料領(lǐng)域包括政治、教材、歷史、小說、新聞等五種題材。語料中含9 187個(gè)藏文虛詞,利用本文提出的藏文虛詞識(shí)別方法正確識(shí)別出了9 040個(gè)虛詞,共出現(xiàn)187個(gè)識(shí)別錯(cuò)誤,實(shí)驗(yàn)數(shù)據(jù)見表5。

        表5 虛詞識(shí)別實(shí)驗(yàn)數(shù)據(jù)

        5 結(jié)論與展望

        藏語虛詞識(shí)別既是藏語自然語言處理的一項(xiàng)基礎(chǔ)性工作,也是一項(xiàng)具有挑戰(zhàn)性的研究工作,在藏文分詞和停用詞選取等方面有重要的應(yīng)用價(jià)值。本文重點(diǎn)探討了面向自然語言處理的藏語虛詞及其語法特征,確定了面向自然語言處理的虛詞及數(shù)量,提出了規(guī)則法和最大熵模型相結(jié)合的藏文虛詞識(shí)別混合策略。實(shí)驗(yàn)表明,該方法識(shí)別藏文虛詞的準(zhǔn)確率、召回率和F1值分別達(dá)98.39%、98.75%、98.57%。今后在該研究成果的基礎(chǔ)上,將進(jìn)一步研究藏文分詞及停用詞選取技術(shù),為藏文詞向量表示奠定基礎(chǔ)。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        久久www免费人成人片| 人妻一区二区三区在线看| 美女扒开大腿让男人桶| 欧美性受xxxx白人性爽| 国产无套露脸| 综合人妻久久一区二区精品| 亚洲成人av在线第一页| 99久久久国产精品免费蜜臀| 宅男噜噜噜| 另类人妖在线观看一区二区| 日韩精品免费一区二区三区观看| 亚洲熟女乱综合一区二区| 欧美在线播放一区二区| 免费在线av一区二区| 国产激情视频免费在线观看| 男人j进女人j啪啪无遮挡| 国产精品1区2区| 国产在线观看黄片视频免费| 中文字幕亚洲欧美在线不卡| 久久不见久久见免费视频7| 亚洲AV无码一区二区水蜜桃| 顶级高清嫩模一区二区| 玩弄丰满奶水的女邻居| 亚洲va在线va天堂va手机| 精品人妻久久av中文字幕| 伊人久久这里只有精品| 无码人妻精品一区二区三区不卡| 日韩精品网| av在线免费观看麻豆| 国产人成无码视频在线观看 | 亚洲成av人片乱码色午夜| 亚洲国产成人精品无码区99| 91精品国产闺蜜国产在线| 放荡成熟人妻中文字幕| 国产激情电影综合在线看| AV无码中文字幕不卡一二三区| 久久精品国产亚洲av试看 | 伊人精品无码AV一区二区三区| 日韩av天堂综合网久久| 日本又色又爽又黄又免费网站| 国产免费破外女真实出血视频|