亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合音節(jié)特征的最大熵藏文詞性標注研究

        2013-10-15 01:37:58于洪志李亞超冷本扎西
        中文信息學報 2013年5期
        關鍵詞:特征實驗模型

        于洪志,李亞超,汪 昆,冷本扎西

        (1.西北民族大學 中國民族語言文字信息技術重點實驗室,甘肅 蘭州730030;2.中國科學院自動化研究所 模式識別國家重點實驗室,北京100190)

        1 引言

        詞性標注是根據詞語的上下文信息,判定詞語詞性的過程,是自然語言處理中一項非常重要的基礎性工作,被廣泛應用于機器翻譯、語音識別、信息檢索等領域[1]。近幾十年來研究者開展了基于隱馬爾科夫(Hidden Markov Model,HMM),支持向量機(Support Vector Machine,SVM),最大熵(Maximum Entropy,ME),條件隨機場(Conditional Random Fields,CRF)等模型的詞性標注研究。最大熵模型能夠融合復雜的特征,在英語、漢語等語言詞性標注研究中取得了較好的效果,并在形態(tài)變化較多的蒙古文詞性標注中得到成功運用[2]。

        漢語、英語等語言的詞性標注研究較為成熟,標注準確度基本達到了可以實用的程度。已有詞性標注方法可以分為基于規(guī)則方法和基于統(tǒng)計方法。基于規(guī)則方法提出時間較早,基本思想為按照兼類詞搭配關系和上下文語境構建詞類消歧規(guī)則[3]。隨著標注語料規(guī)模的增大,以人工方式提取規(guī)則的方法耗費大量的人力、物力,并且詞性標注系統(tǒng)在不同領域、不同語言之間的可移植性較弱,這是基于規(guī)則詞性標注方法的主要不足之處?;诮y(tǒng)計的詞性標注方法適合處理大規(guī)模語料,并且可移植性很強,成為漢語、英語等語言詞性標注研究的主流方法,同時也取得了不錯的效果。

        藏文詞性標注研究基礎薄弱,陳玉忠[4]在漢藏科技機器翻譯系統(tǒng)的研制中,首次對藏文詞語進行了分類。蘇俊峰[5]研究了基于HMM的藏文詞性標記方法,該系統(tǒng)封閉測試正確率達到88%~90%。羊毛卓么[6]采用HMM模型實現了一個藏文詞性標注系統(tǒng),該系統(tǒng)對開放語料詞性標記正確率達到89.56%。由于藏文詞性標注語料規(guī)模有限及藏語語言本身的復雜性,已有公開的藏文詞性標注準確度在89%左右,并且都是在私有語料上取得的測試結果。從公開的實驗結果來看,其標注效果遠低于漢語、英語等語言的詞性標注效果,所以藏文詞性標注研究任重道遠。

        本文提出一種融合藏文形態(tài)特征的最大熵藏文詞性標注模型,根據藏文構詞特征,定義上下文特征模板,并融合了上下文音節(jié)特征。實驗結果表明,最大熵模型能夠較好的處理藏文詞性標注問題,音節(jié)特征能夠有效的提高藏文詞性標注效果,與基準系統(tǒng)相比使錯誤率降低了6.4%。

        論文的其余部分結構安排如下:第2節(jié)闡述最大熵模型及特征選擇;第3節(jié)介紹本文所采用的藏文詞性標注集;第4節(jié)給出實驗數據,并進行實驗結果分析;最后第5節(jié)為總結與展望。

        2 最大熵模型

        最大熵模型最初由E T Jaynes在1950年提出,Della Pietra等[7]將其應用于自然語言處理中。最大熵原理的基本思想是,首先利用給定的訓練樣本,選擇一個與訓練樣本一致的概率分布,它必須要滿足所有已知的事實。在沒有更多的約束和假設的情況下,對于那些不確定的部分,則會賦予均勻的概率分布。熵是用來表示隨機變量的不確定性,不確定性越大,熵越大,分布越均勻。最大熵模型如式(1)所示。

        H(P)是模型P的熵,C是滿足條件約束的模型集合,下面需要尋求P*,P*的形式如式(2)所示。

        Z(x)是歸一化常數,表示形式如式(3)所示。λi為特征的權重參數。

        2.1 特征選擇依據

        使用最大熵模型對藏文進行詞性標注,即根據當前詞x的上下文特征,確定當前詞的詞類y,最重要的是確定合適的特征集合。

        (1)常規(guī)特征,一個詞的詞性由其上下文環(huán)境決定,因此當前詞的前后n個詞可以作為判斷當前詞詞性的依據。

        (2)藏文構詞特點,藏文屬于拼音文字,是一種形態(tài)豐富的語言,其語言范疇是以內部屈折形式來表現的,如通過詞綴及附加詞綴的交替來表現動詞的現在、將來、過去時和命令式,構成自動詞和使動詞的對立等[8]。出現形態(tài)變化的往往是動詞、名詞等實詞,而數詞和虛詞一般是沒有變化的。因此,在藏文詞性標注中上下文詞和當前詞的形態(tài)特征都是很重要的可以利用的信息。

        2.2 特征模板定義

        根據對藏文構詞特征和統(tǒng)計結果分析,本文共進行了詞內部特征,前后依存詞特征以及混合特征的藏文詞性標注實驗。

        2.2.1 詞內部特征

        詞內部特征表現一個詞內部的變化,包括詞根信息和詞綴信息。以藏文動詞為例,藏文動詞的屈折形態(tài)可以分為兩類,同根類型和異根類型[9]。

        同根類型指動詞屈折變化的各個形式屬于同一個詞根,絕大多數屈折變化的動詞屬于這一種形態(tài)。如,雕刻)”詞根是異根類型指的是屈折變化的各個形式不屬于同一詞根,這樣的動詞占所有動詞的比例很少,但是對一部分不規(guī)則動詞識別具有重要的意義。

        詞根不一定出現在詞首,很可能會出現在詞中的其他位置,例如,bcags-chags,行、走)”的詞根是“ ,cag(chag)”。因此,藏文詞匯的詞首、詞尾音節(jié)對于判斷藏文詞匯的詞類起著重要的作用。詞首音節(jié)特征函數定義為:

        詞匯詞尾音節(jié)特征函數定義為:

        詞內部信息特征模板如表1所示。

        表1 詞內部特征

        2.2.2 前后依存詞特征

        前后依存詞特征表示藏文句子中與當前詞緊密聯系的詞之間的關系,前后依存詞的相關信息可以在一定程度上解決兼類詞問題。例如,句1它是支撐著所有知識的根基,充當著所有語言的元素”,句2實踐一切所學的知識)”中,知識、學習)”在句1中為名詞,表示“知識”之義,在句2中為動詞,表示“學習”之義。本文采用的前后依存詞特征如表2所示。

        表2 前后依存詞信息特征模板

        2.2.3 混合信息特征

        根據藏文詞匯的形態(tài)變化以及構詞特征,將當前詞的詞首音節(jié)、詞尾音節(jié),前、后詞,前驅詞的詞尾音節(jié)、后繼詞的詞首音節(jié)等特征混合在一起,定義混合信息特征如表3所示。

        表3 混合信息特征模板

        3 藏文詞性標注集

        藏文詞性標注集沒有一個統(tǒng)一的規(guī)范,西藏大學、青海師范大學、西北民族大學均有自己的相關標注規(guī)范。本文采用西北民族大學中國民族信息技術研究院祁坤鈺教授的藏文詞性標注集。該標注集在參照了《信息處理用現代漢語詞類標記規(guī)范》的基礎上,根據藏語語法特點增加了一部分類別,共21個大類,61個子類,由于語料規(guī)模限制本文只進行大類實驗。

        表4 藏文詞性標注集

        4 實驗及分析

        4.1 實驗準備

        本文采用的藏語文小學課本標注語料,由中國民族信息技術研究院組織標注,語料統(tǒng)計如表5所示。

        由于藏文詞性標注語料嚴重缺乏,已有的詞性標注語料數量較少,且覆蓋度差,語料的選擇會影響實驗效果。為此,本文的測試語料從整體語料中隨機抽取。表6為訓練、測試語料的詳細統(tǒng)計信息,可以看出,訓練集和測試集中詞性分布基本相同,說明本文實驗中訓練語料和測試語料較好的代表了藏文詞類分布特點。其中,名詞、動詞、介詞、標點符號、助詞等出現的比例較大。

        表5 語料統(tǒng)計

        表6 語料詳細統(tǒng)計

        經過統(tǒng)計,在測試語料中未登錄詞主要是名詞、動詞和數詞,所占比例分別為74%、8%、8%。

        本文采用標注準確度對標注結果進行評價,標注準確度定義如式(4)所示:

        4.2 實驗設置及結果分析

        在本文實驗中,采用張樂最大熵工具包①http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html和CRF++(v0.51)②http://crfpp.googlecode.com/svn/trunk/doc/index.html實現最大熵模型和條件隨機場模型。根據第2節(jié)的分析,我們采用不同的特征進行如下實驗,以下實驗均采用表2所示的前后詞依存信息,不同的是音節(jié)特征,實驗設置及實驗結果見表7,其中表2所示的詞依存特征在下文中用T1表示。

        表7 實驗結果

        實驗1采用傳統(tǒng)的詞依存特征,取得90.32%的準確度,為本文的基準系統(tǒng)。實驗2加入當前詞詞首、尾音節(jié)特征后取得了90.89%的準確度。相比實驗1準確度提高了0.57%,錯誤率降低了5.9%,說明音節(jié)特征對提高基于最大熵的藏文詞性標注效果有較大的幫助。

        實驗3、4、5加入了當前詞詞首、尾音節(jié)及前、后詞的音節(jié)等混合特征,其中實驗4取得了最好的實驗結果,實驗3和實驗5的實驗結果低于實驗2,說明在混合特征中當前詞詞首、尾音節(jié)與后繼詞詞首音節(jié)的混合特征可以提高基于音節(jié)特征的藏文詞性標注結果。

        實驗4加入當前詞詞首、尾音節(jié)和后繼詞的詞首音節(jié)特征,取得了最好的實驗結果,比實驗1的實驗結果提高了0.62%,錯誤率降低了6.4%。

        為了對比最大熵與條件隨機場的實驗效果,在下文中,采用條件隨機場、最大熵的詞性標注結果分別表示為CRF、ME,采用的特征見表2,實驗結果如表8所示。

        從表8實驗結果來看,基于ME的實驗結果優(yōu)于基于CRF的實驗結果,比基于CRF的詞性標注實驗結果高了約0.5%。雖然最大熵模型存在標記偏置(label bias)問題[10],而條件隨機場模型不存在這個問題,但是從本文的實驗結果來看,基于 ME的藏文詞性標記實驗結果較好。

        表8 詞性標注對比實驗

        從實驗結果來看,標點符號、介詞標注結果較好,并且在各個模型之間實驗結果很穩(wěn)定。標點符號和介詞是封閉類(the close class),這類詞的數量比較固定,因此在實驗中標注效果較好。

        終結詞是較為具有藏文特點的詞類,添加在一句話的末尾,表示語義上的結束。在藏文中一共有11個終結詞,是封閉類,但是可以當作兼類詞。從實驗結果來看,ME可以完全標注出來,而CRF對其識別效果不太好。

        名詞、動詞是開放的類,開放類的識別效果直接影響整體識別結果。從對比實驗結果可以看出來,CRF和ME對名詞識別效果較好,CRF對動詞識別效果較好。

        4.3 詞性標注錯誤分析

        表9是基于最大熵的藏文詞性標注錯誤詳細分析,其中動詞、名詞、形容詞和數詞的標注錯誤占了所有標注錯誤的很大比例。主要錯誤為,形容詞標注成了名詞、數詞和動詞;數詞標注成了名詞和助詞;動詞標注成了名詞和助詞;名詞主要標注成形容詞,并且名詞可以標注成連詞、副詞、終結詞、方位詞等。在表9中,以第一行為例,a表示當前詞是形容詞,比例為9%,表示在所有的標注錯誤中,形容詞標注錯誤占了9%的比例,錯誤原因中“72%n;11%m;11%d”表示在名詞標注錯誤中72%把a標注為n,11%把a標注為m,其余表示方法如上所示。

        表9 ME標注錯誤

        5 總結與展望

        本文介紹了融合音節(jié)特征的最大熵藏文詞性標注的研究工作,重點在于特征選擇上,根據藏文的形態(tài)特征,選取當前詞詞首、尾音節(jié)和前驅詞詞尾音節(jié),后繼詞詞首音節(jié)等混合形態(tài)特征信息,構建了藏文詞性標注系統(tǒng)。實驗結果表明最大熵可以為藏文這種豐富形態(tài)特征語言的詞性標注提供一個有效的模型,來建模上下文信息,音節(jié)特征可以顯著提高藏文詞性標注準確度,在本文實驗中取得了90.94%的準確度,與基準系統(tǒng)相比準確度提高了0.62%,錯誤率降低了6.4%。由于本文實驗所使用語料規(guī)模有限,詞性標注的整體效果有待進一步提高。

        在下一步工作中,我們希望更加深入的研究藏文詞匯的內部結構特征,對特征模板集進行改進,通過對標注結果的錯誤分析,進一步修正特征模板的定義,最終提高藏文詞性標注結果。

        [1]宗成慶.統(tǒng)計自然語言處理[M].清華大學出版社,2008.

        [2]張貫虹,斯·勞格勞,烏達巴拉.融合形態(tài)特征的最大熵蒙古文詞性標注模型[J].計算機研究與發(fā)展,2011,48(12):2385-2390.

        [3]劉開瑛.中文文本自動分詞和標注[M].商務印書館,2000.

        [4]陳玉忠,俞士汶.藏文信息處理技術的研究現狀與展望[J].中國藏學,2003,04:97-107.

        [5]蘇俊峰.基于HMM的藏語語料庫詞性自動標注研究[D].西北民族大學碩士學位論文,2010.

        [6]羊毛卓么.藏文詞性自動標注系統(tǒng)的研究與實現[D].西藏大學碩士學位論文,2012.

        [7]Adam L Berger,Stephen A DellaPietra,Vincent J Della Pietra.A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistics,1996,1(22):39-71.

        [8]宋金蘭.藏語形態(tài)變體的分化[J].民族語文,2001,1:29-33.

        [9]瞿靄堂.藏語動詞屈折形態(tài)的結構及其演變[J].民族語文,1985,1:1-15.

        [10]J Lafferty,A McCallum,F Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of ICML-2001,2001:282-289.

        猜你喜歡
        特征實驗模型
        一半模型
        記一次有趣的實驗
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        NO與NO2相互轉化實驗的改進
        精品无人码麻豆乱码1区2区| 蜜桃在线观看免费高清完整版| 美女草逼视频免费播放| 国内精品亚洲成av人片| 四川发廊丰满老熟妇| 色综合久久久久综合体桃花网| 亚洲第一页综合图片自拍| 精品人无码一区二区三区| 亚洲国产精品一区二区第一| 日产精品毛片av一区二区三区| 久久精品熟女亚洲av麻| 精品日产卡一卡二卡国色天香 | 娇柔白嫩呻吟人妻尤物| 美女狂喷白浆网站视频在线观看 | 国产人妖直男在线视频| 人妻丰满熟妇av无码区app| 久久精品99久久香蕉国产色戒| av无码天堂一区二区三区| 一区二区三区在线乱码| 久久精品不卡一区二区三区| 国产精品兄妹在线观看麻豆| 国产不卡一区二区三区免费视 | 中文字幕日韩精品人妻久久久| 成年美女黄的视频网站| 久久人人爽人人爽人人片亞洲| 国产成社区在线视频观看| 你懂的视频网站亚洲视频 | 性色av无码久久一区二区三区| 亚洲欧洲日韩免费无码h| 人妻少妇中文字幕专区| 久久亚洲中文字幕精品熟| 极品少妇小泬50pthepon| 爽妇网国产精品| 蜜桃av噜噜噜一区二区三区| 一本色道无码不卡在线观看| 亚洲欧洲无码一区二区三区| 无遮高潮国产免费观看韩国| 好看的日韩精品视频在线 | 国产一起色一起爱| 亚洲中文字幕精品久久吃奶| 亚洲色欲色欲大片www无码|