亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貝葉斯分類器和條件隨機場模型的詞義消歧對比研究

        2011-12-31 13:42:14屠明萍
        文教資料 2011年36期
        關(guān)鍵詞:模型

        屠明萍

        (南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

        詞義消歧就是在某個特定的上下文中,確定某個多義詞在該上下文中特定義項的過程[1]。詞義消歧作為一個中間任務(wù),對自然語言處理十分重要,很多應(yīng)用都需要經(jīng)過詞義消歧才能更好地發(fā)揮作用,比如機器翻譯、信息檢索、自然語言內(nèi)容語義分析、語法分析、語音識別和文語轉(zhuǎn)換等都需要詞義消歧的結(jié)果。詞義消歧是一種自然語言處理技術(shù),它根據(jù)知識獲取的方法可分為兩種:一是基于詞典的消歧方法,指把機讀詞典(語文詞典或義類詞典)作為外部知識源,它本質(zhì)上是一種基于規(guī)則的方法,有時也用到簡單的統(tǒng)計,但并非語言模型意義上的統(tǒng)計;二是基于統(tǒng)計的消歧方法,由研究者給出多義詞形的義項數(shù)并分義項提供訓(xùn)練用的例句,例如貝葉斯分類器(Naive Bayes Classifier,NBC)。

        條件隨機場模型(Conditional Random Field,CRF)自從被引入自然語言處理以來,在詞性標注、專名識別和語義角色標注中都取得了很好的效果,而它在詞義消歧任務(wù)中的出色表現(xiàn)更是吸引了很多人的注意。本文通過“保守”一詞的詞義消歧實驗將貝葉斯分類器和條件隨機場模型的消歧效果進行了比較,進而根據(jù)實驗結(jié)果對比分析兩種模型的優(yōu)缺點。

        1.兩種典型的詞義消歧模型概述

        1.1貝葉斯分類器(NBC)

        貝葉斯分類器是一種用于單點分類的概率模型,是貝葉斯公式的推廣,適合處理單點分類問題。所謂“單點分類”,是指序列中的一個符號對應(yīng)于什么狀態(tài),與序列中的其他符號對應(yīng)于什么狀態(tài)無關(guān)。它用來做詞義消歧時遵循的基本思路是考慮歧義詞周圍的其他詞的信息,把上下文(觀察窗口)看成詞的集合(詞袋),根據(jù)這些信息進行詞義消歧。對于詞義消岐來說意味著:窗口中的詞序和結(jié)構(gòu)不重要,窗口中的詞都是獨立地起作用,這就是樸素貝葉斯假設(shè)。貝葉斯分類器的消歧算法如下:

        forallsensesskofw{score(sk) =logP(sk);forallwordsvjinthewindowc score(sk) +=logP(vj|sk);}chooses’=argmaxskscore(sk);

        這類似于一個投票過程:k個詞義,好比k個候選人。每個詞義的選票數(shù)相同。每個詞義本身的費用,是一張保底的選票。Baseline消岐算法只看這一張選票。其余選票數(shù)(線索詞個數(shù))不大于窗口寬度,可能是贊成票(正數(shù)),也可能是反對票(負數(shù))。投票結(jié)束時,累計費用最小的詞義“當選”,即為消岐結(jié)果。

        1.2條件隨機場模型(CRF)

        1.2.1條件隨機場概述

        條件隨機場是一個在給定輸入節(jié)點(觀察值)條件下計算輸出節(jié)點(標記)的條件概率的無向圖模型,特別擅長處理序列標記問題。(2)其公式表示為:

        pλ(Y|X)是求在λ參數(shù)制約下類別向量Y的條件概率

        Z(x)是歸一化因子。n是序列長度,m是特征函數(shù)個數(shù)。特征函數(shù)fi有兩種:一是狀態(tài)特征函數(shù),二是轉(zhuǎn)移特征函數(shù)。

        1.2.2CRF訓(xùn)練和標注的相關(guān)文件及格式

        用條件隨機場模型進行訓(xùn)練有兩個輸入文件,一是訓(xùn)練語料,二是特征模板。訓(xùn)練語料有特定的格式要求,它由若干行組成,每行的列數(shù)必須相同,第一列是待分類的token,最后一列是類別標記。若干個連續(xù)的tokens組成一個sentence,每個sentence后面有一個空行,文件結(jié)束時再加一個空行。表1是本文所用到的條件隨機場訓(xùn)練文件的一部分。其中第一列是詞,第二列是詞性,第三列中只對歧義詞進行詞義標記,其它詞的詞義都用none標記(如左圖表1)。

        ?

        特征模板是訓(xùn)練出模型必不可少的條件,它的基本格式是%x[row,col],其中row表示與當前token的相對行數(shù),col表示列的絕對位置。特征可分為原子特征,一元復(fù)合特征和二元特征。表2是一個CRF特征模板樣本及其意義解釋。

        ?

        CRF訓(xùn)練有一個輸出文件,即模型文件。CRF標注同樣有兩個輸入文件和一個輸出文件。輸入文件包括測試語料和模型文件,測試語料的格式與訓(xùn)練語料大致相同,但可以沒有標記。本文的測試語料是有標記的,這是為了便于評測正確率。測試所用的模型文件就是訓(xùn)練得到的模型文件。標注的輸出文件就是標注好的語料,其結(jié)果是在測試語料增加一列類別標記。

        2.實驗過程

        2.1實驗前的準備

        本文是為了比較兩個模型在詞義消歧任務(wù)上的優(yōu)劣,所以實驗分為兩部分,一是基于貝葉斯分類器的詞義消歧實驗,二是基于條件隨機場模型的詞義消歧實驗。本次實驗的操作平臺為Windows7系統(tǒng)。基于條件隨機場的訓(xùn)練和測試采用TakuKudo編寫的工具包“CRF++0.47”。(下載地址:http://crfpp.sourceforge.net/)。

        兩個實驗所用的語料都是來自1998年上半年《人民日報》的1356句包括“保守”一詞的句子,因為“保守”是一個典型的多義詞,一個意思是“嚴守”,另一個意思是“守舊”。其中,用1260句作為訓(xùn)練語料,另外96句作為測試語料。訓(xùn)練語料和測試語料都經(jīng)過分詞和詞性標注。

        2.2貝葉斯分類器詞義消歧

        用貝葉斯分類器做詞義消歧的實驗分為三個步驟:訓(xùn)練、分類和評測。

        訓(xùn)練階段,設(shè)定訓(xùn)練文件的上下文窗口為5,在每個句子前人工標注該句中“保守”的正確意義。訓(xùn)練得到模型,即線索詞及其詞頻信息。分類階段,加載訓(xùn)練得到的模型,輸出詞義消歧的結(jié)果。評測階段,制作測試文件的標準答案,并對消歧結(jié)果計算其召回率。

        2.3條件隨機場模型詞義消歧

        基于條件隨機場模型的詞義消歧實驗同樣分為三個步驟:訓(xùn)練、標注和評測。

        訓(xùn)練階段,首先要用轉(zhuǎn)換程序?qū)⑵胀ㄎ谋靖袷降挠?xùn)練語料轉(zhuǎn)換為條件隨機場模型特定的訓(xùn)練文件格式。然后,也是最重要的一步,就是特征模板的確定。多義詞的一個顯著特點是,意義與詞性之間存在密切聯(lián)系,詞性不同,往往意義也不同。根據(jù)這一特點,此次實驗采用的7個模板有6個加入了詞性特征,只有1個未加詞性特征,以觀察詞性特征對詞義消歧的貢獻。這7個模板及其解釋如表3所示。(表中的“∪”表示取并集)

        ?

        訓(xùn)練時添加特征模板、訓(xùn)練文件及一個空的模型文件,再進行一些參數(shù)的設(shè)置,即得到了模型文件。標注階段,在標注窗口添加模型文件、已轉(zhuǎn)換成相應(yīng)格式的測試文件以及一個空的標注結(jié)果文件(用于輸出)。評測階段,用CRF評測程序?qū)俗⒔Y(jié)果進行評測,得出詞和句子的標注正確率。

        3.實驗結(jié)果及分析

        3.1CRF詞義消歧結(jié)果分析

        基于條件隨機場的消歧實驗使用了7個不同的特征模板,所以有7個消歧結(jié)果,并且每個結(jié)果都有封閉測試和開放測試結(jié)果,而封閉測試和開放測試都有其詞正確率和句子正確率。關(guān)于實驗結(jié)果的評價指標,本文采用召回率(R),其計算公式如下:

        召回率(R)=正確標注的個數(shù)/待標注多義詞的個數(shù)

        具體數(shù)據(jù)如表4所示。

        ?

        結(jié)合表5我們可以更清晰地看出各個消歧正確率的對比。7個模板的封閉測試詞正確率和句子正確率都在99%以上,且詞正確率和句子正確率差距很小,這是因為此次實驗只針對每個句子中的一個多義詞進行消歧,其他詞都標注為none。但是封閉測試并不能說明多大問題,主要是看開放測試正確率。讓人驚喜的是,本次實驗開放測試正確率也相當高,詞正確率依然在99%以上,句子正確率也達到了97%以上。再看各個模板開放測試的結(jié)果。T1到T2窗口長度由1變?yōu)?,詞正確率和句子正確率都提高了。T2到T4雖然窗口長度由2逐漸拓寬到4,但詞正確率和句子正確率反而下降了,這說明窗口長度在2時達到最佳消歧效果,再加大窗口長度只會增加噪聲,不利于消歧。T5由T2再加上上下文窗口為1的詞和詞性的一元復(fù)合特征,正確率并沒有提高。這說明在本次實驗中一元復(fù)合特征對消歧結(jié)果并無影響,但是不排除在其他實驗中有作用,至于是積極作用還是消極作用有待于以后更深入的研究。T6是在T5基礎(chǔ)上增加了二元特征,但結(jié)果表明消歧正確率并未因此而提高。T7和T2相比少了詞性特征,正確率降低了不少,特別是句子正確率,是所有模板中正確率最低的。這說明詞性特征對詞義消歧作用是非常積極的。這根漢語多義詞的特點有關(guān),很多多義詞由于詞性不同意義也會不同,例如本次試驗中的“保守”作為嚴守義是動詞,而作為守舊義是形容詞。

        表5

        3.2CRF與NBC詞義消歧結(jié)果對比分析

        貝葉斯分類器的結(jié)果只有一個,而條件隨機場模型詞義消歧的結(jié)果有若干個,究竟取哪個與貝葉斯分類器作比較呢?我們發(fā)現(xiàn),條件隨機場模型消歧實驗開放測試結(jié)果中的句子正確率其實就是我們所要使用的評價指標(召回率),因為它反映了詞義標注的實際結(jié)果。為了更公平地比較兩者的消歧效果,我們用條件隨機場實驗的句子正確率的平均值與貝葉斯分類器的召回率作比較。具體數(shù)據(jù)見表6。

        ?

        顯然,條件隨機場模型的消歧效果要優(yōu)于貝葉斯分類器的消歧效果,在本次實驗中前者比后者要高出1.8個百分點。條件隨機場模型能出色地完成詞義消歧任務(wù)與該模型的特性是分不開的。CRF模型較好地克服了輸出獨立性假設(shè)和馬爾科夫性假設(shè)的局限性,能從上下文中任意地選擇所需要的特征,并且有很強的特征組合能力。特別是在本次實驗中,詞性特征顯示出極為重要的作用,正是因為這一點,條件隨機場模型在詞義消歧任務(wù)上要明顯勝于貝葉斯分類器。

        然而不得不提的是,貝葉斯分類器雖然在最終消歧結(jié)果上不及條件隨機場模型,但是它的訓(xùn)練簡單省時,而條件隨機場模型需要在訓(xùn)練之前準備好特征模板,而且參數(shù)過大,訓(xùn)練時間較長。在這一點上貝葉斯分類器又有其優(yōu)勢。

        4.結(jié)語

        本文采用貝葉斯分類器和條件隨機場模型分別在同等規(guī)模的訓(xùn)練集和測試集上進行了詞義消歧的對比實驗。在理論上條件隨機場模型能從上下文中任意地選擇所需要的特征,而且有很強的特征組合能力,而貝葉斯分類器只對上下文的詞形做訓(xùn)練,所以消歧結(jié)果應(yīng)該是條件隨機場模型優(yōu)于貝葉斯分類器,而實驗結(jié)果也證明了這一點。但是在訓(xùn)練復(fù)雜度上,條件隨機場模型要比貝葉斯分類器更為復(fù)雜一些。本文的實驗還有一些不足的地方,比如條件隨機場模型的特征選擇,除了詞和詞性以外應(yīng)該還可以增加其他特征以提高消歧正確率,這就需要更深入的研究了。

        [1]黃昌寧,夏瑩.語言信息處理專論[M].北京:清華大學(xué)出版社,1996:78-101.

        [2]丁德鑫,曲維光,徐濤,董宇.基于CRF模型的組合型歧義消解研究[J].南京師范大學(xué)學(xué)報(工程技術(shù)版),2008,8,(4):73-76.

        [3]苗雪雷.基于條件隨機場的漢語詞義消歧方法研究[D].[碩士學(xué)位論文].沈陽:沈陽航空工業(yè)學(xué)院,2007.

        [4]王達,張坤.貝葉斯模型在詞義消歧中的應(yīng)用[J].計算機時代,2009,(7).

        [5]于麗麗,丁德鑫,曲維光,陳小荷,李惠.基于條件隨機場的古漢語詞義消歧研究[J].微電子學(xué)與計算機,2009,(10).

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        男女边摸边吃奶边做视频韩国| 最近2019年好看中文字幕视频| 国产办公室秘书无码精品99| 免费黄色影片| 久久水蜜桃亚洲av无码精品麻豆| 日韩一区av二区三区| 国产精品国产三级国产专播| 99久久精品费精品国产一区二区| 国产精品久久久久尤物| 日本肥老熟妇在线观看| av在线免费观看大全| 国产亚洲精品一区二区无| 国产成人亚洲精品青草天美| 国产91成人精品亚洲精品| 亚洲三级香港三级久久| 日本超骚少妇熟妇视频| 久久久久av综合网成人| 亚洲色成人网站www永久| 亚洲精品无码高潮喷水在线| 尤物yw午夜国产精品视频| 亚洲啪啪色婷婷一区二区| 国产果冻豆传媒麻婆精东| vr成人片在线播放网站| 白白色发布永久免费观看视频| 日本乱码一区二区三区在线观看| 亚洲综合av一区二区三区| 欧洲亚洲综合| 精品专区一区二区三区| 精品人妻av一区二区三区| 国产麻豆精品久久一二三| 国产一区二区三区爆白浆| 青草草视频在线观看华人免费| 男女av一区二区三区| 亚洲精品午夜无码电影网| 亚洲国产成人AⅤ片在线观看| 成人亚洲av网站在线看| 天天躁日日躁aaaaxxxx| 久久综合给合久久狠狠狠97色69| 黄色av三级在线免费观看| 精品亚洲第一区二区三区| 国产果冻豆传媒麻婆精东|