亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貝葉斯分類器和條件隨機(jī)場(chǎng)模型的詞義消歧對(duì)比研究

        2011-12-31 13:42:14屠明萍
        文教資料 2011年36期
        關(guān)鍵詞:消歧貝葉斯詞義

        屠明萍

        (南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

        詞義消歧就是在某個(gè)特定的上下文中,確定某個(gè)多義詞在該上下文中特定義項(xiàng)的過(guò)程[1]。詞義消歧作為一個(gè)中間任務(wù),對(duì)自然語(yǔ)言處理十分重要,很多應(yīng)用都需要經(jīng)過(guò)詞義消歧才能更好地發(fā)揮作用,比如機(jī)器翻譯、信息檢索、自然語(yǔ)言內(nèi)容語(yǔ)義分析、語(yǔ)法分析、語(yǔ)音識(shí)別和文語(yǔ)轉(zhuǎn)換等都需要詞義消歧的結(jié)果。詞義消歧是一種自然語(yǔ)言處理技術(shù),它根據(jù)知識(shí)獲取的方法可分為兩種:一是基于詞典的消歧方法,指把機(jī)讀詞典(語(yǔ)文詞典或義類詞典)作為外部知識(shí)源,它本質(zhì)上是一種基于規(guī)則的方法,有時(shí)也用到簡(jiǎn)單的統(tǒng)計(jì),但并非語(yǔ)言模型意義上的統(tǒng)計(jì);二是基于統(tǒng)計(jì)的消歧方法,由研究者給出多義詞形的義項(xiàng)數(shù)并分義項(xiàng)提供訓(xùn)練用的例句,例如貝葉斯分類器(Naive Bayes Classifier,NBC)。

        條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)自從被引入自然語(yǔ)言處理以來(lái),在詞性標(biāo)注、專名識(shí)別和語(yǔ)義角色標(biāo)注中都取得了很好的效果,而它在詞義消歧任務(wù)中的出色表現(xiàn)更是吸引了很多人的注意。本文通過(guò)“保守”一詞的詞義消歧實(shí)驗(yàn)將貝葉斯分類器和條件隨機(jī)場(chǎng)模型的消歧效果進(jìn)行了比較,進(jìn)而根據(jù)實(shí)驗(yàn)結(jié)果對(duì)比分析兩種模型的優(yōu)缺點(diǎn)。

        1.兩種典型的詞義消歧模型概述

        1.1貝葉斯分類器(NBC)

        貝葉斯分類器是一種用于單點(diǎn)分類的概率模型,是貝葉斯公式的推廣,適合處理單點(diǎn)分類問(wèn)題。所謂“單點(diǎn)分類”,是指序列中的一個(gè)符號(hào)對(duì)應(yīng)于什么狀態(tài),與序列中的其他符號(hào)對(duì)應(yīng)于什么狀態(tài)無(wú)關(guān)。它用來(lái)做詞義消歧時(shí)遵循的基本思路是考慮歧義詞周?chē)钠渌~的信息,把上下文(觀察窗口)看成詞的集合(詞袋),根據(jù)這些信息進(jìn)行詞義消歧。對(duì)于詞義消岐來(lái)說(shuō)意味著:窗口中的詞序和結(jié)構(gòu)不重要,窗口中的詞都是獨(dú)立地起作用,這就是樸素貝葉斯假設(shè)。貝葉斯分類器的消歧算法如下:

        forallsensesskofw{score(sk) =logP(sk);forallwordsvjinthewindowc score(sk) +=logP(vj|sk);}chooses’=argmaxskscore(sk);

        這類似于一個(gè)投票過(guò)程:k個(gè)詞義,好比k個(gè)候選人。每個(gè)詞義的選票數(shù)相同。每個(gè)詞義本身的費(fèi)用,是一張保底的選票。Baseline消岐算法只看這一張選票。其余選票數(shù)(線索詞個(gè)數(shù))不大于窗口寬度,可能是贊成票(正數(shù)),也可能是反對(duì)票(負(fù)數(shù))。投票結(jié)束時(shí),累計(jì)費(fèi)用最小的詞義“當(dāng)選”,即為消岐結(jié)果。

        1.2條件隨機(jī)場(chǎng)模型(CRF)

        1.2.1條件隨機(jī)場(chǎng)概述

        條件隨機(jī)場(chǎng)是一個(gè)在給定輸入節(jié)點(diǎn)(觀察值)條件下計(jì)算輸出節(jié)點(diǎn)(標(biāo)記)的條件概率的無(wú)向圖模型,特別擅長(zhǎng)處理序列標(biāo)記問(wèn)題。(2)其公式表示為:

        pλ(Y|X)是求在λ參數(shù)制約下類別向量Y的條件概率

        Z(x)是歸一化因子。n是序列長(zhǎng)度,m是特征函數(shù)個(gè)數(shù)。特征函數(shù)fi有兩種:一是狀態(tài)特征函數(shù),二是轉(zhuǎn)移特征函數(shù)。

        1.2.2CRF訓(xùn)練和標(biāo)注的相關(guān)文件及格式

        用條件隨機(jī)場(chǎng)模型進(jìn)行訓(xùn)練有兩個(gè)輸入文件,一是訓(xùn)練語(yǔ)料,二是特征模板。訓(xùn)練語(yǔ)料有特定的格式要求,它由若干行組成,每行的列數(shù)必須相同,第一列是待分類的token,最后一列是類別標(biāo)記。若干個(gè)連續(xù)的tokens組成一個(gè)sentence,每個(gè)sentence后面有一個(gè)空行,文件結(jié)束時(shí)再加一個(gè)空行。表1是本文所用到的條件隨機(jī)場(chǎng)訓(xùn)練文件的一部分。其中第一列是詞,第二列是詞性,第三列中只對(duì)歧義詞進(jìn)行詞義標(biāo)記,其它詞的詞義都用none標(biāo)記(如左圖表1)。

        ?

        特征模板是訓(xùn)練出模型必不可少的條件,它的基本格式是%x[row,col],其中row表示與當(dāng)前token的相對(duì)行數(shù),col表示列的絕對(duì)位置。特征可分為原子特征,一元復(fù)合特征和二元特征。表2是一個(gè)CRF特征模板樣本及其意義解釋。

        ?

        CRF訓(xùn)練有一個(gè)輸出文件,即模型文件。CRF標(biāo)注同樣有兩個(gè)輸入文件和一個(gè)輸出文件。輸入文件包括測(cè)試語(yǔ)料和模型文件,測(cè)試語(yǔ)料的格式與訓(xùn)練語(yǔ)料大致相同,但可以沒(méi)有標(biāo)記。本文的測(cè)試語(yǔ)料是有標(biāo)記的,這是為了便于評(píng)測(cè)正確率。測(cè)試所用的模型文件就是訓(xùn)練得到的模型文件。標(biāo)注的輸出文件就是標(biāo)注好的語(yǔ)料,其結(jié)果是在測(cè)試語(yǔ)料增加一列類別標(biāo)記。

        2.實(shí)驗(yàn)過(guò)程

        2.1實(shí)驗(yàn)前的準(zhǔn)備

        本文是為了比較兩個(gè)模型在詞義消歧任務(wù)上的優(yōu)劣,所以實(shí)驗(yàn)分為兩部分,一是基于貝葉斯分類器的詞義消歧實(shí)驗(yàn),二是基于條件隨機(jī)場(chǎng)模型的詞義消歧實(shí)驗(yàn)。本次實(shí)驗(yàn)的操作平臺(tái)為Windows7系統(tǒng)?;跅l件隨機(jī)場(chǎng)的訓(xùn)練和測(cè)試采用TakuKudo編寫(xiě)的工具包“CRF++0.47”。(下載地址:http://crfpp.sourceforge.net/)。

        兩個(gè)實(shí)驗(yàn)所用的語(yǔ)料都是來(lái)自1998年上半年《人民日?qǐng)?bào)》的1356句包括“保守”一詞的句子,因?yàn)椤氨J亍笔且粋€(gè)典型的多義詞,一個(gè)意思是“嚴(yán)守”,另一個(gè)意思是“守舊”。其中,用1260句作為訓(xùn)練語(yǔ)料,另外96句作為測(cè)試語(yǔ)料。訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料都經(jīng)過(guò)分詞和詞性標(biāo)注。

        2.2貝葉斯分類器詞義消歧

        用貝葉斯分類器做詞義消歧的實(shí)驗(yàn)分為三個(gè)步驟:訓(xùn)練、分類和評(píng)測(cè)。

        訓(xùn)練階段,設(shè)定訓(xùn)練文件的上下文窗口為5,在每個(gè)句子前人工標(biāo)注該句中“保守”的正確意義。訓(xùn)練得到模型,即線索詞及其詞頻信息。分類階段,加載訓(xùn)練得到的模型,輸出詞義消歧的結(jié)果。評(píng)測(cè)階段,制作測(cè)試文件的標(biāo)準(zhǔn)答案,并對(duì)消歧結(jié)果計(jì)算其召回率。

        2.3條件隨機(jī)場(chǎng)模型詞義消歧

        基于條件隨機(jī)場(chǎng)模型的詞義消歧實(shí)驗(yàn)同樣分為三個(gè)步驟:訓(xùn)練、標(biāo)注和評(píng)測(cè)。

        訓(xùn)練階段,首先要用轉(zhuǎn)換程序?qū)⑵胀ㄎ谋靖袷降挠?xùn)練語(yǔ)料轉(zhuǎn)換為條件隨機(jī)場(chǎng)模型特定的訓(xùn)練文件格式。然后,也是最重要的一步,就是特征模板的確定。多義詞的一個(gè)顯著特點(diǎn)是,意義與詞性之間存在密切聯(lián)系,詞性不同,往往意義也不同。根據(jù)這一特點(diǎn),此次實(shí)驗(yàn)采用的7個(gè)模板有6個(gè)加入了詞性特征,只有1個(gè)未加詞性特征,以觀察詞性特征對(duì)詞義消歧的貢獻(xiàn)。這7個(gè)模板及其解釋如表3所示。(表中的“∪”表示取并集)

        ?

        訓(xùn)練時(shí)添加特征模板、訓(xùn)練文件及一個(gè)空的模型文件,再進(jìn)行一些參數(shù)的設(shè)置,即得到了模型文件。標(biāo)注階段,在標(biāo)注窗口添加模型文件、已轉(zhuǎn)換成相應(yīng)格式的測(cè)試文件以及一個(gè)空的標(biāo)注結(jié)果文件(用于輸出)。評(píng)測(cè)階段,用CRF評(píng)測(cè)程序?qū)?biāo)注結(jié)果進(jìn)行評(píng)測(cè),得出詞和句子的標(biāo)注正確率。

        3.實(shí)驗(yàn)結(jié)果及分析

        3.1CRF詞義消歧結(jié)果分析

        基于條件隨機(jī)場(chǎng)的消歧實(shí)驗(yàn)使用了7個(gè)不同的特征模板,所以有7個(gè)消歧結(jié)果,并且每個(gè)結(jié)果都有封閉測(cè)試和開(kāi)放測(cè)試結(jié)果,而封閉測(cè)試和開(kāi)放測(cè)試都有其詞正確率和句子正確率。關(guān)于實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo),本文采用召回率(R),其計(jì)算公式如下:

        召回率(R)=正確標(biāo)注的個(gè)數(shù)/待標(biāo)注多義詞的個(gè)數(shù)

        具體數(shù)據(jù)如表4所示。

        ?

        結(jié)合表5我們可以更清晰地看出各個(gè)消歧正確率的對(duì)比。7個(gè)模板的封閉測(cè)試詞正確率和句子正確率都在99%以上,且詞正確率和句子正確率差距很小,這是因?yàn)榇舜螌?shí)驗(yàn)只針對(duì)每個(gè)句子中的一個(gè)多義詞進(jìn)行消歧,其他詞都標(biāo)注為none。但是封閉測(cè)試并不能說(shuō)明多大問(wèn)題,主要是看開(kāi)放測(cè)試正確率。讓人驚喜的是,本次實(shí)驗(yàn)開(kāi)放測(cè)試正確率也相當(dāng)高,詞正確率依然在99%以上,句子正確率也達(dá)到了97%以上。再看各個(gè)模板開(kāi)放測(cè)試的結(jié)果。T1到T2窗口長(zhǎng)度由1變?yōu)?,詞正確率和句子正確率都提高了。T2到T4雖然窗口長(zhǎng)度由2逐漸拓寬到4,但詞正確率和句子正確率反而下降了,這說(shuō)明窗口長(zhǎng)度在2時(shí)達(dá)到最佳消歧效果,再加大窗口長(zhǎng)度只會(huì)增加噪聲,不利于消歧。T5由T2再加上上下文窗口為1的詞和詞性的一元復(fù)合特征,正確率并沒(méi)有提高。這說(shuō)明在本次實(shí)驗(yàn)中一元復(fù)合特征對(duì)消歧結(jié)果并無(wú)影響,但是不排除在其他實(shí)驗(yàn)中有作用,至于是積極作用還是消極作用有待于以后更深入的研究。T6是在T5基礎(chǔ)上增加了二元特征,但結(jié)果表明消歧正確率并未因此而提高。T7和T2相比少了詞性特征,正確率降低了不少,特別是句子正確率,是所有模板中正確率最低的。這說(shuō)明詞性特征對(duì)詞義消歧作用是非常積極的。這根漢語(yǔ)多義詞的特點(diǎn)有關(guān),很多多義詞由于詞性不同意義也會(huì)不同,例如本次試驗(yàn)中的“保守”作為嚴(yán)守義是動(dòng)詞,而作為守舊義是形容詞。

        表5

        3.2CRF與NBC詞義消歧結(jié)果對(duì)比分析

        貝葉斯分類器的結(jié)果只有一個(gè),而條件隨機(jī)場(chǎng)模型詞義消歧的結(jié)果有若干個(gè),究竟取哪個(gè)與貝葉斯分類器作比較呢?我們發(fā)現(xiàn),條件隨機(jī)場(chǎng)模型消歧實(shí)驗(yàn)開(kāi)放測(cè)試結(jié)果中的句子正確率其實(shí)就是我們所要使用的評(píng)價(jià)指標(biāo)(召回率),因?yàn)樗从沉嗽~義標(biāo)注的實(shí)際結(jié)果。為了更公平地比較兩者的消歧效果,我們用條件隨機(jī)場(chǎng)實(shí)驗(yàn)的句子正確率的平均值與貝葉斯分類器的召回率作比較。具體數(shù)據(jù)見(jiàn)表6。

        ?

        顯然,條件隨機(jī)場(chǎng)模型的消歧效果要優(yōu)于貝葉斯分類器的消歧效果,在本次實(shí)驗(yàn)中前者比后者要高出1.8個(gè)百分點(diǎn)。條件隨機(jī)場(chǎng)模型能出色地完成詞義消歧任務(wù)與該模型的特性是分不開(kāi)的。CRF模型較好地克服了輸出獨(dú)立性假設(shè)和馬爾科夫性假設(shè)的局限性,能從上下文中任意地選擇所需要的特征,并且有很強(qiáng)的特征組合能力。特別是在本次實(shí)驗(yàn)中,詞性特征顯示出極為重要的作用,正是因?yàn)檫@一點(diǎn),條件隨機(jī)場(chǎng)模型在詞義消歧任務(wù)上要明顯勝于貝葉斯分類器。

        然而不得不提的是,貝葉斯分類器雖然在最終消歧結(jié)果上不及條件隨機(jī)場(chǎng)模型,但是它的訓(xùn)練簡(jiǎn)單省時(shí),而條件隨機(jī)場(chǎng)模型需要在訓(xùn)練之前準(zhǔn)備好特征模板,而且參數(shù)過(guò)大,訓(xùn)練時(shí)間較長(zhǎng)。在這一點(diǎn)上貝葉斯分類器又有其優(yōu)勢(shì)。

        4.結(jié)語(yǔ)

        本文采用貝葉斯分類器和條件隨機(jī)場(chǎng)模型分別在同等規(guī)模的訓(xùn)練集和測(cè)試集上進(jìn)行了詞義消歧的對(duì)比實(shí)驗(yàn)。在理論上條件隨機(jī)場(chǎng)模型能從上下文中任意地選擇所需要的特征,而且有很強(qiáng)的特征組合能力,而貝葉斯分類器只對(duì)上下文的詞形做訓(xùn)練,所以消歧結(jié)果應(yīng)該是條件隨機(jī)場(chǎng)模型優(yōu)于貝葉斯分類器,而實(shí)驗(yàn)結(jié)果也證明了這一點(diǎn)。但是在訓(xùn)練復(fù)雜度上,條件隨機(jī)場(chǎng)模型要比貝葉斯分類器更為復(fù)雜一些。本文的實(shí)驗(yàn)還有一些不足的地方,比如條件隨機(jī)場(chǎng)模型的特征選擇,除了詞和詞性以外應(yīng)該還可以增加其他特征以提高消歧正確率,這就需要更深入的研究了。

        [1]黃昌寧,夏瑩.語(yǔ)言信息處理專論[M].北京:清華大學(xué)出版社,1996:78-101.

        [2]丁德鑫,曲維光,徐濤,董宇.基于CRF模型的組合型歧義消解研究[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2008,8,(4):73-76.

        [3]苗雪雷.基于條件隨機(jī)場(chǎng)的漢語(yǔ)詞義消歧方法研究[D].[碩士學(xué)位論文].沈陽(yáng):沈陽(yáng)航空工業(yè)學(xué)院,2007.

        [4]王達(dá),張坤.貝葉斯模型在詞義消歧中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2009,(7).

        [5]于麗麗,丁德鑫,曲維光,陳小荷,李惠.基于條件隨機(jī)場(chǎng)的古漢語(yǔ)詞義消歧研究[J].微電子學(xué)與計(jì)算機(jī),2009,(10).

        猜你喜歡
        消歧貝葉斯詞義
        基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
        基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
        西夏語(yǔ)“頭項(xiàng)”詞義考
        西夏研究(2020年1期)2020-04-01 11:54:26
        詞義辨別小妙招——看圖辨詞
        藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        字意與詞義
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        av网站韩日在线观看免费| 欧美成人精品第一区二区三区| 国产成人一区二区三中文| 亚洲熟女国产熟女二区三区| 沐浴偷拍一区二区视频 | 综合色区亚洲熟妇另类| 18级成人毛片免费观看| 久久婷婷国产综合精品| 日本少妇熟女一区二区| 大学生粉嫩无套流白浆| 精品国产三级在线观看| 91精品国产闺蜜国产在线| 情av一区二区三区在线观看| 亚洲av无码专区在线观看下载| 极品美女扒开粉嫩小泬| 国产盗摄XXXX视频XXXX| 亚洲av成人一区二区| 婷婷色香五月综合激激情| 国产女人成人精品视频| 国产偷闻隔壁人妻内裤av| 澳门蜜桃av成人av| 国产精成人品日日拍夜夜免费| 99热最新在线观看| 美国又粗又长久久性黄大片| 80s国产成年女人毛片| 国产zzjjzzjj视频全免费| 成人免费无码视频在线网站| 久久麻传媒亚洲av国产| 一二三四日本中文在线| 在线视频这里只有精品| 日韩十八禁在线观看视频| 麻豆国产一区二区三区四区| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交 | 精品少妇人妻久久免费| 人妻少妇中文字幕在线观看| a级毛片免费观看网站| 日韩av二区三区一区| 高清中文字幕一区二区三区| 国产免费艾彩sm调教视频| 免费成人毛片| 日韩男女av中文字幕|