曹慧
摘 要:本文所研究的三種基于語料庫的統(tǒng)計(jì)意義解析方法,試圖通過對(duì)詞的共現(xiàn)模式的了解來推斷一個(gè)多義詞的正確意義。該技術(shù)基于貝葉斯決策理論、神經(jīng)網(wǎng)絡(luò)和信息檢索中使用的內(nèi)容向量。為了更好地理解這些方法,我們給定一組上下文,每個(gè)上下文都包含已知意義上的名詞line,構(gòu)造一個(gè)分類器來為新的上下文選擇正確的行意義。為了了解多義的程度如何影響表現(xiàn),我們比較了三種和六種感覺任務(wù)的結(jié)果。結(jié)果表明,每一種方法都能準(zhǔn)確區(qū)分六種線形感官,準(zhǔn)確率達(dá)70%以上。此外,分類器的響應(yīng)模式在很大程度上在統(tǒng)計(jì)上是不可區(qū)分的。兩項(xiàng)任務(wù)的比較表明,解決個(gè)體感官困難程度是一個(gè)比多義程度更大的表現(xiàn)因素。
關(guān)鍵詞:語料庫; 統(tǒng)計(jì); 多義詞
中圖分類號(hào):G642 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ?文章編號(hào):1006-3315(2019)07-159-002
1.引言
語料庫指的是為某一個(gè)或多個(gè)應(yīng)用而專門收集的、有一定結(jié)構(gòu)的、有代表性的、可以被計(jì)算機(jī)程序檢索的、具有一定規(guī)模的語料的集合[1]。本研究的目的是系統(tǒng)地探討基于語料庫的統(tǒng)計(jì)意義解析方法中,每個(gè)詞的義數(shù)、每個(gè)義的訓(xùn)練例數(shù)等變量對(duì)統(tǒng)計(jì)意義解析方法的影響。為了研究詞義數(shù)量的影響,我們選擇了高度多義的名詞line,在詞匯網(wǎng)絡(luò)中有25個(gè)詞義。
2.文獻(xiàn)綜述
Yarowsky[2]將貝葉斯統(tǒng)計(jì)方法與其他基于語料庫的統(tǒng)計(jì)模型發(fā)表的結(jié)果進(jìn)行了比較。他通過使用相同的詞語,用相同的意義定義,將這些差異最小化。令人信服地指出,貝葉斯模型與代價(jià)更高的方法一樣好,甚至更好。
作為本研究的試點(diǎn),利用內(nèi)容向量和神經(jīng)網(wǎng)絡(luò)分類器對(duì)線進(jìn)行了兩種意義上的區(qū)分任務(wù),準(zhǔn)確率達(dá)到90%以上。然后運(yùn)行一個(gè)三感區(qū)分任務(wù)。
3.研究方法
培訓(xùn)和測(cè)試的內(nèi)容取自1987-89《華爾街日?qǐng)?bào)》語料庫和來自APHB語料庫。從WordNet中提取2個(gè)包含“[L1]ine(s)”的句子,并手動(dòng)分配單個(gè)意義。
通常,實(shí)驗(yàn)在目標(biāo)的兩側(cè)使用固定數(shù)量的單詞或字符作為上下文。在這個(gè)實(shí)驗(yàn)中,我們使用語言單位-句子-代替。選擇使用兩句上下文:包含行和前一句的句子,訓(xùn)練和測(cè)試上下文的平均大小為44.5個(gè)單詞。
詞義解析任務(wù)使用名詞行以下六種意義:
1.a product: ‘ a new line of workstations
2.a formation of people or things: ‘stand in line
3.spoken or written text: ‘a(chǎn) line from Shakespeare
4.a thin, flexible object; cord: ‘a(chǎn) nylon line
5.an abstract division: ‘a(chǎn) line between good and evil
6.a telephone connection: ‘the line went dead
為了檢驗(yàn)訓(xùn)練樣本的數(shù)量對(duì)分類器性能的影響,我們從200個(gè)訓(xùn)練集中提取了較小的訓(xùn)練集,每個(gè)意義的前50和100個(gè)上下文被用來構(gòu)建新的訓(xùn)練集。在給定的試驗(yàn)中,對(duì)每個(gè)訓(xùn)練集使用相同的894個(gè)測(cè)試上下文集。每個(gè)分類器在相同的試驗(yàn)中使用相同的訓(xùn)練和測(cè)試上下文,但是根據(jù)方法的需要對(duì)文本進(jìn)行不同的處理。
4.分類
這三個(gè)分類器使用的唯一信息是字符串在上下文中同時(shí)出現(xiàn)。它們不使用其他線索,如句法標(biāo)記或詞序。它們也不需要任何不是完全自動(dòng)的訓(xùn)練上下文的增強(qiáng)。
4.1貝葉斯法
由Gale,Church和Yarowsky[3]開發(fā)的貝葉斯分類器使用貝葉斯決策理論對(duì)與多義目標(biāo)的每個(gè)意義同時(shí)出現(xiàn)的令牌進(jìn)行加權(quán)。模型的主要組件標(biāo)記被定義為任何字符串:?jiǎn)卧~、數(shù)字、符號(hào)、標(biāo)點(diǎn)符號(hào)或任何組合。整個(gè)標(biāo)記都是重要的,因此基本單詞(wait vs. wait)和混合大小寫字符串(Bush vs. Bush)的變形形式是不同的標(biāo)記。與每個(gè)標(biāo)記相關(guān)聯(lián)的是一組顯著性,每個(gè)顯著性對(duì)應(yīng)一種感覺,由訓(xùn)練數(shù)據(jù)計(jì)算得出。給定意義的標(biāo)記的顯著性是Pr(token/sense)/Pr(token)。給定意義的標(biāo)記的影響是其顯著性的對(duì)數(shù)。
為了在(測(cè)試)上下文中選擇目標(biāo)單詞的意義,分類器計(jì)算每個(gè)標(biāo)記意義在上下文中對(duì)所有標(biāo)記的影響總和,并選擇和最大的意義。在意義分辨的情況下,顯著標(biāo)記包括出現(xiàn)頻率低得多的內(nèi)容詞。貝葉斯分類器實(shí)驗(yàn)由AT&T貝爾實(shí)驗(yàn)室的Kenneth Church進(jìn)行。在這些實(shí)驗(yàn)中,兩句話環(huán)境使用的一個(gè)固定大小的窗口±50標(biāo)記周圍的目標(biāo)詞,Gale等人找到導(dǎo)致一個(gè)小數(shù)量的上下文用于估計(jì)概率最優(yōu)值。
4.2內(nèi)容向量
信息檢索系統(tǒng)的向量空間模型推動(dòng)了感知分辨率的內(nèi)容向量方法,其中,語料庫中的每個(gè)概念都定義了向量空間的一個(gè)軸,語料庫中的文本表示為該空間中的一個(gè)點(diǎn)。語料庫中的概念通常定義為出現(xiàn)在語料庫中的詞干集,兩個(gè)文本之間的相似性被計(jì)算為表示兩個(gè)文本的向量的函數(shù)。
對(duì)于感知解析問題,每個(gè)感知都由一個(gè)由該感知訓(xùn)練上下文構(gòu)造的單個(gè)向量表示。由訓(xùn)練上下文定義的一個(gè)空間向量也是為每一個(gè)測(cè)試上下文構(gòu)造的。要為測(cè)試上下文選擇一個(gè)意義,需要計(jì)算其向量與每個(gè)意義向量之間的內(nèi)積,并選擇其內(nèi)積最大的意義。
4.3神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)方法將感知分辨率作為一種監(jiān)督學(xué)習(xí)范式。成對(duì)的(輸入特性,期望的響應(yīng))出現(xiàn)在一個(gè)學(xué)習(xí)程序中。該程序的任務(wù)是設(shè)計(jì)一些方法來使用輸入特性將訓(xùn)練上下文劃分為與期望響應(yīng)相對(duì)應(yīng)的非重疊集。
每個(gè)上下文都被轉(zhuǎn)換成位向量。在整個(gè)訓(xùn)練集中出現(xiàn)至少兩次的每個(gè)概念都被分配到位向量位置。得到的向量的位置為1,與上下文中的概念對(duì)應(yīng),否則為0。這個(gè)過程創(chuàng)建超過4000個(gè)位置的向量。然而,這些向量是極其稀疏的,它們平均包含略多于17個(gè)概念。
對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直到每個(gè)訓(xùn)練示例中對(duì)應(yīng)于期望響應(yīng)的單元的輸出大于任何其他單元的輸出為止。訓(xùn)練一個(gè)網(wǎng)絡(luò)直到所有的例子都正確分類,這樣的結(jié)果是罕見的標(biāo)記可以獲得不相稱的重要性。
為了確定網(wǎng)絡(luò)的良好拓?fù)浣Y(jié)構(gòu),研究了各種網(wǎng)絡(luò)拓?fù)洌簩?到100個(gè)隱藏單元排列在一個(gè)隱藏層中的網(wǎng)絡(luò);具有多層隱藏單元的網(wǎng)絡(luò);以及具有單層隱藏單元的網(wǎng)絡(luò),其中輸出單元連接到隱藏單元和輸入單元。在所有情況下,沒有隱藏單元的網(wǎng)絡(luò)配置要么優(yōu)越,要么在統(tǒng)計(jì)上與更復(fù)雜的網(wǎng)絡(luò)難以區(qū)分。由于沒有網(wǎng)絡(luò)拓?fù)涿黠@優(yōu)于沒有隱藏單元的網(wǎng)絡(luò)拓?fù)?,所以這里報(bào)告的所有數(shù)據(jù)都來自這樣的網(wǎng)絡(luò)。
5.結(jié)論
所有分類器在訓(xùn)練上下文數(shù)量最多(200)的情況下表現(xiàn)最佳。
三種方法的響應(yīng)模式的收斂性表明,每種分類器都從訓(xùn)練上下文中提取盡可能多的字?jǐn)?shù)數(shù)據(jù)。如果是這樣,那么任何只使用單詞計(jì)數(shù)的技術(shù)都不會(huì)比這里測(cè)試的技術(shù)準(zhǔn)確得多。
雖然一詞多義的程度確實(shí)影響了感官分辨任務(wù)的難度,但更大的表現(xiàn)因素是個(gè)體感官分辨的難度。從語境的考察來看,關(guān)鍵信息似乎離詞很近,而離詞較遠(yuǎn)的語境則是噪聲。這些基于語料庫的統(tǒng)計(jì)技術(shù)使用了訓(xùn)練上下文的貧乏表示:兩個(gè)句子中出現(xiàn)的標(biāo)記的簡(jiǎn)單計(jì)數(shù)。我們認(rèn)為,除非將詞序或句法信息等其他信息納入該技術(shù),否則不可能顯著提高分辨率的準(zhǔn)確性。
基金項(xiàng)目:2013年安徽省教育廳人文社會(huì)科學(xué)研究一般項(xiàng)目(項(xiàng)目編號(hào):SK2013B227)
參考文獻(xiàn):
[1]何婷婷.語料庫研究[D]華中師范大學(xué)博士學(xué)位論文,2003
[2]Yarowsky,D.,Word-sense disambiguation using statistical models of Rogets categories trained on large corpora, COLING-92, 1992
[3]Gale,W.,Church,K.W.,and Yarowsky,D,A method for disambiguating word senses in a large corpus. Statistical Research Report 104,AT&T Bell Laboratories,1992