陳浩
摘要:詞義消歧在自然語言處理中一直是一個(gè)難點(diǎn)問題,同時(shí),也是很多領(lǐng)域都需要解決的一個(gè)重要環(huán)節(jié)。本文介紹了一種基于統(tǒng)計(jì)語言模型和統(tǒng)計(jì)方法相結(jié)合的有導(dǎo)詞義消歧模型,詳細(xì)講解了統(tǒng)計(jì)語言模型原理;通過實(shí)驗(yàn)發(fā)現(xiàn),在有限的標(biāo)注語言條件下,語言模型確實(shí)可以提高詞義消歧的性能。由此得出, 統(tǒng)計(jì)語言模型在詞義消歧的中具有良好的應(yīng)用前景。
關(guān)鍵詞: 語言模型;hownet;無導(dǎo)方法
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)01-0178-03
An Unsupervised Approach To Word Sense Disambiguation Based on Language Model
CHEN Hao
(Department of computer Science,Guangdong University of Finace and Economics, Huashang College, Guangzhou 510000,China)
Abstract: Word sense disambiguation is a difficult problem in many fields of natural language processing,eg.machine translation,information retrieval.This paper firstly introduces a language model which is conbining statistics method,and then discusses the advantage of the language model.Accordingly ,the language model has the good application foreground in Wsd.
Key words: language model; hownet; an unsupervised approach
隨著計(jì)算科學(xué)技術(shù)的飛速發(fā)展,自然語言處理希望機(jī)器能像人一樣能理解自然語言,并且代替人類去做很多人類無法從事的工作,從而提高工作效率,詞義消歧就是自然處理中一個(gè)很重要的問題,攻克這一難題對(duì)于自然語言處理以及機(jī)器翻譯等都有很重大的意義。
許多學(xué)者對(duì)詞義消歧進(jìn)行了研究,十九世紀(jì)八十年代中期,Lesk[1] 利用詞典中的詞義或者成為義項(xiàng)來進(jìn)行詞義的消除歧義。他通過計(jì)算上下文詞語的覆蓋度,選擇覆蓋度了較大的作為正確的義項(xiàng)。盡管結(jié)果不是很理想,但是也開創(chuàng)了自然語言中詞義消歧的先河。到了十九世紀(jì)初,語言學(xué)家Yarow sky[2]通過把文章的不同主題進(jìn)行分類,歧義詞語在在不同主題的文章中的含義不同,通過這種方法來確定歧義詞語的含義,取得不錯(cuò)的效果。[3]十九世紀(jì)末期,Wordnet進(jìn)入詞義消歧領(lǐng)域,通過計(jì)算上下文詞語的語言環(huán)境來確定詞語的含義。[4]進(jìn)入二十世紀(jì)以后,逐漸出現(xiàn)了一些基于實(shí)例的詞義消除歧義的方法,通過實(shí)例可以指導(dǎo)判斷歧義詞義的詞義。還可以采用詞義搭配關(guān)系,上下文語法知識(shí)等,測(cè)試中也取得了不錯(cuò)的消歧效果。
本文提出了一種運(yùn)用統(tǒng)計(jì)語言模型來解決詞義消歧問題。在保持統(tǒng)計(jì)語言模型優(yōu)點(diǎn)的基礎(chǔ)上,該文提出方法的主要特點(diǎn)在于:
1)把多義詞放到統(tǒng)計(jì)語言模型里去進(jìn)行無指導(dǎo)消歧的方法;
2)使用聚類的方法對(duì)多義詞的周圍詞義聚類
3)通過抽取術(shù)語,可以提高上下文詞義的實(shí)用性。
本文以下內(nèi)容安排如下:第2節(jié)對(duì)知網(wǎng)進(jìn)行描述;第3節(jié)介紹無導(dǎo)消歧的過程,其中3.1節(jié)介紹基于統(tǒng)計(jì)語言模型的學(xué)習(xí)方法, 3.2介紹術(shù)語的抽取方法;3.3介紹上下文語言模型表示;第4節(jié)通過一些具體的詞語的例子來檢測(cè)消歧的效果;第5節(jié)分析本文提出的方法的優(yōu)勢(shì)和可能存在需要進(jìn)一步的研究的問題。
1 《知網(wǎng)》[5]的介紹
《知網(wǎng)》是用義原來對(duì)每一個(gè)詞語進(jìn)行描述和定義的,義原可以理解為詞語的一個(gè)解釋,我們進(jìn)行詞義消歧的目的就是要確定多義詞在具體語境中屬于哪一種意思。我們以動(dòng)詞“打”
為例,打是一個(gè)多義詞,它有多種含義,我們?cè)谶M(jìn)行詞義消歧的時(shí)候可以確定它是哪個(gè)義原
在知網(wǎng)中,它的一般記錄格式是:No= W_C= G_C= ,E_C= ,其中No=是編號(hào),W_C=是多義詞,G_C=是詞性,是動(dòng)詞,名詞還是形容詞等,最后一個(gè)E_C=是舉例,比如打毛衣,中的打就是編織的意思,而如果打仗中的打可理解為擊,敲,攻擊的意思。根據(jù)上下文的特點(diǎn),我們可以確定在特定語境里多義詞的義原。
2 基于統(tǒng)計(jì)語言模型的無導(dǎo)學(xué)習(xí)方法[6]
2.1 統(tǒng)計(jì)語言模型
統(tǒng)計(jì)語言模型是用統(tǒng)計(jì)的方法對(duì)語言信號(hào)進(jìn)行排序的一種模型,如果在一篇文章中有n個(gè)詞,分別是word1,word2,…wordn,統(tǒng)計(jì)語言模型就要統(tǒng)計(jì)出這個(gè)序列在文章中出現(xiàn)的概率g(word),g(word)可以用下面這個(gè)公式表示(1) :
G(word)=g(word1)*g(word2|word1)g(word3|word1word2)…
g(wordn|word1word2…wordn-1)
我們可以通過估計(jì)wordn前面出現(xiàn)的所有詞來估計(jì)wordn出現(xiàn)的概率,為了減少計(jì)算量,我們采用計(jì)算wordn前面n-1個(gè)詞來簡(jiǎn)化這個(gè)計(jì)算
G(word)=g(word1)*g(word2|word1)*g(word3|word1word2)…
g(wordi|word1word2…wordi-1)
我們可以采用三元模型或者二元模型來進(jìn)行計(jì)算,如果在三元模型中,只是與前面兩個(gè)詞語有關(guān),其中條件概率g(wordi|word1word2…wordi-1)可以在大規(guī)模語料中估計(jì),如果語言片段出現(xiàn)概率大,就可能是符合條件的義項(xiàng),把這個(gè)模型運(yùn)用到詞義消歧中去,可以取得良好的效果。
2.2 抽取術(shù)語[7]
我們?cè)跇?gòu)造義項(xiàng)矩陣的時(shí)候要確定一個(gè)m的值,我們認(rèn)為通過抽取術(shù)語的方法可以得到一些價(jià)值更大的術(shù)語,從而提高詞義消歧的效果。而在普通的詞義消除歧義的過程中,一些虛詞占據(jù)了很大的比例,從而會(huì)影響或者降低消除歧義的效果。
通過使用一些術(shù)語抽取的方法,先確定種子,然后擴(kuò)展開去,在一個(gè)大型數(shù)據(jù)庫中,假設(shè)有一個(gè)字符串a(chǎn)bcd,ni_f(b,c) 那么字符bc出現(xiàn)的次數(shù)-1,設(shè)立經(jīng)驗(yàn)值5,2.5 在確定種子的基礎(chǔ)上進(jìn)行擴(kuò)展,這樣可以得到3—6字的準(zhǔn)術(shù)語。 我們通過3條規(guī)則來最后確定術(shù)語,符合下面規(guī)則的不是術(shù)語:1) 字串在種子下面;2) 頻率相同的種子;3) 當(dāng)ni值比自己大,且2個(gè)字串個(gè)數(shù)相差為1的時(shí)候。 2.3待消除歧義詞語上下文的語言模型表示 如果取多義詞上下文+—3-5的上下文范圍: c-5,c-4,c-3,c-2,c-1 polysemous-word, c+1,c+2,c+3, c+4,c+5,.同樣也需要映射到統(tǒng)計(jì)語言模型中,其表示如下Vpolysemous-word=〈cterm-1,cterm-2,cterm-3,…,cterm-n〉, 當(dāng)term-i出現(xiàn)在多義詞的上下文中時(shí),也就是term-i∈{ c-5,c-4,c-3,c-2,c-1,c+1,c+2,c+3,c+4,c+5, }, 可以對(duì)當(dāng)n=3,n=4,n=5時(shí)候分別進(jìn)行打分,得分高的就是n的取值。 3 試驗(yàn)及其結(jié)果 3.1 以Hownet為詞典的實(shí)驗(yàn) 我們?cè)O(shè)計(jì)了一個(gè)算法: [第一步:在一個(gè)語料庫中提取多義詞其左右上下文為5的詞語; 第二步:用語言模型來進(jìn)行分析消歧詞的效果; 第三步:應(yīng)用不同階數(shù)的語言模型對(duì)多義詞語進(jìn)行消除歧義; 第四步:根據(jù)上下文對(duì)多義詞進(jìn)行打分,分?jǐn)?shù)高的為正確的義項(xiàng)。 3.2實(shí)驗(yàn)結(jié)論 我們以《詞林》中的幾個(gè)多義詞做比較。 本文提出的方法在原來的基礎(chǔ)上有一定的改進(jìn),改進(jìn)的原因在于: 1) 在本文提出的方法中,我們采用了統(tǒng)計(jì)語言模型來進(jìn)行消歧; 2) 通過借鑒屬于抽取的方法可以使用多義詞的上下文更加準(zhǔn)確,從而提高效率。 4 結(jié)論與討論 本文提出了一種基于語言模型的無指導(dǎo)的詞義消歧方法,該方法在基于術(shù)語抽取的基礎(chǔ)上,使用了基于統(tǒng)計(jì)的語言模型的方法,最后的實(shí)驗(yàn)表明,該模型可以顯著的提高消歧性能。 通過實(shí)驗(yàn)表明,采用無指導(dǎo)的詞義消歧的方法,在統(tǒng)計(jì)語言模型下可以幫助提高詞義消歧的性能。未來的工作,我們主要從三個(gè)方面去進(jìn)行。 1) 更高的提高術(shù)語抽取的質(zhì)量,因?yàn)檫@樣可以提高詞義消歧的性能。 2) 待消歧的詞語上下文的更多地?cái)?shù)據(jù)集的特征可以發(fā)掘出更多的消歧的知識(shí)。 3) 優(yōu)化其他的無指導(dǎo)消歧義的模型,如向量空間模型,測(cè)試各種無指導(dǎo)消歧模型的消歧效果。 參考文獻(xiàn): [1] Michael E Lesk Automated Sense Disambiguation Using Machine-readable Dictionaries How To tell a Pine Cone from an Ice Cream Cone[A].In Proceedings of the SIGDOC Conference[C].Association for Computing Machinery New York,1986:24-26 [2] David Yarowsky Word-sense disambiguation using statistical models of Rogets categories on large corpora[A].In COLING[C].Nantes,1992:545-460. [3] Eneko Agirre Rigau Geman A proposal for word sense disambiguation using conceptual Distance[A].Proceedings of the 1st Inernational Conference on Recent Advances in Natural Language Processing[C]. Bulgarin 1995. [5] 董振東,董強(qiáng)(2000).“知網(wǎng)” [EB/OL].http://keenage.com. [6] 基于語言模型的有監(jiān)督詞義消歧模型優(yōu)化研究[J].中文信息學(xué)報(bào),2014,28(1):19-25. [7] 劉建舟,何婷婷,劉曉華.基于開放式語料漢語術(shù)語的自動(dòng)抽取[C].第十二屆東方語言信息處理國(guó)際會(huì)議論文,2003(8):43-49 [8] LI Juan-zi. The research on Chinese word sense disambiguation [Ph.D.Thesis][C] Beijing: Tsinghua University,1999 (in Chinese).