亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于語境的詞語相似度計算方法

2010-07-18 03:11:50蔡東風(fēng)任曉娜

中文信息學(xué)報 2010年3期

蔡東風(fēng),白宇,于水,葉娜,任曉娜

(沈陽航空工業(yè)學(xué)院知識工程中心,遼寧沈陽110034)

1 引言

詞語相似度計算是自然語言處理領(lǐng)域中的關(guān)鍵問題之一,在機(jī)器翻譯、信息檢索等方面有著重要的應(yīng)用價值。在不同的應(yīng)用中,詞語相似度有不同的用途,比如,在基于實例的機(jī)器翻譯中,詞語相似度能夠體現(xiàn)文本中兩個詞語的可替換程度;在信息檢索中,利用詞語相似度能夠提高信息檢索的準(zhǔn)確率和召回率;在問答系統(tǒng)中,答案和問句的符合程度可以通過計算兩者含有詞語之間的相似度來衡量。另外,在構(gòu)造統(tǒng)計語言模型的過程中,由數(shù)據(jù)稀疏導(dǎo)致未登錄詞的統(tǒng)計信息無法計算的問題,可以通過詞語相似度計算對詞語進(jìn)行聚類,以詞類作為統(tǒng)計信息,改善統(tǒng)計語言模型的數(shù)據(jù)稀疏問題,從而提高語言模型的表現(xiàn)力。

詞語相似度計算不應(yīng)該忽略詞語所處的語境。在實際應(yīng)用中,某個詞語的具體語義根據(jù)所處的語境不同而有一定的差異,因此計算詞語的相似度不應(yīng)該忽略詞語的上下文信息。本文利用模糊數(shù)學(xué)中隸屬函數(shù)計算詞語上下文信息的模糊重要度,并結(jié)合基于《知網(wǎng)》的詞語語義相似度的計算方法,提出一種基于語境的詞語相似度計算方法,通過對測試語料集中的詞語進(jìn)行測試,該方法準(zhǔn)確率達(dá)到70%。

2 相關(guān)研究工作

國內(nèi)外對詞語語義相似度的計算方法大體可分為兩類：基于統(tǒng)計的詞語語義相似度計算方法和基于語義知識的詞語相似度計算方法。

基于統(tǒng)計的詞語語義相似度計算方法是一種經(jīng)驗主義方法,它把詞語相似度的研究建立在可觀察的語言事實上,而不僅僅依賴于語言學(xué)家的直覺。它是建立在兩個詞語語義相似當(dāng)且僅當(dāng)它們處于相似的上下文環(huán)境中這一假設(shè)的基礎(chǔ)上,它利用大規(guī)模語料庫,將詞語的上下文信息作為語義相似度計算的參照依據(jù)[1]?；诮y(tǒng)計的定量分析方法能夠?qū)υ~語間的語義相似性進(jìn)行比較精確和有效的度量,但該方法依賴于訓(xùn)練所使用的語料庫,計算量大且方法較復(fù)雜。另外,受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大,有時會出現(xiàn)明顯的錯誤。

L.Lillian利用相關(guān)熵,P.Brow n等人采用平均互信息來計算詞語之間的相似度[2-3]。Dagon等人使用了更為復(fù)雜的概率模型來計算詞語的距離[4]。胡俊峰等人利用上下文的詞語向量空間模型來近似地描述詞語的語義,再在此基礎(chǔ)上定義詞語的相似關(guān)系[5]。由于該文概念相似的計算只停留在詞匯層面,使檢索結(jié)果中很多詞與檢索概念相關(guān),但整首詩的意境未必與檢索概念相關(guān)。章志凌等人基于統(tǒng)計的方法提出一種優(yōu)化的Corpus庫[7],目的是把在大規(guī)模語料庫中統(tǒng)計得來的豐富信息進(jìn)行篩選并存儲,作為詞和詞之間相似度量化的信息基礎(chǔ)。Corpus庫可以把浩瀚的語料庫中所蘊(yùn)涵的詞和詞之間的關(guān)系通過統(tǒng)計的方法提取出來并進(jìn)行存儲,為上層的詞語關(guān)系量化的計算提供支持。

基于語義詞典的詞語相似度計算方法是一種基于語言學(xué)和人工智能的理性主義方法,它利用語義詞典,依據(jù)概念之間的上下位關(guān)系和同義關(guān)系[8],通過計算兩個概念在樹狀概念層次體系中的距離來得到詞語間的相似度?；诟拍钤~典的方法建立在兩個詞匯具有一定的語義相關(guān)性,并且它們在概念間的結(jié)構(gòu)層次網(wǎng)絡(luò)圖中存在一條通路這一假設(shè)的基礎(chǔ)上。這種方法直觀、簡單有效且易于理解,但是它依賴于比較完備的按照概念間結(jié)構(gòu)層次關(guān)系組織的大型語義詞典,受人的主觀影響比較大,有時不能反映客觀現(xiàn)實。

R.Rada和J.H.Lee等人就是通過計算Word-Net中詞節(jié)點之間上下位關(guān)系構(gòu)成的最短路徑來計算英文詞語之間的相似度的[9-10]。有些研究者考慮的情況更復(fù)雜,例如Resnik根據(jù)兩個詞的公共祖先節(jié)點的最大信息量來衡量兩個英文詞語的語義相似度[11]。在漢語詞語相似度的計算研究方面,王斌采用樹形圖中節(jié)點之間路徑的方法[12],利用《同義詞詞林》來計算漢語詞語之間的相似度。劉群等人提出一種基于《知網(wǎng)》的詞匯語義相似度計算方法[6],該方法在計算兩個概念的語義表達(dá)式之間的相似度時,采用了“整體的相似度等于部分相似度加權(quán)平均”的做法,對于兩個義原的相似度,采用根據(jù)上下位關(guān)系得到語義距離并進(jìn)行轉(zhuǎn)換的方法。

3 基于語境的詞語相似度計算

3.1 存在問題及主要工作

基于《知網(wǎng)》的語義相似度算法簡單易行,但是某些語義相近的詞無法單純利用《知網(wǎng)》對其進(jìn)行區(qū)分。例如：對于詞語“尊重”“崇拜”“敬仰”“佩服”和“尊敬”等近義詞語,利用文獻(xiàn)[6]提出的基于《知網(wǎng)》的詞匯語義相似度計算方法,得到上述任意兩個詞語之間的相似度都為1,因而無法對它們進(jìn)行語義區(qū)分。

針對上述詞語相似度計算方法存在的不足,本文利用統(tǒng)計學(xué)方法與之融合,提出一種語義與語境相融合的詞語相似度算法。在實際應(yīng)用中,需要進(jìn)行相似度計算的詞語往往出現(xiàn)在具體的語言環(huán)境中。如：“尊重”一詞與“尊敬”“崇拜”“敬仰”“佩服”等詞語的語義相近,若給定上下文信息“領(lǐng)導(dǎo)的心理是想讓人尊重他,特別是在一些大眾場合,領(lǐng)導(dǎo)者都很注重自己的形象”,那么這里的“尊重”應(yīng)與“尊敬”一詞的語義更相近。本文將上下文信息稱為詞語的語境,將其引入到詞語相似度的計算過程中。

在對詞語上下文信息進(jìn)行統(tǒng)計時,其結(jié)果可能存在噪聲(例如某個數(shù)值過大),對相似度計算的值會產(chǎn)生較大的影響。對數(shù)據(jù)的有效處理是改進(jìn)統(tǒng)計方法計算詞語相似度效果的途徑之一。因此,本文引入模糊數(shù)學(xué)的相關(guān)理論,有效地解決了由上述情況引起的問題。

3.2 相關(guān)定義

將模糊數(shù)學(xué)的相關(guān)概念引入到相似度的計算中,設(shè)詞語k的上下文向量為key,k的候選相似詞集合為W={w1,w2,…,wN}。對平均共現(xiàn)次數(shù)(AVG)、中間共現(xiàn)次數(shù)(M ID)、第二中間數(shù)(SecondM ID)和重要度標(biāo)尺分別給出如下定義：

定義1：平均共現(xiàn)次數(shù)(AVG)：表示詞語 wi與key的共現(xiàn)次數(shù)的平均數(shù),如式(1)：

counter(wi,key)表示詞語 wi與key的共現(xiàn)次數(shù)。

定義2：中間共現(xiàn)次數(shù)(MID)：表示共現(xiàn)次數(shù)的中間數(shù),如式(2)：M ID

max(counter(w i,key))和min(counter(wi,key))分別表示集合W中的詞語wi與需要處理詞語k的上下文向量key的共現(xiàn)次數(shù)中的最大值和最小值。

定義3：第二中間數(shù)(SecondM ID)：如式(3)：

secondmax(counter(w i,key))和secondmin(counter(wi,key))分別表示集合W中的詞語與需要處理詞語k的上下文向量key的共現(xiàn)次數(shù)中次大值和次小值。

定義4：重要度標(biāo)尺：

對每組測試數(shù)據(jù)得到的 AVG,M ID,Second-M ID,max(counter(w i,key)),min(counter(wi,key))按照數(shù)值從小到大排序,分別定義為sorti(i=1,2,…,5),并且按照這個次序定義一個標(biāo)尺,本文將其稱為重要度標(biāo)尺。本文將刻度標(biāo)記為0.5,0.625,0.75,0.875,1,如圖1所示。

圖1 重要度標(biāo)尺

3.3 模糊重要度計算

在模糊數(shù)學(xué)[13]中,若對論域U中的任一元素x,都有一個數(shù) A(x)∈[0,1]與之對應(yīng),則稱A為U上的模糊集,A(x)稱為x對A的隸屬度。本文借鑒了隸屬度的相關(guān)定義,構(gòu)造詞語在上下文語境中的模糊重要度。對于同一組測試集合中的詞語,利用3.2節(jié)中定義的重要度標(biāo)尺,依照公式(4)得到詞語w的模糊重要度degree(w)。

模糊重要度定義為：

這里low sign(w)表示為詞w在重要度標(biāo)尺中相對應(yīng)重要度區(qū)間的下界(low sign(w)∈{0.5,0.625,0.75,0.875}),up tab(w)和 low tab(w)分別對應(yīng)詞w在重要度標(biāo)尺中相應(yīng)區(qū)間的上界和下界(uptab(w),low tab(w)∈{sorti|i=1,2,…,5})。

考慮到兩個詞之間的同現(xiàn)關(guān)系對計算詞語的相似度計算有著重要的作用,將兩個詞之間的同現(xiàn)信息引入到相似度計算公式中,利用公式(5)：

上式得到兩個詞語之間的點互信息I(w1;w2),并將其利用上述的模糊重要度計算方法進(jìn)行計算得到模糊互信息重要度Ifuzzy(w1,w2)。

綜合考慮語義網(wǎng)絡(luò),詞語的語境以及詞語間的統(tǒng)計互信息,將各個部分的相似度信息進(jìn)行組合,得到如下相似度計算公式：

其中,Semantic(w1,w2)為利用《知網(wǎng)》相似度計算工具計算得到的詞w1與詞w2的相似度。在采用《知網(wǎng)》相似度計算工具進(jìn)行詞語間相似度計算時,若詞語包含多個義項,則選擇義項間相似度的最大值作為詞語間的相似度。

4 實驗及結(jié)果分析

由于詞語相似度是一個主觀性很強(qiáng)的概念,現(xiàn)在還沒有一個普遍適用的詞語相似度計算測試集。本文在選用國家公務(wù)員考試題型中的詞語替換題作為測試語料,該題目具有以下特點：

a)待計算相似度的詞語具有一個具體上下文。

b)有一組語義相似的詞作為替換詞。

c)每一組測試題答案都有一個確定的答案可以進(jìn)行評價。

采用從2002～2008年國家公務(wù)員考試真題中選取的50個詞語替換題作為測試問題集,題型實例如下：

這個故事聽起來很真實,但它是[杜撰]的。

A草擬 B*虛擬

C撰寫 D寫真

在對外關(guān)系上,我們一貫[奉行]獨立自主的和平外交政策。

A遵守 B遵循

C*實行 D實施

每道題都有4個備選答案,解答者從中選擇一個與題干括號中詞語最接近的詞。

采用準(zhǔn)確率(p recision)和平均排序倒數(shù)(Mean Reciprocal Rand,MRR)兩個指標(biāo)對算法進(jìn)行評價,當(dāng)正確選項與括號中詞語的相似度大于其余選項與該詞語的相似度時,認(rèn)為系統(tǒng)返回該題的正確答案,否則認(rèn)為答案錯誤。評測公式如下：

排序倒數(shù)(Reciprocal Ranking,RR)是算法返回結(jié)果中正確結(jié)果出現(xiàn)位置的倒數(shù),平均排序倒數(shù)是多次計算的RR的結(jié)果的平均值,利用以下公式：

其中,N表示題目總數(shù),ni表示對于第i個題目算法返回的第ni個答案為正確答案。

4.1 實驗步驟

本文以網(wǎng)絡(luò)上的文本作為統(tǒng)計語料,利用網(wǎng)絡(luò)搜索引擎①www.baidu.com。返回詞語共現(xiàn)次數(shù)。具體的算法描述如下：

4.2 參數(shù)選定

實驗在測試題庫中隨機(jī)抽取了《知網(wǎng)》的幾個不同類別的詞語進(jìn)行相似度計算,通過對α,β取不同的值,得到的準(zhǔn)確率如表1所示,從表1觀察可得：當(dāng)α=0.2,β=0.2時實驗結(jié)果最優(yōu)。

表1 參數(shù)選擇

4.3 詞語替換題測試結(jié)果

本文采用如下的詞語相似度計算方法在相同的測試集上進(jìn)行測試：

A)傳統(tǒng)的《知網(wǎng)》相似度計算方法;

B)文獻(xiàn)[14]中采用的改進(jìn)的《知網(wǎng)》詞語相似度計算方法;

C)統(tǒng)計與語義結(jié)合計算方法[15];

D)基于語境的詞語相似度計算方法(本文方法)。

對整個測試集,所得到的正確率與MRR值如表2所示。

表2 正確率及MRR值

通過表2可以看到,本文所采用的基于語境的相似度計算方法可以有效地區(qū)分出語義相近的相關(guān)詞。通過MRR值可以看出,采用該方法得到的詞語相似度計算結(jié)果,可以對相似詞語與原詞語的相似程度給出一個較合理的排序,即可以給檢索系統(tǒng)提供一個準(zhǔn)確的待擴(kuò)展詞的相似度排序。

4.4 錯誤結(jié)果分析

通過對算法返回錯誤結(jié)果集的分析發(fā)現(xiàn),計算錯誤的部分包含大量的《知網(wǎng)》不可區(qū)分的題目(題目中含有計算所得相似度相同或者《知網(wǎng)》中不包含的詞語),這一部分占整個測試集的56%。把《知網(wǎng)》可區(qū)分的題目單獨進(jìn)行了相似度計算實驗,實驗結(jié)果表明在可區(qū)分部分測試集上,本文方法的準(zhǔn)確率達(dá)到0.80。

對實驗語料分析發(fā)現(xiàn)在一些長度較短的測試題目中,其查詢關(guān)鍵詞的上下文不能完全表現(xiàn)關(guān)鍵詞的真實語境,例如：

領(lǐng)導(dǎo)的心理是想讓人(尊重)他

該句中待替換的詞語“尊重”的上下文是“領(lǐng)導(dǎo)”和“心理”兩個詞語,而從主觀上我們可以看出單純利用這兩個詞不能明確的表現(xiàn)“尊重”的真實語境,那么在計算替換詞的模糊重要度時,得出的結(jié)果就不能正確地表征待替換詞與其他替換詞的相似度遠(yuǎn)近關(guān)系。

圖2 對比實驗結(jié)果

針對這種情況,可以從改進(jìn)語境的方面進(jìn)行下一步工作：當(dāng)算法抽取的上下文的長度小于某個閾值時,利用句子相似度算法從語料庫中選取擴(kuò)充問句,并從中提取特征語境,以達(dá)到提高基于語境的詞語相似度計算方法性能的目的,這也是本文下一步要進(jìn)行的工作。

5 結(jié)束語

研究詞語相似度不能離開詞語具體的語境,本文將模糊隸屬度的概念引入到語境相似度的計算過程中。提出模糊重要度的概念并將其與《知網(wǎng)》計算出的相似度結(jié)合,得到一種《知網(wǎng)》語義資源與上下文語境相融合的詞語相似度計算方法。通過對公務(wù)員考試題庫中選取的詞語替換題型進(jìn)行測試,算法準(zhǔn)確率達(dá)到0.70,表明該算法可以根據(jù)語境較有效地區(qū)分語義相近的詞語。

[1] M iller GA,Fellbaum C.Semantic netw ork of English[M].Levin B,pinker S.lexica l&conceptual semantics Am sterdam,Netherlands：Elsevier Science Publishers,1991.

[2] P.Brow n,S.Della Pietra,V.Della Pietra,and R.Mercer.(1991)Word sense disambiguation using statisticalmethods[C]//Proceedings o f the 29th Meeting of the Association for Computational Linguistics(ACL-91),Berk ley,C.A.,1991：264-270.

[3] Lillian Lee.Sim ilarity-Based Approaches to Natural Language Processing[D].Ph.D.thesis.Harvard U-niversity Technical Report,TR-11-97.

[4] Dagan I,Lee L.Sim ilarity-basedmodels of word cooccurrence probabilities[J].M achine Learning.Special Issue on Machine Learning and Natural Language,1999.

[5] 于江生,俞士汶.中文概念詞典的結(jié)構(gòu)[J].中文信息學(xué)報,2002,16(4)：13-21.

[6] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算.Computational Linguistics and Chinese Language Processing,2002,7(2)：59-76.

[7] 章志凌,等.基于Corpus庫的詞語相似度計算方法[J].計算機(jī)應(yīng)用,2006,26(3)：638-640.

[8] 秦春秀,趙捧未,劉懷亮.詞語相似度計算研究[J].信息系統(tǒng),2007,30(1)：105-108.

[9] Rada R.Development and application o f a metric on semanticnets[C]//IEEE T ransactions on System.Man and Cybernetics,1989.

[10] Lee J H.In formation retrieval based on concep tual distance in ISA hierarchies[J].Journal of Documentation,1993.

[11] Philip R.Semantic sim ilarity in a taxonom y：an information based measure and its app lication to problems o f ambiguity in natural language[J].Journal of A rtificial Intelligence Research,1999,(11)：95-130.

[12] 王斌.漢英雙語語料庫自動對齊研究[D].北京：中國科學(xué)院計算技術(shù)研究所,1999.

[13] 謝季堅,劉承平.模糊數(shù)學(xué)方法及其應(yīng)用[M].華中科技大學(xué)出版社2006.15-37.

[14] 余超.基于知網(wǎng)的詞語相似度計算研究及應(yīng)用[D].沈陽：沈陽航空工業(yè)學(xué)院,2006.

[15] 郭麗.基于上下文的詞語相似度計算及其應(yīng)用[D].沈陽：沈陽航空工業(yè)學(xué)院,2009.