亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

自然語言處理中的語義消歧研究

2013-08-15 05:53:32賈媛媛

淮南師范學(xué)院學(xué)報 2013年5期

賈媛媛

（淮南師范學(xué)院數(shù)學(xué)與計算科學(xué)系,安徽淮南 232038）

1 簡介

自然語言處理（又叫自然語言理解，計算語言學(xué)）是當(dāng)前IT領(lǐng)域的重要技術(shù)之一。隨著互聯(lián)網(wǎng)信息的急劇增長，搜索引擎成為人們獲取信息不可缺少的工具。但是基于關(guān)鍵字索引的工具已經(jīng)越來越無法滿足用戶的需求，相反用戶更希望計算機能理解句子的意思以幫助我們更好地處理信息和組織信息，這就需要自然語言處理技術(shù)來解決，例如中文分詞、詞性標(biāo)注、句法分析、依存關(guān)系分析、語義消歧等等。要真正理解句子的含義，這些最基本的處理是必須的。

語義消歧是比分詞、詞性標(biāo)注、句法分析更高級的自然語言處理技術(shù)，但面臨的困難也更大。例如，“我是她的粉絲”，要理解這句話，首先必須對句子進行分詞和詞性標(biāo)注，得到這樣的結(jié)果“我/代詞是/動詞她/代詞的/助詞粉絲/名詞。 /句號”。其次需要對這句話做句法分析，也就是說必須讓計算機知道，這句話的主要成分是“我是粉絲”，“她的”是用來修飾和限定“粉絲”的。然后從語義的角度上分析，“我”是人，人不能是“粉絲”，因此這里“粉絲”應(yīng)該指的是網(wǎng)絡(luò)用語中的“粉絲”，意思是“fans”。這樣這句話所要表達的意思就比較清楚了。

語義消歧通常指根據(jù)一個詞所處的上下文來判斷這個詞在這個上下文中的意思。語義消歧是自然語言處理的重要方面，很多現(xiàn)實的應(yīng)用都必須以語義消歧為基礎(chǔ)。

語義消歧的方法大致分為四個類別，即基于背景知識的語義消歧、監(jiān)督的語義消歧方法、半監(jiān)督的學(xué)習(xí)方法和無監(jiān)督的學(xué)習(xí)方法。

2 基于背景知識的語義消歧

基于背景知識的語義消歧方法，就是建立在一個已有的背景知識庫上的方法。這種背景知識庫通常是一種人工建立的可被計算機讀取的字典，這個字典通常具有一個有向圖結(jié)構(gòu)，其中每個節(jié)點代表一個概念，每個概念包含了能夠表示此概念的所有的詞（同義詞集），因此，詞與概念之間的關(guān)系是多對多的關(guān)系，即一個詞可以對應(yīng)多個概念，一個概念又可以對應(yīng)多個詞。每個概念的父節(jié)點是比此概念更一般的一個概念，它的子節(jié)點則是比它更特殊的概念。

2.1 概念之間的相似度

在MRD的基礎(chǔ)上，很多工作都是考慮如何衡量兩個概念之間的相似度。例如下面是一個常用的衡量標(biāo)準(zhǔn)①Claudia Leacock and Martin Chodorow.Filling in a sparse training space for word sense identification.ms.,March 1994.，其中Path(C1,C2)是概念C1和C2在一個語義網(wǎng)中的路徑，D為這個語義網(wǎng)絡(luò)的最大深度?？梢钥闯?，兩個概念在語義網(wǎng)中距離越近，那么它們相似度越高。

除此之外，還有很多其它的相似度量法，如[Resnik 1995]中，作者用信息容量（Information Content）來定義兩個概念相似度，即：

其中，LCS(C1,C2)為能夠包含這兩個概念的上意概念（Least Common Subsumer），也即這兩個概念在語義網(wǎng)中對應(yīng)節(jié)點最接近它們的共同父親節(jié)點；IC(C)即概念C的信息容量，直觀講，一個概念越頻繁，那么它的信息量越少。

2.2 選擇傾向（Selectional Preference）

選擇傾向是定義詞用法的一種簡化方式，例如：我們常說“喝可樂，喝中藥，喝酒，喝水”，其實我們有一種對“喝”這個詞用法的定義，即喝后面通常跟可食用的液體，這樣我們就知道“可樂”這里指的是一種飲料。也就是說如果使用選擇傾向來幫助我們做語義消歧可以很大程度提高消歧的準(zhǔn)確率。那么如何得到這些選擇傾向呢？直接從人標(biāo)注的語料庫中得到這樣的知識，像“可樂”這樣的詞已經(jīng)被人工標(biāo)注了它的正確義項，通過語料庫，我們把“可樂”，“水”，“酒”都歸屬于“飲料”這個概念，而“中藥”，“口服液”等則歸屬于“藥水”，這樣可以得到兩個選擇傾向：喝[飲料]，喝[藥水]。當(dāng)然，也可將“飲料”，“藥水”上升到“液體”，從而得到：喝[液體]。選擇傾向?qū)嶋H上是一種詞和概念（Word-to-Class）的搭配，所以可以設(shè)定一個閾值，當(dāng)一個詞和概念對的度量達到這個閾值時，就可以認為是一個選擇傾向配。

2.3 雙語對齊語料的利用

另外，利用雙語對齊的語料庫也可以建立一個標(biāo)注語料庫。有時一個有歧義的詞，當(dāng)知道了它對另外一種語言的翻譯時，就知道它的義項。如“可樂”一詞在某個句子中如果它的英文翻譯是Cola，而Cola本身是沒有歧義的，那么我們就可以用Cola的義項來標(biāo)注“可樂”，這樣就得到一個標(biāo)注的語料庫②William A.Gale,Kenneth W.Church and David Yarowsky.A Method for Disambiguating Word Senses in a Large Corpus.Computers and the Humanities.pp.1-30.1992.。

3 有監(jiān)督的語義消歧

一般來說，監(jiān)督學(xué)習(xí)（Supervised Learning）的方法也就是數(shù)據(jù)的類別在學(xué)習(xí)之前已經(jīng)知道。在語義消歧的問題上，就是說每個詞所有可能的義項都是已知的。有監(jiān)督的語義消歧方法通過一個已標(biāo)注的語料庫學(xué)習(xí)得到一個分類模型。

在此框架下，剩下的主要問題就是如何選擇能夠比較好地區(qū)分詞的不同語義的特征。人們理解一個詞的真正意義，通常是根據(jù)這個詞所處的上下文來判斷。而在現(xiàn)有技術(shù)中，提取特征的方法也是根據(jù)這個原則進行的。例如，目前語義消歧常用的特征包括：Co-occurrence，詞語搭配（Collocation），NGram，詞性（Part-Of-Speech），predicate-argument，動賓結(jié)構(gòu)，主謂結(jié)構(gòu)等。同時，為了避免大量跟當(dāng)前詞沒有關(guān)系（如距離較遠）的詞影響消歧結(jié)果，提取特征通常被限定在一個固定的窗口大小內(nèi)。

4 無監(jiān)督的語義消歧

無監(jiān)督的語義消歧主要是通過對每個詞所處的上下文環(huán)境來將相同意義的詞聚類到一起。也就是說這種方法假設(shè)具有相同上下文的詞將具有相同或者類似的意義③David Yarowsky.Unsupervised word sense disambiguation rivaling supervised methods.Proceedings of the 33rd annual meeting on Association for Computational Linguistics(ACL'95).pp.189-196.1995.。無監(jiān)督方法不借助任何背景知識，即這種方法事先并不知道每個詞可能具有哪些不同的意思，因此，這種無監(jiān)督的方法也并不給同一個聚類一個語義標(biāo)簽。這種方法仍然采用監(jiān)督學(xué)習(xí)方法里面表示每個詞的方法，即向量空間模型。因此，只要是基于VSM的所有聚類算法也都適用于無監(jiān)督的語義消歧。另外，聚類方法對于建立選擇傾向也有幫助作用。

5 半監(jiān)督的語義消歧

半監(jiān)督的方法介于監(jiān)督和無監(jiān)督方法之間，它不需要人工標(biāo)注大量的語料庫，而是通過一些標(biāo)注的樣例作為種子集合，通過一種迭代的方式來不斷地擴展這個集合，如Self-Training，Co-Training以及Bootstrapping的方法都屬于此類①Rada Mihalcea,Paul Tarau and Elizabeth Figa.PageRank on Semantic Networks,with Application to Word Sense Disambiguation.Proceedings of the 20th International Conference on Computational Linguistics(COLING'04).2004.。

半監(jiān)督方法可以很好地緩解數(shù)據(jù)稀疏的問題，但這種迭代的方法很容易引入一些錯誤的樣例（噪聲），錯誤的積累最終導(dǎo)致此方法的性能也無法達到令人滿意的程度。關(guān)于如何建設(shè)大規(guī)模標(biāo)注語料庫，可參考②Jin Peng,Wu Yunfang,Yu Shiwen.Survey of Word Sense Annotated Corpus Construction.Journal of Chinese Information Processing.22(3):16-23.May,2008.。

6 討論與展望

我們可以看到現(xiàn)有的工作使用了各種機器學(xué)習(xí)方法以及各種有用的特征，然而究竟哪些方法和那些特征具有較好的效果呢？在③Yoong Keok Lee and Hwee Tou Ng.An Empirical Evaluation of Knowledge Sources and Learning Algorithms for Word Sense Disambiguation.Proceedings of the ACL-02 conference on Empirical methods in natural language processing(EMNLP'02).pp.41-48.2002.中，作者比較了幾種較流行的機器學(xué)習(xí)方法，包括SVM,樸素貝葉斯,AdaBoost和決策樹。實驗結(jié)果表明SVM方法得到了最好的效果，其次是樸素貝葉斯。其中WSD問題本身存在嚴(yán)重的數(shù)據(jù)稀疏問題，而在很多稀疏問題上，SVM和樸素貝葉斯都有比較好的表現(xiàn)。

要更好地解決WSD問題，有兩個方法可以做，一是標(biāo)注大量的數(shù)據(jù)集，二是建立一套完善的背景知識。對于“完善的背景知識”主要是指能夠反映每個詞在不同場合的用法的定義，這個思想類似于選擇傾向，但比選擇傾向更加具體。例如，對于喝，可以定義喝[可飲用的液體]，而同時，如果其他的概念（concept），具有[可飲用的液體]屬性的，就可以與喝搭配。那么對于一個詞，如“可樂”，如果具有兩個不同的義項，其中一個具有[可飲用的液體]的屬性，另一個不具有，則當(dāng)“喝”在“可樂”之前出現(xiàn)時，就可以很容易判斷“可樂”的義項。但是當(dāng)前的選擇傾向都是通過統(tǒng)計的方式獲得，這就導(dǎo)致了這種用法的過于一般性和不完善性。一個更好的關(guān)于詞的“用法”的詞典應(yīng)該由人工來完成，然后將這樣的詞典作為有用的背景知識庫。

另外一方面，在進行WSD之前，必須很清楚地知道句子的組成方式，也就是說必須知道哪個詞修飾哪個詞，而區(qū)分一次詞的義項通常只由修飾它的詞或者它修飾的詞決定。例如，句子“他在喝可樂”，判斷“可樂”義項時，應(yīng)該通過“喝”判斷，而不應(yīng)該通過“他”來判斷，否則會得到完全不同的結(jié)果。因此，WSD需要更精確地劃分句子成分（Syntactic Parsing）。

最后，很多詞的用法比較相似，尤其是一些可以互相替換的同義詞，如果能夠找到這樣一些用法相似的詞，一方面在缺乏背景知識情況下，這些詞可以緩解數(shù)據(jù)稀疏的問題。例如④Dekang Lin.Using Syntactic Dependency as Local Context to Resolve Word Sense Ambiguity.Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics.pp.64-71.1997.中，作者利用所有相似詞，而不是單一詞作為訓(xùn)練集，來訓(xùn)練監(jiān)督的語義消歧方法。在⑤Peng Jin,Xu Sun,Yunfang Wu and Shiwen Yu.Word Clustering for Collocation-Based Word Sense Disambiguation,Proceedings ofthe InternationalConference on IntelligentTextProcessing and Computational Linguistics(CICLing'07),LNCS4394.2007.pp.267-274.中，作者通過聚類方式得到相似的詞。另一方面，這種處理方式也可以輔助人工進行背景知識庫的建立。