賈媛媛
(淮南師范學(xué)院 數(shù)學(xué)與計(jì)算科學(xué)系,安徽 淮南 232038)
自然語(yǔ)言處理(又叫自然語(yǔ)言理解,計(jì)算語(yǔ)言學(xué))是當(dāng)前IT領(lǐng)域的重要技術(shù)之一。隨著互聯(lián)網(wǎng)信息的急劇增長(zhǎng),搜索引擎成為人們獲取信息不可缺少的工具。但是基于關(guān)鍵字索引的工具已經(jīng)越來(lái)越無(wú)法滿(mǎn)足用戶(hù)的需求,相反用戶(hù)更希望計(jì)算機(jī)能理解句子的意思以幫助我們更好地處理信息和組織信息,這就需要自然語(yǔ)言處理技術(shù)來(lái)解決,例如中文分詞、詞性標(biāo)注、句法分析、依存關(guān)系分析、語(yǔ)義消歧等等。要真正理解句子的含義,這些最基本的處理是必須的。
語(yǔ)義消歧是比分詞、詞性標(biāo)注、句法分析更高級(jí)的自然語(yǔ)言處理技術(shù),但面臨的困難也更大。例如,“我是她的粉絲”,要理解這句話,首先必須對(duì)句子進(jìn)行分詞和詞性標(biāo)注,得到這樣的結(jié)果“我/代詞 是/動(dòng)詞 她/代詞 的/助詞 粉絲/名詞。 /句號(hào)”。其次需要對(duì)這句話做句法分析,也就是說(shuō)必須讓計(jì)算機(jī)知道,這句話的主要成分是“我是粉絲”,“她的”是用來(lái)修飾和限定“粉絲”的。然后從語(yǔ)義的角度上分析,“我”是人,人不能是“粉絲”,因此這里“粉絲”應(yīng)該指的是網(wǎng)絡(luò)用語(yǔ)中的“粉絲”,意思是“fans”。這樣這句話所要表達(dá)的意思就比較清楚了。
語(yǔ)義消歧通常指根據(jù)一個(gè)詞所處的上下文來(lái)判斷這個(gè)詞在這個(gè)上下文中的意思。語(yǔ)義消歧是自然語(yǔ)言處理的重要方面,很多現(xiàn)實(shí)的應(yīng)用都必須以語(yǔ)義消歧為基礎(chǔ)。
語(yǔ)義消歧的方法大致分為四個(gè)類(lèi)別,即基于背景知識(shí)的語(yǔ)義消歧、監(jiān)督的語(yǔ)義消歧方法、半監(jiān)督的學(xué)習(xí)方法和無(wú)監(jiān)督的學(xué)習(xí)方法。
基于背景知識(shí)的語(yǔ)義消歧方法,就是建立在一個(gè)已有的背景知識(shí)庫(kù)上的方法。這種背景知識(shí)庫(kù)通常是一種人工建立的可被計(jì)算機(jī)讀取的字典,這個(gè)字典通常具有一個(gè)有向圖結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)代表一個(gè)概念,每個(gè)概念包含了能夠表示此概念的所有的詞(同義詞集),因此,詞與概念之間的關(guān)系是多對(duì)多的關(guān)系,即一個(gè)詞可以對(duì)應(yīng)多個(gè)概念,一個(gè)概念又可以對(duì)應(yīng)多個(gè)詞。每個(gè)概念的父節(jié)點(diǎn)是比此概念更一般的一個(gè)概念,它的子節(jié)點(diǎn)則是比它更特殊的概念。
在MRD的基礎(chǔ)上,很多工作都是考慮如何衡量?jī)蓚€(gè)概念之間的相似度。例如下面是一個(gè)常用的衡量標(biāo)準(zhǔn)①Claudia Leacock and Martin Chodorow.Filling in a sparse training space for word sense identification.ms.,March 1994.,其中Path(C1,C2)是概念C1和C2在一個(gè)語(yǔ)義網(wǎng)中的路徑,D為這個(gè)語(yǔ)義網(wǎng)絡(luò)的最大深度。可以看出,兩個(gè)概念在語(yǔ)義網(wǎng)中距離越近,那么它們相似度越高。
除此之外,還有很多其它的相似度量法,如[Resnik 1995]中,作者用信息容量(Information Content)來(lái)定義兩個(gè)概念相似度,即:
其中,LCS(C1,C2)為能夠包含這兩個(gè)概念的上意概念(Least Common Subsumer),也即這兩個(gè)概念在語(yǔ)義網(wǎng)中對(duì)應(yīng)節(jié)點(diǎn)最接近它們的共同父親節(jié)點(diǎn);IC(C)即概念C的信息容量,直觀講,一個(gè)概念越頻繁,那么它的信息量越少。
選擇傾向是定義詞用法的一種簡(jiǎn)化方式,例如:我們常說(shuō)“喝可樂(lè),喝中藥,喝酒,喝水”,其實(shí)我們有一種對(duì)“喝”這個(gè)詞用法的定義,即喝后面通常跟可食用的液體,這樣我們就知道“可樂(lè)”這里指的是一種飲料。也就是說(shuō)如果使用選擇傾向來(lái)幫助我們做語(yǔ)義消歧可以很大程度提高消歧的準(zhǔn)確率。那么如何得到這些選擇傾向呢?直接從人標(biāo)注的語(yǔ)料庫(kù)中得到這樣的知識(shí),像“可樂(lè)”這樣的詞已經(jīng)被人工標(biāo)注了它的正確義項(xiàng),通過(guò)語(yǔ)料庫(kù),我們把“可樂(lè)”,“水”,“酒”都?xì)w屬于“飲料”這個(gè)概念,而“中藥”,“口服液”等則歸屬于“藥水”,這樣可以得到兩個(gè)選擇傾向:喝[飲料],喝[藥水]。 當(dāng)然,也可將“飲料”,“藥水”上升到“液體”,從而得到:喝[液體]。選擇傾向?qū)嶋H上是一種詞和概念(Word-to-Class)的搭配,所以可以設(shè)定一個(gè)閾值,當(dāng)一個(gè)詞和概念對(duì)的度量達(dá)到這個(gè)閾值時(shí),就可以認(rèn)為是一個(gè)選擇傾向配。
另外,利用雙語(yǔ)對(duì)齊的語(yǔ)料庫(kù)也可以建立一個(gè)標(biāo)注語(yǔ)料庫(kù)。有時(shí)一個(gè)有歧義的詞,當(dāng)知道了它對(duì)另外一種語(yǔ)言的翻譯時(shí),就知道它的義項(xiàng)。如“可樂(lè)”一詞在某個(gè)句子中如果它的英文翻譯是Cola,而Cola本身是沒(méi)有歧義的,那么我們就可以用Cola的義項(xiàng)來(lái)標(biāo)注“可樂(lè)”,這樣就得到一個(gè)標(biāo)注的語(yǔ)料庫(kù)②William A.Gale,Kenneth W.Church and David Yarowsky.A Method for Disambiguating Word Senses in a Large Corpus.Computers and the Humanities.pp.1-30.1992.。
一般來(lái)說(shuō),監(jiān)督學(xué)習(xí)(Supervised Learning)的方法也就是數(shù)據(jù)的類(lèi)別在學(xué)習(xí)之前已經(jīng)知道。在語(yǔ)義消歧的問(wèn)題上,就是說(shuō)每個(gè)詞所有可能的義項(xiàng)都是已知的。有監(jiān)督的語(yǔ)義消歧方法通過(guò)一個(gè)已標(biāo)注的語(yǔ)料庫(kù)學(xué)習(xí)得到一個(gè)分類(lèi)模型。
在此框架下,剩下的主要問(wèn)題就是如何選擇能夠比較好地區(qū)分詞的不同語(yǔ)義的特征。人們理解一個(gè)詞的真正意義,通常是根據(jù)這個(gè)詞所處的上下文來(lái)判斷。而在現(xiàn)有技術(shù)中,提取特征的方法也是根據(jù)這個(gè)原則進(jìn)行的。例如,目前語(yǔ)義消歧常用的特征包括:Co-occurrence,詞語(yǔ)搭配(Collocation),NGram,詞性(Part-Of-Speech),predicate-argument,動(dòng)賓結(jié)構(gòu),主謂結(jié)構(gòu)等。同時(shí),為了避免大量跟當(dāng)前詞沒(méi)有關(guān)系(如距離較遠(yuǎn))的詞影響消歧結(jié)果,提取特征通常被限定在一個(gè)固定的窗口大小內(nèi)。
無(wú)監(jiān)督的語(yǔ)義消歧主要是通過(guò)對(duì)每個(gè)詞所處的上下文環(huán)境來(lái)將相同意義的詞聚類(lèi)到一起。也就是說(shuō)這種方法假設(shè)具有相同上下文的詞將具有相同或者類(lèi)似的意義③David Yarowsky.Unsupervised word sense disambiguation rivaling supervised methods.Proceedings of the 33rd annual meeting on Association for Computational Linguistics(ACL'95).pp.189-196.1995.。無(wú)監(jiān)督方法不借助任何背景知識(shí),即這種方法事先并不知道每個(gè)詞可能具有哪些不同的意思,因此,這種無(wú)監(jiān)督的方法也并不給同一個(gè)聚類(lèi)一個(gè)語(yǔ)義標(biāo)簽。這種方法仍然采用監(jiān)督學(xué)習(xí)方法里面表示每個(gè)詞的方法,即向量空間模型。因此,只要是基于VSM的所有聚類(lèi)算法也都適用于無(wú)監(jiān)督的語(yǔ)義消歧。另外,聚類(lèi)方法對(duì)于建立選擇傾向也有幫助作用。
半監(jiān)督的方法介于監(jiān)督和無(wú)監(jiān)督方法之間,它不需要人工標(biāo)注大量的語(yǔ)料庫(kù),而是通過(guò)一些標(biāo)注的樣例作為種子集合,通過(guò)一種迭代的方式來(lái)不斷地?cái)U(kuò)展這個(gè)集合,如Self-Training,Co-Training以及Bootstrapping的方法都屬于此類(lèi)①Rada Mihalcea,Paul Tarau and Elizabeth Figa.PageRank on Semantic Networks,with Application to Word Sense Disambiguation.Proceedings of the 20th International Conference on Computational Linguistics(COLING'04).2004.。
半監(jiān)督方法可以很好地緩解數(shù)據(jù)稀疏的問(wèn)題,但這種迭代的方法很容易引入一些錯(cuò)誤的樣例(噪聲),錯(cuò)誤的積累最終導(dǎo)致此方法的性能也無(wú)法達(dá)到令人滿(mǎn)意的程度。關(guān)于如何建設(shè)大規(guī)模標(biāo)注語(yǔ)料庫(kù),可參考②Jin Peng,Wu Yunfang,Yu Shiwen.Survey of Word Sense Annotated Corpus Construction.Journal of Chinese Information Processing.22(3):16-23.May,2008.。
我們可以看到現(xiàn)有的工作使用了各種機(jī)器學(xué)習(xí)方法以及各種有用的特征,然而究竟哪些方法和那些特征具有較好的效果呢?在③Yoong Keok Lee and Hwee Tou Ng.An Empirical Evaluation of Knowledge Sources and Learning Algorithms for Word Sense Disambiguation.Proceedings of the ACL-02 conference on Empirical methods in natural language processing(EMNLP'02).pp.41-48.2002.中,作者比較了幾種較流行的機(jī)器學(xué)習(xí)方法,包括SVM,樸素貝葉斯,AdaBoost和決策樹(shù)。實(shí)驗(yàn)結(jié)果表明SVM方法得到了最好的效果,其次是樸素貝葉斯。其中WSD問(wèn)題本身存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,而在很多稀疏問(wèn)題上,SVM和樸素貝葉斯都有比較好的表現(xiàn)。
要更好地解決WSD問(wèn)題,有兩個(gè)方法可以做,一是標(biāo)注大量的數(shù)據(jù)集,二是建立一套完善的背景知識(shí)。對(duì)于“完善的背景知識(shí)”主要是指能夠反映每個(gè)詞在不同場(chǎng)合的用法的定義,這個(gè)思想類(lèi)似于選擇傾向,但比選擇傾向更加具體。例如,對(duì)于喝,可以定義喝[可飲用的液體],而同時(shí),如果其他的概念(concept),具有[可飲用的液體]屬性的,就可以與喝搭配。那么對(duì)于一個(gè)詞,如“可樂(lè)”,如果具有兩個(gè)不同的義項(xiàng),其中一個(gè)具有[可飲用的液體]的屬性,另一個(gè)不具有,則當(dāng)“喝”在“可樂(lè)”之前出現(xiàn)時(shí),就可以很容易判斷“可樂(lè)”的義項(xiàng)。但是當(dāng)前的選擇傾向都是通過(guò)統(tǒng)計(jì)的方式獲得,這就導(dǎo)致了這種用法的過(guò)于一般性和不完善性。一個(gè)更好的關(guān)于詞的“用法”的詞典應(yīng)該由人工來(lái)完成,然后將這樣的詞典作為有用的背景知識(shí)庫(kù)。
另外一方面,在進(jìn)行WSD之前,必須很清楚地知道句子的組成方式,也就是說(shuō)必須知道哪個(gè)詞修飾哪個(gè)詞,而區(qū)分一次詞的義項(xiàng)通常只由修飾它的詞或者它修飾的詞決定。例如,句子“他在喝可樂(lè)”,判斷“可樂(lè)”義項(xiàng)時(shí),應(yīng)該通過(guò)“喝”判斷,而不應(yīng)該通過(guò)“他”來(lái)判斷,否則會(huì)得到完全不同的結(jié)果。因此,WSD需要更精確地劃分句子成分(Syntactic Parsing)。
最后,很多詞的用法比較相似,尤其是一些可以互相替換的同義詞,如果能夠找到這樣一些用法相似的詞,一方面在缺乏背景知識(shí)情況下,這些詞可以緩解數(shù)據(jù)稀疏的問(wèn)題。例如④Dekang Lin.Using Syntactic Dependency as Local Context to Resolve Word Sense Ambiguity.Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics.pp.64-71.1997.中,作者利用所有相似詞,而不是單一詞作為訓(xùn)練集,來(lái)訓(xùn)練監(jiān)督的語(yǔ)義消歧方法。在⑤Peng Jin,Xu Sun,Yunfang Wu and Shiwen Yu.Word Clustering for Collocation-Based Word Sense Disambiguation,Proceedings ofthe InternationalConference on IntelligentTextProcessing and Computational Linguistics(CICLing'07),LNCS4394.2007.pp.267-274.中,作者通過(guò)聚類(lèi)方式得到相似的詞。另一方面,這種處理方式也可以輔助人工進(jìn)行背景知識(shí)庫(kù)的建立。