亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然語(yǔ)言處理中的語(yǔ)義消歧研究

        2013-08-15 05:53:32賈媛媛
        關(guān)鍵詞:消歧義項(xiàng)語(yǔ)料庫(kù)

        賈媛媛

        (淮南師范學(xué)院 數(shù)學(xué)與計(jì)算科學(xué)系,安徽 淮南 232038)

        1 簡(jiǎn)介

        自然語(yǔ)言處理(又叫自然語(yǔ)言理解,計(jì)算語(yǔ)言學(xué))是當(dāng)前IT領(lǐng)域的重要技術(shù)之一。隨著互聯(lián)網(wǎng)信息的急劇增長(zhǎng),搜索引擎成為人們獲取信息不可缺少的工具。但是基于關(guān)鍵字索引的工具已經(jīng)越來(lái)越無(wú)法滿(mǎn)足用戶(hù)的需求,相反用戶(hù)更希望計(jì)算機(jī)能理解句子的意思以幫助我們更好地處理信息和組織信息,這就需要自然語(yǔ)言處理技術(shù)來(lái)解決,例如中文分詞、詞性標(biāo)注、句法分析、依存關(guān)系分析、語(yǔ)義消歧等等。要真正理解句子的含義,這些最基本的處理是必須的。

        語(yǔ)義消歧是比分詞、詞性標(biāo)注、句法分析更高級(jí)的自然語(yǔ)言處理技術(shù),但面臨的困難也更大。例如,“我是她的粉絲”,要理解這句話,首先必須對(duì)句子進(jìn)行分詞和詞性標(biāo)注,得到這樣的結(jié)果“我/代詞 是/動(dòng)詞 她/代詞 的/助詞 粉絲/名詞。 /句號(hào)”。其次需要對(duì)這句話做句法分析,也就是說(shuō)必須讓計(jì)算機(jī)知道,這句話的主要成分是“我是粉絲”,“她的”是用來(lái)修飾和限定“粉絲”的。然后從語(yǔ)義的角度上分析,“我”是人,人不能是“粉絲”,因此這里“粉絲”應(yīng)該指的是網(wǎng)絡(luò)用語(yǔ)中的“粉絲”,意思是“fans”。這樣這句話所要表達(dá)的意思就比較清楚了。

        語(yǔ)義消歧通常指根據(jù)一個(gè)詞所處的上下文來(lái)判斷這個(gè)詞在這個(gè)上下文中的意思。語(yǔ)義消歧是自然語(yǔ)言處理的重要方面,很多現(xiàn)實(shí)的應(yīng)用都必須以語(yǔ)義消歧為基礎(chǔ)。

        語(yǔ)義消歧的方法大致分為四個(gè)類(lèi)別,即基于背景知識(shí)的語(yǔ)義消歧、監(jiān)督的語(yǔ)義消歧方法、半監(jiān)督的學(xué)習(xí)方法和無(wú)監(jiān)督的學(xué)習(xí)方法。

        2 基于背景知識(shí)的語(yǔ)義消歧

        基于背景知識(shí)的語(yǔ)義消歧方法,就是建立在一個(gè)已有的背景知識(shí)庫(kù)上的方法。這種背景知識(shí)庫(kù)通常是一種人工建立的可被計(jì)算機(jī)讀取的字典,這個(gè)字典通常具有一個(gè)有向圖結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)代表一個(gè)概念,每個(gè)概念包含了能夠表示此概念的所有的詞(同義詞集),因此,詞與概念之間的關(guān)系是多對(duì)多的關(guān)系,即一個(gè)詞可以對(duì)應(yīng)多個(gè)概念,一個(gè)概念又可以對(duì)應(yīng)多個(gè)詞。每個(gè)概念的父節(jié)點(diǎn)是比此概念更一般的一個(gè)概念,它的子節(jié)點(diǎn)則是比它更特殊的概念。

        2.1 概念之間的相似度

        在MRD的基礎(chǔ)上,很多工作都是考慮如何衡量?jī)蓚€(gè)概念之間的相似度。例如下面是一個(gè)常用的衡量標(biāo)準(zhǔn)①Claudia Leacock and Martin Chodorow.Filling in a sparse training space for word sense identification.ms.,March 1994.,其中Path(C1,C2)是概念C1和C2在一個(gè)語(yǔ)義網(wǎng)中的路徑,D為這個(gè)語(yǔ)義網(wǎng)絡(luò)的最大深度。可以看出,兩個(gè)概念在語(yǔ)義網(wǎng)中距離越近,那么它們相似度越高。

        除此之外,還有很多其它的相似度量法,如[Resnik 1995]中,作者用信息容量(Information Content)來(lái)定義兩個(gè)概念相似度,即:

        其中,LCS(C1,C2)為能夠包含這兩個(gè)概念的上意概念(Least Common Subsumer),也即這兩個(gè)概念在語(yǔ)義網(wǎng)中對(duì)應(yīng)節(jié)點(diǎn)最接近它們的共同父親節(jié)點(diǎn);IC(C)即概念C的信息容量,直觀講,一個(gè)概念越頻繁,那么它的信息量越少。

        2.2 選擇傾向(Selectional Preference)

        選擇傾向是定義詞用法的一種簡(jiǎn)化方式,例如:我們常說(shuō)“喝可樂(lè),喝中藥,喝酒,喝水”,其實(shí)我們有一種對(duì)“喝”這個(gè)詞用法的定義,即喝后面通常跟可食用的液體,這樣我們就知道“可樂(lè)”這里指的是一種飲料。也就是說(shuō)如果使用選擇傾向來(lái)幫助我們做語(yǔ)義消歧可以很大程度提高消歧的準(zhǔn)確率。那么如何得到這些選擇傾向呢?直接從人標(biāo)注的語(yǔ)料庫(kù)中得到這樣的知識(shí),像“可樂(lè)”這樣的詞已經(jīng)被人工標(biāo)注了它的正確義項(xiàng),通過(guò)語(yǔ)料庫(kù),我們把“可樂(lè)”,“水”,“酒”都?xì)w屬于“飲料”這個(gè)概念,而“中藥”,“口服液”等則歸屬于“藥水”,這樣可以得到兩個(gè)選擇傾向:喝[飲料],喝[藥水]。 當(dāng)然,也可將“飲料”,“藥水”上升到“液體”,從而得到:喝[液體]。選擇傾向?qū)嶋H上是一種詞和概念(Word-to-Class)的搭配,所以可以設(shè)定一個(gè)閾值,當(dāng)一個(gè)詞和概念對(duì)的度量達(dá)到這個(gè)閾值時(shí),就可以認(rèn)為是一個(gè)選擇傾向配。

        2.3 雙語(yǔ)對(duì)齊語(yǔ)料的利用

        另外,利用雙語(yǔ)對(duì)齊的語(yǔ)料庫(kù)也可以建立一個(gè)標(biāo)注語(yǔ)料庫(kù)。有時(shí)一個(gè)有歧義的詞,當(dāng)知道了它對(duì)另外一種語(yǔ)言的翻譯時(shí),就知道它的義項(xiàng)。如“可樂(lè)”一詞在某個(gè)句子中如果它的英文翻譯是Cola,而Cola本身是沒(méi)有歧義的,那么我們就可以用Cola的義項(xiàng)來(lái)標(biāo)注“可樂(lè)”,這樣就得到一個(gè)標(biāo)注的語(yǔ)料庫(kù)②William A.Gale,Kenneth W.Church and David Yarowsky.A Method for Disambiguating Word Senses in a Large Corpus.Computers and the Humanities.pp.1-30.1992.。

        3 有監(jiān)督的語(yǔ)義消歧

        一般來(lái)說(shuō),監(jiān)督學(xué)習(xí)(Supervised Learning)的方法也就是數(shù)據(jù)的類(lèi)別在學(xué)習(xí)之前已經(jīng)知道。在語(yǔ)義消歧的問(wèn)題上,就是說(shuō)每個(gè)詞所有可能的義項(xiàng)都是已知的。有監(jiān)督的語(yǔ)義消歧方法通過(guò)一個(gè)已標(biāo)注的語(yǔ)料庫(kù)學(xué)習(xí)得到一個(gè)分類(lèi)模型。

        在此框架下,剩下的主要問(wèn)題就是如何選擇能夠比較好地區(qū)分詞的不同語(yǔ)義的特征。人們理解一個(gè)詞的真正意義,通常是根據(jù)這個(gè)詞所處的上下文來(lái)判斷。而在現(xiàn)有技術(shù)中,提取特征的方法也是根據(jù)這個(gè)原則進(jìn)行的。例如,目前語(yǔ)義消歧常用的特征包括:Co-occurrence,詞語(yǔ)搭配(Collocation),NGram,詞性(Part-Of-Speech),predicate-argument,動(dòng)賓結(jié)構(gòu),主謂結(jié)構(gòu)等。同時(shí),為了避免大量跟當(dāng)前詞沒(méi)有關(guān)系(如距離較遠(yuǎn))的詞影響消歧結(jié)果,提取特征通常被限定在一個(gè)固定的窗口大小內(nèi)。

        4 無(wú)監(jiān)督的語(yǔ)義消歧

        無(wú)監(jiān)督的語(yǔ)義消歧主要是通過(guò)對(duì)每個(gè)詞所處的上下文環(huán)境來(lái)將相同意義的詞聚類(lèi)到一起。也就是說(shuō)這種方法假設(shè)具有相同上下文的詞將具有相同或者類(lèi)似的意義③David Yarowsky.Unsupervised word sense disambiguation rivaling supervised methods.Proceedings of the 33rd annual meeting on Association for Computational Linguistics(ACL'95).pp.189-196.1995.。無(wú)監(jiān)督方法不借助任何背景知識(shí),即這種方法事先并不知道每個(gè)詞可能具有哪些不同的意思,因此,這種無(wú)監(jiān)督的方法也并不給同一個(gè)聚類(lèi)一個(gè)語(yǔ)義標(biāo)簽。這種方法仍然采用監(jiān)督學(xué)習(xí)方法里面表示每個(gè)詞的方法,即向量空間模型。因此,只要是基于VSM的所有聚類(lèi)算法也都適用于無(wú)監(jiān)督的語(yǔ)義消歧。另外,聚類(lèi)方法對(duì)于建立選擇傾向也有幫助作用。

        5 半監(jiān)督的語(yǔ)義消歧

        半監(jiān)督的方法介于監(jiān)督和無(wú)監(jiān)督方法之間,它不需要人工標(biāo)注大量的語(yǔ)料庫(kù),而是通過(guò)一些標(biāo)注的樣例作為種子集合,通過(guò)一種迭代的方式來(lái)不斷地?cái)U(kuò)展這個(gè)集合,如Self-Training,Co-Training以及Bootstrapping的方法都屬于此類(lèi)①Rada Mihalcea,Paul Tarau and Elizabeth Figa.PageRank on Semantic Networks,with Application to Word Sense Disambiguation.Proceedings of the 20th International Conference on Computational Linguistics(COLING'04).2004.。

        半監(jiān)督方法可以很好地緩解數(shù)據(jù)稀疏的問(wèn)題,但這種迭代的方法很容易引入一些錯(cuò)誤的樣例(噪聲),錯(cuò)誤的積累最終導(dǎo)致此方法的性能也無(wú)法達(dá)到令人滿(mǎn)意的程度。關(guān)于如何建設(shè)大規(guī)模標(biāo)注語(yǔ)料庫(kù),可參考②Jin Peng,Wu Yunfang,Yu Shiwen.Survey of Word Sense Annotated Corpus Construction.Journal of Chinese Information Processing.22(3):16-23.May,2008.。

        6 討論與展望

        我們可以看到現(xiàn)有的工作使用了各種機(jī)器學(xué)習(xí)方法以及各種有用的特征,然而究竟哪些方法和那些特征具有較好的效果呢?在③Yoong Keok Lee and Hwee Tou Ng.An Empirical Evaluation of Knowledge Sources and Learning Algorithms for Word Sense Disambiguation.Proceedings of the ACL-02 conference on Empirical methods in natural language processing(EMNLP'02).pp.41-48.2002.中,作者比較了幾種較流行的機(jī)器學(xué)習(xí)方法,包括SVM,樸素貝葉斯,AdaBoost和決策樹(shù)。實(shí)驗(yàn)結(jié)果表明SVM方法得到了最好的效果,其次是樸素貝葉斯。其中WSD問(wèn)題本身存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,而在很多稀疏問(wèn)題上,SVM和樸素貝葉斯都有比較好的表現(xiàn)。

        要更好地解決WSD問(wèn)題,有兩個(gè)方法可以做,一是標(biāo)注大量的數(shù)據(jù)集,二是建立一套完善的背景知識(shí)。對(duì)于“完善的背景知識(shí)”主要是指能夠反映每個(gè)詞在不同場(chǎng)合的用法的定義,這個(gè)思想類(lèi)似于選擇傾向,但比選擇傾向更加具體。例如,對(duì)于喝,可以定義喝[可飲用的液體],而同時(shí),如果其他的概念(concept),具有[可飲用的液體]屬性的,就可以與喝搭配。那么對(duì)于一個(gè)詞,如“可樂(lè)”,如果具有兩個(gè)不同的義項(xiàng),其中一個(gè)具有[可飲用的液體]的屬性,另一個(gè)不具有,則當(dāng)“喝”在“可樂(lè)”之前出現(xiàn)時(shí),就可以很容易判斷“可樂(lè)”的義項(xiàng)。但是當(dāng)前的選擇傾向都是通過(guò)統(tǒng)計(jì)的方式獲得,這就導(dǎo)致了這種用法的過(guò)于一般性和不完善性。一個(gè)更好的關(guān)于詞的“用法”的詞典應(yīng)該由人工來(lái)完成,然后將這樣的詞典作為有用的背景知識(shí)庫(kù)。

        另外一方面,在進(jìn)行WSD之前,必須很清楚地知道句子的組成方式,也就是說(shuō)必須知道哪個(gè)詞修飾哪個(gè)詞,而區(qū)分一次詞的義項(xiàng)通常只由修飾它的詞或者它修飾的詞決定。例如,句子“他在喝可樂(lè)”,判斷“可樂(lè)”義項(xiàng)時(shí),應(yīng)該通過(guò)“喝”判斷,而不應(yīng)該通過(guò)“他”來(lái)判斷,否則會(huì)得到完全不同的結(jié)果。因此,WSD需要更精確地劃分句子成分(Syntactic Parsing)。

        最后,很多詞的用法比較相似,尤其是一些可以互相替換的同義詞,如果能夠找到這樣一些用法相似的詞,一方面在缺乏背景知識(shí)情況下,這些詞可以緩解數(shù)據(jù)稀疏的問(wèn)題。例如④Dekang Lin.Using Syntactic Dependency as Local Context to Resolve Word Sense Ambiguity.Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics.pp.64-71.1997.中,作者利用所有相似詞,而不是單一詞作為訓(xùn)練集,來(lái)訓(xùn)練監(jiān)督的語(yǔ)義消歧方法。在⑤Peng Jin,Xu Sun,Yunfang Wu and Shiwen Yu.Word Clustering for Collocation-Based Word Sense Disambiguation,Proceedings ofthe InternationalConference on IntelligentTextProcessing and Computational Linguistics(CICLing'07),LNCS4394.2007.pp.267-274.中,作者通過(guò)聚類(lèi)方式得到相似的詞。另一方面,這種處理方式也可以輔助人工進(jìn)行背景知識(shí)庫(kù)的建立。

        猜你喜歡
        消歧義項(xiàng)語(yǔ)料庫(kù)
        “玄”“懸”二字含義不同
        鄉(xiāng)音(2024年12期)2024-12-31 00:00:00
        基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
        基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
        小心兩用成語(yǔ)中的冷義項(xiàng)
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        兩用成語(yǔ)中的冷義項(xiàng)
        知識(shí)窗(2015年1期)2015-05-14 09:08:17
        Enhanced Precision
        Beijing Review(2012年37期)2012-10-16 02:24:10
        在线亚洲精品中文字幕美乳色| 黑人巨大白妞出浆| 九九精品视频在线观看| 国产精品女丝袜白丝袜| 国产爽快片一区二区三区| (无码视频)在线观看| 国产福利酱国产一区二区| 国产免费人成视频在线播放播| 五月激情在线观看视频| 亚洲成av人片在www鸭子| 国产高清一区二区三区视频| 国产福利酱国产一区二区| 美女偷拍一区二区三区| 国产乱人伦偷精品视频免观看| 国产婷婷色综合av蜜臀av| 亚洲天堂中文| 日韩精品一区二区三区av| 国产精品无码一区二区三级| 国产精品午夜无码av天美传媒| 一本大道久久东京热无码av| 国产一区二区不卡av| 国内少妇毛片视频| 蜜臀av一区二区| 国产av大片在线观看| 日本一区二区在线高清| 美女张开腿让男人桶爽| av中文字幕不卡无码| 激情在线视频一区二区三区| 国产女人好紧好爽| 成人网站免费大全日韩国产| 欧美中出在线| 国产白色视频在线观看| 亚洲精品久久| 国产欧美久久久另类精品 | 日韩伦理av一区二区三区| 欧美巨鞭大战丰满少妇| 日韩成人精品一区二区三区| 在线精品首页中文字幕亚洲| 精品欧洲av无码一区二区| 国产精品久久久久…| 亚洲精品中文字幕乱码无线|