亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞向量的無(wú)監(jiān)督詞義消歧方法

        2018-12-10 09:13:16呂曉偉章露露
        軟件導(dǎo)刊 2018年9期

        呂曉偉 章露露

        摘要 詞義消歧在多個(gè)領(lǐng)域有重要應(yīng)用?;贚esk及其改進(jìn)算法是無(wú)監(jiān)督詞義消歧研究的典型代表,但現(xiàn)有算法多基于上下文與義項(xiàng)詞覆蓋,通常未考慮上下文中詞與歧義詞的距離影響。為此提出一種基于詞向量的詞義消歧方法,利用向量表示上下文以及義項(xiàng),并考慮融合上下文與義項(xiàng)的語(yǔ)義相似度及義項(xiàng)分布頻率進(jìn)行詞義消歧。在Senseval-3數(shù)據(jù)集上測(cè)試,結(jié)果表明,該方法能有效實(shí)現(xiàn)詞義消歧。

        關(guān)鍵詞 詞義消歧;詞向量;自然語(yǔ)言處理;機(jī)器翻譯;Word2vec

        DOIDOI:10.11907/rjdk.181100

        中圖分類號(hào):TP391

        文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)009019303

        英文標(biāo)題Unsupervised Word Disambiguation Method Based on Word Embeddings

        --副標(biāo)題

        英文作者LV Xiaowei,ZHANG Lulu

        英文作者單位(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

        英文摘要Abstract:Word sense disambiguation have important applications in many fields.Lesk algorithm and its improved algorithm are typical representatives of unsupervised wordsense disambiguation.However,most of the existing algorithms are mostly based on word coverage of context and gloss.In addition,the effect of distance between ambiguous words and word in context is not considered.This paper proposes a method of wordsense disambiguation based on word vectors,which uses vectors to represent contexts and gloss and also considers combined semantic similarity between context and gloss with the distribution frequency of gloss.The test results on the Senseval3 dataset show that this method can effectively achieve wordsense disambiguation.

        英文關(guān)鍵詞Key Words:word sense disambiguation; word embedding; natural language processing;machine translation;Word2vec

        0引言

        在自然語(yǔ)言中存在大量一詞多義現(xiàn)象,這些詞被稱為歧義詞。詞義消歧指在給定的語(yǔ)境中識(shí)別歧義詞的正確含義[1]。詞義消歧是自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)研究,也是核心研究,在機(jī)器翻譯、語(yǔ)音識(shí)別、文本分類、信息檢索等方面有著十分重要的作用。

        目前,解決詞義消歧任務(wù)主要有4種方法[2]:①基于知識(shí)的方法,②基于語(yǔ)料庫(kù)的無(wú)監(jiān)督方法,③基于語(yǔ)料庫(kù)的有監(jiān)督方法,④組合以上方法的方法。基于知識(shí)的方法主要使用豐富且系統(tǒng)的語(yǔ)義知識(shí)庫(kù)進(jìn)行消歧,例如《知網(wǎng)》[3]、WordNet[4]等;基于語(yǔ)料庫(kù)的有監(jiān)督方法使用經(jīng)過(guò)標(biāo)注的語(yǔ)料庫(kù)進(jìn)行消歧。有監(jiān)督的方法消歧效果較好,但這種方法需要人工標(biāo)注語(yǔ)料庫(kù),現(xiàn)實(shí)中大量人工標(biāo)注的語(yǔ)料庫(kù)往往難以獲取,故多數(shù)特定場(chǎng)合難以采用此方式。

        基于語(yǔ)料庫(kù)的無(wú)監(jiān)督方法使用未經(jīng)標(biāo)注的語(yǔ)料庫(kù)進(jìn)行消歧,典型代表為L(zhǎng)esk算法[5]。該算法利用機(jī)讀詞典,將歧義詞的每個(gè)義項(xiàng)與上下文中詞的每個(gè)義項(xiàng)進(jìn)行匹配,單詞覆蓋的最多義項(xiàng)為該歧義詞上下文中的正確含義。

        Lesk算法雖能進(jìn)行詞義消歧任務(wù),但存在兩個(gè)問(wèn)題[7]:①計(jì)算單詞覆蓋度的次數(shù)與概念中的單詞數(shù)量有關(guān),單詞數(shù)量越多,計(jì)算次數(shù)越多;②詞匯覆蓋只是基于義項(xiàng)中詞匯的共現(xiàn)。針對(duì)第一個(gè)問(wèn)題,有研究者提出簡(jiǎn)化版的Lesk算法[8]:將歧義詞的各個(gè)義項(xiàng)分別與歧義詞所在的上下文計(jì)算單詞的覆蓋度,覆蓋度最大的義項(xiàng)為最佳含義。針對(duì)第二個(gè)問(wèn)題,有研究者[9]提出根據(jù)語(yǔ)義相關(guān),使用WordNet作為語(yǔ)義網(wǎng)絡(luò),擴(kuò)充歧義詞各個(gè)義項(xiàng),以增加覆蓋度。王永生[10]以WordNet為基礎(chǔ),使用CBC算法擴(kuò)充目標(biāo)詞的相似詞集合進(jìn)行詞義消歧。Pierpaolo Basile等[11]考慮擴(kuò)展后的義項(xiàng)頻率等信息,并在分布語(yǔ)義空間中計(jì)算相似度以消歧。基于改進(jìn)的Lesk算法,通過(guò)不同方式擴(kuò)展同義詞、義項(xiàng),再與上下文計(jì)算相似度進(jìn)行消歧。

        隨著Word2vec、Glove的提出以及普及,大量研究者使用詞向量[6]完成自然語(yǔ)言處理中的許多任務(wù),詞義消歧任務(wù)也不例外。

        詞向量是使用一個(gè)向量表示一個(gè)詞。目前,有兩種詞向量表達(dá)方式:① onehot representation方式;②Distributed representation[12]。onehot representation方式表示的詞向量非常簡(jiǎn)單,向量的長(zhǎng)度為辭典大小,向量中的每一維由0或1表示,詞在辭典中對(duì)應(yīng)的維為1,其它為0。這種方式雖然可簡(jiǎn)單表示一個(gè)詞,但不能有效表達(dá)詞之間的詞義信息,而且存在數(shù)稀疏問(wèn)題。Distributed representation這種方式能很好地克服onehot representation方式的兩個(gè)缺點(diǎn)。該方法將一個(gè)詞映射到一個(gè)實(shí)數(shù)向量空間中,一般為100~300維,這種方法使得詞義之間的相似性可以用空間距離表示,兩個(gè)詞向量的空間距離越近,表示兩個(gè)詞的相似性越高。

        Google公司2013年開(kāi)放了Word2vec[16]這一可以訓(xùn)練詞向量的工具。Word2vec以大量文本訓(xùn)練語(yǔ)料作為輸入,通過(guò)訓(xùn)練模型快速有效地將一個(gè)詞語(yǔ)表達(dá)成向量形式。該工具包含CBOW和Skip_gram兩種訓(xùn)練模型。CBOW模型通過(guò)上下文預(yù)測(cè)當(dāng)前詞,Skip_gram模型通過(guò)當(dāng)前詞預(yù)測(cè)其上下文。Word2vec開(kāi)放后,有研究者使用Word2vec訓(xùn)練所得的詞向量進(jìn)行詞義消歧實(shí)驗(yàn)。楊安等[13]考慮義項(xiàng)與上下文相似度分?jǐn)?shù)、領(lǐng)域相關(guān)性分?jǐn)?shù)、WordNet相似度分?jǐn)?shù)以及義項(xiàng)頻度分?jǐn)?shù)4種因素進(jìn)行消歧。Kaveh Taghipour[14]等結(jié)合IMS系統(tǒng),加入詞向量進(jìn)行消歧。

        上述方法考慮了擴(kuò)展注釋、相似詞集、參考領(lǐng)域信息、利用語(yǔ)義網(wǎng)絡(luò)等因素,但是未考慮上下文中詞與歧義詞的距離對(duì)消歧的影響。本文使用文檔向量表示歧義詞所在的上下文,使用義項(xiàng)向量表示歧義詞的各個(gè)義項(xiàng),進(jìn)行詞義消歧。同時(shí)考慮到義項(xiàng)頻度對(duì)消歧的準(zhǔn)確度影響,最終實(shí)現(xiàn)無(wú)監(jiān)督詞義消歧方法。通過(guò)在Senseval3數(shù)據(jù)集上測(cè)試,表明本文方法能有效實(shí)現(xiàn)詞義消歧。

        1基于詞向量的詞義消歧方法

        1.1方法描述

        本文提出的詞義消歧方法主要思想是,使用向量分別表示歧義詞的各個(gè)義項(xiàng)及歧義詞所在的上下文,分別計(jì)算向量表示的上下文與歧義詞的各個(gè)義項(xiàng)之間的相似度,再計(jì)算歧義詞各個(gè)義項(xiàng)的分布頻率,結(jié)合相似度以及義項(xiàng)頻度,選擇出歧義詞的最佳含義。消歧步驟如下:①數(shù)據(jù)預(yù)處理;②上下文以及義項(xiàng)的向量表示;③上下文-義項(xiàng)相似度計(jì)算;④義項(xiàng)分布;⑤最終詞義選擇。如圖1所示。

        在數(shù)據(jù)預(yù)處理步驟中,本文只進(jìn)行去標(biāo)點(diǎn)、分詞、大寫(xiě)轉(zhuǎn)換小寫(xiě)操作,得到歧義詞的上下文,后續(xù)分別描述上下文及義項(xiàng)的向量表示、上下文-義項(xiàng)相似度計(jì)算、義項(xiàng)分布以及最終詞義選擇。

        1.2上下文及義項(xiàng)向量表示

        直觀來(lái)看,若上下文中的詞距離歧義詞越近,對(duì)歧義詞正確含義的判定影響就越大。為體現(xiàn)上下文中詞與歧義詞距離的影響,本文采用局部加權(quán)法計(jì)算上下文中詞相對(duì)歧義詞的位置權(quán)重。如公式(1)所示。

        wi=e(-|xi-t|2τ2),xi∈|C|(1)

        式(1)中,wi表示上下文中第i個(gè)詞位置權(quán)重,xi表示上下文中第i個(gè)詞位置,t表示歧義詞位置,|C|表示上下文大小,τ2是調(diào)節(jié)參數(shù),表示上下文中的詞相對(duì)歧義詞位置的權(quán)重關(guān)系,距離關(guān)鍵詞距離越近,權(quán)重越大。

        在定義位置權(quán)重基礎(chǔ)上,上下文向量計(jì)算公式如下:

        ci=∑nie1i·wi,wi∈0,C(2)

        式(2)中,ci表示第i篇上下文的向量表示,wi表示上下文中第i個(gè)詞的位置權(quán)重,e1表示上下文向量,e1i表示上下文詞集中第i個(gè)詞的詞向量,|C|表示歧義詞所在上下文的大小。

        各個(gè)義項(xiàng)的向量計(jì)算如下:

        gi=∑ni∈ae2i(3)

        式(3)中,gi表示歧義詞第i個(gè)義項(xiàng)的向量表示,a表示義項(xiàng)中的詞,e2表示義項(xiàng)向量,e2i表示義項(xiàng)中的第i個(gè)詞的詞向量。

        1.3上下文-義項(xiàng)相似度計(jì)算

        本文使用余弦相似度判斷上下文與各個(gè)義項(xiàng)的相似度。公式(4)為余弦相似度計(jì)算公式。

        cos(c,gi)=c·gi‖c‖·‖gi‖(4)

        式(4),cos(c,gi)表示上下文向量與歧義詞第i個(gè)義項(xiàng)的余弦相似度,c表示上下文向量,gi表示第i個(gè)義項(xiàng)的義項(xiàng)向量。

        1.4義項(xiàng)分布頻率

        義項(xiàng)分布頻率指歧義詞的各個(gè)義項(xiàng)在包含該歧義詞的文檔中出現(xiàn)的概率。根據(jù)式(5)計(jì)算各個(gè)義項(xiàng)分布概率:

        Pi=niN(5)

        式(5)中,N表示包含該歧義詞的上下文數(shù)量, ni表示在上下文中歧義詞的含義是第i個(gè)義項(xiàng)的上下文數(shù)目。

        1.5最終詞義選擇

        最佳義項(xiàng)選擇采用評(píng)分方式,對(duì)上下文和義項(xiàng)的相似度以及義項(xiàng)頻度綜合考慮。根據(jù)公示(6)計(jì)算每一個(gè)義項(xiàng)得分,最高得分的義項(xiàng)為歧義詞在該上下文的最佳含義。

        scorei=a·cos(c,gi)+b·Pi(6)

        式(6)中,a、b是參數(shù),本文方法中a=b=0.5。

        2實(shí)驗(yàn)

        本文使用維基百科數(shù)據(jù)集,采用Word2vec訓(xùn)練詞向量,使用CBOW模型,窗口大小為5,詞向量維度為300。

        本文使用Senseval3數(shù)據(jù)集,該數(shù)據(jù)集包含57個(gè)歧義詞,其中動(dòng)詞32個(gè),名詞20個(gè),形容詞5個(gè)。訓(xùn)練集包含7 860篇文檔,測(cè)試集包含3 944篇文檔,每個(gè)詞平均義項(xiàng)為6.473個(gè),義項(xiàng)分布頻率在Senseval3數(shù)據(jù)集中得到。使用本文方法在Senseval3測(cè)試集上測(cè)試,并與基于改進(jìn)的Lesk算法[15] (L1)及文獻(xiàn)[10]中的方法(L2)進(jìn)行對(duì)比,本文方法使用L3表示,結(jié)果見(jiàn)表1。

        使用本文方法全部詞的平均準(zhǔn)確率達(dá)到0.558,高于文獻(xiàn)[15]中改進(jìn)的Lesk算法準(zhǔn)確度,也高于文獻(xiàn)[10]中沒(méi)有使用義項(xiàng)頻度只計(jì)算名詞消歧的準(zhǔn)確度,表明本文考慮上下文中詞與歧義詞的距離及融合義項(xiàng)頻度方法有效。

        3結(jié)語(yǔ)

        語(yǔ)義消歧在機(jī)器翻譯、語(yǔ)音識(shí)別、文本分類、信息檢索等方面有著十分重要的作用。考慮歧義詞周圍詞語(yǔ)對(duì)歧義詞正確含義判定的影響,以及歧義詞各個(gè)義項(xiàng)在數(shù)據(jù)集中出現(xiàn)的概率,使用詞向量進(jìn)行消歧,消歧效果優(yōu)于改進(jìn)的Lesk算法。歧義詞的有些義項(xiàng)在數(shù)據(jù)集中并不存在,消歧準(zhǔn)確率還有進(jìn)一步提升空間。下一步擬研究更準(zhǔn)確的歧義詞義項(xiàng)概率及用更準(zhǔn)確的方法表示上下文以及歧義詞義項(xiàng)方法。

        參考文獻(xiàn)參考文獻(xiàn):

        [1]NAVIGLI R.Word sense disambiguation:asurvey[J].ACM Computing Surveys,2009,42(2):169.

        [2]AGIRRE E,EDMONNDS P.Word sense disambiguation[J].Algorithm and Application,2007(10):128.

        [3]董振東,董強(qiáng).知網(wǎng)和漢語(yǔ)研究[J].當(dāng)代語(yǔ)言學(xué),2001,3(1):3344.

        [4]FELLBAUM C.WordNet: An electronic lexical database[M].Cambridge:MIT press,1998.

        [5]LESK M.Automatic sense disambiguation using machine readable dictionaries:how to tell a pine cone from an ice cream cone[C].Proceedings of the 5th Annual International Conference on Systems Documentation,1986:2426.

        [6]蔣振超,李麗雙,黃德根,等.基于詞語(yǔ)關(guān)系的詞向量模型[J].中文信息學(xué)報(bào),2017,31(3):2531.

        [7]BASILE P,CAPUTO A,SEMERARO G.An enhanced Lesk word sense disambiguation algorithm through a distributional semantic model[C].International Conference on Roceedings of Coling,2014.

        [8]KILGARRIFF A,ROSENZWEING J.Framework and Results for English SENSEVAL[J].Computers and the Humanities,2000,34(12):1548.

        [9]BANERJEE S,PEDERSEN T.An adapted Lesk algorithm for word sense disambiguation using WordNet[J].Computational Linguistics and Intelligent Text Processing,2002(2276) 136145.

        [10]王永生.基于改進(jìn)的Lesk算法的詞義排歧算法[J].微型機(jī)與應(yīng)用,2013 (24):6971.

        [11]BASILE P,CAPUTO A,SEMERARO G.An enhanced Lesk word sense disambiguation algorithm through a distributional semantic model[C].International Conference on Roceedings of Coling,2014.

        [12]HINTON G E.Learning distributed representation of concepts.[C].Proceedings of CogSci,1986:112.

        [13]楊安,李素建,李蕓.基于領(lǐng)域知識(shí)和詞向量的詞義消歧方法[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2017,53 (2):204210.

        [14]TAGHIPOUR K,NG H T.Semisupervised word sense disambiguation using word embeddings in general and specific domains[J].The 2015 Annual Conference of the North American Chapter of the ACL,2015(5):314323.

        [15]BASILE P,CAPUTO A,SEMERARO G.An enhanced Lesk word sense disambiguation algorithm through a distributional semantic model[C].International Conference on Roceedings of Coling,2014.

        [16]周練.Word2vec的工作原理及應(yīng)用探究[J].圖書(shū)情報(bào)導(dǎo)刊,2015(2):145148.

        責(zé)任編輯(責(zé)任編輯:杜能鋼)

        亚洲女同同性少妇熟女| 国产综合久久久久| 免费的成年私人影院网站| 91网红福利精品区一区二| 91快射视频在线观看| 国产一区二区精品久久岳| 日韩a无v码在线播放| 精品国产性色av网站| 久久久亚洲成年中文字幕| 欧美老妇交乱视频在线观看| 夜夜欢性恔免费视频| 人妻中出精品久久久一区二| 清纯唯美亚洲经典中文字幕| 波多野结衣在线播放| 亚洲av无码精品色午夜果冻不卡| 亚洲人成影院在线高清| 国产一区二区熟女精品免费| 欧洲女人与公拘交酡视频| 欧美成年黄网站色视频| 四虎国产精品成人影院| 国产一区二区三区青青草 | av资源在线永久免费观看| 亚洲精品中文字幕乱码影院| 成人爽a毛片在线视频| 亚洲中文字幕在线一区二区三区| 日本一二三区在线视频观看 | 欧美日韩中文制服有码| 激情视频在线观看免费播放| 一二三四区中文字幕在线| 精品国模一区二区三区| 蜜桃一区二区三区在线看| 人妻少妇偷人精品一区二区| 午夜福利理论片在线观看| 99热成人精品热久久66| 一区二区三区日本在线| 丝袜人妻一区二区三区| 免费无码又爽又刺激网站| 亚洲性爱区免费视频一区| 青青草在线这里只有精品| 奇米影视777撸吧| 中文无码日韩欧免费视频 |