張春祥 趙凌云 高雪瑤
摘?要:針對(duì)漢語(yǔ)中存在的詞匯歧義問(wèn)題,根據(jù)左右鄰接詞匯的詞形、詞性和譯文信息,采用卷積神經(jīng)網(wǎng)絡(luò)(convolution?neural?network,CNN)來(lái)確定它的真實(shí)含義。選取歧義詞匯的消歧詞窗,共包含兩個(gè)鄰接詞匯單元,抽取其詞形、詞性和譯文作為消歧特征。以消歧特征為基礎(chǔ),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建詞義消歧分類器。利用SemEval-2007:?Task#5的訓(xùn)練語(yǔ)料和哈爾濱工業(yè)大學(xué)語(yǔ)義標(biāo)注語(yǔ)料來(lái)優(yōu)化CNN的參數(shù)。采用SemEval-2007:?Task#5的測(cè)試語(yǔ)料對(duì)詞義消歧分類器進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明:相對(duì)于貝葉斯(Bayes)模型和BP神經(jīng)網(wǎng)絡(luò)(BP?neural?network)而言,本文所提出方法的消歧平均準(zhǔn)確率分別提高了14.94%和6.9%。
關(guān)鍵詞:詞匯歧義;卷積神經(jīng)網(wǎng)絡(luò);詞匯單元;消歧特征;詞義消歧
DOI:10.15938/j.jhust.2020.03.020
中圖分類號(hào):?TP391.2
文獻(xiàn)標(biāo)志碼:?A
文章編號(hào):?1007-2683(2020)03-0131-06
Abstract:For?vocabulary?ambiguity?problem?in?Chinese,?CNN?(Convolution?Neural?Network)?is?adopted?to?determine?true?meaning?of?ambiguous?vocabulary?where?word,?part-of-speech?and?translation?around?its?left?and?right?adjacent?words?are?used.?We?select?disambiguation?window?of?ambiguous?word?which?contains?two?adjacent?lexical?units?and?word,?part-of-speech?and?translation?are?extracted?as?disambiguation?features.?Based?on?disambiguation?features,?convolution?neural?network?is?used?to?construct?word?sense?disambiguation?(WSD)?classifier.?Training?corpus?in?SemEval-2007:?Task#5?and?semantic?annotation?corpus?in?Harbin?Institute?of?Technology?are?used?to?optimize?parameters?of?CNN.?Test?corpus?in?SemEval-2007:?Task#5?is?applied?to?test?word?sense?disambiguation?classifier.?Experimental?results?show?that?compared?with?Bayes?model?and?BP?neural?network,?the?proposed?method?in?this?paper?can?make?average?disambiguation?accuracy?improve?14.94%?and?6.9%.
Keywords:vocabulary?ambiguity;?convolution?neural?network;?lexical?unit;?disambiguation?feature;?word?sense?disambiguation
0?引?言
詞義消歧是自然語(yǔ)言處理領(lǐng)域中的關(guān)鍵性研究課題。在漢語(yǔ)文本中,存在著詞匯歧義問(wèn)題。這種問(wèn)題給機(jī)器翻譯、信息檢索和文本分類帶來(lái)了很大的困擾。只有先判斷歧義詞匯的真實(shí)語(yǔ)義,才能對(duì)漢語(yǔ)文本進(jìn)行有效快速的分類和翻譯。國(guó)內(nèi)外很多學(xué)者針對(duì)這一現(xiàn)象開(kāi)展了大量的研究工作。
在漢語(yǔ)詞義消歧問(wèn)題上,張仰森等[1]研究了貝葉斯模型、決策樹(shù)模型、向量空間模型和最大熵模型。比較了它們的消歧效果,為詞義消歧模型的發(fā)展與應(yīng)用奠定了基礎(chǔ)。Singh等[2]提出了基于共現(xiàn)詞的條件概率和基于樸素貝葉斯分類器的兩種有監(jiān)督詞義消歧算法,能夠提高消歧精度。趙謙等[3]利用綜合詞的詞性、詞語(yǔ)所處的語(yǔ)境和Hownet語(yǔ)義詞典來(lái)計(jì)算語(yǔ)義相似度。以詞語(yǔ)的語(yǔ)義相似度為基礎(chǔ),根據(jù)句子結(jié)構(gòu)加權(quán)平均得到句子的語(yǔ)義相似度。利用二元集合法來(lái)計(jì)算短文本的語(yǔ)義相似度,以實(shí)現(xiàn)詞義消歧。楊陟卓等[4]以貝葉斯模型為基礎(chǔ),以譯文所組成的上下文作為偽訓(xùn)練語(yǔ)料,利用真實(shí)訓(xùn)練語(yǔ)料和偽訓(xùn)練語(yǔ)料,來(lái)確定歧義詞匯的詞義。李國(guó)臣等[5]以詞、詞性、位置和目標(biāo)詞特征為基礎(chǔ),融入不同的詞林信息,使用條件隨機(jī)場(chǎng)模型,研究了各詞林信息特征對(duì)語(yǔ)義角色邊界識(shí)別與分類的影響。Kang等[6]構(gòu)建了一個(gè)有監(jiān)督學(xué)習(xí)的嵌入式感知空間模型。使用大量的標(biāo)記語(yǔ)料,結(jié)合嵌入的詞義來(lái)擴(kuò)展詞向量空間模型,以確定歧義詞匯在上下文中的具體含義。Wang等[7]提出了一種具有標(biāo)簽實(shí)例和功能的交互式學(xué)習(xí)算法。通過(guò)標(biāo)記上下文特征,結(jié)合標(biāo)記信息實(shí)例和領(lǐng)域知識(shí)來(lái)進(jìn)行詞義消歧。Vij等[8]將權(quán)重分配給WordNet圖的邊緣。利用各種模糊圖的連通性來(lái)確定模糊圖中每個(gè)結(jié)點(diǎn)的重要性,從而識(shí)別出歧義詞匯的真實(shí)含義。Abed等[9]對(duì)局部搜索技術(shù)進(jìn)行改進(jìn),最大化給定文本的整體語(yǔ)義相似性。使用信息內(nèi)容、光澤重疊方法和改進(jìn)的遺傳算法來(lái)進(jìn)行詞義消歧。Duque等[10]提出了一種基于圖形的無(wú)監(jiān)督詞義消歧方法。利用摘要來(lái)構(gòu)建圖形,使用個(gè)性化PageRank算法來(lái)進(jìn)行消歧。Huang等[11]將語(yǔ)義分析看作是多個(gè)語(yǔ)義序參數(shù)的競(jìng)爭(zhēng)過(guò)程,提出了一種基于改進(jìn)協(xié)同神經(jīng)網(wǎng)絡(luò)并融入詞義信息的角色標(biāo)注模型。Henderson等[12]提出了一種向量空間模型,利用邏輯向量來(lái)代替消歧特征,使用半監(jiān)督方法來(lái)進(jìn)行詞義消歧。DurgaPrasad等[13]提出了一種基于統(tǒng)計(jì)技術(shù)的詞義消歧方法,解決了與自然語(yǔ)言處理有關(guān)的AI-Complete問(wèn)題。翟繼強(qiáng)等[14]利用信息增益和交叉熵特征選擇算法來(lái)進(jìn)行特征降維,使用SVM、NB和C4.5分類算法對(duì)中文專利進(jìn)行分類。譚冠群等[15]提出了一種應(yīng)用于文本分類的改進(jìn)KNFL算法,改善了KNFL算法的分類效率。Lopez-Arevalo等[16]提出了一種針對(duì)特定領(lǐng)域的詞義消歧方法。該方法使用了特定領(lǐng)域的測(cè)試語(yǔ)料庫(kù)和特定領(lǐng)域的輔助語(yǔ)料庫(kù),抽取相關(guān)特征,通過(guò)功能集成來(lái)進(jìn)行詞義消歧。Sinoara等[17]提出了一種基于文檔集合嵌入式表示的詞義消歧方法。所提出的文檔集合嵌入式表示使得分類器更穩(wěn)定,在語(yǔ)義復(fù)雜的分類中提高了消歧效果。Abid等[18]采用多種機(jī)器學(xué)習(xí)方法對(duì)歧義詞匯進(jìn)行消歧。Gutierrez等[19]提出了一種基于個(gè)性化的PageRank算法,結(jié)合SemCor語(yǔ)料庫(kù)的詞義頻率和搭配詞組的詞義信息來(lái)解決詞語(yǔ)歧義問(wèn)題。Adrian等[20]在實(shí)體網(wǎng)絡(luò)中,通過(guò)分析實(shí)體集所參照對(duì)象之間的語(yǔ)義關(guān)系,結(jié)合不同語(yǔ)言資源的消歧信息,來(lái)確定歧義詞匯的語(yǔ)義類別。
以歧義詞匯為中心,確定消歧詞窗,共有兩個(gè)鄰接詞匯單元。選取其中的詞形、詞性和譯文作為消歧特征,使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)確定它的語(yǔ)義類別。
1?消歧特征的選擇
歧義詞匯的語(yǔ)義確定是與其所處的文本密切相關(guān)的。漢語(yǔ)文本包含了很多語(yǔ)言學(xué)知識(shí),可以從中提取消歧特征。根據(jù)歧義詞匯所在語(yǔ)境中的消歧特征可以有效地判別歧義詞匯的真實(shí)含義。因此,消歧特征對(duì)于語(yǔ)義分類而言是至關(guān)重要的。
本文以歧義詞匯為中心,選取歧義詞匯所在的消歧詞窗。消歧詞窗包含左右兩個(gè)部分,即左詞窗和右詞窗。左詞窗包含了歧義詞匯的左側(cè)鄰接詞匯單元。右詞窗包含了歧義詞匯的右側(cè)鄰接詞匯單元。從消歧詞窗中,抽取每個(gè)詞匯單元的詞形、詞性和譯文作為消歧特征。以此為基礎(chǔ)來(lái)判斷歧義詞匯的真實(shí)含義。
對(duì)于包含歧義詞匯“單位”的漢語(yǔ)句子,其消歧特征的提取過(guò)程如下所示:
漢語(yǔ)句子:對(duì)基層干部群眾意見(jiàn)大、作風(fēng)差的單位和個(gè)人,將由有關(guān)部門(mén)進(jìn)一步核實(shí)情況,作出處理和整改。
分詞結(jié)果:對(duì)?基層?干部?群眾?意見(jiàn)?大?、作風(fēng)?差?的?單位?和?個(gè)人?,將?由?有關(guān)?部門(mén)?進(jìn)一步?核實(shí)?情況?,作出?處理?和?整改。
詞性標(biāo)注結(jié)果:對(duì)/p?基層/n?干部/n?群眾/n?意見(jiàn)/n?大/a、/w?作風(fēng)/n?差/a?的/u?單位/n?和/c?個(gè)人/n,/w?將/d?由/p?有關(guān)/vn?部門(mén)/n?進(jìn)一步/d?核實(shí)/v?情況/n,/w?作出/v?處理/vn?和/c?整改/vn。/w。
譯文標(biāo)注結(jié)果:對(duì)/p/for?基層/n/grass-roots?干部/n/cadre?群眾/n/the?masses?意見(jiàn)/n/opinion?大/a/big、/w/-1?作風(fēng)/n/style?差/a/poor?的/u/0?單位/n/unit?和/c/and?個(gè)人/n/self,/w/-1?將/d/will?由/p/by?有關(guān)/vn/concern?部門(mén)/n/department?進(jìn)一步/d/further?核實(shí)/v/check?情況/n/situation,/w/-1?作出/v/make?處理/vn/handle?和/c/and?整改/vn/rectify?and?improve。/w?/-1。
對(duì)包含歧義詞匯“單位”的漢語(yǔ)句子而言,以歧義詞匯“單位”為中心,設(shè)置左詞窗和右詞窗。詞窗并不是越大越好,開(kāi)設(shè)得越大反而會(huì)引入相關(guān)聯(lián)較弱的消歧信息和噪聲,降低準(zhǔn)確率。設(shè)置左右詞窗各包含一個(gè)鄰接的詞匯單元。左詞窗包含的詞匯單元為“的/u/0”,右詞窗包含的詞匯單元為“和/c/and”,如圖1所示。實(shí)線方框表示詞形,短虛線方框表示詞性,長(zhǎng)虛線方框表示譯文。從左詞窗中提取了3個(gè)消歧特征,分別為:“的”、“u”和“0”,其中“的”的譯文無(wú)實(shí)意,設(shè)置為0。從右詞窗中提取了3個(gè)消歧特征,分別為:“和”、“c”和“and”。一共抽取了6個(gè)消歧特征。詞形特征為“的”和“和”;詞性特征為“u”和“c”,其中,詞匯“的”的詞性是助詞,用“u”表示,詞匯“和”的詞性是連詞,用“c”表示;查詢漢-英機(jī)讀翻譯詞典,得到譯文標(biāo)注,譯文特征為:“0”和“and”。
2?數(shù)據(jù)預(yù)處理
卷積神經(jīng)網(wǎng)絡(luò)模型的每一層都是由若干個(gè)神經(jīng)元構(gòu)成的。每個(gè)神經(jīng)元取1或0兩種狀態(tài)。在數(shù)據(jù)預(yù)處理部分,需要將消歧特征轉(zhuǎn)換成模型可輸入數(shù)據(jù)。
目前,在自然語(yǔ)言處理中常用消歧特征出現(xiàn)的頻度來(lái)判別歧義詞匯的語(yǔ)義。在包含歧義詞匯的漢語(yǔ)句子中,一共提取了m個(gè)消歧特征。以哈爾濱工業(yè)大學(xué)人工語(yǔ)義標(biāo)注語(yǔ)料和漢-英機(jī)讀翻譯詞典為基礎(chǔ),統(tǒng)計(jì)消歧特征出現(xiàn)的頻度。消歧特征出現(xiàn)的頻度定義為語(yǔ)料中包含消歧特征的句子數(shù)目。
頻度經(jīng)過(guò)轉(zhuǎn)換后,每個(gè)消歧特征對(duì)應(yīng)于一個(gè)n位二進(jìn)制數(shù)。從而構(gòu)成了一個(gè)m*n的二進(jìn)制數(shù)特征矩陣。人工語(yǔ)義類別有t種,經(jīng)過(guò)轉(zhuǎn)換后,每個(gè)語(yǔ)義類別對(duì)應(yīng)于一個(gè)t位二進(jìn)制數(shù)。
使用頻度向量Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]來(lái)表示消歧特征。N(W1)、N(P1)和N(TR1)表示左詞窗中詞匯單元的消歧特征出現(xiàn)的頻度,N(W2)、N(P2)和N(TR2)表示右詞窗中詞匯單元的消歧特征出現(xiàn)的頻度。N(W1)、N(P1)、N(TR1)、N(W2)、N(P2)和N(TR2)轉(zhuǎn)換成模型可輸入向量,即a1、a2、a3、a4、a5和a6,構(gòu)造輸入特征矩陣A=[a1,?a2,?a3,?a4,?a5,?a6]T。歧義詞匯“單位”的語(yǔ)義類別有兩種,“organization”和“unit”,即t=2。使用二進(jìn)制數(shù)“01”表示語(yǔ)義類“organization”,使用二進(jìn)制數(shù)“10”表示語(yǔ)義類“unit”。
3?基于卷積神經(jīng)網(wǎng)絡(luò)的消歧過(guò)程
采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)歧義詞匯進(jìn)行消歧?;贑NN的詞義消歧過(guò)程如圖2所示。在圖2中,CNN由輸入層、卷積層、池化層、全連接層和輸出層組成。Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]為特征向量。A表示輸入的特征矩陣。si(i=1,?2,?…,?t)為歧義詞匯的語(yǔ)義類別。Q表示卷積層與池化層之間的卷積核。U表示全連接層與輸出層之間的權(quán)值矩陣。參數(shù)b和c表示偏置值。卷積核Q、權(quán)值矩陣U、參數(shù)b和c共同構(gòu)成CNN的基本參數(shù)。CNN模型包括語(yǔ)義分類和模型訓(xùn)練兩個(gè)過(guò)程。第一個(gè)過(guò)程為右側(cè)的語(yǔ)義分類過(guò)程。第二個(gè)過(guò)程為左側(cè)的模型訓(xùn)練過(guò)程。
在語(yǔ)義分類過(guò)程中,輸入測(cè)試數(shù)據(jù)所對(duì)應(yīng)的消歧特征向量Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]。轉(zhuǎn)換成模型可輸入向量,構(gòu)造輸入特征矩陣A。經(jīng)過(guò)卷積層、池化層和全連接層,最后輸出歧義詞匯的語(yǔ)義類別?;贑NN的詞義消歧模型的輸出結(jié)果為概率分布序列
P(s1),?P(s2),…,P(st),最大概率所對(duì)應(yīng)的語(yǔ)義類別即為歧義詞匯的語(yǔ)義類別。
在模型訓(xùn)練過(guò)程中,輸入訓(xùn)練數(shù)據(jù)所對(duì)應(yīng)的消歧特征向量Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]和所對(duì)應(yīng)的語(yǔ)義類s={s1,?s2,?…,?st}。經(jīng)過(guò)卷積層、池化層和全連接層,最后輸出歧義詞匯的預(yù)測(cè)語(yǔ)義類別概率。預(yù)測(cè)概率和真實(shí)概率進(jìn)行比較,計(jì)算誤差。誤差通過(guò)反向傳播沿原路線返回,即從輸出層反向經(jīng)過(guò)全連接層、池化層和卷積層,逐層更新參數(shù),最終回到輸入層。不斷地進(jìn)行前向傳播和反向傳播,以減小誤差,從而更新模型參數(shù),直到網(wǎng)絡(luò)模型訓(xùn)練好為止。隨著誤差反向傳播并不斷更新參數(shù)之后,CNN模型的消歧準(zhǔn)確率也有所提高。
經(jīng)過(guò)k次訓(xùn)練之后,可以得到優(yōu)化的CNN的參數(shù),即卷積核Q、權(quán)值矩陣U、偏置值b和c。
4?基于卷積神經(jīng)網(wǎng)絡(luò)的詞義消歧算法
基于CNN的詞義消歧算法包括語(yǔ)義分類和模型訓(xùn)練兩個(gè)過(guò)程。在語(yǔ)義分類過(guò)程中,利用前向傳播過(guò)程計(jì)算歧義詞匯w在每個(gè)語(yǔ)義類別si下的概率分布。在模型訓(xùn)練過(guò)程中,根據(jù)預(yù)測(cè)概率反向逐層更新每一層參數(shù)。
語(yǔ)義分類過(guò)程:
輸入:歧義詞匯w的消歧特征向量Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]。
輸出:歧義詞匯w在每個(gè)語(yǔ)義類別下的概率分布序列P(s1|w),?…,?P(si|w),?…,?P(st|w),最大概率的語(yǔ)義類別s′。
1)初始化網(wǎng)絡(luò)模型;
2)將Feature轉(zhuǎn)化為模型可輸入向量a1,?a2,?…,?am,構(gòu)造輸入特征矩陣A=(a1,?a2,?…,?am)T;
3)構(gòu)建CNN模型;
①將特征矩陣A輸入到CNN模型中,根據(jù)式(1)計(jì)算卷積所提取的特征值。
其中:Q表示卷積層的權(quán)重矩陣(卷積核),大小為h*n;b表示偏置值;di表示特征映射中的第i個(gè)特征值;f(x)表示激活函數(shù)。通常,使用Relu激勵(lì)函數(shù),如式(2)所示。
當(dāng)卷積核遍歷完特征矩陣A后,共提取了m-h+1個(gè)特征值,如公式(3)所示。其中,m為矩陣A的行數(shù)。
②在池化層中,根據(jù)公式(4)對(duì)輸入進(jìn)行下采樣操作,本文采用最大池化(Max?pooling)方法。
設(shè)置多個(gè)卷積核,可以提取多個(gè)不同的特征向量。若有l(wèi)個(gè)卷積核,則可以提取l個(gè)最大特征值。池化層的輸出為D=[d′1,?d′2,?…,?d′l]。其中,d′i表示第i個(gè)卷積核所對(duì)應(yīng)的最大特征值。
③利用softmax函數(shù)來(lái)計(jì)算歧義詞匯w在每個(gè)語(yǔ)義類別si下的概率分布,其計(jì)算過(guò)程如公式(5)所示。
其中:U和c表示softmax層的參數(shù);g(x)表示softmax函數(shù),具體計(jì)算過(guò)程如式(6)所示。
其中:d′i表示softmax函數(shù)的輸入數(shù)據(jù),P(si|w)表示歧義詞匯w在語(yǔ)義類別si下的出現(xiàn)概率(i=1,?2,?…,?t)。
④最大概率所對(duì)應(yīng)的語(yǔ)義類別s′即為歧義詞匯w的語(yǔ)義類別,其計(jì)算過(guò)程如式(7)所示。
其中:s′表示概率最大的語(yǔ)義類別;t表示語(yǔ)義類別數(shù),P(s1|w),?…,?P(si|w),?…,?P(st|w)表示歧義詞匯w在語(yǔ)義類別si下的概率分布。
模型訓(xùn)練過(guò)程:
1)初始化迭代次數(shù)k;
①前向傳播:
根據(jù)公式(1)、(4)、(5)得到歧義詞匯w在語(yǔ)義類別si下的預(yù)測(cè)概率。
②反向傳播:
a)最大概率即為歧義詞匯w的預(yù)測(cè)概率,其計(jì)算過(guò)程如公式(8)所示。
其中,y_predictedi表示歧義詞匯w的預(yù)測(cè)概率。
b)利用交叉熵?fù)p失函數(shù)來(lái)計(jì)算誤差loss,即
其中,yi表示歧義詞匯w在語(yǔ)義類別si下的真實(shí)分布概率。
c)根據(jù)誤差loss,反向傳播,逐層更新參數(shù),即
其中:θ表示參數(shù)集;θ′表示更新之后的參數(shù)集;α為學(xué)習(xí)率。
不斷迭代CNN訓(xùn)練模型,得到優(yōu)化后的CNN模型。對(duì)于不同的歧義詞匯,可以獲得不同的CNN模型參數(shù)。在對(duì)歧義詞匯w進(jìn)行消歧時(shí),需要導(dǎo)入所對(duì)應(yīng)的CNN模型參數(shù)。
5?實(shí)?驗(yàn)
以SemEval-2007:?Task#5的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料為基礎(chǔ),比較了貝葉斯模型、BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)效果。目前,基于BP神經(jīng)網(wǎng)絡(luò)的詞義消歧效果非常好,本文將其用于對(duì)比實(shí)驗(yàn)。
在SemEval-2007:?Task#5的測(cè)試語(yǔ)料中,包含40個(gè)歧義詞匯的1000條漢語(yǔ)句子,每一個(gè)歧義詞匯對(duì)應(yīng)著多個(gè)漢語(yǔ)句子,都是以歧義詞匯為中心,進(jìn)行切分并標(biāo)注相應(yīng)的語(yǔ)義信息。其中,漢語(yǔ)句子的類別有二類、三類和四類。
在實(shí)驗(yàn)1中,選取歧義詞匯左右鄰接的兩個(gè)詞匯單元的詞形、詞性和譯文作為消歧特征,采用貝葉斯分類器來(lái)確定歧義詞匯的語(yǔ)義類別。使用SemEval-2007:?Task#5的訓(xùn)練語(yǔ)料對(duì)貝葉斯分類器進(jìn)行訓(xùn)練。利用優(yōu)化后的貝葉斯分類器對(duì)SemEval-2007:?Task#5的測(cè)試語(yǔ)料進(jìn)行詞義消歧。
在實(shí)驗(yàn)2中,選取歧義詞匯左右鄰接的兩個(gè)詞匯單元的詞形、詞性和譯文作為消歧特征,采用BP神經(jīng)網(wǎng)絡(luò)來(lái)確定歧義詞匯的語(yǔ)義類別。使用SemEval-2007:?Task#5的訓(xùn)練語(yǔ)料對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。利用優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)對(duì)SemEval-2007:?Task#5的測(cè)試語(yǔ)料進(jìn)行詞義消歧。
在實(shí)驗(yàn)3中,選取歧義詞匯的左右詞窗。左詞窗包含了歧義詞匯的左側(cè)鄰接詞匯單元。右詞窗包含了歧義詞匯的右側(cè)鄰接詞匯單元。從消歧詞窗中,抽取每個(gè)詞匯單元的詞形、詞性和譯文作為消歧特征。以哈爾濱工業(yè)大學(xué)語(yǔ)義標(biāo)注語(yǔ)料和漢-英機(jī)讀翻譯詞典為基礎(chǔ),統(tǒng)計(jì)詞形、詞性和譯文的出現(xiàn)頻度。使用SemEval-2007:?Task#5的訓(xùn)練語(yǔ)料對(duì)CNN進(jìn)行訓(xùn)練。利用優(yōu)化后的CNN對(duì)SemEval-2007:?Task#5的測(cè)試語(yǔ)料進(jìn)行詞義消歧。
在實(shí)驗(yàn)中,選取了10個(gè)具有代表性的歧義詞匯。在三組實(shí)驗(yàn)中,測(cè)試語(yǔ)料的消歧準(zhǔn)確率和平均準(zhǔn)確率如表1所示。
從表1可以看出:對(duì)于“旗幟”之外的所有歧義詞匯,實(shí)驗(yàn)3的消歧準(zhǔn)確率都高于實(shí)驗(yàn)1。對(duì)于“動(dòng)”之外的所有歧義詞匯,實(shí)驗(yàn)3的消歧準(zhǔn)確率都高于實(shí)驗(yàn)2。實(shí)驗(yàn)3的消歧平均準(zhǔn)確率比實(shí)驗(yàn)1和實(shí)驗(yàn)2的高。3組實(shí)驗(yàn)都采用了歧義詞匯左右兩個(gè)詞匯單元的詞形、詞性和譯文作為消歧特征。實(shí)驗(yàn)2的消歧平均準(zhǔn)確率比實(shí)驗(yàn)1高。相對(duì)于貝葉斯分類器而言,BP神經(jīng)網(wǎng)絡(luò)的分類效果好。實(shí)驗(yàn)3的消歧平均準(zhǔn)確率明顯高于實(shí)驗(yàn)1和實(shí)驗(yàn)2。相對(duì)于貝葉斯分類器和BP神經(jīng)網(wǎng)絡(luò)而言,CNN具有更好的詞義消歧效果。
6?結(jié)?論
本文提出了一種結(jié)合詞形、詞性和譯文的漢語(yǔ)詞義消歧方法。以歧義詞匯左右相鄰的兩個(gè)詞匯單元的詞形、詞性和譯文作為消歧特征,利用CNN來(lái)判別歧義詞匯的語(yǔ)義類別。使用SemEval-2007:?Task#5的訓(xùn)練語(yǔ)料和哈爾濱工業(yè)大學(xué)人工語(yǔ)義標(biāo)注語(yǔ)料來(lái)優(yōu)化CNN分類器。使用SemEval-2007:?Task#5的測(cè)試語(yǔ)料來(lái)測(cè)試詞義消歧分類器的性能。實(shí)驗(yàn)結(jié)果表明:所提出方法的消歧平均準(zhǔn)確率有所提升。
參?考?文?獻(xiàn):
[1]?張仰森,?郭江.?四種統(tǒng)計(jì)詞義消歧模型的分析與比較[J].?北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),?2011,?26(2):?13.
ZHANG?Yangsen,?GUO?Jiang.?Analysis?and?Comparison?of?4?Kinds?of?Statistical?Word?Sense?Disambiguation?Models[J].?Journal?of?Beijing?Information?Science?and?Technology?University(Natural?Science?Edition),?2011,?26(2):?13.
[2]?SINGH?S,?SIDDIQUI?T?J.?Role?of?Karaka?Relations?in?Hindi?Word?Sense?Disambiguation[J].?Journal?of?Information?Technology?Research,?2015,?8(3):?21.
[3]?趙謙,?荊琪,?李愛(ài)萍,?等.?一種基于語(yǔ)義與句法結(jié)構(gòu)的短文本相似度計(jì)算方法[J].?計(jì)算機(jī)工程與科學(xué),?2018,?40(7):?1287.
ZHAO?Qian,?JING?Qi,?LI?Aiping,?et?al.?A?Short?Text?Similarity?Calculation?Method?Based?on?Semantics?and?Syntax?Structure[J].?Computer?Engineering?&?Science,?2018,?40(7):?1287.
[4]?楊陟卓.?基于上下文翻譯的有監(jiān)督詞義消歧研究[J].?計(jì)算機(jī)科學(xué),?2017,?44(4):?252.
YANG?Zhizhuo.?Supervised?WSD?Method?Based?on?Context?Translation[J].?Computer?Science,?2017,?44(4):?252.
[5]?李國(guó)臣,?呂雷,?王瑞波,?等.?基于同義詞詞林信息特征的語(yǔ)義角色自動(dòng)標(biāo)注[J].?中文信息學(xué)報(bào),?2016,?30(1):?101.
LI?Guochen,?LV?Lei,?WANG?Ruibo,?et?al.?Semantic?Role?Labeling?Based?on?TongYiCi?CiLin?Derived?Features[J].?Journal?of?Chinese?Information?Processing,?2016,?30(1):?101.
[6]?KANG?M?Y,?MIN?T?H,?LEE?J?S.?Sense?Space?for?Word?Sense?Disambiguation[C]//?IEEE?International?Conference?on?Big?Data?and?Smart?Computing,?Shanghai,?2018:?669.
[7]?WANG?Y,?ZHENG?K,?XU?H,?et?al.?Interactive?Medical?Word?Sense?Disambiguation?Through?Informed?Learning[J].?Journal?of?the?American?Medical?Informatics?Association,?2018,?25(7):?800.
[8]?VIJ?S,?JAIN?A,?TAYAL?D,?et?al.?Fuzzy?Logic?for?Inculcating?Significance?of?Semantic?Relations?in?Word?Sense?Disambiguation?Using?a?WordNet?Graph[J].?International?Journal?of?Fuzzy?Systems,?2018,?20(2):?444.
[9]?ABED?S?A,?TIUN?S,?OMAR?N.?Word?Sense?Disambiguation?in?Evolutionary?Manner[J].?Connection?Science,?2016,?28(3):?1.
[10]DUQUE?A,?STEVENSON?M,?MARTINEZ-ROMO?J,?et?al.?Co-occurrence?Graphs?for?Word?Sense?Disambiguation?in?the?Biomedical?Domain[J].?Artificial?Intelligence?in?Medicine,?2018,?1(28):?9.
[11]HUANG?Z?H,?CHEN?Y?D.?An?Improving?SRL?Model?With?Word?Sense?Information?Using?An?Improved?Synergetic?Neural?Network?Model[J].?Journal?of?Intelligent?&?Fuzzy?Systems,?2016,?31(3):?1469.
[12]HENDERSON?J,?POPA?D?N.?A?Vector?Space?for?Distributional?Semantics?for?Entailment[C]//?Proceedings?of?the?54th?Annual?Meeting?of?the?Association?for?Computational?Linguistics.?Berlin:?ACL,?2016,?4(1):?2052.
[13]DURGAPRASAD?P,?SUNITHA?K?V?N,?PADMAJA?R?B.?Context-based?Word?Sense?Disambiguation?in?Telugu?Using?the?Statistical?Techniques[J].?Advances?in?Intelligent?Systems?and?Computing,?2017,712(1):?271.
[14]翟繼強(qiáng),?王克奇.?依據(jù)TRIZ發(fā)明原理的中文專利自動(dòng)分類[J].?哈爾濱理工大學(xué)學(xué)報(bào),?2013,?18(3):?1.
ZHAI?Jiqiang,?WANG?Keqi.?Automatic?Classification?of?Chinese?Patents?According?to?TRIZ?Inventive?Principles[J].?Journal?of?Harbin?University?of?Science?and?Technology,?2013,?18(3):?1.
[15]譚冠群,?丁華福.?改進(jìn)的K最近特征線算法在文本分類中的應(yīng)用[J].?哈爾濱理工大學(xué)學(xué)報(bào),?2008,?13(6):?19.
TAN?Guanqun,?DING?Huafu.?Improved?K?Nearest?Feature?Line?Algorithm?in?Text?Categorization[J].?Journal?of?Harbin?University?of?Science?and?Technology,?2008,?13(6):?19.
[16]LOPEZ-AREVALO?I,?SOSA-SOSA?V?J,?ROJAS-LOPEZ?F,?et?al.?Improving?Selection?of?Synsets?from?WordNet?for?Domain-specific?Word?Sense?Disambiguation[J].?Computer?Speech?&?Language,?2017,?41(1):?128.
[17]SINOARA?R?A,?CAMACHO-COLLADOS?J,?ROSSI?R?G,?et?al.?Knowledge-enhanced?Document?Embeddings?for?Text?Classification[J].?Knowledge-Based?Systems,?2018,?163(1):?955.
[18]ABID?M,?HABIB?A,?ASHRAF?J,?et?al.?Urdu?Word?Sense?Disambiguation?Using?Machine?Learning?Approach[J].?Cluster?Computing,?2017,?21(1):?515.
[19]GUTIERREZ?Y,?VAZQUEZ?S,?MONTOYO?A.?Spreading?Semantic?Information?By?Word?Sense?Disambiguation[J].?Knowledge-Based?Systems,?2017,?132(1):?47.
[20]ADRIAN?W?T,?MANNA?M.?Navigating?Online?Semantic?Resources?for?Entity?Set?Expansion[C]//?The?20th?International?Symposium?on?Practical?Aspects?of?Declarative?Languages,?Los?Angeles,?2018:?170.
(編輯:溫澤宇)