王 偉,趙爾平,崔志遠(yuǎn),孫 浩
(西藏民族大學(xué)信息工程學(xué)院,陜西咸陽 712082)
近年來,隨著自然語言處理(Natural Language Processing,NLP)與人工智能(Artificial Intelligence,AI)的迅速發(fā)展與廣泛應(yīng)用,命名實(shí)體消歧作為自然語言處理的關(guān)鍵環(huán)節(jié),在信息檢索、知識(shí)庫及知識(shí)圖譜構(gòu)建等方面發(fā)揮著越來越重要的作用。命名實(shí)體消歧旨在解決實(shí)體指稱間的歧義性與多樣性,例如“冬蟲夏草”的別名分別有“夏草冬蟲”“蟲草”和“冬蟲草”,把這種表達(dá)相同實(shí)體而有多個(gè)指稱的詞語稱之為指稱多樣性。而“螃蟹甲”一詞,它一方面指代藏藥的名稱,另一方面又指代武漢的一個(gè)地名。像“螃蟹甲”這類詞稱之為多義詞,本文旨在研究多義詞的歧義消除問題。
至今,命名實(shí)體消歧主要采用聯(lián)合知識(shí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方法實(shí)現(xiàn),其中大部分方法都是考慮全局信息,卻很少考慮局部信息。王瑞等[1]針對(duì)消歧任務(wù),充分利用上下文以及詞向量特征信息以達(dá)到提高準(zhǔn)確率的目的。馬曉軍等[2]將消歧方法融入了局部信息來解決多義詞不能被區(qū)分的問題,但是詞向量的質(zhì)量和穩(wěn)定性沒有兼顧。楊陟卓[3]提出基于翻譯的有監(jiān)督詞義消歧方法,該種方法雖然能大幅度提高準(zhǔn)確率,但是需要大量的人工標(biāo)注語料且偽訓(xùn)練語料需要隨著消歧任務(wù)的不同而改變。王苗等[4]提出的消歧方法,通過改進(jìn)的無監(jiān)督學(xué)習(xí)并結(jié)合圖數(shù)據(jù)結(jié)構(gòu)以達(dá)到消歧的目的并取得較高準(zhǔn)確率。陳洋等[5]則針對(duì)詞向量表示的質(zhì)量問題,使用義原表示詞向量,很好地解決了詞向量表示不穩(wěn)定的問題,但是卻沒有注意到詞義混淆問題。范鵬程等[6]使用知識(shí)鏈接的方法達(dá)到了目前最好算法的F1值。很顯然有監(jiān)督學(xué)習(xí)方法雖然人工工作量大,但是消歧效果較為出眾?;跈C(jī)器學(xué)習(xí)的消歧方法,面臨的問題是需要準(zhǔn)確且質(zhì)量較高的語料庫支持,需要花費(fèi)人力標(biāo)注語料,且需要關(guān)注數(shù)據(jù)稀疏問題。目前,實(shí)體消歧任務(wù)重點(diǎn)是在上下文信息和特征信息挖掘兩個(gè)方面,缺乏在不同應(yīng)用場景下面對(duì)不同特征時(shí)區(qū)分實(shí)體能力的差異分析。在低頻詞方面,使用詞向量進(jìn)行消歧時(shí)由于詞頻低導(dǎo)致訓(xùn)練不充足,使得詞向量表示的質(zhì)量得不到保證。在語義表示方面,缺乏結(jié)合上下文語義綜合考慮多義詞的多方面特征,未能將詞語多個(gè)語義特征按權(quán)重值融合使用。譬如,西藏畜牧業(yè)領(lǐng)域有上千種牧草名和幾百種動(dòng)物名,包括大量音譯詞、合成詞、生僻詞等類型低頻詞。例如“雪蓮花”一詞,在大多數(shù)語料庫中都屬于低頻詞,該詞義項(xiàng)包含兩類:一類屬歌曲,一類屬藏藥。多義詞方面例如“我今天在阿里吃的飯”這句話中“阿里”一詞可能指西藏阿里地區(qū),也有可能指“阿里巴巴”公司。
針對(duì)命名實(shí)體消歧過程中存在問題,本文提出基于HSWR-W 2c(HowNet-Sememe Word embedding Representation-Word2vec)詞向量表示的多特征融合消歧方法。通過兩種詞向量融合表示來解決單一詞向量表示低頻詞質(zhì)量差、不穩(wěn)定和多義詞的詞義混淆問題。為了體現(xiàn)每一類特征在消歧過程中發(fā)揮的不同作用,提出三類不同詞向量特征加權(quán)融合的消歧方法,以解決消歧過程中因詞向量攜帶信息量少、語義特征單一而導(dǎo)致的準(zhǔn)確率不高的問題,并引入主題特征彌補(bǔ)以往消歧任務(wù)未能獲取局部特征的缺陷。
Word2vec(Word to vector)是一款開源詞向量生成工具,被廣泛應(yīng)用于圖像處理、知識(shí)挖掘、自然語言處理等領(lǐng)域。由于中文詞語多元與復(fù)雜性,導(dǎo)致Word2vec在自然語言處理方面的應(yīng)用效果不盡如人意,為此李小濤等[7]為了提高語義相似度計(jì)算精度提出一種改進(jìn)算法,彌補(bǔ)Word2vec生成的向量不能區(qū)別多義詞的缺陷。近年,面對(duì)中文語言的多變性與詞語的多義性,很多學(xué)者從向量的使用到向量的改進(jìn)做了一系列研究工作。張春祥等[8]利用鄰近詞的詞性、詞形等相關(guān)信息作為特征融入消歧任務(wù)中,取得了較好的效果。
詞義消歧方面張雄等[9]采用融合多個(gè)特征的方法,達(dá)到對(duì)于信息的充分挖掘,實(shí)現(xiàn)人名消歧。大部分學(xué)者采用機(jī)器學(xué)習(xí)進(jìn)行詞義消歧[10],例如王旭陽等[11]通過對(duì)于上下文信息的充分挖掘,并結(jié)合機(jī)器學(xué)習(xí)達(dá)到消歧的目的。Mikolov等[12]則揭示連續(xù)空間詞表征中的語言規(guī)律,使得語境信息能更好地融入。郭宇飛等[13]根據(jù)同一個(gè)詞在不同的上下文環(huán)境下可以形成不同的框架,提出了一種基于框架的消歧方法。Huang等[14]則是通過對(duì)百度百科全書網(wǎng)頁的抓取,產(chǎn)生多義、同義和索引集合,經(jīng)過訓(xùn)練后確定文本相關(guān)性,并在MongoDB(Mongo Data Base)中管理實(shí)體。除了常見的消歧方法,Chen等[15]通過結(jié)合詞義對(duì)模型改造,在中大型文件消歧方面也取得了不錯(cuò)的效果。林澤斐等[16]將多特征與實(shí)體鏈接技術(shù)結(jié)合實(shí)現(xiàn)詞義消除。曾健榮等[17]則針對(duì)專家?guī)鞓?gòu)建過程中的同名歧義問題,融合已發(fā)表論文中的多種特征從而解決了同名消歧問題。
知網(wǎng)(HowNet)是一個(gè)解釋詞語概念與屬性間關(guān)系的知識(shí)庫。義原是知識(shí)庫中不能再分割的最小的單位[18],所以在知網(wǎng)知識(shí)庫中每一個(gè)詞語都可以使用若干義原表示。也正是HowNet的這種多義原表示方法,使其能夠突破詞語本身,從而更加深入了解詞語背后的意義。這種結(jié)構(gòu)化的知識(shí)網(wǎng)絡(luò)體系,使得知識(shí)對(duì)于計(jì)算機(jī)而言是可操作的,正是因?yàn)檫@一點(diǎn),知網(wǎng)中的義原詞才能夠表示為可以操作使用的詞向量。由于HowNet知識(shí)庫中有關(guān)于西藏畜牧業(yè)領(lǐng)域的記錄較少,所以本文對(duì)知識(shí)庫進(jìn)行了擴(kuò)充。擴(kuò)充示例內(nèi)容如下:{NO.=120497;W_C=螃蟹甲;G_C=N;E_C=;W_E=Crab carapace;G_E=N;E_E=;DEF=Tibetan Medicine|藏藥,street|街道}。其中:NO.在知識(shí)庫中表示序號(hào);W_C、G_C、E_C表示中文信息,分別代表詞語、詞性以及舉例;W_E、G_E、E_E表示英文信息,分別代表英文的詞語、詞性以及舉例;DEF為詞語詮釋,即詞語的不同義原。
基于HowNet義原的詞向量表示(HowNet-Sememe Word embedding Representation,H-SWR)流程大致有兩個(gè)步驟:首先對(duì)義原進(jìn)行向量化;其次融合目標(biāo)詞的若干義原詞向量生成目標(biāo)詞向量。具體表示過程如下。
首先,使用隨機(jī)初始化的方法將義原初始化為一個(gè)義原矩陣Msememe,其次,將義原矩陣進(jìn)行預(yù)處理(施密特正交化、單位化)后得到正交單位矩陣Mdefo:
式(1)中Mdefo是 一 個(gè)n×m的 義 原 矩 陣,其 中(α1,α2,…,αn)為對(duì)應(yīng)義原向量的n組標(biāo)準(zhǔn)正交單位基,其中每個(gè)義原向量為m維。由于在HowNet中每一個(gè)詞語由若干義原解釋,所以可以把目標(biāo)詞看成其對(duì)應(yīng)義原詞向量在其向量子空間的投影。最后,在完成義原的詞向量表示后,目標(biāo)詞語的詞向量便可使用義原向量的加權(quán)平均表示,表示公式如式(2)所示:
式(2)中α為目標(biāo)詞對(duì)應(yīng)義原詞向量表示,m為當(dāng)前目標(biāo)詞的義原數(shù)量。對(duì)于義原向量與義原的對(duì)應(yīng)關(guān)系,本文采用建立索引的方法,即每一個(gè)義原向量及其對(duì)應(yīng)義原建立“semid”,其中一個(gè)義原的sem對(duì)應(yīng)一個(gè)義原向量的“id”,通過“id”再進(jìn)行l(wèi)ook-up操作,以此確定它們的對(duì)應(yīng)關(guān)系。
語料訓(xùn)練方面,本節(jié)以“藏醫(yī)藏藥雪蓮花作為藥物”句子為例,空格為詞語之間的分隔符,待預(yù)測詞語為“雪蓮花”?;诹x原生成的詞向量訓(xùn)練過程如圖1所示。
圖1 基于義原的詞向量表示Fig.1 Word embedding representation based on sememe
示例中根據(jù)窗口大小找到左右各兩個(gè)詞語的id,再根據(jù)id找到標(biāo)注的義原,義原生成義原向量,最后借助式(2)和上下文表示層得到標(biāo)準(zhǔn)詞向量表示并通過輸出層輸出。圖1中上下文表示層定義如式(3)所示:
其中:Ci為目標(biāo)詞上下文詞向量,δ為定義的窗口大小。訓(xùn)練方式與連續(xù)詞袋(Continuous Bag Of Words,CBOW)模型相似,指定窗口大小為5,維度為100。由于基于義原生成的詞向量是借助于有知識(shí)基礎(chǔ)的模型上計(jì)算得出,所以蘊(yùn)含大量語言學(xué)知識(shí),即使在大規(guī)模語料中也能表現(xiàn)出較好的穩(wěn)定性,并且生成的詞向量只受義原信息的約束,所以在低頻詞表示方面表現(xiàn)出色,但這也導(dǎo)致其在詞義區(qū)分方面尚有不足,存在詞義混淆的弊端。
詞向量的表示方法中,One-hot最為直觀簡潔,這種表示方法較為簡單,由數(shù)字1與0組成,向量長度為文本詞的個(gè)數(shù)且數(shù)字“1”唯一,但是該種方法會(huì)帶來數(shù)據(jù)稀疏問題,尤其在維度較大時(shí)不宜采用。另一種詞向量表示方法為分布式表示,對(duì)比One-hot方法,該方法將詞映射在向量空間以解決數(shù)據(jù)稀疏的問題,一般訓(xùn)練維度在100~300維,能較好地體現(xiàn)詞語間的相關(guān)性與依賴性,所以在詞向量的表示過程中一般都是采用分布式的辦法。
比較Word2vec的兩種模型,CBOW模型在語義表示方面效果更優(yōu),所以本文選用CBOW模型。訓(xùn)練參數(shù)窗口大小設(shè)置為5,同時(shí)為了詞向量的融合表示,訓(xùn)練維度與2.2節(jié)維度保持一致。假設(shè)輸入詞序列為C=(x1,x2,…,xn)的情況下,CBOW目標(biāo)函數(shù)定義如下:
其中:m為窗口大小,n為詞數(shù),xi為預(yù)測目標(biāo)詞。P為上下文已知的xi的概率,通過softmax函數(shù)計(jì)算:
其中:wi為中心詞的詞向量表示,wo為wi的上下文詞語的詞向量的均值。
向量訓(xùn)練過程中采用隨機(jī)梯度上升法將目標(biāo)函數(shù)最大化,再經(jīng)過語料庫整體的訓(xùn)練,最終得到詞典庫中每個(gè)詞對(duì)應(yīng)的詞向量。由于CBOW模型生成的詞向量是經(jīng)過充分的訓(xùn)練而獲得的,所以在語義表示與區(qū)分方面十分出色,但是也存在低頻詞表示質(zhì)量較差、在大規(guī)模語料中表示不穩(wěn)定等問題。以“鼠兔”一詞為例,在領(lǐng)域語料中出現(xiàn)的頻率不足萬分之一,在普通語料中更低,使得機(jī)器對(duì)其學(xué)習(xí)不充足而導(dǎo)致上述問題。
詞向量表示方面,基于Word2vec生成的詞向量在詞語語義表示方面十分出色,但是這種通過機(jī)器訓(xùn)練和依賴數(shù)據(jù)驅(qū)動(dòng)的方法,使詞向量表示在低頻詞方面質(zhì)量不高,且在語料較大時(shí)生成詞向量的性能不穩(wěn)定。而依賴HowNet知識(shí)庫義原生成的詞向量,雖然能較好解決上述問題,但是在詞義區(qū)分方面尚有不足,存在詞義混淆的問題。針對(duì)單一模型訓(xùn)練的詞向量表示詞義混淆、質(zhì)量差以及穩(wěn)定性等問題,采用兩種詞向量加權(quán)融合的表示方式,取長補(bǔ)短,彌補(bǔ)單一詞向量表示的不足。本文采用線性歸一化的方法融合詞向量,其中基于HSWR生成的詞向量定義為WHownet,基于Word2vec生成的詞向量定義為WWord2vec。融合向量表示公式定義如式(6)表示:
其中式(6)中的符號(hào)⊕為各向量逐元素相加,歸一化公式本文采用sigmoid函數(shù),對(duì)W進(jìn)行線性歸一化,具體公式如下:
實(shí)體消歧分為五步:1)候選實(shí)體生成;2)實(shí)體相似度計(jì)算;3)類別相似度計(jì)算;4)主題相似度計(jì)算;5)三類相似度融合。消歧流程如圖2所示。
圖2 消歧流程Fig.2 Disambiguation flow
本文采用無標(biāo)注的知識(shí)庫文本訓(xùn)練詞向量模型,通過訓(xùn)練將每個(gè)詞映射到詞向量空間中,兩個(gè)模型的向量分別體現(xiàn)了知識(shí)的融入和詞語在深層次的一些語義特征。其次,生成候選實(shí)體集,目的是為每一個(gè)待消歧指稱項(xiàng)提供若干個(gè)可能的候選實(shí)體以防止在消歧過程中需要查找整個(gè)知識(shí)庫而導(dǎo)致低效問題。從候選實(shí)體與背景文本中獲取指稱項(xiàng)與類別名稱,并使用兩個(gè)模型進(jìn)行向量化及融合表示以計(jì)算實(shí)體相似度與類別相似度。利用主題模型對(duì)文檔進(jìn)行訓(xùn)練,使用聚類算法對(duì)主題特征的關(guān)鍵詞進(jìn)行分類,融合詞向量對(duì)其進(jìn)行表示并計(jì)算主題相似度值。最后將三類相似度值進(jìn)行加權(quán)融合,選取最高準(zhǔn)確率的數(shù)據(jù)為結(jié)果,達(dá)到消歧目的。
百度百科作為中文知識(shí)庫,它在更新中文知識(shí)方面比維基百科及時(shí),而且能提供有助于獲取信息的結(jié)構(gòu)特征,所以本文通過百度百科獲取實(shí)體的名稱及其對(duì)應(yīng)關(guān)系。候選實(shí)體生成的具體過程如下:首先,對(duì)待消歧文檔進(jìn)行實(shí)體標(biāo)注,并將標(biāo)注出的實(shí)體作為待消歧實(shí)體;其次,根據(jù)標(biāo)注實(shí)體獲取百度百科頁面信息,同時(shí)保存百度百科中對(duì)應(yīng)的標(biāo)注實(shí)體名稱;再次,通過消歧頁面,獲取與標(biāo)注實(shí)體名稱相同但是指代不同的實(shí)體;最后,將上述與待消歧實(shí)體名稱相同的所有詞語保存作為候選實(shí)體。
對(duì)于實(shí)體間相似度計(jì)算。首先,對(duì)待消歧文本進(jìn)行分詞以及停用詞過濾等操作;其次,根據(jù)2.4節(jié)將兩種詞向量進(jìn)行融合表示以獲得待消歧實(shí)體指稱項(xiàng)的融合詞向量表示;最后,通過候選實(shí)體信息摘要以獲取候選實(shí)體背景文本,預(yù)處理后生成候選實(shí)體融合詞向量表示。融合后的詞向量表示可以很大程度地代表這個(gè)詞。本文通過對(duì)比待消歧實(shí)體與候選實(shí)體的融合詞向量相似度來判斷二者是否具有聯(lián)系,與其他研究一樣,本文也利用余弦相似度值衡量待消歧實(shí)體與候選實(shí)體相似度,比較它們之間的依賴關(guān)系。余弦相似度計(jì)算公式如式(8)所示:
其中:c表示待消歧實(shí)體指稱項(xiàng)目詞向量,gi表示候選實(shí)體指稱項(xiàng)詞向量,式(8)結(jié)果代表待消歧實(shí)體與候選實(shí)體之間的語義依賴關(guān)系強(qiáng)弱程度,即它們之間語義關(guān)系相似程度。
實(shí)體間的包含關(guān)系又稱為上下位關(guān)系,本文借助上下位關(guān)系中的上位詞使得詞語有更多的詞義信息,將其作為實(shí)體類別特征,計(jì)算實(shí)體類別相似度。上下位關(guān)系層次結(jié)構(gòu)如圖3所示。
圖3 上下位關(guān)系Fig.3 Upper-lower relationship
圖3中可以看出“螃蟹甲”的上位詞為“藏藥”和“西藏”,也可以是“街道”和“湖北”。上位詞“藏藥”和“西藏”表示“螃蟹甲”屬于藏藥類別;上位詞“街道”和“湖北”表示“螃蟹甲”又屬于地名類別。藏藥類別與地名類別是兩個(gè)完全不同的實(shí)體類別,代表完全不同的語義。由此可見,把實(shí)體的類別特征用于實(shí)體語義消歧是非常必要的,類別特征在消歧任務(wù)中必將發(fā)揮重要作用。對(duì)于待消歧實(shí)體,本文使用聚類算法對(duì)詞向量進(jìn)行分類,并利用式(8)計(jì)算每個(gè)詞向量的空間距離,選擇離聚類中心最近的若干詞作為類別特征高頻詞語,然后在HowNet知識(shí)庫中進(jìn)行“查找”操作,查找高頻詞的若干上位詞作為類別名稱。例如“牦?!钡纳衔辉~有“牲畜”與“紀(jì)錄片”等,將它們作為“牦?!钡牟煌悇e名稱。再次,為保持候選實(shí)體類別名稱與候選實(shí)體指稱的一致性,本文選擇從百度百科詞條標(biāo)簽中獲取候選實(shí)體類別名稱,獲取的候選實(shí)體類別名稱與待消歧實(shí)體類別名稱進(jìn)行相似度比較,以計(jì)算二者相似度。例如待消歧實(shí)體“冬蟲夏草”的上位詞為“菌”與“保健品”等,而其候選實(shí)體的類別為“麥角菌科”與“藏藥”等。將候選實(shí)體每個(gè)類別名稱與待消歧實(shí)體每個(gè)類別名稱分別兩兩交叉配對(duì),例如(菌 麥角菌科)、(菌 藏藥)、(保健品 麥角菌科)、(保健品藏藥)等類別名稱對(duì),然后利用式(8)計(jì)算每一對(duì)詞語的相似度值。每一對(duì)相似度定義為ei,并對(duì)它們進(jìn)行排序,為每個(gè)候選實(shí)體保留一個(gè)最大相似度值,類別特征相似度公式定義如(9)所示:
潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型是一個(gè)依賴于詞袋(bag of words)生成文本主題的具有三層結(jié)構(gòu)的貝葉斯概率模型。工作原理是將文檔形象化為一個(gè)詞頻向量,從而使得文本信息轉(zhuǎn)變?yōu)榭捎糜诮5臄?shù)字信息,但是這也導(dǎo)致其沒有改變?cè)~與詞之間的順序,所以本文不得不對(duì)LDA主題模型進(jìn)行適當(dāng)改進(jìn)。文章通過對(duì)不同主題的多義詞進(jìn)行標(biāo)注,使用W′=w,t對(duì)多義詞與主題特征詞語進(jìn)行聯(lián)合表示取代原先存入詞袋模型的多義詞,并通過原先模型進(jìn)行語料訓(xùn)練從而得到不同主題下的詞向量表示以解決詞序問題。同時(shí)對(duì)詞向量進(jìn)行聚類操作,使用式(8)計(jì)算向量距離,獲取離聚類中心最近的若干詞作為主題關(guān)鍵詞,使詞向量攜帶主題特征信息。具體步驟如下:
首先,對(duì)待消歧文本進(jìn)行過濾停用詞以及斷句等預(yù)處理,利用改進(jìn)的LDA主題模型對(duì)預(yù)處理文檔進(jìn)行主題建模,借助Gibbs抽樣算法選取最佳參數(shù)。其次,引用支持向量機(jī)的方法進(jìn)行聚類操作,并由上述被替換原詞袋模型的訓(xùn)練好的模型進(jìn)行分類,確定局部文字主題,并對(duì)主題文本進(jìn)行融合詞向量表示。利用K-means聚類算法實(shí)現(xiàn)分類并使用余弦相似度計(jì)算每個(gè)詞向量的空間距離,選擇距離聚類中心最近的若干詞作為主題特征關(guān)鍵詞。最后在主題關(guān)鍵詞提取過程中獲取不同主題關(guān)鍵詞集合,將不同聚類結(jié)果的關(guān)鍵詞進(jìn)行融合詞向量表示,其中詞語不同類別個(gè)數(shù)為后續(xù)主題特征個(gè)數(shù),將在同一主題特征下的關(guān)鍵詞設(shè)為集合S,關(guān)鍵詞個(gè)數(shù)定義為m,集合中的關(guān)鍵詞定義為i,融合詞向量表示為wi(i=1,2,…,m),候選實(shí)體摘要文本經(jīng)過分詞、去標(biāo)點(diǎn)等預(yù)處理后使用H-SWR進(jìn)行詞向量表示,再使用Word2vec進(jìn)行詞向量表示,最后融合詞向量表示定義為ni,可得主題特征相似度定義式(10)所示:
本文通過改進(jìn)的LDA主題模型,即將原先多義詞通過標(biāo)注并添加主題信息以取代原來的詞語,使得其得到的關(guān)鍵詞集合都屬于同一主題,從而較好地解決了本節(jié)開頭提出的問題。
為了充分利用多類特征相似度進(jìn)行實(shí)體消歧,同時(shí)也能最大限度地提高消歧準(zhǔn)確率,本文采用加權(quán)融合的方法對(duì)多類特征進(jìn)行融合。多特征融合相似度定義為:E=αE1+βE2+χE3,其中:E1表示待消歧實(shí)體與候選實(shí)體相似度,E2表示實(shí)體類別特征相似度,E3表示實(shí)體主題特征相似度。通過八組比較實(shí)驗(yàn)結(jié)果獲得一組最佳權(quán)重系數(shù)。第一組實(shí)驗(yàn)中設(shè)置α=0.1不變,β、χ初值分別為0.1和0.8,以這三個(gè)參數(shù)為權(quán)重值系數(shù)計(jì)算相似度值并記錄,之后β、χ值分別以正負(fù)0.1步長進(jìn)行調(diào)整,每次調(diào)整后的新參數(shù)作為權(quán)重值系數(shù)計(jì)算相似度值并記錄,以此類推,β、χ的終值分別為0.8和0.1,然后選取這組實(shí)驗(yàn)中相似度值最大的那次實(shí)驗(yàn)的權(quán)重值系數(shù)作為第一組實(shí)驗(yàn)結(jié)果并記錄。第二組、第三組、……、第八組實(shí)驗(yàn)中設(shè)置α值分別分為0.2,0.3,…,0.8;β、χ取值與第一組實(shí)驗(yàn)方法相同,分別獲得其他七組實(shí)驗(yàn)的最好權(quán)重值系數(shù),最后比較八組實(shí)驗(yàn)獲得的八個(gè)相似度值,選擇最高相似度值的那組參數(shù)值作為α、β、χ的最佳權(quán)重系數(shù)。
使用H-SWR進(jìn)行詞向量表示方面,得出模型后輸入語料進(jìn)行訓(xùn)練,語料的訓(xùn)練方式與CBOW模型相似。為了防止兩類詞向量融合維度出現(xiàn)過高的情況,實(shí)驗(yàn)指定窗口大小為5,維度定為100,實(shí)現(xiàn)平臺(tái)為PyCharm 2018.3.7。在使用Word2vec進(jìn)行詞向量表示方面,訓(xùn)練模型采用連續(xù)詞袋模型,定義窗口大小為5,維度100。對(duì)于語料選擇方面,本文使用維基百科離線知識(shí)庫進(jìn)行訓(xùn)練。
候選實(shí)體獲取方面,由于百科知識(shí)庫中涉及領(lǐng)域太廣,所以本文選擇西藏畜牧業(yè)領(lǐng)域分類下的頁面信息,進(jìn)行摘要提取,候選義項(xiàng)摘要保存于文本。測試語料爬取有關(guān)西藏畜牧業(yè)領(lǐng)域的文本共30篇,還有手工標(biāo)注的西藏畜牧業(yè)領(lǐng)域的文本10篇,其中標(biāo)注文本中的詞數(shù)共計(jì)161 518個(gè),標(biāo)注有關(guān)領(lǐng)域?qū)嶓w指稱29692個(gè)。標(biāo)注的每一篇文本中的實(shí)體名稱通過與獲得的候選實(shí)體對(duì)比作為實(shí)驗(yàn)的結(jié)果的驗(yàn)證。使用準(zhǔn)確率判斷本文方法的優(yōu)劣與可行性,準(zhǔn)確率定義如下:
該組實(shí)驗(yàn)用于對(duì)比詞向量融合與否對(duì)相似度計(jì)算準(zhǔn)確率的影響。詞向量相似度對(duì)比的優(yōu)劣通常可以通過觀察給定詞對(duì)的評(píng)價(jià)分?jǐn)?shù)來判定其優(yōu)劣程度。所以本文采用斯皮爾曼(Spearman)系數(shù)用于評(píng)估詞語相似度準(zhǔn)確率,Spearman系數(shù)是一種評(píng)價(jià)詞語相似度算法準(zhǔn)確度的有效方式,計(jì)算公式如式(12)所示:
其中:p表示斯皮爾曼相關(guān)系數(shù),系數(shù)越大說明用于計(jì)算相似度的詞向量更為優(yōu)質(zhì);n表示元素個(gè)數(shù);di表示一個(gè)排行差分集合中的元素,本文將獲得的相似度經(jīng)過比例縮小后與其對(duì)應(yīng)人工評(píng)分定義為變量(X,Y),并對(duì)兩個(gè)變量的數(shù)據(jù)進(jìn)行排序并記錄為(Z,W),其中(Z,W)的值便為秩次,而秩次間的差值就是di。本文用于測試的標(biāo)準(zhǔn)數(shù)據(jù)集為wordsim-240,每行格式為一對(duì)標(biāo)準(zhǔn)詞對(duì)與數(shù)值在0~5的人工評(píng)分。實(shí)驗(yàn)結(jié)果如表1所示。
表1 Spearman相關(guān)系數(shù)對(duì)比Tab.1 Spearman correlation coefficient comparison
由實(shí)驗(yàn)結(jié)果可知,由人工知識(shí)與機(jī)器學(xué)習(xí)的詞向量的結(jié)合是切實(shí)可行的,并且在詞向量相似度計(jì)算的過程中表現(xiàn)出色。
在消歧過程中,實(shí)體相似度、類別特征相似度以及主題特征相似度所占權(quán)重的不同對(duì)實(shí)驗(yàn)準(zhǔn)確率有著很大的影響,通過實(shí)驗(yàn)的方法驗(yàn)證最佳權(quán)重值系數(shù),把消歧準(zhǔn)確率最高的權(quán)重值系數(shù)作為最佳系數(shù),實(shí)驗(yàn)結(jié)果如表2所示。
對(duì)于權(quán)重值的選擇方法如3.5節(jié)所述。即將三類特征權(quán)值總和定義為1,同時(shí)在不知道每一項(xiàng)權(quán)重值大小的情況下首先固定某一項(xiàng)權(quán)重值,同時(shí)對(duì)其他兩項(xiàng)權(quán)重進(jìn)行每次步長為0.1的調(diào)整,觀察固定一項(xiàng)權(quán)重值不變時(shí)另外兩項(xiàng)權(quán)重值變化的結(jié)果并記錄這一組數(shù)據(jù)的最高值,之后固定權(quán)重值加0.1,并按上述方法推演。最終獲取固定權(quán)重值為0.1~0.8的八組最高數(shù)據(jù)如表2所示,加粗字體為準(zhǔn)確率最高權(quán)重值系數(shù)。最佳權(quán)重值為:α=0.3,β=0.2,χ=0.5。
表2 權(quán)重值選取數(shù)據(jù)匯總Tab.2 Selected weight value data summary
由于待消歧實(shí)體與候選實(shí)體相似度計(jì)算包含詞語及其語義信息,且融合后的詞向量攜帶大量結(jié)構(gòu)化知識(shí)的信息,所以融合特征相似度占有比較重要的地位。對(duì)于類別特征相似度計(jì)算,由于其本身存在的作用是區(qū)別詞語的不同類別特征,而類別的獲取是聚類后的結(jié)果,致使該類特征所攜帶的語義信息相比前者較少,所以占比重較小。主題特征相似度方面,由于本文使用改進(jìn)的LDA主題模型,使用攜帶特征信息的詞語替換詞原始詞袋中的多義詞,使得主題特征與唯一詞語對(duì)應(yīng),很大程度解決了詞語缺乏局部特征的問題,所以其不單攜帶詞語本身語義信息,還具有大量的主題特征信息,所以其占比重最大。綜上所述,因?yàn)椴煌奶卣魉鶖y帶的語義信息量不同致使權(quán)重值系數(shù)也不相同,而在本文消歧過程中待消歧實(shí)體與候選實(shí)體相似度與主題特征相似度的信息量明顯更大一點(diǎn),從而也起到了更為重要的作用。最終獲取融合相似度后,對(duì)其進(jìn)行排序操作,選取最高一組數(shù)據(jù)為最終結(jié)果。
類別關(guān)鍵詞與主題關(guān)鍵詞數(shù)量多與少會(huì)影響消歧結(jié)果,為此通過實(shí)驗(yàn)來驗(yàn)證關(guān)鍵詞數(shù)量對(duì)消歧結(jié)果影響,以確定最佳關(guān)鍵詞數(shù)量。由圖4可知,類別關(guān)鍵詞為4個(gè)時(shí)消歧效果最好,這是由于如果關(guān)鍵詞個(gè)數(shù)較少,所攜帶信息不足,而過多又會(huì)使得信息覆蓋范圍變廣反而降低準(zhǔn)確率。對(duì)于主題關(guān)鍵詞個(gè)數(shù),由實(shí)驗(yàn)結(jié)果可知當(dāng)其在8個(gè)時(shí)消歧效果最好,相比類別特征,主題特征能更好地表示一個(gè)詞語的語義,所以關(guān)鍵詞個(gè)數(shù)較多。
圖4 特征關(guān)鍵詞數(shù)對(duì)準(zhǔn)確率的影響Fig.4 Influenceof thenumber of feature keywordson accuracy
實(shí)驗(yàn)主要選擇三個(gè)典型的消歧方法對(duì)本文方法的效果進(jìn)行檢驗(yàn),它們分別為W ikify[19]、支持向量機(jī)(Support Vector Machine,SVM)[20]以及Knowledge Base[21]。Wikify著重于使用實(shí)體鏈接的方法以達(dá)到消歧的目的;以Knowledge Base為基礎(chǔ)的消歧方法,特點(diǎn)是十分依賴知識(shí)庫;SVM消歧的方法是一種圖模型結(jié)合實(shí)體鏈接的消歧方法。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同消歧方法的準(zhǔn)確率對(duì)比 單位:%Tab.3 Accuracy comparison of different disambiguation methods unit:%
從表3可看出,本文方法對(duì)比其他消歧方法準(zhǔn)確率有所提高,與典型的圖模型消歧方法相比準(zhǔn)確率提高了7.6個(gè)百分點(diǎn)。與上述三種方法相比。本文方法首先增強(qiáng)了詞向量表示的質(zhì)量,其次彌補(bǔ)了詞語語義容易混淆的不足,最后在消歧過程中添加了主題與類別特征信息以使得準(zhǔn)確率有所提高。這說明多種詞向量融合表示的多特征融合的消歧方法切實(shí)可行,融合后的詞向量表示在相似度計(jì)算以及消歧方面中的效果也更為出色。
本文針對(duì)主流消歧方法因信息攜帶不足而導(dǎo)致的消歧模型對(duì)多義詞不能準(zhǔn)確區(qū)分以及對(duì)于詞向量表示低頻詞質(zhì)量差,表示的語義信息容易混淆等問題,提出詞向量的融合表示以及詞語的多特征融合方法。實(shí)驗(yàn)結(jié)果表明,準(zhǔn)確率比典型的圖模型消歧方法有較大提高。下一步,將嘗試融入深度學(xué)習(xí)并改進(jìn)獲取詞向量特征的方法,減小消歧任務(wù)工作量,進(jìn)一步提高準(zhǔn)確率。