汪志偉 朱福喜 劉世超
(武漢大學(xué)計算機學(xué)院 湖北 武漢 430072)
?
一種基于Wikipedia的詞匯語義關(guān)聯(lián)度計算方法
汪志偉朱福喜劉世超
(武漢大學(xué)計算機學(xué)院湖北 武漢 430072)
詞匯語義關(guān)聯(lián)度計算是信息檢索和自然語言處理的關(guān)鍵問題之一。針對該問題提出一種改進的基于Wikipedia語義關(guān)聯(lián)度計算方法WGR。該方法使用Wikipedia數(shù)據(jù)集作為背景知識庫,在傳統(tǒng)方法的基礎(chǔ)上融合維基文章中的布局信息,并對維基概念的入鏈和出鏈?zhǔn)褂貌煌姆椒ㄟM行處理;引入Google搜索資源,經(jīng)分類篩選后使用LDA建模計算關(guān)聯(lián)度;最后綜合兩個數(shù)據(jù)集的結(jié)果得到WGR語義關(guān)聯(lián)度。通過實驗分析,WGR在與現(xiàn)有算法比較時,取得了更好的準(zhǔn)確率。
語義關(guān)聯(lián)度文章網(wǎng)絡(luò)布局信息維基百科隱含狄利克雷分布谷歌
語義關(guān)聯(lián)度研究是信息檢索、人工智能等領(lǐng)域的基礎(chǔ)性研究課題之一,有著重要的研究價值。
傳統(tǒng)的語義關(guān)聯(lián)度計算方法包括單純的對大型語料庫進行統(tǒng)計分析,不涉及到相關(guān)的背景知識[1,2],或者使用人工構(gòu)建的帶有少量外部知識的詞典資源[3,4]。近年來出現(xiàn)了很多利用Wikipedia計算語義關(guān)聯(lián)度的方法。維基文章間豐富的鏈接關(guān)系構(gòu)成的文章網(wǎng)絡(luò)及文本內(nèi)容能提供大量明確定義的語義知識。雖然Wikipedia是數(shù)以百萬計的用戶協(xié)作編寫的百科全書,內(nèi)容覆蓋廣泛,有研究表明,其內(nèi)容的準(zhǔn)確性與由專家寫成的大英百科全書相差無幾[5]。與傳統(tǒng)背景知識庫相比,Wikipedia內(nèi)容的結(jié)構(gòu)化和準(zhǔn)確性使其成為更好的語義關(guān)聯(lián)度計算背景知識庫。但現(xiàn)有的基于Wikipedia計算語義關(guān)聯(lián)度的方法還存在著一些不足:1) 著重于鏈接網(wǎng)絡(luò)和維基分類樹而忽視文本內(nèi)容;2) 沒有考慮Wikipedia存在的缺陷,如更新滯后、覆蓋度有限等,沒有引入相應(yīng)的內(nèi)容進行補充。
針對這些缺陷,本文提出了一種改進的基于Wikipedia詞匯語義關(guān)聯(lián)度計算方法WGR,主要貢獻如下:
(1) 引入了維基文章頁面布局信息,在使用Wikipedia計算關(guān)聯(lián)度時可以更準(zhǔn)確地描述詞語-文章的關(guān)聯(lián)性。
(2) 對維基概念的輸入鏈接(Backward Links)和輸出鏈接(Forward Links)分別應(yīng)用不同的處理方法,從而在Wikipedia內(nèi)容處理中既應(yīng)用了維基文章的文本內(nèi)容,又考慮了多層輸出鏈接。
(3) 引入Google搜索資源,經(jīng)過分類器篩選后進行LDA建模從而計算關(guān)聯(lián)度,最后綜合Wikipedia和Google資源的結(jié)果得到WGR語義關(guān)聯(lián)度。
現(xiàn)有的語義關(guān)聯(lián)度計算方法主要區(qū)別在于利用了不同的背景知識。較早的基于人工語義詞典如WordNet和Roget的方法[6],其準(zhǔn)確性受限于人工詞典的容量和更新情況。其后出現(xiàn)的基于語料庫的方法,通過對大量文本集合進行統(tǒng)計分析得到比較全面的背景知識庫,其中LSA算法[7]是準(zhǔn)確率較高的算法之一,但其需要對語料庫進行大量預(yù)處理。
Strube和Ponzetto[8]首先開始利用Wikipedia計算語義關(guān)聯(lián)度,所提出的WikiRelate算法將基于Wordnet的方法進行修改后應(yīng)用到Wikipedia上,取得了和基于Wordnet相近的準(zhǔn)確度。Gabrilovich和Markovitch[9]提出的ESA算法是目前準(zhǔn)確率最高的語義關(guān)聯(lián)度計算方法之一,該方法采用向量空間模型對維基文章進行建模,不僅可以比較詞匯的語義關(guān)聯(lián)度,還可以比較文本內(nèi)容之間的語義關(guān)聯(lián)度。Milne和Witten[10]提出的WLM算法,采用向量空間模型處理Wikipedia文章網(wǎng)絡(luò)鏈接,結(jié)合NGD距離(Normalized Google Distance)[11],算法開銷低于ESA,且取得了較高的準(zhǔn)確率。孫琛琛等[12]提出的WSR算法,引入帶權(quán)重的鏈接,并借鑒TF-IDF定義鏈接權(quán)重,從而分析文章網(wǎng)絡(luò)的多層次結(jié)構(gòu),最后結(jié)合維基分類樹計算關(guān)聯(lián)度,算法開銷遠小于ESA,也取得了較高的準(zhǔn)確度。李赟等[13]利用中文維基百科進行語義相關(guān)詞的獲取及其相關(guān)度分析。
Radinsky等[14]提出的TSA算法將Wikipedia資源和紐約時報的文章結(jié)合使用。使用了紐約時報從1863年至2004年的文章存檔,先將每個詞轉(zhuǎn)換為一系列包含這個詞的維基文章的集合,通過維基概念在紐約時報文章中分布的相似性計算原始詞的語義關(guān)聯(lián)性。
文獻[15]使用LDA對Wikipedia數(shù)據(jù)集進行建模,將詞語描述成高維向量,向量由兩部分組成:詞語與上下文臨近詞的關(guān)聯(lián)度組成的向量,LDA模型輸出的對詞語的主題表達向量,通過計算高維向量的余弦距離得出語義關(guān)聯(lián)度,也取得了較好的準(zhǔn)確度。
本文提出的WGR語義關(guān)聯(lián)度計算方法整體流程如圖1所示。該算法主要包括兩個部分:首先是利用Wikipedia數(shù)據(jù)集的語義關(guān)聯(lián)度計算WikiRel,將待計算語義關(guān)聯(lián)度的詞語映射成維基概念后,對每個維基概念所處文章網(wǎng)絡(luò)中的輸入鏈接和輸出鏈接采用不同的方法計算,計算過程中結(jié)合維基文章的頁面布局信息,更精確地描述詞語-文章關(guān)聯(lián)性。其次是利用Google搜索結(jié)果的語義關(guān)聯(lián)度計算GooRel,取得每個待計算關(guān)聯(lián)度的詞語在Google搜索中的結(jié)果集,使用分類器篩選后進行LDA建模,計算詞語各自主題向量的余弦距離。最后綜合兩個部分得到WGR算法。
圖1 算法整體流程
2.1基于Wikipedia數(shù)據(jù)集關(guān)聯(lián)度計算WikiRel
已有的基于Wikipedia的關(guān)聯(lián)度算法[8-13]大多只考慮文本內(nèi)容或文章網(wǎng)絡(luò)。為了綜合考慮文章網(wǎng)絡(luò)和文本內(nèi)容,本文采用不同的方法對入鏈和出鏈進行處理,其中入鏈(Backward Links)即目標(biāo)概念出現(xiàn)在某個維基概念的描述文章中;出鏈(Forward Links)即目標(biāo)概念的描述文章中出現(xiàn)了某個維基概念。最終取二者的加權(quán)和得到WikiRel關(guān)聯(lián)度。
2.1.1維基頁面布局信息
圖2為維基文章頁面示例,維基文章中的首段通常是對該文章所描述維基概念的概要說明;在維基頁面中顯示為藍色字體的即錨文本;文章中被加粗為黑體或斜體表示強調(diào)說明,如圖中的”Apple Computer, Inc”和”Fortune”;此外,Wikipedia編輯過程中,會附加相關(guān)的圖片資源進行輔助說明,如圖2中圖片下方文字說明。
圖2 維基文章頁面示例
2.1.2維基頁面間的鏈接信息
Wikipedia中存在著多種鏈接,不同的鏈接所能體現(xiàn)的概念間語義關(guān)聯(lián)是不一樣的。本文對不同鏈接使用經(jīng)驗初始權(quán)值如表1所示。
表1 不同類型鏈接的初始權(quán)值
2.1.3使用目標(biāo)概念入鏈改進的ESA算法BLRel
ESA算法[9]包括三個步驟:把詞語轉(zhuǎn)換為概念向量;計算向量中每個元素的相關(guān)性權(quán)重;計算兩個概念向量的余弦距離??紤]到在維基文章中很多詞語只起到輔助描述、組成句子的作用,并不能反映其與對應(yīng)的維基概念有語義關(guān)系,本文只對出現(xiàn)了目標(biāo)概念作為錨文本的維基文章計算相關(guān)性向量。在取得所有包含以目標(biāo)概念為錨文本的維基文章后,去掉分類、消歧等不需要的功能頁面,以及正文內(nèi)容過短的文章,然后進行文本預(yù)處理。
本文在ESA算法的第二步進行改進,將TF-IDF與維基頁面的布局信息相結(jié)合,詞語-維基概念相關(guān)性計算如下:
Relevance=β0+β1×isBold+β2×isItalic+β2×isAnchor+
β3×isImage+β4×isFirstPara+β5×TFIDF
(1)
其中isBold、isItalic、isAnchor、isImage、isFirstPara分別代表詞語是否在頁面中為黑體、斜體、錨文本、位于圖片描述中、處于第一段,若是則取值為1,否則取為0。
對于式(1)中的參數(shù)設(shè)定本文通過回歸分析進行擬合。將式(1)作為擬合方程,本文使用了最小二乘法(OLS)、次序?qū)?shù)回歸(OLR)和支持向量回歸(SVR)三種分析方法,以對比擬合結(jié)果對語義關(guān)聯(lián)度計算結(jié)果的影響。具體訓(xùn)練集通過人工標(biāo)注獲得,從Wikipedia數(shù)據(jù)庫中隨機抽取100篇文章,這些文章至少都包含一個黑體詞語、三個以上可以正確鏈接到其他維基頁面的錨文本、至少三個字的圖片描述文字、一個以上的文章段落。然后再從每篇文章中選出30個詞語進行人工相關(guān)性標(biāo)注,選擇的過程要覆蓋到所有的布局信息,人工標(biāo)注由三個人分別獨立完成,取三個人的標(biāo)注結(jié)果平均值作為最終結(jié)果。對于標(biāo)注結(jié)果存在歧義或無法給出標(biāo)注結(jié)果的詞語全部剔除,最終得到了1 750個詞語。
2.1.4使用目標(biāo)概念出鏈的關(guān)聯(lián)度計算FLRel
本文借鑒pfibf[16],結(jié)合布局信息定義了維基概念間鏈接權(quán)值。對于目標(biāo)概念的輸出鏈接,計算三層輸出鏈接向量的余弦距離得到FLRel關(guān)聯(lián)度。
(1) 鏈接權(quán)值設(shè)置
設(shè)a、b為源概念和目標(biāo)概念,a→b的權(quán)值:
(2)
(2) 語義關(guān)聯(lián)度計算
結(jié)合式(1),鏈接的初始權(quán)值定義如下:
w(a→b)0=Relevance×表1中的經(jīng)驗權(quán)值
(3)
圖3 三層輸出鏈接示例
將式(3)代入式(2),再對源概念的所有輸出鏈接計算權(quán)重,概念輸出鏈接如圖3所示,a、b為源概念結(jié)點,輸出至c、d的為第一層,輸出至e為第二層,至f為第三層。根據(jù)源概念結(jié)點構(gòu)建出每層輸出鏈接向量,最后計算每層向量余弦距離。
在計算第二層鏈接矩陣時,a→e的權(quán)重為w(a→c)×w(c→e)×0.9,0.9為關(guān)聯(lián)性傳遞衰減系數(shù),第三級鏈接以此類推。對其中某層鏈接而言,源概念的語義關(guān)聯(lián)度描述為:
(4)
其中,M(a)、M(b)分別為源概念a,b的輸出鏈接權(quán)重向量。最終FLRel關(guān)聯(lián)度計算為:
FLRel(a,b)=α×Similarity1+β×Similarity2+
γ×Similarity3
(5)
其中,Similarity1、Similarity2、Similarity3分別為1、2、3層鏈接的余弦距離,α、β、γ為對應(yīng)的權(quán)重系數(shù),且α+β+γ=1,其具體值通過實驗多組不同的權(quán)值,在α=0.67,β=0.21,γ=0.12時,F(xiàn)LRel取得了最高的準(zhǔn)確率。
2.1.5WikiRel關(guān)聯(lián)度計算
綜合BLRel和FLRel,使用Wikipedia數(shù)據(jù)集計算得到WikiRel關(guān)聯(lián)度為:
WikiRel=δ×BLRel+ε×FLRel
(6)
其中δ+ε=1,本文δ=0.55,ε=0.45。
2.2基于Google資源的關(guān)聯(lián)度計算GooRel
本文將Google搜索資源作為Wikipedia之外的擴充背景知識庫。對于一組待計算語義關(guān)聯(lián)度的詞,首先取得各自在擴充知識庫中的網(wǎng)頁結(jié)果集,再使用分類器過濾主題不相關(guān)的結(jié)果,接著對網(wǎng)頁內(nèi)容使用LDA進行建模,最后通過計算兩個詞語-主題分布向量的余弦距離得到GooRel關(guān)聯(lián)度。
2.2.1Google外部資源
雖然Wikipedia是目前規(guī)模最大的在線百科全書,但也存在缺陷:首先,其還在不斷完善各種新詞條,已有內(nèi)容也保持著更新維護,內(nèi)容覆蓋度有限;其次,由于其需要保證內(nèi)容的公正客觀準(zhǔn)確性,維基文章中不能涉及過多的時事信息,且其內(nèi)容的更新存在滯后性。針對這些缺陷,本文利用Google搜索對背景知識庫進行擴充,Google資源的優(yōu)勢包括能在技術(shù)上盡可能快的找到新出現(xiàn)的網(wǎng)頁,由PageRank計算出網(wǎng)頁排名,根據(jù)與搜索請求關(guān)聯(lián)性的高低給出搜索結(jié)果。
2.2.2擴充背景知識庫構(gòu)建
由于對每個詞都單獨取實時搜索結(jié)果會導(dǎo)致關(guān)聯(lián)度計算的時間開銷太大,本文通過結(jié)合Wikipedia分類結(jié)構(gòu)和Google搜索構(gòu)建離線擴充背景知識庫。Wikipedia中主要的主題分類包括Agriculture、Arts、Culture、Environment、Geography、Health、History、Humanities、Humans、Language、Law、Mathematics、Medicine、Nature、People、Politics、Professional studies、Science、Sports、Technology,使用Google搜索獲得與這些主題相關(guān)的排名最靠前的50個網(wǎng)站(不包括僅為單個網(wǎng)頁的搜索結(jié)果),繼而去抓取這些網(wǎng)站中最新的文章,最后按照其所屬的分類進行存儲,即構(gòu)成GooRel計算的背景知識庫。
2.2.3LDA主題模型
圖4 LDA模型圖示
LDA[17]是一種主題概率模型,可以得到文檔集中每篇文檔的隱含主題概率分布。LDA概率圖模型如圖4所示,其中α和β表示語料級別的超參數(shù),θ表示文檔主題的概率分布,φ表示特定主題下詞的概率分布,M表示文檔集的文本數(shù),K表示文檔集的主題數(shù),N表示每篇文檔包含的特征詞數(shù)。
(7)
其中,k為隱含主題的數(shù)目。
本文采用Gibbs采樣估計當(dāng)前采樣詞wi的主題tj的后驗分布,迭代完成輸出主題-詞參數(shù)矩陣φ和文檔-主題矩陣θ。
2.2.4GooRel關(guān)聯(lián)度計算
對于一組待計算語義關(guān)聯(lián)度的詞,首先將其分別映射到擴充知識庫的分類上,取出各自對應(yīng)的結(jié)果集;其次,因為對應(yīng)的分類結(jié)果集中可能包含主題不相關(guān)的網(wǎng)頁,采用樸素貝葉斯分類器進行篩選,其中訓(xùn)練集通過Wikipedia獲取,使用主題詞對應(yīng)維基文章以及文章中所鏈接的相關(guān)維基概念,以及See Also鏈接文章,構(gòu)建出每個詞的分類訓(xùn)練文本集,去掉主題不符的網(wǎng)頁。如果某個詞對應(yīng)的結(jié)果集在篩選后網(wǎng)頁數(shù)量少于3000個,通過取對應(yīng)詞在Google中的實時搜索結(jié)果進行擴充,同時將這些搜索結(jié)果也添加到擴充知識庫對應(yīng)的類別中。
最后,對上述消歧完畢的網(wǎng)頁文本內(nèi)容使用LDA進行主題建模,建模過程中的參數(shù)估計采用Gibbs采樣,迭代次數(shù)為1000次,其中主題數(shù)量K從10,20,…,一直迭代到200,取得到最優(yōu)結(jié)果的情況;其中α=50/K,β=0.01。最后,對待計算語義關(guān)聯(lián)度的詞語ωi和ωj的所有網(wǎng)頁數(shù)據(jù)通過LDA計算出分布tr(ωi)和tr(ωj)(參見式7),計算余弦相似度得到這對詞語的語義關(guān)聯(lián)度:
(8)
2.3WGR語義關(guān)聯(lián)度計算
WGR關(guān)聯(lián)度計算綜合WikiRel和GooRel兩種方法,對于給定詞對ωi和ωj,二者的語義關(guān)聯(lián)度計算如下,其中λ=0.66,μ=0.34。
WGR(wi,wj)=λ×WikiRel+μ×GooRel
(9)
3.1實驗環(huán)境與數(shù)據(jù)集
本文實驗環(huán)境如下:Windows Server 2003系統(tǒng),配置雙核3.5 GHz CPU和32 GB內(nèi)存。
實驗所用的Wikipedia數(shù)據(jù)來自其官方網(wǎng)站下載的數(shù)據(jù)集,數(shù)據(jù)集是2013年5月3日進行的備份。實驗所使用的Google擴充背景知識庫通過Java編寫的爬蟲軟件抓取搜索結(jié)果及網(wǎng)頁,平均每個類別收集了接近10 000個網(wǎng)頁,對每個網(wǎng)頁的預(yù)處理包括取出網(wǎng)頁body主體文本內(nèi)容,剔除特殊符號、HTML標(biāo)簽、停用詞以及出現(xiàn)頻率極低的詞后進行存儲。
本文選擇最常用的WordSimilarity-353測試集[18]作為語義關(guān)聯(lián)準(zhǔn)確率評測數(shù)據(jù)集。
3.2實驗結(jié)果及分析
在測試集上對本文提出的算法(WikiRel、GooRel、WGR)進行實驗,采用Spearman等級相關(guān)系數(shù)評估語義關(guān)聯(lián)度計算準(zhǔn)確度,實驗結(jié)果及分析如下。
3.2.1WikiRel參數(shù)分析
WikiRel關(guān)聯(lián)度計算中,計算詞語-維基概念相關(guān)性時實驗了三種方法OLS、OLR和SVR對式(1)中的參數(shù)進行擬合,三種擬合方法對應(yīng)得到的WikiRel計算結(jié)果如表2所示。
表2 WikiRel實驗結(jié)果
從表2可以看到,使用最小二乘法(OLS)取得了最好的計算結(jié)果。支持向量回歸(SVR)結(jié)果稍差,而使用次序?qū)?shù)回歸(OLR)結(jié)果最差,因為其對式(1)中參數(shù)的返回值導(dǎo)致很多詞語-維基概念相關(guān)性結(jié)果為0。最小二乘法(OLS)對式(1)的參數(shù)分析結(jié)果如表3所示。
表3 OLS分析結(jié)果
從表3可以看到,TFIDF、isBold、isItalic 、isAnchor、isImage是顯著屬性,TFIDF值的權(quán)重最高,isBold黑體、isItalic斜體表示強調(diào),體現(xiàn)著一定的關(guān)聯(lián)性。isImage(圖片描述)和isAnchor(錨文本)所能體現(xiàn)的關(guān)聯(lián)性較弱,部分維基文章中的圖片和概念主題并不相關(guān),錨文本也是如此,部分鏈接的添加只是起到引導(dǎo)作用,并沒有實際的語義關(guān)聯(lián)。而段落結(jié)構(gòu)(isFirstPara)的權(quán)重最低,其對詞語-維基概念相關(guān)性的影響要弱于文字樣式。
3.2.2WGR算法評測
WGR算法關(guān)聯(lián)度評測結(jié)果如表4所示。
表4 WGR評測結(jié)果
(1) WGR與傳統(tǒng)方法對比
如圖5所示與傳統(tǒng)使用人工語義詞典的方法相比,WGR采用Wikipedia作為背景知識庫,同時借助Google結(jié)果資源,準(zhǔn)確性取得了較大提高。
圖5 與傳統(tǒng)方法結(jié)果對比
(2) WGR與現(xiàn)有使用Wikipedia的方法對比
圖6為WGR與WikiRelate、ESA、WLM的對比,也取得了更好的準(zhǔn)確率。WikiRelate把在傳統(tǒng)詞典知識集上使用的方法應(yīng)用到Wikipedia的層次分類樹上;WLM利用Wikipedia文章網(wǎng)絡(luò),但其沒有區(qū)別對待各種鏈接,并且只考慮與源概念結(jié)點直接相連的鏈接,雖然WLM算法也應(yīng)用了Google資源,但僅僅是考慮詞語的共現(xiàn)頻率。ESA算法利用了所有維基文章的文本內(nèi)容,但僅以TF-IDF值作為詞語-概念相關(guān)性權(quán)值,而且要對幾乎所有的維基文章進行預(yù)處理來計算詞語-概念相關(guān)性的倒排索引,計算量非常大。
圖6 與現(xiàn)有基于Wikipedia方法結(jié)果對比
圖7中LDA所指代的方法為文獻[13]提出的使用LDA對Wikipedia文章集進行建模,結(jié)合輸出的矩陣計算語義關(guān)聯(lián)度,取得了較好的準(zhǔn)確度,驗證了使用LDA模型處理文檔集合計算語義關(guān)聯(lián)度的可行性。本文中提出的GooRel方法,對每個詞所使用的文本資源集合覆蓋度和時效性更好,取得了和文獻[13]方法相近的結(jié)果。雖然TSA算法的準(zhǔn)確度比WGR稍高一點,但其采用1863年至2004年,超過130年的紐約時報文章存檔作為外部資源,這些資源根本無法通過常規(guī)途徑獲取到。
圖7 與現(xiàn)有其他方法結(jié)果對比
(3) GooRel結(jié)果分析
圖8中橫坐標(biāo)為每個待計算關(guān)聯(lián)度的詞對應(yīng)的搜索結(jié)果中參與LDA建模的網(wǎng)頁數(shù)量。為了驗證外部資源對GooRel語義關(guān)聯(lián)度計算的影響,實驗中,在清除掉歧義結(jié)果頁面后,對每個詞分別取前500,1000,…,直到5000個結(jié)果網(wǎng)頁進行建模。每個詞所采用的網(wǎng)頁數(shù)量對結(jié)果的影響如圖8所示,隨著參與主題建模的網(wǎng)頁數(shù)量的增加,準(zhǔn)確度不斷提升,但在網(wǎng)頁數(shù)量到達3500時,提升效果漸趨穩(wěn)定。
圖8 參與建模網(wǎng)頁數(shù)量對GooRel影響
本文在使用Wikipedia數(shù)據(jù)集作為背景知識庫的基礎(chǔ)上,結(jié)合Google搜索資源計算語義關(guān)聯(lián)度,并通過實驗驗證了方法的有效性。Wikipedia是目前規(guī)模最大的知識庫,其中還有大量的指向維基以外的鏈接引用,利用好這些外部資源,也可能會提高計算結(jié)果的準(zhǔn)確度。而且Wikipedia提供的多語言版本也可能對提高結(jié)果的可靠性有輔助作用,這都將是在以后的工作中需要考慮研究的。
[1] Baezayates R,Ribeironeto B.Modern information retrieval[M].New York:ACM press,1999.
[2] Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JASIS,1990,41(6):391-407.
[3] Budanitsky A,Hirst G.Evaluating wordnet-based measures of lexical semantic relatedness[J].Computational Linguistics,2006,32(1):13-47.
[4] Jarmasz M.Roget′s thesaurus as a lexical resource for natural language processing[D].University of Ottawa,2003.
[5] Giles J.Internet encyclopaedias go head to head[J].Nature,2005,438(7070):900-901.
[6] McHale M.A comparison of WordNet and Roget’s taxonomy for measuring semantic similarity[C]//Proceedings of COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems,1998:115-120.
[7] Landauer T K,Foltz P W,Laham D.An introduction to latent semantic analysis[J].Discourse processes,1998,25(2-3):259-284.
[8] Strube M,Ponzetto S P.WikiRelate! Computing semantic relatedness using Wikipedia[C]//AAAI.2006:1419-1424.
[9] Gabrilovich E,Markovitch S.Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C]//IJCAI.2007:1606-1611.
[10] Witten I,Milne D.An effective,low-cost measure of semantic relatedness obtained from Wikipedia links[C]//Proceedings of AAAI Workshop on Wikipedia and Artificial Intelligence:an Evolving Synergy,AAAI Press,Chicago,USA.2008:25-30.
[11] Cilibrasi R L,Vitanyi P M B.The google similarity distance[J].Knowledge and Data Engineering,IEEE Transactions on,2007,19(3):370-383.
[12] 孫琛琛,申德榮,單菁,等.WSR:一種基于維基百科結(jié)構(gòu)信息的語義關(guān)聯(lián)度計算算法[J].計算機學(xué)報,2012,35(11):2361-2370.
[13] 李赟,黃開妍,任福繼,等.維基百科的中文語義相關(guān)詞獲取及相關(guān)度分析計算[J].北京郵電大學(xué)學(xué)報,2009,32(3):109-112.
[14] Radinsky K,Agichtein E,Gabrilovich E,et al.A word at a time:computing word relatedness using temporal semantic analysis[C]//Proceedings of the 20th international conference on World wide web.ACM,2011:337-346.
[15] Huynh D,Tran D,Ma W.Combination Features for Semantic Similarity Measure[C]//Proceedings of the International MultiConference of Engineers and Computer Scientists,2014:324-327.
[16] Nakayama K,Hara T,Nishio S.Wikipedia mining for an association web thesaurus construction[M].Web Information Systems Engineering-WISE 2007.Springer Berlin Heidelberg,2007:322-334.
[17] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003:993-1022.
[18] Finkelstein L,Gabrilovich E,Matias Y,et al.Placing search in context:The concept revisited[C]//Proceedings of the 10th international conference on World Wide Web.ACM,2001:406-414.
A WIKIPEDIA-BASED LEXICAL SEMANTIC RELATEDNESS CALCULATION METHOD
Wang ZhiweiZhu FuxiLiu Shichao
(SchoolofComputer,WuhanUniversity,Wuhan430072,Hubei,China)
Calculating the semantic relatedness between words is one of the key issues of information retrieval and natural language processing, for this issue, we presented WGR, an improved semantic relatedness calculation method based on Wikipedia. The method uses Wikipedia dataset as the background knowledge base, integrates on the basis of traditional method the layout information in Wikipedia articles, and processes the backward link and forward link of Wiki concepts with different methods. Besides, it introduces the resources of Google search, after classification and sieving, it uses LDA modelling to calculate the semantic relatedness, and finally integrates the results from two datasets to get WGR semantic relatedness. Through experimental analysis, WGR achieves better accuracy in comparison with existing algorithms.
Semantic relatednessArticle referenced networkLayout informationWikipediaLatent Dirichlet allocation (LDA)Google
2014-07-07。國家自然科學(xué)基金項目(61272277)。汪志偉,碩士,主研領(lǐng)域:Web數(shù)據(jù)挖掘。朱福喜,教授。劉世超,博士。
TP391
A
10.3969/j.issn.1000-386x.2016.03.009
頁面布局信息可以使用正則表達式從維基中提取。例如,在維基
中,被兩個單引號、三個單引號包起來的分別渲染成黑體、斜體;附圖描述為‘[[Image: