郭紅梅,袁國(guó)華,胡正銀
(1. 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2. 中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041)
基于概念向量的文本語(yǔ)義相似度方法探索*
郭紅梅1,袁國(guó)華1,胡正銀2
(1. 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2. 中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041)
在對(duì)概念語(yǔ)義相似度方法調(diào)研的基礎(chǔ)上,本文提出基于概念向量的文本語(yǔ)義相似度測(cè)度方法,借助MetaMap工具抽取文本中的概念術(shù)語(yǔ),將概念術(shù)語(yǔ)通過(guò)詞表層級(jí)結(jié)構(gòu)轉(zhuǎn)化為概念向量,通過(guò)計(jì)算兩文本中概念向量的語(yǔ)義相似度來(lái)測(cè)度兩文本的語(yǔ)義相似度。為驗(yàn)證基于概念向量文本語(yǔ)義相似度方法的準(zhǔn)確性,選取TREC-05 genomics track數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的方法較常用的余弦方法更優(yōu),與專家評(píng)估方法更接近,在測(cè)度文本語(yǔ)義相似度上具有一定的可行性和有效性。
概念向量;語(yǔ)義相似度;文本相似度
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,出版商將科技文獻(xiàn)加工成可供用戶查閱的PDF或HTML格式,并發(fā)布在Web上,這種電子化形式極大地提高了文本時(shí)效性[1],但同時(shí)增加了用戶從海量資源中快速準(zhǔn)確查找所需知識(shí)內(nèi)容的難度。科技文獻(xiàn)間除書目信息的關(guān)聯(lián)外,還存在豐富的語(yǔ)義知識(shí)關(guān)聯(lián)[2],但目前由于缺乏對(duì)科技文獻(xiàn)完整的語(yǔ)義標(biāo)注及文本內(nèi)容相似度的準(zhǔn)確測(cè)度,讀者很難在短時(shí)間內(nèi)把握科技文獻(xiàn)發(fā)展脈絡(luò)及知識(shí)內(nèi)容關(guān)聯(lián)[3]。如何測(cè)度文本間語(yǔ)義相似度,輔助用戶對(duì)科技文獻(xiàn)間內(nèi)容關(guān)聯(lián)的挖掘,同時(shí)提高檢索系統(tǒng)效率,一直是文本挖掘研究中的重要問(wèn)題。
目前衡量?jī)善谋鞠嗨贫却蠖嗷诟拍羁臻g向量模型,將文本轉(zhuǎn)換為詞匯包,卻未考慮概念的語(yǔ)境信息和語(yǔ)義層級(jí)關(guān)聯(lián)[4-5]。不少學(xué)者基于網(wǎng)頁(yè)查詢結(jié)果測(cè)度概念間語(yǔ)義相似度,如Li等提出非線性測(cè)度模型,融合了結(jié)構(gòu)語(yǔ)義信息和信息概念[6];Cilibrasi等利用搜索引擎檢索頁(yè)面數(shù)量測(cè)度兩個(gè)概念的距離,但未考慮同音異義情況,因此,對(duì)于不依賴層級(jí)分類詞表的概念,實(shí)施效果不佳[7];Sahami等通過(guò)搜索引擎返回的詞片段測(cè)度兩個(gè)查詢術(shù)語(yǔ)間的語(yǔ)義相似度,特征向量是利用詞片段中2 000個(gè)句法模式頻次形成的,并考慮到4個(gè)指標(biāo)(dice相關(guān)系數(shù)、重疊相關(guān)系數(shù)、jaccard系數(shù)和逐點(diǎn)相互信息)[8];Bollegala等通過(guò)網(wǎng)頁(yè)中兩個(gè)概念的關(guān)聯(lián)頁(yè)面數(shù),測(cè)度兩個(gè)概念或?qū)嶓w的語(yǔ)義相似度[9-10];Pilehvar等將文本表示為圖結(jié)構(gòu),從文獻(xiàn)、詞、段落三個(gè)層級(jí)分析文本間語(yǔ)義相似度[11]。但這些方法僅是基于定量指標(biāo)來(lái)測(cè)度概念的距離相似度,并未考慮概念在詞表中的語(yǔ)義相關(guān)性及領(lǐng)域信息。也有學(xué)者提出依照詞表中概念層級(jí)結(jié)構(gòu)測(cè)度概念間的語(yǔ)義相似度,Zhou等開(kāi)發(fā)MeSHSim R語(yǔ)言包,具體包括5種基于路徑的測(cè)度方法和5種基于信息內(nèi)容的測(cè)度方法[12];Yang等基于WordNet中概念的層級(jí)位置來(lái)測(cè)度概念間語(yǔ)義相似度[13];Lin等基于MeSH詞表概念間的層級(jí)語(yǔ)義關(guān)系,提出文本主題相似度測(cè)度定量指標(biāo)[14];Bhattacharjee等提出基于概念層級(jí)的概念語(yǔ)義相似度測(cè)度方法[15]。以上研究?jī)H是探索基于概念層級(jí)來(lái)測(cè)度概念語(yǔ)義相似度,并沒(méi)有將概念語(yǔ)義相似度方法擴(kuò)展應(yīng)用在文本內(nèi)容的語(yǔ)義測(cè)度中。
在借鑒已有學(xué)者研究的基礎(chǔ)上,本文提出一種基于領(lǐng)域詞表的概念向量語(yǔ)義相似度方法,并將基于概念層級(jí)的語(yǔ)義相似度方法應(yīng)用在文本語(yǔ)義相似度測(cè)度中。本文首先基于領(lǐng)域詞表將概念間層級(jí)關(guān)系表示為概念向量,然后基于概念向量算法計(jì)算概念間的語(yǔ)義相似度,進(jìn)一步依據(jù)兩文本中所抽取術(shù)語(yǔ)概念的語(yǔ)義相似度來(lái)測(cè)度兩文本的語(yǔ)義相似度。醫(yī)學(xué)領(lǐng)域有較成熟的MeSH詞表,詞表中疾病、藥物、基因序列、蛋白質(zhì)等概念間存在豐富的語(yǔ)義關(guān)聯(lián),同時(shí)該領(lǐng)域已有完善的術(shù)語(yǔ)和語(yǔ)義關(guān)系抽取工具和算法,因此,本文選取醫(yī)學(xué)領(lǐng)域數(shù)據(jù)進(jìn)行實(shí)驗(yàn),以客觀準(zhǔn)確測(cè)度基于概念向量的文本語(yǔ)義相似度方法的有效性和可行性。
2.1 概念層級(jí)的向量表示
概念向量由概念層級(jí)關(guān)系得到,概念層級(jí)由領(lǐng)域中概念間的隸屬關(guān)系形成。本文提出利用向量表示概念間層級(jí)關(guān)系,具體過(guò)程如圖1和圖2所示。對(duì)于概念層級(jí)中的概念C,其對(duì)應(yīng)的概念向量為,表示為,其中N為概念的名稱,S為概念的同義詞集為概念的層級(jí)向量,這樣每個(gè)概念都可以表示為的形式,其中m為同義詞的個(gè)數(shù),l為層級(jí)頂端到概念的個(gè)數(shù)。通過(guò)將概念層級(jí)中的每個(gè)概念轉(zhuǎn)為概念向量,這樣概念層級(jí)也轉(zhuǎn)化為概念向量層級(jí)。概念向量不僅可以清晰反映概念間的層級(jí)隸屬關(guān)系,還可通過(guò)概念向量中相同和相異層級(jí)的個(gè)數(shù)直觀揭示兩個(gè)概念的語(yǔ)義相似性。
圖1 概念的向量表示——概念層級(jí)
圖2 概念的向量表示——概念向量
2.2 基于概念向量的語(yǔ)義相似度測(cè)度方法
2.2.1 概念語(yǔ)義相似度
概念向量中明確給出概念間的層級(jí)語(yǔ)義關(guān)系,基于概念向量的表示結(jié)構(gòu)可知,兩個(gè)概念的語(yǔ)義相似度可通過(guò)其概念向量層級(jí)中相同和相異概念數(shù)來(lái)測(cè)度,將其稱為概念向量的語(yǔ)義同質(zhì)性(semantic homogeneity)和語(yǔ)義異質(zhì)性(semantic heterogeneity)。語(yǔ)義同質(zhì)性通過(guò)兩個(gè)概念向量層級(jí)中相同的概念來(lái)表征,語(yǔ)義異質(zhì)性通過(guò)兩個(gè)概念向量層級(jí)中不相同的概念來(lái)表征,文中將概念向量語(yǔ)義同質(zhì)性和語(yǔ)義異質(zhì)性的差值作為測(cè)度概念語(yǔ)義相似度(concept similarity)的標(biāo)準(zhǔn),如對(duì)于概念C1和C2,其語(yǔ)義同質(zhì)性、語(yǔ)義異質(zhì)性、概念語(yǔ)義相似度計(jì)算方法具體如下。
其中,n1為C1概念向量中包含的概念數(shù),n2為C2概念向量中包含的概念數(shù),j為C1和C2概念向量中相匹配的概念數(shù)。當(dāng)C1和C2為近義詞時(shí),二者的語(yǔ)義同質(zhì)性為1,語(yǔ)義異質(zhì)性為0,從而進(jìn)一步計(jì)算出C1和C2間的概念語(yǔ)義相似度為1。
2.2.2 文本語(yǔ)義相似度
文本由一系列概念術(shù)語(yǔ)通過(guò)一定的邏輯關(guān)系組成,本文將基于向量的概念語(yǔ)義相似度測(cè)度方法擴(kuò)展至文本語(yǔ)義相似度測(cè)度,一般認(rèn)為兩篇文章含有的術(shù)語(yǔ)概念向量語(yǔ)義相似度越大,這兩篇文章的內(nèi)容相關(guān)性越強(qiáng),語(yǔ)義關(guān)聯(lián)也越強(qiáng)。因此,本文提出通過(guò)構(gòu)建文本的概念向量語(yǔ)義相似度來(lái)測(cè)度文本語(yǔ)義相似度的方法。為減少低頻術(shù)語(yǔ)和文本長(zhǎng)度對(duì)文本語(yǔ)義相似度測(cè)量結(jié)果的影響,按照布拉德福分布定律選取前半部分的高頻術(shù)語(yǔ)作為文本內(nèi)容的表征,進(jìn)而分別計(jì)算兩篇文章中高頻術(shù)語(yǔ)間的語(yǔ)義相似度,所有高頻術(shù)語(yǔ)語(yǔ)義相似度的均值即為兩個(gè)文本的語(yǔ)義相似度,具體計(jì)算見(jiàn)公式(4)。
其中,m為文本1包含的概念術(shù)語(yǔ)數(shù),n為文本2包含的概念術(shù)語(yǔ)數(shù),ci為文本1中的概念術(shù)語(yǔ),cj為文本2中的概念術(shù)語(yǔ)。下文將以具體實(shí)驗(yàn)數(shù)據(jù)來(lái)驗(yàn)證該指標(biāo)用于文本語(yǔ)義相似度測(cè)度的有效性和科學(xué)性。
本文將重點(diǎn)對(duì)提出的基于概念向量的概念語(yǔ)義相似度方法和文本語(yǔ)義相似度方法進(jìn)行實(shí)驗(yàn)論證。對(duì)基于概念向量的概念語(yǔ)義相似度測(cè)度方法,選取WordNet中的28個(gè)概念對(duì)作為實(shí)驗(yàn)數(shù)據(jù),對(duì)基于概念向量的文本語(yǔ)義相似度測(cè)度方法,選取TREC-05 genomics track數(shù)據(jù)進(jìn)行實(shí)驗(yàn),驗(yàn)證方法的有效性和可行性。
3.1 數(shù)據(jù)集的構(gòu)建
以往學(xué)者基于領(lǐng)域詞典進(jìn)行概念語(yǔ)義相似度測(cè)度研究大多選取WordNet中的28個(gè)概念對(duì)進(jìn)行實(shí)驗(yàn)[16],為更好地與以往研究進(jìn)行對(duì)比,仍選取這28個(gè)概念對(duì),分別計(jì)算概念對(duì)中兩個(gè)概念間的語(yǔ)義相似度,以驗(yàn)證概念語(yǔ)義相似度測(cè)度方法的有效性。
為驗(yàn)證本文提出的基于概念向量的文本語(yǔ)義相似度計(jì)算方法的有效性,選取TREC-05 genomics track數(shù)據(jù)進(jìn)行實(shí)驗(yàn),其共包含PubMed數(shù)據(jù)庫(kù)的34 633篇文獻(xiàn),這些文獻(xiàn)被分為5個(gè)研究領(lǐng)域,分別為進(jìn)行某項(xiàng)實(shí)驗(yàn)或過(guò)程的標(biāo)準(zhǔn)方法或協(xié)議、在某種疾病中基因的作用、在特定生物過(guò)程中基因的作用、在某種疾病或器官功能中兩個(gè)或更多基因間的交互作用、特定基因變異和其生物效應(yīng)和作用,此外,每個(gè)研究領(lǐng)域又分為10個(gè)主題。領(lǐng)域?qū)<一蛟u(píng)估人員分別對(duì)50個(gè)主題中的每篇文章與該子主題的相關(guān)性進(jìn)行打分(0—2分),0分表示不相關(guān),1分表示部分相關(guān),2分表示非常相關(guān),共有4 232篇文獻(xiàn)相關(guān)性分值為1分或2分。選取相關(guān)性論文數(shù)大于100篇的11個(gè)主題的文獻(xiàn)構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,具體如表1所示。
表1 11個(gè)主題數(shù)據(jù)基本情況
3.2 實(shí)驗(yàn)過(guò)程
MetaMap是美國(guó)國(guó)立醫(yī)學(xué)圖書館基于一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,UMLS)開(kāi)發(fā)的句法解析工具,可根據(jù)語(yǔ)義將句子拆分成若干具有意義的短語(yǔ)片段,并進(jìn)一步將短語(yǔ)中的詞或詞組與UMLS詞表進(jìn)行映射,獲取各術(shù)語(yǔ)的概念向量。實(shí)驗(yàn)首先利用醫(yī)學(xué)領(lǐng)域術(shù)語(yǔ)抽取工具M(jìn)etaMap對(duì)4 232篇實(shí)驗(yàn)數(shù)據(jù)進(jìn)行術(shù)語(yǔ)識(shí)別,并將抽取到的前半部分高頻術(shù)語(yǔ)與MeSH詞表中的概念和層級(jí)結(jié)構(gòu)進(jìn)行映射;其次,按照上述概念層級(jí)的向量表示將每篇文章中抽取出的高頻概念術(shù)語(yǔ)轉(zhuǎn)化為概念向量表示,這樣每篇文章即可利用高頻的術(shù)語(yǔ)概念向量表示;最后,按照概念語(yǔ)義相似度和文本語(yǔ)義相似度的計(jì)算方法分別得出概念語(yǔ)義相似度和文本語(yǔ)義相似度值。
在方法的有效性驗(yàn)證方面,針對(duì)概念語(yǔ)義相似度方法,選取以往研究的28個(gè)概念對(duì),對(duì)比文中方法和以往較具有代表性的概念相似度測(cè)度方法,通過(guò)Person和Spearman相關(guān)分析來(lái)驗(yàn)證文中方法的有效性;針對(duì)文本語(yǔ)義相似度測(cè)度方法,將TREC-05 genomics track人工標(biāo)注結(jié)果和余弦相似度測(cè)度方法進(jìn)行對(duì)比,分別驗(yàn)證概念語(yǔ)義相似度方法和文本語(yǔ)義相似度方法的有效性和可行性。具體實(shí)驗(yàn)過(guò)程如圖3所示。
圖3 實(shí)驗(yàn)過(guò)程
3.3 實(shí)驗(yàn)結(jié)果分析
表2中28個(gè)概念對(duì)通過(guò)本文方法和以往具有代表性的概念相似度計(jì)算方法PMI[8]、Support Vector Machine-Based Approach(SVM)[8]、Relational Model Based Similarity Measurement Approach(RMSS)[9]、Co-occurrence Double Checking Model(CODC)[10]的相似度分值,表3給出5種方法的Person和Spearman相關(guān)性檢驗(yàn),從不同測(cè)度方法在28個(gè)概念對(duì)相似度的Person和Spearman相關(guān)系數(shù)可以看出,基于概念向量的文本語(yǔ)義相似度方法高于其他指標(biāo),且兼顧概念語(yǔ)境和領(lǐng)域信息,能更好地測(cè)度概念間的語(yǔ)義相似度。
利用MetaMap術(shù)語(yǔ)抽取工具分別對(duì)實(shí)驗(yàn)集中的4 232篇文章進(jìn)行標(biāo)題和摘要中概念術(shù)語(yǔ)抽取。由于抽取概念術(shù)語(yǔ)的個(gè)數(shù)與文本長(zhǎng)度有關(guān),一般認(rèn)為文本越長(zhǎng)抽取到的術(shù)語(yǔ)概念越多。由公式(2)可知,基于概念向量的文本語(yǔ)義相似度方法與抽取概念術(shù)語(yǔ)個(gè)數(shù)相關(guān),為減少低頻術(shù)語(yǔ)和文本長(zhǎng)度對(duì)文本語(yǔ)義相似度測(cè)量結(jié)果的影響,本文按照布拉德福分布定律對(duì)每篇文章前半部分的高頻術(shù)語(yǔ)進(jìn)行語(yǔ)義相似度分析。
結(jié)合公式(3)和每篇文章抽取的前半部分高頻術(shù)語(yǔ)分別計(jì)算每個(gè)主題下兩個(gè)文本間的語(yǔ)義相似度。語(yǔ)義相似度越大認(rèn)為兩篇文章的研究?jī)?nèi)容越相似,一般可認(rèn)為在同一個(gè)主題中語(yǔ)義相似度越大的文本集與該主題越相關(guān),因此將每個(gè)主題中語(yǔ)義相似度大于均值的文本集等同于TREC-05 genomics track系統(tǒng)中相關(guān)度分值為1分或2分的文本。從11個(gè)主題中抽取的高頻術(shù)語(yǔ)數(shù)、平均語(yǔ)義相似度和相似文本數(shù),由表4中數(shù)據(jù)可知,有8個(gè)主題通過(guò)基于概念向量方法得到的相關(guān)論文數(shù)大于TREC-05 genomics track系統(tǒng)中專家標(biāo)注相關(guān)論文數(shù)。
由表5可見(jiàn),本文方法與余弦方法或TREC-05genomics track系統(tǒng)人工標(biāo)注結(jié)果的對(duì)比信息可知,在11個(gè)主題中,基于概念向量語(yǔ)義相似度方法識(shí)別出的相關(guān)論文數(shù)有9個(gè)主題小于余弦方法,但是與專家匹配論文數(shù)均高于余弦方法。
表2 本文方法與其他四種方法概念對(duì)語(yǔ)義相似度分值
表3 本文方法與其他語(yǔ)義相似度測(cè)度方法的相關(guān)性檢驗(yàn)
由表6中數(shù)據(jù)可知,基于概念方法的準(zhǔn)確率和召回率均高于余弦方法。同一主題的論文具有相同關(guān)鍵詞,余弦方法只把術(shù)語(yǔ)表示為特征向量,基于文檔分布分析文本的相似度,沒(méi)有考慮術(shù)語(yǔ)自身的語(yǔ)義關(guān)聯(lián),因此很容易錯(cuò)誤地將更多具有相同關(guān)鍵詞的文本判斷為一個(gè)主題?;诟拍钕蛄康姆椒骖櫺g(shù)語(yǔ)的語(yǔ)義層級(jí)關(guān)聯(lián),在語(yǔ)義相似度對(duì)比上更合理。層級(jí)結(jié)構(gòu)中包含一定的語(yǔ)義和語(yǔ)境,明確語(yǔ)境信息的重要性,通過(guò)實(shí)驗(yàn)證明該方法的合理性和有效性。
表4 基于概念向量語(yǔ)義相似度方法實(shí)驗(yàn)結(jié)果
表5 基于概念向量語(yǔ)義相似度方法與余弦方法相關(guān)論文集判斷結(jié)果篇
已有學(xué)者嘗試基于詞表中的概念層級(jí)測(cè)度概念間的語(yǔ)義相似度,但大多局限于對(duì)詞表概念間測(cè)度方法的理論研究,并沒(méi)有將基于概念層級(jí)的測(cè)度方法應(yīng)用在文本相似度分析或文獻(xiàn)檢索系統(tǒng)中。本文嘗試將概念層級(jí)轉(zhuǎn)化為概念向量,并將概念向量語(yǔ)義相似度方法擴(kuò)展到文本間語(yǔ)義相似度測(cè)度研究中,通過(guò)實(shí)驗(yàn)驗(yàn)證該思路和方法的合理性和有效性,具體體現(xiàn)在以下兩點(diǎn)。
表6 基于概念向量語(yǔ)義相似度方法與余弦方法實(shí)驗(yàn)結(jié)果的對(duì)比%
(1)文本由許多具有語(yǔ)義信息的概念術(shù)語(yǔ)按照一定的邏輯關(guān)系構(gòu)成。基于概念向量的文本語(yǔ)義相似度測(cè)度方法在計(jì)算兩個(gè)文本的相似度時(shí),除考慮相同或相似概念術(shù)語(yǔ)數(shù)外,還兼顧概念術(shù)語(yǔ)在詞表層級(jí)結(jié)構(gòu)上存在的邏輯和語(yǔ)義關(guān)系,符合文本構(gòu)成規(guī)律,利用該方法測(cè)度文本間的語(yǔ)義相似度具有一定的科學(xué)性和合理性。
(2)文中方法具有一定的可行性。目前很多詞表已提出適合自身的概念語(yǔ)義相似度測(cè)度方法,并且提供相應(yīng)算法,這為基于概念語(yǔ)義相似性測(cè)度文本語(yǔ)義相似度提供了理論和底層數(shù)據(jù)支持。此外,文中實(shí)驗(yàn)數(shù)據(jù)也證明該方法較以余弦為代表的特征向量方法效果更優(yōu)。
基于概念向量的文本語(yǔ)義相似度方法在概念術(shù)語(yǔ)集的構(gòu)建和語(yǔ)義相似度閾值的選取上仍有待進(jìn)一步優(yōu)化。目前,按照布拉德福分布定律選取前半部分的高頻術(shù)語(yǔ)進(jìn)行語(yǔ)義相似度分析,造成一些低頻概念術(shù)語(yǔ)信息的丟失。在篩選每個(gè)主題下的相關(guān)文本時(shí),僅選取集合內(nèi)的均值作為閾值,未來(lái)研究將考慮通過(guò)一定量的訓(xùn)練集來(lái)設(shè)定相似度閾值。此外,由于語(yǔ)義相似度越大的兩個(gè)文本在內(nèi)容上越相關(guān),研究主題越相似,因此未來(lái)也可進(jìn)一步探索將基于概念向量的文本語(yǔ)義相似度方法應(yīng)用在聚類或文本語(yǔ)義網(wǎng)絡(luò)分析中,以實(shí)現(xiàn)對(duì)內(nèi)容相似文本的聚類分析或重要主題識(shí)別。
參考文獻(xiàn)
[1]CASTRO L J G,BERLANGA R,GARCIA A.In the pursuit of a semantic similarity metric based on UMLS annotations for articles in PubMed central open access[J].Journal of Biomedical Informatics,2015,57(C):204-218.
[2]D’HONDT J,VERHAEGENP A,VERTOMMEN J,et al.Topic identification based on document coherence and spectral analysis[J].Information Sciences,2011,181(18):3783-3797.
[3]MEZA B A.Searching and ranking documents based on semantic relationships[C].International Conference on Data Engineering,2006.
[4]HLIAOUTAKIS A,VARELAS G,VOUTSAKIS E,et al.Information retrieval by semantic similarity[J].International Journal on Semantic Web and Information Systems,2006,2(3):55-73.
[5]RYANG W, BERNARDH R.Techniques to identify themes[J].Field Methods,2003,15(1):85-109.
[6]LI Y,BANDAR Z A,MCLEAN D.An approach for measuring semantic similarity between words using multiple information sources[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(4):871-882.
[7]CILIBRASI R L,VITANYI P M B.The Google similarity distance[J].IEEE Educational Activities Department,2007,19(3):370-383.
[8]SAHAMI M,HEILMAN T D.A web-based kernel function for measuring the similarity of shorttext snippets[C]//Proceedings of the 15th International Conference on World Wide Web.[S.1.]:[s.n],2006:377-386.
[9]BOLLEGALA D,ISHIZUKA M,MATSUO Y.Measuring semantic similarity between words using web search engines[J].Computer Science,2015:757-766.
[10]CHEN H,LIN M,WEI Y,et al.Novel association measures using web search with double checking[C]//International Conference on Computational Linguistics.[S.1.]:[s.n],2006:1009-1016.
[11]PILEHVAR M T,NAVIGLI R.From senses to texts:an all-in-one graph-based approach for measuring semantic similarity[J].Artificial Intelligence,2015,228:95-128.
[12]ZHOU J,SHUI Y,PENG S,et al.MeSHSim:an R/Bioconductor package for measuring semantic similarity over MeSH headings and MEDLINE documents[J].Journal of Bioinformatics and Computational Biology,2015,13(6):1542002.
[13]YANG D,POWERS D M W.Measuring semantic similarity in the taxonomy of WordNet[J].Journal of Structural Biology, 2007,159(1):36-45.
[14]LIN J,WILBUR W J.PubMed related articles: a probabilistic topic-based model for content similarity[J].BMC Bioinformatics,2007,8(1):1-14.
[15]BHATTACHARJEE S,GHOSH S K.Measurement of semantic similarity: a concept hierarchy based approach[C]//Proceedings of 3rd International Conferenceon Advanced Computing, Networking and Informatics,Smart Innovation,Systems and Technologies.[S.1.]:Springer India,2016:407-418.
[16]MILLER G A.WordNet:a lexical database for English[J].Communications of the ACM,1995,38(11):39-41.
Measurement of Text Semantic Similarity on the Basis of Concept Vector
GUO HongMei1, YUAN GuoHua1, HU ZhengYin2
(1. National Science Library, Chinese Academy of Sciences, Beijing 100190, China;2. Chengdu Documentation and Information Center, Chinese Academy of Sciences, Chengdu 610041, China)
Based on the previous studies on the concept semantic similarity, this paper proposed measurement of text semantic similarity on the basis of concept vector. First, mining the concepts or terms from the texts. Second, transforming concepts or terms into concept vector followed by hierarchical structure of vocabulary.At last, measuring the sematic similarity of concepts or terms and further measuring the text semantic similarity. The paper used TREC-05 genomics track data to experiment. The results showed that the method of text semantic similarity on the basis of concept vector was better than cosine, which was more closely to expert evaluation result.
Concept Vector; Semantic Similarity; Text Similarity
G254
10.3772/j.issn.1673-2286.2017.06.006
郭紅梅,女,1985年生,博士,館員,研究方向:文本挖掘、科學(xué)計(jì)量分析,E-mail:guohm@mail.las.ac.cn。
袁國(guó)華,男,1983年生,博士研究生,工程師,研究方向:文本挖掘、網(wǎng)絡(luò)與信息安全。
胡正銀,男,1979年生,博士,副研究員,研究方向:文本挖掘、語(yǔ)義分析。
2017-05-08)
* 本研究得到ISTIC-EBSCO文獻(xiàn)大數(shù)據(jù)發(fā)現(xiàn)服務(wù)聯(lián)合實(shí)驗(yàn)室基金項(xiàng)目“基于clique子團(tuán)聚類的文本主題識(shí)別方法研究”資助。