陳衛(wèi)玲 袁乖寧 王華
【摘 要】CSLN 是引文語義鏈網(wǎng)絡(luò)。傳統(tǒng)相似度計算不能準確的測量CSLN中引文間的相似性。本文在對引文的特征進行分析后,提出了引文相似性測量模型,該模型能夠提高引文相似性測量的準確性。
【關(guān)鍵詞】引文;CSLN;相似性
1.引言
引文網(wǎng)絡(luò)是指被引文獻與引用文獻之間因引用關(guān)系而形成的一種網(wǎng)絡(luò)。語義鏈網(wǎng)絡(luò)(SLN)是一個用于管理Web資源的語義數(shù)據(jù)模型[1]。一個典型的語義鏈網(wǎng)絡(luò)包含語義節(jié)點,語義鏈以及語義鏈推理規(guī)則。其中,語義節(jié)點可以是任意類型的資源、抽象概念或者是另外一個語義鏈網(wǎng)絡(luò)。語義鏈是對超鏈接的擴展,并為之添加語義關(guān)系。語義鏈繼承了超鏈接的易用性,使之具有推理能力,并且具有語義自組織性:任意節(jié)點可以連接到其他語義相關(guān)的節(jié)點。利用語義鏈推理規(guī)則可以推導(dǎo)出更多的語義鏈[2]。
在這篇文章中,我們首先介紹了傳統(tǒng)相似度計算模型,接著對引文的特征進行深入的分析后,最后提出引文相似性測量模型,該模型能夠提高引文相似性測量的準確性。
2.傳統(tǒng)相似度計算模型
當我們進行引文相似度計算時,最常用的方法是采用數(shù)學(xué)工具把引文表示成一個數(shù)學(xué)模型,然后在這個模型上進行引文相似度運算。傳統(tǒng)的相似度計算模型有向量空間模型和集合運算模型等。
2. 1向量空間模型
向量空間模型VSM是六十年代末由Salton等人提出來的。VSM是一種代數(shù)的模型,目前已經(jīng)被廣泛的應(yīng)用于信息檢索等領(lǐng)域而且已經(jīng)取得了很好的效果。VSM的表示方法是它最與眾不同的優(yōu)點,VSM是通過把文本以向量的形式定義到實數(shù)域來對自然語言的文本進行表示。這種對自然語言文本的表示方法極大的提高了文本的可操作性和可計算性。而模式識別和其它領(lǐng)域中的計算方法也采用了VSM這種對文本的表示方法[3]。
向量空間模型VSM的基本思想是:我們用向量來表示文檔,并且假設(shè)詞與詞之間是不相關(guān)的,這樣就可以簡化文檔中關(guān)鍵詞之間的復(fù)雜關(guān)系,從而使得向量空間模型VSM具備了可計算性。而在向量空間模型VSM中,把文檔看成是由相互獨立的詞條組 (T1,T2,T3,……,Tn) 所構(gòu)成,并且對于每一個詞條Ti根據(jù)這個詞條在文檔中的重要程度賦以該詞條一定的權(quán)值Wi。如果將這些相互獨立的詞條組(T1,T2,T3,……,Tn)看作是一個n維坐標系中的坐標軸,那么這些詞條的權(quán)重(W1 ,W2,W3,……,Wn)就這些坐標軸所對應(yīng)的坐標值。所以由這些詞條組(T1,T2,T3,……,Tn) 分解得到的正交詞條矢量組就構(gòu)成了一個文檔向量空間。
2. 2集合運算模型
3.引文相似性測量模型
一篇引文是由標題、關(guān)鍵字、正文等多個部分組成。因為引文的各個部分的重要程度不一樣,所以在計算兩個引文之間的相似性時我們應(yīng)當把引文的各個部分分開當作多個對象來分析,而不能把一篇引文當作一個對象來分析。例如,引文的正文部分有大量的文字而且關(guān)鍵詞很分散,所以我們應(yīng)當采用統(tǒng)計詞頻的方法來計算兩個引文之間的相似程度。而對于標題和關(guān)鍵字,因為關(guān)鍵字是整個文章中非常重要的一部分,所占權(quán)重也非常大,因此這一部分我們必須要重點考慮。所以我們在計算引文相似性時應(yīng)該對關(guān)鍵字這一部分進行單獨處理。
通過上述分析,本文提出了引文相似性測量模型,我們首先把一篇引文的各個部分分開來進行相似性測量,然后再把各個部分綜合起來以此來計算兩篇引文之間的相似性。
4.總結(jié)
計算兩個引文之間的相似性有多種方法,因為CSLN中的引文是許多對象的集合。單個對象的相似度計算顯然不能準確的測量引文間的相似性。因此,有必要針對引文的不同部分使用不同的相似度計算方法。本文首先介紹了傳統(tǒng)相似度計算模型,然后在對引文各部分的特點進行深入分析后,提出了引文相似性測量模型,該模型能夠提高引文相似性測量的準確性。
參考文獻:
[1]H. Zhuge, Y. Sun, and J. Zhang, “Schema theory for semantic link network,” in Proc. Fourth Int. Conf. Semantics, Knowledge and Grid SKG 08, 2008, pp. 189-196.
[2]H. Zhuge, “Communities and emerging semantics in semantic link network: Discovery and learning,” IEEE Trans. Knowl. Data Eng., vol. 21, no. 6, pp. 785-799, 2009.
[3]侯海燕. 基于知識圖譜的科學(xué)計量學(xué)進展研究[博士學(xué)位論文].大連:大連理工大學(xué),2006.