劉松濤
LIU Song-tao
(吉林司法警官學(xué)院,長(zhǎng)春 130507)
科研人員在自己的研究領(lǐng)域就某些問題的研究總是要查閱和借鑒前人已有的研究成果以幫助自己在已有成果的基礎(chǔ)上繼續(xù)深入研究和創(chuàng)新,但隨著科學(xué)發(fā)展的不斷進(jìn)步科技文獻(xiàn)的數(shù)量日益龐大,如何從浩如煙海的文獻(xiàn)資料中檢索出自己關(guān)心的篇章是人們?nèi)找骊P(guān)心的話題。一篇完整的科學(xué)論文一般是由作者的正文部分和附于其后的被引文獻(xiàn)構(gòu)成,文獻(xiàn)與文獻(xiàn)之間建立起了一種引用和被引用的關(guān)系,一篇文獻(xiàn)也往往兼有引用和被引用兩種角色。我們從文獻(xiàn)的引用和被引用關(guān)系上能夠發(fā)現(xiàn)文獻(xiàn)間的相關(guān)性。這種相關(guān)性有強(qiáng)有弱。相關(guān)強(qiáng)度大的對(duì)于研究人員的參考價(jià)值就大。因此按照相關(guān)強(qiáng)度對(duì)引文進(jìn)行排序是合理的,有價(jià)值的。
本文將以一組科技文獻(xiàn)的引文系統(tǒng)中的文獻(xiàn)為研究對(duì)象探討按照相關(guān)強(qiáng)度對(duì)引文進(jìn)行排序的方法。我們會(huì)發(fā)現(xiàn)文獻(xiàn)間的相關(guān)性與文獻(xiàn)的被引用次數(shù)有著直接關(guān)系,我們可以以文獻(xiàn)的被引用次數(shù)來(lái)反映文獻(xiàn)間的相關(guān)強(qiáng)度并論述它的合理性。對(duì)學(xué)術(shù)期刊、文獻(xiàn)的引用和被引用現(xiàn)象進(jìn)行定量分析,以便揭示其數(shù)量特征和相互關(guān)系,彌補(bǔ)傳統(tǒng)文獻(xiàn)檢索方法的不足,具有良好的理論價(jià)值和應(yīng)用價(jià)值。
廣義的引文分析,要了解引文系統(tǒng)中引用文獻(xiàn)和被引文獻(xiàn)之間的關(guān)系,也就是要了解和掌握該系統(tǒng)的結(jié)構(gòu),一組同一領(lǐng)域的有相互引用關(guān)系的論文構(gòu)成的一個(gè)網(wǎng)絡(luò)圖,它們之間具有一定的結(jié)構(gòu),這個(gè)結(jié)構(gòu)能表述它們的相互作用關(guān)系和相關(guān)強(qiáng)度,可以勾勒出相關(guān)課題的來(lái)龍去脈。引文網(wǎng)絡(luò)圖可以用鏈、樹、網(wǎng)型三種結(jié)構(gòu)表達(dá)。令引文和被引文獻(xiàn)均為系統(tǒng)中的結(jié)點(diǎn),如果我們用來(lái)表示文獻(xiàn)間的引用關(guān)系,以箭頭指向?yàn)楸灰墨I(xiàn),而箭尾為引文(即文獻(xiàn))。
圖1的網(wǎng)狀結(jié)構(gòu)圖反映了一個(gè)不同于鏈、樹結(jié)構(gòu)的復(fù)雜體:
圖1 引文系統(tǒng)的網(wǎng)狀圖
文獻(xiàn)之間的引用關(guān)系十分的復(fù)雜,所以考慮采用網(wǎng)狀結(jié)構(gòu)表示。
根據(jù)圖論中路徑的相關(guān)定義,在此給出引文路徑的語(yǔ)義定義:如果文獻(xiàn)之間通過 n 次引文相聯(lián)系,那么它們之間所經(jīng)過的 n 次聯(lián)系所形成的引文鏈,稱為引文路徑。文獻(xiàn)之間的引文路徑不是唯一的 。例圖1中,文獻(xiàn)[1]到文獻(xiàn)[7]的引文 路徑有多條,其中一條由1到7,另一條由1到2再到7。
引文路徑長(zhǎng)度是指文獻(xiàn)之間形成的引文聯(lián)系的次數(shù),也就是引文路徑概念中 n 的值。如果 n=0,文獻(xiàn) A 與文獻(xiàn) B 之間沒有引文聯(lián)系;如果 n>0,則文獻(xiàn)A 與文獻(xiàn) B 之間形成了 n 次引用聯(lián)系。 圖1中,文獻(xiàn)2 與文獻(xiàn) 3 之間的引文路徑長(zhǎng)度為 0,文獻(xiàn) 1 到文獻(xiàn)7 之間的引文路徑長(zhǎng)度為 1或2。
引文路徑寬度是指具有引文聯(lián)系的兩篇文獻(xiàn)之間的引文路徑長(zhǎng)度相同的引文路徑的數(shù)量。 圖1中文獻(xiàn)1 到文獻(xiàn)7之間的引文路徑長(zhǎng)度為 2 的路徑有2 條,其中一條為由1、2、7所組成的引文路徑, 另一條為1、5、7所組成的引文路徑。
根據(jù)引文分析路徑模型的理論既通過引文路徑相聯(lián)系的文獻(xiàn)之間的相關(guān)性與其之間的引文路徑長(zhǎng)度成反比。與其之間的引文路徑總寬度成正比的理論。有如下公式:
其中:R代表文獻(xiàn)間的相關(guān)強(qiáng)度,n代表相關(guān)文獻(xiàn)間引文路徑的長(zhǎng)度,tn代表當(dāng)引文路徑長(zhǎng)度為n時(shí)兩個(gè)引文間的引文路徑寬度,K為常數(shù)。
我們以圖1為例,計(jì)算文獻(xiàn)1與其它文獻(xiàn)間的相關(guān)強(qiáng)度,假設(shè)K為常數(shù)1:
1與2間:R1-2=1*1/1=1;
1與3間:0;
1與4間:0:
1與5間:R1-5=1*1/1=1;
1與6間:R1-6=1*1/1=1;
1與7間:R1-7=1*(1+2/2+1/3)=7/3;
1與8間:R1-8=1*(0+1/2)=1/2;
根據(jù)上述結(jié)果我們按與文獻(xiàn)1的相關(guān)強(qiáng)度對(duì)文獻(xiàn)排序如下:
7,5,6,2,8,3,4
從圖中我們還可以看出按照各引文的被引頻次排序如下:
7,5,6,8,2,3,4
再比如文獻(xiàn)2與文獻(xiàn)7的相關(guān)強(qiáng)度為2,與文獻(xiàn)5的相關(guān)強(qiáng)度為1,與8的相關(guān)強(qiáng)度為1,其它為0。
文獻(xiàn)3與文獻(xiàn)7、6的相關(guān)強(qiáng)度都為1,其它為0。
文獻(xiàn)4與文獻(xiàn)7、5、6、8的相關(guān)強(qiáng)度都為1,其它為0。
從總體上來(lái)看我們能夠發(fā)現(xiàn)引文網(wǎng)絡(luò)圖中的某一文獻(xiàn)與其它文獻(xiàn)的相關(guān)度與它的被引用次數(shù)有著直接關(guān)系,當(dāng)文獻(xiàn)的被引用頻次較高時(shí)它與其它文獻(xiàn)的相關(guān)強(qiáng)度也大,反之當(dāng)文獻(xiàn)的被引用頻次較低時(shí)它與其它文獻(xiàn)的相關(guān)強(qiáng)度也較小。但根據(jù)引文路徑模型我們不但能夠檢索出與一篇文獻(xiàn)發(fā)生直接引用關(guān)系的引文還能檢索出間接引用關(guān)系的引文。因而利用引文路徑模型我們能夠得到與一篇文獻(xiàn)相關(guān)的引文系統(tǒng)。
由于某一文獻(xiàn)與其它文獻(xiàn)的相關(guān)度與它的被引用次數(shù)有著直接關(guān)系,我們可以用引文系統(tǒng)中文獻(xiàn)的被引頻次來(lái)反映此文獻(xiàn)與其它文獻(xiàn)的相關(guān)度,從而在一個(gè)引文系統(tǒng)中按照文獻(xiàn)的相關(guān)度把文獻(xiàn)排序的問題可以轉(zhuǎn)化為按文獻(xiàn)的被引用頻次的排序問題,使問題變得簡(jiǎn)化。
首先,引文網(wǎng)絡(luò)(citation network)作為一個(gè)系統(tǒng),它能夠反映各個(gè)要素相互之間存在的各種關(guān)系。引文關(guān)系特點(diǎn)就是(1)在時(shí)間上單向,(2)不能自引, (3)關(guān)系一旦形成不可更改三個(gè)限制。這都是在編程時(shí)應(yīng)該注意的。檢索論文后處理,先將論文格式轉(zhuǎn)化成txt文件,抽出網(wǎng)址-URL,頭部-Header,摘要-Abstract,介紹-Introduction,引文-Citations,正文-Full Text等信息,專門對(duì)Citations做解析工作,具體處理步驟不再贅述。
在得到檢索、格式處理后的論文txt文件后,將數(shù)據(jù)分解成兩個(gè)表導(dǎo)入SQL server數(shù)據(jù)庫(kù):表1 ( 論文序號(hào),論文名,引文數(shù)量 )屬性列,論文序號(hào)為此引文網(wǎng)絡(luò)中論文的一個(gè)編號(hào);表2 ( 引文序號(hào),作者,引文名稱,出處來(lái)源及所屬論文 )屬性列,所引論文表示的是此引文為表1中某一論文的引文。
利用Java 編程時(shí),借助JDBC與數(shù)據(jù)庫(kù)連接進(jìn)行操作。方法1:將數(shù)據(jù)庫(kù)表中數(shù)據(jù)讀出到Java程序數(shù)組中進(jìn)行字符串迭代匹配,得到論文引文排序; 方法2:Java程序中嵌入數(shù)據(jù)庫(kù) 結(jié)構(gòu)化查詢語(yǔ)句(struct query language) 直接進(jìn)行查詢。方法1在對(duì)空間或是時(shí)間上都代價(jià)較高,特別是在一個(gè)引文網(wǎng)絡(luò)中論文數(shù)量很大的情況下更加體現(xiàn)出效率低。與之相比較,方法2是在數(shù)據(jù)庫(kù)內(nèi)進(jìn)行一系列操作,sqlserver的存儲(chǔ)量大,查詢速度快,方便數(shù)據(jù)的傳輸?shù)葍?yōu)點(diǎn)便可以顯現(xiàn)。
對(duì)引文按被引次數(shù)進(jìn)行排序直接反映了文獻(xiàn)間的相關(guān)強(qiáng)度,迭代法排序的查詢速度不及數(shù)據(jù)庫(kù)查詢的方法。此結(jié)果是在引文系統(tǒng)只有10篇論文的請(qǐng)況下得到的,如果是大量論文的引文系統(tǒng)中可以判斷數(shù)據(jù)庫(kù)的優(yōu)越性會(huì)更顯著。此研究的目的是根據(jù)某一文獻(xiàn)找到相關(guān)的引文系統(tǒng)并根據(jù)與所給文獻(xiàn)的相關(guān)強(qiáng)度對(duì)引文進(jìn)行排序從而提供使用者查閱。由于時(shí)間有限,本人的能力有限,考慮得不是很周到。這些有待日后進(jìn)一步加工以使論文按引文排序方法更加完善。
[1]陳雪.引文分析路徑模型[J].情報(bào)探索,2009 (6).
[2]嚴(yán)蔚敏.數(shù)據(jù)結(jié)構(gòu)[M].清華大學(xué)出版社.2005.
[3]丁學(xué)東.文獻(xiàn)計(jì)量學(xué)基礎(chǔ)[M].北京大學(xué)出版社,298
[4]周云平.我國(guó)引文分析研究現(xiàn)狀與21世紀(jì)發(fā)展趨勢(shì)[J].圖書情報(bào)工作,2001(2).
[5]Ma Jun.Retrieving Digital Artifacts from Digital Libraries Semantically.LNCS.3644,Springer,2005,340-349.
[6]T.-Y.Liu,T.Qin,J.Xu,W.Xiong,and H.Li.LETOR. Benchmark dataset for research on learning to rank for information retrieval. In SIGIR Workshop on Learning to Rank for IR(LR4IR),2007.
[7]陳雪 鄭宏.基于路徑的引文分析研究初探[J].情報(bào)探索,2007(4).