,,
圖書評價研究一直是圖書情報界和出版界關心的問題。與期刊相比,尤其是中文圖書,由于圖書出版情況復雜,缺乏信息收錄全面、數據整合規(guī)范的圖書數據庫,所以很難對圖書影響力進行量化研究。
眾多研究者認為,學術論文的被引頻次越多,說明其學術價值越高[1]。影響因子、H指數等指標,均以學術論文的被引頻次為基礎對其進行評價研究,但影響因子、H指數等指標存在只考慮引用數量而不考慮引用質量的弊端,在很大程度上反映的是期刊或圖書的流行程度,還不能完全反映其權威性。
1998年,Sergey Brin和Lawrence Page提出了PageRank算法。該算法基于“從許多優(yōu)質的網頁鏈接過來的網頁,必定還是優(yōu)質網頁”的回歸關系判定網頁的重要性[2]。PageRank算法同時考慮入鏈網頁的數量和質量,彌補了被引頻次、影響因子、H指數等指標只重數量未涉及質量的弊端。
目前,已有研究者將PageRank算法應用于期刊、論文及作者的評價中。Bollen J, Rodriguez MA 與Van de Sompel H(2006)應用PageRank算法,基于ISI的引文數據,對期刊的學術影響力進行評價及排序[3]。
柳泉波(2008)提出基于時間因素加權的PageRank算法,用于科技文獻的排序評價,從一定程度上消除了時間因素對評價結果的不利影響[4]。
蘇成、潘云濤等構建了適用于期刊引用網絡的PageRank算法,與HITS算法、影響因子在期刊排名方面進行了對比研究,提出了在PageRank算法基礎上修改優(yōu)化而成的新的期刊排序算法PrestigeRank算法,從而解決了期刊引用網絡缺失嚴重的問題[5-7]。
孫海生(2011)在引用認同概念的基礎上,把PageRank算法應用于科研人員的學術評價,提出了AuthorRank算法[8]。
由于圖書引用與期刊引用、網頁鏈接等本質上是相同的,引用網絡及鏈接網絡均可以看作為一個有向圖,圖中的每個節(jié)點代表圖書、論文或網頁,節(jié)點間的連線代表圖書、論文之間的引用關系或網頁之間的鏈接關系。所以我們認為借鑒PageRank算法,構建圖書-論文引用網絡,進而評價圖書的學術影響力在理論上是可行的。
本文將應用于網絡鏈接分析的PageRank算法引入圖書評價,以基礎醫(yī)學領域的圖書為對象,聯(lián)合萬方數據知識服務平臺的論文數據庫,利用SQL Server建立圖書-圖書、圖書-其他類型文獻的引文數據庫,得到完整的圖書和論文的引用網絡圖,通過圖書在網絡中的位置評價圖書的學術影響力。
檢索萬方數據知識服務平臺2004-2013年6 000余種學術期刊的引用數據,參照《中國圖書館分類法》(第四版),從中選取基礎醫(yī)學領域圖書,并對其引用頻次進行排名。挑選排名靠前的100本基礎醫(yī)學領域優(yōu)秀圖書的CIP數據信息及引文信息進行整理。利用收集整理的基礎醫(yī)學圖書參考文獻列表,聯(lián)合萬方數據的論文數據庫,建立圖書-論文的引文數據庫。
2.2.1 圖書評價PageRank算法
PageRank算法被提出后,許多研究者針對其等級泄露和等級沉沒問題進行,改進后的PageRank算法的公式可以用矩陣描述為[5]:
π(k+1)T=π(k)T(αL+(αa+(1-α)e)1/neT) (公式1)
公式(1)中,π(k+1)T為k次迭代計算出的PageRank向量,為介于0和1之間的阻尼系數,一般定為0.85;α為懸掛節(jié)點向量,如果網頁i是懸掛節(jié)點,則a1=1,否則ai=0;n為維數,eT為全1行向量,L為公式(2)表示的矩陣:
公式(2)中,Lij表示引用矩陣Lij第i行第j列的元素。
圖書-論文引文網絡有其固有的特點。它與網頁鏈接網絡存在一個本質上的不同,即1本圖書可以多次引用1篇論文,1篇論文也可以引用圖書的多個章節(jié),而1個網頁只能鏈接另外1個網頁1次。它與期刊引文網絡不同的是,圖書-論文網絡中不存在自引。因此,圖書-論文引文網絡矩陣的表現(xiàn)形式會有一些不同。PageRank算法圖書-論文引用網絡矩陣L可以表示為:
由于圖書及論文均不能自引,故在公式(3)中,Lij=0。
Chen P等的研究表明,在利用PageRank算法評價學術論文時,將衰減因子取為0.5更為合理[9]。因此,本文中取值0.5。
2.2.2 圖書PageRank計算步驟
2.2.2.1 構建圖書論文引用網絡矩陣
利用樣本圖書參考文獻表及選定論文的引文表,構建圖書-論文引用網絡矩陣。矩陣的行和列分別表示圖書、圖書章節(jié)及論文,其中的值代表該行的圖書或論文對該列的圖書或論文的引用次數,主對角線代表圖書或者論文的自引次數。由于本文中圖書及論文均不可能實現(xiàn)自引,故該矩陣中主對角線位置數據均為0。
2.2.2.2 迭代計算
構建好圖書-論文的引用矩陣后,根據公式(1),利用matlab軟件進行循環(huán)迭代,歸一化后,計算出圖書各章節(jié)的的權威值,進而得到評價結果的排序列表。阻尼系數α取0.5。
對選定的100種基礎醫(yī)學類優(yōu)秀圖書的章節(jié)PageRank值與被引頻次進行相關性分析的結果顯示,圖書章節(jié)PageRank值與被引頻次在置信度為0.01時,存在顯著相關關系(Spearman檢驗,r=0.986,P<0.01)。
總體來說,圖書章節(jié)的PageRank值越大,被引用次數越多,其學術影響力越大。所以,PageRank算法能夠對圖書的影響力作出一個比較客觀的判斷。
圖1為樣本圖書章節(jié)PageRank值與被引頻次散點分布圖。
圖1 樣本圖書章節(jié)被引頻次與PageRank分布散點圖
從圖1可以看出,圖書章節(jié)PageRank值與被引頻次呈現(xiàn)較明顯的線性趨勢分布,表明兩者呈現(xiàn)相關關系。但這一現(xiàn)象也并不絕對,即圖書章節(jié)PageRank值高并不意味著被引頻次一定高。如果是重要的引用,即使被引頻次不高,也會得到較高的圖書章節(jié)PageRank值;反之,如果多數引用均為非重要引用,高被引頻次的圖書章節(jié)PageRank值也可能較低。被引頻次未考慮施引文獻的重要性,因此可以認為其反映的是流行度。PageRank不僅考慮被引次數,也考慮引用的重要性,因此可認為其反映的是權威性。
將散點圖劃分為4個象限,其中象限Ⅰ代表高被引頻次、高PageRank,象限Ⅱ代表低被引頻次、高PageRank,象限Ⅲ代表低被引頻次、低PageRank,象限Ⅳ代表高被引頻次、低PageRank。從圖1可以看出,絕大部分圖書章節(jié)集中在Ⅲ區(qū),反映出我國基礎醫(yī)學領域圖書中,低流行低權威的圖書所占比例比較大。
Ⅰ區(qū)的主要圖書章節(jié)為B025C04(金伯泉,張赟,張新海.細胞因子及其受體//金伯泉.細胞和分子免疫學.北京:科學出版社,2001),B046C13(胡佩誠.心理護理//胡佩誠.醫(yī)學心理學.北京:北京醫(yī)科大學出版社,2000),B015C07(王樹人.應激//金惠銘.病理生理學.北京:人民衛(wèi)生出版社,2000)等。這些圖書章節(jié)的被引頻次及PageRank值均較高,表明其不但具有較高的流行度,也具有較高的權威性。比較其引證文獻發(fā)現(xiàn),3個圖書章節(jié)不但具有高被引頻次,且均被樣本數據系統(tǒng)內其他圖書章節(jié)引用。可見,被其他圖書引用是反映圖書權威性的一個重要指標。
Ⅱ區(qū)的主要圖書章節(jié)有B068C04(董郡,熊敏.血液循環(huán)障礙//董郡.病理學.北京:人民衛(wèi)生出版社,1996),B013C03(劉彤華.食管、胃、腸和肛門//劉彤華.診斷病理學.北京:人民衛(wèi)生出版社,1994)。這兩個圖書章節(jié)雖然被引頻次較少,但卻有高PageRank值,說明它們都被重要文獻引用,圖書流行度并不高,但具有高權威性。比較其引證文獻發(fā)現(xiàn),這兩個圖書章節(jié)均被樣本數據系統(tǒng)內其他圖書章節(jié)所引用,且B068C04被系統(tǒng)內圖書引用次數高達5次,這是其雖然僅有14次引用但卻具有高PageRank的原因。
Ⅲ區(qū)包含兩個比較特殊的章節(jié),即B068C12(熊密.肝臟、膽道和胰腺疾病//董郡.病理學.北京:人民衛(wèi)生出版社,1996)及B068C05(炎癥.席玉萍//董郡.病理學.北京:人民衛(wèi)生出版社,1996)。這兩個圖書章節(jié)被引頻次雖然較低,但卻具有高PageRank值,因為它們同樣被系統(tǒng)內其他圖書章節(jié)引用。
表1以及表2列出了樣本數據中被引頻次及PageRank值排名前20位的圖書章節(jié)。從表中可以看出,被引頻次與PageRank算法計算結果得出的排序順序差異變化不是非常大。排名前20位的圖書章節(jié)中,有16種同時出現(xiàn)在兩種排序方式中。
表1 被引頻次排名前20位的圖書章節(jié)
表2 PageRank值排名前20位的圖書章節(jié)
在被引頻次列表中,B014C07(染色的基本原理、生物染料和蘇木精-伊紅染色方法//王伯沄.病理學技術.北京:人民衛(wèi)生出版社,2000.)、B21C27(腸道病毒71型//金奇.醫(yī)學分子病毒學.北京:科學出版社,2001.)、B090C06(染色體病//夏家輝.醫(yī)學遺傳學.北京:人民衛(wèi)生出版社,2004)、B012C05(腫瘤//楊光華.病理學.北京:人民衛(wèi)生出版社,2001)沒有在PageRank列表中出現(xiàn);而在PageRank列表中,B068C04、B068C12(血液循環(huán)障礙及肝臟、膽道和胰腺疾病//董郡.病理學.北京:人民衛(wèi)生出版社,1996)及B013C03、B013C09(食管、胃、腸和肛門及內分泌系統(tǒng)//劉彤華.診斷病理學.北京:人民衛(wèi)生出版社,1994)沒有出現(xiàn)在被引頻次列表中。
根據PageRank算法,圖書章節(jié)的PageRank值取決于以下3方面因素:圖書章節(jié)的被引頻次,引用該圖書章節(jié)的其他圖書章節(jié)或論文的PageRank值以及引用該圖書章節(jié)的其他圖書章節(jié)或論文本身的參考文獻量。以B068C04(董郡.血液循環(huán)障礙//董郡.病理學.北京:人民衛(wèi)生出版社,1996)為例,該章節(jié)被引頻次僅為14,但PageRank排名第5。從表3可以看出,B068C04被系統(tǒng)內其他圖書章節(jié)所引用,由于圖書章節(jié)PageRank值明顯高于期刊論文,且參考文獻較少。因此該章節(jié)雖然被引頻次很低,但PageRank排名高。而B031C07(染色體畸變綜合征//杜傳書.醫(yī)學遺傳學.北京:人民衛(wèi)生出版社,1992)及B014C09(常用特殊染色方法//王伯沄.病理學技術.北京:人民衛(wèi)生出版社,2000)等圖書章節(jié),雖然被引頻次較高,但由于沒有被其他圖書所引用,所以其PageRank排名仍低于B068C04。由此可見,重要引用對排序結果具有重大影響。
表3 引用B068C04的論文及圖書章節(jié)分布
在PageRank排名前20位的圖書章節(jié)中,包含B011(郭世紱.臨床骨科解剖學.天津:天津科學技術出版社,1988)中的3個章節(jié),B013(劉彤華.診斷病理學.北京:人民衛(wèi)生出版社,1994)、B015(金惠銘.病理生理學.北京:人民衛(wèi)生出版社,2000)和B068(董郡.病理學.北京:人民衛(wèi)生出版社,1996)各2個章節(jié),這4種圖書在圖書PageRank值排名中分別位于第2、3、4、9位??梢妭€別章節(jié)的高PageRank值可影響圖書整體學術排名。這一點與影響因子類似。
PageRank排名前20位的圖書章節(jié)中,包含作者信息的共14章,其中11章為獨著,占78.57%。說明在一定程度上,由單個作者編寫的圖書章節(jié)更為人們所認可,這是由于能夠獨自完成圖書章節(jié)編著的學者,對該領域的研究更加透徹,其成果更容易被人們所接收。
表2顯示,金伯泉、吳文源、劉彤華等編寫的圖書章節(jié)2次出現(xiàn)在排名前20位的圖書章節(jié)中。這也從側面反映出,圖書章節(jié)的學術影響力與該章節(jié)的作者有很大關系。這些作者在基礎醫(yī)學的相關領域中占據一定地位,他們所編著的圖書相關內容也容易得到該領域其他研究人員的認可與肯定。
將PageRank算法應用于圖書評價,既可避免專家評價方法中存在的主觀因素,還可彌補引用頻次評價方法的不足,綜合考慮引文的數量與質量,更為客觀地評價圖書的影響力。本文將分析粒度細化到圖書章節(jié),更深層次地研究影響圖書PageRank值的相關因素,發(fā)掘對PageRank至關重要的熱點章節(jié)和權威作者;同時,在研究中添加圖書參考文獻信息,打通了圖書與期刊論文研究的隔閡,彌補了原來只能基于期刊論文引文網絡進行評價的不足。
由于系統(tǒng)內圖書章節(jié)PageRank值明顯高于期刊論文,且參考文獻較少,因此被系統(tǒng)內圖書所引用的圖書章節(jié)的PageRank值偏高。由此可見,被其他圖書所引用是反映圖書權威性的一個重要指標,同時反映出重要引用對排序結果具有重大影響。另外,圖書章節(jié)的學術影響力與該章節(jié)的作者有很大的關系,權威作者所編著的圖書章節(jié)更容易得到該領域的其他研究人員的認可與肯定。
與期刊評價類似,應用PageRank對圖書影響力進行評價,熱門章節(jié)的高被引率同樣會提高圖書的PageRank值,可影響圖書整體學術排名。因此,要注意對PageRank至關重要的熱點章節(jié)和權威作者的發(fā)掘和研究。
由于出版年代久的圖書累積了更多的出版次數,且圖書在引用時間上存在單向性,使圖書在迭代計算過程中積累了更多的權重,造成PageRank更有利于比較老的圖書。此外,本文未考慮圖書出版時間、學科老化及多版本圖書的處理等問題,可在后續(xù)的研究中進行深入分析和彌補。