彭賢哲 周海玲 石 進(jìn)
(南京大學(xué)信息管理學(xué)院,江蘇 南京 210023)
圖書作為人類用以表達(dá)觀點、保存信息、傳播知識的載體,是學(xué)術(shù)研究和文化學(xué)習(xí)過程中不可或缺的資源,如何從眾多良莠不齊的圖書中快速識別并選取高價值的作品,是圖書出版商、圖書館、學(xué)術(shù)界以及科研管理部門等共同面臨的難題[1]。當(dāng)前的圖書價值評價方法,主要從被引頻次[2]、館藏數(shù)量[3]、專家書評[4]、引文內(nèi)容[5]、讀者評論[6]等方面展開。其中,學(xué)術(shù)文獻(xiàn)對圖書的引用行為,直觀地展現(xiàn)了學(xué)術(shù)界對于圖書的認(rèn)識與流傳程度,挖掘圖書引證文獻(xiàn)的隱藏特點,有助于了解圖書的知識側(cè)重方向、領(lǐng)域認(rèn)可程度和學(xué)術(shù)應(yīng)用價值。
本文擬通過由圖書引文記錄展現(xiàn)的引用類型、引用規(guī)律和引文網(wǎng)絡(luò),計量圖書涵蓋知識廣度和深度、學(xué)界流傳程度、應(yīng)用時效性等,從該類視角下分析圖書館記錄的借閱、瀏覽、采購行為的現(xiàn)狀,并提出針對性的管理服務(wù)策略,優(yōu)化服務(wù)模式,提供圖書入藏參考建議。
“選”“采”“用”是圖書庫建設(shè)的3個閉環(huán)發(fā)展環(huán)節(jié)[7],而“選”作為圖書采購過程的依據(jù),如何確定圖書選擇標(biāo)準(zhǔn)、檢驗入藏圖書的優(yōu)劣十分關(guān)鍵。圖書質(zhì)量評價為“選”的重要參考維度,其中脫胎于期刊評價的引證分析法,同樣適用于學(xué)術(shù)圖書評價。
通過引證分析法評價圖書質(zhì)量的實踐工作,率先在外文圖書中展開。2011年,Thomson Reuters[8]正式發(fā)布類似SCI和SSCI的圖書引文索引(Book Citation Index,BKCI),但收錄擇選圖書僅2.5萬種,數(shù)量相對較少。Gorraiz J等[9]指出,BKCI尚不適用于文獻(xiàn)計量分析和學(xué)術(shù)評價,齊東峰等[10]不認(rèn)可該觀點,認(rèn)為引文分析作為圖書評價及參考工具具備可行性。劉曉娟等[11]挑選了BKCI收錄的出版于2005—2015年的學(xué)術(shù)著作,分析了圖書出版量、被引頻次的大小與分布以及學(xué)術(shù)著作的被引模式隨出版年份和學(xué)科領(lǐng)域的變化情況。Zuccala A A等[12]研究Scopus在2007—2011年收錄的604種歷史論文的參考文獻(xiàn)中的圖書,發(fā)現(xiàn)圖書的被引量與Goodreads閱讀評級為弱相關(guān),支持引文分析可用于圖書評價;為此,Zuccala A等[4]將書評、學(xué)術(shù)性引用指標(biāo)作為學(xué)術(shù)圖書的質(zhì)量指標(biāo),采用機器學(xué)習(xí)的方法全面評估圖書的影響力。Kousha K等[13]比較了10個學(xué)科圖書在Google Books、Google Scholar和Scopus 3種數(shù)據(jù)來源的圖書的引用數(shù)據(jù)差異,指出三者的引用頻次高度相關(guān)。上海交通大學(xué)基于Scopus開發(fā)研制的《2019年外文學(xué)術(shù)圖書引證報告》展示了近年來的高被引圖書和高影響力出版社[14]。張軼華等[7]研究如何將高被引圖書和高影響力出版社的引證分析與上海交通大學(xué)圖書館實際需求相結(jié)合,構(gòu)建高品質(zhì)外文學(xué)術(shù)圖書保障體系。
對于中文圖書引證行為的研究,起步較晚且相對較少。如蘇新寧[2]基于《中國社會科學(xué)引文索引》探討人文社科各學(xué)科圖書的被引情況。北京世紀(jì)讀秀技術(shù)有限公司2017年發(fā)布的圖書引用報告從高被引圖書、高被引作者、出版社等方面分析了中文圖書引用情況[15]。肖宏等[16]基于中國知網(wǎng)分析了哲學(xué)社科類圖書的引證狀況。葉繼元[17]闡述了我國自主研制《中文圖書引文索引》的過程及意義。李明等[18]探索性地分析了中文學(xué)術(shù)圖書被引頻次及其Altmetrics指標(biāo)間的關(guān)系,為新型學(xué)術(shù)交流環(huán)境下中文學(xué)術(shù)圖書影響力綜合評價指標(biāo)體系的合理構(gòu)建提供了事實參考依據(jù)。章成志等[1]從亞馬遜中文網(wǎng)站上選取計算機、法律、醫(yī)學(xué)、文學(xué)和體育5個學(xué)科領(lǐng)域的中文圖書,從引文內(nèi)容角度對圖書被引行為進(jìn)行分析,進(jìn)一步提高了圖書評價結(jié)果的準(zhǔn)確性和科學(xué)性。為更好地利用圖書引證文獻(xiàn)的潛在信息,Zhou Q等[19]收集了上述5個學(xué)科圖書的引證文獻(xiàn)記錄,通過對引文文獻(xiàn)細(xì)粒度分析,反映了被引圖書的影響范圍或主題,并將其與現(xiàn)有的圖書影響力評估指標(biāo)進(jìn)行比較,印證了引文文獻(xiàn)用于圖書影響力評估的有效性。
總結(jié)已有研究,引文分析的研究視角從以往的引用頻次分析,現(xiàn)已逐步擴(kuò)展到對引文內(nèi)容等深層次方面的研究;分析維度從之前專注于引證文獻(xiàn)的數(shù)量分布、時間分布等直觀指標(biāo),逐步轉(zhuǎn)向深入挖掘圖書被引行為的潛在特征,但深入挖掘引證文獻(xiàn)的研究相對較少。外文圖書引文數(shù)據(jù)的易獲取性、詳細(xì)性,使得早期研究的引文分析對象集中于外文圖書,對中文圖書的類似探索于近些年方才展開。此外,已有研究多注重于如何完善引文分析方法深度、廣度及準(zhǔn)確度,少有如何將分析結(jié)果服務(wù)于現(xiàn)實場景的應(yīng)用性探究,有待于將圖書引文分析結(jié)果投入到中文圖書管理服務(wù)應(yīng)用場景。
本文以中文圖書為研究對象,從引用類型、引用規(guī)律、引用網(wǎng)絡(luò)等角度,全面揭示圖書被引行為的隱性特點,如學(xué)界認(rèn)可度、知識廣度、知識深度、知識距離等,進(jìn)而描述、評價、關(guān)聯(lián)圖書,以此角度分析當(dāng)前瀏覽、借閱、采購過程中圖書質(zhì)量的分布狀況,提出針對性建議,并將由引文分析構(gòu)建的圖書評價關(guān)聯(lián)體系納入圖書“選”“采”“用”3個環(huán)節(jié)的參考依據(jù),提升圖書庫建設(shè)質(zhì)量。
2.1.1 南京大學(xué)圖書館書目資源
圖書館數(shù)字化與信息化進(jìn)程中產(chǎn)生的讀者活動記錄、書目記錄、館藏記錄等服務(wù)記錄[20],為研究圖書引用行為提供了充分的數(shù)據(jù)支撐。南京大學(xué)圖書館館藏豐富,經(jīng)長期積累,形成了比較系統(tǒng)、完整的綜合性的藏書體系,截至2021年12月,該館館藏中文圖書444.64萬冊。其中,G類(文化、科學(xué)、教育、體育)圖書由于文理知識兼具、學(xué)科交叉性強、種類齊全、借閱頻繁、館藏豐富,產(chǎn)生了大量的圖書服務(wù)采購記錄,為研究圖書管理服務(wù)現(xiàn)狀提供了詳實的數(shù)據(jù)參考。
本文采集了南京大學(xué)圖書館紙質(zhì)館藏資源中的G類圖書總計46 976本,包括書目數(shù)據(jù)、全國館藏數(shù)據(jù)、讀者借閱數(shù)據(jù)、讀者點擊數(shù)據(jù)。其中,書目數(shù)據(jù)包括書名、主題詞、圖書摘要、作者、中圖分類號、圖書館館藏數(shù)量、出版年份、版次信息等;讀者借閱數(shù)據(jù)主要為該類圖書近10年被借閱的次數(shù)分布,直接反映了圖書不同時間段在讀者群中的熱度變化;全國館藏數(shù)據(jù)指該類圖書入藏各大圖書館的分布情況,側(cè)面表現(xiàn)了圖書的傳播輻射范圍。
2.1.2 中文學(xué)術(shù)圖書引文索引庫
圖書作為知識傳播最重要的媒介之一,完整的引文分析體系有必要納入圖書引文的被引分析內(nèi)容,圖書引文索引數(shù)據(jù)庫的建立是對已有引文數(shù)據(jù)庫平臺數(shù)據(jù)的一種補充,對于完善已有引文分析體系具有重要意義[21]。南京大學(xué)中國社會科學(xué)研究評價中心2015年發(fā)布了“中文學(xué)術(shù)圖書引文索引”(Chinese Book Citation Index,CBKCI)入選圖書數(shù)據(jù),涉及11個學(xué)科,近600家出版社出版的圖書,該數(shù)據(jù)庫覆蓋人文、社會科學(xué)的全部學(xué)科,可用于檢索中文社會科學(xué)領(lǐng)域的圖書收錄和圖書被引用情況[22]。
本文根據(jù)已采集的南京大學(xué)圖書館G類紙質(zhì)圖書書目數(shù)據(jù),依據(jù)書名、作者、出版年份,構(gòu)建了圖書在中文學(xué)術(shù)圖書引文索引庫檢索平臺的檢索式,共獲取5 200本圖書的引文數(shù)據(jù),總計32 689條引文記錄。
2.2.1 圖書半衰期計算
某學(xué)科圖書在T年的引用半衰期,是指該學(xué)科圖書在T年(1年時間內(nèi))所引用的全部參考文獻(xiàn)中較新一半是在最近(以T-1年為最近第一年)多長一段時間內(nèi)出版或發(fā)表的[23]。學(xué)科圖書引用半衰期反映了學(xué)科圖書利用文獻(xiàn)的新穎度,體現(xiàn)了圖書近來被參考利用的頻度,可用于測定學(xué)科圖書的老化速度。根據(jù)其定義得出對應(yīng)的計算公式如式(1)所示:
(1)
其中,C為累計被引頻次最接近并小于50%的那年的累計被引百分比,D為累計被引頻次最接近并大于50%的那年的累計被引百分,Y為累計被引百分比為C的那年到最近被引那年的間隔年數(shù)。
2.2.2 圖書主題分布衡量
1)LDA主題聚類
LDA模型指使用貝葉斯估計的統(tǒng)計學(xué)方法,將文本集中每篇文本的主題按照概率分布的形式表示的方法。作為一種無監(jiān)督學(xué)習(xí)算法,LDA聚類模型的優(yōu)勢在于無需標(biāo)注訓(xùn)練集,僅需指定最優(yōu)主題聚類數(shù)量。在本文中,主要利用了文獻(xiàn)的標(biāo)題和關(guān)鍵詞,通過限定主題聚類個數(shù)的變化范圍,構(gòu)建困惑度與主題數(shù)的折線圖,在此基礎(chǔ)上,利用“折肘法”確定主題數(shù)N,通過Gensim的LDA模型對文獻(xiàn)進(jìn)行主題表示,進(jìn)而獲得每篇文獻(xiàn)隸屬于各個主題的概率,構(gòu)建文獻(xiàn)—主題概率矩陣,得到每本被引圖書或每篇引證論文的主題概率表示。
2)文獻(xiàn)主題分布情況衡量
一篇完整的文獻(xiàn)一般涵蓋多個主題,尤其是知識面較為廣泛的圖書載體,如何衡量文獻(xiàn)的知識面廣度,一定程度上決定了圖書的應(yīng)用面廣度。文獻(xiàn)的主題概率分布曲線直觀體現(xiàn)了文獻(xiàn)的主題側(cè)重點,單峰主題分布曲線表示內(nèi)容點單一,而多峰曲線則展現(xiàn)了文獻(xiàn)內(nèi)容的多方側(cè)重特點。因此,主題分布曲線的差異分布特點,可側(cè)面表現(xiàn)文獻(xiàn)的知識廣度[24]。本文納入主題概率分布方差衡量曲線的差異分布,進(jìn)而評估圖書或論文的知識廣度,具體如下:
(2)
式(2)中,M為LDA聚類的主題總數(shù),pi為圖書屬于第i個主題的概率,pmax、pmin分別為圖書主題概率分布中的最大值和最小值,該值越小,圖書涵蓋知識越廣。
此外,圖書應(yīng)用面的廣度亦可采用類似的計量方法,由圖書引證文獻(xiàn)的主題概率分布狀態(tài)所表示,公式如下:
(3)
式(3)中,M為LDA聚類的主題總數(shù),N為圖書的引證文獻(xiàn)篇數(shù),pij為圖書的第j個引證文獻(xiàn)屬于第i個主題的概率,pmax、pmin分別為圖書主題概率分布中的最大值和最小值,該值越小,圖書應(yīng)用面越廣。
單一主題的圖書與多主題的圖書相比,在獲得相同引用數(shù)基礎(chǔ)上,談及的內(nèi)容通常更為深入[24]。為此,圖書的主題概率分布狀況通過結(jié)合圖書引文數(shù),可體現(xiàn)圖書談及知識的深度,公式如下:
(4)
式(4)中,M為LDA聚類的主題總數(shù),N為圖書的引證文獻(xiàn)篇數(shù),該值越大,圖書談及知識越深入。
3)文獻(xiàn)主題相似度計算
在獲取完圖書的主題概率分布表達(dá)式之后,可引入余弦相似度評估兩本圖書的內(nèi)容相似度,計算式為:
(5)
M為LDA聚類的主題總數(shù),p1i、p2i分別為第1本和第2本圖書隸屬于第i個主題的概率,該值越高,兩本圖書越相似。
此外,KL/JS散度作為常用的衡量數(shù)據(jù)概率分布的數(shù)值指標(biāo)[25],可用于衡量兩本圖書概率分布特征的相似度,其具體計算公式如下:
(6)
(7)
M為LDA聚類的主題總數(shù),P、Q為兩本圖書的主題概率列表,P(x)、Q(x)為兩本圖書隸屬于第x個主題的概率,該值越大,兩本圖書內(nèi)容越相似。
2.2.3 圖書關(guān)聯(lián)程度評估
將采集的圖書書目結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入Neo4j圖數(shù)據(jù)庫之后,圖書與圖書之間并非孤立單一的,均有相應(yīng)的關(guān)聯(lián)路徑,圖書產(chǎn)生關(guān)聯(lián)的原因包括但不限于談及相同內(nèi)容、來自相同作者、涉及知識具備承接性或鄰近性等。為此,可引入圖書關(guān)聯(lián)路徑相關(guān)指標(biāo),如路徑條數(shù)、路徑距離、平均路徑距離、關(guān)聯(lián)度,進(jìn)而評估圖書之間的關(guān)聯(lián)程度,具體含義如表1所示。
表1 圖書之間的路徑距離和主題相似度衡量指標(biāo)
引用行為是指在各種因素影響下,學(xué)術(shù)文獻(xiàn)作者在科研寫作時參考或者借鑒其他學(xué)術(shù)文獻(xiàn)并加以標(biāo)注說明的學(xué)術(shù)行為[26]。分析圖書被引行為特征,可展現(xiàn)學(xué)科領(lǐng)域?qū)D書的利用、反饋、傳播情況,揭示圖書之間的關(guān)聯(lián)程度,為圖書的評價推薦提供參考依據(jù)。
從G類圖書被引數(shù)據(jù)的學(xué)科分布特點來看,不同學(xué)科對圖書的認(rèn)可比例差異較大,且并不受該學(xué)科圖書總數(shù)的影響。G2類(信息與知識傳播)館藏圖書數(shù)量最多,其被引用圖書數(shù)量也相應(yīng)最多,圖書被引比例僅約12%;而G1類(世界各國文化與文化事業(yè))、G6類(各級教育)圖書館藏數(shù)量較多,但被引比例較低;G0類(文化理論)圖書雖然圖書館藏數(shù)量較少,但被引比例最高。圖書引用數(shù)量符合“二八定律”,南大圖書館館藏G類圖書總體引用比約為11.1%,細(xì)究其下轄的二級學(xué)科分布情況,引用比在6%~17%范圍內(nèi)。由于出版圖書在內(nèi)容上存在一定比例的同質(zhì)化,冗余的存在使得在學(xué)術(shù)研究過程中圖書的借鑒參考比例相對較低,一般僅選擇20%以內(nèi)的出版圖書作為該領(lǐng)域代表性的參考。
圖書引用行為分為自引和他引兩類,其中自引根據(jù)其動機可分為合理自引和不當(dāng)自引兩類[27],二者并非涇渭分明,一般難以識別。自引的影響力相比他引是有限的,為此,科學(xué)評價是否應(yīng)納入自引行為,其權(quán)重該如何設(shè)定,均有待估量[28]。研究自引行為在引文系統(tǒng)中的比例,衡量自引行為的普遍性特點,有助于展現(xiàn)圖書自引現(xiàn)象在圖書引文評價中的地位。
他引行為和自引行為的比例均符合“二八定律”,應(yīng)將自引行為納入圖書引文評價。分析從中文學(xué)術(shù)圖書引文索引庫引文記錄發(fā)現(xiàn),自引發(fā)生比例約為13.2%,從不同二級學(xué)科自引圖書分布比例來看,自引圖書占比基本保持在10%~14%以內(nèi),差異較小。他引行為依舊是圖書引文評價的主體依據(jù),由此構(gòu)成的圖書評價體系仍具有一定代表性和客觀性;自引行為在圖書引用現(xiàn)象中占有一定比例,應(yīng)將其作為圖書引文評價體系的一環(huán)。
圖書自引率為圖書自引期刊論文數(shù)量與圖書引用量的比值,計算篩選存在自引現(xiàn)象的686本圖書的自引率后發(fā)現(xiàn),所有二級學(xué)科圖書的自引率與引用量存在一定的負(fù)相關(guān)關(guān)系,高自引率圖書的引用量一般較少,說明用引文分析的方法評價低引用量的圖書難免會受到自引現(xiàn)象的干擾,而高引用量的圖書自引率較低,由此展開的引文分析雖然涵蓋了少量自引現(xiàn)象,但仍是較為客觀公正的。
跨學(xué)科引用側(cè)面反映G類學(xué)科與其他學(xué)科的擴(kuò)散距離,分析引文記錄發(fā)現(xiàn),不同二級學(xué)科圖書同學(xué)科引用現(xiàn)象占比變化范圍為39%~96%,G8類(體育)學(xué)科94.31%的引證文獻(xiàn)屬于G類,發(fā)散性最低;G0類(文化理論)學(xué)科40.6%的引證文獻(xiàn)屬于G類,發(fā)散性最高。整體分析G類圖書引證文獻(xiàn)的跨學(xué)科分布特征,C類(社會科學(xué)總論)、D類(政治、法律)、I類(文學(xué))和K類(歷史、地理)文獻(xiàn)對其的引用現(xiàn)象最為顯著。
每本圖書跨學(xué)科引用率定義為圖書跨學(xué)科引證期刊論文數(shù)量與圖書引用量的比值。結(jié)果表明,在不同二級學(xué)科所轄圖書中,跨學(xué)科引用率較高的圖書的引用量一般較低,以G2、G4、G8類圖書為代表,當(dāng)然個別二級學(xué)科圖書中不乏同時具備較高的引用量和跨學(xué)科引用率的現(xiàn)象,如G3、G7類圖書。由此說明,兼具高度學(xué)科發(fā)散性和高認(rèn)可度的圖書僅是個例,發(fā)生跨學(xué)科引用行為的圖書的引用量較低,并未受到學(xué)界廣泛的認(rèn)可。
圖書被引行為特點,反映出圖書在科學(xué)交流、知識繼承與學(xué)科發(fā)展過程中的普遍規(guī)律,也可為科學(xué)評價、科技管理和科技政策制定等行為提供參考依據(jù)。為此,本文從圖書的引用量、引用半衰期、主題數(shù)、圖書主題概率分布方差、引證文獻(xiàn)主題概率分布方差、深度值6個角度,展現(xiàn)了圖書被引行為的特點。
圖書的被引特征,可從數(shù)量、時間、知識廣度、知識深度4個層面加以限定。其中引用量即為其數(shù)量特征,引用半衰期為引用數(shù)在時間上的分布特征,圖書主題概率分布方差代表圖書內(nèi)容涉及主題的廣度,圖書引證文獻(xiàn)涉及主題數(shù)、主題概率分布方差指示圖書應(yīng)用方向的廣度,圖書深度借助引用量反映了圖書在特定主題的深度。
利用LDA主題聚類分析5 200本圖書和27 834篇引證論文的標(biāo)題和關(guān)鍵詞,獲得共計19個主題,如圖6所示。此外,由于圖書半衰期的計算方法,無法衡量施引文獻(xiàn)集中在同一年(短暫熱度)和最近施引文獻(xiàn)占比超過50%(未表現(xiàn)衰退趨勢)的圖書,故對該兩類圖書做了初步的統(tǒng)計,如圖7所示,未表現(xiàn)被引衰退趨勢的圖書很少,短暫熱度圖書數(shù)量不菲,說明圖書“曇花一現(xiàn)”的現(xiàn)象較為普遍。
從G類圖書被引行為6類特征分布特點來看,如圖8所示,圖書的被引量主要分布于50篇以內(nèi)。不同學(xué)科圖書的半衰期分布特點較為一致,均保持在2~6年的范圍內(nèi),最長約在10年左右。圖書涉及主題的范圍較廣,單一主題圖書較少,側(cè)面印證了圖書這種信息載體涵蓋知識的系統(tǒng)性和全面性。圖書引證文獻(xiàn)主題概率相比圖書主題概率分布的方差增大明顯,說明圖書的引證文獻(xiàn)較多地關(guān)注圖書的某一方面主題,使得主題概率分布出現(xiàn)峰值突出的現(xiàn)象,增大了方差值。圖書每個主題的綜合認(rèn)可度并不高,單個主題的平均被引量一般小于5篇。
進(jìn)一步分析引用行為特征的關(guān)聯(lián)性,可全面了解圖書被引行為的“全貌”。結(jié)果表明,圖書被引半衰期與引用量關(guān)系較弱,圖書引用量的提高同時印證了圖書應(yīng)用主題的高度縱深;而圖書主題概率分布方差作為圖書固有的知識屬性,與引用量關(guān)系并不相關(guān);隨著引用量的提升,該書的主題發(fā)散程度輕微加強,致使引證文獻(xiàn)主題概率分布方差發(fā)生輕微程度地降低,涵蓋主題數(shù)相應(yīng)增多。
圖書之間的耦合關(guān)系,在一定程度反映了兩本圖書的相似性或者關(guān)聯(lián)度大小[29],引入圖書路徑距離和圖書主題相似度等指標(biāo),可展現(xiàn)耦合次數(shù)對圖書相似性或關(guān)聯(lián)性的反映狀況。
結(jié)果如圖10所示,兩本圖書的耦合次數(shù)一般限定在10次以內(nèi),二者之間的主題相似度和距離關(guān)聯(lián)度并不確定。耦合次數(shù)在10次以上的兩本圖書之間,主題余弦相似度和JS相似度為1,二者反映的主題內(nèi)容高度匹配,二者相連路徑條數(shù)不定;平均路徑距離約為3,一般僅間隔1個圖書節(jié)點,關(guān)聯(lián)度變化范圍為0.5~1.5,在圖數(shù)據(jù)庫中表現(xiàn)為圖書之間至少存在兩條距離小于2的路徑。這個結(jié)果表明,存在耦合關(guān)系的兩本圖書之間關(guān)聯(lián)較為緊密,有助于實現(xiàn)圖書的精準(zhǔn)關(guān)聯(lián)推薦,但對于發(fā)散性的圖書擴(kuò)展推薦服務(wù)略顯不足。
圖1 不同學(xué)科被引用圖書數(shù)量占比
圖2 不同學(xué)科圖書自引率
圖3 不同二級學(xué)科圖書自引率—引用量分布
圖4 被引圖書—施引文獻(xiàn)的學(xué)科對應(yīng)關(guān)系
圖6 基于圖書和引證文獻(xiàn)的標(biāo)題和關(guān)鍵詞構(gòu)建的LDA模型聚類結(jié)果
圖7 不同學(xué)科無法計算半衰期的圖書數(shù)量
圖8 不同二級學(xué)科圖書被引行為特征分布
圖10 圖書引文耦合網(wǎng)絡(luò)及參數(shù)特征
圖11 圖書點擊、借閱數(shù)據(jù)與被引特征的關(guān)聯(lián)性
圖12 圖書全國館藏數(shù)與被引特征的關(guān)聯(lián)性
圖書引文耦合網(wǎng)絡(luò)的特征表明,圖書之間內(nèi)容越相似,期刊論文在引用多本圖書時,存在綜合引用相似內(nèi)容圖書的習(xí)慣。總結(jié)而論,圖書耦合關(guān)系展現(xiàn)的是二者高度的主題相似度、關(guān)聯(lián)度,主題分布存在重合、在知識庫中距離相近是兩本圖書存在耦合的必要條件。這說明核心文獻(xiàn)對多本圖書的引用行為注重相同內(nèi)容的對比參照,而非相關(guān)知識的整合補全,更多強調(diào)挖掘圖書知識深度,可利用圖書的耦合關(guān)系為讀者提供深入式閱讀的推薦服務(wù)。
科學(xué)文獻(xiàn)之間通過參考與引證行為相互聯(lián)系,其中,參考現(xiàn)象展現(xiàn)了一篇科學(xué)文獻(xiàn)研究工作的背景和依據(jù),而引證現(xiàn)象則反映了一篇科學(xué)文獻(xiàn)研究工作的繼續(xù)、應(yīng)用、發(fā)展或用于評價該篇科學(xué)文獻(xiàn)[30]。期刊論文對圖書的參考行為與引證效應(yīng),從一定程度上直接表現(xiàn)了圖書的學(xué)術(shù)質(zhì)量、應(yīng)用價值、知識深度、應(yīng)用范圍等,因而可為讀者閱覽選擇圖書、管理者采購引進(jìn)圖書、系統(tǒng)關(guān)聯(lián)推薦圖書提供豐富的參考信息。
圖書借閱是圖書館最傳統(tǒng)、最基礎(chǔ)的服務(wù)[31],在該過程中會產(chǎn)生點擊量、借閱量等相關(guān)數(shù)據(jù),展現(xiàn)了廣大讀者的閱讀傾向和興趣所在。為此,本文探析了南京大學(xué)圖書館服務(wù)系統(tǒng)記錄的點擊、借閱數(shù)據(jù),通過將其與圖書被引特征關(guān)聯(lián)分析,探析讀者在選擇圖書時是否了解該圖書的應(yīng)用廣度、知識深度、學(xué)術(shù)認(rèn)可度。
從圖書點擊、借閱數(shù)據(jù)與被引特征的關(guān)聯(lián)性分析來看,讀者對圖書的點擊量、借閱量與圖書被引半衰期、深度值、引用量、圖書主題概率分布方差、引證文獻(xiàn)概率分布方差、主題數(shù)相關(guān)性差。這說明大部分讀者在服務(wù)端口略覽、借閱圖書資源時,具備很強的隨意性,缺乏對該方向圖書分布的認(rèn)識,在擇書時缺乏參考依據(jù),一定程度上提高了讀者找尋目標(biāo)圖書付出的各項成本,易出現(xiàn)“找錯書、讀錯書”的問題。
鑒于目前讀者擇書的困境,有必要采集讀者個性化數(shù)據(jù)提供精準(zhǔn)服務(wù),依據(jù)讀者的學(xué)術(shù)背景信息、過往閱覽歷史等,結(jié)合圖書應(yīng)用主題的方向,為初學(xué)者提供主題分布廣、知識深度淺、體系相對成熟的圖書,為科研人員推薦主題分布集中、前沿性強的圖書。衡量圖書被引特征的這些指標(biāo),通過描述圖書蘊含知識的廣度、深度、認(rèn)可度,為圖書的推薦過程提供了一系列參考依據(jù),有助于提高圖書館系統(tǒng)服務(wù)的精準(zhǔn)性。
圖書在全國各大圖書館的館藏分布,即現(xiàn)有多少家圖書館入藏該本圖書,一定程度上說明了圖書被收藏入館的意愿,代表了圖書館管理人員采購圖書的傾向。了解圖書館傾向采購的圖書被引特征,可展現(xiàn)目前廣泛入藏圖書的整體質(zhì)量,有助于后續(xù)進(jìn)一步采購圖書入館、優(yōu)化館藏資源,提高圖書館服務(wù)質(zhì)量。
分析圖書全國館藏數(shù)與被引特征的關(guān)聯(lián)性,被全國圖書館廣泛入藏(≥500家)的圖書被引半衰期、深度值、引用量、主題數(shù)分布未呈現(xiàn)規(guī)律性,但圖書主題概率分布方差、引證文獻(xiàn)主題概率分布方差普遍較低。這個結(jié)果表明,各大圖書館在采購圖書入館時,優(yōu)先考慮圖書知識廣度和應(yīng)用范圍,未過多權(quán)衡圖書的知識深度和在科研領(lǐng)域的認(rèn)可度,便于不同知識背景的讀者均可在圖書館獲取到與其相匹配的圖書,快速拓展知識視野。
圖書館采購知識覆蓋面廣泛的圖書,雖能促進(jìn)閱讀推廣的實施,但對于具備科研應(yīng)用場景的圖書館,如高校圖書館、科研機構(gòu)圖書館等,在采購時仍需入藏一定比例深入前沿的圖書。因此,不同性質(zhì)圖書館由于側(cè)重點不同,在采購圖書時可動態(tài)性考量圖書被引特征,保證圖書館館藏圖書的分布特點適于其應(yīng)用場景。
圖書的關(guān)聯(lián)在知識的延展性上可分為橫向關(guān)聯(lián)和縱向關(guān)聯(lián),前者注重從圖書談及內(nèi)容的鄰近知識予以關(guān)聯(lián),幫助讀者擴(kuò)展知識視野,后者強調(diào)不同深度但關(guān)聯(lián)相似知識的圖書,輔助讀者深入掌握知識。依據(jù)引證文獻(xiàn)構(gòu)建的圖書耦合網(wǎng)絡(luò),結(jié)合圖書的主題相似度參數(shù)、距離參數(shù)、深度值、廣度值,可實現(xiàn)圖書在橫向和縱向上的關(guān)聯(lián)。橫向關(guān)聯(lián)注重放寬圖書之間的距離參數(shù)、主題相似度,優(yōu)選主題泛化圖書,而縱向關(guān)聯(lián)則需限定圖書之間的緊密程度、主題相似度,過濾出專業(yè)化圖書。
此外,圖書內(nèi)容在橫向和縱向上的關(guān)聯(lián),亦可映射在圖書應(yīng)用方向上,根據(jù)圖書引證文獻(xiàn)主題數(shù)、主題概率分布參數(shù),可展現(xiàn)圖書應(yīng)用主題分布特征。據(jù)此,在橫向上推薦與此相關(guān)的多主題圖書,保證知識廣度,在縱向上關(guān)聯(lián)核心主題的高引用量圖書,確保知識深度?;趫D書被引特征參數(shù),可為圖書多維度的關(guān)聯(lián)提供數(shù)據(jù)支撐,增強關(guān)聯(lián)路徑的發(fā)散性和縱深性,構(gòu)建一個系統(tǒng)、全面、周密的圖書關(guān)聯(lián)網(wǎng)絡(luò)。
不同于以往專注圖書的引文評價研究,本文的落腳點更加關(guān)注引文評價結(jié)果的應(yīng)用探究,將引文對圖書內(nèi)容、應(yīng)用、價值的呈現(xiàn),反映到圖書管理服務(wù)過程。為此,本文首先綜合了前人在數(shù)量和內(nèi)容上的引文分析方法,利用圖書豐富的引證文獻(xiàn),從引文挖掘視角分析了當(dāng)下圖書服務(wù)管理模式的特點。在圖書的引文數(shù)量分布、時間分布、主題分布、關(guān)聯(lián)程度等方面,通過揭示G類圖書的被引行為特征,展現(xiàn)了該類圖書的內(nèi)容廣度、知識深度、應(yīng)用范圍和關(guān)聯(lián)性等隱藏信息。
之后,以此視角切入當(dāng)下圖書瀏覽點擊、借閱采購等具體應(yīng)用場景,發(fā)現(xiàn)圖書資源的借閱瀏覽行為具備很強的隨意性,讀者對該領(lǐng)域圖書內(nèi)容的廣度和深度分布認(rèn)識不足,圖書服務(wù)模式應(yīng)依據(jù)讀者學(xué)術(shù)背景提高精準(zhǔn)個性化指導(dǎo);此外,管理員傾向于采購入藏知識面廣泛的圖書,在未來應(yīng)根據(jù)圖書館性質(zhì)適當(dāng)引入深入前沿的圖書,并結(jié)合圖書的主題分布重合度和知識深度,提供個性化的推薦服務(wù)。因此,從引文挖掘視角看待當(dāng)下圖書服務(wù)管理模式,有利于為圖書館精準(zhǔn)推薦、采購入藏圖書提供學(xué)術(shù)依據(jù),降低讀者擇書成本,優(yōu)化館藏資源質(zhì)量。
然而,本文僅以南京大學(xué)圖書館館藏資源中的G類圖書為研究樣本,針對不同地區(qū)、不同類型圖書館、不同學(xué)科圖書引證文獻(xiàn)的特征以及應(yīng)用價值,仍有待于后續(xù)進(jìn)一步擴(kuò)展研究范圍予以驗證探討,斟酌將圖書引證數(shù)據(jù)全面納入圖書評價關(guān)聯(lián)體系的可行性。