彭賢哲 周海玲 石 進(jìn)
(南京大學(xué)信息管理學(xué)院,江蘇 南京 210023)
圖書作為人類用以表達(dá)觀點(diǎn)、保存信息、傳播知識(shí)的載體,是學(xué)術(shù)研究和文化學(xué)習(xí)過程中不可或缺的資源,如何從眾多良莠不齊的圖書中快速識(shí)別并選取高價(jià)值的作品,是圖書出版商、圖書館、學(xué)術(shù)界以及科研管理部門等共同面臨的難題[1]。當(dāng)前的圖書價(jià)值評(píng)價(jià)方法,主要從被引頻次[2]、館藏?cái)?shù)量[3]、專家書評(píng)[4]、引文內(nèi)容[5]、讀者評(píng)論[6]等方面展開。其中,學(xué)術(shù)文獻(xiàn)對(duì)圖書的引用行為,直觀地展現(xiàn)了學(xué)術(shù)界對(duì)于圖書的認(rèn)識(shí)與流傳程度,挖掘圖書引證文獻(xiàn)的隱藏特點(diǎn),有助于了解圖書的知識(shí)側(cè)重方向、領(lǐng)域認(rèn)可程度和學(xué)術(shù)應(yīng)用價(jià)值。
本文擬通過由圖書引文記錄展現(xiàn)的引用類型、引用規(guī)律和引文網(wǎng)絡(luò),計(jì)量圖書涵蓋知識(shí)廣度和深度、學(xué)界流傳程度、應(yīng)用時(shí)效性等,從該類視角下分析圖書館記錄的借閱、瀏覽、采購(gòu)行為的現(xiàn)狀,并提出針對(duì)性的管理服務(wù)策略,優(yōu)化服務(wù)模式,提供圖書入藏參考建議。
“選”“采”“用”是圖書庫(kù)建設(shè)的3個(gè)閉環(huán)發(fā)展環(huán)節(jié)[7],而“選”作為圖書采購(gòu)過程的依據(jù),如何確定圖書選擇標(biāo)準(zhǔn)、檢驗(yàn)入藏圖書的優(yōu)劣十分關(guān)鍵。圖書質(zhì)量評(píng)價(jià)為“選”的重要參考維度,其中脫胎于期刊評(píng)價(jià)的引證分析法,同樣適用于學(xué)術(shù)圖書評(píng)價(jià)。
通過引證分析法評(píng)價(jià)圖書質(zhì)量的實(shí)踐工作,率先在外文圖書中展開。2011年,Thomson Reuters[8]正式發(fā)布類似SCI和SSCI的圖書引文索引(Book Citation Index,BKCI),但收錄擇選圖書僅2.5萬種,數(shù)量相對(duì)較少。Gorraiz J等[9]指出,BKCI尚不適用于文獻(xiàn)計(jì)量分析和學(xué)術(shù)評(píng)價(jià),齊東峰等[10]不認(rèn)可該觀點(diǎn),認(rèn)為引文分析作為圖書評(píng)價(jià)及參考工具具備可行性。劉曉娟等[11]挑選了BKCI收錄的出版于2005—2015年的學(xué)術(shù)著作,分析了圖書出版量、被引頻次的大小與分布以及學(xué)術(shù)著作的被引模式隨出版年份和學(xué)科領(lǐng)域的變化情況。Zuccala A A等[12]研究Scopus在2007—2011年收錄的604種歷史論文的參考文獻(xiàn)中的圖書,發(fā)現(xiàn)圖書的被引量與Goodreads閱讀評(píng)級(jí)為弱相關(guān),支持引文分析可用于圖書評(píng)價(jià);為此,Zuccala A等[4]將書評(píng)、學(xué)術(shù)性引用指標(biāo)作為學(xué)術(shù)圖書的質(zhì)量指標(biāo),采用機(jī)器學(xué)習(xí)的方法全面評(píng)估圖書的影響力。Kousha K等[13]比較了10個(gè)學(xué)科圖書在Google Books、Google Scholar和Scopus 3種數(shù)據(jù)來源的圖書的引用數(shù)據(jù)差異,指出三者的引用頻次高度相關(guān)。上海交通大學(xué)基于Scopus開發(fā)研制的《2019年外文學(xué)術(shù)圖書引證報(bào)告》展示了近年來的高被引圖書和高影響力出版社[14]。張軼華等[7]研究如何將高被引圖書和高影響力出版社的引證分析與上海交通大學(xué)圖書館實(shí)際需求相結(jié)合,構(gòu)建高品質(zhì)外文學(xué)術(shù)圖書保障體系。
對(duì)于中文圖書引證行為的研究,起步較晚且相對(duì)較少。如蘇新寧[2]基于《中國(guó)社會(huì)科學(xué)引文索引》探討人文社科各學(xué)科圖書的被引情況。北京世紀(jì)讀秀技術(shù)有限公司2017年發(fā)布的圖書引用報(bào)告從高被引圖書、高被引作者、出版社等方面分析了中文圖書引用情況[15]。肖宏等[16]基于中國(guó)知網(wǎng)分析了哲學(xué)社科類圖書的引證狀況。葉繼元[17]闡述了我國(guó)自主研制《中文圖書引文索引》的過程及意義。李明等[18]探索性地分析了中文學(xué)術(shù)圖書被引頻次及其Altmetrics指標(biāo)間的關(guān)系,為新型學(xué)術(shù)交流環(huán)境下中文學(xué)術(shù)圖書影響力綜合評(píng)價(jià)指標(biāo)體系的合理構(gòu)建提供了事實(shí)參考依據(jù)。章成志等[1]從亞馬遜中文網(wǎng)站上選取計(jì)算機(jī)、法律、醫(yī)學(xué)、文學(xué)和體育5個(gè)學(xué)科領(lǐng)域的中文圖書,從引文內(nèi)容角度對(duì)圖書被引行為進(jìn)行分析,進(jìn)一步提高了圖書評(píng)價(jià)結(jié)果的準(zhǔn)確性和科學(xué)性。為更好地利用圖書引證文獻(xiàn)的潛在信息,Zhou Q等[19]收集了上述5個(gè)學(xué)科圖書的引證文獻(xiàn)記錄,通過對(duì)引文文獻(xiàn)細(xì)粒度分析,反映了被引圖書的影響范圍或主題,并將其與現(xiàn)有的圖書影響力評(píng)估指標(biāo)進(jìn)行比較,印證了引文文獻(xiàn)用于圖書影響力評(píng)估的有效性。
總結(jié)已有研究,引文分析的研究視角從以往的引用頻次分析,現(xiàn)已逐步擴(kuò)展到對(duì)引文內(nèi)容等深層次方面的研究;分析維度從之前專注于引證文獻(xiàn)的數(shù)量分布、時(shí)間分布等直觀指標(biāo),逐步轉(zhuǎn)向深入挖掘圖書被引行為的潛在特征,但深入挖掘引證文獻(xiàn)的研究相對(duì)較少。外文圖書引文數(shù)據(jù)的易獲取性、詳細(xì)性,使得早期研究的引文分析對(duì)象集中于外文圖書,對(duì)中文圖書的類似探索于近些年方才展開。此外,已有研究多注重于如何完善引文分析方法深度、廣度及準(zhǔn)確度,少有如何將分析結(jié)果服務(wù)于現(xiàn)實(shí)場(chǎng)景的應(yīng)用性探究,有待于將圖書引文分析結(jié)果投入到中文圖書管理服務(wù)應(yīng)用場(chǎng)景。
本文以中文圖書為研究對(duì)象,從引用類型、引用規(guī)律、引用網(wǎng)絡(luò)等角度,全面揭示圖書被引行為的隱性特點(diǎn),如學(xué)界認(rèn)可度、知識(shí)廣度、知識(shí)深度、知識(shí)距離等,進(jìn)而描述、評(píng)價(jià)、關(guān)聯(lián)圖書,以此角度分析當(dāng)前瀏覽、借閱、采購(gòu)過程中圖書質(zhì)量的分布狀況,提出針對(duì)性建議,并將由引文分析構(gòu)建的圖書評(píng)價(jià)關(guān)聯(lián)體系納入圖書“選”“采”“用”3個(gè)環(huán)節(jié)的參考依據(jù),提升圖書庫(kù)建設(shè)質(zhì)量。
2.1.1 南京大學(xué)圖書館書目資源
圖書館數(shù)字化與信息化進(jìn)程中產(chǎn)生的讀者活動(dòng)記錄、書目記錄、館藏記錄等服務(wù)記錄[20],為研究圖書引用行為提供了充分的數(shù)據(jù)支撐。南京大學(xué)圖書館館藏豐富,經(jīng)長(zhǎng)期積累,形成了比較系統(tǒng)、完整的綜合性的藏書體系,截至2021年12月,該館館藏中文圖書444.64萬冊(cè)。其中,G類(文化、科學(xué)、教育、體育)圖書由于文理知識(shí)兼具、學(xué)科交叉性強(qiáng)、種類齊全、借閱頻繁、館藏豐富,產(chǎn)生了大量的圖書服務(wù)采購(gòu)記錄,為研究圖書管理服務(wù)現(xiàn)狀提供了詳實(shí)的數(shù)據(jù)參考。
本文采集了南京大學(xué)圖書館紙質(zhì)館藏資源中的G類圖書總計(jì)46 976本,包括書目數(shù)據(jù)、全國(guó)館藏?cái)?shù)據(jù)、讀者借閱數(shù)據(jù)、讀者點(diǎn)擊數(shù)據(jù)。其中,書目數(shù)據(jù)包括書名、主題詞、圖書摘要、作者、中圖分類號(hào)、圖書館館藏?cái)?shù)量、出版年份、版次信息等;讀者借閱數(shù)據(jù)主要為該類圖書近10年被借閱的次數(shù)分布,直接反映了圖書不同時(shí)間段在讀者群中的熱度變化;全國(guó)館藏?cái)?shù)據(jù)指該類圖書入藏各大圖書館的分布情況,側(cè)面表現(xiàn)了圖書的傳播輻射范圍。
2.1.2 中文學(xué)術(shù)圖書引文索引庫(kù)
圖書作為知識(shí)傳播最重要的媒介之一,完整的引文分析體系有必要納入圖書引文的被引分析內(nèi)容,圖書引文索引數(shù)據(jù)庫(kù)的建立是對(duì)已有引文數(shù)據(jù)庫(kù)平臺(tái)數(shù)據(jù)的一種補(bǔ)充,對(duì)于完善已有引文分析體系具有重要意義[21]。南京大學(xué)中國(guó)社會(huì)科學(xué)研究評(píng)價(jià)中心2015年發(fā)布了“中文學(xué)術(shù)圖書引文索引”(Chinese Book Citation Index,CBKCI)入選圖書數(shù)據(jù),涉及11個(gè)學(xué)科,近600家出版社出版的圖書,該數(shù)據(jù)庫(kù)覆蓋人文、社會(huì)科學(xué)的全部學(xué)科,可用于檢索中文社會(huì)科學(xué)領(lǐng)域的圖書收錄和圖書被引用情況[22]。
本文根據(jù)已采集的南京大學(xué)圖書館G類紙質(zhì)圖書書目數(shù)據(jù),依據(jù)書名、作者、出版年份,構(gòu)建了圖書在中文學(xué)術(shù)圖書引文索引庫(kù)檢索平臺(tái)的檢索式,共獲取5 200本圖書的引文數(shù)據(jù),總計(jì)32 689條引文記錄。
2.2.1 圖書半衰期計(jì)算
某學(xué)科圖書在T年的引用半衰期,是指該學(xué)科圖書在T年(1年時(shí)間內(nèi))所引用的全部參考文獻(xiàn)中較新一半是在最近(以T-1年為最近第一年)多長(zhǎng)一段時(shí)間內(nèi)出版或發(fā)表的[23]。學(xué)科圖書引用半衰期反映了學(xué)科圖書利用文獻(xiàn)的新穎度,體現(xiàn)了圖書近來被參考利用的頻度,可用于測(cè)定學(xué)科圖書的老化速度。根據(jù)其定義得出對(duì)應(yīng)的計(jì)算公式如式(1)所示:
(1)
其中,C為累計(jì)被引頻次最接近并小于50%的那年的累計(jì)被引百分比,D為累計(jì)被引頻次最接近并大于50%的那年的累計(jì)被引百分,Y為累計(jì)被引百分比為C的那年到最近被引那年的間隔年數(shù)。
2.2.2 圖書主題分布衡量
1)LDA主題聚類
LDA模型指使用貝葉斯估計(jì)的統(tǒng)計(jì)學(xué)方法,將文本集中每篇文本的主題按照概率分布的形式表示的方法。作為一種無監(jiān)督學(xué)習(xí)算法,LDA聚類模型的優(yōu)勢(shì)在于無需標(biāo)注訓(xùn)練集,僅需指定最優(yōu)主題聚類數(shù)量。在本文中,主要利用了文獻(xiàn)的標(biāo)題和關(guān)鍵詞,通過限定主題聚類個(gè)數(shù)的變化范圍,構(gòu)建困惑度與主題數(shù)的折線圖,在此基礎(chǔ)上,利用“折肘法”確定主題數(shù)N,通過Gensim的LDA模型對(duì)文獻(xiàn)進(jìn)行主題表示,進(jìn)而獲得每篇文獻(xiàn)隸屬于各個(gè)主題的概率,構(gòu)建文獻(xiàn)—主題概率矩陣,得到每本被引圖書或每篇引證論文的主題概率表示。
2)文獻(xiàn)主題分布情況衡量
一篇完整的文獻(xiàn)一般涵蓋多個(gè)主題,尤其是知識(shí)面較為廣泛的圖書載體,如何衡量文獻(xiàn)的知識(shí)面廣度,一定程度上決定了圖書的應(yīng)用面廣度。文獻(xiàn)的主題概率分布曲線直觀體現(xiàn)了文獻(xiàn)的主題側(cè)重點(diǎn),單峰主題分布曲線表示內(nèi)容點(diǎn)單一,而多峰曲線則展現(xiàn)了文獻(xiàn)內(nèi)容的多方側(cè)重特點(diǎn)。因此,主題分布曲線的差異分布特點(diǎn),可側(cè)面表現(xiàn)文獻(xiàn)的知識(shí)廣度[24]。本文納入主題概率分布方差衡量曲線的差異分布,進(jìn)而評(píng)估圖書或論文的知識(shí)廣度,具體如下:
(2)
式(2)中,M為L(zhǎng)DA聚類的主題總數(shù),pi為圖書屬于第i個(gè)主題的概率,pmax、pmin分別為圖書主題概率分布中的最大值和最小值,該值越小,圖書涵蓋知識(shí)越廣。
此外,圖書應(yīng)用面的廣度亦可采用類似的計(jì)量方法,由圖書引證文獻(xiàn)的主題概率分布狀態(tài)所表示,公式如下:
(3)
式(3)中,M為L(zhǎng)DA聚類的主題總數(shù),N為圖書的引證文獻(xiàn)篇數(shù),pij為圖書的第j個(gè)引證文獻(xiàn)屬于第i個(gè)主題的概率,pmax、pmin分別為圖書主題概率分布中的最大值和最小值,該值越小,圖書應(yīng)用面越廣。
單一主題的圖書與多主題的圖書相比,在獲得相同引用數(shù)基礎(chǔ)上,談及的內(nèi)容通常更為深入[24]。為此,圖書的主題概率分布狀況通過結(jié)合圖書引文數(shù),可體現(xiàn)圖書談及知識(shí)的深度,公式如下:
(4)
式(4)中,M為L(zhǎng)DA聚類的主題總數(shù),N為圖書的引證文獻(xiàn)篇數(shù),該值越大,圖書談及知識(shí)越深入。
3)文獻(xiàn)主題相似度計(jì)算
在獲取完圖書的主題概率分布表達(dá)式之后,可引入余弦相似度評(píng)估兩本圖書的內(nèi)容相似度,計(jì)算式為:
(5)
M為L(zhǎng)DA聚類的主題總數(shù),p1i、p2i分別為第1本和第2本圖書隸屬于第i個(gè)主題的概率,該值越高,兩本圖書越相似。
此外,KL/JS散度作為常用的衡量數(shù)據(jù)概率分布的數(shù)值指標(biāo)[25],可用于衡量?jī)杀緢D書概率分布特征的相似度,其具體計(jì)算公式如下:
(6)
(7)
M為L(zhǎng)DA聚類的主題總數(shù),P、Q為兩本圖書的主題概率列表,P(x)、Q(x)為兩本圖書隸屬于第x個(gè)主題的概率,該值越大,兩本圖書內(nèi)容越相似。
2.2.3 圖書關(guān)聯(lián)程度評(píng)估
將采集的圖書書目結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù)之后,圖書與圖書之間并非孤立單一的,均有相應(yīng)的關(guān)聯(lián)路徑,圖書產(chǎn)生關(guān)聯(lián)的原因包括但不限于談及相同內(nèi)容、來自相同作者、涉及知識(shí)具備承接性或鄰近性等。為此,可引入圖書關(guān)聯(lián)路徑相關(guān)指標(biāo),如路徑條數(shù)、路徑距離、平均路徑距離、關(guān)聯(lián)度,進(jìn)而評(píng)估圖書之間的關(guān)聯(lián)程度,具體含義如表1所示。
表1 圖書之間的路徑距離和主題相似度衡量指標(biāo)
引用行為是指在各種因素影響下,學(xué)術(shù)文獻(xiàn)作者在科研寫作時(shí)參考或者借鑒其他學(xué)術(shù)文獻(xiàn)并加以標(biāo)注說明的學(xué)術(shù)行為[26]。分析圖書被引行為特征,可展現(xiàn)學(xué)科領(lǐng)域?qū)D書的利用、反饋、傳播情況,揭示圖書之間的關(guān)聯(lián)程度,為圖書的評(píng)價(jià)推薦提供參考依據(jù)。
從G類圖書被引數(shù)據(jù)的學(xué)科分布特點(diǎn)來看,不同學(xué)科對(duì)圖書的認(rèn)可比例差異較大,且并不受該學(xué)科圖書總數(shù)的影響。G2類(信息與知識(shí)傳播)館藏圖書數(shù)量最多,其被引用圖書數(shù)量也相應(yīng)最多,圖書被引比例僅約12%;而G1類(世界各國(guó)文化與文化事業(yè))、G6類(各級(jí)教育)圖書館藏?cái)?shù)量較多,但被引比例較低;G0類(文化理論)圖書雖然圖書館藏?cái)?shù)量較少,但被引比例最高。圖書引用數(shù)量符合“二八定律”,南大圖書館館藏G類圖書總體引用比約為11.1%,細(xì)究其下轄的二級(jí)學(xué)科分布情況,引用比在6%~17%范圍內(nèi)。由于出版圖書在內(nèi)容上存在一定比例的同質(zhì)化,冗余的存在使得在學(xué)術(shù)研究過程中圖書的借鑒參考比例相對(duì)較低,一般僅選擇20%以內(nèi)的出版圖書作為該領(lǐng)域代表性的參考。
圖書引用行為分為自引和他引兩類,其中自引根據(jù)其動(dòng)機(jī)可分為合理自引和不當(dāng)自引兩類[27],二者并非涇渭分明,一般難以識(shí)別。自引的影響力相比他引是有限的,為此,科學(xué)評(píng)價(jià)是否應(yīng)納入自引行為,其權(quán)重該如何設(shè)定,均有待估量[28]。研究自引行為在引文系統(tǒng)中的比例,衡量自引行為的普遍性特點(diǎn),有助于展現(xiàn)圖書自引現(xiàn)象在圖書引文評(píng)價(jià)中的地位。
他引行為和自引行為的比例均符合“二八定律”,應(yīng)將自引行為納入圖書引文評(píng)價(jià)。分析從中文學(xué)術(shù)圖書引文索引庫(kù)引文記錄發(fā)現(xiàn),自引發(fā)生比例約為13.2%,從不同二級(jí)學(xué)科自引圖書分布比例來看,自引圖書占比基本保持在10%~14%以內(nèi),差異較小。他引行為依舊是圖書引文評(píng)價(jià)的主體依據(jù),由此構(gòu)成的圖書評(píng)價(jià)體系仍具有一定代表性和客觀性;自引行為在圖書引用現(xiàn)象中占有一定比例,應(yīng)將其作為圖書引文評(píng)價(jià)體系的一環(huán)。
圖書自引率為圖書自引期刊論文數(shù)量與圖書引用量的比值,計(jì)算篩選存在自引現(xiàn)象的686本圖書的自引率后發(fā)現(xiàn),所有二級(jí)學(xué)科圖書的自引率與引用量存在一定的負(fù)相關(guān)關(guān)系,高自引率圖書的引用量一般較少,說明用引文分析的方法評(píng)價(jià)低引用量的圖書難免會(huì)受到自引現(xiàn)象的干擾,而高引用量的圖書自引率較低,由此展開的引文分析雖然涵蓋了少量自引現(xiàn)象,但仍是較為客觀公正的。
跨學(xué)科引用側(cè)面反映G類學(xué)科與其他學(xué)科的擴(kuò)散距離,分析引文記錄發(fā)現(xiàn),不同二級(jí)學(xué)科圖書同學(xué)科引用現(xiàn)象占比變化范圍為39%~96%,G8類(體育)學(xué)科94.31%的引證文獻(xiàn)屬于G類,發(fā)散性最低;G0類(文化理論)學(xué)科40.6%的引證文獻(xiàn)屬于G類,發(fā)散性最高。整體分析G類圖書引證文獻(xiàn)的跨學(xué)科分布特征,C類(社會(huì)科學(xué)總論)、D類(政治、法律)、I類(文學(xué))和K類(歷史、地理)文獻(xiàn)對(duì)其的引用現(xiàn)象最為顯著。
每本圖書跨學(xué)科引用率定義為圖書跨學(xué)科引證期刊論文數(shù)量與圖書引用量的比值。結(jié)果表明,在不同二級(jí)學(xué)科所轄圖書中,跨學(xué)科引用率較高的圖書的引用量一般較低,以G2、G4、G8類圖書為代表,當(dāng)然個(gè)別二級(jí)學(xué)科圖書中不乏同時(shí)具備較高的引用量和跨學(xué)科引用率的現(xiàn)象,如G3、G7類圖書。由此說明,兼具高度學(xué)科發(fā)散性和高認(rèn)可度的圖書僅是個(gè)例,發(fā)生跨學(xué)科引用行為的圖書的引用量較低,并未受到學(xué)界廣泛的認(rèn)可。
圖書被引行為特點(diǎn),反映出圖書在科學(xué)交流、知識(shí)繼承與學(xué)科發(fā)展過程中的普遍規(guī)律,也可為科學(xué)評(píng)價(jià)、科技管理和科技政策制定等行為提供參考依據(jù)。為此,本文從圖書的引用量、引用半衰期、主題數(shù)、圖書主題概率分布方差、引證文獻(xiàn)主題概率分布方差、深度值6個(gè)角度,展現(xiàn)了圖書被引行為的特點(diǎn)。
圖書的被引特征,可從數(shù)量、時(shí)間、知識(shí)廣度、知識(shí)深度4個(gè)層面加以限定。其中引用量即為其數(shù)量特征,引用半衰期為引用數(shù)在時(shí)間上的分布特征,圖書主題概率分布方差代表圖書內(nèi)容涉及主題的廣度,圖書引證文獻(xiàn)涉及主題數(shù)、主題概率分布方差指示圖書應(yīng)用方向的廣度,圖書深度借助引用量反映了圖書在特定主題的深度。
利用LDA主題聚類分析5 200本圖書和27 834篇引證論文的標(biāo)題和關(guān)鍵詞,獲得共計(jì)19個(gè)主題,如圖6所示。此外,由于圖書半衰期的計(jì)算方法,無法衡量施引文獻(xiàn)集中在同一年(短暫熱度)和最近施引文獻(xiàn)占比超過50%(未表現(xiàn)衰退趨勢(shì))的圖書,故對(duì)該兩類圖書做了初步的統(tǒng)計(jì),如圖7所示,未表現(xiàn)被引衰退趨勢(shì)的圖書很少,短暫熱度圖書數(shù)量不菲,說明圖書“曇花一現(xiàn)”的現(xiàn)象較為普遍。
從G類圖書被引行為6類特征分布特點(diǎn)來看,如圖8所示,圖書的被引量主要分布于50篇以內(nèi)。不同學(xué)科圖書的半衰期分布特點(diǎn)較為一致,均保持在2~6年的范圍內(nèi),最長(zhǎng)約在10年左右。圖書涉及主題的范圍較廣,單一主題圖書較少,側(cè)面印證了圖書這種信息載體涵蓋知識(shí)的系統(tǒng)性和全面性。圖書引證文獻(xiàn)主題概率相比圖書主題概率分布的方差增大明顯,說明圖書的引證文獻(xiàn)較多地關(guān)注圖書的某一方面主題,使得主題概率分布出現(xiàn)峰值突出的現(xiàn)象,增大了方差值。圖書每個(gè)主題的綜合認(rèn)可度并不高,單個(gè)主題的平均被引量一般小于5篇。
進(jìn)一步分析引用行為特征的關(guān)聯(lián)性,可全面了解圖書被引行為的“全貌”。結(jié)果表明,圖書被引半衰期與引用量關(guān)系較弱,圖書引用量的提高同時(shí)印證了圖書應(yīng)用主題的高度縱深;而圖書主題概率分布方差作為圖書固有的知識(shí)屬性,與引用量關(guān)系并不相關(guān);隨著引用量的提升,該書的主題發(fā)散程度輕微加強(qiáng),致使引證文獻(xiàn)主題概率分布方差發(fā)生輕微程度地降低,涵蓋主題數(shù)相應(yīng)增多。
圖書之間的耦合關(guān)系,在一定程度反映了兩本圖書的相似性或者關(guān)聯(lián)度大小[29],引入圖書路徑距離和圖書主題相似度等指標(biāo),可展現(xiàn)耦合次數(shù)對(duì)圖書相似性或關(guān)聯(lián)性的反映狀況。
結(jié)果如圖10所示,兩本圖書的耦合次數(shù)一般限定在10次以內(nèi),二者之間的主題相似度和距離關(guān)聯(lián)度并不確定。耦合次數(shù)在10次以上的兩本圖書之間,主題余弦相似度和JS相似度為1,二者反映的主題內(nèi)容高度匹配,二者相連路徑條數(shù)不定;平均路徑距離約為3,一般僅間隔1個(gè)圖書節(jié)點(diǎn),關(guān)聯(lián)度變化范圍為0.5~1.5,在圖數(shù)據(jù)庫(kù)中表現(xiàn)為圖書之間至少存在兩條距離小于2的路徑。這個(gè)結(jié)果表明,存在耦合關(guān)系的兩本圖書之間關(guān)聯(lián)較為緊密,有助于實(shí)現(xiàn)圖書的精準(zhǔn)關(guān)聯(lián)推薦,但對(duì)于發(fā)散性的圖書擴(kuò)展推薦服務(wù)略顯不足。
圖1 不同學(xué)科被引用圖書數(shù)量占比
圖2 不同學(xué)科圖書自引率
圖3 不同二級(jí)學(xué)科圖書自引率—引用量分布
圖4 被引圖書—施引文獻(xiàn)的學(xué)科對(duì)應(yīng)關(guān)系
圖6 基于圖書和引證文獻(xiàn)的標(biāo)題和關(guān)鍵詞構(gòu)建的LDA模型聚類結(jié)果
圖7 不同學(xué)科無法計(jì)算半衰期的圖書數(shù)量
圖8 不同二級(jí)學(xué)科圖書被引行為特征分布
圖10 圖書引文耦合網(wǎng)絡(luò)及參數(shù)特征
圖11 圖書點(diǎn)擊、借閱數(shù)據(jù)與被引特征的關(guān)聯(lián)性
圖12 圖書全國(guó)館藏?cái)?shù)與被引特征的關(guān)聯(lián)性
圖書引文耦合網(wǎng)絡(luò)的特征表明,圖書之間內(nèi)容越相似,期刊論文在引用多本圖書時(shí),存在綜合引用相似內(nèi)容圖書的習(xí)慣??偨Y(jié)而論,圖書耦合關(guān)系展現(xiàn)的是二者高度的主題相似度、關(guān)聯(lián)度,主題分布存在重合、在知識(shí)庫(kù)中距離相近是兩本圖書存在耦合的必要條件。這說明核心文獻(xiàn)對(duì)多本圖書的引用行為注重相同內(nèi)容的對(duì)比參照,而非相關(guān)知識(shí)的整合補(bǔ)全,更多強(qiáng)調(diào)挖掘圖書知識(shí)深度,可利用圖書的耦合關(guān)系為讀者提供深入式閱讀的推薦服務(wù)。
科學(xué)文獻(xiàn)之間通過參考與引證行為相互聯(lián)系,其中,參考現(xiàn)象展現(xiàn)了一篇科學(xué)文獻(xiàn)研究工作的背景和依據(jù),而引證現(xiàn)象則反映了一篇科學(xué)文獻(xiàn)研究工作的繼續(xù)、應(yīng)用、發(fā)展或用于評(píng)價(jià)該篇科學(xué)文獻(xiàn)[30]。期刊論文對(duì)圖書的參考行為與引證效應(yīng),從一定程度上直接表現(xiàn)了圖書的學(xué)術(shù)質(zhì)量、應(yīng)用價(jià)值、知識(shí)深度、應(yīng)用范圍等,因而可為讀者閱覽選擇圖書、管理者采購(gòu)引進(jìn)圖書、系統(tǒng)關(guān)聯(lián)推薦圖書提供豐富的參考信息。
圖書借閱是圖書館最傳統(tǒng)、最基礎(chǔ)的服務(wù)[31],在該過程中會(huì)產(chǎn)生點(diǎn)擊量、借閱量等相關(guān)數(shù)據(jù),展現(xiàn)了廣大讀者的閱讀傾向和興趣所在。為此,本文探析了南京大學(xué)圖書館服務(wù)系統(tǒng)記錄的點(diǎn)擊、借閱數(shù)據(jù),通過將其與圖書被引特征關(guān)聯(lián)分析,探析讀者在選擇圖書時(shí)是否了解該圖書的應(yīng)用廣度、知識(shí)深度、學(xué)術(shù)認(rèn)可度。
從圖書點(diǎn)擊、借閱數(shù)據(jù)與被引特征的關(guān)聯(lián)性分析來看,讀者對(duì)圖書的點(diǎn)擊量、借閱量與圖書被引半衰期、深度值、引用量、圖書主題概率分布方差、引證文獻(xiàn)概率分布方差、主題數(shù)相關(guān)性差。這說明大部分讀者在服務(wù)端口略覽、借閱圖書資源時(shí),具備很強(qiáng)的隨意性,缺乏對(duì)該方向圖書分布的認(rèn)識(shí),在擇書時(shí)缺乏參考依據(jù),一定程度上提高了讀者找尋目標(biāo)圖書付出的各項(xiàng)成本,易出現(xiàn)“找錯(cuò)書、讀錯(cuò)書”的問題。
鑒于目前讀者擇書的困境,有必要采集讀者個(gè)性化數(shù)據(jù)提供精準(zhǔn)服務(wù),依據(jù)讀者的學(xué)術(shù)背景信息、過往閱覽歷史等,結(jié)合圖書應(yīng)用主題的方向,為初學(xué)者提供主題分布廣、知識(shí)深度淺、體系相對(duì)成熟的圖書,為科研人員推薦主題分布集中、前沿性強(qiáng)的圖書。衡量圖書被引特征的這些指標(biāo),通過描述圖書蘊(yùn)含知識(shí)的廣度、深度、認(rèn)可度,為圖書的推薦過程提供了一系列參考依據(jù),有助于提高圖書館系統(tǒng)服務(wù)的精準(zhǔn)性。
圖書在全國(guó)各大圖書館的館藏分布,即現(xiàn)有多少家圖書館入藏該本圖書,一定程度上說明了圖書被收藏入館的意愿,代表了圖書館管理人員采購(gòu)圖書的傾向。了解圖書館傾向采購(gòu)的圖書被引特征,可展現(xiàn)目前廣泛入藏圖書的整體質(zhì)量,有助于后續(xù)進(jìn)一步采購(gòu)圖書入館、優(yōu)化館藏資源,提高圖書館服務(wù)質(zhì)量。
分析圖書全國(guó)館藏?cái)?shù)與被引特征的關(guān)聯(lián)性,被全國(guó)圖書館廣泛入藏(≥500家)的圖書被引半衰期、深度值、引用量、主題數(shù)分布未呈現(xiàn)規(guī)律性,但圖書主題概率分布方差、引證文獻(xiàn)主題概率分布方差普遍較低。這個(gè)結(jié)果表明,各大圖書館在采購(gòu)圖書入館時(shí),優(yōu)先考慮圖書知識(shí)廣度和應(yīng)用范圍,未過多權(quán)衡圖書的知識(shí)深度和在科研領(lǐng)域的認(rèn)可度,便于不同知識(shí)背景的讀者均可在圖書館獲取到與其相匹配的圖書,快速拓展知識(shí)視野。
圖書館采購(gòu)知識(shí)覆蓋面廣泛的圖書,雖能促進(jìn)閱讀推廣的實(shí)施,但對(duì)于具備科研應(yīng)用場(chǎng)景的圖書館,如高校圖書館、科研機(jī)構(gòu)圖書館等,在采購(gòu)時(shí)仍需入藏一定比例深入前沿的圖書。因此,不同性質(zhì)圖書館由于側(cè)重點(diǎn)不同,在采購(gòu)圖書時(shí)可動(dòng)態(tài)性考量圖書被引特征,保證圖書館館藏圖書的分布特點(diǎn)適于其應(yīng)用場(chǎng)景。
圖書的關(guān)聯(lián)在知識(shí)的延展性上可分為橫向關(guān)聯(lián)和縱向關(guān)聯(lián),前者注重從圖書談及內(nèi)容的鄰近知識(shí)予以關(guān)聯(lián),幫助讀者擴(kuò)展知識(shí)視野,后者強(qiáng)調(diào)不同深度但關(guān)聯(lián)相似知識(shí)的圖書,輔助讀者深入掌握知識(shí)。依據(jù)引證文獻(xiàn)構(gòu)建的圖書耦合網(wǎng)絡(luò),結(jié)合圖書的主題相似度參數(shù)、距離參數(shù)、深度值、廣度值,可實(shí)現(xiàn)圖書在橫向和縱向上的關(guān)聯(lián)。橫向關(guān)聯(lián)注重放寬圖書之間的距離參數(shù)、主題相似度,優(yōu)選主題泛化圖書,而縱向關(guān)聯(lián)則需限定圖書之間的緊密程度、主題相似度,過濾出專業(yè)化圖書。
此外,圖書內(nèi)容在橫向和縱向上的關(guān)聯(lián),亦可映射在圖書應(yīng)用方向上,根據(jù)圖書引證文獻(xiàn)主題數(shù)、主題概率分布參數(shù),可展現(xiàn)圖書應(yīng)用主題分布特征。據(jù)此,在橫向上推薦與此相關(guān)的多主題圖書,保證知識(shí)廣度,在縱向上關(guān)聯(lián)核心主題的高引用量圖書,確保知識(shí)深度。基于圖書被引特征參數(shù),可為圖書多維度的關(guān)聯(lián)提供數(shù)據(jù)支撐,增強(qiáng)關(guān)聯(lián)路徑的發(fā)散性和縱深性,構(gòu)建一個(gè)系統(tǒng)、全面、周密的圖書關(guān)聯(lián)網(wǎng)絡(luò)。
不同于以往專注圖書的引文評(píng)價(jià)研究,本文的落腳點(diǎn)更加關(guān)注引文評(píng)價(jià)結(jié)果的應(yīng)用探究,將引文對(duì)圖書內(nèi)容、應(yīng)用、價(jià)值的呈現(xiàn),反映到圖書管理服務(wù)過程。為此,本文首先綜合了前人在數(shù)量和內(nèi)容上的引文分析方法,利用圖書豐富的引證文獻(xiàn),從引文挖掘視角分析了當(dāng)下圖書服務(wù)管理模式的特點(diǎn)。在圖書的引文數(shù)量分布、時(shí)間分布、主題分布、關(guān)聯(lián)程度等方面,通過揭示G類圖書的被引行為特征,展現(xiàn)了該類圖書的內(nèi)容廣度、知識(shí)深度、應(yīng)用范圍和關(guān)聯(lián)性等隱藏信息。
之后,以此視角切入當(dāng)下圖書瀏覽點(diǎn)擊、借閱采購(gòu)等具體應(yīng)用場(chǎng)景,發(fā)現(xiàn)圖書資源的借閱瀏覽行為具備很強(qiáng)的隨意性,讀者對(duì)該領(lǐng)域圖書內(nèi)容的廣度和深度分布認(rèn)識(shí)不足,圖書服務(wù)模式應(yīng)依據(jù)讀者學(xué)術(shù)背景提高精準(zhǔn)個(gè)性化指導(dǎo);此外,管理員傾向于采購(gòu)入藏知識(shí)面廣泛的圖書,在未來應(yīng)根據(jù)圖書館性質(zhì)適當(dāng)引入深入前沿的圖書,并結(jié)合圖書的主題分布重合度和知識(shí)深度,提供個(gè)性化的推薦服務(wù)。因此,從引文挖掘視角看待當(dāng)下圖書服務(wù)管理模式,有利于為圖書館精準(zhǔn)推薦、采購(gòu)入藏圖書提供學(xué)術(shù)依據(jù),降低讀者擇書成本,優(yōu)化館藏資源質(zhì)量。
然而,本文僅以南京大學(xué)圖書館館藏資源中的G類圖書為研究樣本,針對(duì)不同地區(qū)、不同類型圖書館、不同學(xué)科圖書引證文獻(xiàn)的特征以及應(yīng)用價(jià)值,仍有待于后續(xù)進(jìn)一步擴(kuò)展研究范圍予以驗(yàn)證探討,斟酌將圖書引證數(shù)據(jù)全面納入圖書評(píng)價(jià)關(guān)聯(lián)體系的可行性。