邵燕霞 張文忠
【摘要】本文采用科學計量學的出版物統(tǒng)計、著者統(tǒng)計、詞頻分析等研究方法對CNKI收錄的查收查引研究文獻進行計量分析并可視化呈現(xiàn),計量分析并可視化功能使用Python語言開發(fā)實現(xiàn)。闡述了查收查引研究現(xiàn)狀及研究內容,確定了我校圖書館開發(fā)查收查引軟件的開發(fā)方案。
【關鍵詞】查收查引;CNKI;科學計量學;計量分析;Python
查收查引服務是國內圖書館提供信息服務工作的一項重要內容,為團體或個人提供論文收錄引用的檢索分析,并出具檢索收錄報告??蒲腥藛T在科研課題申報立項、基金資助、成果鑒定、獎勵申請、職稱評定等方面均需要提供論文檢索報告,檢索報告成為評測團體或個人科研產出和水平的重要評價指標。為了提高查收查引服務質量和服務效率,國內圖書館在查收查引服務的相關方面進行了積極的探索研究和實踐,在網(wǎng)絡化、信息化和數(shù)字化的基礎上實現(xiàn)查收查引服務工作的高效高質。華北電力大學圖書館為了更好地為用戶提供查收查引服務,對查收查引研究現(xiàn)狀進行了調研和分析,通過檢索CNKI數(shù)據(jù)庫有關查收查引方面的文獻,利用Python語言對文獻進行計量分析并可視化呈現(xiàn),確定查收查引服務的研究方向和研究內容。
一、數(shù)據(jù)資源的獲取
利用CNKI中國知網(wǎng)數(shù)據(jù)庫期刊全文子庫的高級檢索,檢索策略為(主題詞:查收查引)OR(關鍵詞:代查代檢OR代檢代查OR代檢代查服務系統(tǒng)),共檢索到77篇文獻,以Refworks格式導出46條題錄數(shù)據(jù),保存為*.xls文件,樣本時間為2003年至2018年。
根據(jù)題目、關鍵詞等信息內容清洗數(shù)據(jù)后得到相關性較高的46篇論文,為了提高計量分析的準確性,需要對關鍵詞字段內容進行消歧。由于WOK檢索平臺Web of Science引文數(shù)據(jù)庫包括SCI(Science Citation Index,科學引文索引)、SSCI(Social Science Citation Index,社會科學引文索引)、CPCI-S(科學技術會議索引,原ISTP)、CPCI-SSH(社會科學及人文科學會議索引,原ISSHP),因此,SCI、SSCI、CPCI-S、ISTP、CPCI-SSH、ISSHP均替換為WOS;EI Village、工程索引替換為EI;代檢代查替換為代查代檢。
由于受查收查引主題的限制,檢索到的數(shù)據(jù)量非常小,利用現(xiàn)有辦公軟件以及文獻管理軟件Word、Excel、EndNote、NoteExpress等即可以完成對數(shù)據(jù)進行處理和統(tǒng)計。這里采用Python對文獻進行分析,僅是對我校圖書館開發(fā)的查收查引科學計量分析可視化工具軟件的一個功能應用的展示。
CNKI提供的Refworks格式題錄信息包含了論文收錄的基本信息,Python對文獻進行計量分析從CNKI提供的Refworks格式題錄信息中提取了9個字段,題錄字段含義見表1。
二、開發(fā)環(huán)境
開發(fā)環(huán)境選擇64bit Anaconda for Windows Python2.7,Anaconda是一個軟件包管理器。Anaconda集成了超過1500個Python/R數(shù)據(jù)計算相關的包,可以節(jié)省很多安裝第三方包的時間;集成了Spyder作為Python語言的集成開發(fā)環(huán)境,可以高效地開發(fā)代碼。盡管用腳本模式比圖形用戶界面(GUI)更具挑戰(zhàn)性,但它強大的標準庫還是非常有吸引力的,而且編寫少量代碼即可實現(xiàn)對文獻的計量分析并以直觀的可視化圖形方式呈現(xiàn)給用戶。Python和R均是開放源代碼的通用語言,簡單易學,代碼易于閱讀,具有解釋型、面向對象、動態(tài)數(shù)據(jù)類型等特點,并且有龐大的標準庫支持,且?guī)椭臋n完備,在數(shù)據(jù)分析和數(shù)據(jù)挖掘方面都有比較專業(yè)和全面的模塊,很多常用的功能,如文本挖掘、計量統(tǒng)計、自然語言處理、網(wǎng)絡分析、可視化分析都有相應的標準庫提供?;赑ython開發(fā)的科學計量分析工具包metaknowledge和基于R開發(fā)的科學計量分析工具包Bibliometrix提供了科學計量分析的腳本參考,對使用Python實現(xiàn)科學計量分析解決工作中實際需求非常具有參考價值。
三、研究方法
由于CNKI數(shù)據(jù)庫沒有提供文獻的參考文獻及施引文獻數(shù)據(jù)下載渠道,提供的題錄數(shù)據(jù)字段內容有限,因此采用科學計量學的出版物統(tǒng)計、著者統(tǒng)計、詞頻分析等研究方法對樣本數(shù)據(jù)進行簡單的計量分析。由于選擇的“查收查引”主題范圍過小, 沒有采用科學計量學的共現(xiàn)分析方法對關鍵詞進行共現(xiàn)分析,文中出現(xiàn)的關鍵詞共現(xiàn)表及共現(xiàn)圖僅表示關鍵詞之間共同出現(xiàn)的表面特征。計量分析的內容包括題錄數(shù)據(jù)的出版年份頻次統(tǒng)計,作者數(shù)量統(tǒng)計及合作分析,關鍵詞頻次統(tǒng)計及共現(xiàn)分析。使用我校圖書館基于Python開發(fā)的查收查引科學計量分析可視化工具軟件對46條樣本題錄數(shù)據(jù)進行計量統(tǒng)計并可視化呈現(xiàn)。
四、計量分析可視化
(一)年度發(fā)文量。2003-2018年發(fā)表的46篇文獻從提高工作效率及檢索質量的實際工作需求出發(fā),在提高論文檢索質量、利用現(xiàn)有工具提高查收查引服務效率、開發(fā)查收查引工具軟件、查收查引服務平臺及查收查引系統(tǒng)軟件等方面進行了積極的探索研究和實踐,見表2。對查收查引的研究主要有四個方面,查收查引服務、開發(fā)系統(tǒng)軟件、開發(fā)檢索平臺、開發(fā)工具軟件,另外還涉及集體成果預測、數(shù)據(jù)庫檢索技巧、機構知識庫建設等方面的研究內容。2003-2013年發(fā)文量較少,2014-2018年發(fā)文量相對增加,其中2015年最多,2018年呈現(xiàn)上升趨勢。隨著用戶對查收查引的服務質量和服務效率需求的進一步提升,預測未來開發(fā)集成服務平臺和工具軟件模塊功能的查收查引服務全流程自動化系統(tǒng)軟件將成為查收查引研究的發(fā)展趨勢。
(二)作者合作關系。通過對46篇文獻題錄中作者字段的統(tǒng)計得到作者共93人,其中2人出現(xiàn)3次,9人出現(xiàn)2次,其余出現(xiàn)一次。7人與他人合作兩次,其他合作均為一次,生成作者合作關系表和合作關系圖,見表3和圖2。從作者合作關系表及關系圖可以看出,對查收查引研究的作者合作程度低,網(wǎng)絡結構松散,作者之間溝通稀疏,沒有形成查收查引研究聯(lián)系廣泛、密切的合作模式,導致對查收查引研究成果相對分散。
(三)關鍵詞詞頻。消歧后對46篇文獻題錄中關鍵詞字段的統(tǒng)計得到關鍵詞123個,其中“查收查引”出現(xiàn)33次,
“高校圖書館”出現(xiàn)6次,“WOS”出現(xiàn)5次,“圖書館”出現(xiàn)4次。出現(xiàn)3次的有7個詞,出現(xiàn)2次的有11個詞,其余均出現(xiàn)一次,生成的關鍵詞詞云圖見圖3。從對關鍵詞詞云圖分析可以得出對查收查引的研究集中在高校圖書館及圖書館等機構;檢索的引文數(shù)據(jù)庫主要是WOS和EI;利用現(xiàn)有辦公軟件和文獻管理軟件以及開發(fā)查收查引軟件受到的關注度較高。關鍵詞中有一個“可視化分析”出現(xiàn),通過閱讀文獻了解到該文獻是對論文查收查引服務的研究文獻進行可視化分析,并不是對查收查引檢索結果進行可視化分析。關鍵詞中沒有出現(xiàn)其他有關對查收查引檢索結果可視化呈現(xiàn)的關鍵詞,因此,我校圖書館在開發(fā)查收查引工具軟件的功能實現(xiàn)中設計了對查收查引檢索結果可視化呈現(xiàn)的功能模塊,軟件實現(xiàn)了查收查引中需要整合數(shù)據(jù)、自引他引統(tǒng)計等重復性工作的自動完成,為查收查引報告提供了基礎數(shù)據(jù),并以可視化形式呈現(xiàn)收錄論文中用戶關心的關鍵信息。
(四)關鍵詞共現(xiàn)。通過對46篇文獻題錄中關鍵詞字段的統(tǒng)計得到關鍵詞123個,其中“查收查引”與“高校圖書館”
“圖書館”共現(xiàn)4次,與“引證檢索”“WOS”共現(xiàn)3次,生成關鍵詞共現(xiàn)表和共現(xiàn)圖,見表4和圖4。通過關鍵詞共現(xiàn)表及共現(xiàn)圖可以看出查收查引服務工作與高校圖書館與圖書館密切相關;引文數(shù)據(jù)庫、文獻管理軟件、辦公軟件、開發(fā)語言、數(shù)據(jù)庫平臺等方面的關鍵詞與開發(fā)查收查引系統(tǒng)、工具軟件、服務平臺的研究有關,查收查引工作流程自動化研究產生了多個研究流。
五、小結
通過對查收查引服務研究文獻的計量分析和可視化呈現(xiàn),揭示了查收查引服務的研究現(xiàn)狀,確定了我校圖書館開發(fā)查收查引工具軟件的研究方向和研究內容。得出的結論主要有以下幾點:(1)年度發(fā)文量顯示查收查引研究文獻數(shù)量呈增長態(tài)勢,受到的關注度呈上升趨勢。(2)作者合作網(wǎng)絡結構松散,作者之間溝通稀疏,揭示了查收查引研究合作空間很大,蘊含著進一步擴大合作范圍、加強合作強度的潛能。(3)關鍵詞詞頻統(tǒng)計顯示對查收查引的研究集中在高校圖書館及圖書館等機構。(4)關鍵詞共現(xiàn)網(wǎng)絡顯示開發(fā)查收查引系統(tǒng)、工具軟件、服務平臺研究的關鍵詞與查收查引密切聯(lián)系,查收查引工作流程自動化研究產生了多個研究流。(5)目前沒有針對查收查引檢索結果可視化呈現(xiàn)的文獻。
綜上所述,隨著信息技術、網(wǎng)絡技術、計算機技術的發(fā)展查收查引的服務質量和服務效率會進一步提升,查收查引服務流程自動化程度會越來越高,人工承擔的繁瑣重復性工作逐漸被軟件系統(tǒng)替代,預測未來開發(fā)查收查引服務全流程自動化的系統(tǒng)軟件將成為查收查引研究的發(fā)展趨勢。
【參考文獻】
[1]梁紅妮,胡小飛.論文查收查引服務的分析與探討[J].情報理論與實踐,2009,32(04):96-99.
[2]李曉東,盧振波.論文查收查引工具軟件的設計與實現(xiàn)[J].大學圖書館學報,2005(01):49-50+62.
[3]McLevey John,McIlroy-Young Reid.metaknowledge Software for computational research in information science, network analysis, and science of science[J].JOURNAL OF INFORMETRICS.2017,11(1):176-197.
[4]Aria Massimo,Cuccurullo Corrado.bibliometrix:An R-tool for comprehensive science mapping analysis[J].JOURNAL OF INFORMETRICS.2017,11(4):959-975.
[5]邱均平,趙蓉英,董克等.科學計量學[M].北京:科學出版社,2016.
[6]賀穎,賀玢.我國查收查引服務研究可視化分析[J].電腦知識與技術,2018,14(05):9-12.