程竹儀
本文系江蘇省社會科學基金項目“大數據環(huán)境下漢英短語級平行語料標注及知識挖掘研究”(項目編號:13XWC017) 研究成果之一
1 引言
當人們都在關注高被引論文,都在追求自己的論文能夠成為高被引論文時,是否想到低被引論文甚至零被引論文中也會“隱藏”著巨大的“金礦”。零被引論文是指在發(fā)表了一段時間(可能是一年也可能3-5年)沒有被其它論文引用或極少被人引用的論文。那么這些論文是否完全沒有價值,或這些論文都沒有影響力?當然,回答是否定的。
1965年Price曾對Science雜志上的零被引論文做過評估[1]。其后Garfield總結導致論文零被引的原因,除了太平凡、質量太低等因素使得論文未被引用以外,還可能存在因為論文廣為人知或太過優(yōu)秀超前而未被引用[2]。這樣的零被引論文若是在發(fā)表當時不受重視,而多年后被科學家重新發(fā)現并受到廣泛關注,便被稱之為科學中的睡美人,或者遲滯承認現象[2]。
鑒于國家社科基金是我國人文社科類研究課題的最高檔次,代表了我國社會科學研究的最高水平[4]。因此,筆者認為通過研究國家社科基金中的零被引項目,不僅能提高項目的管理效率,從不同角度了解項目研究成果的利用情況及其主題分布,還能進一步發(fā)現潛在的“睡美人”論文及研究方向,把握我國科研未來發(fā)展趨勢。
2 數據來源與處理
本文的數據來源主要以國家社科規(guī)劃辦公布的歷年資助項目目錄,并以此為基礎,從CNKI、維普和萬方數據庫中獲取這些項目的論文數據。
第一步數據收集。在全國哲學社會科學規(guī)劃辦的項目數據庫中獲取了1991-2014年1的所有圖書館、情報與文獻學的項目共1190項。根據基金項目的名稱或者項目批準號,從CNKI上獲取了基金資助的學術論文信息,考慮到數據的完整性,本研究又從維普和萬方數據庫中獲取了學術論文的被引信息。
其次,對所有數據進行清洗。這一部分的主要工作是對論文信息里的基金資助項目名稱和項目批準號對齊規(guī)范。對于在抓取的數據中凡是沒有標注具體時間的項目,通過人工標注上具體的年份。
對CNKI、萬方和維普三個平臺抓取到的數據進行去重、篩選和歸并,最終本研究得到論文一共6697篇。因為存在論文將基金項目放在致謝中,以及早期發(fā)表論文著錄信息不全等問,所以有部分項目實際發(fā)表過論文可能沒有被統(tǒng)計到,最終得到發(fā)表過學術論文的項目一共806項。
最后一步是對基金項目和論文主題進行深入研究。
3 圖情檔國家社科基金項目的零被引項目統(tǒng)計分析
根據數據統(tǒng)計,國家社科基金項目發(fā)表論文的高峰期是在立項后的一年以后開始,所以2013年和2014年度立項的項目發(fā)表論文相對之前立項項目相對較少,為了區(qū)別這類情況,本文分別統(tǒng)計了截止到2014年立項項目的論文成果零被引情況和截止到2012年立項項目的零被引情況,以示有所區(qū)別。
從圖1中可以看出國家社科基金立項經過了兩個階段,從1994年至2006年立項數量一直平穩(wěn)增長,而2007年以后每年立項的上漲幅度越來越大。截止到2006年立項的項目里僅有三項項目的論文成果發(fā)表后全部無人引用,在立項數目階梯性增加的2007到2012年,未被引項目也有所增長。
除了零被引項目隨著立項數量的快速增加而穩(wěn)步增長時,更值得關注的是零被引項目的主題和研究內容。零被引項目一共46項,其中有兩項重大項目。其他44項零被引項目主要可以分為四類:一是少數民族的歷史檔案建設和整理,以及西部地區(qū)的信息建設,一共10項。在這些項目中,研究對象為少數民族文獻,研究內容多是圖書館和數字資源建設、檔案建設整理和信息服務。二是中國古代典籍及其相關問題,總共有8項。這些研究對象都是古文獻、典籍,以歷史檔案文獻的整理為主。第三類研究是圍繞我國的社會情況展開,探究和解決我國目前信息管理領域所需要處理的問題,涵蓋項目13項。第四類項目以學科的技術發(fā)展和應用為主,共有項目13項,這些項目的研究主要圍繞著引文網絡、計量分析、數字圖書館技術、語義網及語義標注和理解等主題。
在這些項目之中,前兩類零被引項目的研究對象是少數民族信息建設和古代文獻,在當前是相對冷門的研究主題,但這類研究論文在學術上仍有重要價值,它們可能是“睡美人”,日后隨著古籍和民族檔案信息化建設較為完善,這個主題受到更多人關注時,論文未來可能將得到引用。
4 項目成果的零被引論文分析
僅僅對零被引項目的研究太過粗略,除了一個項目的所有論文成果均未被引用以外還存在許多項目有部分論文成果被引量為零,只有進一步深入到論文的零被引程度才能更加清楚地了解到國家社科基金的零被引情況。
在收集到的數據里,806個國家社科基金項目一個發(fā)表論文6697篇,零被引論文一共1551篇,為全部論文的23.16%,超過兩成。
根據國家社科基金項目的不同類型,表3整理了不同種類基金項目發(fā)表零被引論文的基本情況。
從表2的數據可以看出發(fā)表論文最多的是一般項目和青年項目,其中一般項目的零被引論文也是除成果文庫以外,在所有項目學術成果零被引論文占比最低的,僅有19.10%。與之相比,青年項目中的零被引論文比例則要略高一些。
在各個類型項目之中,零被引論文比例最高的是后期資助項目,其次是重大項目和西部項目。后期資助項目的學術成果主要是以中文學術專著、學術資料匯編和工具書為重。而重大項目平均每個項目發(fā)表論文數量最多,課題研究注重新穎性,范圍深入、廣泛,容易得到較為超前的論文。西部項目旨在資助西部地區(qū)社科研究工作者,重點圍繞西部地區(qū)問題開展相關研究,這一部分研究目前還只是一些基礎性工作,未來民族學和西部地區(qū)研究大力發(fā)展時,它們可能會得到更多的關注。
從圖中可以看到和立項數量增長比較相似的,從1994-2006年之間,每年項目的論文發(fā)表也處于穩(wěn)步增長。2007年的項目申請數量有一定回落。2007年到2011年每年立項項目增加速度越來越快。endprint
依據各年份項目的學術論文成果,圖3統(tǒng)計了不同年份立項項目發(fā)表論文及論文零被引的相關情況,并且計算出當年立項項目發(fā)表論文中的零被引論文百分比。
在從國家社科基金創(chuàng)建初期直到1999年,每年立項項目所發(fā)表的論文數量大致相同,零被引論文也僅有一兩篇,相對穩(wěn)定。從2000年立項項目開始發(fā)表論文和零被引論文都逐漸增加,但到2007年以后的項目零被引論文比例就增加越來越快,當然這部分項目的論文成果發(fā)表時間大也均還未滿10年。
上面所展現的是從項目立項時間角度的零被引論文情況,從論文的發(fā)表時間來看,在1994-2014年間,社科基金項目所資助發(fā)表的論文成果及論文中的零被引情況一直在變化。圖4是各年度發(fā)表的論文總成果和其中零被引論文數量對比。
從圖中可以看出自2003年以后,社科基金項目每年發(fā)表的論文穩(wěn)步上升,到2014年,當年基金發(fā)表的學術論文成果達到1017篇。而其中的零被引論文到2007年為止都上升緩慢,保持在20篇以下。而到2007年,當年發(fā)表的論文已有372篇,零被引論文占比明顯低于10%,這一結果也低于Price首次測度零被引論文的結論,他指出在論文出版后的10年窗口內,大致會有10%的論文從來沒有被引用過[1]。
自2010年開始論文成果的未被引用率才超過10%,零被引論文數量也成指數趨勢上升。其原因很可能是在2010-2014年期間發(fā)表的論文引文時間窗太短,若是以10年作為時間窗口,論文的零被引率應會有所回落。
5 結語
本文根據國家社會科學基金資助下圖書館、情報與文獻學項目的項目批準號和項目名稱,從CNKI、維普中文科技期刊數據庫和萬方學術期刊全文數據庫獲取了項目的研究論文成果,并整理出了其中的零被引論文進行分析。
從圖情檔社科項目成立至今來看,每年立項項目都在逐漸增加,而零被引項目數量很少,增長幅度也不是很大,體現了國家社科基金作為我國社會科學研究高層次水平一向受到學界及同行的認可。零被引論文雖然隨著立項數目的增加也增長了一些,但其占總體論文的比例基本能維持不變。
零被引項目的主題集中在幾個方面:一是少數民族檔案整理和少數民族地區(qū)信息資源建設;二是古籍古文獻研究;三是我國當下的信息產業(yè)、信息資源、信息技術發(fā)展等。這些研究主題本身對社會的實用性很高,而且很多研究還在基礎研究起步階段,未來還有更大的發(fā)展空間,因此才造成零被引現象,但它們可更能是潛在的睡美人現象論文。
參考文獻
[1]de Solla Price D J. Networks of Scientific Papers[J]. Science, 1965, 149(3683): 510-515.
[2]Garfield E. UNCITEDNESS-III--IMPORTANCE OF NOT BEING CITED[J]. 1973.
[3]梁立明,林曉錦,鐘鎮(zhèn),薛曉舟.遲滯承認:科學中的睡美人現象——以一篇被遲滯承認的超弦理論論文為例[J].自然辯證法通訊,2009,01:39-45+111.
[4]張曉陽,竇美玉.“圖書館、情報和文獻學”國家社會科學基金結項項目計量分析[J].圖書館論壇,2012,02:167-169+116
1.因為2015年及以后的項目論文發(fā)表時間基本在一年以內,被引情況本身本身就很少,故本文選擇的項目為1991年-2014年資助的。endprint