高健航 高繼平 師麗娟
(1.中國(guó)農(nóng)業(yè)大學(xué)情報(bào)研究中心 北京 100083;2.中國(guó)科學(xué)技術(shù)信息研究所 北京 100038)
早在20世紀(jì)60年代,研究人員發(fā)現(xiàn)一些論文發(fā)表時(shí)無(wú)人問(wèn)津但若干年后被大量引用。起初,學(xué)者將這類現(xiàn)象稱為“阻滯發(fā)現(xiàn)”[1-2]、“過(guò)早發(fā)現(xiàn)”[3]、“遲滯承認(rèn)”[4-5]等。直到2004年,荷蘭萊頓大學(xué)計(jì)量學(xué)家Van Raan[6]將這類現(xiàn)象冠以一個(gè)童話般的名字“睡美人”,“睡美人”文獻(xiàn)研究開(kāi)始引發(fā)研究人員的廣泛關(guān)注。歸納起來(lái),睡美人文獻(xiàn)研究演進(jìn)過(guò)程如圖1所示。
“睡美人”這類被延遲承認(rèn)的文獻(xiàn)中大多均提出超前沿的認(rèn)知而被當(dāng)時(shí)所忽略,但其中包含的變革性知識(shí)在后來(lái)的科技進(jìn)步中起著重要作用。典型的睡美人文獻(xiàn)莫過(guò)于孟德?tīng)柕耐愣闺s交育種實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果于1866年發(fā)布,直到1901年才逐漸被科學(xué)界認(rèn)可并最終成為經(jīng)典[7]。與睡美人相對(duì)應(yīng)的概念為“曇花一現(xiàn)”[8],也有學(xué)者稱之為“時(shí)髦女”[9]。這類文獻(xiàn)在發(fā)布之初便得到學(xué)界廣泛關(guān)注,但持續(xù)時(shí)間較短便被遺忘,在計(jì)算機(jī)、醫(yī)學(xué)等快速發(fā)展的領(lǐng)域“曇花一現(xiàn)”現(xiàn)象較為明顯。研究“睡美人”的同時(shí),有學(xué)者開(kāi)始尋找喚醒“睡美人”的關(guān)鍵文獻(xiàn)并將其稱之為“王子”[10]。此后,又有學(xué)者發(fā)現(xiàn),一些高質(zhì)量的論文發(fā)表之初表現(xiàn)活躍,但隨后陷入沉寂,在若干年后再次被“王子”喚醒,這類論文被稱之為“全要素睡美人”[11]。近年來(lái),國(guó)內(nèi)外對(duì)“睡美人”文獻(xiàn)研究均取得一定進(jìn)展,如Ke等[12]通過(guò)引入B指數(shù)對(duì)一篇文章是否有可能為“睡美人”文獻(xiàn)進(jìn)行識(shí)別;van Dalen等[13]對(duì)“睡美人”文獻(xiàn)研究中發(fā)現(xiàn)頂級(jí)期刊中的“睡美人”更易被喚醒;Ye等[14]通過(guò)比對(duì)論文的引文軌跡提出定量識(shí)別“睡美人”與“曇花一現(xiàn)”方法;郭斐等[15]對(duì)“睡美人”文獻(xiàn)的形成原因、識(shí)別標(biāo)準(zhǔn)及喚醒要素進(jìn)行論述;杜建等[16]提出Bcp指數(shù)并對(duì)Science與Nature中的“睡美人”文獻(xiàn)進(jìn)行檢驗(yàn);Zong等[17]研究“睡美人”文獻(xiàn)被喚起原因;侯建華等[18]引入Cc指標(biāo)對(duì)“超弦理論”領(lǐng)域的“睡美人”文獻(xiàn)進(jìn)行識(shí)別并探索文獻(xiàn)蘇醒后引文曲線的特征。
通過(guò)研讀中外 “睡美人”文獻(xiàn)相關(guān)內(nèi)容,結(jié)合可視化分析文獻(xiàn)研究主題,發(fā)現(xiàn)現(xiàn)有研究主要集中在“睡美人”文獻(xiàn)產(chǎn)生的原因、“睡美人”文獻(xiàn)如何識(shí)別、如何喚醒等方面。對(duì)上述研究進(jìn)行梳理與總結(jié),有助于后續(xù)研究人員了解領(lǐng)域研究進(jìn)展、發(fā)現(xiàn)新的研究視角,從而推動(dòng)該研究領(lǐng)域的發(fā)展。
圖1 “睡美人”現(xiàn)象研究的演進(jìn)
一般而言,作者知名度及期刊影響因子會(huì)在一定程度上影響該篇論文受關(guān)注情況。青年科學(xué)家學(xué)術(shù)成果不被業(yè)界認(rèn)可現(xiàn)象屢見(jiàn)不鮮。同時(shí),期刊水平高低也會(huì)對(duì)該篇文章受關(guān)注程度有所制約。排名靠前的期刊雖然關(guān)注度高,但由于期刊中論文質(zhì)量高且審稿標(biāo)準(zhǔn)嚴(yán)格,往往會(huì)帶來(lái)更多遲滯承認(rèn)現(xiàn)象發(fā)生[19]。而排名一般的期刊由于關(guān)注度相對(duì)不高,一些發(fā)表在其中高水平文章也極易受到忽視。1968年,時(shí)年38歲的前蘇聯(lián)年輕學(xué)者Veselago在名為PhysicsUspekhi-Ussr的普刊中分析了同時(shí)具有負(fù)的介電常數(shù)和磁導(dǎo)率的均勻媒介具有什么樣的電磁場(chǎng)性質(zhì),并提出了有關(guān)負(fù)折射、左手材料相關(guān)概念[20]。該理論在當(dāng)時(shí)看來(lái)過(guò)于異想天開(kāi)且由于作者知名度不高并未受到廣泛關(guān)注便被忽略,直到1999年英國(guó)物理學(xué)家Pendry發(fā)明一種負(fù)折射材料才重新發(fā)現(xiàn)Veselago那篇具有超前理論的文章。
多數(shù)“睡美人”文獻(xiàn)集中存在于自然科學(xué)領(lǐng)域,尤以生命科學(xué)、物理、化學(xué)、數(shù)學(xué)等學(xué)科所占比重較大。究其原因,多因自然科學(xué)領(lǐng)域極易產(chǎn)生變革性思想,這些學(xué)術(shù)思想由于過(guò)于超前而不被同期學(xué)術(shù)界所認(rèn)可。Glanzel[21]于2004年統(tǒng)計(jì)數(shù)據(jù)中得出,延遲承認(rèn)論文中生命科學(xué)領(lǐng)域占比43%,物理領(lǐng)域占比22%,化學(xué)、工程、數(shù)學(xué)領(lǐng)域占比12%,這些學(xué)科易產(chǎn)生超前思想。如果論文的思想體系不能與當(dāng)下權(quán)威學(xué)科范式相結(jié)合,極易被認(rèn)為異想天開(kāi)而被忽視。如上文所述Veselago案例,以及由 Einstein、 Podolski和Rosen于1935年發(fā)表的經(jīng)典“睡美人”文獻(xiàn)CanQuantum-MechanicalDescriptionofPhysicalRealityBeConsideredComplete?,該文提出了被后人稱之為“EPR”悖論的量子力學(xué)概念,但由于概念超前,在論文發(fā)表近60年后才得到學(xué)術(shù)界認(rèn)可并被大量引用。
Barber[1]于1961年提出,學(xué)術(shù)共同體對(duì)于未知事物、不確定方法、新的學(xué)科范式一般不會(huì)接受。2009年,Campanario[22]研究發(fā)現(xiàn),有19位諾獎(jiǎng)得主的研究成果曾遭遇學(xué)術(shù)抵制,24位諾獎(jiǎng)得主的論文曾被期刊審稿人抵制??梢?jiàn),即使諸如諾獎(jiǎng)得主這樣具有權(quán)威學(xué)術(shù)影響力的文章,也曾會(huì)因?yàn)樵缙谟^點(diǎn)與主流不合而遭遇學(xué)術(shù)共同體的抵制。以Smith于1970年發(fā)表在Nature的一篇關(guān)于超前蛋白質(zhì)空間概念為例[23],由于觀點(diǎn)超前,發(fā)表之初僅有3篇文章對(duì)此引用并且其中兩篇是對(duì)文中的概念進(jìn)行批判,直到1986年引文數(shù)量才得以上升并于2002年再次增長(zhǎng),得到業(yè)界承認(rèn)。
學(xué)術(shù)論文發(fā)表與傳播是一個(gè)復(fù)雜的過(guò)程,受多種因素影響。除上述原因之外,學(xué)術(shù)期刊的可獲得性、文獻(xiàn)撰寫語(yǔ)言(主流或非主流)的可傳播性,都有可能影響文獻(xiàn)的發(fā)現(xiàn)與被認(rèn)可時(shí)間,這些因素也有可能是“睡美人”文獻(xiàn)產(chǎn)生的原因。
目前,關(guān)于“睡美人”的主流識(shí)別方法可分為引文曲線擬合法、參數(shù)主觀賦值法及無(wú)參數(shù)客觀識(shí)別法。參數(shù)主觀賦值法又可叫主觀指標(biāo)法,無(wú)參數(shù)客觀識(shí)別法又可叫客觀指標(biāo)法。參數(shù)指標(biāo)法主要包括三指標(biāo)識(shí)別法、四分位數(shù)分布統(tǒng)計(jì)法、引文角度β識(shí)別法等,無(wú)參數(shù)識(shí)別法主要包括CS指數(shù)、B指數(shù)、SBc指數(shù)及Bcp指數(shù)等。
曲線擬合法通過(guò)將現(xiàn)有數(shù)據(jù)代入數(shù)學(xué)表達(dá)式或適當(dāng)曲線來(lái)擬合單篇文獻(xiàn)被引次數(shù)的年度分布情況[24]。
Avramescu[25]于1979年提出了5種引文曲線,如圖2所示,橫坐標(biāo)t為論文年齡,縱坐標(biāo)c(t)為論文被引頻次。曲線①為“曇花一現(xiàn)”論文,發(fā)表即被承認(rèn),曲線先增后減,峰值較高;曲線②文章基本被認(rèn)可,發(fā)表被承認(rèn),曲線先增后減,峰值較曲線①低;曲線③為幾乎未被認(rèn)可的文章;曲線④文章發(fā)表之初便被廣泛認(rèn)可但后期被認(rèn)為為錯(cuò)誤性作品;曲線⑤為“天才”型論文,從發(fā)表開(kāi)始被引量一直遞增。Avramescu用5種引文曲線對(duì)當(dāng)時(shí)文章被引頻次的變化現(xiàn)象進(jìn)行解釋,證實(shí)科學(xué)信息擴(kuò)散模型的可靠性。在此基礎(chǔ)上,2014年李江等[26]借助曲線擬合法基于341位諾獎(jiǎng)得主構(gòu)建引文曲線分析框架,并提出兩種規(guī)則引文曲線和3種不規(guī)則引文曲線。如圖3所示,a為經(jīng)典引文曲線;b為指數(shù)增長(zhǎng)曲線;c為雙峰引文曲線;d為波形引文曲線;e為“睡美人”型曲線。
曲線擬合法通過(guò)引文曲線的變化發(fā)現(xiàn)文獻(xiàn)的引文變化特征。優(yōu)點(diǎn)為操作方便、計(jì)算簡(jiǎn)單,但針對(duì)于睡美人文獻(xiàn)的識(shí)別,需人工觀察每一條曲線,數(shù)據(jù)量大時(shí),耗時(shí)耗力。
圖2 A.Avramescu引文曲線示意圖[25]
圖3 李江引文曲線示意圖[26]
參數(shù)主觀賦值法是通過(guò)人為主觀設(shè)定參數(shù)的閾值來(lái)界定“睡美人”文獻(xiàn)與其他文獻(xiàn)的區(qū)別,主要包括三指標(biāo)識(shí)別法、四分位數(shù)分布統(tǒng)計(jì)法及引文角β測(cè)量法等。
2.2.1三指標(biāo)識(shí)別法
Van Raan[6]于2004年首次提出“睡美人”文獻(xiàn)概念的同時(shí)提出三指標(biāo)識(shí)別法,該方法是一種人為設(shè)定閾值的識(shí)別方法。三指標(biāo)分別為睡眠深度、睡眠時(shí)長(zhǎng)及喚醒強(qiáng)度,相關(guān)界定如下:①睡眠深度:即睡眠期年平均被引頻數(shù)。年均被引最多1次(深度睡眠),年均被引1~2次(淺度睡眠)。②沉睡時(shí)長(zhǎng):從文章發(fā)表到喚醒時(shí)長(zhǎng),沉睡期至少為5年。③喚醒強(qiáng)度:論文被喚醒后4年間累計(jì)引文次數(shù)(自引除外),應(yīng)超過(guò)20次。喚醒強(qiáng)度可劃分為[21,30], [31,40], [41,50], [51,60] ,[>60]五個(gè)區(qū)間。
Van Raan通過(guò)對(duì)1980-2004年間近2 000萬(wàn)篇文章數(shù)據(jù)分析后提出睡美人文獻(xiàn)識(shí)別方程:
N=f{s,cs,cw}:s-2.7.cs+2.5.cw-6.6
(1)
其中,s為沉睡時(shí)長(zhǎng),cs為睡眠深度,cw為喚醒強(qiáng)度。根據(jù)觀察,總結(jié)出睡美人文獻(xiàn)有如下特征:①睡眠時(shí)間越長(zhǎng),睡美人文獻(xiàn)被喚醒的可能性越小。②對(duì)于淺度睡眠,睡眠時(shí)長(zhǎng)對(duì)喚醒可能性影響較小。③喚醒強(qiáng)度較大的睡美人文獻(xiàn)出現(xiàn)概率較低,且可能與睡眠深度與沉睡時(shí)長(zhǎng)無(wú)關(guān)。
三指標(biāo)識(shí)別方法在提出之初受到學(xué)界廣泛認(rèn)可,但隨著研究的進(jìn)展,這種基于平均值的計(jì)算方法弊端漸顯。2012年,Calster[27]用實(shí)例驗(yàn)證了平均值算法的不足,指出該算法忽視了學(xué)科間差異性,未對(duì)喚醒期后的引用進(jìn)一步研究,并且對(duì)于閾值的界定未經(jīng)過(guò)科學(xué)的檢驗(yàn),不同閾值內(nèi)的睡美人文獻(xiàn)數(shù)量也會(huì)大有不同。此外,該方法忽略了“睡美人”蘇醒之后的引用情況。
2.2.2四分位數(shù)統(tǒng)計(jì)法
四分位識(shí)別法由Costas等[28]于2010年在參照Aversa和Aksnes研究基礎(chǔ)上提出[29-30]。該方法首先獲取某篇文獻(xiàn)達(dá)到總被引次數(shù)50%(Y50%)所用時(shí)間,其次統(tǒng)計(jì)該學(xué)科同年發(fā)表的全部文獻(xiàn)達(dá)到各自被引50%所需要的時(shí)間并進(jìn)行從小到大排序。前25%達(dá)到Y(jié)50%的最大值為P25,前75%達(dá)到Y(jié)50%值為P75,并將Y50%與P25、P75進(jìn)行比較,結(jié)果如下:
①Y50% 相較于三指標(biāo)識(shí)別方法,四分位數(shù)統(tǒng)計(jì)法雖操作方法簡(jiǎn)單易懂但數(shù)據(jù)統(tǒng)計(jì)困難,且由于閾值設(shè)定門檻低,會(huì)有更多文獻(xiàn)進(jìn)入“睡美人”候選范圍,存在范圍不精準(zhǔn)現(xiàn)象。但該方法仍然在對(duì)“睡美人”文獻(xiàn)的識(shí)別中具有借鑒意義[31],可以將該方法作為識(shí)別“睡美人”文獻(xiàn)的第一步,并對(duì)后續(xù)的識(shí)別工作有所改進(jìn)。 2.2.3引文角β測(cè)量法 張家榕等[9]于2017年提出引文角β測(cè)量法用于統(tǒng)一測(cè)度“睡美人”文獻(xiàn)和“曇花一現(xiàn)”文獻(xiàn),如圖4所示。該方法將(0,0)點(diǎn)定義為論文發(fā)表的前一年時(shí)間點(diǎn),橫軸為時(shí)間,縱軸為引文數(shù)量,將零點(diǎn)與引文高峰點(diǎn)間的連線設(shè)為l,引文角即為l與橫坐標(biāo)的夾角。 圖4 引文角β測(cè)量法示意圖[9] th為時(shí)間窗口中的點(diǎn)標(biāo)記,t1為“曇花一現(xiàn)”文獻(xiàn)引文峰值時(shí)間(t1 βm=arctan(cm/tm) (2) 當(dāng)β1>>β2時(shí),易于產(chǎn)生“曇花一現(xiàn)”型文獻(xiàn),β1?β2時(shí),易于產(chǎn)生“睡美人”文獻(xiàn)。張家榕等將時(shí)間窗口最小值設(shè)定為10年,即t2-t1≥10,將t2-t1這時(shí)間段年均引文量設(shè)為AC,t 該方法結(jié)果受時(shí)間窗口大小、AC值、Ca值、Cb值影響較大,主觀設(shè)定缺乏一定依據(jù),且arctan(x)函數(shù)值隨角度變化不均勻,具有敏感度不高的缺點(diǎn)[32]。 以上論述為目前對(duì)“睡美人”文獻(xiàn)識(shí)別應(yīng)用較多的幾種參數(shù)識(shí)別方法。參數(shù)識(shí)別方法簡(jiǎn)單、易于理解,但由于閾值的設(shè)定具有強(qiáng)主觀性且缺乏一定的科學(xué)依據(jù)。閾值設(shè)定的大小將決定睡美人文獻(xiàn)數(shù)量的多少,閾值大則“睡美人”文獻(xiàn)數(shù)量過(guò)多,不符合“睡美人”文獻(xiàn)稀缺的特點(diǎn),閾值設(shè)定過(guò)小,則會(huì)缺失對(duì)許多“睡美人”文獻(xiàn)的識(shí)別。同時(shí),參數(shù)識(shí)別法忽視不同學(xué)科間差異,用同閾值測(cè)算不同學(xué)科有失偏頗。 無(wú)參數(shù)客觀識(shí)別法消除了人為主觀對(duì)參數(shù)閾值的設(shè)定,通過(guò)綜合考慮文獻(xiàn)的相關(guān)引文數(shù)據(jù)來(lái)對(duì)睡美人文獻(xiàn)進(jìn)行判定。無(wú)參數(shù)識(shí)別法主要包括被引速率(Citation Speed,CS)[33]、B指數(shù)[34]、SBc指數(shù)[35]、Bcp指數(shù)[16],以及后續(xù)出現(xiàn)的Gs指數(shù)[36]、Da指數(shù)[37]、K指數(shù)[38]、DR指數(shù)[39]、Cc指數(shù)[18]等。 2.3.1被引速率CS指標(biāo) CS指標(biāo)由Wang[33]于2013年提出,是指一篇文章自發(fā)表后以多快的速度達(dá)到其總被引次數(shù)。對(duì)于“曇花一現(xiàn)”型論文,自發(fā)表之后累計(jì)引文量快速上升,但隨時(shí)間推移,曲線趨于平緩;“睡美人”型文獻(xiàn)在發(fā)表之初曲線趨于平緩,后期引文累計(jì)量迅速增長(zhǎng),曲線斜率逐漸增大。如圖5所示,曲線A為延遲承認(rèn)的“睡美人”文獻(xiàn)曲線,曲線B為即時(shí)承認(rèn)的“曇花一現(xiàn)”型曲線[40]。被引速率計(jì)算公式如下: 圖5 被引速率CS示意圖[40] (3) Ci為該篇論文第i年累計(jì)引用次數(shù),n為時(shí)間窗口大小,Cn為第n年累計(jì)被引次數(shù)。CS值位于(0,1)之間,值越小,說(shuō)明該論文累計(jì)引文次數(shù)增長(zhǎng)越慢,“睡美人”文獻(xiàn)可能性越大,反之相反。Wang基于此種方法測(cè)度了短期內(nèi)(31年)引文曲線的變化,預(yù)測(cè)論文長(zhǎng)期引文的可行性及隨著研究領(lǐng)域、文獻(xiàn)類型、總引文數(shù)的不同、引文老化程度有何不同等問(wèn)題。杜建等[40]通過(guò)引文軌跡特征和累計(jì)被引速率兩方面驗(yàn)證2014年諾貝爾化學(xué)獎(jiǎng)得主S. Hell論文是否為“睡美人”文獻(xiàn),并對(duì)該文獻(xiàn)的喚醒原因進(jìn)行分析。 2.3.2 B指數(shù)識(shí)別法 B指數(shù)即“美麗指數(shù)”,Ke等[12]于2015年提出。如圖6所示,以橫坐標(biāo)表示論文發(fā)表時(shí)長(zhǎng),縱坐標(biāo)表示年度被引次數(shù)。論文發(fā)表年被引次數(shù)點(diǎn)為(0,c0),引文峰值年被引次數(shù)點(diǎn)為(tm,ctm),l為(0,c0)與(tm,ctm)間連線,ct為文章發(fā)表后第t年的年引文數(shù),參考線l及B值公式如下: (4) (5) 圖6 B指數(shù)示意圖[12] 當(dāng)論文發(fā)表當(dāng)年便達(dá)到引文峰值時(shí),B=0。B值越大,“睡美人”文獻(xiàn)可能性越強(qiáng)。基于B指數(shù)可以從更廣泛角度考慮“睡美人”文獻(xiàn)的識(shí)別,突破人為設(shè)定時(shí)間閾值的局限。但由于B指數(shù)僅考慮發(fā)文時(shí)到被引峰值這段期間引文量的變化,未考慮達(dá)到峰值之后的引文走勢(shì),且B值受被引總數(shù)影響較大,當(dāng)“睡美人”文獻(xiàn)被引總數(shù)偏少時(shí),不能對(duì)“睡美人”文獻(xiàn)進(jìn)行準(zhǔn)確的識(shí)別。 2.3.3 SBc指數(shù)識(shí)別法 考慮到B指數(shù)對(duì)于總被引頻次較低的文獻(xiàn)識(shí)別不敏感的缺陷,Peruzzo于2015年提出SBc指數(shù)[35]。如圖7所示,與B指數(shù)相同的是,橫坐標(biāo)為論文發(fā)表時(shí)長(zhǎng),論文發(fā)表年被引次數(shù)點(diǎn)為(0,c0),引文峰值年被引次數(shù)點(diǎn)為(tm,ctm),l為(0,c0)與(tm,ctm)間連線,ct為文章發(fā)表后第t年的年引文數(shù)。與B指數(shù)不同的是,縱坐標(biāo)為論文年度累計(jì)被引次數(shù)。SBc公式如下所示: (6) (7) SBC=max△tSB(△T) (8) 圖中c點(diǎn)為引文累計(jì)峰值最大點(diǎn),△t為論文發(fā)表時(shí)長(zhǎng)變化,m(△t)為參考線l斜率,對(duì)于任意t 圖7 SBc指數(shù)示意圖[35] SBc指數(shù)在B指數(shù)基礎(chǔ)上能對(duì)總被引頻次較低的文獻(xiàn)進(jìn)行很好的識(shí)別,但是同B指數(shù)一樣,對(duì)總被引頻次依賴較大。也就是說(shuō),只要總被引頻次越高,SBc值便越大,對(duì)于一些瞬間引文激增的現(xiàn)象不能做出很好的解釋。 2.3.4 Bcp指數(shù)識(shí)別法 杜建等[16]在綜合B指數(shù)和SBc指數(shù)的基礎(chǔ)上,于2017年進(jìn)一步提出Bcp指數(shù)。如圖8所示[41],橫坐標(biāo)為論文發(fā)表時(shí)長(zhǎng),縱坐標(biāo)為論文年度被引頻次累計(jì)百分比。論文發(fā)表年被引次數(shù)點(diǎn)為(0,c0),論文被引頻次累計(jì)百分比最大值點(diǎn)為(tm,1),兩點(diǎn)間的連線為參考線l,參考線與引文曲線對(duì)應(yīng)年度間差值(lt-ct)的累計(jì)值即為Bcp指數(shù),具體計(jì)算公式如下: (9) 圖8 BCP指數(shù)示意圖[41] Bcp值取決于累計(jì)引文的曲線形狀,值越大,“睡美人”文獻(xiàn)特征越明顯,并且Bcp值可以應(yīng)用于不同學(xué)科進(jìn)行測(cè)算。對(duì)年度被引次數(shù)累計(jì)百分比曲線上各點(diǎn)向l參考線做垂線,所得距離記作d(t), 該距離最大時(shí)的時(shí)間定義為覺(jué)醒年,記作taw,d(t)計(jì)算公式為: (10) 覺(jué)醒年通過(guò)某篇論文整個(gè)生命周期來(lái)計(jì)算,也就是說(shuō),覺(jué)醒年并不一定是年引用次數(shù)最少的,并且Bcp值并不依賴論文總引用數(shù),即使一篇文章在時(shí)間觀測(cè)窗口內(nèi)被引次數(shù)較少,但依然能對(duì)“睡美人”文獻(xiàn)進(jìn)行有效識(shí)別[42]。 除上述所述幾種方法外,也有不同學(xué)者根據(jù)引文時(shí)間窗口、睡眠時(shí)長(zhǎng)、總被引頻次、累計(jì)被引頻次等維度相繼提出Gs指數(shù)、Da指數(shù)、K指數(shù)等如表1所示。 綜上所述,無(wú)參數(shù)識(shí)別法可以避免人為設(shè)定閾值的主觀因素影響,同時(shí)可以考慮不同學(xué)科間差異,對(duì)“睡美人”文獻(xiàn)識(shí)別準(zhǔn)確度更高。但對(duì)于復(fù)雜的公式計(jì)算較困難,且對(duì)于“睡美人”文獻(xiàn)、“曇花一現(xiàn)”型文獻(xiàn)、“全要素睡美人”文獻(xiàn)及常規(guī)文獻(xiàn)并沒(méi)有明確的界限對(duì)其進(jìn)行劃分。或許基于此,未來(lái)對(duì)于睡美人的識(shí)別工作更應(yīng)注重多種方法結(jié)合使用。 表1 “睡美人”文獻(xiàn)無(wú)參數(shù)識(shí)別指數(shù) 睡美人文獻(xiàn)均有“王子”來(lái)喚醒,但就目前國(guó)內(nèi)外研究而言,對(duì)于“王子”文獻(xiàn)并沒(méi)有一個(gè)明確的定義。“王子”文獻(xiàn)的概念最早由Van Raan[6]提出,用于對(duì)“睡美人”文獻(xiàn)的識(shí)別。Van Raan將“王子”文獻(xiàn)定義為在睡美人沉睡期結(jié)束后,首次對(duì)該文獻(xiàn)進(jìn)行引用即為“王子”文獻(xiàn)。但不同的學(xué)者提出不同的意見(jiàn)。如Huang[43]將“王子”分為兩類,一類為“關(guān)鍵詞王子”,一類為“h指數(shù)王子”,“王子”定義為使得“睡美人”受到更多關(guān)注的文獻(xiàn);Braun[44]認(rèn)為“王子”文獻(xiàn)應(yīng)具有“睡美人”文獻(xiàn)沉睡后首次引用、具有高被引次數(shù)、與“睡美人”文獻(xiàn)共被引達(dá)一定次數(shù)這三個(gè)特點(diǎn);Ohba[45]等對(duì)“睡美人”覺(jué)醒前后的文章進(jìn)行搜索,認(rèn)為“王子”文獻(xiàn)應(yīng)促使后續(xù)相關(guān)作品引用該“睡美人”文獻(xiàn),并且王子與睡美人間的共被引頻次應(yīng)超過(guò)30%;杜建等[46]強(qiáng)調(diào)“睡美人”文獻(xiàn)與“王子”文獻(xiàn)共被引要超過(guò)10%,并且還發(fā)現(xiàn)“王子”文獻(xiàn)更多發(fā)表在有較高聲望的期刊上。同時(shí)杜建等[47]還指出“王子”文獻(xiàn)應(yīng)滿足發(fā)表于“睡美人”文獻(xiàn)被引頻次激增附近的年份、被引頻次較高、與“睡美人”文獻(xiàn)共被引頻次高、對(duì)“睡美人”文獻(xiàn)的被引頻次增多起到極大推動(dòng)這四個(gè)特征。A.A.C. Teixeira等[38]使用共被引模式對(duì)“王子”文獻(xiàn)進(jìn)行識(shí)別,他們將王子分為“主要王子”和“輔助王子”,“主要王子”和“睡美人”文獻(xiàn)具有大量的被引頻次和共被引次數(shù),“輔助王子”為雖有超過(guò)10次共被引頻次但是自身被引頻次及共被引頻次均較低。王春寶等[48]為完善“王子”文獻(xiàn)識(shí)別體系,提出采用王子系數(shù)Pr進(jìn)行量化識(shí)別。 總體來(lái)看,“王子”文獻(xiàn)應(yīng)具有以下特點(diǎn):①在“睡美人”文獻(xiàn)發(fā)表后發(fā)表。②自身即為高被引文獻(xiàn)。③對(duì)“睡美人”文獻(xiàn)被引頻次的增長(zhǎng)起著明顯帶動(dòng)作用。④與“睡美人”文獻(xiàn)具有較高共被引次數(shù)。 早期研究人員對(duì)“王子”文獻(xiàn)關(guān)注角度集中于科學(xué)論文,即“科學(xué)王子”。近年來(lái),“睡美人”文獻(xiàn)在被“科學(xué)王子”喚醒的同時(shí), Van Raan等[49-50]研究發(fā)現(xiàn),“睡美人”文獻(xiàn)越來(lái)越早被專利,即“技術(shù)王子”所喚醒,而非“科學(xué)王子”,專利對(duì)于“睡美人”文獻(xiàn)的喚醒作用在逐步增強(qiáng)。Van Raan[51]對(duì)1992-1994年在物理、化學(xué)、計(jì)算機(jī)等領(lǐng)域“睡美人”文獻(xiàn)進(jìn)行整理并分析專利對(duì)其引用情況,發(fā)現(xiàn)專利中的“睡美人”文獻(xiàn)遠(yuǎn)多于“普通”文獻(xiàn)。后續(xù)研究中,Van Raan與Winnink[50]對(duì)SB-SNPRs(即專利中引用的睡美人非專利參考文獻(xiàn))的出版年份和首次被專利引用年份進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)文章發(fā)表年份與專利首次引用年份時(shí)間差越來(lái)越短,表明近些年“睡美人”文獻(xiàn)更多被“技術(shù)王子”喚醒而非“科學(xué)王子”。通過(guò)對(duì)醫(yī)學(xué)領(lǐng)域雜志研究,Van Raan等[52]進(jìn)一步發(fā)現(xiàn),在“睡美人”文獻(xiàn)被喚醒前,專利對(duì)“睡美人”文獻(xiàn)的引用呈指數(shù)增長(zhǎng),表明技術(shù)時(shí)滯比文獻(xiàn)睡眠時(shí)間更短。杜建等[23]對(duì)1970-2005年間發(fā)表在Science和Nature的78 403篇文章進(jìn)行研究后發(fā)現(xiàn),與即時(shí)識(shí)別論文相比,延遲識(shí)別論文顯示出更強(qiáng)和更長(zhǎng)的技術(shù)影響;最近幾年,被延遲承認(rèn)的論文經(jīng)專利喚醒的次數(shù)越來(lái)越多,時(shí)間也越來(lái)越早,而不是被科學(xué)論文喚醒。隨著近年來(lái)專利申請(qǐng)數(shù)量的穩(wěn)步上升,專利中的包含的潛在價(jià)值愈發(fā)值得各領(lǐng)域?qū)W者深度挖掘?!凹夹g(shù)王子”對(duì)于“睡美人”文獻(xiàn)的喚起,必將成為一個(gè)熱點(diǎn)議題。 如上文所述,“王子”喚醒“睡美人”需要具有較高共被引頻次且“王子”本身也應(yīng)具有高被引頻次,但是這種主觀閾值的界定沒(méi)有明確的標(biāo)準(zhǔn)。同時(shí),對(duì)于王子文獻(xiàn)及王子專利的識(shí)別,不同學(xué)科具有較大的差異性,須有該學(xué)科的專業(yè)背景知識(shí)的學(xué)者才能對(duì)此進(jìn)行更精確的判斷。 “睡美人”文獻(xiàn)中多包涵變革式的研究思想、突破性的理論創(chuàng)新、新的學(xué)科范式及跨學(xué)科的綜合研究成果,對(duì)睡美人文獻(xiàn)的識(shí)別有利于識(shí)別領(lǐng)域前沿預(yù)測(cè)未來(lái)技術(shù)發(fā)展方向、有利于追蹤技術(shù)轉(zhuǎn)化、有利于識(shí)別潛在技術(shù)與應(yīng)用屬性、有利于加強(qiáng)政策研究評(píng)價(jià)。因此,“睡美人”文獻(xiàn)的精準(zhǔn)識(shí)別是科技發(fā)展過(guò)程中重要一環(huán)??茖W(xué)中的“睡美人”文獻(xiàn)這一現(xiàn)象是通過(guò)信息科學(xué)研究引文隨時(shí)間流動(dòng)的一種很好模式,目前各方面研究均取得一定進(jìn)展。但“睡美人”文獻(xiàn)形成及喚醒機(jī)理的研究仍缺乏系統(tǒng)性與完整性,睡美人文獻(xiàn)的預(yù)測(cè)方法或綜合模型等核心問(wèn)題尚未解決,不同學(xué)者的研究所用樣本相對(duì)整個(gè)大科學(xué)體系學(xué)科領(lǐng)域單一且數(shù)據(jù)量較小,尚未形成系統(tǒng)的理論體系,未來(lái)的研究應(yīng)重點(diǎn)關(guān)注以下幾個(gè)方面: a.“睡美人”識(shí)別理論有待進(jìn)一步探索,從已有研究成果來(lái)看,參數(shù)識(shí)別具有較強(qiáng)主觀因素,無(wú)參數(shù)識(shí)別又不能很好劃分“睡美人”文獻(xiàn)與其他文獻(xiàn)間差異。而對(duì)于曲線擬合觀測(cè)曲線引文變化進(jìn)行“睡美人”文獻(xiàn)的判定,存在一個(gè)問(wèn)題,對(duì)于一篇文獻(xiàn)發(fā)表之初被引頻率在其所在領(lǐng)域已達(dá)一個(gè)高頻次,后來(lái)由于某種原因被引頻次激增,這種文獻(xiàn)又是否可被劃分為“睡美人”文獻(xiàn)? b. “睡美人”文獻(xiàn)除了王子出版物的喚醒機(jī)制,作者本身自引或隨作者知名度的提高,學(xué)界開(kāi)始從新重視該作者前期研究成果,這種睡美人自醒現(xiàn)象也值得關(guān)注。并且喚醒睡美人的王子或許并不止一個(gè),一個(gè)王子也可以親吻多個(gè)睡美人,這也將成為本方向今后關(guān)注的重點(diǎn)。 c.專利被視為技術(shù)上的創(chuàng)新,通過(guò)對(duì)專利中“睡美人”文獻(xiàn)的挖掘,有助于研究人員從技術(shù)角度探索“睡美人”文獻(xiàn)的喚醒機(jī)制。近年來(lái)研究也表明,專利對(duì)于“睡美人”文獻(xiàn)的喚醒效果強(qiáng)于科學(xué)論文,以此為切入角度不僅有利于探討知識(shí)的流向及科學(xué)與技術(shù)間互動(dòng)模式,而且有助于探索領(lǐng)域前沿及變革性的技術(shù)創(chuàng)新,進(jìn)而縮短對(duì)重大科學(xué)發(fā)現(xiàn)的認(rèn)可時(shí)滯。 d.科學(xué)術(shù)語(yǔ)的規(guī)范問(wèn)題也值得思考,作者在CNKI數(shù)據(jù)庫(kù)以“睡美人文獻(xiàn)”作檢索詞出現(xiàn)大量與科學(xué)計(jì)量學(xué)無(wú)關(guān)文獻(xiàn),在WoS(Web of Science)數(shù)據(jù)庫(kù)檢索“Sleeping Beauties”多為生命科學(xué)及醫(yī)學(xué)領(lǐng)域文獻(xiàn)。雖然“睡美人”文獻(xiàn)冠以童話般寓意,但對(duì)于知識(shí)的查找和學(xué)術(shù)的傳播所帶來(lái)的影響依然值得深思。從學(xué)術(shù)規(guī)范用詞的角度考慮,“遲滯承認(rèn)”一詞更能直觀揭示引文流隨時(shí)間變化的現(xiàn)象,也顯得更加貼切。 e.現(xiàn)有研究多是基于文獻(xiàn)被引現(xiàn)象來(lái)研究“睡美人”文獻(xiàn),且多以Web of Science平臺(tái)為數(shù)據(jù)源。受數(shù)據(jù)庫(kù)自身局限,如數(shù)據(jù)庫(kù)收錄期刊數(shù)量的限制、期刊所屬國(guó)別地區(qū)、學(xué)科及語(yǔ)種選擇等因素影響,單一數(shù)據(jù)源在分析復(fù)雜的引文關(guān)系中缺乏廣泛的代表性。因此,僅依靠單一數(shù)據(jù)源的引文數(shù)據(jù)來(lái)研究“睡美人”文獻(xiàn)現(xiàn)象會(huì)存在一定不足。近年來(lái),Scopus、Lens與 GoogleScholar等網(wǎng)絡(luò)引文分析數(shù)據(jù)庫(kù)的出現(xiàn)為引文分析提供了新的選擇,后續(xù)研究可考慮多源數(shù)據(jù)的應(yīng)用。 Burrel[53]曾質(zhì)疑說(shuō)睡美人是否是一個(gè)基于引用過(guò)程的隨機(jī)模型,在隨機(jī)模型下,“睡美人”的現(xiàn)象是必然發(fā)生的,而對(duì)于那些離群的樣本似乎很難用模型來(lái)解釋。但作者認(rèn)為,文獻(xiàn)計(jì)量學(xué)的意義就在于通過(guò)對(duì)文獻(xiàn)間內(nèi)在聯(lián)系的探索找到其潛存的規(guī)律,對(duì)代表知識(shí)和學(xué)術(shù)成果的文獻(xiàn)進(jìn)行分析與評(píng)價(jià)并做出獨(dú)立的判斷。任何評(píng)價(jià)方式都會(huì)存在其局限性,而如何將這種局限性限制到最低進(jìn)行客觀精準(zhǔn)的識(shí)別評(píng)價(jià),這也是做計(jì)量最重要的初衷所在。2.3 無(wú)參數(shù)客觀識(shí)別法
3 “王子”文獻(xiàn)及喚醒機(jī)制
4 總結(jié)與展望