張 洋,余妍慧
在Web2.0時(shí)代,科學(xué)文獻(xiàn)被搬上新媒體,學(xué)者通過社交網(wǎng)絡(luò)分享和討論科學(xué)知識(shí)[1]。網(wǎng)絡(luò)的“零距離”與實(shí)時(shí)更新則加劇了網(wǎng)絡(luò)學(xué)術(shù)信息的老化。因此,開展基于社交網(wǎng)絡(luò)的學(xué)術(shù)信息老化研究具有重要意義:理論上可以見微知著,揭示網(wǎng)絡(luò)學(xué)術(shù)信息的某些特征和規(guī)律,豐富網(wǎng)絡(luò)信息計(jì)量學(xué)的研究內(nèi)容;實(shí)踐上則為預(yù)測科技熱點(diǎn)、優(yōu)化社交網(wǎng)絡(luò)用戶的信息需求提供了科學(xué)依據(jù)。自1943年美國紐約大學(xué)學(xué)者C.F.Gosnell發(fā)表《大學(xué)圖書館中的文獻(xiàn)老化問題》后,信息老化研究逐漸興起。筆者以時(shí)間為順序、關(guān)鍵線索為節(jié)點(diǎn),將國內(nèi)外的信息老化研究分為3個(gè)階段。
傳統(tǒng)文獻(xiàn)老化研究階段主要包括3個(gè)方面的內(nèi)容:(1)老化指標(biāo)的探索。J.Burnal于1958年率先提出以半衰期為測度指標(biāo)來估計(jì)文獻(xiàn)的老化速度。R.E.Burton和R.W.Kebler在1960年代針對科學(xué)文獻(xiàn)的半衰期進(jìn)行了一系列研究,將文獻(xiàn)老化研究進(jìn)程大大推進(jìn)[2]。計(jì)量學(xué)奠基人D.Price提出了另一個(gè)衡量文獻(xiàn)老化的指標(biāo)——普賴斯指數(shù),并且將5年作為劃分情報(bào)利用的標(biāo)準(zhǔn)[3]。(2)引文分析法的應(yīng)用。引文分析法以期刊論文的參考文獻(xiàn)為研究對象,分析引文發(fā)表的時(shí)間、引用的時(shí)間與引文數(shù)量之間的關(guān)系,從而衡量文獻(xiàn)的老化程度[4]。具體分析時(shí),引文分析法又分為歷時(shí)法和共時(shí)法。歷時(shí)法符合過程觀,由M.B.Line和A.Sandison首先提出[5];共時(shí)法相比歷時(shí)法而言較為簡單,國內(nèi)學(xué)者孟連生于1983年發(fā)表《中文科學(xué)引文分析》后,有不少學(xué)者利用此法研究科學(xué)文獻(xiàn)的老化現(xiàn)象[6]。(3)老化模型的建立,即運(yùn)用數(shù)學(xué)理論和方法,以數(shù)學(xué)表達(dá)式來描述文獻(xiàn)老化中各種因素之間的數(shù)量關(guān)系,從而揭示其規(guī)律的一種方法。目前文獻(xiàn)老化的數(shù)學(xué)模型主要有貝爾納提出的負(fù)指數(shù)老化模型、巴爾頓-凱普勒老化方程和布魯克斯老化方程等。
隨著1990年代互聯(lián)網(wǎng)的普及,文獻(xiàn)老化的研究對象勢必要擴(kuò)展到網(wǎng)絡(luò)領(lǐng)域,這是時(shí)代發(fā)展的客觀要求和必然趨勢[7]。網(wǎng)絡(luò)信息計(jì)量學(xué)從理論上促進(jìn)了網(wǎng)絡(luò)信息老化的發(fā)展,而網(wǎng)絡(luò)信息超載導(dǎo)致的信息過剩、信息污染現(xiàn)象也對網(wǎng)絡(luò)信息老化研究產(chǎn)生了迫切的需求。網(wǎng)絡(luò)信息的老化不同于傳統(tǒng)文獻(xiàn)的老化,因?yàn)榫W(wǎng)絡(luò)信息的動(dòng)態(tài)性、急速增長等特點(diǎn),決定了網(wǎng)絡(luò)信息老化的研究與傳統(tǒng)文獻(xiàn)老化的不同[8]。此外,國內(nèi)外的研究方向有所差別,國外學(xué)者主要關(guān)注網(wǎng)絡(luò)鏈接的可訪問性和基于網(wǎng)絡(luò)數(shù)據(jù)平臺(tái)的電子資源老化;國內(nèi)學(xué)者重視信息老化的理論研究、老化測度指標(biāo)的探索性研究和應(yīng)用對策研究[9]。著名的研究有J.Bar-llan和B.C.Peritz分析了“信息計(jì)量學(xué)”主題相關(guān)網(wǎng)頁數(shù)量的變化和修改情況,發(fā)現(xiàn)網(wǎng)絡(luò)文獻(xiàn)集合在特定時(shí)間段內(nèi)會(huì)呈現(xiàn)網(wǎng)頁消失、部分內(nèi)容被引用至其他網(wǎng)站和內(nèi)容發(fā)生修改的3種網(wǎng)絡(luò)信息動(dòng)態(tài)變化趨勢[10]。國內(nèi)學(xué)者馬費(fèi)成和夏永紅以中外學(xué)術(shù)資源網(wǎng)、論壇、新聞網(wǎng)站和一些大型網(wǎng)站為研究對象,揭示了網(wǎng)絡(luò)信息生命周期的基本特征,并發(fā)現(xiàn)其生命周期符合韋布爾分布模型、負(fù)指數(shù)模型和對數(shù)模型[11]。
社交媒體擁有Web2.0動(dòng)態(tài)交互特性,科學(xué)家之間及科學(xué)家與公眾之間可以直接進(jìn)行交流,大大提高了科學(xué)的傳播速度,并由此在學(xué)術(shù)圈得到普及。該階段的研究與Altmetrics的興起密切相關(guān)。Altmetrics是Web2.0環(huán)境中的科學(xué)計(jì)量學(xué)研究,是建立在社交網(wǎng)絡(luò)工具與開放存取分別在科學(xué)交流活動(dòng)與科學(xué)成果出版平臺(tái)中廣泛應(yīng)用的基礎(chǔ)上而產(chǎn)生的[12]。Altmetrics應(yīng)用平臺(tái)的開發(fā)為社交媒體信息老化研究提供了便利。例如,Altmetric.com公司專門收集學(xué)術(shù)成果在社交媒體中的下載量、轉(zhuǎn)發(fā)量、點(diǎn)贊量和相應(yīng)的時(shí)間信息,為各國學(xué)者、科研機(jī)構(gòu)和基金組織提供數(shù)據(jù)服務(wù)[13]。該階段主要研究的社交媒體有Twitter、Facebook和微博等社交平臺(tái)。例如,張洋和盧橋研究了新浪微博的老化特點(diǎn),并對新浪微博平臺(tái)進(jìn)行了特征分析;EdgeRank組織的研究員分析Facebook的帖子生命周期時(shí)間,最短壽命15分鐘,最長10小時(shí),平均3小時(shí)[14]。
總體來看,社交媒體信息老化研究處于起步階段,無論是研究數(shù)量還是深度都很有限。就研究對象而言缺乏針對不同學(xué)科的研究,所有學(xué)科的文獻(xiàn)一概而論,明顯得出的結(jié)論適用性不強(qiáng);且研究內(nèi)容主要針對老化特征,如半衰期和普賴斯指數(shù),建立老化模型的相關(guān)文獻(xiàn)較少。針對以上問題,結(jié)合傳統(tǒng)老化規(guī)律指標(biāo),本文選取Altmetric.com平臺(tái)上2014-2017年每年得分最高的前100名科學(xué)文獻(xiàn)(以下簡稱“top100文獻(xiàn)”)在Twitter平臺(tái)上的轉(zhuǎn)發(fā)記錄為樣本,針對不同學(xué)科對數(shù)據(jù)進(jìn)行定量化分析,從最大利用時(shí)限、半衰期、曲線擬合等多角度透視學(xué)術(shù)信息在社交網(wǎng)絡(luò)中的老化特征和規(guī)律。
本文數(shù)據(jù)來自Altmetric.com,該平臺(tái)支持多種在線數(shù)據(jù)的追蹤,包括Twitter、Facebook、新聞網(wǎng)站、網(wǎng)絡(luò)百科,并能綜合這些平臺(tái)數(shù)據(jù)給出文獻(xiàn)相應(yīng)的綜合關(guān)注分值(Altmetric Attention Score)[15]。該平臺(tái)自2013年起,每年評選出分值最高的100篇文獻(xiàn)作為特別專欄分享給學(xué)者研究。Twitter是學(xué)者使用最多,涵蓋文獻(xiàn)量最大的社交媒體[16],因此,筆者以2014-2017年共4年每年得分最高的top100科學(xué)文獻(xiàn)在Twitter上的轉(zhuǎn)發(fā)記錄為研究樣本。
先將top100文獻(xiàn)按學(xué)科分類,共有13個(gè)學(xué)科,其中醫(yī)藥健康學(xué)(181篇)、生物科學(xué)(72篇)、人類學(xué)(36篇)和地球環(huán)境科學(xué)(32篇)文獻(xiàn)量較大,因此選擇該4門學(xué)科作為研究對象(結(jié)果見圖1)。隨后利用Python語言編寫程序,爬取文獻(xiàn)在Twitter上的轉(zhuǎn)發(fā)日期,統(tǒng)計(jì)文獻(xiàn)自公布于Twitter首日至數(shù)據(jù)采集日(2018-03-19)期間每日的轉(zhuǎn)發(fā)次數(shù)。同一學(xué)科文獻(xiàn)的每日轉(zhuǎn)發(fā)次數(shù)取平均值,并以此數(shù)據(jù)定量化分析不同學(xué)科的老化特征(半衰期、最大利用時(shí)限),最后使用SPSS統(tǒng)計(jì)分析軟件對老化曲線進(jìn)行擬合,從而提出適用于社會(huì)網(wǎng)絡(luò)的學(xué)術(shù)信息老化模型。
圖1 top100文獻(xiàn)學(xué)科分類
對于學(xué)術(shù)信息的老化特征,本文主要從最大利用時(shí)限和半衰期兩個(gè)方面進(jìn)行研究。其中最大利用時(shí)限源自傳統(tǒng)信息計(jì)量學(xué)中最大引文年限的概念[17]。針對網(wǎng)絡(luò)環(huán)境作了進(jìn)一步引申,用以描述網(wǎng)絡(luò)學(xué)術(shù)信息從發(fā)布到被利用價(jià)值達(dá)到峰值所需的時(shí)間。本文“最大利用時(shí)限”指的是距離某學(xué)科文獻(xiàn)發(fā)布至網(wǎng)絡(luò)的首日,轉(zhuǎn)發(fā)次數(shù)達(dá)到最多的天數(shù);以情報(bào)學(xué)家貝爾納的觀點(diǎn)來看,半衰期表示發(fā)表的文獻(xiàn)情報(bào)中有一半不再使用的時(shí)間[18]。本文指的是某學(xué)科文獻(xiàn)在Twitter上的轉(zhuǎn)發(fā)記錄較舊的一半的時(shí)間跨度。半衰期計(jì)算方法為:統(tǒng)計(jì)每日平均轉(zhuǎn)發(fā)次數(shù)占總次數(shù)的累計(jì)百分比,累計(jì)百分比首次超過50%的天數(shù)即為該學(xué)科的半衰期。由于篇幅限制,筆者以醫(yī)藥健康學(xué)為例(見表1),由表可知醫(yī)藥健康學(xué)的最大利用時(shí)限是第2天,轉(zhuǎn)發(fā)次數(shù)達(dá)到253.13次,隨后轉(zhuǎn)發(fā)次數(shù)快速下降;半衰期是5天,累計(jì)百分比達(dá)到52.17%。以同樣的方法得到各學(xué)科的最大利用時(shí)限和半衰期(見表2)。
從表2看出不同學(xué)科的最大利用時(shí)限都是第2天,這說明基于社交網(wǎng)絡(luò)傳播的學(xué)術(shù)信息通常在第2天的瀏覽量最大,達(dá)到最大峰值。而半衰期則依具體學(xué)科而定,地球與環(huán)境科學(xué)半衰期最短,為2天,老化速度最快;生物科學(xué)和人類社會(huì)學(xué)半衰期為3天,老化速度較快;醫(yī)藥健康學(xué)半衰期最長,為5天,老化速度最慢。傳統(tǒng)出版物老化的影響因素主要有學(xué)科特點(diǎn)和學(xué)科的發(fā)展階段2個(gè)方面[19]。一般而言,應(yīng)用技術(shù)學(xué)科的文獻(xiàn)老化速度較快,基礎(chǔ)理論學(xué)科的文獻(xiàn)老化速度較慢;學(xué)科處于發(fā)展時(shí)期,老化速度較快,學(xué)科進(jìn)入相對穩(wěn)定期,老化速度相應(yīng)變慢。而社交網(wǎng)絡(luò)的學(xué)術(shù)信息老化因素還需考慮到大眾群體對不同學(xué)科的興趣度,與生活息息相關(guān)的學(xué)科,熱度會(huì)更持久(如醫(yī)藥健康學(xué)),而對大眾來說相對枯澀難懂的學(xué)科,則興趣不大,相應(yīng)老化得快些(如地球與環(huán)境科學(xué))。
表1 醫(yī)藥健康學(xué)的轉(zhuǎn)發(fā)次數(shù)分布(部分)
表2 各學(xué)科的老化特征
得益于Twitter的迅速傳播,4門學(xué)科的最大利用時(shí)限都在第2天,半衰期在2~5天,這在社交媒體盛行之前時(shí)不可想象的。社交網(wǎng)絡(luò)中學(xué)術(shù)熱點(diǎn)的迅速傳播也是網(wǎng)絡(luò)輿情的體現(xiàn),可以運(yùn)用網(wǎng)絡(luò)輿情的相關(guān)理論加以解釋。網(wǎng)絡(luò)輿情是由于各種事件的刺激而產(chǎn)生并通過網(wǎng)絡(luò)傳播的,是人們對該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合[20]。傳統(tǒng)出版物在面向公眾之前往往經(jīng)歷這樣一種線性傳播模式:作者投稿—論文審核—期刊發(fā)表。論文需要短則幾個(gè)月長則數(shù)年的時(shí)間才能公布于世,而且受眾面局限于相關(guān)學(xué)科的學(xué)術(shù)圈。社交媒體的出現(xiàn)打破了這種線性模式,無論是作者直接發(fā)表在網(wǎng)絡(luò)中的文章還是由期刊轉(zhuǎn)載的網(wǎng)絡(luò)文獻(xiàn),社交媒體的開放性和方便性使眾多網(wǎng)民在接觸到學(xué)術(shù)熱點(diǎn)信息后,可隨時(shí)隨地發(fā)表自己的看法,并且所有看法意見都可以隨著網(wǎng)絡(luò)傳播到世界的每一個(gè)角落。網(wǎng)民的從眾心理及羊群效應(yīng)使得學(xué)術(shù)熱點(diǎn)事件的影響范圍愈加廣泛,對民眾的影響也愈加深遠(yuǎn)。例如,2016年熱門文章《美國醫(yī)療改革的進(jìn)展及其下一步》(United States Health Care Reform Progress to Date and Next Steps),作者是美國前總統(tǒng)奧巴馬[21],該文發(fā)表于頂級醫(yī)學(xué)期刊《美國醫(yī)學(xué)會(huì)雜志》(JAMA)上,該期刊影響因子高達(dá)37.684。JAMA的期刊影響力、奧巴馬的總統(tǒng)“光環(huán)”及網(wǎng)民對美國醫(yī)改的重視讓這篇文章在Twitter傳播首日達(dá)到945次的轉(zhuǎn)發(fā)量,第二天轉(zhuǎn)發(fā)量更是高達(dá)3879次,以8063的綜合關(guān)注分?jǐn)?shù)拿下2016年世界學(xué)術(shù)論文影響力第一名,遠(yuǎn)遠(yuǎn)超過第二名的4912分。
以時(shí)間為橫坐標(biāo),當(dāng)日轉(zhuǎn)發(fā)次數(shù)為縱坐標(biāo),繪制各學(xué)科的老化曲線圖(見圖2)。通過觀察各學(xué)科老化曲線的變化軌跡,繪制出基于Twitter數(shù)據(jù)的學(xué)術(shù)信息老化曲線(見圖3)。該曲線定性地描繪了科學(xué)文獻(xiàn)從公布于社交網(wǎng)絡(luò)以后的轉(zhuǎn)發(fā)數(shù)變化趨勢,反映了科學(xué)文獻(xiàn)利用價(jià)值變化的總體過程。筆者根據(jù)曲線的變化過程,將老化曲線劃分為迅速遞增期、震蕩老化期和緩慢衰老期3個(gè)階段,分別對應(yīng)圖3中的O~A段、A~B段、B~C段,其中O點(diǎn)表示社交網(wǎng)絡(luò)學(xué)術(shù)信息的產(chǎn)生點(diǎn),A點(diǎn)表示學(xué)術(shù)信息的利用價(jià)值達(dá)到最大值,B點(diǎn)表示學(xué)術(shù)信息價(jià)值經(jīng)過震蕩變化后的逐漸老化點(diǎn),C點(diǎn)表示社交網(wǎng)絡(luò)學(xué)術(shù)信息的消亡點(diǎn)。其變化過程并非嚴(yán)格按照此種規(guī)律進(jìn)行,若有外界因素刺激,老化過程可循環(huán)再現(xiàn)。
經(jīng)過對原始數(shù)據(jù)的初步分析后,筆者利用SPSS軟件的曲線估計(jì)功能對數(shù)據(jù)集進(jìn)行建模。從老化的時(shí)間點(diǎn)開始(A點(diǎn)),以時(shí)間為自變量,轉(zhuǎn)發(fā)次數(shù)為因變量,并選擇SPSS提供的4種模型(對數(shù)函數(shù)、反向函數(shù)、冪函數(shù)和指數(shù)函數(shù))進(jìn)行曲線擬合,得到以下結(jié)果(見表3),其中對數(shù)函數(shù)表達(dá)式為y=k+bIn(x),反向函數(shù)表達(dá)式為y=k+b/x,冪函數(shù)表達(dá)式為y=kxb,指數(shù)函數(shù)表達(dá)式為y=kebx常數(shù),k為常數(shù),b為方程系數(shù)。
圖2 醫(yī)藥健康學(xué)、生物科學(xué)、人類社會(huì)學(xué)和地球與環(huán)境科學(xué)老化曲線
圖3 基于Twitter數(shù)據(jù)的學(xué)術(shù)信息老化曲線
表3 老化曲線擬合檢驗(yàn)報(bào)告
根據(jù)表3可知,四種模型的Sig值都小于0.01,差異性顯著。比較4種函數(shù)的R方,對數(shù)函數(shù)的R方在0.45~0.55之間,反向函數(shù)的R方在0.55~0.7之間,冪函數(shù)的R方在0.75~0.9之間,指數(shù)函數(shù)的R方在0.65~0.8之間。從擬合效果來看:冪函數(shù)>指數(shù)函數(shù)>反向函數(shù)>對數(shù)函數(shù)。所以最終選定冪函數(shù)作為4門學(xué)科文獻(xiàn)的老化模型,其中醫(yī)藥健康學(xué)模型表達(dá)式:y=2.86.455x-1.294,生物科學(xué)模型表達(dá)式:y=352.638x-1.428,人類社會(huì)學(xué)模型表達(dá)式:y=535.844x-1.511,地球與環(huán)境科學(xué)模型表達(dá)式:y=396.213x-1.720。
從冪函數(shù)的性質(zhì)來看,當(dāng)b<0時(shí),函數(shù)在第一象限內(nèi)單調(diào)遞減,b可以用于描述曲線的下降速度,b越小,曲線下降越快,越貼近軸。該特性反映到學(xué)科老化上則是公眾對該學(xué)科的熱度下降越快,學(xué)術(shù)信息老化更快。通過比較b的大小,可知4門學(xué)科的老化速度:地球環(huán)境科學(xué)>人類社會(huì)學(xué)>生物科學(xué)>醫(yī)藥健康學(xué)。常數(shù)k則表示曲線在y軸上的焦點(diǎn)距離原點(diǎn)的截距,k越大,截距越大。該值反映了學(xué)術(shù)信息的初始熱度,比較k的大小,4門學(xué)科的初始熱度:人類社會(huì)學(xué)>地球與環(huán)境科學(xué)>生物科學(xué)>醫(yī)藥健康學(xué)。老化速度和初始熱度的排名驗(yàn)證了本文在第三節(jié)中的觀點(diǎn),不管是熱度還是持久度,普通群眾更重視與生活相關(guān)的學(xué)科,對于健康生活知識(shí)的訴求明顯大于與自身關(guān)系不大的其他學(xué)科知識(shí)。
通過對樣本數(shù)據(jù)的分析,得到3條結(jié)論:(1)社交媒體的發(fā)展使得學(xué)術(shù)交流的互動(dòng)性不斷增加,傳統(tǒng)學(xué)術(shù)的傳播方式發(fā)生了重大的變化。學(xué)術(shù)熱點(diǎn)經(jīng)過社交媒介地積極轉(zhuǎn)載和討論分享后演變?yōu)闊狳c(diǎn)輿情事件,反過來又加深了學(xué)術(shù)熱點(diǎn)的覆蓋面和影響力,原來一直處于學(xué)術(shù)圈外的網(wǎng)絡(luò)民眾逐漸成為學(xué)術(shù)熱點(diǎn)的傳播主體。(2)雖然在傳統(tǒng)的信息老化研究領(lǐng)域,學(xué)者更習(xí)慣運(yùn)用貝爾納的負(fù)指數(shù)方程[22]來描述老化規(guī)律,但是本研究發(fā)現(xiàn)冪函數(shù)模型更適合描述社交網(wǎng)絡(luò)中的學(xué)術(shù)信息老化規(guī)律。(3)不同學(xué)科的老化速度不同,地球與環(huán)境科學(xué)文獻(xiàn)老化速度最快,其次是生物科學(xué)和人類社會(huì)學(xué),醫(yī)藥健康學(xué)文獻(xiàn)老化速度最慢,原因不僅限于學(xué)科特點(diǎn)及學(xué)科的發(fā)展階段,很大程度上還與社交網(wǎng)絡(luò)使用者的興趣有關(guān),總體而言,與自身健康相關(guān)的學(xué)術(shù)信息老化更慢,而相對枯燥的信息則老化得更快。
學(xué)術(shù)信息老化規(guī)律是文獻(xiàn)信息流的基本規(guī)律之一。它從文獻(xiàn)利用率隨時(shí)間流逝而衰減的角度揭示文獻(xiàn)情報(bào)工作的規(guī)律和科學(xué)發(fā)展的特征[23]。本文在已有的老化測算指標(biāo)的基礎(chǔ)上,通過對Twitter中的科學(xué)文獻(xiàn)進(jìn)行實(shí)證研究,以期測算出基于社交網(wǎng)絡(luò)的學(xué)術(shù)信息老化規(guī)律,盡可能揭示網(wǎng)絡(luò)學(xué)術(shù)信息的老化現(xiàn)象。為了求得更準(zhǔn)確的基于社交網(wǎng)絡(luò)的學(xué)術(shù)信息老化規(guī)律,本文研究期待更大規(guī)模數(shù)據(jù)的驗(yàn)證。