在線科研社區(qū),是指由具有相同研究興趣愛好、相似科學(xué)背景的學(xué)術(shù)科研人員組成,以討論學(xué)術(shù)問題、科研活動(dòng)、學(xué)術(shù)會(huì)議為主,旨在實(shí)現(xiàn)科研觀點(diǎn)的交流以及研究成果的傳播和共享的人類共同體,它為科學(xué)知識(shí)的交流與分享提供了比傳統(tǒng)方式(如期刊、會(huì)議以及面對(duì)面交流)更便捷的途徑。隨著互聯(lián)網(wǎng)發(fā)展,在線科研社區(qū)如小木蟲論壇、零點(diǎn)花園、經(jīng)管之家(原人大經(jīng)濟(jì)論壇)正逐漸成為現(xiàn)代學(xué)術(shù)交流、知識(shí)共享的重要平臺(tái)。在線科研社區(qū)因其豐富的知識(shí)儲(chǔ)備、實(shí)時(shí)在線交流及個(gè)性化服務(wù)、開放包容的環(huán)境氛圍,吸引著越來越多的科研人員和組織,在實(shí)現(xiàn)科學(xué)知識(shí)的傳播和共享過程中發(fā)揮著越來越重要的作用。促進(jìn)科研成果和科學(xué)知識(shí)的傳播和共享是用戶參與在線科研社區(qū)的主要?jiǎng)訖C(jī),也是在線科研社區(qū)得以生存和發(fā)展的關(guān)鍵。因此,探究在線科研社區(qū)背景下科研知識(shí)的傳播和共享狀況的影響因素成為一個(gè)重要的研究問題。
文獻(xiàn)、期刊是知識(shí)傳播的主要渠道,也是科研工作者之間正式、公開、有序的交流工具??蒲腥藛T通過閱讀和引用其他科研人員的論文來撰寫文章,這些文章在發(fā)表后又有可能被其他研究人員所引用,這種頻繁的論文引用與被引的過程實(shí)現(xiàn)了科研知識(shí)的傳播和共享。論文被引用是科研成果、科學(xué)知識(shí)的傳播和共享的一種具體表現(xiàn)形式,本文以論文被引頻次作為科研成果傳播和共享狀況的量化指標(biāo)來開展進(jìn)一步的探討??蒲泄ぷ髡叩膶W(xué)術(shù)成就主要體現(xiàn)在其發(fā)表的論文數(shù)量和論文的被引頻次兩方面,而論文被引頻次在一定程度上則說明了論文的質(zhì)量以及科研人員的學(xué)術(shù)水平。但由于缺乏完整的學(xué)術(shù)評(píng)估機(jī)制和對(duì)論文被引頻次的系統(tǒng)性研究,一些科研人員盲目推崇論文被引頻次,更有甚者將其等同于論文質(zhì)量[1]。實(shí)際上,大量研究表明:科研成果的質(zhì)量并不是影響論文被引頻次的唯一因素,論文的長(zhǎng)短、論文類型(如綜述類論文、方法論類的論文、研究型論文等)、作者的數(shù)量、參考文獻(xiàn)數(shù)量、作者在其研究領(lǐng)域的聲望、性別,還有作者與讀者的文化差異、語言的不同和社會(huì)關(guān)系等與論文質(zhì)量關(guān)系不大的因素也會(huì)影響論文被引頻次。
科研人員的研究活動(dòng)、科研成果的發(fā)表和其他研究人員對(duì)論文的引用都屬于社會(huì)活動(dòng),因此,論文被引頻次不僅反映科研工作的質(zhì)量好壞,同時(shí)體現(xiàn)出一些社會(huì)因素和特征[2]。近期大量研究揭示了許多與論文被引頻次密切相關(guān)的外在因素。Leimu等[3]發(fā)現(xiàn)多作者會(huì)大大增加論文被引用的可能性,其解釋是:第一,擁有多作者的論文可能會(huì)涉及多個(gè)學(xué)科領(lǐng)域,因此會(huì)引起許多學(xué)科的研究人員的關(guān)注并被他們所引用;第二,論文的作者越多,文獻(xiàn)被自引的可能性就越大;第三,科研人員之間的正式交流與合作也有可能增加論文的被引頻次。一些學(xué)者則認(rèn)為論文的參考文獻(xiàn)也是影響論文被引頻次的重要因素。Webster等[4]以及Vieira等[5]都發(fā)現(xiàn)兩者之間存在正相關(guān)關(guān)系,Webster等推斷這可能是“一報(bào)還一報(bào)”的本性在發(fā)揮作用,即“我引用你的論文,你引用我的論文”。姜磊等[6]基于Web of Science上的數(shù)據(jù)進(jìn)行研究,證實(shí)論文的被引頻次與論文的參考文獻(xiàn)的數(shù)量和質(zhì)量間都存在正相關(guān)關(guān)系,但這種相關(guān)性不是很顯著。還有許多研究揭示了一些其它的影響論文被引頻次的因素,如論文發(fā)表所在的期刊[7]、研究主題和研究的設(shè)計(jì)[8]、論文所使用的語言[9]。在在線科研社區(qū)蓬勃發(fā)展的大背景下,是否存在新的因素影響論文的被引頻次從而潛移默化地影響著科學(xué)知識(shí)的交流和傳播?本文對(duì)論文在在線科研社區(qū)中所具有的獨(dú)特屬性進(jìn)行分析,探究其是否對(duì)論文被引頻次產(chǎn)生影響,從而了解網(wǎng)絡(luò)環(huán)境下信息資源的利用情況和科學(xué)知識(shí)的傳播情況。
社會(huì)化標(biāo)簽是描述Web資源的元數(shù)據(jù),是靈活、開放、準(zhǔn)確的分類方法,鼓勵(lì)用戶根據(jù)自己對(duì)資源的偏好、需求和理解對(duì)資源的主題、類型、功能等進(jìn)行描述,是聯(lián)系客觀信息和主觀認(rèn)知的中介,是用戶實(shí)現(xiàn)資源組織、管理和共享的基礎(chǔ),是在線科研社區(qū)區(qū)別于傳統(tǒng)科研社區(qū)的一大特征。因此,本文就在線科研社區(qū)中的社會(huì)化標(biāo)簽是否對(duì)論文被引頻次產(chǎn)生影響,從而對(duì)科研知識(shí)的傳播和共享發(fā)揮作用問題進(jìn)行探究。
CiteULike是由施普林格出版社(Springer)提供的一款免費(fèi)的社會(huì)化書簽網(wǎng)絡(luò)工具,是專門協(xié)助用戶存儲(chǔ)、管理和分享學(xué)術(shù)文章的在線科研社區(qū)。CiteULike支持一系列的文獻(xiàn)管理服務(wù)和按作者、tags查詢服務(wù),還提供了用戶間可以相互聯(lián)系以及用戶組等社交服務(wù)[10]。該平臺(tái)滿足了該研究所需的在線科研社區(qū)環(huán)境以及社會(huì)化標(biāo)簽的研究條件,為相關(guān)研究提供了很好的數(shù)據(jù)支持。
本文所選的標(biāo)簽信息來源于CiteULike網(wǎng)站。其原始數(shù)據(jù)包括網(wǎng)站自2011年7月1日至2011年12月31日所有的用戶操作數(shù)據(jù),每條操作記錄包括文章號(hào)、用戶號(hào)、標(biāo)注時(shí)間、標(biāo)注的標(biāo)簽等4個(gè)字段,共截取了573684條數(shù)據(jù)。如果用戶在收藏文章時(shí)沒有提供標(biāo)簽,網(wǎng)站則會(huì)為文章自動(dòng)生成一個(gè)“no-tag”的標(biāo)簽。根據(jù)CiteULike的標(biāo)注機(jī)制,用戶手動(dòng)標(biāo)注文章則會(huì)產(chǎn)生一個(gè)特定的標(biāo)注時(shí)間,因此,一篇文章在同一個(gè)時(shí)間點(diǎn)被同一用戶標(biāo)注多次則說明這些標(biāo)簽是被批量導(dǎo)入的,筆者將這類數(shù)據(jù)記錄剔除。此外,“no-tag”這一社會(huì)標(biāo)簽對(duì)研究無實(shí)質(zhì)性的意義,因此此類標(biāo)簽的數(shù)據(jù)也被剔除。
基于上述處理后的數(shù)據(jù),根據(jù)數(shù)據(jù)中的文章號(hào)(DOI)在Web of Science中檢索和收集論文的相關(guān)信息,包括論文的發(fā)表年份、參考文獻(xiàn)數(shù)量、論文被引總頻次(指論文從發(fā)表至2016年12月31日期間的被引總頻次)和被標(biāo)記后的被引頻次(指論文從被標(biāo)注至2016年12月31日期間的被引頻次)、論文被下載次數(shù)以及論文所屬的學(xué)科領(lǐng)域。根據(jù)論文信息,選取3個(gè)特定學(xué)科領(lǐng)域中的論文對(duì)其被標(biāo)注的標(biāo)簽和被引頻次間的關(guān)系進(jìn)行探究。本文選取的領(lǐng)域是工程類(Engineering)、生物與化學(xué)類(Chemistry&Biology)、經(jīng)濟(jì)與管理類(Economics&Business)。之所以選取以上3個(gè)學(xué)科,是因?yàn)槠渚哂幸欢ǖ拇硇浴9こ填惔砹藢?shí)際應(yīng)用型的科學(xué)領(lǐng)域;生物和化學(xué)屬于實(shí)驗(yàn)性科學(xué),可以代表基礎(chǔ)科學(xué)領(lǐng)域;經(jīng)濟(jì)和管理則代表非理工類的科學(xué)領(lǐng)域,為研究數(shù)據(jù)添加社會(huì)人文因素,從而使數(shù)據(jù)更加全面、科學(xué)。通過數(shù)據(jù)的篩選、剔除,所得數(shù)據(jù)如表1所示。
表1 CiteULike數(shù)據(jù)
基于上述的數(shù)據(jù)處理結(jié)果,對(duì)每篇論文的標(biāo)簽數(shù)量分別進(jìn)行統(tǒng)計(jì)、記錄。除標(biāo)簽數(shù)量外,本文還對(duì)標(biāo)簽的語義內(nèi)容對(duì)論文被引頻次的影響進(jìn)行探究,筆者將根據(jù)標(biāo)簽的語義內(nèi)容對(duì)標(biāo)簽進(jìn)行分類來開展這一探究。Sen等[11]提出3種標(biāo)簽類型,筆者在此基礎(chǔ)上作了改動(dòng),即將事實(shí)型標(biāo)簽改為客觀型標(biāo)簽。數(shù)據(jù)中的標(biāo)簽將根據(jù)如下分類標(biāo)準(zhǔn)進(jìn)行歸類:(1)客觀型標(biāo)簽。主要描述論文的客觀事實(shí),如作者、地點(diǎn)、時(shí)間、以及論文類型。(2)主觀型標(biāo)簽。主要用來表達(dá)用戶對(duì)某篇論文的觀點(diǎn)、情感、認(rèn)知等,如general、persuasive、smart。(3)個(gè)人型標(biāo)簽。主要是便于用戶組織、收藏和管理論文,如一位用戶在1月1日閱讀了一篇論文,并在收藏該論文時(shí)標(biāo)注一個(gè)“1-Janurry”的標(biāo)簽,便于今后檢索、查找該論文。此外,如果對(duì)某一標(biāo)簽的分類不明確,即該標(biāo)簽不包含以上任何一類中,則將該標(biāo)簽歸入其它標(biāo)簽類。本研究邀請(qǐng)3位學(xué)者對(duì)標(biāo)簽進(jìn)行編碼歸類,如果對(duì)標(biāo)簽的分類存在異議,則進(jìn)行討論直至3位學(xué)者意見一致。標(biāo)簽的分類、統(tǒng)計(jì)結(jié)果如表2所示。
由于標(biāo)簽類別為分類變量,需設(shè)置虛擬變量。選擇客觀型標(biāo)簽為參照基礎(chǔ),設(shè)置T1,T2,T3三個(gè)虛擬變量。若標(biāo)簽是主觀型則T1=1,否則T1=0;若標(biāo)簽是個(gè)人型則T2=1,否則T2=0;若標(biāo)簽屬于其他類標(biāo)簽則T3=1,否則T3=0。此外,學(xué)科類別也是分類變量,筆者以生化類為參照,設(shè)定S1和S2兩個(gè)虛擬變量。若文章屬于工程類則S1=1,否則S1=0;若文章屬于經(jīng)管類則S2=1,否則S2=0。
表2 標(biāo)簽類型數(shù)據(jù)集
根據(jù)所得數(shù)據(jù)繪制標(biāo)簽數(shù)量和論文被引頻次的散點(diǎn)圖。由圖1可知,現(xiàn)有的數(shù)據(jù)很難反映出標(biāo)簽數(shù)量與論文被引頻次間的相關(guān)關(guān)系。因此,借助與標(biāo)簽數(shù)量相關(guān)聯(lián)的其它指標(biāo)間接的對(duì)標(biāo)簽數(shù)量和論文被引頻次的關(guān)系進(jìn)行初步探究。
圖1 標(biāo)簽數(shù)量與被引總頻次的散點(diǎn)圖
科研工作者在引用論文時(shí)存在個(gè)體傾向,即傾向于引用那些被他們標(biāo)注過或下載保存過的論文。將科研人員的論文引用行為與標(biāo)注行為相關(guān)聯(lián),則引用行為的發(fā)生會(huì)涉及多個(gè)步驟:第一,為論文添加標(biāo)簽;第二,社區(qū)用戶看到被其他用戶標(biāo)記的論文(如一些在線科研社區(qū)會(huì)對(duì)被標(biāo)注次數(shù)較多的論文進(jìn)行推廣);第三,用戶保存、下載論文;第四,閱讀論文;第五,發(fā)現(xiàn)、判定論文是否對(duì)自己的研究有價(jià)值;第六,借鑒、引用論文。由于這一行為鏈較復(fù)雜和繁瑣,筆者將只考慮論文被標(biāo)注、論文被下載和論文被引用等3個(gè)主要步驟來簡(jiǎn)化這一過程。此外,筆者將通過探究論文下載次數(shù)對(duì)論文被引頻次的影響而間接地初步推斷標(biāo)簽數(shù)量與論文被引頻次間的關(guān)系。
為探究論文下載次數(shù)和被引頻次間的相關(guān)關(guān)系,基于各類標(biāo)簽,對(duì)每一類標(biāo)簽的論文下載次數(shù)的平均值和被引頻次的平均值進(jìn)行了計(jì)算和對(duì)比,如圖2。4類標(biāo)簽分別對(duì)應(yīng)的論文被引頻次的均值和下載次數(shù)的均值間具有一定的相關(guān)性。下載次數(shù)均值較大的值對(duì)應(yīng)著一個(gè)較大的被引頻次均值,反之較小的下載次數(shù)均值則對(duì)應(yīng)著一個(gè)較小的被引頻次均值。這意味著論文下載次數(shù)和被引頻次之間可能存在正相關(guān)關(guān)系。筆者在下面的研究中對(duì)這種相關(guān)關(guān)系作了進(jìn)一步的驗(yàn)證。
圖2 各類標(biāo)簽所對(duì)應(yīng)的論文被引總頻次均值和論文下載次數(shù)均值
圖3 工程領(lǐng)域的散點(diǎn)圖
圖4 生物與化學(xué)領(lǐng)域的散點(diǎn)圖
圖5 經(jīng)濟(jì)與管理領(lǐng)域的散點(diǎn)圖
基于論文的學(xué)科類別,將論文下載次數(shù)作為自變量,論文被引頻次作為因變量,分別繪制3個(gè)學(xué)科領(lǐng)域的散點(diǎn)圖。通過統(tǒng)計(jì)軟件SPSS,分別得到了工程領(lǐng)域、生物與化學(xué)領(lǐng)域以及經(jīng)濟(jì)與管理領(lǐng)域的散點(diǎn)圖,如圖3-5所示。從3個(gè)散點(diǎn)圖中可以看出,論文下載次數(shù)與論文被引頻次在一定程度上呈現(xiàn)出正相關(guān)關(guān)系。所得結(jié)果與圖2所得結(jié)果一致。雖然3個(gè)散點(diǎn)圖中都存在一些異常值,但并不影響論文下載次數(shù)和被引頻次間的整體關(guān)系。在下面研究中,筆者將對(duì)這些異常點(diǎn)進(jìn)行處理。通過散點(diǎn)圖的檢驗(yàn),可以得出結(jié)論:論文下載次數(shù)和被引頻次間存在線性正相關(guān)關(guān)系。這在一定程度上也反映了標(biāo)簽數(shù)量和論文被引頻次間可能存在一定的相關(guān)關(guān)系,對(duì)此,筆者將在下面的研究中作進(jìn)一步的分析探究。
基于上文提到的論文被引過程鏈以及論文下載次數(shù)和被引頻次的關(guān)系,筆者認(rèn)為,標(biāo)簽的數(shù)量對(duì)論文被引頻次具有一定的影響。下面基于標(biāo)簽類型的視角,探究標(biāo)簽類別是否對(duì)論文被引頻次產(chǎn)生影響,了解不同標(biāo)簽在文章被引過程中所起的作用。從圖6可以看出,每一學(xué)科中的各類標(biāo)簽所對(duì)應(yīng)的論文被引頻次均值是明顯不同的,因此,有必要對(duì)標(biāo)簽類型這一分類變量與論文被引頻次之間的關(guān)系進(jìn)行探究。
圖6 論文被引頻次的均值
方差分析是用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)方法,通過推斷自變量各水平下因變量的總體分布是否有顯著差異來實(shí)現(xiàn)其分析目標(biāo)。為了更好地反映標(biāo)簽對(duì)論文被引頻次的影響,筆者將論文被引總頻次和論文被標(biāo)注后被引頻次作為方差分析中的兩個(gè)觀測(cè)變量,從標(biāo)簽類別這一視角進(jìn)行方差分析。
表3顯示了變量列表和方差分析的結(jié)果。從表3可以看出,標(biāo)簽類別顯著影響論文被引總頻次和被標(biāo)注后的被引頻次(P值均近似為0),說明不同類別的標(biāo)簽對(duì)論文的引用有顯著的影響。
基于上述研究,將標(biāo)簽數(shù)量、論文下載次數(shù)、標(biāo)簽類別作為回歸模型中的影響因素??紤]到論文自身攜帶的一些特征也會(huì)影響論文的被引頻次,因此將論文的學(xué)科類別、發(fā)表年限和參考文獻(xiàn)數(shù)也帶入到回歸模型中。為了更好地反映標(biāo)注標(biāo)簽與論文被引用之間的關(guān)系,將論文被引總頻次和標(biāo)注后被引頻次作為兩個(gè)因變量。選擇以上兩個(gè)因變量的原因有:第一,考慮各自變量對(duì)論文被引用的總體影響趨勢(shì)。第二,考慮論文被標(biāo)注后,標(biāo)簽對(duì)其被引用的影響。
筆者分別對(duì)被引總頻次為因變量的模型和標(biāo)注后被引頻次為因變量的模型中的變量進(jìn)行了多重共線性分析,所得結(jié)果完全一致。結(jié)果如表4所示,各變量的容忍度均大于0.9(接近于1),且VIF均小于10,說明多重共線性較弱。此外,最大特征值為5.301,其余依次減小,且第三列中的條件指數(shù)值均不大。以上結(jié)果均證明各變量間不存在多重共線性。因此,以上選定的自變量均可進(jìn)入到回歸模型中。
表4 自變量共線性分析表
從表5可以看出,共有5個(gè)因素(標(biāo)簽數(shù)量、下載次數(shù)、標(biāo)簽類別、學(xué)科類別、發(fā)表年限)進(jìn)入到回歸模型中,參考文獻(xiàn)數(shù)這一變量被剔除。表5顯示,模型e的R2值最大,表明5個(gè)模型中模型e效果最好。如表5所示,整體估計(jì)的結(jié)果比較令人滿意,且與實(shí)際情況和研究預(yù)期相吻合。首先,發(fā)表年限對(duì)被引總頻次有積極的影響。這一結(jié)果符合實(shí)際情況,論文發(fā)表的時(shí)間越長(zhǎng)越有可能被人所知、閱讀,甚至被引用。其次,標(biāo)簽數(shù)量對(duì)被引總頻次產(chǎn)生積極的影響,回歸系數(shù)為14.970,且影響非常顯著(p<0.001),該結(jié)果與上述散點(diǎn)圖分析的預(yù)想一致。此外,標(biāo)簽類別對(duì)論文被引總頻次產(chǎn)生了一定的影響,且除個(gè)人型標(biāo)簽和其他類標(biāo)簽外(影響不顯著(p>0.05),其余類別的標(biāo)簽產(chǎn)生的影響顯著度為一般顯著(p<0.05)。出乎意料的是,主觀型標(biāo)簽對(duì)論文被引總頻次有負(fù)面的影響。對(duì)此筆者猜測(cè),一個(gè)用戶根據(jù)自己對(duì)論文的理解和情感給其添加的標(biāo)簽可能會(huì)與論文本身的主題和中心有所偏差,從而會(huì)誤導(dǎo)其他用戶,使他們無法正確地判斷該論文對(duì)于自己的研究是否有借鑒價(jià)值,進(jìn)而影響論文的被引用。其余的標(biāo)簽類則對(duì)被引總頻次有積極的影響,可能是這些標(biāo)簽有助于用戶理解論文并對(duì)論文進(jìn)行價(jià)值判定,從而影響論文的被引用。這說明標(biāo)簽的語義內(nèi)容對(duì)論文被引起著重要的作用。另外,值得注意的是,學(xué)科類別對(duì)被引總頻次產(chǎn)生消極的影響,且影響顯著(p<0.01)。最后,論文下載次數(shù)與被引總頻次之間有顯著的正相關(guān)關(guān)系,與上述散點(diǎn)圖分析所得結(jié)果一致,符合本研究最初的預(yù)想。
表5 自變量和因變量(被引總頻次)逐步回歸的回歸系數(shù)與顯著性檢驗(yàn)表
從表6可以看出,將標(biāo)注后被引頻次作為因變量得到的結(jié)果與上面的結(jié)果一致,即模型e效果最好。如表6所示,其估計(jì)結(jié)果與表5中的結(jié)果大體一致。唯一的不同點(diǎn)是,除其他類標(biāo)簽外,其余類別的標(biāo)簽對(duì)標(biāo)注后被引頻次均產(chǎn)生顯著的影響(p<0.05)。此外,學(xué)科類別對(duì)標(biāo)注后被引頻次產(chǎn)生了顯著的消極影響,而標(biāo)簽數(shù)量、下載次數(shù)與發(fā)表年限對(duì)標(biāo)注后被引頻次均有積極的影響作用,且影響顯著(p<0.001)。此結(jié)果與表5中的結(jié)果一致,與實(shí)際情況和筆者的預(yù)期相吻合。
表6 自變量和因變量(標(biāo)注后被引頻次)逐步回歸的回歸系數(shù)與顯著性檢驗(yàn)表
綜合以上分析可知:(1)標(biāo)簽數(shù)量與論文被引頻次間存在顯著的正相關(guān)關(guān)系,這符合實(shí)際情況和研究預(yù)想。一篇論文的標(biāo)簽越多,說明該論文被越多的用戶關(guān)注、閱讀過,因此也就增加了論文被引用的可能性。(2)除主觀類標(biāo)簽外(產(chǎn)生負(fù)面的影響),其余類別的標(biāo)簽與被引頻次間存在正相關(guān)關(guān)系,這意味著在很大程度上論文被標(biāo)注的標(biāo)簽會(huì)引起該論文被引用,且被引用的可能性與標(biāo)簽的語義內(nèi)容密切相關(guān),這有可能是因?yàn)椴煌悇e的標(biāo)簽給科研人員傳遞了不一樣的信息。有趣的標(biāo)簽可以引起研究人員的注意,并幫助他們理解論文和判定該論文的借鑒價(jià)值。而有些標(biāo)簽則無法引起研究人員的注意,甚至這些標(biāo)簽都不能被他們所認(rèn)知、理解,所以這些標(biāo)簽對(duì)研究人員來說毫無意義,也就無法對(duì)他們的引用行為產(chǎn)生影響。因此,標(biāo)簽類別對(duì)論文被引頻次有顯著的影響。(3)學(xué)科類別與被引頻次之間有顯著的負(fù)相關(guān)關(guān)系。對(duì)此結(jié)果,筆者認(rèn)為,當(dāng)某一篇論文歸于某一學(xué)科后,該論文很大可能只會(huì)被所屬學(xué)科領(lǐng)域的科研工作者所引用。而當(dāng)論文所涉及的學(xué)科領(lǐng)域越多,則該論文越有可能被各研究領(lǐng)域的科研人員看到,繼而產(chǎn)生更多的引用。論文的學(xué)科屬性劃分一定程度上限制了論文的引用。因此,學(xué)科類別對(duì)論文被引頻次產(chǎn)生消極的影響。
本文將CiteULike作為實(shí)例對(duì)象,探究在線科研社區(qū)中標(biāo)簽(包括標(biāo)簽的數(shù)量和類型)對(duì)論文被引用的影響。對(duì)論文添加標(biāo)簽可以提高論文的認(rèn)知度,從而增加論文的下載次數(shù),最后可能增加論文的被引頻次。本文基于提出的問題進(jìn)行分析檢驗(yàn),并對(duì)分析結(jié)果作出相應(yīng)的解釋。本研究作出的主要貢獻(xiàn)包括:首先,基于標(biāo)簽的視角對(duì)關(guān)于論文被引頻次的影響因素的研究進(jìn)行擴(kuò)充?,F(xiàn)有研究主要從論文主題或自身所帶的特征、作者和讀者以及期刊、影響因子等視角出發(fā)對(duì)論文被引頻次的影響因素進(jìn)行探究。筆者從標(biāo)簽數(shù)量和標(biāo)簽類別兩個(gè)研究視角出發(fā),探究標(biāo)簽對(duì)論文被引頻次的影響。研究發(fā)現(xiàn)標(biāo)簽無論是在數(shù)量方面還是語義內(nèi)容方面都對(duì)論文的被引有著顯著的影響。其次,還研究了學(xué)科類別對(duì)論文被引頻次的影響。筆者選擇3個(gè)典型的代表性學(xué)科領(lǐng)域(工程類、生化類和經(jīng)管類)對(duì)這一問題進(jìn)行探究,發(fā)現(xiàn)學(xué)科類別在一定程度上限制了論文的引用。最后一方面揭示了在線科研社區(qū)中用戶標(biāo)注的標(biāo)簽與論文的被引頻次間的數(shù)量關(guān)系,有助于人們從新的角度來理解學(xué)術(shù)知識(shí)的傳播和共享??蒲泄ぷ髡呖梢栽谠诰€科研社區(qū)上展示和介紹他們的研究成果,實(shí)現(xiàn)研究的學(xué)術(shù)價(jià)值和科學(xué)知識(shí)的傳播、共享;另一方面,在線科研社區(qū)的服務(wù)提供商要鼓勵(lì)用戶積極的參與到標(biāo)注活動(dòng)中,這有助于促進(jìn)服務(wù)平臺(tái)的發(fā)展。
本文的研究結(jié)果具有較強(qiáng)的實(shí)證數(shù)據(jù)支持,可以作為未來引文研究的墊腳石,但在理論框架和研究方法上仍存在一定的改進(jìn)空間,主要局限包括:第一,該研究基于CiteULike平臺(tái)2011年7月1日至2011年12月31日的用戶操作數(shù)據(jù)進(jìn)行探究,數(shù)據(jù)集的時(shí)間跨度不是很大,在一定程度上還不能很好地反映出整體趨勢(shì)。在今后研究中作進(jìn)一步的擴(kuò)充和完善。第二,該研究考慮學(xué)科類別這一影響因素時(shí),選擇工程領(lǐng)域、生物與化學(xué)領(lǐng)域和經(jīng)濟(jì)與管理領(lǐng)域,發(fā)現(xiàn)學(xué)科類別對(duì)論文被引頻次具有消極影響,但該結(jié)果對(duì)其他學(xué)科可能并不適用。在今后研究中將引入更多學(xué)科,并對(duì)學(xué)科類別和論文被引頻次間的關(guān)系作進(jìn)一步的科學(xué)解釋。第三,本研究主要考慮論文的下載次數(shù)、參考文獻(xiàn)數(shù)、發(fā)表年限、學(xué)科類別、標(biāo)簽數(shù)量和類別等影響因素,在未來研究中將引入更多的因素來完善當(dāng)前的研究模型。
參考文獻(xiàn)
[1] 王海濤,譚宗穎,陳挺.論文被引頻次影響因素研究——兼論被引頻次評(píng)估科研質(zhì)量的合理性[J].科學(xué)學(xué)研究,2016,34(2):171-177.
[2] Bornmann L,Schier H,Marx W,et al.What factors determine citation counts of publications in chemistry besides their quality?[J]. Journal of Informetrics,2012,6(1):11-18.
[3] Leimu R,KorichevaJ.Whatdeterminesthe citation frequency of ecological papers?[J].Trends in Ecology&Evolution,2005,20(1):28.
[4] Webster G D,Jonason P K,Schember T O.Hot Topics and Popular Papers in Evolutionary Psychology:Analyses of Title Words and Citation Counts in Evolution and Human Behavior,1979-2008[J].Evolutionary Psychology,2009,7(3):348-362.
[5] Vieira E S,Gomes J A N F.Citations to scientific articles:Its distribution and dependence on the article features[J].Journal of Informetrics, 2010, 4(1):1-13.
[6] 姜磊,林德明.參考文獻(xiàn)對(duì)論文被引頻次的影響研究[J].科研管理,2015,36(1):121-126.
[7] Peng T Q,Zhu J J H.Where you publish matters most:A multilevelanalysisoffactorsaffecting citations of internet studies[J]. Journalof the American Society for Information Science &Technology,2012,63(9):1789-1803.
[8] Willis D L,Bahler C D,Neuberger M M,et al.Predictors of citations in the urological literature[J].Bju International,2011,107(12):1876.
[9] Lansingh V C,Carter M J.Does open access in ophthalmology affect how articles are subsequently cited in research?[J].Ophthalmology, 2009, 116(8):1425-1431.
[10]張鏵予,張潔雪,張巖,等.CiteULike網(wǎng)站用戶標(biāo)簽分析及推薦機(jī)制研究[J].情報(bào)探索,2011(1):85-87.
[11]Sen S,Lam S K,Rashid A M, et al.tagging,communities,vocabulary,evolution[C]//Anniversary Conference on Computer Supported Cooperative Work.ACM,2006:181-190.