陳必坤,程孟夏,鐘周燕,章成志
隨著網(wǎng)絡(luò)化、數(shù)字化的發(fā)展以及相關(guān)技術(shù)的進(jìn)步,科研人員越來(lái)越傾向于通過(guò)網(wǎng)絡(luò)獲取數(shù)字學(xué)術(shù)文獻(xiàn)從事科學(xué)研究,使科研用戶(hù)的學(xué)術(shù)文獻(xiàn)使用數(shù)據(jù)(即學(xué)術(shù)文獻(xiàn)的HTML格式瀏覽數(shù)據(jù)與PDF等格式的下載數(shù)據(jù)[1])得以被記錄。在此背景下,越來(lái)越多的研究者對(duì)學(xué)術(shù)文獻(xiàn)使用數(shù)據(jù)進(jìn)行采集、整理和挖掘分析,以發(fā)現(xiàn)與用戶(hù)使用行為相關(guān)的特點(diǎn)、規(guī)律,或者通過(guò)學(xué)術(shù)文獻(xiàn)使用數(shù)據(jù)進(jìn)行相關(guān)性研究,由此產(chǎn)生了被國(guó)際學(xué)術(shù)界稱(chēng)為Usage Metrics的研究熱點(diǎn)[2]。同時(shí),結(jié)構(gòu)化的學(xué)術(shù)文獻(xiàn)全文本數(shù)據(jù)也越來(lái)越容易獲取,研究者圍繞全文本數(shù)據(jù)展開(kāi)了全文引文分析和實(shí)體計(jì)量學(xué)等研究,以探索用戶(hù)引證動(dòng)機(jī)或者測(cè)度文獻(xiàn)及實(shí)體的學(xué)術(shù)影響力[3-4]等。將學(xué)術(shù)文獻(xiàn)使用數(shù)據(jù)與全文本數(shù)據(jù)結(jié)合進(jìn)行綜合分析,將能夠從全文本數(shù)據(jù)的視角探索用戶(hù)瀏覽或下載特征與規(guī)律。
目前Usage Metrics 研究主要包括以下主題:(1)通過(guò)使用數(shù)據(jù)研究用戶(hù)行為模式,如科學(xué)家工作時(shí)間[5-6]、用戶(hù)使用偏好[7-8]以及用戶(hù)時(shí)序使用模式[9-10]等;(2)通過(guò)使用數(shù)據(jù)研究文獻(xiàn)老化規(guī)律,一般從歷時(shí)或共時(shí)兩方面進(jìn)行分析[11-12];(3)運(yùn)用使用數(shù)據(jù)探測(cè)學(xué)科領(lǐng)域的研究趨勢(shì)[13-14];(4)將使用數(shù)據(jù)作為評(píng)價(jià)期刊、作者、機(jī)構(gòu)或國(guó)家影響力的指標(biāo),具體包括作為單個(gè)指標(biāo)進(jìn)行評(píng)價(jià)[15-17]或與Altmetrics指標(biāo)結(jié)合進(jìn)行評(píng)價(jià)[18-19]兩種形式;(5)探索使用數(shù)據(jù)與其他數(shù)據(jù)的相關(guān)性,主要包括使用數(shù)據(jù)與引用數(shù)據(jù)的相關(guān)性[20-24]、不同平臺(tái)使用數(shù)據(jù)的相關(guān)性[2,8]、使用數(shù)據(jù)與作者數(shù)量[25]或基金資助數(shù)據(jù)[26]的相關(guān)性等。最近,Chen等以PLoS期刊論文的全文本數(shù)據(jù)為例,選取計(jì)算語(yǔ)言學(xué)領(lǐng)域的多個(gè)指標(biāo)(包括標(biāo)題長(zhǎng)度、摘要長(zhǎng)度、正文長(zhǎng)度、句子平均長(zhǎng)度、詞匯多樣性、詞匯密度和詞匯復(fù)雜度等)對(duì)高瀏覽與高下載英文學(xué)術(shù)論文的語(yǔ)言學(xué)特征進(jìn)行測(cè)度,以探索論文使用數(shù)據(jù)與語(yǔ)言學(xué)特征之間的關(guān)系[27]。
目前全文本分析主要有以下主題:通過(guò)全文本數(shù)據(jù)研究引文分析,如引用位置[28]、引文緊密度[29]、引用語(yǔ)境與情感[30]、引用動(dòng)機(jī)和行為[31];通過(guò)全文本數(shù)據(jù)研究實(shí)體計(jì)量學(xué),如科學(xué)概念[32]、數(shù)據(jù)集[33]、軟件[34]和算法[35];通過(guò)全文本數(shù)據(jù)研究語(yǔ)言寫(xiě)作風(fēng)格[36]、高被引或高影響力學(xué)術(shù)論文語(yǔ)言學(xué)特征[37]等。
綜上所述,不同學(xué)者從多個(gè)方面研究學(xué)術(shù)文獻(xiàn)使用數(shù)據(jù)和全文本數(shù)據(jù),取得了較豐碩的成果。然而上述Usage Metrics研究的數(shù)據(jù)來(lái)源主要限于學(xué)術(shù)論文題錄數(shù)據(jù),較少關(guān)注論文全文本數(shù)據(jù),尤其是中文全文本數(shù)據(jù)。越來(lái)越多的中文期刊官網(wǎng)或?qū)W術(shù)數(shù)據(jù)庫(kù)開(kāi)始提供學(xué)術(shù)論文的HTML瀏覽數(shù)據(jù)或PDF等格式下載數(shù)據(jù),并提供HTML 格式的全文本數(shù)據(jù),給中文Usage Metrics的研究提供了新契機(jī)。從Usage Metrics視角研究中文學(xué)術(shù)論文全文本數(shù)據(jù),探索有價(jià)值的用戶(hù)特征或內(nèi)容特征,是本文研究的出發(fā)點(diǎn)。
科研用戶(hù)瀏覽和下載學(xué)術(shù)文獻(xiàn)是復(fù)雜的信息行為。一般而言,信息行為的產(chǎn)生過(guò)程涉及信息需要、信息環(huán)境、信息意識(shí)和信息動(dòng)機(jī)等因素,具體表現(xiàn)為信息查尋、信息選擇和信息利用行為等形式[38]。從已有Usage Metrics研究看,用戶(hù)瀏覽和下載受到文獻(xiàn)語(yǔ)種、傳播平臺(tái)、文獻(xiàn)類(lèi)型、文獻(xiàn)主題、作者數(shù)量和資助情況等因素影響。同樣地,作為學(xué)術(shù)思想和實(shí)驗(yàn)過(guò)程的形式化表達(dá),學(xué)術(shù)文獻(xiàn)寫(xiě)作是學(xué)術(shù)文獻(xiàn)生產(chǎn)、傳播和使用等環(huán)節(jié)的基礎(chǔ)。因此,本文假設(shè):學(xué)術(shù)文獻(xiàn)寫(xiě)作對(duì)用戶(hù)瀏覽和下載產(chǎn)生一定程度的影響。
如何量化測(cè)度學(xué)術(shù)文獻(xiàn)寫(xiě)作?計(jì)算語(yǔ)言學(xué)領(lǐng)域的語(yǔ)言學(xué)特征指標(biāo)測(cè)度是常用方法[36-37]。計(jì)算語(yǔ)言學(xué)通過(guò)建立形式化的數(shù)學(xué)模型來(lái)分析處理自然語(yǔ)言,并在計(jì)算機(jī)上用程序來(lái)實(shí)現(xiàn)分析和處理過(guò)程,以達(dá)到以機(jī)器來(lái)模擬人的全部或部分語(yǔ)言能力的目的[39]。測(cè)度語(yǔ)言學(xué)特征的指標(biāo)包括句法復(fù)雜度和詞匯復(fù)雜度。句法復(fù)雜度包括句子長(zhǎng)度、復(fù)雜度等指標(biāo);詞法復(fù)雜度包括詞匯多樣性、密度和復(fù)雜度等指標(biāo)[40-42]。本文主要研究高下載中文學(xué)術(shù)論文的語(yǔ)言學(xué)特征和不同語(yǔ)言學(xué)特征是否對(duì)中文學(xué)術(shù)論文的下載次數(shù)有影響。
筆者自2014年1月起開(kāi)始追蹤調(diào)研CSSCI中文期刊(均含擴(kuò)展版)的使用數(shù)據(jù),主要選取當(dāng)時(shí)即開(kāi)放獲取的期刊(少數(shù)期刊有至多半年的時(shí)滯)作為追蹤對(duì)象。根據(jù)《中文社會(huì)科學(xué)引文索引(CSSCI)來(lái)源期刊和收錄集刊(2018-2019)目錄》,選取了“圖書(shū)館、情報(bào)與文獻(xiàn)學(xué)”所有期刊作為研究樣本,然后對(duì)該學(xué)科所有期刊官網(wǎng)進(jìn)行逐一訪問(wèn),比較和篩選不同期刊學(xué)術(shù)論文的瀏覽與下載數(shù)據(jù)。具體選擇條件如下:
(1)所選期刊為開(kāi)放獲取期刊,期刊的學(xué)術(shù)論文可以在期刊官網(wǎng)供用戶(hù)瀏覽和下載,且該論文同時(shí)也被CNKI 收錄,保證用戶(hù)在期刊官網(wǎng)和CNKI都能瀏覽并下載。
(2)所選期刊論文的發(fā)表時(shí)間跨度為2014年1 月1 日至2017 年12 月31 日,以保證文獻(xiàn)瀏覽、下載和引用數(shù)據(jù)積累到穩(wěn)定狀態(tài)(通常是論文發(fā)表后的2-3年[43])。
(3)所選期刊官網(wǎng)提供的2014-2017年論文瀏覽或下載數(shù)據(jù)必須完整,若是相應(yīng)時(shí)間段內(nèi)發(fā)表的學(xué)術(shù)論文瀏覽或下載數(shù)據(jù)缺失,則不納入抽樣范圍,以保證數(shù)據(jù)的有效性。最終選定《情報(bào)雜志》《情報(bào)資料工作》《圖書(shū)情報(bào)工作》《圖書(shū)情報(bào)知識(shí)》《現(xiàn)代情報(bào)》《信息資源管理學(xué)報(bào)》和《中國(guó)圖書(shū)館學(xué)報(bào)》等7種期刊作為研究對(duì)象。
樣本數(shù)據(jù)采集和預(yù)處理步驟如下:
(1)從CNKI上獲取所有樣本期刊論文的元數(shù)據(jù),如論文標(biāo)題、作者、關(guān)鍵詞和摘要等,并通過(guò)Python語(yǔ)言依次自動(dòng)從CNKI上采集論文的全文下載次數(shù)、被引次數(shù)和全文文本數(shù)據(jù)。
(2)通過(guò)Python語(yǔ)言從期刊官網(wǎng)采集樣本期刊論文的全文瀏覽次數(shù)、全文下載次數(shù)及其他元數(shù)據(jù),如論文標(biāo)題和作者等。
(3)通過(guò)“論文標(biāo)題and作者”字段將CNKI數(shù)據(jù)與期刊官網(wǎng)數(shù)據(jù)合并。
(4)刪除公告、新聞等,僅保留研究論文。
(5)對(duì)標(biāo)題、摘要和全文數(shù)據(jù)進(jìn)行處理,調(diào)用Python中文分詞軟件包Jieba對(duì)標(biāo)題、摘要和全文進(jìn)行分詞、去除停用詞和標(biāo)點(diǎn)等。CNKI平臺(tái)論文元數(shù)據(jù)和使用數(shù)據(jù)獲取與處理時(shí)間為2019年7月1-3日;期刊官網(wǎng)的論文元數(shù)據(jù)和使用數(shù)據(jù)獲取與處理時(shí)間為2019年7月4-10日;論文標(biāo)題、摘要和全文數(shù)據(jù)的處理時(shí)間為2019年7月11日-9月11日。
CNKI使用數(shù)據(jù)是學(xué)術(shù)論文的PDF與CAJ格式全文下載次數(shù)總和,期刊官網(wǎng)使用數(shù)據(jù)是學(xué)術(shù)論文HTML 瀏覽次數(shù)(摘要瀏覽或全文瀏覽)和PDF 全文下載次數(shù)。雖然CNKI 近年開(kāi)放了HTML在線閱讀功能,但并未提供HTML全文瀏覽次數(shù),無(wú)法與期刊官網(wǎng)的全文瀏覽次數(shù)進(jìn)行比較研究,因此,本文僅研究?jī)蓚€(gè)平臺(tái)的學(xué)術(shù)論文(共6,257篇)全文下載次數(shù)。統(tǒng)計(jì)結(jié)果見(jiàn)表1。
表1 樣本數(shù)據(jù)
(1)論文分組策略。在科學(xué)計(jì)量學(xué)研究中,研究者大多選取某一期刊、學(xué)科或主題在一定時(shí)間內(nèi)(如10 年、1 年或1 個(gè)月)下載次數(shù)前10、前20、前100或前20%的論文作為研究樣本。根據(jù)“帕累托分布”(二八定律),本文選取不同期刊在不同平臺(tái)下載排名前20%的學(xué)術(shù)論文(界定為“高下載論文”)為研究對(duì)象。為了進(jìn)行對(duì)比分析,不同期刊全體論文(界定為“總體論文”)、下載排名后20%的學(xué)術(shù)論文(界定為“低下載論文”)也被列入本研究范疇。
(2)語(yǔ)言學(xué)特征測(cè)度指標(biāo)?;谝陨涎芯浚罁?jù)學(xué)術(shù)論文的基本結(jié)構(gòu)及語(yǔ)言粒度,按照“題名、摘要、正文、句子和詞匯”的思路開(kāi)展研究。標(biāo)題長(zhǎng)度、摘要長(zhǎng)度、摘要句子長(zhǎng)度、摘要詞匯多樣性、正文長(zhǎng)度、正文段落長(zhǎng)度、正文句子長(zhǎng)度和正文詞匯多樣性等指標(biāo)被選擇用來(lái)測(cè)度語(yǔ)言學(xué)特征等見(jiàn)表2。
表2 語(yǔ)言學(xué)特征測(cè)度指標(biāo)
“合作作者數(shù)量”未被選用的原因是該指標(biāo)用來(lái)測(cè)度“合作情況”[23],與語(yǔ)言學(xué)特征無(wú)關(guān)。此外,值得提出的是,與前期研究[27]不同,本文所選的樣本數(shù)據(jù)為中文學(xué)術(shù)文獻(xiàn)全文本且選用了三種全新的語(yǔ)言學(xué)特征測(cè)度指標(biāo)。
(3)語(yǔ)言學(xué)特征測(cè)度指標(biāo)的適用性。為驗(yàn)證語(yǔ)言學(xué)特征測(cè)度指標(biāo)的適用性,分別在期刊官網(wǎng)和CNKI 平臺(tái)進(jìn)行用戶(hù)學(xué)術(shù)論文瀏覽與下載實(shí)驗(yàn),發(fā)現(xiàn)期刊官網(wǎng)用戶(hù)可以直接下載論文,或在瀏覽標(biāo)題、作者、機(jī)構(gòu)、關(guān)鍵詞或摘要等題錄信息后下載論文,CNKI 平臺(tái)用戶(hù)可以直接下載論文,或在瀏覽題錄信息或正文后下載論文。因此,期刊官網(wǎng)用戶(hù)下載論文時(shí)無(wú)法查看正文(表明正文未對(duì)期刊官網(wǎng)用戶(hù)下載行為產(chǎn)生影響),CNKI平臺(tái)用戶(hù)下載論文時(shí)可以查看全文(表明正文能對(duì)CNKI平臺(tái)用戶(hù)下載行為產(chǎn)生影響)??紤]到上述用戶(hù)下載行為的所有可能(直接下載;瀏覽題錄信息或正文后下載),雖然存在一定誤差,但整體上標(biāo)題長(zhǎng)度、摘要長(zhǎng)度、摘要句子長(zhǎng)度和摘要詞匯多樣性4個(gè)指標(biāo)適用于期刊官網(wǎng)下載次數(shù),而所有語(yǔ)言學(xué)指標(biāo)均適用于CNKI下載次數(shù)。
統(tǒng)計(jì)不同平臺(tái)不同期刊論文的語(yǔ)言學(xué)特征分布情況,見(jiàn)圖1-3,不同顏色的箱型表示不同期刊,箱型內(nèi)外的點(diǎn)表示不同論文,箱型中的垂直線和中空方框分別代表不同分組論文的中值和均值。應(yīng)用雙樣本柯?tīng)柲陕宸?斯米洛夫檢驗(yàn)[Two- sample Kolmogorov- Smirnov (K- S)Test],對(duì)不同平臺(tái)不同期刊的高下載論文和低下載論文數(shù)據(jù)進(jìn)行統(tǒng)計(jì)檢驗(yàn),p值見(jiàn)表3-4;計(jì)算高下載論文次數(shù)與語(yǔ)言學(xué)特征指標(biāo)的斯皮爾曼系數(shù)(Spearman Coefficient),結(jié)果見(jiàn)表5-6。
由圖1(a)可知,整體上所有期刊論文的標(biāo)題長(zhǎng)度均值超過(guò)7.5個(gè)詞。從單個(gè)期刊來(lái)看,所有期刊高下載論文的標(biāo)題長(zhǎng)度均值和中值均小于本期刊總體論文(CNKI平臺(tái)和期刊官網(wǎng)),大部分期刊官網(wǎng)高下載論文的標(biāo)題長(zhǎng)度均值和中值均小于低下載論文,CNKI 平臺(tái)則未呈現(xiàn)明顯分布特征。從期刊對(duì)比來(lái)看,整體上不同平臺(tái)不同期刊高下載論文的標(biāo)題長(zhǎng)度均值和中值差別很小。
由圖1(b)可知,整體上所有期刊論文的摘要長(zhǎng)度均值介于60~100個(gè)詞。與總體論文和低下載論文相比,不同平臺(tái)之不同期刊高下載論文的摘要長(zhǎng)度未呈現(xiàn)明顯分布特征。從期刊對(duì)比來(lái)看,《中國(guó)圖書(shū)館學(xué)報(bào)》高下載論文的摘要長(zhǎng)度均值和中值最大,其次是《圖書(shū)情報(bào)知識(shí)》《圖書(shū)情報(bào)工作》和《情報(bào)雜志》,再次是《信息資源管理學(xué)報(bào)》《現(xiàn)代情報(bào)》和《情報(bào)資料工作》。筆者查詢(xún)以上期刊的官網(wǎng),發(fā)現(xiàn)《信息資源管理學(xué)報(bào)》《現(xiàn)代情報(bào)》和《情報(bào)資料工作》對(duì)摘要長(zhǎng)度有明確規(guī)定,對(duì)以上結(jié)果存在影響。
由圖2(a)可知,除《情報(bào)資料工作》外,其余6種期刊的學(xué)術(shù)論文摘要句子長(zhǎng)度均值小于40個(gè)詞。與總體論文和低下載論文相比,不同平臺(tái)之不同期刊高下載論文的摘要句子長(zhǎng)度未呈現(xiàn)明顯分布特征。從期刊對(duì)比來(lái)看,《情報(bào)資料工作》高下載論文的摘要句子長(zhǎng)度均值和中值最大,其他期刊論文的摘要句子長(zhǎng)度差異很小。
由圖2(b)可知,所有期刊論文的摘要詞匯多樣性均值和中值超過(guò)0.6。與總體論文和低下載論文相比,整體上不同平臺(tái)之不同期刊高下載論文的摘要詞匯多樣性的均值和中值更大或持平(僅《現(xiàn)代情報(bào)》期刊官網(wǎng)的高下載論文除外)。從期刊對(duì)比來(lái)看,《情報(bào)資料工作》高下載論文的摘要詞匯多樣性均值和中值最大,其次是《信息資源管理學(xué)報(bào)》和《現(xiàn)代情報(bào)》,再次是其他期刊。
圖1 不同平臺(tái)不同期刊學(xué)術(shù)論文標(biāo)題與摘要長(zhǎng)度分布圖
由圖3(a)可知,所有期刊論文的正文長(zhǎng)度均值和中值介于2,500~5,000 個(gè)詞。與總體論文和低下載論文相比, 整 體 上CNKI 平臺(tái)不同期刊高下載論文的正文長(zhǎng)度均值和中值更大或持平(僅《情報(bào)資料工作》除外)。從期刊對(duì)比來(lái)看,《中國(guó)圖書(shū)館學(xué)報(bào)》高下載論文的正文長(zhǎng)度均值和中值最大,其次是《圖書(shū)情報(bào)知識(shí)》和《圖書(shū)情報(bào)工作》,再次是其他期刊。筆者查了以上期刊的官網(wǎng),發(fā)現(xiàn)《現(xiàn)代情報(bào)》和《情報(bào)資料工作》 對(duì)正文長(zhǎng)度有明確規(guī)定,對(duì)以上結(jié)果存在影響。
由圖3(b)可知,所有期刊論文的正文段落長(zhǎng)度均值和中值高于100個(gè)詞。與總體論文和低下載論文相比,整體上CNKI平臺(tái)不同期刊高下載論文的正文段落長(zhǎng)度均值和中值更大或持平(僅《圖書(shū)情報(bào)知識(shí)》除外)。從期刊對(duì)比來(lái)看,《中國(guó)圖書(shū)館學(xué)報(bào)》高下載論文的正文段落長(zhǎng)度均值和中值最大,其他期刊論文的正文段落長(zhǎng)度均值和中值差異很小。
由圖3(c)可知,所有期刊論文的正文句子平均長(zhǎng)度約35個(gè)詞。與總體論文和低下載論文相比,CNKI 平臺(tái)高下載論文的正文句子長(zhǎng)度未呈現(xiàn)明顯分布特征。從期刊對(duì)比來(lái)看,各期刊高下載論文的正文句子長(zhǎng)度均值和中值差異很小,《圖書(shū)情報(bào)工作》略高于其他期刊。
圖2 不同平臺(tái)不同期刊學(xué)術(shù)論文摘要句子長(zhǎng)度和詞匯多樣性分布圖
由圖3(d)可知,所有期刊論文的正文詞匯多樣性均值和中值介于0.25~0.3之間。與總體論文和低下載論文相比,整體上CNKI 平臺(tái)不同期刊高下載論文的正文詞匯多樣性均值和中值更大或持平(僅《信息資源管理學(xué)報(bào)》和《圖書(shū)情報(bào)知識(shí)》除外)。從期刊對(duì)比來(lái)看,各期刊高下載論文的正文詞匯多樣性均值和中值差異很小,《現(xiàn)代情報(bào)》和《情報(bào)資料工作》略高于其他期刊。
由表3可知,僅34%的結(jié)果通過(guò)顯著性檢驗(yàn)。從語(yǔ)言學(xué)特征來(lái)看,摘要長(zhǎng)度和摘要詞匯多樣性通過(guò)最多,其次是摘要句子長(zhǎng)度,最后是標(biāo)題長(zhǎng)度。從期刊來(lái)看,《情報(bào)雜志》和《現(xiàn)代情報(bào)》顯著性檢驗(yàn)通過(guò)率最高,《信息資源管理學(xué)報(bào)》均未通過(guò)。
表3 高下載和低下載論文標(biāo)題和摘要語(yǔ)言學(xué)特征的K-S檢驗(yàn)p值
圖3 CNKI平臺(tái)學(xué)術(shù)論文正文長(zhǎng)度、段落長(zhǎng)度、句子長(zhǎng)度和詞匯多樣性分布圖
由表4 可知,僅32%的結(jié)果通過(guò)顯著性檢驗(yàn)。從語(yǔ)言學(xué)特征來(lái)看,正文長(zhǎng)度和正文詞匯多樣性顯著性檢驗(yàn)通過(guò)率最高,其次是正文段落長(zhǎng)度和正文句子長(zhǎng)度。從期刊來(lái)看,《情報(bào)雜志》和《圖書(shū)情報(bào)工作》顯著性檢驗(yàn)通過(guò)率最高,《圖書(shū)情報(bào)知識(shí)》和《中國(guó)圖書(shū)館學(xué)報(bào)》均未通過(guò)。
表4 CNKI高下載和低下載論文正文語(yǔ)言學(xué)特征的K-S檢驗(yàn)p值
由表5 可知,不同平臺(tái)不同期刊高下載論文標(biāo)題和摘要語(yǔ)言學(xué)特征與下載次數(shù)整體上不存在相關(guān)關(guān)系,但是部分語(yǔ)言學(xué)特征在特定平臺(tái)特定期刊存在相關(guān)關(guān)系。比如,《中國(guó)圖書(shū)館學(xué)報(bào)》期刊官網(wǎng)高下載論文的的下載次數(shù)與標(biāo)題長(zhǎng)度呈負(fù)弱相關(guān)關(guān)系,與摘要詞匯多樣性呈正中度相關(guān)關(guān)系。有研究發(fā)現(xiàn),中文學(xué)術(shù)論文的標(biāo)題長(zhǎng)度與下載次數(shù)之間不存在相關(guān)性[44],從這一點(diǎn)來(lái)講本文的研究結(jié)果與其相同。由表6 可知,不同期刊CNKI高下載論文正文語(yǔ)言學(xué)特征與下載次數(shù)不存在相關(guān)關(guān)系。
表5 高下載論文標(biāo)題和摘要語(yǔ)言學(xué)特征與下載次數(shù)的斯皮爾曼系數(shù)
表6 CNKI高下載論文正文語(yǔ)言學(xué)特征與下載次數(shù)的斯皮爾曼系數(shù)
本文運(yùn)用計(jì)算語(yǔ)言學(xué)方法探究高下載中文學(xué)術(shù)論文的語(yǔ)言學(xué)特征,分析不同語(yǔ)言學(xué)特征對(duì)中文學(xué)術(shù)論文的下載次數(shù)的影響。從中值和均值看,各期刊高下載論文的標(biāo)題長(zhǎng)度幾乎都小于總體論文和低下載論文,摘要詞匯多樣性、正文長(zhǎng)度、正文句子長(zhǎng)度和正文詞匯多樣性整體上大于總體論文和低下載論文。從顯著性檢驗(yàn)結(jié)果看,整體上未通過(guò)顯著性檢驗(yàn),但特定平臺(tái)特定期刊的特定語(yǔ)言學(xué)特征指標(biāo)通過(guò)了顯著性檢驗(yàn)。因此,從本文的樣本數(shù)據(jù)來(lái)看,整體上語(yǔ)言學(xué)特征對(duì)中文學(xué)術(shù)論文下載次數(shù)影響很小,但是在局部范圍,語(yǔ)言學(xué)特征仍然具有一定影響。此外,不同平臺(tái)及不同期刊高下載論文的語(yǔ)言學(xué)特征也存在差異。盡管如此,樣本數(shù)據(jù)在一定程度上揭示了中文學(xué)術(shù)論文的語(yǔ)言學(xué)特征。比如,樣本數(shù)據(jù)的標(biāo)題長(zhǎng)度均值超過(guò)7.5個(gè)詞,摘要詞匯多樣性均值超過(guò)0.6,正文詞匯多樣性均值不超過(guò)0.3。
將本文結(jié)果與Chen等[27]對(duì)PLoS期刊高瀏覽與高下載英文學(xué)術(shù)論文的語(yǔ)言學(xué)特征研究的結(jié)果進(jìn)行對(duì)比,從二者的樣本數(shù)據(jù)均發(fā)現(xiàn)整體上語(yǔ)言學(xué)特征對(duì)學(xué)術(shù)論文下載次數(shù)影響很小,但是在局部范圍,語(yǔ)言學(xué)特征仍然具有一定影響。此外,不同語(yǔ)種的學(xué)術(shù)論文均有各自獨(dú)特的語(yǔ)言學(xué)特征。
針對(duì)以上研究結(jié)果的解讀,筆者認(rèn)為應(yīng)該考慮以下因素:一是不同期刊的投稿須知(比如標(biāo)題長(zhǎng)度、摘要長(zhǎng)度以及全文長(zhǎng)度)、欄目設(shè)置(比如偏重理論或者偏重實(shí)證)、載文數(shù)量和學(xué)術(shù)影響力不同;二是不同年齡、職位和學(xué)術(shù)背景的用戶(hù)會(huì)選擇不同的學(xué)術(shù)平臺(tái)瀏覽和下載學(xué)術(shù)論文;三是在實(shí)際案例分析過(guò)程中,數(shù)據(jù)抽樣策略和數(shù)據(jù)處理細(xì)節(jié)也會(huì)影響研究結(jié)果,比如部分樣本期刊為載文量較低的雙月刊或季刊。
本研究不足:一是選擇的樣本僅為圖書(shū)情報(bào)學(xué)領(lǐng)域的期刊論文數(shù)據(jù),如果選用其他學(xué)科的期刊論文數(shù)據(jù),結(jié)果可能不同;二是部分樣本期刊為載文量較低的雙月刊或季刊,樣本數(shù)量較少,對(duì)研究結(jié)果存在影響;三是僅應(yīng)用較簡(jiǎn)單的語(yǔ)言學(xué)特征指標(biāo),需引入計(jì)算語(yǔ)言學(xué)領(lǐng)域的其他指標(biāo)。
正如前文所言,用戶(hù)瀏覽和下載是復(fù)雜的信息行為,受到用戶(hù)信息需求、信息意識(shí)以及外在信息環(huán)境等諸多因素的影響。用戶(hù)瀏覽和下載數(shù)據(jù)是以上多重因素共同作用的最終結(jié)果。目前本文僅由果推因,從特定視角回溯緣由,存在諸多局限。若要系統(tǒng)、全面和深入研究用戶(hù)瀏覽和下載行為,最理想的方式是能夠獲取用戶(hù)背景數(shù)據(jù)以及信息行為過(guò)程數(shù)據(jù)(比如用戶(hù)年齡和職位、文獻(xiàn)訪問(wèn)時(shí)長(zhǎng)和眼動(dòng)瀏覽軌跡等),由因推果,從“用戶(hù)認(rèn)知、動(dòng)機(jī)、行為和內(nèi)容”等多個(gè)層面進(jìn)行研究。盡管如此,本文首次將全文本分析引入中文Usage Metrics,對(duì)高下載中文學(xué)術(shù)論文與語(yǔ)言學(xué)特征之間的關(guān)系進(jìn)行初步研究,對(duì)后續(xù)用戶(hù)瀏覽與下載和科學(xué)文獻(xiàn)寫(xiě)作的關(guān)系研究有所啟發(fā),也證實(shí)全文計(jì)量分析將是圖書(shū)情報(bào)學(xué)領(lǐng)域未來(lái)研究的增長(zhǎng)點(diǎn),能夠?qū)⒍鄠€(gè)研究方向的研究視野從題錄數(shù)據(jù)擴(kuò)展至全文本數(shù)據(jù)。