●郭 強,趙 瑾,劉新新,劉思源,王玲玉,路世玲
(1.鄭州大學(xué) 信息管理系,鄭州 450001;2.中國人民解放軍炮兵學(xué)院 軍事運籌教研室,合肥 230031)
與被引次數(shù)相比,下載次數(shù)能夠在一定程度上反映科研活動中被使用但最終未被引用的文獻(xiàn)的價值,并且有其提前性,由此,如果將下載次數(shù)與被引次數(shù)共同納入到指標(biāo)體系,來對期刊、論文以及作者等對象的學(xué)術(shù)價值或是學(xué)術(shù)影響力進(jìn)行評價,那么對下載次數(shù)與被引次數(shù)之間的關(guān)系進(jìn)行考察,對于指標(biāo)權(quán)重的確定會具有一定的意義。本文側(cè)重于該兩指標(biāo)在期刊中布拉德福分布的同一與差異,以及對兩者間差異的統(tǒng)計描述。
可以對下載次數(shù)與被引次數(shù)在期刊中的布拉德福分布狀況進(jìn)行考察。由于CNKI鏡像站版能夠提供其入庫期刊的下載次數(shù)與被引次數(shù),所以在這里我們將其作為數(shù)據(jù)源并選取期刊樣本集合。將各期刊分別按下載次數(shù)與被引次數(shù)降序排列,則能夠得到期刊累積數(shù)與期刊的累積下載次數(shù)或是期刊的累積被引頻次之間的關(guān)系(如圖1所示,數(shù)據(jù)統(tǒng)計時間為2009年3月)。由于考察時段較長且選取的是大樣本,再考慮到截止到2004年CNKI已經(jīng)具有較高的期刊入網(wǎng)率。[1]所以在這里認(rèn)為所得原始數(shù)據(jù)能夠近似滿足在布拉德福定律中對所有考察期刊應(yīng)具有相同考察時段的要求。
圖1 期刊指標(biāo)的累積數(shù)與期刊累積數(shù)的關(guān)系圖
在圖1中,n為期刊累積數(shù),坐標(biāo)縱軸為期刊評價指標(biāo)的計量單位的倍數(shù),在這里對于下載次數(shù)與被引次數(shù),計量單位分別取為50000次及3000次,計量單位的如此選取盡管會有其隨意性,但是并不影響這里對兩指標(biāo)累積量的變化趨勢所進(jìn)行的探討。直觀上,下載次數(shù)與被引次數(shù)在期刊中的分布均具有布拉德福分布的特征,假設(shè)取分區(qū)數(shù)p為3,那么對于下載次數(shù)而言,可以取其核心區(qū)的期刊數(shù)量為51,此時各個分區(qū)的累積下載頻次的平均值為21755146,并且標(biāo)準(zhǔn)差僅為117906,如果將布拉德福常數(shù)取為各個分組期刊數(shù)量的相繼比值的平均值,則可得下載次數(shù)分布的布拉德福常數(shù)為3.215,且標(biāo)準(zhǔn)差為0.082,由此能夠認(rèn)為該分布近似服從傳統(tǒng)布拉德福定律的分區(qū)描述,而被引次數(shù)在期刊中的分布在一定程度上也具有相類似的情形。例如在分區(qū)數(shù)仍取3的條件下,相應(yīng)地可以取核心區(qū)的期刊數(shù)量為46,此時各分區(qū)的累積被引頻次的平均值為1353695,且標(biāo)準(zhǔn)差只有3727,類似地可以得到被引次數(shù)分布的布拉德福常數(shù)為3.828,但此時的標(biāo)準(zhǔn)差高達(dá)2.001,說明當(dāng)p=3時各分區(qū)期刊數(shù)量的相繼比值并不穩(wěn)定,而如果改變分區(qū)數(shù),則能夠注意到某種規(guī)律性的現(xiàn)象。即除了在末尾分區(qū)處,期刊數(shù)的相繼比值往往會變化得較為平穩(wěn),從而能夠認(rèn)為造成標(biāo)準(zhǔn)差偏高的原因是由于靠后的分區(qū),特別是末尾分區(qū)處的相繼比值的異常。
需要指出,這種規(guī)律性現(xiàn)象與已有的研究結(jié)果是相一致的。[2]在末尾或是靠后分區(qū)處所表現(xiàn)出來的這種偏高比值可能是與格魯斯下垂相對應(yīng)。由于期刊是按照被引次數(shù)進(jìn)行降序排列,所以末尾分區(qū)中的期刊應(yīng)當(dāng)具有相對較低的被引頻次,而在該處明顯偏高的相繼比則意味著該分區(qū)包含明顯偏多的期刊,那么為了保證該分區(qū)具有與其他分區(qū)相同的累積被引頻次,該分區(qū)中各期刊的被引次數(shù)應(yīng)當(dāng)顯著下降,以至于累積下載次數(shù)的增長率開始隨Lnn減小,從而表現(xiàn)為格魯斯下垂。所以有理由將末尾或是靠后分區(qū)處明顯偏高的相繼比按照特異值來進(jìn)行處理,畢竟傳統(tǒng)布拉德福定律的分區(qū)描述并不包含格魯斯下垂。另外,對于此時在下載次數(shù)分布中未出現(xiàn)相繼比的異常,除了原始數(shù)據(jù)自身的隨機性之外,一種可能的解釋是由于網(wǎng)絡(luò)環(huán)境下的擴(kuò)散效應(yīng),[2]被引次數(shù)的分布會更為集中,所以這種靠后分區(qū)處偏高的相繼比值在被引次數(shù)分布中會表現(xiàn)得更為明顯。實際上,當(dāng)改變分區(qū)數(shù)時,下載次數(shù)的分布也會出現(xiàn)同樣的情形??疾焐鐣茖W(xué)類期刊,假設(shè)取p等于5,則有各分區(qū)期刊數(shù)的相繼比為1.944,1.743,1.590,3.196,各分區(qū)累積下載頻次的平均值為8343664,標(biāo)準(zhǔn)差只有69645。
更進(jìn)一步地,[2]對各指標(biāo)分布的擬合結(jié)果也能夠與布魯克斯公式相吻合。例如對于下載次數(shù),其分段擬合方程為m1=1866965.344n0.647與m1=18310431.901Ln n-53447472.841,核心區(qū)與非核心區(qū)的判定系數(shù)分別高達(dá)0.977與0.994,并且都能夠在顯著性水平為0.05的條件下很好地通過F檢驗,其中m1和n分別為累積下載次數(shù)與相應(yīng)的期刊累積數(shù),對于被引次數(shù),類似地有擬合方程為m2=114253.923n0.649以及m2=1026106.261Lnn-2466487.864,判定系數(shù)分別為0.997與0.975,其中m2為期刊的累積被引頻次。所以從直觀上,能夠認(rèn)為下載次數(shù)與被引次數(shù)在期刊中的布拉德福分布特征均達(dá)到了顯著水平。需要指出,圖1是以基礎(chǔ)科學(xué)類期刊為例,其期刊總數(shù)為739,為了進(jìn)一步檢驗所得結(jié)論的一般性,還需要對鏡像站版中不同學(xué)科屬性的期刊集合分別進(jìn)行考察,包括圖像與分區(qū)描述以及曲線擬合等,考察的結(jié)果是類似的。
下載次數(shù)與被引次數(shù)之間的關(guān)系體現(xiàn)了同一性與差異性的對立與統(tǒng)一。在圖1中,A與B分別為兩累積曲線的拐點,可以注意到與被引次數(shù)相比,下載次數(shù)累積曲線的拐點對應(yīng)于更高的期刊累積數(shù),指標(biāo)的累積量隨期刊累積數(shù)的增長率在累積曲線的拐點處達(dá)到極大,之后增長率則開始減小,由于增長率等于Lnn每增加一個單位所對應(yīng)的期刊指標(biāo)累積量的增加值,而且隨著Lnn每增加一個單位,相應(yīng)的期刊累積數(shù)分別為1,e,e2,e3,……,這樣單位Lnn對應(yīng)的期刊累積數(shù)的增加為ei(e-1)>1,其中i=0,1,2,……,所以增長率開始減小會意味著當(dāng)每組期刊數(shù)量增多時,相應(yīng)的指標(biāo)累積量反而會減少,由此能夠說明此時開始進(jìn)入低指標(biāo)期刊區(qū)域,于是在圖1中,下載次數(shù)累積曲線是靠后進(jìn)入,而被引曲線則有所提前,從而與下載次數(shù)相比,被引次數(shù)在期刊中的分布相對較為集中。由圖1可以得到指標(biāo)累積數(shù)的增長率曲線(如圖2所示)。在圖2中,曲線變化的連續(xù)性仍然能夠得到保持。由于格魯斯下垂的出現(xiàn),各指標(biāo)累積量的增長率均具有其峰值,且圖中各增長率曲線的峰值分別與圖1中的曲線拐點相對應(yīng),之后指標(biāo)累積量的增長率則逐漸下降,以至最終趨向于零。
圖2 期刊指標(biāo)累積數(shù)的增長率與期刊累積數(shù)的關(guān)系圖
對于下載次數(shù)與被引次數(shù)之間的這種分布差異,還可以利用該兩變量的相對量來進(jìn)行考察,圖1反映的是指標(biāo)的累積量隨期刊累積數(shù)的變化情況,說明了該兩指標(biāo)的絕對量相對于期刊的絕對數(shù)量都能夠呈現(xiàn)為傳統(tǒng)的布拉德福分布,而指標(biāo)累積百分比與期刊累積百分比之間的變化關(guān)系(如圖3所示)則能夠在一定程度上顯示出這種同一性中的差異,其中原始數(shù)據(jù)與圖1相同。
圖3 期刊指標(biāo)的累積百分比與期刊累積百分比的關(guān)系圖
在圖3中,由于期刊是按照下載次數(shù)或是被引次數(shù)分別進(jìn)行降序排列,所以由此所得到的累積百分比曲線越向上彎曲,則說明相應(yīng)指標(biāo)在期刊中的分布會越集中。兩種極端的情況分別為,僅一份期刊就能夠與所考察的期刊集合中的總的指標(biāo)累積數(shù)相對應(yīng),以及在期刊樣本集中,各份期刊均對應(yīng)相同的下載次數(shù)或者是被引次數(shù),于是指標(biāo)的累積量與期刊的累積量之間會呈線性關(guān)系,其中的正比例系數(shù)為與每份期刊相對應(yīng)的指標(biāo)值,這樣指標(biāo)與期刊能夠始終具有相同的累積百分比,也即這兩種情況分別與圖中的點(0,0)、(0,1)、(1,1)的連線,以及點(0,0)、(1,1)的連線相對應(yīng)。
利用指標(biāo)累積量的增長率以及指標(biāo)的累積百分比能夠顯現(xiàn)出下載次數(shù)與被引次數(shù)在期刊中分布狀況的不一致,進(jìn)一步地是希望能夠在一定程度上對這種不一致的程度來進(jìn)行度量,一方面是為了使這種對變量間相互關(guān)系的探討更為嚴(yán)格;另一方面則是由于在期刊評價指標(biāo)的權(quán)重確定過程中可能會涉及到該兩變量之間定量關(guān)系的建立,畢竟指標(biāo)在期刊中集中或是分散狀況的不同可能會影響到單位指標(biāo)量所能體現(xiàn)的學(xué)術(shù)價值。為此,將期刊分別按照下載次數(shù)與被引次數(shù)升序排列,能夠得到期刊累積百分比與指標(biāo)累積百分比之間的洛侖茲曲線(如圖4所示)。
圖4 期刊下載次數(shù)與被引次數(shù)的洛侖茲曲線圖
類似地,在圖4中,由于期刊是按照評價指標(biāo)升序排列,所以圖中的洛侖茲曲線越向下彎曲,則說明下載次數(shù)或是被引次數(shù)在期刊中的分布越集中,同樣存在兩種極端情況,即點(0,0),(1,0),(1,1)之間的連線所對應(yīng)的集中情形,以及點(0,0),(1,1)之間的連線,在該情形下沒有一份期刊會在指標(biāo)量的獲取上能夠更為特殊。由于對洛侖茲曲線向下彎曲的程度可以利用洛侖茲曲線和點(0,0),(1,1)的連線所圍成的區(qū)域面積與點(0,0),(1,0),(1,1)所構(gòu)成的三角形的面積的比值,也即基尼系數(shù)來進(jìn)行一定程度的反映,所以該系數(shù)也能夠用來近似衡量指標(biāo)在期刊中的分布狀況以及不同分布狀況之間的差異。例如當(dāng)指標(biāo)的分布最為集中時,洛侖茲曲線退化成為點(0,0),(1,0),(1,1)的連線,相應(yīng)地有基尼系數(shù)等于1。
對于洛侖茲曲線的一般情形,則需要給出該曲線的函數(shù)形式以求得曲線所圍區(qū)域的面積。既然經(jīng)驗考察的結(jié)果顯示為下載次數(shù)與被引次數(shù)在期刊中均服從布拉德福分布,且假定傳統(tǒng)的布拉德福定律以及相關(guān)規(guī)律此時對于該兩指標(biāo)也同樣適用,那么將期刊按照下載次數(shù)或是被引次數(shù)降序排列,則由萊姆庫勒經(jīng)驗規(guī)律可以得到 y’=aLn(1+bx’),其中 x’與 y’分別為指標(biāo)的累積量以及期刊累積數(shù),a與b均為待定常數(shù);而如果將期刊分別按照各個指標(biāo)升序排列,并假設(shè)x與y為此時的期刊累積數(shù)以及指標(biāo)累積量,則有x=c-x’以及y=d-y’,其中c與d分別為期刊總數(shù)以及指標(biāo)的累積總量,且x與x’的對應(yīng)關(guān)系是:如果x的序號在按升序排列所得到的累積量列表中為p,那么x’的序號在降序排列累積列表中為q=N-p,N為累積量列表中的最大序號,無論是按升序或是降序排列,該序號會保持不變。y與y’之間也具有同樣的對應(yīng)關(guān)系,于是有y=d-aLn(B-bx),其中B=1+bc,再將x與y分別轉(zhuǎn)換為圖4所要求的累積量百分比X與Y,則有Y=1-(a/d)Ln(B-bcX)。對于給定的期刊樣本,c與d可視為已知,參數(shù)a與b則可以利用對樣本數(shù)據(jù)進(jìn)行曲線擬合來得到。
對于下載次數(shù),洛侖茲曲線的擬合結(jié)果為Y1=1-0.262Ln(52.730-51.730X1),判定系數(shù)為 0.989,函數(shù)中各參數(shù)的取值分別為a1=17106195.565,b1=0.070,c1=739,d1=65265439;對于被引次數(shù),類似地有擬合結(jié)果為Y2=1-0.143Ln(1418.402-1417.402X2),且判定系數(shù)與各參數(shù)的取值分別為0.970以及a2=581568.354,b2=1.918,c2=739,d2=4061086,于是能夠求得各洛侖茲曲線與坐標(biāo)橫軸所圍成的區(qū)域面積分別為0.213以及0.112,所以下載次數(shù)與被引次數(shù)的基尼系數(shù)分別為0.574以及0.776,由此能夠?qū)υ搩勺兞吭谄诳蟹稚⒒蚴羌械某潭冗M(jìn)行定量描述,由這種描述能夠得到有意義且具有一定合理性的結(jié)論,即對于給定的期刊集,與下載次數(shù)相比,被引次數(shù)的分布會更為集中,且被引次數(shù)在期刊中的集中程度要比下載次數(shù)高出35.2%。另外,當(dāng)基尼系數(shù)取零時則意味著指標(biāo)的分布最為分散,所以基尼系數(shù)的取值界于0與1之間,按照傳統(tǒng)基尼系數(shù)的劃分標(biāo)準(zhǔn),取值在0.2至0.5之間為過渡區(qū),0.2以下與0.5以上分別表示具有明顯的分散或是集中現(xiàn)象,由此下載次數(shù)與被引次數(shù)在期刊中的集中分布程度均達(dá)到了顯著水平,這與上述的經(jīng)驗結(jié)論是相一致的。
除了基尼系數(shù)之外,更為基本地,能夠利用布拉德福常數(shù)來對指標(biāo)分布的集中程度進(jìn)行考察。例如在前文中取分區(qū)數(shù)為3,則相應(yīng)地有下載次數(shù)與被引次數(shù)分布的布拉德福常數(shù)分別為3.215以及3.828,由于考察的是同一期刊樣本集,所以布拉德福常數(shù)越大則表示相應(yīng)的分布越集中,并且按照布拉德福常數(shù)也能夠給出諸如被引次數(shù)的集中程度會比下載次數(shù)高出19.1%,與由基尼系數(shù)得到的百分比有所不同的原因是由于描述方法相互之間的差異,畢竟基尼系數(shù)與布拉德福常數(shù)的得到是分別建立于指標(biāo)的相對量與絕對量之上。另外,還可以利用累積百分比來直接進(jìn)行比較。例如在圖3中考察與相同期刊百分比相對應(yīng)的指標(biāo)累積百分比之間的差異,由這些描述方法所得到的經(jīng)驗結(jié)論應(yīng)當(dāng)是相互吻合的。需要指出,對于結(jié)論中所顯現(xiàn)的指標(biāo)分布差異,除了由描述方法的不同所造成的諸如以上超出比例之間的差異之外,所得布拉德福常數(shù)或是基尼系數(shù)的差別是否能夠成為對各指標(biāo)分布差異的真正體現(xiàn),或者說對于由各種經(jīng)驗描述方法所得到的參數(shù)差異,這種差異應(yīng)當(dāng)達(dá)到何種程度才能夠認(rèn)為這種差異是足夠顯著的。例如考慮到在基尼系數(shù)的傳統(tǒng)劃分方式中,取值大于或等于0.5意味著具有同樣的屬性,即集中現(xiàn)象的顯著性,一方面該劃分方式能夠提供對指標(biāo)之間的差異進(jìn)行判別的方法,另一方面按照該劃分方式可以得到基尼系數(shù)為0.6與0.8的指標(biāo)分布之間并無顯著差異,而系數(shù)為0.4與0.5的分布卻具有較為明顯的不同,如果再考慮到由于原始數(shù)據(jù)中的隨機因素所造成的差異,則需要考察指標(biāo)差異的顯著性,或者說需要給出判別各指標(biāo)間差異顯著性的標(biāo)準(zhǔn)。一種方法是將下載次數(shù)與被引次數(shù)同視為隨機變量,考察隨機變量的期望值以及方差等隨機變量的特征量,并在此基礎(chǔ)上對參數(shù)之間的差異進(jìn)行顯著性檢驗。
首先需要對下載次數(shù)列與被引次數(shù)列分別進(jìn)行標(biāo)準(zhǔn)化處理,以使該兩變量的特征量能夠進(jìn)行相互間的比較。由于可以把期刊的下載次數(shù)或是被引次數(shù)看作是讀者整體對該期刊的打分,所以能夠考慮將這種分?jǐn)?shù)轉(zhuǎn)化為百分制來進(jìn)行指標(biāo)列的標(biāo)準(zhǔn)化,基本的做法是將各指標(biāo)列分別除以其中的最大指標(biāo)值,其優(yōu)點是可以不改變各指標(biāo)列原有的概率分布。設(shè)標(biāo)準(zhǔn)化后的下載次數(shù)與被引次數(shù)的樣本列分別為{d1,d2,……,dn}和{c1,c2,……,cn},此時其中所有的元素均界于0與1之間,并能夠得到各指標(biāo)列的均值與方差分別設(shè)為d,Sd2,c,Sc2,n為期刊樣本數(shù),可以取為期刊總數(shù),也可以是足夠大以致能夠體現(xiàn)出統(tǒng)計性質(zhì)。可以將考察該兩指標(biāo)列的均值或者是方差之間是否存在顯著性差異,轉(zhuǎn)化為考察下載次數(shù)與被引次數(shù)這兩個隨機變量的期望值或者是方差是否相等。經(jīng)驗考察的結(jié)果往往顯示為:下載次數(shù)與被引次數(shù)作為隨機變量具有較為明顯的負(fù)指數(shù)分布特征,例如,負(fù)指數(shù)分布的概率密度函數(shù)為,當(dāng)x>0時f(x)=λexp(-λx),當(dāng)x≤0時f(x)=0,標(biāo)的計量單位數(shù),所以指標(biāo)值界于[i-1,i]對應(yīng)的概率與已有經(jīng)驗考察所得到的各指標(biāo)在期刊中的頻次分布相一致。
不妨設(shè)下載次數(shù)與被引次數(shù)分別為D與C,且設(shè)下載次數(shù)與被引次數(shù)所服從的負(fù)指數(shù)分布分別為f(d)=λ1exp(-λ1d)與 g(c)=λ2exp(-λ2c),其中 d,c,λ1以及 λ2均大于零,且當(dāng)d與c非正時,f(d)與g(c)均等于零,于是可得該兩隨機變量的期望值與方差分別為E(D)=1/λ1與 D(D)=1/λ12,以及 E(C)=1/λ2與 D(C)=1/λ22。對下載次數(shù)與被引次數(shù)是否具有相同的期望值或者是方差進(jìn)行假設(shè)檢驗,[3]提出原假設(shè)H0為λ1=λ2以及備擇假設(shè)H1為λ1≠λ2,可以將d1,d2,……,dn視為下載次數(shù)變量的隨機樣本,由于下載次數(shù)服從負(fù)指數(shù)分于下載次數(shù)與被引次數(shù)之間存在同一性與差異性的辯
如果原假設(shè)H0為真,即當(dāng)λ1等于λ2時,由于樣本均值d與c分別為隨機變量D與C的期望值的無偏H0為真時F值特別大或者是特別小的概率都會很小,這樣可以設(shè)H0的拒絕域為W={F≤c1或F≥c2},也即上式中的雙側(cè)檢驗,可得c1=F1-α/2(2n,2n) 以及c2=Fα/2(2n,2n),其中 F1-α/2(2n,2n) 與 Fα/2(2n,2n) 均為F(2n,2n)分布的上側(cè)分位點,于是H0的拒
依然選取圖1中的期刊樣本集作為考察對象,并取n為期刊總數(shù)739,對下載次數(shù)與被引次數(shù)進(jìn)行標(biāo)準(zhǔn)化處理后可得各指標(biāo)列的均值與方差分別為d=0.070,sd2=0.010,c=0.056,以及sc2=0.007,按照上文對原假設(shè) H0:λ1=λ2進(jìn)行檢驗,并且備擇假設(shè) H1為 λ1≠λ2,如 果 選取 α=0.05,由 于 F0.025(1478,1478)=1,F(xiàn)0.975(1478,1478)=1/F0.025(1478,1478)=1,則此時必須有d/c等于1,否則拒絕假設(shè)H0,這意味著當(dāng)期刊樣本數(shù)足夠大時,可以直接利用兩指標(biāo)列的均值是否相等,來判斷下載次數(shù)與被引次數(shù)作為隨機變量所具有的期望值以及方差是否相同,從而可知兩指標(biāo)列的均值或方差之間是否存在顯著性的差異,而這些與直觀認(rèn)識也是相吻合的。
在對專門領(lǐng)域或者是僅與特定研究主題相關(guān)的期刊集合進(jìn)行考察時,由于面臨的往往是期刊小樣本,所以如果此時考察下載次數(shù)與被引次數(shù)之間是否存在顯著性差異,那么上文中的考察過程則具有一定的意義。例如以《中文核心期刊要目總覽》2000年版中圖書情報專業(yè)的所有17份核心期刊為例,這樣選取的原因是由于CNKI鏡像站提供的是期刊從其開始提供下載到現(xiàn)在的總的下載次數(shù),但是不同期刊的入庫時間以及可供用戶全文下載的起始時間都不盡相同,所以如果以CNKI鏡像站所提供的各期刊下載次數(shù)作為原始數(shù)據(jù),那么在對考察對象進(jìn)行選取的過程中就需要保證所得下載數(shù)據(jù)相互之間的可比性。為此,一方面可以取考察時段為足夠長;另一方面,由于該總覽2000年版中的絕大部分期刊在2003年的時候都已入庫并能提供全文下載服務(wù),所以可以忽略部分期刊的入庫較晚所造成的入庫時間差異過大的情形,這樣,統(tǒng)計起始時間的不同對期刊下載數(shù)據(jù)可比性的影響就能夠近似忽略不計。此時n取為17,標(biāo)準(zhǔn)化后的下載次數(shù)與被引次數(shù)列分別為{0.254,0.360,0.260,0.270,0.450,0.370,0.263,0.286,0.454,0.284,0.692,0.239,0.766,0.327,1,0.245,0.416}以及{0.956,0.773,0.582,0.587,0.935,0.598,0.461,0.477,0.495,0.317,1,0.364,0.803,0.410,0.790,0.273,0.495},且均值與方差分別為 d=0.408,sd2=0.047,c=0.607,以及sc2=0.053,以上數(shù)據(jù)的統(tǒng)計時間為2009年 12月。仍然取假設(shè)為 H0:λ1=λ2,以及 H1為 λ1≠λ2,類似地可以令α=0.05,則此時有F0.025(34,34)=拒絕域,所以接受H0,即對于圖書情報專業(yè)的核心期刊而言,下載次數(shù)與被引次數(shù)的均值或是方差并無顯著差異。
為了與上述結(jié)果進(jìn)行對比,若不嚴(yán)格地,還可以將CNKI鏡像站中按圖書情報專業(yè)歸類的所有47份期刊作為考察對象,類似地也能夠得到下載次數(shù)與被引次數(shù)列,且各指標(biāo)列進(jìn)行標(biāo)準(zhǔn)化后的均值與方差分別為d=0.242,sd2=0.054,c=0.306,sc2=0.086。數(shù)據(jù)統(tǒng)計時間同上,在仍取α為0.05的條件下,可得F0.025(94,94)=1.550,F(xiàn)0.975(94,94)=0.645,則相應(yīng)地有拒絕域W于是接受假設(shè)H0,所以即便是對于該類期刊的整體,下載次數(shù)與被引次數(shù)的同一性也可以得以體現(xiàn)。與上述結(jié)果相比,此時d/c與拒絕域的邊界更為接近,究其原因,是由于對于核心期刊,其下載次數(shù)與被引次數(shù)往往具有較高的一致性,而這種同一性在非核心期刊中會有一定的弱化,畢竟下載次數(shù)更多地是與期刊的受利用程度相對應(yīng),所以被引次數(shù)偏低的期刊仍然可以具有較多的下載量。其次,在數(shù)字及網(wǎng)絡(luò)環(huán)境下,文獻(xiàn)獲取的便捷性以及文獻(xiàn)間關(guān)系的易知性使得被引次數(shù)偏低的期刊能夠獲得更多的關(guān)注,另外,作者在調(diào)研工作過程中對相關(guān)文獻(xiàn)往往會通過基礎(chǔ)文獻(xiàn)的參考文獻(xiàn)來進(jìn)行追蹤,從而可能會有部分的低被引文獻(xiàn)或是期刊處于檢索的盲區(qū),而信息檢索模式的轉(zhuǎn)變以及多樣化也可以使得對這部分資源的利用能夠更為充分,從而對于被引次數(shù)偏低的期刊,下載次數(shù)與被引次數(shù)之間的不一致能夠得以體現(xiàn)。同時這也表現(xiàn)為下載次數(shù)在期刊中的分布會更為分散,而不僅是高度集中于被引次數(shù)較高的期刊中,于是能夠從側(cè)面反映對下載次數(shù)與被引次數(shù)進(jìn)行隨機變量處理具有一定的可行性。
對下載次數(shù)與被引次數(shù)的差異程度進(jìn)行考察時,與描述性統(tǒng)計相比,推論統(tǒng)計會使得考察更為嚴(yán)格。上文對該兩指標(biāo)之間是否存在顯著性差異進(jìn)行了探討,更進(jìn)一步地,如果存在顯著性差異,則還需要對差異的程度進(jìn)行顯著性檢驗,也即如果接受假設(shè)H1:λ1≠λ2,那么下載次數(shù)列與被引次數(shù)列的均值或是方差在多大的程度上會是顯著的不同,或者說需要確定數(shù) β 與 γ,并對 原假 設(shè) Ho':1/λ1=1/λ2+β 以及 Ho'':1/λ12=1/λ22+γ分別進(jìn)行假設(shè)檢驗。另外,需要指出,在對差異顯著性進(jìn)行考察的過程中,如果考慮到下載次數(shù)與被引次數(shù)之間同一性的存在,則兩卡方變量并非完全獨立,由于這是統(tǒng)計量d/c服從F分布的前提條件,[3]所以對統(tǒng)計量的選取還需做進(jìn)一步的改進(jìn),最終是希望對兩指標(biāo)間的差異程度進(jìn)行度量,以至對該兩指標(biāo)間對立與統(tǒng)一的程度進(jìn)行量化,從而能夠用于指標(biāo)權(quán)重的確定。
[1]王明亮,等.中國知識基礎(chǔ)設(shè)施工程五年規(guī)劃的可行性研究[C]//第二屆海峽兩岸科技資訊研討會暨第十三屆全國計算機情報管理學(xué)術(shù)研討會論文集.北京:中國科學(xué)技術(shù)情報學(xué)會,1999:113互122.
[2]張洋.期刊Web下載總頻次的布拉德福分布研究[J].圖書情報知識,2006(6):38互42,60.
[3]陳萍,等.概率與統(tǒng)計[M].北京:科學(xué)出版社,2006.
[4]鄭胡靈,劉建平.兩壽命指標(biāo)的一個假設(shè)檢驗方法[J].昆明理工大學(xué)學(xué)報,2000,25(1):140互143,148.