●郭 強(qiáng),趙 瑾,王玲玉,譚雙岸,賈光耀,路世玲
(1.鄭州大學(xué) 信息管理系,鄭州 450001;2.中國人民解放軍炮兵學(xué)院 軍事運(yùn)籌教研室,合肥 230031)
作者的h指數(shù)是建立在作者論文的被引次數(shù)的基礎(chǔ)上,[1]由于不同的學(xué)科屬性乃至同一學(xué)科的不同發(fā)展階段會對文獻(xiàn)被引次數(shù)之間的可比性造成影響,進(jìn)而也會影響h指數(shù)的可比性,所以是否可以通過考察不同學(xué)科屬性的被引次數(shù)之間的換算關(guān)系來探討不同學(xué)科屬性的h指數(shù)的對應(yīng)情況,由此,對于被引次數(shù)的學(xué)科比例關(guān)系進(jìn)行考察會具有一定的實(shí)際意義。
對被引次數(shù)換算關(guān)系的初步考察希望能夠建立在已知的分布規(guī)律的基礎(chǔ)上。傳統(tǒng)的布拉德福定律描述了在給定的考察時(shí)段內(nèi)論文在所屬期刊中的分布狀況,對于特定的學(xué)科或主題,如果將期刊按照所包含的論文數(shù)量降序排列,并在此基礎(chǔ)上對期刊進(jìn)行分組,使得每組期刊分別對應(yīng)于相同的論文累積量,則此時(shí)各個(gè)分組的期刊累積數(shù)量會構(gòu)成等比數(shù)列,其中的公比為布拉德福常數(shù)。進(jìn)一步地,對于被引次數(shù)而言,布拉德福定律是否同樣具有其適用性,例如作者的被引次數(shù)在作者中是否也存在類似的布拉德福分布的特征,也即將作者按照其被引次數(shù)降序排列,并對作者進(jìn)行分區(qū),使得各個(gè)分區(qū)對應(yīng)相同的累積被引頻次,那么此時(shí)的各分區(qū)作者累積數(shù)是否也會形成等比數(shù)列;如果布拉德福定律對于作者的被引次數(shù)同樣適用,那么能否利用作者被引次數(shù)所服從的這種分布規(guī)律來對不同學(xué)科的被引次數(shù)之間的關(guān)系進(jìn)行大致的估計(jì)。
如果考慮學(xué)科的不同發(fā)展階段以及數(shù)字與網(wǎng)絡(luò)環(huán)境等因素的影響或是這些因素之間的相互作用,被引次數(shù)在作者中的分布在不同的情況下可能會具有不同的表現(xiàn)形式,從而針對特定作者集的被引次數(shù)所進(jìn)行的分布考察,得到的結(jié)果可能會有其局限性。由于CNKI鏡像站版將其入庫期刊按照學(xué)科屬性進(jìn)行了分類,并且其引文數(shù)據(jù)庫能夠提供各期刊的作者被引排名列表,其中包括考察期刊的論文作者以及相應(yīng)的被引次數(shù),所以在這里將其作為數(shù)據(jù)來源,且數(shù)據(jù)統(tǒng)計(jì)時(shí)間為2010年1月。不失一般性,首先選取數(shù)學(xué)學(xué)科作為考察對象,在期刊分類表中的基礎(chǔ)科學(xué)類內(nèi),歸屬于數(shù)學(xué)分類的期刊共計(jì)為53份,將這些期刊的所有論文作者作為對數(shù)學(xué)領(lǐng)域的作者集的近似,而作者的被引次數(shù)則可以通過這些期刊的作者被引排名來得到。在每份期刊的排名列表中,某作者的被引次數(shù)為該作者在該份期刊中所發(fā)表的所有論文的總的被引次數(shù),如果某個(gè)作者同時(shí)出現(xiàn)于不同期刊的排名列表中,則將這些列表內(nèi)與該作者對應(yīng)的被引次數(shù)在作者查重后進(jìn)行求和,在這里是利用被引排名列表中所給出的作者所屬機(jī)構(gòu)來對同名作者進(jìn)行初步的查重,由此將所得到的和值作為對該作者的被引次數(shù)的近似。這種近似性首先是由于所采取的簡化查重有其粗糙性,其次則是近似認(rèn)為作者發(fā)表在其所屬領(lǐng)域的專業(yè)期刊中的論文占該作者論文總量的主要部分,所以對于數(shù)學(xué)領(lǐng)域的作者在其他領(lǐng)域發(fā)表數(shù)學(xué)論文的情形,在這里并沒有將相應(yīng)的被引次數(shù)計(jì)算在內(nèi)。同理,對于基礎(chǔ)科學(xué)類下屬的基礎(chǔ)科學(xué)綜合分類,作者在這些綜合性期刊中所發(fā)表的論文以及相應(yīng)的被引次數(shù)在這里也沒有考慮在內(nèi)。還需要指出,在這里類似得假設(shè)作者的論文被引次數(shù)占其總被引次數(shù)的主要部分,所以在此只是針對期刊論文來考察作者的被引次數(shù),而作者的著作被引情況則沒有納入進(jìn)來。
對于具有交叉學(xué)科屬性的期刊,例如基礎(chǔ)科學(xué)類所包含的非線性科學(xué)與系統(tǒng)科學(xué)類期刊,以及力學(xué)類中的相關(guān)計(jì)算類期刊,其中的論文作者與被引次數(shù)也沒有納入進(jìn)來,其原因是由于從直觀上,根據(jù)上述假設(shè)得到的作者與其被引次數(shù)能夠大致反映數(shù)學(xué)領(lǐng)域的作者被引概況,同時(shí),如何將交叉研究內(nèi)容劃歸于數(shù)學(xué)領(lǐng)域也還需要做進(jìn)一步的考察,實(shí)際上由于數(shù)學(xué)學(xué)科與其他學(xué)科領(lǐng)域之間的交叉關(guān)系,所以在這里針對該學(xué)科進(jìn)行考察,學(xué)科邊界所具有的模糊性使得對該學(xué)科的嚴(yán)格劃分本身就具有其粗糙性。
如果能夠認(rèn)為以上的假設(shè)以及原始數(shù)據(jù)的確定從直觀上具有一定的合理性,那么由此可以得到數(shù)學(xué)領(lǐng)域的作者與其被引次數(shù)的記錄共計(jì)為35524項(xiàng);如果將作者按照其被引次數(shù)降序排列,則有累積被引次數(shù)與累積作者數(shù)之間的關(guān)系如圖1所示。
圖1 數(shù)學(xué)學(xué)科的被引累積量與作者累積數(shù)的關(guān)系
在圖1中,n為作者累積數(shù),由此從直觀上,被引次數(shù)在作者中的分布同樣具有傳統(tǒng)布拉德福分布的特征,而且也能夠注意到在被引次數(shù)偏低的區(qū)域,被引累積量的增長率隨作者累積數(shù)的增加所具有的下降情形。另外,按照傳統(tǒng)布拉德福定律的分區(qū)描述,如果對作者進(jìn)行分區(qū),并且取分區(qū)數(shù)p為3,則能夠得到此時(shí)的核心區(qū)作者數(shù)為922,相繼分區(qū)的作者數(shù)比值的平均值為5.708,標(biāo)準(zhǔn)差達(dá)到0.716,而各分區(qū)的累積被引次數(shù)的平均值為88578,標(biāo)準(zhǔn)差僅為17.521。為了確定相應(yīng)的布拉德福常數(shù)以及檢驗(yàn)作者被引次數(shù)的分布是否服從傳統(tǒng)的分區(qū)描述,需要考察引起相繼比值的標(biāo)準(zhǔn)差偏高的因素,為此可以改變分區(qū)數(shù)。例如分別取p為5與7時(shí),類似地可得相繼分區(qū)的作者數(shù)的比值分別為3.540,2.487,2.323,3.896以及2.858,2.145,1.874,1.799,1.960,3.152,均值與標(biāo)準(zhǔn)差分別為3.062與0.775以及2.298與0.568,能夠注意到居中處的相繼比值的變化相對較為平穩(wěn),而在被引次數(shù)偏高或者是偏低的區(qū)域,特別是在起始及末尾分區(qū)處,作者數(shù)的相繼比值會顯著地高于居中處,從而可能會形成偏高的標(biāo)準(zhǔn)差。同時(shí),如果改變分區(qū)數(shù)p為其他的取值,則從直觀上也能夠有類似的情形。由于作者是按照其被引次數(shù)降序排列,并且各分區(qū)具有相同的累積被引量,所以被引次數(shù)偏低處的相繼比的異常說明了該區(qū)域作者具有顯著偏低的被引次數(shù),以至于被引累積量的增長率會出現(xiàn)下降的情形,由此末尾分區(qū)處偏高的相繼比可能與格魯斯下垂有關(guān),而對于被引次數(shù)偏高處的比值異常,則可能是由于被引次數(shù)在作者中的分布相對較為集中,所以起始分區(qū)中的作者被引次數(shù)會顯著偏高,該區(qū)域的作者數(shù)也會顯著減少以滿足該分區(qū)具有與其余分區(qū)相同的累積被引次數(shù)。因此該分區(qū)與其后續(xù)分區(qū)的作者數(shù)相繼比也會顯著偏高,畢竟與其他的評價(jià)指標(biāo)例如下載次數(shù)相比,被引次數(shù)概念自身就具有相對較強(qiáng)的集中性,而且網(wǎng)絡(luò)環(huán)境下文獻(xiàn)獲取的便捷性也能夠造成下載次數(shù)的分散性。另一方面,在分布范圍上,與期刊相比,期刊中的文獻(xiàn)作者的針對性會更強(qiáng),由此從直觀上被引次數(shù)在作者中的分布會更為集中。那么,如果繼續(xù)增大分區(qū)數(shù)p的取值,則有可能減少所得各個(gè)分區(qū)的累積量的波動幅度,從而在一定程度上減弱由格魯斯下垂以及分布集中性所造成相繼比異常。例如選取分區(qū)數(shù)p為13,可得相繼分區(qū)的作者數(shù)比值分別為2.048, 1.736, 1.571, 1.486, 1.432, 1.382, 1.374,1.363,1.411,1.485,1.650,2.326,且均值與標(biāo)準(zhǔn)差分別為1.605以及0.301,或者說當(dāng)分區(qū)數(shù)p足夠大時(shí),能夠近似認(rèn)為被引次數(shù)在作者中的分布服從布拉德福定律的傳統(tǒng)分區(qū)描述,而且此時(shí)的布拉德福常數(shù)取為上述相繼比的平均值。以上經(jīng)驗(yàn)考察從直觀上具有一定的合理性,與已有的研究結(jié)果也相吻合。[2]
還可以對被引次數(shù)與作者數(shù)之間的關(guān)系進(jìn)行曲線擬合,[2]能夠得到累積量之間的分段擬合函數(shù)為c=1680.1a0.5923與 c=51635Ln(a)-268067,其中 a 與 c 分別為作者累積數(shù)以及累積被引次數(shù),且核心區(qū)與非核心區(qū)的決定系數(shù)分別為0.9858以及0.9957,由此被引次數(shù)在作者中的分布也服從布魯克斯公式。
對于數(shù)學(xué)學(xué)科而言,上述討論能夠反映被引次數(shù)在作者中同樣具有較為顯著的布拉德福分布特征,進(jìn)一步地可以改變學(xué)科屬性。例如根據(jù)類似的假設(shè)以及原始數(shù)據(jù)的確定過程,能夠得到生物領(lǐng)域的作者與其被引次數(shù)的記錄共計(jì)為133858項(xiàng),如果將作者按照其被引次數(shù)降序排列,則在此基礎(chǔ)上,該領(lǐng)域的累積被引次數(shù)與作者累積數(shù)之間滿足與數(shù)學(xué)學(xué)科相類似的圖像及分區(qū)描述,而且曲線擬合的結(jié)果與布魯克斯公式也相吻合。
如果這種布拉德福分布對于不同的學(xué)科屬性具有一般性,則可以嘗試對不同學(xué)科的被引次數(shù)之間的關(guān)系進(jìn)行初步的確定。假設(shè)有兩不同學(xué)科1與2,分別對該兩領(lǐng)域的作者進(jìn)行分區(qū),且取分區(qū)數(shù)p為3,并設(shè)所得到的核心區(qū)的作者數(shù)分別為r1與r2,各分區(qū)對應(yīng)的累積被引次數(shù)分別為p1與p2,以及此時(shí)的布拉德福常數(shù)分別為k1與k2。如果學(xué)科屬性1中的一次被引相當(dāng)于學(xué)科屬性2中的x次,那么將此關(guān)系代入到學(xué)科1中,則應(yīng)當(dāng)保證此時(shí)學(xué)科屬性1中的分散程度與學(xué)科屬性2相同,于是有學(xué)科屬性1的布拉德福常數(shù)為k2,而核心區(qū)的作者數(shù)量可以發(fā)生變化,設(shè)為r2′,相應(yīng)地有核心區(qū)對應(yīng)的累積被引次數(shù)為xp1。由于 r2′+r2′k2+r2′k22=r1+r1k1+r1k12為學(xué)科 1 的作者總?cè)藬?shù),所以當(dāng)該總?cè)藬?shù)與k2均為已知時(shí),則能夠求得r2′,進(jìn)而能夠在學(xué)科屬性2的按被引次數(shù)降序排列的作者列表中近似得到與作者累積數(shù)r2′對應(yīng)的累積被引次數(shù) xp1=(r2′/r2)p2,當(dāng) r2′,r2,p2,p1均為已知時(shí),則能夠求得x,由此對不同學(xué)科屬性的被引次數(shù)之間的關(guān)系進(jìn)行大致的估計(jì)。
以數(shù)學(xué)及生物學(xué)科為例,取分區(qū)數(shù)p為3,由以上討論可知數(shù)學(xué)學(xué)科的核心區(qū)作者數(shù)為r1=922,累積被引次數(shù)p1=88578,以及此時(shí)的布拉德福常數(shù)為k1=5.708,對于生物領(lǐng)域,則類似地能夠得到r2=3139,p2=601921,以及 k2=6.151。由于 r2′+r2′k2+r2′k22=35524,所以近似有r2′=790,那么與作者累積數(shù)r2′相對應(yīng)的累積被引次數(shù)為 xp1=151487,從而有x近似等于1.710??梢詫@種估計(jì)的互逆性進(jìn)行考察,也即選取生物與數(shù)學(xué)領(lǐng)域分別作為學(xué)科屬性1與2,此時(shí)有r1,p1,k1與r2,p2,k2分別為3139,601921,6.151以及922,88578,5.708。由于 r2′+r2′k2+r2′k22=133858,所以 r2′=3407, 那 么 與 r2′對 應(yīng) 的 累 積 被 引 次 數(shù)xp1=327315,于是此時(shí)的x近似為0.544,與學(xué)科屬性互換前的x值的倒數(shù)也較為接近,偏差為7.01%。
另外,由于當(dāng)分區(qū)數(shù)p足夠大時(shí),被引次數(shù)在作者中所具有的布拉德福分布特征會更為顯著,所以進(jìn)一步地可以選取p為較大值。例如當(dāng)p等于5時(shí),數(shù)學(xué)與生物學(xué)科的作者數(shù)分別為r1=313與r2=1071,相應(yīng)的累積被引次數(shù)為p1=53147以及p2=361153,而布拉德福常數(shù)則為k1=3.062以及k2=3.214,類似地有r2′+r2′k2+…+r2′k24=35524,于是 r2′=230,則與該 r2′對應(yīng)的累積被引次數(shù)為xp1=77559,所以x近似為1.459。需要指出,在利用等式 r2′+r2′k2+…+r2′k2p-1=A1對 r2′進(jìn)行確定的過程中,隨著分區(qū)數(shù)的逐漸增加,所得到的r2′對于k2的取值也會更為敏感,但是起始及末尾分區(qū)處作者數(shù)相繼比異常的客觀存在,使得需要考察此處的布拉德福常數(shù)k2的確定,其中A1為學(xué)科屬性1的作者總數(shù)。當(dāng)分區(qū)數(shù)較小時(shí),各分區(qū)作者數(shù)的相繼比具有偏高的標(biāo)準(zhǔn)差,從而會影響上述建立在布拉德福分布基礎(chǔ)上的估計(jì)過程的合理性,而當(dāng)選取較大的分區(qū)數(shù)時(shí),由于此時(shí)相繼比的標(biāo)準(zhǔn)差相對較小,從而取作者數(shù)相繼比的平均值來作為對布拉德福常數(shù)的一種較好的近似,但是在這里r2′對于k2的高度敏感性使得這種近似有時(shí)也會對r2′帶來較大的偏差,從而可能會引起估計(jì)結(jié)果的失真。例如選取分區(qū)數(shù)p為13,則此時(shí)對于數(shù)學(xué)及生物學(xué)科分別有作者數(shù)為r1=63以及r2=182,對應(yīng)的累積被引次數(shù)為p1=20441與p2=138905,以及此時(shí)的布拉德福常數(shù)分別為k1=1.605與 k2=1.691, 類 似 地 可 以 有 r2′+ r2′k2+ … +r2′k212=35524,于是有 r2′近似為27,從而與r2′對應(yīng)的累積被引次數(shù)為xp1=20607,則x近似等于1.01,而這種被引次數(shù)之間的近似等效從直觀上與實(shí)際情況并不相符,畢竟數(shù)學(xué)與生物領(lǐng)域之間的學(xué)科差異,以及研究人員的總量與科研產(chǎn)出的規(guī)模的不同,都會使得單次被引所表征的作者文獻(xiàn)的學(xué)術(shù)價(jià)值有所不同,而形成這種估計(jì)結(jié)果的原因則是由于其中的布拉德福常數(shù)都是利用相繼比的平均值來得到。實(shí)際上可以將所得k1與k2分別帶入ri+riki+…+riki12=Ai進(jìn)行檢驗(yàn),其中i=1,2,Ai為學(xué)科屬性i的作者總?cè)藬?shù),則有A1=48734以及A2=243215,相對于原始數(shù)據(jù),偏差分別達(dá)到了37.2%以及81.7%,所以由此得到的r2′與x也會與實(shí)際情況不相吻合。作為對照,還可以考察分區(qū)數(shù)較小時(shí)的情形。例如當(dāng)p等于3時(shí),按照由相繼比平均值得到的k1=5.708與k2=6.151,類似地有A1=36225以及A2=141210,此時(shí)與實(shí)際數(shù)據(jù)的偏差分別僅為1.97%以及5.49%。
另一種對布拉德福常數(shù)的近似則是不考慮作者數(shù)相繼比異常的區(qū)域,從而能夠保證剩余區(qū)域的相繼比具有相對較小的波動,由此取其平均值來對布拉德福常數(shù)進(jìn)行確定,但是所忽略的相繼比異常往往會與變量自身的分布特性有關(guān)。例如上文中作者被引次數(shù)的格魯斯下垂及其集中分布特性,所以由此得到的布拉德福常數(shù)是否全面,如果具有全面性,也即僅僅是居中分區(qū)處的分布服從傳統(tǒng)的布拉德福分布,那么是否能夠只利用居中區(qū)域來進(jìn)行類似的被引次數(shù)相互關(guān)系的估計(jì),這些還需要做進(jìn)一步的考察。例如當(dāng)p等于13時(shí),除去起始與末尾分區(qū),數(shù)學(xué)與生物學(xué)科的作者數(shù)為r1=129以及r2=460,累積被引次數(shù)仍然取p1=20441與p2=138905,而布拉德福常數(shù)則為k1=1.489與 k2=1.480,由 r2′+r2′k2+…+r2′k212=19870 可得 r2′近似等于59,其中19870為數(shù)學(xué)學(xué)科剩余分區(qū)的作者總數(shù),那么與r2′對應(yīng)的累積被引次數(shù)為xp1=17728,所以有x近似等于0.867,從直觀上該比例關(guān)系也與實(shí)際情況不相符合,畢竟在原始數(shù)據(jù)集中,與生物領(lǐng)域相比,數(shù)學(xué)學(xué)科的作者總數(shù)以及被引總量都相對較小,所以不嚴(yán)格地,如果可以認(rèn)為該兩領(lǐng)域的總的學(xué)術(shù)價(jià)值近似相同,則數(shù)學(xué)領(lǐng)域的單次引用會對應(yīng)于更多的學(xué)術(shù)價(jià)值。
上述兩種對布拉德福常數(shù)的估計(jì)都利用了作者數(shù)的相繼比,而相繼比的得到則是建立在原始數(shù)據(jù)的基礎(chǔ)上,所以能否不直接由原始數(shù)據(jù)來對布拉德福常數(shù)進(jìn)行確定,假定被引次數(shù)在作者中服從布拉德福分布,當(dāng)然根據(jù)上文中的分布考察能夠認(rèn)為這種假定具有一定的合理性。那么仍然考察數(shù)學(xué)及生物學(xué)科,選取分區(qū)數(shù)p等于13,同樣有作者數(shù)分別為r1=63以及r2=182,對應(yīng)的被引累積量分別為p1=20441與p2=138905,由于 r1+r1k1+…+r1k112=35524且 r2+r2k2+…+r2k212=133858,其中等式的右邊分別為數(shù)學(xué)及生物學(xué)科的作者總?cè)藬?shù),所以將r1與r2代入后能夠得到k1=1.557與k2=1.597,由于 r2′+r2′k2+…+r2′k212=35524,所以有 r2′近似等于48,那么與該r2′對應(yīng)的累積被引次數(shù)為 xp1=36634,于是x近似等于1.792。由此得到的布拉德福常數(shù)能夠避免由相繼比的平均值來進(jìn)行近似可能會帶來的偏差,但是這種估計(jì)實(shí)際上是該常數(shù)的理想值,畢竟在起始及末尾分區(qū)處存在著顯著偏高的作者數(shù)相繼比。
利用被引次數(shù)之間的比例關(guān)系,能夠?qū)Σ煌瑢W(xué)科屬性的h指數(shù)的對應(yīng)關(guān)系進(jìn)行大致的考察。例如作者1與2分別歸屬于數(shù)學(xué)及生物學(xué)領(lǐng)域,由h指數(shù)的定義,將該兩作者的論文分別按其被引次數(shù)降序排列,并設(shè)所得列表分別為A={a1,a2,…,an}以及B={b1,b2,…,bm},其中ai與bj分別為與序號i與j對應(yīng)的論文的被引次數(shù),如果認(rèn)為數(shù)學(xué)學(xué)科中的單次被引相當(dāng)于生物學(xué)科中的x=1.792次,則有列表A變換為{xa1,xa2,…,xan},由此能夠求得相應(yīng)的h指數(shù)并記為h1′,而h1′與h2則具有一定的可比性,從而可以對不同領(lǐng)域的作者進(jìn)行比較,其中h2為作者2的h指數(shù),并記h1為作者1在被引次數(shù)變換前的h指數(shù)。例如設(shè)A={10,6,4,4,3,2,2,1}以及 B={19,11,11,8,8,6,6,5,4,3,3,3,3},則相應(yīng)地有h1=4以及h2=6,而變換后的列表A近似等于{18,11,7,7,5,4,4,2},則有h1′=5,那么此時(shí)能夠認(rèn)為與作者2相比,作者1的h指數(shù)相對較小。
或者說是對數(shù)學(xué)學(xué)科中某作者的h指數(shù)在生物領(lǐng)域中的對應(yīng)值做近似的估計(jì)。例如取作者1的論文被引次數(shù)列表為{37,21,15,14,7,6,4,3,3,3,2,2,2},那么有h1=6,將被引次數(shù)按照比例關(guān)系1.792換算到生物學(xué)科,相應(yīng)地有被引次數(shù)列表近似為{66,38,27,25,13,11,7,5,5,5,4,4,4},以及此時(shí)的h指數(shù)為h1′=7。由于上述對x的估計(jì)滿足學(xué)科互逆性,所以對于此處的h指數(shù)的換算過程,互逆性同樣能夠得到保持。
另外,從直觀上能夠注意到在作者的論文列表中,作者論文的被引次數(shù)通常會具有顯著偏高的遞減速率,特別是在序號偏低處,而隨著論文序號的增加,被引次數(shù)的遞減速率也會逐漸降低,由此在這里假設(shè)論文的被引次數(shù)與論文的序號之間近似服從負(fù)指數(shù)關(guān)系,那么進(jìn)一步地可以假設(shè)作者1的論文被引次數(shù)滿足等式c=t1exp(-t2s)+t3;其中c與s分別為論文的被引次數(shù)及序號,且t1,t2,t3均為待定常數(shù),那么此時(shí)會有h1滿足h1=t1exp(-t2h1)+t3,如果將數(shù)學(xué)學(xué)科的被引次數(shù)按上文中的比例關(guān)系換算到生物學(xué)科中,則應(yīng)有 c′/x=t1exp(-t2s)+t3,即 c′=xt1exp(-t2s)+xt3,其中的c′為換算后的論文被引次數(shù),那么作者1在此時(shí)的 h 指數(shù)應(yīng)滿足 h1′=xt1exp(-t2h1′)+xt3,將該方程與 h1所滿足的等式聯(lián)立,則能夠得到h1,h1′與參數(shù)t1,t2,t3之間的關(guān)系,而后者與該作者的被引次數(shù)的分布相對應(yīng)。例如仍取作者1的論文及被引次數(shù)列表為{37,21,15,14,7,6,4,3,3,3,2,2,2},則有擬合函數(shù)為c=53.252exp(-0.453s)+2.033,且決定系數(shù)為0.984,由此應(yīng)當(dāng)有 h1′=53.252xexp(-0.453h1′)+2.033x;如果取x等于1.792,則會有h1′=7.238,這與直接從實(shí)際被引次數(shù)分布中得到的h1′=7也較為接近。
進(jìn)一步地,在h1與x為已知的情況下,是否可以不需要對論文被引次數(shù)的分布進(jìn)行具體的統(tǒng)計(jì),僅利用這種負(fù)指數(shù)關(guān)系來對作者h(yuǎn)指數(shù)的換算關(guān)系做近似的估計(jì)。例如在這里假設(shè)作者1的論文被引次數(shù)與論文序號之間的關(guān)系為c=texp(-ts),其中t為待定正常數(shù),變量c與s的含義同上,那么類似地會有h1=texp(-th1),且換算后的論文被引次數(shù)與作者的h指數(shù)分別滿足 c′=xtexp(-ts) 以及 h1′=xtexp(-th1′),由此當(dāng) h1與x為已知時(shí),t與h1′的取值也可以確定下來,所以在這個(gè)角度上,能夠得到將數(shù)學(xué)領(lǐng)域的某作者的h指數(shù)換算到生物學(xué)科的換算關(guān)系,同時(shí)需要指出,采取這種形式的負(fù)指數(shù)關(guān)系是為了減少待定常數(shù)的個(gè)數(shù),以便能夠?qū)Q算關(guān)系進(jìn)行確定,但是其精度可能會有所下降,畢竟這種函數(shù)形式并非是被引次數(shù)與文獻(xiàn)序號之間關(guān)系的最佳擬合,而且這種擬合函數(shù)所具有的偏差可能還會引起參數(shù)t以及h1′的無法確定。例如仍取被引次數(shù)列表為{37,21,15,14,7,6,4,3,3,3,2,2,2},相應(yīng)地h1等于6,由于Ln(t)-6t-Ln(6)<0,所以有texp(-6t)<6,所以當(dāng)h1取6時(shí)方程h1=texp(-th1)無解。因此對于特定作者而言,僅利用h1與x來對h1′進(jìn)行估計(jì),尤其是得到公式化的近似關(guān)系,還需要做進(jìn)一步的探討。
還需要指出,以上確定比例關(guān)系x的過程是建立在兩個(gè)學(xué)科的所有作者的基礎(chǔ)上,所以應(yīng)用于個(gè)體時(shí)會存在偏差,因此希望能夠得到歸屬于不同學(xué)科的作者的h指數(shù)在整體上的對應(yīng)關(guān)系。與上述對個(gè)體作者的考察類似,可以從原始數(shù)據(jù)出發(fā)對所有作者h(yuǎn)指數(shù)的換算結(jié)果采取某種形式的平均,或者是利用論文被引次數(shù)與其序號之間的關(guān)系等,來得到整體上的換算關(guān)系,從而可以利用所得到的大致比例,對某學(xué)科作者的h指數(shù)相當(dāng)于另一學(xué)科多大的指數(shù)值來進(jìn)行判斷。
除了對不同學(xué)科屬性的h指數(shù)進(jìn)行考察之外,還可以對建立在論文被引次數(shù)基礎(chǔ)上的其他綜合指標(biāo)進(jìn)行類似的學(xué)科比較,例如往往會有這樣的情形,某期刊在其所屬領(lǐng)域與其他學(xué)科的另一期刊具有同樣的學(xué)術(shù)價(jià)值或者是影響力,但是兩者的影響因子卻具有較為顯著的差異,由此是否能夠?qū)Σ煌瑢W(xué)科的期刊影響因子進(jìn)行比較或是換算,從而可以更好地應(yīng)用影響因子來對期刊進(jìn)行統(tǒng)一的衡量。類似地,可以利用不同學(xué)科中被引次數(shù)的比例關(guān)系來對期刊影響因子的學(xué)科對應(yīng)情況進(jìn)行考察,并取數(shù)學(xué)及生物領(lǐng)域的期刊作為考察對象。由于CNKI鏡像站版的引文數(shù)據(jù)庫能夠給出其入庫期刊的逐年被引量以及文獻(xiàn)間的引用關(guān)系,所以可以得到在考察年度內(nèi)某數(shù)學(xué)期刊的被引文獻(xiàn)的年代分布。那么按照期刊影響因子的定義,根據(jù)發(fā)表時(shí)間為考察年度前兩年的期刊文獻(xiàn)在考察年度的被引次數(shù),以及該期刊在考察年度前兩年的載文量,能夠得到該數(shù)學(xué)期刊在考察年度的影響因子,如果將數(shù)學(xué)期刊的被引次數(shù)按照比例關(guān)系x換算到生物領(lǐng)域,并且不考慮論文數(shù)量可能也存在著的對應(yīng)關(guān)系,則有變換后的期刊影響因子為變換前的x倍。例如由CNKI鏡像站版給出的期刊分類表,能夠得到數(shù)學(xué)分類中各個(gè)期刊的影響因子的平均值近似等于0.377,如果取x為1.792,則變換后的平均值應(yīng)為0.377x=0.676,類似地可以有生物分類中期刊影響因子的平均值為0.730,與數(shù)學(xué)期刊變換后的影響因子平均值相比,偏差為7.96%;如果可以認(rèn)為數(shù)學(xué)與生物領(lǐng)域從整體上會具有近似相同的學(xué)術(shù)價(jià)值或是學(xué)術(shù)影響力,則這種較小的偏差能夠從側(cè)面反映所得到的x值具有一定的合理性,其中期刊影響因子的統(tǒng)計(jì)時(shí)間為2010年1月。
但是需要指出,因?yàn)椴煌瑢W(xué)科的發(fā)展過程會存在差異,所以不同時(shí)期的被引次數(shù)比例關(guān)系從直觀上也會有所不同,由于在上述確定x的過程中并沒有考慮時(shí)間因素,所以在此得到的影響因子對應(yīng)關(guān)系與某實(shí)際考察年度的對應(yīng)情況之間應(yīng)當(dāng)會存在偏差,那么對于被引次數(shù)比例關(guān)系的確定,進(jìn)一步地可以通過被引次數(shù)在期刊中的布拉德福分布做類似的確定,一方面可以將確定過程以及所得結(jié)果與在作者中的分布考察進(jìn)行對比及檢驗(yàn),以便做進(jìn)一步的修正;另一方面可以確定時(shí)間段來考察被引次數(shù)在作者或者是期刊中的分布狀況,從而得到x在不同考察時(shí)段的取值乃至隨時(shí)間的變化情況。
除此之外,還可以通過變換考察對象來對被引次數(shù)的比例關(guān)系進(jìn)行估計(jì),根據(jù)核心與非核心期刊的論文之間的相互引用所得到的x值,對于其他的考察對象可能并不完全適用,畢竟作者與被引次數(shù)的統(tǒng)計(jì)范圍會有所不同,而且對于不同的考察對象,不同學(xué)科屬性的被引次數(shù)之間的換算關(guān)系可能也會存在實(shí)質(zhì)上的差異,由此可以用來對所得到的比例關(guān)系進(jìn)行檢驗(yàn)以及修正。
應(yīng)當(dāng)說上文中對x取值的估計(jì)較為粗糙,例如分區(qū)數(shù)p取為13具有隨意性,而且是在作者數(shù)的相繼比在首尾分區(qū)處明顯偏高的情況下將布拉德福常數(shù)取為其理想情況,所以在這里只是希望能夠?qū)Σ煌瑢W(xué)科屬性的被引次數(shù)進(jìn)行大致的比較,并對相關(guān)綜合指標(biāo)的學(xué)科比例關(guān)系的確定進(jìn)行初步的嘗試,其基本的假設(shè)是在被引次數(shù)進(jìn)行變換后會具有相同或者是相似的效果。另外,除了布拉德福分布規(guī)律,對于被引次數(shù)的比例關(guān)系的進(jìn)一步考察還可以建立在其他規(guī)律諸如某種形式的洛特卡分布的基礎(chǔ)上,最終的目的是希望提高所得結(jié)果的置信度以及具有較好的實(shí)用性。
[1] JEHirsch.Anindextoquantifyanindividual’sscientific researchoutput[J].PNAS,2005,102(46):16569-16572.
[2]張洋.期刊Web下載總頻次的布拉德福分布研究[J].圖書情報(bào)知識,2006 (6):38-42,60.