馬逸晗 張寧
摘 要:為了研究期刊文獻(xiàn)引用數(shù)量隨時(shí)間推移的變化規(guī)律,選取上海理工大學(xué)學(xué)報(bào)1998-2016年刊登的文章及引用文獻(xiàn)作為數(shù)據(jù)樣本,經(jīng)過數(shù)據(jù)篩選和整理,形成新的數(shù)據(jù)樣本,隨后按照引用關(guān)系,將刊登文章和引用文獻(xiàn)形成一個(gè)新的引文網(wǎng)絡(luò),并分析該網(wǎng)絡(luò)的靜態(tài)屬性,繪制冪率分布圖,發(fā)現(xiàn)該網(wǎng)絡(luò)呈明顯的冪率分布現(xiàn)象。隨后運(yùn)用KS統(tǒng)計(jì)與極大似然估計(jì)擬合冪率分布X-min值和a指數(shù)進(jìn)行冪率分布檢驗(yàn),結(jié)果證明該網(wǎng)絡(luò)的文獻(xiàn)引用頻次服從冪率分布。
關(guān)鍵詞:復(fù)雜網(wǎng)絡(luò);冪率分布;K-S檢驗(yàn);極大似然估計(jì)
DOI:10.11907/rjdk.172846
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)006-0181-04
Abstract:In order to study the change rules over time about variation of citation numbers of journal articles, this paper selected the published articles and references from Journal of Shanghai University of Science and Technology from 1998 to 2016 as data samples.New data samples were formed after data screening and collocation. Published articles and cited documents were transformed into a new citation network according to the reference relationship. The static properties of network were analyzed for making the power-law distribution map. It was found that the network showed a clear power-law distribution. We employed KS statistics and maximum likelihood estimation to fit the power distribution X-min and a exponent for power distribution test. The results showed that the citation frequency of the network followed a power-law distribution.
Key Words:complex network; power-law; distribution; K-S test; maximum likelihood estimation
0 引言
復(fù)雜性科學(xué)是21世紀(jì)的新興學(xué)科。此前,并未對(duì)復(fù)雜系統(tǒng)進(jìn)行系統(tǒng)、深入的研究,因?yàn)閺?fù)雜系統(tǒng)涉及學(xué)科眾多,需要采用合理的方法解決此類問題。復(fù)雜網(wǎng)絡(luò)和復(fù)雜系統(tǒng)都是探索整體規(guī)律,兩者之間有著緊密聯(lián)系。因此,復(fù)雜網(wǎng)絡(luò)成為研究復(fù)雜系統(tǒng)的重要方法之一。
特別是研究復(fù)雜系統(tǒng)時(shí),假若在還原論基礎(chǔ)上建立定量模型十分困難,但是建立網(wǎng)絡(luò)模型十分容易。例如隨機(jī)網(wǎng)絡(luò),其模型為n個(gè)定點(diǎn),每一對(duì)定點(diǎn)的連接概率為P[1],以及Watts和Strogatz[2]提出的重要網(wǎng)絡(luò)——小世界網(wǎng)。該模型是對(duì)規(guī)則網(wǎng)絡(luò)中的邊略微進(jìn)行改動(dòng),隨機(jī)增加與刪減幾條邊,可以使小世界網(wǎng)介于規(guī)則網(wǎng)與隨機(jī)網(wǎng)之間,因而更接近現(xiàn)實(shí)世界,從而具有更重要的研究價(jià)值。
對(duì)于復(fù)雜系統(tǒng)的研究需要探索其整體規(guī)律,因此需要注重定性研究。定性研究關(guān)注的要點(diǎn)是整體的概括而不是局部的精確。建立網(wǎng)絡(luò)模型后,即可對(duì)網(wǎng)絡(luò)靜態(tài)特性展開研究,如聚集系數(shù)、節(jié)點(diǎn)度分布、平均路徑長度等,并分析網(wǎng)絡(luò)動(dòng)態(tài)過程,以上反映的都是系統(tǒng)整體規(guī)律。
本文研究的期刊文獻(xiàn)引用網(wǎng)絡(luò),是通過文獻(xiàn)之間引用和被引用關(guān)系構(gòu)成的集合。構(gòu)成文獻(xiàn)的類型有多種,包括科技期刊、專業(yè)叢書、會(huì)議論文、科技報(bào)告等,這些文獻(xiàn)及其引用文獻(xiàn)都反映了某一學(xué)科領(lǐng)域的發(fā)展以及該學(xué)科與其它學(xué)科間的交互關(guān)系。隨著科技的發(fā)展,文獻(xiàn)數(shù)量大幅增加,新的文章引用已發(fā)表的文章及相關(guān)資料,通過相互之間的引用關(guān)系,構(gòu)成一個(gè)規(guī)模龐大的復(fù)雜網(wǎng)絡(luò)。由于研究方法十分靈活,一種研究方法可能運(yùn)用于多個(gè)領(lǐng)域,該網(wǎng)絡(luò)可以對(duì)不同學(xué)科進(jìn)行交叉描述,所以是十分重要的研究介質(zhì)。
從文獻(xiàn)引用網(wǎng)絡(luò)節(jié)點(diǎn)和邊的含義看,可看作衍生的社會(huì)網(wǎng)絡(luò),該網(wǎng)絡(luò)中文獻(xiàn)代表節(jié)點(diǎn),引用關(guān)系用連邊表示。但事實(shí)上該網(wǎng)絡(luò)與社會(huì)網(wǎng)絡(luò)有很大不同,社會(huì)網(wǎng)絡(luò)中關(guān)系變化迅速,新節(jié)點(diǎn)不斷出現(xiàn),舊節(jié)點(diǎn)不斷消亡。而文獻(xiàn)引用網(wǎng)絡(luò)中節(jié)點(diǎn)穩(wěn)固,引用關(guān)系確定,一旦確定則無法隨意刪除和修改。從時(shí)間先后順序看,只能是發(fā)表時(shí)間在后的文獻(xiàn)引用發(fā)表時(shí)間在前的文獻(xiàn)。文獻(xiàn)與文獻(xiàn)之間的引用關(guān)系不僅包含了二者之間的知識(shí)傳遞,更包含了作者、時(shí)間以及文獻(xiàn)價(jià)值等多種信息。
將文獻(xiàn)引用網(wǎng)絡(luò)與復(fù)雜網(wǎng)絡(luò)研究相結(jié)合,文獻(xiàn)計(jì)量學(xué)中提出普賴斯定律的普賴斯(Price),通過科學(xué)論文之間的引證關(guān)系描繪了科學(xué)論文的網(wǎng)絡(luò)圖,并對(duì)引文網(wǎng)絡(luò)中的出入度分布進(jìn)行研究;隨后,Barabasi等[3]在《Science》上提出了無標(biāo)度網(wǎng)絡(luò)模型,提出復(fù)雜網(wǎng)絡(luò)中的度分布呈明顯的冪率分布。對(duì)于復(fù)雜網(wǎng)絡(luò)的研究,涉及領(lǐng)域越來越廣,而對(duì)于冪率擬合還停留在圖形法,直到Clauset[4]和Barabasi[5]提出基于極大似然估計(jì)的冪率估計(jì)方法,并用KS統(tǒng)計(jì)對(duì)結(jié)果進(jìn)行檢驗(yàn)。目前國內(nèi)對(duì)于引文網(wǎng)絡(luò)的研究也有許多新進(jìn)展。如吳海峰等[6]對(duì)當(dāng)前引文網(wǎng)絡(luò)的現(xiàn)狀及發(fā)展進(jìn)行了綜述性介紹;王亮等[7]從引文網(wǎng)絡(luò)視角對(duì)知識(shí)流動(dòng)相關(guān)概念進(jìn)行剖析,總結(jié)出知識(shí)流動(dòng)類型和要素;肖雪等[8]以期刊文獻(xiàn)為研究對(duì)象,利用統(tǒng)計(jì)分析、信息計(jì)量等方法,揭示該領(lǐng)域的知識(shí)發(fā)展脈絡(luò)和演進(jìn)軌跡;楊波等[9]提出基于最大似然估計(jì)冪律分布的標(biāo)度指數(shù)估計(jì)方法;尹麗春[10]從宏觀、中觀和微觀3個(gè)層面對(duì)科學(xué)引文網(wǎng)絡(luò)進(jìn)行研究,探討網(wǎng)絡(luò)結(jié)構(gòu)及其對(duì)知識(shí)流動(dòng)傳播產(chǎn)生的影響。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,可供參考的科技文獻(xiàn)越來越多。學(xué)者發(fā)表論文時(shí),參考論文數(shù)量有沒有發(fā)生明顯變化?引用文獻(xiàn)頻次是否服從復(fù)雜網(wǎng)絡(luò)中的冪率分布現(xiàn)象?為了解釋上述現(xiàn)象并發(fā)現(xiàn)其分布規(guī)律,本文選取上海理工大學(xué)學(xué)報(bào)1998-2016年刊登的文章及引用文獻(xiàn)為數(shù)據(jù)樣本,以每篇文章的引用文獻(xiàn)頻次為研究對(duì)象,研究其分布規(guī)律。
1 研究方法
通過研究考證,現(xiàn)實(shí)世界中,很多網(wǎng)絡(luò)都服從冪率分布。對(duì)冪率分布的最初研究中提出的定律是Pareto分布,后期又出現(xiàn)了長尾理論[11],用于描述小事件普遍、大事件稀少的概率分布網(wǎng)絡(luò)。冪率分布的表達(dá)公式為:
通過公式(2)可以發(fā)現(xiàn),X的取值是整個(gè)公式的關(guān)鍵,因?yàn)樵趯?shí)際網(wǎng)絡(luò)中,并不是所有數(shù)據(jù)都滿足X值服從冪率分布,實(shí)證數(shù)據(jù)其實(shí)是對(duì)于X的某個(gè)值服從冪率分布,這里的X值記為X-min。由于X-min的存在,選擇的X-min大小將直接影響所求a的值,從而影響統(tǒng)計(jì)誤差。因此,根據(jù)Clauset[4]在2009年發(fā)表的文章,本文將根據(jù)其提供的方法估計(jì)X-min,該方法既適用于離散數(shù)據(jù),也可運(yùn)用于連續(xù)數(shù)據(jù)。對(duì)于不服從正態(tài)分布的數(shù)據(jù)而言,常用的是K-S(Kolmogorov-Smirnov)檢驗(yàn)方法,其用于計(jì)算實(shí)證數(shù)據(jù)的累積概率分布和擬合模型差值的最大值:
其中,F(xiàn)-n(x)是數(shù)據(jù)x最小值為X-min時(shí)的累積概率分布,F(xiàn)-0(x)是最擬合數(shù)據(jù)冪率分布的累積概率分布。所以首先需要對(duì)樣本進(jìn)行估計(jì),得出最擬合數(shù)據(jù),這里運(yùn)用Cross-Validation[12-15]方法進(jìn)行估計(jì)推斷。
其次,需要對(duì)所求的a值進(jìn)行標(biāo)準(zhǔn)化,傳統(tǒng)研究方法是假設(shè)條件下的最小二乘估計(jì)法,這里選擇在數(shù)據(jù)集有限的條件下,采用極大似然法估計(jì)服從冪率分布的參數(shù)a[4],參數(shù)方程為:
所以根據(jù)對(duì)K-S(Kolmogorov-Smirnov)檢驗(yàn)的描述,可以通過最擬合數(shù)據(jù)得出的P值判斷假設(shè)的合理性。對(duì)于一組數(shù)據(jù),假設(shè)它們服從冪率分布,通過最擬合數(shù)據(jù)可以得出擬合數(shù)據(jù)與理論X-min分布的距離。由實(shí)際數(shù)據(jù)和理論X-min建立的模型為N,該模型會(huì)有n組數(shù)據(jù)產(chǎn)生,若實(shí)際數(shù)據(jù)和理論X-min模型的距離比模型N的距離大,這樣的數(shù)據(jù)有m組,則mn值記為p,稱為p-值。若p-值較大,則實(shí)際數(shù)據(jù)和理論模型的差異是由統(tǒng)計(jì)誤差引起的;若p-值較小,理論模型的合理性則會(huì)受到質(zhì)疑。一般若p值≤0.1,可以判斷實(shí)際數(shù)據(jù)并不服從冪率分布。
2 實(shí)證數(shù)據(jù)研究與分析
2.1 數(shù)據(jù)來源及處理
本文以上海理工大學(xué)學(xué)報(bào)1998-2016年刊登的文章及其引用文獻(xiàn)作為數(shù)據(jù)來源,由于原始數(shù)據(jù)來源是PDF格式的文章,需要進(jìn)行人工摘錄、辨別和匯總,所以需要進(jìn)行大量的數(shù)據(jù)分析和處理。首先需要將所刊登的文章及文獻(xiàn)都轉(zhuǎn)化成固定的檢索文獻(xiàn)格式,便于分類查找;然后按照一篇被引用文獻(xiàn)對(duì)應(yīng)一篇刊載文章的形式進(jìn)行摘抄記錄,每條記錄的格式為前部分是刊登文章的引用文獻(xiàn)格式,用分隔符分開,后面是引用文獻(xiàn)的文獻(xiàn)格式,即若一篇文章有30篇引用文獻(xiàn),則應(yīng)有30條記錄;記錄完成后,還需對(duì)這些數(shù)據(jù)進(jìn)行去重及去偽。因?yàn)樗杏涗浂歼\(yùn)用Java語言進(jìn)行編號(hào)整理,文章有30篇引用文獻(xiàn),在記錄時(shí)有60條,但實(shí)際上只有31條有效,所以需要對(duì)數(shù)據(jù)進(jìn)行去重處理。此外,在早年的上海理工大學(xué)學(xué)報(bào)中有社科類專題,但是此類文章對(duì)研究會(huì)起干擾作用,所以需要將該專題的文章去除,此即去偽工作。經(jīng)過上述操作步驟后,得到的數(shù)據(jù)才是較為準(zhǔn)確的。經(jīng)統(tǒng)計(jì),上海理工大學(xué)學(xué)報(bào)1998-2016年刊登文章及引用文獻(xiàn)共計(jì)20 854條,其中刊載文章2 284篇,引用文獻(xiàn)數(shù)量為18 621篇,二者相加的數(shù)量超過了文章及文獻(xiàn)數(shù)量總和,是由于時(shí)間點(diǎn)靠后的刊載文章引用了時(shí)間點(diǎn)在前的文章,但所占比重較小,可忽略不計(jì)。通過對(duì)這些數(shù)據(jù)的分析,可以發(fā)現(xiàn)文章引用頻次是否服從冪率分布。
統(tǒng)計(jì)分析結(jié)果匯總?cè)绫?所示,發(fā)現(xiàn)其中度為0的點(diǎn)占據(jù)了絕大多數(shù),約為89.3%,因?yàn)樵谠搹?fù)雜網(wǎng)絡(luò)中,每篇文章都作為一個(gè)節(jié)點(diǎn),但是文章引用的文獻(xiàn)數(shù)量遠(yuǎn)遠(yuǎn)多于文章本身,往往為文章數(shù)量的幾十甚至上百倍。經(jīng)分析發(fā)現(xiàn),文章引用頻次主要集中在2~16條。對(duì)于引用頻次極大與極小的文章也進(jìn)行了具體分析,引用頻次過大的文章主要是一些綜述類文章,主要介紹學(xué)科發(fā)展現(xiàn)狀及未來發(fā)展前景,而一些引用頻次較小的文章主要是各位學(xué)者的心得體會(huì)。
為了更好地研究該網(wǎng)絡(luò),經(jīng)過統(tǒng)計(jì)分析,將網(wǎng)絡(luò)中度為0的節(jié)點(diǎn)去除,由引用頻次為1~160的節(jié)點(diǎn)構(gòu)成一個(gè)新網(wǎng)絡(luò)。發(fā)現(xiàn)引用頻次在2~16的節(jié)點(diǎn)占整個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的86.5%,但其節(jié)點(diǎn)頻次僅占整體引用頻次個(gè)數(shù)的28.3%,這種文獻(xiàn)頻次分布規(guī)律與布拉德福期刊聚散分布規(guī)律、加菲爾德的文獻(xiàn)集中規(guī)律大體一致。
2.2 數(shù)據(jù)可視化及冪率分布檢驗(yàn)
為了驗(yàn)證前文的猜想,判斷引用文獻(xiàn)數(shù)目是否服從冪率分布。本文參考Clauset文章中的方法,應(yīng)用Python統(tǒng)計(jì)分析軟件,得出引用頻次冪率分布圖如圖2所示。
通常判斷一個(gè)分布是否服從冪率分布的方法是通過圖形法,即觀察分布圖的形狀。冪率分布在橫坐標(biāo)和縱坐標(biāo)都是對(duì)數(shù)刻度的雙對(duì)數(shù)坐標(biāo)系中顯示為一條直線,而指數(shù)分布在縱坐標(biāo)為對(duì)數(shù)刻度的單對(duì)數(shù)坐標(biāo)系中顯示為一條直線[16]。如圖2所示,橫坐標(biāo)代表引用文獻(xiàn)數(shù)目頻次,縱坐標(biāo)代表Pr[X≥x]。通過對(duì)X和Y軸進(jìn)行對(duì)數(shù)縮放后觀察圖形,有著很明顯的直線趨勢,圖中已作出擬合直線,并且P值大于0.1。綜上述,引用文獻(xiàn)頻次可以假定服從冪率分布。擬合結(jié)果如表2所示。
其中,n表示引用文獻(xiàn)數(shù)目頻次,X表示引用頻次平均值,σ表示引用頻次標(biāo)準(zhǔn)差,X-max表示引用頻次最大值,X-min表示估計(jì)X最小值,a表示參數(shù)a估值,N-e表示引用頻次估值,p是判斷數(shù)據(jù)是否服從冪率分布的重要依據(jù)。
3 結(jié)語
為了研究期刊文獻(xiàn)引用數(shù)量隨時(shí)間變化以及技術(shù)變革的變化規(guī)律,本文選取上海理工大學(xué)學(xué)報(bào)1998-2016年的刊發(fā)及引用文獻(xiàn)作為數(shù)據(jù)樣本,通過研究期刊論文引用文獻(xiàn)的頻次分布規(guī)律,發(fā)現(xiàn)其構(gòu)成網(wǎng)絡(luò)呈明顯的冪率分布現(xiàn)象,并且文獻(xiàn)引用頻次分布規(guī)律與布拉德福期刊聚散分布規(guī)律、加菲爾德文獻(xiàn)集中規(guī)律大體一致,說明大多數(shù)作者投稿時(shí),文章中引用文獻(xiàn)數(shù)目具有一定規(guī)律性。同時(shí)運(yùn)用KS統(tǒng)計(jì)和極大似然估計(jì)擬合冪率分布的X-min值和a指數(shù)進(jìn)行冪率分布檢驗(yàn),結(jié)果證明該網(wǎng)絡(luò)的論文引用頻次在一定程度上服從冪率分布。此外,對(duì)于X-min值的形成作更深入的探究,將對(duì)未來引文網(wǎng)絡(luò)研究有著重要意義。
參考文獻(xiàn):
[1] NEWMANMEJ. The structure and function of complex networds[J].SLAM Review,2003,45(2):167-256.
[2] WATTTS D J ,STROGATZ SH.Collective dynamics of “small-world”networds[J].Nature,1998,393:440-442.
[3] BARABASI A L,LBERT R.Emergenceof scaling in random networks[J].Sciences,1999,286:509512.
[4] CLAUSET A,SHALIZI C R,NEWMAN M E J.Power-law distributions in empirical data[J].SIAM review,2009,51(4):661-703.
[5] BARABASI AL,ALBERT R,JEONG H. Mean-field theory for scale -free random networks[J].Physica, 1999,272:173-187.
[6] 吳海峰,孫一鳴.引文網(wǎng)絡(luò)的研究現(xiàn)狀及其發(fā)展綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):164-168.
[7] 王亮,張慶普.基于引文網(wǎng)絡(luò)的知識(shí)流動(dòng)過程與機(jī)制研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2014,16(1):110-116.
[8] 肖雪,陳云偉,鄧勇.引文網(wǎng)絡(luò)的社團(tuán)劃分研究進(jìn)展綜述[J].情報(bào)雜志,2016,35(4):125-130.
[9] 楊波,陳忠,段文奇.復(fù)雜網(wǎng)絡(luò)冪律函數(shù)標(biāo)度指數(shù)的估計(jì)與檢驗(yàn)[J].上海交通大學(xué)學(xué)報(bào),2007(7):1066-1068,1073.
[10] 尹麗春.科學(xué)學(xué)引文網(wǎng)絡(luò)的結(jié)構(gòu)研究[D].大連:大連理工大學(xué),2006.
[11] [美] 克里斯·安德森.長尾理論[M].喬江濤,譯.北京:中信出版社,2006.
[12] 吳德勝,梁樑.基于V-fold Cross-validation和Elman神經(jīng)網(wǎng)絡(luò)的信用評(píng)價(jià)研究[J].系統(tǒng)工程理論與實(shí)踐,2004,24(4):92-97.
[13] REFAEILZADEH P,TANG L,LIU H.Cross-validation,in encyclopedia of database systems[M].New York:Springer US,2009:532-538.
[14] CARLOS A,LPEZ SNCHEZ.A height-diameter model for pinusradiata[D].Don in Galicia(Northwest Spain):Annual of Forest Science,2003,60:237-245.
[15] BOYCE M S,VERNIER P R,NIELSEN S E,et al.Evaluating resource selection functions[J].Ecological Modeling,2002,157:281-300.
[16] 劉臣,單偉,于晶.中國學(xué)科知識(shí)網(wǎng)絡(luò)的演化研究——基于1981-2010年引文數(shù)據(jù)[J].系統(tǒng)工程理論與實(shí)踐,2013,33(2):431-436.
(責(zé)任編輯:黃 ?。?/p>