劉云霞
(安徽理工學(xué)校電子信息工程教學(xué)部,安徽安慶246001)
隨著網(wǎng)絡(luò)的普及,人們通過朋友、興趣愛好、行為等建立起的社會行為者與其關(guān)系的集合,稱之為社會網(wǎng)絡(luò)。其中,合著網(wǎng)絡(luò)(Co-author network)是科研工作者通過合作交流、共享知識、共同發(fā)表學(xué)術(shù)論文而形成的關(guān)系網(wǎng)絡(luò),反映了論文作者之間的聯(lián)系。對合著網(wǎng)的研究能更好地對合著關(guān)系進(jìn)行分析,加強(qiáng)科研工作者之間的交流合作,成為目前相關(guān)研究的熱點(diǎn)。本文利用聚類分析[1]的思想,將埃爾德什的合著者們分成3類,選擇出合作次數(shù)較大的分類,根據(jù)統(tǒng)計(jì)的合著者網(wǎng)絡(luò)節(jié)點(diǎn)信息構(gòu)建出合著者網(wǎng)絡(luò)影響力模型。
社會網(wǎng)絡(luò)分析(SNA)是對社會關(guān)系結(jié)構(gòu)及其屬性加以分析的一套規(guī)范和方法,主要研究社會實(shí)體不同社會單位所構(gòu)成關(guān)系的結(jié)構(gòu)及其屬性[2]。作為一種社會學(xué)研究方法,社會網(wǎng)絡(luò)分析探索網(wǎng)絡(luò)結(jié)構(gòu)和特性,應(yīng)用性很強(qiáng)。矩陣法、代數(shù)法和圖論法等是社會網(wǎng)絡(luò)分析常用的方法。矩陣法是把具體某個(gè)社會網(wǎng)絡(luò)中的所有節(jié)點(diǎn)分別排成行和列,如果某兩個(gè)節(jié)點(diǎn)間存在關(guān)系,就在其對應(yīng)的行和列的交叉位置加上權(quán)重。圖論法是將整個(gè)社會網(wǎng)絡(luò)的角色以及這些角色之間的關(guān)系用圖的形式表示,節(jié)點(diǎn)和連線是圖論法中最基本的元素,其中節(jié)點(diǎn)表示角色,連線表示角色之間的關(guān)系。雖然矩陣法沒有圖論法直觀,但是它更適合于大型以及超大型的網(wǎng)絡(luò)。本文在建立511人的合著網(wǎng)絡(luò)時(shí)采用的是矩陣法,而聚類后的小型合著網(wǎng)絡(luò)則用的是圖論法。分析軟件則選用Gephi和Netdraw。
根據(jù)埃爾德什的合著者們合作的次數(shù)、年份以及與這些合著者合作的作者情況,先構(gòu)建一個(gè)不包括埃爾德什本人的合著者網(wǎng)絡(luò),即篩選出埃數(shù)為1的合著者構(gòu)成合著者網(wǎng)絡(luò)的所有節(jié)點(diǎn)。為了簡化模型,首先利用聚類思想選擇出合作次數(shù)較多的一類合著者,并建立起他們的合著者網(wǎng)絡(luò),然后采用Floyd算法[3]分析網(wǎng)絡(luò)的影響力,最后用社會網(wǎng)絡(luò)分析軟件Gephi分析合著者網(wǎng)絡(luò)性質(zhì)。
為了建立一個(gè)有511個(gè)節(jié)點(diǎn)的合著者網(wǎng)絡(luò),首先要收集數(shù)據(jù),建立511個(gè)合著者的合作矩陣,將埃爾德什所有的合著者設(shè)為511個(gè)互相獨(dú)立且互不相同的節(jié)點(diǎn),使用Matble軟件輸出511×511的關(guān)系矩陣。將文件信息提取成如(1)式所示的矩陣形式:
其中,G代表合著者的鄰接矩陣,鄰接矩陣是用一個(gè)一維數(shù)組存放圖中所有頂點(diǎn)數(shù)據(jù),用一個(gè)二維數(shù)組存放頂點(diǎn)間關(guān)系的數(shù)據(jù),此二維數(shù)組即為鄰接矩陣,可分為有向圖鄰接矩陣和無向圖鄰接矩陣,在這里稱之為合作矩陣。vn代表節(jié)點(diǎn),表示按字母A~Z排序后第n個(gè)合著者,(vm,vn)表示vm和vn之間有無聯(lián)系,1代表有聯(lián)系,0代表無聯(lián)系。接著利用所提取出的矩陣,結(jié)合NetDraw軟件[4]畫出511個(gè)人的網(wǎng)絡(luò)圖。
合著網(wǎng)絡(luò)密度反映了所有合著者之間的合作關(guān)系,通過計(jì)算上述網(wǎng)絡(luò)的整體網(wǎng)絡(luò)密度為0.014 0,表明該網(wǎng)絡(luò)是一個(gè)稀疏網(wǎng)絡(luò),合作關(guān)系不是很密切。由于做出的圖規(guī)模過大,結(jié)點(diǎn)過于密集,不易于查看,所以為了控制網(wǎng)絡(luò)圖的規(guī)模,采取如下方法篩選部分?jǐn)?shù)據(jù)??紤]到可能存在某些合著者的合作次數(shù)為0,或是很少,所以這里采取基于劃分的聚類方法精簡網(wǎng)絡(luò)。
通過聚類分析方法將埃爾德什的511名合著者中合作次數(shù)分成3類,如表1所示。
表1 合著者合作類別與合作次數(shù)
由表1可知,類別3的合著者之間平均合作次數(shù)較少,因此,把類別3中的節(jié)點(diǎn)從網(wǎng)絡(luò)圖中刪去,重新得到類別1和類別2,共計(jì)129個(gè)合著者的合作矩陣。接下來利用重新得到的合作矩陣構(gòu)造合著者網(wǎng)絡(luò)圖。
合著者網(wǎng)絡(luò)圖中節(jié)點(diǎn)代表合著者,連邊代表合著者之間有聯(lián)系,合著者網(wǎng)絡(luò)圖是一個(gè)無權(quán)無向圖,NetDraw正是一種可以利用節(jié)點(diǎn)的鄰接矩陣作為輸入、畫出節(jié)點(diǎn)的無權(quán)無向圖的繪圖工具。以(1)式中的合作矩陣作為輸入矩陣,畫出129個(gè)合著者的合著者網(wǎng)絡(luò)圖如圖1所示。
圖1 129個(gè)合著者的合著者網(wǎng)絡(luò)圖
從圖1可看出,盡管人數(shù)縮減到129人,但是該合著者網(wǎng)絡(luò)圖還是難以分析。因此要控制網(wǎng)絡(luò)圖的規(guī)模,將合作次數(shù)最多的類別1中的36個(gè)合著者抽取出來,先構(gòu)造出36個(gè)合著者的合作矩陣,再利用新的合作矩陣畫出36個(gè)合著者的合著網(wǎng)絡(luò)圖如圖2所示。
圖2 36個(gè)合著者的合著網(wǎng)絡(luò)圖
雖然之前通過聚類縮小了網(wǎng)絡(luò)的規(guī)模,簡單可行,但是不能定量地分析網(wǎng)絡(luò)的影響力。接下來利用Floyd最短路徑算法[3]測量合著者網(wǎng)絡(luò)的影響力。具體做法:用Floyd算法算出最小路徑矩陣,將每個(gè)人對與其本人除外的所有路徑求和為S,若S越小,則表示該人與此網(wǎng)絡(luò)關(guān)系越親密,其在網(wǎng)絡(luò)中影響力也越大;若S越大,則表示此人與網(wǎng)絡(luò)的關(guān)系越疏遠(yuǎn),甚至與本網(wǎng)絡(luò)無關(guān)。通過Matlab編程計(jì)算出合著者網(wǎng)絡(luò)中節(jié)點(diǎn)的路徑矩陣,計(jì)算出前10個(gè)合著者和相應(yīng)的最短路徑距離如表2所示。
表2 前10位合著者之間的最短路徑距離
通過聚類縮小的網(wǎng)絡(luò)為整個(gè)合著者網(wǎng)絡(luò)的核心,在合著者網(wǎng)絡(luò)中具有絕對的影響力。本文所提取的核心矩陣為強(qiáng)連通圖,利用Gephi計(jì)算出合著者網(wǎng)絡(luò)密度、網(wǎng)絡(luò)聚類系數(shù)和網(wǎng)絡(luò)的平均路徑長度。通過計(jì)算得出合著者網(wǎng)絡(luò)密度為0.346,說明其網(wǎng)絡(luò)間的各點(diǎn)間聯(lián)系較緊密。按照圖形理論,聚類系數(shù)(CC)是一個(gè)圖形中節(jié)點(diǎn)聚集程度的系數(shù),在無向網(wǎng)絡(luò)中,聚類系數(shù)定義:
其中,n表示在節(jié)點(diǎn)v的所有k個(gè)鄰居間的邊數(shù),計(jì)算得出其值為0.759,具有較高的節(jié)點(diǎn)聚集程度,說明合著者網(wǎng)絡(luò)之間相關(guān)性比較強(qiáng)。接下來計(jì)算網(wǎng)絡(luò)的平均路徑長度:
其中N為網(wǎng)絡(luò)節(jié)點(diǎn)的數(shù)目,得出網(wǎng)絡(luò)的平均路徑長度為1.417,說明網(wǎng)絡(luò)中所有節(jié)點(diǎn)之間的平均最短距離比較短。綜上所述,說明提取的網(wǎng)絡(luò)在合著者網(wǎng)絡(luò)中具有重要影響地位。這10位合著者與網(wǎng)絡(luò)其他合著者的距離之和最小,表明與網(wǎng)絡(luò)的其他成員的親密程度高,其在網(wǎng)絡(luò)中占據(jù)核心地位,影響力也大。
通過Floyd最短路徑算法測量出聚類后網(wǎng)絡(luò)的影響度,但由于Floyd算法實(shí)現(xiàn)的是無向無權(quán)圖,故此模型忽略了合作次數(shù)這一重要指標(biāo),并且沒有考慮時(shí)間的跨度和合著者合著之后去世的情況。因此,在Floyd算法求解結(jié)果的基礎(chǔ)上對傳統(tǒng)的PageRank算法進(jìn)行改進(jìn),考慮到某位合著者在合著之后去世,在PR值中引入一個(gè)概率因子d,以表示合著者繼續(xù)合著的可能性,以提高算法的收斂性,計(jì)算每個(gè)節(jié)點(diǎn)的PR值,并利用復(fù)雜網(wǎng)絡(luò)分析軟件Gephi分析篩選后的合作者網(wǎng)絡(luò)性能和節(jié)點(diǎn)的影響度。
將前面計(jì)算出的合作次數(shù)較多和最短路徑最短的10位合作者提取出來,通過Gephi繪制其無向網(wǎng)絡(luò)圖,如圖3所示。
圖3 合著網(wǎng)絡(luò)圖
由圖3可以看出,Gephi將上述人物分成兩大類網(wǎng)絡(luò),其中由CHEN GUANTAO,CHEN HANG,CHEN ROBERT W,F(xiàn)UREDI ZOLTAN 構(gòu)建的小網(wǎng)絡(luò)與主體網(wǎng)絡(luò)不存在直接聯(lián)系,因此,將小網(wǎng)絡(luò)去除,直接分析主體網(wǎng)絡(luò)的節(jié)點(diǎn)影響力,這在一定程度上減少了大規(guī)模網(wǎng)絡(luò)計(jì)算。
利用PageRank算法[5],通過計(jì)算網(wǎng)絡(luò)節(jié)點(diǎn)的PR值來測量網(wǎng)絡(luò)節(jié)點(diǎn)的影響度。當(dāng)一個(gè)節(jié)點(diǎn)與其他許多節(jié)點(diǎn)都相連時(shí),其重要性越高,PR值也就越高;同時(shí)當(dāng)該節(jié)點(diǎn)影響力度很大時(shí),它與其他節(jié)點(diǎn)相聯(lián)系時(shí),其聯(lián)系的權(quán)重也就越大,這正好驗(yàn)證了社會網(wǎng)絡(luò)中的馬太效應(yīng)。設(shè)pi為某一節(jié)點(diǎn)為pi的鏈接數(shù)目為pj鏈接到該節(jié)點(diǎn)的鏈接數(shù),d為阻尼系數(shù),表示該節(jié)點(diǎn)(人)連接即合作完之后依然能與其他人繼續(xù)合作的概率為1-d,而該節(jié)點(diǎn)(人)不幸去世的概率為d,則該節(jié)點(diǎn)不再參與合作。PR值計(jì)算如下:
每個(gè)節(jié)點(diǎn)的PR值分布如圖4所示。
圖4 PageRank分布圖
對比上述數(shù)據(jù),得出這些合作者網(wǎng)絡(luò)中最具影響力的前5個(gè)人,從大到小依次為ALON NOGA M、FUREDI ZOLTAN、BOLLOBAS BELA、CHEN CHUAN CHONG、RODL VOJTECH。通過考察網(wǎng)絡(luò)中節(jié)點(diǎn)之間聯(lián)系的強(qiáng)度,分析合著者網(wǎng)絡(luò),使用Floyd最短路徑算法選出合著者,通過時(shí)間跨度因子修正后的PageRank算法,最終計(jì)算出合著者網(wǎng)絡(luò)中影響力最大的為ALON NOGA M,其次為FUREDI ZOLTAN等。
本文建立了合著網(wǎng)絡(luò)模型和基于節(jié)點(diǎn)以及關(guān)系矩陣求解節(jié)點(diǎn)影響力的合著網(wǎng)絡(luò)影響力模型;運(yùn)用PageRank算法求解出合著網(wǎng)絡(luò)中最具影響力的前5個(gè)人。這些模型的基本思想都是基于模型中個(gè)體對整個(gè)網(wǎng)絡(luò)的影響度的分析。本文的不足之處在于,首先,在利用PageRank算法計(jì)算節(jié)點(diǎn)影響力時(shí),忽略了精簡網(wǎng)絡(luò)時(shí)對節(jié)點(diǎn)影響力計(jì)算的影響;其次,沒有將文中計(jì)算節(jié)點(diǎn)影響力的方法和其他方法進(jìn)行對比,可能不同的方法計(jì)算出來的節(jié)點(diǎn)影響力會有區(qū)別。所以在以后的研究和學(xué)習(xí)過程中,將進(jìn)行深度學(xué)習(xí),完善模型,使其實(shí)用性更強(qiáng)。
[1]楊浩.基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用[D].長春:吉林大學(xué),2013.
[2]丁善敏.社會網(wǎng)絡(luò)分析法在合著網(wǎng)絡(luò)中的應(yīng)用-以天津師范大學(xué)化學(xué)學(xué)院為例[D].天津:天津師范大學(xué),2012.
[3]嚴(yán)曉鳳,陸濟(jì)湘,唐雙平.基于Floyd算法的校園最短路徑問題分析與實(shí)現(xiàn)[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版),2012,34(6):695-698,703.
[4]王運(yùn)鋒,夏德宏,顏堯妹.社會網(wǎng)絡(luò)分析與可視化工具Net-Draw的應(yīng)用案例分析[J].現(xiàn)代教育技術(shù),2008,18(4):85-89.
[5]黃德才,戚華春.PageRank算法研究[J].計(jì)算機(jī)工程,2006,32(4):145-146,162.