王衛(wèi) 李曉娜 閆帥
〔摘要〕作者合著關(guān)系的預(yù)測(cè)對(duì)于提高科研合作效率和有效的科研管理具有重要的意義。本文以中國(guó)知網(wǎng)中圖書情報(bào)領(lǐng)域核心期刊作為信息來(lái)源,獲取15年(2001-2015)的文獻(xiàn)信息。通過(guò)計(jì)算指標(biāo)方差和指標(biāo)性質(zhì)確定對(duì)合著關(guān)系預(yù)測(cè)的指標(biāo)體系,同時(shí)對(duì)比基于單指標(biāo)的無(wú)監(jiān)督方法和基于分類算法的監(jiān)督式機(jī)器學(xué)習(xí)方法(邏輯回歸、支持向量機(jī)和隨機(jī)森林)的預(yù)測(cè)效果,本文最終確定基于隨機(jī)森林和指標(biāo)體系所構(gòu)造的合著關(guān)系預(yù)測(cè)模型。通過(guò)實(shí)例應(yīng)用證明該模型具有較好的準(zhǔn)確性和穩(wěn)定性。
〔關(guān)鍵詞〕合著關(guān)系;鏈路分析;隨機(jī)森林
DOI:10.3969/j.issn.1008-0821.2018.11.019
〔中圖分類號(hào)〕G250252〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2018)11-0109-07
Study on Co-authorship Prediction Based on Link Analysis
——Taking LIS Field as ExampleWang Wei1Li Xiaona1Yan Shuai2
(1.School of Government,Beijing Normal University,Beijing 100875,China;
2.Department of Public Security of Henan Province,Zhengzhou 450003,China)
〔Abstract〕The prediction of co-authorship is of great significance to improve scientific research cooperation efficiency and manage scientific research more effectively. Using CNKI as the data resource,this paper selected co-authorship in the core journals between 2001 and 2015.The co-authorship prediction index system was determined by index properties and index variance.By comparing the prediction effect of the unsupervised method based on single index and supervised machine learning method based on classification algorithm which contained logistic regression,support vector machines and random forests,this paper finally confirmed the prediction model of the relationship based on the index system and random forests.
〔Key words〕co-authorship;link analysis;random forests
隨著科學(xué)技術(shù)的發(fā)展和科學(xué)研究的深入,科研活動(dòng)中的知識(shí)交流與共享行為日趨頻繁,作者合著行為呈明顯上升趨勢(shì),合作機(jī)制也愈發(fā)有律可循。通過(guò)對(duì)作者合著關(guān)系產(chǎn)生和發(fā)展機(jī)理進(jìn)行研究,理解科研合著網(wǎng)絡(luò)的關(guān)系行為模式,發(fā)現(xiàn)并模擬科研合著網(wǎng)絡(luò)的動(dòng)態(tài)演化過(guò)程,對(duì)于提高合作效率和有效的科研管理具有重要的意義。已有研究發(fā)現(xiàn)影響作者合著行為的因素主要有:自身的合作傾向、合作能力、研究興趣等個(gè)體因素,地理位置等情境因素以及學(xué)科性質(zhì)。但前人研究缺乏對(duì)作者合著行為模式系統(tǒng)化、定量化的描述與揭示。本文假設(shè)合著行為的產(chǎn)生與所在合著網(wǎng)絡(luò)中網(wǎng)絡(luò)結(jié)構(gòu)特征以及作者個(gè)體屬性特征有關(guān),從合著網(wǎng)絡(luò)的適用性和預(yù)測(cè)方法的可解釋性等角度出發(fā),選取了基于分類模型的機(jī)器學(xué)習(xí)方法,通過(guò)構(gòu)建指標(biāo)體系,對(duì)多種預(yù)測(cè)方法進(jìn)行對(duì)比,分析合著網(wǎng)絡(luò)的形成機(jī)制,并進(jìn)一步預(yù)測(cè)合著網(wǎng)絡(luò)。
1相關(guān)理論基礎(chǔ)
鏈路預(yù)測(cè)是通過(guò)已知的網(wǎng)絡(luò)節(jié)點(diǎn)以及一些網(wǎng)絡(luò)結(jié)構(gòu)信息,預(yù)測(cè)網(wǎng)絡(luò)中尚未產(chǎn)生連邊的兩個(gè)節(jié)點(diǎn)之間產(chǎn)生連接的可能性。它是網(wǎng)絡(luò)研究的重要方法之一,尤其對(duì)鏈接關(guān)系預(yù)測(cè)與推薦等方面具有較高的應(yīng)用價(jià)值[1-2]。
目前鏈路預(yù)測(cè)主要采用基于相似性的方法和基于學(xué)習(xí)的方法,其中基于相似性的方法是通過(guò)基于鄰居信息、路徑或隨機(jī)游走的相似性指標(biāo)等,根據(jù)已知網(wǎng)絡(luò)中的節(jié)點(diǎn)結(jié)構(gòu)和節(jié)點(diǎn)屬性,通過(guò)某項(xiàng)指標(biāo)計(jì)算每一對(duì)未連接節(jié)點(diǎn)的相似程度,相似程度越高,其存在鏈接的概率越大[3];而基于學(xué)習(xí)的方法是將鏈路問(wèn)題看作一分為二的問(wèn)題,即兩個(gè)節(jié)點(diǎn)存在連接或不存在連接,該方法也是根據(jù)已知網(wǎng)絡(luò)中的節(jié)點(diǎn)結(jié)構(gòu)和節(jié)點(diǎn)屬性,通過(guò)無(wú)監(jiān)督或有監(jiān)督的機(jī)器學(xué)習(xí)算法或概率模型等來(lái)預(yù)測(cè)未知節(jié)點(diǎn)對(duì)的連接屬于正類或負(fù)類的概率[4]。
在機(jī)器學(xué)習(xí)算法上,根據(jù)不同的鏈路預(yù)測(cè)問(wèn)題,可分為非監(jiān)督式方法和監(jiān)督式方法?;诜潜O(jiān)督方法,可通過(guò)K近鄰算法判斷節(jié)點(diǎn)對(duì)連接與否。K近鄰算法[5]是通過(guò)給定的訓(xùn)練數(shù)據(jù)集,判斷新入樣本在該訓(xùn)練數(shù)據(jù)集中最臨近的K個(gè)實(shí)例,并將該樣本歸入K個(gè)實(shí)例中多數(shù)實(shí)例所屬的類中?;诒O(jiān)督式方法,主要是選擇合適的分類算法。目前該領(lǐng)域有較多的分類算法[5],如邏輯回歸利用邏輯函數(shù)計(jì)算節(jié)點(diǎn)對(duì)之間產(chǎn)生連接的概率值;支持向量機(jī)是尋找特征空間上最大間隔面的線性分類器,通過(guò)間隔最大化,最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問(wèn)題的求解;隨機(jī)森林算法通過(guò)反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類或回歸,隨機(jī)使用變量和數(shù)據(jù),按照純度最小原則分裂,對(duì)生成的多棵獨(dú)立決策樹(shù)選擇出最優(yōu)的分類結(jié)果,每一棵決策樹(shù)最大限度地生長(zhǎng),不做任何修剪,將生成的多棵決策樹(shù)組成隨機(jī)森林,用分類器對(duì)決策樹(shù)的分類結(jié)果投票,以票數(shù)多少確定分類結(jié)果。
針對(duì)鏈路預(yù)測(cè)效果進(jìn)行評(píng)價(jià),可對(duì)應(yīng)預(yù)測(cè)方法選擇不同的評(píng)價(jià)方法?;谙嗨菩苑椒ǖ逆溌奉A(yù)測(cè)問(wèn)題,可以選擇Accuracy的評(píng)價(jià)方法,它指相似度排序靠前的k個(gè)預(yù)測(cè)邊的預(yù)測(cè)準(zhǔn)確率,預(yù)測(cè)正確的邊的數(shù)量越多,準(zhǔn)確率越高;基于學(xué)習(xí)方法的鏈路預(yù)測(cè)問(wèn)題,可以使用經(jīng)典分類算法的評(píng)價(jià)標(biāo)準(zhǔn),即Precision、Recall、F1、AUC值。其中Precision度量其精確性,表示被劃分為正類樣本的數(shù)量中實(shí)際為正類樣本數(shù)量的比例。Recall度量其覆蓋面,表示被劃分為正類樣本的數(shù)量在所有正類樣本集合中的比例。F1是正確率與召回率的調(diào)和平均值,數(shù)值越大,效果越好,其計(jì)算公式為F1=Precision*Recall*2Precision+Recall;如果采用AUC值進(jìn)行鏈路預(yù)測(cè)評(píng)價(jià),需要建立一個(gè)縱坐標(biāo)為召回率橫坐標(biāo)為偽正率的二維坐標(biāo)系,即實(shí)際為負(fù)類集合中被劃分為正類的樣本數(shù)比例,形成一條ROC曲線,AUC則為曲線下的面積,AUC值越大,預(yù)測(cè)效果越好,如果值大于05說(shuō)明模型的分類效果好于隨機(jī)預(yù)測(cè)效果。
2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于鏈路分析的作者合著關(guān)系預(yù)測(cè)研究Nov.,2018Vol38No112合著關(guān)系預(yù)測(cè)指標(biāo)體系
21研究假設(shè)
本文指標(biāo)構(gòu)建的相關(guān)研究假設(shè)如下:
1)合著網(wǎng)絡(luò)中網(wǎng)絡(luò)結(jié)構(gòu)相似的節(jié)點(diǎn)(作者)對(duì)更易產(chǎn)生合著;
2)合著網(wǎng)絡(luò)中介中心度差異大的節(jié)點(diǎn)(作者)對(duì)更易產(chǎn)生合著;
3)合著網(wǎng)絡(luò)中聚類系數(shù)差異大的節(jié)點(diǎn)(作者)對(duì)更易產(chǎn)生合著;
4)合著網(wǎng)絡(luò)中節(jié)點(diǎn)(作者)傾向于和合作度大的節(jié)點(diǎn)(作者)合著;
5)合著網(wǎng)絡(luò)中合作率差異大的節(jié)點(diǎn)(作者)對(duì)更易產(chǎn)生合著;
6)合著網(wǎng)絡(luò)中節(jié)點(diǎn)(作者)傾向于和論文數(shù)多的節(jié)點(diǎn)(作者)合著;
7)同一機(jī)構(gòu)的作者更易產(chǎn)生合著;
8)研究興趣點(diǎn)相似或相近的作者更易產(chǎn)生合著;
9)兩個(gè)有較多共同合作過(guò)機(jī)構(gòu)的作者更易產(chǎn)生合著。
22網(wǎng)絡(luò)結(jié)構(gòu)特征指標(biāo)
在作者合著網(wǎng)絡(luò)中,既往研究使用的指標(biāo)如表1所示。表1既往研究作者合著網(wǎng)絡(luò)使用指標(biāo)
既往研究使用的指標(biāo)Yan E等[6]CN、Jaccard、AA、PA、SimRank、PageRank等AI Hasan M等[7]CN、Shortest Path、Sum of Neighbors、
Sum of keyword Count等Guns R等[8]CN、Jaccard、AA、weighted Katz等Pavlov M等[9]Shortest Path、CN、Jaccard、AA、PA、
Weighted Katz、Link Value等Zhang J等[10]CN、Common Keyword、Common Journal等
在作者合著關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)特征指標(biāo)中,本文主要用到了CN(Common Neighbors)指標(biāo)、Jaccard指標(biāo)、AA(Adamic Adar)指標(biāo)、PA(Preferential Attachment)指標(biāo)、中介中心度之差、聚類系數(shù)之差。以下分別對(duì)其進(jìn)行說(shuō)明:
CN指標(biāo)是指節(jié)點(diǎn)對(duì)的共同合作作者數(shù),認(rèn)為共同作者數(shù)越多,這兩個(gè)節(jié)點(diǎn)產(chǎn)生鏈接的概率越大。
Jaccard指標(biāo)是在節(jié)點(diǎn)對(duì)中,兩者的共同合作者數(shù)量占兩者合作者總數(shù)量的比重。
AA指標(biāo)[3]是根據(jù)節(jié)點(diǎn)對(duì)共同鄰居的度信息,度小的共同鄰居節(jié)點(diǎn)的貢獻(xiàn)大于度大的共同鄰居節(jié)點(diǎn),因此根據(jù)共同鄰居節(jié)點(diǎn)的度,為每一個(gè)節(jié)點(diǎn)賦予該節(jié)點(diǎn)的度的對(duì)數(shù)分之一的權(quán)重值,即1/lg k。
PA指標(biāo)[11]針對(duì)無(wú)標(biāo)度的網(wǎng)絡(luò)結(jié)構(gòu)特性,認(rèn)為網(wǎng)絡(luò)中節(jié)點(diǎn)中心度數(shù)小的節(jié)點(diǎn)更傾向于與網(wǎng)絡(luò)中度數(shù)大的節(jié)點(diǎn)產(chǎn)生連接,因此在合作網(wǎng)絡(luò)中該值等于節(jié)點(diǎn)對(duì)度數(shù)的乘積。
中介中心度在作者合作網(wǎng)絡(luò)中表示網(wǎng)絡(luò)中某位作者出現(xiàn)在其他作者對(duì)最短路徑上的程度,中介中心度越大,表明該作者促進(jìn)其他作者對(duì)形成合作關(guān)系的能力越強(qiáng)。中介中心度之差,則是指兩個(gè)作者的中介中心度的差異程度。
聚類系數(shù)之差是考察節(jié)點(diǎn)之間存在的密集連接程度的差異,即作者對(duì)之間聚類系數(shù)的差異程度。
23個(gè)體屬性指標(biāo)
本文多考慮了個(gè)體屬性指標(biāo)和作者的合作計(jì)量指標(biāo),其中個(gè)體屬性指標(biāo)包括論文數(shù)之積、是否同一機(jī)構(gòu)、研究興趣匹配度和合作機(jī)構(gòu)相似度。以下分別對(duì)其進(jìn)行說(shuō)明:
論文數(shù)之積,由于論文數(shù)量在一定程度上可反映作者的科研水平,在基于網(wǎng)絡(luò)結(jié)構(gòu)的指標(biāo)中我們考慮了作者合作者數(shù)量的優(yōu)先連接,這里通過(guò)計(jì)算合著網(wǎng)絡(luò)中任意作者對(duì)歷史發(fā)文數(shù)量的乘積,來(lái)考察該值是否會(huì)影響作者合著關(guān)系的形成。此處統(tǒng)計(jì)的作者發(fā)文數(shù)是指每位作者在5年內(nèi)的全部發(fā)文數(shù)量,包含獨(dú)立發(fā)文數(shù)與合作發(fā)文數(shù),使用Nx表示作者x5年內(nèi)的發(fā)文篇數(shù),該值計(jì)算如下式所示:
Preferpaper=N(x)×N(y)
是否同一機(jī)構(gòu),從學(xué)術(shù)交流的便捷性和工作情感角度,同一機(jī)構(gòu)的科研工作者更容易形成合作關(guān)系。
研究興趣匹配度,研究興趣相似是促成合作關(guān)系的常見(jiàn)原因,我們提取每位作者歷史發(fā)文中的關(guān)鍵詞信息,用于表示每位作者的研究興趣,隨機(jī)組配作者對(duì),以作者對(duì)歷史發(fā)文的關(guān)鍵詞集合的交集的數(shù)量作為匹配度。
合作機(jī)構(gòu)相似度,我們通過(guò)考察每位作者既往合作過(guò)的機(jī)構(gòu)作為合作機(jī)構(gòu)集合,通過(guò)計(jì)算作者對(duì)之間合作機(jī)構(gòu)集合的交集的數(shù)量,作為作者對(duì)合作機(jī)構(gòu)相似度。
24合作計(jì)量指標(biāo)
合作計(jì)量指標(biāo)是對(duì)作者歷史合作行為的刻畫,融入該指標(biāo)有助于更好地理解合著行為。它是由合作率之差和合作度之積構(gòu)成,以下分別對(duì)其進(jìn)行說(shuō)明:
合作度之積,其中合作度是指作者所發(fā)表論文的篇均作者數(shù),合作度越高論文篇均合作者越多,沒(méi)有合作行為的獨(dú)立研究人員的合作度最小,取值為1,我們通過(guò)計(jì)算兩個(gè)作者的合作度的乘積,進(jìn)而判斷作者對(duì)是否存在合作度的優(yōu)先連接。這里用Nx表示作者x的發(fā)文總數(shù),fxj表示作者x的所有論文中作者數(shù)為j的論文數(shù)量,q表示單篇文獻(xiàn)的最大作者數(shù)量。具體公式如下:
PreferDC=∑qj=1jfxjNx*∑qj=1jfyjNy
合作率之差,其中合作率反映作者科研合作的深度,指作者合作論文數(shù)占全部產(chǎn)出論文的比率,通過(guò)考察兩個(gè)作者在合作率上的差異是否會(huì)對(duì)作者之間的合著產(chǎn)生影響。這里用Nx表示作者x的發(fā)文總數(shù),fx表示作者x的合作發(fā)文數(shù),并提出了合作率差異指標(biāo)如下式所示:
difCI=fxNx-fyNy
25指標(biāo)體系
通過(guò)上述研究可發(fā)現(xiàn),指標(biāo)體系中主要以網(wǎng)絡(luò)結(jié)構(gòu)特征為主,因此在初步形成的鏈路預(yù)測(cè)指標(biāo)集合的基礎(chǔ)上,我們對(duì)各指標(biāo)做二次篩選,一方面通過(guò)指標(biāo)的方差大小進(jìn)行篩選,因?yàn)榉讲钶^小的指標(biāo)所具有的區(qū)分度較小,所以去除方差較小的指標(biāo);另一方面通過(guò)指標(biāo)性質(zhì),去除一些不適用于合著網(wǎng)絡(luò)的指標(biāo)以及已經(jīng)被相關(guān)研究證明效果較差的指標(biāo)。
在綜合考慮作者合著網(wǎng)絡(luò)結(jié)構(gòu)特征和主流的鏈路預(yù)測(cè)指標(biāo)基礎(chǔ)上,最終確定如下的指標(biāo)體系,見(jiàn)圖1。
3預(yù)測(cè)模型分析
31數(shù)據(jù)獲取與處理
本文以2014-2015年中文核心期刊目錄(CSSCI)圖情領(lǐng)域17種刊物作為文獻(xiàn)信息來(lái)源,并選擇CNKI作為研究數(shù)據(jù)采集平臺(tái),從該平臺(tái)獲取上述期刊15年(2001-2015)的文獻(xiàn)信息,共79 715條記錄,通過(guò)Python編程對(duì)數(shù)據(jù)預(yù)處理,去除期刊簡(jiǎn)訊、會(huì)議信息、通告、活動(dòng)報(bào)道等無(wú)關(guān)記錄4 813條,保留有效記錄74 902條。
以5年為一個(gè)階段,將上述15年的數(shù)據(jù)分為2001-2005年、2006-2010年、2011-2015年3個(gè)階段。
32預(yù)測(cè)實(shí)驗(yàn)設(shè)計(jì)
作者合著關(guān)系預(yù)測(cè),即未來(lái)連邊預(yù)測(cè),是指在合著網(wǎng)絡(luò)的演化過(guò)程中,判斷在前一階段合著網(wǎng)絡(luò)中不存在合著關(guān)系的作者在后一階段是產(chǎn)生合著關(guān)系還是仍然不存在合著關(guān)系。
為了便于分析,本文引入一些記號(hào)和概念。用Eold表示前一階段(old)合著網(wǎng)絡(luò)中邊(合著關(guān)系)的集合;用Enew表示后一階段(new)合著網(wǎng)絡(luò)中邊(合著關(guān)系)的集合。在前一階段如果作者對(duì)(u,v)不存在合著關(guān)系,即(u,v)Eold,則稱(u,v)是潛在連邊。合著關(guān)系預(yù)測(cè)是針對(duì)潛在連邊(u,v)預(yù)測(cè)其未來(lái)連邊情況,實(shí)際上只有兩種情況:(u,v)∈Enew(產(chǎn)生合著關(guān)系)和(u,v)Enew(仍不存在合著關(guān)系),分別稱之為新連邊和缺失連邊。這樣,合著關(guān)系預(yù)測(cè)就轉(zhuǎn)化為一個(gè)二分類問(wèn)題:負(fù)類類標(biāo)為0(缺失連邊)或正類類標(biāo)為1(新連邊)。
本文將2001-2005年作為前一階段,2006-2010年作為后一階段。由于在潛在連邊中缺失連邊的數(shù)量遠(yuǎn)大于新連邊的數(shù)量,導(dǎo)致分類中正負(fù)樣本比例嚴(yán)重失調(diào),其中在2006-2010年合著網(wǎng)絡(luò)中存在合著關(guān)系的新連邊數(shù)量為731,缺失連邊數(shù)量為5 364 112,所以我們對(duì)缺失連邊進(jìn)行隨機(jī)抽樣,與新連邊形成1∶1的正負(fù)樣本比例,構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集。通過(guò)統(tǒng)計(jì)2001-2005年合著網(wǎng)絡(luò)上各個(gè)指標(biāo)值,預(yù)測(cè)在2006-2010年合著網(wǎng)絡(luò)中的未來(lái)連邊。
33預(yù)測(cè)方法選擇
根據(jù)相關(guān)研究[4,12],在鏈路預(yù)測(cè)的預(yù)測(cè)方法上,本文可選擇基于單指標(biāo)的無(wú)監(jiān)督方法和基于分類算法的監(jiān)督式機(jī)器學(xué)習(xí)方法進(jìn)行實(shí)驗(yàn)。
根據(jù)上述實(shí)驗(yàn)設(shè)計(jì)內(nèi)容,將2001-2005年合著網(wǎng)絡(luò)和2006-2010年合著網(wǎng)絡(luò)作為數(shù)據(jù)集1,通過(guò)2006-2010年的合著網(wǎng)絡(luò)來(lái)判斷各方法對(duì)2001-2005年合著網(wǎng)絡(luò)的潛在連邊的預(yù)測(cè)效果;同樣,將2006-2010年合著網(wǎng)絡(luò)和2011-2015年合著網(wǎng)絡(luò)作為數(shù)據(jù)集2,通過(guò)2011-2015年的合著網(wǎng)絡(luò)判斷各方法對(duì)2006-2010年合著網(wǎng)絡(luò)的潛在連邊的預(yù)測(cè)效果。同時(shí)在一定程度上了解預(yù)測(cè)方法的穩(wěn)定性。
331基于單指標(biāo)的預(yù)測(cè)
通過(guò)計(jì)算指標(biāo)體系中每一個(gè)指標(biāo)在數(shù)據(jù)集中的得分,采用Accuracy評(píng)價(jià)方法,獲得指標(biāo)預(yù)測(cè)正確率。需要說(shuō)明的是,由于同一機(jī)構(gòu)指標(biāo)為類別變量,所以未參與預(yù)測(cè)。預(yù)測(cè)結(jié)果如圖2所示:
由圖2可知,多數(shù)指標(biāo)在數(shù)據(jù)集1和數(shù)據(jù)集2上的準(zhǔn)確率都較為接近,表明所選指標(biāo)具有較好的穩(wěn)定性和可靠性。從各指標(biāo)在指標(biāo)體系中所屬的3個(gè)大類來(lái)看,整體預(yù)測(cè)效果最好的是基于作者個(gè)體屬性指標(biāo),其次為合作計(jì)量指標(biāo),最差的為基于網(wǎng)絡(luò)結(jié)構(gòu)特征的指標(biāo)。單個(gè)指標(biāo)預(yù)測(cè)準(zhǔn)確率最高的指標(biāo)是合作機(jī)構(gòu)的相似度,其次為網(wǎng)絡(luò)結(jié)構(gòu)特征的PA指標(biāo)、中介中心之差、研究興趣匹配度和論文數(shù)之積以及聚類系數(shù)之差。由于多數(shù)作者對(duì)的共同鄰居作者較少且Jaccard、AA兩個(gè)指標(biāo)都是基于CN所構(gòu)造,使得CN、Jaccard、AA指標(biāo)的預(yù)測(cè)準(zhǔn)確率均較低且比較接近。
332基于分類算法的預(yù)測(cè)
結(jié)合各種分類算法自身的優(yōu)缺點(diǎn)及適用條件,同時(shí)根據(jù)分類算法對(duì)比的相關(guān)研究[13],支持向量機(jī)和隨機(jī)森林在多數(shù)分類實(shí)驗(yàn)中均能取得較好的預(yù)測(cè)效果,在預(yù)測(cè)性能的穩(wěn)定性方面優(yōu)于多數(shù)算法;而邏輯回歸算法因模型簡(jiǎn)單易理解、運(yùn)算速度快、預(yù)測(cè)效果相對(duì)較好而被廣泛使用。本文選擇這3種分類算法構(gòu)建合著關(guān)系預(yù)測(cè)模型。
對(duì)數(shù)據(jù)集1和數(shù)據(jù)集2分別采用十階交叉驗(yàn)證,使用3種分類算法在訓(xùn)練集上進(jìn)行預(yù)測(cè),在測(cè)試集上驗(yàn)證,通過(guò)選用準(zhǔn)確率、精度、召回率、F1值和AUC面積評(píng)價(jià)3類分類算法的預(yù)測(cè)效果。3種分類算法均通過(guò)Python中的機(jī)器學(xué)習(xí)包Sklearn實(shí)現(xiàn)。算法參數(shù)設(shè)置上,邏輯回歸采用L2型正則化(解決指標(biāo)多重共線性問(wèn)題);支持向量機(jī)采用線性核函數(shù),懲罰系數(shù)10;隨機(jī)森林種樹(shù)50棵,其他參數(shù)值為默認(rèn)值。具體預(yù)測(cè)效果見(jiàn)表2所示。
從縱向來(lái)看,數(shù)據(jù)集1三個(gè)指標(biāo)的預(yù)測(cè)效果普遍要略好于數(shù)據(jù)集2,由于數(shù)據(jù)集1演化時(shí)期要早于數(shù)據(jù)集2,因此我們認(rèn)為早期的合著關(guān)系的形成更有規(guī)律性,使得其預(yù)測(cè)性也更好。
34預(yù)測(cè)模型中指標(biāo)體系的選擇
通過(guò)上述分析,本文使用隨機(jī)森林分類算法分別得到了指標(biāo)體系中3種類型指標(biāo)集的預(yù)測(cè)效果,同時(shí)我們還實(shí)驗(yàn)了Mohammad[7]、Raf Guns[8]的合著關(guān)系預(yù)測(cè)模型,用于和本文所構(gòu)建的預(yù)測(cè)模型進(jìn)行比較,如表3所示。
從表3可以看出,3種類型的指標(biāo)集合在合著關(guān)系預(yù)測(cè)上的準(zhǔn)確率幾乎都好于單個(gè)指標(biāo)。另外,在3種類型指標(biāo)集之間,預(yù)測(cè)效果最好的是個(gè)體屬性指標(biāo)(與單個(gè)指標(biāo)預(yù)測(cè)的結(jié)論相同),其次是網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo),最差的為合作計(jì)量指標(biāo)。而融合3種指標(biāo)集的指標(biāo)體系的預(yù)測(cè)效果則明顯好于任意一種指標(biāo)集,表明考慮多種情況的指標(biāo)體系更適用合著關(guān)系預(yù)測(cè)。同時(shí),通過(guò)比較發(fā)現(xiàn),基于本文構(gòu)建的指標(biāo)體系以及隨機(jī)森林算法所形成的合著關(guān)系預(yù)測(cè)模型要好于Mohammad、Raf Guns的合著關(guān)系預(yù)測(cè)模型,進(jìn)一步驗(yàn)證了本文指標(biāo)體系的可靠性和合著模型的有效性。
通過(guò)上述比較本文認(rèn)為基于隨機(jī)森林和指標(biāo)體系所構(gòu)造的合著關(guān)系預(yù)測(cè)模型能有效地預(yù)測(cè)合著網(wǎng)絡(luò)中合著關(guān)系的未來(lái)連邊情況。因此利用該預(yù)測(cè)模型與數(shù)據(jù)集1形成合著關(guān)系預(yù)測(cè)模型M1,與數(shù)據(jù)集2形成合著關(guān)系預(yù)測(cè)模型M2,分別通過(guò)上一階段合著網(wǎng)絡(luò)預(yù)測(cè)下一階段合著情況。以下分別對(duì)兩個(gè)預(yù)測(cè)模型的預(yù)測(cè)效果進(jìn)行分析。
圖3為M1模型對(duì)2001-2005年和2006-2010年兩個(gè)階段潛在連邊的預(yù)測(cè)效果,從圖中可知,在各項(xiàng)評(píng)價(jià)指標(biāo)上M1模型對(duì)2001-2005年潛在連邊的預(yù)測(cè)均好于對(duì)2006-2010年潛在連邊的預(yù)測(cè)。引起上述結(jié)果的主要原因?yàn)?,該模型是基于第一階段的合著關(guān)系數(shù)據(jù)預(yù)測(cè)其潛在連邊哪些會(huì)在第二階段的合著網(wǎng)絡(luò)中產(chǎn)生合著,因而該模型對(duì)2001-2005年合著網(wǎng)絡(luò)的數(shù)據(jù)擬合效果自然要好于對(duì)新的、未擬合過(guò)的2006-2010年的合著關(guān)系數(shù)據(jù),而且在合著網(wǎng)絡(luò)的演化過(guò)程中難免會(huì)新增或丟失一些信息或特征,進(jìn)而影響預(yù)測(cè)效果。但從圖中可以看到M1模型對(duì)2006-2010年合著關(guān)系的預(yù)測(cè)效果好于很多331節(jié)提到的指標(biāo)。究其原因,我們認(rèn)為是模型所使用的指標(biāo)體系中的指標(biāo)確實(shí)在一定程度上刻畫了合著關(guān)系形成的機(jī)理,從而能在下一時(shí)期的合著關(guān)系數(shù)據(jù)集提供關(guān)于合著關(guān)系存在有否的信息。
隨機(jī)森林算法能確定每個(gè)指標(biāo)的gini系數(shù)分布,gini系數(shù)表示節(jié)點(diǎn)的純度,gini系數(shù)越大純度越低,因此gini系數(shù)可度量變量的重要程度。我們基于預(yù)測(cè)模型中的隨機(jī)森林算法,得到了模型中各指標(biāo)重要性的大小及排序,如圖4所示。
另外對(duì)M1模型中2006-2010年合著網(wǎng)絡(luò)關(guān)系預(yù)測(cè)結(jié)果進(jìn)行探討。按模型預(yù)測(cè)概率值的大小降序排序,并選取了排在前10位的作者對(duì),如表4所示。表中第2列類標(biāo)表示作者對(duì)在2011-2015年實(shí)際合著網(wǎng)絡(luò)中是否合著,1代表合著,0代表沒(méi)合著;而第3列預(yù)測(cè)概率表示M1模型預(yù)測(cè)作者對(duì)是否合著的概率值,該值大于05代表合著,小于05表示沒(méi)合著。從表4可見(jiàn)前10位的作者對(duì)預(yù)測(cè)均準(zhǔn)確。而概率值排名前50的作者對(duì)中,模型預(yù)測(cè)準(zhǔn)確率仍為100%,在概率值前100的作者對(duì)中,模型預(yù)測(cè)的準(zhǔn)確率為94%。上述結(jié)果表明M1模型具備較強(qiáng)的可靠性,當(dāng)模型預(yù)測(cè)作者對(duì)產(chǎn)生合著的預(yù)測(cè)概率值高時(shí),意味著作者對(duì)實(shí)際存在的合著關(guān)系的可能性越大。表4按模型預(yù)測(cè)概率排序的前10位預(yù)測(cè)結(jié)果
作者對(duì)類標(biāo)預(yù)測(cè)概率(王英,王政)11(吳鋼,彭敏惠)11(王菲菲,趙蓉英)11(劉佳,王馨)11(趙楊,張李義)11(余以勝,趙蓉英)11(易明,毛進(jìn))11(王靜,郭太敏)11(李春明,薩蕾)11(張志強(qiáng),張智雄)11
綜上分析,我們認(rèn)為基于前一階段合著網(wǎng)絡(luò)和當(dāng)前網(wǎng)絡(luò)產(chǎn)生的合著關(guān)系預(yù)測(cè)模型,可用于預(yù)測(cè)當(dāng)前合著網(wǎng)絡(luò)中潛在連邊在下一階段的連邊情況,如果模型給出的預(yù)測(cè)概率值越高,其預(yù)測(cè)正確的可能性也越大。我們根據(jù)數(shù)據(jù)集2得到合著關(guān)系預(yù)測(cè)模型M2,用于預(yù)測(cè)2011-2015年的潛在連邊中有哪些將在未來(lái)產(chǎn)生合著關(guān)系。通過(guò)對(duì)M2預(yù)測(cè)概率值進(jìn)行排序,類標(biāo)為1、預(yù)測(cè)概率為1的作者對(duì)數(shù)量共1 149對(duì),以下列出部分可靠性較高的預(yù)測(cè)結(jié)果,如表5所示。
圖5是M2模型中各指標(biāo)重要性大小及其排序。對(duì)比圖4可知,模型M1和M2在指標(biāo)重要性方面既有相同之處,又有不同。首先,兩個(gè)模型中最顯著的指標(biāo)都是合作度之積,說(shuō)明該指標(biāo)具有較強(qiáng)的重要性,由于合作度表示作者篇均合著者數(shù),意味著合著網(wǎng)絡(luò)中的作者傾向于和合作度高的作者合著。而合作機(jī)構(gòu)的相似性、中介中心性之差兩個(gè)指標(biāo)分別是對(duì)作者合著對(duì)象來(lái)源范圍和合著網(wǎng)絡(luò)中心結(jié)構(gòu)的刻畫,也分別是模型前后兩組預(yù)測(cè)的第二重要指標(biāo),從整體上來(lái)看它們?cè)诤现P(guān)系預(yù)測(cè)模型中的重要性高于大多數(shù)指標(biāo),意味著合著網(wǎng)絡(luò)中的作者傾向于與自己有相似合作單位的作者或資源占據(jù)多的作者合作。另外,論文數(shù)之積和合作率之差在合著關(guān)系預(yù)測(cè)模型中的重要性非常穩(wěn)定,表示這兩種指標(biāo)能預(yù)測(cè)合著關(guān)系的可靠性強(qiáng)。在模型前后兩組預(yù)測(cè)中,研究興趣匹配度的重要性都很低,表明作者并不把研究興趣的相似度看作選擇合著者的重要的優(yōu)先條件。合著網(wǎng)絡(luò)中的作者更多是與網(wǎng)絡(luò)中心度高或合作度高的作者合著,這一方面能提高作者的科研合著產(chǎn)出或降低時(shí)間等成本;另一方面通過(guò)與他們的合著能借助他們的人脈等資源更好地拓展自身學(xué)術(shù)圈。其他指標(biāo)在重要程度上也存在一定的變化,但它們整體重要性并不高,對(duì)合著關(guān)系預(yù)測(cè)整體的影響力也一般。
5問(wèn)題與討論
前面我們從合著關(guān)系預(yù)測(cè)實(shí)驗(yàn)、預(yù)測(cè)效果分析等角度探討了基于鏈路預(yù)測(cè)方法的合著關(guān)系預(yù)測(cè)的主要問(wèn)題。但是除上述問(wèn)題外,我們對(duì)模型的改進(jìn)需進(jìn)一步探討,以及在合著關(guān)系預(yù)測(cè)上還需要注意實(shí)驗(yàn)數(shù)據(jù)集的選擇、網(wǎng)絡(luò)新增節(jié)點(diǎn)等問(wèn)題。
51基于時(shí)間序列的預(yù)測(cè)
在上述討論中,我們構(gòu)建的預(yù)測(cè)模型是利用前一階段
合著網(wǎng)絡(luò)中合著關(guān)系的數(shù)據(jù)來(lái)預(yù)測(cè)下一階段的合著關(guān)系的未來(lái)連邊情況。但是合著網(wǎng)絡(luò)是一個(gè)動(dòng)態(tài)變化的過(guò)程,缺乏穩(wěn)定性,應(yīng)該對(duì)模型不斷地改進(jìn)。通過(guò)對(duì)模型進(jìn)行修正可以讓預(yù)測(cè)模型最大程度捕捉到合著關(guān)系形成的一般規(guī)律,使模型具有更好的泛化能力。因此我們借鑒時(shí)間序列預(yù)測(cè)的思想對(duì)上述預(yù)測(cè)模型進(jìn)行擴(kuò)展。
如圖6所示,假設(shè)已知過(guò)去5個(gè)階段合著網(wǎng)絡(luò)中合著關(guān)系的連接情況,預(yù)測(cè)第6個(gè)階段合著網(wǎng)絡(luò)中的合著關(guān)系。首先,在相鄰的兩個(gè)階段上,從前一階段數(shù)據(jù)集上得到合著關(guān)系數(shù)據(jù),通過(guò)后一階段的數(shù)據(jù)集獲取合著關(guān)系連接與否的類標(biāo),并生成一個(gè)預(yù)測(cè)模型,基于前4個(gè)已知階段產(chǎn)生3個(gè)預(yù)測(cè)模型。其次,我們可以對(duì)相鄰模型(如模型1和模型2)的預(yù)測(cè)效果和各指標(biāo)的GINI系數(shù)等進(jìn)行比較,通過(guò)調(diào)整指標(biāo)權(quán)重或新增修正因子指標(biāo)等方式得到修正模圖6基于時(shí)間序列的預(yù)測(cè)模型
型(如修正模型2),而對(duì)修正模型可行性或效果的驗(yàn)證則需根據(jù)更后兩階段的數(shù)據(jù)集(如數(shù)據(jù)集3和數(shù)據(jù)集4,這里我們是使用修正模型2預(yù)測(cè)數(shù)據(jù)集3上的潛在連邊,并通過(guò)數(shù)據(jù)集4的合著關(guān)系連接情況進(jìn)行效果驗(yàn)證,以考察修正模型對(duì)新數(shù)據(jù)預(yù)測(cè)的有效性和可行性)。依次類推,直到得到最終的修正模型,并基于該修正模型對(duì)未來(lái)的合著關(guān)系情況進(jìn)行預(yù)測(cè)。
52數(shù)據(jù)集的選擇
在32節(jié)合著關(guān)系預(yù)測(cè)實(shí)驗(yàn)設(shè)計(jì)中,我們提到合著網(wǎng)絡(luò)的潛在連邊中存在較為明顯的正負(fù)樣本失衡現(xiàn)象,即較少的新連邊和較多的缺失連邊,但我們?nèi)藶榈膶?shù)據(jù)集中新連邊和缺失連邊的比重設(shè)為1∶1,本節(jié)通過(guò)增大缺失連邊的比重探究抽取數(shù)據(jù)樣本對(duì)合著關(guān)系預(yù)測(cè)模型的影響。
首先將新連邊和缺失連邊的比例設(shè)為1∶1、1∶10、1∶20、1∶30、1∶40、1∶50共6檔,通過(guò)增大上述實(shí)驗(yàn)數(shù)據(jù)集1、數(shù)據(jù)集2中缺失連邊的數(shù)量,使用隨機(jī)森林方法,對(duì)6檔比重分別進(jìn)行預(yù)測(cè),并觀察其預(yù)測(cè)效果。具體結(jié)果見(jiàn)圖7所示。圖7不同比重?cái)?shù)據(jù)集的預(yù)測(cè)效果比較
由圖7可知,兩個(gè)數(shù)據(jù)集中隨著缺失連邊比重的增加,F(xiàn)1值和AUC值不斷下降,說(shuō)明提高缺失連邊的比重,合著關(guān)系預(yù)測(cè)模型的預(yù)測(cè)呈下降趨勢(shì)。但是隨著缺失連邊比重的不斷增加,準(zhǔn)確率呈上升趨勢(shì),預(yù)測(cè)精度出現(xiàn)上下波動(dòng),而召回比重呈逐步下降趨勢(shì)。準(zhǔn)確率的上升是由于隨著缺失邊的不斷增加,合著關(guān)系預(yù)測(cè)模型預(yù)測(cè)對(duì)的缺失連邊的數(shù)量也隨之增加,從而降低對(duì)新連邊預(yù)測(cè)錯(cuò)誤的比重,但這里準(zhǔn)確率增加的意義不大,因?yàn)檠芯磕康氖穷A(yù)測(cè)哪些邊會(huì)是新邊,而非預(yù)測(cè)缺失邊。由于精度考察的是預(yù)測(cè)模型判定為合著關(guān)系的作者對(duì)中真正存在合著的比例,該值的上下波動(dòng)變化反映出數(shù)據(jù)正負(fù)樣本比例的不平衡,降低了預(yù)測(cè)模型的穩(wěn)定性。召回則考察預(yù)測(cè)模型對(duì)實(shí)際存在合著關(guān)系的作者對(duì)預(yù)測(cè)正確的比例,該值在數(shù)據(jù)負(fù)樣本比例逐步增加的情況下呈現(xiàn)不斷下降的現(xiàn)象,說(shuō)明數(shù)據(jù)正負(fù)樣本的不平衡將導(dǎo)致預(yù)測(cè)模型對(duì)實(shí)際存在合著關(guān)系作者對(duì)的發(fā)現(xiàn)能力變?nèi)酢?/p>
通過(guò)對(duì)圖7的分析可知,用于生成合著關(guān)系預(yù)測(cè)模型的數(shù)據(jù)集中正負(fù)樣本比例的不平衡將降低模型的整體預(yù)測(cè)效果。因此,如何合理的抽取數(shù)據(jù)樣本對(duì)構(gòu)建合著關(guān)系預(yù)測(cè)模型就顯得尤為重要。
53合著網(wǎng)絡(luò)新進(jìn)作者的處理
在合著網(wǎng)絡(luò)演化過(guò)程中存在著一類特殊作者,這類作者在當(dāng)前合著網(wǎng)絡(luò)中不存在,但在下一階段合著網(wǎng)絡(luò)中新加入的作者,統(tǒng)稱為新進(jìn)作者。
由于這類作者不存在于前一階段的合著網(wǎng)絡(luò)中,因此沒(méi)有網(wǎng)絡(luò)結(jié)構(gòu)信息,個(gè)體屬性信息也不甚完備,我們無(wú)法基于指標(biāo)體系獲取該節(jié)點(diǎn)的相關(guān)指標(biāo)度量值,所以我們不能直接使用本文所構(gòu)建的模型對(duì)這類新進(jìn)作者的合著關(guān)系進(jìn)行預(yù)測(cè)。針對(duì)這一問(wèn)題,我們首先對(duì)指標(biāo)體系中涉及到的相關(guān)基礎(chǔ)指標(biāo),根據(jù)需要為其賦值基礎(chǔ)指標(biāo)在數(shù)據(jù)集上的平均數(shù))。然后,計(jì)算出指標(biāo)體系中的指標(biāo)值,從而使用合著關(guān)系預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。
6結(jié)論
本文綜合作者網(wǎng)絡(luò)結(jié)構(gòu)特性、作者屬性特征和合作計(jì)量指標(biāo)構(gòu)建指標(biāo)體系,抽取圖情領(lǐng)域核心作者的合作網(wǎng)絡(luò)數(shù)據(jù)建立數(shù)據(jù)集,通過(guò)實(shí)例驗(yàn)證了預(yù)測(cè)模型的可行性,并基于預(yù)測(cè)模型所得到的指標(biāo)重要性系數(shù)發(fā)現(xiàn),基于作者合作計(jì)量的指標(biāo)對(duì)于預(yù)測(cè)哪些合著網(wǎng)絡(luò)未來(lái)會(huì)產(chǎn)生連邊有較強(qiáng)的重要程度,而論文數(shù)之積、合作過(guò)機(jī)構(gòu)的相似度、是否同一機(jī)構(gòu)3個(gè)個(gè)體屬性指標(biāo)對(duì)預(yù)測(cè)的重要性也較高,研究興趣相似度的重要性則偏低。另外,在網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)中,只有中介中心性之差和PA指標(biāo)的重要性較高,而基于共同鄰居思想而產(chǎn)生的CN指標(biāo)、Jaccard指標(biāo)、AA指標(biāo)的重要性都比較低。
合著關(guān)系受到多種因素的影響,在未來(lái)的研究中,應(yīng)盡可能的收集更多的信息,構(gòu)造更有價(jià)值的指標(biāo),比如在作者屬性上可增添年齡、性別等屬性;在研究興趣的相似性上,可通過(guò)算法對(duì)全文進(jìn)行自動(dòng)摘要,進(jìn)而再通過(guò)對(duì)比文獻(xiàn)摘要實(shí)現(xiàn)更好的研究興趣匹配度測(cè)量;在合著網(wǎng)絡(luò)構(gòu)建時(shí)可選擇更粗的細(xì)粒度篩選作者等。期望本文的研究有助于科研人員更好的理解科研合著網(wǎng)絡(luò)的關(guān)系行為模式,也為相關(guān)作者或論文推薦系統(tǒng)提供借鑒。
參考文獻(xiàn)
[1]張斌,馬費(fèi)成.科學(xué)知識(shí)網(wǎng)絡(luò)中的鏈路預(yù)測(cè)研究述評(píng)[J].中國(guó)圖書館學(xué)報(bào).2015,41(217):99-113.
[2]Lü L,Zhou T.Link Prediction in Complex Networks:A Survey[J].Physica A:Statistical Mechanics and its Applications,2011,390(6):1150-1170.
[3]呂琳媛.復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測(cè)[J].電子科學(xué)大學(xué)學(xué)報(bào),2010,39(5):651-661.
[4]Wang P,Xu B W,Wu Y R,et al.Link Prediction in Social Networks:The State-of-the-art[J].Sciece China Information Sciences,2014,58(1):1-38.
[5]哈林頓,李銳,等.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].北京:人民郵電出版社,2013.
[6]Yan E,Guns R.Predicting and Recommending Collaborations:An Author-institution and Country-level analysis[J].Journal of Infometrics,2014,8(2):295-309.
[7]Al Hasan M,Chaoji V,Salem S,et al.Link Prediction Using Supervised Learning[C]//SDM06:Workshop on Link Analysis,Counter-terrorism and Security,2006.
[8]Guns R,Rousseau R.Recommending Research Collaborations Using Link Prediction and Random Forest Classifiers[J].Scientometrics,2014,101(2):1461-1473.
[9]Pavlov M,Ichise R.Finding Experts by Link Prediction in Co-authorship Networks[C]// International Conference on Finding Experts on the Web with Semantics.CEUR-WS.org,2007:42-55.
[10]Zhang J.Uncovering Mechanisms of Co-authorship Evolution by Multirelations-based Link Prediction[J].Information Processing & Management,2016.
[11]Uddin S,Hossain L,Rasmussen K.Network Effects on Scientific Collaborations[J].PLoS ONE,2013,8(2):1-12.
[12]Liben-Norwell D Kleinberg J.The Link-prediction Problem for Social Networks[J].Journal of the American Society for Information Science and Technology,2007,58(7):1019-1031.
[13]Ndez-Delgado M,Cernadas E,Barro S,et al.Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?[J].Journal of Machine Learning Research,2014,15(1):3133-3181.
(責(zé)任編輯:陳媛)2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期交互記憶系統(tǒng)及其在信息系統(tǒng)研究中的應(yīng)用與展望Nov.,2018Vol38No11
收稿日期:2018-08-11