亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模體特征的科學(xué)家合作預(yù)測(cè)

        2020-10-15 01:51:02曹紅艷許小可
        關(guān)鍵詞:特征方法

        曹紅艷,許小可,許 爽

        (大連民族大學(xué)信息與通信工程學(xué)院 遼寧 大連 116600)

        隨著科學(xué)研究的迅猛發(fā)展和數(shù)據(jù)分析技術(shù)的應(yīng)用,“科學(xué)學(xué)”已經(jīng)成為近年來國內(nèi)外研究的熱點(diǎn)[1-2]。其中,由于科學(xué)家合作網(wǎng)絡(luò)是科研活動(dòng)組織與科學(xué)信息傳播的重要結(jié)構(gòu)基礎(chǔ),因此受到科研學(xué)者的廣泛關(guān)注[3]。在此情況下,科學(xué)家合作網(wǎng)絡(luò)中的合作形成以及合作權(quán)重預(yù)測(cè)就成為很有意義的研究課題,對(duì)應(yīng)網(wǎng)絡(luò)科學(xué)中的科學(xué)問題為鏈路預(yù)測(cè)[4]和權(quán)重預(yù)測(cè)[5]。通過對(duì)科學(xué)家合作網(wǎng)絡(luò)的定量分析,可以辨識(shí)科學(xué)家在合作網(wǎng)絡(luò)中的角色、了解他們之間的合作模式并預(yù)測(cè)他們學(xué)術(shù)合作的可持續(xù)性和合作強(qiáng)度。本文基于多個(gè)實(shí)證科學(xué)家合作網(wǎng)絡(luò)的多模體特征對(duì)科學(xué)家合作進(jìn)行預(yù)測(cè),旨在預(yù)測(cè)網(wǎng)絡(luò)中的科學(xué)家之間未來合作的可能性,及其合作的強(qiáng)度。

        鏈路預(yù)測(cè)是通過網(wǎng)絡(luò)中部分節(jié)點(diǎn)以及它們之間的結(jié)構(gòu)信息,預(yù)測(cè)網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)之間存在連接的可能性[6]。近年來,基于網(wǎng)絡(luò)結(jié)構(gòu)相似性的鏈路預(yù)測(cè)方法引起了學(xué)者們的廣泛關(guān)注。文獻(xiàn)[7]提出了基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的相似性預(yù)測(cè)方法,并發(fā)現(xiàn)在科學(xué)家合作網(wǎng)中使用節(jié)點(diǎn)的共同鄰居(common neighbors, CN)和Adamic-Adar(AA)指標(biāo)進(jìn)行預(yù)測(cè)的準(zhǔn)確性最好[8]。文獻(xiàn)[9]提出了使預(yù)測(cè)準(zhǔn)確性更高的資源分配(resource allocation, RA)指標(biāo)和局部路徑(local path, LP)指標(biāo)。文獻(xiàn)[10]將局部隨機(jī)游走應(yīng)用于鏈路預(yù)測(cè),進(jìn)一步提高了預(yù)測(cè)的準(zhǔn)確性。近年來,人們將機(jī)器學(xué)習(xí)方法應(yīng)用于鏈路預(yù)測(cè)問題,綜合性使用多種特征大大提高了鏈路預(yù)測(cè)的準(zhǔn)確性[11]。以上方法大都僅能應(yīng)用于無權(quán)網(wǎng)絡(luò)的鏈路預(yù)測(cè)中,在加權(quán)網(wǎng)絡(luò)鏈路預(yù)測(cè)中,文獻(xiàn)[12]提出了3 個(gè)基于無權(quán)網(wǎng)絡(luò)的經(jīng)典相似性CN、AA 和RA的加權(quán)形式指標(biāo),分別是WCN、WAA 和WRA。

        權(quán)重預(yù)測(cè)是預(yù)測(cè)兩個(gè)節(jié)點(diǎn)之間連接的權(quán)重。在現(xiàn)實(shí)世界中的許多網(wǎng)絡(luò)都是加權(quán)網(wǎng)絡(luò),在不同的網(wǎng)絡(luò)中權(quán)重通常代表不同的含義。如在航空網(wǎng)絡(luò)中,連邊權(quán)重代表航班數(shù)量;在社交網(wǎng)絡(luò)中,連邊權(quán)重代表朋友間的親密程度;在科學(xué)家合作網(wǎng)中,連邊權(quán)重代表作者與作者之間的合作強(qiáng)度。連邊的權(quán)重預(yù)測(cè)是一個(gè)較新的研究主題,科研人員提出了一些有效的預(yù)測(cè)算法。文獻(xiàn)[13]提出了一種基于局部網(wǎng)絡(luò)結(jié)構(gòu)(分析節(jié)點(diǎn)的鄰居集合結(jié)構(gòu))的權(quán)重預(yù)測(cè)方法,此方法在鏈接存在或不存在的情況下都可以使用,且可以比線性相關(guān)方法更準(zhǔn)確地預(yù)測(cè)權(quán)重。文獻(xiàn)[5]提出了“可靠路線”策略來預(yù)測(cè)網(wǎng)絡(luò)中的連邊和權(quán)重,將未加權(quán)的局部相似性指數(shù)擴(kuò)展到加權(quán)的網(wǎng)絡(luò)中,稱為rWCN、rWAA 和rWRA,使用這些指標(biāo)計(jì)算出相似性得分,取得了較好的預(yù)測(cè)效果。

        目前科學(xué)家合作網(wǎng)絡(luò)中的鏈路預(yù)測(cè)和權(quán)重預(yù)測(cè)算法中,基于拓?fù)浣Y(jié)構(gòu)的相似性指標(biāo)往往僅關(guān)注了科學(xué)合作的傳遞性結(jié)構(gòu)(三角形關(guān)系),將這類指標(biāo)應(yīng)用于科學(xué)家合作的預(yù)測(cè)中,只對(duì)應(yīng)了一種科學(xué)家之間的合作模式,而忽略了科學(xué)家之間存在的其他合作模式及多種合作模式的組合,這些合作模式可以表達(dá)為模體或子圖。模體的概念最早是由文獻(xiàn)[14]提出,定義為實(shí)際網(wǎng)絡(luò)中出現(xiàn)的頻次遠(yuǎn)遠(yuǎn)高于其對(duì)應(yīng)隨機(jī)網(wǎng)絡(luò)的子圖[15]。模體基于微觀結(jié)構(gòu)刻畫了真實(shí)網(wǎng)絡(luò)中局部相互作用的合作模式,并自下而上自組織構(gòu)成網(wǎng)絡(luò)整體結(jié)構(gòu)[3]。

        綜上所述,本文在研究通用三角關(guān)系一種模體結(jié)構(gòu)特征預(yù)測(cè)基礎(chǔ)上,又利用了科學(xué)家合作網(wǎng)中其他7 種合作模式,即8 種模體結(jié)構(gòu)進(jìn)行合作預(yù)測(cè)。研究中通過提取科學(xué)家合作網(wǎng)中的單模體特征和多模體特征統(tǒng)計(jì)量,并采用機(jī)器學(xué)習(xí)算法對(duì)特征進(jìn)行分析計(jì)算,實(shí)現(xiàn)網(wǎng)絡(luò)中科學(xué)家之間合作的可能性及其合作強(qiáng)度的鏈路預(yù)測(cè)和權(quán)重預(yù)測(cè),取得了較好的預(yù)測(cè)性能。

        1 問題描述及評(píng)價(jià)指標(biāo)

        1.1 問題描述

        本文使用的多個(gè)科學(xué)家合作網(wǎng)絡(luò)為加權(quán)無向網(wǎng)絡(luò),形式為G(V,E,W),其中 V、E 和 W分別是網(wǎng)絡(luò)中的節(jié)點(diǎn)集合、連邊集合和權(quán)重集合。網(wǎng)絡(luò)中每條連邊由(x,y)表示,且(x,y)∈E,每條連邊的權(quán)重由wxy表示。由于本文使用的都是無向網(wǎng)絡(luò),所以wxy=wyx。數(shù)據(jù)集被隨機(jī)劃分成訓(xùn)練集 ET和測(cè)試集EV兩部分,其中ET∪EV=E ,ET∩EV=?。

        1.2 評(píng)價(jià)指標(biāo)

        1) 鏈路預(yù)測(cè)評(píng)價(jià)指標(biāo)AUC

        衡量鏈路預(yù)測(cè)算法性能的指標(biāo)有3 種,分別是AUC、精確度(precision)和排序分(ranking score),它們的側(cè)重點(diǎn)各不相同。其中,AUC 可以從整體上衡量算法的精確度而得到最廣泛的使用[6],因此本文采用該指標(biāo)衡量不同算法鏈路預(yù)測(cè)的準(zhǔn)確性。在鏈路預(yù)測(cè)算法中,計(jì)算出所有測(cè)試集兩兩節(jié)點(diǎn)間的相似度得分之后,AUC 指標(biāo)可以描述為如下形式:每次從測(cè)試集中隨機(jī)選取一條存在的邊(x,y),然后隨機(jī)選取一條不存在的邊(x1,y1),比較這兩條邊的相似度得分,如果邊(x,y)的分?jǐn)?shù)大于邊(x1,y1)的分?jǐn)?shù),則加1 分;如果兩條邊的分?jǐn)?shù)相等,則加0.5 分。獨(dú)立比較n 次,如果有 n′次邊(x,y)的分?jǐn)?shù)值大于邊(x1,y1)的分?jǐn)?shù)值,有 n′′次兩條邊的分?jǐn)?shù)值相等,則AUC 值可以定義為:

        通常,上述評(píng)分算法計(jì)算出的AUC 值應(yīng)該至少大于0.5。AUC 的值越高,算法的精確度越高,但AUC 的值最高不會(huì)超過1。

        2) 合作權(quán)重預(yù)測(cè)評(píng)價(jià)指標(biāo)RMSE

        科學(xué)家合作網(wǎng)絡(luò)是被用于研究科學(xué)學(xué)的主要途徑[1],合作權(quán)重是科學(xué)家網(wǎng)絡(luò)中的重要特征之一。本文使用均方根誤差作為合作權(quán)重預(yù)測(cè)評(píng)價(jià)指標(biāo)。它亦被稱為標(biāo)準(zhǔn)誤差,是真實(shí)值與預(yù)測(cè)值之間差值的平方與樣本數(shù)n 比值的平方根,具體定義為:

        2 預(yù)測(cè)方法

        2.1 基于共同鄰居加權(quán)特征的預(yù)測(cè)方法

        1) 加權(quán)CN 指標(biāo)(WCN):

        式中, z 為x 和y的共同鄰居; wxz表示連接節(jié)點(diǎn)x和z之間連邊的權(quán)重值; wyz表示連接節(jié)點(diǎn)y和z的邊的權(quán)重值。如果所有邊權(quán)重都等于1,那么上述指標(biāo)都等價(jià)于無權(quán)的CN 指標(biāo)。

        2) 加權(quán)AA 指標(biāo)(WAA):

        3) 加權(quán)RA 指標(biāo)(WRA):

        WRA 是WCN 的另外一種加權(quán)形式。

        基于共同鄰居加權(quán)特征的科學(xué)家合作預(yù)測(cè)主要提取測(cè)試集數(shù)據(jù)的上述指標(biāo),將指標(biāo)得分視為數(shù)據(jù)集中可能存在連邊的相似度得分,通過相關(guān)的評(píng)價(jià)指標(biāo)衡量預(yù)測(cè)的準(zhǔn)確性。

        2.2 基于可靠路線加權(quán)特征的預(yù)測(cè)方法

        在先前研究中,只有少數(shù)的預(yù)測(cè)算法被擴(kuò)展到了加權(quán)網(wǎng)絡(luò),而且大多數(shù)只考慮了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),很少充分利用連邊的權(quán)重信息。受通信網(wǎng)絡(luò)中可靠路線問題的解決方案的啟發(fā),文獻(xiàn)[5]提出了可靠路線策略方法來預(yù)測(cè)網(wǎng)絡(luò)中的連邊和權(quán)重,將未加權(quán)的局部相似性指數(shù)擴(kuò)展到加權(quán)網(wǎng)絡(luò)中,并使用這些指標(biāo)計(jì)算出相似性得分,取得了較高的準(zhǔn)確性。

        1) 可靠路線加權(quán)CN 指標(biāo)(rWCN):

        2) 可靠路線加權(quán)AA 指標(biāo)(rWAA):

        3) 可靠路線加權(quán)RA 指標(biāo)(rWRA):

        基于可靠路線加權(quán)特征的預(yù)測(cè)方法是從已知的訓(xùn)練集 ET和測(cè)試集 EV得到它們的加權(quán)鄰接矩陣WT和 WV,提取測(cè)試集中的上述指標(biāo)得到連邊相似度分?jǐn)?shù),由 SV表示。然后考慮到線性相關(guān)性,引入一個(gè)自由參數(shù)λ,定義預(yù)測(cè)函數(shù)為F(WT)=λ·SV,通過最小化預(yù)測(cè)函數(shù)與WV之間的差來確定λ:

        式中, ∥·∥為Frobenius 范數(shù)。最后通過相關(guān)的評(píng)價(jià)指標(biāo)來衡量預(yù)測(cè)的準(zhǔn)確性。

        2.3 基于模體特征的預(yù)測(cè)方法

        基于共同鄰居和可靠路線的加權(quán)網(wǎng)絡(luò)鏈路預(yù)測(cè)方法都是基于網(wǎng)絡(luò)的傳遞特性(分析三角形模體)。在基于模體特征的預(yù)測(cè)方法中,共涉及8 個(gè)模體特征,分別為2 個(gè)三節(jié)點(diǎn)模體和6 個(gè)四節(jié)點(diǎn)模體,它們代表了科學(xué)家合作網(wǎng)中的8 種合作模式。所有的模體編號(hào)、圖示和合作模式如表1 所示[3],其中(a,b)為待預(yù)測(cè)連邊。

        表1 模體對(duì)應(yīng)的科學(xué)家合作模式

        基于模體特征的科學(xué)家合作預(yù)測(cè)主要是提取訓(xùn)練集和測(cè)試集的模體特征,將每種模體的數(shù)量作為特征值,科學(xué)家之間是否合作作為機(jī)器學(xué)習(xí)的分類標(biāo)簽、科學(xué)家之間合作的強(qiáng)度作為回歸的預(yù)測(cè)值,得到預(yù)測(cè)結(jié)果后使用相關(guān)評(píng)價(jià)指標(biāo)衡量預(yù)測(cè)的準(zhǔn)確性。圖1 為基于模體特征的科學(xué)家合作預(yù)測(cè)的具體過程。

        圖1 基于模體特征的科學(xué)家合作預(yù)測(cè)

        如圖1 所示,圖1a 為一個(gè)7 節(jié)點(diǎn)的小網(wǎng)絡(luò)圖,邊(x,y)為待預(yù)測(cè)連邊。圖1b 以模體特征3_2、4_4 和4_5 為例說明科學(xué)家合作預(yù)測(cè)的主要過程。如圖1b 所示,分別計(jì)算模體特征3_2、4_4 和4_5在圖1a 中的個(gè)數(shù)。模體特征3_2 的計(jì)算方法為尋找節(jié)點(diǎn)x和 y的共同鄰居數(shù)。模體特征4_4 的計(jì)算方法為尋找節(jié)點(diǎn)x 和y的除去共同鄰居節(jié)點(diǎn)的各自鄰居節(jié)點(diǎn),將節(jié)點(diǎn)x 和y的各自鄰居節(jié)點(diǎn)進(jìn)行組合,其中鄰居節(jié)點(diǎn)之間在網(wǎng)絡(luò)中存在連邊的記為1,最終將所有連邊記為1 的累加求和。其他特征的計(jì)算方法依次類推。通過計(jì)算得出模體特征3_2 的個(gè)數(shù)為2,模體特征4_4 的個(gè)數(shù)為1,模體特征4_5 的個(gè)數(shù)為1。

        在進(jìn)行科學(xué)家合作預(yù)測(cè)時(shí),可以將這些模體中的每一種模體的數(shù)量值單獨(dú)作為機(jī)器學(xué)習(xí)方法的輸入。也可以將圖1b 中的3 種模體在拓?fù)浣Y(jié)構(gòu)上進(jìn)行組合,即S3_2+S4_4+S4_5,形成如圖1c 所示的結(jié)構(gòu),計(jì)算圖1c 中所涉及的3 種模體在圖1a 小網(wǎng)絡(luò)中的數(shù)量,并將得到的模體3_2、4_4 和4_5 的這3 種模體的數(shù)量作為機(jī)器學(xué)習(xí)方法的輸入。還可以將所有8 種模體的數(shù)量都作為特征值作為機(jī)器學(xué)習(xí)方法的輸入,從而得到連邊的相似度得分或連邊權(quán)重。

        3 科學(xué)家合作預(yù)測(cè)

        3.1 數(shù)據(jù)說明

        本文使用了常用的4 個(gè)科學(xué)家合作網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測(cè)與合作權(quán)重預(yù)測(cè)。

        1) netscience 是一個(gè)從事網(wǎng)絡(luò)理論和實(shí)驗(yàn)的科學(xué)家之間的加權(quán)合作網(wǎng)絡(luò),包括1 461 個(gè)節(jié)點(diǎn),2 742條連邊。其中,節(jié)點(diǎn)代表網(wǎng)絡(luò)中的科學(xué)家,連邊代表兩位科學(xué)家有合作關(guān)系。

        2) geom 是一個(gè)計(jì)算幾何領(lǐng)域的科學(xué)家之間的加權(quán)合作網(wǎng)絡(luò),包括6 158 個(gè)節(jié)點(diǎn),11 898 條連邊,權(quán)重代表兩位科學(xué)家合作的次數(shù)[16]。

        3) hepth 是1995 年1 月1 日?1999 年12 月31日期間在高能物理領(lǐng)域上發(fā)布預(yù)印本論文的科學(xué)家之間的加權(quán)網(wǎng)絡(luò),包括7 610 個(gè)節(jié)點(diǎn),15 751 條連邊。

        4) condmat 是1995 年?1999 年在凝聚態(tài)物理領(lǐng)域上發(fā)布預(yù)印本論文的科學(xué)家之間的加權(quán)合作網(wǎng)絡(luò),包括16 264 個(gè)節(jié)點(diǎn),47 594 條連邊。

        數(shù)據(jù)netscience、hepth 和condmat 來自于參考文獻(xiàn)[17],其中連接的權(quán)重代表科學(xué)家合作的強(qiáng)度[18]。其權(quán)重的具體計(jì)算公式為:

        為了比較權(quán)重預(yù)測(cè)問題時(shí)不同網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,所有鏈路權(quán)重均在區(qū)間[0,1]上進(jìn)行歸一化處理。具體的歸一化方法為:

        式中, w 為原始權(quán)重值; w?為歸一化后的權(quán)重值。

        3.2 XGBoost 機(jī)器學(xué)習(xí)方法

        XGBoost 是Extreme Gradient Boosting 的簡(jiǎn)稱,它是Gradient Boosting Machine 的一個(gè)C++實(shí)現(xiàn)。XGBoost 最大的特點(diǎn),它能夠自動(dòng)利用CPU 的多線程進(jìn)行并行,同時(shí)在算法上加以改進(jìn)提高了精度[19]。XGBoost 是一種基于GBDT 原理的改進(jìn)算法,與普通的GBDT 僅使用一階導(dǎo)數(shù)信息不同,XGBoost 對(duì)損失函數(shù)做了二階泰勒展開,并在目標(biāo)函數(shù)中加入了正則項(xiàng),減少過度擬合。除了與GBDT模型的理論差異外,XGBoost 還具有以下優(yōu)勢(shì):速度快、可移植、少寫代碼、可容錯(cuò)。

        本文利用XGBoost 機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)特征統(tǒng)計(jì)量的計(jì)算,實(shí)驗(yàn)中首先讀取訓(xùn)練集和測(cè)試集的數(shù)據(jù),將訓(xùn)練集的數(shù)據(jù)按9∶1 的比例劃分為訓(xùn)練集和驗(yàn)證集,并讀取劃分后的訓(xùn)練集、驗(yàn)證集和測(cè)試集的特征值;然后利用XGBoost 機(jī)器學(xué)習(xí)方法建立基于訓(xùn)練集的模型,最終通過建立的模型實(shí)現(xiàn)測(cè)試集中的鏈路和權(quán)重預(yù)測(cè)。

        3.3 科學(xué)家合作鏈路預(yù)測(cè)

        本文使用上述4 個(gè)科學(xué)家合作網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)驗(yàn)證。對(duì)于每個(gè)網(wǎng)絡(luò),選取90%的數(shù)據(jù)作為訓(xùn)練集ET,選取10%的存在邊作為測(cè)試集 EV中的正樣本,從不存在的邊中去構(gòu)建負(fù)樣本,最終讓測(cè)試集滿足正負(fù)樣本1:1 的比例。然后基于單個(gè)模體特征和多模特特征(所有8 個(gè)模體)進(jìn)行鏈路預(yù)測(cè),得到評(píng)價(jià)指標(biāo)AUC 的值,如表2 所示,單個(gè)模體特征的最好預(yù)測(cè)性能和多模體特征的預(yù)測(cè)效果加粗標(biāo)出。

        表2 基于模體特征的鏈路預(yù)測(cè)結(jié)果(AUC)

        由表2 可以發(fā)現(xiàn),使用單模體特征進(jìn)行鏈路預(yù)測(cè)時(shí),模體特征3_2 的預(yù)測(cè)準(zhǔn)確率最高。說明在科學(xué)家合作網(wǎng)絡(luò)中,如果兩位科學(xué)家同時(shí)與第三位科學(xué)家有合作,那么這兩位科學(xué)家有合作的概率比較大。模體特征3_2 從結(jié)構(gòu)上看可以表示為計(jì)算節(jié)點(diǎn)的共同鄰居數(shù)量,也是聚類系數(shù)的一種表達(dá),與WCN、WAA、WRA 和rWCN、rWAA、rWRA 在拓?fù)浣Y(jié)構(gòu)上一樣,說明上述方法僅僅是一種模體的加權(quán)形式。這類方法最大的缺陷是沒有考慮到其他模體,即科學(xué)家合作的其他方式,本文綜合多個(gè)模體特征進(jìn)行預(yù)測(cè),在表2 中發(fā)現(xiàn)多模體特征的預(yù)測(cè)效果比單模體特征的最好預(yù)測(cè)效果高5.0%~10.8%,說明綜合科學(xué)家之間的多種合作模式進(jìn)行鏈路預(yù)測(cè)效果更好。

        在鏈路預(yù)測(cè)中,還將多模體特征鏈路預(yù)測(cè)的結(jié)果與基于共同鄰居加權(quán)特征的預(yù)測(cè)方法(WCN、WAA 和WRA),和基于可靠路線加權(quán)特征的預(yù)測(cè)方法(rWCN、rWAA 和rWRA)進(jìn)行了比較,其結(jié)果如表3 所示,其中預(yù)測(cè)效果最好的方法加粗標(biāo)出。

        表3 3 類方法的鏈路預(yù)測(cè)結(jié)果(AUC)

        表3 為使用3 類不同方法進(jìn)行鏈路預(yù)測(cè)的AUC結(jié)果對(duì)比,分析表3 中的數(shù)據(jù)可以發(fā)現(xiàn),多模體特征的預(yù)測(cè)準(zhǔn)確率比共同鄰居和可靠路線策略的最高預(yù)測(cè)準(zhǔn)確率提高了4.9%~8.9%。在與傳統(tǒng)方法對(duì)比的基礎(chǔ)上,以netscience 網(wǎng)絡(luò)為例,在8 種模體特征中選取部分特征進(jìn)行組合,然后進(jìn)行鏈路預(yù)測(cè),其結(jié)果如圖2 所示。通過圖2 可以發(fā)現(xiàn)預(yù)測(cè)效果最好的為多模體特征,說明在科學(xué)家合作網(wǎng)絡(luò)中使用多模體特征(即結(jié)合科學(xué)家之間多種合作模式),進(jìn)行鏈路預(yù)測(cè)能夠有效提高預(yù)測(cè)的準(zhǔn)確性。

        在鏈路預(yù)測(cè)問題中,還對(duì)8 種模體特征進(jìn)行了皮爾遜相關(guān)性分析,結(jié)果如圖3 所示。從圖3 可以發(fā)現(xiàn)特征被分為兩個(gè)不同的集合,第一個(gè)集合包括特征3_1、4_3、4_2 和4_1,它們之間有較強(qiáng)的相關(guān)性,是因?yàn)樗鼈冎魂P(guān)注待預(yù)測(cè)連邊中兩個(gè)節(jié)點(diǎn)的各自鄰居節(jié)點(diǎn)之間的結(jié)構(gòu)。第二個(gè)集合包括特征3_2、4_6、4_5 和4_4,它們之間同樣具有比較強(qiáng)的相關(guān)性,是因?yàn)樗鼈兇蠖鄶?shù)關(guān)注待預(yù)測(cè)連邊中節(jié)點(diǎn)的共同鄰居之間的關(guān)系。

        圖2 鏈路預(yù)測(cè)的特征選擇方法性能比較

        圖3 鏈路預(yù)測(cè)模體特征的相關(guān)性分析

        3.4 科學(xué)家合作權(quán)重預(yù)測(cè)

        除了使用上述4 個(gè)網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測(cè)算法比較,本文也使用這些數(shù)據(jù)進(jìn)行合作權(quán)重預(yù)測(cè)。權(quán)重預(yù)測(cè)可以抽象為機(jī)器學(xué)習(xí)中的回歸問題,在本文已知兩位科學(xué)家有合作關(guān)系的前提下進(jìn)行。對(duì)于每個(gè)網(wǎng)絡(luò),將數(shù)據(jù)集隨機(jī)按9:1 的比例分為訓(xùn)練集 ET和測(cè)試集 EV。然后基于單模體特征和多模體特征進(jìn)行權(quán)重預(yù)測(cè),得到評(píng)價(jià)指標(biāo)RMSE 的值,如表4所示。單模體特征的最好預(yù)測(cè)效果和多模體特征的最好預(yù)測(cè)結(jié)果已加粗標(biāo)出。

        通過表4 可以發(fā)現(xiàn),使用單模體特征進(jìn)行合作權(quán)重預(yù)測(cè)時(shí),其預(yù)測(cè)效果最好的單個(gè)模體特征在不同的科學(xué)家合作網(wǎng)絡(luò)中是不一樣的,在netscience和hepth 兩組數(shù)據(jù)中預(yù)測(cè)效果最好的單模體特征為特征3_2,這與在鏈路預(yù)測(cè)中的結(jié)果是相同的。另兩組數(shù)據(jù)geom 和condmat 中預(yù)測(cè)效果最好的單模體特征分別為特征4_5 和特征4_6。通過對(duì)模體特征拓?fù)浣Y(jié)構(gòu)的分析發(fā)現(xiàn),這兩個(gè)特征在拓?fù)浣Y(jié)構(gòu)上可以看作為特征3_2 的組合,所以在權(quán)重預(yù)測(cè)問題中,預(yù)測(cè)效果最好的模體特征可以視為特征3_2 以及該特征的組合。在每個(gè)網(wǎng)絡(luò)中多模體特征的預(yù)測(cè)準(zhǔn)確率比單模體特征的最好預(yù)測(cè)性能高7.1%~25.2%,說明結(jié)合科學(xué)家多種合作模式進(jìn)行權(quán)重預(yù)測(cè)效果更好。

        表4 基于模體特征的合作權(quán)重預(yù)測(cè)結(jié)果(RMSE)

        在合作權(quán)重預(yù)測(cè)中,本文同樣將多模體特征的預(yù)測(cè)結(jié)果與基于共同鄰居加權(quán)特征的預(yù)測(cè)方法(WCN、WAA 和WRA),和基于可靠路線加權(quán)特征的預(yù)測(cè)方法(rWCN,rWAA 和rWRA)進(jìn)行了對(duì)比,結(jié)果如表5 所示,其中最好的預(yù)測(cè)效果已加粗標(biāo)出。

        表5 3 類方法的權(quán)重預(yù)測(cè)結(jié)果(RMSE)

        表5 表示的是使用3 類不同方法進(jìn)行權(quán)重預(yù)測(cè)的RMSE 結(jié)果對(duì)比。分析表5 中的結(jié)果可發(fā)現(xiàn),多模體特征的合作權(quán)重預(yù)測(cè)準(zhǔn)確率比其他兩類預(yù)測(cè)方法的最高準(zhǔn)確率提高了25.8%~59.6%。

        在權(quán)重預(yù)測(cè)中,同樣以netscience 網(wǎng)絡(luò)為例,在8 種模體特征中選取部分特征進(jìn)行組合,然后進(jìn)行權(quán)重預(yù)測(cè),其結(jié)果如圖4 所示。通過圖4 可以發(fā)現(xiàn)預(yù)測(cè)效果最好的同樣為多模體特征,說明使用多模體特征的權(quán)重預(yù)測(cè)方法可大幅提高其預(yù)測(cè)準(zhǔn)確率。

        在權(quán)重預(yù)測(cè)問題中,同樣使用皮爾遜相關(guān)性分析法對(duì)8 種模體特征進(jìn)行了相關(guān)性分析,結(jié)果如圖5 所示。從圖5 可以看出模體特征3_1、4_1、4_3 和4_2 同樣具有強(qiáng)相關(guān)性;此外,模體特征3_2 和4_6 具有強(qiáng)相關(guān)性,主要是因?yàn)槭悄sw特征4_6 是3_2 拓?fù)浣Y(jié)構(gòu)特征的組合,模體特征4_4 和4_5 與其他特征之間都是相互獨(dú)立的,幾乎沒有相關(guān)性。

        圖4 權(quán)重預(yù)測(cè)的特征選擇方法性能比較

        圖5 權(quán)重預(yù)測(cè)模體特征的相關(guān)性分析

        3.5 鏈路預(yù)測(cè)與權(quán)重預(yù)測(cè)結(jié)果對(duì)比分析

        分析表3 和表5 的數(shù)據(jù)發(fā)現(xiàn),在合作鏈路預(yù)測(cè)和權(quán)重預(yù)測(cè)中,多模體特征預(yù)測(cè)方法的準(zhǔn)確率比其他預(yù)測(cè)方法的準(zhǔn)確率要高,說明結(jié)合多種科學(xué)家之間的合作模式進(jìn)行鏈路和權(quán)重預(yù)測(cè)可有效提高預(yù)測(cè)的準(zhǔn)確率。對(duì)比鏈路預(yù)測(cè)和權(quán)重預(yù)測(cè)兩項(xiàng)預(yù)測(cè)的單模體特征預(yù)測(cè)結(jié)果(表2 和表4),可以發(fā)現(xiàn)在鏈路預(yù)測(cè)中,預(yù)測(cè)效果最好的單模體特征是模體特征3_2。在權(quán)重預(yù)測(cè)中,預(yù)測(cè)效果最好的單模體特征分別為特征3_2、4_5 和4_6,其中模體特征4_5和4_6 在拓?fù)浣Y(jié)構(gòu)上可以看作多個(gè)模體特征3_2 的組合,所以綜合以上結(jié)果,在使用單模體特征進(jìn)行鏈路預(yù)測(cè)和權(quán)重預(yù)測(cè)時(shí),預(yù)測(cè)效果最好為模體特征3_2。從結(jié)構(gòu)上看,模體特征3_2 可以表示為計(jì)算節(jié)點(diǎn)的共同鄰居數(shù)量,也是聚類系數(shù)的一種表達(dá)?;诠餐従蛹訖?quán)特征的預(yù)測(cè)方法和基于可靠路線加權(quán)特征的預(yù)測(cè)方法也是基于模體特征3_2,說明所依賴的拓?fù)浣Y(jié)構(gòu)這兩種方法是一致的。基于多模體的預(yù)測(cè)相對(duì)于上述兩種方法,最大的優(yōu)勢(shì)是綜合利用了多個(gè)模體特征。

        4 結(jié) 束 語

        本文提出了使用多模體特征進(jìn)行科學(xué)家合作鏈路和權(quán)重預(yù)測(cè)的方法,涉及了8 種不同的科學(xué)家之間的合作模式,用來解決經(jīng)典預(yù)測(cè)方法在拓?fù)浣Y(jié)構(gòu)上僅僅利用的單一的科學(xué)家合作模式的問題,并在不同的網(wǎng)絡(luò)上進(jìn)行相關(guān)實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,結(jié)合多個(gè)模體特征進(jìn)行科學(xué)家合作預(yù)測(cè)可以有效提高預(yù)測(cè)的準(zhǔn)確率,并可有效分析不同合作模式對(duì)于預(yù)測(cè)結(jié)果的影響。本文研究有助于預(yù)測(cè)出科學(xué)家合作的可能性及其合作權(quán)重,進(jìn)而挖掘科研合作網(wǎng)絡(luò)的結(jié)構(gòu)特性對(duì)科研產(chǎn)出和科研影響力的影響。在后續(xù)研究中,將在模體特征的基礎(chǔ)上引入權(quán)重信息,即利用模體的結(jié)構(gòu)特征和權(quán)重信息進(jìn)行更準(zhǔn)確的預(yù)測(cè)。

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        學(xué)習(xí)方法
        抓住特征巧觀察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        91国内偷拍一区二区三区| 国产综合无码一区二区色蜜蜜| 真人二十三式性视频(动) | 久久国产精品免费一区二区| 国产一区二区在线观看av| 中文字幕人妻少妇伦伦| 色先锋av影音先锋在线| 免费无码国产v片在线观看| 亚洲中文字幕乱码免费| 亚洲一区二区三区最新视频| 色婷婷色丁香久久婷婷| 亚洲精品天堂成人片av在线播放| 亚洲另类激情综合偷自拍图| 亚洲av福利天堂在线观看| 无人视频在线播放免费| 大学生高潮无套内谢视频| 国产成人综合久久精品免费| 国产91在线|亚洲| 国产成人精品一区二区三区av| 国产欧美精品一区二区三区四区| 日本高清色倩视频在线观看| 国产精品视频免费的| 蜜桃视频一区二区三区| 真人做爰试看120秒| 女性女同性aⅴ免费观女性恋| 国产小屁孩cao大人免费视频| 自拍情爱视频在线观看| 精品人妻一区二区三区四区在线| 夜夜欢性恔免费视频| 欧美xxxx新一区二区三区| 国产风骚主播视频一区二区| 久久久久亚洲精品无码系列| 人妻忍着娇喘被中进中出视频| av天堂精品久久久久| 亚洲女同性恋激情网站| 国语自产精品视频在线看| 少妇脱了内裤让我添| 免费国产调教视频在线观看 | 最新国产精品精品视频| 日韩亚洲一区二区三区四区| 成人免费看片又大又黄|