亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進K-Shell的社會網(wǎng)絡關鍵節(jié)點挖掘算法

        2023-08-10 07:03:00李蜜佳衛(wèi)紅權(quán)李英樂劉樹新
        計算機應用與軟件 2023年7期
        關鍵詞:復雜度準確率中心

        李蜜佳 衛(wèi)紅權(quán) 李英樂 劉樹新

        (中國人民解放軍戰(zhàn)略支援部隊信息工程大學 河南 鄭州 450001)

        0 引 言

        對復雜網(wǎng)絡進行深度挖掘和分析在理論和現(xiàn)實中具有重要意義[1]。社會網(wǎng)絡是復雜網(wǎng)絡的一個領域,包括人際關系網(wǎng)、Twitter網(wǎng)和論文合著網(wǎng)等。社會網(wǎng)絡中的各個節(jié)點,由于在網(wǎng)絡中的結(jié)構(gòu)地位以及活躍度的不同,所起的作用也不同,其中有一部分節(jié)點對網(wǎng)絡局部或者全局影響較大,這類節(jié)點就叫做關鍵節(jié)點。通過挖掘社會網(wǎng)絡中的關鍵節(jié)點,可以滿足我們的很多實際需求。比如在產(chǎn)品推銷網(wǎng)絡中,商家可以消耗最少的資源實現(xiàn)產(chǎn)品最高效的推廣;在輿論傳播網(wǎng)絡中,政府可以使用最少的干預手段去宣傳輿論或者禁止謠言;在犯罪嫌疑人關系網(wǎng)絡中,警察可以快速鎖定團伙頭目,進而集中警力抓捕。

        目前,在關鍵節(jié)點挖掘方面,研究人員已經(jīng)從不同的角度探索了很多算法。在基于鄰居節(jié)點中心性的方法中,度中心性的方法用節(jié)點的鄰居節(jié)點數(shù)量來衡量節(jié)點重要性,計算復雜度低,但是僅考慮了節(jié)點局部重要性,沒有考慮節(jié)點的網(wǎng)絡位置及其他全局信息,準確性不高。Chen等[2]提出了一種半局部中心性方法,該方法只統(tǒng)計節(jié)點的四層鄰居的信息,比局部中心性的方法更準確且計算復雜度低,適合于大規(guī)模網(wǎng)絡,但是由于該方法沒有考慮鄰居節(jié)點所處的不同層次,影響了關鍵節(jié)點挖掘的準確性。之后,Chen等[3]綜合考慮了度中心性與聚集系數(shù),又提出ClusterRank中心性,該方法適用于大規(guī)模網(wǎng)絡,但把網(wǎng)絡視為無向的,與多數(shù)現(xiàn)實情況不符。趙曉暉[4]綜合考慮節(jié)點的半局部中心性和聚類系數(shù),提出了一種歸一化的局部中心性節(jié)點影響力度量算法。Kitsak等[5]認為節(jié)點距離網(wǎng)絡核心越近,所產(chǎn)生的影響力也就越大,由此提出K-Shell分解法,該方法計算復雜度低,在分析大規(guī)模網(wǎng)絡方面應用較多,但是僅對節(jié)點進行粗粒度劃分,準確性不高。對此,嚴沛[6]在K-Shell的基礎上,使用雙向搜索樹方法提高算法準確性。

        在基于路徑中心性的方法中,Hage等[7]認為節(jié)點的影響力與節(jié)點到其他節(jié)點的距離有關,提出離心中心性,該算法很容易受到特殊值的影響。Freeman[8]提出接近中心性(Closeness Centrality),節(jié)點的緊密度越大,越靠近網(wǎng)絡中心,也就越重要。Freeman[9]提出介數(shù)中心性(Betweenness Centrality),將節(jié)點的重要性由通過該節(jié)點的最短路徑數(shù)目來表示,這兩種算法準確度高但計算復雜度也高。與介數(shù)中心性僅考慮最短路徑不同,Katz中心性[10]考慮節(jié)點對之間的所有路徑,并根據(jù)路徑長度對路徑加權(quán),這種算法的時間復雜度也比較高。

        在基于特征向量的方法中,Bonacich[10]提出特征向量中心性(Eigenvector Centrality),認為一個節(jié)點的重要性要綜合考慮其鄰居節(jié)點的數(shù)量和質(zhì)量。Poulin等[11]假設每個節(jié)點都在社會網(wǎng)絡中被提名,節(jié)點的重要性與節(jié)點本身及其鄰居節(jié)點被提名次數(shù)有關,由此提出一種累計提名中心性(Cumulative Nomination Centrality),該算法比特征向量中心性收斂要快。Google引擎使用的PageRank算法[12]是特征向量中心性的變體,該算法綜合考慮指向該節(jié)點的鄰居節(jié)點數(shù)目和鄰居節(jié)點自身的重要性。Lü等[13]提出LeaderRank方法,引入背景節(jié)點使原網(wǎng)絡變?yōu)閺娺B通網(wǎng)絡,從而替代了PageRank算法中的跳轉(zhuǎn)概率c,性能較PageRank有較大提升。

        基于路徑和特征向量中心性的關鍵節(jié)點挖掘算法雖然準確度高,但是普遍時間復雜度高,無法在大規(guī)模網(wǎng)絡上進行應用;度中心性、K-Shell分解法等時間復雜度低的算法雖然適用于大型網(wǎng)絡,但是其準確度又不理想,其劃分結(jié)果難以滿足精細化節(jié)點重要性劃分的實際需求。

        基于此,本文對K-Shell分解法進行改進,在分解過程中綜合考慮節(jié)點的度數(shù)與節(jié)點被刪除時所處的迭代層次,以解決K-Shell劃分結(jié)果粗?;膯栴}。隨后采用一種用微觀結(jié)構(gòu)去替代原有完整網(wǎng)絡的算法,根據(jù)改進的K-Shell節(jié)點排名提取核心網(wǎng)絡,并結(jié)合PageRank值對核心網(wǎng)絡中所有節(jié)點做定量分析,找出影響較大的節(jié)點,最終形成分層次的重要節(jié)點劃分。在三個實際網(wǎng)絡中進行實驗驗證,結(jié)果表明本文方法具有較低的時間復雜度,計算結(jié)果也更準確。

        1 算法設計

        圖G的鄰接矩陣A=(aij)N×N,A=(aij)N×N是一個N階方陣,其中:

        式中:aij為節(jié)點i與j連接。

        1.1 K-Shell分解法

        Kitsak等[5]指出在度量節(jié)點重要性時,需要考慮節(jié)點在整個網(wǎng)絡中的位置,他們認為處在網(wǎng)絡核心位置的節(jié)點會產(chǎn)生較大的影響力,并提出了K-Shell分解法。

        例如,圖1是一個由15個節(jié)點和19條邊組成的無權(quán)無向網(wǎng)絡圖。

        圖1 無向網(wǎng)絡

        針對圖1所示的無向網(wǎng)絡,具體分解過程如下:刪除網(wǎng)絡中所有度為1的節(jié)點及連邊,記迭代層數(shù)為1。觀察剩余網(wǎng)絡中是否仍有度為1的節(jié)點,如果有,刪除節(jié)點及連邊,迭代層數(shù)記作2。循環(huán)去除,直至網(wǎng)絡中沒有度為1的節(jié)點,此時將所有被刪除節(jié)點K-Shell值記作1。依次迭代,刪除網(wǎng)絡中度為2、3、4、5、…的節(jié)點,直至所有節(jié)點都被刪除。圖2為按照K-Shell分解法對網(wǎng)絡中所有節(jié)點的劃分結(jié)果。

        圖2 K-Shell分解

        圖3 SIR模型狀態(tài)轉(zhuǎn)移

        對圖1網(wǎng)絡記錄K-Shell分解全過程如表1所示。

        表1 K-Shell分解過程

        1.2 改進的K-Shell分解法

        K-Shell方法計算復雜度低,在分析大規(guī)模網(wǎng)絡方面應用較多,但也存在不足。第一,K-Shell分解法不區(qū)分入度與出度,而社交網(wǎng)絡基本都屬于有向網(wǎng)絡[14],節(jié)點受關注的程度由節(jié)點的入度表示,節(jié)點的合群程度由出度表示,忽略入度與出度的不同,會使一些節(jié)點以較小的代價通過建立與核心位置節(jié)點的單向連邊來提高自身核數(shù),從而導致挖掘結(jié)果出現(xiàn)較大偏差。第二,K-Shell分解法屬于粗粒度劃分,把屬于同一層的節(jié)點都看作同等地位,忽略了節(jié)點度和節(jié)點被刪除時所處迭代層數(shù)的影響,導致大量節(jié)點被劃分到同一層。如在圖2的網(wǎng)絡中,節(jié)點1和節(jié)點4被K-Shell分解法劃分到同一層,K-Shell值相同,但顯然節(jié)點4比節(jié)點1重要。

        對此,本文對算法作如下改進:

        (1) 針對社交網(wǎng)絡多為有向網(wǎng)絡的特點,將傳統(tǒng)的K-Shell在分解過程中不區(qū)分節(jié)點入度出度的做法,改為僅考慮入度對節(jié)點進行剝離。

        詳細分解步驟為:

        偽代碼如下:

        輸入:nodes list V,Links list B。

        Ks=1;

        n=1;

        while(|V|≠0)

        add removal node i into set Vk-core(n);

        add removal node i into set Vk-core(Ks);

        end while

        delete node i and related links;

        update V and E;

        n++;

        end while

        core++;

        end while

        1.3 inKD-Pr算法

        PageRank算法[12]是谷歌搜索引擎的核心算法。它認為一個節(jié)點的重要性取決于指向它的節(jié)點的數(shù)目和質(zhì)量。該算法作為有向網(wǎng)絡節(jié)點排序最經(jīng)典的算法,被廣泛應用于對網(wǎng)頁的排序、對社交網(wǎng)絡上用戶的排序等。作為全局性算法,PageRank計算結(jié)果較準確,但時間復雜度高于K-Shell分解法。由于兩種算法相關性不大,本文綜合了兩種算法的優(yōu)勢,構(gòu)建關鍵節(jié)點挖掘模型的步驟如下:

        (1) 根據(jù)社會網(wǎng)絡相關數(shù)據(jù),構(gòu)建鄰接矩陣。

        (2) 用改進的K-Shell分解法對網(wǎng)絡所有節(jié)點快速打分。

        (3) 按照得分高低,依次刪除外圍大約80%的不重要的節(jié)點及其連邊,減小網(wǎng)絡規(guī)模。

        (4) 對步驟(3)中提取的核心網(wǎng)絡,運用PageRank算法計算出每個節(jié)點的p值,并進行歸一化和無量綱化處理。

        本文算法框架被稱作inKD-Pr算法。

        2 評估標準及數(shù)據(jù)集介紹

        2.1 評估標準

        本文采用SIR(Susceptible-Infective-Removal)模型[15],將節(jié)點的最大傳播力作為節(jié)點重要性評價標準。SIR模型是Kermack等提出的傳染病模型中最經(jīng)典的模型,現(xiàn)在普遍應用于疾病傳播、謠言傳播等領域。

        SIR模型將網(wǎng)絡節(jié)點分為三類:易感狀態(tài)S,指個體可能會被處于感染狀態(tài)的鄰居節(jié)點感染;感染狀態(tài)I,指節(jié)點已被感染且具備感染力;免疫狀態(tài)R,指節(jié)點失去感染其他節(jié)點的能力。剛開始傳播時,處在感染狀態(tài)I的節(jié)點,以β的概率感染處在S狀態(tài)的鄰居節(jié)點,隨后,處在I狀態(tài)的節(jié)點以概率γ轉(zhuǎn)變成為R狀態(tài),不再參與傳染。重復上述步驟直至網(wǎng)絡到達穩(wěn)態(tài)。模型可用微分方程表示如下:

        在SIR模型中,全部節(jié)點的數(shù)量N=S(t)+I(t)+R(t),其中S(t)、I(t)、R(t)分別為在t時刻網(wǎng)絡中三種狀態(tài)節(jié)點的數(shù)量。

        不同挖掘算法的優(yōu)劣可通過各算法挖掘的重要節(jié)點在SIR模型上的傳播范圍來衡量。設置一個(組)重要節(jié)點為S狀態(tài)在SIR模型上進行傳播,觀察最終穩(wěn)態(tài)時處于R狀態(tài)的節(jié)點數(shù)量。如果一種算法的挖掘結(jié)果可使網(wǎng)絡流傳播地又快又廣,即可說明該算法挖掘效果優(yōu)于其他算法。

        2.2 數(shù)據(jù)集

        科布倫茨數(shù)據(jù)資料庫是公布在網(wǎng)上,供從事大規(guī)模數(shù)據(jù)處理的人員用來進行網(wǎng)絡科學及相關領域研究的工具。本文選取了該資料庫三個有向無權(quán)的網(wǎng)絡數(shù)據(jù)集作為實驗網(wǎng)絡,數(shù)據(jù)集信息如表2所示。

        表2 數(shù)據(jù)集的基本特性

        (1) Physicians社交網(wǎng)絡數(shù)據(jù)集:節(jié)點代表醫(yī)生,邊表示一位醫(yī)生遇到問題會向另一位醫(yī)生求助。

        (2) Blogs超鏈接數(shù)據(jù)集:節(jié)點代表用戶,邊表示一個用戶鏈接了另一個用戶。

        (3) Ciation數(shù)據(jù)集:節(jié)點表示一個機場,邊表示從一個機場到另一個機場的航班。

        這三個數(shù)據(jù)集的基本情況如表2所示,稀疏性表示網(wǎng)絡中任意兩個節(jié)點間存在連邊的概率,即網(wǎng)絡中存在的連邊數(shù)量占網(wǎng)絡中所有可能連邊數(shù)的比例。在有向無環(huán)網(wǎng)絡中,網(wǎng)絡的稀疏性=m/[n(n-1)],其中:m為網(wǎng)絡中邊的數(shù)目;n為網(wǎng)絡中節(jié)點數(shù)。

        3 仿真驗證

        3.1 實驗設計

        為了驗證本文方法的有效性,選取3種排序方法對比分析,分別是度中心性、PageRank算法、LeaderRank算法。

        本文采用單一節(jié)點傳播的方式,分別對排名前k(為了分析方便,設置k=10)的節(jié)點進行SIR模型檢測,每個節(jié)點都作為單一感染源進行傳播,運行300次取均值,每種算法的有效性由該算法挖掘出的排名前10的節(jié)點傳播能力總和來表示。這里將免疫率γ取為0.5。對于感染概率β,如該值太小,很難在一個較小的網(wǎng)絡區(qū)域中區(qū)分開不同算法[16]。當β非常高,不管是從哪個節(jié)點開始傳播,最后傳播范圍都將覆蓋幾乎整個網(wǎng)絡,導致無法區(qū)分節(jié)點的作用。對此,本文使用一個溫和的感染概率β=0.3。

        3.2 實驗結(jié)果

        如圖4所示,將免疫狀態(tài)的節(jié)點的累計數(shù)量繪制成時間的函數(shù),累計免疫節(jié)點隨時間增加,最終達到穩(wěn)定狀態(tài)。在網(wǎng)絡規(guī)模較小時(如Physicians數(shù)據(jù)集),度中心性的表現(xiàn)要優(yōu)于inKD-Pr算法和PageRank算法,但是度中心性算法的準確率與網(wǎng)絡規(guī)模有關,當網(wǎng)絡中節(jié)點數(shù)增多時,準確率呈現(xiàn)顯著下降趨勢。這種現(xiàn)象與度中心性本身的算法有關,度中心性僅以節(jié)點的局部信息作為衡量標準,而沒有考慮節(jié)點所處位置、更高階鄰居等因素,這就導致一些邊緣節(jié)點可以通過與大量普通節(jié)點建立連邊來提高度值,而這樣的算法,在inKD-Pr算法中完全占不到優(yōu)勢,inKD-Pr算法以節(jié)點入度為參考值去提取核心網(wǎng)絡,既刪除了大量非核心節(jié)點,同時也確保了一些節(jié)點無法通過僅僅依靠增加出度而進入到核心網(wǎng)絡中。Blogs網(wǎng)絡上,度中心性算法和PageRank算法、inKD-Pr算法曲線近乎一致,即由這三種算法挖掘的前10名重要節(jié)點在網(wǎng)絡中的傳播能力基本相同。

        (a) Physicians網(wǎng)絡

        LeaderRank算法和PageRank算法在準確度方面的穩(wěn)定性較佳但算法復雜度高。LeaderRank算法的準確率始終優(yōu)于PageRank算法,這是因為需要大量實驗才能獲取PageRank算法中的阻尼系數(shù)s,且會改變原來的矩陣結(jié)構(gòu)。而LeaderRank[17]在PageRank的基礎上,加入一個與其他節(jié)點都有雙向連邊的節(jié)點,實現(xiàn)網(wǎng)絡的強連通,以此得到一個無參數(shù)的算法。實驗證明,這種算法比PageRank算法更準確。

        inKD-Pr算法在網(wǎng)絡規(guī)模小的時候準確率比較低,這是因為K-Shell算法對網(wǎng)絡中的節(jié)點只能做粗粒度的劃分。節(jié)點的K-Shell值越大,節(jié)點就越重要[5]。但具體到兩個節(jié)點,只有K-Shell值相差很大,比如在10倍以上時,節(jié)點影響力才有顯著差距。而在小規(guī)模網(wǎng)絡中,節(jié)點的K-Shell值相差都不大,這就導致部分重要節(jié)點在用K-Shell分解法提取核心網(wǎng)絡時被刪除。在本文的實驗中可以看到,隨著網(wǎng)絡規(guī)模變大,這種算法的準確度也越高。在Ciation網(wǎng)絡中,inKD-Pr算法的準確率甚至優(yōu)于LeaderRank算法,這是因為K-Shell分解法可以有效剔除一些大度節(jié)點的干擾。

        3.3 準確率分析

        本文將各算法挖掘出的Top-10節(jié)點與SIR模型挖掘出的Top-10節(jié)點進行對比,比值為各算法挖掘Top-10節(jié)點的準確率。表3的結(jié)果表明,網(wǎng)絡規(guī)模越大,度中心性挖掘算法的準確性越低。相比,在不同規(guī)模的網(wǎng)絡中,PageRank算法和LeaderRank算法具有更好的穩(wěn)定性。本文提出的inKD-Pr算法隨著網(wǎng)絡規(guī)模增大,準確率也越高。但由于SIR模型每一次傳播到達穩(wěn)態(tài)需要的時間比較長,本文最大只選取節(jié)點數(shù)為12 000多的社交網(wǎng)絡進行計算。從實驗結(jié)果可以預見,網(wǎng)絡規(guī)模越大,inKD-Pr算法挖掘重要節(jié)點的效果會更好。

        表3 各算法挖掘出的Top-10節(jié)點準確率與SIR模型對比

        3.4 時間復雜度分析

        本文提出的inKD-Pr算法是在K-Shell分解法的基礎上進行改進的,可近似看作O(n),與K-Shell分解法相同。PageRank的計算復雜度為O(mI),度中心性的時間復雜度為O(n),介數(shù)中心性的時間復雜度為O(mn),其中:n和m分別為網(wǎng)絡中的節(jié)點和邊的數(shù)量;I為迭代次數(shù)。從表4可以看出,本文所提出的inKD-Pr算法計算復雜度相對較低。

        表4 部分重要節(jié)點挖掘算法時間復雜度

        4 結(jié) 語

        猜你喜歡
        復雜度準確率中心
        剪掉和中心無關的
        在打造“兩個中心”中彰顯統(tǒng)戰(zhàn)擔當作為
        華人時刊(2021年15期)2021-11-27 09:16:42
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
        一種低復雜度的慣性/GNSS矢量深組合方法
        高速公路車牌識別標識站準確率驗證法
        別讓托養(yǎng)中心成“死亡中心”
        求圖上廣探樹的時間復雜度
        某雷達導51 頭中心控制軟件圈復雜度分析與改進
        亚洲综合中文日韩字幕| 日韩高清毛片| 一区二区三区国产高潮| 在线观看的a站免费完整版| 久久人人爽av亚洲精品| 亚洲高潮喷水无码av电影| 亚洲日韩区在线电影| 免费观看在线视频播放| 成人国产一区二区三区| 日韩精品中文字幕无码一区| 美女视频很黄很a免费国产| 亚洲国产成人va在线观看天堂| 国产a级三级三级三级| 日韩好片一区二区在线看| 红杏性无码免费专区| 中文字幕中文字幕777| 亚洲日韩国产欧美一区二区三区| 国产一在线精品一区在线观看| 欧美亚洲日韩国产人成在线播放| 丝袜美腿人妻第一版主| 色播亚洲视频在线观看| 人妻少妇偷人精品无码| av网站在线观看二区| 亚洲乱码一区二区三区在线观看 | 日韩一区二区三区人妻免费观看| 国产色xx群视频射精| 国产在线手机视频| av二区三区在线观看| 久久不见久久见www日本网| 日本大片在线看黄a∨免费| 久久久99久久久国产自输拍| 99精品国产综合久久麻豆| 天堂新版在线资源| 亚洲AV一二三四区四色婷婷| 少妇高潮免费在线观看| 亚洲中文字幕久久精品蜜桃| 少妇人妻在线视频| 亚洲视频不卡免费在线| 国产精品女老熟女一区二区久久夜 | 精品人妻va出轨中文字幕| 亚洲熟妇大图综合色区|