邱呂琳,張志堅,蔡光程,鐘 慧
(昆明理工大學(xué) 理學(xué)院,云南 昆明 650500)
隨著當今社會經(jīng)濟與科技的飛速發(fā)展,互聯(lián)網(wǎng)已成為一個重要的新媒體,在人們的學(xué)習(xí)、工作、生活等各個方面扮演著不可或缺的角色。社交網(wǎng)絡(luò)以人際關(guān)系網(wǎng)為基礎(chǔ),近年來發(fā)展迅速,正逐漸融入人們的日常生活并發(fā)揮重要影響,極大豐富了人們的各種需求。與此同時,在線社交網(wǎng)絡(luò)使得人們不再受到時間、空間限制,可快捷接收外界信息,并實時參與熱點話題討論,發(fā)表自己的觀點。在線社交網(wǎng)絡(luò)在傳播方面已顯示出強大的影響力,例如,“澳洲森林山火”“全球新冠病毒”等新聞事件在微博不斷實時發(fā)布消息等。在線社交網(wǎng)絡(luò)信息傳播對于生活和社會發(fā)展有著深遠影響,因此受到了研究者們的廣泛關(guān)注。
近年來在線社交網(wǎng)絡(luò)信息傳播研究取得了許多進展,使人們能夠從信息傳播角度進一步理解社交網(wǎng)絡(luò)的屬性和規(guī)則。本文旨在分析在線社交網(wǎng)絡(luò)的信息傳播現(xiàn)象,了解信息傳播規(guī)律,并根據(jù)相關(guān)規(guī)律進行引導(dǎo),從而更好地進行信息傳播,同時最大限度減少虛假消息和不良消息的傳播。要想獲取信息傳播規(guī)律,需要分析社交網(wǎng)絡(luò)圖。然而,目前在分析社交網(wǎng)絡(luò)圖時,采用最短路徑、介數(shù)中心性、聚類系數(shù)和度分布等度量指標研究與認識在線社交網(wǎng)絡(luò)結(jié)構(gòu)。雖然這些指標足以提供網(wǎng)絡(luò)圖在特定方面的信息,但無法提供在線社交網(wǎng)絡(luò)的全面特征。在線社交網(wǎng)絡(luò)存在太多不確定信息,如網(wǎng)絡(luò)節(jié)點分布很難確定,且在線社交網(wǎng)絡(luò)的節(jié)點數(shù)量特別龐大,會隨著時間不斷變化,屬于動態(tài)網(wǎng)絡(luò),所以對在線社交網(wǎng)絡(luò)進行全面可視化是一個很有意義的問題。因此,本文從拓撲角度分析在線社交網(wǎng)絡(luò)的拓撲結(jié)構(gòu),對在線社交網(wǎng)絡(luò)進行全面分析。拓撲學(xué)中的持續(xù)同調(diào)為社交網(wǎng)絡(luò)圖中存儲信息的全面可視化表示提供了一種新方法。
大量研究致力于理解在線社交網(wǎng)絡(luò)的相關(guān)熱點問題,主要研究方法已從早期社會學(xué)研究領(lǐng)域的實證研究轉(zhuǎn)向基于小數(shù)據(jù)集的理論研究與驗證。本文主要利用持續(xù)同調(diào)方法和代數(shù)拓撲的一些知識提取在線社交網(wǎng)絡(luò)的拓撲特征,并基于這些特征分析在線社交網(wǎng)絡(luò)傳播。
在線社交網(wǎng)絡(luò)分析可總結(jié)為3個方面:在線社交網(wǎng)絡(luò)結(jié)構(gòu)特征和演化機制,在線社交網(wǎng)絡(luò)群體行為形成和互動規(guī)律,在線社交網(wǎng)絡(luò)信息傳播規(guī)律和演化機制。在早期社會學(xué)與圖論的研究基礎(chǔ)上,Kempe 等提出的線性閾值模型LTM(Linear Threshold Model)和獨立級聯(lián)模型ICM(Independent Cascade Model)以及借鑒醫(yī)學(xué)研究的傳染病模型SIR(Susceptible Infected Recovered Model)成為描述影響力傳播的主要基礎(chǔ)模型,這些模型描述了社交網(wǎng)絡(luò)中影響力傳播的隨機性與累積性。后來許多研究者根據(jù)具體傳播問題的特點擴展了基本模型,以反映傳播模型的具體傳播特性。目前,Aggarwal已從數(shù)據(jù)挖掘的角度對社區(qū)發(fā)現(xiàn)、影響力計算、溝通可視化等方面進行了總結(jié);Kwak 等基于Twitter 的數(shù)據(jù),對用戶之間的關(guān)系、用戶影響以及Twitter 上話題的傳播進行了實證分析;Fang 等介紹了在線社交網(wǎng)絡(luò)相關(guān)研究,并從網(wǎng)絡(luò)結(jié)構(gòu)特征與演化機制、群體行為形成與互動規(guī)律、信息傳播規(guī)律與演化機制3個維度提出進一步的研究方向。在在線社交網(wǎng)絡(luò)信息傳播方面,Guille 等從話題檢測、傳播建模以及識別有影響力的傳播者3個方面進行了介紹,為社交網(wǎng)絡(luò)中圍繞信息擴散的工作提供全面的分析指導(dǎo);Zinoviev從傳播者、傳播路徑和傳播機制出發(fā),提出博弈論模型來理解信息傳播,并對已有研究進行總結(jié)。
鑒于在線社交網(wǎng)絡(luò)的網(wǎng)絡(luò)拓撲結(jié)構(gòu)及特征,許多研究者提出利用“網(wǎng)絡(luò)復(fù)雜性分析”的方法論進行相關(guān)問題分析與研究。Watts 等提出一個小世界網(wǎng)絡(luò)模型,該模型更好地描述了從常規(guī)網(wǎng)絡(luò)到隨機網(wǎng)絡(luò)的過渡;Barabdisi 等提出BA 無標度網(wǎng)絡(luò)模型,并根據(jù)模型的增長算法和優(yōu)先連接特性演示了BA 無標度網(wǎng)絡(luò)演化過程。根據(jù)社交網(wǎng)絡(luò)的基本功能和特點,田燕等描述了不同類型在線社交網(wǎng)絡(luò)的目的、特點及典型代表,分析了在線社交網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和信息傳輸特點;候夢男等提出一種融合拓撲勢的層次化社區(qū)發(fā)現(xiàn)算法;Claire 等將網(wǎng)絡(luò)圖轉(zhuǎn)換為持續(xù)同調(diào)中的條形碼格式,對照各種效用度量來觀察圖之間關(guān)鍵特征的相關(guān)性。因此,使用持續(xù)同調(diào)分析網(wǎng)絡(luò)拓撲結(jié)構(gòu)以得到網(wǎng)絡(luò)的傳播變化,同樣是一個挑戰(zhàn)。
近年來,利用拓撲性質(zhì)和單純復(fù)形、持續(xù)同調(diào)性等方法對復(fù)雜網(wǎng)絡(luò),特別是加權(quán)網(wǎng)絡(luò)的研究取得了很大進展。Carstens 等描述了作者合作網(wǎng)絡(luò)的持續(xù)同調(diào)性,將拓撲學(xué)中的單純復(fù)形方法應(yīng)用于網(wǎng)絡(luò),通過對貝蒂數(shù)的定量比較解釋了合作網(wǎng)絡(luò)的持續(xù)同調(diào)性,并通過分析發(fā)現(xiàn)持續(xù)同調(diào)性在區(qū)分無標度網(wǎng)絡(luò)和隨機網(wǎng)絡(luò)方面也起著重要作用;Dlotko 等提出一種簡化的持續(xù)同調(diào)計算復(fù)形方法,從而加深了對拓撲單純復(fù)形及其計算方法的理解;Cerri 等研究了多維持續(xù)同調(diào)理論中貝蒂數(shù)的連續(xù)性質(zhì);Maletic 等采用拓撲單純復(fù)形法構(gòu)造網(wǎng)絡(luò),并對復(fù)雜網(wǎng)絡(luò)的持續(xù)同調(diào)性進行分析與研究;Kahle探討隨機網(wǎng)絡(luò)的同調(diào)性與網(wǎng)絡(luò)連通性之間的關(guān)系,為進一步理解網(wǎng)絡(luò)拓撲性質(zhì)與網(wǎng)絡(luò)連通性之間的關(guān)系作了理論準備。
本文旨在采用一種不同的方法對社交網(wǎng)絡(luò)進行概括,通過持續(xù)同調(diào)性表示在線社交網(wǎng)絡(luò)圖的傳播特性,使用算法計算持續(xù)同調(diào)得到相應(yīng)的貝蒂數(shù)和持續(xù)性圖,并獲取社交網(wǎng)絡(luò)的拓撲特征,分析其傳播特點。
由于同胚對兩個空間的拓撲性質(zhì)相同,本文主要運用代數(shù)拓撲知識構(gòu)造出該空間的同胚型。在研究一個社交網(wǎng)絡(luò)時,常把社交網(wǎng)絡(luò)中的各個用戶看作節(jié)點,用戶之間的關(guān)系看作邊。換言之,可將社會網(wǎng)絡(luò)中的節(jié)點視為點云,用持續(xù)同調(diào)方法構(gòu)造一個由一系列簡單復(fù)形組成的空間,并用構(gòu)造的空間逼近社會網(wǎng)絡(luò)空間。持續(xù)同調(diào)性為人們提供了一種在不減少維數(shù)情況下刻畫數(shù)據(jù)全貌的方法。把數(shù)據(jù)放在原始高維空間中得到數(shù)據(jù)里的群集與環(huán)結(jié)構(gòu)個數(shù),這種計算拓撲特征的方法為網(wǎng)絡(luò)圖分析提供了一種新的效用度量。
G
定義為一個有序二元組(V
,E
) 。其中,V
稱為頂集,E
稱為邊集,E
與V
不相交。頂集的元素被稱為頂點,表示對象;邊集的元素被稱為邊,表示對象之間的關(guān)系,有不同類型的圖表示頂點之間的不同關(guān)系。在無向圖中,邊對稱地連接兩個頂點;在有向圖中,邊不對稱地連接兩個頂點。如果頂點之間的關(guān)系有相互作用的強度,可用加權(quán)網(wǎng)絡(luò)表示這種類型的關(guān)系。有n
個頂點的圖G
可用n
×n
個鄰接矩陣表示,對于未加權(quán)圖,若有G
=1,則表示頂點i
到頂點j
有一條邊。如果頂點i
與頂點j
之間沒有邊,則G
=0。如果圖隨時間變化,則該圖被稱為動態(tài)圖,圖中的頂點和邊會隨著時間的變化不斷刪除或添加。在在線社交網(wǎng)絡(luò)圖中,用戶被看作節(jié)點,用戶之間的關(guān)系被看作邊。1.2.1 單純復(fù)形與單純同調(diào)
通常,單純復(fù)形是一種抽象代數(shù)結(jié)構(gòu),由點、邊、三角形、四面體和高維多面體組成。0 維單形是一個頂點,1維單形是邊,2 維單形是三角形,3 維單形是四面體(見圖1),直到第k
維,其結(jié)構(gòu)取決于單純復(fù)形的維度。Fig.1 Simplex圖1 單形
定義1
設(shè)K
是n
維歐氏空間R
中單形的有限集合,稱K
為單純復(fù)形,簡稱復(fù)形(見圖2),則有:①若為K
中的單形,則其任意面都屬于K
;②若s
和s
為K
中任意兩個單形,則s
?s
或者是空集,或者是s
與s
的一個公共面。Fig.2 Complex圖2 復(fù)形
在單純復(fù)形中,把這些孔視為以不同維數(shù)的單純形為界的空洞。在0 維中,其是連接分量;在1 維中,其是以邊(1 維單純形)為邊界的環(huán);在2 維中,其是以三角形為邊界的孔……在i
維中,其是以i
維單純形為邊界的孔。單純同調(diào)是指尋找單純復(fù)形中空洞的方法,下面定義兩種特殊類型的鏈,即圈和邊界。單純形包含復(fù)形中最高維單形的所有面,也即是說,如果存在一個二維復(fù)形(具有最高維單形的單純復(fù)形是一個二維單純形,即三角形),則該復(fù)形還包含所有維數(shù)低于它的面(如邊和頂點)。在同調(diào)理論中,i
鏈是一個具有整數(shù)系數(shù)的單純復(fù)形K
所有i
維單形的和。K
的所有i
鏈集合都用C
(K
)表示,即C
(K
)表示單純復(fù)形上的i
維鏈群。對其作邊緣同態(tài)映射:C
(K
)為K
的所有i
維鏈,C
(K
)通過此映射后得到幺元的同態(tài)核是i
維鏈群C
(K
)的子群,稱為維閉鏈群,記作Z
(K
)。帶有方向向量[v
,v
,v
,…,v
]的n
維單純形K
的邊界(?(K
))為:C
(K
)中的所有邊界,即經(jīng)過同態(tài)映射 ?:C
(K
)→C
(K
)得到的同態(tài)像是i
維鏈群C
(K
)的子群,也是i
維閉鏈群Z
(K
)的子群(因為邊緣都是封閉的),稱為i
維邊緣閉鏈群,簡稱i
維邊緣邊界群,記作B
(K
)。則定義單純復(fù)形K
的i
維同調(diào)群為:i
個連通數(shù)b
定義為H
的維度,b
=dim(H
) 。1.2.2 持續(xù)同調(diào)計算
對于有限的一組點X
(如點云數(shù)據(jù)),同調(diào)性不能給出感興趣的信息。β
給出了連通分支數(shù)目,但這只是點的數(shù)目,其他所有貝蒂數(shù)都是零,因為集合中沒有其他維度的洞。因此,可在數(shù)據(jù)上構(gòu)建一個最大ε
值的單純復(fù)形,而不是構(gòu)建多個不同ε
參數(shù)的單純復(fù)形,然后將其組合成一個序列。記錄所有點對之間的距離,并了解何值使得每對點形成邊。所有隱藏在這些值中的單純復(fù)形形成了一個連貫的濾流,即為一系列嵌套的復(fù)形。因此,本文不去處理點集,而定義復(fù)形濾流為:由不斷增加的比例參數(shù)ε
生成的單純復(fù)形序列。在這樣的結(jié)構(gòu)中,一些洞可能出現(xiàn),然后消失,這些同源特征的持續(xù)性可被認為是數(shù)據(jù)集特征。在一個濾流中,可以記錄洞的出生,即洞出現(xiàn)的時間,以及洞的死亡,即洞消失的時間。持續(xù)同源性的本質(zhì)是對這些同源特征的出生和死亡進行持續(xù)性地追蹤,每個同源特征的壽命可表示為一個區(qū)間,其中區(qū)間的起點與終點分別對應(yīng)同源特征的出生和死亡。對于給定數(shù)據(jù)集,可通過持久性條形碼(PB)記錄這些間隔。同樣地,持久性條形碼可通過持久性圖(PD)表示。下面定義貝蒂數(shù),并構(gòu)建Vietoris-Rips(VR)復(fù)形。
持續(xù)同調(diào)計算的理論基礎(chǔ)是刻畫網(wǎng)絡(luò)拓撲結(jié)構(gòu),通過網(wǎng)絡(luò)拓撲結(jié)構(gòu)變化分析網(wǎng)絡(luò)社交的變化是有效、合理的。構(gòu)建社交網(wǎng)絡(luò),計算相應(yīng)的網(wǎng)絡(luò)拓撲同調(diào)群和貝蒂數(shù)相關(guān)參數(shù),進一步分析網(wǎng)絡(luò)拓撲特性。這些同調(diào)空間可用空間維數(shù)來表征,因此引入貝蒂數(shù)來量化拓撲不變量,同時其也是拓撲空間的拓撲不變量。單純復(fù)形K
的n
個貝蒂數(shù)表示為β
:b
(X
)=dim(H
(X
)),即對于非負整數(shù)k
,定義空間X
的第k
個貝蒂數(shù)b
(X
)為X
第k
個同調(diào)群H
(X
)的秩(線性無關(guān)生成子數(shù))。添加或刪除網(wǎng)絡(luò)節(jié)點時,相應(yīng)同調(diào)群和貝蒂數(shù)都會發(fā)生變化。在網(wǎng)絡(luò)拓撲圖中,零維貝蒂數(shù)表示網(wǎng)絡(luò)上的連通分支數(shù),一維貝蒂數(shù)表示網(wǎng)絡(luò)上的環(huán)(一維孔)數(shù),二維貝蒂數(shù)表示網(wǎng)絡(luò)圖中的空腔數(shù)。貝蒂數(shù)越大,拓撲含義越復(fù)雜。
對于Vietoris-Rips(VR)復(fù)形,其是一種抽象的代數(shù)結(jié)構(gòu),能夠表示歐氏空間E
中的一組點。假設(shè)G
=(V
,E
) 是一個無向加權(quán)圖,權(quán)重值為W
:V
×V
→R
。對于?δ
∈R
,1 維骨架G
=(V
,E
) ?G
被定義為G
的子圖,其中V
=V
,其邊界集E
=E
只包含權(quán)重小于或等于δ
的邊。然后,對于?δ
∈R
,本文將VR 復(fù)形定義為1 維骨架G
、Cl
(G
) 的團復(fù)形,并將Vietoris-Rips 過濾定義為:ω
到最大權(quán)重ω
進行排序,并讓參數(shù)δ
從ω
增加到ω
。在每一步中添加相應(yīng)的邊,得到閾值子圖G
的復(fù)形,因此產(chǎn)生了Vietoris-Rips 過濾結(jié)構(gòu)。1.2.3 持續(xù)性圖
隨著Rips 復(fù)形的構(gòu)建,連續(xù)的間隔一起組成持續(xù)性圖。持續(xù)性圖是濾流的點圖,當一個洞出現(xiàn)時,持續(xù)性圖中的一個點會被標記出,該洞即具有包圍開放空間的邊緣結(jié)構(gòu)。持續(xù)性圖的橫坐標代表開始時間,標志著一個洞的誕生;縱坐標代表洞消失的地方。該間隔通常被稱為特征持續(xù)時間,持續(xù)性圖可定性地描述持續(xù)同調(diào)。
δ
很小時,會有一些斷開的組件。當δ
足夠長時,該圖成為一個連接圖,斷開的組件組合成一個。因此,所有持續(xù)性圖都有一個無限持續(xù)下去的持續(xù)性點。對應(yīng)在網(wǎng)絡(luò)圖中,當距離較小時用戶緊密相連,從信息迅速傳播到最后信息傳播完成,形成一個穩(wěn)定的圈。運用代數(shù)拓撲中持續(xù)同調(diào)的知識對在線社交網(wǎng)絡(luò)構(gòu)造VR 復(fù)形,將在線社交網(wǎng)絡(luò)邊數(shù)據(jù)集生成距離矩陣,再使用perseus 軟件計算得出貝蒂數(shù)和持續(xù)性圖,從而分析在線社交網(wǎng)絡(luò)的傳播特征。具體方法如下:
利用圖描述社交網(wǎng)絡(luò)時,節(jié)點表示社交網(wǎng)絡(luò)中的用戶,邊表示用戶之間的關(guān)系,有關(guān)系則為“1”,沒有關(guān)系則為“0”。社交網(wǎng)絡(luò)中關(guān)注的是節(jié)點間的連接關(guān)系,并不強調(diào)坐標位置。因此,本文首先利用Floyd算法計算得到距離矩陣,再將距離矩陣導(dǎo)入Perseus 軟件,最后通過Perseus 軟件計算得到社交網(wǎng)絡(luò)圖的貝蒂數(shù)和持續(xù)性圖。
2.1.1 數(shù)據(jù)處理
由于在線社交網(wǎng)絡(luò)往往較為龐大,為方便進行持續(xù)同調(diào)相關(guān)計算,本文使用隨機游走算法對數(shù)據(jù)進行處理,在有效保護網(wǎng)絡(luò)的同時,創(chuàng)建一個可行的數(shù)據(jù)集。隨機游走算法通常被視為一些隨機過程的基本模型,并被視為馬爾可夫過程。隨機游走算法的基本思想是從一個頂點或一系列頂點游走一個圖,在任何頂點中,遍歷者將以概率1-a
移動到此頂點的相鄰頂點,并以概率a
隨機跳到圖中任何頂點,a
稱為跳躍發(fā)生概率。每次行走后都會得到一個概率分布,此概率分布描述了圖中每個頂點被訪問的概率。使用此概率分布作為下一次行走的輸入,并迭代該過程。當滿足一定條件時,概率分布趨于收斂,得到平穩(wěn)的概率分布。一維的隨機游走可定義如下:每過一個單位時間,游走者從數(shù)軸位置x
出發(fā),以固定概率隨機向左或向右移動一個單位。不妨將n
時刻游走者的位置記為L
,則有:X
,X
,…X
為相互獨立的隨機變量,滿足:G
′中。此后,程序查看連接到原始圖中當前節(jié)點的邊,并隨機選擇一個進行遍歷,同時將相同的邊添加到新的圖G
′中。整個過程經(jīng)歷了多次迭代,直到新構(gòu)建的圖G
′完全包含一部分節(jié)點,本文取得的節(jié)點數(shù)為100。2.1.2 距離矩陣形成
此時初始化一個鄰接矩陣作為輔助,即在給定一組節(jié)點時,一個鄰接矩陣表示其邊關(guān)系。該矩陣表示在具有“1”和“0”的一對節(jié)點之間是否存在一條邊,“1”表示兩節(jié)點間存在一條邊,“0”表示兩節(jié)點間不存在邊。然后使用Floyd算法,通過Python 計算得出距離矩陣。下面簡單介紹Floyd算法以及距離矩陣。
Floyd算法又稱為插點法,是一種利用動態(tài)規(guī)劃的思想尋找給定加權(quán)圖中多源點之間最短路徑的算法。首先,從任意一條單邊路徑開始,所有兩點之間的距離是邊的權(quán),這里設(shè)所有邊的權(quán)值為1。如果兩點之間沒有邊相連,則權(quán)為無窮大。對于每一對頂點u
和v
,看看是否存在一個頂點w
,使得從u
到w
再到v
比已知路徑更短,如果是則對其進行更新。用鄰接矩陣G
表示圖,如果從v
到v
有路可達,則G
=d
,d
表示該路的長度,否則G
=∞
。定義一個矩陣D
用來記錄所插入點的信息,D
表示從v
到v
需要經(jīng)過的點,初始化D
=j
。把各個頂點插入圖中,比較插點后的距離與原來的距離,G
=min(G
,G
+G
) 。如果G
的值變小,則D
=k
。由此便可得到任意兩點間的距離信息,一個距離矩陣是一個包含一組點兩兩之間距離的矩陣(即二維數(shù)組),所以可將距離信息轉(zhuǎn)換成距離矩陣。2.1.3 持續(xù)性圖生成
對數(shù)據(jù)進行處理后,首先運用Floyd算法對處理得到的100個點計算得出距離矩陣,然后利用持續(xù)同調(diào)計算軟件計算得出各維數(shù)的持續(xù)性間隔以及各維貝蒂數(shù),最后得到持續(xù)性圖(見圖3)。
Fig.3 Steps to generate a persistence diagram圖3 持續(xù)性圖生成步驟
已知兩個小型社交網(wǎng)絡(luò),節(jié)點與節(jié)點之間的關(guān)系如圖4、圖5 所示。利用Floyd算法計算得到兩個小型網(wǎng)絡(luò)圖的8 × 8 距離矩陣,分別如下:
Fig.4 Small network diagram a圖4 小型網(wǎng)絡(luò)圖a
Fig.5 Small network diagram b圖5 小型網(wǎng)絡(luò)圖b
此時通過貝蒂數(shù)持續(xù)性圖計算方法得出兩個社交網(wǎng)絡(luò)的貝蒂數(shù)分別如表1、表2 所示。
Table 1 Betti number of small network diagram a表1 小型網(wǎng)絡(luò)圖a 的貝蒂數(shù)
Table 2 Betti number of small network diagram b表2 小型網(wǎng)絡(luò)圖b 的貝蒂數(shù)
在網(wǎng)絡(luò)拓撲圖中,零維貝蒂數(shù)表示網(wǎng)絡(luò)上的連通分支數(shù),一維貝蒂數(shù)表示網(wǎng)絡(luò)上的環(huán)(一維孔)數(shù),二維貝蒂數(shù)表示網(wǎng)絡(luò)圖中的空腔數(shù),貝蒂數(shù)越大,拓撲含義越復(fù)雜。
對于圖4,一開始它有8個連通分支(即一開始的8個節(jié)點),更高維的貝蒂數(shù)為零;形成第一個子復(fù)形時,零維貝蒂數(shù)為1,即連通分支數(shù)為1,一維貝蒂數(shù)為2,即有2個圈,沒有更高維的貝蒂數(shù);形成第二個復(fù)形時,零維貝蒂數(shù)為1,沒有一、二維的貝蒂數(shù),三維貝蒂數(shù)為5,即更高一維的三維空間有5個空洞;形成第三個復(fù)形時,零維貝蒂數(shù)為1,沒有一、二維的貝蒂數(shù),三維貝蒂數(shù)為35,即更高一維的三維空間有35個空洞;沒有再形成更多復(fù)形。
對于圖5,同樣一開始它有8個連通分支,更高維的貝蒂數(shù)為零;形成第一個子復(fù)形時,零維貝蒂數(shù)為1,即連通分支數(shù)為1,沒有更高維的貝蒂數(shù);形成第二個復(fù)形時,零維貝蒂數(shù)為1,沒有一、二維的貝蒂數(shù),三維貝蒂數(shù)為25,即更高一維的三維空間有25個空洞;形成第三個復(fù)形時,零維貝蒂數(shù)為1,沒有一、二維的貝蒂數(shù),三維貝蒂數(shù)為35,即更高一維的三維空間有35個空洞;沒有再形成更多復(fù)形。
圖4 和圖5 是兩個小型網(wǎng)絡(luò)圖,都擁有8個節(jié)點,從圖中可以看出,圖4 相對于圖5 節(jié)點與節(jié)點之間的聯(lián)系更緊密。所以圖4 各個節(jié)點之間的距離比圖5 更近,如果是節(jié)點之間相互傳播,圖4 相對于圖5 也更為容易,而這一點在持續(xù)同調(diào)計算得出的貝蒂數(shù)中得到了驗證。表1 的貝蒂數(shù)總的來說少于表2 的貝蒂數(shù)。
小型網(wǎng)絡(luò)圖的持續(xù)性圖如圖6 所示。
Fig.6 Persistence diagram of small network diagram圖6 小型網(wǎng)絡(luò)圖的持續(xù)性圖
其中,橫坐標表示持續(xù)性點的出生時間,縱坐標表示持續(xù)性點的死亡時間。
對于持續(xù)性圖,具有無限持續(xù)性點的出生時間被繪制為紅色菱形,即在網(wǎng)絡(luò)圖a 的持續(xù)性圖中有出生時間為2 和3 的兩個持續(xù)性點,網(wǎng)絡(luò)圖b 的持續(xù)性圖中只有1個出生時間為3 的持續(xù)性點。
通過示例可以看出:該方法充分捕捉了網(wǎng)絡(luò)拓撲特征,可計算出網(wǎng)絡(luò)拓撲信息,得到的拓撲信息與網(wǎng)絡(luò)圖的圖像一致,并且可根據(jù)拓撲信息畫出持續(xù)性圖;節(jié)點間聯(lián)系更緊密的網(wǎng)絡(luò)圖更容易傳播,且其貝蒂數(shù)更大,傳播更容易擴散;節(jié)點間聯(lián)系更緊密的網(wǎng)絡(luò)圖的持續(xù)性點數(shù)量多于稀疏的網(wǎng)絡(luò)圖;貝蒂數(shù)在零維、一維和二維中表現(xiàn)出持續(xù)同調(diào)性。
選取SNAP數(shù)據(jù)庫中Facebook、Deezer 和Wiki-Vote的3個社交網(wǎng)絡(luò)圖,每個圖都提供了邊列表(每個邊列表數(shù)據(jù)由兩個節(jié)點ID 組成)。所有包含的數(shù)據(jù)集都滿足社交網(wǎng)絡(luò)標準,即一個簡單、未加權(quán)的網(wǎng)絡(luò)圖。具體來說,F(xiàn)acebook 網(wǎng)絡(luò)圖代表匿名社交圈人與人之間的關(guān)系,Deezer 網(wǎng)絡(luò)圖表示在線音樂網(wǎng)站中在線社交網(wǎng)絡(luò)的信息,而Wiki-Vote 網(wǎng)絡(luò)圖是由世界各地的志愿者合作編寫的免費百科全書。上述社交網(wǎng)絡(luò)來自于大眾廣泛使用的社交媒體平臺,可使本文能更好地模擬持續(xù)同調(diào)的實際應(yīng)用。
對每個在線社交網(wǎng)絡(luò)的研究,主要是分析網(wǎng)絡(luò)所對應(yīng)的持續(xù)性圖。通過對每個使得持續(xù)性圖穩(wěn)定區(qū)間的分析與研究,可得到社交網(wǎng)絡(luò)空間的同調(diào)信息。這些同調(diào)信息可幫助獲取在線社交網(wǎng)絡(luò)的空間特點,從而分析其傳播變化。
Facebook、Deezer 和Wiki-Vote 網(wǎng)絡(luò)數(shù)據(jù)集都包含了節(jié)點數(shù)據(jù)和邊數(shù)據(jù),通過邊數(shù)據(jù)獲取節(jié)點間的關(guān)聯(lián)信息,若形成邊則為“1”,若沒有形成邊則為“0”,由此生成網(wǎng)絡(luò)圖如圖7-圖9 所示。
Fig.7 Facebook network diagram圖7 Facebook 網(wǎng)絡(luò)圖
Fig.8 Wiki-Vote network diagram圖8 Wiki-Vote 網(wǎng)絡(luò)圖
Fig.9 Deezer network diagram圖9 Deezer 網(wǎng)絡(luò)圖
圖7-圖9 分別是Facebook、Wiki-Vote 以及Deezer 3個網(wǎng)絡(luò)在經(jīng)過數(shù)據(jù)處理后100個節(jié)點的網(wǎng)絡(luò)圖,從圖中可以看出,F(xiàn)acebook 網(wǎng)絡(luò)圖分成了3個團,且各個團中各節(jié)點相互之間聯(lián)系緊密,具有很強的互聯(lián)性,這也對應(yīng)表現(xiàn)出Facebook 各個用戶之間的聯(lián)系。Wiki-Vote 與Deezer 兩個社交網(wǎng)絡(luò)的網(wǎng)絡(luò)圖則呈現(xiàn)出一個節(jié)點被其他多個節(jié)點連接,出現(xiàn)了類似于環(huán)狀結(jié)構(gòu),這與3個網(wǎng)絡(luò)的類型有一定聯(lián)系。在現(xiàn)實世界中,F(xiàn)acebook 網(wǎng)絡(luò)圖代表匿名社交圈的人際關(guān)系,每個用戶之間都存在相互聯(lián)系的可能,所以圖中所有節(jié)點之間始終具有很強的互連性;Wiki-Vote 網(wǎng)絡(luò)圖是用多種語言編寫而成的網(wǎng)絡(luò)百科全書,其基于維基技術(shù)的多語言百科全書式協(xié)作計劃,所以其一個節(jié)點連接到多個端節(jié)點,形成環(huán)狀;Deezer 網(wǎng)絡(luò)圖代表法國在線音樂網(wǎng)站,可提供樂隊與歌曲搜索及音樂播放等功能,通常在圖的中心創(chuàng)建一個環(huán),而邊界節(jié)點保持連接。
根據(jù)節(jié)點以及邊關(guān)系,對Facebook、Deezer 和Wiki-Vote 3個社交網(wǎng)絡(luò)分別創(chuàng)建距離矩陣,通過持續(xù)同調(diào)計算,分別生成3個網(wǎng)絡(luò)圖的零維貝蒂數(shù)、一維貝蒂數(shù)及二維貝蒂數(shù)(見表3-表5),分析并比較其傳播規(guī)律。
Table 3 Facebook Betti number表3 Facebook 貝蒂數(shù)
Table 4 Wiki-Vote Betti number表4 Wiki-Vote 貝蒂數(shù)
Table 5 Deezer Betti number表5 Deezer 貝蒂數(shù)
從表3 數(shù)據(jù)中可以看出,當沒有形成子復(fù)形時,F(xiàn)acebook 網(wǎng)絡(luò)對應(yīng)的零維貝蒂數(shù)為100,即連通分支數(shù)量為100(本文選取100個節(jié)點),更高維的貝蒂數(shù)都為0;形成第一個子復(fù)形時,零維貝蒂數(shù)為1,即連通分支數(shù)為1,一維貝蒂數(shù)為10,即有10個圈,二維貝蒂數(shù)為1,即有1個洞,沒有更高維的貝蒂數(shù);形成第二個復(fù)形時,零維貝蒂數(shù)為1,沒有一、二維的貝蒂數(shù);之后隨著子復(fù)形的增加,零維、一維、二維貝蒂數(shù)均沒有發(fā)生變化;直到第9個子復(fù)形形成,之后沒有再形成更多復(fù)形。
同理,從表4 的數(shù)據(jù)中,一開始零維貝蒂數(shù)都為100,即連通分支數(shù)量為100,一維貝蒂數(shù)為12,二維貝蒂數(shù)為6;當?shù)诙€子復(fù)形形成時,零維貝蒂數(shù)變?yōu)?,而一、二維貝蒂數(shù)分別為19 和0;當?shù)谌齻€子復(fù)形形成時,零維貝蒂數(shù)依然為1,而一、二維貝蒂數(shù)變?yōu)?;該情況一直持續(xù)到第四個子復(fù)形形成,之后沒有再形成更多復(fù)形。
表5 的數(shù)據(jù)情況與表3 類似,一開始零維貝蒂數(shù)都為100,第二個子復(fù)形形成時,零維貝蒂數(shù)變?yōu)?,而一、二維貝蒂數(shù)分別為10 和3;當?shù)谌齻€子復(fù)形形成時,零維貝蒂數(shù)依然為1,沒有一、二維貝蒂數(shù);直到第四個子復(fù)形形成,之后沒有再形成更多復(fù)形。
從表中3 組數(shù)據(jù)可以看出,當沒有子復(fù)形形成時,3個網(wǎng)絡(luò)圖對應(yīng)的零維貝蒂數(shù)都為100,即連通分支數(shù)量為100(本文選取100個節(jié)點)。Facebook 網(wǎng)絡(luò)和Deezer 網(wǎng)絡(luò)的一、二維貝蒂數(shù)都為0,而在Wiki-Vote 網(wǎng)絡(luò)中,一維貝蒂數(shù)為12,二維貝蒂數(shù)為6,這是由于Wiki-Vote 網(wǎng)絡(luò)是一個百科全書網(wǎng)絡(luò)。從網(wǎng)絡(luò)圖中可以發(fā)現(xiàn),它有一些圈和洞產(chǎn)生,即一、二維貝蒂數(shù)。隨著子復(fù)形個數(shù)的增加,連通分支的個數(shù)逐漸穩(wěn)定為1,而更高維的圈、洞個數(shù)逐漸變?yōu)?,此時意味著傳播結(jié)束。從整個貝蒂數(shù)表格數(shù)據(jù)中可以看出,F(xiàn)acebook 網(wǎng)絡(luò)和Deezer 網(wǎng)絡(luò)在第二個復(fù)形形成時的一維貝蒂數(shù)都小于Wiki-Vote 網(wǎng)絡(luò),說明Facebook 網(wǎng)絡(luò)和Deezer網(wǎng)絡(luò)的傳播更容易擴散,更有利于傳播,而Wiki-Vote 網(wǎng)絡(luò)不容易激活很多節(jié)點,傳播力相對弱一些,傳播更為困難。因此,可利用貝蒂數(shù)來刻畫在線社交網(wǎng)絡(luò)的傳播。
根據(jù)節(jié)點以及邊關(guān)系,對3個社交網(wǎng)絡(luò)分別創(chuàng)建距離矩陣,由此生成3個網(wǎng)絡(luò)圖的持續(xù)性圖(見圖10),分析比較其傳播變化規(guī)律。
對于持續(xù)性圖,具有無限持續(xù)性點的出生時間被繪制為紅色菱形。從3個持續(xù)性圖可以看出,F(xiàn)acebook 網(wǎng)絡(luò)的持續(xù)性圖有9個紅色菱形,即有9個無限持續(xù)性點,與上述貝蒂數(shù)中的子復(fù)形個數(shù)相對應(yīng);Wiki-Vote 網(wǎng)絡(luò)的持續(xù)性圖有4個紅色菱形,即有4個無限持續(xù)性點;Deezer 網(wǎng)絡(luò)的持續(xù)性圖同樣有4個紅色菱形,即有4個無限持續(xù)性點。對于持續(xù)性點,圖結(jié)構(gòu)越復(fù)雜,其持續(xù)性點也會更多。從以上3個持續(xù)性圖可以看出,F(xiàn)acebook 網(wǎng)絡(luò)的無限持續(xù)性點多于Wiki-Vote 網(wǎng)絡(luò)和Deezer 網(wǎng)絡(luò),說明Facebook 網(wǎng)絡(luò)比Deezer 網(wǎng)絡(luò)和Wiki-Vote 網(wǎng)絡(luò)更利于傳播,而Deezer 網(wǎng)絡(luò)和Wiki-Vote 網(wǎng)絡(luò)的傳播力相對弱一些,傳播更為困難。說明Wiki-Vote 網(wǎng)絡(luò)和Deezer 網(wǎng)絡(luò)相對于Facebook 網(wǎng)絡(luò)更穩(wěn)定,這也很好地驗證了上述小型網(wǎng)絡(luò)圖示例得出的結(jié)論。因此,持續(xù)性圖也可用來刻畫在線社交網(wǎng)絡(luò)的傳播。
Fig.10 Persistence diagram of online social networks圖10 在線社交網(wǎng)絡(luò)的持續(xù)性圖
社交網(wǎng)絡(luò)傳播是在線社交網(wǎng)絡(luò)的重要研究內(nèi)容,本文主要運用持續(xù)同調(diào)方法構(gòu)造一系列單純復(fù)形來逼近社交網(wǎng)絡(luò)空間,得到社交網(wǎng)絡(luò)的同調(diào)信息,再將這些信息寫入持續(xù)性圖中,通過貝蒂數(shù)和持續(xù)性圖的穩(wěn)定信息分析在線社交網(wǎng)絡(luò)傳播。在一定程度下,盡管在線社交網(wǎng)絡(luò)會發(fā)生變化(在線社交網(wǎng)絡(luò)本就屬于動態(tài)網(wǎng)絡(luò)),對本文要得到的同調(diào)信息也幾乎沒有影響。從本文得出的結(jié)論中,發(fā)現(xiàn)持續(xù)同調(diào)性可作為描述社交網(wǎng)絡(luò)圖傳播的一種手段。根據(jù)已有數(shù)據(jù)顯示,該方法充分捕捉了網(wǎng)絡(luò)拓撲特征,為在線社交網(wǎng)絡(luò)圖描述傳播提供了有效的新方法。在后續(xù)工作中將采用更大的數(shù)據(jù)集,并根據(jù)在線社交網(wǎng)絡(luò)得到的持續(xù)同調(diào)對在線社交網(wǎng)絡(luò)傳播進行更深入研究。