蔣忠元,陳賢宇,馬建峰
社交網(wǎng)絡(luò)中的社團隱私研究綜述
蔣忠元,陳賢宇,馬建峰
(西安電子科技大學(xué)網(wǎng)絡(luò)與信息安全學(xué)院,陜西 西安 710000)
社團是社交網(wǎng)絡(luò)的重要特征,社團檢測技術(shù)的發(fā)展給網(wǎng)絡(luò)用戶帶來隱私泄露的危險。如何保護敏感的社團信息不被泄露,保障用戶與社團安全已經(jīng)成為網(wǎng)絡(luò)安全領(lǐng)域的研究熱點。近幾年,社團保護技術(shù)取得了初步進展,但針對社交網(wǎng)絡(luò)中的社團隱私或社團安全研究進展綜述較少,不利于該研究方向的長遠發(fā)展。因此,主要針對社團結(jié)構(gòu)隱私方面的研究進展進行綜述,對最新的相關(guān)研究成果進行系統(tǒng)地歸納、總結(jié)、比較,并展望了未來的研究方向。
社交網(wǎng)絡(luò);社團檢測;社團隱私;社團安全;社團隱藏
隨著科學(xué)技術(shù)的發(fā)展,人們?nèi)粘I畹姆椒矫婷嬖絹碓诫x不開形態(tài)各異的網(wǎng)絡(luò),文獻[1]對復(fù)雜網(wǎng)絡(luò)概念進行了表述。復(fù)雜網(wǎng)絡(luò)是由大量的節(jié)點以及節(jié)點之間錯綜復(fù)雜的連接關(guān)系共同構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu),它是人們?nèi)粘I钪懈鞣N復(fù)雜系統(tǒng)的抽象表達,如社會網(wǎng)絡(luò)[2-3]、生物網(wǎng)絡(luò)[4]、電力網(wǎng)絡(luò)[5]、金融網(wǎng)絡(luò)[6]等。網(wǎng)絡(luò)科學(xué)由于其高度的跨學(xué)科性質(zhì)以及與社會生活相關(guān)聯(lián)的高度密切性質(zhì)吸引著一大批專家學(xué)者們的廣泛關(guān)注與研究,他們提出了許多有意義的研究方向并獲得了一系列可觀的研究成果,如鏈路預(yù)測[7-8]、節(jié)點分類[9]、網(wǎng)絡(luò)重構(gòu)[10]、網(wǎng)絡(luò)輿情控制與阻斷[11-12]、生物學(xué)學(xué)科中對未知生物功能的預(yù)測[13-14]、計算機學(xué)科中的社團檢測算法[15-17]等問題。
近年來,社交網(wǎng)絡(luò)的社區(qū)(community)也被稱為社團、圈子、模塊等,作為社交網(wǎng)絡(luò)科學(xué)的一個重要組成部分而被廣大研究員們進行深入研究。研究表明,社交網(wǎng)絡(luò)中的一個社區(qū)代表了該網(wǎng)絡(luò)中聯(lián)系最密切的相似節(jié)點之間的網(wǎng)絡(luò)拓撲,不同的社區(qū)之間代表了不同群體之間的差異性或聯(lián)系的稀疏性[16-20],而針對社區(qū)結(jié)構(gòu)發(fā)掘的社團檢測算法為社團發(fā)揮其重要價值起到了關(guān)鍵作用。例如,興趣組推薦主要依賴于社團的用戶往往有較相似的興趣愛好以及緊密的聯(lián)系。其次,社團的劃分也可以被運用在關(guān)聯(lián)信息、關(guān)聯(lián)好友推薦系統(tǒng)等。然而社團本身富含用戶與群體的隱私信息,敏感社團信息泄露可被攻擊者用來從事不良活動。例如,基于社團的謠言擴散,因為相同社團的成員對某種謠言信息的敏感性近似,研究表明社團會加快謠言傳播、加大傳播范圍[12]。綜上,社團機制在社交網(wǎng)絡(luò)中是一把雙刃劍,既有利于人們的社交活動,又會給用戶帶來安全隱患。
針對社交網(wǎng)絡(luò)的隱私保護技術(shù)已較成熟[21],而針對社團隱私保護的研究尚處于發(fā)展階段。社團隱私與社交網(wǎng)絡(luò)隱私有較大的區(qū)別,主要體現(xiàn)在對象與范圍不同。社團隱私面向具體的社團,而社交網(wǎng)絡(luò)的隱私則包括整體網(wǎng)絡(luò)、部分網(wǎng)絡(luò)、單個用戶安全等。本文涉及的社團隱私主要聚焦在社團結(jié)構(gòu)的隱私問題。本文主要從以下幾方面進行介紹。
1) 社團隱私研究基礎(chǔ)。本文首先介紹社交網(wǎng)絡(luò)中社團隱私問題的相關(guān)概念;其次,由于社團是研究社團隱私的基礎(chǔ),因而本文將回顧現(xiàn)有的社團檢測相關(guān)工作[15-17];最后將引入社團隱私保護的研究動機和目標(biāo)等。
2) 社團安全或社團隱私。社團檢測研究導(dǎo)致的社團暴露可能會造成嚴重的社團與用戶隱私泄露,引發(fā)社團安全危機。為此人們逐漸開始研究社團安全隱私的保護工作,本文將詳細介紹現(xiàn)有社團保護技術(shù)的核心思想和方法路線。
3) 總結(jié)與未來工作展望。本文針對目前社團隱私技術(shù)的研究,總結(jié)研究中的不足之處,對未來可能出現(xiàn)的熱門研究點進行了展望,為未來社團隱私保護技術(shù)的研究提供基礎(chǔ)。
在科技發(fā)展迅速的時代,個體與個體間的信息溝通會產(chǎn)生具有不同含義的社交網(wǎng)絡(luò),如郵件社交網(wǎng)絡(luò)、同事社交網(wǎng)絡(luò)、朋友親戚社交網(wǎng)絡(luò)等。近十幾年來,社團檢測技術(shù)作為研究社交網(wǎng)絡(luò)特性的重要入口一直占據(jù)著研究人員的研究視線,他們致力于探索如何更加高效快捷地挖掘網(wǎng)絡(luò)社團劃分結(jié)構(gòu)。然而,隨著社團檢測研究技術(shù)的發(fā)展,人們逐漸受到該技術(shù)的不當(dāng)應(yīng)用導(dǎo)致用戶個人隱私泄露等安全問題的困擾。與此同時,用戶對于個人隱私保護的意識逐步提高,用戶更加關(guān)注社交網(wǎng)絡(luò)的社團隱私保護問題,而不再無止盡地在社交網(wǎng)絡(luò)中挖掘各種潛在的社區(qū)信息,因為社交網(wǎng)絡(luò)的社區(qū)檢測研究所追求的對網(wǎng)絡(luò)社團結(jié)構(gòu)進行深度剖析的想法勢必會帶來安全隱患。因此,如何在社交網(wǎng)絡(luò)中通過隱藏社團來規(guī)避社交網(wǎng)絡(luò)的社團檢測工具就顯得異常重要。
社團檢測技術(shù)的發(fā)展和用戶對社團隱私保護的要求形成技術(shù)沖撞,而且這種技術(shù)沖撞是不平衡不對等的,現(xiàn)有的研究視線應(yīng)該關(guān)注社團隱私保護技術(shù)的研究,努力實現(xiàn)上述兩種技術(shù)的平衡發(fā)展?,F(xiàn)有的社團隱私保護技術(shù)的研究主要分為兩種思路:①基于目標(biāo)社團(target-community)的社團隱私保護研究[22-26]:該研究認為網(wǎng)絡(luò)中某個目標(biāo)社團結(jié)構(gòu)(或者有隱私保護需求的群體)是敏感的,需要通過社團隱藏技術(shù)打破該目標(biāo)社團在網(wǎng)絡(luò)中的社團劃分結(jié)構(gòu),如對社交網(wǎng)絡(luò)結(jié)構(gòu)進行適當(dāng)擾動(刪除真實鏈路、增加虛假鏈路、刪除真實節(jié)點或增加干擾節(jié)點等)來降低現(xiàn)有社團檢測算法檢測出目標(biāo)社團的概率,以此逃避社團檢測技術(shù)對該社團結(jié)構(gòu)的挖掘。②基于全社團(all-communities)的社團隱私保護研究[27-28]:該研究默認社交網(wǎng)絡(luò)中的全部社團結(jié)構(gòu)都是敏感的,需要通過一種或多種社團隱私保護技術(shù)對所有的社團進行隱藏操作,以此達到全社團隱私保護的目標(biāo)。針對目標(biāo)社團隱私保護的技術(shù)更加貼近實際需求,實施代價相對較小,并且能較好地保持原始網(wǎng)絡(luò)的可用性。而全社團保護技術(shù)使網(wǎng)絡(luò)的可用性損失較大,實施代價略高。
社團是社交網(wǎng)絡(luò)中社團隱私保護的重要基礎(chǔ)結(jié)構(gòu),而社團檢測是發(fā)掘網(wǎng)絡(luò)中社團結(jié)構(gòu)的主要方法[29-30]。從是否具有重疊社團的角度將現(xiàn)有的社團檢測方法分為非重疊社團檢測算法(non- overlapping community detection algorithm)與重疊社團檢測算法(overlapping community detection algorithms)。非重疊社區(qū)檢測算法旨在挖掘無節(jié)點相交的社團劃分結(jié)構(gòu);而重疊社團檢測算法需要考慮某些節(jié)點可以同時存在于不同社團內(nèi)部的特性對檢測性能的影響,以此來發(fā)掘存在相交節(jié)點集的社團劃分。
大規(guī)模網(wǎng)絡(luò)結(jié)構(gòu)通常極其復(fù)雜,并非單純地由非重疊社區(qū)組合而成,而是由一個個重疊的社團構(gòu)成的[41-42]。重疊社區(qū)的社團檢測算法主要分為以下4類。①基于邊劃分的檢測算法:Ahn等[43]提出了一種重疊社區(qū)檢測算法——ABL(Ahn,Bagrow,Lehmann)算法,該算法將挖掘緊密相連的點社團轉(zhuǎn)變?yōu)橥诰蚓W(wǎng)絡(luò)中緊密相連的邊社團;Kim等[44]擴展了InfoMap算法到邊圖上;Ye等[45]提出了一種多解析度的邊社團發(fā)現(xiàn)算法MLP。②基于優(yōu)化的重疊社區(qū)檢測算法:Lancichinetti等[46]提出了一種從隨機選取的種子節(jié)點開始構(gòu)造社區(qū)結(jié)構(gòu),終止條件為適應(yīng)度函數(shù)獲得局部最大化值;OSLOM算法通過最優(yōu)化一種社區(qū)隨機波動的統(tǒng)計適應(yīng)度函數(shù)來發(fā)現(xiàn)重疊社區(qū)[47];基于優(yōu)化的重疊社區(qū)檢測算法還包括OCA算法[48]、GCE算法[49]、COCD算法[50]。③基于模糊劃分的重疊社區(qū)發(fā)現(xiàn)算法:Zhang等[51]提出了一種基于LDA和K-means聚類算法的檢測算法;Psorakis[52]對網(wǎng)絡(luò)進行非負矩陣分解后進行特征抽取并使用降維算法來挖掘社團結(jié)構(gòu);Nepusz[53]使用模擬退火算法來解決重疊社區(qū)檢測問題;Newman等[54]提出了使用概率圖模型的社區(qū)劃分方法;Airoldi等[55]從統(tǒng)計學(xué)角度提出了隨機分塊模型;④基于節(jié)點特性的社區(qū)檢測算法:Abrahao等[56]提出了使用中介系數(shù)來劃分社區(qū)的CONGO算法;Jiang等[57]通過使用相似度比較的方式提出了一種對抗女巫攻擊的用于大規(guī)模網(wǎng)絡(luò)的社團檢測方法等。有關(guān)社團檢測的詳細內(nèi)容參考文獻[58-59]。
社團劃分的主要動機是檢測網(wǎng)絡(luò)結(jié)構(gòu)中存在的社團信息,其有助于種群發(fā)現(xiàn)、蛋白質(zhì)組功能分析、興趣組挖掘等。社團保護的本質(zhì)是社團檢測的逆工作,其研究動機主要有兩方面。
社團隱私保護(社團欺騙、社團隱藏)技術(shù)對于想要在社交網(wǎng)絡(luò)中隱藏的用戶(作為一個群體)是有利的。例如,網(wǎng)絡(luò)警察需要以便衣的身份在社交網(wǎng)絡(luò)中進行犯罪取證,需要有幾點保障。第一,便衣警察需要與普通的社交用戶進行正常的社交活動(即保留每位用戶參與社交活動的權(quán)利),以免引起非法用戶的察覺而銷毀罪證或逃離。第二,犯罪團伙的警覺性比普通人高,即信息、行為模式等僅在團伙內(nèi)部共享。同時犯罪團伙需要不斷吸納新成員來壯大其不法組織并獲取利潤。此時,便衣警察可以趁機打入犯罪團伙的社團,即臥底形式。與現(xiàn)實生活中的臥底形式相似,所有便衣警察及其所在的社團需要采取一些措施,包括與目標(biāo)社團成員請求建立鏈接關(guān)系,同時疏散警員之間的鏈接關(guān)系,從而取得犯罪團伙多數(shù)成員的鏈接建立請求。犯罪團伙認為某便衣警察符合其社團成員標(biāo)準(zhǔn),即符合社團劃分的結(jié)果,則接納該警察為團伙成員,共享組織內(nèi)部信息以及活動。因此,在這種情況下,警員社團是敏感的,是需要被保護的對象。綜上所述,積極的社團隱私保護技術(shù)有助于降低網(wǎng)絡(luò)犯罪、凈化網(wǎng)絡(luò)環(huán)境、保障用戶以及整個社會的安全。
與此同時,社團保護技術(shù)可能被惡意利用。例如,犯罪組織想在不被察覺的情況下采用與上述類似的社團滲透等手段滲透到各個目標(biāo)社團,收集社團內(nèi)的用戶個人資料以及共享的私密信息等,從而鎖定目標(biāo)受害者進行敲詐、勒索、虛假信息傳播等犯罪活動。惡意的社團欺騙等方法對社會的危害極大,會降低用戶對社交網(wǎng)絡(luò)的信任度,引發(fā)信任危機,甚至給社會帶來巨大的負面影響。
因此,社團隱私保護技術(shù)是一把雙刃劍。已有科研人員在社團防護方面做了相關(guān)的研究工作。接下來將詳細對其中的工作進行介紹。
社團檢測與社團保護的基礎(chǔ)是真實的社團數(shù)據(jù),表1展示了一些被廣泛使用的真實社交網(wǎng)絡(luò)數(shù)據(jù)集。
表1 相關(guān)工作所使用的社交網(wǎng)絡(luò)數(shù)據(jù)集
隨著研究人員對社團安全的關(guān)注度越來越高,他們的研究成果不斷涌現(xiàn)。本文將現(xiàn)有的社團隱私保護方法歸結(jié)為兩類主要研究思路:基于目標(biāo)社團(target community)和基于全社團的社團隱私保護,本節(jié)將分別以上述兩類研究思路為切入點對各種算法的核心思想、基本技術(shù)、研究成果以及評價指標(biāo)等進行綜述性研究,并對各自存在的問題和挑戰(zhàn)進行分析與說明。
基于目標(biāo)社團的隱私保護技術(shù)的研究方法主要通過刪除或增加相應(yīng)數(shù)量的合適鏈路邊來擾動目標(biāo)社團在網(wǎng)絡(luò)中的內(nèi)部結(jié)構(gòu)以及目標(biāo)社團與外部成員的聯(lián)系程度,使目標(biāo)社團盡可能地隱藏于網(wǎng)絡(luò)中。據(jù)此,現(xiàn)有的研究有幾種不同的方法:基于社團安全性優(yōu)化和模塊度的社團隱藏算法[22]、基于新的社團安全性優(yōu)化的社團隱藏算法[23]、基于模塊度啟發(fā)式的社團隱藏算法[24]、基于節(jié)點集模塊度的社團隱藏算法[25]以及基于模塊度和遺傳算法的社團隱藏算法[26]。
(1)基于社團安全性優(yōu)化和模塊度的社團隱藏算法
緊接著,該文獻定義了社團安全性,如式(6)所示。
針對該文獻研究的不足,未來的研究途徑有:首先,考慮設(shè)計更加健全或通用的計算社團安全性的公式;其次,實驗僅考慮在社團內(nèi)部刪除邊操作以及在社團之間增加新邊操作,社團內(nèi)部加邊和社團之間刪除邊操作不具有現(xiàn)實意義,從而導(dǎo)致在實驗中人為排除了這兩種操作的可行性,然而在約束條件滿足之下,后兩種方案也可能產(chǎn)生正面影響。
(2)基于新的社團安全性優(yōu)化的社團隱藏算法
該文獻沿用了文獻[22]中對于目標(biāo)社團與社團外部之間安全性的定義,如式(9)所示。
綜合目標(biāo)社團內(nèi)部安全性和目標(biāo)社團與社團外部安全性的評估方案,提出了均衡性的目標(biāo)社團安全性的定義,如式(10)所示。
文獻[23]在文獻[22]的基礎(chǔ)上設(shè)計了新的計算社團安全的公式,排除了文獻[22]中證明部分的不利之處,然而該文獻的研究關(guān)注點仍然比較單一,如該方法只針對非重疊社團檢測技術(shù)且僅對靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)進行研究等。
(3)基于模塊度啟發(fā)式的社團隱藏算法
圖1 社團隱藏算法Hs的流程
Figure 1 Schematic diagram of community hiding algorithmH
綜上,文獻[24]的研究突破了小型網(wǎng)絡(luò)變化對實驗的影響,并且對中心度測量和社區(qū)檢測算法的靈敏度分析進行了擴展;另外,文獻[24]的研究發(fā)現(xiàn)有助于繪制出在社交網(wǎng)絡(luò)中保護隱私的界限,同時揭示了在安全應(yīng)用程序中使用通用的社會網(wǎng)絡(luò)分析工具的含義。然而該文獻仍未指明如何從鏈路預(yù)測算法的角度隱藏個體或社團間的關(guān)系或者如何通過特征向量中心來逃避檢測等。
(4)基于節(jié)點集模塊度的社團隱藏算法
文獻[25]提出的關(guān)于社團隱藏的研究時間較早,實驗中只關(guān)注于向具有高中心性值(如度中心性)的節(jié)點添加鏈路,關(guān)注點單一;此外,該文獻僅對郵件網(wǎng)絡(luò)進行了實驗,應(yīng)在大規(guī)模網(wǎng)絡(luò)上進行擴展。
(5)基于模塊度和遺傳算法的社團隱藏算法
文獻[26]引入了社區(qū)檢測攻擊的問題,并通過重新連接少量邊制定有效的策略來攻擊社區(qū)檢測算法。全文提出了4種社團欺騙方法:隨機攻擊(RA)策略、社區(qū)檢測攻擊(CDA)、基于節(jié)點度的攻擊(DBA)、基于遺傳(GA)算法的模塊度(GA-based Q-attack)策略。該文獻將模塊度(modularity)和標(biāo)準(zhǔn)化互信息(normalized mutual information)作為評價指標(biāo),實驗結(jié)果表明,在考慮大多數(shù)的情況下,GA-based Q-attack的性能優(yōu)于RA、CDA和DBA。
雖然GA-based Q-attack方法有一定優(yōu)勢,但該方法僅以模塊度作為單優(yōu)化目標(biāo),然而基于多目標(biāo)優(yōu)化的方法也值得深入研究。此外,通過簡化遺傳算法中適應(yīng)度計算和選擇時間復(fù)雜度較低的優(yōu)化算法來設(shè)計效率更高的攻擊策略也是未來的研究重點之一。
表2歸納總結(jié)了上述基于目標(biāo)社團隱私保護的相關(guān)工作。由表2可知,文獻[25]僅使用了添加新的鏈路操作,未考慮刪除鏈路操作對社團隱私保護的影響;文獻[24-26]僅針對模塊度優(yōu)化檢測技術(shù)進行社團隱私的保護,然而,目前還存在其他大量的檢測算法未被加以考慮,如隨機游走算法[2]或標(biāo)簽傳播算法[19]等。此外,文獻[25]在進行社團隱私保護前需要獲得網(wǎng)絡(luò)中每一個節(jié)點的中心性值,因而相比于其他只需要目標(biāo)社團節(jié)點所包含的邊的方法而言,文獻[25]所需的網(wǎng)絡(luò)信息更多。文獻[22-23]提出了一種有針對性的被稱為社區(qū)安全的欺騙目標(biāo)函數(shù),并通過對目標(biāo)函數(shù)的優(yōu)化來進行社團隱藏操作。其中,文獻[23]改進了文獻[22]的社團安全性的定義,該優(yōu)化方案的突出貢獻是排除了文獻[22]中有關(guān)在社團內(nèi)部增加邊和在社團之間刪除邊的操作對實驗結(jié)果的影響,即假設(shè)欺騙算法不會新增目標(biāo)社團內(nèi)部的鏈接和不會刪除目標(biāo)社團與外部成員之間已存在的鏈路。由表2可知,現(xiàn)有的基于目標(biāo)社團隱私保護研究工作的不足之處主要有:①研究的關(guān)注點或關(guān)注目標(biāo)較為單一;②社交網(wǎng)絡(luò)類型不足,只關(guān)注非重疊社團的網(wǎng)絡(luò);③反欺騙等真實應(yīng)用問題還未深入研究等。
表2 基于目標(biāo)社團中隱私保護的相關(guān)工作對比
其中,表示與所有的邊的集合,表示與公有的邊的集合。
Figure 2 The process of the-isomorphic algorithm
-同構(gòu)算法所需要的匿名成本如式(18)所示。
文獻[27]結(jié)合-同構(gòu)算法,針對現(xiàn)有算法在社團檢測劃分存在的不足,提出節(jié)點角色類型改進策略,并以“指針?計數(shù)”機制為原型提出基于結(jié)構(gòu)相關(guān)的社團檢測方法通用處理模型BSCHEF,使社團劃分更加合理清晰。此外,文獻[27]還提出基于最大共有子圖的添加結(jié)果集的驗證環(huán)節(jié)的圖相似性檢測(MPD_V)算法,該算法可以在層次性鏈?zhǔn)缴线M行搜索,有效降低了計算的復(fù)雜度。
圖3 同構(gòu)算法的流程
文獻[27]還提出兩個可行性研究方向:①研究在多角色節(jié)點和大量數(shù)據(jù)背景下的并行化方案;②研究BSCHEF和MPD_V算法在隱藏效果上抵抗攻擊的能力以及能否對算法的性能進行提升等。
(2)基于社交網(wǎng)絡(luò)分級隱私保護的全社團隱藏算法
圖4 分級隱私保護技術(shù)示意
Figure 4 Schematic diagram of Hierarchical privacy protection technology
此外,文獻[28]引入了文獻[60]提出的匿名化算法評價標(biāo)準(zhǔn)評估算法的效用:信息丟失率(COSTA)和平均路徑長度(APL),具體的計算方法分別如式(19)和式(20)所示。
分級匿名模型在社團匿名化過程中的信息丟失率雖然有所降低,但由圖4可知,該文獻主要依據(jù)單一的影響力等級劃分的計算結(jié)果,隱私等級的劃分條件較為薄弱,算法的可擴展性較低,未來需要結(jié)合數(shù)據(jù)的具體特征、隱私需求等因素細化等級,劃分方法。該文獻的研究結(jié)果是基于攻擊者的背景知識為節(jié)點的度,尚未考慮背景知識為子圖等情況,還需進行深入研究。
表3詳細歸納比較了上述基于全社團隱私保護思想的相關(guān)工作。文獻[27]以增邊或刪邊操作來達到個社團相互同構(gòu)的目的,以此獲得社團結(jié)構(gòu)被擾動后的社交網(wǎng)絡(luò),從而保護社團隱私;文獻[28]提出了一種通過劃分社交網(wǎng)絡(luò)社團絡(luò)隱私保護等級進行針對性社團保護的分級隱私保護方法,該方案的不足之處在于劃分隱私等級時的劃分依據(jù)單一,應(yīng)該考慮加入更多的劃分因素等。
表3 基于全社團中隱私保護的相關(guān)工作對比
由于社交網(wǎng)絡(luò)社團隱私保護關(guān)系到用戶信息泄露的隱患,科研人員已經(jīng)著手于在社交網(wǎng)絡(luò)中保護社團內(nèi)部信息免受社交網(wǎng)絡(luò)社團分析工具的挖掘攻擊。本文以社交網(wǎng)絡(luò)的社團為切入點,通過社區(qū)檢測算法的弊端來引出研究內(nèi)容:社交網(wǎng)絡(luò)社團隱私保護。本文針對社團結(jié)構(gòu)安全問題綜合整理了現(xiàn)有的關(guān)于社交網(wǎng)絡(luò)社團隱私保護的文獻,對文獻中所提出的核心思想、核心方法、評價指標(biāo)、對照實驗等進行了較詳細的綜合性論述。目前這一領(lǐng)域仍有廣闊的研究前景,其潛在的研究方向有以下幾個方面。
1)跨社團隱私保護技術(shù)。真實的社交網(wǎng)絡(luò)中,對單個目標(biāo)社團的隱私保護往往會使保護力度不夠,可能存在多社團或跨社團保護的需求?,F(xiàn)有方法要么針對單目標(biāo)社團防護,要么針對所有社團進行防護,缺乏多目標(biāo)或跨目標(biāo)社團防護技術(shù)。多目標(biāo)社團防護技術(shù)不單單是多個單社團防護技術(shù)的組合,因為在多社團或跨社團中,擾動一條鏈路可能導(dǎo)致復(fù)雜多樣的結(jié)果,如有助于A社團隱藏,但會加劇B社團的暴露,使目標(biāo)函數(shù)特性更加復(fù)雜,增加計算過程的復(fù)雜度。因此,高效的多社團或跨社團防護技術(shù)的研究將是重點與難點。
2)社團推斷(community inference)。社團隱私保護技術(shù)本質(zhì)上是社團檢測的逆過程,社團保護的目的是混淆社團結(jié)構(gòu),達到欺騙社團檢測的目的。那么,挖掘隱藏的社團就成為新的問題,具有重要的實際應(yīng)用需求。因此,社團推斷的研究迫在眉睫,其與社團檢測不同,社團推斷需要補足缺失信息,識別虛假鏈路,進而采用先進的社團劃分方法挖掘隱藏的社團。
3)動態(tài)社交網(wǎng)絡(luò)的社團隱私保護。當(dāng)前的社團研究尤其社團隱私保護都聚焦在靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)上,但實際的社交網(wǎng)絡(luò)都是動態(tài)演進的。演進過程中不斷有新的鏈路出現(xiàn),舊的鏈路消失,社團檢測的結(jié)果在不斷演進,給社團隱藏的效果帶來不確定性。因此,如何設(shè)計新的社團保護機制或優(yōu)化現(xiàn)有機制使其能夠自適應(yīng)動態(tài)社交網(wǎng)絡(luò),為目標(biāo)社團提供動態(tài)的防護有待解決。進一步地,社團推斷是否可以自適應(yīng)動態(tài)網(wǎng)絡(luò)進行精準(zhǔn)推斷仍然是未解之謎。
4)多層網(wǎng)絡(luò)或異質(zhì)信息網(wǎng)絡(luò)的社團隱私問題?,F(xiàn)實生活中的不同網(wǎng)絡(luò)之間具有互相依賴關(guān)系,或呈現(xiàn)多層網(wǎng)絡(luò)形態(tài),如社交網(wǎng)絡(luò)的支撐網(wǎng)絡(luò)是因特網(wǎng)。更進一步,社交鏈接的定義或表征含義多樣,本質(zhì)上是異質(zhì)信息網(wǎng)絡(luò)(heterogenous information network),那么針對復(fù)雜多樣的網(wǎng)絡(luò)形態(tài)進行社團隱藏需要更加復(fù)雜有效的解決辦法,有待廣大科研工作者的努力奉獻。
5)基于博弈論的社團安全對抗研究。社團發(fā)現(xiàn)(包括社團檢測與社團推斷)與社團防護之間的對抗屬于博弈論的范疇。因此,基于博弈論的社團安全對抗研究將成為一種必需的解決方案。
6)社團隱私防護在實際系統(tǒng)中的應(yīng)用問題。當(dāng)前研究集中在已公開的社交網(wǎng)絡(luò)數(shù)據(jù)集上進行,離真正在實際社交網(wǎng)絡(luò)應(yīng)用還有距離。如何系統(tǒng)地評估社團隱私保護技術(shù)的影響、代價、用戶與運營商的接受程度等,并付諸應(yīng)用是社團研究的最終目的。
[1]Wikipedia. Complex network[EB].
[2]XUAN Q, ZHANG Z Y, FU C, et al. social Synchrony on complex networks[J]. IEEE Transactions on Cybernetics, 2018, 48(5): 1420-1431.
[3]XUAN Q, FANG H, FU C, et al. Temporal motifs reveal collaboration patterns in online task-oriented networks[J]. Physical Review E, 2015, 91(5): 052813.
[4]GARCIA J O, ASHOURVAN A, MULDOON S, et al. Applications of community detection techniques to brain graphs: algorithmic considerations and implications for neural function[J]. Proceedings of the IEEE Institute of Electrical and Electronics Engineers, 2018, 106(5):1-22.
[5]CHEN Z, WU J, XIA Y, et al. Robustness of interdependent power grids and communication networks: a complex network perspective[J]. IEEE Transactions on Circuits & Systems Ⅱ Express Briefs, 2018, 65(1): 115-119.
[6]SCHIAVO S, REYES J, FAGIOLO G. International trade and financial integration: a weighted network analysis[J]. Quantitative Finance, 2010, 10(4): 389-399.
[7]FU C, ZHAO M, FAN L, et al. Link weight prediction using supervised learning methods and its application to yelp layered network[J]. IEEE Transactions on Knowledge & Data Engineering, 2018, 30(8): 1507-1518.
[8]CLAUSET A, MOORE C, NEWMAN M E. Hierarchical structure and the prediction of missing links in networks[J]. Nature, 2008, 453(7191): 98-101.
[9]KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[C]//ICLR. 2016.
[10]ZHANG H F, XU F, BAO Z K, et al. Reconstructing of networks with binary-state dynamics via generalized statistical inference[J]. Circuits & Systems I Regular Papers IEEE Transactions, 2019, 66(4): 1608-1619.
[11]王永剛,蔡飛志,LUA E K,等. 一種社交網(wǎng)絡(luò)虛假信息傳播控制方法[J]. 計算機研究與發(fā)展, 2012, 49(S2): 131-137.
WANG Y G, CAI F Z, LUA E K, et al. A diffusion control method of fake information in social networks[J]. Journal of Computer Research and Development, 2012, 49(S2): 131-137.
[12]ZHENG J G, PAN L. Least cost rumor community blocking optimization in social networks[C]//2018 Third International Conference on Security of Smart Cities, Industrial Control System and Communications (SSIC). 2018: 1-5.
[13]SPIRIN V, MIRNY L A. Protein complexes and functional modules in molecular networks[J]. Proceedings of the National Academy of Sciences, 2003, 100(21): 12123-12128.
[14]GOH K I, CUSICK M E, VALLE D, et al. The human disease network[J]. Proceedings of the National Academy of Sciences, 2007, 104(21): 8685-8690.
[15]NEWMAN M E. The Structure and function of complex networks[J]. SIAM Review, 2003, 45(2): 167-256.
[16]GIRVAN M, NEWMAN M E. Community structure in social and biological networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(12): 7821-7826.
[17]NEWMAN M E, GIRVAN M. Finding and evaluating community structure in networks[J]. Physical Review E, 2004, 69(2): 026113.
[18]PALLA G, DERENYI I, FARKAS I, et al. Uncovering the overlapping community structure of complex networks in nature and society[J]. Nature, 2005, 435(23): 814-818.
[19]RAGHAVAN U N, ALBERT R, KUMARA S. Near linear time algorithm to detect community structures in large-scale networks[J]. Physical Review E, 2007, 76(3): 036106.
[20]RHEINGOLD H. The virtual community: homesteading on the electric frontier[M]. New York: Harper Perennial, 1993.
[21]姚瑞欣, 李暉, 曹進. 社交網(wǎng)絡(luò)中的隱私保護研究綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2016, 2(4): 33-43.
YAO R X, LI H, CAO J. Overview of privacy preserving in social network[J]. Chinese Journal of Network and Information Security. 2016, 2(4): 33-43.
[22]FIONDA V, PIRRO G. Community deception or: how to stop fearing community detection algorithms[J]. IEEE Transactions on Knowledge & Data Engineering, 2018, 30(4): 660-673.
[23]CHEN X Y, JIANG Z Y, LI H, et al. Community hiding by link rewiring in social networks[J]. IEEE Transactions on Big Data, 2020.
[24]WANIEK M, MICHALAK T, RAHWAN T, et al. Hiding individuals and communities in a social network[J]. Nature Human Behaviour, 2018, 2: 139-147.
[25]NAGARAJA S. The impact of unlinkability on adversarial community detection: effects and countermeasures[C]//Privacy Enhancing Technologies, International Symposium. 2010: 253-272.
[26]CHEN J Y, CHEN L H, CHEN Y X, et al. GA-based q-attack on community detection[J]. IEEE Transactions on Computational Social Systems. 2019, 6(3): 491-503.
[27]榮歡. 社會網(wǎng)絡(luò)中社團K-匿名研究[D]. 南京:南京信息工程大學(xué), 2016.
RONG H. The study of community K-anonymization in social network[D]. Nanjing: Nanjing University of Information Science & Technology, 2016.
[28]陸越. 基于社團劃分的社交網(wǎng)絡(luò)分級隱私保護算法研究[D]. 上海:上海交通大學(xué), 2018.
LU Y. Hierarchical privacy protection algorithm for social network based on community division[D]. Shanghai: Shanghai Jiao Tong University, 2018.
[29]FORTUNATO S. Community detection in graphs[J]. Physics Reports, 2010, 486(3-5): 75-174.
[30]楊博, 劉大有, 金弟, 等. 復(fù)雜網(wǎng)絡(luò)聚類方法[J]. 軟件學(xué)報,2009, 20(1): 54-66.
YANG B, LIU D Y, JIN D, et al. Complex network clustering algorithms[J]. Journal of Software, 2009, 20(1): 54-66.
[31]NEWMAN M E. Modularity and community structure in networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2006, 103(23): 8577-8582.
[32]NEWMAN M E. Fast algorithm for detecting community structure in networks[J]. Physical Review E, 2003, 69: 066133.
[33]CLAUSET A, NEWMAN M E, MOORE C. Finding community structure in very large networks[J]. Physical Review E, 2004, 70: 066111.
[34]LI Z P, ZHANG S H, WANG R S, et al. Quantitative function for community detection[J]. Physical Review E, Statistical Nonlinear & Soft Matter Physics, 2008, 77: 036109.
[35]ROSVALL M, BERGSTROM C T. An information-theoretic framework for resolving community structure in complex networks[J]. Proceedings of the National Academy of Sciences, 2007, 104(18): 7327-7331.
[36]ROSVALL M, BERGSTROM C T. Maps of random walks on complex networks reveal community structure[J]. Proceedings of the National Academy of Sciences, 2008, 105(4): 1118-1123.
[37]BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics Theory & Experiment, 2008(10): 10008.
[38]SHI C, YAN Z, WANG Y, et al. A genetic algorithm for detection communities in larger-scale complex networks[J]. Advances in Complex Systems, 2010, 13(1): 3-17.
[39]DONGEN S M. Graph clustering by flow simulation[D]//University of Utrecht, The Netherlands, (CWI). 2000: 238-247.
[40]尹欣紅. 基于連接模式的相關(guān)分析及帶偏置的隨機游走的社團檢測方法研究[D]. 蘭州:蘭州大學(xué), 2019.
YIN X H. Research on correlation analysis based on link pattern and community detection method with random walk with bias[D]. Lanzhou: Lanzhou University, 2019.
[41]YUAN Y L, SOH D, YANG H, et al. Learning overlapping community-based networks[J]. IEEE Transactions on Signal and Information Processing over Networks, 2019, 5(4): 684-697.
[42]YANG J, LESKOVEC J. Overlapping community detection at scale: a nonnegative matrix factorization approach[C]//Proceedings of the Sixth ACM International Conference on Web Search and Data Mining. 2013: 587-596.
[43]AHN Y Y, HAN S, KWAK H,et al. Analysis of topological characteristics of huge online social networking services[C]//International Conference on World Wide Web. ACM, 2007: 835-844.
[44]KIM Y, JEONG H. Map equation for link communities[J]. Physical Review E, 2011, 84(2): 026110.
[45]YE Q, WU B, ZHAO Z, et alDetecting link communities in massive networks[C]//International Conference on Advances in Social Networks Analysis & Mining. IEEE Computer Society, 2011: 71-78.
[46]LANCICHINETTI A, FORTUNATO S, JANOS K. Detecting the overlapping and hierarchical community structure in complex networks[J]. New Journal of Physics, 2009, 11(3): 033015.
[47]ANDREA L, FILIPPO R, RAMASCO J J, et al. Finding statistically significant communities in networks[J]. Plos One, 2011, 6(4): 18961.
[48]PADROL S A, PERARNAU L G, PFEIFLE J, et alOverlapping community search for social networks[C]//IEEE International Conference on Data Engineering. 2010: 992-995.
[49]LEE C, REID F, MCDAID A, et al. Detecting highly overlapping community structure by greedy clique expansion[J]. arXiv: 1002.1827, 2010.
[50]DU N, WANG B, WU B. Detecting highly overlapping community structure by greedy clique expansion[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management. 2008: 1371-1372.
[51]ZHANG H, QIU B, GILES C L, et al. An LDA-based community structure discovery approach for large-scale social networks[C]//IEEE International Conference on Intelligence & Security Informatics. 2007: 200-207.
[52]PSORAKIS I, ROBERTS S, EBDEN M,et al. Overlapping community detection using Bayesian non-negative matrix factorization[J]. Physical Review E, 2011, 83(6): 066114.
[53]NEPUSZ T, PETROCZI A, NEGYESSY L, et al. Fuzzy communities and the concept of bridgeness in complex networks[J]. Physical Review E, 2008, 77(1): 016107.
[54]NEWMAN M E, LEICHT E A. Mixture models and exploratory analysis in networks[J]. Proceedings of the National Academy of ences of the United States of America, 2007, 104(23): 9564-9569.
[55]AIROLDI E M, BLEI D M, FIENBERG S E, et al. Mixed membership stochastic blockmodels[J]. Journal of Machine Learning Research, 2008, 9(3):33-40.
[56]ABRAHAO B, SOUNDARAJAN S, HOPCROFT J, et al. A separability framework for analyzing community structure[J]. ACM Transactions on Knowledge Discovery from Data, 2014, 8(1): 101-129.
[57]JIANG Z Y, LI J, MA J F. Similarity-based and sybil attack defended community detection for social networks[J]. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2020.
[58]李歡, 莫欣岳. 復(fù)雜網(wǎng)絡(luò)重疊社團檢測算法研究綜述[J]. 傳感器與微系統(tǒng), 2017, 36(1): 1-4.
LI H, MO X Y. Research review on detection algorithm of overlapping community in complex network[J]. Transducer and Microsystem Technologies, 2017, 36(1): 1-4.
[59]于樂. 社會網(wǎng)絡(luò)中社團發(fā)現(xiàn)及網(wǎng)絡(luò)演化分析[D]. 北京:北京郵電大學(xué), 2014.
YU L. Research on community detection and evolution analysis in social network[D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[60]LU K, TERZI E. Towards identity anonymization on graphs[C]// Proceedings of the 2008 ACM SIGMOD, International Conference on Management of Data ACM. 2008: 93-106.
Survey of community privacy in social network
JIANG Zhongyuan, CHEN Xianyu, MA Jianfeng
School of Cyber Engineering, Xidian University, Xi'an 710000, China
Community is an important feature of social network and the development of community detection technology brings the danger of privacy disclosure to network users. How to protect sensitive community information from being leaked and ensure the security of users and communities has become a research hotspot in the field of network security. In recent years, community privacy protection technology has made initial progress, but there is a few survey on the research of community privacy or community security in social networks, and it may limit the potential and long-term development of this research topic. The research on the privacy of community structure was mainly reviewed and the related works on community security were classified, summarized, compared. The hot issues of community security in the future were proposed.
social network, community detection, community privacy, community safety, community hiding
TP309
A
10.11959/j.issn.2096?109x.2021021
2020?04?11;
2020?08?02
陳賢宇,xychen_3@stu.xidian.edu.cn
國家自然科學(xué)基金(61502375);陜西省自然科學(xué)基礎(chǔ)研究計劃(2020JM-203);中央高效基本科研業(yè)務(wù)費項目(10223196150)
The National Natural Science Foundation of China(61502375), The Natural Science Basis Research Plan in Shaanxi Province of China (2020JM-203), The Fundamental Research Funds for the Central Universities (10223196150)
蔣忠元, 陳賢宇, 馬建峰. 社交網(wǎng)絡(luò)中的社團隱私研究綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2021, 7(2): 10-21.
JIANG Z Y, CHEN X Y, MA J F. Survey of community privacy in social network[J]. Chinese Journal of Network and Information Security, 2021, 7(2): 10-21.
蔣忠元(1988? ),男,陜西榆林人,博士,西安電子科技大學(xué)副教授,主要研究方向為大數(shù)據(jù)安全、復(fù)雜網(wǎng)絡(luò)安全研究、復(fù)雜網(wǎng)絡(luò)傳輸動力學(xué)、網(wǎng)絡(luò)功能虛擬化、城市計算。
陳賢宇(1996? ),男,安徽六安人,西安電子科技大學(xué)碩士生,主要研究方向為社交網(wǎng)絡(luò)隱私與保護、社團檢測。
馬建峰(1963? ),男,陜西西安人,博士,西安電子科技大學(xué)教授、博士生導(dǎo)師、主要研究方向為應(yīng)用密碼學(xué)、無線網(wǎng)絡(luò)安全、數(shù)據(jù)安全、移動智能系統(tǒng)安全。