卞怡倩 ,趙 濤,李 欣
安徽財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,安徽蚌埠,233030
作為能夠滿足用戶日常活動需求的平臺,社交網(wǎng)絡(luò)(Social Network Service即SNS)已成為許多人進(jìn)行各種活動時不可或缺的一部分。不同SNS提供了不同的功能,例如,微信、Facebook等網(wǎng)站主要為用戶提供了日常交流的功能,而微博、Twitter等則是一種可以通過關(guān)注機制為用戶提供及時消息以及分享日常的平臺。同一個用戶往往會進(jìn)行一個以上的SNS賬號注冊,以滿足使用者所有層面的需求。為了識別出同一用戶在不同SNS中的虛擬身份,進(jìn)行更加精準(zhǔn)的用戶畫像描述,提供個性化的服務(wù)以及維持網(wǎng)絡(luò)秩序,跨社交網(wǎng)絡(luò)的用戶身份識別技術(shù)已成為當(dāng)前的熱點問題。
社交網(wǎng)絡(luò)中的用戶名[1-3]、用戶昵稱[4-6]以及用戶生成內(nèi)容(UGC)信息[7-10]都可以辨別出不同SNS中的同一使用者。但隨著用戶隱私保護(hù)意識的增強,不同社交網(wǎng)絡(luò)的可訪問信息變得越來越分散且不一致,導(dǎo)致這些方法會出現(xiàn)識別精確度低、信息不易獲取的問題。在SNS中,用戶的關(guān)系不易偽造,通常沒有兩個用戶能夠共享完全相同的朋友關(guān)系;一些社交網(wǎng)站為了給用戶提供更好的服務(wù),會公開獲取用戶關(guān)系的接口,使得用戶關(guān)系的獲取變得更加容易。因此,基于用戶關(guān)系信息的身份識別比其他方法更可靠、更精確。
在現(xiàn)有的研究中,基于用戶關(guān)系的身份識別主要分為三類:是否基于先驗節(jié)點、基于多種維度信息以及其他識別方法。
現(xiàn)有的多數(shù)基于用戶關(guān)系的識別方法均是有監(jiān)督或半監(jiān)督的,這需要事先獲得一些匹配相同的用戶或種子用戶,即先驗知識。Zhou等[11]對不同社交網(wǎng)絡(luò)中的所有候選用戶的匹配度進(jìn)行計算,篩選出匹配度高的用戶,視為相同用戶來衡量,并通過共同擁有的相同用戶的數(shù)量以及相同用戶的相似度進(jìn)行匹配來提高該算法的效率。這種FRUI算法能夠基于用戶的朋友關(guān)系對用戶身份進(jìn)行識別,只有匹配度高的用戶才會被視為同一用戶,該模型也能很好地適應(yīng)跨平臺任務(wù)。作者在進(jìn)一步的研究中發(fā)現(xiàn),當(dāng)種子節(jié)點不合適時,這種算法將會停止運行,因此針對這一現(xiàn)象,Li等[12]通過引入一個新的計算方法p-FRUI對有爭議的節(jié)點進(jìn)行一種復(fù)雜計算,提高了這一算法的識別精度。
劉奇飛等[13]對傳統(tǒng)的LINE算法加以改良,將算法與先驗關(guān)聯(lián)關(guān)系結(jié)合,提出CSN_LINE算法改進(jìn)一、二階親密度函數(shù),利用多層感知機構(gòu)建了基于用戶關(guān)系的用戶識別算法模型。文中將已獲取的用戶關(guān)系數(shù)據(jù)在DeepWalk、node2vec以及LINE算法中通過召回率(recall)、精確率(precision)以及正確率(accuracy)進(jìn)行效果對比驗證了LINE算法的可行性,并選取不同的調(diào)節(jié)參數(shù)值對CSN_LINE模型驗證,發(fā)現(xiàn)當(dāng)參數(shù)值為5、7、9時,身份關(guān)聯(lián)效果最佳,其F1值分別達(dá)到了0.856 3、0.855 2、0.858 3,進(jìn)一步驗證了經(jīng)過改良的LINE算法的可行性。
當(dāng)先驗節(jié)點無從獲取時,通過人工標(biāo)識來獲取數(shù)據(jù)將變成一項困難的工作。Zhou等[14]提出了模型FRUI-P來識別多個SNS使用者的關(guān)系。這種算法首先將選取的社交網(wǎng)絡(luò)中用戶的好友特征通過深度學(xué)習(xí)中的隨機游走算法抽象為特征向量,得到兩個社交網(wǎng)絡(luò)相同用戶的好友相似性,最后利用計算相似性來識別用戶,并從理論上驗證了模型的可行性。引入了三個參數(shù)來改善模型的性能以及λ保證模型的高精度,并發(fā)現(xiàn)隨著λ值的正向變化,模型的精度也隨之上升。該算法識別結(jié)果的精度較高,最終還被證實能夠為其他算法如先前的FRUI等提供先驗知識。
Li[15]認(rèn)為,K-hop鄰居的信息冗余對用戶識別具有一定的積極作用,于是利用K-hop鄰居節(jié)點的相似程度(用戶朋友關(guān)系、用戶朋友群、聚類系數(shù))來描述友誼網(wǎng)絡(luò)中的信息冗余,并在十個常用分類器中處理這些信息冗余時發(fā)現(xiàn),GB在處理三個SNS中獲取的真實數(shù)據(jù)集時的分類性能較高,通過實驗計算出了GB的最優(yōu)參數(shù),使特征重要性趨于平衡,以提高分類性能,最后在數(shù)據(jù)集中驗證了本文提出的UI-FR算法的有效性。實驗結(jié)果發(fā)現(xiàn),與K-hop鄰居相關(guān)的相似性對用戶識別的貢獻(xiàn)遠(yuǎn)遠(yuǎn)大于其他參數(shù)的相似性,并且K-hop鄰居的信息冗余在用戶識別中具有很好的性能。
由表1可知,基于有先驗節(jié)點的識別方法精確率普遍低于無先驗節(jié)點的識別結(jié)果。其中,造成FRUI識別精度最低的原因是每個數(shù)據(jù)中共同關(guān)系的JACCARD相似系數(shù)的比例非常低,且該算法在很大程度上依賴于共同關(guān)系的比例,因此識別精度較低。而UI-FR則使用了很多特征來匹配用戶,因而大大提升了最終的識別精度。
表1 各算法識別結(jié)果對比
基于有先驗節(jié)點的識別方法算法的實現(xiàn)相對簡單,但需要一些特定用戶的信息,在一些難以獲得先驗知識的情況下,手動標(biāo)記先驗知識將會十分困難,因而該方法有一定的局限性?;跓o先驗節(jié)點的方法克服了有先驗節(jié)點方法的弊端,解決了手動標(biāo)記的問題,且還可用于生成監(jiān)督、半監(jiān)督方法的先驗知識,但該方法的實現(xiàn)也較為復(fù)雜、困難。
在研究中發(fā)現(xiàn),基于單個用戶關(guān)系的識別有時會受到數(shù)據(jù)集大小等因素的限制,因此一些學(xué)者開始基于多維度信息識別用戶以提高識別效果。
Vosecky等[16]在早期對用戶身份進(jìn)行識別時,采用了一種基于輪廓屬性和友誼網(wǎng)絡(luò)的方法,為基于用戶關(guān)系冗余信息的身份識別開創(chuàng)了先例。文獻(xiàn)通過已有的兩個社交網(wǎng)站數(shù)據(jù)集,研究輪廓屬性的相似性,開發(fā)了一個輪廓屬性比較工具,將配置文件的表示作為向量,求得兩個輪廓向量的類似程度。當(dāng)兩個配置文件的相似度達(dá)到一定的閾值時,該內(nèi)容即屬于同一個使用者。最后結(jié)果展示了該模型在不同的網(wǎng)站上匹配相同用戶的有效性與高效性。
雖然UI-FR在實驗中取得了較其他算法更高的精度,但友誼網(wǎng)絡(luò)的獲取仍會受到用戶設(shè)置的影響。為了解決這個問題,擴大數(shù)據(jù)集,Li[15]將用戶好友關(guān)系與顯示名稱相結(jié)合,利用顯示名稱冗余信息提高原算法的識別精度。在可獲得的數(shù)據(jù)集中,基于用戶顯示名稱的數(shù)據(jù)集遠(yuǎn)大于基于用戶關(guān)系的數(shù)據(jù)集,但由于顯示名稱具有可偽造性,因此基于單個用戶名稱的識別不能展現(xiàn)出很好的匹配效果。如果結(jié)合用戶關(guān)系的獨特性對UI-FR模型進(jìn)行改進(jìn)(UI-FRName),顯然其識別效果高于普通的基于用戶顯示名稱模型。結(jié)果表明,基于用戶關(guān)系和顯示名稱的識別可以極大地提高原模型的性能以及通用性。
Nie等[17]認(rèn)為用戶在進(jìn)行社交網(wǎng)絡(luò)的活動時會展現(xiàn)出幾個特點:用戶的核心利益在短期內(nèi)較為穩(wěn)定;核心利益改變時,用戶在社交網(wǎng)絡(luò)中的虛擬身份的核心利益也會隨之變化;SNS用戶更傾向于與有相同喜好的用戶來往;積極度較高的SNS使用者會在SNS中表現(xiàn)與現(xiàn)實生活中相同的核心偏好?;谶@四個特征,Nie提出了一種基于用戶關(guān)系和原創(chuàng)內(nèi)容的動態(tài)核心利益算法(DCIM)。他將用戶在社交網(wǎng)站中的行為偏向分為核心利益和邊際利益,對核心利益進(jìn)行建模,利用DCIM計算目標(biāo)用戶的相似性,并將模型應(yīng)用于驗證核心利益的合理性以及檢測算法在真實數(shù)據(jù)集中的真實性。在對識別結(jié)果的召回率、準(zhǔn)確率的分析中,驗證了該模型在配對跨SNS用戶匹配中的可行性。
由于基于單個用戶名、用戶生成內(nèi)容以及用戶關(guān)系的方法都有著可識別性弱、稀疏性高等特征,降低了用戶識別的精度,因此Zhang等[18]同時基于用戶名、用戶生成內(nèi)容、用戶關(guān)系作為重疊關(guān)系展開身份識別研究,將微博和豆瓣分別作為源社交網(wǎng)絡(luò)和目標(biāo)社交網(wǎng)絡(luò),評估兩個網(wǎng)站間的重疊關(guān)系和好友關(guān)系特征的相關(guān)性。文章通過眾包、注釋和提取用戶描述獲取種子目標(biāo)并加以訓(xùn)練,利用重疊關(guān)系選取候選用戶集,并根據(jù)用戶名、用戶生成內(nèi)容以及用戶關(guān)系進(jìn)行身份匹配。在通過召回率、準(zhǔn)確率、精確率和F1進(jìn)行評估時展現(xiàn)出了較好的識別性能。
由此可見,將用戶關(guān)系結(jié)合多種維度進(jìn)行身份識別時,在一定程度上能夠改進(jìn)識別方法的結(jié)果。但基于多維度因素的數(shù)據(jù)的收集、建模對技術(shù)的要求高,且計算更為復(fù)雜。因此,基于多維度的身份識別還處于起步階段,現(xiàn)有的研究成果較少,將來仍是一個值得深入研究的課題。
Korula[19]將基于用戶關(guān)系的身份識別問題公式化,設(shè)計了一種局部分散式演算法。他們將有關(guān)圖形的結(jié)構(gòu)信息初始鏈路集擴展為兩個網(wǎng)絡(luò)中很大一部分節(jié)點的映射,遞歸地測量了兩個不同的社交網(wǎng)絡(luò)用戶的相似程度,以描述兩個友誼網(wǎng)絡(luò)的相似性,并在真實的數(shù)據(jù)集上驗證了該算法的可行性。
由Fu等[20]提出了一種建立于圖結(jié)構(gòu)和描述信息的節(jié)點相似度上的測量方法以及基于該方法的一種去匿名化算法。該算法經(jīng)由迭代的過程評估多個SNS中多個節(jié)點的相似性。將該算法與幾種典型的算法在真實數(shù)據(jù)集上進(jìn)行評估,驗證了NM算法在去匿名化任務(wù)中的有效性,在一定程度上解決了無先驗節(jié)點時評估用戶相似性的難題,為其后的研究提供了參考。
Tan等[21]采用了超圖方法,建立高階用戶關(guān)系模型。超圖由點和邊構(gòu)成,每個頂點對應(yīng)一個用戶,每條邊對應(yīng)一個用戶關(guān)系。不同于以往的學(xué)習(xí)方法,這一算法將用戶關(guān)系表示為矩陣形式,并通過降低秩以縮減計算難度。最后用向量計算關(guān)聯(lián)度,并進(jìn)行用戶匹配。
由于相匹配的節(jié)點在不同網(wǎng)絡(luò)中具有一致性,因此可以通過節(jié)點的相似性進(jìn)行用戶匹配,且節(jié)點之間的關(guān)系可以通過親密度量化,因此徐乾[22]提出了一種用戶的好友關(guān)系的帶權(quán)超圖的識別算法(WHUI),結(jié)合網(wǎng)絡(luò)用戶身份的已知節(jié)點信息來表示該節(jié)點所處的關(guān)系結(jié)構(gòu),最終利用交叉匹配算法可以求出匹配的節(jié)點,實現(xiàn)用戶的識別。文中使用DBLP數(shù)據(jù)庫數(shù)據(jù)創(chuàng)建了一個虛擬的社交網(wǎng)絡(luò)并使用一個真實數(shù)據(jù)集進(jìn)行模型測試,發(fā)現(xiàn)算法在各項指標(biāo)上均優(yōu)于傳統(tǒng)算法。
隨著圖神經(jīng)網(wǎng)絡(luò)研究的進(jìn)一步發(fā)展,為用戶身份識別在展現(xiàn)出巨大的潛力的同時也面臨著對具有社區(qū)屬性的全局結(jié)構(gòu)進(jìn)行編碼等的挑戰(zhàn)?;谶@些挑戰(zhàn),Zhang等[23]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的識別算法(GraphUIL),有效地學(xué)習(xí)了社交網(wǎng)絡(luò)的用戶表示,并且解決了用戶關(guān)系的鏈接問題,即用戶身份鏈接預(yù)測,極大地提高了預(yù)測的性能。這種特征學(xué)習(xí)的過程一般稱為節(jié)點嵌入,其目的是為了將網(wǎng)絡(luò)結(jié)構(gòu)映射到一個低維空間,并在此基礎(chǔ)上保留原始特征,以降低計算的難度并改善識別的精度。在結(jié)果的對比測試中,GraphUIL測定結(jié)果的精確率達(dá)到了0.754,遠(yuǎn)遠(yuǎn)優(yōu)于其他現(xiàn)有算法的性能。
綜上,基于用戶關(guān)系的其他識別方法的創(chuàng)新點見表2。
表2 基于用戶關(guān)系的其他識別方法
在基于用戶關(guān)系進(jìn)行身份識別時,通常會將兩個網(wǎng)絡(luò)分別嵌入低維向量空間來表示用戶關(guān)系,以減少計算量。但在使用這種方法時往往會造成信息的丟失并且有丟失隱私數(shù)據(jù)的可能性,同時在進(jìn)行識別時會忽略用戶關(guān)系的相似性等問題。
與其他的識別方法相比,用戶關(guān)系信息具有一定的真實性,一定程度上克服了其他屬性信息存在的虛構(gòu)、不全面等問題,吸引了大量學(xué)者的研究。但由于網(wǎng)絡(luò)結(jié)構(gòu)同時所具有的稀疏性以及不同SNS的異構(gòu)性,基于用戶關(guān)系的身份識別難度大幅提高,在今后的研究中還需更先進(jìn)的技術(shù)支持,進(jìn)一步提高識別精度。
本文總結(jié)了現(xiàn)有的基于用戶關(guān)系的跨社交網(wǎng)絡(luò)身份識別方法,分別從基于有、無先驗節(jié)點、基于多維度以及其他識別方法三類進(jìn)行述評。基于采用用戶關(guān)系進(jìn)行身份識別時所遇到的問題,提出以下研究展望,在收集數(shù)據(jù)時,由于各SNS之間信息存在的碎片化、不一致等特性,以及用戶關(guān)系的異構(gòu)化,導(dǎo)致可以收集到的數(shù)據(jù)較少,使得識別結(jié)果精度不夠高。如何解決這一問題,提高用戶關(guān)系數(shù)據(jù)量,是提高基于用戶關(guān)系識別精度的一個重要指標(biāo),在今后,基于大量數(shù)據(jù)的研究十分關(guān)鍵。不難發(fā)現(xiàn),在基于單個用戶關(guān)系數(shù)據(jù)進(jìn)行用戶識別時,其精度往往低于基于多維度的識別結(jié)果,但其建模的難度導(dǎo)致現(xiàn)有的研究成果還不多。因此,提高技術(shù)水平,開發(fā)基于多維度用戶關(guān)系識別方法的模型是該領(lǐng)域未來的研究主流。值得關(guān)注的是,隨著用戶對個人隱私保護(hù)意識增強,如何獲得高質(zhì)量的數(shù)據(jù)以及在無先驗節(jié)點的情況下獲得較好的識別效果仍然是一個值得關(guān)注的重點問題。