亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交網(wǎng)絡(luò)用戶隱私泄露量化評估方法*

        2021-09-24 11:12:28謝小杰王梓森董祥祥
        計算機工程與科學 2021年8期
        關(guān)鍵詞:公開性敏感性社交

        謝小杰,梁 英,王梓森,董祥祥

        (1.中國科學院計算技術(shù)研究所,北京 100190;2.移動計算與新型終端北京市重點實驗室,北京 100190; 3.中國科學院大學計算機科學與技術(shù)學院,北京 101408)

        1 引言

        社交網(wǎng)絡(luò)應(yīng)用正逐漸成為人們生活中不可或缺的一部分,具有信息類型多樣、規(guī)模龐大和共享公開等特點。由于社交網(wǎng)絡(luò)中大多數(shù)用戶隱私保護意識薄弱,通常會公開性別、所在地和職業(yè)等個人信息,網(wǎng)絡(luò)攻擊者可以很容易地獲取大量用戶數(shù)據(jù),挖掘用戶隱私信息,造成用戶隱私泄露,威脅個人財產(chǎn)和人身安全。因此,開展社交網(wǎng)絡(luò)用戶隱私泄露量化評估的研究,不僅有利于幫助用戶了解個人隱私泄露狀況,提高公眾隱私保護和防范意識,同時也能為個性化隱私保護方法設(shè)計提供依據(jù),為隱私保護效果評估提供支持。

        目前,社交網(wǎng)絡(luò)用戶隱私泄露量化評估主要面臨2個挑戰(zhàn):

        (1)如何設(shè)計社交網(wǎng)絡(luò)隱私泄露量化評估方法?,F(xiàn)有隱私量化評估方法被廣泛應(yīng)用在通信系統(tǒng)[1]、基于位置的服務(wù)LBS(Location Based Ser- vices)[2,3]和社交網(wǎng)絡(luò)[4]等領(lǐng)域,常用于評估隱私保護方法的保護效果[5,6],無法對社交網(wǎng)絡(luò)用戶的隱私泄露風險進行有效的量化。

        (2)如何對隱私泄露進行多視角的量化和分析。目前社交網(wǎng)絡(luò)用戶隱私泄露量化的研究一般將隱私偏好設(shè)置作為評估隱私泄露風險的依據(jù)[7 - 9],而社交網(wǎng)絡(luò)包含豐富的用戶數(shù)據(jù),僅關(guān)注隱私偏好設(shè)置這一主觀因素不足以全面地對用戶進行評估。

        為了解決目前研究中的挑戰(zhàn),本文提出了一種社交網(wǎng)絡(luò)用戶隱私泄露量化評估方法,設(shè)計了屬性敏感性、屬性公開性和數(shù)據(jù)可見性指標,量化評估用戶的隱私泄露風險。在新浪微博數(shù)據(jù)上,基于量化評估指標對用戶進行了多視角的量化分析,有效地評估了用戶的隱私泄露狀況。主要貢獻包括:

        (1)提出了一種社交網(wǎng)絡(luò)用戶隱私泄露評估方法,支持用戶隱私泄露風險的量化與評估。

        (2)設(shè)計了屬性敏感性、屬性公開性、數(shù)據(jù)可見性和隱私評分的量化指標,支持多視角量化評估。

        2 相關(guān)工作

        目前隱私量化評估相關(guān)的研究主要分為3類:基于信息熵的方法、基于隱私保護效果評估的方法和基于用戶隱私偏好設(shè)置的方法。

        在基于信息熵的方法中,信息熵通常用于度量信息所包含的信息量,熵值越大表示包含的信息量越大[10]。在通信領(lǐng)域,Diaz等[1]利用信息熵來量化匿名通信系統(tǒng)的匿名性,值越大表示確定消息的發(fā)送者或接收者真實身份的難度越大,系統(tǒng)的匿名程度越高,隱私保護狀況越好。在LBS領(lǐng)域,真實位置通常被視為隱私信息。Hoh等[3]基于信息熵量化位置軌跡隱私,保證位置軌跡的匿名性。Ma等[11]基于信息熵量化V2X(Vehicle to X)車聯(lián)網(wǎng)系統(tǒng)的隱私泄露狀況。在社交網(wǎng)絡(luò)領(lǐng)域,用戶屬性信息或身份特征通常被視為隱私信息。Ngoc等[4]基于信息熵量化社交網(wǎng)絡(luò)用戶待發(fā)布信息中包含的隱私量,通過檢索用戶發(fā)布的信息中的屬性值關(guān)鍵詞來推測用戶屬性的概率分布。Yang等[12]提出了一種基于信息增益的隱私量化方法,通過信息增益確定用戶身份,信息增益越大,用戶身份泄露風險越大。

        在基于隱私保護效果評估的方法中,隱私量化評估方法通常用于衡量系統(tǒng)或數(shù)據(jù)的隱私泄露狀況,主要針對隱私保護方法的保護效果優(yōu)劣進行評估。k-匿名模型[5]通過限制數(shù)據(jù)表中的準標識符(用戶屬性等信息)至少和其他k-1條數(shù)據(jù)相同,使每條數(shù)據(jù)被識別的概率降低至1/k。l-多樣性[6]使得滿足同一個k-匿名集中的數(shù)據(jù)至少有l(wèi)種類型來進一步降低數(shù)據(jù)被鏈接攻擊和同質(zhì)攻擊的風險,l值越大說明數(shù)據(jù)的隱私風險越低。差分隱私[13]基于隱私預(yù)算參數(shù)ε,在原始數(shù)據(jù)上加入隨機噪聲達到隱私保護的目的,ε值越小說明隱私風險越低。Backstrom等[14]針對匿名社交網(wǎng)絡(luò)數(shù)據(jù),用能被攻擊者去匿名化的人數(shù)來評價匿名效果,人數(shù)越多則隱私泄露風險越高。Narayanan等[15]用攻擊者對用戶去匿名化或者識別用戶隱私屬性出錯的概率作為隱私量化指標,攻擊者出錯的概率越大說明隱私風險越低。Agrawal等[16]通過計算原始數(shù)據(jù)和擾動數(shù)據(jù)之間的互信息來量化隱私泄露風險,互信息越大,則隱私泄露風險越高。Chen等[17]提出了一種針對用戶屬性特殊性的量化指標IS(Information Sruprisal),用戶屬性值越特殊,則IS值越大,隱私泄露風險越高。

        基于用戶隱私偏好設(shè)置的方法一般將用戶的隱私偏好作為評估用戶隱私泄露風險的依據(jù),用戶信息被設(shè)置公開的程度越大、范圍越廣,用戶的隱私泄露程度就越大。隱私偏好是指用戶對隱私信息的重視程度[7],具有個性化的特點,用戶可以通過設(shè)置隱私偏好來降低隱私泄露風險。朱涵鈺等[8]基于用戶的隱私偏好設(shè)置,通過信息熵度量用戶屬性的敏感性,發(fā)現(xiàn)了“人人網(wǎng)”和“新浪微博”上一些用戶行為對隱私泄露影響的規(guī)律。Maximilien等[9]提出了一種隱私指數(shù)來量化用戶的隱私偏好設(shè)置存在的隱私泄露風險,基于用戶隱私偏好計算不同屬性的敏感性和可見性。張盼盼等[7]形式化定義了隱私偏好,并基于用戶隱私偏好的策略選擇,提出了基于博弈的隱私度量模型,在混合策略下運用策略熵度量用戶隱私的泄露情況,不僅考慮了用戶主觀感受對隱私泄露的影響,還考慮了攻擊者與服務(wù)提供者之間隱私保護策略選擇的博弈關(guān)系。

        綜上所述,目前的隱私量化評估方法主要用于評估隱私保護方法的保護效果,而且針對社交網(wǎng)絡(luò)用戶的隱私泄露量化評估相關(guān)的研究主要利用用戶隱私偏好設(shè)置作為評估用戶隱私泄露風險的依據(jù),不足以全面地對用戶進行評估。

        3 隱私泄露量化評估方法

        隱私是可確認特定個人(或團體)身份或其特征,但個人(或團體)不愿被暴露的敏感信息[18]。在社交網(wǎng)絡(luò)中,用戶數(shù)據(jù)通常包含性別、年齡、職業(yè)、所在地、教育背景和宗教信仰等屬性信息,可以很好地描述用戶的身份特征。因此,本文將用戶屬性視為用戶隱私,并基于用戶屬性量化與評估用戶的隱私泄露狀況。

        為了便于說明,本文用V= {vi|i= 1,2,…,n}表示社交網(wǎng)絡(luò)中用戶的集合,其中n為用戶的個數(shù),vi∈V表示社交網(wǎng)絡(luò)中的一個用戶;A= {attrk|k= 1,2,…,s}為s個用戶屬性組成的集合,attrk∈A表示一個用戶屬性,是本文社交網(wǎng)絡(luò)用戶隱私泄露量化評估的對象。

        3.1 方法概述

        隱私泄露量化評估通常需要考慮多方面的因素,主要包括[19]:

        (1)隱私參數(shù):用于計算隱私量化值的參數(shù),如用戶的隱私偏好設(shè)置、隱私閾值和隱私級別等。

        (2)攻擊者的推測:攻擊者獲取用戶信息之后,根據(jù)后驗概率分布,對用戶的隱私信息進行推測。

        (3)真實隱私信息:用戶隱私信息的真實值,可以用來評價攻擊者的推測是否正確。

        (4)先驗知識:關(guān)于用戶隱私信息的先驗統(tǒng)計知識,通常是先驗概率分布的形式。

        因此,本文基于上述隱私泄露量化的因素,設(shè)計了3個量化指標:屬性敏感性、屬性公開性和數(shù)據(jù)可見性,對社交網(wǎng)絡(luò)用戶的隱私泄露風險進行量化評估與分析。其中,屬性敏感性考慮了隱私參數(shù),將用戶對屬性的隱私偏好設(shè)置作為隱私泄露量化因素;屬性公開性考慮了攻擊者的推測和真實隱私信息,以屬性識別模型的推測概率為隱私量化因素;數(shù)據(jù)可見性考慮了先驗知識,關(guān)注從用戶數(shù)據(jù)中獲取的先驗概率分布。

        社交網(wǎng)絡(luò)用戶隱私泄露量化評估的整體流程如圖1所示。

        Figure 1 Flowchart of privacy quantitative assessment圖1 隱私量化評估整體流程

        首先,從社交網(wǎng)絡(luò)用戶數(shù)據(jù)中獲取用戶的隱私偏好設(shè)置,基于隱私偏好信息,構(gòu)建隱私偏好矩陣,計算主觀屬性敏感性和客觀屬性敏感性;同時,構(gòu)建轉(zhuǎn)移概率矩陣,計算用戶重要性。

        然后,對社交網(wǎng)絡(luò)用戶數(shù)據(jù)進行劃分,分割出訓(xùn)練集和測試集,基于訓(xùn)練集訓(xùn)練屬性識別模型,利用模型預(yù)測結(jié)果在測試集上計算屬性公開性,并根據(jù)用戶重要性計算數(shù)據(jù)可見性。

        最后,計算用戶的隱私評分和隱私指數(shù),判斷隱私評分序列趨勢,基于隱私指數(shù)和隱私評分序列趨勢評估用戶隱私泄露狀態(tài)。

        3.2 屬性敏感性

        屬性敏感性表示用戶對某個屬性的敏感程度,本文將用戶對屬性的隱私偏好設(shè)置作為隱私泄露量化因素,取值為[0,1],屬性敏感性越大,隱私泄露風險越高。

        隱私偏好矩陣R∈Rn×s反映了社交網(wǎng)絡(luò)中所有用戶為不同屬性設(shè)置的隱私偏好,表達了用戶對不同屬性的重視程度,其中第i行第k列的元素rik表示用戶vi根據(jù)主觀意愿對屬性attrk設(shè)置的隱私偏好等級,值越大表示越不希望屬性attrk暴露。

        類似推薦系統(tǒng)中的評分矩陣[20],用戶在設(shè)置隱私偏好時的尺度并不一致,用戶vi設(shè)置的隱私偏好rik反映的是用戶vi對屬性attrk的主觀敏感程度,并不是實際的敏感性。同時,不同用戶之間的主觀敏感程度并不具備可比性,無法統(tǒng)一衡量不同用戶對于屬性attrk的相對敏感程度,需要綜合所有用戶的主觀敏感性來確定客觀敏感性,排除用戶主觀因素的影響。

        因此,屬性敏感性的計算需要考慮主觀敏感性和客觀敏感性,在不引起混淆的情況下,屬性敏感性默認指客觀敏感性。屬性敏感性的具體計算步驟如下所示:

        (1)計算用戶vi的平均屬性敏感性,如式(1)所示:

        (1)

        (2)采用皮爾遜相似度,計算用戶vi關(guān)于屬性attrk的主觀敏感性sbj_senik,如式(2)所示:

        (2)

        (3)根據(jù)所有用戶關(guān)于屬性attrk的主觀敏感性,計算客觀敏感性,如式(3)所示:

        (3)

        通過主觀敏感性計算,可以對某個用戶(相同的隱私偏好尺度)的不同屬性的敏感程度進行歸一化,得到同一用戶不同屬性之間主觀敏感程度的相對大小。同時,可以根據(jù)主觀敏感性計算屬性的客觀敏感性,排除單個用戶的主觀因素影響,便于后續(xù)量化指標計算。

        3.3 屬性公開性

        屬性公開性表示攻擊者基于用戶數(shù)據(jù)推測屬性的確定程度,以屬性識別模型的推測概率為隱私量化因素,取值為[0,1],屬性公開性越大,用戶屬性越容易被識別,隱私風險越高。

        社交網(wǎng)絡(luò)中的用戶數(shù)據(jù)可以被攻擊者獲取,用來推測用戶屬性信息,進而造成用戶隱私的泄露。例如,如果用戶發(fā)布的信息中經(jīng)常出現(xiàn)“海淀區(qū)”“昌平區(qū)”“中關(guān)村”等地址類用語,那么即便用戶隱藏了地址屬性,攻擊者也可以根據(jù)內(nèi)容推測出該用戶的地址為“北京市”。

        攻擊者可以利用用戶公開數(shù)據(jù)推斷用戶屬性,用戶某個屬性的公開性越大,說明對應(yīng)屬性的隱私泄露程度越高。因此,屬性公開性是衡量用戶隱私泄露程度的重要指標。

        攻擊者在推斷用戶屬性時,通常是利用屬性識別模型得到用戶屬性的類別概率分布,不能直接用于衡量用戶屬性的公開性大小。由于信息熵通常用于度量概率分布所包含的信息量,熵值越大表示包含的信息量越大[10],因此可以用信息熵來定量描述攻擊者推斷用戶屬性的可能性,具體計算步驟如下所示:

        (1)設(shè)隨機變量X表示用戶數(shù)據(jù),令x∈X表示用戶vi的數(shù)據(jù);隨機變量Y表示待計算的屬性attrk,定義域為γ;

        (2)假設(shè)Y滿足均勻分布,屬性取值個數(shù)為|γ|,從而得出屬性取值y∈Y的先驗概率P(y) = 1/|γ|;

        (3)利用屬性識別方法計算P(Y|x);

        (4)利用信息熵計算用戶vi在屬性attrk上的屬性公開性,具體如式(4)所示,易證cerik∈[0,1]。

        (4)

        用戶屬性識別方法通?;谕|(zhì)性假設(shè),考慮社交網(wǎng)絡(luò)結(jié)構(gòu)[21,22]、用戶行為[23]和異質(zhì)信息[24]等因素,結(jié)合機器學習方法進行建模,從而確定條件概率分布P(Y|x),即在給定的用戶數(shù)據(jù)x的條件下,屬性取值Y的概率。

        通過計算用戶屬性的公開性,可以從攻擊者角度對用戶的隱私泄露風險進行量化,揭示從用戶數(shù)據(jù)中獲取用戶隱私信息的可能性大??;同時,可結(jié)合屬性敏感性,為用戶個性化的隱私泄露量化評估提供數(shù)據(jù)基礎(chǔ)。

        例1對于性別屬性attrk,其定義域γ={男,女},假設(shè)存在標注樣本{(關(guān)鍵詞 = {哥哥,兄弟,爺們},男),(關(guān)鍵詞 = {本仙女,化妝,可愛},女)},則對于用戶vi的數(shù)據(jù)x= {哥哥,兄弟,化妝},利用樸素貝葉斯作為屬性識別方法,采用拉普拉斯平滑,可得P(男)=1/2,P(女)=1/2,P(男|x)=2/3,P(女|x)=1/3,從而屬性公開性cerik≈0.9183。

        3.4 數(shù)據(jù)可見性

        數(shù)據(jù)可見性表示用戶數(shù)據(jù)的曝光程度,以先驗概率為隱私量化因素,取值為[0,1],數(shù)據(jù)可見性越大,隱私風險越高。

        用戶數(shù)據(jù)的曝光程度越高,被其他用戶獲取的可能性也就越大。為了定量描述用戶數(shù)據(jù)的曝光程度,本文對用戶獲取數(shù)據(jù)的行為進行了分析,估計其他用戶獲取當前用戶數(shù)據(jù)的可能性,從而計算用戶數(shù)據(jù)可見性的大小。

        設(shè)pij表示用戶vj能夠獲取到用戶vi的個人信息的概率,用戶vi的數(shù)據(jù)可見性visi的計算如式(5)所示:

        (5)

        即用戶vi的數(shù)據(jù)可見性visi由所有用戶的期望概率計算得到。

        具體地,本文以新浪微博為研究對象,對visi的計算進行分析。對于用戶vi,從用戶vj的角度可以定義4個隨機事件:

        (1)A= “用戶vj看到用戶vi的一條微博”;

        (2)B= “用戶vj查看用戶vi的主頁”;

        (3)C= “用戶vj通過一條微博獲取到用戶vi的個人信息”;

        (4)D= “用戶vj獲取到用戶vi的個人信息”。

        設(shè)用戶vi某個時間段內(nèi)共發(fā)了li條微博,則P(D) =1-(1-P(C))li,而通過圖2展示的新浪微博用戶獲取他人信息的一般過程,可以得出P(C)=P(AB) =P(A)P(B|A)。易知pij可以通過P(D)估計,因此計算pij的關(guān)鍵在于P(A)和P(B|A)。P(A)與社交網(wǎng)絡(luò)結(jié)構(gòu)、用戶在網(wǎng)絡(luò)中所處的位置和信息的傳播方式有關(guān),而P(B|A)只與用戶vj的行為有關(guān)。

        Figure 2 General process of Sina Weibo users obtaining other people’s information圖2 新浪微博用戶獲取他人信息的一般過程

        本文假設(shè)P(B|A)為系統(tǒng)設(shè)置的固定參數(shù)h∈[0,1],h值越大表示用戶vi的信息被用戶vj閱讀的可能性越大,但不影響用戶vj看到用戶vi微博的概率P(A)。

        設(shè)UR=(ur1,…,uri,…,urn)T表示社交網(wǎng)絡(luò)中所有用戶的重要性向量,uri表示用戶vi在社交網(wǎng)絡(luò)中的重要性。

        鄰接矩陣E∈Rn×n表示用戶間的連接關(guān)系,第i行第j列的元素eij表示由vi指向vj的有向邊,其值表示邊的權(quán)重,值為0表示邊不存在;T∈Rn×n表示轉(zhuǎn)移概率矩陣,第i行第j列的元素tij表示用戶vi指向用戶vj的邊的轉(zhuǎn)移概率,反映了用戶vi對用戶vj的關(guān)注程度。

        P(A)可通過2種用戶獲取信息的方式計算得到:

        (1)主動方式:用戶vj關(guān)注了用戶vi,并通過刷新看到用戶vi的一條微博;此時P(A)取決于用戶vj對用戶vi的關(guān)注程度,使用轉(zhuǎn)移概率tji估計。

        (2)被動方式:用戶vj未關(guān)注用戶vi,并通過搜索推薦等方式看到用戶vi的一條微博;此時P(A)取決于用戶vi在社交網(wǎng)絡(luò)中的重要程度,使用用戶重要性uri估計。

        對于用戶重要性的計算,本文基于PageRank算法[25],提出計算用戶重要性uri的UserRank算法,具體如算法1所示。

        算法1社交網(wǎng)絡(luò)用戶重要性算法UserRank

        輸入:轉(zhuǎn)移概率矩陣T,阻尼系數(shù)q,用戶數(shù)n,可接受誤差ε。

        輸出:社交網(wǎng)絡(luò)用戶重要性向量UR。

        /*初始化X為元素都是1/n的n維向量*/

        步驟1setX=(1/n…, 1/n, …, 1/n)n;

        /*初始化S為元素都是(1-q)/n的n維向量*/

        步驟2setS=((1-q)/n, …, (1-q)/n, …, (1-q)/n)n;

        /*執(zhí)行一次更新*/

        步驟3UR=S+q·TT·X;

        /*更新前后的向量距離大于ε,則繼續(xù)更新*/

        步驟4while ‖UR-X‖2>εdo

        X=UR;

        UR=S+q·TT·X;

        步驟5returnUR;

        輸入轉(zhuǎn)移概率矩陣T,阻尼系數(shù)q,用戶數(shù)n和可接受誤差ε,算法1輸出用戶重要性向量UR。步驟1是對n維向量X進行初始化;步驟2~步驟4是對用戶重要性向量進行迭代更新,直到UR與X之間的距離小于ε時停止,其中‖·‖2表示歐氏距離;步驟5返回用戶重要性向量UR。

        通過主動方式和被動方式估計P(A),結(jié)合P(B|A),可以得出pij的估計值P(D)。因此,在新浪微博中,用戶vi的數(shù)據(jù)可見性visi的具體計算方法如式(6)所示:

        cond1=I(eji=0∧vi≠vj)(11-(1-urih)li),

        cond2=I(eji>0)(1-(1-tjih)li),

        (6)

        其中I表示指示函數(shù)。

        通過計算用戶的數(shù)據(jù)可見性,可以量化用戶數(shù)據(jù)的曝光程度,而用戶數(shù)據(jù)的曝光程度是屬性公開性的決定性因素,直接影響了攻擊者從用戶數(shù)據(jù)中獲取隱私信息的可能性大小。在計算屬性公開性時考慮數(shù)據(jù)可見性,可以更加精確地刻畫用戶隱私泄露風險。

        3.5 隱私量化評估

        為了量化評估社交網(wǎng)絡(luò)用戶隱私泄露風險,本文基于3個量化指標:屬性敏感性、屬性公開性和數(shù)據(jù)公開性,從靜態(tài)角度和動態(tài)角度評估用戶的隱私泄露風險,具體評估方法如算法2所示。

        算法2隱私泄露量化評估算法

        輸入:待評估用戶vi,屬性敏感性obj_senk,屬性公開性cerik,數(shù)據(jù)可見性visi,用戶集合IU,時間窗口大小d。

        輸出:用戶隱私泄露狀況。

        步驟4PSS=(sbj_psti,sbj_pst2,…,sbj_pstd);/*獲取主觀隱私評分序列(動態(tài)角度)*/

        步驟5ifobj_psi>PIorUptrend(PSS)/*如果客觀隱私評分超過隱私指數(shù)或者主觀隱私評分序列呈上升趨勢 */

        returnfalse;/*false表示異常狀態(tài)*/

        endif

        步驟6 returntrue;/*true表示正常狀態(tài)*/

        輸入待評估用戶vi,屬性敏感性obj_senk,屬性公開性cerik,數(shù)據(jù)可見性visi,用戶集合IU,時間窗口大小d,輸出用戶vi的隱私泄露狀態(tài)。

        本文定義用戶的隱私泄露狀況在某一時刻存在2種對立狀態(tài):

        (1)正常狀態(tài):用戶的隱私泄露狀況正常,用戶無需關(guān)注個人隱私泄露問題;

        (2)異常狀態(tài):用戶的隱私泄露狀況異常,用戶需要根據(jù)評估結(jié)果有針對性地采取保護措施。

        用戶集合IU表示用于計算隱私指數(shù)的用戶,根據(jù)不同的隱私保護需求,存在4種選取方式:

        (1)全部用戶:全部用戶隱私評分的均值反映了整體的隱私泄露狀況,是最基本的選取方式,默認使用全部用戶作為IU集合。

        (2)高風險用戶:隱私評分較高的一部分用戶的隱私評分均值。如果用戶對隱私保護要求不嚴格,接受一定程度的隱私泄露,可以選擇高風險用戶計算隱私指數(shù)。

        (3)低風險用戶:隱私評分較低的一部分用戶的隱私評分的均值。如果用戶對隱私保護要求嚴格,可以選擇低風險用戶計算隱私指數(shù)。

        (4)自定義:用戶可以根據(jù)自己的偏好選取一部分其他用戶組成IU,被選擇的用戶表示期望比較的對象。

        算法2中步驟1和步驟2根據(jù)用戶vi的屬性敏感性、屬性公開性和數(shù)據(jù)可見性計算主觀隱私評分和客觀隱私評分。主觀隱私評分基于用戶的主觀敏感性,反映了用戶自身不同時刻或不同狀態(tài)下的隱私泄露狀況;客觀隱私評分基于客觀敏感性只與屬性本身有關(guān),用戶之間可以相互比較。

        步驟3根據(jù)客觀隱私評分計算隱私指數(shù)PI,綜合考慮了集合IU中所有用戶的平均客觀隱私評分,是用戶隱私泄露風險的靜態(tài)量化指標。

        步驟4根據(jù)主觀隱私評分和時間窗口d獲取用戶vi的隱私評分序列PSS,考慮了用戶vi在某一段時間內(nèi)隱私泄露風險的變化,是量化評估的動態(tài)指標。

        步驟5和步驟6根據(jù)隱私指數(shù)PI和隱私評分序列PSS評估隱私泄露狀態(tài),用戶處于隱私泄露狀態(tài)的條件是:(obj_ps>PI)∨Uptrend(PSS),其中Uptrend是趨勢檢驗函數(shù),輸入一個序列,如果序列有明顯的上升趨勢,則返回true,否則返回false。本文采用曼-肯德爾(Mann-Kendall)檢驗法[26]進行趨勢檢驗。

        在檢測用戶隱私泄露狀況的同時,為了定性地描述用戶隱私泄露的程度,用戶可根據(jù)個性化隱私保護需求,設(shè)置界定隱私泄露程度的閾值α和β(α>β>1)。對于存在隱私泄露的用戶vi,在滿足obj_psi>PI的前提下,可根據(jù)式(7)確定隱私泄露程度leakage_degree:

        (7)

        4 實驗與效果評估

        本文實驗使用爬蟲爬取新浪微博,收集了169 246個用戶、234 890 000篇博文和4 485 488條關(guān)注關(guān)系作為原始數(shù)據(jù),其中用戶的個人信息包括:用戶ID、用戶頭像、用戶昵稱、是否認證以及性別、所在地、教育信息和職業(yè)信息等屬性。

        因為本文通過用戶屬性的角度來度量用戶隱私泄露情況,因此從原始數(shù)據(jù)中篩選了32 170個在性別、所在地(省份)上有標注良好的用戶以及50 626 106篇博文和228 939條關(guān)注關(guān)系作為實驗數(shù)據(jù)。

        本文按9∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。訓(xùn)練集用于訓(xùn)練屬性識別模型,測試集用于評估用戶的隱私泄露狀況。

        4.1 屬性敏感性實驗

        因為實驗數(shù)據(jù)中不包含用戶的隱私偏好,所以本文假設(shè)用戶在個人主頁上公開屬性信息即表示對應(yīng)屬性隱私偏好為1,否則隱私偏好為0。

        為了得到更加精確的結(jié)果,本文基于原始微博數(shù)據(jù)來計算性別、所在地、教育信息和職業(yè)信息的屬性敏感性,其中性別和所在地的屬性敏感性將用于全局隱私評分的計算。

        通過用戶隱私偏好和屬性,可以構(gòu)造隱私偏好矩陣,從而利用第3.2節(jié)的計算方法計算屬性敏感性,結(jié)果如圖3所示。

        Figure 3 Experimental results of attribute sensitivity圖3 屬性敏感性結(jié)果

        從圖3中可以得出如下結(jié)論:

        (1)所有用戶都公開了性別,只有極少一部分人隱藏了所在地,近一半人公開了教育信息,大部分人都未公開職業(yè)信息。

        (2)屬性敏感性與隱藏屬性的用戶數(shù)相關(guān),未公開的用戶數(shù)越多,屬性敏感性越高。但是,屬性敏感性還與其他屬性的隱私偏好設(shè)置有關(guān),因此雖然隱藏性別的用戶數(shù)為0,但屬性敏感性不為0。

        4.2 屬性公開性實驗

        本文采用屬性識別模型MSIE(Multi-Source Infromation Embedding)識別用戶的性別和所在地屬性,將實驗數(shù)據(jù)按標注率0.1~0.9劃分,得到MSIE的識別結(jié)果如圖4所示[27]。

        Figure 4 Accuracy comparison of attribute inference models圖4 屬性識別模型準確率對比

        從圖4中可以看出,與CANE(Context-Aware Network Embedding)[28]、TFIDF(Term Frequency-Inverse Document Frequency)[29]、node2vec[30]、Doc2Vec[31]和DeepWalk[32]相比,MSIE獲得了最佳的屬性識別準確率。MSIE在性別上的準確率為88.63%,性能提升了5.49%~26.66%;在所在地上的識別準確率為69.28%,性能提升了8.11%~25.54%。

        通過屬性識別模型MSIE可以得到測試集用戶在性別和所在地屬性上的類別概率分布P(Y|x),從而利用第3.3節(jié)的計算方法計算測試集用戶的屬性公開性。

        將屬性公開性的計算結(jié)果按0到最大值等分成20段,屬性公開性分段作為橫坐標,其值落在對應(yīng)分段的用戶比例作為縱坐標,得到屬性公開性分布如圖5所示,其中圖5a展示了性別的屬性公開性分布,圖5b展示了所在地的屬性公開性分布。

        Figure 5 Distribution of attribute openess圖5 屬性公開性分布

        從圖4和圖5中可以得出如下屬性公開性的結(jié)論:

        (1)性別屬性的區(qū)分度比較高,容易造成性別信息的泄露。在用戶數(shù)據(jù)較多的情況下,MSIE識別性別的準確率較高,導(dǎo)致部分用戶性別屬性公開性較大。

        (2)所在地屬性區(qū)分度較低,不容易造成所在地信息的泄露。所在地的屬性公開性分布集中在均值附近,加上MSIE識別所在地的準確率較低,導(dǎo)致屬性公開性高的人數(shù)較少。

        4.3 數(shù)據(jù)可見性實驗

        本文實驗設(shè)系統(tǒng)參數(shù)h=1,阻尼系數(shù)q=0.85,可接受誤差ε= 10-4。為了得到更加精確的結(jié)果,本文實驗在原始微博數(shù)據(jù)上,根據(jù)用戶之間的關(guān)注關(guān)系構(gòu)建轉(zhuǎn)移概率矩陣,通過UserRank算法計算用戶重要性,并利用第3.4節(jié)中的方法得到用戶的數(shù)據(jù)可見性。

        將數(shù)據(jù)可見性的計算結(jié)果按0到最大值等分為20段,將用戶的數(shù)據(jù)可見性分段作為橫坐標,數(shù)據(jù)可見性值落在對應(yīng)分段的用戶比例作為縱坐標,得到數(shù)據(jù)可見性分布如圖6所示。

        從圖6中可以看出,數(shù)據(jù)可見性分布基本上符合長尾分布,大部分用戶的可見性比較低,可見性高的用戶比較少。

        Figure 6 Distribution of data visibility圖6 數(shù)據(jù)可見性分布

        4.4 量化指標統(tǒng)計對比

        對不同人群的隱私評分及其他各項指標進行統(tǒng)計對比分析,針對不同的性別和是否認證分別將用戶分為2組,計算每個組內(nèi)各個指標的均值,結(jié)果如表1所示,粗體為該列最大值,下劃線為該列最小值。

        對表1中的量化指標進行百分比統(tǒng)計,得到對比結(jié)果如圖7所示。

        從表1和圖7中可以得出:

        (1)認證用戶的各項指標基本都高于全集均值,平均全局隱私評分非常高,說明認證用戶較活躍,在社交網(wǎng)絡(luò)中產(chǎn)生了較大的影響,因此認證用戶通常更容易泄露隱私。

        (2)女性用戶的隱私評分略低于男性用戶,說明女性用戶的隱私泄露狀況比男性用戶稍好。對數(shù)據(jù)進行分析發(fā)現(xiàn),女性用戶的社交關(guān)系比較簡單,關(guān)注用戶和粉絲數(shù)都比較少,相對更不容易泄露隱私。但是,女性用戶各屬性的公開性都比較高,說明女性用戶產(chǎn)生的用戶數(shù)據(jù)比較容易泄露隱私。

        Table 1 Statistic comparison of quantitative metrics表1 各量化指標均值統(tǒng)計對比

        Figure 7 Percentage comparison of quantitative metrics圖7 各量化指標百分比對比

        4.5 實例分析

        為了對社交網(wǎng)絡(luò)整體以及用戶個體隱私泄露狀況進行細粒度的評估,幫助更加直觀準確地了解社交網(wǎng)絡(luò)用戶的隱私泄露狀況,本文從實驗數(shù)據(jù)集所有用戶構(gòu)成的社交網(wǎng)絡(luò)中選擇了一個弱連通子圖進行可視化,其中包括836個節(jié)點和1 475條邊。

        可視化結(jié)果如圖8所示,節(jié)點有正常與異常2種隱私狀態(tài),大小代表用戶的隱私評分,節(jié)點越大表示對應(yīng)用戶的隱私評分越大。

        Figure 8 Visualization of privacy disclosure in social networks圖8 社交網(wǎng)絡(luò)整體隱私泄露狀況可視化

        從圖8中可以看出:

        (1)多數(shù)節(jié)點比較小,說明多數(shù)用戶隱私狀態(tài)正常,隱私評分比較低;

        (2)與隱私狀態(tài)異常的節(jié)點相連的邊比較多,說明社交關(guān)系復(fù)雜的用戶發(fā)生隱私異常的可能性更大。

        圖9是圖8所示的社交網(wǎng)絡(luò)中用戶隱私泄露狀況的統(tǒng)計結(jié)果,從圖9中可以看出,有13%的用戶隱私風險過大,18%的用戶隱私風險呈上升趨勢,12%的用戶隱私風險過大且呈上升趨勢。這與《2018年網(wǎng)民網(wǎng)絡(luò)安全感滿意度調(diào)查報告》中近一半受訪者認為個人信息保護狀況不好的結(jié)果相吻合。

        Figure 9 Statistics of privacy leakage圖9 隱私泄露狀況統(tǒng)計

        圖10展示了用戶個體隱私泄露狀況可視化示例,圖10a和圖10b分別表示隱私狀態(tài)正常的用戶“小男人也彪悍1984”和隱私狀態(tài)異常的用戶“王梓萌Mm0820”對應(yīng)的個人信息和各量化指標隨時間變化的曲線。

        Figure 10 An example of user privacy leakage visualization圖10 用戶個體隱私泄露狀況可視化示例

        圖10中,橫軸的起始時間為2009年11月27日(橫坐標為0),結(jié)束時間為2012年10月18日(橫坐標為10),時間間隔約為100天。

        對于圖10a所示的隱私狀態(tài)正常的用戶,其隱私評分總體變化不明顯,隱私泄露風險較低。對于圖10b所示的隱私狀態(tài)異常的用戶,其隱私泄露風險大且呈上升趨勢,性別屬性泄露程度持續(xù)增大。更細粒度地可以看出,該用戶在2010年3月13日各量化指標均低于基線;在2011年5月9日,性別屬性公開性為0.277 8,高于基線0.137 5,說明此時其性別屬性存在隱私泄露風險,但整體風險不大;在2012年10月18日,性別屬性公開性為0.530 7,高于基線0.145 9,隱私評分為0.144 2,高于基線0.011 1,此時其性別屬性隱私泄露程度進一步增大;同時,數(shù)據(jù)可見性為0.495 1,高于基線0.093 2,說明數(shù)據(jù)可見范圍大,整體隱私泄露風險較高。

        5 結(jié)束語

        針對目前隱私量化評估方法主要用于評估隱私保護方法的保護效果,無法有效評估社交網(wǎng)絡(luò)用戶的隱私泄露風險的問題,本文提出了一種社交網(wǎng)絡(luò)用戶隱私泄露量化評估方法,設(shè)計了數(shù)據(jù)可見性、屬性公開性和屬性敏感性3個量化指標,并綜合了3個量化指標計算隱私評分,用于評估社交網(wǎng)絡(luò)用戶隱私泄露狀態(tài)。在新浪微博數(shù)據(jù)上進行的實驗表明,本文所提方法能夠有效地評估用戶的隱私泄露狀況。從實驗結(jié)果可以發(fā)現(xiàn),微博認證用戶較為活躍,各項指標基本都高于用戶均值,更容易泄露自身隱私;同時,實例分析發(fā)現(xiàn),有43%(近一半)的用戶存在隱私泄露風險,與《2018年網(wǎng)民網(wǎng)絡(luò)安全感滿意度調(diào)查報告》中近一半受訪者認為個人信息保護狀況不好的結(jié)果相吻合。未來的研究工作將基于隱私泄露狀況的量化評估結(jié)果設(shè)計隱私保護方案,為用戶提供針對性的隱私保護。

        猜你喜歡
        公開性敏感性社交
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        遵循傳統(tǒng)理論:盜竊行為“公開性”之辯駁
        社交距離
        你回避社交,真不是因為內(nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        釔對Mg-Zn-Y-Zr合金熱裂敏感性影響
        鄉(xiāng)村治理之困與協(xié)調(diào)民主之道
        決策與信息(2017年9期)2017-09-07 15:53:23
        第三方評估“P—I—P—E”原則
        招標的公開原則和風險控制
        AH70DB鋼焊接熱影響區(qū)組織及其冷裂敏感性
        焊接(2016年1期)2016-02-27 12:55:37
        免费av一区二区三区| 精品中文字幕手机在线| 在线观看免费人成视频| 人妻系列影片无码专区| 蜜桃在线高清视频免费观看网址| 亚洲高清精品一区二区| 天堂一区二区三区精品| 丰满熟妇人妻av无码区 | 大香焦av一区二区三区| 亚洲va国产va天堂va久久| 日本成本人三级在线观看| 精品四虎免费观看国产高清| 亚洲一本之道高清在线观看| 美女很黄很色国产av| 少妇人妻陈艳和黑人教练| 久久噜噜噜| 青青青草视频手机在线| av手机在线观看不卡| 久久99国产精品久久99| 亚洲成a人片在线观看无码| 欧美性爱一区二区三区无a| 成人全视频在线观看免费播放| 亚洲精品在线一区二区| 国产精品av在线| 国内精品久久久久久久久齐齐| аⅴ天堂一区视频在线观看 | 亚洲熟妇av一区二区三区hd| 真实夫妻露脸爱视频九色网| 人妻av鲁丝一区二区三区| 麻豆精品久久久久久久99蜜桃| 国产精品午夜波多野结衣性色| 国产白浆精品一区二区三区| 亚洲av午夜一区二区三| 日本免费一区二区三区| 99久久超碰中文字幕伊人| 中文字幕二区三区在线| 国产自拍视频在线观看网站| 狠狠色噜噜狠狠狠888米奇视频| 日韩高清毛片| 中文字幕av一区二区三区诱惑| 大量漂亮人妻被中出中文字幕|