傅江輝
(東華理工大學(xué)江西省放射性地學(xué)大數(shù)據(jù)技術(shù)工程實(shí)驗(yàn)室, 江西南昌330013)
互聯(lián)網(wǎng)和信息化技術(shù)的迅速發(fā)展為人們的工作、學(xué)習(xí)和生活帶來(lái)了翻天覆地的變化,其中最明顯的變化就是人際交往方式從最開(kāi)始的手寫(xiě)信件到通話聯(lián)系,再到現(xiàn)在的社交網(wǎng)絡(luò),人們之間的交往越來(lái)越便捷、 快速。目前社交網(wǎng)絡(luò)的典型代表有國(guó)外的Facebook、 Snapchat,以及國(guó)內(nèi)的QQ、 微信、 微博等,為用戶帶來(lái)了全新的服務(wù)模式;但是,隨著社交網(wǎng)絡(luò)開(kāi)放程度的不斷加深,個(gè)人隱私信息數(shù)據(jù)量越來(lái)越大,導(dǎo)致社交網(wǎng)絡(luò)無(wú)法承載,因此,伴隨著云計(jì)算的興起,社交網(wǎng)絡(luò)后臺(tái)會(huì)將隱私數(shù)據(jù)上傳至云端。在此背景下,為了減少數(shù)據(jù)傳送量,節(jié)約寬帶,降低節(jié)點(diǎn)的能量損耗, 社交網(wǎng)絡(luò)需進(jìn)行數(shù)據(jù)融合[1], 因此,研究面向社交網(wǎng)絡(luò)隱私安全的數(shù)據(jù)融合成為各大社交軟件開(kāi)發(fā)者共同面臨的問(wèn)題[2]。
目前常用的社交網(wǎng)絡(luò)安全隱私數(shù)據(jù)融合方法多是基于加權(quán)平均法、卡爾曼濾波法、Dempster-Shafer(D-S)證據(jù)推理等隨機(jī)類方法, 信息完整性以及融合精度較低。 為了實(shí)現(xiàn)面向社交網(wǎng)絡(luò)隱私安全, 本文中提出一種新的基于云計(jì)算的社交網(wǎng)絡(luò)安全隱私數(shù)據(jù)融合方法。 該方法應(yīng)用社交網(wǎng)絡(luò)隱私保護(hù)策略和智能算法, 通過(guò)k匿名技術(shù)對(duì)過(guò)濾出的隱私數(shù)據(jù)進(jìn)行保護(hù)處理, 使用決策樹(shù)構(gòu)建數(shù)據(jù)融合模型,在實(shí)現(xiàn)數(shù)據(jù)融合的同時(shí), 使數(shù)據(jù)的完整性得以保存。
社交網(wǎng)絡(luò)是通過(guò)互聯(lián)網(wǎng)來(lái)完成人際交往的平臺(tái),提供了一種新的拓寬社會(huì)關(guān)系交互性的空間,人們可以在這個(gè)空間中學(xué)習(xí)、 娛樂(lè)、 購(gòu)物、 辦公, 實(shí)現(xiàn)了多種功能于一體[3-4]。
社交網(wǎng)絡(luò)是由各用戶節(jié)點(diǎn)和關(guān)系組成社區(qū)以及由各社區(qū)組成群體,最后由各小群體組成的一個(gè)龐大的社交關(guān)系網(wǎng)絡(luò)。在該龐大的關(guān)系網(wǎng)中,隨著人們的交往程度不斷加深,會(huì)有意識(shí)或無(wú)意識(shí)地在網(wǎng)上分享與自己相關(guān)的信息,如姓名、 年齡、 性別、 家庭住址、工作單位、實(shí)時(shí)活動(dòng)位置、 社交記錄、 電話、 郵箱、 社交平臺(tái)號(hào),甚至還有更重要的身份證號(hào)碼,一旦某些信息被不法分子利用,將給用戶造成嚴(yán)重的損失和危險(xiǎn)[5]。《中國(guó)網(wǎng)民權(quán)益保護(hù)調(diào)查報(bào)告(2016)》顯示,50%多的用戶財(cái)產(chǎn)損失均是由社交網(wǎng)絡(luò)帶來(lái)的,因此保護(hù)社交網(wǎng)絡(luò)中個(gè)人隱私信息不被泄露具有重要的現(xiàn)實(shí)意義。
云計(jì)算以一種簡(jiǎn)單、透明的方式為遠(yuǎn)程計(jì)算機(jī)用戶提供動(dòng)態(tài)的、可擴(kuò)展的大規(guī)模計(jì)算和存儲(chǔ)服務(wù),已成為當(dāng)今信息領(lǐng)域的研究熱點(diǎn)。目前,為了解決后臺(tái)隱私數(shù)據(jù)安全問(wèn)題,各大社交網(wǎng)絡(luò)紛紛將隱私數(shù)據(jù)上傳至云端,不僅消耗大量流量,破壞隱私數(shù)據(jù)完整性,而且還會(huì)增加運(yùn)營(yíng)成本,因此數(shù)據(jù)融合技術(shù)的應(yīng)用必不可少。
針對(duì)當(dāng)前存在的幾種數(shù)據(jù)融合方法不能滿足在實(shí)現(xiàn)數(shù)據(jù)融合的同時(shí)保證隱私數(shù)據(jù)完整性[6]的問(wèn)題,本文中面對(duì)社交網(wǎng)絡(luò)安全隱私數(shù)據(jù)設(shè)計(jì)一種新的數(shù)據(jù)融合方法,實(shí)現(xiàn)過(guò)程如下: 1)過(guò)濾社交網(wǎng)絡(luò)參與者的個(gè)人隱私數(shù)據(jù); 2)對(duì)個(gè)人隱私數(shù)據(jù)進(jìn)行保護(hù)處理;3)對(duì)個(gè)人隱私數(shù)據(jù)進(jìn)行聚類,完成隱私數(shù)據(jù)按同一目標(biāo)的聚類分組;4)對(duì)同一組隱私數(shù)據(jù)進(jìn)行合成,得到該目標(biāo)的一致性解釋與描述。
人們?cè)谏缃贿^(guò)程中會(huì)有意或無(wú)意地泄露個(gè)人隱私數(shù)據(jù),因此,為了防止這些數(shù)據(jù)被非法利用,網(wǎng)絡(luò)平臺(tái)有必要對(duì)個(gè)人隱私數(shù)據(jù)進(jìn)行保護(hù)。在對(duì)隱私數(shù)據(jù)進(jìn)行保護(hù)之前,社交網(wǎng)絡(luò)參與者個(gè)人隱私數(shù)據(jù)過(guò)濾工作至關(guān)重要。社交網(wǎng)絡(luò)參與者個(gè)人隱私數(shù)據(jù)過(guò)濾主要對(duì)用戶社交過(guò)程中屬于隱私范圍內(nèi)的數(shù)據(jù)進(jìn)行識(shí)別,如姓名、電話、身份證號(hào)碼、家庭住址、工作單位等,主要通過(guò)構(gòu)建的敏感信息過(guò)濾模型來(lái)完成,如圖1所示。
圖1 社交網(wǎng)絡(luò)敏感信息過(guò)濾模型
在敏感信息過(guò)濾模型中, 有2個(gè)部分最關(guān)鍵, 一是敏感詞庫(kù)的建立, 二是敏感信息的匹配[7]。 敏感詞庫(kù)主要利用二叉查找樹(shù)(或稱二叉搜索樹(shù))建立, 二叉查找樹(shù)是字典樹(shù)(Trie)結(jié)構(gòu)的特殊形式, 是一種有序樹(shù)狀的數(shù)據(jù)結(jié)構(gòu), 用于保存關(guān)聯(lián)數(shù)組, 是目前信息檢索領(lǐng)域應(yīng)用十分成功的索引方法。 Trie的原理如下: 設(shè)x為二叉查找樹(shù)中的一個(gè)節(jié)點(diǎn), 包含關(guān)鍵字key, 節(jié)點(diǎn)x的key值記為key[x]。如果y是x的左子樹(shù)中的一個(gè)節(jié)點(diǎn),則key[y]≤key[x]; 如果y是x的右子樹(shù)的一個(gè)節(jié)點(diǎn), 則key[y]≥key[x]。 敏感信息的匹配是指對(duì)用戶社交過(guò)程中所有信息與敏感詞庫(kù)進(jìn)行對(duì)比, 從而發(fā)現(xiàn)用戶隱私信息的一種方法。
在個(gè)人隱私信息過(guò)濾出來(lái)后, 為了保證在后期數(shù)據(jù)融合過(guò)程中隱私數(shù)據(jù)的安全, 對(duì)隱私數(shù)據(jù)進(jìn)行保護(hù)處理十分重要。 個(gè)人隱私數(shù)據(jù)保護(hù)處理措施主要有屬性匿名方法、 隨機(jī)化擾動(dòng)法2類方法[8]。 本文中選用屬性匿名方法中的k匿名技術(shù)進(jìn)行隱私保護(hù)處理, 基本原理是保證同一個(gè)準(zhǔn)標(biāo)識(shí)符至少有k條記錄, 導(dǎo)致攻擊者無(wú)法通過(guò)準(zhǔn)標(biāo)識(shí)符連接記錄。k匿名技術(shù)的個(gè)人隱私數(shù)據(jù)保護(hù)處理流程如圖2所示。
圖2 k匿名技術(shù)的個(gè)人隱私數(shù)據(jù)保護(hù)處理流程
聚類是數(shù)據(jù)融合的關(guān)鍵和核心,通過(guò)將數(shù)據(jù)進(jìn)行分組,形成多個(gè)類或簇,最后在后續(xù)數(shù)據(jù)融合步驟中對(duì)屬于同一類或簇的個(gè)人隱私數(shù)據(jù)實(shí)現(xiàn)融合。目前常用的數(shù)據(jù)聚類方法有基于最近鄰算法的聚類、基于密度的聚類、基于模糊算法的聚類以及基于核方法的聚類。以上這些聚類算法均需要提取聚類中心,然后計(jì)算數(shù)據(jù)與聚類中心的相似度來(lái)實(shí)現(xiàn)數(shù)據(jù)分組[9];但是,聚類中心的提取過(guò)程復(fù)雜,需要大量的計(jì)算,而且不能保證提取結(jié)果的準(zhǔn)確性,因此本文中將k均值理念引入聚類算法。k均值聚類算法是一種簡(jiǎn)單的迭代型聚類算法,原理是采用距離作為相似性指標(biāo),從而發(fā)現(xiàn)給定數(shù)據(jù)集中的k個(gè)分類,并且每個(gè)分類的中心是根據(jù)聚類中所有值的均值得到的,每個(gè)分類用聚類中心來(lái)描述[10]。
假定已知個(gè)人隱私數(shù)據(jù)樣本集為X={x1,x2, …,xn},其中每個(gè)樣本xi=(xi1,xi2,…,xin)T(i=1,2,…,n)均為n維特征向量,k均值聚類的目標(biāo)是把這n個(gè)樣本劃分到k(k≤n)個(gè)集合中,使得組內(nèi)平方和最小。換言之,k均值聚類的目標(biāo)是找到聚類Gi,使得
(1)
式中: |·|為向量的模運(yùn)算;pi(i=1,2,…,k)為Gi中所有點(diǎn)的均值。
結(jié)合最小二乘法和拉格朗日原理,聚類中心為對(duì)應(yīng)類別中各數(shù)據(jù)點(diǎn)的平均值,同時(shí),為了使算法收斂,在迭代過(guò)程中,應(yīng)保證最終的聚類中心盡可能不變[11]。
利用k均值聚類算法進(jìn)行社交網(wǎng)絡(luò)隱私數(shù)據(jù)聚類的具體過(guò)程如下。
步驟1從采集并處理過(guò)的個(gè)人隱私數(shù)據(jù)集中隨機(jī)選取3條個(gè)人隱私數(shù)據(jù)作為初始聚類中心,記為聚類中心O1(k)、O2(k)、O3(k)。
步驟2計(jì)算個(gè)人隱私數(shù)據(jù)集中其余數(shù)據(jù)與這3個(gè)聚類中心的距離,
di(k)=|xi-Oj(k)|,i,j=1, 2, 3 ,
(2)
式中:di(k)為第i個(gè)數(shù)據(jù)到其聚類中心的距離;Oj(k)為聚類中心。
步驟3按照最小距離的原則,將個(gè)人隱私數(shù)據(jù)集中到這3個(gè)初始聚類中心。
步驟4第1輪聚類之后,需要更新聚類中心以代替初始聚類中心,
di(k+1)=|xi-Oj(k+1)|,i,j=1, 2, 3 。
(3)
步驟5根據(jù)式(3)再次計(jì)算聚類中心與各隱私數(shù)據(jù)。
步驟6如果Oj(k+1)≠Oj(k),j=1, 2, 3,則返回步驟2, 重復(fù)進(jìn)行迭代運(yùn)算;連續(xù)迭代N次,直至聚類不再發(fā)生變化,即Oj(k+1)=Oj(k),j=1, 2, 3,則算法收斂,計(jì)算完畢。
在聚類結(jié)束后,將分好組的數(shù)據(jù)逐一進(jìn)行分層融合。分層融合主要依據(jù)智能算法構(gòu)成的分層融合模型來(lái)完成,可以依據(jù)的智能算法有神經(jīng)網(wǎng)絡(luò)、 決策樹(shù)、 遺傳算法等[12]。本文中采用決策樹(shù)構(gòu)建隱私數(shù)據(jù)融合模型,如圖3所示。
圖3 隱私數(shù)據(jù)融合模型
該數(shù)據(jù)融合模型主要由融合節(jié)點(diǎn)、葉子節(jié)點(diǎn)以及融合規(guī)則3個(gè)部分組成,融合節(jié)點(diǎn)代表融合目標(biāo),葉子節(jié)點(diǎn)代表各隱私數(shù)據(jù),融合規(guī)則代表融合所應(yīng)遵守的條件。在這3個(gè)部分中,融合規(guī)則的制定是核心。為個(gè)人隱私數(shù)據(jù)融合制定的3條準(zhǔn)則如下:
準(zhǔn)則1在已完成的聚類中尋找聚類數(shù)目大于條件k的聚類,并將此作為初代融合數(shù)據(jù)。
準(zhǔn)則2當(dāng)滿足準(zhǔn)則1的聚類個(gè)數(shù)達(dá)到2或2以上時(shí),尋找滿足條件k-1的聚類,并將其作為二代融合數(shù)據(jù)。
準(zhǔn)則3當(dāng)所有聚類不滿足上述2個(gè)準(zhǔn)則時(shí),需要調(diào)整融合規(guī)則,直至所用聚類融合完畢。
數(shù)據(jù)融合在保護(hù)社交網(wǎng)絡(luò)隱私數(shù)據(jù)安全過(guò)程中起到了重要作用;但是,如果融合精度不足,就會(huì)不可避免地對(duì)隱私數(shù)據(jù)造成影響,使得數(shù)據(jù)完整性遭到破壞,因此,為了保證方法的有效性,需要對(duì)隱私數(shù)據(jù)進(jìn)行仿真測(cè)試。
為了突顯本方法的優(yōu)越性,仿真測(cè)試實(shí)驗(yàn)除了本文中提出的方法外,還采用其他3種數(shù)據(jù)融合方法進(jìn)行比較,包括基于加權(quán)平均法的隱私數(shù)據(jù)融合方法、基于卡爾曼濾波法的隱私數(shù)據(jù)融合方法以及基于D-S證據(jù)推理的隱私數(shù)據(jù)融合方法。仿真測(cè)試的基礎(chǔ)實(shí)驗(yàn)數(shù)據(jù)選定某社交平臺(tái)上1 000名注冊(cè)用戶的隱私數(shù)據(jù),如表1所示。
利用實(shí)驗(yàn)平臺(tái)輸入表1中的數(shù)據(jù),然后分別利用基于云計(jì)算的社交網(wǎng)絡(luò)安全隱私數(shù)據(jù)融合方法、基于加權(quán)平均法的隱私數(shù)據(jù)融合方法、基于卡爾曼濾波法的隱私數(shù)據(jù)融合方法以及基于D-S證據(jù)推理的隱私數(shù)據(jù)融合方法進(jìn)行融合精度測(cè)試和數(shù)據(jù)完整性測(cè)試。
表1 1 000名注冊(cè)用戶的隱私數(shù)據(jù)
個(gè)人隱私數(shù)據(jù)融合精度測(cè)試結(jié)果如圖4所示。從圖中可以看出,隨著個(gè)人隱私數(shù)據(jù)量的增大,數(shù)據(jù)融合精度逐漸下降,二者呈現(xiàn)負(fù)相關(guān)的趨勢(shì),而且當(dāng)個(gè)人隱私數(shù)據(jù)多于400條后,本文中提出的基于云計(jì)算的社交網(wǎng)絡(luò)安全隱私數(shù)據(jù)融合方法的融合精度均大于其他3種方法的融合精度。同時(shí),本文中提出的方法的融合精度最大值為98.4%,最小值為93.2%,精度跨度為5.2%;而基于加權(quán)平均法、卡爾曼濾波法和D-S證據(jù)推理的隱私數(shù)據(jù)融合方法的精度跨度分別為5.2%、 5.0%和10.1%,表明本文中提出的方法的融合精度高,性能更好。
數(shù)據(jù)完整性越高,說(shuō)明數(shù)據(jù)融合效果越好。為了驗(yàn)證本文中提出的方法的隱私數(shù)據(jù)融合效果,基于仿真實(shí)驗(yàn)環(huán)境,對(duì)表1中的數(shù)據(jù)進(jìn)行融合后,分析隱私數(shù)據(jù)完整性,并與其他3種方法進(jìn)行比較,結(jié)果如表 2所示。 從表中可以看出, 采用本文中提出的方法,個(gè)人隱私數(shù)據(jù)平均完整性為96.7%,明顯優(yōu)于其他3種方法,說(shuō)明該方法更能保證數(shù)據(jù)完整性,性能更優(yōu)越。
表2 不同隱私數(shù)據(jù)融合方法的數(shù)據(jù)完整性結(jié)果
為了使社交網(wǎng)絡(luò)平臺(tái)更好地保護(hù)個(gè)人隱私數(shù)據(jù),減少上傳能耗,提高上傳速度,對(duì)個(gè)人隱私數(shù)據(jù)進(jìn)行有效融合具有重要意義。本文中提出的基于云計(jì)算的社交網(wǎng)絡(luò)安全隱私數(shù)據(jù)融合方法解決了目前已有的數(shù)據(jù)融合方法存在的問(wèn)題,該方法的創(chuàng)新點(diǎn)在于將智能算法應(yīng)用其中,提高了數(shù)據(jù)融合的精度,同時(shí)保證了融合后的數(shù)據(jù)完整性,為隱私數(shù)據(jù)的上傳與保護(hù)提供了有效的技術(shù)支持。