亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于網(wǎng)絡(luò)社交數(shù)據(jù)分享的差分隱私保護(hù)

2015-07-23 03:07:14陳木朝

電子測(cè)試 2015年2期

關(guān)鍵詞：用戶(hù)

陳木朝

（廣州市廣播電視大學(xué)，廣州,510091）

0 引言

隨著社交網(wǎng)絡(luò)和移動(dòng)設(shè)備的迅速發(fā)展，網(wǎng)絡(luò)社交作為一種新型的交往方式已滲透到社會(huì)各個(gè)階層，成為現(xiàn)代人類(lèi)生活中的重要組成部分。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《2013年中國(guó)社交類(lèi)應(yīng)用用戶(hù)行為研究報(bào)告》，截至2013年10月31日，即時(shí)通訊在整體網(wǎng)民中的覆蓋率達(dá)到了86.9%，其中微信覆蓋率為61.9%；社交網(wǎng)站覆蓋率為60.7%，微博覆蓋率為55.4%。

1 網(wǎng)絡(luò)社交發(fā)展與隱私保護(hù)現(xiàn)狀

隨著手機(jī)等移動(dòng)終端的出現(xiàn)和網(wǎng)絡(luò)融合的趨勢(shì)，社交和SNS功能也融入了更多的網(wǎng)站和互聯(lián)網(wǎng)服務(wù)，突破了如人人網(wǎng)等傳統(tǒng)模式的社交網(wǎng)站，出現(xiàn)了更多、更靈活的應(yīng)用和服務(wù)。因此，網(wǎng)絡(luò)社交可以簡(jiǎn)單的理解為通過(guò)社交網(wǎng)站或者專(zhuān)門(mén)的網(wǎng)絡(luò)交往平臺(tái)進(jìn)行的基于互聯(lián)網(wǎng)的交流和互動(dòng)，是在虛擬的網(wǎng)絡(luò)空間發(fā)展人際關(guān)系。

1.1 網(wǎng)絡(luò)社交工具的發(fā)展

網(wǎng)絡(luò)社交起源于電子郵件。電子郵件是互聯(lián)網(wǎng)應(yīng)用最廣的服務(wù)，它突破了傳統(tǒng)的媒介，它的內(nèi)容可以是文字、圖像、聲音等多種形式。隨后出現(xiàn)的BBS是一種交互性強(qiáng)，內(nèi)容豐富而及時(shí)的電子信息服務(wù)系統(tǒng)，用戶(hù)在BBS站點(diǎn)上可以獲得各種信息服務(wù)、發(fā)布信息、進(jìn)行討論、聊天等等，它解決了點(diǎn)對(duì)面交流的成本降低等問(wèn)題。上個(gè)世紀(jì)九十年代開(kāi)始出現(xiàn)的以QQ為代表的即時(shí)通訊工具提高了即時(shí)性以及并行交流的能力，它允許兩人或多人通過(guò)有線或者無(wú)線設(shè)備登陸互聯(lián)網(wǎng)并即時(shí)的傳遞文字訊息、文件、語(yǔ)音與視頻交流。微博，即一句話(huà)博客，是一個(gè)基于用戶(hù)關(guān)系信息分享、傳播以及獲取的社交網(wǎng)絡(luò)平臺(tái)，用戶(hù)可以通過(guò)多種客戶(hù)端組建個(gè)人社區(qū)，以140字的文字更新信息，并實(shí)現(xiàn)即時(shí)分享。微信是騰訊公司推出的一個(gè)為智能終端提供即時(shí)通訊服務(wù)的免費(fèi)應(yīng)用程序，它提供公眾平臺(tái)、朋友圈、消息推送等功能，支持跨通信運(yùn)營(yíng)商、跨操作系統(tǒng)平臺(tái)通過(guò)網(wǎng)絡(luò)快速發(fā)送免費(fèi)語(yǔ)音短信、視頻、圖片和文字，以及使用通過(guò)共享流媒體內(nèi)容的資料和基于位置的社交服務(wù)等多種插件。

1.2 網(wǎng)絡(luò)社交隱私保護(hù)現(xiàn)狀

網(wǎng)絡(luò)社交工具在幫助人們與更多的朋友保持聯(lián)系的同時(shí)，也成為隱私窺探的戰(zhàn)場(chǎng)，甚至成為線下犯罪分子收集被害人信息的理想場(chǎng)所。目前，所有的網(wǎng)絡(luò)社交工具無(wú)論出于為用戶(hù)提供更好的服務(wù)或者出于其他商業(yè)目的，都在盡可能地收集用戶(hù)個(gè)人信息和記錄用戶(hù)的各種操作行為。隱私主要是指?jìng)€(gè)人、機(jī)構(gòu)等實(shí)體不愿意被外部世界知曉的信息。然而，由于科學(xué)研究和知識(shí)決策等需要，特別是近年來(lái)大數(shù)據(jù)和數(shù)據(jù)挖掘的興起，網(wǎng)絡(luò)社交數(shù)據(jù)被大量收集和發(fā)布。雖然這些數(shù)據(jù)在發(fā)布前一般都會(huì)對(duì)敏感信息做相應(yīng)的處理，以保護(hù)數(shù)據(jù)所有者及關(guān)系人的隱私。然而，大數(shù)據(jù)的核心就是預(yù)測(cè)，數(shù)據(jù)挖掘更是作為一個(gè)強(qiáng)有力的數(shù)據(jù)分析工具，能夠從大量的、不完全的、有噪聲的數(shù)據(jù)中識(shí)別和提取隱含的、未知的、新穎的、潛在有用的知識(shí)和規(guī)則。

為了應(yīng)對(duì)隱私泄漏危機(jī)，許多公司和機(jī)構(gòu)都選擇暫停甚至終止網(wǎng)絡(luò)社交數(shù)據(jù)分享計(jì)劃來(lái)規(guī)避可能的風(fēng)險(xiǎn)。但是塵封這些網(wǎng)絡(luò)社交數(shù)據(jù)就意味著巨大的研究?jī)r(jià)值都白白流失了，為了解開(kāi)這一困局，許多研究者開(kāi)始了基于數(shù)據(jù)分享的隱私數(shù)據(jù)保護(hù)技術(shù)相關(guān)研究。

2 隱私保護(hù)技術(shù)與差分隱私

隱私保護(hù)技術(shù)不僅需要最大可能的保護(hù)隱私，還要同時(shí)最大可能地保留數(shù)據(jù)中有用信息。目前基于數(shù)據(jù)發(fā)布的隱私保護(hù)技術(shù)主要有三大類(lèi)，分別是基于數(shù)據(jù)失真的隱私保護(hù)技術(shù)、基于數(shù)據(jù)加密的隱私保護(hù)技術(shù)和基于限制發(fā)布的隱私保護(hù)技術(shù)。

2.1 隱私保護(hù)技術(shù)概述

最早被廣泛認(rèn)同的隱私保護(hù)技術(shù)是Samarati和Sweeney于2002年提出的k-匿名。k-匿名要求對(duì)數(shù)據(jù)表中的每一條記錄不能區(qū)分于其它k-1條記錄，即對(duì)數(shù)據(jù)中的所有元組進(jìn)行泛化處理，使得其不能再與其他任何人相對(duì)應(yīng)。

表1 數(shù)據(jù)匿名化前后對(duì)比示例

從表1 可以看出，泛化后的數(shù)據(jù)不再像原數(shù)據(jù)一樣準(zhǔn)確，泛化對(duì)數(shù)據(jù)進(jìn)行了更為概括的描述，但保留了有用信息，從而使得數(shù)據(jù)依然具有可用性。一般來(lái)說(shuō)，泛化的程度越高，隱私保護(hù)的強(qiáng)度越強(qiáng)，而數(shù)據(jù)的可用性就越低。k-匿名的設(shè)計(jì)中引入了參數(shù)k來(lái)控制隱私保護(hù)的強(qiáng)度，要求泛化后數(shù)據(jù)中的每一條記錄都要與至少k-1條其他記錄完全一致。

然而，美國(guó)康奈爾大學(xué)的Machanavajjhala等人在2006年發(fā)現(xiàn)了k-匿名的嚴(yán)重漏洞，并提出了用以攻擊k-匿名的一致性攻擊。為防止一致性攻擊，Machanavajjhala等人改進(jìn)了k-匿名，提出了新的隱私模型l-多樣。然而，l-多樣依然有其自身缺陷。k-匿名和l-多樣的不足之處均在于沒(méi)有嚴(yán)格定義攻擊模型，對(duì)攻擊者所具有的知識(shí)未能作出定量化定義。使得從k-匿名開(kāi)始的一系列工作陷入一個(gè)“新隱私保護(hù)模型不斷被提出但又不斷被攻破”的循環(huán)之中。直到2006年來(lái)自微軟研究院的Dwork等人首次提出差分隱私模型，這一問(wèn)題才得到較好的解決。

2.2 差分隱私

差分隱私的定義是建立在對(duì)隨機(jī)算法的約束之上的。約束的根本目的在于限制攻擊者在得到帶噪中間件后，對(duì)原數(shù)據(jù)庫(kù)的推導(dǎo)能力。當(dāng)攻擊者向數(shù)據(jù)提供者提交一個(gè)查詢(xún)請(qǐng)求時(shí)，如果數(shù)據(jù)提供者直接發(fā)布準(zhǔn)確的查詢(xún)結(jié)果，則可能導(dǎo)致隱私泄漏，因?yàn)榭梢酝ㄟ^(guò)查詢(xún)結(jié)果來(lái)反推出隱私信息。為了避免這一問(wèn)題，差分隱私系統(tǒng)要求從數(shù)據(jù)庫(kù)中提煉出一個(gè)中間件，用特別設(shè)計(jì)的隨機(jī)算法對(duì)中間件注入適量的噪音，得到一個(gè)帶噪中間件；再由帶噪中間件推導(dǎo)出一個(gè)帶噪的查詢(xún)結(jié)果，并返回給用戶(hù)。這樣，即使攻擊者能夠從帶噪的結(jié)果反推得到帶噪中間件，他也不可能準(zhǔn)確推斷出無(wú)噪中間件，更不可能對(duì)原數(shù)據(jù)庫(kù)進(jìn)行推理，從而達(dá)到了保護(hù)隱私的目的。如圖1所示：

圖1 差分隱私的一般性方法示意圖

下面的定義給出了差分隱私的數(shù)學(xué)表達(dá)：

對(duì)于任意一對(duì)相鄰數(shù)據(jù)庫(kù)D1和D2（D1、D2只有一行記錄不同），任意一個(gè)可能的帶噪中間件S，一個(gè)提供ε-差分隱私保護(hù)的隨機(jī)化算法A必須滿(mǎn)足：

也就是來(lái)說(shuō)，由于對(duì)于輸入D1和D2，算法A輸出S的概率是相近的，那么即便攻擊者已經(jīng)知道了原數(shù)據(jù)中的絕大部分元組，他依然無(wú)法對(duì)剩余的元組做出準(zhǔn)確的推斷。

圖2 差分隱私的統(tǒng)計(jì)學(xué)模型示例

如圖2所示：對(duì)于任意一個(gè)可能的帶噪中間件S，Pr[A(D1)=S]和Pr[A(D2)=S]的比率總是被約束在[exp(-ε)，exp(ε)]之間，即：

差分隱私的參數(shù)ε描述了上述兩個(gè)概率分布的相似性，ε越小，概率的相似性越高，也就越難區(qū)分D1和D2，從而達(dá)到更高程度的隱私保護(hù)。

2.3 差分隱私保護(hù)技術(shù)核心算法

隨機(jī)算法是差分隱私保護(hù)的核心。Dwork等人最先提出了差分隱私的通用隨機(jī)算法——拉普拉斯機(jī)制。拉普拉斯機(jī)制通過(guò)向確切的查詢(xún)結(jié)果中加入服從拉普拉斯分布的隨機(jī)噪聲來(lái)實(shí)現(xiàn)ε-差分隱私保護(hù)，對(duì)于一個(gè)數(shù)據(jù)查詢(xún)F，拉普拉斯機(jī)制首先生成真實(shí)結(jié)果F(D)作為中間件，然后通過(guò)發(fā)布帶噪結(jié)果F(D)+η來(lái)回答查詢(xún)，Dwork等人證明了當(dāng)λ≥ΔF/ε時(shí)，拉普拉斯機(jī)制就能滿(mǎn)足ε-差分隱私——這里的ΔF定義為查詢(xún)F的敏感度，即當(dāng)給定任意一對(duì)相鄰數(shù)據(jù)庫(kù)D1和D2時(shí)，查詢(xún)F的最大變化量ΔF=maxD1,D2|F(D1)-F(D2)|。拉普拉斯機(jī)制主要適用于當(dāng)數(shù)據(jù)查詢(xún)的返回值為實(shí)數(shù)值的場(chǎng)合。

鑒于拉普拉斯機(jī)制主要適用于數(shù)值型查詢(xún)結(jié)果，而在實(shí)際應(yīng)用中很多時(shí)候查詢(xún)結(jié)果為實(shí)體對(duì)象，McSherry和Tulwar提出了指數(shù)機(jī)制，對(duì)于一個(gè)查詢(xún)函數(shù)的輸出域?yàn)镽，域中的每個(gè)值r為一個(gè)實(shí)體對(duì)象，且有r∈R，隨機(jī)算法為M，輸入數(shù)據(jù)集為D，q(D,r)為可用性函數(shù)，Δq為函數(shù)q(D,r)的敏感度，若算法M以正比于的概率從R中選擇并輸出r，那么算法M提供ε-差分隱私保護(hù)。該機(jī)制適用于數(shù)據(jù)查詢(xún)的范圍值域?yàn)殡x散值域的場(chǎng)合，也是差分隱私保護(hù)技術(shù)中的最經(jīng)典的通用算法之一。

3 小結(jié)

差分隱私不僅嚴(yán)格定義了攻擊者的背景知識(shí)，還擁有嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)學(xué)模型，極大地方便了數(shù)學(xué)工具的使用以及定量分析和證明。正是由于差分隱私的諸多優(yōu)勢(shì)，使其一出現(xiàn)便迅速取代了之前的隱私模型，成為隱私研究的核心，并在計(jì)數(shù)查詢(xún)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而，雖然差分隱私保護(hù)是相對(duì)魯棒的隱私保護(hù)技術(shù)，但是當(dāng)前仍有很多需要深入開(kāi)展研究工作，如攻擊模型的進(jìn)一步優(yōu)化、隱私保護(hù)與數(shù)據(jù)可用性的權(quán)衡等。