方俊斌,蔣千越,李愛平
(中國人民解放軍國防科技大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長沙 410073)
近年來,眾包技術(shù)得到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。美國《連線》雜志的記者杰夫·豪(Jeff Howe)2006年6月提出:眾包是一個(gè)公司或機(jī)構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的大眾網(wǎng)絡(luò)的做法[1]。傳統(tǒng)的外包是指以合同的形式把任務(wù)委派給指定的人或者機(jī)構(gòu)完成,但是很多任務(wù)并不能通過簡單的指定的人或機(jī)構(gòu)通過某些具體算法來實(shí)現(xiàn),這類問題可以借助于眾包模式,直接將任務(wù)發(fā)布到互聯(lián)網(wǎng),通過開放式集合互聯(lián)網(wǎng)上未知的大眾來解決傳統(tǒng)工作方式難以單獨(dú)處理的問題[2],例如Wikipedia、reCAPTCHA、標(biāo)記圖像、語言翻譯[3]等。因?yàn)楝F(xiàn)實(shí)生活中存在著大量類似的問題,因此眾包有著廣大的應(yīng)用前景和市場(chǎng)。
盡管眾包技術(shù)充分利用了群體智慧并帶來極大的效益,但眾包過程中涉及許多數(shù)據(jù)安全和隱私保護(hù)問題尚未得到很好的解決,例如眾包平臺(tái)中任務(wù)完成者(工人)自身隱私泄露問題、工人產(chǎn)生的數(shù)據(jù)內(nèi)容的安全問題、眾包過程中手機(jī)、傳感器等軟硬件設(shè)施的數(shù)據(jù)安全問題等。上述隱私泄露的風(fēng)險(xiǎn),極大限制了眾包技術(shù)的應(yīng)用和推廣。
當(dāng)前,針對(duì)眾包的隱私保護(hù)模型主要有基于加密技術(shù)的隱私保護(hù)模型、基于K-匿名等匿名技術(shù)的保護(hù)模型和基于差分隱私技術(shù)的保護(hù)模型等?;诩用艿碾[私保護(hù)方法具有較高的隱私保護(hù)水平,但其運(yùn)行開銷巨大,且需要構(gòu)建專門的數(shù)據(jù)庫?;谀涿椒ǖ碾[私保護(hù)技術(shù)具有較好的數(shù)據(jù)安全性和可用性,目前已經(jīng)得到較為廣泛的應(yīng)用,但該方法大都對(duì)攻擊者的背景知識(shí)做出了前提假設(shè),面對(duì)層出不窮、角度多樣的攻擊方式(如組合攻擊、背景知識(shí)攻擊、關(guān)聯(lián)攻擊等)時(shí)的抵御能力較弱,存在安全隱患。基于差分隱私的保護(hù)模型,不對(duì)攻擊者的背景知識(shí)做出限定,即使攻擊者已經(jīng)掌握除某一條記錄之外的所有其他信息,仍能夠?qū)粽呶凑莆盏挠涗涍M(jìn)行有效保護(hù),具有很強(qiáng)的安全性。對(duì)比上述幾種模型,由于差分隱私保護(hù)模型較強(qiáng)的隱私保護(hù)能力,同時(shí)兼顧適當(dāng)?shù)倪\(yùn)行開銷和較好的數(shù)據(jù)可用性,隨著研究的深入將具有更廣闊的應(yīng)用前景。
眾包技術(shù)是一種分布式的問題解決機(jī)制,采用的主要方式是公開召集互聯(lián)網(wǎng)大眾參與。眾包任務(wù)通常是難以獨(dú)自完成的、需要大量參與者共同解決的問題,大眾通過相互協(xié)作或獨(dú)立的方式完成分發(fā)的任務(wù)。根據(jù)參與眾包的不同形式,眾包被分為協(xié)作式眾包和競(jìng)賽式眾包。協(xié)作式眾包的任務(wù)是需要大眾協(xié)作來完成的,競(jìng)賽式眾包的任務(wù)通常是由個(gè)人獨(dú)立完成。
協(xié)作式眾包中典型的案例有維基百科Wikipedia和reCAPTCHA等。維基百科是開放的、自由的、免費(fèi)的百科全書編輯平臺(tái),任何大眾都可以進(jìn)行編輯和修改。reCAPTCHA項(xiàng)目則通過在驗(yàn)證碼中嵌入書籍的掃描信息,來完成紙質(zhì)書籍的電子化[4]。
競(jìng)賽式眾包中典型的例子是Amazon Mechanical Turk(Mturk)。Mturk為任務(wù)請(qǐng)求者和工人構(gòu)建了一個(gè)在線平臺(tái),為雙方提供數(shù)據(jù)收集、分類工作等任務(wù)的發(fā)布與接受服務(wù)。
以典型的競(jìng)爭(zhēng)式眾包為例,假設(shè)一個(gè)空間眾包平臺(tái),為任務(wù)請(qǐng)求者和工人建立基于位置信息等空間任務(wù)的合作關(guān)系,并負(fù)責(zé)任務(wù)請(qǐng)求者和工人提交的空間任務(wù)、個(gè)人位置等信息的綜合處理。
圖1展示了空間眾包的基本工作流程。
圖1 空間眾包的工作流程
空間眾包平臺(tái)收集任務(wù)請(qǐng)求者提交的任務(wù)以及工人的位置等信息,并由數(shù)據(jù)處理模塊預(yù)處理后提交至任務(wù)分配模塊,由任務(wù)分配模塊完成任務(wù)的分配,最后在工人完成任務(wù)后提交至質(zhì)量控制模塊,綜合分析并反饋給任務(wù)請(qǐng)求者。
在這個(gè)場(chǎng)景中,空間眾包平臺(tái)在數(shù)據(jù)處理的各個(gè)環(huán)節(jié)都可能存在用戶、工人、服務(wù)內(nèi)容等方面的隱私泄露問題,例如任務(wù)請(qǐng)求者發(fā)布任務(wù)的內(nèi)容可能泄露其自身信息、工人的位置數(shù)據(jù)等包含個(gè)人住址、健康狀況、生活習(xí)慣等許多隱私。這種隱私泄露的風(fēng)險(xiǎn),極大打擊用戶使用眾包技術(shù)的信心。
DWORK C[5]等人提出了差分隱私,這是一種有數(shù)學(xué)理論支撐并且對(duì)隱私泄露風(fēng)險(xiǎn)給出定量表示的方法。差分隱私在原始數(shù)據(jù)上添加隨機(jī)噪聲,使得對(duì)任意與-1條信息查詢返回的結(jié)果幾乎一致,即無法通過差分攻擊從數(shù)據(jù)集中識(shí)別出個(gè)體信息,同時(shí)還能保持?jǐn)?shù)據(jù)的統(tǒng)計(jì)特性,便于執(zhí)行良性的聚合分析,實(shí)現(xiàn)較高的數(shù)據(jù)可用性。將差分隱私技術(shù)運(yùn)用到眾包中,能夠有效防止基于背景知識(shí)的惡意攻擊[6]。
目前,差分隱私技術(shù)的研究主要分兩種[7]。一是中心化差分隱私保護(hù)技術(shù)。其要求可信的第三方數(shù)據(jù)收集者對(duì)原始數(shù)據(jù)進(jìn)行隱私化處理。二是本地化差分隱私技術(shù)(Local Differential Privacy,LDP)。LDP中,用戶在上傳數(shù)據(jù)前先對(duì)個(gè)體數(shù)據(jù)進(jìn)行隱私化處理,第三方收集的用戶數(shù)據(jù)只涉及加噪后的泛化信息,原始數(shù)據(jù)被保護(hù)在本地設(shè)備,降低了非可信第三方隱私泄露的風(fēng)險(xiǎn)。LDP的形式化定義如下[8]:
定義:給定n個(gè)用戶,每個(gè)用戶對(duì)應(yīng)一條記錄,給定一個(gè)隱私算法M及其定義域Dom(M)和值域Ran(M),若算法M在任意兩條記錄t和t′(t,t′∈Dom(M))上得到相同輸出結(jié)果t*(t*∈Ran(M))滿足下列不等式,則M滿足ε-本地化差分隱私。
Pr[M(t)=t*]≤eεPr[M(t′)=t*]
即LDP通過控制任意兩條記錄輸出結(jié)果的相似性,確保算法M滿足ε-本地化差分隱私。根據(jù)隱私算法M的某個(gè)輸出結(jié)果,幾乎無法推理出其輸入數(shù)據(jù)為哪一條記錄。
LDP數(shù)據(jù)處理框架如圖2所示。
圖2 本地化差分隱私處理框架
在常規(guī)的中心化差分隱私保護(hù)技術(shù)中,為保證算法滿足ε-差分隱私,需要噪聲機(jī)制的介入,常用的噪聲機(jī)制包括拉普拉斯機(jī)制[9]和指數(shù)機(jī)制[10]。其中,拉普拉斯機(jī)制面向連續(xù)型數(shù)據(jù)的查詢,而指數(shù)機(jī)制面向離散型數(shù)據(jù)的查詢。上述兩種噪聲機(jī)制均與查詢函數(shù)的全局敏感性密切相關(guān),而全局敏感性定義在至多相差一條記錄的近鄰數(shù)據(jù)集之上,使得攻擊者無法根據(jù)統(tǒng)計(jì)結(jié)果推測(cè)個(gè)體記錄。在LDP中,用戶上傳至第三方的數(shù)據(jù)已經(jīng)過隱私化處理,用戶無法獲知其他用戶的數(shù)據(jù),即LDP中不存在全局敏感性的概念,因此拉普拉斯機(jī)制和指數(shù)機(jī)制并不適用。目前,LDP主要采用隨機(jī)響應(yīng)技術(shù)、Bloom Filter[11]等技術(shù)來確保隱私算法滿足ε-本地化差分隱私。LDP下,離散型數(shù)據(jù)的隨機(jī)響應(yīng)方法包括 RAPPOR[12]、S-Hist[13]、k-RR[14]和O-RR[15]等,連續(xù)型數(shù)據(jù)的隨機(jī)響應(yīng)方法有MeanEst[16]和 Harmony-mean[17]等。
LDP相比中心化差分隱私具有更廣泛的應(yīng)用場(chǎng)景,十分適用于當(dāng)前的眾包模型。在上述的空間眾包模型中引入LDP技術(shù),每個(gè)用戶(包括任務(wù)發(fā)布者和工人)先在各自本地對(duì)數(shù)據(jù)進(jìn)行隱私化處理,再將隱私化后的數(shù)據(jù)發(fā)送給眾包平臺(tái),眾包平臺(tái)對(duì)采集到的隱私化數(shù)據(jù)進(jìn)行集合、統(tǒng)計(jì)特征分析、綜合應(yīng)用與反饋等處理。在此過程中,敏感的原始數(shù)據(jù)都保留在用戶本地,眾包平臺(tái)僅對(duì)隱私化的數(shù)據(jù)進(jìn)行操作,有效保證個(gè)體的隱私信息不被泄露。
另外,由于差分隱私保護(hù)模型本質(zhì)上是通過添加噪聲實(shí)現(xiàn)對(duì)數(shù)據(jù)的擾動(dòng),使算法滿足ε-差分隱私。噪聲越大,對(duì)數(shù)據(jù)的保護(hù)程度越高,數(shù)據(jù)可用性就會(huì)降低。反之,噪聲越低,隱私保護(hù)程度越低,數(shù)據(jù)可用性越大。因此,如何針對(duì)不同的眾包應(yīng)用場(chǎng)景,界定隱私與數(shù)據(jù)可用性,在其之間進(jìn)行有效的權(quán)衡,并設(shè)計(jì)適當(dāng)?shù)碾[私算法,確保模型同時(shí)具有高隱私性和高可用性,是當(dāng)前LDP模型的研究重點(diǎn)。
當(dāng)前,本地化差分隱私技術(shù)在數(shù)據(jù)眾包中的研究持續(xù)深入研究與發(fā)展,并在許多場(chǎng)景中得到應(yīng)用。
2.2.1主要研究方向
(1) 針對(duì)高維數(shù)據(jù)的研究。隨著各種傳感器和人群感知系統(tǒng)的發(fā)展,眾包數(shù)據(jù)信息不斷向高維發(fā)展,數(shù)據(jù)之間的關(guān)聯(lián)性日益加強(qiáng),眾包參與者的隱私更容易被推斷或者識(shí)別。針對(duì)這個(gè)特點(diǎn),Ren Xuebin等[18]提出一個(gè)基于本地化差分隱私技術(shù)的高維眾包數(shù)據(jù)發(fā)布算法LoPub。LoPub基于EM和Lasso回歸,可以從分布式用戶收集和構(gòu)建高維數(shù)據(jù),并通過將數(shù)據(jù)集分割成許多緊湊的聚類來降低原始數(shù)據(jù)集中的維數(shù)和稀疏度。在對(duì)聚類的分布進(jìn)行分析之后,從中繪制一個(gè)新的數(shù)據(jù)集,從而實(shí)現(xiàn)對(duì)整個(gè)原始人群數(shù)據(jù)的近似處理,同時(shí)保證個(gè)人隱私。文獻(xiàn)[17]研究了智能手機(jī)端收集用戶的多種數(shù)值和類別數(shù)據(jù)中本地化差分隱私機(jī)制Harmony,既可以處理數(shù)值型數(shù)據(jù),又可以處理類別型數(shù)據(jù);在ε-差分隱私下,文獻(xiàn)[17]研究了線性回歸、邏輯回歸和SVM分類器在訓(xùn)練參數(shù)過程中使用SGD方法避免受到噪聲干擾的mini-batch數(shù)。
2.2.2當(dāng)前主要應(yīng)用
(1) Google的RAPPOR技術(shù)。Google在Chrome瀏覽器中采用RAPPOR[12]技術(shù),利用隨機(jī)應(yīng)答策略和Bloom Filter實(shí)現(xiàn)了針對(duì)客戶端群體的類別、頻率、直方圖和字符串類型統(tǒng)計(jì)數(shù)據(jù)的隱私保護(hù)分析,為提供差分隱私保護(hù)。在RAPPOR中,采用永久和即時(shí)的隨機(jī)響應(yīng),可以單獨(dú)調(diào)節(jié)隱私保護(hù)水平,而且Bloom Filter可以增加額外的不確定性,不僅壓縮報(bào)文大小,更增加攻擊者的攻擊難度。在解碼過程中結(jié)合成熟的假設(shè)檢驗(yàn)、最小二乘求解和LASSO回歸實(shí)現(xiàn)了針對(duì)字符串抽樣群體頻率的高可用解碼框架。此外,RAPPOR的改進(jìn)模型實(shí)現(xiàn)了數(shù)據(jù)字典未知情況下的本地學(xué)習(xí)多變量聯(lián)合概率分布估計(jì)。
(2) Apple的本地化差分隱私部署應(yīng)用。Apple在2016年6月的WWDC上正式宣布,在iOS 10及以后的產(chǎn)品中使用本地差分隱私技術(shù)。利用本地差分隱私技術(shù),服務(wù)器以眾包的方式學(xué)習(xí)由用戶客戶端設(shè)備生成的信息,同時(shí)保持客戶端設(shè)備的本地隱私[22]。系統(tǒng)為本地?cái)?shù)據(jù)添加隨機(jī)信息,使得Apple無法將數(shù)據(jù)與每個(gè)用戶設(shè)備關(guān)聯(lián),又能通過大量加噪數(shù)據(jù)分析出用戶群體的使用模式。其應(yīng)用主要涉及局部抽樣、散列加密、噪聲擾動(dòng)等手段。
差分隱私作為一種隱私保護(hù)模型,最強(qiáng)大的地方在于只要算法每一個(gè)步驟都滿足差分隱私的要求,那么它可以保證這個(gè)算法的最終輸出結(jié)果滿足差分隱私,即攻擊者具有足夠多的背景知識(shí),也無法在最終的輸出中找出單個(gè)人的某項(xiàng)屬性。作為數(shù)據(jù)眾包中的一種隱私保護(hù)手段,本地化差分隱私表現(xiàn)出了足夠的防護(hù)能力和應(yīng)用潛力。但在技術(shù)飛速發(fā)展、數(shù)據(jù)眾包技術(shù)也不斷演變的今天,對(duì)于本地化差分隱私保護(hù)技術(shù),還存在理論和應(yīng)用上的一些難題和新的研究方向,有待進(jìn)一步深入探索??偟膩碚f,本地化差分隱私在眾包等領(lǐng)域中已經(jīng)取得了一些研究成果,但作為一個(gè)新的保護(hù)手段,仍然需要不斷深入研究,以取得更大的理論和應(yīng)用成果。
[1] 馮劍紅, 李國良, 馮建華. 眾包技術(shù)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2015, 38(9): 1713-1726.
[2] HOWE J. Crowdsourcing: why the power of the crowd is driving the future of business[M]. 2008.
[3] IPEIROTIS P G. Analyzing the amazon mechanical turk marketplace[J]. Social Science Electronic Publishing, 2010, 17(2):16-21.
[4] VON AHN L, MAURER B, MCMILLEN C, et al. Recaptcha: human-based character recognition via web security measures[J]. Science, 2008, 321(5895): 1465-1468.
[5] DWORK C. Differential privacy: a survey of results[C]. International Conference on Theory and Applications of Models of Computation. Springer, Berlin, Heidelberg, 2008: 1-19.
[6] 張琳, 劉彥, 王汝傳. 位置大數(shù)據(jù)服務(wù)中基于差分隱私的數(shù)據(jù)發(fā)布技術(shù)[J]. 通信學(xué)報(bào), 2016, 37(9): 46-54.
[7] 高志強(qiáng), 王宇濤. 差分隱私技術(shù)研究進(jìn)展[J]. 通信學(xué)報(bào), 2017, 38(S1): 151-155.
[8] 葉青青, 孟小峰, 朱敏杰, 等. 本地化差分隱私研究綜述[J/OL]. 軟件學(xué)報(bào), 2018, 29(7). http://www.jos.org.cn/1000-9825/5364.ht
[9] DWORK C, MCSHERRY F, NISSIM K. Calibrating Noise to Sensitivity in Private Data Analysis[M].Theory of Cryptography. Springer Berlin Heidelberg, 2006:637-648.
[10] MCSHERRY F, TALWAR K. Mechanism design via differential privacy[C]// IEEE Symposium on Foundations of Computer Science. IEEE Computer Society, 2007:94-103.
[11] BLOOM B H. Space/time trade-offs in hash coding with allowable errors[J]. Communications of the ACM, 1970, 13(7): 422-426.
[13] BASSILY R, SMITH A. Local, private, efficient protocols for succinct histograms[C]//Proceedings of the Forty-seventh Annual ACM Symposium on Theory of Computing. ACM, 2015: 127-135.
[14] KAIROUZ P, OH S, VISWANATH P. Extremal mechanisms for local differential privacy[C]//Advances in Neural Information Processing Systems, 2014: 2879-2887.
[15] KAIROUZ P, BONAWITZ K, RAMAGE D. Discrete distribution estimation under local privacy[J]. arXiv preprint arXiv:1602.07387, 2016.
[16] DUCHI J C, JORDAN M I, WAINWRIGHT M J. Local privacy, data processing inequalities, and statistical minimax rates[J]. arXiv preprint arXiv:1302.3203, 2013.
[17] NGUYêN T T, XIAO X, YANG Y, et al. Collecting and analyzing data from smart device users with local differential privacy[J]. arXiv preprint arXiv:1606.05053, 2016.
[18] REN X, YU C M, YU W, et al. LoPub: high-dimensional crowdsourced data publication with local differential privacy[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(9): 2151.
[19] BASSILY R, STEMMER U, THAKURTA A G. Practical locally private heavy hitters[C]//Advances in Neural Information Processing Systems, 2017: 2285-2293.
[20] QIN Z, YANG Y, YU T, et al. Heavy hitter estimation over set-valued data with local differential privacy[C]//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. ACM, 2016: 192-203.
[21] BUN M, NELSON J, STEMMER U. Heavy hitters and the structure of local privacy[C]//Proceedings of the 35th ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems. ACM, 2018: 435-447.
[22] THAKURTA A G, VYRROS A H, VAISHAMPAYAN U S, et al. Learning new words[P].US: US15477921, 2018-02-08.