王雷霞 孟小峰
(中國人民大學(xué)信息學(xué)院 北京 100872)
隨著數(shù)據(jù)驅(qū)動的人工智能等技術(shù)的飛速發(fā)展,用戶數(shù)據(jù)收集的需求越來越迫切.但隨著隱私泄露事件的頻發(fā),用戶隱私保障逐步成為各企業(yè)數(shù)據(jù)收集的“壁壘”[1-2].具體而言,近幾年典型的隱私泄露事件包括Uber賬戶數(shù)據(jù)泄露事件、Facebook劍橋分析事件,造成了千萬級的用戶數(shù)據(jù)外泄或濫用[3].為嚴(yán)防此類事件的頻發(fā),各國政府都頒布了相關(guān)法令以對用戶隱私數(shù)據(jù)進(jìn)行法律意義上的保護(hù).典型的,2016年4月,歐盟通過了《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR)[4],明確規(guī)定用戶在數(shù)據(jù)上的查閱權(quán)、被遺忘權(quán)等權(quán)利;2019年5月,中國國家互聯(lián)網(wǎng)信息辦公室發(fā)布了《數(shù)據(jù)安全管理辦法(征求意見稿)》[5],以保障用戶個人信息和重要數(shù)據(jù)在網(wǎng)絡(luò)空間中的安全,并從數(shù)據(jù)收集、處理使用、安全監(jiān)管3個方面討論其辦法.然而,數(shù)據(jù)的特殊性質(zhì)決定用戶的隱私問題不能僅通過法律法規(guī)界定其歸屬解決[6],企業(yè)也不能因此放棄對用戶敏感數(shù)據(jù)的收集,發(fā)展在大數(shù)據(jù)收集場景下兼顧數(shù)據(jù)隱私性與可用性的隱私保護(hù)技術(shù)勢在必行.
隱私保護(hù)技術(shù)經(jīng)過近20年的發(fā)展,已經(jīng)有了諸多較為成熟的方法與體系[7],典型的包括匿名化技術(shù)[8-11]、差分隱私技術(shù)[12-13]、密碼學(xué)技術(shù)等.在大數(shù)據(jù)場景下,當(dāng)前主流的隱私保護(hù)技術(shù)是差分隱私技術(shù),更具體的指本地化差分隱私技術(shù)(local differential privacy, LDP)[14],谷歌[15]、微軟[16]和蘋果[17]等企業(yè)都借助該技術(shù)完成特定的用戶行為信息統(tǒng)計.差分隱私類方法本質(zhì)上都是在保證數(shù)據(jù)整體分布不變的情況下對數(shù)據(jù)進(jìn)行擾動,本地化差分隱私技術(shù)的優(yōu)勢主要體現(xiàn)在對隱私的嚴(yán)格定義和對數(shù)據(jù)收集場景的適用性上.具體地,在隱私定義上,它保證了任意一條用戶數(shù)據(jù)的增、刪、改都對用戶發(fā)布數(shù)據(jù)的統(tǒng)計分布幾乎無影響,可從根本上抵御匿名化方法難以應(yīng)對的背景知識攻擊;在場景適用性上,它直接在用戶本地端對數(shù)據(jù)進(jìn)行擾動,并只對外發(fā)布擾動數(shù)據(jù)以保護(hù)隱私,無需依賴任何第三方.但該方法也存在著致命的缺點,即在本地端添加過多噪聲,使得數(shù)據(jù)的可用性較差.使用該方法,企業(yè)要么承受該數(shù)據(jù)誤差,要么為提高數(shù)據(jù)可用性提高隱私損失ε,從而使得用戶數(shù)據(jù)的隱私度降低.
從理想的角度出發(fā),是否存在一種隱私保護(hù)方法在不對數(shù)據(jù)擾動的情況下保護(hù)隱私,使得數(shù)據(jù)的隱私性與可用性兩者兼得?2017年谷歌的Bittau等人[18]提出ESA(encode-shuffle-analyze)框架,向該理想狀態(tài)跨出有力的一步.該框架主要由編碼器(encoder)、混洗器(shuffler)和分析器(analyzer)3部分組成:編碼器運行在客戶端,對用戶數(shù)據(jù)進(jìn)行本地化的編碼、分割、擾動等處理;混洗器運行在一個半誠信的第三方,它可借助現(xiàn)有的安全混洗協(xié)議[19-25]在對數(shù)據(jù)一無所知的情況下完成安全的混洗操作;分析器運行在真正的數(shù)據(jù)收集者端,對收集的數(shù)據(jù)進(jìn)行校正與分析.該框架中,混洗器完成了對用戶數(shù)據(jù)完全匿名的操作,使得用戶可以在盡可能對數(shù)據(jù)本身進(jìn)行較小擾動的情況,獲得較多的隱私保護(hù).
更具體地,圖1對該例子中數(shù)據(jù)收集者獲得頻數(shù)估計的分布進(jìn)行展示,基于ESA框架擾動后的結(jié)果更接近于原始數(shù)據(jù),而本地化差分隱私方法擾動后的結(jié)果則與真實結(jié)果相距甚遠(yuǎn).值得說明的是,基于ESA框架擾動后的結(jié)果與中心化差分隱私方法(central differential privacy, CDP)在該案例下獲得的結(jié)果近似,但該中心化差分隱私方法假設(shè)數(shù)據(jù)收集者可信(或存在一個可信第三方),是在對用戶真實數(shù)據(jù)的計算結(jié)果(即直方圖)上直接添加1次Laplace噪聲得到的,而基于ESA框架的方法上需在用戶本地添加總共n次噪聲.
Fig. 1 Comparison of different methods’ results
當(dāng)前對ESA框架的研究仍處于起步階段,以混洗差分隱私為主要方法,主要集中在2個方面:1)對其隱私增強效果的理論證明,即隱私放大(privacy amplification)理論;2)基于該模型提出不同統(tǒng)計估計方法.就混洗差分隱私而言,隱私放大理論是指用戶在本地通過本地化差分隱私的方法對數(shù)據(jù)進(jìn)行擾動,使得擾動后的數(shù)據(jù)經(jīng)混洗實現(xiàn)接近于中心化方法所獲得的數(shù)據(jù)統(tǒng)計結(jié)果.在不同統(tǒng)計估計方法實現(xiàn)時,可基于現(xiàn)有的差分隱私技術(shù)[31-32]進(jìn)行設(shè)計,為了進(jìn)一步提高準(zhǔn)確性,也可借助密碼學(xué)中Split-Mix方法[33]進(jìn)行構(gòu)建.
本文對該新型的隱私保護(hù)框架進(jìn)行綜述,主要貢獻(xiàn)有4個方面:
1) 本文對ESA框架的實現(xiàn)機(jī)理與隱私保護(hù)程度進(jìn)行詳盡的分析,并以混洗差分隱私為例與其他差分隱私模型進(jìn)行對比,以說明該框架的優(yōu)勢(第1節(jié));
2) 本文對ESA框架實現(xiàn)的主要方法——混洗差分隱私進(jìn)行分析總結(jié),包括該方法設(shè)計與實現(xiàn)的基礎(chǔ)理論與技術(shù)(第2,3節(jié)),以及該方法下具體的隱私保護(hù)機(jī)制(第4,5節(jié)).具體地,本文按研究問題分類,對混洗差分隱私的計數(shù)估計、頻數(shù)估計、求和估計及其他的簡單統(tǒng)計問題進(jìn)行了對比分析.
3) 本文通過實驗對混洗差分隱私下不同統(tǒng)計問題的隱私保護(hù)機(jī)制進(jìn)行對比.當(dāng)前絕大多數(shù)工作都是理論研究,本文通過實驗對比,可以更直觀地說明不同理論機(jī)制在實際應(yīng)用時的效用和效率差異.
4) 基于對混洗差分隱私的理論與實驗分析,本文提出ESA框架應(yīng)用與發(fā)展的挑戰(zhàn)問題,對本文進(jìn)行總結(jié).其中,考慮到混洗差分隱私在應(yīng)用上固有的局限性、在方法設(shè)計中的明顯不足,本文對ESA框架下的非差分隱私方法進(jìn)行展望(第6,7節(jié)).
之后,以當(dāng)前主流的混洗差分隱私框架(即ESA框架與差分隱私的結(jié)合)為主要案例,在實現(xiàn)同樣隱私目標(biāo)的情況下,與傳統(tǒng)的隱私保護(hù)框架對比,包括中心化差分隱私框架、本地化差分隱私框架及基于密碼學(xué)的差分隱私框架.最終通過對比說明,ESA框架不僅有利于隱私保護(hù)中數(shù)據(jù)高隱私度與高可用性的實現(xiàn),對當(dāng)前各企業(yè)已部署的本地化差分隱私框架也極具適應(yīng)性.
ESA框架如圖2所示,主要由編碼器、混洗器和分析器構(gòu)成,并假設(shè)這三方是不可合謀的.
Fig. 2 ESA framework
① 半誠信參與方(semi-honest party)[36],又稱誠實且好奇的參與方(honest-but-curious party),是源于密碼學(xué)中的一個安全假設(shè),假設(shè)該參與方會正確遵循協(xié)議的執(zhí)行,但對計算的中間結(jié)果保持好奇,并依此進(jìn)行推理攻擊(inference attack).
1) 編碼器.主要運行在用戶的本地客戶端,通常被認(rèn)為是可信的.它的作用是對用戶數(shù)據(jù)進(jìn)行編碼,以完成對用戶數(shù)據(jù)的發(fā)布范圍、粒度、擾動程度以及隨機(jī)化程度的控制,在不依賴任何信任假設(shè)的情況下保護(hù)用戶數(shù)據(jù)隱私[15].
編碼器可根據(jù)其輸出消息的多寡分為單消息模式和多消息模式[34-35].單消息模式指用戶將數(shù)據(jù)編碼為1條消息,形式上可以是1個數(shù)值、1個二元組或1個數(shù)組,每個消息都是后續(xù)處理的最小單元;多消息模式指用戶將數(shù)據(jù)編碼為多條可分別處理的消息,如多個數(shù)值、二元組和數(shù)組等.對于同一輸入,通常情況下多消息模式可攜帶更多信息,有助于分析器獲取更準(zhǔn)確的分析結(jié)果.
編碼器的具體實現(xiàn),可通過數(shù)據(jù)泛化、數(shù)據(jù)分割、加密、添加差分隱私噪聲的方式實現(xiàn),以達(dá)到消除或減少數(shù)據(jù)所蘊含的隱私信息的目的[18].
2) 混洗器.是獨立的半誠信(semi-honest)①服務(wù)器,可在對數(shù)據(jù)內(nèi)容一無所知的情況下執(zhí)行安全的混洗操作,是ESA框架的核心組件.它的作用是接收用戶編碼后的數(shù)據(jù),消除相應(yīng)的元數(shù)據(jù)(包括接收時間、順序、IP地址等),并對接收數(shù)據(jù)進(jìn)行混洗(即打亂順序),以達(dá)到匿名目的.為保證足夠的隱私保護(hù)效果,該混洗器需等待一段時間收集足夠的用戶數(shù)據(jù)進(jìn)行混洗,并對數(shù)據(jù)量滿足一定閾值的數(shù)據(jù)進(jìn)行發(fā)布.當(dāng)數(shù)據(jù)量為敏感信息時,可對該閾值添加滿足差分隱私的噪聲進(jìn)行擾動,或者隨機(jī)丟掉一些數(shù)據(jù)使數(shù)據(jù)量滿足差分隱私[18],從而保護(hù)數(shù)據(jù)量隱私.
在混洗器的模式上,可分為單混洗器模式和多混洗器模式[34-35].單混洗器模式是將所有編碼器輸出的數(shù)據(jù)一起混洗,即從邏輯上使用1個混洗器進(jìn)行混洗;多混洗器模式是將編碼器輸出的數(shù)據(jù)按屬性或其他特征進(jìn)行分類,從邏輯上使用多個混洗器對每個分類內(nèi)的數(shù)據(jù)分別進(jìn)行混洗.多混洗器模式通常用于屬性或分類特征不敏感的情況下,與多消息模式的編碼器相結(jié)合.但多混洗器模式并不與編碼器中的多消息模式對應(yīng),多消息的消息也可以使用單混洗模式的混洗器.單混洗模式將所有數(shù)據(jù)混淆,具有更高的隱私性;但對多消息的分類特征不敏感的情況,使用多混洗模式會獲得更高的數(shù)據(jù)可用性.
混洗器的具體實現(xiàn)可根據(jù)該模型部署的條件借助已有的安全混洗協(xié)議[18-24],基于可信硬件[25]、同態(tài)加密[36-38]或安全多方計算[39]等方式完成.特別地,單混洗模式和多混洗模式并不與混洗器具體實現(xiàn)的數(shù)量一一對應(yīng),這2個混洗模式是從隱私的邏輯層面進(jìn)行定義的.多混洗模式可使用1個混洗器實現(xiàn),即為每個分類添加標(biāo)簽,對屬于不同標(biāo)簽的數(shù)據(jù)分別進(jìn)行混洗;這2個混洗模式都可基于現(xiàn)有的安全協(xié)議使用多個混洗器實現(xiàn),以避免單點失敗.
3) 分析器.由數(shù)據(jù)收集者運行,是不可信服務(wù)器.它的作用是接收混洗器發(fā)布的數(shù)據(jù),依據(jù)相應(yīng)的編碼和混洗規(guī)則對數(shù)據(jù)進(jìn)行分析與校正,并獲取最終的統(tǒng)計結(jié)果.該框架中數(shù)據(jù)的隱私性主要是針對分析器而言的,即將分析器視為數(shù)據(jù)的窺探者.
本文綜述的重點在于如何設(shè)計編碼器和分析器,選擇恰當(dāng)?shù)幕煜茨J絹磉M(jìn)行滿足一定隱私保證的統(tǒng)計計算.本文將混洗器作為黑盒來使用,假設(shè)其可以完成安全的混洗操作,主要原因是安全混洗協(xié)議已經(jīng)發(fā)展成熟,在諸多安全相關(guān)的文獻(xiàn)中已有過總結(jié)和論述[18-24];同時安全混洗協(xié)議的不同實現(xiàn)并不會對該框架下隱私保護(hù)方法的隱私性和可用性造成明顯影響.
通常情況下,研究者們將ESA框架與隱私定義嚴(yán)格的差分隱私進(jìn)行結(jié)合,即保證分析器所獲得的最終輸出滿足差分隱私定義,以此來對數(shù)據(jù)隱私進(jìn)行保證與度量.該結(jié)合被稱為混洗差分隱私,如圖3(b)所示,是本文所探討的核心方法.
Fig. 3 Comparison of differential privacy methods under different frameworks
對發(fā)展歷史已久的差分隱私方法而言,現(xiàn)存在著中心化差分隱私、本地化差分隱私、基于加密的差分隱私等多種基于不同隱私保護(hù)框架實現(xiàn)的差分隱私方法.本節(jié)將混洗差分隱私與其他差分隱私方法進(jìn)行對比,以說明ESA框架在數(shù)據(jù)隱私性、數(shù)據(jù)可用性和框架易用性上的顯著優(yōu)勢.
1.3.1 與中心化、本地化差分隱私對比
混洗差分隱私方法與本地化差分隱私方法具有高度的相似性,它們可使用相同的編碼器,實現(xiàn)用戶本地數(shù)據(jù)的差分隱私.混洗差分隱私方法可視為在本地差分隱私框架上增加混洗器得到的,該混洗器依賴于半誠信的安全假設(shè),相比于無任何可信依賴的本地化差分隱私框架,其可信假設(shè)更強.但混洗器所完成的匿名操作,可有效實現(xiàn)隱私增強的效果,意味著在保證同樣ε-差分隱私保護(hù)的前提下,混洗差分隱私框架可通過編碼器添加較小的噪聲來提高最終數(shù)據(jù)的可用性.
中心化差分隱私使用集中式隱私保護(hù)框架,將分析器和編碼器集成在一起,放置于一個可信的第三方,該第三方可視為數(shù)據(jù)收集者.該方法中,數(shù)據(jù)收集者收集用戶原始數(shù)據(jù),在該數(shù)據(jù)上進(jìn)行分析,之后發(fā)布添加差分隱私噪聲的分析結(jié)果.混洗差分隱私方法與之相比,雖在用戶數(shù)據(jù)上添加了較多噪聲損失了一定數(shù)據(jù)的可用性,但擺脫了對可信服務(wù)器的強依賴.
總體而言,在模型對可信第三方的依賴程度上,本地化差分隱私<混洗差分隱私<中心化差分隱私,即本地化差分隱私擁有最小的可信假設(shè);以同一ε-差分隱私為目的,在分析結(jié)果的可用性上,中心化差分隱私>混洗差分隱私>本地化差分隱私,即中心化差分隱私擁有最高的結(jié)果可用性.由此可發(fā)現(xiàn),混洗差分隱私方法在隱私與可用性上,均介于本地化與中心化差分隱私兩者之間,實現(xiàn)了更好的平衡.
1.3.2 與基于加密的差分隱私對比
僅從數(shù)據(jù)可用性的角度出發(fā),基于加密的差分隱私也可在無需可信第三方支持的隱私保護(hù)框架上,實現(xiàn)可用性與中心化方法接近的差分隱私[41],與混洗差分隱私方法的結(jié)果相似.如圖4所示,在該框架中,用戶需在本地端對數(shù)據(jù)進(jìn)行同態(tài)加密,將加密后的數(shù)據(jù)發(fā)送給服務(wù)器.之后,服務(wù)器借助2個不可共謀的云,在加密數(shù)據(jù)上計算查詢結(jié)果并添加滿足差分隱私的噪聲,發(fā)布該擾動的數(shù)據(jù).
Fig. 4 Cryptographic differential privacy framework
但相比混洗差分隱私方法,該方法借助同態(tài)加密完成查詢計算,會產(chǎn)生較高的計算代價和通信代價.同時,該框架需針對每一個查詢特別設(shè)計隱私協(xié)議,而混洗差分隱私框架可通過簡單的更改部署在現(xiàn)有的、廣泛應(yīng)用的本地化差分隱私框架上,具有較強的適應(yīng)性.類似基于圖4的加密差分隱私方法還有文獻(xiàn)[42-43],均具有上述不足.
綜上,通過對不同框架下差分隱私方法的直觀對比,說明了混洗差分隱私在隱私性、可用性和易用性上的突出優(yōu)勢,而這些優(yōu)勢均得益于ESA框架的應(yīng)用與部署.后文,將對該混洗差分隱私方法進(jìn)行詳細(xì)的理論分析與實驗對比,同時對ESA框架下其他隱私保護(hù)問題與方法的實現(xiàn)進(jìn)行分析與展望.
本節(jié)以混洗差分隱私為主要方法,對ESA框架下隱私保護(hù)機(jī)制設(shè)計與實現(xiàn)的基礎(chǔ)理論進(jìn)行介紹.首先,本節(jié)對差分隱私的基本定義和重要性質(zhì)進(jìn)行回顧,之后,在ESA框架下基于差分隱私概念提出混洗差分隱私.最終,基于混洗差分隱私,本節(jié)給出ESA框架下隱私放大理論的嚴(yán)格定義與實驗分析.該理論嚴(yán)格證明了混洗器對用戶本地端隱私保證的增強效果,說明ESA框架可在本地添加較少噪聲來實現(xiàn)較強的隱私保護(hù)效果,從而提高數(shù)據(jù)可用性.
Pr(M(D)∈S)≤eεPr(M(D′)∈S)+δ.
(1)
該定義為差分隱私的一般定義,也可將其視作中心化差分隱私的定義.相應(yīng)地,本地化差分隱私考慮分布式數(shù)據(jù)集,即每個用戶擁有1個數(shù)據(jù),且數(shù)據(jù)收集者可將收集的數(shù)據(jù)和用戶相關(guān)聯(lián).為保證數(shù)據(jù)收集者所收集的數(shù)據(jù)滿足差分隱私,需保證每個用戶的輸出均滿足差分隱私,因此得到如下本地化差分隱私的定義:
Pr(M(x)∈S)≤eεPr(M(x′)∈S)+δ.
(2)
在定義1和定義2中,當(dāng)δ=0時,可得到純差分隱私(pure differential privacy)的定義,可分別標(biāo)記為ε-DP和ε-LDP;否則稱為近似差分隱私(approximate differential privacy).ε被稱為隱私代價或隱私預(yù)算,該值越小,說明相鄰數(shù)據(jù)集或不同用戶輸入產(chǎn)生同一結(jié)果的概率越相近,該算法的隱私保護(hù)程度越高.δ表示相鄰數(shù)據(jù)集輸出結(jié)果存在概率δ使其不滿足純差分隱私,該值越小,該算法的隱私保護(hù)程度越高.
中心化與本地化的差分隱私均具有序列組合性(sequential composition)、并行組合性(parallel composition)和后處理性(post-processing)這樣3條重要性質(zhì).差分隱私的組合性可幫助協(xié)議設(shè)計者進(jìn)行隱私預(yù)算ε的分割,后處理性質(zhì)對定義在ESA框架上的差分隱私十分關(guān)鍵.
性質(zhì)1.序列組合性[45].給定數(shù)據(jù)集D和m個隨機(jī)化算法{M1,M2,…,Mm},算法Mi,1≤i≤m滿足εi-DP,則這m個Mi(D)算法構(gòu)成的序列滿足∑εi-DP.
性質(zhì)2.并行組合性[45].給定數(shù)據(jù)集D={D1∪D2∪…∪Dm},其中Di,1≤i≤m和Dj,1≤j≤m且i≠j為互不相交的數(shù)據(jù)集,設(shè)Mi滿足εi-DP的算法,則這m個Mi(Di)算法構(gòu)成的序列滿足max{εi}-DP.
性質(zhì)3.后處理性[46].給定滿足(ε,δ)-DP的隨機(jī)化算法M,令f為任意的隨機(jī)化函數(shù),則f°M依舊滿足(ε,δ)-DP.
序列組合性說明隱私預(yù)算ε可以在算法設(shè)計的不同步驟進(jìn)行分配;并行組合性則定義了算法在不相交數(shù)據(jù)集上的隱私保證;后處理性則強調(diào),在滿足ε-DP的數(shù)據(jù)結(jié)果上進(jìn)行隨機(jī)操作,其輸出依舊滿足ε-DP.這3條性質(zhì)適用于本地化差分隱私時,數(shù)據(jù)集D相應(yīng)地定義在用戶本地的數(shù)據(jù)集上.
基于定義1~2與性質(zhì)1~3,結(jié)合ESA框架,本節(jié)給出混洗差分隱私的定義.簡單而言,混洗差分隱私要求對分析器來說,其收集的數(shù)據(jù)滿足定義1中差分隱私的要求.同時,差分隱私的后處理性說明,只要ESA框架中的隨機(jī)化編碼器R和混洗器S處理過后的數(shù)據(jù)滿足差分隱私,最終結(jié)果即滿足差分隱私.該結(jié)果的隱私效果與分析器無關(guān),分析器的重要作用是對擾動數(shù)據(jù)進(jìn)行計算,對估計結(jié)果進(jìn)行校正.
定義3.混洗差分隱私[47].給定n個可信用戶,每個用戶對應(yīng)1條記錄xi.令R:X→Ym表示隨機(jī)化的編碼器,其中m表示編碼后消息的數(shù)量;S:Ym→Π(Ym)表示混洗操作;算法A:Π(Ym)→Z為分析函數(shù),其中Π表示亂序,則混洗差分隱私協(xié)議可表示為P=(R,S,A).根據(jù)后處理性,則協(xié)議P滿足(ε,δ)-DP,當(dāng)且僅當(dāng)擾動后的數(shù)據(jù)S°Rn=S(R(x1),R(x2),…,R(xn))=Π(R(x1),R(x2),…,R(xn))滿足(ε,δ)-DP.
定義3假設(shè)參與計算的用戶都是可信的,即都會按照協(xié)議正確地參與計算.但如果存在用戶不可信、掉線或者與分析器共謀,則會大大影響混洗的效果,從而影響最終的差分隱私效果,由此,具有魯棒性的混洗差分隱私被提出.
定義4.具有魯棒性的混洗差分隱私(robust shuffle differential privacy, RSDP)[48].給定N個用戶和可信用戶比例γ∈(0,1],如果對于所有的N∈+,γ′>γ,算法S°Rγ′N滿足(ε,δ)-DP,則混洗差分隱私協(xié)議P=(R,S,A)滿足(ε,δ,γ)-RSDP.
定義4保證了,在至少有γ比例的用戶正確遵循協(xié)議的情況下,混洗差分隱私協(xié)議P滿足(ε,δ)-DP.特別說明,此處的魯棒性是對隱私性的保證,而非算法可用性的保證.
隱私放大(privacy amplification)是ESA框架中混洗器對隱私效果增強的理論分析,基于該理論,可將現(xiàn)有的本地化差分隱私方法直接應(yīng)用在ESA框架上.具體地,在混洗差分隱私框架中,假設(shè)用戶在本地端通過隨機(jī)編碼器R擾動后的數(shù)據(jù)滿足εl-LDP,經(jīng)過混洗后,分析器所獲取的數(shù)據(jù)滿足εc-DP,從εl到εc的轉(zhuǎn)變可通過隱私放大理論獲取.εl對應(yīng)于較大的數(shù)值,表示較低的隱私性;εc對應(yīng)于較小的數(shù)值,表示較高的隱私性.針對具體的差分隱私機(jī)制,研究者們提出了不同的隱私放大定理.
2.3.1 通用隱私放大定理
與差分隱私相同,混洗差分隱私也存在交互式和非交互式2種隱私保護(hù)機(jī)制[49-50],如圖5所示.假設(shè)存在n個可信用戶,每個用戶擁有輸入xi和相同的隨機(jī)化的編碼協(xié)議Ri,在交互機(jī)制中,協(xié)議Ri的輸入為{R1(x1),R2(x2),…,Ri-1(xi-1),xi},即與前i-1個編碼器結(jié)果和用戶的輸入xi相關(guān);而非交互機(jī)制中協(xié)議Ri僅與用戶的輸入xi有關(guān),可視為交互機(jī)制的簡化.
交互機(jī)制可以處理較為復(fù)雜的、用戶間有關(guān)聯(lián)關(guān)系的統(tǒng)計分析,如果一些遺傳病的統(tǒng)計,被統(tǒng)計者與其親屬可能存在關(guān)聯(lián)關(guān)系;而非交互機(jī)制僅可以處理用戶數(shù)據(jù)獨立的統(tǒng)計分析.相應(yīng)地,基于這2種機(jī)制,研究者們提出了2個通用隱私放大定理.
Fig. 5 Interactive mechanism and non-interactive mechanism
定理1.通用交互機(jī)制的隱私放大定理[26].給定n個用戶,每個用戶對應(yīng)1條記錄xi,且在本地運行隨機(jī)化編碼協(xié)議R.對于任意的n>1 000,δ∈(0,0.01),如果協(xié)議R滿足εl-本地化差分隱私,且εl∈(0,0.5),則協(xié)議S°Rn對應(yīng)混洗后的n個輸出滿足(εc,δ)-DP,其中
(3)
定理2.通用非交互機(jī)制的隱私放大定理[47].給定n個用戶,每個用戶對應(yīng)1條記錄xi,且在本地運行隨機(jī)化編碼協(xié)議R.對于任意的n∈+,δ∈[0,1],εl∈(0,ln(n/ln(1/δ))/2],如果協(xié)議R滿足εl-LDP,則協(xié)議S°Rn對應(yīng)混洗后的n個輸出滿足(εc,δ)-DP,其中
(4)
根據(jù)定理1和定理2,設(shè)定δ=10-9,可得到表1和表2中隱私放大結(jié)果.令n表示參與計算的可信用戶數(shù)量,表1為根據(jù)式(3)計算εl經(jīng)隱私放大后得到的εc取值;表2為根據(jù)式(4)計算εc對應(yīng)的被放大前的εl取值.根據(jù)表1和表2可發(fā)現(xiàn),通過隱私放大,可輕易實現(xiàn)在用戶本地端添加滿足較大εl-LDP的噪聲,而在分析器端獲得較小的εc-DP保證.同時,隱私放大效果隨著參與用戶數(shù)量的增加而增大.
Table 1 Results of Privacy Amplification on General Interactive Mechanism
Table 2 Converse Results of Privacy Amplification on General Non-interactive Mechanism
通過表1中的分析計算可發(fā)現(xiàn),通用交互機(jī)制的隱私放大結(jié)果是不適用于現(xiàn)實情況的.由于該機(jī)制僅在εl∈(0,0.5)時生效,此時εc的取值往往小于0.2.現(xiàn)實情況中,通常并不需要如此嚴(yán)格的(如此小的εc)差分隱私保證,并且用戶端添加過小的εl,會給統(tǒng)計結(jié)果造成較大誤差.由此,通用非交互機(jī)制的隱私放大定理往往會有更多的應(yīng)用.
2.3.2 基于隨機(jī)響應(yīng)的隱私放大定理
為了獲取更好的隱私放大的效果,研究者們針對具體的差分隱私機(jī)制提出了更精確的隱私放大定理.被應(yīng)用最多的,是基于隨機(jī)響應(yīng)機(jī)制提出的隱私放大定理.隨機(jī)響應(yīng)機(jī)制是本地化差分隱私的基本擾動技術(shù),Warner[51]于1965年提出.為方便后續(xù)應(yīng)用,本節(jié)對該機(jī)制進(jìn)行一定程度的擴(kuò)展,并描述如下[27,47].
(5)
當(dāng)k=2時,假設(shè)v1=‘Yes’,v2=‘No’,則上述機(jī)制即為經(jīng)典的隨機(jī)響應(yīng)機(jī)制,回答“Yes/No”的問題,本文將其稱為布爾隨機(jī)響應(yīng)機(jī)制(Boolean random response mechanism).當(dāng)k≥2時,本文將其稱為k值隨機(jī)響應(yīng)機(jī)制(k-random response mech-anism,kRR).之所以將其區(qū)分開,是由于在進(jìn)行復(fù)雜差分隱私機(jī)制設(shè)計時,通常要考慮對數(shù)據(jù)01編碼或直接使用該數(shù)值的問題,涉及上述2種不同方案.基于此,研究者們提出了2種相應(yīng)的隱私放大定理.
定理3.布爾隨機(jī)響應(yīng)機(jī)制的隱私放大定理[28].給定n個用戶,每個用戶對應(yīng)1條記錄xi∈{0,1},且在本地運行協(xié)議R.對于任意的n∈+,δ∈[0,1],λ∈[14 ln(4/δ)/n,1],如果協(xié)議R以λ的概率均勻輸出{0,1}中的值,1-λ的概率輸出真實值,則協(xié)議S°Rn對應(yīng)混洗后的n個輸出滿足(εc,δ)-DP,其中
(6)
在定理3中,當(dāng)λ=2/(eεl+1)時,布爾隨機(jī)響應(yīng)機(jī)制滿足εl-LDP.將該式代入式(6),通過簡化,可得到寬松的隱私放大效果[52],即當(dāng)0<εl≤lnn-ln(14 ln(4/δ))時,
(7)
定理4.k值隨機(jī)響應(yīng)機(jī)制的隱私放大定理[47].給定n個用戶,每個用戶對應(yīng)1條記錄xi∈{1,2,…,k},且在本地運行協(xié)議R.對于任意的k,n∈+,λ∈[0,1],εc∈(0,1],如果協(xié)議R以λ的概率均勻輸出{1,2,…,k}中的值,以1-λ的概率輸出真實值,則當(dāng)λ滿足式(8)時,協(xié)議S°Rn對應(yīng)混洗后的n個輸出滿足(εc,δ)-DP.
(8)
(9)
與2.3.1節(jié)相同,設(shè)定δ=10-9,針對不同的可信用戶數(shù)量n,表3表示根據(jù)定理3在給定n和εc的情況下,計算εl的取值情況;表4表示根據(jù)定理4,在給定n,εc,并假設(shè)k=2的情況下,計算εl的取值情況.在表3(表4)的結(jié)果中,None表示εl的取值不滿足定理3(定理4),無法進(jìn)行隱私放大.
顯然,在針對2個離散值進(jìn)行擾動時,定理4的隱私放大效果優(yōu)于定理3,由此選用定理4進(jìn)行基于隨機(jī)響應(yīng)機(jī)制的隱私放大是更明智的選擇.同時通過分析發(fā)現(xiàn),隨著k值的增大,定理4的隱私放大效果會縮減,但并不明顯.通過實驗發(fā)現(xiàn),在給定n和εc的情況下,不同k值所造成隱私放大逆向計算結(jié)果εl的差異僅在小數(shù)點后幾位體現(xiàn).由于該計算結(jié)果較為簡單,此處不予以展示.
Table 3 Converse Results of Privacy Amplification on Boolean Random Response Mechanism
Table 4 Converse Results of Privacy Amplification on k Random Response Mechanism
本節(jié)以混洗差分隱私作為ESA實現(xiàn)的主要方案,對該方案構(gòu)建的基礎(chǔ)技術(shù)進(jìn)行總結(jié)與介紹,為后文不同隱私保護(hù)方法的對比分析奠定基礎(chǔ).
這些基礎(chǔ)技術(shù)主要分為2類:一類是差分隱私技術(shù),包括中心化差分隱私、分布式差分隱私和本地化差分隱私中的具體隱私保護(hù)機(jī)制;另一類是基于匿名的密碼學(xué)技術(shù),具體指Split-Mix方法.差分隱私技術(shù)中,本地化差分隱私技術(shù)可與2.3節(jié)所述的隱私放大定理相結(jié)合以實現(xiàn)混洗差分隱私,該途徑所獲得的差分隱私模型較為簡潔.基于匿名的密碼學(xué)技術(shù)Split-Mix方法通常與中心化或分布式的差分隱私技術(shù)相結(jié)合以滿足最終的差分隱私保證,在該過程中Split-Mix方法可進(jìn)一步減少在原始數(shù)據(jù)中添加的噪聲,使計數(shù)結(jié)果具有較高的準(zhǔn)確性,但同時也會產(chǎn)生較高的通信代價.
差分隱私技術(shù)根據(jù)不同的使用場景,可分為中心化差分隱私、分布式差分隱私和本地化差分隱私3種,均可通過與ESA框架不同的結(jié)合方式實現(xiàn)混洗差分隱私,具體技術(shù)如下.
3.1.1 中心化差分隱私技術(shù)
中心化差分隱私技術(shù)指一般的差分隱私機(jī)制,該機(jī)制通常在統(tǒng)計分析結(jié)果(如直方圖)上添加滿足一定分布的噪聲,使該擾動后的結(jié)果滿足(ε,δ)-DP,以響應(yīng)用戶查詢.為保證擾動后結(jié)果的無偏性,通常需要保證添加噪聲的期望為0.常用差分隱私機(jī)制如下:
定理5.拉普拉斯機(jī)制[46].令f:Xn→是一個敏感度為Δ的函數(shù),即對所有的相鄰數(shù)據(jù)集D,D′∈Xn,|f(D)-f(D′)|≤Δ.當(dāng)ε>0時,生成噪聲η~Lap(Δ/ε),則添加噪聲后的輸出f(D)+η滿足ε-DP.
定理6.二項分布機(jī)制[53].令f:Xn→是一個敏感度為Δ的函數(shù),即對所有的相鄰數(shù)據(jù)集D,D′∈Xn,|f(D)-f(D′)|≤Δ.當(dāng)ε>0,δ∈(0,1),λ≥20(eε/Δ+1)/(eε/Δ-1)2ln(2/δ)時,生成噪聲則添加噪聲后的輸出f(D)+η滿足(ε,δ)-DP.
定理7.幾何分布機(jī)制[54].令f:Xn→是一個敏感度為Δ的函數(shù),即對所有相鄰數(shù)據(jù)集D,D′∈Xn,|f(D)-f(D′)|≤Δ.當(dāng)ε>0時,生成噪聲η~SG(ε),添加噪聲后的輸出f(D)+η滿足ε-DP.
其中,SG(ε)表示對稱幾何分布,它對應(yīng)的概率分布函數(shù)為Pr(η=x)=e-ε|x|/Δ×(eε/Δ-1)/(eε/Δ+1).該分布可看作離散化的拉普拉斯分布,其期望為0.該機(jī)制通常為整數(shù)數(shù)值添加噪聲.
3.1.2 分布式差分隱私技術(shù)
分布式差分隱私技術(shù)與中心化差分隱私技術(shù)不同的是,該方法不直接在統(tǒng)計結(jié)果上添加噪聲,而在用戶端的原始數(shù)據(jù)上獨立添加滿足一定分布的隨機(jī)噪聲,并使得擾動后的數(shù)據(jù)在服務(wù)器端滿足差分隱私.分布式差分隱私技術(shù)通常利用拉普拉斯分布無限可分性質(zhì),在用戶端獨立添加滿足一定分布的噪聲,使得在服務(wù)器端這些噪聲的和滿足拉普拉斯分布[31].
定理8.分布式幾何分布機(jī)制[32,55].令n為可信用戶數(shù)量,f:Xn→是一個敏感度為Δ的函數(shù),即對所有的相鄰數(shù)據(jù)集D,D′∈Xn,|f(D)-f(D′)|≤Δ,獨立隨機(jī)變量滿足分布Pólya(1/n,e-ε/Δ),則噪聲η~SG(ε)可通過式(10)模擬:
(10)
3.1.3 本地化差分隱私技術(shù)
本地化差分隱私技術(shù)在用戶端的原始數(shù)據(jù)上添加噪聲,并保證任一用戶的發(fā)布數(shù)據(jù)均滿足差分隱私定義.該技術(shù)中最常用的是隨機(jī)響應(yīng)機(jī)制,亦可基于一般的差分隱私機(jī)制(指中心化差分隱私技術(shù))實現(xiàn),但會產(chǎn)生較多噪聲.該技術(shù)是混洗差分隱私方法設(shè)計中最常用的基礎(chǔ)技術(shù),它結(jié)合混洗器的隱私放大效果可達(dá)到較強的差分隱私保護(hù)效果.
具體技術(shù)中,為了在隨機(jī)響應(yīng)機(jī)制的基礎(chǔ)上進(jìn)一步降低通信代價和均方誤差,使計算結(jié)果不依賴于用戶數(shù)據(jù)的值域,基于略圖的本地化差分隱私(sketch-based local differential privacy)算法[56-57]被提出,即首先使用散列函數(shù)對用戶數(shù)據(jù)進(jìn)行映射,對該映射后的值進(jìn)行擾動.Wang等人[57]針對此類方法以均方誤差為目標(biāo)函數(shù)對該最小值問題進(jìn)行求解,提出了OLH方法,可在值域較大的情況下,實現(xiàn)與值域[d]大小無關(guān)的最優(yōu)誤差,[d]表示{1,2,…,d}.該方法將較大的數(shù)據(jù)值域[d]通過散列函數(shù)進(jìn)行壓縮,映射至較小的值域[d′],用戶將其擁有的值先用該散列函數(shù)進(jìn)行散列,而后進(jìn)行隨機(jī)擾動,即以εl/(εl+d′-1)的概率保持該值不變,以1/(εl+d′-1)的概率擾動為值域{1,2,…,d′}內(nèi)的其他值.當(dāng)d′=eεl+1時,可使結(jié)果對應(yīng)的均方誤差最小.較大值域[d]指的是d≥3eεl+2時,否則應(yīng)用通用的k值隨機(jī)響應(yīng)算法即可獲得較小的均方誤差.更多本地化差分隱私方法在文獻(xiàn)[14]中已有詳細(xì)綜述,本節(jié)不再贅述.
ESA框架中的混洗器相當(dāng)于完成了徹底的匿名操作,由此可基于Split-Mix方法設(shè)計實現(xiàn)滿足分析器端差分隱私的算法.同時,利用Split-Mix方法中類似秘密共享的操作,可進(jìn)一步對用戶端編碼后的數(shù)據(jù)提供保護(hù),分析器將會看到幾乎完全隨機(jī)的數(shù)據(jù)分片,如此可進(jìn)一步減小差分隱私噪聲的添加.Split-Mix方法與加法秘密共享不同的是,后者需保證不同的數(shù)據(jù)分片(即shares)由不同的參與者擁有,而該算法對數(shù)據(jù)分割獲得的數(shù)據(jù)分片可由1個或多個混洗器持有,取決于混洗器的實現(xiàn)方式.
Ghazi等人首次提出并證明使用該算法可以在ESA框架中實現(xiàn)差分隱私[58],并證明了該算法的誤差上界,以及一輪協(xié)議(one-round protocol)下的誤差下界[59].Balle等人[60]給出了與Split-Mix方法結(jié)合的差分隱私保證,見定理9.基于定理9,可以進(jìn)一步設(shè)計出多消息模式下的混洗差分隱私機(jī)制.
定理9.假設(shè)算法M和算法M′的統(tǒng)計距離(總體方差)為μ(σ),算法M滿足(ε,δ)-DP,則算法M′滿足(ε,δ+(1+eε)μ(σ))-DP.
Table 5 Research Fields of Shuffle Differential Privacy
其中,計數(shù)估計、頻數(shù)估計和求和估計是統(tǒng)計估計的基礎(chǔ)問題,受到廣泛關(guān)注,也是本節(jié)分析的重點.在本節(jié)的理論分析中,一般假設(shè)有n個用戶參與計算,實現(xiàn)了分析器端(εc,δ)-DP的隱私保護(hù)效果.部分機(jī)制假設(shè)參與計算的用戶不完全可信,此時使用的N表示用戶數(shù)量,γ表示可信用戶比例,可在分析器端實現(xiàn)具有魯棒性的(ε,δ,γ)-RSDP;當(dāng)γ=1時,它等同于(εc,δ)-DP.同時,在文中使用[d]表示{1,2,…,d},[n]表示{1,2,…,n}.在不同估計機(jī)制的對比表中,通信代價指每個用戶發(fā)送消息的數(shù)量,“—”表示該項隱私未得到嚴(yán)格的理論保證.
針對該問題,研究者們提出了若干方法,分別實現(xiàn)了不同的隱私目標(biāo).Cnt_RR[28]基于隱私放大理論,可實現(xiàn)不同ε的中心端差分隱私和本地端差分隱私.Cnt_2M[61],Cnt_PURE[62],Cnt_SGM[48],Cnt_BN[48]僅考慮中心端差分隱私,其中,Cnt_2M實現(xiàn)近似差分隱私,Cnt_PURE實現(xiàn)純差分隱私,Cnt_SGM和Cnt_BN則進(jìn)一步考慮了用戶不完全可信的場景,分別實現(xiàn)了分析器端具有魯棒性的純差分隱私和近似差分隱私.具體方法對比見表6,方法分析為:
(11)
Table 6 Comparison of Counting Estimation Methods on Shuffle Differential Privacy
頻數(shù)估計中假設(shè)每個用戶擁有1個離散型的值xi∈[d],分析器端基于匿名的用戶擾動數(shù)據(jù)估計這些數(shù)值頻數(shù)count(j),j∈[d],即估計用戶數(shù)據(jù)的直方圖.
Table 7 Comparison of Frequency Estimation on Shuffle Differential Privacy
為了在值域[d]較大時進(jìn)一步減少頻數(shù)估計的誤差,研究者們相繼提出了若干頻數(shù)估計方案,可實現(xiàn)與值域[d]無關(guān)的誤差邊界.
Hist_MM[61]方法基于計數(shù)機(jī)制Cnt_2M構(gòu)建,僅考慮分析器端的差分隱私,不考慮用戶端的差分隱私,由此無需根據(jù)值域[d]對用戶端的隱私預(yù)算進(jìn)行劃分,分析器也可計算得到與[d]無關(guān)的誤差邊界.在該方法中,每個用戶將其擁有的數(shù)據(jù)進(jìn)行獨熱(one-hot)編碼,即生成1個d長的向量,第xi位為1,其余位為0.之后對每一位{0,1}分別使用滿足(εc/2,δ/2)-DP的Cnt_2M中的擾動機(jī)制進(jìn)行擾動,得到y(tǒng)ij={1}*.為了使得分析器能夠在徹底的混洗后依然識別yij對應(yīng)于哪一個離散值,用戶將j×yij發(fā)送給混洗器進(jìn)行擾動.最終分析器分別統(tǒng)計每一個值j∈[d]的計數(shù),使用Cnt_2M中的校正機(jī)制進(jìn)行校正,計算其頻數(shù).該機(jī)制的優(yōu)點在于它的誤差邊界并不依賴于值域[d],但該機(jī)制所獲得的估計結(jié)果是有偏的,且僅考慮了分析器作為攻擊者時的隱私保護(hù),不能保證對任意攻擊者的用戶端隱私.
SLH機(jī)制使用1個混洗器進(jìn)行混洗,一旦該混洗器與分析器串通,用戶的隱私將不能得到保證.為了解決該問題,Wang等人[40]在SLH方法的基礎(chǔ)上進(jìn)一步提出了一個通用協(xié)議MURS(multi uniform random shufflers),使用m個混洗器對用戶數(shù)據(jù)進(jìn)行混洗,每個混洗器在混洗的過程中都隨機(jī)添加一些均勻分布的假數(shù)據(jù).此處的多個混洗器完成的是幾乎相同的工作,仍對應(yīng)于1.1節(jié)中介紹的單混洗器模式,只是使用多個服務(wù)器來實現(xiàn)該模式.這樣一來,即使有m-1個混洗器和除被攻擊用戶外其余n-1個用戶都與分析器合謀,用戶數(shù)據(jù)至少能得到由1個混洗器所添加的假數(shù)據(jù)構(gòu)成的“隱私毯子”帶來的保護(hù).
分析器端滿足(εc,δ)-DP.
至此,上述分析的所有方法均針對單值頻數(shù)估計,對于多值頻數(shù)估計(即用戶擁有多個值的情況),通常情況下,可通過對隱私預(yù)算εc進(jìn)行分割,或從多值中隨機(jī)采樣1個值進(jìn)行擾動,文獻(xiàn)[65-66]證明后者的誤差更小.而針對ESA模型下的多值頻數(shù)估計,Erlingsson等人[52]提出了“屬性分段”(attribute fragmenting)的通用方法.對于一些獨立的自然屬性,如統(tǒng)計人群的年齡、性別等,可將不同的屬性作為單獨的分段分別擾動,每個屬性使用1個單獨的混洗器進(jìn)行混洗,以提高數(shù)據(jù)可用性;對于非自然屬性,可人為將其拆分為多個分段,應(yīng)用該屬性分段技術(shù).該屬性分段的應(yīng)用特例是,對于用戶擁有的數(shù)值xi可進(jìn)行獨熱編碼,而后使用Cnt_RR方法對每一比特位的數(shù)據(jù)分別進(jìn)行擾動與混洗.
研究者們基于上述針對離散值的擾動方法(包括計數(shù)估計方法和頻數(shù)估計方法),提出了若干實數(shù)求和估計機(jī)制,如RSum_RR,RSum_KR,RSum_RM,RSum_DSG,RSum_PURE,其中RSum_PURE實現(xiàn)了純差分隱私,其余均實現(xiàn)了近似差分隱私.每一個方法的提出,都相比前一個方法降低了統(tǒng)計結(jié)果的誤差邊界;但兼顧結(jié)果可用性和方法通信代價,RSum_RM應(yīng)是當(dāng)前可行性較高的估計方法.
在具體實現(xiàn)時,為了應(yīng)用上述對離散值擾動的方法,首先需要將該實數(shù)根據(jù)一定規(guī)則編碼為若干整數(shù).通常情況下,研究者們會依據(jù)一定的準(zhǔn)確度p將實數(shù)值xi其放大p倍得到pxi,而后將其無偏映射為離散型的整數(shù),該過程稱為隨機(jī)舍入(random rounding).最終,在若干離散型數(shù)據(jù)上,基于布爾求和或頻數(shù)估計方法進(jìn)行計算.通常隨機(jī)舍入算法需保證無偏,以保證最終結(jié)果的可用性.求和估計的方法對比見表8,具體方案如下所述.
實數(shù)求和估計結(jié)果的準(zhǔn)確性一方面依賴于隱私預(yù)算εc的分配與方法的隱私放大效果;另一方面也與隨機(jī)舍入的結(jié)果的準(zhǔn)確性有關(guān).進(jìn)一步地,RSum_RM[35]方法將用戶擁有的xi∈[0,1]隨機(jī)舍入為多個更為準(zhǔn)確的值,以提高方法的可用性.
RSum_RM[35]方法的核心思想是,通過將用戶擁有的數(shù)值xi∈[0,1]依據(jù)m個固定的準(zhǔn)確度編碼為多個值,并對編碼后的值分別獨立地應(yīng)用隨機(jī)響應(yīng)方法,從而盡可能利用混洗器提供的隱私保護(hù).具體地,給定一系列準(zhǔn)確度p1,p2,…,pm∈+,令則
其中
Table 8 Comparison of Sum Estimation on Shuffle Differential Privacy
雖然RSum_DSG方法從理論上獲得了與n無關(guān)的均方誤差MSE,但該方法的通信代價過大.通常情況下,選擇方法RSum_RM更具實用性,用戶可根據(jù)其帶寬選擇多消息模式編碼器中消息的數(shù)量m,當(dāng)m=2或3時,即可取得可用性相對較好的結(jié)果.
除了基本的計數(shù)估計和頻數(shù)估計,研究者們還關(guān)注了其他相對復(fù)雜的統(tǒng)計和查詢問題,包括不同元素計數(shù)(distinct elements counting)、范圍計數(shù)和均勻性檢驗,具體可見表7.本節(jié)對這些方法進(jìn)行理論分析與總結(jié),由于這些方法均使用了多消息模式和單洗牌器模式,不再將這2項羅列在對比的表格當(dāng)中.
4.4.1 不同元素計數(shù)
4.4.2 范圍計數(shù)
給定數(shù)據(jù)的值域[d],每個用戶擁有1個xi∈[d],該問題統(tǒng)計在范圍[j,j′]內(nèi)值的計數(shù),也就是取范圍[j,j′]對應(yīng)的直方圖.令Y=hist(X)表示用戶數(shù)據(jù)的直方圖統(tǒng)計,w∈{0,1}d為該范圍的編碼表示,其中1≤j≤j′≤d,wj=wj+1=…=wj′=1,其余項為0,則范圍計數(shù)的結(jié)果可以用[w,Y]表示,[·,·]表示點積.
Ghazi等人在文獻(xiàn)[64]通過矩陣機(jī)制[67-68]將該范圍計數(shù)問題歸約為頻數(shù)估計問題.根據(jù)矩陣機(jī)制,對于給定的數(shù)據(jù)集X,可基于可逆矩陣M∈{0,1}d×d,構(gòu)造噪聲擾動的直方圖Y+ΔM-1ψ,Δ表示敏感度,即M中列的最大1范數(shù),z表示隨機(jī)的噪聲向量.擾動后范圍計數(shù)的結(jié)果[w,Y+ΔM-1ψ]等同于[wM-1,MY+Δψ],令表示正常的頻數(shù)估計方法擾動后的結(jié)果,由此范圍計數(shù)可通過頻數(shù)估計問題得到.基于該歸約,用戶可根據(jù)其擁有的數(shù)據(jù)xi,選擇矩陣M中第xi列非0項對應(yīng)的索引值j∈[d]作為其編碼,并調(diào)用之前任一頻數(shù)估計方法分別對每一個值進(jìn)行擾動并輸出;分析器收到混洗后的用戶數(shù)據(jù),首先估計頻數(shù)之后通過即可返回范圍計數(shù)的結(jié)果.
Fig. 6 Range query tree(d=4)
Table 9 Summary of Other Statistic Estimation on Shuffle Differential Privacy
4.4.3 均勻性檢驗
均勻性檢驗是指對于1個在值域[d]上的未知分布,檢驗該分布是否是均勻分布.下述用于均勻性檢驗的2個方法,均滿足具有魯棒性的差分隱私.
AUT[48]實現(xiàn)了具有魯棒性的近似差分隱私.該方法的編碼和擾動過程與PUT方法相似,將應(yīng)用于編碼后每一位的Cnt_SGM方法替換為Cnt_BN方法即可.與其他問題不同的是,在表9中,這2個方法的誤差用樣本復(fù)雜度來度量.
基于ESA的隱私保護(hù)方法對比中,計數(shù)估計、求和估計和頻數(shù)估計作為重點的基礎(chǔ)問題,存在著若干種隱私保護(hù)方法.本節(jié)將這些方法進(jìn)行了實現(xiàn),并對其中的重要參數(shù)進(jìn)行實驗評估,對于本節(jié)未提及的參數(shù),使用該方法在獲得最優(yōu)邊界時的參數(shù)設(shè)定.該實驗一方面評估部分參數(shù)對分析結(jié)果的影響,另一方面使同一問題下不同方法的對比更加直觀.
本節(jié)的實驗環(huán)境為Ubuntu系統(tǒng),2個6核1.70 GHz的Intel?Xeon?CPU,94 GB內(nèi)存.本節(jié)所使用的數(shù)據(jù)集為不同分布的人工合成數(shù)據(jù)集,此類數(shù)據(jù)集易于調(diào)整參數(shù),以便觀察不同分布數(shù)據(jù)集對不同方法結(jié)果的影響.該實驗的參數(shù)設(shè)置中,所有實驗都給定同一個εc,滿足近似差分隱私的方法給定δ=10-6,使它們盡可能在同一隱私保護(hù)程度下進(jìn)行對比.
該節(jié)通過人工生成n項滿足伯努利分布Ber(q)的{0,1}數(shù)據(jù)作為數(shù)據(jù)集,并假設(shè)每個用戶擁有其中1個數(shù)值,對計數(shù)估計問題中的Cnt_RR,Cnt_2M,Cnt_SGM,Cnt_BN方法進(jìn)行實驗評估.此處沒有對Cnt_PURE進(jìn)行評估,主要原因是根據(jù)其理論,該方法僅對n較大且ε較小的情況下適用,很難與其他方法放在同一標(biāo)尺下度量.如當(dāng)n=107時,εc需小于0.1,該方法對數(shù)據(jù)擾動的概率λ才能處于其正確的區(qū)間[0,1],更具體地,εc=0.01時,λ=0.82;而通常其他方法的εc取小數(shù)點后第1位即可.
給定參數(shù)n=106,εc=0.9,q=0.5,上述方法的對比結(jié)果如圖7(a)所示.在該部分,本節(jié)實現(xiàn)了隨機(jī)響應(yīng)方法[51]和Laplace方法[46]作為本地化差分隱私(LDP)方法和中心化差分隱私(CDP)方法的實現(xiàn)與這些方法進(jìn)行對比.結(jié)果顯示,所有混洗差分隱私方法的RMSE都介于LDP與CDP方法之間,且計算代價和通信代價均高于這2種方法.不同混洗差分隱私方法中,Cnt_SGM有著最小的估計誤差;而Cnt_2M由于使用了多消息模式編碼,并為了保證計數(shù)為0時結(jié)果永遠(yuǎn)為0,對估計結(jié)果使用了較為暴力的截斷,有著比其他方法明顯較高的估計誤差和通信代價,以及較低的計算代價.
Fig. 7 Comparison of methods for different estimation issues
在圖8~10中,分別評估不同εc,n和q對不同計數(shù)估計方法的影響.
1) 隨著εc的增大,即隱私要求的降低,這些計數(shù)估計方法的誤差都有明顯減低,但計算代價和通信代價并無明顯變化.
2) 隨著n的增大,LDP方法誤差增大,但混洗差分隱私方法的誤差卻幾乎維持不動,進(jìn)一步證明了在n較大的情況下混洗差分隱私方法的優(yōu)越性.在計算代價和通信代價上,這些方法都隨著n的增大而指數(shù)級上升.特別地,在對n值變化的實驗對比中,Cnt_SGM方法一直維持著最小的估計誤差;Cnt_2M方法不僅計算代價小,其計算代價增長的速度也比其他混洗差分隱私方法緩慢.
3) 隨著q值的增加,數(shù)據(jù)集中1的數(shù)量變多,大多數(shù)混洗差分隱私方法的RMSE、計算代價和通信代價并無明顯變化,Cnt_2M方法由于在用戶端輸出了更多擾動結(jié)果{1,1},因此有著明顯增加的通信代價.
Fig. 8 Impact on counting estimation methods by varying εc
Fig. 9 Impact on counting estimation methods by varying n
Fig. 10 Impact on counting estimation methods by varying q
該節(jié)通過人工生成在給定值域[d]內(nèi)滿足正態(tài)分布的數(shù)據(jù)作為數(shù)據(jù)集,并假設(shè)每個用戶擁有其中1個數(shù)值,對頻數(shù)估計問題中的Hist_KR,Hist_MM,SLH,MURS進(jìn)行評估,MURS方法實現(xiàn)時假設(shè)其添加假數(shù)據(jù)的數(shù)量為用戶數(shù)量的1%.而PRHR由于計算代價和通信代價過大,不對其進(jìn)行實驗評估;PUCM適用于用戶數(shù)量小于數(shù)據(jù)值域d的情況,亦難以與其他方法一同進(jìn)行實驗比較.具體地,在圖7(b)所給定的參數(shù)下對PRHR方法進(jìn)行評估,僅對30%用戶數(shù)據(jù)進(jìn)行編碼就需要花費5 h并占用22 GB內(nèi)存.對于同樣計算代價較大的SLH和MURS方法,本節(jié)實現(xiàn)時通過預(yù)計算散列值與原值對應(yīng)的索引表,并將該表保存,通過足夠大的存儲空間來換取實驗結(jié)果中該方法較小的計算代價.由于現(xiàn)實世界中數(shù)據(jù)的存儲相對廉價,該技巧對這2個方法的實際應(yīng)用也是可行的.
圖7(b)中對比的LDP方法是k值隨機(jī)響應(yīng)機(jī)制[27],CDP方法是Laplace機(jī)制[46].在該圖中,誤差RMSE的縱軸坐標(biāo)指數(shù)變化,Hist_KR方法有著最小的估計誤差,與CDP方法近似.該結(jié)果產(chǎn)生的原因是,限于計算代價和通信代價,本實驗選取了較小的值域?qū)@些方法進(jìn)行對比,而SLH,MURS方法主要針對值域較大的情況進(jìn)行優(yōu)化,當(dāng)值域接近或大于用戶數(shù)量時,這些方法才能體現(xiàn)出明顯優(yōu)勢.從計算代價和通信代價上看,基于Cnt_2M方法實現(xiàn)的Hist_MM方法在這2方面均與其他方法有明顯不同,并與Cnt_2M方法的實驗結(jié)果相一致.
在圖11~13中,分別評估不同εc,d和n對不同頻數(shù)估計方法的影響.
Fig. 11 Impact on frequency estimation methods by varying εc
1) 結(jié)果顯示隨著εc的增大,頻數(shù)估計的誤差和計算代價都有明顯降低,通信代價幾乎無變化,這與前面的理論分析是一致的.
2) 隨著值域[d]的增大,Hist_KR方法的估計誤差隨之增大,與LDP方法變化的趨勢一致;MURS方法的計算代價逐步增大,但其他混洗差分隱私方法并無明顯變化,與4.2節(jié)的理論分析一致.
3) 隨著用戶數(shù)量n的增大,大多數(shù)方法在各個方面并沒有顯現(xiàn)出明顯的變化,僅MURS方法的計算代價增加明顯,這主要是混洗器添加假數(shù)據(jù)所造成的.而該實驗設(shè)置中n僅從104變化到106,主要原因是除Hist_KR方法外,其他方法在本機(jī)模擬構(gòu)建的總體計算代價過大(實驗圖僅展示分析器的計算代價),難以進(jìn)行評估.需說明的是,總體計算代價大并不代表實際中該方法難以應(yīng)用,主要原因是實際應(yīng)用時每個用戶分別對自己的數(shù)據(jù)進(jìn)行擾動,n個編碼器是完全并行的;而本節(jié)進(jìn)行實驗?zāi)M時這n個編碼器串行或部分并行地計算,大多數(shù)消息模式方法的編碼過程都長達(dá)數(shù)小時.
Fig. 12 Impact on frequency estimation methods by varying d
Fig. 13 Impact on frequency estimation methods by varying n
該節(jié)通過人工生成滿足正態(tài)分布的[0,1]數(shù)據(jù)作為數(shù)據(jù)集,并假設(shè)每個用戶擁有其中1個數(shù)值,對求和估計問題中的RSum_RR,RSum_KR,RSum_RM,RSum_DSG進(jìn)行評估.由于RSum_PURE方法基于Cnt_PURE方法實現(xiàn),基于5.1節(jié)的分析,不對其進(jìn)行實驗評估.
圖7(c)中,用作對比的LDP方法是Harmony機(jī)制[70],CDP方法是Laplace機(jī)制[46].該實驗中,將RSum_RM方法中多消息模式的消息數(shù)量設(shè)為3,其他方法隨機(jī)舍入的精度設(shè)為10.結(jié)果顯示,RSum_RM方法有著接近小的估計誤差和明顯較小的計算代價,RSum_DSG雖計算代價和通信代價較大,但估計誤差在所有混洗差分隱私方法中最低,與4.3節(jié)的理論分析一致.
在圖14,15中,分別評估不同εc和n對不同求和估計方法的影響.
1) 結(jié)果顯示,隨著εc的增大,求和估計的誤差有明顯降低,但計算代價和通信代價并無明顯變化.
Fig. 14 Impact on sum estimation methods by varying εc
Fig. 15 Impact on sum estimation methods by varying n
從實驗分析的總體上看,混洗差分隱私方法在各統(tǒng)計問題的結(jié)果可用性上都有著相比本地化差分隱私方法明顯更優(yōu)的結(jié)果.但從通信代價和計算代價的角度分析,ESA框架中混洗器的引入,一方面使得用戶數(shù)據(jù)與用戶所使用的編碼器之間的關(guān)聯(lián)性消失,使得分析器端的計算代價增大;另一方面促使研究者們使用富含信息更多的多消息模式對數(shù)據(jù)編碼,造成了分析器端的通信代價增大.如何兼顧數(shù)據(jù)的隱私性、可用性、方法的計算代價和通信代價是后續(xù)基于ESA框架構(gòu)建的隱私保護(hù)方法需加以考量的部分.
從各混洗差分隱私方法評估的結(jié)果看,隨著εc的增大,各方法的數(shù)據(jù)可用性均會得到提高;而隨著用戶數(shù)據(jù)n的增加,基于本地化差分隱私方法設(shè)計的混洗差分隱私方法在計算誤差上會有輕微的增加,其他大多數(shù)混洗差分隱私方法在計算誤差上沒有明顯變化,甚至部分方法有著輕微的降低.總體上,基于多消息模式設(shè)計的混洗差分隱私協(xié)議由于攜帶了更多與用戶數(shù)據(jù)相關(guān)的信息,有著相對較高的數(shù)據(jù)可用性,與第4節(jié)的理論分析相一致.
當(dāng)前對ESA框架的研究,以混洗差分隱私方法為主,而該方法主要聚焦于理想假設(shè)下的理論研究,重點側(cè)重在2個方面:一方面是對該機(jī)制本身的隱私放大等理論的研究;另一方面致力于統(tǒng)計問題的估計,以謀求比LDP方法更高的可用性,比CDP方法更好的隱私性.但ESA框架在實際應(yīng)用上,仍存在著諸多挑戰(zhàn),這些挑戰(zhàn)問題一部分是ESA框架與生俱來的,另一部分是差分隱私方法的應(yīng)用所帶來的.由此,本節(jié)提出,在ESA框架下探索非差分隱私的隱私保護(hù)方法以應(yīng)對更多更為復(fù)雜的隱私問題,是ESA框架未來發(fā)展的主要挑戰(zhàn)與趨勢.
如實驗部分所示,ESA框架中混洗器的引入,打破數(shù)據(jù)之間的關(guān)聯(lián)性,有效增加了數(shù)據(jù)的隱私性和可用性,但相比同類方法,分析器端存在著明顯增加的計算代價和通信代價.同時由于混洗器本身通常基于MixNet等密碼學(xué)網(wǎng)絡(luò)構(gòu)建,對加密數(shù)據(jù)的安全混洗操作本身就有著昂貴的計算與通信開銷.帶寬受限、算力受限、需要處理實時任務(wù),這些都是ESA框架應(yīng)用受阻的重要因素.如何基于該框架設(shè)計兼顧隱私度、準(zhǔn)確度、計算代價和通信代價的隱私保護(hù)方法是ESA框架的挑戰(zhàn)之一.
對于基于ESA框架實現(xiàn)的混洗差分隱私,為提高結(jié)果的準(zhǔn)確性,設(shè)計方法通常會引入如散列簇、多消息模式的編碼器、多混洗模式的混洗器等方法對數(shù)據(jù)進(jìn)行處理,往往伴隨著計算代價或通信代價的增加.盡管保證數(shù)據(jù)隱私性和可用性是差分隱私方法的核心,算法的計算代價和通信代價亦不容忽視.
ESA框架中的混洗器作為ESA框架隱私保護(hù)的核心組件,存在著單點失敗的可能,極易對整個框架的平穩(wěn)運行造成影響.一旦框架中的混洗器出現(xiàn)問題,如被攻擊、與分析器合謀、宕機(jī)等,分析器便不能收集或收集到錯誤的用戶信息.如何增強混洗器在實際應(yīng)用過程中的魯棒性,對其混洗結(jié)果的正確性進(jìn)行有效驗證,亦是ESA框架的挑戰(zhàn)之一.
對于基于ESA框架實現(xiàn)的混洗差分隱私方法,其方法的魯棒性難以得到保證.一方面,當(dāng)前方法假設(shè)參與計算的n個用戶是可信用戶,且會幾乎同時發(fā)送他們擾動后的數(shù)據(jù)給混洗器.但實際問題中,該條件很難獲得保證.基于現(xiàn)有的上述方案,當(dāng)存在用戶端被攻擊者控制或網(wǎng)絡(luò)狀況差使用戶掉線時,要么混洗器需等待極其長的時間,收集滿足要求(有時是為了滿足隱私放大定理中的參數(shù)n)的足量數(shù)據(jù);要么,分析器會得到可用性和隱私性都相對理論較差的結(jié)果.另一方面,當(dāng)前的混洗器分為單混洗器模式和多混洗器模式2種,但無論哪種,任一混洗器失效都會使系統(tǒng)存在單點失敗的可能.應(yīng)用現(xiàn)有的具有魯棒性的秘密共享機(jī)制實現(xiàn)混洗器[32]是一種可能的解決方案,但應(yīng)如何與基于ESA模型實現(xiàn)的具體問題進(jìn)行結(jié)合,尚待研究.
此處,仍需重復(fù)闡明一點,第4節(jié)中介紹的部分方法可實現(xiàn)具有魯棒性的差分隱私RSDP,但該魯棒性并非本節(jié)所探討的系統(tǒng)魯棒性.RSDP的魯棒性是僅針對隱私而言,即保證可信用戶數(shù)量大于一定閾值γ時,分析器端依舊可以獲得滿足(ε,δ)-DP,該定義不對與數(shù)據(jù)的可用性、算法(尤其是混洗器)的等待時間、混洗器本身相關(guān)的魯棒性做任何定義與約束.
當(dāng)前ESA框架主要通過與差分隱私結(jié)合,用于解決簡單的統(tǒng)計問題,但ESA框架本身應(yīng)支持解決更復(fù)雜的問題,并不局限于此.具體而言,該復(fù)雜問題應(yīng)包含2類:
一類是ESA與差分隱私結(jié)合可能解決,但尚未解決的復(fù)雜問題.如值域未知情形下的混洗差分隱私、高維度數(shù)據(jù)上的混洗差分隱私、復(fù)雜數(shù)據(jù)類型上的混洗差分隱私等.在實際應(yīng)用中,這樣復(fù)雜的應(yīng)用場景隨處可見,如當(dāng)需要對用戶瀏覽的網(wǎng)頁進(jìn)行統(tǒng)計時,由于網(wǎng)頁的數(shù)量在不斷增長,很難對當(dāng)前作為候選集的網(wǎng)頁進(jìn)行枚舉,需可處理值域未知的混洗差分隱私方法;又如,將混洗差分隱私應(yīng)用在機(jī)器學(xué)習(xí)上,往往涉及到成千上萬個維度的數(shù)據(jù),需有效的隱私保護(hù)方法對其進(jìn)行處理;再如,生活中常見的相對復(fù)雜的鍵值對類型數(shù)據(jù),如果對鍵與值分別擾動,鍵與值之間的關(guān)聯(lián)性很可能被混洗器打斷,難以獲得有效的估計結(jié)果.這些問題通過應(yīng)用散列函數(shù)映射[52]、數(shù)據(jù)降維[71]等可能會被解決,但如何應(yīng)用仍是挑戰(zhàn).
另一類是ESA可能解決,但差分隱私不能解決的問題,需要基于該框架對非差分隱私的方法進(jìn)行探索.具體而言,差分隱私本質(zhì)上可用于回答“有多少”的問題,而不是回答“是什么”的問題,對一個點是不是異常點、一個人是不是新冠肺炎的感染者這樣的問題,應(yīng)用差分隱私將這些數(shù)據(jù)進(jìn)行擾動并不能得到可用的答案,差分隱私更趨向于將這樣出現(xiàn)頻數(shù)極低的點抹平,使其不在結(jié)果中凸顯以保護(hù)隱私[72-73].但ESA框架為這樣問題的回答創(chuàng)造了可能性,即ESA框架可在對數(shù)據(jù)進(jìn)行盡可能少的擾動情況下保護(hù)隱私,便為異常點檢測、新冠肺炎發(fā)現(xiàn)這樣的問題提供條件.由此,發(fā)展非差分隱私的ESA方法十分關(guān)鍵!
聯(lián)邦學(xué)習(xí)算法近2年在工業(yè)界和學(xué)術(shù)界迅速發(fā)展,該模型一定程度上打破數(shù)據(jù)孤島,解決了隱私問題[74].該模型的基本思想是基于用戶或企業(yè)獨立的數(shù)據(jù)在本地進(jìn)行模型的訓(xùn)練與更新,將模型的參數(shù)(如梯度)在服務(wù)器端進(jìn)行安全聚合,從而訓(xùn)練一個中心化的模型提供服務(wù)器.雖然聯(lián)邦學(xué)習(xí)不直接傳遞用戶數(shù)據(jù),僅與服務(wù)器共享模型參數(shù),但該參數(shù)往往包含著一定程度的用戶隱私,易遭受成員推理攻擊[75-76],需使用高可用性的隱私保護(hù)方法進(jìn)行保護(hù).
ESA框架與聯(lián)邦學(xué)習(xí)均適用于用戶在本地端進(jìn)行數(shù)據(jù)處理,對處理后數(shù)據(jù)進(jìn)行收集的場景,ESA框架本身的特性與聯(lián)邦學(xué)習(xí)的需求不謀而合.ESA與聯(lián)邦學(xué)習(xí)最簡單的結(jié)合,即使用第4節(jié)所述的混洗差分隱私方法對用戶共享的梯度進(jìn)行保護(hù),但該方法如何適用于參數(shù)維度巨大的機(jī)器學(xué)習(xí)模型的訓(xùn)練仍是難點[77-78].同時,混洗差分隱私雖相比本地化差分隱私方法引入了較小噪聲,但在數(shù)據(jù)量較小、隱私損失較小的情況下仍對數(shù)據(jù)可用性有著不小的威脅.基于ESA框架發(fā)展與聯(lián)邦學(xué)習(xí)高度適配的隱私保護(hù)方法應(yīng)該是該方向的主要挑戰(zhàn).
數(shù)據(jù)驅(qū)動的人工智能時代,數(shù)據(jù)隱私問題備受關(guān)注,但數(shù)據(jù)可用性亦是社會與科技發(fā)展的重中之重.ESA框架為提出數(shù)據(jù)可用性更好、隱私性亦更好的隱私保護(hù)方法開辟了新的路徑,混洗差分隱私即為該框架下的典型方法.混洗差分隱私方法兼具了本地化差分隱私在數(shù)據(jù)收集場景中的易用性和中心化差分隱私在數(shù)據(jù)分析結(jié)果上的可用性,在多種統(tǒng)計問題上的表現(xiàn)卓越.本文對ESA框架及其應(yīng)用——混洗差分隱私方法進(jìn)行了詳細(xì)的綜述,對混洗差分隱私下的研究方向進(jìn)行總結(jié),針對不同統(tǒng)計問題的若干算法進(jìn)行理論分析與實驗對比.基于上述總結(jié)分析的結(jié)果,本文提出了當(dāng)前ESA框架應(yīng)用面臨的主要挑戰(zhàn),并以混洗差分隱私為例對這些挑戰(zhàn)進(jìn)行詳細(xì)的說明.本文提出,混洗差分隱私是ESA框架應(yīng)用的有效途徑,但不是唯一途徑,存在著諸多具有現(xiàn)實意義的復(fù)雜問題混洗差分隱私難以解決,但ESA為這些問題的解決創(chuàng)造了條件.基于ESA框架探索適用性更廣的、可用性更高的、非差分隱私的隱私保護(hù)算法是數(shù)據(jù)隱私保護(hù)未來可能的發(fā)展方向之一.
作者貢獻(xiàn)聲明:王雷霞負(fù)責(zé)論文總結(jié)、撰寫與實驗;孟小峰指導(dǎo)總體架構(gòu).