許 衡 張 楠 /文 顧 潔 / 譯
近年來,以歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)為代表的隱私保護(hù)法規(guī)接連出臺,刺激了數(shù)據(jù)匿名化技術(shù)的擴(kuò)散。一般來說,數(shù)據(jù)匿名化技術(shù)是作為組織或群體層面的解決方案被概念化,進(jìn)而進(jìn)行相應(yīng)的技術(shù)開發(fā)的,其目的是用來平衡兩種對立的利益:一是為了保護(hù)隱私,使數(shù)據(jù)與數(shù)據(jù)主體(即個人)脫離關(guān)聯(lián);二是保持?jǐn)?shù)據(jù)的實(shí)用性。例如,蘋果公司在收集iOS設(shè)備中的用戶鍵盤輸入時,部署了差分隱私技術(shù)。一方面,收集到的輸入內(nèi)容不再能輕易地關(guān)聯(lián)到個人;而另一方面,蘋果仍然可以利用收集到的數(shù)據(jù)來改進(jìn)其自動糾正和預(yù)測性文本輸入功能。由于將數(shù)據(jù)與數(shù)據(jù)主體脫離關(guān)聯(lián)會降低數(shù)據(jù)的實(shí)用性,1Daniel Kifer and Ashwin Machanavajjhala, No Free Lunch in Data Privacy, Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data, 2011, pp. 193-204.2Cynthia Dwork, Frank McSherry, Kobbi Nissim and Adam Smith, Calibrating Noise to Sensitivity in Private Data Analysis, Journal of Privacy and Confidentiality, vol. 7, no. 3, 2016, pp. 17-51.許多數(shù)據(jù)匿名化技術(shù)將隱私與實(shí)用性的權(quán)衡操作為一個可調(diào)整的參數(shù),在組織層面進(jìn)行設(shè)置。
將數(shù)據(jù)匿名化作為組織層面的解決方案予以實(shí)施符合監(jiān)管要求,但可能不滿足個人隱私偏好的特異性。3Alessandro Acquisti, Laura Brandimarte and George Loewenstein, Privacy and Human Behavior in The Age of Information, Science, vol. 347, no. 6221, 2015, pp. 509-514.同樣,提升(或降低)數(shù)據(jù)實(shí)用性所帶來的好處(或危害)也會具有很大的個體差異。4Evaggelia Pitoura, Panayiotis Tsaparas, Giorgos Flouris, Irini Fundulaki, Panagiotis Papadakos, Serge Abiteboul and Gerhard Weikum, On Measuring Bias in Online Information, ACM SIGMOD Record, vol. 46, no. 4, 2018, pp. 16-21.將組織層面的解決方案和個人層面的影響結(jié)合起來考慮,自然會出現(xiàn)一個問題:組織層面一刀切的隱私保護(hù)解決方案是否會對不同個體產(chǎn)生差異化的影響?對這一問題的回答具有政策意義,因?yàn)槿绻町惢挠绊懘_實(shí)存在,立法者和監(jiān)管者就需要對不同數(shù)據(jù)收集主體個性化隱私保護(hù)能力的強(qiáng)弱進(jìn)行甄別。
遺憾的是,現(xiàn)有關(guān)于數(shù)據(jù)匿名化影響的研究主要集中整體數(shù)據(jù)效用的降低上,這也是在組織層面對所有數(shù)據(jù)記錄進(jìn)行計算的結(jié)果。然而,數(shù)據(jù)匿名化在個人層面是否會產(chǎn)生差異化的影響尚未有定論?;卮疬@個問題顯然是具有挑戰(zhàn)性的。首先,數(shù)據(jù)匿名化的設(shè)計和匿名數(shù)據(jù)的使用通常受專有技術(shù)和流程的約束,對研究者和公眾來說是不透明的。其次,數(shù)據(jù)匿名化對個人的影響也很難處理,因?yàn)榧词故请[私專家也經(jīng)常對數(shù)據(jù)匿名化技術(shù)在隱私保護(hù)方面的作用感到困惑。5Jane Bambauer, Krishnamurty Muralidhar and Rathindra Sarathy, Fool’s Gold: An Illustrated Critique of Differential Privacy, Vanderbilt Journal of Entertainment & Technology Law, vol. 16, 2013, p. 701.為了回答這個問題,我們將重點(diǎn)放在對一種具備可分析性,同時具有實(shí)踐意義的特定類型的差異的分析上,即:數(shù)據(jù)匿名化是否可以掩蓋數(shù)據(jù)集中人群之間的統(tǒng)計差異。如果數(shù)據(jù)匿名化掩蓋了群體間差異,則可能會對商業(yè)、社會和政策產(chǎn)生深遠(yuǎn)的影響。例如,它可能會造成蘋果公司無法為具有獨(dú)特語言模式的少數(shù)族群提供準(zhǔn)確的輸入檢測和自動糾正功能。在醫(yī)療保健背景下,可能會導(dǎo)致與性別、種族、民族、收入、性取向等人口屬性有關(guān)的健康差異無法識別,而健康差異代表了美國面臨的最緊迫的社會公正問題之一。6Ed Kelley, Ernest Moy, Daniel Stryer, Helen Burstin and Carolyn Clancy, The National Healthcare Quality and Disparities Reports: An Overview, Medical Care, vol. 43, 2005, pp. I3-I8.對于美國人口普查來說,如何應(yīng)用數(shù)據(jù)匿名化技術(shù)引起了廣泛的公共討論,7Michael Macagnone, Efforts to Safeguard Census Data could Muddy Federal Data, https://www.govtech.com/analytics/Efforts-to-Safeguard-Census-Data-Could-Muddy-Federal-Data.html.對群體差異的掩蓋可能對未來十年的公共政策產(chǎn)生不利影響。
為了研究數(shù)據(jù)匿名化技術(shù)對統(tǒng)計差異檢測的潛在影響,必須首先確定當(dāng)前技術(shù)對私人數(shù)據(jù)進(jìn)行匿名化的機(jī)制,并界定用以識別亞人群之間差異所需的統(tǒng)計證據(jù)。我們首先將數(shù)據(jù)匿名化的機(jī)制歸類為數(shù)據(jù)移除(data removal)或噪聲插入(noise insertion),同時將統(tǒng)計差異操作化為隔離差異(disparity through separation)或變差差異(disparity through variation)。在對這兩類概念進(jìn)行詳細(xì)介紹后,我們探討了兩者之間的相互作用,即每種匿名化機(jī)制(數(shù)據(jù)移除vs.噪聲插入)對每種統(tǒng)計差異(隔離差異vs.變差差異)的影響。這四種(2 *2)組合會產(chǎn)生不同結(jié)果:對于隔離差異,噪聲插入機(jī)制傾向于掩蓋差異的存在,但與掩蓋差異相比,數(shù)據(jù)移除機(jī)制更容易造成假陽性的結(jié)果;相反,對于變差差異,兩種數(shù)據(jù)匿名化機(jī)制都既可能掩蓋差異,又造成假陽性,甚至在一些情況下會倒轉(zhuǎn)群體間差異的方向。我們通過概念構(gòu)建和數(shù)學(xué)形式進(jìn)行論證,然后用經(jīng)驗(yàn)證據(jù)進(jìn)行驗(yàn)證。本文的最后一節(jié)討論了我們的發(fā)現(xiàn)的實(shí)際意義,我們工作的局限性,以及未來研究的潛在方向。
1.數(shù)據(jù)移除。由于數(shù)據(jù)匿名化的目標(biāo)是防止任何個人從匿名數(shù)據(jù)集中被識別出來,所以對數(shù)據(jù)集進(jìn)行匿名化的一個自然構(gòu)想就是刪除數(shù)據(jù)中可能被用來識別個體的部分,數(shù)據(jù)移除機(jī)制就植根于這個想法。最初,數(shù)據(jù)移除是通過刪除那些明顯的標(biāo)識符變量,如姓名、地址、社會安全號等。但這一做法很快受到挑戰(zhàn)——研究發(fā)現(xiàn),87%的美國人可以通過郵政編碼、性別和出生日期的組合來進(jìn)行唯一識別,而這些變量都不是傳統(tǒng)意義上的“標(biāo)識符”。1Sweeney Latanya, Simple Demographics Often Identify People Uniquely, Health, vol. 671, 2000, pp. 1-34.在這一突破性的發(fā)現(xiàn)之后,計算機(jī)科學(xué)文獻(xiàn)中開發(fā)了大量的數(shù)據(jù)移除技術(shù),用以檢測和糾正這種“準(zhǔn)標(biāo)識符”造成的問題。2Sweeney Latanya, K-anonymity: A Model for Protecting Privacy, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 10, no. 5, 2002, pp. 557-570.3Ashwin Machanavajjhala, Daniel Kifer, Johannes Gehrke and Muthuramakrishnan Venkitasubramaniam, l-Diversity:Privacy beyond K-anonymity, ACM Transactions on Knowledge Discovery from Data (TKDD), vol. 1, no. 1, 2007, pp. 1-52.
圖1. 數(shù)據(jù)匿名化機(jī)制
雖然這些技術(shù)在設(shè)計上存在很大的不同,但它們遵循的共同程序是首先確定哪些個人有被識別的風(fēng)險,然后再刪除去識別化所需的最低信息量。圖1(a)展示了一個簡單的例子:如果一個人在數(shù)據(jù)集中的記錄與其他個體的記錄有較大差別,那么他/她就有被識別的風(fēng)險(即圖中實(shí)線框所顯示的個體數(shù)據(jù)記錄附近存在一個空鄰域)。如圖中所示,對數(shù)據(jù)集進(jìn)行匿名化的邏輯就是刪除附近存在空鄰域的記錄。除了這個簡單的例子之外,還開發(fā)了許多其他形式的數(shù)據(jù)移除,例如刪除個人的選定變量或用更粗粒度的值來替代原有變量,例如,通過將郵政編碼改為城市或州。
關(guān)于數(shù)據(jù)移除的技術(shù)研究幾乎在2010年左右就停止了。部分原因是我們接下來將討論的噪聲插入機(jī)制的出現(xiàn)。然而,更重要的原因是多源數(shù)據(jù)融合造成了數(shù)據(jù)移除機(jī)制的有效性降低:研究人員意識到,如果無法對哪些其他數(shù)據(jù)源可能與匿名數(shù)據(jù)集聯(lián)系起來做出實(shí)質(zhì)性假設(shè),就無法限制對個人身份的識別。1Ganta Srivatsava Ranjit, Shiva Prasad Kasiviswanathan and Adam Smith, Composition Attacks and Auxiliary Information in Data Privacy, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2008, pp. 265-273.有趣的是,這種擔(dān)心并沒有阻止數(shù)據(jù)移除在實(shí)踐中的運(yùn)用。時至今日,數(shù)據(jù)移除不僅被企業(yè)和政府機(jī)構(gòu)廣泛采用,而且經(jīng)常被列為遵守隱私法律法規(guī)的推薦做法。表1描述了得克薩斯州衛(wèi)生服務(wù)部(2019年)所用的數(shù)據(jù)移除規(guī)則,其目的是對全州范圍內(nèi)的住院病人出院數(shù)據(jù)集進(jìn)行匿名化操作,以符合相關(guān)法規(guī)的要求。紐約等許多其他州也采用了類似的規(guī)則。
表1. 得克薩斯州衛(wèi)生保健信息收集匿名規(guī)則
2.噪聲插入。早期關(guān)于噪聲插入的工作囿于簡單地將獨(dú)立的高斯噪聲添加到數(shù)據(jù)集中的所有變量中,插入的噪聲可以使用光譜濾波技術(shù)(spectral filtering technique)從匿名數(shù)據(jù)中隔離出來,2Huang Zhengli, Wenliang Du and Biao Chen, Deriving Private Information from Randomized Data, Proceedings of The 2005 ACM SIGMOD International Conference on Management of Data, 2005, pp. 37-48.從而有效地重新啟用個人身份識別。差分隱私的發(fā)展解決了這一問題,并以統(tǒng)計學(xué)上的不可區(qū)分性的形式在包含個人信息的數(shù)據(jù)集和不包含個人信息的數(shù)據(jù)集之間提供了嚴(yán)格的匿名性保證。更重要的是,無論有什么其他數(shù)據(jù)源可以與匿名數(shù)據(jù)相聯(lián)系,使用差分隱私技術(shù)的匿名性保證都是成立的。差異隱私避免了數(shù)據(jù)移除的技術(shù)陷阱,已經(jīng)成為噪聲插入技術(shù)的事實(shí)標(biāo)準(zhǔn),幫助噪聲插入在數(shù)據(jù)匿名化研究中獲得廣泛的認(rèn)可,同時也在實(shí)踐中被高科技公司和美國人口普查局等機(jī)構(gòu)被廣泛應(yīng)用。
廣泛意義上的噪聲插入方法與具體的差分隱私技術(shù)都有很多不同的類別和形式。隨機(jī)噪聲可以如圖1(b)所示直接添加到原始數(shù)據(jù)中,3Agrawal Rakesh and Ramakrishnan Srikant, Privacy-preserving Data Mining, Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, 2000, pp. 439-450.4John Leslie K., George Loewenstein, Alessandro Acquisti and Joachim Vosgerau, When and Why Randomized Response Techniques (Fail To) Elicit The Truth, Organizational Behavior and Human Decision Processes, vol. 148, 2018, pp.101-123.或者在回答數(shù)據(jù)查詢命令時添加到數(shù)據(jù)集上。5Cynthia Dwork, Frank McSherry, Kobbi Nissim and Adam Smith, Calibrating Noise to Sensitivity in Private Data Analysis, Journal of Privacy and Confidentiality, vol. 7, no. 3, 2016, pp. 17-51.噪聲插入后的統(tǒng)計估計可以保持無偏見(例如用標(biāo)準(zhǔn)的拉普拉斯機(jī)制進(jìn)行差分隱私),或者包括由輸入數(shù)據(jù)決定的微小偏差(例如數(shù)據(jù)和工作量感知算法進(jìn)行差分隱私)。同樣,插入的噪聲可以獨(dú)立于原始數(shù)據(jù)集或根據(jù)原始數(shù)據(jù)生成。雖然實(shí)現(xiàn)方式不同,但它們的概念基礎(chǔ)是非常一致的:從匿名數(shù)據(jù)推斷出的任何統(tǒng)計數(shù)據(jù)的置信區(qū)間必須比對原始數(shù)據(jù)集的推斷更寬,從而無法根據(jù)統(tǒng)計推斷區(qū)分個人是否在原始數(shù)據(jù)集中。
圖1(c)對兩種匿名機(jī)制進(jìn)行了比較。數(shù)據(jù)移除通常會給估計的統(tǒng)計數(shù)據(jù)帶來偏差,并可能降低觀察到的標(biāo)準(zhǔn)差,其原因是這種方法傾向于刪除“離群”記錄,如圖1(a)中的空鄰居記錄。相比之下,噪聲插入技術(shù)通常是無偏的,或者對估計的統(tǒng)計數(shù)據(jù)引入最小的偏差。盡管如此,插入的噪聲往往會大大增加觀察到的標(biāo)準(zhǔn)差。
從社會學(xué)和犯罪學(xué)到流行病學(xué)和醫(yī)學(xué)等各種學(xué)科中,對群體間差異的檢測是一個長期存在的研究問題??紤]到研究這個問題的領(lǐng)域范圍,我們并不試圖在我們對群體差異的分類做到詳盡無遺。相反,進(jìn)行如上分類的目的是強(qiáng)調(diào)兩種概念上不同但同樣普遍的差異操作類型——一旦應(yīng)用數(shù)據(jù)匿名化,這兩種類型的差異操作化就會呈現(xiàn)不同的結(jié)果。表2總結(jié)了隔離差異和變差差異操作方式的主要區(qū)別。接下來,我們首先分別描述這兩種類型,然后再闡釋兩者之間的差異。
表2. 差異操作化的含義和屬性
隔離差異:起源于社會學(xué)中對種族歧視的研究,并自然而然地擴(kuò)展到與就業(yè)歧視有關(guān)的領(lǐng)域以及與勞動力市場有關(guān)的法院案件,例如指控工作場所系統(tǒng)性歧視的模式和做法的案件。在這些領(lǐng)域,識別差異背后的主要目的是確認(rèn)或拒絕存在基于種族或性別等重點(diǎn)社會決定因素的潛在歧視。從指示性的角度看,差異的操作是為了從偶然性中辨別其存在。例如,法院在確定歧視案件的初步證據(jù)時,長期以來一直采用5%的顯著性門檻,這意味著所觀察到的差異必須有小于5%的概率是偶然造成的。最高法院在Castaneda V. Partida一案中,將5%的門檻轉(zhuǎn)化為觀察到的差距,認(rèn)為差距必須超過“兩個或三個標(biāo)準(zhǔn)差”。從本質(zhì)上講,這與研究人員通過樣本均值比較來檢測差距的操作方法相同——盡管研究中的操作方法往往更為復(fù)雜,不僅要考慮到重點(diǎn)社會決定因素,還要考慮到其他相關(guān)變量以及社會決定因素與其他變量之間的互動效應(yīng)。
我們將這種對差異的操作化稱為“隔離差異”,因?yàn)樵谘芯亢头深I(lǐng)域,這些操作化的基礎(chǔ)是檢測不同亞人群的結(jié)果分布之間的隔離。考慮圖2中描述的一個簡單的例子,其中有兩個子群體,結(jié)果變量是二進(jìn)制的,例如,代表員工是否被晉升到管理職位。假設(shè)不同員工的晉升決策之間是獨(dú)立的,那么每個子人群中被晉升的員工比例形成二項分布。從圖中可以看出,當(dāng)群體差異通過隔離來衡量時,其檢測取決于不同子群體的晉升率分布之間的隔離程度,而不是觀察到的晉升率之間的原始差異。例如,當(dāng)數(shù)據(jù)集中每個子人群有10個樣本時,當(dāng)觀察到的晉升率分別為30%和70%時,推算出的差異不能滿足5%的閾值(t=1.95,雙尾t檢驗(yàn)的p=0.067)。然而,當(dāng)樣本量較大時,對于更接近的一對觀察到的晉升率,如40%和60%,差距卻可以達(dá)到閾值(例如,當(dāng)n = 50時,有t = 2.04,p < 0.05)。表2中總結(jié)的這一特性的含義是,當(dāng)各子群體之間結(jié)果變量的平均距離最大化,每個子群體內(nèi)的結(jié)果變量的標(biāo)準(zhǔn)差最小化時,就會出現(xiàn)最大的隔離差異。我們將在后文中討論當(dāng)群體間差異通過隔離操作時,數(shù)據(jù)匿名機(jī)制如何通過影響結(jié)果變量的均值和標(biāo)準(zhǔn)差,進(jìn)而影響群體間差異的統(tǒng)計檢測。
變差差異:差異的另一種操作方式起源于流行病學(xué),進(jìn)而被擴(kuò)展至各領(lǐng)域,其實(shí)踐應(yīng)用包括對收入差異的檢測、法院侵權(quán)案件的論證等。一個典型的例子是Daubert v. Merrell Dow 藥物案,該案中,統(tǒng)計證據(jù)被用來確定在懷孕期間攝入某種藥物是否對出生缺陷有不同的影響,即服用該藥物的人和沒有服用該藥物的人之間是否存在出生缺陷率的差異。在這些領(lǐng)域,對差異進(jìn)行操作的目的往往不僅是為了確定其存在,而且是為了量化其程度。值得注意的是,通過結(jié)果變量的變化對變差差異進(jìn)行測度是為了衡量差異的程度而設(shè)計的。例如,長期以來,法院在民事案件中對建立差異影響適用了“幾率比”(odds ratio)的要求,這意味著在一個群體中出現(xiàn)不希望的結(jié)果的幾率必須是另一群體幾率的至少兩倍。1Gastwirth Joseph L, The Role of Statistical Evidence in Civil Cases, Annual Review of Statistics and Its Application,vol. 7, 2020, pp. 39-60.這種相對比率類似于流行病學(xué)研究中用于檢測差異性的賠率指標(biāo)。2Hebert Paul L., Jane E. Sisk and Elizabeth A. Howell, When Does a Difference Become a Disparity? Conceptualizing Racial and Ethnic Disparities in Health, Health Affairs, vol. 27, no. 2, 2008, pp. 374-382.
圖2. 不同差異操作化的圖解說明
我們將上述這種對群體差異的操作稱為“變差差異”。在研究和法律領(lǐng)域,這種對差異進(jìn)行操作化的基礎(chǔ)是將不同亞人群的平均結(jié)果進(jìn)行對比。再來看看圖2中的例子。當(dāng)差異通過變差進(jìn)行計算時,其檢測只取決于觀察到的晉升率,而不是它們分布的標(biāo)準(zhǔn)差。例如,觀察到的一對30%和70%的晉升率總是符合“多半可能”的標(biāo)準(zhǔn)(more likely than not,因?yàn)?.7=0.3>2),無論從統(tǒng)計意義上這種差異是否滿足上述5%的閾值標(biāo)準(zhǔn)。相反,如果觀察到的比率是40%和60%,無論樣本有多大,兩個分布是否重疊,它們的比率都低于臨界點(diǎn)(0.6=0.4=1.5<2)。如表2所總結(jié)的,當(dāng)通過變差來操作群體間差異時,當(dāng)平均結(jié)果之間的距離達(dá)到最大時,就會出現(xiàn)最大的差異。變差差異的計算與每個子群體內(nèi)結(jié)果的標(biāo)準(zhǔn)差無關(guān),這與通過隔離來計算差異形成了鮮明的對比。
同時還要注意到,當(dāng)數(shù)據(jù)沒有匿名時,只要樣本量足夠大,忽略樣本標(biāo)準(zhǔn)差不會造成研究結(jié)論的不可靠。此外,由于變差差異的分布(如幾率比)傾向于正偏態(tài),意外掩蓋現(xiàn)有群體間差距的可能性相當(dāng)小。然而,正如我們將在數(shù)學(xué)形式主義部分所闡述的,一旦數(shù)據(jù)集被匿名化,情況就會發(fā)生巨大的變化。例如,無論樣本大小,許多噪聲插入算法都會給統(tǒng)計估計引入不確定性。1Cynthia Dwork, Frank McSherry, Kobbi Nissim and Adam Smith, Calibrating Noise to Sensitivity in Private Data Analysis, Journal of Privacy and Confidentiality, vol. 7, no. 3, 2016, pp. 17-51.在這種情況下,即使是大樣本也無法消弭標(biāo)準(zhǔn)誤在差異檢測中的作用。這一特點(diǎn)導(dǎo)致了數(shù)據(jù)匿名化對兩種差異操作的不同影響。
在介紹數(shù)據(jù)匿名機(jī)制的類型時,我們概述了數(shù)據(jù)移除和噪聲插入之間的兩個重要區(qū)別。首先,數(shù)據(jù)移除通常會降低結(jié)果變量的標(biāo)準(zhǔn)差,而噪聲插入幾乎總是增加標(biāo)準(zhǔn)差。其次,數(shù)據(jù)移除技術(shù)很少對從匿名數(shù)據(jù)中估計的統(tǒng)計數(shù)據(jù)的偏差做出保證,與之相對,許多噪聲插入技術(shù)能夠確保某些估計的統(tǒng)計數(shù)據(jù)(例如,平均值)是無偏差的。在接下來的內(nèi)容中,我們將討論這兩種區(qū)別是如何與兩種差異操作化相互作用,造成對匿名數(shù)據(jù)進(jìn)行差異檢測的不同結(jié)果。表3總結(jié)了主要的差異。
表 3. 數(shù)據(jù)匿名化對差異操作的影響
關(guān)于隔離差異,鑒于數(shù)據(jù)移除和噪聲插入傾向于將標(biāo)準(zhǔn)差向相反的方向移動,我們可以預(yù)期它們對隔離差異的檢測也會有不同的影響。例如,噪聲插入極有可能掩蓋隔離差異,因?yàn)闃?biāo)準(zhǔn)差的增加降低了子群體之間差異的顯著性水平。出于同樣的原因,當(dāng)原始數(shù)據(jù)集中不存在差異時,噪聲插入造成假陽性錯誤的可能性極小。相比之下,數(shù)據(jù)移除技術(shù)降低了觀察到標(biāo)準(zhǔn)差,因此更容易引發(fā)隔離差異檢測的假陽性錯誤。同樣地,除非數(shù)據(jù)移除減少子群體之間的觀測差異,否則該方法不太可能引發(fā)隔離差異檢測的假陰性錯誤。
關(guān)于變差差異,標(biāo)準(zhǔn)差的變化并不影響變差差異的計算,但觀察到的結(jié)果變量的偏差卻會產(chǎn)生影響。這就凸顯了數(shù)據(jù)移除技術(shù)引入的潛在偏差。圖3描述了這樣一個例子。從圖中可以看出,在原始數(shù)據(jù)集中,兩個子群體的平均結(jié)果是相同的。然而在移除部分?jǐn)?shù)據(jù)后,一個子群體的平均結(jié)果變成了另一個子群體的兩倍,產(chǎn)生了假陽性錯誤。同樣可以構(gòu)建相反的情況,即數(shù)據(jù)移除掩蓋了現(xiàn)有的差異。因此,在數(shù)據(jù)移除機(jī)制下,偏差是表現(xiàn)為假陽性還是假陰性,很大程度上取決于基礎(chǔ)數(shù)據(jù)分布。這與噪聲插入的情況形成鮮明對比。大多數(shù)現(xiàn)有的噪聲插入技術(shù)保證了平均估計值的絕對或漸進(jìn)無偏性。1Cynthia Dwork, Frank McSherry, Kobbi Nissim and Adam Smith, Calibrating Noise to Sensitivity in Private Data Analysis, Journal of Privacy and Confidentiality, vol. 7, no. 3, 2016, pp. 17-51.雖然標(biāo)準(zhǔn)差的增加仍可能使觀察到的比率向不可預(yù)測的方向轉(zhuǎn)變,但無論基礎(chǔ)數(shù)據(jù)分布如何,我們觀察到假陽性和假陰性的幾率大致相同。
圖3. 數(shù)據(jù)移除造成假陽性的圖示
數(shù)據(jù)模型:探索群體差異的一種常用方法是構(gòu)建回歸模型。例如要研究不同種族的員工獲得晉升機(jī)會時是否存在種族間的差異,一般將觀測到的結(jié)果變量(例如工作場合的晉升)作為被解釋變量Yi,將核心的社會決定因素Zi(例如種族)和其他相關(guān)的觀測特征Xi(例如工作表現(xiàn),Xi可包含多個變量)作為解釋變量構(gòu)建回歸方程。εi為誤差項(均值為0)。一個簡化的模型是將β2設(shè)為0,即只關(guān)注社會決定因素Zi的直接效應(yīng),而不包含Zi與其他因素Xi的交互效應(yīng)。該模型也可通過對數(shù)變換研究非線性關(guān)系。
差異操作化:群體間差異可以簡單地通過公式(1)中的β2Xi+β3表示,該值可以表征給定個體特征Xi的情況下群體間在結(jié)果變量Yi的差異。例如,當(dāng)社會決定因素Zi是0/1變量時,β2Xi+β3是當(dāng)個體從一個子群體(Zi=0)轉(zhuǎn)向另一個子群體(Zi=1)時,結(jié)果變量Yi值的差距。與這一解釋相一致,子群體間的平均差異可以表示為β2Xu+β3,其中Xu為子群體在觀測特征Xi上的平均值。當(dāng)β2=0時,群體間的差異為β3。
匿名機(jī)制:圖4說明了兩種匿名機(jī)制的設(shè)計。對于這兩種機(jī)制,匿名化的輸入是數(shù)據(jù)集中所有變量的集合,即模型中的(Xi,Yi,Zi)。對于數(shù)據(jù)移除機(jī)制,其目標(biāo)是防止從輸出數(shù)據(jù)中識別出一個獨(dú)立個體?,F(xiàn)有技術(shù)有兩種常用的方法來實(shí)現(xiàn)這個目標(biāo)。一種是對某些變量的值進(jìn)行泛化。例如,在圖4(a)中,我們將前兩條記錄的Yi的值從28和32都替換為30。通過這樣做,我們使這兩條記錄彼此相同,因此從輸出數(shù)據(jù)中無法唯一識別。第二種方法叫做抑制,即刪除那些不容易與其他記錄相似的記錄。圖4(a)中的最后一條記錄就是一個例子。鑒于其Yi的值與其他記錄相差甚遠(yuǎn),在泛化方法下為了使最后一條記錄與其他任何記錄相同,必須對兩條記錄的Yi進(jìn)行重大改變,其結(jié)果是限制了兩者在匿名數(shù)據(jù)中的有用性。與泛化方法相反,我們可以簡單地從匿名化數(shù)據(jù)中刪除最后一條記錄,并保存其他記錄不被修改,就像圖4(a)所示。請注意,圖中的匿名化數(shù)據(jù)符合一種流行的數(shù)據(jù)刪除保證,稱為k-匿名性(k = 2),它要求對于匿名化數(shù)據(jù)集中的每一條記錄,必須有至少k-1條具有完全相同值組合的其他記錄。1Sweeney Latanya, K-anonymity: A Model for Protecting Privacy, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 10, no. 5, 2002, pp. 557-570.
圖4. 數(shù)據(jù)匿名化機(jī)制的圖示
與數(shù)據(jù)移除相比,現(xiàn)有的噪聲插入技術(shù)已經(jīng)提供了對數(shù)據(jù)集或查詢結(jié)果產(chǎn)生隨機(jī)擾動的更靈活的輸出方式。相應(yīng)地,噪聲插入機(jī)制的匿名性保證,就像前面提到的差分隱私保證一樣,被廣泛地設(shè)想為支持任何將輸入數(shù)據(jù)集映射到任意范圍的噪聲插入算法M。例如,流行的(?,δ)差分隱私保證要求,對于任何兩個相差一條記錄的數(shù)據(jù)集D和D',以及任何S Θ,M(D)∈S和M(D',)∈S的概率不能有顯著差異,差異由兩個參數(shù)?和δ的函數(shù)進(jìn)行約束。
在上述公式中,(?,δ)的值越小,在施加函數(shù)M后越難將D和D',進(jìn)行區(qū)分,這意味著函數(shù)M提供了更嚴(yán)格的匿名化保證。
研究人員已經(jīng)開發(fā)了許多可以保證(?,δ)差異隱私的技術(shù)。1Hay Michael, Ashwin Machanavajjhala, Gerome Miklau, Yan Chen and Dan Zhang, Principled Evaluation of Differentially Private Algorithms Using Dpbench, Proceedings of the 2016 International Conference on Management of Data,2016, pp. 139-154.一個簡單而又流行的是圖4(b)中描繪的拉普拉斯機(jī)制,2Cynthia Dwork, Frank McSherry, Kobbi Nissim and Adam Smith, Calibrating Noise to Sensitivity in Private Data Analysis, Journal of Privacy and Confidentiality, vol. 7, no. 3, 2016, pp. 17-51.它在回應(yīng)數(shù)據(jù)查詢命令時插入噪聲。例如,當(dāng)回答一個要求滿足Q條件的記錄數(shù)nQ的計數(shù)查詢時,拉普拉斯機(jī)制會在nQ中加入一個從拉普拉斯分布中抽取的、均值為0、尺度參數(shù)為1/ε的隨機(jī)變量,因此,在點(diǎn)nQ+r處查詢的概率密度是:
圖4(b)中的曲線畫出了該概率密度函數(shù)。從等式3中注意到,當(dāng)nQ變化為1時,概率密度以倍數(shù)系數(shù)e-ε變化,即兩個數(shù)據(jù)集D和D',之間相差一條記錄的最大可能差值(如差分隱私定義中規(guī)定的)。根據(jù)公式2,這意味著無論數(shù)據(jù)集D或查詢Q是什么,拉普拉斯機(jī)制總是能實(shí)現(xiàn)(?,δ)-差分隱私。
我們首先考慮數(shù)據(jù)移除機(jī)制如何影響差異檢驗(yàn)的結(jié)果。當(dāng)群體間的差異通過隔離差異來操作時,估計的回歸系數(shù)的標(biāo)準(zhǔn)誤差顯著影響了檢驗(yàn)統(tǒng)計學(xué)意義上群體間的隔離差異。因此,下面的定理研究了數(shù)據(jù)移除的泛化方法——專門為實(shí)現(xiàn)上述k-匿名性保證而設(shè)計——如何影響回歸輸出的標(biāo)準(zhǔn)誤差。請注意,該定理假設(shè)在回歸分析中直接使用匿名數(shù)據(jù)集,這也是目前這些數(shù)據(jù)集在實(shí)踐中的使用方式。3Luc Rocher, Julien M. Hendrickx and Yves-Alexandre De Montjoye, Estimating the Success of Re-Identifications in Incomplete Datasets Using Generative Models, Nature communications, vol. 10, no. 1, 2019, pp. 1-9.雖然可以修改回歸分析以補(bǔ)償數(shù)據(jù)移除的影響,但這種專用算法的設(shè)計超出了本文的范圍。
定理1:當(dāng)數(shù)據(jù)集中Xi和Zi的每個值的組合有k條記錄時,則用每個匿名組中Yi的平均值替代Yi的具體的值,以此來實(shí)現(xiàn)匿名化。匿名化后每個回歸系數(shù)(即β0、β1、β2、β3)估計值的標(biāo)準(zhǔn)誤差減少了的倍數(shù)系數(shù)。
與我們之前的概念推演結(jié)果一致,定理1表明,使用數(shù)據(jù)移除機(jī)制,特別是流行的泛化技術(shù),會降低回歸系數(shù)的標(biāo)準(zhǔn)誤差,并可能在識別差異時產(chǎn)生假陽性。雖然數(shù)學(xué)證明很微妙,但該定理的發(fā)現(xiàn)有一個簡單直觀的解釋。請注意,一般的數(shù)據(jù)移除,特別是泛化,往往會將相似的記錄歸為一組,以消除它們的差異,從而防止任何單一記錄被唯一識別。這種設(shè)計的一個直接后果是,屬于同一子群的記錄更有可能被歸為一組??紤]一種情況,即同一亞人群的所有記錄都被歸入一個組,其結(jié)果變量值全部由組平均值代替。很明顯,這使得任何通過隔離進(jìn)行的差異性測試更有可能宣布差異的假陽性結(jié)果,其原因是亞人群內(nèi)的方差被人為地減少到零。
當(dāng)差異通過變差差異進(jìn)行操作時,以上推論不再適用,因?yàn)樽儾畈町惖淖R別只取決于點(diǎn)估計值而不是標(biāo)準(zhǔn)誤差。盡管如此。它將數(shù)據(jù)移除對點(diǎn)估計的潛在偏差置于首要地位。我們在概念構(gòu)建部分展示了一個例子(圖3),其中數(shù)據(jù)移除嚴(yán)重改變了觀察到的結(jié)果分布。下面的定理擴(kuò)展了這個例子 突出了結(jié)果分布偏斜時問題的嚴(yán)重性,如在實(shí)踐中常見的重尾分布。在重尾分布中,最大的數(shù)值與最低的概率密度有關(guān),這意味著刪除具有最稀疏鄰域的記錄往往會大大降低平均估計值。該定理將指數(shù)分布作為一個保守的例子,因?yàn)樗钠瓤梢宰鳛橹匚卜植嫉钠鹊南孪蕖?/p>
定理2:當(dāng)Yi遵循指數(shù)分布Yi~Exp(λ)時,根據(jù)Yi的密度刪除Yi的n條記錄中的m條,使Yi的樣本平均值的預(yù)期值為:
其中,分別是數(shù)據(jù)移除前后的樣本標(biāo)準(zhǔn)差。
該定理證實(shí)了我們的概念討論,證明了少數(shù)被移除的記錄如何對點(diǎn)估計值(如樣本平均值)產(chǎn)生相當(dāng)大的影響。例如,從一個有100條記錄的數(shù)據(jù)集中刪除10條記錄,樣本平均數(shù)的預(yù)期變化量為0.45/λ。由于指數(shù)分布的平均值Exp(λ)是1/λ,這個預(yù)期變化代表了實(shí)際值的45%,顯然大到足以翻轉(zhuǎn)差異測量的結(jié)果。
最后,我們把注意力轉(zhuǎn)向匿名化的噪音插入機(jī)制。有趣的是,與數(shù)據(jù)移除不同,噪聲插入技術(shù)的設(shè)計者經(jīng)常提供關(guān)于插入的噪聲如何影響回歸分析的輸出的統(tǒng)計保證。例如,當(dāng)噪聲插入技術(shù)直接修改查詢答案時(例如前面提到的拉普拉斯機(jī)制),我們可以把回歸系數(shù)理解為對數(shù)據(jù)提出的復(fù)雜查詢。然后,添加到查詢答案中的隨機(jī)噪聲直接揭示了我們對回歸系數(shù)估計的統(tǒng)計屬性。這使得我們在這里的分析變得相當(dāng)容易。具體來說,許多現(xiàn)有的噪音插入技術(shù),包括拉普拉斯機(jī)制,產(chǎn)生的估計值保證是無偏的。1Cynthia Dwork, Frank McSherry, Kobbi Nissim and Adam Smith, Calibrating Noise to Sensitivity in Private Data Analysis, Journal of Privacy and Confidentiality, vol. 7, no. 3, 2016, pp. 17-51.雖然其他技術(shù)可能會引入小程度的統(tǒng)計偏差,以換取大幅減少的標(biāo)準(zhǔn)誤差,但這種偏差往往很小,并且隨著數(shù)據(jù)集規(guī)模的增長而漸進(jìn)地接近于零。2Li Ninghui, Wahbeh Qardaji and Dong Su, On Sampling, Anonymization, and Differential Privacy or, K-Anonymization Meets Differential Privacy, Proceedings of the 7th ACM Symposium on Information, Computer and Communications Security,2012, pp. 32-33.因此,當(dāng)差異性通過變差差異來操作時,噪聲插入顯然既可以產(chǎn)生假陽性結(jié)果,亦可以產(chǎn)生假陰性結(jié)果。對于通過隔離操作的差異性,下面的定理為任何噪聲插入算法的任何差異性測試的統(tǒng)計能力建立了一個上限,該算法是(ε,δ)-差分隱私。
定理3:對于任何(ε,δ)-差分隱私算法,當(dāng)Zi∈{0,1},Zi遵循獨(dú)立同分布(單變量或多變量)高斯分布,且Yi=β0+β1 Xi+β3 Zi+εi,任何差異性通過隔離測試的統(tǒng)計功效(statistical power)必須滿足
其中,α是差異測試的顯著性水平,n是數(shù)據(jù)樣本中的記錄數(shù),σ是β1 Xi+εi的樣本標(biāo)準(zhǔn)差。
不等式5中的約束為隱私保護(hù)和差異識別之間的權(quán)衡提供了重要的見解。例如,ε,δ越小(即越嚴(yán)格的隱私保證),統(tǒng)計功效就越低。因此,嚴(yán)格的隱私保護(hù)是以差異檢測為代價的。例如,要求隱私預(yù)算為ε=0.001意味著差異檢測的統(tǒng)計功效在匿名化后可能從100條記錄的原始數(shù)據(jù)集的0.80最多下降到這證實(shí)了我們的概念構(gòu)建,即當(dāng)差異性通過隔離進(jìn)行概念化時,噪聲插入可以掩蓋數(shù)據(jù)集中相當(dāng)數(shù)量的差異性。
我們從美國人口最多的五個州之一獲得了一個住院病人數(shù)據(jù)集。該數(shù)據(jù)集包含486924條患者記錄,這些患者在一個日歷季度內(nèi)被該州的一家醫(yī)療機(jī)構(gòu)入院并出院。數(shù)據(jù)涵蓋了244家醫(yī)療機(jī)構(gòu),代表了該州所有接收住院病人的私有機(jī)構(gòu),但三類豁免機(jī)構(gòu)除外:長期急性護(hù)理機(jī)構(gòu)、精神病和康復(fù)機(jī)構(gòu),以及不符合規(guī)定的機(jī)構(gòu)。從一個醫(yī)院出院的病人數(shù)量從5到9104不等。每個病人關(guān)聯(lián)的變量涵蓋了人口統(tǒng)計、診斷、治療和財務(wù)安排等信息。
我們使用這個數(shù)據(jù)集的一個重要原因是它與得克薩斯州衛(wèi)生服務(wù)部(2019)根據(jù)表1的匿名化方法處理的住院病人數(shù)據(jù)集非常相似。由于得克薩斯州不允許在匿名化之前發(fā)布其數(shù)據(jù)集,我們的數(shù)據(jù)集成為研究應(yīng)用得克薩斯州程序的影響的理想?yún)⒄?。雖然我們也研究了其他一些技術(shù)上更復(fù)雜的匿名化技術(shù)(如本節(jié)后面所闡述的),但我們認(rèn)為對得克薩斯州程序的研究很重要,因?yàn)樗砹艘粋€目前而言比較罕見的情況,即政府機(jī)構(gòu)明確規(guī)定了對含有高度敏感私人信息的數(shù)據(jù)集進(jìn)行匿名化的步驟。
1.差異化測度
自變量:我們使用了兩個在健康差異背景下經(jīng)常被研究的自變量:入院嚴(yán)重程度(SERV)和無反應(yīng)指標(biāo)(NONRES)。入院嚴(yán)重程度按5分制測量(從0到4,即從無臨床不穩(wěn)定到最大不穩(wěn)定)。無反應(yīng)者指標(biāo)反映了病人在住院期間對治療是否有反應(yīng),通過比較住院中期收集的臨床變量和入院時收集的變量而確定。如果患者在住院中期根據(jù)臨床變量預(yù)測的院內(nèi)死亡概率高于入院時,則被視為無反應(yīng)者。
我們選擇這兩個因變量的一個重要原因是它們具有鮮明的特點(diǎn)。在我們的數(shù)據(jù)集中,所有的醫(yī)院都被要求收集入院嚴(yán)重程度(SERV)的信息,使其在數(shù)據(jù)集中的覆蓋率接近100%。相比之下,無反應(yīng)指標(biāo)則是可以選擇報告的。此外,入院時被認(rèn)為具有中度或低度臨床不穩(wěn)定性的患者沒有資格進(jìn)行計算。因此,數(shù)據(jù)集中只有4.3%的記錄包含病人是否為無反應(yīng)者的二進(jìn)制判斷(是/否)。兩個因變量之間的這種鮮明對比使我們能夠研究兩種不同的情況。1)結(jié)果變量適用于數(shù)據(jù)集中的所有個人(如收入差距),以及2)結(jié)果只適用于一小部分個人(如晉升行政職位的差距;罕見疾病的差異研究;或在蘋果iOS的案例中,只有一小部分按鍵需要糾正)。
社會決定因素:為了檢測差異,分別將性別、種族、民族和年齡作為重點(diǎn)社會決定因素進(jìn)行研究。選擇這四個變量有兩個主要原因。首先,這些變量經(jīng)常是差異研究中的焦點(diǎn)因素。其次,在隱私方面,它們也經(jīng)常被視為“準(zhǔn)識別符”1Sweeney Latanya, Simple Demographics Often Identify People Uniquely, Health, vol. 671, 2000, pp. 1-34.,因此為了匿名的目的,這些變量經(jīng)常按照表1所示的程序那樣被有選擇地刪除或掩蓋。鑒于它們在數(shù)據(jù)匿名化和差異檢測中的突出地位,對這些變量的關(guān)注使我們能夠更好地解釋前者對后者的影響。
控制變量:為了進(jìn)一步模仿差異研究文獻(xiàn)中通常進(jìn)行的分析,我們還將三個個人層面的變量作為實(shí)證研究的控制變量。1)保險狀況(INS;一個二元變量,表示個人是否有醫(yī)療保險);2)癌癥史(CANCER;一個二元變量,表示個人是否有癌癥診斷史);以及3)住院天數(shù)(LOS;一個整數(shù)變量,廣泛用于代表個人醫(yī)療狀況的復(fù)雜性)。選擇這些控制變量是因?yàn)樗鼈兣c病人的財務(wù)狀況或醫(yī)療狀況相關(guān),在健康差異的文獻(xiàn)中經(jīng)常被用作控制變量。
差異檢測:我們考慮了對應(yīng)兩種差異操作化的兩種差異分析方法,即回歸分析和幾率比。對于通過隔離實(shí)現(xiàn)的差異(disparity through separation),我們使用公式1中的回歸模型進(jìn)行分析。具體來說,估計結(jié)果變量(如入院嚴(yán)重程度)相對于重點(diǎn)社會決定因素(如種族)的差異。公式中結(jié)果變量是Y,重點(diǎn)社會決定因素是Z,其他三個社會決定因素和三個控制變量組成X。我們?yōu)樾詣e和種族創(chuàng)建了虛擬變量,當(dāng)因變量是入院嚴(yán)重程度時,使用普通最小平方估計模型。由于其他因變量(即無應(yīng)答者指標(biāo))是二進(jìn)制的,我們使用最大似然估計的邏輯回歸。對于通過變差實(shí)現(xiàn)的差異(disparity through variation),我們考慮了經(jīng)常使用的幾率比的測量方法,計算方法見公式(6):
其中X、Y和Z如公式1所定義,V0和V1是Z域的兩個子集。直觀地說,幾率比反映了在保持X不變的情況下,將Z從V0轉(zhuǎn)移到V1對Y=1的幾率的影響。幾率比的估計可以通過邏輯回歸來完成,具體為eβ,其中β是Z的回歸系數(shù)。為了使因變量Y成為二進(jìn)制,在計算入院嚴(yán)重程度(SERV)的賠率時,我們將其五個值分為兩組,以中位數(shù)劃分:{0,1}為一級,{2,3,4}為另一級。
2.數(shù)據(jù)匿名化技術(shù)
為了研究不同的數(shù)據(jù)匿名化機(jī)制對差異檢測的不同影響,我們總共實(shí)施了四種數(shù)據(jù)匿名化算法,其中兩種是數(shù)據(jù)移除,另外兩種是噪聲插入。我們實(shí)施的第一個算法是得克薩斯州衛(wèi)生服務(wù)部(2019年)用于匿名化全州住院病人出院數(shù)據(jù)集的規(guī)則(表1)。雖然所有的規(guī)則都適用于我們的數(shù)據(jù)集,但有兩個小的調(diào)整是必要的。首先,我們將規(guī)則2中的得克薩斯州改為我們數(shù)據(jù)集中的州。第二,由于我們的數(shù)據(jù)集包含ICD-9而不是ICD-10編碼,所以在應(yīng)用規(guī)則3時,我們確定并使用了表示酒精/毒品使用或HIV18的ICD-9編碼。我們在研究中發(fā)現(xiàn),對差異檢測有實(shí)質(zhì)性影響的只有規(guī)則3和8,因?yàn)樗鼈儎h除了我們的差異分析中包括的社會決定因素。由于規(guī)則8有一個可調(diào)整的參數(shù)(即10個病人的閾值),我們還測試了閾值為20時的規(guī)則變體。
接下來,我們考慮了K-匿名算法,這是歐盟咨詢機(jī)構(gòu)為消除個人識別風(fēng)險而推薦的一種數(shù)據(jù)刪除機(jī)制。我們使用了sdcMicro R包中的局部抑制算法。該算法旨在刪除盡可能少的變量值,以實(shí)現(xiàn)k-匿名性。為了研究最小匿名化(即k=2)如何影響差異檢測,我們在研究中測試了k=2和5的情況。
對于線性回歸,我們使用最近開發(fā)的差分隱私充分統(tǒng)計擾動(SSP)算法的變體,1Wang Yuxiang, Revisiting Differentially Private Linear Regression: Optimal and Adaptive Prediction & Estimation in Unbounded Domain, arXiv preprint arXiv:1803.02596, 2018, pp. 1-30.該算法通過首先分別計算XT X和Xy的差分隱私版本,在生成估計系數(shù)為之前,保證在求解線性模型y=Xβ+ε時具有(?,δ)差分隱私。與原始的SSP算法相比,我們所使用的算法變體進(jìn)一步利用了數(shù)據(jù)相關(guān)的量化方法來實(shí)現(xiàn)接近最佳的數(shù)據(jù)效用,并被證明大大超過了其他現(xiàn)有的差分私有線性回歸的解決方案。由于δ通常被設(shè)定為一個可忽略的值,我們設(shè)定2Wang Yuxiang, Revisiting Differentially Private Linear Regression: Optimal and Adaptive Prediction & Estimation in Unbounded Domain, arXiv preprint arXiv:1803.02596, 2018, pp. 1-30.其中n是數(shù)據(jù)集大小,?并在0.1和1之間變化。
對于邏輯回歸(以及相關(guān)的幾率估計),我們實(shí)施了正則化經(jīng)驗(yàn)風(fēng)險估計的差分隱私算法,3Chaudhuri Kamalika, Claire Monteleoni and Anand D. Sarwate, Differentially Private Empirical Risk Minimization,Journal of Machine Learning Research, vol. 12, no. 3, 2011, pp. 1069-1109.它比傳統(tǒng)的輸出擾動算法(如上述的拉普拉斯機(jī)制)產(chǎn)生更準(zhǔn)確的系數(shù)估計,因?yàn)樗ㄟ^擾動優(yōu)化過程的目標(biāo)函數(shù)而不是系數(shù)估計的最終輸出來實(shí)現(xiàn)差分隱私。該算法被設(shè)計為實(shí)現(xiàn)(?,0)-差分隱私,其特點(diǎn)是只有兩個參數(shù)?和λ,這是控制l2-正則化項的正則化參數(shù)。我們在實(shí)現(xiàn)中設(shè)定其中n是輸入大小,?在0.1和1之間變化。
數(shù)據(jù)移除對隔離差異的影響:分析結(jié)果表明(篇幅限制不展示分析結(jié)果的表格,相關(guān)結(jié)果請參見論文原文),實(shí)踐中使用的數(shù)據(jù)移除匿名化方法,如得克薩斯程序,可以大大干擾隔離差異。在k-匿名的情況下,即使是最弱的匿名形式(即k=2)也會對亞洲人的入院嚴(yán)重程度產(chǎn)生假陽性差異。這種干擾可能是朝著任何一個方向。例如,對于西班牙血統(tǒng)的人,得克薩斯程序識別出的入院嚴(yán)重程度明顯較低,k-匿名(k = 5)識別出的嚴(yán)重程度明顯較高。然而,未經(jīng)過匿名操作的原始數(shù)據(jù)不能支持以上兩個結(jié)論。從表中還可以看出,與定理1一致,k-匿名算法傾向于產(chǎn)生更多的假陽性而非假陰性。
數(shù)據(jù)移除對變差差異的影響:得克薩斯程序和K-匿名方法都對變差差異結(jié)果產(chǎn)生了很大的影響,甚至在一些情況下還扭轉(zhuǎn)了其方向。這與我們之前的概念討論和定理2是一致的。與數(shù)據(jù)移除對隔離差異的影響相比,當(dāng)差異性通過變異來操作時,K-匿名性除了產(chǎn)生假陽性之外,還掩蓋了差異性的嚴(yán)重性。例如,實(shí)現(xiàn)2-匿名性需要將亞洲人成為無反應(yīng)者的幾率比從2.79降低到1.52,如果使用 “多半可能”(more likely than not)的標(biāo)準(zhǔn),則會產(chǎn)生假陰性。
噪聲插入對隔離差異的影響:即當(dāng)差異性通過隔離來操作時,差分隱私算法很可能會產(chǎn)生假陰性結(jié)果。值得注意的是,即使當(dāng)?=1,即一個在實(shí)踐中被認(rèn)為是隱私保護(hù)程度很弱的水平,1Cynthia Dwork, Frank McSherry, Kobbi Nissim and Adam Smith, Calibrating Noise to Sensitivity in Private Data Analysis, Journal of Privacy and Confidentiality, vol. 7, no. 3, 2016, pp. 17-51.差分隱私算法仍然以99%的假陰性率掩蓋了無反應(yīng)指標(biāo)的(唯一)統(tǒng)計意義上的差異性。
噪聲插入對變差差異的影響:與數(shù)據(jù)刪除機(jī)制一樣,噪聲插入算法以不可預(yù)測的方式改變了差異的估計大小,對一些人來說放大了幾率比,對另一些人來說削弱了幾率比,甚至在一些情況下逆轉(zhuǎn)了變化的方向。
保護(hù)消費(fèi)者隱私已經(jīng)成為數(shù)字經(jīng)濟(jì)背景下企業(yè)和政策制定者的一項首要任務(wù)。同樣,對不同群體間基于數(shù)據(jù)的推理預(yù)測的差異性的認(rèn)識與糾正也越來越被視為就業(yè)、住房、醫(yī)療保健等方面的社會必要條件。這兩個問題的首要地位在未來只會因?yàn)榭焖僭鲩L的消費(fèi)者數(shù)據(jù)收集和多樣化的技術(shù)問題而得到加強(qiáng),而隱私和群體差異的問題也經(jīng)常由此產(chǎn)生,這使得研究人員、從業(yè)人員和政策制定者更加需要注意這兩者之間潛在的復(fù)雜的相互作用,這也是本文的重點(diǎn)。在此背景下,我們的結(jié)果強(qiáng)調(diào)了研究隱私保護(hù)對不同個體的不同影響的重要性,并闡明了在隱私保護(hù)的數(shù)據(jù)中識別差異的復(fù)雜性。在下文中,我們將根據(jù)我們的發(fā)現(xiàn)提供可操作的建議,以確保匿名化的設(shè)計和差異化的操作之間的適當(dāng)協(xié)調(diào)。
首先,當(dāng)數(shù)據(jù)集已經(jīng)被匿名化時,在審查差異影響的統(tǒng)計證據(jù)之前,對所應(yīng)用的匿名化機(jī)制做出說明是非常重要的。例如,如果應(yīng)用了噪音插入,通過隔離來操作差異性往往會產(chǎn)生保守的結(jié)果,產(chǎn)生假陽性的可能性很小。因此,這樣的結(jié)果至少與原始數(shù)據(jù)集上的結(jié)果一樣有效。此時如果在匿名數(shù)據(jù)中檢測出群體差異,則可以建立歧視存在的初步證據(jù)。相反,如果應(yīng)用了像K-匿名這樣的數(shù)據(jù)清除機(jī)制,那么更有可能產(chǎn)生假陽性而不是假陰性的結(jié)果。因此,這些可能更好地作為探索性步驟,以確定是否需要對特定類型的差異性影響進(jìn)行進(jìn)一步研究。鑒于企業(yè)在收集數(shù)據(jù)時越來越流行使用匿名化技術(shù)或基于保留隱私的數(shù)據(jù)做出分析決定,了解匿名化和差異性檢測之間的這種微妙互動越來越重要。
其次,匿名化的設(shè)計應(yīng)該同時考慮保護(hù)隱私和匿名數(shù)據(jù)在差異性檢測中的影響。文獻(xiàn)已經(jīng)反復(fù)指出這兩個目標(biāo)之間的必要權(quán)衡。更重要的是,現(xiàn)有的噪音插入技術(shù)被證明可以在某些假設(shè)下在這個權(quán)衡上實(shí)現(xiàn)帕累托最優(yōu)。對于數(shù)據(jù)移除,雖然實(shí)現(xiàn)最優(yōu)性被證明是困難的,但研究人員已經(jīng)開發(fā)了在最優(yōu)權(quán)衡的一個恒定系數(shù)內(nèi)達(dá)到最優(yōu)性的近似算法。1Aggarwal Gagan, Tomas Feder, Krishnaram Kenthapadi, Rajeev Motwani, Rina Panigrahy, Dilys Thomas and An Zhu,Approximation Algorithms for K-anonymity, Journal of Privacy Technology (JOPT), vol. 11, 2005, pp. 1-18.這些結(jié)果不僅提供了適合差異檢測目的的匿名化機(jī)制,而且有助于說明當(dāng)數(shù)據(jù)集必須被匿名化以滿足某些隱私保證時,在差異檢測方面會導(dǎo)致什么結(jié)果。對匿名化下隱私保護(hù)和差異檢測的權(quán)衡的了解,反過來將使監(jiān)管者和政策制定者在強(qiáng)制或激勵隱私保護(hù)(如通過GDPR等隱私立法)或?yàn)椴町悪z測收集社會決定性信息之前,能夠正確評估隱私保護(hù)(和披露)對不同亞人群的不同影響。
我們的工作受限于它只對可觀察到的差異的檢測,而不是對任何潛在的因果歧視的確認(rèn)。值得注意的是,即使是數(shù)據(jù)集中的巨大和持續(xù)的差異也不能證明歧視,因?yàn)楹笳咝枰獙?shù)據(jù)產(chǎn)生的機(jī)制有大量的預(yù)先了解。例如,在支持歧視的因果推論之前,我們必須從遺漏的變量和常見的偏見(如樣本選擇偏見)中找出內(nèi)生性威脅。2Pager Devah and Hana Shepherd, The Sociology of Discrimination: Racial Discrimination in Employment, Housing,Credit, and Consumer Markets, Annual Review of Sociology, vol. 34, 2008, pp. 181-209.為此,我們的工作只是理解數(shù)據(jù)匿名化對識別歧視的影響的第一步。未來的研究可以研究數(shù)據(jù)匿名化如何影響因果推理的后續(xù)步驟。
我們工作的另一個局限性與匿名化數(shù)據(jù)的其他潛在影響有關(guān)。雖然當(dāng)可識別的差異被掩蓋時,顯然會對貧困亞群產(chǎn)生不同的影響,但這種不同的影響也可能來自匿名數(shù)據(jù)的其他用途,例如,當(dāng)數(shù)據(jù)被用于分配教育和醫(yī)療保健等資源時。3Ekstrand Michael D., Rezvan Joshaghani and Hoda Mehrpouyan, Privacy for All: Ensuring Fair and Equitable Privacy Protections, Conference on Fairness, Accountability and Transparency, 2018, pp. 35-47.4Pujol David, Ryan McKenna, Satya Kuppam, Michael Hay, Ashwin Machanavajjhala and Gerome Miklau, Fair Decision Making Using Privacy-Protected Data, Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 2020, pp. 189-199.有趣的是,如果我們將分析單位從子群體轉(zhuǎn)換為個人,那么匿名化已被證明可以防止某些歧視,未來的研究可以進(jìn)一步研究數(shù)據(jù)匿名化的這些反作用,以便企業(yè)在選擇應(yīng)用數(shù)據(jù)匿名化機(jī)制時可以適當(dāng)?shù)仄胶馑鼈儭?/p>
最后,我們對匿名化機(jī)制和差異化操作的分類,是為了強(qiáng)調(diào)不同類型之間細(xì)微差異和相互作用,而不是作為一種嚴(yán)格的二元分類。因此,盡管本文提出的分類具有普遍性,但也存在例外情況。例如,在評估就業(yè)歧視時,隔離差異是一種主要的計算群體間差異的方法,但是美國平等就業(yè)機(jī)會委員會也提出了一種通過變差差異衡量就業(yè)歧視的著名的經(jīng)驗(yàn)法則。同樣,在匿名化技術(shù)方面,數(shù)據(jù)移除和噪聲插入也不總是依從二元分類的,目前有一些匿名化技術(shù)的嘗試就是既能去除數(shù)據(jù)又能插入噪音。5Li Ninghui, Wahbeh Qardaji and Dong Su, On Sampling, Anonymization, and Differential Privacy or, K-Anonymization Meets Differential Privacy, Proceedings of the 7th ACM Symposium on Information, Computer and Communications Security,2012, pp. 32-33.然而,這些例外情況的存在并不影響我們的關(guān)于數(shù)據(jù)匿名化對差異識別的影響的結(jié)論。