亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于統(tǒng)計機器學(xué)習(xí)算法的隱私保護在數(shù)據(jù)發(fā)布與數(shù)據(jù)挖掘中的應(yīng)用分析

2022-05-30 11:38:29曹憲趙雪昆

計算機應(yīng)用文摘 2022年4期

曹憲趙雪昆

關(guān)鍵詞差分隱私數(shù)據(jù)發(fā)布匿名隱私數(shù)據(jù)挖掘機器學(xué)習(xí)

1引言

目前，數(shù)據(jù)產(chǎn)業(yè)面臨新的機遇，只有遵循數(shù)據(jù)流通、數(shù)據(jù)共享、數(shù)據(jù)開放才能更好地挖掘數(shù)據(jù)的價值和激發(fā)市場的活力，從而使公共利益最大化。同時，數(shù)字化也面臨各種挑戰(zhàn)，如數(shù)據(jù)安全和隱私數(shù)據(jù)泄露事件頻發(fā)，且數(shù)據(jù)確權(quán)歸屬矛盾也很突出。因此，在實現(xiàn)數(shù)據(jù)價值同時，有效保護敏感信息不被泄露顯得尤為重要。

概率論與數(shù)理統(tǒng)計是數(shù)據(jù)統(tǒng)計中常用的技術(shù)，在隱私保護場景中也起到了重要的作用。在我國的“個人信息法”中，針對數(shù)據(jù)處理者提出明確要求：數(shù)據(jù)處理者處理的個人信息應(yīng)采取相應(yīng)的加密、去標識化等安全技術(shù)措施。在加密、去標識化技術(shù)中，常常會采用統(tǒng)計類算法。數(shù)據(jù)發(fā)布者針對數(shù)據(jù)發(fā)布前采用統(tǒng)計類算法或是其他數(shù)據(jù)脫敏技術(shù)對數(shù)據(jù)集進行敏感信息的保護處理工作，可以使發(fā)布信息的內(nèi)容無法確定個體信息，從而對數(shù)據(jù)進行保護。

2隱私保護技術(shù)

關(guān)于數(shù)據(jù)泄露以及數(shù)據(jù)安全威脅，威瑞森（Verizon）發(fā)布的《數(shù)據(jù)泄露調(diào)查報告》（DBIR）提出了重要觀點。從2008 年起， Verizon 每年都會發(fā)布DBIR。2019 年的DBIR 對41686 起安全事件（其中有2013 起數(shù)據(jù)泄露事件）進行了分析，由73 個數(shù)據(jù)源提供數(shù)據(jù)，其中66 個數(shù)據(jù)源是Verizon 之外的組織，這些組織是來自世界各地的公共或私有實體。報告顯示，69%的安全事件是外部人員所為;34%的違規(guī)行為涉及內(nèi)容參與者;2%涉及合作伙伴;5%涉及多方當事人;39%的數(shù)據(jù)泄露事件的主使是有組織犯罪集團;23%的數(shù)據(jù)泄露事件被確定為有民族或國家行為者參與。從報告中可以分析出，泄露的數(shù)據(jù)屬性包括憑據(jù)信息、個人信息（比如社會安全號碼、保險相關(guān)信息、姓名、地址和其他容易盈利的數(shù)據(jù)）、醫(yī)療信息、銀行卡信息、支付信息等。因此，保護隱私數(shù)據(jù)和防止敏感數(shù)據(jù)泄露問題，是我們目前面臨的最大挑戰(zhàn)。作為數(shù)據(jù)挖掘與信息共享應(yīng)用的重要環(huán)節(jié)，數(shù)據(jù)發(fā)布和數(shù)據(jù)挖掘中的隱私保護成為當前的研究熱點[1] 。

所謂隱私保護是指隱藏數(shù)據(jù)持有者的個人身份信息與敏感數(shù)據(jù)信息。常用的隱私保護技術(shù)包括數(shù)據(jù)匿名技術(shù)、數(shù)據(jù)擾動技術(shù)、數(shù)據(jù)加密技術(shù)。

數(shù)據(jù)匿名技術(shù)可以針對需要發(fā)布的數(shù)據(jù)進行發(fā)布限制，從而保護原始個體敏感數(shù)據(jù)不被泄露。常見的數(shù)據(jù)匿名技術(shù)如下：一是選擇性地發(fā)布一部分，如刪除姓名、身份證號等敏感信息再對數(shù)據(jù)進行發(fā)布，以保護敏感數(shù)據(jù)。二是發(fā)布精度較低的數(shù)據(jù)，如聚類方法中概括性的數(shù)據(jù)內(nèi)容，針對年齡發(fā)布一段數(shù)據(jù)或是針對身份匯總發(fā)布數(shù)據(jù)，從而保護原始個體數(shù)據(jù)的安全性。其他方式：隱藏敏感信息，如替換、重寫、散列、固定值偏移等。該技術(shù)主要對數(shù)據(jù)的可用性和隱私披露風(fēng)險進行平衡。

數(shù)據(jù)擾動技術(shù)可以擾動原始數(shù)據(jù)或是在原始數(shù)據(jù)中增加噪音，以此實現(xiàn)隱私保護。其主要原理是讓數(shù)據(jù)中的個體失真，從而不能確定數(shù)據(jù)的唯一性，但同時又能保證數(shù)據(jù)不變，如采用數(shù)據(jù)變換、合成偽數(shù)據(jù)、差分隱私等方法實現(xiàn)隱私保護。其優(yōu)點是執(zhí)行效率高，缺點是由于數(shù)據(jù)增加了噪音，數(shù)據(jù)缺損較大，所以會存在一定的差異項。本文研究的重點是增加擾動技術(shù)以及實際統(tǒng)計數(shù)據(jù)的準確性[2] ，比較適用于數(shù)據(jù)統(tǒng)計領(lǐng)域。

數(shù)據(jù)加密技術(shù)可對敏感數(shù)據(jù)進行加密，以實現(xiàn)隱私保護。其特點主要是計算開銷大、通信代價高。常見的加密技術(shù)可以應(yīng)用到聯(lián)邦學(xué)習(xí)中的安全多方計算、同態(tài)加密等。數(shù)據(jù)加密技術(shù)不是本文討論的重點內(nèi)容。

3統(tǒng)計機器學(xué)習(xí)在隱私保護中的應(yīng)用

統(tǒng)計機器學(xué)習(xí)基于對數(shù)據(jù)的初步認識以及對學(xué)習(xí)目的進行分析，選擇合適的數(shù)學(xué)模型，擬定超參數(shù)，并輸入樣本數(shù)據(jù)，依據(jù)一定的策略，運用合適的學(xué)習(xí)算法對模型進行訓(xùn)練，最后運用訓(xùn)練好的模型對數(shù)據(jù)進行分析預(yù)測[3] 。統(tǒng)計機器學(xué)習(xí)的三要素是模型、算法、策略。針對隱私保護的應(yīng)用場景，大部分的研究在于對模型的選擇、減少策略損失和風(fēng)險上以及應(yīng)用具體的學(xué)習(xí)模型的方法。兩種常用的隱私保護方式為聚類算法和差分隱私法。

3.1聚類算法在數(shù)據(jù)匿名隱私技術(shù)方面的應(yīng)用

聚類以統(tǒng)計分析、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法為基礎(chǔ)，是統(tǒng)計學(xué)的一個重要分支。聚類屬于無監(jiān)督學(xué)習(xí)，其通過樣本相似度或距離對數(shù)據(jù)進行劃分，形成類或是簇（類或是簇事先并不知道），使得最終的類的數(shù)據(jù)差異性小，類外的數(shù)據(jù)差異性大。該聚類方式也常應(yīng)用在數(shù)據(jù)匿名隱私技術(shù)中。在面對數(shù)據(jù)發(fā)布時，采用聚類的方式，將數(shù)據(jù)劃分成不同的類別，形成不同的數(shù)據(jù)組，組內(nèi)的數(shù)據(jù)相似度高，組外的數(shù)據(jù)相似度低，然后將聚類的數(shù)據(jù)進行發(fā)布，從而保護原始數(shù)據(jù)不被泄露，實現(xiàn)匿名隱私保護。通過聚類實現(xiàn)的隱私保護比基于數(shù)據(jù)擾動方式實現(xiàn)匿名技術(shù)數(shù)據(jù)的信息缺損要小。尤其是在數(shù)據(jù)挖掘中，通過聚類的方式實現(xiàn)個體信息的隱藏，優(yōu)勢更為突出。

常用的聚類算法：層次聚類和K 均值聚類。應(yīng)用在數(shù)據(jù)匿名隱私技術(shù)中，基于聚類研究的數(shù)據(jù)類型方向主要是關(guān)系型數(shù)據(jù)和事務(wù)型數(shù)據(jù)。針對聚類方法研究方向或是應(yīng)用場景，一方面主要在于數(shù)據(jù)的劃分方法上，針對不同的數(shù)據(jù)類型或是屬性，進行不同方式的劃分。比如，針對年齡數(shù)據(jù)需要調(diào)整劃分方式，確定匿名組的規(guī)模上界;針對人種不同（如有色人種和白種人），采用空間多維劃分的方式進行劃分;針對復(fù)雜網(wǎng)絡(luò)模型，先通過聚類算法生成K 度向量，再采用Havel 定理的貪心策略重構(gòu)圖，保證重構(gòu)圖與原圖的高度相似，從而保護網(wǎng)絡(luò)數(shù)據(jù)隱私;針對軌跡數(shù)據(jù)的隱私保護發(fā)布，采用基于網(wǎng)格的聚類方法等。另一方面主要是在數(shù)據(jù)的發(fā)布方式上，比如全量數(shù)據(jù)發(fā)布采用的聚類方式以及增量數(shù)據(jù)發(fā)布采用的聚類方式方法。其他方面研究面向的是多敏感屬性的隱私數(shù)據(jù)發(fā)布技術(shù)，針對的是多敏感屬性的多樣性，能夠解決多敏感屬性發(fā)布中的刪除和泄露問題。

常見的聚類應(yīng)用是K?匿名聚類，其原理是通過聚類分析技術(shù)將敏感數(shù)據(jù)劃分成不同的類，類內(nèi)數(shù)據(jù)高度相似，類之間差異較大，然后對每個類通過局部重編碼的匿名策略將其轉(zhuǎn)化為滿足K?匿名約束條件的等價類。目前，出現(xiàn)了很多關(guān)于聚類的K?匿名隱私保護算法的研究，大部分研究集中在針對聚類的中心位置、聚類成員的大小以及聚類策略效率選擇上。優(yōu)化K?匿名聚類，可以提高數(shù)據(jù)發(fā)布的效率和準確性。

3.2基于差分隱私的隱私保護方法

差分隱私技術(shù)是數(shù)據(jù)擾動技術(shù)的實現(xiàn)方式之一。

差分隱私的定義建立在對隨機算法的約束上，其主要是通過聚合查詢結(jié)果添加隨機噪音的方式來保護個人信息。該模型由德沃柯（Dwork）等人于2006 年提出。保護模型的基本原理是對原始數(shù)據(jù)進行轉(zhuǎn)換或者是對統(tǒng)計結(jié)果添加噪音來達到隱私保護效果。該保護方法可以有效防止攻擊者利用背景知識進行攻擊，同時差分隱私采用的是統(tǒng)計學(xué)模型，方便了數(shù)據(jù)工具的使用以及定量分析和證明。該模型被廣泛應(yīng)用于隱私保護數(shù)據(jù)發(fā)布與隱私保護數(shù)據(jù)挖掘、機器學(xué)習(xí)等領(lǐng)域。

3.2.1數(shù)據(jù)發(fā)布場景應(yīng)用

在數(shù)據(jù)發(fā)布場景下，除了可以采用聚類的方式進行數(shù)據(jù)發(fā)布，同時也可以采用差分隱私保護技術(shù)。差分隱私保護數(shù)據(jù)發(fā)布研究的是如何在滿足差分隱私的條件下保證發(fā)布數(shù)據(jù)或查詢結(jié)果的精確性。常見的差分隱私數(shù)據(jù)發(fā)布有交互模式和非交互析模式兩種。其處理方式各有特色，但是目標一致，即在滿足差分隱私的同時，盡可能提高數(shù)據(jù)的可用性[4] 。

在交互模式下，數(shù)據(jù)查詢者只能看到被差分隱私算法轉(zhuǎn)換出來的數(shù)據(jù)，不能看到數(shù)據(jù)的全貌，從而保護數(shù)據(jù)集中的個體隱私。常用的發(fā)布技術(shù)為基于直方圖的信息發(fā)布，其優(yōu)點是敏感度小，分析簡單，噪聲可以控制在較小范圍內(nèi)。在該模式下，主要解決如何以較小的隱私預(yù)算與較低的誤差來進行查詢，如交互模式下的線性與批量查詢。

在非交互模式下，數(shù)據(jù)管理者預(yù)先根據(jù)數(shù)據(jù)信息的特點來設(shè)計要發(fā)布的統(tǒng)計信息，并將經(jīng)過隱私保護的數(shù)據(jù)進行發(fā)布。此時，數(shù)據(jù)查詢者只能對發(fā)布后的合成數(shù)據(jù)庫進行查詢或者挖掘任務(wù)并獲得近似結(jié)果。

常用的發(fā)布技術(shù)有分組發(fā)布、列聯(lián)表發(fā)布等。在該模式下，提高發(fā)布數(shù)據(jù)的可用性是研究的重點。

3.2.2數(shù)據(jù)挖掘場景應(yīng)用

數(shù)據(jù)挖掘研究要解決的是數(shù)據(jù)挖掘領(lǐng)域高層隱私需求帶來的問題，如top?k 頻次算法、k?means 算法、隨機決策數(shù)樹算法、基于SVN 的分類算法、logistic 回歸算法、頻繁項集挖掘、K 最近鄰算法等。其主要目的是設(shè)計如何在保證數(shù)據(jù)安全和性能的前提下，獲得最優(yōu)的數(shù)據(jù)挖掘模型[5] 。

從應(yīng)用效率以及用戶的可信度上進行劃分，可以將隱私保護數(shù)據(jù)挖掘分為可信模式和非可信模式。

在非可信模式下，默認用戶是不可信任的，只提供查詢能力，當用戶提交查詢申請，隱私保護系統(tǒng)根據(jù)查詢請求，通過差分隱私算法生成結(jié)果集。在該模型中，比較常用的挖掘方法包含分類和聚類。在可信模式下，默認用戶是可信任的，用戶能夠直接訪問數(shù)據(jù)集并執(zhí)行挖掘算法操作，通過設(shè)計滿足隱私保護的數(shù)據(jù)挖掘算法發(fā)布數(shù)據(jù)結(jié)果。在該模型中，比較常用的挖掘方法有分類/ 回歸和頻繁項集挖掘?？尚拍Ｊ降臄?shù)據(jù)利用度較高，數(shù)據(jù)挖掘的算法更靈活。

3.2.3聯(lián)邦學(xué)習(xí)

為了讓數(shù)據(jù)實現(xiàn)開放共享，打破“數(shù)據(jù)孤島”，防止數(shù)據(jù)隱私出現(xiàn)泄露等問題，2016 年谷歌提出了聯(lián)邦學(xué)習(xí)。聯(lián)邦學(xué)習(xí)原本用于解決Android 手機終端用戶在本地更新模型的問題，其設(shè)計目標是在保障大數(shù)據(jù)交換時的信息安全，保護終端數(shù)據(jù)和個人數(shù)據(jù)隱私，保證合法合規(guī)的前提下，在多參與方或多計算結(jié)點之間開展高效率的機器學(xué)習(xí)。聯(lián)邦學(xué)習(xí)本質(zhì)上是一種分布式機器學(xué)習(xí)技術(shù)，或機器學(xué)習(xí)框架。

在聯(lián)邦學(xué)習(xí)中，差分隱私方法主要應(yīng)用于縱向聯(lián)邦學(xué)習(xí)框架，涉及多方安全計算模型?，F(xiàn)有研究文獻將縱向聯(lián)邦學(xué)習(xí)中的差分隱私方式分為三種模式。（1）本地差分隱私，通過本地增加噪音的方式，實現(xiàn)對數(shù)據(jù)差分隱私保護，保護過程全部在客戶端實現(xiàn)。比如可以在手機、平板電腦等小型設(shè)備上訓(xùn)練模型。但是本地差分隱私也存在弊端，一方面是訓(xùn)練的數(shù)據(jù)樣本大的時候無法滿足需求，訓(xùn)練的準確度較低。另一方面，在高維數(shù)據(jù)下，本地差分隱私的可用性和隱私性難以平衡。（2）中心化差分隱私，通過在中心數(shù)據(jù)服務(wù)器上針對各個采集節(jié)點增加噪音的方式，實現(xiàn)隱藏各個節(jié)點的貢獻，不暴露參與訓(xùn)練的用戶數(shù)據(jù)，從而實現(xiàn)差分隱私保護，其優(yōu)于本地差分隱私。中心化差分隱私最大的缺點是在多個計算數(shù)據(jù)方中間需要有一個可信的服務(wù)器，服務(wù)器的安全性成為最大的問題。（3）分布式差分隱私，其在中心化差分隱私的基礎(chǔ)上進行了優(yōu)化，存在多個可信中心節(jié)點，每個用戶將數(shù)據(jù)發(fā)送到不同的可信中心節(jié)點上，各個可信中心節(jié)點負責(zé)對用戶發(fā)送過來的數(shù)據(jù)進行聚合和隱私保護，然后通過多方安全計算或同態(tài)加密以及差分隱私方式發(fā)送到服務(wù)器上，確保服務(wù)器只能得到聚合結(jié)果，得不到具體數(shù)據(jù)。分布式差分隱私最大的缺點是需要一個可信的中間節(jié)點，而且通信開銷較大。

4總結(jié)和展望

基于機器學(xué)習(xí)的保護方法在隱私保護場景下得到了很多可證明的安全模型，并在數(shù)據(jù)發(fā)布、數(shù)據(jù)挖掘、多方聯(lián)合學(xué)習(xí)等方面取得了突破。本文主要介紹了現(xiàn)有的隱私保護技術(shù)以及機器學(xué)習(xí)在隱私保護場景下的應(yīng)用理論。

本文提出了針對隱私保護算法的幾大熱點研究趨勢。

4.1隱私保護在大數(shù)據(jù)環(huán)境下的應(yīng)用

從IT 時代到DT 時代，機器學(xué)習(xí)和數(shù)據(jù)挖掘是實現(xiàn)數(shù)據(jù)智能化的必要手段。例如，我們?nèi)粘５馁徫镄畔?、行程信息等通過數(shù)據(jù)聚類、基線分析、時間序列、回歸等方法，可以分析出數(shù)據(jù)價值和數(shù)據(jù)規(guī)律。而整個過程會涉及隱私泄露的問題。無論采用哪種數(shù)據(jù)隱私保護技術(shù)，最重要的是在滿足保護隱私的前提下使數(shù)據(jù)可用性最大化。未來的研究需要關(guān)注隱私性和可用性的平衡以及大數(shù)據(jù)環(huán)境下的隱私保護和信息安全問題。如果能夠在數(shù)據(jù)挖掘中平衡好數(shù)據(jù)可用性、隱私性和數(shù)據(jù)量等問題，我們的研究就能獲得巨大進步。

4.2隱私保護在無監(jiān)督學(xué)習(xí)下的應(yīng)用挑戰(zhàn)

目前，隱私保護大多應(yīng)用在有監(jiān)督領(lǐng)域，通過人工標記數(shù)據(jù)的隱私保護方法來實現(xiàn)有監(jiān)督下的隱私保護。但隨著技術(shù)的發(fā)展，無監(jiān)督學(xué)習(xí)下的隱私計算準確性和精度的問題也亟須解決。現(xiàn)在針對無監(jiān)督學(xué)習(xí)的隱私計算存在一定的問題，如通過聚類的方法進行數(shù)據(jù)發(fā)布，如果數(shù)據(jù)內(nèi)容是攻擊者利用背景知識或是已知的信息內(nèi)容可以推算出來的，那很容易出現(xiàn)隱私泄露的問題。而解決此問題的方式是匿名和差分隱私，差分隱私可以實現(xiàn)聚類分析下的隱私保護，但是實現(xiàn)方式和誤差的精確度需要進一步研究[6] 。

4.3多種技術(shù)結(jié)合的隱私保護方法

通過對隱私保護在機器學(xué)習(xí)中的應(yīng)用進行分析，我們可以采用聚類、差分隱私、加密等的技術(shù)實現(xiàn)隱私保護，但是任何一種隱私保護算法在實際應(yīng)用中都存在或多或少的問題，不能滿足所有場景，所以我們應(yīng)該針對不同的分析場景，如數(shù)據(jù)發(fā)布、數(shù)據(jù)挖掘、聯(lián)邦學(xué)習(xí)等，按照實際的業(yè)務(wù)情況，進行組合技術(shù)保護，這在一定程度上可以實現(xiàn)功能互補，提升隱私保護效果。

4.4針對行業(yè)屬性的數(shù)據(jù)挖掘隱私保護算法以

隨著云、大數(shù)據(jù)、5G等技術(shù)的發(fā)展，針對具體行業(yè)的數(shù)據(jù)挖掘隱私保護算法以及應(yīng)用的研究工作越來越多，如智慧城市、倉單物流、農(nóng)業(yè)溯源、社會治理等領(lǐng)域。所以，根據(jù)實際場景以及數(shù)據(jù)屬性設(shè)計滿足不同行業(yè)屬性的數(shù)據(jù)挖掘隱私保護算法，是一種挑戰(zhàn)。