亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于統(tǒng)計機器學(xué)習(xí)算法的隱私保護在數(shù)據(jù)發(fā)布與數(shù)據(jù)挖掘中的應(yīng)用分析

        2022-05-30 11:38:29曹憲趙雪昆
        計算機應(yīng)用文摘 2022年4期
        關(guān)鍵詞:機器學(xué)習(xí)數(shù)據(jù)挖掘

        曹憲 趙雪昆

        關(guān)鍵詞 差分隱私 數(shù)據(jù)發(fā)布 匿名隱私 數(shù)據(jù)挖掘 機器學(xué)習(xí)

        1引言

        目前,數(shù)據(jù)產(chǎn)業(yè)面臨新的機遇,只有遵循數(shù)據(jù)流通、數(shù)據(jù)共享、數(shù)據(jù)開放才能更好地挖掘數(shù)據(jù)的價值和激發(fā)市場的活力,從而使公共利益最大化。同時,數(shù)字化也面臨各種挑戰(zhàn),如數(shù)據(jù)安全和隱私數(shù)據(jù)泄露事件頻發(fā),且數(shù)據(jù)確權(quán)歸屬矛盾也很突出。因此,在實現(xiàn)數(shù)據(jù)價值同時,有效保護敏感信息不被泄露顯得尤為重要。

        概率論與數(shù)理統(tǒng)計是數(shù)據(jù)統(tǒng)計中常用的技術(shù),在隱私保護場景中也起到了重要的作用。在我國的“個人信息法”中,針對數(shù)據(jù)處理者提出明確要求:數(shù)據(jù)處理者處理的個人信息應(yīng)采取相應(yīng)的加密、去標識化等安全技術(shù)措施。在加密、去標識化技術(shù)中,常常會采用統(tǒng)計類算法。數(shù)據(jù)發(fā)布者針對數(shù)據(jù)發(fā)布前采用統(tǒng)計類算法或是其他數(shù)據(jù)脫敏技術(shù)對數(shù)據(jù)集進行敏感信息的保護處理工作,可以使發(fā)布信息的內(nèi)容無法確定個體信息,從而對數(shù)據(jù)進行保護。

        2隱私保護技術(shù)

        關(guān)于數(shù)據(jù)泄露以及數(shù)據(jù)安全威脅, 威瑞森(Verizon)發(fā)布的《數(shù)據(jù)泄露調(diào)查報告》(DBIR)提出了重要觀點。從2008 年起, Verizon 每年都會發(fā)布DBIR。2019 年的DBIR 對41686 起安全事件(其中有2013 起數(shù)據(jù)泄露事件)進行了分析,由73 個數(shù)據(jù)源提供數(shù)據(jù),其中66 個數(shù)據(jù)源是Verizon 之外的組織,這些組織是來自世界各地的公共或私有實體。報告顯示,69%的安全事件是外部人員所為;34%的違規(guī)行為涉及內(nèi)容參與者;2%涉及合作伙伴;5%涉及多方當事人;39%的數(shù)據(jù)泄露事件的主使是有組織犯罪集團;23%的數(shù)據(jù)泄露事件被確定為有民族或國家行為者參與。從報告中可以分析出,泄露的數(shù)據(jù)屬性包括憑據(jù)信息、個人信息(比如社會安全號碼、保險相關(guān)信息、姓名、地址和其他容易盈利的數(shù)據(jù))、醫(yī)療信息、銀行卡信息、支付信息等。因此,保護隱私數(shù)據(jù)和防止敏感數(shù)據(jù)泄露問題,是我們目前面臨的最大挑戰(zhàn)。作為數(shù)據(jù)挖掘與信息共享應(yīng)用的重要環(huán)節(jié),數(shù)據(jù)發(fā)布和數(shù)據(jù)挖掘中的隱私保護成為當前的研究熱點[1] 。

        所謂隱私保護是指隱藏數(shù)據(jù)持有者的個人身份信息與敏感數(shù)據(jù)信息。常用的隱私保護技術(shù)包括數(shù)據(jù)匿名技術(shù)、數(shù)據(jù)擾動技術(shù)、數(shù)據(jù)加密技術(shù)。

        數(shù)據(jù)匿名技術(shù)可以針對需要發(fā)布的數(shù)據(jù)進行發(fā)布限制,從而保護原始個體敏感數(shù)據(jù)不被泄露。常見的數(shù)據(jù)匿名技術(shù)如下:一是選擇性地發(fā)布一部分,如刪除姓名、身份證號等敏感信息再對數(shù)據(jù)進行發(fā)布,以保護敏感數(shù)據(jù)。二是發(fā)布精度較低的數(shù)據(jù),如聚類方法中概括性的數(shù)據(jù)內(nèi)容,針對年齡發(fā)布一段數(shù)據(jù)或是針對身份匯總發(fā)布數(shù)據(jù),從而保護原始個體數(shù)據(jù)的安全性。其他方式:隱藏敏感信息,如替換、重寫、散列、固定值偏移等。該技術(shù)主要對數(shù)據(jù)的可用性和隱私披露風(fēng)險進行平衡。

        數(shù)據(jù)擾動技術(shù)可以擾動原始數(shù)據(jù)或是在原始數(shù)據(jù)中增加噪音,以此實現(xiàn)隱私保護。其主要原理是讓數(shù)據(jù)中的個體失真,從而不能確定數(shù)據(jù)的唯一性,但同時又能保證數(shù)據(jù)不變,如采用數(shù)據(jù)變換、合成偽數(shù)據(jù)、差分隱私等方法實現(xiàn)隱私保護。其優(yōu)點是執(zhí)行效率高,缺點是由于數(shù)據(jù)增加了噪音,數(shù)據(jù)缺損較大,所以會存在一定的差異項。本文研究的重點是增加擾動技術(shù)以及實際統(tǒng)計數(shù)據(jù)的準確性[2] ,比較適用于數(shù)據(jù)統(tǒng)計領(lǐng)域。

        數(shù)據(jù)加密技術(shù)可對敏感數(shù)據(jù)進行加密,以實現(xiàn)隱私保護。其特點主要是計算開銷大、通信代價高。常見的加密技術(shù)可以應(yīng)用到聯(lián)邦學(xué)習(xí)中的安全多方計算、同態(tài)加密等。數(shù)據(jù)加密技術(shù)不是本文討論的重點內(nèi)容。

        3統(tǒng)計機器學(xué)習(xí)在隱私保護中的應(yīng)用

        統(tǒng)計機器學(xué)習(xí)基于對數(shù)據(jù)的初步認識以及對學(xué)習(xí)目的進行分析,選擇合適的數(shù)學(xué)模型,擬定超參數(shù),并輸入樣本數(shù)據(jù),依據(jù)一定的策略,運用合適的學(xué)習(xí)算法對模型進行訓(xùn)練,最后運用訓(xùn)練好的模型對數(shù)據(jù)進行分析預(yù)測[3] 。統(tǒng)計機器學(xué)習(xí)的三要素是模型、算法、策略。針對隱私保護的應(yīng)用場景,大部分的研究在于對模型的選擇、減少策略損失和風(fēng)險上以及應(yīng)用具體的學(xué)習(xí)模型的方法。兩種常用的隱私保護方式為聚類算法和差分隱私法。

        3.1聚類算法在數(shù)據(jù)匿名隱私技術(shù)方面的應(yīng)用

        聚類以統(tǒng)計分析、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法為基礎(chǔ),是統(tǒng)計學(xué)的一個重要分支。聚類屬于無監(jiān)督學(xué)習(xí),其通過樣本相似度或距離對數(shù)據(jù)進行劃分,形成類或是簇(類或是簇事先并不知道),使得最終的類的數(shù)據(jù)差異性小,類外的數(shù)據(jù)差異性大。該聚類方式也常應(yīng)用在數(shù)據(jù)匿名隱私技術(shù)中。在面對數(shù)據(jù)發(fā)布時,采用聚類的方式,將數(shù)據(jù)劃分成不同的類別,形成不同的數(shù)據(jù)組,組內(nèi)的數(shù)據(jù)相似度高,組外的數(shù)據(jù)相似度低,然后將聚類的數(shù)據(jù)進行發(fā)布,從而保護原始數(shù)據(jù)不被泄露,實現(xiàn)匿名隱私保護。通過聚類實現(xiàn)的隱私保護比基于數(shù)據(jù)擾動方式實現(xiàn)匿名技術(shù)數(shù)據(jù)的信息缺損要小。尤其是在數(shù)據(jù)挖掘中,通過聚類的方式實現(xiàn)個體信息的隱藏,優(yōu)勢更為突出。

        常用的聚類算法:層次聚類和K 均值聚類。應(yīng)用在數(shù)據(jù)匿名隱私技術(shù)中,基于聚類研究的數(shù)據(jù)類型方向主要是關(guān)系型數(shù)據(jù)和事務(wù)型數(shù)據(jù)。針對聚類方法研究方向或是應(yīng)用場景,一方面主要在于數(shù)據(jù)的劃分方法上,針對不同的數(shù)據(jù)類型或是屬性,進行不同方式的劃分。比如,針對年齡數(shù)據(jù)需要調(diào)整劃分方式,確定匿名組的規(guī)模上界;針對人種不同(如有色人種和白種人),采用空間多維劃分的方式進行劃分;針對復(fù)雜網(wǎng)絡(luò)模型,先通過聚類算法生成K 度向量,再采用Havel 定理的貪心策略重構(gòu)圖,保證重構(gòu)圖與原圖的高度相似,從而保護網(wǎng)絡(luò)數(shù)據(jù)隱私;針對軌跡數(shù)據(jù)的隱私保護發(fā)布,采用基于網(wǎng)格的聚類方法等。另一方面主要是在數(shù)據(jù)的發(fā)布方式上,比如全量數(shù)據(jù)發(fā)布采用的聚類方式以及增量數(shù)據(jù)發(fā)布采用的聚類方式方法。其他方面研究面向的是多敏感屬性的隱私數(shù)據(jù)發(fā)布技術(shù),針對的是多敏感屬性的多樣性,能夠解決多敏感屬性發(fā)布中的刪除和泄露問題。

        常見的聚類應(yīng)用是K?匿名聚類,其原理是通過聚類分析技術(shù)將敏感數(shù)據(jù)劃分成不同的類,類內(nèi)數(shù)據(jù)高度相似,類之間差異較大,然后對每個類通過局部重編碼的匿名策略將其轉(zhuǎn)化為滿足K?匿名約束條件的等價類。目前,出現(xiàn)了很多關(guān)于聚類的K?匿名隱私保護算法的研究,大部分研究集中在針對聚類的中心位置、聚類成員的大小以及聚類策略效率選擇上。優(yōu)化K?匿名聚類,可以提高數(shù)據(jù)發(fā)布的效率和準確性。

        3.2基于差分隱私的隱私保護方法

        差分隱私技術(shù)是數(shù)據(jù)擾動技術(shù)的實現(xiàn)方式之一。

        差分隱私的定義建立在對隨機算法的約束上,其主要是通過聚合查詢結(jié)果添加隨機噪音的方式來保護個人信息。該模型由德沃柯(Dwork)等人于2006 年提出。保護模型的基本原理是對原始數(shù)據(jù)進行轉(zhuǎn)換或者是對統(tǒng)計結(jié)果添加噪音來達到隱私保護效果。該保護方法可以有效防止攻擊者利用背景知識進行攻擊,同時差分隱私采用的是統(tǒng)計學(xué)模型,方便了數(shù)據(jù)工具的使用以及定量分析和證明。該模型被廣泛應(yīng)用于隱私保護數(shù)據(jù)發(fā)布與隱私保護數(shù)據(jù)挖掘、機器學(xué)習(xí)等領(lǐng)域。

        3.2.1數(shù)據(jù)發(fā)布場景應(yīng)用

        在數(shù)據(jù)發(fā)布場景下,除了可以采用聚類的方式進行數(shù)據(jù)發(fā)布,同時也可以采用差分隱私保護技術(shù)。差分隱私保護數(shù)據(jù)發(fā)布研究的是如何在滿足差分隱私的條件下保證發(fā)布數(shù)據(jù)或查詢結(jié)果的精確性。常見的差分隱私數(shù)據(jù)發(fā)布有交互模式和非交互析模式兩種。其處理方式各有特色,但是目標一致,即在滿足差分隱私的同時,盡可能提高數(shù)據(jù)的可用性[4] 。

        在交互模式下,數(shù)據(jù)查詢者只能看到被差分隱私算法轉(zhuǎn)換出來的數(shù)據(jù),不能看到數(shù)據(jù)的全貌,從而保護數(shù)據(jù)集中的個體隱私。常用的發(fā)布技術(shù)為基于直方圖的信息發(fā)布,其優(yōu)點是敏感度小,分析簡單,噪聲可以控制在較小范圍內(nèi)。在該模式下,主要解決如何以較小的隱私預(yù)算與較低的誤差來進行查詢,如交互模式下的線性與批量查詢。

        在非交互模式下,數(shù)據(jù)管理者預(yù)先根據(jù)數(shù)據(jù)信息的特點來設(shè)計要發(fā)布的統(tǒng)計信息,并將經(jīng)過隱私保護的數(shù)據(jù)進行發(fā)布。此時,數(shù)據(jù)查詢者只能對發(fā)布后的合成數(shù)據(jù)庫進行查詢或者挖掘任務(wù)并獲得近似結(jié)果。

        常用的發(fā)布技術(shù)有分組發(fā)布、列聯(lián)表發(fā)布等。在該模式下,提高發(fā)布數(shù)據(jù)的可用性是研究的重點。

        3.2.2數(shù)據(jù)挖掘場景應(yīng)用

        數(shù)據(jù)挖掘研究要解決的是數(shù)據(jù)挖掘領(lǐng)域高層隱私需求帶來的問題,如top?k 頻次算法、k?means 算法、隨機決策數(shù)樹算法、基于SVN 的分類算法、logistic 回歸算法、頻繁項集挖掘、K 最近鄰算法等。其主要目的是設(shè)計如何在保證數(shù)據(jù)安全和性能的前提下,獲得最優(yōu)的數(shù)據(jù)挖掘模型[5] 。

        從應(yīng)用效率以及用戶的可信度上進行劃分,可以將隱私保護數(shù)據(jù)挖掘分為可信模式和非可信模式。

        在非可信模式下,默認用戶是不可信任的,只提供查詢能力,當用戶提交查詢申請,隱私保護系統(tǒng)根據(jù)查詢請求,通過差分隱私算法生成結(jié)果集。在該模型中,比較常用的挖掘方法包含分類和聚類。在可信模式下,默認用戶是可信任的,用戶能夠直接訪問數(shù)據(jù)集并執(zhí)行挖掘算法操作,通過設(shè)計滿足隱私保護的數(shù)據(jù)挖掘算法發(fā)布數(shù)據(jù)結(jié)果。在該模型中,比較常用的挖掘方法有分類/ 回歸和頻繁項集挖掘??尚拍J降臄?shù)據(jù)利用度較高,數(shù)據(jù)挖掘的算法更靈活。

        3.2.3聯(lián)邦學(xué)習(xí)

        為了讓數(shù)據(jù)實現(xiàn)開放共享,打破“數(shù)據(jù)孤島”,防止數(shù)據(jù)隱私出現(xiàn)泄露等問題,2016 年谷歌提出了聯(lián)邦學(xué)習(xí)。聯(lián)邦學(xué)習(xí)原本用于解決Android 手機終端用戶在本地更新模型的問題,其設(shè)計目標是在保障大數(shù)據(jù)交換時的信息安全,保護終端數(shù)據(jù)和個人數(shù)據(jù)隱私,保證合法合規(guī)的前提下,在多參與方或多計算結(jié)點之間開展高效率的機器學(xué)習(xí)。聯(lián)邦學(xué)習(xí)本質(zhì)上是一種分布式機器學(xué)習(xí)技術(shù),或機器學(xué)習(xí)框架。

        在聯(lián)邦學(xué)習(xí)中,差分隱私方法主要應(yīng)用于縱向聯(lián)邦學(xué)習(xí)框架,涉及多方安全計算模型?,F(xiàn)有研究文獻將縱向聯(lián)邦學(xué)習(xí)中的差分隱私方式分為三種模式。(1)本地差分隱私,通過本地增加噪音的方式,實現(xiàn)對數(shù)據(jù)差分隱私保護,保護過程全部在客戶端實現(xiàn)。比如可以在手機、平板電腦等小型設(shè)備上訓(xùn)練模型。但是本地差分隱私也存在弊端,一方面是訓(xùn)練的數(shù)據(jù)樣本大的時候無法滿足需求,訓(xùn)練的準確度較低。另一方面,在高維數(shù)據(jù)下,本地差分隱私的可用性和隱私性難以平衡。(2)中心化差分隱私,通過在中心數(shù)據(jù)服務(wù)器上針對各個采集節(jié)點增加噪音的方式,實現(xiàn)隱藏各個節(jié)點的貢獻,不暴露參與訓(xùn)練的用戶數(shù)據(jù),從而實現(xiàn)差分隱私保護,其優(yōu)于本地差分隱私。中心化差分隱私最大的缺點是在多個計算數(shù)據(jù)方中間需要有一個可信的服務(wù)器,服務(wù)器的安全性成為最大的問題。(3)分布式差分隱私,其在中心化差分隱私的基礎(chǔ)上進行了優(yōu)化,存在多個可信中心節(jié)點,每個用戶將數(shù)據(jù)發(fā)送到不同的可信中心節(jié)點上,各個可信中心節(jié)點負責(zé)對用戶發(fā)送過來的數(shù)據(jù)進行聚合和隱私保護,然后通過多方安全計算或同態(tài)加密以及差分隱私方式發(fā)送到服務(wù)器上,確保服務(wù)器只能得到聚合結(jié)果,得不到具體數(shù)據(jù)。分布式差分隱私最大的缺點是需要一個可信的中間節(jié)點,而且通信開銷較大。

        4總結(jié)和展望

        基于機器學(xué)習(xí)的保護方法在隱私保護場景下得到了很多可證明的安全模型,并在數(shù)據(jù)發(fā)布、數(shù)據(jù)挖掘、多方聯(lián)合學(xué)習(xí)等方面取得了突破。本文主要介紹了現(xiàn)有的隱私保護技術(shù)以及機器學(xué)習(xí)在隱私保護場景下的應(yīng)用理論。

        本文提出了針對隱私保護算法的幾大熱點研究趨勢。

        4.1隱私保護在大數(shù)據(jù)環(huán)境下的應(yīng)用

        從IT 時代到DT 時代,機器學(xué)習(xí)和數(shù)據(jù)挖掘是實現(xiàn)數(shù)據(jù)智能化的必要手段。例如,我們?nèi)粘5馁徫镄畔?、行程信息等通過數(shù)據(jù)聚類、基線分析、時間序列、回歸等方法,可以分析出數(shù)據(jù)價值和數(shù)據(jù)規(guī)律。而整個過程會涉及隱私泄露的問題。無論采用哪種數(shù)據(jù)隱私保護技術(shù),最重要的是在滿足保護隱私的前提下使數(shù)據(jù)可用性最大化。未來的研究需要關(guān)注隱私性和可用性的平衡以及大數(shù)據(jù)環(huán)境下的隱私保護和信息安全問題。如果能夠在數(shù)據(jù)挖掘中平衡好數(shù)據(jù)可用性、隱私性和數(shù)據(jù)量等問題,我們的研究就能獲得巨大進步。

        4.2隱私保護在無監(jiān)督學(xué)習(xí)下的應(yīng)用挑戰(zhàn)

        目前,隱私保護大多應(yīng)用在有監(jiān)督領(lǐng)域, 通過人工標記數(shù)據(jù)的隱私保護方法來實現(xiàn)有監(jiān)督下的隱私保護。但隨著技術(shù)的發(fā)展,無監(jiān)督學(xué)習(xí)下的隱私計算準確性和精度的問題也亟須解決。現(xiàn)在針對無監(jiān)督學(xué)習(xí)的隱私計算存在一定的問題,如通過聚類的方法進行數(shù)據(jù)發(fā)布,如果數(shù)據(jù)內(nèi)容是攻擊者利用背景知識或是已知的信息內(nèi)容可以推算出來的,那很容易出現(xiàn)隱私泄露的問題。而解決此問題的方式是匿名和差分隱私,差分隱私可以實現(xiàn)聚類分析下的隱私保護,但是實現(xiàn)方式和誤差的精確度需要進一步研究[6] 。

        4.3多種技術(shù)結(jié)合的隱私保護方法

        通過對隱私保護在機器學(xué)習(xí)中的應(yīng)用進行分析,我們可以采用聚類、差分隱私、加密等的技術(shù)實現(xiàn)隱私保護,但是任何一種隱私保護算法在實際應(yīng)用中都存在或多或少的問題,不能滿足所有場景,所以我們應(yīng)該針對不同的分析場景,如數(shù)據(jù)發(fā)布、數(shù)據(jù)挖掘、聯(lián)邦學(xué)習(xí)等,按照實際的業(yè)務(wù)情況,進行組合技術(shù)保護,這在一定程度上可以實現(xiàn)功能互補,提升隱私保護效果。

        4.4針對行業(yè)屬性的數(shù)據(jù)挖掘隱私保護算法以

        隨著云、大數(shù)據(jù)、5G等技術(shù)的發(fā)展,針對具體行業(yè)的數(shù)據(jù)挖掘隱私保護算法以及應(yīng)用的研究工作越來越多,如智慧城市、倉單物流、農(nóng)業(yè)溯源、社會治理等領(lǐng)域。所以,根據(jù)實際場景以及數(shù)據(jù)屬性設(shè)計滿足不同行業(yè)屬性的數(shù)據(jù)挖掘隱私保護算法,是一種挑戰(zhàn)。

        猜你喜歡
        機器學(xué)習(xí)數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于詞典與機器學(xué)習(xí)的中文微博情感分析
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機的金融數(shù)據(jù)分析研究
        機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        久久精品国产亚洲一级二级| 国产熟妇按摩3p高潮大叫| 日韩a无v码在线播放| 成人无码区免费AⅤ片WWW| 国产精品自产拍av在线| 久久综合噜噜激激的五月天| 亚洲国产另类精品| 亚洲AV无码久久久一区二不卡| 一本大道综合久久丝袜精品| 99久久精品在线视频| 首页 综合国产 亚洲 丝袜| 国产亚洲欧美在线观看的| 日本高清长片一区二区| 精品国产亚洲av麻豆| 国产97在线 | 亚洲| 久精品国产欧美亚洲色aⅴ大片 | 丰满人妻中文字幕乱码| 手机在线看片国产人妻| 日本入室强伦姧bd在线观看| 国产乱淫视频| 国产午夜精品av一区二区三| 亚洲精品久久国产精品| 亚洲欧洲日本综合aⅴ在线| 中日韩欧美高清在线播放| 国产一区二区三区免费视| 24小时日本在线视频资源| 肉体裸交丰满丰满少妇在线观看| av亚洲在线一区二区| 激情亚洲一区国产精品| 尤物视频在线观看| 国产熟女精品一区二区三区| 精品麻豆一区二区三区乱码| 免费a级毛片18禁网站app| 国产国拍亚洲精品mv在线观看| 99熟妇人妻精品一区五一看片| 国产在线一区二区三精品乱码 | 极品熟妇大蝴蝶20p| 国产亚洲精品成人av在线| 日日碰日日摸日日澡视频播放| 中出内射颜射骚妇| 亚洲AV无码成人精品区H|