亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向軌跡數(shù)據(jù)發(fā)布的優(yōu)化抑制差分隱私保護研究

        2021-08-24 07:24:54白雨靚李曉會陳潮陽王亞君
        小型微型計算機系統(tǒng) 2021年8期
        關鍵詞:分類實驗

        白雨靚,李曉會,陳潮陽,王亞君

        (遼寧工業(yè)大學 電子與信息工程學院,遼寧 錦州 121001)

        1 概 述

        定位技術的逐步發(fā)展和智能設備的全球普及使大量移動對象的軌跡信息被持有和分享,形成了龐大的軌跡數(shù)據(jù)集,這其中所包含的信息,推動了軌跡數(shù)據(jù)分析和挖掘技術的進步,使其成為大數(shù)據(jù)安全領域的一個熱點課題[1-4].研究人員通過對軌跡數(shù)據(jù)的分析和探索,從中獲取大量有價值的信息用于移動對象的隱私保護研究.在數(shù)據(jù)發(fā)布過程中,不恰當?shù)臄?shù)據(jù)處理很可能會造成用戶的隱私泄露,攻擊者可以根據(jù)已掌握的背景知識對移動對象的個人信息進行推斷,從而獲得被攻擊者的經(jīng)濟狀況、家庭住址等隱私信息[5-7].但如果對軌跡數(shù)據(jù)集處理過甚,也會導致對象信息的大量損失,降低發(fā)布數(shù)據(jù)的可用性和完整性,造成信息資源的浪費[8,9].所以降低移動對象隱私泄露風險的同時提高待處理軌跡數(shù)據(jù)的可用性是一個值得深入研究的課題.

        現(xiàn)階段,國內(nèi)外在軌跡數(shù)據(jù)隱私保護領域已取得了一些研究成果.例如,Mohammed[10]等利用一種匿名算法來實現(xiàn)了LKC隱私模型使其適用于RFID數(shù)據(jù),首先識別出軌跡數(shù)據(jù)集中的最小違反序列集,然后通過貪心法對違反序列進行全局抑制,達到盡可能減少最大頻繁序列損失的目的,但全局抑制的方法需要將大量數(shù)據(jù)刪除,沒有有效提高數(shù)據(jù)可用性.Chen[11]等人通過(K,C)L隱私模型及算法提出了局部抑制的概念.該算法首先確定軌跡數(shù)據(jù)集中不滿足(K,C)L隱私模型要求的所有序列;然后在保證數(shù)據(jù)高效可用性的前提下,通過局部抑制將軌跡數(shù)據(jù)集簡化.Ghasemzadeh[12]等人通過對LKC-隱私模型中C=1的情況進行研究,通過全局抑制來實現(xiàn)對軌跡數(shù)據(jù)的隱私保護;Komishani[13]等人提出一種泛化敏感信息的隱私保護算法,該算法通過對敏感信息屬性建立分類樹來實現(xiàn)對高維軌跡數(shù)據(jù)集的抑制,但由于不確定攻擊者所掌握背景知識的長度,所以需要抑制大量數(shù)據(jù),降低了數(shù)據(jù)挖掘價值.由此,為了提高軌跡數(shù)據(jù)發(fā)布過程中用戶信息的安全性,降低由于全局抑制帶來的數(shù)據(jù)損失率,本文提出了一種面向軌跡數(shù)據(jù)發(fā)布的優(yōu)化抑制差分隱私保護算法.通過對大量軌跡數(shù)據(jù)集的分析結(jié)果表明,相比于其他算法,該算法在保證用戶隱私信息不被泄露的同時有效降低了數(shù)據(jù)損失率,提高了數(shù)據(jù)可用性.

        2 相關定義

        本節(jié)主要闡述一些基本定義及相關概念,包括軌跡、違反序列、頻繁序列、分類樹等.

        2.1 軌跡

        定義 1.(軌跡)[14]軌跡是空間中移動對象所產(chǎn)生的時間和位置的有序組合,可表示為tr=(oi;((x1,y1,t1),(x2,y2,t2),…,(xn,yn,tn))).其中:oi為用戶標識符;((x1,y1,t1),(x2,y2,t2),…,(xn,yn,tn))為軌跡序列,t1

        定義 2.(軌跡數(shù)據(jù)集)軌跡數(shù)據(jù)集T是一系列軌跡數(shù)據(jù)的集合,表示為:T=(tr1,tr2,…,trn),其中n表示T中包含的軌跡條數(shù),也可用|T|表示,即|T|=n.

        若軌跡數(shù)據(jù)集中的某個敏感屬性和某些位置點共同頻繁出現(xiàn)在同一序列中,攻擊者不用確認移動對象的具體軌跡,也可以通過對其他擁有部分相同序列對象的分析,推斷出被攻擊者的敏感屬性,例如表1是一個包含移動對象敏感屬性的簡單軌跡數(shù)據(jù)集T.

        表1 軌跡數(shù)據(jù)集T

        從表1可知,軌跡數(shù)據(jù)集T中,包含e2、e3兩個位置點的序列有tr3、tr5、tr7這3條,其中tr3、tr5兩條軌跡所對應的敏感屬性均為SARS.因此,假設被攻擊對象為A,當攻擊者掌握A曾經(jīng)到過e2、e3兩個位置點這一背景知識時,其可推斷出用戶A患有SARS的概率為2/3=66.7%.

        定義 3.(LKC-privacy)[15]L是攻擊者掌握的最大軌跡長度值,T是所有用戶的軌跡數(shù)據(jù)集,S是數(shù)據(jù)集T中的敏感屬性值,若T滿足LKC-隱私當且僅當T中任意子序列P在|P|

        1)|T(p)|≥K,T(p)是軌跡中包含p的用戶.

        2)Conf(s|T(P)≤C,Conf(s|T(p))=|T(P∪s)|/|T(P)|,其中0≤C≤1,s∈S,C是匿名集的置信度閾值,可以根據(jù)需求靈活地調(diào)整匿名的程度.

        2.2 序列

        定義 4.(違反序列)假定軌跡序列集上的序列p長度|p|滿足0<|p|≤L,若序列p不滿足LKC-privacy定義中的任一條件,則稱p為違反序列.

        定義 5.(最小違反序列)給定違反序列p,若序列p為最小違反序列(記為MVS(Minimal Violating Sequence)),當且僅當序列p的任一子序列均不為違反序列.

        定義 6.(頻繁序列)給定閾值E>0和軌跡數(shù)據(jù)集T中的任一子序列p,若|T(p)|≥E,則稱p為頻繁序列,其中|T(p)|為序列p在T中出現(xiàn)的次數(shù).

        定義 7.(最大頻繁序列)給定頻繁序列p,當且僅當p的父序列都不是頻繁序列,則稱序列p為最大頻繁序列,記為MFS(Maximal Frequent Sequence).

        2.3 分類樹

        定義 8.(分類樹)[16]根據(jù)軌跡數(shù)據(jù)集T建立分類樹,將數(shù)據(jù)集中敏感信息逐一添加到分類樹的葉子節(jié)點中,葉子節(jié)點自底向上泛化成為分類樹的節(jié)點,所有葉子節(jié)點的集合即為分類樹的根節(jié)點,對于所有分支,劃分后選擇相同分支的所有實例都屬于同一類.圖1為根據(jù)表1數(shù)據(jù)建立的簡單分類樹.

        圖1 表1中敏感屬性的簡單數(shù)據(jù)分類樹

        2.4 差分隱私

        差分隱私保護技術通過向數(shù)據(jù)中添加噪聲技術來實現(xiàn)數(shù)據(jù)失真,降低數(shù)據(jù)敏感度的同時保持數(shù)據(jù)屬性不變,在數(shù)據(jù)集中更改任一條數(shù)據(jù)信息,算法輸出結(jié)果保持不變,所以即使攻擊者掌握了除一條記錄外的所有敏感數(shù)據(jù),這一條記錄中的敏感信息仍然不會被泄露.

        定義 9.(差分隱私)[17]給定一個隨機算法Q,Rang(Q)代表其值域,若算法Q對于任意兩個鄰近數(shù)據(jù)集T1和T2的輸出結(jié)果O(O∈Rang(Q))均滿足不等式(1),則Q滿足ε-差分隱私.

        Pr[Q(T1)=O]≤exp(ε)·Pr[Q(T2)=O]

        (1)

        其中,ε表示隱私預算,Pr[Q(Ti)=O]表示算法的概率,其由算法Q決定.(本文采用的差分隱私保護噪音機制為拉普拉斯噪音機制)

        定義 10.(全局敏感度)輸入一個軌跡數(shù)據(jù)集T,對于任一函數(shù)f:T→Rd其全局敏感度可表示為:

        (2)

        其中,R代表映射的實數(shù)閾,d代表f:T→Rd的查詢維度,‖f(T1)-f(T2)‖1表示f(T1)和f(T2)之間的1-階范數(shù)距離.

        定理 1.(拉普拉斯機制)對于任一函數(shù)f:T→Rd,給定隨機算法A,則使A滿足ε-差分隱私,當且僅當算法A滿足等式(3).

        A(T)=f(T)+〈Lap1(Δf/ε),Lap2(Δf/ε),…,Lapi(Δf/ε)〉

        (3)

        其中,Lapi(Δf/ε)(1≤i≤d)是相互獨立的拉普拉斯變量,噪音通常由拉普拉斯分布產(chǎn)生,噪音量大小與Δf成正比,與ε成反比.

        3 算法的基本思想

        3.1 設計思路

        本文提出一種面向軌跡數(shù)據(jù)發(fā)布的優(yōu)化抑制差分隱私保護算法,主要包括兩個部分:

        1)將需要進行全局抑制的序列進行局部抑制的操作,根據(jù)位置點的抑制優(yōu)先級得分決定抑制順序,計算其可能產(chǎn)生的最小違反序列,并將其從軌跡數(shù)據(jù)集中舍棄;

        2)建立分類樹,引進差分隱私保護方法實現(xiàn)對軌跡數(shù)據(jù)保護操作.

        3.2 算法描述

        面向軌跡數(shù)據(jù)發(fā)布的優(yōu)化抑制差分隱私保護算法框架圖如圖2所示.

        圖2 算法框架圖

        第1部分(TOS):計算新產(chǎn)生的最小違反序列(NewMVS),具體過程如下:首先找出軌跡數(shù)據(jù)集中的MVS集合,根據(jù)給定的頻繁閾值E,找出最大頻繁序列集,然后構(gòu)建MFS樹,根據(jù)點p的抑制優(yōu)先級[18]得分Score(p)來決定抑制的順序:

        (4)

        其中Eliminate(p)代表抑制點p可以消除的MVS數(shù)目,Loss(p)代表抑制點p帶來的有用性損失.算法偽代碼如下:

        輸入:原始軌跡數(shù)據(jù)集T、敵手掌握的軌跡長度上限L、匿名數(shù)K、置信度閾值C、敏感值合集S、最小違反序列合集MVS

        輸出:更新最小違反序列集(NewMVS)

        1.X<-Find all MFSs from T;

        2.Y<-Based an MFS tree based on the data in X;

        3.For each m in MVS;

        4.P<-Suppress the point p in m;

        5.V<-Single violation sequence point and the violation sequence point of P;

        6.Remove the points belong to V from P except p;

        7.Generate a new sequence by P;

        8.Loop the above operation from 3 to 7;

        9.Build the score sheet by Score(p)=Eliminate(p)/Loss(p);

        10.Choose the highest point;

        11.If Partial inhibition;

        12.Delete the highest p;

        13.Update MFS;

        14.Else

        15.Restrain all instance;

        16.Delete the MFS including p;

        17.Update score sheet;

        18.Return NewMVS;

        第2部分(TDP):利用軌跡數(shù)據(jù)集經(jīng)LKC隱私模型處理過的數(shù)據(jù)迭代構(gòu)建分類樹,并利用Laplace噪聲機制對敏感信息進行保護[17].首先初始化數(shù)據(jù)集T,在軌跡數(shù)據(jù)集選出兩組頻繁序列構(gòu)造一棵分類樹.其思想為:挑選出每條軌跡記錄中任意兩個位置點出現(xiàn)次數(shù)最多所對應的軌跡序列作為第一組,然后在包含這個位置點的所有序列中挑出次數(shù)最小的序列,將這個序列所在的軌跡中最頻繁的位置點當做第二組,以此類推,將所有軌跡都迭代挑選進分類樹中,就構(gòu)造好了一棵分類樹T-tree(0).鑒于軌跡數(shù)據(jù)集的不斷更新,所以要不斷向分類樹中添加新的記錄,我們需要一個給定的隱私預算ε,每增加新數(shù)據(jù)集ΔTi時,ΔTi中所有記錄都會被添加到T-tree(i-1)的根節(jié)點繼而遞歸到不相交的子集中,若某些記錄被添加到T-tree(i-1)的葉子節(jié)點,則需要重新分配該節(jié)點的隱私預算后才能繼續(xù)分割該節(jié)點;若某些記錄被添加到T-tree(i-1)的非葉子節(jié)點中,就根據(jù)T-tree(i-1)的分類方法處理這些記錄;如果某些記錄為空,則對下一條記錄做上述步驟,直到所有節(jié)點都分配完成,形成新的分類樹T-tree(i),并向分類樹的葉子節(jié)點中添加拉普拉斯噪聲.算法偽代碼如下:

        輸入:軌跡數(shù)據(jù)集T,增新數(shù)據(jù)集ΔTi,隱私預算ε

        輸出:噪聲數(shù)據(jù)集H

        19.Initializes the trajectory data set T;

        20.Construct matrices A based on data sets;

        21.Find the sequence with the most number of occurrences of any two items in A,regard asMmax[i,j];

        22.B1=Mmax[i,j];

        23.Mmin[a,b]←the smallest set of sequences in the rows of i and j;

        24.Mmax[c,d]←the largest set of sequences in the rows of a and b;

        25.B2=Mmax[c,d];

        26.Repeat the above steps forB1andB2;

        27.For each Δ Ti;

        28.Z←all trajectory from Δ Ti;

        29.Ifz→cut=the root node ofT-tree(0);

        31.Put Z to the root node ofT-tree(i-1);

        32.For eachzi∈ Z;

        33.Ifziis leaf node;

        34.Separate the node,changeε;

        37.Ifziis not a leaf node;

        38.Assignziaccording to the classification ofT-tree(i-1);

        39.Else Ifzi=null;

        40.Repeat steps 33-36;

        41.ReturnT-tree(i);

        42.Add Laplace to A;

        43.Return H;

        3.3 算法分析

        3.3.1 算法的第1部分(TOS)

        給定原始軌跡數(shù)據(jù)集T,首先識別其中的最小違反序列集MVS,然后根據(jù)最大頻繁序列集,構(gòu)建MFS樹,再由點p的抑制優(yōu)先級得分Score(p)來決定抑制的順序,更新最小違反序列集,時間復雜度為O(|x|L|T|),|x|為軌跡數(shù)據(jù)的維數(shù),|T|為軌跡數(shù)據(jù)集中的軌跡條數(shù);本算法通過更新最小違反序列對局部抑制進行優(yōu)化,有效解決了全局抑制導致數(shù)據(jù)可用性降低的問題,同時通過局部抑制提高了軌跡數(shù)據(jù)安全性.

        3.3.2 算法的第2部分(TDP)

        4 實驗分析

        4.1 實驗環(huán)境與數(shù)據(jù)集

        本實驗在Python環(huán)境下運行,由Myeclipse集成開發(fā)軟件進行算法實現(xiàn),實驗硬件環(huán)境:處理器為Intel(R)Core(TM)i7-5500U CPU 2.40GH、RAM為8.0G、Lnuix操作系統(tǒng),本文采用包含18670條真實用戶軌跡的開源數(shù)據(jù)集進行實驗驗證[19],該數(shù)據(jù)集由微軟亞洲研究院的Geolife項目提供,在軌跡數(shù)據(jù)隱私保護相關研究中廣泛應用.

        4.2 衡量標準

        4.2.1 算法的第1部分(TOS)

        本文中數(shù)據(jù)損失是衡量軌跡數(shù)據(jù)可用性的重要參考,本文從頻繁序列(MFS)和軌跡序列兩方面進行衡量[20]:

        1)MFS數(shù)據(jù)損失MFSLoss,取決于原始軌跡數(shù)據(jù)集中的MFS數(shù)和經(jīng)過局部抑制處理后數(shù)據(jù)集中剩余的MFS數(shù):

        (5)

        其中M(T)為原始軌跡數(shù)據(jù)集中的MFS數(shù),M(T°)為經(jīng)過局部抑制處理后的數(shù)據(jù)集中的MFS數(shù).

        2)軌跡序列損失TLoss,取決于原始軌跡數(shù)據(jù)集中的序列數(shù)以及經(jīng)過數(shù)據(jù)處理后的序列數(shù):

        (6)

        其中L(T)為原始軌跡數(shù)據(jù)集中的軌跡條數(shù),L(T°)為經(jīng)過局部抑制處理后的數(shù)據(jù)集中的軌跡條數(shù).

        4.2.2 算法的第2部分(TDP)

        本算法利用計數(shù)查詢[17]計算數(shù)據(jù)的平均相對誤差作為衡量數(shù)據(jù)損失的標準,利用計數(shù)查詢R:

        (7)

        4.3 實驗結(jié)果

        4.3.1 算法的第1部分(TOS)結(jié)果

        為了驗證本文算法的有效性,將本文中的TOS算法與文獻[21]以及文獻[22]中的LSUP、MPSTD算法進行實驗結(jié)果比對.算法中的匿名個數(shù)K、置信度閾值C均會對實驗結(jié)果產(chǎn)生不同程度的影響,所以本實驗在不同的K值(3種算法C值、L值相同)、C值(3種算法K值、L值相同)下對3種算法實驗結(jié)果進行了比較:

        1)不同K值對數(shù)據(jù)損失的影響

        由圖3、圖4中的實驗結(jié)果可知,當匿名數(shù)K值遞增,MFS損失率和序列損失率也在隨之增加,其原理在于最小違反序列集(MVS)的數(shù)目與K值成正比例關系,K值的增加導致需要被抑制的序列數(shù)增加,加大了數(shù)據(jù)損失率.相比于其他兩種算法,本文中的TOS算法在數(shù)據(jù)處理過程中根據(jù)抑制優(yōu)先得分優(yōu)化了更新最小違反序列集的過程,合理的利用了局部抑制的優(yōu)勢,具有更低的MFS損失率和序列損失率.

        圖3 不同K值對MFS損失率的影響

        圖4 不同K值對序列損失率的影響

        2)C值不同對數(shù)據(jù)損失的影響

        由圖5、圖6的實驗結(jié)果可知,當置信度閾值C的值遞增,MFS損失率和序列損失率逐漸減小.C值的增加會減少需要抑制的最小違反序列(MVS)數(shù),從而導致MFS損失率和序列損失率都在逐步下降.綜合圖3-圖6數(shù)據(jù)結(jié)果,在數(shù)據(jù)處理過程中,不論是C值還是K值的遞增,本文提出的TOS 算法的數(shù)據(jù)處理結(jié)果均在一定程度上優(yōu)于其他兩種算法,因為TOS算法是根據(jù)抑制點得分優(yōu)先級來決定抑制順序,可以更合理的更新最小違反序列集,有效降低由于抑制數(shù)據(jù)導致的數(shù)據(jù)損失.

        圖5 不同C值對MFS損失率的影響

        圖6 不同C值對序列損失率的影響

        4.3.2 算法的第2部分(TDP)結(jié)果

        為了驗證本文算法的安全性,將文獻[23]以及文獻[24]中的CTS-DP、DDPA算法與本文TDP算法進行實驗結(jié)果對比.實驗結(jié)果表明隨著軌跡數(shù)據(jù)集長度的增加,數(shù)據(jù)的平均相對誤差也逐漸增加,但在隱私預算值越大的條件下,兩種實驗中數(shù)據(jù)的平均相對誤差均在降低.從實驗結(jié)果可知,相比于其他兩種算法,本文中TDP算法的軌跡數(shù)據(jù)分類樹是在通過局部抑制處理后的數(shù)據(jù)基礎上建立的,避免了由于添加過多拉普拉斯噪聲而導致的數(shù)據(jù)失真,更有效降低了平均相對誤差,提高了軌跡隱私數(shù)據(jù)的可用性與安全性.

        圖7 ε=0.5時,數(shù)據(jù)集長度對平均相對誤差的影響

        圖8 ε=1時,數(shù)據(jù)集長度對平均相對誤差的影響

        5 結(jié)束語

        本文提出了一種面向軌跡數(shù)據(jù)發(fā)布的優(yōu)化抑制差分隱私保護算法,在軌跡數(shù)據(jù)的發(fā)布過程中,通過更新最小違反序列對數(shù)據(jù)進行合理局部抑制,代替全局抑制的處理,降低了全局抑制造成的多數(shù)據(jù)損失,提高了軌跡數(shù)據(jù)的可用性,同時根據(jù)處理過后的軌跡數(shù)據(jù)集中的敏感信息建立分類樹,有效減少拉普拉斯噪聲添加,降低數(shù)據(jù)失真,相比于其他算法,本文提出的算法有效降低了MFS損失率和序列損失率,減小了平均相對誤差,降低隱私泄露風險的同時提高了待發(fā)布數(shù)據(jù)的可用性.未來將繼續(xù)對如何進一步提高待發(fā)布數(shù)據(jù)的可用性進行研究.

        猜你喜歡
        分類實驗
        記一次有趣的實驗
        微型實驗里看“燃燒”
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        做個怪怪長實驗
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        久久婷婷综合色丁香五月| 亚洲中文字幕第二十三页| 久久精品国产亚洲av豆腐| 免费a级毛片在线播放| 精品国品一二三产品区别在线观看| 亚洲av永久无码精品一区二区| 国产精品亚洲一区二区杨幂| 国产成人精品一区二区日出白浆| 96中文字幕一区二区| 岳丰满多毛的大隂户| 免费看黄a级毛片| 免费人成黄页在线观看视频国产| 国产亚洲一区二区三区成人| 亚洲中文字幕剧情类别| 精品日韩亚洲av无码| 亚洲av综合av国产av| 亚洲av日韩av一卡二卡| 国产诱惑人的视频在线观看| 亚洲女人毛茸茸粉红大阴户传播| 精品偷拍被偷拍在线观看| 欧洲成人午夜精品无码区久久| 黑人巨大精品欧美在线观看| 美女一区二区三区在线观看视频 | 亚洲老妈激情一区二区三区| 久久国产成人午夜av影院| 老汉tv永久视频福利在线观看| 日韩精品不卡一区二区三区| 男女18视频免费网站| 国产精品一区二区无线| 97无码人妻Va一区二区三区| 国产一区二区精品av| 精品国产一区二区三区av| 免费无码中文字幕a级毛片| 国产极品久久久久极品| 国产成人美女AV| 亚洲女同精品一区二区久久| 国产又猛又黄又爽| 国产高潮刺激叫喊视频| 亚洲欧美变态另类综合| 91精品国产91综合久久蜜臀| 色avav色av爱avav亚洲色拍|