姜美
(廣州市輕工技師學(xué)院廣州市輕工高級技工學(xué)校,廣東 廣州 510642)
基于隱私保護(hù)的數(shù)據(jù)挖掘綜述
姜美
(廣州市輕工技師學(xué)院廣州市輕工高級技工學(xué)校,廣東 廣州 510642)
無線網(wǎng)絡(luò)及云計(jì)算的普及對網(wǎng)絡(luò)中用戶的隱私構(gòu)成巨大的威脅,這凸顯了基于隱私保護(hù)的數(shù)據(jù)挖掘方法的重要性和迫切性。本文比較了幾種頗為典型的用于隱私保護(hù)的數(shù)據(jù)挖掘方法,并概述了國內(nèi)關(guān)于這些方法的研究動向,總結(jié)出關(guān)于隱私保護(hù)的數(shù)據(jù)挖掘方法所面臨的挑戰(zhàn)。
數(shù)據(jù)挖掘;隱私保護(hù);安全
隨著數(shù)據(jù)的爆炸式增長以及數(shù)據(jù)來源的共享性和分布式特點(diǎn),組織之間對合作式和互為有利的分析資料的需求正日益迫切,隨之而來的是對共享型數(shù)據(jù)的隱私破壞的憂慮,可能會對組織之間造成嚴(yán)重的法律和戰(zhàn)略后果[1]。隱私保護(hù)是數(shù)據(jù)挖掘和數(shù)據(jù)集成面對的一個重要問題[2]。本文探討幾類主要的隱私保護(hù)數(shù)據(jù)挖掘方法與技術(shù),在文章第二部分闡述與隱私保護(hù)數(shù)據(jù)挖掘的相關(guān)概念,詳細(xì)介紹各類隱私保護(hù)數(shù)據(jù)挖掘方法并予以比較,第三部分概述了當(dāng)前國內(nèi)關(guān)于隱私保護(hù)數(shù)據(jù)挖掘的現(xiàn)狀,第四部分說明隱私保護(hù)數(shù)據(jù)挖掘方法與技術(shù)的發(fā)展所遭遇的困境,最后對全文進(jìn)行總結(jié)并對隱私保護(hù)數(shù)據(jù)挖掘的研究趨勢作出展望。
在具體應(yīng)用中,隱私即為數(shù)據(jù)所有者不愿意被披露的敏感信息,包括敏感數(shù)據(jù)以及數(shù)據(jù)所表征的特性。通常我們所說的隱私都指敏感數(shù)據(jù),如個人的薪資、病人的患病記錄、公司的財(cái)務(wù)信息等[3]。數(shù)據(jù)挖掘是通過仔細(xì)分析大量數(shù)據(jù)來揭示有意義的新關(guān)系、趨勢和模式的過程,是數(shù)據(jù)庫研究中是一門交叉性學(xué)科,融合了數(shù)據(jù)庫技術(shù)、模式識別、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)等多個領(lǐng)域的理論和技術(shù)[5]。
隱私保護(hù)的數(shù)據(jù)挖掘方法按照基本策略主要可分為數(shù)據(jù)干擾[6-9]和查詢限制[10-13]兩大類。數(shù)據(jù)干擾策略就是首先通過數(shù)據(jù)變換、數(shù)據(jù)離散化和在數(shù)據(jù)中增加噪聲等方法對原始數(shù)據(jù)進(jìn)行干擾,然后再針對經(jīng)過干擾的數(shù)據(jù)進(jìn)行挖掘,得到所需的模式和規(guī)則;查詢限制則是通過數(shù)據(jù)隱藏、數(shù)據(jù)抽樣和數(shù)據(jù)劃分等方式,避免數(shù)據(jù)挖掘者擁有完整的原始數(shù)據(jù),而后再利用概率統(tǒng)計(jì)等方法得到所需的挖掘結(jié)果。
數(shù)據(jù)預(yù)處理法的主要思想是在數(shù)據(jù)預(yù)處理階段刪除數(shù)據(jù)中最敏感的某些字段,如姓名和證件號碼等,或在數(shù)據(jù)集中隨機(jī)添加、修改和轉(zhuǎn)換某些字段的數(shù)據(jù),這些數(shù)據(jù)能起到干擾作用,從而避免隱私泄露。
關(guān)聯(lián)規(guī)則是尋找在同一事件中出現(xiàn)的不同項(xiàng)目的相關(guān)性,關(guān)聯(lián)分析是挖掘關(guān)聯(lián)規(guī)則的過程。一個關(guān)聯(lián)規(guī)則是形如X?Y的蘊(yùn)涵式,這里X?I,Y?I,并且X?Y=?[14]。
決策樹是利用樹的結(jié)構(gòu)分類數(shù)據(jù)記錄,樹的葉結(jié)點(diǎn)就代表某個條件下的記錄集,根據(jù)記錄文段的不同取值建立樹的分支;在每個分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,便可生成一棵決策樹[15]。隱私保護(hù)的決策樹挖掘研究主要還是針對傳統(tǒng)決策樹進(jìn)行的,大都選用ID3類算法作為原型算法。
Samarati P和Sweeney在1998年提出K-匿名技術(shù),要求公布后的數(shù)據(jù)中存在一定數(shù)量不可區(qū)分的個體,使得攻擊者不能判別出隱私信息所屬的具體個體,從而防止泄露個人隱私[16]。使用K-匿名技術(shù)需要處理數(shù)據(jù)中的顯示標(biāo)識符和非顯示標(biāo)識符。
貝葉斯定理是由英國數(shù)學(xué)家Tomas Bayes提出的,它是一種把先驗(yàn)知識與樣本中得到的新信息相結(jié)合的統(tǒng)計(jì)方法,在分類中得到了比較廣泛的應(yīng)用。樸素貝葉斯分類器表示為:
其中,p(X)是常數(shù),先驗(yàn)概率p(Y)可以通過訓(xùn)練集中每類樣本所占的比例進(jìn)行估計(jì)。給定Y=y,如果要估計(jì)測試樣本X的分類,由樸素貝葉斯分類器得到y(tǒng)類的后驗(yàn)概率。
聚類是把對象或樣本的集合分組成為多個簇的過程,使同一個組中具有較高的相似度的對象,而不同類的對象差別較大。聚類算法能有效處理噪聲數(shù)據(jù)、異常數(shù)據(jù)和高維數(shù)據(jù),產(chǎn)生滿足指定約束的聚類結(jié)果,通過增加噪聲可對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)干擾來保護(hù)隱私數(shù)據(jù)。隱私保護(hù)的數(shù)據(jù)挖掘方法比較如表1所示。
表1 隱私保護(hù)的數(shù)據(jù)挖掘方法比較
周水庚等歸納總結(jié)出當(dāng)前國內(nèi)的隱私保護(hù)研究方向?yàn)椋和ㄓ玫碾[私保護(hù)技術(shù),如Perturbation[18],Swapping[19],Encryption[20];面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù):如Association Rule Mining[21-23],Classification[24,25],Clustering[26];基于隱私保護(hù)的數(shù)據(jù)發(fā)布原則:如k-anonymity[27,28],l-diversity、t-Closeness[29];隱私保護(hù)算法:如Anonymized Publication[30-33],Anonymization with High Utility[34]。
關(guān)于數(shù)據(jù)預(yù)處理的研究,國內(nèi)的學(xué)者主要從數(shù)據(jù)預(yù)處理的應(yīng)用及算法研究兩個方向。劉亮等在Apriori算法的基礎(chǔ)上提出基于數(shù)據(jù)項(xiàng)閑包的、為保密數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)預(yù)處理的全新方法,有效地解決數(shù)據(jù)提供方不完全信任挖掘請求方,通過提供經(jīng)變換過的數(shù)據(jù)庫給對方挖掘來獲得利益,以及明確對方在挖掘過程中使用的是類Apriori算法的問題[35]。劉明吉等綜合分析了數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理的基本功能包括數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)變換和數(shù)據(jù)簡化;預(yù)處理的主要方法包括了基于粗糙集(RS)理論的約簡方法、基于概念樹的數(shù)據(jù)濃縮方法、信息論思想和普化知識發(fā)現(xiàn)、基于統(tǒng)計(jì)分析的屬性選取方法和遺傳算法。周傲英等詳細(xì)說明了數(shù)據(jù)預(yù)處理的原理,比如在傳統(tǒng)數(shù)據(jù)管理領(lǐng)域,數(shù)據(jù)預(yù)處理是針對不精確的數(shù)據(jù)進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換,從而提升數(shù)據(jù)質(zhì)量,最終能夠被確定性管理技術(shù)所處理;而在隱私保護(hù)領(lǐng)域,數(shù)據(jù)預(yù)處理是將準(zhǔn)確數(shù)據(jù)(或者高精度數(shù)據(jù))轉(zhuǎn)化為不精確的數(shù)據(jù)[37]。
關(guān)聯(lián)規(guī)則方面,李專等則基于分析經(jīng)典關(guān)聯(lián)規(guī)則挖掘及相關(guān)的隱私保護(hù)等問題,開展多關(guān)聯(lián)規(guī)則的刻畫和挖掘問題的研究工作,并通過改進(jìn)查詢模式的定義移植Apriori特性到多關(guān)系關(guān)聯(lián)規(guī)則中,實(shí)現(xiàn)規(guī)則的挖掘的加速處理。為了平衡數(shù)據(jù)可用性和安全性之間的矛盾,文中闡述了如何隱藏敏感規(guī)則中公共關(guān)系的元組,以降低對數(shù)據(jù)可用性的影響[38]。張鵬等結(jié)合數(shù)據(jù)干擾和查詢限制這兩種隱私保護(hù)的基本策略,提出一種嶄新的數(shù)據(jù)隨機(jī)處理方法,從隱私性、準(zhǔn)確性、高效性和適用性這四方面對RRPH方法進(jìn)行驗(yàn)證評價,并最終獲得了良好的實(shí)驗(yàn)效果[39]。決策樹方面,決策樹方法在數(shù)據(jù)的隱私保護(hù)方面主要將需要加密或需模糊化的數(shù)據(jù)進(jìn)行分類,對非同類別的數(shù)據(jù)進(jìn)行干擾或限制的處理,從而達(dá)到隱私保護(hù)的目的。因此,關(guān)于決策樹的研究主要從算法及應(yīng)用兩個研究方向展開。唐華松等深入探討數(shù)據(jù)挖掘中的決策樹算法,通過利用熵和加權(quán)和的思想解決決策樹分支取值難的問題,并通過實(shí)驗(yàn)表明利用該算法可提高決策樹的生長速度,優(yōu)化決策樹的結(jié)構(gòu),發(fā)掘較好的規(guī)則信息[40]。劉小虎等以ID3為基礎(chǔ)提出改進(jìn)的決策樹的優(yōu)化算法,考慮了一個屬性和該屬性后續(xù)選擇的屬性所帶來的信息增益[42]。
楊曉春等針對單一約束K-匿名化方法在處理多約束情況時容易導(dǎo)致大量信息損失的問題提出多約束K-匿名化方法Classfly+及相應(yīng)的3種算法,包括樸素算法、完全I(xiàn)ndepCSet算法和IndepCSet的Classfly+算法,最終實(shí)驗(yàn)結(jié)果顯示Classfly+能很好地降低多約束K-匿名化的信息損失,改善匿名化處理的效率[44]。黃毅等針對基于中心服務(wù)器的位置K-匿名方法使得中心服務(wù)器成為性能瓶頸,亦容易造成查詢處理過程的復(fù)雜化和犧牲用戶的服務(wù)質(zhì)量等問題,提出一種用戶協(xié)作無匿名區(qū)域的隱私保護(hù)方法,能夠在不使用匿名區(qū)域的情況下達(dá)到K-匿名的效果,還提高匿名系統(tǒng)的整體性能和簡化服務(wù)提供商的查詢處理過程[45]。韓建民等從顯示標(biāo)識符、敏感屬性和非敏感屬性方面對K-匿名化方法中的微聚集算法進(jìn)行分類分析,并介紹不同類型的數(shù)據(jù)的度量方法以及微聚集算法的基本步驟[46]。
樸素貝葉斯分類器方面,李靜梅等基于特征獨(dú)立性假設(shè),利用EM(期望值最大)算法,加強(qiáng)樸素貝葉斯分類器的應(yīng)用,并提高其分類精度[47]。徐光美等構(gòu)建了一種新的樸素貝葉斯分類公式,并實(shí)現(xiàn)了一種基于關(guān)系數(shù)據(jù)庫技術(shù)的新的多關(guān)系樸素貝葉斯分類器(nMRNBC)。利用新的頻率計(jì)數(shù)方法和新的多關(guān)系樸素貝葉斯分類公式很大程度上消除了統(tǒng)計(jì)偏斜問題,使得分類器在不增加時間復(fù)雜度前提下,找到與分類屬性最相關(guān)的屬性,從而獲得較高的分類準(zhǔn)確率[48,49]。李旭升等提出了擴(kuò)展樹增強(qiáng)樸素貝葉斯分類器,打破對連續(xù)變量進(jìn)行預(yù)離散化的限制,在增強(qiáng)樸素貝葉斯分類器處理混合變量的情況,提高分類精度[50]。范敏等使用貝葉斯網(wǎng)絡(luò)方法構(gòu)造貝葉斯網(wǎng)絡(luò)分類器,并將層次樸素貝葉斯分類器的學(xué)習(xí)算法應(yīng)用到水質(zhì)評價和預(yù)警的模型中,獲得了較好的適用效果[51]。張陽等采用多元伯里利樸素貝葉斯模型,從關(guān)聯(lián)特征入手來提高分類器的性能[52]。眭俊明等為了放松屬性獨(dú)立性的約束,提高樸素貝葉斯分類器的泛化能力,提出了基于頻繁項(xiàng)集挖掘技術(shù)的貝葉斯分類學(xué)習(xí)算法FISC并印證了其有效性[53]。
聚類算法方面,孫吉貴等從算法思想、關(guān)鍵技術(shù)和優(yōu)缺點(diǎn)等方面對近年來較有代表性的聚類算法進(jìn)行分析和概括,并從正確率和運(yùn)行效率兩方面對一些典型的聚類算法進(jìn)行模擬實(shí)驗(yàn),在通過對同一種聚類算法、不同的數(shù)據(jù)集和同一個數(shù)據(jù)集、不同的聚類算法的聚類情況進(jìn)行對比后歸納出聚類分析的研究熱點(diǎn)[54]。張敏等從改變度量方式、改變約束條件、在目標(biāo)函數(shù)中引入熵以及考慮對聚類中心進(jìn)行約束等幾方面對在C-均值算法的基礎(chǔ)上得到的基于劃分的模糊聚類算法做了綜述和評價,并指出模糊聚類算法被廣泛應(yīng)用的原因主要是它對數(shù)據(jù)的比例變化具有魯棒性[56]。馬帥等提出一種基于參考點(diǎn)和密度的快速聚類算法(CURD),基于參考點(diǎn)對數(shù)據(jù)進(jìn)行分析處理,適用于對大規(guī)模數(shù)據(jù)進(jìn)行挖掘[57]。卜東波等從信息粒度的角度對聚類和分類技術(shù)進(jìn)行分析,并提出一種基于信息粒度原理的分類算法,利于消除分類先驗(yàn)知識和特征選取之間的不協(xié)調(diào)性[58]。楊博等對網(wǎng)絡(luò)簇結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)聚類方法進(jìn)行了綜述,詳細(xì)分析了其拓?fù)浣Y(jié)構(gòu)、功能、隱含模式等,并介紹其在社會網(wǎng)、生物網(wǎng)和萬維網(wǎng)中的廣泛應(yīng)用[59]。朱蔚恒等針對數(shù)據(jù)流聚類算法CluStream的不足提出了一種采用空間分割和按密度聚類的算法ACluS-tream,并驗(yàn)證了該方法無論在準(zhǔn)確度還是速度上都優(yōu)于CluStream[60]。
(1) 無線系統(tǒng)中的隱私泄漏。使用無線設(shè)備進(jìn)行網(wǎng)上交易可能會泄漏用戶的隱私,包括位置信息、賬號、密碼等。更有甚者無須采集用戶的交易信息亦能夠獲取他人的IP地址,進(jìn)而從事一些竊取他人隱私的非法活動。
(2) 移動設(shè)備與應(yīng)用安全。目前大多數(shù)用戶接觸無線網(wǎng)絡(luò)使用的都是移動設(shè)備,主要應(yīng)用平臺分別是Android和IOS。以Android市場為例,《Unsafe exposure analysis of mobile in app advertisements》對Android市場的應(yīng)用程序中的廣告插件進(jìn)行了采集和分析,通過對10萬個不同應(yīng)用程序的分析,文章總結(jié)出了51個有代表性的廣告插件軟件,并且設(shè)計(jì)AdsRisk程序?qū)Σ煌膹V告軟件進(jìn)行風(fēng)險分析。結(jié)果表明,大部分軟件庫都有搜索用戶隱私數(shù)據(jù)的行為,少量只搜集用戶的定位信息等相對不敏感的數(shù)據(jù),而較多廣告插件會搜集用戶的電話記錄、通信錄、安裝軟件類表等敏感的信息。
雖然身份保護(hù)方法[61]和位置信息保護(hù)方法都能夠提供位置信息的隱私保護(hù)功能,但在移動環(huán)境中,移動用戶之間的交互所產(chǎn)生的隱私泄漏問題目前尚未能得以有效解決。
目前,隱私保護(hù)技術(shù)主要是基于靜態(tài)數(shù)據(jù)而發(fā)展的,然而現(xiàn)實(shí)生活中,數(shù)據(jù)庫中的數(shù)據(jù)隨時都有可能發(fā)生變化,包括新數(shù)據(jù)的添加、舊數(shù)據(jù)的刪除等。而且數(shù)據(jù)庫中的數(shù)據(jù)記錄一般都不可能是完全隨機(jī)、獨(dú)立的,數(shù)據(jù)與數(shù)據(jù)之間、數(shù)據(jù)與數(shù)據(jù)變化之間都是相互關(guān)聯(lián)和影響的[3]。采取何種方法能夠保證數(shù)據(jù)庫可以進(jìn)行有效的更新,最好不需要在每次更新數(shù)據(jù)時都重新加密數(shù)據(jù)庫或更新整個認(rèn)證結(jié)構(gòu)是迫切需要解決的難題[63]。
在云平臺中運(yùn)行的各類云應(yīng)用無固定不變的基礎(chǔ)設(shè)施和固定不變的安全邊界,難以實(shí)現(xiàn)用戶數(shù)據(jù)安全以及隱私保護(hù);云服務(wù)所涉及的資源由多個管理者所有,無法統(tǒng)一規(guī)劃部署安全防護(hù)措施;云平臺中數(shù)據(jù)與計(jì)算高度集中,安全措施必須滿足海量信息處理需求這一大前提[64]。
本文首先簡要介紹了基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)的相關(guān)概念,其次著重介紹了幾種典型的數(shù)據(jù)挖掘技術(shù),并對其進(jìn)行了對比,再通過對國內(nèi)的相關(guān)技術(shù)進(jìn)行綜述,最后討論了基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)所面臨的挑戰(zhàn)。隨著IT的發(fā)展尤其是WLAN與云計(jì)算的發(fā)展,數(shù)據(jù)、信息、軟件等資源能夠更快速和便捷地實(shí)現(xiàn)共享,但與此同時隱私保護(hù)面臨的威脅也日益加大,因此對于隱私保護(hù)技術(shù)的研究將愈發(fā)迫切和重要。
[1]Shibnath Mukherjee,Madhushri Banerjee,Zhiyuan Chen,Aryya Gangopadhyay.A privacy preserving technique for distance-based classification with worst case privacy guarantees[J].Data&Knowledge Engineering,2008(66):264-288.
[2]Goldman K,Valdez E.Matchbox:secure data sharing[J].IEEE Internet Computing,2004,8(6):18-24.
[3]周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫應(yīng)用的隱私保護(hù)研究綜述[J].計(jì)算機(jī)學(xué)報,2009,32(5):847-861.
[4]王光,蔣平.?dāng)?shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報.2004,32(2):246-252.
[5]Rizvi SJ,Haritsa JR.Maintaining data privacy in association rule mining.In:Bernstein PA,Ioannidis YE,Ramakrishnan R,Papadias D,eds.Proc.of the 28th Int’1 Conf.on Very Large Data Bases.Hong Kong:Morgan Kaufmann Publishers,2002:682-693.
[6]Agrawal S,Krishnan V,Harista JR.On addressing efficiency concerns in privacy-preserving mining.In:Lee YJ,Li JZ,Whang KY,Lee D,eds.Proc.Of the 9th Int’l Conf.on Database Systems for Advanced Applications.LNCS 2973,Jeju Island:Springer-Verlag,2004:113-124.
[7]Evfimievski.A Randomization in privacy preserving data mining.SIGKDD Explorations,2002,4(2):43-48.
[8]Evfimievski A,Srikant R,Agrawal R,Gehrke J.Privacy preserving mining of association rules.In:Hand D,Keim D,Ng R,eds.Proc.of the 8th ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining.Edmonton:ACM Press,2002:217-228.
[9]Saygin Y,Verykios VS,Clifton C.Using unknowns to prevent discovery of association rules.ACM SIGMOD Record,2001,30(4):45-54.
[10]Olivera SRM,Zaiane OR.Privacy preserving frequent itemset mining.In:Clifton C,EstivillCastro V,eds.Proc.of the IEEE Int’l Conf.on Data Mining Workshop on Privacy,Security and Data Mining.Macbashi:IEEE Computer Society,2002:43-54.
[11]Kantarcioglu M,Clifton C.Privacy-Preserving distributed mining of association rules on horizontally partitioned data. IEEE Trans. on Knowledge and Data Engineering,2004,16(9):1026-1037.
[12]Vaidya J,Clifton C.Privacy preserving association rule mining in vertically partitioned data.In:Hand D,Keim D,Ng R,eds.Proc.of the 8th ACM SIGKDD Int’l Conf.on Knowledge Discovery and Data Mining.Edmonton:ACM Press,2002.639-644.
[13]Clifton C,Kantarcioglu M,Vaidya J,Lin X,Zhu MY.Tools for privacy preserving distributed data mining.SIGKDD Explorations,2002,4(2):28-34.
[14]蔡偉杰,張曉輝,朱建秋,等.關(guān)聯(lián)規(guī)則挖掘綜述[J].計(jì)算機(jī)工程,2001,27(5):31-49.
[15]唐華松,姚耀文.?dāng)?shù)據(jù)挖掘中決策樹算法的探討[J].計(jì)算機(jī)應(yīng)用研究,2001(8):18-22.
[16]Samarati P.Protecting respondents’identities in microdata release.[C]//Proc of the TKDE’01,2001:1010-1027;Samarati P,Sweeney L.Generalizing data to provide anonymity when disclosing information(Abstract)[C]//Proc of the 17th ACMSIGMODSIGACT-SIGART Symposium on the Principles of Database Systems,Seattle,WA,USA,1998:188.
[17]賀玲,吳玲達(dá),蔡益朝.?dāng)?shù)據(jù)挖掘中的聚類算法綜述[J].計(jì)算機(jī)應(yīng)用研究,2007(1):10-13.
[18]Adam N,Wortmann J C.Security-control methods for statistical databases:A comparison study.ACM Computing Surveys,1989,21(4):515-556.
[19]Fienberg S E,McIntyre J.Data swapping:Variations on a theme by Dalenius and Reiss//Proceedings of the Privacy in Statistical Databases(PSD).Barcelona,Spain,2004:14-29.
[20]Pinkas B.Cryptographic techniques for privacy preserving data mining.ACM SIGKDD Explorations,2002,4(2):12-19.
[21]Evfimievski A,Srikant R,Agrawal A,Gehrke J.Privacy preserving mining of association rules//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD).Madison,Wisconsin,2002:217-228.
[22]Vaidya J S,Clifton C.Privacy preserving association rule mining in vertically partitioned data//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD).Edmonton,Alberta,Canada,2002:639-644.
[23]Kantarcioglu M,Clifton C.Privacy-preserving distributed mining of association rules on horizontally partitioned data.IEEE Transactions on Knowledge and Data Engineering,2004,16(9):1026-1037.
[24]Wang K,Yu P S,Chakraborty S.Bottom-up generalization:A data mining solution to privacy protection//Proceedings of the IEEE International Conference on Data Mining(ICDM).Brighton,UK,2004:249-256.
[25]Fung B C M,Wang K,Yu P S.Top-down specialization for information and privacy preservation//Proceedings of the 21st International Conference on Data Engineering(ICDE).Tokyo,Japan,2005:205-216.
[26]Vaidya J,Clifton C.Privacy preserving K-means clustering over vertically partitioned data//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD).Washington,DC,USA,2003:206-215.
[27]Sweeney L.k-anonymity:A model for protecting privacy.International Journal on Uncertainty,F(xiàn)uzziness and Knowledge Based Systems,2002,10(5):557-570.
[28]Sweeney L.Achieving k-anonymity privacy protection using generalization and suppression.International Journal on Uncertainty,F(xiàn)uzziness and Knowledge-Based Systems,2002,10(5):571-588.
[29]Li N,Li T.t-closeness:Privacy beyond k-anonymity and l-diversity//Proceedings of the 23rd International Conference on Data Engineering(ICDE).Istanbul,Turkey,2007:106-115.
[30]Aggarwal C C.On k-anonymity and the curse of dimensionality//Proceedings of the 31st Very Large Data Bases(VLDB)Conference,Trondheim,Norway,2005:901-909.
[31]Meyerson A,Williams R.On the complexity of optimal k-anonymity//Proceedings of the Symposium on Principles of Database Systems(PODS).Paris,F(xiàn)rance,2004:223-228.
[32]LeFevre K,DeWitt D J,Ramakrishnan R.Mondrian multidimensional k-anonymity//Proceedings of the 22nd International Conference on Data Engineering(ICDE).Atlanta,Georgia,USA,2006:25-35.
[33]LeFevre K,DeWitt D J,Ramakrishnan R.Incognito:Efficient full domain k-anonymity//Proceedings of the ACM SIGMOD Conference on Management of Data(SIGMOD).Baltimore,Maryland,2005:49-60.
[34]Kifer D,Gehrke J.Injecting utility into anonymized datasets//Proceedings of the ACM SIGMOD Conference on Management of Data(SIGMOD).Atlanta,Georgia,USA,2006:217-228.
[35]劉亮,謝舒婷,李順東.一種為保密挖掘預(yù)處理數(shù)據(jù)的新方法[J].計(jì)算機(jī)科學(xué).2011,38(7):165-169.
[36]劉明吉,王秀峰,黃亞樓.?dāng)?shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)科學(xué).2000,27(4):54-57.
[37]周傲英,金澈清,王國任,等.不確定性數(shù)據(jù)管理技術(shù)研究綜述[J].計(jì)算機(jī)學(xué)報,2009,32(1):1-16.
[38]李專,王元珍.多關(guān)系關(guān)聯(lián)規(guī)則挖掘中的隱私保護(hù)[J].華中科技大學(xué)學(xué)報.2005,35(11):41-43.
[39]張鵬,童云海,唐世渭,等.一種有效的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘方法[J].軟件學(xué)報,2006,17(8):1764-1774.
[40]唐華松,姚耀文.?dāng)?shù)據(jù)挖掘中決策樹算法的探討[J].計(jì)算機(jī)應(yīng)用研究,2001(8):18-22.
[41]韓慧,毛鋒,王文淵.?dāng)?shù)據(jù)挖掘中決策樹算法的最新進(jìn)展[J].2004(12):5-8.
[42]劉小虎,李生.決策樹的優(yōu)化算法[J]軟件學(xué)報,1998,9(10):797-800.
[43]肖勇,陳意云.用遺傳算法構(gòu)造決策樹[J].計(jì)算機(jī)研究與發(fā)展,1998,35(1):49-52.
[44]楊曉春,劉向宇,王斌,等.支持多約束的K-匿名化方法[J].軟件學(xué)報,2006,17(5):1222-1231.
[45]黃毅,霍崢,孟小峰.CoPrivacy:一種用戶協(xié)作無匿名區(qū)域的位置隱私保護(hù)方法[J].計(jì)算機(jī)學(xué)報.2011,34(10):1976-1985.
[46]韓建民,岑婷婷,虞慧群.?dāng)?shù)據(jù)表K-匿名化的微聚集算法研究[J].電子學(xué)報,2008,36(10):2021-2029.
[47]李靜梅,孫麗華,張巧榮,等.一種文本處理中的樸素貝葉斯分類器[J].哈爾濱工程大學(xué)學(xué)報.2003,24(1):71-74.
[48]徐光美,楊炳儒,秦奕青.一種新的多關(guān)系樸素貝葉斯分類器[J].系統(tǒng)工程與電子技術(shù),2008,30(4):655-657.
[49]徐光美,楊炳儒,秦奕青,等.基于互信息的多關(guān)系樸素貝葉斯分類器.[J]北京科技大學(xué)學(xué)報,2008,30(8):964-966.
[50]李旭升,郭耀煌.?dāng)U展的樹增強(qiáng)樸素貝葉斯分類器[J].模式識別與人工智能,2006,19(4):469-474.
[51]范敏,石為人.層次樸素貝葉斯分類器構(gòu)造算法及應(yīng)用研究[J].儀器儀表學(xué)報,2010,31(4):776-781.
[52]張陽,張利軍,閆劍鋒,等.基于關(guān)聯(lián)特征的樸素貝葉斯文本分類器[J].西北工業(yè)大學(xué)學(xué)報,2004,22(4):413-416.
[53]眭俊明,姜遠(yuǎn),周志華.基于頻繁項(xiàng)集挖掘的貝葉斯分類算法[J].計(jì)算機(jī)研究與發(fā)展,2007,44(8):1293-1300.
[54]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008,19(1):48-61.
[55]張莉,周偉達(dá),焦李成.核聚類算法[J].計(jì)算機(jī)學(xué)報,2002,25(6):587-590.
[56]張敏,于劍.基于劃分的模糊聚類算法[J].軟件學(xué)報,2004,15(6):858-868.
[57]馬帥,王騰蛟,唐世渭,等.一種基于參考點(diǎn)和密度的快速聚類算法[J].軟件學(xué)報,2003,14(6):1089-1095.
[58]卜東波,白碩,李國杰.聚類/分類中的粒度原理[J].計(jì)算機(jī)學(xué)報,2002,25(8):810-816. [59]楊博,劉大有,LIU Jiming,等.復(fù)雜網(wǎng)絡(luò)聚類方法[J].軟件學(xué)報,2009,20(1):54-66.
[60]朱蔚恒,印鑒,謝益煌.基于數(shù)據(jù)流的任意形狀聚類算法[J].軟件學(xué)報,2006,17(3):379-387.
[61]Baugh J P,JinHua G. Location Privacy in Mobile Computing Environments. In UIC. 2006:936-945.
[62]魏瓊,盧炎生.位置隱私保護(hù)技術(shù)研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2008,35(9):21-25.
[63]田秀霞,王曉玲,高明,等.?dāng)?shù)據(jù)庫服務(wù)——安全與隱私保護(hù)[J].軟件學(xué)報.2010,21(5):991-1006.
[64]馮登國,張敏,張妍,等.云計(jì)算安全研究[J].軟件學(xué)報.2011,22(1):71-83.
Survey of Data Mining Based on Privacy Preserving
Jiang Mei
(Guangzhou Light Industry Technician School,Guangzhou 510642,Guangdong)
Users’privacy is under threat with the popularity of WLAN and Cloud computing,which highlights the importance and urgency of the DM techniques used in privacy protection.In this paper,several typical DM technique used in privacy protection are compared,while new trends of these methods in domestic area are summarized.In the end,the challenges faced by DM techniques used in privacy protection are concluded.
data mining;privacy protection;security
TP311.13
A
1008-6609(2017)08-0031-05
姜美(1990-),女,廣東人,碩士,研究方向?yàn)閿?shù)據(jù)挖掘。