亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)規(guī)則隱藏算法綜述

        2016-12-22 21:38:16包耕張玲樂
        軟件導(dǎo)刊 2016年11期
        關(guān)鍵詞:隱私保護(hù)數(shù)據(jù)挖掘

        包耕張玲樂

        摘 要:近年來,數(shù)據(jù)挖掘備受青睞,它可以從大量數(shù)據(jù)集合中提取隱藏的知識(shí)。如何實(shí)現(xiàn)既找到數(shù)據(jù)中隱藏的知識(shí),又不透露其中的敏感信息尤為關(guān)鍵。隱私保護(hù)數(shù)據(jù)挖掘(PPDM)能夠?qū)崿F(xiàn)對(duì)敏感信息的保護(hù),關(guān)聯(lián)規(guī)則隱藏是PPDM技術(shù)中的一種,用來保護(hù)敏感性的關(guān)聯(lián)規(guī)則??偨Y(jié)了關(guān)于隱私保護(hù)的數(shù)據(jù)挖掘方法并指出了其優(yōu)缺點(diǎn),同時(shí)重點(diǎn)對(duì)關(guān)聯(lián)規(guī)則隱藏算法進(jìn)行了分析。

        關(guān)鍵詞關(guān)鍵詞:數(shù)據(jù)挖掘;隱私保護(hù);關(guān)聯(lián)規(guī)則隱藏

        DOIDOI:10.11907/rjdk.162016

        中圖分類號(hào):TP312

        文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2016)011004602

        0 引言

        隱私保護(hù)數(shù)據(jù)挖掘在數(shù)據(jù)挖掘領(lǐng)域是一個(gè)富有成效的研究課題。PPDM的目的是通過各種方法轉(zhuǎn)換現(xiàn)有的數(shù)據(jù)集,甚至在挖掘的過程中,一些數(shù)據(jù)在某種程度上的機(jī)密性依然保持不變。在數(shù)據(jù)挖掘中,用戶給出數(shù)據(jù)并免費(fèi)使用他們自己的工具。因此,數(shù)據(jù)挖掘之前的隱私保護(hù)要應(yīng)用在用戶自己的數(shù)據(jù)上。鑒于此,需要開發(fā)新的隱私保護(hù)控制系統(tǒng),也即將這些數(shù)據(jù)集轉(zhuǎn)換成一個(gè)新的數(shù)據(jù)集來保護(hù)原始數(shù)據(jù)。提出關(guān)聯(lián)規(guī)則隱藏算法的目標(biāo)是為了保護(hù)一些特別的數(shù)據(jù),使其在關(guān)聯(lián)規(guī)則隱藏算法的過程中不被發(fā)現(xiàn)。例如:政府想推出一些關(guān)于農(nóng)村地區(qū)發(fā)展的新計(jì)劃,農(nóng)村部門有關(guān)于農(nóng)民和勞動(dòng)的數(shù)據(jù)庫(kù),他們想通過第三方分析這些數(shù)據(jù),但是不能揭示農(nóng)村勞動(dòng)者的個(gè)人信息;又如:商店想要了解消費(fèi)者的購(gòu)物行為,該例中消費(fèi)者的數(shù)據(jù)不是很重要,但是從數(shù)據(jù)所分析出的結(jié)果需要得到保護(hù)。

        數(shù)據(jù)挖掘是一種從海量信息中挖掘出有用信息的技術(shù)。在當(dāng)前社會(huì),共享和發(fā)布信息已經(jīng)成為常見現(xiàn)象。然而,數(shù)據(jù)的搜集和分析會(huì)暴露個(gè)人隱私。目前,隱私保護(hù)數(shù)據(jù)挖掘已經(jīng)引起了廣泛關(guān)注,許多關(guān)于隱私保護(hù)的技術(shù)因此被提出。本文將討論不同的隱私保護(hù)技術(shù)及它們的優(yōu)缺點(diǎn),并重點(diǎn)討論關(guān)聯(lián)規(guī)則挖掘算法。

        數(shù)據(jù)挖掘可以在很短時(shí)間內(nèi)分析大量的信息,智能算法將一些敏感性和機(jī)密性的數(shù)據(jù)存儲(chǔ)在大量分支數(shù)據(jù)中。各種各樣的挖掘技術(shù)中也許包含很多關(guān)于個(gè)人和組織的敏感性信息。關(guān)聯(lián)規(guī)則挖掘就是從給出的數(shù)據(jù)中發(fā)現(xiàn)一些能夠滿足預(yù)先定義好的最低值和機(jī)密度的關(guān)聯(lián)規(guī)則。該問題通常被分解為兩個(gè)子問題:一是找出該項(xiàng)目中誰(shuí)的發(fā)生超出了預(yù)先定義的臨界值,這些被稱為頻繁大項(xiàng)集;二是從這些大項(xiàng)集中產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則隱藏是指修改原始數(shù)據(jù)的過程,在該過程中,一些確定的敏感性關(guān)聯(lián)規(guī)則消失,但是并不影響數(shù)據(jù)和一些不敏感規(guī)則。

        通過轉(zhuǎn)換將一些敏感性的數(shù)據(jù)隱藏起來的過程叫做數(shù)據(jù)清洗過程。為了進(jìn)行轉(zhuǎn)換,一個(gè)小數(shù)量的交易需要通過刪除一個(gè)或多個(gè)項(xiàng)目而發(fā)生改變,或者一些交易是通過將錯(cuò)的改為對(duì)的來添加噪聲數(shù)據(jù)集,發(fā)布的數(shù)據(jù)庫(kù)稱為清潔數(shù)據(jù)庫(kù)。同時(shí),該方法也稍微修改了一些數(shù)據(jù),但是在實(shí)際應(yīng)用中非常容易被接受。

        1 關(guān)聯(lián)規(guī)則隱藏算法相關(guān)技術(shù)

        關(guān)聯(lián)規(guī)則隱藏算法阻止敏感性規(guī)則被公開。其主要問題歸納如下:給定一個(gè)事務(wù)數(shù)據(jù)庫(kù)X用最小機(jī)密度、最小支持度,以及一系列從數(shù)據(jù)庫(kù)X中挖掘出來的規(guī)則。一個(gè)R的子集RH為敏感性關(guān)聯(lián)規(guī)則,該子集不能被公開。關(guān)聯(lián)關(guān)系隱藏的目的是將X轉(zhuǎn)換為X′,通過這些方法任何人將不會(huì)挖掘出屬于RH的規(guī)則,而且屬于R的不敏感規(guī)則也不會(huì)受到影響。

        1.1 啟發(fā)式技術(shù)

        啟發(fā)式技術(shù)解決如何確定合適的數(shù)據(jù)集對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。啟發(fā)式技術(shù)的轉(zhuǎn)變方法既包括擾動(dòng)項(xiàng),通過改變其屬性值完成(例如改變屬性值由1到0),還包括阻塞項(xiàng),用“?”改變現(xiàn)存的屬性值。

        1.1.1 基于擾動(dòng)的方法

        基于數(shù)據(jù)擾動(dòng)提出對(duì)數(shù)據(jù)的啟發(fā)式修改,它將一個(gè)被選擇的屬性值由1改為0,因此敏感規(guī)則的支持度將會(huì)減少,發(fā)布數(shù)據(jù)的效應(yīng)將會(huì)達(dá)到最大。其關(guān)鍵的一步是借助于啟發(fā)式的思想如何將X變?yōu)閄,。

        Agrawal and Srikant使用數(shù)據(jù)擾動(dòng)技術(shù)來改變數(shù)據(jù),這樣可以根據(jù)原始數(shù)據(jù)的相似值獲得改變過的數(shù)據(jù)版本,同樣挖掘規(guī)則也相應(yīng)地改變?yōu)橄嗨频耐诰蛞?guī)則。這個(gè)重建的分布用來構(gòu)造一個(gè)新的模型。

        本文提出了5種算法,所有這些算法都是基于擾動(dòng)技術(shù),其中3種是隱藏一些關(guān)聯(lián)規(guī)則,剩下的兩種是隱藏大項(xiàng)集。這5種算法都用到了參數(shù),具有有效性。由于首先要根據(jù)它們的種類隱藏關(guān)聯(lián)規(guī)則,因而副作用也很明顯。

        文獻(xiàn)[1]力求在隱私數(shù)據(jù)和公開數(shù)據(jù)中達(dá)到平衡,即盡量減少關(guān)于消除事項(xiàng)的相互影響,并且盡量減少偶然和替代事項(xiàng)。其效應(yīng)是測(cè)量隱藏在修改過程中產(chǎn)生副作用的無(wú)敏感規(guī)則的數(shù)量。

        1.1.2 基于阻塞的方法

        通過用一個(gè)問號(hào)或者一個(gè)真值替代一個(gè)確定的數(shù)據(jù)來減少敏感規(guī)則的支持度和置信度,該方法已經(jīng)在實(shí)施。最小的支持度和最小的置信度相應(yīng)地改變成一個(gè)最小的支持區(qū)間和最小的置信區(qū)間。如果一個(gè)敏感規(guī)則的支持度和/或者置信度在該區(qū)間,則并不違反數(shù)據(jù)的機(jī)密性。

        Yucel Saygin使用一些分塊來擾動(dòng)關(guān)聯(lián)規(guī)則。當(dāng)一些原始數(shù)據(jù)的值被一些不知道的值替換之后,就難以界定敏感關(guān)聯(lián)規(guī)則的支持度和置信度。Yucel Saygin在其論文中通過一些例子,在關(guān)聯(lián)規(guī)則挖掘中使用不確定的符號(hào),也即用支持區(qū)間和置信區(qū)間來代替支持度和置信度。

        Xiao X[2]提出了一個(gè)新的個(gè)人匿名概念的概括性框架,該框架是為了確保普遍性來滿足每個(gè)人的要求。它提供了關(guān)于隱私保護(hù)不同大小的數(shù)據(jù)表的記錄。Liu Mingetal基于(I,k)匿名化模型提出了個(gè)人匿名模型。

        1.2 基于重建的關(guān)鍵規(guī)則

        最近提出的許多關(guān)于隱私保護(hù)的問題是通過在一個(gè)總體水平上來擾動(dòng)數(shù)據(jù)和重建分支,也即該算法先用在擾動(dòng)數(shù)據(jù)上,然后用在重建分支上。重建方法和數(shù)據(jù)類型不同,相應(yīng)的算法也不同。

        Agrawal用貝葉斯定義的算法進(jìn)行分支重建。Agrawal對(duì)于重建關(guān)聯(lián)規(guī)則提出了一個(gè)統(tǒng)一的隨機(jī)選擇的算法。本文在貝葉斯的基礎(chǔ)上作了改進(jìn),在(期望最大化)EM算法的幫助下進(jìn)行重建。

        1.2.1 數(shù)據(jù)重建方法

        另一個(gè)數(shù)據(jù)重組方法是將原始數(shù)據(jù)擱置一邊,開始于消除所謂的“知識(shí)數(shù)據(jù)”。新的被公開的數(shù)據(jù)由經(jīng)過消除的知識(shí)數(shù)據(jù)而重建。Chen首次提出了基于約束基礎(chǔ)的轉(zhuǎn)換項(xiàng)目,即Lattice Mining procedure (CIILM),用于隱藏經(jīng)常性的敏感項(xiàng)目,它們的數(shù)據(jù)重建是基于子項(xiàng)目集。另一個(gè)隱私保護(hù)方法是與逆頻繁項(xiàng)目集挖掘相關(guān)聯(lián),也即從給出的頻繁數(shù)據(jù)中推出原始數(shù)據(jù),這是由Mielikainen提出的。

        1.2.2 FP樹方法

        FP方法在文獻(xiàn)[3]中被提出,是基于重組技術(shù)的逆頻繁項(xiàng)目集挖掘。有3個(gè)步驟:①用頻繁項(xiàng)目挖掘算法產(chǎn)生從數(shù)據(jù)D形成的支持項(xiàng);②將消除算法超過頻繁項(xiàng)目從FS中得到FS,;③從FS中獲得公開數(shù)據(jù)D。

        1.3 基于密碼基礎(chǔ)的技術(shù)

        不同的組織希望交換它們的數(shù)據(jù),但是不能暴露其敏感信息。因此,在交換信息時(shí)使用一些保密規(guī)則。

        1.3.1 垂直分區(qū)的分布式數(shù)據(jù)

        該算法是根據(jù)“安全和”的概念而提出,安全和是指節(jié)點(diǎn)之間的安全計(jì)算,每個(gè)分項(xiàng)目的支持度之和將要被計(jì)算。

        文獻(xiàn)[4]討論了各種各樣的隱私保護(hù)的分解方法,包括安全和、安全聯(lián)合、交集的安全大小以及數(shù)積等。文獻(xiàn)[5]討論了如何使用分級(jí)點(diǎn)來計(jì)算頻繁項(xiàng)目,它使用線形的算法技術(shù)來計(jì)算兩個(gè)向量的分節(jié)點(diǎn)。

        1.3.2 水平分區(qū)的分布式數(shù)據(jù)

        衡量全局頻繁項(xiàng)集,確保不揭露網(wǎng)站信息,只找到在網(wǎng)站上支持度的安全值。支持度高過閾值就是全局頻繁項(xiàng)集。

        Shaofei Wu提出了一種算法來保持隱私保護(hù)和知識(shí)挖掘之間的平衡。該解決方法在挖掘階段后使用了一個(gè)過濾器來隱藏一些被發(fā)現(xiàn)的規(guī)則。在使用該算法之前,要建立數(shù)據(jù)結(jié)構(gòu)和敏感規(guī)則的有效模型。

        Chirag N. Modi提出相應(yīng)算法以阻止一些通過不安全的媒介來獲得隱私的方法。

        1.4 精確方法

        這些方法跟隨著隱藏進(jìn)程,作為一個(gè)約束滿意度問題已經(jīng)被二進(jìn)制整數(shù)程序設(shè)計(jì)(BIP)解決。它們給出了很好的解決方法,但遭受了從高時(shí)間復(fù)雜度到CSP。

        Gkoulalas and Verykios針對(duì)找到一個(gè)隱藏規(guī)則問題的最佳解決方法提出了相應(yīng)建議。該隱藏問題在盡量減少原始數(shù)據(jù)甚至是消除數(shù)據(jù)之間的距離。

        文獻(xiàn)[6]基于邊界值的方法,提出了解決隱藏敏感頻率項(xiàng)集問題的最佳方法。隱藏敏感頻率項(xiàng)是通過綜合擴(kuò)展原始數(shù)據(jù)集生成數(shù)據(jù)集。擴(kuò)展原始數(shù)據(jù)來隱藏?cái)?shù)據(jù)敏感項(xiàng)被證明是對(duì)于解決擴(kuò)展隱藏問題的最佳解決方法。

        2 關(guān)聯(lián)規(guī)則隱藏目的

        2.1 隱藏目的

        (1)如果預(yù)先定好了原始數(shù)據(jù)的支持度和置信度的閾值,則敏感性規(guī)則不能被挖掘出來,如果這些數(shù)據(jù)在同樣或更高的閾值內(nèi)被挖掘,那么它可以公布其轉(zhuǎn)換過的數(shù)據(jù)。這要求轉(zhuǎn)換過的數(shù)據(jù)不包含敏感性規(guī)則。

        (2)在給定的支持度和置信度內(nèi)如果能挖掘到原始數(shù)據(jù)不敏感的規(guī)則,那么對(duì)于轉(zhuǎn)換過的數(shù)據(jù)在同樣支持度和置信度或者更高的值內(nèi),也應(yīng)該被挖掘出。另一個(gè)要求是在轉(zhuǎn)換數(shù)據(jù)時(shí)不能丟失規(guī)則。

        (3)不能有錯(cuò)誤的規(guī)則,錯(cuò)誤的規(guī)則指原始數(shù)據(jù)中不存在的規(guī)則。

        2.2 挖據(jù)算法目標(biāo)

        隱私保護(hù)挖掘算法應(yīng)該做到:①個(gè)人敏感信息需要被維護(hù);②對(duì)于不敏感數(shù)據(jù)的使用不妥協(xié);③沒有一個(gè)指數(shù)計(jì)算的復(fù)雜性。

        2.3 關(guān)聯(lián)規(guī)則隱藏發(fā)展方向

        關(guān)聯(lián)規(guī)則隱藏有兩個(gè)主要方向:①在原始數(shù)據(jù)中隱藏一些特別的關(guān)聯(lián)規(guī)則;②從原始數(shù)據(jù)挖掘出一些頻繁項(xiàng),即隱藏這些特別的頻繁項(xiàng),即確保從敏感規(guī)則在公開的數(shù)據(jù)里變得無(wú)關(guān)緊要。

        3 結(jié)語(yǔ)

        在共享環(huán)境下,關(guān)聯(lián)規(guī)則隱藏用處極大。本文提出了一種分類的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘方法,并進(jìn)行了詳細(xì)分析?,F(xiàn)有方法僅提供了隱藏敏感知識(shí)的近似解,如何找到數(shù)據(jù)庫(kù)信息披露的精確解還有待進(jìn)一步研究。

        參考文獻(xiàn):

        [1] S R M OLIVEIRA,O R ZAIANE,Y SAYGIN.Secure association rule sharing, advances in knowledge discovery and data mining[C].Sydney:Proceedings of the 8th PacificAsia Conference(PAKDD2004),2004:7485.

        [2] S OLIVEIRA,O ZAIANE.Algorithms for balancing privacy and knowledge discovery in association rule mining[C].Hong Kong:Proceedings of 7th international database engineering and applications symposium (IDEAS03),2003.

        [3] YONGCHENG LUO,YAN ZHAO,JIAJIN LE.A Survey on the privacy preserving algorithm of association rule mining[C].International Society for EighteenthCentury Studies,2009:241245.

        [4] CHRIS CLIFTON,MURAT KANTARCIOGLOU,XIADONGLIN,et al.Tools for privacy preserving distributed data mining[J].SIGKDD Explorations,2002,4(2):17.

        [5] IOANNIDIS I,GRAMA A,ATALLAH M.A secure protocol for computing dotproducts in clustered and distributed environments[C].Proceedings of International Conference on Parallel Processing,2002:379384.

        [6] GKOULALAS DIVANIS,V S VERYKIOS.Exact knowledge hiding through database extension[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(5):699713.

        (責(zé)任編輯:孫 娟)

        猜你喜歡
        隱私保護(hù)數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于層次和節(jié)點(diǎn)功率控制的源位置隱私保護(hù)策略研究
        大數(shù)據(jù)環(huán)境下用戶信息隱私泄露成因分析和保護(hù)對(duì)策
        大數(shù)據(jù)安全與隱私保護(hù)的必要性及措施
        大數(shù)據(jù)時(shí)代中美保護(hù)個(gè)人隱私的對(duì)比研究
        新聞界(2016年15期)2016-12-20 09:47:10
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護(hù)研究綜述
        大數(shù)據(jù)時(shí)代的隱私保護(hù)關(guān)鍵技術(shù)研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        精品日韩在线观看视频| 精品熟女少妇av免费观看| 欧美亚洲日本国产综合在线美利坚| 久久精品国产www456c0m | 亚洲无码夜夜操| 亚洲综合av一区在线| 黄色av一区二区在线观看| 亚洲人午夜射精精品日韩| 日本免费人成视频播放| 一本一道久久a久久精品综合蜜桃| 大香蕉国产av一区二区三区| 亚洲男同gay在线观看| 帮老师解开蕾丝奶罩吸乳视频 | 国产亚洲精品综合在线网站| 久久久亚洲av午夜精品| 欧美老熟妇乱子| 国产99久久亚洲综合精品| 92精品国产自产在线观看48页| 初尝人妻少妇中文字幕在线| 色久悠悠婷婷综合在线| 亚洲一区二区三区小说| 大香伊蕉国产av| 久久99中文字幕久久| av中文字幕在线直播| 比较有韵味的熟妇无码| 午夜亚洲www湿好大| 丰满少妇高潮在线观看| 少妇下面好爽好紧好湿一区二区| 99精品人妻少妇一区二区| 国产女人精品视频国产灰线| 青青草视频在线观看视频免费| 一区二区三区日韩亚洲中文视频| 中文字幕亚洲无线码在线一区| 1000部夫妻午夜免费| 人妻少妇人人丰满视频网站| 蜜桃夜夜爽天天爽三区麻豆av| 7777色鬼xxxx欧美色妇| 欧美日韩人妻| 久久夜色精品亚洲天堂| 一边捏奶头一边高潮视频| 日日摸夜夜添无码无码av|