亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新的K均值挖掘的隱私保護算法

        2011-02-28 01:45:46王思勃白素平
        長春大學學報 2011年10期
        關鍵詞:原始數(shù)據(jù)噪音數(shù)據(jù)挖掘

        王思勃,白素平

        (長春理工大學 光電工程學院,長春 130012)

        0 引言

        近年來,人們對隱私問題以及數(shù)據(jù)挖掘應用越來越關注,于是很多研究人員開始研究隱私保護的數(shù)據(jù)挖掘技術,簡稱PPDM。PPDM技術被廣泛應用于醫(yī)療、商業(yè)、社會學等多種領域。前期的工作主要有兩類:數(shù)據(jù)修改和數(shù)據(jù)加密[1]。數(shù)據(jù)加密技術沒有數(shù)據(jù)修改技術應用的廣泛,因為它的計算和通信代價太高。隱私保護的數(shù)據(jù)挖掘有兩個目標:隱私和精度[2]。這兩個目標往往是一種平衡關系:隱私要求方面,在挖掘者挖掘數(shù)據(jù)之前,要對隱私數(shù)據(jù)進行足夠的干擾;精度要求方面,盡管隱私數(shù)據(jù)被干擾,蘊藏在隱私數(shù)據(jù)中的數(shù)據(jù)模式仍然可以被挖掘者挖掘出來。本文提出了一個新的噪音添加算法來干擾原始數(shù)據(jù),實驗表明,這個算法在同等條件下比其它的算法挖掘精度更高。

        1 背景介紹

        對于數(shù)據(jù)加密的隱私保護方法,主要實現(xiàn)分布式數(shù)據(jù)挖掘隱私保護方法。由于公鑰密碼機制保證了第三方對原始數(shù)據(jù)的不可見性以及數(shù)據(jù)的無損失性,能夠實現(xiàn)與原始挖掘相同精度的挖掘結果。但是與數(shù)據(jù)干擾方法相比,其計算和通信代價很昂貴。

        數(shù)據(jù)修改技術主要有:加法噪音,乘法噪音,矩陣乘法,數(shù)據(jù)交換和K匿名[3],本文著眼于加法噪音技術。對于加法噪音技術,2000年,Agrawal and Srikant公布了他們關于隱私保護數(shù)據(jù)挖掘的早期工作,他們提出了一個在客戶/服務器場景下,構建決策樹的加法干擾技術,通過重構原數(shù)據(jù)的數(shù)據(jù)分布得到與原數(shù)據(jù)相似的數(shù)據(jù),然后再挖掘重構數(shù)據(jù),缺點是重構比較麻煩。為了能夠直接通過挖掘干擾數(shù)據(jù),而不需要修改挖掘算法,就能得到很好的挖掘效果,劉麗[4]提出了一個門限法,計算每條數(shù)據(jù)記錄的概率值,通過門限將數(shù)據(jù)記錄進行分類,這樣就跳過了重構過程,減少了程序的計算。劉麗方法的缺點是合適的門限的選取比較困難,沒有規(guī)律,要依靠經驗,不同的數(shù)據(jù)集也不同。

        2 RD算法

        以前的加法噪音算法都是要對干擾后的數(shù)據(jù)進行處理,然后再進行挖掘。本文提出的RD(random distance)算法是在數(shù)據(jù)干擾之前,對原始數(shù)據(jù)進行一次K均值的預挖掘,根據(jù)挖掘后的結果再進行干擾,而數(shù)據(jù)分析者只需要直接對干擾后的數(shù)據(jù)進行挖掘,就能夠得到與挖掘原數(shù)據(jù)相似的結果.RD算法中,數(shù)據(jù)提供者使用下面公式替代原始數(shù)據(jù)X:

        其中,R是獨立同分布的噪音數(shù)據(jù)。

        我們假設D是原始數(shù)據(jù)集,C(C1,C2...Ck)是使用k均值聚類算法挖掘原始數(shù)據(jù)的聚類結果。我們的目的就是要把D修改成D',當數(shù)據(jù)分析者挖掘D'時,得到一個新的聚類結果,這個聚類結果與C具有較高的相似度,從而保證了挖掘精度。如圖1所示。

        圖1 RD算法示意圖

        在RD算法中,首先遍歷數(shù)據(jù)集中的所有記錄,在使用K均值聚類之后,每一條記錄都將會被歸類,此時,數(shù)據(jù)提供者對記錄添加噪音數(shù)據(jù)。為了保證干擾后的數(shù)據(jù)模式保持不變,RD算法盡可能得去保證每條記錄在干擾前后類別不變,方法是在添加噪音數(shù)據(jù)后,調整聚類中心和干擾后記錄點之間的距離,使得數(shù)據(jù)干擾前后始終在此類別域內,如圖1所示,Ci是聚類中心,R is記錄點.噪音數(shù)據(jù)RxandRy被添加到屬性X和Y中,然后回得到點P(X+Rx,Y+Ry).此時,有三種情況需要考慮,P分別在Din(i),D(i)和out(i)域內:

        在計算Ci和P'之間的距離之后,就能計算出將要發(fā)布給數(shù)據(jù)分析者的數(shù)據(jù)點P'的坐標。RD算法偽代碼

        3 實驗結果

        本文實驗中,數(shù)據(jù)挖掘工具使用的是WEKA工具,噪音數(shù)據(jù)的生成使用的是Matlab 7.0實現(xiàn)的,使用的數(shù)據(jù)集來源于真實的數(shù)據(jù)集Iris,Yeast和 Glass,,實例數(shù)分別為150、1484、214,從加利福尼亞大學的UCI機器學習庫中下載得到。

        實驗中,通過與Keke Chen的數(shù)據(jù)干擾進行比較來衡量算法的性能。對每一個數(shù)據(jù)集,實驗測試條件為:分類數(shù)目選取2和3,加法噪音為均值為0,方差為0.2的高斯分布。我們的結果與Keke Chen的數(shù)據(jù)干擾進行比較,每一項測試選取10組噪音數(shù)據(jù),計算平均精度作為最終精度。圖2和3顯示了分別挖掘Iris數(shù)據(jù)集干擾前后的結果。由此可見,干擾后隱私所屬類別更明顯了,從而保證了很高的挖掘精度。

        圖2 隱私數(shù)據(jù)分布

        圖3 干擾后數(shù)據(jù)分布

        表1顯示了測試的結果,實驗表明,在大多數(shù)情況下,我們的算法的挖掘精度要高于Keke Chen的算法。

        表1 挖掘精度

        4 結語

        本文提出了一個新的噪音添加方法,保護了數(shù)據(jù)挖掘中的隱私數(shù)據(jù)。我們的方法根據(jù)對原數(shù)據(jù)的預挖掘結果來調整干擾后數(shù)據(jù),從而不再需要計算代價很高的重構步驟,也不需要修改數(shù)據(jù)挖掘方法,并且能夠得到較高的挖掘精度,是一個有效可靠的隱私保護的數(shù)據(jù)挖掘方法。

        [1]Jiawei Han,Micheline Kamber.范明,盂小峰等譯.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社,2001.

        [2]王泳.基于隱私保護的數(shù)據(jù)挖掘[D].贛州:江西理工大學,2008.

        [3]李鋒,馬進,李建華.分布式數(shù)據(jù)挖掘中的匿名隱私保護方法[J].浙江大學學報(工學版),2010(2):276-283

        [4]Li Liu,Murat Kantarcioglu,Bhavani Thuraisingham.Privacy Preserving Decision Tree mining from Perturbed Data[J].In proceedings of 42th Hawaii International Conference on System Sciences.2009.

        [5]K.Chen,G.Sun,and L.Liu.Towards attack-resilient geometric data perturbation[J].In Proceedings of the 2007 SIAM International Conference on Data Mining(SDM’07),Minneapolis,MN,April 2007:589-592.

        猜你喜歡
        原始數(shù)據(jù)噪音數(shù)據(jù)挖掘
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
        噪音,總是有噪音!
        無法逃避的噪音
        噪音的小把戲
        白噪音的三種用法
        Coco薇(2017年9期)2017-09-07 22:09:28
        全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術實現(xiàn)5 級自動駕駛
        汽車零部件(2017年4期)2017-07-12 17:05:53
        基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        人妻少妇人人丰满视频网站| 特级毛片爽www免费版| 亚洲av无码精品色午夜果冻不卡| 丁香六月婷婷综合| 美腿丝袜av在线播放| 国产精品日韩av一区二区三区| 欧美人妻aⅴ中文字幕| 精品综合久久久久久97超人| 国产国拍亚洲精品永久69| 中文文精品字幕一区二区| 无套内内射视频网站| 最近日本中文字幕免费完整| 亚洲VR永久无码一区| 久久亚洲免费精品视频| 精品乱码一区内射人妻无码| 久久精品日韩av无码| 亚洲国产日韩综一区二区在性色 | 亚洲AV无码一区二区一二区色戒 | 日本爽快片18禁免费看| 亚洲VA中文字幕欧美VA丝袜| 国产精品国产三级国a| 国产欧美日韩va另类在线播放| 欧美丰满大屁股ass| 亚洲欧美日韩在线精品2021| 亚洲精品一区二区三区在线观| 无套中出丰满人妻无码| 四虎影视一区二区精品| 亚洲综合精品在线观看中文字幕 | 日本高清一区二区三区视频| 丝袜美腿高清在线观看| 少妇性荡欲视频| 无码国产精品一区二区免费网曝 | 亚洲高清三区二区一区| 国产精品成人观看视频| 日韩欧美在线观看成人| 国产亚洲中文字幕久久网| 国产精品美女久久久久av福利| 亚洲无码专区无码| 少妇人妻偷人中文字幕| 野花香社区在线视频观看播放| 又粗又大又黄又爽的免费视频|