亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新的K均值挖掘的隱私保護算法

        2011-02-28 01:45:46王思勃白素平
        長春大學學報 2011年10期
        關鍵詞:原始數(shù)據(jù)噪音數(shù)據(jù)挖掘

        王思勃,白素平

        (長春理工大學 光電工程學院,長春 130012)

        0 引言

        近年來,人們對隱私問題以及數(shù)據(jù)挖掘應用越來越關注,于是很多研究人員開始研究隱私保護的數(shù)據(jù)挖掘技術,簡稱PPDM。PPDM技術被廣泛應用于醫(yī)療、商業(yè)、社會學等多種領域。前期的工作主要有兩類:數(shù)據(jù)修改和數(shù)據(jù)加密[1]。數(shù)據(jù)加密技術沒有數(shù)據(jù)修改技術應用的廣泛,因為它的計算和通信代價太高。隱私保護的數(shù)據(jù)挖掘有兩個目標:隱私和精度[2]。這兩個目標往往是一種平衡關系:隱私要求方面,在挖掘者挖掘數(shù)據(jù)之前,要對隱私數(shù)據(jù)進行足夠的干擾;精度要求方面,盡管隱私數(shù)據(jù)被干擾,蘊藏在隱私數(shù)據(jù)中的數(shù)據(jù)模式仍然可以被挖掘者挖掘出來。本文提出了一個新的噪音添加算法來干擾原始數(shù)據(jù),實驗表明,這個算法在同等條件下比其它的算法挖掘精度更高。

        1 背景介紹

        對于數(shù)據(jù)加密的隱私保護方法,主要實現(xiàn)分布式數(shù)據(jù)挖掘隱私保護方法。由于公鑰密碼機制保證了第三方對原始數(shù)據(jù)的不可見性以及數(shù)據(jù)的無損失性,能夠實現(xiàn)與原始挖掘相同精度的挖掘結果。但是與數(shù)據(jù)干擾方法相比,其計算和通信代價很昂貴。

        數(shù)據(jù)修改技術主要有:加法噪音,乘法噪音,矩陣乘法,數(shù)據(jù)交換和K匿名[3],本文著眼于加法噪音技術。對于加法噪音技術,2000年,Agrawal and Srikant公布了他們關于隱私保護數(shù)據(jù)挖掘的早期工作,他們提出了一個在客戶/服務器場景下,構建決策樹的加法干擾技術,通過重構原數(shù)據(jù)的數(shù)據(jù)分布得到與原數(shù)據(jù)相似的數(shù)據(jù),然后再挖掘重構數(shù)據(jù),缺點是重構比較麻煩。為了能夠直接通過挖掘干擾數(shù)據(jù),而不需要修改挖掘算法,就能得到很好的挖掘效果,劉麗[4]提出了一個門限法,計算每條數(shù)據(jù)記錄的概率值,通過門限將數(shù)據(jù)記錄進行分類,這樣就跳過了重構過程,減少了程序的計算。劉麗方法的缺點是合適的門限的選取比較困難,沒有規(guī)律,要依靠經驗,不同的數(shù)據(jù)集也不同。

        2 RD算法

        以前的加法噪音算法都是要對干擾后的數(shù)據(jù)進行處理,然后再進行挖掘。本文提出的RD(random distance)算法是在數(shù)據(jù)干擾之前,對原始數(shù)據(jù)進行一次K均值的預挖掘,根據(jù)挖掘后的結果再進行干擾,而數(shù)據(jù)分析者只需要直接對干擾后的數(shù)據(jù)進行挖掘,就能夠得到與挖掘原數(shù)據(jù)相似的結果.RD算法中,數(shù)據(jù)提供者使用下面公式替代原始數(shù)據(jù)X:

        其中,R是獨立同分布的噪音數(shù)據(jù)。

        我們假設D是原始數(shù)據(jù)集,C(C1,C2...Ck)是使用k均值聚類算法挖掘原始數(shù)據(jù)的聚類結果。我們的目的就是要把D修改成D',當數(shù)據(jù)分析者挖掘D'時,得到一個新的聚類結果,這個聚類結果與C具有較高的相似度,從而保證了挖掘精度。如圖1所示。

        圖1 RD算法示意圖

        在RD算法中,首先遍歷數(shù)據(jù)集中的所有記錄,在使用K均值聚類之后,每一條記錄都將會被歸類,此時,數(shù)據(jù)提供者對記錄添加噪音數(shù)據(jù)。為了保證干擾后的數(shù)據(jù)模式保持不變,RD算法盡可能得去保證每條記錄在干擾前后類別不變,方法是在添加噪音數(shù)據(jù)后,調整聚類中心和干擾后記錄點之間的距離,使得數(shù)據(jù)干擾前后始終在此類別域內,如圖1所示,Ci是聚類中心,R is記錄點.噪音數(shù)據(jù)RxandRy被添加到屬性X和Y中,然后回得到點P(X+Rx,Y+Ry).此時,有三種情況需要考慮,P分別在Din(i),D(i)和out(i)域內:

        在計算Ci和P'之間的距離之后,就能計算出將要發(fā)布給數(shù)據(jù)分析者的數(shù)據(jù)點P'的坐標。RD算法偽代碼

        3 實驗結果

        本文實驗中,數(shù)據(jù)挖掘工具使用的是WEKA工具,噪音數(shù)據(jù)的生成使用的是Matlab 7.0實現(xiàn)的,使用的數(shù)據(jù)集來源于真實的數(shù)據(jù)集Iris,Yeast和 Glass,,實例數(shù)分別為150、1484、214,從加利福尼亞大學的UCI機器學習庫中下載得到。

        實驗中,通過與Keke Chen的數(shù)據(jù)干擾進行比較來衡量算法的性能。對每一個數(shù)據(jù)集,實驗測試條件為:分類數(shù)目選取2和3,加法噪音為均值為0,方差為0.2的高斯分布。我們的結果與Keke Chen的數(shù)據(jù)干擾進行比較,每一項測試選取10組噪音數(shù)據(jù),計算平均精度作為最終精度。圖2和3顯示了分別挖掘Iris數(shù)據(jù)集干擾前后的結果。由此可見,干擾后隱私所屬類別更明顯了,從而保證了很高的挖掘精度。

        圖2 隱私數(shù)據(jù)分布

        圖3 干擾后數(shù)據(jù)分布

        表1顯示了測試的結果,實驗表明,在大多數(shù)情況下,我們的算法的挖掘精度要高于Keke Chen的算法。

        表1 挖掘精度

        4 結語

        本文提出了一個新的噪音添加方法,保護了數(shù)據(jù)挖掘中的隱私數(shù)據(jù)。我們的方法根據(jù)對原數(shù)據(jù)的預挖掘結果來調整干擾后數(shù)據(jù),從而不再需要計算代價很高的重構步驟,也不需要修改數(shù)據(jù)挖掘方法,并且能夠得到較高的挖掘精度,是一個有效可靠的隱私保護的數(shù)據(jù)挖掘方法。

        [1]Jiawei Han,Micheline Kamber.范明,盂小峰等譯.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社,2001.

        [2]王泳.基于隱私保護的數(shù)據(jù)挖掘[D].贛州:江西理工大學,2008.

        [3]李鋒,馬進,李建華.分布式數(shù)據(jù)挖掘中的匿名隱私保護方法[J].浙江大學學報(工學版),2010(2):276-283

        [4]Li Liu,Murat Kantarcioglu,Bhavani Thuraisingham.Privacy Preserving Decision Tree mining from Perturbed Data[J].In proceedings of 42th Hawaii International Conference on System Sciences.2009.

        [5]K.Chen,G.Sun,and L.Liu.Towards attack-resilient geometric data perturbation[J].In Proceedings of the 2007 SIAM International Conference on Data Mining(SDM’07),Minneapolis,MN,April 2007:589-592.

        猜你喜歡
        原始數(shù)據(jù)噪音數(shù)據(jù)挖掘
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
        噪音,總是有噪音!
        無法逃避的噪音
        噪音的小把戲
        白噪音的三種用法
        Coco薇(2017年9期)2017-09-07 22:09:28
        全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術實現(xiàn)5 級自動駕駛
        汽車零部件(2017年4期)2017-07-12 17:05:53
        基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        国产又色又爽又刺激视频| 玩弄放荡人妇系列av在线网站 | 亚洲国产韩国欧美在线| 亚洲精品国产一二三无码AV| 日韩人妻有码中文字幕| 成人麻豆视频免费观看| 色天使综合婷婷国产日韩av| 亚洲国产成人久久综合一区77| 日本一区二区不卡超清在线播放| 亚洲丰满熟女一区二亚洲亚洲| 久久综合亚洲色一区二区三区| 鲁一鲁一鲁一鲁一澡| 亚洲欧洲无码精品ⅤA| 男女搞事在线观看视频| 少妇被粗大的猛烈进出免费视频 | 夜夜爽夜夜叫夜夜高潮| 久久精品娱乐亚洲领先| 国产亚洲sss在线观看| 久久婷婷国产色一区二区三区| 日韩 无码 偷拍 中文字幕| 久久人人妻人人做人人爽| 精品国产午夜久久久久九九| 国产三级不卡视频在线观看| 女人被狂躁c到高潮视频| 五十路熟久久网| 久久精品这里就是精品| 亚洲色图在线免费观看视频| v一区无码内射国产| 国产综合精品久久亚洲| 国产91久久精品成人看网站| 亚洲av午夜福利精品一区| 免费无码成人av在线播| 在线一区二区三区视频观看| 日产精品高潮一区二区三区5月| 国产裸拍裸体视频在线观看| 亚洲精品亚洲人成在线下载| 免费观看国产激情视频在线观看| 在线亚洲高清揄拍自拍一品区| 韩国19禁主播深夜福利视频| 国内自拍视频在线观看| 欧美黑人巨大videos精品|