亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)研究

        2014-07-09 19:10:24楊銘李春光
        山東工業(yè)技術(shù) 2014年22期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        楊銘 李春光

        摘 要:隨著信息技術(shù)的不斷發(fā)展,人們對潛在知識的需求愈發(fā)強烈,數(shù)據(jù)挖掘技術(shù)的出現(xiàn)順應(yīng)了社會的發(fā)展。但是每樣新事物都有利有弊,目前人們在進(jìn)行知識挖掘過程中,隱私保護(hù)問題就變得日益突出。調(diào)查顯示,目前個人隱私信息被泄露甚至被盜用現(xiàn)象嚴(yán)重,因此在數(shù)據(jù)挖掘領(lǐng)域,對基于隱私保護(hù)技術(shù)的研究顯得尤為重要。本文介紹了數(shù)據(jù)挖掘的基本概念和常用的算法,詳細(xì)說明了基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)中的概化 / 隱匿技術(shù)。

        關(guān)鍵詞:隱私保護(hù);算法;數(shù)據(jù)挖掘

        1 數(shù)據(jù)挖掘簡介

        數(shù)據(jù)挖掘(Data Mining,DM)一般是指通過算法搜索從大量的數(shù)據(jù)中查找隱藏于其中信息的過程,也可以稱為在數(shù)據(jù)庫中進(jìn)行知識發(fā)現(xiàn)的過程(Knowledge Discovery in Database, KDD)。數(shù)據(jù)挖掘可以理解為從海量、趨勢不明顯、繁雜的數(shù)據(jù)中經(jīng)過一系列的歸納提煉后,提取或“挖掘”知識的過程,其流程如圖所示。目前,數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于社會各個領(lǐng)域,如股票分析、醫(yī)學(xué)研究、工程設(shè)計、生產(chǎn)控制、金融管理、科學(xué)探索等。

        目前常用的數(shù)據(jù)挖掘算法有決策樹、關(guān)聯(lián)規(guī)則、聚類分析、統(tǒng)計分析、粗糙集等。

        1.1 決策樹

        決策樹它是一種典型的分類方法 它主要應(yīng)用于分類挖掘。該算法首先對數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后對決策樹進(jìn)行剪技,使用決策對新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。

        1.2 粗糙集

        粗糙集近年來越來越受到重視 ,該算法適合處理數(shù)據(jù)量大、不完備、不一致的數(shù)據(jù),它是一種處理不確定性的數(shù)學(xué)工具,有著廣闊的發(fā)展空間和應(yīng)用前景。

        1.3 聚類分析

        聚類是將數(shù)據(jù)分為多個數(shù)據(jù)集合,每個數(shù)據(jù)集合中的數(shù)據(jù)具有較高的相似度,不同的數(shù)據(jù)集合間則差別甚遠(yuǎn)。該算法是利用相似度的差別最大限度的發(fā)現(xiàn)某種存在的潛在規(guī)則。聚類分析是數(shù)據(jù)挖掘中的一個很活躍的研究領(lǐng)域,它綜合了機器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識別、物理等領(lǐng)域的研究成果。

        1.4 關(guān)聯(lián)規(guī)則

        對于一個給定的事物數(shù)據(jù)庫,發(fā)現(xiàn)某種事物和另一種事物之間未知的聯(lián)系或者規(guī)則,例如著名的“啤酒”和“紙尿褲”這 2 種風(fēng)馬牛不相及的事物之間的之間的聯(lián)系,找出所有的類似這樣的潛在規(guī)則,對于市場策略、商業(yè)決斷是很有價值的。

        1.5 統(tǒng)計分析

        統(tǒng)計分析是運用定量和定性分析的方法,結(jié)合數(shù)據(jù)統(tǒng)計的方法和分析對象的知識,對數(shù)據(jù)進(jìn)行研究的方法。

        2 隱私保護(hù)實現(xiàn)技術(shù)

        在數(shù)據(jù)挖掘的過程中,隱私保護(hù)已經(jīng)成為重要的研究課題之一。其主要研究的內(nèi)容為:將一些個人的原始數(shù)據(jù)資料即隱私資料由受信賴的數(shù)據(jù)發(fā)布者采集,然后將數(shù)據(jù)匿名保護(hù),最后發(fā)布給第三方,進(jìn)行數(shù)據(jù)挖掘分析。在此過程中,將數(shù)據(jù)匿名化處理,保護(hù)相關(guān)個人隱私是研究的重點,同時還需確保匿名處理后的數(shù)據(jù)的準(zhǔn)確性及有效性,即從中能夠挖掘出有用的知識和規(guī)則。

        近年來,基于隱私保護(hù)的匿名化操作的概化 / 隱匿技術(shù)取得一定成績,它是隱私保護(hù)數(shù)據(jù)發(fā)布方法中使用較多的一種。其優(yōu)點在于匿名化數(shù)據(jù)中數(shù)據(jù)的準(zhǔn)確性高,以數(shù)據(jù)的細(xì)粒度值取代粗粒度值,用更加抽象、概括的值替代準(zhǔn)標(biāo)識符。概化有以下幾種模式:

        2.1 全局概化

        采用全局概化技術(shù)又叫做全子樹概化技術(shù),此種技術(shù)是將數(shù)據(jù)表中的某個屬性的所有值都概化到分類層次樹的同一層上。與其他模式的搜索空間相比,全局概化的搜素空間最小。但是,這種技術(shù)容易受非正常項目的影響從而過度概化,因此信息損失過高,數(shù)據(jù)失真最大。

        2.2 子樹概化

        此種模式下,所有的孩子節(jié)點采取統(tǒng)一模式,即如果概化,則所有非葉子節(jié)點的全部孩子節(jié)點全部概化,否則都不概化。它的本質(zhì)是將分類系統(tǒng)層次樹剪枝。

        2.3 局部概化

        又稱為單元概化,此種模式中一個值的某些實例可以根據(jù)概化的需要選擇概化或保持不變,而不影響其他實例的概化。與全局概化相比,這種模式相對靈活,而且數(shù)據(jù)失真性降低。

        2.4 兄弟概化

        此種模式與子樹該模式相近,區(qū)別是某些兄弟節(jié)點可以不被概化,且如有缺失孩子節(jié)點的值用父親節(jié)點值代替。此種模式比子樹概化模式的數(shù)據(jù)失真較小。

        2.5 多維概化

        此種模式可以讓兩個準(zhǔn)標(biāo)識符組靈活獨立的概化到不同的父親節(jié)點組上。因為這種模式僅需要概化違反指定值的準(zhǔn)標(biāo)識符組,所以它比全局概化和子樹概化產(chǎn)生的失真都要小。

        3 結(jié)語

        直接發(fā)布原始數(shù)據(jù)表會導(dǎo)致個人隱私信息泄露,存在巨大信息安全隱患,對原始表進(jìn)行匿名化操作可以保護(hù)用戶的隱私安全。除本文介紹的概化/隱匿技術(shù)外,還有多種隱私保護(hù)技術(shù),如數(shù)據(jù)表分解、聚類和凝聚、排序、擾動等技術(shù)。

        在隱私保護(hù)的數(shù)據(jù)庫技術(shù)方面,設(shè)計或開發(fā)一種隱私保護(hù)的數(shù)據(jù)發(fā)布工具尤為重要。這個任務(wù)稱之為隱私保護(hù)的數(shù)據(jù)發(fā)布(PPDP)。近年來,基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)受到越來越多的專家學(xué)者關(guān)注,此領(lǐng)域也正在快速的發(fā)展中。

        參考文獻(xiàn):

        [1]葛偉平,汪衛(wèi),周皓峰,施伯樂.基于隱私保護(hù)的分類挖掘[J]. 計算機研究與發(fā)展,2006(01).

        [2]馬廷淮,唐美麗.基于隱私保護(hù)的數(shù)據(jù)挖掘[J].計算機工程,2008(09).

        [3]華蓓,鐘誠.數(shù)據(jù)挖掘中的隱私保護(hù)技術(shù)進(jìn)展分析[J].微電子學(xué)與計算機,2009(08).

        [4]李鋒.面向數(shù)據(jù)挖掘的隱私保護(hù)方法研究[D].上海交通大學(xué),2008

        [5]汪曉剛,惠蕙,孫志揮.基于共享的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘[J]. 軟件導(dǎo)刊,2009(09).

        作者簡介:楊銘(1982—),女,吉林長春人,講師,研究方向:計算機科學(xué)與技術(shù)。

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        亚洲尺码电影av久久| 日本不卡在线视频二区三区| 无码爆乳护士让我爽| 吃奶摸下的激烈视频| 日韩最新在线不卡av| 日本高清在线一区二区三区| av影院在线免费观看不卡| 东京热人妻一区二区三区| 亚洲中文字幕无线无码毛片| 国产麻豆放荡av激情演绎| 国产免费人成视频网站在线18| 青春草在线视频免费观看| 亚洲国产毛片| 日韩精品极品视频在线免费| av在线播放男人天堂| 免费观看的a级毛片的网站| 国内无遮码无码| 日韩日本国产一区二区 | 99精品视频在线观看免费 | 麻豆av传媒蜜桃天美传媒| 一本色道久久综合中文字幕| 日韩一区二区三区人妻免费观看| 狠狠精品久久久无码中文字幕 | 牛牛本精品99久久精品88m| 精品熟妇av一区二区三区四区| 久久精品国产亚洲av不卡国产| 三叶草欧洲码在线| 亚洲A∨无码国产精品久久网| 女同欲望一区二区三区| 美女张开腿黄网站免费| 免费黄色电影在线观看| 亚洲av色香蕉一区二区蜜桃| 国产毛片av一区二区| 国产真人性做爰久久网站 | 手机看片久久第一人妻| 天堂а√在线中文在线新版| 一区二区在线亚洲av蜜桃| 中文字幕亚洲精品专区| 精品免费久久久久久久| 色老头久久综合网老妇女| 精品一区2区3区4区|