張毅 哈爾濱市信息化建設(shè)項(xiàng)目管理中心 周佩 黑龍江省財(cái)政信息中心 許斌 東北農(nóng)業(yè)大學(xué)
數(shù)據(jù)挖掘隱私保護(hù)算法研究
張毅 哈爾濱市信息化建設(shè)項(xiàng)目管理中心 周佩 黑龍江省財(cái)政信息中心 許斌 東北農(nóng)業(yè)大學(xué)
目前,隨著各領(lǐng)域的信息量暴漲,致使數(shù)據(jù)挖掘方面既存在機(jī)遇又存在挑戰(zhàn),并且這種爆破式的增長(zhǎng)導(dǎo)致用戶數(shù)據(jù)挖掘與儲(chǔ)存的安全隱私產(chǎn)生了極大的隱患。因此,對(duì)數(shù)據(jù)挖掘隱私保護(hù)成為了當(dāng)前亟待解決的問題。本文主要對(duì)數(shù)據(jù)挖掘隱私保護(hù)的算法進(jìn)行研究,通過擾動(dòng)算法以及關(guān)聯(lián)規(guī)則隱藏算法兩種算法進(jìn)行對(duì)數(shù)據(jù)挖掘隱私保護(hù)算法進(jìn)行研究,以期使問題得到解決。
數(shù)據(jù)挖掘 隱私保護(hù) 算法研究 關(guān)聯(lián)規(guī)則隱藏算法
隨著網(wǎng)絡(luò)科技的快速發(fā)展,各種信息、資源能夠達(dá)到共享,使人們接受各類信息更加快捷方便,與此同時(shí),信息量的暴增以及網(wǎng)絡(luò)的透明化也使用戶的數(shù)據(jù)挖掘隱私保護(hù)受到了威脅,用戶機(jī)密隱私信息遭到泄漏。數(shù)據(jù)挖掘的目的是為了對(duì)數(shù)據(jù)信息進(jìn)行科學(xué)分析;另外,對(duì)需要保護(hù)的重要數(shù)據(jù)信息應(yīng)該采取修改或刪除的方式來進(jìn)行保密。本文主要對(duì)擾動(dòng)算法以及關(guān)聯(lián)規(guī)則隱藏算法進(jìn)行研究和介紹,對(duì)數(shù)據(jù)挖掘隱私保護(hù)算法的趨勢(shì)進(jìn)行分析。
此算法主要包括隨機(jī)擾動(dòng)以及乘法擾動(dòng)兩個(gè)方面。前者的主要是通過加法的運(yùn)算方法來對(duì)原始數(shù)據(jù)進(jìn)行噪聲的添加,并且這種添加方式為隨機(jī)添加,除此之外,隨機(jī)擾動(dòng)的算法還包括k-mean算法、數(shù)據(jù)轉(zhuǎn)換矩陣算法以及多重隨機(jī)算法等。而后者則包含投影擾動(dòng)和旋轉(zhuǎn)擾動(dòng)兩種算法。
1.1.1 隨機(jī)擾動(dòng)
此算法通常是指針對(duì)已知數(shù)據(jù)中加入一定程度的噪聲,使單個(gè)數(shù)據(jù)恢復(fù)成原始數(shù)據(jù)的可能性消失。比如若存在一個(gè)原始數(shù)據(jù)r,在r中添加一定程度的噪聲d,從而得出附帶噪聲的數(shù)據(jù)s,可表示為s=r+d??蓪整體化,并以相應(yīng)的算法,針對(duì)s實(shí)施數(shù)據(jù)挖掘,并對(duì)r進(jìn)行的數(shù)據(jù)挖掘所產(chǎn)生的結(jié)果進(jìn)行推斷。總體來講,噪聲的強(qiáng)度越高,隱私保護(hù)的安全性就越強(qiáng),但與此同時(shí)數(shù)據(jù)挖掘的難度系數(shù)就越大,并且還會(huì)造成挖掘在準(zhǔn)確性方面變差,所以需要對(duì)隱私保護(hù)的強(qiáng)度以及數(shù)據(jù)挖掘的準(zhǔn)確程度的平穩(wěn)性進(jìn)行維持。
除了對(duì)數(shù)據(jù)添加噪聲之外,還可以對(duì)矩陣中數(shù)據(jù)進(jìn)行隨機(jī)轉(zhuǎn)化,稱之為隨機(jī)擾動(dòng)算法。相關(guān)研究人員還研究出對(duì)信號(hào)進(jìn)行處理的擾動(dòng)算法,就是將隨機(jī)項(xiàng)添入原始數(shù)據(jù)所形成的矩陣中,并通過另一矩陣與之進(jìn)行相乘來進(jìn)行干擾,然后將干擾后的數(shù)據(jù)進(jìn)行發(fā)布。在數(shù)據(jù)發(fā)布后,客戶端需要對(duì)已發(fā)布的數(shù)據(jù)進(jìn)行挖掘,并將挖掘的結(jié)果返回至服務(wù)器中,待服務(wù)器將此結(jié)果進(jìn)行有效的處理后,才能夠?qū)⒄鎸?shí)的結(jié)果進(jìn)行返回。
1.1.2 乘法擾動(dòng)
乘法擾動(dòng)算法主要包含投影擾動(dòng)和旋轉(zhuǎn)擾動(dòng)兩種算法。其中,投影擾動(dòng)主要是使數(shù)據(jù)在空間上由高維轉(zhuǎn)向低維的一個(gè)映射過程,最終獲得全新的數(shù)據(jù)集。而旋轉(zhuǎn)擾動(dòng)的定義可按G(X)=RX這個(gè)方程式進(jìn)行表示,在這個(gè)方程式中,R代表正交矩陣,X代表源數(shù)據(jù)矩陣,G(X)則代表數(shù)據(jù)被擾動(dòng)后產(chǎn)生的矩陣。相關(guān)研究人員層得出研究結(jié)果,旋轉(zhuǎn)擾動(dòng)能夠?qū)⒃紨?shù)據(jù)進(jìn)行分成若干個(gè)子數(shù)據(jù),并且這些子數(shù)據(jù)相互獨(dú)立,通過對(duì)不同隨機(jī)正交矩陣進(jìn)行使用,然后對(duì)分割后的各子數(shù)據(jù)進(jìn)行旋轉(zhuǎn)擾動(dòng),能夠有效抵御通過獨(dú)立分量進(jìn)行分析所形成的攻擊,效果較為良好。
這種算法一般具備一定的條件,這些條件就是數(shù)據(jù)項(xiàng)已給定,并且相應(yīng)的記錄和數(shù)據(jù)項(xiàng)都在集合T之中,通過這些條件能夠找到各數(shù)據(jù)項(xiàng)間存在的關(guān)聯(lián)性,從而使數(shù)據(jù)項(xiàng)相應(yīng)的置信度以及支持度高于用戶提出的最小置信度閾值和最小支持度閾值。這種算法大多都采用這樣一種策略,其是將自身的管理規(guī)則隱藏的主要任務(wù)進(jìn)行分解,主要分解為兩個(gè)較為主要的子任務(wù),這兩個(gè)子任務(wù)分別為頻繁項(xiàng)集的產(chǎn)生以及規(guī)則的產(chǎn)生,前者的主要目標(biāo)是使最小支持度閾值能夠得到滿足的所有項(xiàng)集被發(fā)現(xiàn),也就是說使事務(wù)數(shù)據(jù)庫(kù)之中全部的頻繁項(xiàng)集能夠被找出;后者的主要目標(biāo)則是將頻繁項(xiàng)集之中包含的全部高置信度的關(guān)聯(lián)規(guī)則能夠被發(fā)現(xiàn)。
對(duì)于關(guān)聯(lián)規(guī)則隱藏算法較為常用的方法主要有三種:
(1)啟發(fā)算法:這種算法主要是根據(jù)經(jīng)驗(yàn)規(guī)則來進(jìn)行解決問題的算法。
(2)邊界算法:這種算法主要是根據(jù)數(shù)據(jù)集之中存在的不頻繁算法和頻繁算法之間的邊界存在的原始邊界來進(jìn)行實(shí)現(xiàn)的。
(3)精確算法:這種算法使規(guī)則隱藏的全過程成為一種線性規(guī)劃或是整數(shù)規(guī)劃來使問題得以解決。與啟發(fā)算法相比,此算法能夠使數(shù)據(jù)的隱藏更加具有優(yōu)勢(shì),但計(jì)算成本稍高。
綜上所述,數(shù)據(jù)挖掘往往與數(shù)據(jù)的隱私保護(hù)往往是相互對(duì)立的,但用戶的主要目的就是使自身的數(shù)據(jù)隱私得到保護(hù),因此,需要克服數(shù)據(jù)挖掘的難點(diǎn),通過科學(xué)的算法來完成數(shù)據(jù)的挖掘。本文中所提及的兩種方法在實(shí)際應(yīng)用中,都具有良好的效果,具備數(shù)據(jù)挖掘隱私保護(hù)的水平,可以推廣應(yīng)用。
[1]萬芊山.基于已知信息獨(dú)立分量分析和局部旋轉(zhuǎn)擾動(dòng)的數(shù)據(jù)挖掘隱私保護(hù)研究[J].科學(xué)與財(cái)富,2014,11(4):247-248.
[2]方躍堅(jiān),朱錦鐘,周文.數(shù)據(jù)挖掘隱私保護(hù)算法研究綜述[J].信息網(wǎng)絡(luò)安全,2017(2):6-11.
張毅(1982.12—)男,漢族,河北省高陽(yáng)縣人,大學(xué)本科學(xué)歷,工程師,研究方向:計(jì)算機(jī)軟硬件、網(wǎng)絡(luò)工程。周佩(1982.11—),男,漢族,山東省福山縣人,碩士研究生學(xué)歷,高級(jí)工程師,研究方向:計(jì)算機(jī)信息系統(tǒng)分析與應(yīng)用。許斌(1982.11—)男,漢族,黑龍江省嫩江縣人,大學(xué)本科學(xué)歷,助理研究員,研究方向:通信工程、節(jié)能減排。