張堅(jiān)英,馬俊杰
中國(guó)人民解放軍63726部隊(duì)技術(shù)室,寧夏 銀川 750004
隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘在一些深層次的應(yīng)用中發(fā)揮了積極的作用。但與此同時(shí),也帶來(lái)隱私保護(hù)方面的問(wèn)題。例如,通過(guò)一般的方法對(duì)銀行卡客戶的交易行為等信息的關(guān)聯(lián)分析,可以發(fā)現(xiàn)用戶在交易行為上的特點(diǎn),但不可避免地會(huì)造成用戶的隱私泄漏。所以在數(shù)據(jù)挖掘過(guò)程中解決好隱私保護(hù)的問(wèn)題,成為數(shù)據(jù)挖掘的一個(gè)研究熱點(diǎn)[1-2]。
數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中提取隱藏的或者是潛在的有用規(guī)則或者模式,然而,數(shù)據(jù)挖掘中隱私保護(hù)的目標(biāo)是把特定的敏感信息隱藏起來(lái),而不被數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)。對(duì)于給定需要隱藏的項(xiàng)目集,對(duì)LHS(ISL)法和RHS(DSR)法進(jìn)行了改進(jìn),解決了關(guān)聯(lián)規(guī)則提取中的隱私保護(hù)問(wèn)題,同時(shí)保證處理后的關(guān)聯(lián)規(guī)則在隨后的關(guān)聯(lián)規(guī)則挖掘中不被發(fā)現(xiàn)。
數(shù)據(jù)隱藏試圖在數(shù)據(jù)泄露前將機(jī)密或隱私信息的有關(guān)數(shù)據(jù)刪除。知識(shí)隱藏是指保密知識(shí)遠(yuǎn)離數(shù)據(jù)進(jìn)行保密處理。因?yàn)殛P(guān)聯(lián)規(guī)則挖掘的緣故,眾多有效的關(guān)聯(lián)規(guī)則得以發(fā)現(xiàn);但與此同時(shí),許多不想為人知的隱私規(guī)則也暴露無(wú)遺。為解決這一矛盾性問(wèn)題,我們必須對(duì)挖掘過(guò)程加以限制,以確保這些敏感規(guī)則隱藏起來(lái),這方面的解決辦法非常之多。其中常用的一種即基于支持度和信任度的分塊方法[3-5]。
針對(duì)上一節(jié)問(wèn)題給出了問(wèn)題的解決辦法,首先,采用先驗(yàn)算法來(lái)找出頻繁項(xiàng)集,然后,為獲得全局支持度和信任度而不泄露隱私,會(huì)采用安全計(jì)算法。而針對(duì)知識(shí)隱藏會(huì)采用一種改進(jìn)算法來(lái)達(dá)到滿意效果。
通過(guò)其它方法來(lái)隱藏敏感規(guī)則時(shí),要?jiǎng)h除某個(gè)項(xiàng)目或借助一個(gè)未知數(shù)據(jù)來(lái)改變?cè)紨?shù)據(jù)來(lái)實(shí)現(xiàn)針對(duì)如何隱藏信息的關(guān)聯(lián)規(guī)則,Wang and Jafari[6]給出兩種數(shù)據(jù)挖掘算法即:增加支持LHS(ISL)法和減少支持RHS(DSR)法。前一種算法旨在增加對(duì)規(guī)則左邊的支持度,而后者則在于減少對(duì)規(guī)則右邊的支持度。有關(guān)ISL算法的具體介紹如下:
ISL算法
輸入:
通過(guò)上述方法,敏感規(guī)則會(huì)被隱藏,但一些非敏感規(guī)則也可能也被隱藏,并可能人為生成許多新規(guī)則。為解決這一問(wèn)題,系統(tǒng)應(yīng)通過(guò)使用挖掘結(jié)果來(lái)對(duì)選擇過(guò)程(挑選出項(xiàng)目以進(jìn)行修改)加以限制,有關(guān)操作步驟如圖1所示。
修改選擇過(guò)程時(shí),我們可以選擇其它項(xiàng)作為犧牲項(xiàng)以獲得更好的效果。然后,加入一些噪音規(guī)則以提高安全性。
由于分塊算法的主要不足之處在于,數(shù)據(jù)集與分塊值的數(shù)據(jù)均不會(huì)失真,因此,建立一些噪音規(guī)則就成為必要,以使數(shù)據(jù)集失真,這個(gè)可以在剪枝算法環(huán)節(jié)進(jìn)行刪除。
本文在探討關(guān)聯(lián)規(guī)則挖掘、數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建時(shí),對(duì)針對(duì)隱私保護(hù)的一些解決方法進(jìn)行了詳細(xì)分析,它們均考慮到數(shù)據(jù)挖掘過(guò)程中存在的主要安全隱患問(wèn)題。通過(guò)采用ISL和DSR方法來(lái)實(shí)現(xiàn)對(duì)敏感規(guī)則的隱藏;同時(shí),本文提出了一種可以獲得更佳效果的優(yōu)化方法,其負(fù)面影響也較小。針對(duì)海量數(shù)據(jù),有關(guān)解決方法所帶來(lái)的負(fù)面影響盡管較小,但安全計(jì)算會(huì)帶來(lái)通信成本巨大、密碼系統(tǒng)復(fù)雜以致算法效率降低等問(wèn)題。
圖1 敏感規(guī)則的隱藏過(guò)程圖
[1]Evfimievski A,Srikant R,Agrawal R.Privacy preservingmin2ing of association rules[J].Information Systems,2004,29:343-364.
[2]S.-L.Wang and A.Jafari.Hiding informative association rule setsExpert Systems with Applications,2007,33:316-323.
[3]Y.Saygin, V.S.Verykios, and C.Clifton.Using unknowns to prevent discovery of association rules.ACM SIGMOD Record, 2001,30(4):45-54.
[4]Weimin Ouyang and Qinhua Huang, Privacy Preserving Association Rules Mining Based on Secure Two-Party Computation, Lecture Notes in Control and Information Sciences, 2006, Volume 344/2006, 969-975.
[5]Seifert J W.Data mining and the search for security[J].Gov2ernment Information Quarterly,2004,21:461-480.
[6]張瑞,鄭誠(chéng),陳娟娟.關(guān)聯(lián)規(guī)則挖掘中的隱私保護(hù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2008,18(10):13-19.