歐立奇,王紅英,羅小東,李盼*,劉瀚
?
增量式匿名化的隱私保護(hù)數(shù)據(jù)挖掘算法
歐立奇1,王紅英2,羅小東3,李盼1*,劉瀚1
1. 西京學(xué)院 商貿(mào)技術(shù)系, 陜西 西安 710123 2. 西安文理學(xué)院 陜西省表面工程與再制造重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710065 3. 西安石油大學(xué) 理學(xué)院, 陜西 西安 710065
在匿名隱私保護(hù)系統(tǒng)中增量式匿名化隱私保護(hù)數(shù)據(jù)具有容量大和分散性強(qiáng)的特點(diǎn),導(dǎo)致挖掘的聚類性不好。提出一種基于互信熵特征提取的增量式匿名化隱私保護(hù)數(shù)據(jù)的挖掘算法,在云計(jì)算平臺(tái)下分析增量式匿名化隱私保護(hù)數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)模型,結(jié)合閉頻繁項(xiàng)集特征重組方法進(jìn)行增量式匿名化隱私保護(hù)數(shù)據(jù)的離散化特征重構(gòu),在重構(gòu)的Hadoop云計(jì)算平臺(tái)中進(jìn)行增量式匿名化隱私保護(hù)數(shù)據(jù)的關(guān)聯(lián)特征提取,采用增量式支持向量機(jī)算法對(duì)提取的數(shù)據(jù)特征進(jìn)行分類識(shí)別,根據(jù)分類結(jié)果實(shí)現(xiàn)增量式匿名化的隱私保護(hù)數(shù)據(jù)挖掘。仿真結(jié)果表明,采用該方法進(jìn)行匿名化的隱私保護(hù)數(shù)據(jù)挖掘的準(zhǔn)確性較高,特征提取精度較好,收斂性較強(qiáng)。
增量式; 匿名化; 隱私保護(hù); 數(shù)據(jù)挖掘
隨著信息技術(shù)的發(fā)展,大量的數(shù)據(jù)存儲(chǔ)于網(wǎng)絡(luò)空間中,需要對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行安全加密和隱私保護(hù)處理,提高信息的安全保護(hù)能力。在網(wǎng)絡(luò)信息化存儲(chǔ)平臺(tái)中有大量的隱私保護(hù)數(shù)據(jù),比如個(gè)人的身份信息數(shù)據(jù)、銀行支付數(shù)據(jù)以及地理位置信息數(shù)據(jù)等,需要對(duì)隱私保護(hù)數(shù)據(jù)進(jìn)行安全存儲(chǔ)和調(diào)度,保障數(shù)據(jù)的安全性和隱私性,研究增量式匿名化的隱私保護(hù)數(shù)據(jù)挖掘方法,提高數(shù)據(jù)安全保護(hù)性能[1]。本文提出一種基于互信熵特征提取的增量式匿名化隱私保護(hù)數(shù)據(jù)的挖掘算法。在云計(jì)算平臺(tái)下分析增量式匿名化隱私保護(hù)數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)模型,結(jié)合閉頻繁項(xiàng)集特征重組方法進(jìn)行增量式匿名化隱私保護(hù)數(shù)據(jù)的離散化特征重構(gòu),在重構(gòu)的Hadoop云計(jì)算平臺(tái)中進(jìn)行增量式匿名化隱私保護(hù)數(shù)據(jù)的關(guān)聯(lián)特征提取,實(shí)現(xiàn)隱私保護(hù)數(shù)據(jù)挖掘優(yōu)化,最后進(jìn)行仿真實(shí)驗(yàn)分析,展示了本文方法在提高數(shù)據(jù)挖掘能力的優(yōu)越性能。
為了實(shí)現(xiàn)增量式匿名化隱私保護(hù)數(shù)據(jù)的優(yōu)化挖掘,需要首先構(gòu)建云存儲(chǔ)模式下增量式匿名化隱 私保護(hù)數(shù)據(jù)的分布式數(shù)據(jù)結(jié)構(gòu)模型[2],用一個(gè)四元組表示增量式匿名化隱私保護(hù)數(shù)據(jù)的模糊分布式結(jié)存儲(chǔ)中心,為=(,,,),假設(shè)為增量式匿名化隱私保護(hù)數(shù)據(jù)交互的相空間嵌入維數(shù),采用Logistics映射方法構(gòu)建隱私保護(hù)數(shù)據(jù)的明文序列,采用分段線性混沌映射方法構(gòu)建隱私保護(hù)數(shù)據(jù)密文協(xié)議,采用混合加密協(xié)議方法進(jìn)行隱私保護(hù)數(shù)據(jù)的循環(huán)加密設(shè)計(jì),提高數(shù)據(jù)的隱私保護(hù)性,根據(jù)上述分析,得到增量式匿名化的隱私保護(hù)數(shù)據(jù)挖掘的總體設(shè)計(jì)結(jié)構(gòu)模型如圖1所示。
圖 1 隱私保護(hù)數(shù)據(jù)的加密挖掘過(guò)程
根據(jù)融合系數(shù)采用模糊聚類實(shí)現(xiàn)自適應(yīng)尋優(yōu),實(shí)現(xiàn)最優(yōu)控制和增量式匿名化隱私保護(hù)數(shù)據(jù)共享挖掘,建立一種基于數(shù)據(jù)挖掘理論的增量式匿名化隱私保護(hù)數(shù)據(jù)共享挖掘數(shù)學(xué)模型,將待挖掘的增量式匿名化隱私保護(hù)數(shù)據(jù)按照5元組進(jìn)行關(guān)聯(lián)規(guī)則項(xiàng)特征重建,表述為:
其中N、N和N分別表示增量式匿名化隱私保護(hù)數(shù)據(jù)的平均互信息特征量和狀態(tài)分布集。在云計(jì)算平臺(tái)下分析增量式匿名化隱私保護(hù)數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)模型,描述為過(guò)程為:
采用單變量特征提取方法得到待挖掘數(shù)據(jù)的決策項(xiàng)為(w,t),輸出增量式匿名化隱私保護(hù)數(shù)據(jù)的公鑰[??y]2=1/-D,|D|<2-K,引入優(yōu)化的分類回歸模型,得到觀察數(shù)據(jù)集中的隱私保護(hù)數(shù)據(jù)的樣本塊序列123……x,則t=c?x,={1,2…,}。
采用C4.5決策樹模型,構(gòu)建增量式匿名化隱私保護(hù)數(shù)據(jù)的分類決策模型[4],所以當(dāng)=1時(shí), 采用相關(guān)檢測(cè)器進(jìn)行數(shù)據(jù)交換數(shù)字證書設(shè)計(jì),得到|{??y]2·*}|?(3/8,5/8),生成正確的消息認(rèn)證碼,假設(shè)匿名化隱私保護(hù)數(shù)據(jù)的關(guān)聯(lián)規(guī)則集合S中有個(gè)樣本,則:
根據(jù)上述假設(shè),得知匿名化隱私保護(hù)數(shù)據(jù)的關(guān)聯(lián)規(guī)則矩陣正定,則存在的逆矩陣-1進(jìn)行匿名化隱私保護(hù)數(shù)據(jù)的模糊規(guī)則集構(gòu)造,并-1同時(shí)也為正定矩陣,采用混合相似度特征分析方法,對(duì)增量式匿名化隱私保護(hù)數(shù)據(jù)進(jìn)行特征重組,描述為:
從而得證′總是存在逆矩陣,定義增量式匿名化隱私保護(hù)數(shù)據(jù)的簇中的信息分布模型為[,]=[(),(+)],得到模糊信息頻繁項(xiàng)集,進(jìn)行保護(hù)數(shù)據(jù)挖掘。
在云計(jì)算平臺(tái)下分析增量式匿名化隱私保護(hù)數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)模型的基礎(chǔ)上,進(jìn)行數(shù)據(jù)挖掘算法優(yōu)化,提出一種基于互信熵特征提取的增量式匿名化隱私保護(hù)數(shù)據(jù)的挖掘算法,得到關(guān)聯(lián)規(guī)則矩陣,采用增量式支持向量機(jī)集合S進(jìn)行特征重構(gòu),隨著數(shù)據(jù)樣本的增加,可得:
式中,為單位矩陣,當(dāng)增量式匿名化隱私保護(hù)數(shù)據(jù)集合S隨著樣本的增大,在移出一個(gè)樣本后,可得數(shù)據(jù)挖掘輸出的特征量為:
上式表示,集合S在隨著樣本的移入,采用增量式學(xué)習(xí)方法進(jìn)行自適應(yīng)尋優(yōu)[5],有?S,,且?-S,。對(duì)于匿名化隱私保護(hù)數(shù)據(jù)的統(tǒng)計(jì)特征量?S,得:
根據(jù)上述分析,提取互信熵特征,采用增量式支持向量機(jī)算法對(duì)提取數(shù)據(jù)特征進(jìn)行分類識(shí)別[6]。
假設(shè)有一增量式匿名化的隱私保護(hù)數(shù)據(jù)樣本?S,使,假設(shè)支持向量機(jī)模型學(xué)習(xí)過(guò)程中得到的3個(gè)模糊數(shù)據(jù)生成序列分別為:(13)
設(shè)()為實(shí)概率空間(W,,(),)中的有理積分,增量式匿名化隱私保護(hù)數(shù)據(jù)分類屬性集為{1,…,u},根據(jù)分類關(guān)系進(jìn)行信息融合處理[7],得到關(guān)聯(lián)映射為:
在非確定條件對(duì)合Cauchy-Hadamard型非線性系中進(jìn)行最優(yōu)挖掘向量重組[9],數(shù)據(jù)信息的特征值(k,k)<(1,1),假設(shè)表示增量式匿名化隱私保護(hù)數(shù)據(jù)的關(guān)聯(lián)規(guī)則項(xiàng),得到:
采用Lyapunov泛函進(jìn)行挖掘過(guò)程的穩(wěn)定性分析[10],得到:
在增量式學(xué)習(xí)下,數(shù)據(jù)挖掘的模糊迭代步數(shù)為:
根據(jù)Lyapunov穩(wěn)定性原理,得到本文設(shè)計(jì)的增量式匿名化隱私保護(hù)數(shù)據(jù)的挖掘模型滿足收斂性條件。
為了測(cè)試本文方法在實(shí)現(xiàn)增量式匿名化隱私保護(hù)數(shù)據(jù)挖掘中的應(yīng)用性能,進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)采用++和Matlab 7混合編程設(shè)計(jì),在Simulink上建立匿名隱私保護(hù)系統(tǒng),數(shù)據(jù)屬性分布的最大相似度max=30,關(guān)聯(lián)系數(shù)為0.23,數(shù)據(jù)分布的稀疏度為0.19,待挖掘的數(shù)據(jù)負(fù)載分布見表1。
表 1 數(shù)據(jù)負(fù)載量分布
根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,進(jìn)行增量式匿名化隱私保護(hù)數(shù)據(jù)挖掘,得到圖2所示數(shù)據(jù)。
分析圖2得知,采用本文方法進(jìn)行數(shù)據(jù)挖掘的收斂性較好,挖掘輸出的特征分辨能力較強(qiáng),測(cè)試數(shù)據(jù)挖掘的收斂性能,得到對(duì)比結(jié)果如圖3所示。
分析圖3得知,采用本文方法進(jìn)行增量式匿名化隱私保護(hù)數(shù)據(jù)的挖掘的迭代步數(shù)較低,特征提取精度較好,收斂性較強(qiáng)。
圖 2 數(shù)據(jù)挖掘時(shí)域波形輸出
圖 3 數(shù)據(jù)挖掘性能對(duì)比
本文提出一種基于互信熵特征提取的增量式匿名化隱私保護(hù)數(shù)據(jù)的挖掘算法,在云計(jì)算平臺(tái)下分析增量式匿名化隱私保護(hù)數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)模型,結(jié)合閉頻繁項(xiàng)集特征重組方法進(jìn)行增量式匿名化隱私保護(hù)數(shù)據(jù)的離散化特征重構(gòu),在重構(gòu)的Hadoop云計(jì)算平臺(tái)中進(jìn)行增量式匿名化隱私保護(hù)數(shù)據(jù)的關(guān)聯(lián)特征提取,采用增量式支持向量機(jī)算法對(duì)提取的數(shù)據(jù)特征進(jìn)行分類識(shí)別,根據(jù)分類結(jié)果實(shí)現(xiàn)增量式匿名化的隱私保護(hù)數(shù)據(jù)挖掘。研究得知,采用本文方法進(jìn)行匿名化的隱私保護(hù)數(shù)據(jù)挖掘的準(zhǔn)確性較高,特征提取精度較好,收斂性較強(qiáng),在隱私保護(hù)數(shù)據(jù)挖掘中具有很好的價(jià)值。
[1] Farnadi G, Bach SH, Mones MF,. Soft quantification in statistical relational learning[J]. Machine Learning, 2017,106(12):1971-1991
[2] Rames A, Rodriguez M, Getoor L. Multi-relational influence models for online professional networks[C]// Proceedings of the 2017 International Conference on Web Intelligence. New York: ACM, 2017:291-298
[3] 馬晴,王桂霞,李聯(lián)和.八次對(duì)稱二維準(zhǔn)晶Ⅱ型單邊裂紋的動(dòng)力學(xué)問(wèn)題[J].應(yīng)用數(shù)學(xué)和力學(xué),2018,39(10):1180-1188
[4] 丘小玲,賈文生.Berge極大值逆定理與Nash平衡定理[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),2018,41(2):280-288
[5] Arbabi E, Arbabi A, Kamali SM,. Multiwavelength polarization-insensitive lenses based on dielectric metasurfaces with meta-molecules[J]. Optica, 2016,3(6):628-633
[6] 劉保見,張效義,李青.基于演化博弈論的無(wú)線傳感網(wǎng)監(jiān)測(cè)節(jié)點(diǎn)分群算法[J].計(jì)算機(jī)應(yīng)用,2016,36(8):2157-2162
[7] 亞玲,李春陽(yáng),崔蔚,等.基于Docker的PaaS平臺(tái)建設(shè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(3):72-77
[8] 王楚捷,王好賢.M-CORD下無(wú)線接入網(wǎng)絡(luò)資源分配研究[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(22):92-98
[9] 龐曉瓊,任孟琦,王田琪,等.一種支持完美隱私保護(hù)的批處理數(shù)據(jù)擁有性證明方案[J].計(jì)算機(jī)科學(xué),2018,45(11):130-137,154
[10] 朱利民,趙麗.基于改進(jìn)ACO與分布式社區(qū)檢測(cè)的WSN路由協(xié)議[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(22):119-126
The Algorithm for Data Mining of Incremental Anonymous Privacy
OU Li-qi1, WANG Hong-ying2, LUO Xiao-dong3, LI Pan1*, LIU Han1
1.710123,2.710065,3.710065,
In the anonymous privacy protection system, incremental anonymous privacy protection data has the characteristics of large capacity and strong dispersion, which leads to poor clustering of mining. An incremental anonymous privacy data mining algorithm based on mutual trust entropy feature extraction was proposed. In the cloud computing platform, the storage structure model of incremental anonymous privacy protection data was analyzed, and the discrete feature reconstruction of incremental anonymous privacy protection data was carried out by combining the closed frequent itemset feature reorganization method. In the reconstructed Hadoop cloud computing platform, incremental anonymous privacy protection data association feature extraction was carried out, and incremental support vector machine algorithm was used to classify and recognize the extracted data features. The privacy protection data mining based on incremental anonymity was realized according to the classification results. The simulation results showed that the proposed method was accurate, accurate and convergent.
Incremental; anonymous; privacy protection; data mining
TP391;O234
A
1000-2324(2019)02-0259-05
10.3969/j.issn.1000-2324.2019.02.019
2018-06-21
2018-07-09
歐立奇(1980-),男.碩士,講師. 研究方向:計(jì)算機(jī)軟件與理論,數(shù)據(jù)挖掘. E-mail:jinder44@sina.com
Author for correspondence. E-mail:lipan5528@163.com
山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年2期