李磊,賀易,周正,陳璞,詹鵬,杜旭光
(1.國(guó)網(wǎng)湖北省電力有限公司 信息通信公司,湖北,武漢 430077;2.北京國(guó)網(wǎng)信通埃森哲信息技術(shù)有限公司,北京 100031)
隨著智能電網(wǎng)的快速發(fā)展,以大數(shù)據(jù)技術(shù)為基礎(chǔ)的電力系統(tǒng)已成為電力行業(yè)發(fā)展的關(guān)鍵,其運(yùn)行產(chǎn)生的海量異構(gòu)數(shù)據(jù)已成為數(shù)據(jù)分析和挖掘的關(guān)鍵[1-2]。其中,電力用戶的核心大數(shù)據(jù)由于實(shí)時(shí)性高、數(shù)據(jù)敏感度強(qiáng)等特點(diǎn)[3],迫切需要對(duì)其進(jìn)行安全隱私保護(hù)。數(shù)據(jù)匿名化[4]通過(guò)對(duì)數(shù)據(jù)敏感部分特別處理,達(dá)到隱私保護(hù)的目的,現(xiàn)已成為大數(shù)據(jù)隱私保護(hù)的重要方式。目前常用的匿名化手段包括加密、模糊泛化、消去等,其中分組匿名化是最常用的數(shù)據(jù)匿名化技術(shù)[5-6]。
常用的分組匿名化有k-匿名化和l-多元化匿名化框架。這些匿名化算法均使用在小規(guī)模數(shù)據(jù)。針對(duì)這一問(wèn)題,卞超軼等[7]基于分布式內(nèi)存計(jì)算引擎Spark實(shí)現(xiàn)大數(shù)據(jù)匿名化,處理效率和匿名化隱蔽性得到極大提升,但存在數(shù)據(jù)丟失現(xiàn)象。為進(jìn)一步提升電力用戶核心大數(shù)據(jù)匿名化的隱蔽性,本文在此基礎(chǔ)上,利用核熵成分分析的降維作用[8],提出一種新的分組數(shù)據(jù)匿名化算法,并通過(guò)具體事例分析,對(duì)其進(jìn)行研究。
本文采用算法以分組匿名化為基礎(chǔ)。分組匿名化核心思想是構(gòu)造匿名記錄組,使得在同一記錄組內(nèi),多條數(shù)據(jù)難以區(qū)分。采用的核熵成分分析方法通過(guò)核函數(shù)學(xué)習(xí)方法和信息熵結(jié)合,特征分解核矩陣,選擇對(duì)信息熵貢獻(xiàn)最大的特征向量的投影方法投影。
基于核熵成分分析方法的電力用戶核心大數(shù)據(jù)匿名化是通過(guò)核熵成分分析方法將用于識(shí)別個(gè)體身份的準(zhǔn)標(biāo)識(shí)符映射到高維空間,具體映射方法為設(shè)電力用戶核心大數(shù)據(jù)的準(zhǔn)標(biāo)識(shí)符為[x1,x2,…,xM]T,其中,M代表準(zhǔn)標(biāo)識(shí)符的個(gè)數(shù)。經(jīng)非線性映射φ:xi→φ(xi),將數(shù)據(jù)映射到高維特征空間,即:
Φ(x)=[φ(x1),…,φ(xM)]
(1)
首先,選擇對(duì)二次Renyi熵貢獻(xiàn)值較大的l個(gè)特征值與特征向量,通過(guò)式(2)獲得新的高維空間準(zhǔn)標(biāo)識(shí)符數(shù)據(jù),
(2)
其中,Dl為特征值,El為特征向量。
然后,在高維空間,將所涉及的準(zhǔn)標(biāo)識(shí)符數(shù)據(jù)的屬性全部模糊化,確保全部數(shù)據(jù)條目完全統(tǒng)一。接著依次選擇屬于準(zhǔn)標(biāo)識(shí)符的屬性提升公開信息循環(huán),不斷劃分?jǐn)?shù)據(jù),保證k-匿名化需求,直至迭代不能滿足k-匿名化需求停止。準(zhǔn)標(biāo)識(shí)符屬性有2種,即數(shù)值屬性和類別屬性。其中,數(shù)值屬性是通過(guò)選擇中位數(shù)二分?jǐn)?shù)據(jù),類別屬性則依據(jù)具體類別數(shù)劃分。
本文選擇Hadoop平臺(tái)對(duì)電力用戶核心大數(shù)據(jù)進(jìn)行匿名化管理。Hadoop是基于一種分布式系統(tǒng)基礎(chǔ)架構(gòu)設(shè)計(jì)的數(shù)據(jù)管理平臺(tái)。在Hadoop集群中,其中一個(gè)主控節(jié)點(diǎn)管理著集群的運(yùn)行,并協(xié)調(diào)從結(jié)點(diǎn)來(lái)實(shí)現(xiàn)數(shù)據(jù)計(jì)算功能。Hadoop系統(tǒng)初始核心組件主要為MapReduce并行框架和HDFS分布式文件系統(tǒng),經(jīng)過(guò)發(fā)展,目前已經(jīng)集成了HBase分布式數(shù)據(jù)管理系統(tǒng)、Sqoop關(guān)系數(shù)據(jù)交換工具以及各類數(shù)據(jù)處理工具,成為一個(gè)大型數(shù)據(jù)處理生態(tài)群[13-15],如圖1所示。
圖1 Hadoop生態(tài)系統(tǒng)
本文數(shù)值屬性劃分采用中位數(shù)的方式進(jìn)行,為避免快速排序在確定中位數(shù)的時(shí)間復(fù)雜度,本文通過(guò)統(tǒng)計(jì)每種取值出現(xiàn)的次數(shù)定位中位數(shù)的方式。實(shí)現(xiàn)方法為采用一個(gè)隊(duì)列機(jī)理,然后繼續(xù)劃分子數(shù)據(jù)集,接著依照順序從隊(duì)列中取出迭代進(jìn)行。
為驗(yàn)證基于核熵成分分析的電力用戶核心大數(shù)據(jù)匿名化算法的有效性,通過(guò)具體事例進(jìn)行分析。
本事例選擇某省2018年9~10月的部分電力用戶核心數(shù)據(jù)作為實(shí)驗(yàn)樣本,涉及年齡、郵編、婚姻狀態(tài)、性別和用電量。其中,核心數(shù)據(jù)的敏感信息為用電量,非敏感信息為年齡、郵編、婚姻狀態(tài)、性別。其中,非敏感信息泄露會(huì)導(dǎo)致電力用戶核心數(shù)據(jù)用電量泄露。事例中,2個(gè)為數(shù)值屬性,其余3個(gè)為類別屬性。在實(shí)驗(yàn)過(guò)程中,數(shù)據(jù)集通過(guò)文本文件形式放在HDFS中。系統(tǒng)采用常用的數(shù)據(jù)集Adult進(jìn)行。具體如表1所示。
表1 某省部分電力用戶核心數(shù)據(jù)
通過(guò)核熵成分分析方式,將數(shù)值信息映射到高維空間,然后進(jìn)行處理。處理方式如圖2所示,以郵編、年齡作為數(shù)值屬性數(shù)據(jù)集,采用核熵成分分析方法,達(dá)到2-匿名化要求。其中,(a)為數(shù)據(jù)分布情況,“☆”為數(shù)據(jù)條目,模糊化后用“*”表示。依照郵編屬性進(jìn)行數(shù)據(jù)劃分,左側(cè)初始的“*”變化為“≤30K”,右側(cè)為“>30K”。然后再對(duì)數(shù)據(jù)子集選擇年齡屬性再次進(jìn)行劃分,得到左下方數(shù)據(jù)初始“*”為“≤50”,左上方側(cè)為“>50”。對(duì)其右側(cè)數(shù)據(jù)子集依據(jù)年齡屬性再次進(jìn)行劃分,如圖(b)。其中,右下方年齡屬性變化為“≤54”,右上方數(shù)據(jù)年齡屬性變化為“>54”。此時(shí)不能再進(jìn)行任何劃分,獲得年齡屬性“>50”,郵編屬性為“≤30K”。
(1) 隱蔽性分析
為了驗(yàn)證電力用戶核心大數(shù)據(jù)的隱蔽性,本文通過(guò)隱私泄露進(jìn)行分析,具體結(jié)果如圖3所示。對(duì)比數(shù)據(jù)為基于Spark的電力用戶核心大數(shù)據(jù)匿名化所得的結(jié)果。
對(duì)比圖3可知,相對(duì)于基于Spark的電力用戶大數(shù)據(jù)匿名化系統(tǒng),基于核熵成分分析的電力用戶核心數(shù)據(jù)隱蔽性更佳,隱私泄露比例更少。這主要是由于核熵成分分析將信息量較大的主元數(shù)據(jù)映射到高維空間,在高維空間進(jìn)行主元分析,可以有效規(guī)避對(duì)所有信息進(jìn)行隱蔽產(chǎn)生的數(shù)據(jù)丟失現(xiàn)象,提高核心大數(shù)據(jù)的隱蔽性。
(2) 處理效率分析
為了分析電力用戶核心大數(shù)據(jù)匿名化系統(tǒng)進(jìn)行處理的效率,體現(xiàn)大數(shù)據(jù)處理優(yōu)勢(shì),對(duì)原有的數(shù)據(jù)集進(jìn)行復(fù)制3 000倍,并對(duì)復(fù)制數(shù)目的數(shù)值隨機(jī)修改。本文采用本算法系統(tǒng)和基于Spark的系統(tǒng)進(jìn)行相同處理,并記錄其用時(shí),每次數(shù)據(jù)集重復(fù)進(jìn)行10次,具體結(jié)果如圖4所示。
(a)
圖3 隱蔽性對(duì)比分析
根據(jù)圖4可知,采用基于核熵成分分析的電力用戶核心大數(shù)據(jù)匿名化算法具有更高的處理效率。
針對(duì)電力用戶核心大數(shù)據(jù),本文引入了基于核熵成分分析的匿名化算法進(jìn)行處理,結(jié)果顯示:
圖4 處理效率對(duì)比圖
(1) 將信息量較大的主元數(shù)據(jù)映射到高維空間,在高維空間進(jìn)行主元分析的降維方法,可以很好地應(yīng)用在電力用戶核心大數(shù)據(jù)匿名化研究中;
(2) 基于核熵成分分析的電力用戶核心大數(shù)據(jù)匿名化,具有更高的隱蔽性和更快的數(shù)據(jù)處理效率。