黃萍
摘 要:在對測試數(shù)據(jù)脫敏技術(shù)框架分類展開分析基礎(chǔ)上,本文結(jié)合電力測試數(shù)據(jù)脫敏需求提出了相應(yīng)的脫敏技術(shù)框架建構(gòu)思路和方法,并對框架部署和數(shù)據(jù)脫敏流程進(jìn)行了探討,希望能夠為電力行業(yè)數(shù)據(jù)脫敏提供參考。
關(guān)鍵詞:測試數(shù)據(jù);脫敏技術(shù);元數(shù)據(jù)管理
中圖分類號:TP309;F832.33 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2019)04-0056-02
0 引言
在信息時代,企業(yè)數(shù)據(jù)資源成為了推動業(yè)務(wù)發(fā)展創(chuàng)新的重要動力。而電力企業(yè)擁有大量涉及核心商業(yè)機(jī)密和客戶隱私的敏感數(shù)據(jù)信息,還要加強(qiáng)數(shù)據(jù)保護(hù)管理,以免因數(shù)據(jù)泄露承擔(dān)過大損失。因此在電力測試系統(tǒng)中,需要完成測試數(shù)據(jù)脫敏技術(shù)框架的構(gòu)建,實現(xiàn)數(shù)據(jù)脫敏處理,保證電力數(shù)據(jù)得到安全管理。
1 測試數(shù)據(jù)脫敏技術(shù)框架分類
所謂的數(shù)據(jù)脫敏,又被稱之為數(shù)據(jù)漂白、數(shù)據(jù)變形或去隱私化,需要采用既定脫敏方法實現(xiàn)數(shù)據(jù)處理,在符合規(guī)則前提下完成數(shù)據(jù)改造,保證數(shù)據(jù)能夠在開發(fā)、測試等環(huán)節(jié)中得到安全使用,同時保證數(shù)據(jù)集的真實性[1]。針對測試技術(shù)進(jìn)行脫敏處理,需要將敏感性原始數(shù)據(jù)轉(zhuǎn)換為不敏感的脫敏數(shù)據(jù)。而脫敏技術(shù)框架對具體脫敏處理底層技術(shù)進(jìn)行了承載,將決定數(shù)據(jù)脫敏效果。在脫敏技術(shù)框架下,底層技術(shù)將被實例化應(yīng)用,使框架抽象設(shè)計得到最大限度利用?,F(xiàn)階段,針對測試數(shù)據(jù),主要應(yīng)用的脫敏技術(shù)框架有兩種,一種是基于數(shù)據(jù)文件的脫敏框架ETL,另一種則是基于數(shù)據(jù)庫表的脫敏框架。其中,ETL由抽?。‥xtract)、變形(Transform)、裝載(Load)三個環(huán)節(jié)構(gòu)成,具有較高通用性,在IBM OPTIM等主流商用工具中得到了應(yīng)用,能夠從源數(shù)據(jù)表中完成數(shù)據(jù)抽取,得到特定格式原始數(shù)據(jù)文件。無論是否進(jìn)行部分量數(shù)據(jù)抽取,都能使數(shù)據(jù)間關(guān)聯(lián)關(guān)系的完整性得到保證。對數(shù)據(jù)文件進(jìn)行遍歷,利用外掛脫敏出口函數(shù)實現(xiàn)數(shù)據(jù)變形處理,可以得到特定格式的脫敏數(shù)據(jù)文件,在目標(biāo)數(shù)據(jù)庫中實現(xiàn)裝載[2]。采用基于數(shù)據(jù)庫表的脫敏框架,可以省略從數(shù)據(jù)庫表抽取數(shù)據(jù)的環(huán)節(jié),能夠直接進(jìn)行源數(shù)據(jù)變形。因此在該框架下,數(shù)據(jù)庫表為處理對象,通過逐條讀取數(shù)據(jù)記錄,按照不同變形規(guī)則進(jìn)行處理,然后在源數(shù)據(jù)庫標(biāo)中對記錄進(jìn)行更新,可以得到脫敏數(shù)據(jù)。在數(shù)據(jù)測試時,可以根據(jù)需求從源數(shù)據(jù)庫表中到處脫敏數(shù)據(jù)文件,在對應(yīng)目標(biāo)測試環(huán)境中裝載。
2 測試數(shù)據(jù)脫敏技術(shù)框架建構(gòu)
2.1 電力數(shù)據(jù)脫敏需求分析
在智能電網(wǎng)建設(shè)得到不斷推進(jìn)的背景下,大量敏感數(shù)據(jù)在電力行業(yè)得到了積累,給開發(fā)測試、業(yè)務(wù)分析等工作的開展帶來了困難。為加強(qiáng)數(shù)據(jù)安全管理,電力企業(yè)完成了信息資產(chǎn)分類分級保護(hù)機(jī)制的建立,用于加強(qiáng)敏感數(shù)據(jù)測試、傳輸和存儲管理。在電力數(shù)據(jù)測試環(huán)節(jié),為防止敏感數(shù)據(jù)泄露,要求完成數(shù)據(jù)脫敏處理。因為電力系統(tǒng)中測試環(huán)境資源有限,無法對生產(chǎn)環(huán)境數(shù)據(jù)量進(jìn)行完整模擬,所以只能實現(xiàn)部分功能性測試部署,難以實現(xiàn)性能層面測試。受數(shù)據(jù)質(zhì)量影響,生產(chǎn)環(huán)境會出現(xiàn)運(yùn)行緩慢問題。盡管能夠通過資源擴(kuò)充方式解決環(huán)境資源問題,但是想要實現(xiàn)全量數(shù)據(jù)恢復(fù),還要提高環(huán)境安全防護(hù)級別[3]。針對生產(chǎn)環(huán)境中的業(yè)務(wù)數(shù)據(jù),不允許在測試環(huán)境中恢復(fù),因此需要采用數(shù)據(jù)脫敏技術(shù)手段實現(xiàn)涉密數(shù)據(jù)脫敏處理,然后才能在測試環(huán)境中恢復(fù)生產(chǎn)環(huán)境數(shù)據(jù)。按照要求,電力測試數(shù)據(jù)脫敏需要完成電力生產(chǎn)敏感數(shù)據(jù)脫敏,利用標(biāo)準(zhǔn)化建模和自動化流程完成測試數(shù)據(jù)脫敏,保證數(shù)據(jù)安全性?,F(xiàn)階段,由于缺乏系統(tǒng)性脫敏技術(shù)方案,只在少數(shù)系統(tǒng)中部署了數(shù)據(jù)脫敏模塊,在數(shù)據(jù)脫敏方面缺乏專業(yè)化工具和管理手段。針對高敏感數(shù)據(jù),無法實現(xiàn)自動化的數(shù)據(jù)脫敏管理,在測試數(shù)據(jù)漂白方面無法對敏感數(shù)據(jù)進(jìn)行有效屏蔽,因此難以滿足電力數(shù)據(jù)脫敏需求。
2.2 脫敏技術(shù)框架建構(gòu)思路
結(jié)合電力測試數(shù)據(jù)脫敏需求可知,需要按照類型完成數(shù)據(jù)歸類處理,實現(xiàn)不同數(shù)據(jù)源類型的脫敏。從底層架構(gòu)上來看,采用ETL脫敏得到的數(shù)據(jù)形式為文件,數(shù)據(jù)落地次數(shù)在1到2次之間,與數(shù)據(jù)源平臺耦合松散,對源數(shù)據(jù)無影響,但是對存儲空間要求較高[4]。采用基于數(shù)據(jù)庫表的脫敏技術(shù)框架,數(shù)據(jù)落地次數(shù)在0到1之間,與平臺耦合緊密,以數(shù)據(jù)記錄作為異常處理最小顆粒度,會給源數(shù)據(jù)帶來一定影響,但是無過高存儲空間要求。因此在實際進(jìn)行脫敏技術(shù)框架構(gòu)建時,可以在底層架構(gòu)上實現(xiàn)兩種技術(shù)框架整合,達(dá)到優(yōu)勢互補(bǔ)的目的,提高測試數(shù)據(jù)脫敏自動化水平,使框架能夠?qū)Σ煌撁粜枨筮M(jìn)行靈活應(yīng)對。建立該框架,電力測試系統(tǒng)可以根據(jù)不同目標(biāo)完成不同大小測試數(shù)據(jù)子集的建立,從而使數(shù)據(jù)存儲空間得到減小,同時使數(shù)據(jù)脫敏效率得到提高。在數(shù)據(jù)抽取、脫敏過程中,數(shù)據(jù)的業(yè)務(wù)關(guān)聯(lián)不會遭到破壞。針對不同數(shù)據(jù)庫中的同類數(shù)據(jù),可以實現(xiàn)歸檔處理,經(jīng)過脫敏后可以保證數(shù)據(jù)一致性。
2.3 脫敏技術(shù)框架建構(gòu)方法
在實際建構(gòu)脫敏技術(shù)框架時,可以采用基于BS管理模式的多層框架結(jié)構(gòu),為測試數(shù)據(jù)提供統(tǒng)一元數(shù)據(jù)管理,為元數(shù)據(jù)的裝載、使用、維護(hù)等提供支持,增強(qiáng)脫敏工具的可擴(kuò)展性,為多個數(shù)據(jù)庫數(shù)據(jù)脫敏提供便利。采用元數(shù)據(jù)驅(qū)動法,可以進(jìn)行小容量子集的創(chuàng)建,使數(shù)據(jù)庫工作效率得到提高。從框架結(jié)構(gòu)上來看,最底層為數(shù)據(jù)存儲層,向上依次為服務(wù)引擎層、業(yè)務(wù)引擎層、流程管理層、邏輯界面層,最上層為物理界面層。實現(xiàn)各層分離設(shè)計,能夠按照需求實現(xiàn)容量擴(kuò)展,對數(shù)據(jù)進(jìn)行集群化處理,使數(shù)據(jù)處理性能得到保證。針對海量電力測試數(shù)據(jù),采取該架構(gòu)可以完成統(tǒng)一數(shù)據(jù)脫敏管理平臺的建設(shè),為各種業(yè)務(wù)的開展提供服務(wù)。從總體來看,數(shù)據(jù)存儲層需要面向文件內(nèi)容管理和元數(shù)據(jù)庫,實現(xiàn)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)分離式對接。利用服務(wù)引擎層,可以實現(xiàn)數(shù)據(jù)存取、格式轉(zhuǎn)換、緩存等操作,并實現(xiàn)適配器控制,使數(shù)據(jù)得到預(yù)處理,為后續(xù)數(shù)據(jù)脫敏奠定基礎(chǔ)。業(yè)務(wù)引擎層能夠?qū)θ罩?、元?shù)據(jù)等進(jìn)行控制,并且提供歸檔處理和脫敏處理引擎,能夠完成數(shù)據(jù)脫敏。按照脫敏規(guī)則,可以結(jié)合需求實現(xiàn)脫敏技術(shù)的應(yīng)用和更新。實際采用的脫敏技術(shù)包含歸零、屏蔽、移動、加解密、代替等,并且設(shè)置有自定義脫敏算法。流程管理層可以實現(xiàn)歸檔模型、規(guī)則的定義,并且提供歸檔模型樹和列表,按照需要對脫敏得到的數(shù)據(jù)進(jìn)行歸檔處理。邏輯界面層可以生成動態(tài)界面,提供個性化服務(wù),并對用戶請求進(jìn)行處理。采用技術(shù)框架進(jìn)行數(shù)據(jù)脫敏,能夠為敏感性專有數(shù)據(jù)提供保護(hù)。通過屏蔽脫密,能夠得到高度仿真數(shù)據(jù),并確保數(shù)據(jù)無法識別。在框架應(yīng)用過程中,能夠從備份數(shù)據(jù)庫和電力生產(chǎn)系統(tǒng)中進(jìn)行原始數(shù)據(jù)直接抽取,并且采用統(tǒng)一接口讀取數(shù)據(jù),利用核心模塊實現(xiàn)數(shù)據(jù)脫敏算法調(diào)用,按照測試數(shù)據(jù)脫敏需求抽取子集。最后,按照需求進(jìn)行脫敏數(shù)據(jù)歸檔,可以在目標(biāo)測試環(huán)境中裝載數(shù)據(jù)。采用該種技術(shù)框架,能夠完成通用脫敏函數(shù)的配置,為各種脫敏算法的實現(xiàn)提供支持。通過對各種算法進(jìn)行模塊化組合,可以完成數(shù)據(jù)高效處理。
3 測試數(shù)據(jù)脫敏技術(shù)框架實現(xiàn)
3.1 框架實踐部署
在框架實踐部署時,可以結(jié)合電力企業(yè)實際運(yùn)行環(huán)境進(jìn)行脫敏引擎節(jié)點部署。在數(shù)據(jù)庫節(jié)點部署上,可以進(jìn)行Oracle數(shù)據(jù)庫的安裝,用于實現(xiàn)數(shù)據(jù)脫敏源和脫敏目標(biāo)的存放,為數(shù)據(jù)脫敏處理提供工具資料庫。另外,也可以在云化集群系統(tǒng)中實現(xiàn)框架部署,為分布式數(shù)據(jù)脫敏提供支持,使框架結(jié)構(gòu)具有較好擴(kuò)展性。針對脫敏引擎節(jié)點,可以實現(xiàn)不同目標(biāo)類型替換,如XML文件、關(guān)系型數(shù)據(jù)庫、自定義文件、文本文件等??紤]到電力測試數(shù)據(jù)量較大,需要采用多線程并行執(zhí)行方式進(jìn)行數(shù)據(jù)數(shù)據(jù)表處理,利用主鍵完成Hash分組,并進(jìn)行partition鍵值的設(shè)置,確保各組數(shù)據(jù)量相等。以數(shù)據(jù)庫表為脫敏對象,可以采用動態(tài)SQL技術(shù)作為脫敏規(guī)則函數(shù)。通過完成SQL變換引擎、SQL智能分析引擎等數(shù)據(jù)脫敏引擎的配置,可以在不改變電力生產(chǎn)數(shù)據(jù)庫中原始數(shù)據(jù)的基礎(chǔ)上完成數(shù)據(jù)脫敏。相較于靜態(tài)SQL,動態(tài)SQL在程序運(yùn)行時需要完成Access Path編譯,并且需要在每次執(zhí)行時重復(fù)編譯,數(shù)據(jù)訪問速度有所降低,但是卻具有較強(qiáng)靈活性。采用參數(shù)標(biāo)志符Parameter Markers,能夠利用Prepare完成編譯。根據(jù)宿主變量對緩存Access Path進(jìn)行賦值,無需制定Prepare,因此能夠降低開銷。利用動態(tài)訪問和檢索方式,可以避免數(shù)據(jù)外泄。針對數(shù)據(jù)脫敏處理工具,需要完成多線程處理配置,使各線程負(fù)責(zé)相應(yīng)Hash分組數(shù)據(jù),有效降低脫敏數(shù)據(jù)處理時間。
3.2 數(shù)據(jù)脫敏流程
從數(shù)據(jù)脫敏流程來看,針對電力生產(chǎn)中采用的PMS、GIS和財務(wù)管控系統(tǒng)數(shù)據(jù),需要實現(xiàn)數(shù)據(jù)脫敏,然后將得到的數(shù)據(jù)在測試系統(tǒng)中應(yīng)用,避免電力用戶個人隱私數(shù)據(jù)泄漏時。首先,需要完成數(shù)據(jù)業(yè)務(wù)需求梳理,對需要脫敏的數(shù)據(jù)進(jìn)行確認(rèn)。結(jié)合電力生產(chǎn)實踐可知,需要對包含業(yè)務(wù)對象、基本表、分區(qū)狀況和索引表等在內(nèi)的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,實現(xiàn)數(shù)據(jù)模型。針對業(yè)務(wù)對象,需要梳理父子關(guān)系信息、脫敏規(guī)則、主外鍵信息等關(guān)聯(lián)關(guān)系和脫敏準(zhǔn)則。對接口脫敏用戶的權(quán)限,需要進(jìn)行評估,完成相關(guān)資源創(chuàng)建,然后實現(xiàn)連接配置,使數(shù)據(jù)源的可用性得到保證。針對脫敏規(guī)則和流程,還應(yīng)實現(xiàn)人工配置,確定脫敏表、脫敏函數(shù)、脫敏流程控制、脫敏函數(shù)分級等信息。在元數(shù)據(jù)導(dǎo)入管理上,根據(jù)接口信息可以完成敏感信息導(dǎo)入設(shè)置。通過執(zhí)行手工觸發(fā)配置和設(shè)定的時間調(diào)度,并且執(zhí)行計劃任務(wù),則能實現(xiàn)數(shù)據(jù)抽取,在目標(biāo)測試環(huán)境中完成脫敏數(shù)據(jù)裝載。根據(jù)執(zhí)行狀況,可以對脫敏任務(wù)進(jìn)行修改、展示等操作。在脫敏處理中,針對SQL語句,系統(tǒng)會完成合規(guī)性和安全性檢查,直接拋棄不符合要求的語句,并結(jié)合脫敏規(guī)則進(jìn)行SQL語句改寫,利用語句完成數(shù)據(jù)檢索查詢。得到的數(shù)據(jù)經(jīng)過脫敏引擎,能夠完成實時脫敏處理。針對得到的測試數(shù)據(jù)報告,還要根據(jù)業(yè)務(wù)審計需求加強(qiáng)審計,在審計報表中完成時間段、制定用戶等內(nèi)容的填寫。
4 結(jié)語
測試數(shù)據(jù)脫敏為復(fù)雜技術(shù)工作,還要從業(yè)務(wù)需求角度著手完成數(shù)據(jù)脫敏技術(shù)框架的構(gòu)建。對于電力企業(yè)來講,在生產(chǎn)數(shù)據(jù)測試中,需要完成敏感數(shù)據(jù)脫敏處理,避免用戶個人隱私數(shù)據(jù)泄露。在實際進(jìn)行脫敏技術(shù)框架構(gòu)建時,需要采用元數(shù)據(jù)管理方法,實現(xiàn)脫敏技術(shù)框架多層分離設(shè)計,并采用動態(tài)SQL技術(shù)實現(xiàn)核心數(shù)據(jù)脫敏功能,從而實現(xiàn)對各種業(yè)務(wù)需求的靈活應(yīng)對。
參考文獻(xiàn)
[1] 朱克,彭昌余.電力用戶信息脫敏研究[J].電腦知識與技術(shù),2018,14(26):10-12.
[2] 冉冉,李峰,王欣柳等.一種面向隱私保護(hù)的電力大數(shù)據(jù)脫敏方案及應(yīng)用研究[J].網(wǎng)絡(luò)空間安全,2018,9(01):105-113.
[3] 邢宇恒,張冰,毛一凡.數(shù)據(jù)脫敏在海量數(shù)據(jù)系統(tǒng)中的應(yīng)用[J].電信科學(xué),2017,33(S1):8-14.
[4] 焦偉,周曉聰,周期律.測試數(shù)據(jù)脫敏技術(shù)框架的研究與探討[J].中國金融電腦,2016(07):40-47.