亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于保形加密的大數(shù)據(jù)脫敏系統(tǒng)實(shí)現(xiàn)及評(píng)估

        2017-04-13 06:42:38卞超軼朱少敏周濤
        電信科學(xué) 2017年3期
        關(guān)鍵詞:脫敏單機(jī)加密算法

        卞超軼,朱少敏,周濤

        (1.北京啟明星辰信息安全技術(shù)有限公司,北京 100193;2.北京郵電大學(xué),北京 100876)

        一種基于保形加密的大數(shù)據(jù)脫敏系統(tǒng)實(shí)現(xiàn)及評(píng)估

        卞超軼1,2,朱少敏1,周濤1

        (1.北京啟明星辰信息安全技術(shù)有限公司,北京 100193;2.北京郵電大學(xué),北京 100876)

        數(shù)據(jù)脫敏,是指對(duì)數(shù)據(jù)中包含的一些涉及機(jī)密或隱私的敏感信息進(jìn)行特殊處理,以達(dá)到保護(hù)私密及隱私信息不被惡意攻擊者非法獲取的目的。保形加密是眾多數(shù)據(jù)脫敏技術(shù)的一種,但其具有保持原始數(shù)據(jù)格式不變的重要優(yōu)勢(shì),從而在一定程度上對(duì)上層應(yīng)用透明。隨著大數(shù)據(jù)時(shí)代的到來(lái)以及Hadoop平臺(tái)的廣泛應(yīng)用,傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)脫敏技術(shù)已不能滿足實(shí)際的生產(chǎn)需要。針對(duì)Hadoop大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)了一種基于保形加密的數(shù)據(jù)脫敏系統(tǒng),支持對(duì)多種數(shù)據(jù)存儲(chǔ)格式以及純數(shù)字、純字母或數(shù)字—字母混合等多種數(shù)據(jù)類型敏感數(shù)據(jù)的加密脫敏處理。然后對(duì)3種不同的實(shí)現(xiàn)方式進(jìn)行了探討,并開(kāi)展了一系列實(shí)驗(yàn)對(duì)系統(tǒng)的加密脫敏性能進(jìn)行詳細(xì)的評(píng)估比較。

        大數(shù)據(jù);數(shù)據(jù)脫敏;保形加密;系統(tǒng);評(píng)估

        1 引言

        數(shù)據(jù)脫敏,是指對(duì)數(shù)據(jù)中包含的秘密或隱私信息,如個(gè)人身份識(shí)別信息、商業(yè)機(jī)密數(shù)據(jù)等進(jìn)行特殊處理,以達(dá)到數(shù)據(jù)變形的效果,使得惡意攻擊者無(wú)法從經(jīng)過(guò)脫敏處理的數(shù)據(jù)中直接獲取敏感信息,從而實(shí)現(xiàn)對(duì)機(jī)密及隱私的防護(hù)。在金融、醫(yī)療、電信、電力等諸多行業(yè),數(shù)據(jù)脫敏都有著非常廣泛的應(yīng)用。例如,在電力系統(tǒng)中,用戶用電信息中就包含著很多重要的敏感數(shù)據(jù),一旦泄露出去,就可能被不法分子利用來(lái)分析用戶行為以及電網(wǎng)的組織結(jié)構(gòu)等,因此在存儲(chǔ)、傳輸及共享時(shí)必須進(jìn)行脫敏處理。根據(jù)數(shù)據(jù)脫敏的效果,可以將其分為兩大類——可恢復(fù)類和不可恢復(fù)類??苫謴?fù)類指經(jīng)過(guò)脫敏處理的數(shù)據(jù)可以通過(guò)一定的方式恢復(fù)成原始數(shù)據(jù),以各種加解密算法為代表;不可恢復(fù)類則是指經(jīng)過(guò)脫敏處理的數(shù)據(jù)無(wú)法復(fù)原,如模糊、掩蓋等。不可恢復(fù)類脫敏主要用于數(shù)據(jù)的共享與公開(kāi),而可恢復(fù)類則同時(shí)可用于靜態(tài)存儲(chǔ)和動(dòng)態(tài)傳輸時(shí)數(shù)據(jù)安全隱私的防護(hù)。因此,可恢復(fù)類數(shù)據(jù)脫敏技術(shù)具有更加廣泛的應(yīng)用場(chǎng)景。保形加密(format-preserving encryption,F(xiàn)PE)屬于可恢復(fù)類數(shù)據(jù)脫敏技術(shù)的一種,它的特點(diǎn)是密文與原文具有相同的數(shù)據(jù)格式,從而具備對(duì)上層應(yīng)用透明的優(yōu)勢(shì)。

        隨著大數(shù)據(jù)時(shí)代的到來(lái),以Hadoop為代表的大數(shù)據(jù)平臺(tái)被廣泛應(yīng)用,而針對(duì)關(guān)系型數(shù)據(jù)庫(kù)的脫敏技術(shù)及產(chǎn)品不能直接沿用至新型的大數(shù)據(jù)平臺(tái)。雖然保形加密算法已經(jīng)較為成熟,但是將其應(yīng)用于大數(shù)據(jù)平臺(tái)的研究和產(chǎn)品還很少見(jiàn)。因此,本文針對(duì)Hadoop平臺(tái)實(shí)現(xiàn)了基于保形加密的大數(shù)據(jù)脫敏系統(tǒng),支持包含 HDFS文件、HBase表、Hive表等多種不同的數(shù)據(jù)存儲(chǔ)格式,能夠高效完成對(duì)純數(shù)字、純字母以及數(shù)字—字母混合 3種不同類型數(shù)據(jù)的脫敏操作。同時(shí),還嘗試了幾種不同的實(shí)現(xiàn)方式,并在實(shí)驗(yàn)平臺(tái)上開(kāi)展了相應(yīng)的測(cè)試來(lái)評(píng)估比較加密處理的性能。

        首先針對(duì)Hadoop大數(shù)據(jù)平臺(tái)設(shè)計(jì)了一種保形加密機(jī)制,能夠?qū)adoop平臺(tái)上多種存儲(chǔ)形式和數(shù)據(jù)類型的敏感數(shù)據(jù)進(jìn)行脫敏處理,并達(dá)到保留數(shù)據(jù)格式不變的效果;然后采用了多種不同的實(shí)現(xiàn)方式達(dá)到同樣的數(shù)據(jù)脫敏效果,包括簡(jiǎn)單的單機(jī)處理模式、ETL(extract-transform-load,抽取—轉(zhuǎn)換—加載)工具模式、Spark并行處理模式,可以適用于不同的場(chǎng)景,滿足不同的需要;最后在實(shí)際的Hadoop集群上開(kāi)展一系列實(shí)驗(yàn)對(duì)多種實(shí)現(xiàn)方式及數(shù)據(jù)規(guī)模進(jìn)行了詳細(xì)的性能評(píng)估,比較了不同場(chǎng)景下的性能差別,同時(shí)也驗(yàn)證了系統(tǒng)用于實(shí)際生產(chǎn)環(huán)境下大數(shù)據(jù)脫敏的可行性。

        2 研究背景及相關(guān)工作

        對(duì)研究背景及相關(guān)工作進(jìn)行具體的描述,主要包含對(duì)保形加密與Hadoop大數(shù)據(jù)平臺(tái)的介紹。

        2.1 保形加密

        保形加密(也稱為保留格式的加密)是一類特殊的對(duì)稱加密機(jī)制,它最主要的特點(diǎn)就是保證密文的格式與加密前的明文格式完全相同,例如,對(duì)由16位數(shù)字組成的銀行卡號(hào)進(jìn)行加密后仍為 16位數(shù)字,從而具有無(wú)需更改數(shù)據(jù)庫(kù)范式以及對(duì)上層應(yīng)用透明的優(yōu)勢(shì)。保形加密可用于數(shù)據(jù)的掩蓋,并可通過(guò)調(diào)節(jié)加密的位數(shù)來(lái)實(shí)現(xiàn)不同的訪問(wèn)控制粒度。

        學(xué)術(shù)界在保形加密領(lǐng)域的研究關(guān)注已經(jīng)持續(xù)了10多年。2002年,Black和Rogaway首次從密碼學(xué)的角度對(duì)保形加密進(jìn)行了研究[1],關(guān)注于整數(shù)域上的保形加密問(wèn)題,并提出了 3種構(gòu)造加密機(jī)制的方法:Prefix、Cycle-walking及Generalized-Feistel。這3種方法中均利用了分組加密算法來(lái)產(chǎn)生偽隨機(jī)置換,因?yàn)殡m然真隨機(jī)置換是一種理想的保形加密機(jī)制,但對(duì)于數(shù)域較大的場(chǎng)景預(yù)先生成并記憶隨機(jī)置換表在實(shí)際中是不可行的。研究證明了保形加密的安全性與構(gòu)造中所使用的分組加密算法的安全性相同。后續(xù)研究提出了一系列的加密算法及模型,其中比較典型的有FFSEM[2]、FFX[3]、RtE[4]、BPS[5]等。在這些算法及模型中,F(xiàn)eistel網(wǎng)絡(luò)得到最為廣泛的采用,因?yàn)樗哂锌勺C明的安全性,得到了更多認(rèn)可。Feistel網(wǎng)絡(luò)是分組加密算法(如DES)中經(jīng)常采用的對(duì)稱加解密結(jié)構(gòu),包含多輪的迭代過(guò)程,其中每一輪都需要一個(gè)偽隨機(jī)數(shù)值作為輸入,通常用AES來(lái)產(chǎn)生。

        美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院 (National Institute of Standards and Technology,NIST)針對(duì)保形加密發(fā)布了相關(guān)的標(biāo)準(zhǔn)草案——SP800-38G[6],并給出了3種具體的加密算法:FF1、FF2及FF3。這些算法的主體流程是類似的,其核心均為一個(gè)Feistel網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示。圖1中繪出了3輪迭代過(guò)程的示意:在每一輪中數(shù)據(jù)被劃分成兩段——Ai及Bi,Bi在經(jīng)過(guò)函數(shù)FK變換后再與Ai相加得到下一輪的Bi+1,而下一輪的Ai+1則為本輪的Bi。其中,函數(shù)FK中包含了AES的加密運(yùn)算,K表示加密密鑰。FK函數(shù)還需要3個(gè)額外的輸入——基數(shù)n、tweak值T以及當(dāng)前迭代輪數(shù)。標(biāo)準(zhǔn)草案中給出的3種不同算法主要在于FK函數(shù)的不同形式以及迭代輪數(shù)。

        圖1 Feistel網(wǎng)絡(luò)結(jié)構(gòu)示意

        國(guó)內(nèi)的研究學(xué)者在保形加密方面也開(kāi)展了相應(yīng)的工作[7-10],主要是利用Feistel網(wǎng)絡(luò)來(lái)設(shè)計(jì)構(gòu)造新的加密算法,將算法的適用性范圍擴(kuò)展到任意分組長(zhǎng)度、任意字符集以及變長(zhǎng)編碼字符集(如同時(shí)包含中英文字符的數(shù)據(jù)),從而可以對(duì)更多類型的數(shù)據(jù)進(jìn)行加密。

        將保形加密應(yīng)用于數(shù)據(jù)脫敏在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)上已經(jīng)相對(duì)成熟,但在大數(shù)據(jù)平臺(tái)方面的工作還很少見(jiàn),僅有個(gè)別最新產(chǎn)品(如HP security voltage[11])提供了相關(guān)功能以支持NIST標(biāo)準(zhǔn)草案中的保形加密算法。本文工作嘗試彌補(bǔ)這一方面的不足,開(kāi)發(fā)實(shí)現(xiàn)了面向Hadoop大數(shù)據(jù)平臺(tái)的保形加密系統(tǒng),并評(píng)估比較了不同實(shí)現(xiàn)方式的加密性能,為在實(shí)際生產(chǎn)環(huán)境中應(yīng)用提供重要參考價(jià)值。

        2.2 Hadoop大數(shù)據(jù)平臺(tái)

        Hadoop[12]是由 Apache軟件基金會(huì)負(fù)責(zé)開(kāi)發(fā)及維護(hù)的開(kāi)源軟件框架,主要目標(biāo)是針對(duì)大數(shù)據(jù)的分布式存儲(chǔ)及分布式處理。Hadoop的核心由分布式存儲(chǔ)組件HDFS與運(yùn)算處理組件MapReduce組成。

        HDFS是一種分布式的文件系統(tǒng),它將文件分塊并分布式地存儲(chǔ)到多個(gè)數(shù)據(jù)節(jié)點(diǎn)(datanode)上,由元數(shù)據(jù)節(jié)點(diǎn)(namenode)負(fù)責(zé)管理文件系統(tǒng)的命名空間并存儲(chǔ)所有文件及文件夾的元數(shù)據(jù)信息。由于分布式的特性,HDFS能夠提供高吞吐量的數(shù)據(jù)訪問(wèn),從而適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。同時(shí),HDFS提供多文件副本的冗余存儲(chǔ)及數(shù)據(jù)校驗(yàn),具有高容錯(cuò)性的特點(diǎn)。

        MapReduce是一種用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算模型,它由map(映射)與reduce(化簡(jiǎn))兩步組成,通過(guò)多個(gè)mappers并行地處理鍵值對(duì),從而映射成新的鍵值對(duì),再將這一中間結(jié)果輸出到相應(yīng)的 reducers并發(fā)地進(jìn)行化簡(jiǎn)運(yùn)算處理以得到最終結(jié)果。MapReduce最大的特點(diǎn)是充分利用分布式計(jì)算以提高大規(guī)模數(shù)據(jù)集的計(jì)算處理效率。

        在HDFS文件存儲(chǔ)管理及MapReduce運(yùn)算處理支持的基礎(chǔ)上,Hadoop平臺(tái)上發(fā)展出豐富的組件及多種數(shù)據(jù)管理訪問(wèn)方式,除了基本的HDFS文件外,廣泛使用的還包括列式存儲(chǔ)的HBase和用類似關(guān)系型數(shù)據(jù)庫(kù)中以表結(jié)構(gòu)存儲(chǔ)、SQL查詢語(yǔ)言訪問(wèn)管理的Hive等。

        然而,MapReduce也存在一些缺點(diǎn),其中在性能方面的一個(gè)重要不足是其需要將每步處理的中間結(jié)果通過(guò)硬盤進(jìn)行中轉(zhuǎn),從而帶來(lái)大量的硬盤I/O開(kāi)銷。針對(duì)此問(wèn)題,UC Berkeley(美國(guó)加利福尼亞大學(xué)伯克利分校)的研究者開(kāi)發(fā)了Spark[13]通用并行計(jì)算框架及平臺(tái)。Spark在存儲(chǔ)方面沿用 HDFS,主要是重新實(shí)現(xiàn)了分布式計(jì)算部分,將中間計(jì)算結(jié)果通過(guò)內(nèi)存中轉(zhuǎn),從而大幅提升了計(jì)算處理的效率。

        本文工作面向Hadoop大數(shù)據(jù)平臺(tái),支持Hadoop平臺(tái)上的多種數(shù)據(jù)存儲(chǔ)管理方式,并且探討了多種不同的系統(tǒng)實(shí)現(xiàn)方式,其中包含利用相對(duì)更高效的Spark并行計(jì)算框架以提升加密效率。

        3 保形加密大數(shù)據(jù)脫敏系統(tǒng)

        本節(jié)對(duì)保形加密大數(shù)據(jù)脫敏系統(tǒng)進(jìn)行具體描述,并對(duì)一些重要的實(shí)現(xiàn)細(xì)節(jié)給出說(shuō)明。

        3.1 概述

        本文共嘗試了3種不同的系統(tǒng)實(shí)現(xiàn)方式,分別是簡(jiǎn)單單機(jī)模式、ETL工具模式以及Spark并行模式。這3種模式均是面向Hadoop大數(shù)據(jù)平臺(tái)上存儲(chǔ)的數(shù)據(jù),區(qū)別主要在于核心的計(jì)算流程。簡(jiǎn)單來(lái)說(shuō),單機(jī)模式是先將數(shù)據(jù)從Hadoop平臺(tái)上導(dǎo)出,然后再使用單機(jī)程序進(jìn)行數(shù)據(jù)加密操作;ETL工具模式是利用支持Hadoop平臺(tái)的ETL工具作為媒介,形成“導(dǎo)出—加密—輸出”的流水線操作;Spark并行模式則是直接使用Spark并行計(jì)算框架進(jìn)行開(kāi)發(fā),將加密操作以Spark作業(yè)的方式提交到集群上運(yùn)行。在這些實(shí)現(xiàn)方式中,采用的保形加密算法是經(jīng)過(guò)簡(jiǎn)單修改的NIST標(biāo)準(zhǔn)草案中的FF1算法[6]。

        3.2 保形加密算法

        為了同時(shí)支持純數(shù)字、純字母及數(shù)字—字母混合這3種類型數(shù)據(jù)的加密操作,對(duì)NIST標(biāo)準(zhǔn)草案的FF1算法[6]進(jìn)行了簡(jiǎn)單修改。在給定分組加密密鑰K、基數(shù)n及tweak值T時(shí),F(xiàn)F1算法能夠?qū)γ魑腜進(jìn)行保形加密,默認(rèn)n=10以下字符集對(duì)應(yīng)數(shù)字0~9,再往上增長(zhǎng)則依次對(duì)應(yīng)英文字母a~z,如16進(jìn)制對(duì)應(yīng)的字符集為{0,1,…,9,a,b,…,f}。該算法給出了在FF1算法基礎(chǔ)上進(jìn)行簡(jiǎn)單修改后的保形加密算法整體流程的偽代碼描述。

        輸入明文P、FF1加密算法F、分組加密密鑰K、基數(shù)n、tweak值T

        輸出密文C

        (1)判斷基數(shù)n是否不大于10,或者等于36

        (2) 如果是,則C=F(n,K,T,P),返回

        (3) 如果不是,則再判斷n是否等于26

        (4) 如果是,則

        (5) P*=Map(P)

        (6) C*=F(n,K,T,P*)

        (7) C=InverseMap(C*),返回

        (8) 如果不是,返回基數(shù)設(shè)置異常錯(cuò)誤

        算法通過(guò)對(duì)基數(shù) n的設(shè)置來(lái)調(diào)節(jié)所支持的字符集,n的取值范圍是{1,2,3,…,10,26,36}(其中n=1表示字符集只包含一個(gè)數(shù)字0,沒(méi)有意義)。舉例來(lái)說(shuō),n=10表示加密數(shù)域是十進(jìn)制數(shù),也就是字符集為數(shù)字(即 0~9);n=36表示加密數(shù)域是36進(jìn)制數(shù),從而支持字符集為數(shù)字及英文字母混合(即 0~9、a~z);而為了支持純英文字母字符集(即a~z)的加密,可令n=26,此時(shí)原本對(duì)應(yīng)的字符集為0~9、a~p,所以需要在加密前及加密后附加進(jìn)行一次額外的映射操作(第(5)行和第(7)行),將其轉(zhuǎn)換成a~z。

        算法是不區(qū)分大小寫字母的,但可對(duì)其進(jìn)行進(jìn)一步的擴(kuò)充,也就是說(shuō)可以將同時(shí)包含數(shù)字及大小寫字母的字符集看作62進(jìn)制數(shù)域,再進(jìn)行相應(yīng)的字符映射即可;類似地,還可以繼續(xù)擴(kuò)充以支持更大的字符集,如全體ASCII字符。為了簡(jiǎn)單而不失代表性,本文只實(shí)現(xiàn)了以上算法,進(jìn)一步的擴(kuò)展支持工作將在后續(xù)研究中完成。

        FF1算法是一種對(duì)稱加密算法,其解密過(guò)程與加密過(guò)程是相同的,因此基于其的算法也是如此,這里就不再介紹算法的解密部分,而在接下來(lái)的具體實(shí)現(xiàn)方式描述以及之后的實(shí)驗(yàn)評(píng)估部分也將略去對(duì)解密操作的說(shuō)明。

        3.3 簡(jiǎn)單單機(jī)模式

        簡(jiǎn)單單機(jī)模式是3種模式中最為簡(jiǎn)單、直接的系統(tǒng)實(shí)現(xiàn)方式,其思路是將存儲(chǔ)在Hadoop平臺(tái)上的數(shù)據(jù)先導(dǎo)出保存到本地,再使用實(shí)現(xiàn)的保形加密算法對(duì)存儲(chǔ)在本地文件中的數(shù)據(jù)進(jìn)行加密操作,從而完成數(shù)據(jù)脫敏過(guò)程。根據(jù)存儲(chǔ)管理方式的不同,使用了對(duì)應(yīng)的Hadoop編程接口以支持HDFS文件、HBase表及Hive表數(shù)據(jù)的導(dǎo)出。然后在單機(jī)上應(yīng)用實(shí)現(xiàn)的算法對(duì)數(shù)據(jù)進(jìn)行逐條加密。

        簡(jiǎn)單單機(jī)模式的優(yōu)點(diǎn)是簡(jiǎn)單、直觀,并且可以脫機(jī)處理(數(shù)據(jù)導(dǎo)出后不需要再連接大數(shù)據(jù)平臺(tái)),但缺點(diǎn)也很明顯——效率低,因?yàn)橹皇褂昧藛螜C(jī)對(duì)數(shù)據(jù)進(jìn)行串行式的逐條加密處理,既沒(méi)有利用大數(shù)據(jù)平臺(tái)分布式的特點(diǎn),也沒(méi)有在加密方面進(jìn)行并行處理。

        3.4 ETL工具模式

        為了提高加密的效率,可以利用ETL工具來(lái)實(shí)現(xiàn)流水線式處理以及并行度的提升。選用開(kāi)源的ETL工具——Pentaho Data Integration(Kettle)[14],將保形加密以轉(zhuǎn)換插件方式提供,從而直接支持Hadoop平臺(tái)上的多種數(shù)據(jù)格式。Kettle是一款跨平臺(tái)開(kāi)源 ETL工具,它使得用戶可以直接通過(guò)使用可視化工具的拖拽來(lái)完成數(shù)據(jù)的導(dǎo)入、導(dǎo)出及基礎(chǔ)轉(zhuǎn)換操作,支持Cloudera版本(CDH)[15]、Hortonworks版本(HDP)[16]等多種Hadoop發(fā)行版本。所使用的Kettle的版本號(hào)是6.0.0.0-353。

        保形加密插件的開(kāi)發(fā)主要包含兩大部分,即加密算法和交互界面。加密算法即上述的算法,而交互界面的作用主要是與用戶進(jìn)行交互,提供一些參數(shù)配置功能,包括明文列名、密文列名、密鑰配置 (指定密鑰或隨機(jī)密鑰)、tweak配置(指定tweak值或隨機(jī)tweak值)及基數(shù)等。基于Kettle實(shí)現(xiàn)的保形加密系統(tǒng)主界面以及保形加密轉(zhuǎn)換插件配置界面如圖2所示,這也正是ETL工具模式的另一個(gè)優(yōu)點(diǎn)——良好的用戶交互圖形界面。相對(duì)而言,其他兩種模式的系統(tǒng)實(shí)現(xiàn)僅能通過(guò)終端參數(shù)指定來(lái)進(jìn)行簡(jiǎn)單的交互。

        ETL工具模式對(duì)保形加密的效率有兩方面的提升。第一個(gè)方面是“數(shù)據(jù)導(dǎo)出—加密脫敏—結(jié)果存儲(chǔ)”這條流水線的形成,即數(shù)據(jù)源源不斷地從Hadoop大數(shù)據(jù)平臺(tái)流出并進(jìn)入保形加密模塊進(jìn)行脫敏處理,然后再緊接著輸出到指定位置。第二個(gè)方面則是其支持并行處理:在Kettle的單機(jī)運(yùn)行模式上,可以設(shè)置保形加密轉(zhuǎn)換步驟的并發(fā)數(shù),從而利用多核心處理器的并發(fā)處理優(yōu)勢(shì);Kettle還可以組織成集群模式,通過(guò)將數(shù)據(jù)分發(fā)到集群的各個(gè)主機(jī)上,實(shí)現(xiàn)多主機(jī)并行處理的效果。

        圖2 基于Kettle的ETL工具模式系統(tǒng)實(shí)現(xiàn)界面

        3.5 Spark并行模式

        為了進(jìn)一步利用Hadoop平臺(tái)在分布式存儲(chǔ)及并行計(jì)算方面的優(yōu)勢(shì),可以直接基于并行計(jì)算框架實(shí)現(xiàn)保形加密操作。相較于MapReduce,Spark利用內(nèi)存計(jì)算避免了低效的硬盤輸入/輸出操作,從而具有更高的計(jì)算效率。因此,基于 Spark實(shí)現(xiàn)的并行模式將為大數(shù)據(jù)規(guī)模的保形加密效率帶來(lái)實(shí)質(zhì)性的提升。

        具體地,使用Spark的Scala編程接口實(shí)現(xiàn)對(duì)Hadoop平臺(tái)上大數(shù)據(jù)的加密脫敏處理過(guò)程為:首先讀取Hadoop平臺(tái)上存儲(chǔ)的數(shù)據(jù)(HDFS文件、HBase表、Hive表等)形成Spark的數(shù)據(jù)抽象——彈性分布式數(shù)據(jù)集 (resilient distributed dataset,RDD),然后再應(yīng)用Spark提供的并行計(jì)算編程接口,在分布式集群上對(duì)所有RDD執(zhí)行并行的加密操作。

        在此種模式下,保形加密操作是以Spark作業(yè)的方式呈現(xiàn)的,通過(guò)將其提交到分布式計(jì)算平臺(tái)上執(zhí)行來(lái)完成對(duì)數(shù)據(jù)的脫敏處理。因此,針對(duì)Spark的參數(shù)調(diào)優(yōu)對(duì)于此模式的運(yùn)行效率有一定影響。

        4 實(shí)驗(yàn)評(píng)估

        為了評(píng)估所實(shí)現(xiàn)的保形加密大數(shù)據(jù)脫敏系統(tǒng)的性能,并比較第2節(jié)所提到的 3種模式的差別,在實(shí)際的Hadoop大數(shù)據(jù)平臺(tái)上開(kāi)展了一系列實(shí)驗(yàn),本節(jié)將描述這些實(shí)驗(yàn)內(nèi)容及評(píng)估比較的結(jié)果。

        4.1 實(shí)驗(yàn)環(huán)境

        采用的Hadoop平臺(tái)是由 3臺(tái)戴爾 PowerEdge R720服務(wù)器組成的小集群,采用的Hadoop版本是 CDH 5.4。在保形加密系統(tǒng)的簡(jiǎn)單單機(jī)模式和ETL工具模式中連接Hadoop集群的主機(jī)是一臺(tái)聯(lián)想ThinkPad T440p筆記本電腦。服務(wù)器與筆記本電腦的CPU及內(nèi)存的具體參數(shù)見(jiàn)表 1。

        表1 CPU及內(nèi)存參數(shù)

        4.2 實(shí)驗(yàn)分析

        對(duì)第 2節(jié)所述的 3種模式實(shí)現(xiàn)的系統(tǒng)都開(kāi)展了相應(yīng)的實(shí)驗(yàn)進(jìn)行性能評(píng)估。列出的所有實(shí)驗(yàn)數(shù)據(jù)均是在同樣的系統(tǒng)環(huán)境下10次獨(dú)立重復(fù)實(shí)驗(yàn)的平均結(jié)果。

        首先,測(cè)試了一些不同參數(shù)設(shè)置的影響。以ETL工具模式為例,測(cè)試了不同并發(fā)數(shù)、不同數(shù)據(jù)規(guī)模等場(chǎng)景下保形加密的性能。

        不同并發(fā)數(shù)設(shè)置下ETL工具模式在Thinkpad筆記本電腦上單機(jī)執(zhí)行時(shí)的保形加密性能比較結(jié)果如圖3所示,其中使用的數(shù)據(jù)規(guī)模是10M條(即107條)數(shù)據(jù)。由圖3可知,將并發(fā)數(shù)設(shè)置成計(jì)算機(jī)所具有的CPU核心數(shù) (本例中為4)時(shí)達(dá)到的性能最高——處理速度約為1.6萬(wàn)條/s。

        圖3 保形加密性能比較結(jié)果(不同并發(fā)數(shù)設(shè)置)

        不同數(shù)據(jù)規(guī)模下ETL工具模式在Thinkpad筆記本電腦上單機(jī)執(zhí)行的處理性能對(duì)比結(jié)果如圖4所示,其中,并發(fā)數(shù)設(shè)定為4,數(shù)據(jù)規(guī)模由最小的1萬(wàn)(104)條一直增大到1億(108)條。圖中的x軸(數(shù)據(jù)條數(shù))和y1軸(即左側(cè)的y軸,時(shí)間)均為對(duì)數(shù)尺度。由圖4可知,完成加密脫敏處理的時(shí)間隨數(shù)據(jù)規(guī)模的增大而基本呈線性增長(zhǎng)趨勢(shì),處理的速度在數(shù)據(jù)規(guī)模達(dá)到 106之后維持穩(wěn)定。數(shù)據(jù)規(guī)模較小時(shí)處理速度較慢,其原因可能是初始連接Hadoop集群讀取數(shù)據(jù)到保形加密的流水線啟動(dòng)期間執(zhí)行相對(duì)較慢。

        圖4 保形加密性能比較結(jié)果(不同規(guī)模設(shè)置)

        同時(shí),還開(kāi)展了對(duì)不同類型數(shù)據(jù)(即基數(shù)設(shè)置不同)的加密性能評(píng)估比較,結(jié)果證明加密性能基本相同,即對(duì)純數(shù)字、純字母或數(shù)字—字母這3種類型的數(shù)據(jù)具有相同的加密性能,此處略去相關(guān)的結(jié)果。

        類似地,對(duì)于簡(jiǎn)單單機(jī)模式和Spark并行模式也評(píng)估了一些不同參數(shù)設(shè)置下的性能變化。由于篇幅的限制,這里不再一一給出。

        然后,開(kāi)展實(shí)驗(yàn)來(lái)測(cè)評(píng)3種模式對(duì)相同規(guī)模數(shù)據(jù)進(jìn)行加密脫敏處理的性能差別。實(shí)驗(yàn)中其他參數(shù)設(shè)置均為最優(yōu)(如ETL工具中保形加密的并發(fā)數(shù)、Spark作業(yè)提交的相關(guān)參數(shù)等)。3種模式在不同數(shù)據(jù)規(guī)模下的加密處理速度對(duì)比見(jiàn)表2。由表2可知,在這3種模式中,Spark并行模式的加密處理速度最快,而且隨著數(shù)據(jù)規(guī)模的增大,其處理速度還會(huì)有所提升,其主要原因是在數(shù)據(jù)規(guī)模較小時(shí)Spark的并行優(yōu)勢(shì)還沒(méi)有得到充分發(fā)揮。相比較來(lái)看,另外兩種模式的加密處理速度在不同數(shù)據(jù)規(guī)模下基本維持穩(wěn)定??傮w來(lái)看,ETL工具模式的加密處理速度約為簡(jiǎn)單單機(jī)模式的3倍,而 Spark并行模式的處理速度在大數(shù)據(jù)規(guī)模下(100M,即1億條數(shù)據(jù))更能達(dá)到簡(jiǎn)單單機(jī)模式的16倍之多。

        為了更清晰地展示3種模式的加密效率差別,不同數(shù)據(jù)規(guī)模下3種模式的總執(zhí)行時(shí)間對(duì)比如圖 5所示,圖例中“simple”表示簡(jiǎn)單單機(jī)模式,“ETL”表示ETL工具模式,“Spark”表示Spark并行模式。

        表2 3種模式加密處理速度對(duì)比

        圖5 3種模式總執(zhí)行時(shí)間比較

        從這一結(jié)果中也能得出,基于保形加密的大數(shù)據(jù)脫敏系統(tǒng)性能可以滿足實(shí)際生產(chǎn)需要的結(jié)論。具體來(lái)說(shuō),對(duì)于108規(guī)模的數(shù)據(jù)(即1億條),使用ETL工具模式處理僅需要花費(fèi)約105 min,而使用Spark并行模式更是只需要花費(fèi)約20 min,而且這只是在一臺(tái)配備四核處理器的筆記本電腦單機(jī)ETL模式以及僅由3臺(tái)服務(wù)器組成的Spark集群下的測(cè)量結(jié)果。若在實(shí)際生產(chǎn)環(huán)境中采用集群模式的ETL或者更大規(guī)模的Spark集群,則必然能取得更高的加密脫敏效率。

        5 結(jié)束語(yǔ)

        針對(duì)大數(shù)據(jù)環(huán)境下的脫敏問(wèn)題設(shè)計(jì)了一種面向Hadoop平臺(tái)的基于保形加密的解決方案,并完成了具體的系統(tǒng)實(shí)現(xiàn)工作。該系統(tǒng)支持Hadoop平臺(tái)下的多種數(shù)據(jù)存儲(chǔ)格式,如HDFS文件、HBase表、Hive表等,可以對(duì)純數(shù)字、純字母及數(shù)字—字母混合等多種類型的敏感數(shù)據(jù)完成保形加密的脫敏操作。給出了3種不同的實(shí)現(xiàn)方式,即簡(jiǎn)單單機(jī)模式、ETL工具模式及 Spark并行模式,它們有著各自的優(yōu)/缺點(diǎn)和適用場(chǎng)景。在實(shí)際的Hadoop平臺(tái)上,開(kāi)展了一系列實(shí)驗(yàn)來(lái)評(píng)測(cè) 3種實(shí)現(xiàn)方式的系統(tǒng)性能,結(jié)果驗(yàn)證了系統(tǒng)在實(shí)際生產(chǎn)環(huán)境中的可行性,也對(duì) 3種模式的使用選擇有重要的指導(dǎo)意義。在后續(xù)研究工作中,將嘗試擴(kuò)展算法使其支持更多種的數(shù)據(jù)類型,并深入測(cè)試ETL工具模式中使用集群工作模式的效果以及 Spark參數(shù)調(diào)優(yōu)的具體影響。

        [1]BLACK J,ROGAWAY P.Ciphers with arbitrary finite domains [M].Berlin Heidelberg:Springer,2002.

        [2]SPIES T.Feistel finite set encryption mode[J/OL].NIST Proposed Encryption Mode,2008:1-10.(2008-01-24)[2016-07-01].https: //static.aminer.org/pdf/PDF/000/217/259/about_feistel_schemes_ with_six_or_more_rounds.pdf.

        [3]BELLAREM,RISTENPARTT,ROGAWAYP,etal.Format-preserving encryption[C]//Selected Areas in Cryptography,March 4-9,2009, Berlin,Germany.Berlin Heidelberg:Springer,2009:295-312.

        [4]BELLARE M,ROGAWAY P,SPIES T.The FFX mode ofoperation for format-preserving encryption[J].Unpublished Nist Proposal, 2010,136(9):633.

        [5]BRIER E,PEYRIN T,STERN J.BPS:a format-preserving encryption proposal[J/OL].NIST submission,2010:1-11.(2010-04-04) [2016-07-01].http://csrc.nist.gov/groups/ST/ toolkit/BCM/documents/proposedmodes/bps/bps-spec.pdf.

        [6]DWORKINM.Recommendation forblock ciphermodesofoperation: methodsforformat-preservingencryption[J].NISTSpecialPublication, 2013(800):38.

        [7] 劉哲理,賈春福,李經(jīng)緯.保留格式加密模型研究[J].通信學(xué)報(bào),2011,32(6):184-190. LIUZL,JIAC F,LIJW.Research on the format-preservingencryption modes[J].Journal on Communications,2011,32(6):184-190.

        [8] 劉哲理,賈春福,李經(jīng)緯.保留格式加密技術(shù)研究[J].軟件學(xué)報(bào),2012,23(1):152-170. LIUZL,JIACF,LIJW.Research on the format-preservingencryption techniques[J].Journal of Software,2012,23(1):152-170.

        [9]李敏,賈春福,李經(jīng)緯,等.變長(zhǎng)編碼字符型數(shù)據(jù)的保留格式加密[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2012,42(5):1257-1261. LI M,JIA C F,LI J W,et al.Format-preserving encryption for variable-length encoding character data[J].Journal of Jilin University:Engineering and Technology Edition,2012,42(5): 1257-1261.

        [10]李經(jīng)緯,賈春福,劉哲理,等.基于 k-分割 Feistel網(wǎng)絡(luò)的FPE方案[J].通信學(xué)報(bào),2012,33(4):62-68. LI J W,JIA C F,LIU Z L,et al.FPE scheme based on k-sp lits feistel network[J].Journal on Communications,2012,33(4): 62-68.

        [11]HP.HP security voltage[EB/OL].(2015-02-09)[2016-03-01]. https://saas.hpe.com/en-us/software/voltage-data-encryptionsecurity.

        [12]Apache Software Foundation.Apache Hadoop[EB/OL].(2011-12-10)[2016-07-01].http://hadoop.apache.org/.

        [13]Apache Software Foundation.Apache Spark[EB/OL].(2014-05-30)[2016-07-01].http://spark.apache.org/.

        [14]Pentaho.Data integration-Kettle[EB/OL].(2009-05-14)[2016-07-01].http://community.pentaho.com/projects/data-integration/.

        [15]Cloudera.Cloudera CDH[EB/OL].(2012-10-12)[2016-07-01]. http://www.cloudera.com/products/apache-hadoop/key-cdh-components.htm l.

        [16]Hortonworks.HORTONW0RKS data platform (HDP)[EB/OL].(2012-11-30)[2016-07-01].http://hortonworks.com/products/ data-center/hdp/.

        Implementation and evaluation of big data desensitization system based on format-preserving encryption

        BIAN Chaoyi1,2,ZHU Shaomin1,ZHOU Tao1
        1.Beijing Venus Information Security Technology Incorporated Company,Beijing 100193,China
        2.Beijing University of Posts and Telecommunications,Beijing 100876,China

        Data desensitization is a process that makes some special transformations on sensitive data in order to protect the secrecy and privacy from being acquired by malicious attackers.Format-preserving encryption is one of the techniques of data desensitization,which has the advantage of keeping data format unchanged so that the upper layer applications are not affected.Along with the coming of big data and the wide application of the Hadoop platform,data desensitization techniques for traditional relational database management systems cannot satisfy the need of production.A data desensitization system based on format-preserving encryption for Hadoop platform was implemented,which provided the encryption support for multiple data storage formats and data value types.Moreover, three different sorts of implementations were discussed,and a series of experiments were carried out to evaluate the performance.

        big data,data desensitization,format-preserving encryption,system,evaluation

        TP309.2

        :A

        10.11959/j.issn.1000-0801.2017059

        卞超軼(1987-),男,北京啟明星辰信息安全技術(shù)有限公司高級(jí)研究員,啟明星辰博士后工作站——北京郵電大學(xué)博士后流動(dòng)站聯(lián)合培養(yǎng)博士后,主要研究方向?yàn)榇髷?shù)據(jù)自身安全、大數(shù)據(jù)安全分析等。

        朱少敏(1983-),男,北京啟明星辰信息安全技術(shù)有限公司前線技術(shù)專家團(tuán)成員,主要研究方向?yàn)殡娏ο到y(tǒng)信息安全、多媒體信息處理等。

        周濤(1979-),男,博士,北京啟明星辰信息安全技術(shù)有限公司教授級(jí)高級(jí)工程師,主要研究方向?yàn)榇髷?shù)據(jù)安全分析、事件關(guān)聯(lián)分析、入侵檢測(cè)等。

        2016-10-20;

        2017-02-24

        猜你喜歡
        脫敏單機(jī)加密算法
        激光聯(lián)合脫敏劑治療牙本質(zhì)過(guò)敏癥
        熱連軋單機(jī)架粗軋機(jī)中間坯側(cè)彎廢鋼成因及對(duì)策
        新疆鋼鐵(2021年1期)2021-10-14 08:45:36
        過(guò)敏體質(zhì)與脫敏治療
        宇航通用單機(jī)訂單式管理模式構(gòu)建與實(shí)踐
        讓青春脫敏
        幸福(2017年18期)2018-01-03 06:34:42
        水電的“百萬(wàn)單機(jī)時(shí)代”
        能源(2017年9期)2017-10-18 00:48:22
        基于小波變換和混沌映射的圖像加密算法
        Nd:YAG激光作用下牙本質(zhì)脫敏機(jī)制的研究
        Hill加密算法的改進(jìn)
        筑路機(jī)械單機(jī)核算的思考與研究
        在线视频日韩精品三区| 国产成人无码av在线播放dvd| 成人区视频| 伊人亚洲综合影院首页| 久久精品国产亚洲av不卡国产| 国产成人无码18禁午夜福利p| 亚洲综合色成在线播放| 区无码字幕中文色| 一区二区视频在线国产| 亚洲欧美一区二区成人片| 国产一区二区三区美女| 国产激情一区二区三区在线蜜臀 | 三级国产女主播在线观看| 偷拍一区二区三区在线观看| 国产精品久久久在线看| 国语对白嫖老妇胖老太| 欧美黄色免费看| 国产一区二区免费在线观看视频| 黄色av一区二区在线观看| 毛片亚洲av无码精品国产午夜| 美国黄色片一区二区三区| 国产成人自拍视频视频| 免费a级毛片无码免费视频首页| 国产人妻久久精品二区三区| 女人的天堂av免费看| 蓝蓝的天空,白白的云| 国产精品久久久久高潮| 伊人中文字幕亚洲精品乱码| 日韩午夜福利无码专区a| 亚洲一区二区三区地址| 三级黄片一区二区三区| 视频一区精品中文字幕| 欧美破处在线观看| 亚洲国产av一区二区不卡| 色欲av伊人久久大香线蕉影院| 亚洲欧美日韩综合久久久| 国产精品毛片久久久久久l| 亚洲精品女人天堂av麻| 国产美女一区三区在线观看| 性猛交ⅹxxx富婆视频| 欧美黑人巨大xxxxx|