陳 藝,江芝蒙,張 渝
(1.四川文理學(xué)院 智能制造學(xué)院,四川 達(dá)州 635000;2.四川文理學(xué)院 信息化建設(shè)與服務(wù)中心,四川 達(dá)州 635000;3.西南大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 400715)
目前應(yīng)用最常用的大數(shù)據(jù)分析工具是Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS),其支持管理、存儲大量數(shù)據(jù)以及快速形成決策,并降低了人為估計(jì)的風(fēng)險(xiǎn)[1-3]。然而大數(shù)據(jù)的廣泛使用帶來了數(shù)據(jù)安全隱患,特別是處理機(jī)密數(shù)據(jù)時(shí),如公司商業(yè)機(jī)密、個(gè)人隱私信息等。因此,安全和隱私是傳輸大數(shù)據(jù)的關(guān)鍵,任何大數(shù)據(jù)安全傳輸方案都應(yīng)滿足數(shù)據(jù)機(jī)密性、完整性和可用性的要求。
大數(shù)據(jù)安全主要從數(shù)據(jù)安全和訪問控制兩個(gè)方面考慮,而數(shù)據(jù)管理和數(shù)據(jù)分類是關(guān)鍵所在,其中大數(shù)據(jù)安全管理常用的控制策略是Kerberos[4]。文獻(xiàn)[5,6]定義了一組大數(shù)據(jù)安全特性的自動化工具用于收集不同的數(shù)據(jù)類型,并分析引擎處理實(shí)時(shí)應(yīng)用中的大量快速變化的數(shù)據(jù),從而進(jìn)行安全性分析,但缺乏對如何保護(hù)大數(shù)據(jù)免受不同資源的潛在風(fēng)險(xiǎn)的論述。文獻(xiàn)[7,8]設(shè)計(jì)了一種智能驅(qū)動的安全模型,用于監(jiān)控具有異常行為的用戶,但缺乏針對數(shù)據(jù)丟失和數(shù)據(jù)泄漏的保護(hù)。此外,大多數(shù)安全機(jī)制雖然能夠保證固定數(shù)據(jù)免受威脅,但不足以應(yīng)對大數(shù)據(jù)以及超出現(xiàn)有數(shù)據(jù)庫的處理能力,并且沒有一種機(jī)制能夠適應(yīng)非結(jié)構(gòu)化大數(shù)據(jù)分析處理[9]。
同樣,云系統(tǒng)安全也是目前的研究熱點(diǎn)。云系統(tǒng)中傳輸?shù)拇髷?shù)據(jù)安全可通過在發(fā)送方和接收方云之間的安全套接字層實(shí)現(xiàn),但云兩側(cè)的用戶身份驗(yàn)證存在安全問題[10]。此外,云系統(tǒng)面臨內(nèi)部和外部攻擊兩種類型的攻擊,文獻(xiàn)[11]提出了一種網(wǎng)絡(luò)安全模型以應(yīng)對云系統(tǒng)中的攻擊。在云系統(tǒng)中,當(dāng)不同機(jī)密級別的大數(shù)據(jù)進(jìn)行傳輸時(shí),可能會使敏感和關(guān)鍵數(shù)據(jù)泄露[12]。為了減少數(shù)據(jù)傳輸或交換過程中潛在的安全威脅,增強(qiáng)云系統(tǒng)中數(shù)據(jù)的安全移動性,提出了一種云系統(tǒng)中基于同態(tài)哈希認(rèn)證的大數(shù)據(jù)安全傳輸。所提方法的創(chuàng)新點(diǎn)總結(jié)如下:
(1)現(xiàn)有方法缺乏明確的數(shù)據(jù)分類方法,而所提機(jī)制根據(jù)數(shù)據(jù)內(nèi)容和描述屬性設(shè)計(jì)了大數(shù)據(jù)分類技術(shù),該技術(shù)采用HDFS格式化程序執(zhí)行數(shù)據(jù)分類,且避免公開文件冗余的加密和解密過程,降低了數(shù)據(jù)傳輸?shù)陌踩杀尽?/p>
(2)為了提高數(shù)據(jù)傳輸?shù)陌踩裕醾鬏敊C(jī)制提出了基于同態(tài)哈希的身份認(rèn)證方式,以保證云系統(tǒng)傳輸雙方信息的真實(shí)性,為數(shù)據(jù)傳輸?shù)陌踩蕴峁┝穗p重保護(hù)。
數(shù)據(jù)安全是大數(shù)據(jù)分析中最為關(guān)鍵的問題之一,而大數(shù)據(jù)分析應(yīng)保證數(shù)據(jù)的保密性、完整性和可用性。其中機(jī)密性是根據(jù)數(shù)據(jù)敏感度防止授權(quán)用戶以外的用戶訪問數(shù)據(jù);完整性是允許授權(quán)用戶修改、編輯、更新和刪除數(shù)據(jù);可用性是保證數(shù)據(jù)可用以及可訪問。
很多機(jī)構(gòu)組織中,對于大量敏感信息的存儲、收集和處理,均在同一地方完成,受潛在風(fēng)險(xiǎn)的影響更大,易發(fā)生數(shù)據(jù)的破壞、泄露和丟失以及受到黑客攻擊,并且可能因惡意攻擊而拒絕服務(wù)[13]。因此,所提方法提出了一種新的風(fēng)險(xiǎn)評估分類技術(shù),可防止大數(shù)據(jù)中存在的潛在風(fēng)險(xiǎn),并基于定義的風(fēng)險(xiǎn)度量值實(shí)行風(fēng)險(xiǎn)管理[14]。其中定義的風(fēng)險(xiǎn)評估標(biāo)準(zhǔn)將每個(gè)風(fēng)險(xiǎn)度量以0-5進(jìn)行測量:可忽略(0-1)、低(1-2)、中(2-3)、高(3-4)和非常高(4-5)。
風(fēng)險(xiǎn)性和脆弱性值THV定義為威脅和脆弱性值之和,理論計(jì)算為
THV=Threa+Vunerability
(1)
風(fēng)險(xiǎn)影響級別值RIL保證了大數(shù)據(jù)所需的安全控制級別,其計(jì)算為
RIL=Asset×THV×LTH
(2)
式中:Asset為資產(chǎn)值,LTH為風(fēng)險(xiǎn)可能性。
根據(jù)上式,RIL風(fēng)險(xiǎn)水平值的測量如下:當(dāng)風(fēng)險(xiǎn)分量達(dá)到其臨界值(4-5)時(shí), RIL=(非常高)×(非常高)×(非常高)=(4-5)×(4-5)×(4-5); 當(dāng)風(fēng)險(xiǎn)分量值在(0-1)時(shí), RIL=(可忽略)×(可忽略)×(可忽略)=(0-1)×(0-1)×(0-1)。 因此,根據(jù)RIL中分量風(fēng)險(xiǎn)水平值的組合,可得到RIL的風(fēng)險(xiǎn)水平值(1-2)、(2-3)、(3-4)和(4-5)?;赗IL提出的分類方法明確了在云端處理、復(fù)制和移動過程中保護(hù)關(guān)鍵數(shù)據(jù)所需的適當(dāng)安全控制級別。
所提的大數(shù)據(jù)安全機(jī)制采用大數(shù)據(jù)分類和大數(shù)據(jù)安全技術(shù)對文件進(jìn)行分類和保護(hù),以實(shí)現(xiàn)云系統(tǒng)中數(shù)據(jù)移動過程中的高安全性。所提機(jī)制的體系結(jié)構(gòu)如圖1所示。
圖1 所提大數(shù)據(jù)安全傳輸機(jī)制的體系結(jié)構(gòu)
在該傳輸機(jī)制中,大數(shù)據(jù)文件移動到HDFS進(jìn)行大數(shù)據(jù)分類,并將其轉(zhuǎn)化為文本文件。使用度量函數(shù)確定HDFS輸入格式化程序函數(shù),并將大數(shù)據(jù)拆分為多個(gè)數(shù)據(jù)分區(qū),在每個(gè)分區(qū)中,如果所有數(shù)據(jù)都屬于特定的安全類,則輸入格式化程序函數(shù)將終止,并生成決策樹;否則,輸入格式化程序函數(shù)將遞歸地繼續(xù)其拆分過程,直到所有數(shù)據(jù)分區(qū)都屬于同一類安全,或者不再保留拆分屬性,然后相應(yīng)地生成決策樹。之后將劃分為機(jī)密的文件利用數(shù)據(jù)安全算法進(jìn)行大數(shù)據(jù)文件傳輸。
一般來說,大數(shù)據(jù)是根據(jù)其需求、優(yōu)先級和基于數(shù)據(jù)敏感度、關(guān)鍵性的保護(hù)程度進(jìn)行分類的,所提分類技術(shù)將大數(shù)據(jù)分為機(jī)密數(shù)據(jù)和公開數(shù)據(jù)兩大類。其中機(jī)密數(shù)據(jù)為只有授權(quán)用戶才能查看或訪問的高度敏感信息,其屬性是不由系統(tǒng)解釋的文件系統(tǒng),但提供有關(guān)文件的附加信息;公共數(shù)據(jù)為包括一般信息的正常數(shù)據(jù),任何用戶都可以查看這些信息,而不受訪問這些數(shù)據(jù)文件的任何限制[15]。
根據(jù)風(fēng)險(xiǎn)影響水平值定義:RIL代表基于風(fēng)險(xiǎn)評估度量值(0-5)的風(fēng)險(xiǎn)影響水平值;MAV代表元數(shù)據(jù)擴(kuò)展屬性,元數(shù)據(jù)屬性允許系統(tǒng)管理員為其它元數(shù)據(jù)設(shè)置機(jī)密元數(shù)據(jù)屬性以防止文件中可能包含敏感信息的潛在風(fēng)險(xiǎn),其MAV計(jì)算為
(3)
如果風(fēng)險(xiǎn)影響水平值介于(1-5)之間,則評估為真(1:機(jī)密);如果風(fēng)險(xiǎn)影響水平值為無或可忽略(0-1),則評估為假(0:公開)。MAV在創(chuàng)建時(shí)插入文件元數(shù)據(jù)中,便于數(shù)據(jù)分類,大數(shù)據(jù)分類流程如圖2所示。
圖2 大數(shù)據(jù)分類流程
文件以不同的類型存在,如txt、doc、xml、csv、xls、sql、log、db、pdf、image、audio、video等,而所提分類技術(shù)將不同類型的文件均轉(zhuǎn)換為文本文件,并使用HDFS輸入格式化程序,將其分割為不同的分區(qū),其中HDFS輸入格式化程序驗(yàn)證任務(wù)的輸入規(guī)范,根據(jù)所有分區(qū)中的安全搜索值,文件被標(biāo)識為機(jī)密或公共。無法轉(zhuǎn)換為文本的其它文件類型(如pdf、圖像、音頻和視頻)在文件創(chuàng)建期間按其內(nèi)容進(jìn)行分類,并將其MAV設(shè)置為機(jī)密或公開。但是,如果這些文件已經(jīng)創(chuàng)建,且沒有元數(shù)據(jù)屬性,則需要確定其分類級別,并相應(yīng)地插入MAV。
基于數(shù)據(jù)文件分類級別,將大數(shù)據(jù)安全技術(shù)應(yīng)用于不同云節(jié)點(diǎn)間的數(shù)據(jù)傳輸中,如果分類級別是公共的,則不需要安全操作。
數(shù)據(jù)傳輸中節(jié)點(diǎn)需要進(jìn)行身份認(rèn)證以確保其安全性,所提機(jī)制中采用同態(tài)哈希認(rèn)證方式驗(yàn)證密鑰。同態(tài)哈希(homomorphic Hash)常用于對等網(wǎng)絡(luò),通常與糾刪碼、網(wǎng)絡(luò)編碼共同防御攻擊事件。對等網(wǎng)絡(luò)中,每個(gè)對等體均會從其它的對等體處直接獲取原始數(shù)據(jù)塊,因此,通過比較所接收到數(shù)據(jù)塊的哈希值與原始哈希值便可驗(yàn)證接收數(shù)據(jù)塊的正確性[16]。但標(biāo)準(zhǔn)哈希函數(shù)不能處理源節(jié)點(diǎn)無法預(yù)先定義隨機(jī)編碼包的問題,可能存在偽數(shù)據(jù)包的風(fēng)險(xiǎn),而同態(tài)哈希函數(shù)能使對等體發(fā)現(xiàn)偽造塊的存在。
同態(tài)哈希函數(shù)hG(·) 有一組哈希參數(shù)G=(p,q,g), 其中g(shù)的每個(gè)元素被描述為x(p-1)/qmodp,x∈Zp且x≠1
hG(·)∶{0,1}α×{0,1}β→{0,1}λp
rand(·)∶{0,1}k×{0,1}t→{0,1}t
(4)
式中:rand(·) 是一個(gè)偽隨機(jī)函數(shù),作為偽隨機(jī)數(shù)生成器用于初始化過程中同態(tài)哈希函數(shù)參數(shù)、標(biāo)簽生成階段隨機(jī)數(shù)的生成以及挑戰(zhàn)階段數(shù)據(jù)塊的選擇,從而能夠均勻覆蓋所有的數(shù)據(jù)。
對于一個(gè)塊di, 哈希值計(jì)算如下
(5)
給出一個(gè)編碼塊fj和一個(gè)系數(shù)向量 (cj,1,cj,2,…,cj,m), 則同態(tài)哈希函數(shù)hG(·) 滿足下式
(6)
利用上式能夠驗(yàn)證一個(gè)編碼塊的完整性。發(fā)送方首先需要預(yù)先計(jì)算每個(gè)數(shù)據(jù)塊的同態(tài)哈希值,接收方下載該同態(tài)哈希值,并用式(5)計(jì)算其哈希值且用式(6)驗(yàn)證該數(shù)據(jù)塊的正確性。
大數(shù)據(jù)安全技術(shù)應(yīng)用于云系統(tǒng)時(shí),首先用戶將其元數(shù)據(jù)發(fā)送給發(fā)送方和接收方云,發(fā)送方/接收方云和用戶之間通過可共享憑據(jù)進(jìn)行加密。其中發(fā)送方使用隨機(jī)訪問密鑰將加密的數(shù)據(jù)節(jié)點(diǎn)地址和數(shù)據(jù)塊ID發(fā)送給接收方,而接收方創(chuàng)建與其數(shù)據(jù)節(jié)點(diǎn)共享的加密塊訪問密鑰,以觸發(fā)在發(fā)送方數(shù)據(jù)節(jié)點(diǎn)上復(fù)制或移動存儲的數(shù)據(jù)請求,該請求由發(fā)送方數(shù)據(jù)節(jié)點(diǎn)接收并解密以進(jìn)行身份驗(yàn)證。
基于同態(tài)哈希進(jìn)行身份認(rèn)證,發(fā)送方數(shù)據(jù)節(jié)點(diǎn)將數(shù)據(jù)包發(fā)送給接收方數(shù)據(jù)節(jié)點(diǎn),等待其響應(yīng)以確認(rèn)數(shù)據(jù)包接收。如果數(shù)據(jù)包的哈希值被成功確認(rèn),則接收方數(shù)據(jù)節(jié)點(diǎn)向發(fā)送方數(shù)據(jù)節(jié)點(diǎn)發(fā)送加密確認(rèn);如果由于任何原因錯(cuò)過確認(rèn),則接收器數(shù)據(jù)節(jié)點(diǎn)可以接收同一數(shù)據(jù)分組的多個(gè)副本,在這種情況下,將忽略所有重復(fù)的數(shù)據(jù)分組。發(fā)送方數(shù)據(jù)節(jié)點(diǎn)接收到確認(rèn),并通過刪除發(fā)送的數(shù)據(jù)或在發(fā)送成功的副本時(shí)保留數(shù)據(jù)來響應(yīng)接收方傳輸數(shù)據(jù)請求?;谕瑧B(tài)哈希認(rèn)證的大數(shù)據(jù)安全技術(shù)執(zhí)行流程如圖3所示。
圖3 大數(shù)據(jù)安全技術(shù)流程
針對數(shù)據(jù)傳輸時(shí)的大數(shù)據(jù)安全分析,首先考慮該過程在發(fā)送方和接收方之間傳輸?shù)脑獢?shù)據(jù)可能被入侵者捕獲,以及其它可能存在的數(shù)據(jù)風(fēng)險(xiǎn)。但元數(shù)據(jù)是加密的,無法解密,因此入侵者攻擊失敗,即使它們以發(fā)送者或接收者的身份出現(xiàn)塊訪問密鑰和哈希值,但傳輸?shù)臄?shù)據(jù)保持加密模式。然后,可能存在潛在風(fēng)險(xiǎn)的是入侵者破壞或持有傳輸?shù)臄?shù)據(jù)包,但通過確認(rèn)數(shù)據(jù)包傳送和哈希值以檢查數(shù)據(jù)可用性,從而實(shí)現(xiàn)了數(shù)據(jù)的完整性。
所提的大數(shù)據(jù)安全傳輸機(jī)制首先利用大數(shù)據(jù)分類技術(shù)將將不同類型的文件均轉(zhuǎn)換為文本文件,并使用HDFS輸入格式化程序驗(yàn)證任務(wù)的輸入規(guī)范,且將其分割為不同的分區(qū),根據(jù)所有分區(qū)中的安全搜索值,標(biāo)識文件類型。如果是機(jī)密數(shù)據(jù)則使用大數(shù)據(jù)安全技術(shù)進(jìn)行傳輸,發(fā)送方對數(shù)據(jù)進(jìn)行加密,接收方需要解密且利用同態(tài)哈希認(rèn)證對其身份進(jìn)行認(rèn)證,認(rèn)證通過后方可進(jìn)行數(shù)據(jù)傳輸,保證了大數(shù)據(jù)的安全性[17]。云環(huán)境中基于同態(tài)哈希認(rèn)證的大數(shù)據(jù)安全傳輸機(jī)制如算法1所示。
算法1: 基于同態(tài)哈希認(rèn)證的大數(shù)據(jù)安全傳輸機(jī)制
輸入: 用戶元數(shù)據(jù)UMD, 塊訪問令牌BAT, 發(fā)送方云數(shù)據(jù)節(jié)點(diǎn)SCD定時(shí)器Tscd, 超時(shí)值TO, 最大重傳次數(shù)MaxRet, SCD重傳次數(shù)Nrt, 接收方云數(shù)據(jù)節(jié)點(diǎn)RCD數(shù)量Ndc, 待傳輸?shù)臄?shù)據(jù)DT, 加密密鑰Kt。
輸出: 安全文件
(1)if元數(shù)據(jù)屬性值MAV文件是機(jī)密的,then
(2) 執(zhí)行步驟(4)-步驟(19)
(3)otherwise轉(zhuǎn)到步驟(19)
(4) 發(fā)送方云名稱節(jié)點(diǎn)SCN向接收方云名稱節(jié)點(diǎn)RCN發(fā)送 {UMD}Kt
(5) RCN與RCD共享BAT
(6) RCD向SCD發(fā)送 {BATS}Kt并請求DT
(7) SCD解密BAT并驗(yàn)證請求的真實(shí)性
(8) SCD 向RCD發(fā)送 {DT}Kt,hG(·){{DT}Kt}, 啟動Tscd
(9)RCD獲取 {DT}Kt, {{DT}Kt}, 驗(yàn)證hG(·)
(10)RCD向SCD發(fā)送 {acknowledgment}Kt
(11)ifTscd (12) SCD等待確認(rèn) (13)otherwiseifNrt (14) 重復(fù)步驟(8) (15)otherwise提示SCD中的管理員 (16)ifNdc>MaxRet,then (17) 提示RCD中的管理員 (18)SCD接收確認(rèn)并從其部分刪除DT (19)end 隨著云系統(tǒng)實(shí)時(shí)應(yīng)用的發(fā)展,其數(shù)據(jù)量不斷膨脹,對大量數(shù)據(jù)進(jìn)行分類以識別需要保護(hù)的敏感數(shù)據(jù)是一項(xiàng)復(fù)雜的任務(wù)。為此,設(shè)計(jì)了一種并行分布式?jīng)Q策樹技術(shù)Hadoop MapReduce框架,其中ApacheHadoop2.6.0安裝在PowerEdge R720服務(wù)器上,2個(gè)處理器插槽-6核Intel Xeon E5-2630,64 GB RAM,運(yùn)行OS Linux Ubuntu10.04、java 1.0.7-openjdk、PuTTY 0.70身份驗(yàn)證系統(tǒng),并與1 GB以太網(wǎng)網(wǎng)卡連接。 由于大數(shù)據(jù)分類和安全技術(shù)與數(shù)據(jù)文件大小相關(guān),因此在Hadoop MapReduce框架中對大小約為1 GB、2 GB、4 GB、8 GB和16 GB的不同數(shù)據(jù)文件類型進(jìn)行測試,以驗(yàn)證所提機(jī)制的性能。在這個(gè)框架中,測試了所提分類和安全算法的可行性,以及該框架支持安全的數(shù)據(jù)傳輸決策。 此外,所提方法主要設(shè)計(jì)數(shù)據(jù)分類和安全傳輸,并且安全傳輸中涉及加密算法,會增加所提方法的復(fù)雜程度,可能會影響傳輸中的吞吐量和延遲,因此選取分類時(shí)間、響應(yīng)時(shí)間、吞吐量和延遲時(shí)間作為評價(jià)指標(biāo)。并基于此將所提方法與文獻(xiàn)[6]、文獻(xiàn)[8]和文獻(xiàn)[11]中安全傳輸方法進(jìn)行對比分析。 其中文獻(xiàn)[6]中提出的HDFS用于通過大量節(jié)點(diǎn)實(shí)現(xiàn)大數(shù)據(jù)存儲和計(jì)算任務(wù),HDFS支持的大量聚合數(shù)據(jù)可能會在數(shù)據(jù)安全性、可用性和一致性方面帶來一定的潛在風(fēng)險(xiǎn),并且其不支持云內(nèi)數(shù)據(jù)加密。文獻(xiàn)[8]中引入了基于HDFS的云存儲的安全數(shù)據(jù)傳輸流程,在源云和目標(biāo)云中驗(yàn)證用戶身份,節(jié)點(diǎn)之間啟動安全套接字層SSL連接目標(biāo)名稱節(jié)點(diǎn),生成一個(gè)臨時(shí)會話密鑰以及由密鑰加密的隨機(jī)數(shù),以便實(shí)現(xiàn)數(shù)據(jù)安全傳輸。文獻(xiàn)[11]提出了一種基于HDFS的混合加密方法以保護(hù)文件塊和會話密鑰,采用對稱加密技術(shù)對云數(shù)據(jù)節(jié)點(diǎn)上的文件塊進(jìn)行加密和解密,可防止入侵者擁有來自數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù),但該方法的網(wǎng)絡(luò)開銷較高。 將CSV、SQL、LOG和XLS類型的4種不同大小的文件分類為公開/機(jī)密所需的時(shí)間如圖4所示。 圖4 不同類型文件的分類時(shí)間 從圖4中可以看出,在同一文件大小的情況下,4種文件類型的分類時(shí)間相近,由此可見文件類型對分類時(shí)間的影響不大。此外,由于文件的增大其內(nèi)部數(shù)據(jù)會劇增,處理會較為復(fù)雜,因此分類時(shí)間會隨著文件大小的增加而增加。 數(shù)據(jù)傳輸過程中通過使用用戶在發(fā)送方和接收方云之間建立的公共密鑰對兩個(gè)云的身份進(jìn)行驗(yàn)證,使其能夠生成和驗(yàn)證必要的令牌。因此,由于發(fā)送方和接收方之間的額外傳輸、加密和解密操作,與文獻(xiàn)[8]和文獻(xiàn)[11]相比,所提傳輸機(jī)制減少了不必要的網(wǎng)絡(luò)帶寬和處理開銷,降低了總傳輸響應(yīng)時(shí)間、總延遲時(shí)間和吞吐量,從而提高了HDFS的安全性能。 所提傳輸機(jī)制與文獻(xiàn)[6]、文獻(xiàn)[8]和文獻(xiàn)[11]中的HDFS方法以64 Mb/s的速率保護(hù)和傳輸5個(gè)不同大小的CSV文件所需的平均響應(yīng)時(shí)間如圖5所示。 圖5 大數(shù)據(jù)傳輸響應(yīng)時(shí)間 從圖5中可看出,所提傳輸機(jī)制中的數(shù)據(jù)傳輸響應(yīng)時(shí)間最接近于文獻(xiàn)[6]的HDFS基準(zhǔn),但文獻(xiàn)[6]中的數(shù)據(jù)安全性較低;相較于文獻(xiàn)[8]和文獻(xiàn)[11],所提傳輸機(jī)制的響應(yīng)時(shí)間最短。由此論證了該方法的優(yōu)越性,提高了云系統(tǒng)中的數(shù)據(jù)安全傳輸。 將安全數(shù)據(jù)傳輸延遲時(shí)間(security data transmission delay time,SDTDT)定義為安全數(shù)據(jù)傳輸響應(yīng)時(shí)間 (secure data transfer response time,SDTRT)和非安全基線數(shù)據(jù)傳輸響應(yīng)時(shí)間(baseline data transmission response time,BDTRT)之間的差,表達(dá)如下 SDTDT= SDTRT-BDTRT (7) 所提傳輸機(jī)制與文獻(xiàn)[6]、文獻(xiàn)[8]、文獻(xiàn)[11]中的HDFS方法以64 Mb/s的速率保護(hù)和傳輸5個(gè)不同大小的CSV文件所需的延遲時(shí)間如圖6所示。 圖6 安全數(shù)據(jù)傳輸延遲時(shí)間 從圖6中可看出,相較于其它方法,所提安全傳輸機(jī)制的延遲時(shí)間是最小的,但保護(hù)數(shù)據(jù)傳輸性將影響云系統(tǒng)的性能,導(dǎo)致吞吐量降低。 為了研究HDFS方法對大數(shù)據(jù)傳輸吞吐量的影響,將安全數(shù)據(jù)傳輸吞吐量(secure data transmission throughput,SDTT)定義為從源云到目標(biāo)云的數(shù)據(jù)傳輸量(data transmission,DT)除以安全數(shù)據(jù)傳輸響應(yīng)時(shí)間SDTRT,表述如下 SDTT=DT/SDTRT (8) 所提傳輸機(jī)制與文獻(xiàn)[6]、文獻(xiàn)[8]和文獻(xiàn)[11]中的HDFS方法以64 Mb/s的速率保護(hù)和傳輸5個(gè)不同大小的CSV文件所需的吞吐量(Mb/s)如圖7所示。 圖7 安全數(shù)據(jù)傳輸吞吐量 從圖7中可看出,隨著文件大小的增加,云用戶間數(shù)據(jù)傳輸吞吐量降低,很明顯所有HDFS方法均會導(dǎo)致吞吐量下降,但所提傳輸機(jī)制的吞吐量是最多的。 上述實(shí)驗(yàn)結(jié)果表明,將大數(shù)據(jù)劃分為較小的文件大小時(shí),所提安全傳輸機(jī)制在響應(yīng)時(shí)間、延遲時(shí)間和吞吐量方面優(yōu)于文獻(xiàn)[8]、文獻(xiàn)[11]中的對應(yīng)算法,其性能是最好,在保證數(shù)據(jù)安全傳輸?shù)耐瑫r(shí)盡量不影響數(shù)據(jù)傳輸量。 所提安全數(shù)據(jù)移動協(xié)議優(yōu)化了發(fā)送方和接收方云之間的通信、加密和解密操作,其關(guān)鍵數(shù)據(jù)始終以加密格式存儲,密鑰僅為數(shù)據(jù)所有者掌握。由于發(fā)送方和接收方引擎在分析、復(fù)制或傳輸數(shù)據(jù)時(shí)不負(fù)責(zé)加密和解密大數(shù)據(jù)塊,因此大大提高了數(shù)據(jù)傳輸效率,并減少了傳輸響應(yīng)時(shí)間和延遲時(shí)間。 所提傳輸機(jī)制考慮了數(shù)據(jù)傳輸通信過程的效率和安全性、用戶的隱私和數(shù)據(jù)的機(jī)密性,從而滿足了大數(shù)據(jù)安全需求用戶、發(fā)送方和接收方云之間的通信。機(jī)制中元數(shù)據(jù)的加密有助于防范一些主動攻擊者,并且通過相關(guān)同態(tài)哈希值驗(yàn)證數(shù)據(jù)完整性和成功接收由返回確認(rèn)驗(yàn)證的數(shù)據(jù),防止在傳輸期間改變數(shù)據(jù)包,保證數(shù)據(jù)的完整性。 為了避免云系統(tǒng)中可能存在的數(shù)據(jù)風(fēng)險(xiǎn)以及實(shí)現(xiàn)數(shù)據(jù)傳輸?shù)母甙踩?,提出了一種云系統(tǒng)中基于同態(tài)哈希認(rèn)證的大數(shù)據(jù)安全傳輸。所提機(jī)制采用大數(shù)據(jù)分類技術(shù)將文件分割成不相交的片段,以明確需要安全保護(hù)的文件,并且在傳輸過程中基于同態(tài)哈希進(jìn)行身份認(rèn)證,以確保數(shù)據(jù)的安全性。通過Hadoop分布式文件系統(tǒng)從數(shù)據(jù)分類時(shí)間、響應(yīng)時(shí)間、吞吐量和延遲時(shí)間等方面論證了所提機(jī)制的有效性,不僅避免了公共文件的冗余加密和解密過程,還降低了數(shù)據(jù)安全應(yīng)用于公共文件時(shí)的額外成本,保證了數(shù)據(jù)傳輸?shù)陌踩浴?/p> 在接下來的研究中,將考慮對圖像、視頻和音頻文件的分類,但該類型文件需要特殊處理,因此,需要新的技術(shù)以處理大數(shù)據(jù)文件類型。3 實(shí)驗(yàn)結(jié)果及性能評價(jià)
3.1 大數(shù)據(jù)分類時(shí)間
3.2 大數(shù)據(jù)傳輸響應(yīng)時(shí)間
3.3 安全數(shù)據(jù)傳輸延遲時(shí)間
3.4 安全數(shù)據(jù)傳輸吞吐量
4 結(jié)束語