李英 張濤
(南陽師范學(xué)院軟件學(xué)院,河南 南陽 473061)
大數(shù)據(jù)時代數(shù)據(jù)安全隱私保護(hù)研究
李英 張濤
(南陽師范學(xué)院軟件學(xué)院,河南 南陽 473061)
近年來,大數(shù)據(jù)給我們的生活、工作學(xué)習(xí)帶來了潛移默化的影響。然而,大數(shù)據(jù)在采集、存儲及使用過程中,都潛在著風(fēng)險,為此,近些年提出了許多大數(shù)據(jù)安全保護(hù)技術(shù)。本文對其現(xiàn)狀進(jìn)行分類闡述,分析其優(yōu)缺點。
大數(shù)據(jù);數(shù)據(jù)安全;隱私保護(hù)
人們已經(jīng)逐步認(rèn)識到大數(shù)據(jù)的價值,并開始在公共衛(wèi)生、商業(yè)、科學(xué)研究等領(lǐng)域應(yīng)用大數(shù)據(jù)分析技術(shù)。據(jù)統(tǒng)計,當(dāng)今世界每天產(chǎn)生250億字節(jié)左右的數(shù)據(jù)。國內(nèi)某互聯(lián)網(wǎng)巨頭公司,每天經(jīng)過壓縮處理的數(shù)據(jù)量高達(dá)100PB,而且現(xiàn)在還以日增長200~300TB,月增長10PB的速度不斷增長。因此,當(dāng)今世界各國政府、工業(yè)界和學(xué)術(shù)界對大數(shù)據(jù)十分關(guān)注并高度重視??梢灶A(yù)測,隨著大數(shù)據(jù)分析技術(shù)的應(yīng)用推廣,在當(dāng)今時代大數(shù)據(jù)會變得越來越重要,它將成為一種與礦產(chǎn)和石油同樣重要的巨大經(jīng)濟(jì)資產(chǎn)。
1.1 大數(shù)據(jù)的定義
研究機(jī)構(gòu)Garther給大數(shù)據(jù)的定義為:需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征[1]。
1.2 大數(shù)據(jù)的結(jié)構(gòu)特點
傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用簡單,而大數(shù)據(jù)具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點。大數(shù)據(jù)分析平臺需要具備的幾個重要特性在《計算機(jī)學(xué)報》里刊登的《架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望》一文中列出,并對現(xiàn)今主流實現(xiàn)平臺——并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)做了分析歸納,指出它們的優(yōu)勢及不足,并也對每個方向的研究情況及作者在大數(shù)據(jù)分析上的成績進(jìn)行介紹,對以后的研究也做了展望。
大數(shù)據(jù)有四個特點:①數(shù)據(jù)量大,從TB增長到PB;②數(shù)據(jù)類型多,有網(wǎng)絡(luò)日志、視頻、圖片、地圖信息等;③處理速度快,1秒定律,高價值的信息能從各種類型的數(shù)據(jù)中快速獲取,與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)不同;④只有對數(shù)據(jù)正確、準(zhǔn)確分析,才會帶來很高價值回報。業(yè)界將其歸納為4個“V”:Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價值密度低)。
在大數(shù)據(jù)時代,大量數(shù)據(jù)會通過網(wǎng)絡(luò)匯聚在一起,安全與隱私問題是人們公認(rèn)的關(guān)鍵問題之一。下面總結(jié)大數(shù)據(jù)安全問題的幾個方面。
2.1 數(shù)據(jù)來源安全
大數(shù)據(jù)中的數(shù)據(jù)來源很大部分是來自用戶在網(wǎng)絡(luò)上的自行輸入,如社交網(wǎng)絡(luò)、郵件、微博等,這些信息數(shù)據(jù)可能是不準(zhǔn)確的,因此在采集數(shù)據(jù)時有必要對數(shù)據(jù)的真?zhèn)芜M(jìn)行鑒別,否則即使通過數(shù)據(jù)分析也得不到準(zhǔn)確的信息。
2.2 網(wǎng)絡(luò)攻擊
大數(shù)據(jù)已經(jīng)成為網(wǎng)絡(luò)攻擊的目標(biāo):一方面,大數(shù)據(jù)意味著數(shù)據(jù)量大,也意味著其內(nèi)有很多復(fù)雜及敏感的數(shù)據(jù),因此它們很有可能受到不懷好意者的攻擊;另一方面,數(shù)據(jù)的大量匯集,使攻擊者一次能夠獲得更多的數(shù)據(jù)。
2.3 用戶隱私泄密
在大數(shù)據(jù)時代,用戶隱私泄露的風(fēng)險很大?;ヂ?lián)網(wǎng)商家手中掌握著人們的一言一行,包括搜索習(xí)慣、閱讀習(xí)慣、購物習(xí)慣等。這些無害的數(shù)據(jù)被收集后,也會泄露個人隱私。再者,數(shù)據(jù)的集中存儲增加了數(shù)據(jù)被盜的風(fēng)險。
2.4 數(shù)據(jù)存儲安全
在傳統(tǒng)模式下,個人與企業(yè)把數(shù)據(jù)存儲在自己的終端設(shè)備中,但當(dāng)用云來存儲數(shù)據(jù)時,數(shù)據(jù)被云服務(wù)商控制著,因此云服務(wù)商可能泄露用戶隱私數(shù)據(jù),更可能泄露給其他用戶。結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)都存在于大數(shù)據(jù)中,因此傳統(tǒng)的關(guān)系數(shù)據(jù)庫無法滿足它的要求,所以要用到非關(guān)系數(shù)據(jù)庫,如Apache的HBase和Google的Big Ta?ble等。相對于較成熟的關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫驗證和鑒權(quán)機(jī)制較為薄弱,使數(shù)據(jù)庫容易遭受攻擊,造成敏感數(shù)據(jù)被泄露。
因為大數(shù)據(jù)存在著各種安全問題,所以對其采取數(shù)據(jù)保護(hù)措施是必需的。為保障大數(shù)據(jù)的安全性,保護(hù)用戶的個人隱私,筆者提出以下關(guān)鍵技術(shù)。
3.1 數(shù)據(jù)溯源技術(shù)
一種記錄從原始數(shù)據(jù)到目標(biāo)數(shù)據(jù)演變過程的技術(shù)叫做數(shù)據(jù)溯源技術(shù)。這種技術(shù)可以增加分析結(jié)果的正確性,幫助用戶確定數(shù)據(jù)運(yùn)算。多位標(biāo)記法是對數(shù)據(jù)進(jìn)行標(biāo)注,記錄原始數(shù)據(jù)出處、演算過程等的一種方法。此方法可細(xì)分為why、where、who等類別,分別記錄數(shù)據(jù)演算過程、出處、相關(guān)使用者等。發(fā)展到現(xiàn)在,數(shù)據(jù)溯源技術(shù)取得了巨大進(jìn)步,通常被應(yīng)用在云存儲的場景和一些文件進(jìn)行回復(fù)及溯源等。
3.2 數(shù)據(jù)加密算法
傳統(tǒng)的數(shù)據(jù)加密方法僅在系統(tǒng)和軟件層面對數(shù)據(jù)進(jìn)行保護(hù),滿足不了大數(shù)據(jù)時代的數(shù)據(jù)保護(hù)。經(jīng)過各界學(xué)者不斷研究,數(shù)據(jù)加密算法技術(shù)和大數(shù)據(jù)信息保護(hù)技術(shù)都已取得了顯著成果。
3.2.1 對稱加密算法。由于加密密鑰和解密密鑰相同,并且加密速度快,所以適應(yīng)給大量數(shù)據(jù)加密,因此,對大數(shù)據(jù)進(jìn)行加密可以選擇對稱加密算法。
采樣、搜集關(guān)鍵信息是對其處理的第一步,第二步可以直接采用加密算法對其進(jìn)行加密。具體過程為:①首先采樣,得到樣本;②其次加密,得到密文。
對稱加密算法簡便,運(yùn)行速度快,但是加密的安全性不高。由于此算法對密鑰保管及分發(fā)等過程未采取任何保護(hù)措施,所以非授權(quán)者易截獲密鑰,并破解密文。
3.2.2 線性混合加密算法。DES算法和AES算法的線性組合是對對稱加密算法的一種常見的改進(jìn)。算法中有兩個對稱密碼算法組合對其加密,其運(yùn)算速度快,比單一使用一種算法安全性高,因為密文有兩種算法構(gòu)成,而且兩種密文在設(shè)計上不同,所以可以抵抗各種攻擊。
3.2.3 密鑰混合加密算法。現(xiàn)在該算法應(yīng)用廣泛,由于其能夠發(fā)揮對稱與非對稱加密算法的優(yōu)點,并彌補(bǔ)了對稱加密算法的不足,所以在一定程度其安全性得到增強(qiáng)。由于該算法還不能確定對方身份,所以不能夠知道是不是可信的雙方在傳送加密信息。
3.3 身份認(rèn)證技術(shù)
身份認(rèn)證技術(shù)是指系統(tǒng)的用戶在進(jìn)入系統(tǒng)或訪問系統(tǒng)資源時,系統(tǒng)確認(rèn)該用戶的身份是否真實、合法和唯一。身份認(rèn)證技術(shù)是確認(rèn)作者身份的有效方法。
身份認(rèn)證技術(shù)不僅可以驗證操作者的身份,還可以增加黑客盜取信息的難度,增加非法用戶假冒合法用戶身份占用系統(tǒng)資源、刪除或篡改用戶存儲數(shù)據(jù)的難度,這也有利于大數(shù)據(jù)的隱私保護(hù),利于大數(shù)據(jù)的不斷發(fā)展。
3.4 訪問控制
為了能保證大數(shù)據(jù)的安全,必須防止非法用戶對非授權(quán)資源及數(shù)據(jù)的訪問、使用、修改和刪除等操作,并對合法用戶的訪問權(quán)限加以限制。
大數(shù)據(jù)快速發(fā)展,如何保證大數(shù)據(jù)的安全是現(xiàn)今各方研究的重點和熱點。本文從大數(shù)據(jù)基本概念、大數(shù)據(jù)結(jié)構(gòu)特點及大數(shù)據(jù)的安全需求來介紹大數(shù)據(jù),并闡述了大數(shù)據(jù)安全保護(hù)的關(guān)鍵技術(shù),分析了它們的優(yōu)缺點。
[1]Meng Xiaofeng,Ci Xiang.Big data management:Con?cepts,techniques and challenges[J].Journal of Computer Research and Development,2013(1):146-169.
Research on Data Security and Privacy Protection in Big Data Age
Li YingZhang Tao
(School of Software,Nanyang Normal University,Nanyang Henan 473061)
In recent years,large data to our life,work and study has brought a subtle influence.However,large data collection,storage and use of the process,are potentially risky,for which in recent years put forward a number of large data security protection technology.In this paper,the present situation is classified and analyzed,and their ad?vantages and disadvantages were analyzed.
big data;data security;privacy protection
TP311.13;TP309
A
1003-5168(2017)08-0021-02
2017-07-03
南陽師范學(xué)院校級青年項目“云計算模式下數(shù)據(jù)安全關(guān)鍵技術(shù)研究”(QN2015018)。
李英(1982-),女,碩士,講師,研究方向:分布式計算,云計算;張濤(1983-),男,碩士,講師,研究方向:計算機(jī)網(wǎng)格、云計算。