摘 要:人類正在進入大數(shù)據(jù)時代,大數(shù)據(jù)具有的數(shù)據(jù)量大、數(shù)據(jù)類型多、處理速度快、價值密度低等特點給信息安全帶來了新挑戰(zhàn)。大數(shù)據(jù)技術(shù)收集信息更加全面帶來了更多的安全風險,大數(shù)據(jù)分析對個人隱私帶來直接的威脅,大數(shù)據(jù)類型多樣為安全防護帶來困難。針對這些挑戰(zhàn),需要通過加強防護技術(shù)、立法、行業(yè)自律等方面來進行應對。
關(guān)鍵詞:大數(shù)據(jù);信息安全;個人隱私
中圖分類號:TP309
1 大數(shù)據(jù)概念及其特點
據(jù)IDC(國際文獻資料中心)統(tǒng)計,2006年全球新產(chǎn)生的數(shù)據(jù)量為0.18ZB(1ZB等于1萬億GB),而到了2011年,全球新產(chǎn)生的數(shù)據(jù)量已達到1.8ZB,根據(jù)2014年最新的報告,預計到2020年全球新產(chǎn)生數(shù)據(jù)將達到40ZB。MGI(麥肯錫全球研究所)的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》報告將這些“大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理、分析能力的數(shù)據(jù)群”稱為“大數(shù)據(jù)”。大數(shù)據(jù)技術(shù)成為近年來科技界和企業(yè)界關(guān)注的熱點,在谷歌、雅虎、Facebook等互聯(lián)網(wǎng)巨頭的推動下,大數(shù)據(jù)技術(shù)從理論變?yōu)楝F(xiàn)實,大數(shù)據(jù)的開源處理平臺Hadoop已經(jīng)廣泛應用于各個行業(yè)的各種大數(shù)據(jù)應用中。
大數(shù)據(jù)的特點可以用4個V來概括:數(shù)據(jù)量(Volume)大,指存儲和處理的數(shù)據(jù)量巨大,當前Hadoop平臺已經(jīng)可以處理PB級的數(shù)據(jù);數(shù)據(jù)類型(Variety)多,數(shù)據(jù)來源廣,格式多樣,以網(wǎng)頁、視頻等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)為主體;數(shù)據(jù)處理速度(Velocity)快,大數(shù)據(jù)的應用往往要求很強的時效性,需要在極短的時間內(nèi)完成海量數(shù)據(jù)的處理;價值(Value)密度低,海量的數(shù)據(jù)中,有價值的可能只是其中很小一部分。
大數(shù)據(jù)的發(fā)展甚至成為國家所關(guān)注的戰(zhàn)略方向。2012年3月,奧巴馬宣布美國政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,用于研究大數(shù)據(jù)處理技術(shù)和工具,這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。在剛剛結(jié)束的圣何塞Hadoop Summit 2014的報告中指出,2013至2020,全球Hadoop市場份額將以58.2%的復合年增長率,從20億美元增長至502億美元,增長幅度超25倍。大數(shù)據(jù)已經(jīng)成為全球關(guān)注的熱點,人類正在進入大數(shù)據(jù)的時代。大數(shù)據(jù)技術(shù)不僅影響行業(yè)的發(fā)展和人們的生活方式,對于信息技術(shù)相關(guān)領(lǐng)域,特別是信息安全領(lǐng)域,將產(chǎn)生全新的挑戰(zhàn)。
2 大數(shù)據(jù)時代信息安全面臨的挑戰(zhàn)
和以往相比,大數(shù)據(jù)時代的數(shù)據(jù)獲取方式、存儲規(guī)模、訪問特點、關(guān)注重點都有了很大的不同,這些新特點對于信息安全提出了全新的挑戰(zhàn),主要體現(xiàn)在三個方面。
2.1 數(shù)據(jù)的全面收集加大了信息安全的風險
大數(shù)據(jù)時代的一個重要特點就是被存儲的數(shù)據(jù)更加廣泛、更加全面,增大了信息安全的風險。數(shù)據(jù)被全面收集的主要原因來自兩方面:
2.1.1 大數(shù)據(jù)技術(shù)使海量存儲成為可能
大數(shù)據(jù)技術(shù)成熟之前,由于對海量數(shù)據(jù)的存儲、訪問能力的不足,很多“低價值”的數(shù)據(jù)被丟棄了。以電子商務為例,用戶在網(wǎng)購前搜索、瀏覽商品的記錄,對于商家分析用戶的購買意向有一定的幫助,但其重要性遠遠低于購物交易的信息。這些信息的數(shù)據(jù)量龐大,保存要付出較高的代價,因而在存儲成本較高的時代一般都不會保留。隨著Hadoop技術(shù)的成熟,使用開源代碼,在廉價的PC機群上搭建大數(shù)據(jù)處理中心變得更加容易。相對于以前的數(shù)據(jù)存儲,這種分布式數(shù)據(jù)處理中心的存儲成本大大地降低了。大數(shù)據(jù)時代,這些“可能有價值”的數(shù)據(jù)都被存儲起來:搜索記錄、位置信息、設備使用記錄。帶來的結(jié)果,仿佛電子商務網(wǎng)站一下子“變聰明”了,仿佛知道用戶最近想買什么一樣,推薦的廣告都是用戶感興趣的商品。
2.1.2 移動互聯(lián)網(wǎng)使更多的人的信息被記錄
據(jù)聯(lián)合國下屬的專門機構(gòu)ITU(國際電信聯(lián)盟)統(tǒng)計,到2013年底,全球上網(wǎng)人數(shù)將達27億人,占了全球人口的40%。而所有上網(wǎng)的人中,使用智能手機等終端上網(wǎng)的又占了絕大多數(shù),據(jù)艾瑞咨詢預計,2014年全球使用手機上網(wǎng)的人數(shù)有望達到14億。通過無處不在的網(wǎng)絡和智能終端,人們可以隨時隨地接入互聯(lián)網(wǎng),與此同時,人們的各種信息也隨時隨地被采集、上傳到互聯(lián)網(wǎng)上。
2.2 大數(shù)據(jù)分析直接威脅到個人隱私
大數(shù)據(jù)時代對信息安全的最直接的影響,就是對個人隱私的威脅。
2.2.1 網(wǎng)絡企業(yè)對個人隱私的搜集
從技術(shù)的角度,當前已經(jīng)完全有可能保存所有需要保存的信息。而從互聯(lián)網(wǎng)企業(yè)的角度,為了提供更加精準的服務,在激烈的競爭中勝出,搜集用戶信息也是必然的選擇。據(jù)央視報道,蘋果iPhone會在用戶不知情的情況下記錄手機用戶使用應用的時間、地點,以及其他位置信息,而即便用戶關(guān)閉了iPhone上的定位系統(tǒng),這些信息仍會被記錄下來并回傳到蘋果的服務器。可見,對用戶信息的全面關(guān)注和搜集,已經(jīng)成為互聯(lián)網(wǎng)行業(yè)的普遍現(xiàn)象了。
2.2.2 通過數(shù)據(jù)挖掘進一步暴露隱私
大數(shù)據(jù)的意義并不限于存儲數(shù)據(jù),事實上,大數(shù)據(jù)的核心的價值在于對被存儲的數(shù)據(jù)進行分析以獲取更有價值的信息。數(shù)據(jù)挖掘是大數(shù)據(jù)分析的主要手段,數(shù)據(jù)挖掘是指通過聚類分析、回歸分析、神經(jīng)網(wǎng)絡算法、決策樹算法等方法,從大量的數(shù)據(jù)中發(fā)現(xiàn)、歸納、獲取有價值的信息。通過數(shù)據(jù)挖掘?qū)τ谟脩綦[私將產(chǎn)生重大的威脅:本來是大量零散的、無害的信息,一旦通過數(shù)據(jù)挖掘,往往就會分析得到一些關(guān)鍵的重要信息,威脅到個人隱私。
2.3 多類型的數(shù)據(jù)加大了安全防護的難度
大數(shù)據(jù)時代之前,重要的數(shù)據(jù)往往都存儲在結(jié)構(gòu)化的關(guān)系數(shù)據(jù)庫中。因此,安全防護的任務就非常清楚:通過服務器的安全防護、數(shù)據(jù)庫的訪問安全控制、數(shù)據(jù)的加密保護等手段,有效地保護數(shù)據(jù)的安全。
而大數(shù)據(jù)時代,數(shù)據(jù)的類型變得極其復雜。據(jù)IDC的數(shù)字宇宙報告顯示,2014年新產(chǎn)生的數(shù)據(jù)中,非結(jié)構(gòu)化的數(shù)據(jù)占了所有數(shù)據(jù)的90%以上。這些非結(jié)構(gòu)化數(shù)據(jù)包括以網(wǎng)頁為代表的半結(jié)構(gòu)化數(shù)據(jù)和以視頻、語音為代表的非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)類型多樣、數(shù)據(jù)巨大、價值密度低。如何在分布式的數(shù)據(jù)處理平臺上保護好這些數(shù)據(jù),對于信息安全技術(shù)來說,是一個全新的課題。
3 大數(shù)據(jù)時代信息安全的應對措施
3.1 加快大數(shù)據(jù)安全技術(shù)研發(fā)
大數(shù)據(jù)的安全技術(shù)的研發(fā)必須要基于大數(shù)據(jù)技術(shù)的最新成果,從大數(shù)據(jù)技術(shù)的本身來尋找解決方案:可以通過運用大數(shù)據(jù)的數(shù)據(jù)挖掘和分析技術(shù),建立基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù),更主動地發(fā)現(xiàn)潛在威脅;可以運用大數(shù)據(jù)中信息豐富的特點,建立基于大數(shù)據(jù)的認證技術(shù),解決傳統(tǒng)認證技術(shù)認證方式單一的問題;可以通過機器學習技術(shù),建立基于大數(shù)據(jù)的數(shù)據(jù)真實性分析系統(tǒng),分析、鑒別垃圾信息,快速發(fā)現(xiàn)惡意信息。
3.2 完善個人信息安全保護的法律法規(guī)體系
大數(shù)據(jù)技術(shù)在我國還是新生事物,面臨著相關(guān)法律法規(guī)缺失、不能有效維護用戶個人信息安全等問題。2013年3月1日,我國首個有關(guān)個人信息保護的國家標準《信息安全技術(shù)、公共及商用服務信息系統(tǒng)個人信息保護指南》開始實施,對于大數(shù)據(jù)時代如何合理利用個人信息給予界定和規(guī)范,對個人信息的保護有重要的意義。但國家標準的效力對于當前日益嚴峻的信息安全形勢還是很不夠的,要想切實有效地保護個人信息安全,出臺《個人信息保護法》、完善相關(guān)的法律法規(guī)體系刻不容緩。
3.3 提升全民信息安全素養(yǎng)
大數(shù)據(jù)時代的信息安全既需要研究大數(shù)據(jù)戰(zhàn)略、大數(shù)據(jù)基礎技術(shù)、大數(shù)據(jù)應用技術(shù)的專門人才,同時也需要在全民中普及大數(shù)據(jù)的觀念、意識,提升全民信息安全素養(yǎng)。只有提高全民的大數(shù)據(jù)信息安全意識,才能維護個人隱私信息,才能防范信息安全引發(fā)的各種負面效果。
參考文獻:
[1]齊佳欣,魏為民.大數(shù)據(jù)面臨的信息安全問題分析[J].計算機光盤軟件與應用,2013(10).
[2]郭曉科.大數(shù)據(jù)[M].北京:清華大學出版社,2013.
作者簡介:鄒捷(1976-),男,重慶人,碩士,講師,主要研究方向:信息安全、應用系統(tǒng)開發(fā)。
作者單位:西安政治學院,西安 710068