李肇明+姜明星
摘要:大數(shù)據(jù)(Big Data)是當(dāng)前學(xué)術(shù)界研究的熱點。大數(shù)據(jù)技術(shù)正改變著人類的生活習(xí)慣和工作方式,但大數(shù)據(jù)在采集、存儲、挖掘、發(fā)布的過程中存在著諸多安全性問題,對信息安全造成了一定威脅。該文從大數(shù)據(jù)技術(shù)帶來的信息泄露等安全問題入手研究了若干關(guān)鍵技術(shù)和成果。文中提出了當(dāng)前學(xué)術(shù)界在信息安全領(lǐng)域的最新技術(shù),指出在信息化不斷發(fā)展的今天,大數(shù)據(jù)既是解決信息安全的有效手段也給信息安全帶來了巨大的挑戰(zhàn)。
關(guān)鍵詞:大數(shù)據(jù);信息安全;信息泄露;APT攻擊;認(rèn)證技術(shù)
中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)16-0066-03
Abstract:Nowadays big data has become a hot topic in the academic research. Big data technology is changing person's habits and ways of working, however there are many security issues in the field of data security when collecting,storing,mining,,releasing big data,it is spelled threat for information security. This paper start from the big data technology to bring information leaks and other security issues, and then researches the key technologies and achievements. This paper presents the latest technology in the current academic field of information security. With the development of information technology, this paper points out big data is both an effective means to resolve information security and also to bring great challenges.
Key words:big data;information security;information leakage;APT attack;Authentication technology
1 概述
隨著移動互聯(lián)網(wǎng)、云計算技術(shù)、物聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,同時社交網(wǎng)絡(luò)、微博、微信等新型信息分享平臺的涌現(xiàn),全球數(shù)據(jù)量正以指數(shù)級爆炸性的增長,大數(shù)據(jù)正成為網(wǎng)絡(luò)信息技術(shù)領(lǐng)域的又一熱點,有人就將大數(shù)據(jù)比作“未來的石油”,大數(shù)據(jù)影響著我們的工作、生活和社會發(fā)展。伴隨著數(shù)據(jù)的進一步集中,數(shù)據(jù)的價值越發(fā)的體現(xiàn),其中很多是用戶敏感信息,甚至涉及國家的機密。所以來自全球的各種人為攻擊在所難免,數(shù)據(jù)的存儲安全接收到了嚴(yán)峻的考驗,加之云計算技術(shù)的不斷成熟,對數(shù)據(jù)進行分布式處理也加大了數(shù)據(jù)泄露的風(fēng)險。為了應(yīng)對信息安全的風(fēng)險,我國于2014年成立了國家安全委員會,網(wǎng)絡(luò)信息安全正式提升為國家安全戰(zhàn)略。
近年來,我國將“互聯(lián)網(wǎng)+”行動計劃作為國策,推動了我國經(jīng)濟的發(fā)展,然而我國只能算得上是網(wǎng)絡(luò)大國,并不是網(wǎng)絡(luò)強國,在信息技術(shù)上,核心技術(shù)仍然受制于他國,因此,我國的信息安全形勢任十分嚴(yán)峻。安全技術(shù)伴隨著信息技術(shù),在大數(shù)據(jù)環(huán)境下,傳統(tǒng)的信息安全技術(shù)受到了挑戰(zhàn),安全攻擊事件呈高發(fā)態(tài)勢,木馬僵尸網(wǎng)絡(luò)、移動數(shù)據(jù)的泄露和竊取、APT(advanced persistent threat)攻擊等成為大數(shù)據(jù)時代的頑疾,僅靠傳統(tǒng)的防范措施已無法應(yīng)對安全的威脅。國內(nèi)外對網(wǎng)絡(luò)信息安全的問題都有大量的研究,國內(nèi)側(cè)重于用戶觀念與行為、技術(shù)保障、法律法規(guī)方面提出一些解決方案;國外則主要集中在隱私保護和技術(shù)方面的研究。本文從生活中的信息安全事件案例出發(fā),研究網(wǎng)絡(luò)信息安全的相關(guān)技術(shù),提出了運用相應(yīng)的大數(shù)據(jù)技術(shù)保護信息安全的方法。
2 大數(shù)據(jù)的概念與特點
2.1 大數(shù)據(jù)的基本概念
目前,大數(shù)據(jù)尚無統(tǒng)一的概念,根據(jù)維基百科的定義,“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工或者計算機,在合理的時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的形式的信息”[1]。上個世紀(jì)八十年代,著名的未來學(xué)家托夫勒在其《第三次浪潮》書中第一次提到了大數(shù)據(jù),他將大數(shù)據(jù)稱頌為 “第三次浪潮的華彩樂章”?!秐ature》雜志于2008年9月在其封面推出了大數(shù)據(jù)專欄。在2009年大數(shù)據(jù)在互聯(lián)網(wǎng)技術(shù)行業(yè)成為熱門的詞匯。麥肯錫環(huán)球研究院于2011年5月發(fā)布了《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》報告,報告指出:大數(shù)據(jù)是其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集[2]??傊?,大數(shù)據(jù)并不是新的產(chǎn)品和技術(shù),它只是數(shù)字化時代必然的產(chǎn)物。
2.2 大數(shù)據(jù)的特征
大數(shù)據(jù)具有四個典型的特征,概括起來:4V(Volume、Variety、Value、Velocity)+1C(Complexity)
①Volume(數(shù)據(jù)量大)。隨著互聯(lián)網(wǎng)、移動互聯(lián)技術(shù)的不斷發(fā)展,各種電子設(shè)備和傳感器產(chǎn)生了海量的數(shù)據(jù),每天的數(shù)據(jù)量都達到了ZB級別,數(shù)據(jù)規(guī)模極其龐大。
②Variety(數(shù)據(jù)類型多樣)。每天存儲的數(shù)據(jù)包括各種類型,有結(jié)構(gòu)化的、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的。而且數(shù)據(jù)的格式、編碼、應(yīng)用特征差異巨大。
③Value(價值性)。雖然數(shù)據(jù)總量巨大,但其價值密度較低。往往價值密度與數(shù)據(jù)總量成反比。
④Velocity(處理速度)。大數(shù)據(jù)對數(shù)據(jù)的處理速度要求很快,隨著云計算、虛擬化技術(shù)的不斷成熟為其提供了技術(shù)上的支持。
⑤Complexity(復(fù)雜性)。傳統(tǒng)的數(shù)據(jù)庫存儲模式已經(jīng)不再適用于大數(shù)據(jù)處理,需要一些全新的方法來滿足于復(fù)雜數(shù)據(jù)的處理。
3 大數(shù)據(jù)給信息安全帶來的安全問題
大數(shù)據(jù)不僅帶來了價值和機遇,也帶來了安全風(fēng)險。
3.1 大數(shù)據(jù)加大了隱私泄露的風(fēng)險
在大數(shù)據(jù)時代,用戶的個人信息在不經(jīng)意間被企業(yè)搜集和使用,信息的網(wǎng)絡(luò)化和透明化成為必然。企業(yè)把搜集到的數(shù)據(jù)通過數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù),從中獲取大量有價值的信息。同時用戶的數(shù)據(jù)很容易遭到泄露,用戶的隱私將被侵犯。近年來用戶隱私的泄漏事件時常發(fā)生,如何保護用戶的個人隱私數(shù)據(jù)遇到了嚴(yán)峻的挑戰(zhàn)。中國互聯(lián)網(wǎng)協(xié)會發(fā)布的《中國網(wǎng)民權(quán)益保護調(diào)查報(2015)》顯示,63.4%的網(wǎng)民通話記錄、網(wǎng)上購物記錄等網(wǎng)上活動信息遭泄露;78.2%的網(wǎng)民個人身份信息曾被泄露,包括姓名、家庭住址、身份證號及工作單位等[3]。下面通過兩個具體案例分析用戶信息泄露的問題。
1)2014年12月25日,烏云漏洞發(fā)布平臺消息稱,大量12306用戶數(shù)據(jù)在互聯(lián)網(wǎng)瘋傳[4],包括帳號、明文密碼、身份證郵箱等。在隨后的公安機關(guān)調(diào)查中發(fā)現(xiàn)犯罪嫌疑人通過收集互聯(lián)網(wǎng)某游戲網(wǎng)站以及其他多個網(wǎng)站泄露的用戶名加密碼信息,嘗試登錄12306網(wǎng)站進行“撞庫”,非法獲取用戶的其他信息,并謀取非法利益。
2)近幾年,電子商務(wù)快速發(fā)展,網(wǎng)絡(luò)商城越來越多,網(wǎng)絡(luò)購物司空見慣,信息泄露也是層出不窮,電信詐騙經(jīng)常發(fā)生。北京的李小姐在網(wǎng)上購買了一套嬰兒用品準(zhǔn)備送給朋友,付款成功后的第二天,就接到自稱是這家網(wǎng)店客服的電話。該“客服”以淘寶系統(tǒng)正在升級導(dǎo)致訂單失效為由,稱需要先退款再購買,并準(zhǔn)確說出了李小姐購買的商品名稱、收獲地址、電話以及訂單信息。由于信息完全相符,李小姐沒有懷疑,并通過QQ打開對方發(fā)來的退款鏈接,并按提示輸入銀行卡號、密碼、手機號及短信驗證碼等信息。由于對方發(fā)來的是釣魚鏈接,李小姐輸入提交了多次均顯示未成功付款,但手機短信提示已支付8000元[5]??梢姡瑐€人信息泄露成網(wǎng)購?fù)丝铗_局“基石”。
3.2 大數(shù)據(jù)成為高級可持續(xù)攻擊的顯著目標(biāo)
由于大數(shù)據(jù)具有更復(fù)雜、更敏感的數(shù)據(jù),這些數(shù)據(jù)會吸引更多的潛在攻擊者。其中APT攻擊[6](Advanced Persistent Threat攻擊)是大數(shù)據(jù)時代面臨的最復(fù)雜的信息安全之一。APT攻擊具有極強的穩(wěn)定性,攻擊持續(xù)時間長,潛伏期長,威脅性大的特點。另一方面,由于數(shù)據(jù)量巨大,黑客不惜花大力氣攻擊獲得更多的數(shù)據(jù),以至于增加了“收益率”。
3.3 大數(shù)據(jù)技術(shù)被黑客應(yīng)用到攻擊手段中
作為大數(shù)據(jù)的基礎(chǔ)技術(shù),云計算、數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展為黑客提供了智力支持,黑客利用這些先進的技術(shù)對企業(yè)發(fā)起攻擊。黑客的目的就是從企業(yè)的數(shù)據(jù)中最大限度地收集有用信息,這些信息包括:用戶的社交郵件、注冊的賬號密碼、聯(lián)系人的電話和家庭住址等。此外黑客還可以利用安全漏洞發(fā)起僵尸網(wǎng)絡(luò)攻擊,控制上百萬臺傀儡機并發(fā)攻擊。
4 大數(shù)據(jù)時代網(wǎng)絡(luò)信息安全技術(shù)
當(dāng)下,大數(shù)據(jù)產(chǎn)業(yè)迅猛發(fā)展,其安全問題無處不在,面對一系列的安全風(fēng)險,如何保障大數(shù)據(jù)的安全,并且在信息安全領(lǐng)域得到充分利用,也是學(xué)術(shù)界需要認(rèn)真研究的問題。2016年5月25日在貴陽召開的數(shù)博會上,與會專家為安全發(fā)聲,強化構(gòu)建安全技術(shù)體系。
4.1 構(gòu)建云環(huán)境下大數(shù)據(jù)信息安全體系
云計算為大數(shù)據(jù)提供了基礎(chǔ)設(shè)施,大數(shù)據(jù)需要靈活的計算環(huán)境,兩者相輔相成,后者可以快速、自動地進行擴展以支持海量數(shù)據(jù)。大數(shù)據(jù)的應(yīng)用過程通常被劃分為四個環(huán)節(jié):采集、存儲、挖掘、發(fā)布[7]。在數(shù)據(jù)的采集階段安全問題,可以通過身份認(rèn)證、數(shù)據(jù)加密等安全機制來保證采集數(shù)據(jù)過程的安全性,傳輸安全可以使用虛擬專用網(wǎng)(VPN)技術(shù)和基于安全套接層協(xié)議(SSL VPN)技術(shù)。在數(shù)據(jù)的存儲過程中需要保證數(shù)據(jù)的機密性和可用性,提供隱私保護和數(shù)據(jù)恢復(fù)技術(shù),可能用到的技術(shù)有:靜態(tài)數(shù)據(jù)加密標(biāo)準(zhǔn)(DES)、高級加密標(biāo)準(zhǔn)(AES)、動態(tài)數(shù)據(jù)加密標(biāo)準(zhǔn)機制,冗余的磁盤陣列(RAID)、Hadoop分布式文件系統(tǒng)(HDFS)等。在數(shù)據(jù)挖掘階段,要嚴(yán)格控制操作者的權(quán)限,防止機密信息泄露,可能用到的技術(shù)有: 基于生物特征的身份認(rèn)證技術(shù)、基于秘密信息的身份認(rèn)證技術(shù)、自主訪問控制、強制訪問控制等。在數(shù)據(jù)發(fā)布階段需要進行安全審計,如:基于日志的安全審計、基于代理的審計、基于網(wǎng)絡(luò)監(jiān)聽的審計等。
4.2 運用大數(shù)據(jù)應(yīng)對APT攻擊的技術(shù)
APT攻擊是當(dāng)前信息安全面臨的最大的威脅,具有手段多樣、目標(biāo)明確、持續(xù)時間長的特點,其造成的破壞力很大,而且隱蔽性很強,不容易被察覺。目前,國內(nèi)外對APT攻擊檢測的研究主要集中在3個方面:惡意代碼檢測、主機應(yīng)用保護檢測和網(wǎng)絡(luò)入侵檢測。在大數(shù)據(jù)環(huán)境下,APT攻擊的檢測常用的技術(shù)主要有:沙箱方案、異常檢測、基于記憶的檢測系統(tǒng)。沙箱方案[8]是對攻擊者的異常行為進行非特征性匹配,檢測出存在的威脅;異常檢測是根據(jù)正常行為的數(shù)據(jù)構(gòu)建一個行為模型,將未檢測的數(shù)據(jù)量與之進行對比,如果跟模型差異較大,則有理由懷疑該數(shù)據(jù)量是有攻擊者產(chǎn)生的;基于記憶的檢測系統(tǒng),是由全流量審計與日志審計相結(jié)合形成的,它是以犧牲時間為代價的,由于APT攻擊發(fā)生的時間很長,對長時間內(nèi)的數(shù)據(jù)流量進行深入的分析和還原,從而檢測出異常的行為。ATP攻擊的檢測可以分為四步:擴大檢測領(lǐng)域、對數(shù)據(jù)量進行濃縮、對攻擊行為作精確的報警、構(gòu)建攻擊場景。
4.3 大數(shù)據(jù)的認(rèn)證技術(shù)
身份認(rèn)證是指計算機及網(wǎng)絡(luò)系統(tǒng)確認(rèn)操作者身份的過程。傳統(tǒng)認(rèn)證技術(shù)的方式是基于用戶名和密碼的認(rèn)證方式,例如:口令、數(shù)字證書。但是這些技術(shù)有很多不足:首先,攻擊者總是能找到方法來騙取用戶的賬號信息,例如:通過抓包軟件的分析或者通過木馬病毒來盜取用戶的口令,還有甚者通過社會工程學(xué)方式騙取用戶的信息。其次,傳統(tǒng)認(rèn)證技術(shù)的認(rèn)證方式較為復(fù)雜,給用戶帶來了不少負(fù)擔(dān)。例如:用戶開通了網(wǎng)上銀行,就會涉及USB key和數(shù)字證書,而USB key需隨身攜帶,一旦忘記就無法完成身份認(rèn)證。為了方便用戶,生物特征識別技術(shù)誕生了,比較常見的就是通過指紋、虹膜識別用戶的身份,然而這些技術(shù)需要設(shè)備具有生物識別的功能,在廣泛應(yīng)用方面有很多的局限。
如果在認(rèn)證技術(shù)中引入大數(shù)據(jù)分析則能夠有效地解決這類問題。大數(shù)據(jù)的認(rèn)證技術(shù)[9]是指收集用戶行為和設(shè)備行為數(shù)據(jù),并對這些數(shù)據(jù)進行分析,獲得用戶行為和設(shè)備行為的特征,進而通過鑒別操作者行為及其設(shè)備行為來確定其身份。
這種認(rèn)證技術(shù)相對于傳統(tǒng)認(rèn)證技術(shù)有很大的不同,黑客很難模擬用戶的行為特征,所以安全性又提升了一個等級。
4.4 大數(shù)據(jù)真實性分析技術(shù)
目前,基于大數(shù)據(jù)的真實性分析技術(shù)被認(rèn)為是最有效的方法,它可以有效地過濾垃圾信息。各個企業(yè)都將自己的研發(fā)成果應(yīng)用到了產(chǎn)品中,例如:網(wǎng)易利用大數(shù)據(jù)真實性分析技術(shù)過濾垃圾郵件;FaceBook等社交媒體也是利用大數(shù)據(jù)真實性分析技術(shù)過濾垃圾信息。
大數(shù)據(jù)真實性分析技術(shù)在我們?nèi)粘I钪袘?yīng)用非常廣泛,它既可以過濾垃圾信息,又可以鑒別異常信息。例如,當(dāng)用戶在購物網(wǎng)站購物的時候,如何識別虛假評價信息,這也是購物網(wǎng)站亟待解決的問題。購物網(wǎng)站可以利用大數(shù)據(jù)真實性分析技術(shù)對評論者的位置信息、評論內(nèi)容、評論時間等進行分析,鑒別出異常信息。如果發(fā)現(xiàn)某類商品同一個時段頻繁出現(xiàn)很多差評,很可能是惡意評價,可以將其設(shè)定標(biāo)記做進一步的觀察。此外,在運用大數(shù)據(jù)真實性分析技術(shù)時,還可以利用傳統(tǒng)的分析技術(shù)發(fā)現(xiàn)垃圾信息,例如:機器學(xué)習(xí)技術(shù)、數(shù)據(jù)挖掘技術(shù)等。大數(shù)據(jù)真實性分析技術(shù)還在發(fā)展中,有很多地方還不夠成熟,例如:比較難以鑒別虛假信息以及模型的構(gòu)建。隨著研究的不斷深入,這些問題都會迎刃而解。
5 結(jié)論
大數(shù)據(jù)不僅給信息安全帶來了安全的問題,也為信息安全技術(shù)的發(fā)展提供了新的發(fā)展機遇,它就像是一把雙刃劍,既可以利用大數(shù)據(jù)技術(shù)發(fā)起攻擊,也可以為安全分析提供新的可能性。本文從大數(shù)據(jù)時代信息安全帶來的安全性問題出發(fā),列舉了社會上常見的信息安全案例,通過對案例的分析提出了大數(shù)據(jù)時代網(wǎng)絡(luò)信息安全的相關(guān)技術(shù)。當(dāng)下,大數(shù)據(jù)已經(jīng)成為各個國家關(guān)注的重要戰(zhàn)略資源,對國家的經(jīng)濟發(fā)展、網(wǎng)絡(luò)安全以及國家安全將產(chǎn)生長遠(yuǎn)和巨大的影響。
參考文獻:
[1] 維基百科. 大數(shù)據(jù) [EB/OL][D]. https://zh.wikipedia.org/wiki/大數(shù)據(jù),2013.
[2] Labrinidis A, Jagadish H V. Challenges and opportunities with big data[J]. Proceedings of the VLDB Endowment, 2012, 5(12): 2032-2033.
[3] 中國網(wǎng)民權(quán)益保護調(diào)查(2015) [EB/OL]. http://www.scio.gov.cn/zhzc/8/5/Document/1441916/1441916.htm.
[4] 大量12306用戶數(shù)據(jù)在互聯(lián)網(wǎng)瘋傳包括用戶帳號、明文密碼、身份證郵箱等(泄漏途徑目前未知)[EB/OL].http://www.wooyun.org/bugs/wooyun-2014-088532
[5]央視:個人信息泄露成網(wǎng)購詐騙“罪魁禍?zhǔn)住盵EB/OL].http://science.china.com.cn/2014-09/02/content_33407267.htm.
[6] Zulkefli Z, Singh M M, Malim N H A H. Advanced Persistent Threat Mitigation Using Multi Level Security–Access Control Framework[M]//Computational Science and Its Applications--ICCSA 2015. Springer International Publishing, 2015: 90-105.
[7] 王樹良, 丁剛毅, 鐘鳴. 大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J]. 中國電子科學(xué)研究院學(xué)報, 2013, 8(1): 8-17.
[8] 劉昕. 大數(shù)據(jù)背景下的 APT 攻擊檢測與防御[J]. 電子測試, 2014 (1X): 80-81.
[9] 馮登國, 張敏, 李昊. 大數(shù)據(jù)安全與隱私保護[J]. 計算機學(xué)報, 2014, 37(1): 246-258.