何國鋒/He Guofeng
(中國電信股份有限公司上海分公司 上海200120)
隨著云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、智慧城市的快速發(fā)展,人們需要收集、處理和管理的各種數(shù)據(jù)呈爆炸性增長,大數(shù)據(jù)概念也應運而生。2011年,美國總統(tǒng)科技顧問委員會指出,大數(shù)據(jù)技術(shù)蘊含著重要的戰(zhàn)略意義,聯(lián)邦政府應當加大投資研發(fā)力度[1]。2012年3月22日,美國政府宣布投資2 億美元拉動大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,把大數(shù)據(jù)定義為“未來的新石油”,并上升為國家戰(zhàn)略。維克托·舍恩伯格在《大數(shù)據(jù)時代》中說道:“未來數(shù)據(jù)會像土地、石油和資本一樣,成為經(jīng)濟運行中根本性的資源?!?/p>
作為“戰(zhàn)略性資源”,大數(shù)據(jù)的概念并不是最近才出現(xiàn)的,只是隨著信息化和互聯(lián)網(wǎng)不斷發(fā)展,才越來越被大家重視。1980年,著名未來學家阿爾文托夫勒在《第三次浪潮》中將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂章”。大數(shù)據(jù)顧名思義就是“數(shù)量”很大的數(shù)據(jù),由數(shù)量巨大、結(jié)構(gòu)復雜、類型眾多的數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合。業(yè)內(nèi)一般認為其有4V 特征:Volume(數(shù)據(jù)量大)、Velocity(輸入和處理速度快)、Variety(數(shù)據(jù)多樣性)、Veracity(價值密度低)[2]。所謂數(shù)據(jù)量大,是指從TB 級別躍升到PB 級別。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年增長50%,而且速度越來越快。目前,世界上90%以上的數(shù)據(jù)都是最近幾年才產(chǎn)生的。國際數(shù)據(jù)公司(IDC)報告指出,2008年全球數(shù)據(jù)量為0.5 ZB,2010年為1.2 ZB,預計2020年將突破35 ZB。輸入和處理速度快是指現(xiàn)在產(chǎn)生的數(shù)據(jù)越來越多、越來越快,全世界人民每時每刻都在互聯(lián)網(wǎng)上發(fā)布信息,出現(xiàn)各種基于互聯(lián)網(wǎng)應用而留下的行為痕跡。數(shù)據(jù)多樣性是指各種各樣的數(shù)據(jù),包括全球的工業(yè)設(shè)備、汽車、電表的傳感器,各種電子商務、政務產(chǎn)生的交易日志等,并且類型也從單一的結(jié)構(gòu)化數(shù)據(jù)擴展到半結(jié)構(gòu)化甚至自然語言(如聊天記錄)等。價值密度低則指的是數(shù)量龐大,雖然價值很大,但密度較低,通過傳統(tǒng)人工檢索的方式不可行,因此必須發(fā)展相應的大數(shù)據(jù)挖掘技術(shù)。大數(shù)據(jù)之所以備受業(yè)界重視,是因為價值大是大數(shù)據(jù)的靈魂所在,數(shù)據(jù)成為一種資產(chǎn)或者生產(chǎn)資料,可以為企業(yè)或社會帶來巨大的價值。
毋庸置疑,大數(shù)據(jù)正在由技術(shù)熱詞變成一股社會浪潮,影響社會生活的方方面面,給我們帶來更大的視野和更新的發(fā)現(xiàn),進而改變我們的生活、工作和思維方式。在這個進程中,大數(shù)據(jù)所引發(fā)的革命在企業(yè)界尤為突出,特別是電信運營商企業(yè)。身處信息化時代,所有的服務、生產(chǎn)經(jīng)營都已經(jīng)數(shù)字化,在為客戶提供網(wǎng)絡數(shù)據(jù)傳輸?shù)倪^程中,自然可獲得大量的數(shù)據(jù),如何發(fā)揮這些數(shù)據(jù)的作用是運營商下階段發(fā)展的重要命題。任何技術(shù)發(fā)展都具有兩面性,大數(shù)據(jù)在帶來機遇的同時也帶來了巨大的挑戰(zhàn)。大數(shù)據(jù)時代的數(shù)據(jù)體量巨大、增長快速,有些數(shù)據(jù)甚至關(guān)系國家安全、企業(yè)競爭力等敏感信息,如政府情報、金融數(shù)據(jù)、醫(yī)療信息等。其次,大數(shù)據(jù)也會帶來用戶隱私泄露問題,必須要切實做好客戶信息保護工作,消除客戶擔憂。如果不能做好這些信息安全工作,必然會遭到政府、客戶的反對,大數(shù)據(jù)必然是短命的。因此,必須充分保障大數(shù)據(jù)時代的信息安全,才能使大數(shù)據(jù)長效發(fā)揮作用。
國外相關(guān)機構(gòu)對大數(shù)據(jù)安全也非常關(guān)注,CSA BDWG 在2013年6月16日發(fā)布 《Expanded Top Ten Big Data Security and Privacy Challenges》完整版[3],將大數(shù)據(jù)安全劃分為基礎(chǔ)架構(gòu)安全、數(shù)據(jù)隱私、數(shù)據(jù)管理、誠信和無保障4 類。2013年7月18日至8月18日發(fā)布了《Big Data Analytics for Security Intelligence》白皮書,給出數(shù)據(jù)隱私與管理、網(wǎng)絡安全監(jiān)控、企業(yè)活動分析、流量監(jiān)控來識別僵尸網(wǎng)絡、高級持續(xù)性威脅檢測以及大數(shù)據(jù)分析實驗平臺等最佳實踐。
大數(shù)據(jù)是社會高度信息化的必然產(chǎn)物,其安全風險是信息安全的組成部分。在大數(shù)據(jù)環(huán)境下,體量龐大、類型繁多的數(shù)據(jù)在收集、存儲、管理、分析、傳輸以及共享等各個環(huán)節(jié)都可能存在信息安全風險和隱患。人們所熟悉的信息安全問題,從計算機病毒到網(wǎng)絡黑客、從技術(shù)性故障到有組織攻擊,從個人隱私破壞到大規(guī)模數(shù)據(jù)泄露等,在大數(shù)據(jù)時代依然存在。由于大數(shù)據(jù)新的特性,給信息安全帶來新的挑戰(zhàn)。
一方面,大數(shù)據(jù)平臺本身存在脆弱性。當前大數(shù)據(jù)存儲和處理技術(shù)通常采用分布式和大規(guī)模并行處理方式,導致其被攻擊面擴大;同時,由于各個分布式處理節(jié)點中存儲的是“碎片化”數(shù)據(jù),難以采取集中式安全模型統(tǒng)一部署安全機制。另一方面,大數(shù)據(jù)缺乏內(nèi)生性安全保障機制。目前,主流的大數(shù)據(jù)相關(guān)技術(shù)普遍沒有內(nèi)生性的安全機制設(shè)計,大多需要采用外部安全技術(shù)保障,然而在實際部署時普遍采用缺省配置,缺乏最基本的安全防護。
大數(shù)據(jù)存儲帶來新的安全問題。數(shù)據(jù)大量集中的后果是復雜多樣的數(shù)據(jù)存儲在一起,給數(shù)據(jù)管理帶來挑戰(zhàn)。另外,大數(shù)據(jù)的規(guī)模也會影響安全措施能否正確運行。安全防護手段的更新升級無法跟上數(shù)據(jù)量非線性增長的步伐。
顯然,大數(shù)據(jù)是更容易被關(guān)注的大目標。一方面,大數(shù)據(jù)意味著大規(guī)模的數(shù)據(jù),也意味著更復雜、更敏感的數(shù)據(jù),這些數(shù)據(jù)會吸引更多的潛在攻擊者;另一方面,數(shù)據(jù)的大量匯集提高了攻擊的性價比,使得黑客成功攻擊一次就能獲得更多的數(shù)據(jù)。2012年的CSDN 賬號泄露以及2013年酒店記錄泄露也證實了這樣的趨勢。
大數(shù)據(jù)所提供的強大資源是“雙刃劍”,很有可能被黑客組織和敵對勢力利用,實施攻擊和破壞活動。第一方面是大數(shù)據(jù)技術(shù)使得黑客攻擊更精準。黑客可以通過大數(shù)據(jù)分析技術(shù)獲得更多有價值的信息,如從社交網(wǎng)絡、郵件、微博、電子商務中利用大數(shù)據(jù)技術(shù)搜集企業(yè)或個人的電話、家庭地址、企業(yè)信息防護措施等信息,使其攻擊行為和目標更加精準、更具有針對性;第二方面是大數(shù)據(jù)技術(shù)放大黑客攻擊效果。黑客可以充分利用大數(shù)據(jù)平臺所具備的強大運算、存儲和傳輸資源放大攻擊效果,造成更大的損害(類似于利用僵尸網(wǎng)絡攻擊的方式); 第三方面是大數(shù)據(jù)技術(shù)使得黑客攻擊更隱蔽。由于大數(shù)據(jù)規(guī)模大、復雜性高,黑客可以通過大數(shù)據(jù)掩護使其攻擊更加分散,使得安全分析工具難以定位;同時,黑客可以使用APT(高級可持續(xù)攻擊),讓木馬等長期潛伏在大數(shù)據(jù)平臺中,定期或不定期地對有價值的信息進行跟蹤竊取,更加難以防范。傳統(tǒng)的信息安全檢測是基于單個時間點進行基于威脅特征的試匹配檢測,而APT 是一個長期的攻擊過程,無法被實時檢測。大數(shù)據(jù)的數(shù)據(jù)量龐大,有利于黑客將攻擊掩藏,給安全分析帶來困難。
互聯(lián)網(wǎng)上大量數(shù)據(jù)的匯集不可避免地加大了個人信息泄露的風險。一方面是數(shù)據(jù)集中容易增加泄露風險,有專家表示,通過一些行為分析可以判定一個人的準確率為87%。另一方面是敏感數(shù)據(jù)的所有權(quán)和使用權(quán)在當前法律中沒有明確的界定,很多基于大數(shù)據(jù)的分析也未考慮到其中涉及的個人隱私問題。如網(wǎng)上的購物行為、搜索行為這樣的記錄屬于行為者本人還是平臺;用戶上網(wǎng)行為記錄運營商是否有權(quán)使用;用戶訪問URL 是否可以分析等。
Gartner 報告指出,85%的大數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡、物聯(lián)網(wǎng)、電子商務領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù),相關(guān)數(shù)據(jù)并無地域限制。在大數(shù)據(jù)時代,圍繞大數(shù)據(jù)的采集、傳輸、存儲、利用、消費等環(huán)節(jié)將誕生新的產(chǎn)業(yè)鏈,許多企業(yè)都可以在這個產(chǎn)業(yè)鏈中找到定位并發(fā)展壯大。信息安全是在每個產(chǎn)業(yè)環(huán)節(jié)中都必須加以保障的。
大數(shù)據(jù)在給信息安全保障工作帶來巨大挑戰(zhàn)的同時,也為信息安全提供了新的工作思路和解決方案,促進了安全技術(shù)及產(chǎn)業(yè)的發(fā)展與革新。
在傳統(tǒng)的信息安全保障過程中,往往采取事中評估、事后處置的防護模式,一旦發(fā)生信息安全事件,難免造成一定的損失及影響。如今利用大數(shù)據(jù)相關(guān)技術(shù),可以實現(xiàn)對海量數(shù)據(jù)的分析、關(guān)聯(lián)、對比,通過自動化的分析及深度挖掘手段,能夠提前發(fā)現(xiàn)潛在的安全隱患和漏洞。
同時,網(wǎng)絡黑客的攻擊行為往往會留下蛛絲馬跡,這些痕跡都以數(shù)據(jù)的形式隱藏在海量的日志信息中。利用大數(shù)據(jù)技術(shù)整合計算和處理資源有助于更有針對性地分析問題,便于攻擊溯源;同時,信息安全服務廠商也可以根據(jù)相關(guān)行為的分析,研發(fā)相對應的防護手段和工具,保障網(wǎng)絡與系統(tǒng)的安全。
通過大數(shù)據(jù)技術(shù)更容易得到網(wǎng)絡全貌,更容易分析一些傳統(tǒng)安全技術(shù)無法檢測的行為,如慢速DDoS、APT 攻擊等。利用大數(shù)據(jù)技術(shù)對事件模式、攻擊模式、時間和空間上的特征進行處理,總結(jié)抽象出一些模型,變成大數(shù)據(jù)工具??梢哉洗髷?shù)據(jù)處理資源,協(xié)調(diào)大數(shù)據(jù)處理和分析機制,推動重點數(shù)據(jù)塊之間的數(shù)據(jù)共享,共同抵御高級可持續(xù)攻擊。
監(jiān)測預警是信息安全保障體系的重要組成部分,上海電信已經(jīng)建立了較完備的安全監(jiān)測體系,然而,在傳統(tǒng)技術(shù)條件下,相關(guān)體系缺乏針對整個網(wǎng)絡安全態(tài)勢進行有效掌控的手段。
大數(shù)據(jù)分析將單純的日志分析擴展到了全面的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)分析領(lǐng)域,擴大了安全分析的深度和廣度,為信息安全提供強大的監(jiān)測、分析和預測支持。大數(shù)據(jù)分析技術(shù)將極大地提升上海電信對城域網(wǎng)運行安全監(jiān)測數(shù)據(jù)的分析挖掘能力。在原有監(jiān)測資源的基礎(chǔ)上,優(yōu)化系統(tǒng)結(jié)構(gòu),建立更強大的計算和存儲資源,部署適合的信息采集機制,研發(fā)更加實用的分析算法,建立信息安全宏觀態(tài)勢監(jiān)控預警能力。
運營商可以通過流量監(jiān)測建立客戶的常規(guī)流量模型,在客戶流量異常時為客戶提供預警服務,及時提醒客戶,防范未知風險。
運營商也可以通過集中分析網(wǎng)內(nèi)的異常行為,如病毒、黑客攻擊,在這些行為影響到客戶時,提供預警甚至阻斷服務,確保客戶網(wǎng)絡的安全。
運營商也可以為公眾用戶提供安全訪問網(wǎng)站的服務。通過收集、建立黑白名單,對客戶訪問的地址提供分析服務。如果是惡意釣魚類的黑名單地址,則提醒用戶安全訪問。如果是假冒網(wǎng)站還可以提醒用戶訪問真實官網(wǎng),起到品牌保護的作用。甚至還可以通過數(shù)據(jù)分析為未成年人提供綠色上網(wǎng)服務,自動過濾不良內(nèi)容。
運營商還可以借助強大的計算資源和網(wǎng)絡資源,為客戶提供輿情分析平臺,讓客戶及時了解自己的產(chǎn)品、服務、品牌在網(wǎng)絡空間的美譽度或建議,及時改進自己的服務。
大數(shù)據(jù)給信息安全帶來挑戰(zhàn)的同時,也帶來了機遇,如何控制風險,發(fā)揮優(yōu)勢,需要一個科學、合理的安全策略。關(guān)鍵要做好以下幾方面。
對所有數(shù)據(jù),包括客戶數(shù)據(jù)和自身的業(yè)務數(shù)據(jù),要根據(jù)法規(guī)、對企業(yè)價值等多個維度對數(shù)據(jù)級別進行定義和分類,并制定分級的準則。
根據(jù)數(shù)據(jù)等級的不同,在收集、采集、傳輸、存儲、處理、訪問、刪除時都應該有不同的策略。通常來說,將重要數(shù)據(jù)存放在安全、可靠的設(shè)備上,給予高強度的保護,包括網(wǎng)絡隔離、訪問控制等。
大數(shù)據(jù)時代,數(shù)據(jù)量以幾何技術(shù)增長,傳統(tǒng)的安全防護軟件不能滿足需要。同時,云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)對數(shù)據(jù)的手機、處理和應用也提出了新的安全挑戰(zhàn)。因此,必須加強對大數(shù)據(jù)安全保障技術(shù)的研究,同時,也要研究基于大數(shù)據(jù)的安全技術(shù),為客戶提供更好的信息安全服務。
人才是大數(shù)據(jù)技術(shù)發(fā)展應用的第一要素,不僅要培養(yǎng)數(shù)據(jù)分析工程師,更要培養(yǎng)數(shù)據(jù)安全工程師,為大數(shù)據(jù)長期穩(wěn)定運營保駕護航。
根據(jù)法規(guī)的要求,妥善處理好數(shù)據(jù)邊界。對涉及用戶隱私的信息必須去隱私化處理。
毫無疑問,大數(shù)據(jù)深刻地影響著社會各行各業(yè)的發(fā)展。對于處于去電信化階段的運營商,大數(shù)據(jù)給予其再一次發(fā)展的機會。如果不切實考慮如何挖掘大數(shù)據(jù)的商業(yè)價值以及如何保護好大數(shù)據(jù)的信息安全,不僅意味者運營商在行業(yè)落伍了,甚至會失去未來市場的競爭力。大數(shù)據(jù)就是一片奔涌著沖天巨浪的大潮,大數(shù)據(jù)安全則是弄潮兒腳下的沖浪板,有了沖浪板的行業(yè)領(lǐng)先者將會在這片大潮中乘風破浪騰躍高飛,再一次創(chuàng)造輝煌。
1 美國政府大數(shù)據(jù)研發(fā)計劃,http://www.360doc.com/content/12/0501/21/9768137_207974185.shtml
2 大數(shù)據(jù),http://zh.wikipedia.org/wiki/大數(shù)據(jù)
3 CSA.Expanded Top Ten Big Data Security and Privacy Challenges.2013