王 晗
目前我們處在一個(gè)網(wǎng)絡(luò)爆炸的時(shí)代,各種信息化的發(fā)展導(dǎo)致我們的數(shù)據(jù)在急劇地增長(zhǎng)。據(jù)統(tǒng)計(jì),平均每秒有60萬用戶在使用百度,每天1000萬人在淘寶留下足跡。同時(shí),旅游業(yè),醫(yī)學(xué),生物學(xué),金融,零售等各大小平臺(tái)的數(shù)據(jù)在不斷的產(chǎn)生,這些數(shù)據(jù)涉及到各行各業(yè)不同用戶的信息。隨著數(shù)據(jù)越來越多,傳統(tǒng)的信息安全技術(shù)已經(jīng)滿足不了現(xiàn)有的需求。目前,人們?cè)诨ヂ?lián)網(wǎng)上的足跡都掌握在互聯(lián)網(wǎng)商家當(dāng)中,比如淘寶的瀏覽記錄,以往的購(gòu)買記錄這些數(shù)據(jù)都在淘寶的應(yīng)用平臺(tái)當(dāng)中,淘寶官方通過數(shù)據(jù)的采集分析就可以精確的了解用戶的喜好,因此推薦系統(tǒng)應(yīng)運(yùn)而生。又比如用戶每日在百度的搜索記錄經(jīng)過一段時(shí)間的收集之后,同樣可以在這些數(shù)據(jù)當(dāng)中分析出用戶的性格特征和檢索習(xí)慣。這些實(shí)際的例子都表明,即使是一些看起來不起眼的數(shù)據(jù),被大量記錄之后,再經(jīng)過分析,就會(huì)暴露出用戶的行為特征。因此,研究和分析大數(shù)據(jù)時(shí)代存在的安全威脅是非常必要的。
大數(shù)據(jù)是一種具有大量、高速、多樣、價(jià)值密度低等特點(diǎn)的巨量資料。它來源豐富,數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)量大,數(shù)據(jù)經(jīng)過采集后存儲(chǔ)到云端,之后經(jīng)過數(shù)據(jù)處理和分析,系統(tǒng)可以篩選出有用的信息。
目前大數(shù)據(jù)分析應(yīng)用于醫(yī)學(xué)、旅游業(yè),金融,教育等各領(lǐng)域,數(shù)據(jù)分析可以幫助人們透過現(xiàn)象看本質(zhì),能更加準(zhǔn)確地推測(cè)事物的未來發(fā)展趨勢(shì),幫助人們規(guī)避風(fēng)險(xiǎn)。同時(shí)大數(shù)據(jù)系統(tǒng)可以對(duì)個(gè)人活動(dòng)數(shù)據(jù)進(jìn)行不斷累積,之后通過數(shù)據(jù)分析來掌握個(gè)性化特征,從而給用戶提供更加針對(duì)性的服務(wù),讓用戶享受到更好更方便的服務(wù),也使企業(yè)的收益得到提高。大數(shù)據(jù)分析還可以利用其自身數(shù)據(jù)來源豐富的特點(diǎn),對(duì)獲取的信息進(jìn)行識(shí)別,從而幫助人們?nèi)吻笳妗⒄鐒e真相,降低造假信息傳播所造成的危害。大數(shù)據(jù)中潛在的價(jià)值也吸引來了各大行業(yè)巨頭的投資,巨大的商機(jī)也應(yīng)運(yùn)而生,從而促使許多新公司、新技術(shù)的誕生。
由圖1所示可知,大數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)主要包含五個(gè)步驟,分別是數(shù)據(jù)準(zhǔn)備,存儲(chǔ)數(shù)據(jù),計(jì)算處理,數(shù)據(jù)分析和知識(shí)展現(xiàn)。
圖1 大數(shù)據(jù)系統(tǒng)架構(gòu)
(1)數(shù)據(jù)準(zhǔn)備:大數(shù)據(jù)的數(shù)據(jù)來源非常多樣。我們?cè)谌粘I钪袨g覽的記錄就會(huì)被各個(gè)平臺(tái)的數(shù)據(jù)采集工具爬取到,如hadoop的chukwa,facebook的scribe,這些數(shù)據(jù)爬取工具都是采用分布式的架構(gòu),對(duì)爬取的數(shù)據(jù)進(jìn)行快速地上傳和存儲(chǔ);而網(wǎng)絡(luò)上的數(shù)據(jù)采集主要是通過網(wǎng)絡(luò)爬蟲和系統(tǒng)平臺(tái)公共API的方法去獲取數(shù)據(jù)信息,然后將這些數(shù)據(jù)存儲(chǔ)到云端,分析的時(shí)候再進(jìn)行統(tǒng)一的處理。
(2)存儲(chǔ)數(shù)據(jù):數(shù)據(jù)在經(jīng)過收集之后,要將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)或者云端,以支持后繼更深入的數(shù)據(jù)分析。目前我們通常用分布式的架構(gòu)來存儲(chǔ)大數(shù)據(jù),以此來減少用戶訪問的壓力。
(3)計(jì)算處理:計(jì)算處理主要分為批處理、交互分析、流處理。批處理是對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)之后,再對(duì)數(shù)據(jù)進(jìn)行成批處理,能有效提高系統(tǒng)資源的利用率。交互分析是指人向計(jì)算機(jī)輸入指令,計(jì)算機(jī)經(jīng)過處理后把輸出結(jié)果呈現(xiàn)給用戶,使用戶與系統(tǒng)能夠及時(shí)的進(jìn)行人機(jī)交互。流處理是對(duì)源源不斷地到來的數(shù)據(jù)進(jìn)行迅速、沒有延遲的處理,它對(duì)處理延遲容忍度較低(但容錯(cuò)性較高)。
(4)數(shù)據(jù)分析:主要就是對(duì)存儲(chǔ)階段的數(shù)據(jù)進(jìn)行分析,建立相應(yīng)的模型,以備后續(xù)的數(shù)據(jù)挖掘。
(5)知識(shí)展現(xiàn):經(jīng)過分析后的數(shù)據(jù)通過數(shù)據(jù)可視性化展現(xiàn)出來,數(shù)據(jù)可視性將大數(shù)據(jù)集中的數(shù)據(jù)以折線圖等形式展示,使用戶能夠很直觀的看到數(shù)據(jù)變化的趨勢(shì)。
數(shù)據(jù)傳輸層存在著大量的網(wǎng)絡(luò)節(jié)點(diǎn),網(wǎng)絡(luò)節(jié)點(diǎn)實(shí)質(zhì)就是互聯(lián)網(wǎng)中的路由器,路由器的主要功能就是根據(jù)數(shù)據(jù)的目的地址進(jìn)行路由的選擇和轉(zhuǎn)發(fā)。由于數(shù)據(jù)在傳輸過程當(dāng)中,信號(hào)的傳輸是在鏈路中進(jìn)行的,對(duì)于用戶而言是不可視的。因此在數(shù)據(jù)傳輸過程當(dāng)中存在著很多安全威脅,常見安全威脅有以下幾種:
(1)竊聽:在數(shù)據(jù)傳輸過程當(dāng)中,攻擊者會(huì)通過抓包工具截取數(shù)據(jù),如果截取的數(shù)據(jù)是以明文的形式傳輸?shù)?,這樣攻擊者很容易得到用戶傳輸?shù)木唧w信息,因而造成用戶信息的泄漏。
(2)篡改:篡改主要是指數(shù)據(jù)傳輸過程當(dāng)中,攻擊者截取中途傳輸?shù)臄?shù)據(jù),然后對(duì)其中的一些重要信息進(jìn)行修改,再依照數(shù)據(jù)包中的目的地址將數(shù)據(jù)繼續(xù)傳送給接收者,攻擊者對(duì)數(shù)據(jù)進(jìn)行篡改從而使數(shù)據(jù)的完整性遭到了嚴(yán)重的破壞。
(3)路由攻擊:路由攻擊就是攻擊者直接攻擊路由器,惡意篡改內(nèi)部路由表中的信息,發(fā)送的數(shù)據(jù)包經(jīng)過被攻擊的節(jié)點(diǎn)后,會(huì)根據(jù)錯(cuò)誤的路由表信息進(jìn)行路由選擇,這樣的話就會(huì)選擇錯(cuò)誤的路徑,造成網(wǎng)絡(luò)帶寬的浪費(fèi)。
黑客攻擊主要分為非破壞性攻擊和破壞性攻擊兩大類,非破壞性攻擊主要目的是為了擾亂系統(tǒng)的正常運(yùn)行,而破壞性攻擊主要就是采用非法的手段竊取用戶的信息。下面是常見的黑客攻擊手段:
(1)后門程序:后門程序又稱特洛伊木馬,它一般潛伏在電腦中,繞過安全性檢測(cè)進(jìn)行數(shù)據(jù)的采集,之后將獲取的數(shù)據(jù)發(fā)送給遠(yuǎn)程的控制機(jī)器。
(2)拒絕服務(wù):拒絕服務(wù)實(shí)質(zhì)就是信息炸彈,攻擊者對(duì)指定服務(wù)器發(fā)送超過其目標(biāo)處理能力的大量數(shù)據(jù)包,從而導(dǎo)致目標(biāo)服務(wù)器的緩沖隊(duì)列一直為滿的狀態(tài),從而導(dǎo)致網(wǎng)絡(luò)或者服務(wù)器系統(tǒng)不堪重負(fù)。對(duì)于用戶新來的請(qǐng)求,由于緩沖隊(duì)列一直為滿的情況,所以系統(tǒng)無法提供正常的網(wǎng)絡(luò)服務(wù),最終會(huì)導(dǎo)致服務(wù)器癱瘓。
(3)網(wǎng)絡(luò)竊聽:網(wǎng)絡(luò)竊聽是指攻擊者監(jiān)視網(wǎng)絡(luò)狀況。黑客一般通過這種方式來獲取用戶口令,將截取到的口令用以登錄相應(yīng)的系統(tǒng)從而獲取到用戶的隱私信息。
數(shù)據(jù)加密是對(duì)用戶傳輸?shù)臄?shù)據(jù)進(jìn)行加密,這樣在數(shù)據(jù)傳輸?shù)倪^程當(dāng)中,即使被惡意的攻擊者截取,攻擊者通過窮舉的方式在有效的時(shí)間內(nèi)也破解不了,因此能有效保障用戶的隱私不被泄漏。數(shù)據(jù)加密實(shí)質(zhì)就是在用戶發(fā)送數(shù)據(jù)到傳輸信道之前,將傳輸?shù)臄?shù)據(jù)通過加密算法使明文轉(zhuǎn)換成密文,接收者在接收到信息之后再通過事先約定的密鑰通過解密算法將密文轉(zhuǎn)化為明文。數(shù)據(jù)加密主要分為對(duì)稱加密和非對(duì)稱加密。對(duì)稱加密的加密算法和解密算法使用的是同一個(gè)密鑰,而非對(duì)稱加密中加密算法和解密算法使用的密鑰是不相同的,數(shù)據(jù)的接收者擁有私鑰,而將公鑰公開,任何人可以通過接收者釋放的公鑰對(duì)數(shù)據(jù)進(jìn)行加密之后然后向接收者發(fā)送消息,接受者接收到數(shù)據(jù)之后可以通過自己的私鑰就可以將密文轉(zhuǎn)換成明文。
要解決大數(shù)據(jù)的安全存儲(chǔ)問題,就要建立,健全數(shù)據(jù)安全存儲(chǔ)體系,為了保護(hù)核心數(shù)據(jù)的安全,采用了隱式機(jī)制解決存儲(chǔ)問題,竊取者如果想要獲取用戶的個(gè)人信息,必須要知道所存儲(chǔ)的矩陣的每一個(gè)元素的信息,這給竊取信息者在技術(shù)操作上增加了很大的難度,對(duì)于保護(hù)用戶的隱私是非常有意義的。
隱式機(jī)制運(yùn)用了代數(shù)密碼學(xué)中基于有限域中多項(xiàng)式解的原理,將數(shù)據(jù)隨機(jī)劃分為個(gè)部分—并把這個(gè)值看成是一元次多項(xiàng)式的根,將每一部分分別儲(chǔ)存在不同的云服務(wù)器中,此過程數(shù)據(jù)信息不被加密,我們稱此數(shù)據(jù)的處理方式為隱式機(jī)制。方案中,負(fù)責(zé)存儲(chǔ)數(shù)據(jù)的各個(gè)云服務(wù)器不會(huì)泄露任何信息,只有當(dāng)所有的云服務(wù)器合謀時(shí)才能造成數(shù)據(jù)信息的泄露。
目前,隨著大數(shù)據(jù)的發(fā)展,網(wǎng)絡(luò)犯罪也越來越多,因此管理層必須要重視計(jì)算機(jī)網(wǎng)絡(luò)的安全使用,加強(qiáng)防范意識(shí),相關(guān)部門必須要完善立法,加強(qiáng)網(wǎng)絡(luò)信息和個(gè)人隱私信息的保護(hù)力度,建立健全完善的法律法規(guī),全面提升網(wǎng)絡(luò)安全的監(jiān)管力度。除此之外,在這樣一個(gè)時(shí)代,用戶自身也要加強(qiáng)安全防范意識(shí),避免人為因素造成自身隱私的泄露。
在大數(shù)據(jù)時(shí)代,一些攻擊者往往將一些惡意的病毒注入到相關(guān)的網(wǎng)頁(yè)當(dāng)中,一旦點(diǎn)擊進(jìn)去,病毒就會(huì)進(jìn)行傳染,它們就像寄生者一樣,可以監(jiān)控計(jì)算機(jī)內(nèi)各個(gè)進(jìn)程的運(yùn)行狀況,對(duì)計(jì)算機(jī)系統(tǒng)進(jìn)行破壞,對(duì)計(jì)算機(jī)內(nèi)存中的內(nèi)容進(jìn)行刪除,造成用戶隱私的泄露。因此,一旦遇到這種問題,要立即使用殺毒軟件對(duì)計(jì)算機(jī)中的病毒進(jìn)行清理,維護(hù)系統(tǒng)的安全。除此之外,用戶要定時(shí)的清理和更新最常用的軟件,使之保證最新的版本。
大數(shù)據(jù)時(shí)代的到來,加快了信息時(shí)代的高速發(fā)展,給我們帶來便利的同時(shí),很多網(wǎng)絡(luò)安全問題也隨之而來,本文首先介紹了什么是大數(shù)據(jù)時(shí)代,以及大數(shù)據(jù)系統(tǒng)的基本架構(gòu),介紹了大數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)的五個(gè)過程,隨后介紹了大數(shù)據(jù)時(shí)代我們面臨的常見的安全威脅,以及對(duì)于這些安全威脅我們應(yīng)該采取的解決措施。目前,我國(guó)的大數(shù)據(jù)研究還處于初級(jí)階段,還有很多問題需要解決,所以需要我們共同努力,共同構(gòu)建大數(shù)據(jù)時(shí)代計(jì)算機(jī)安全建設(shè)體系。