周黎輝,蔡蕙敏,周 濱,張遠(yuǎn)志
(1.貴陽宏圖科技有限公司,貴州 貴陽 550002; 2.貴州大學(xué) 管理學(xué)院,貴州 貴陽 550025)
目前數(shù)據(jù)安全問題已嚴(yán)重威脅我國大數(shù)據(jù)產(chǎn)業(yè)的健康發(fā)展,政府、機(jī)構(gòu)的敏感信息與個人隱私的泄露,不僅影響國家、組織和個人的信譽(yù),還影響我國以大數(shù)據(jù)帶動技術(shù)創(chuàng)新的戰(zhàn)略思想。大數(shù)據(jù)系統(tǒng)是一個無邊界系統(tǒng),要發(fā)現(xiàn)潛在的安全風(fēng)險,就要從整體性與局部性、孤立與開放相關(guān)性、傳遞與塊存儲、技術(shù)監(jiān)測與人工現(xiàn)場檢測、關(guān)聯(lián)性分析與數(shù)據(jù)節(jié)點等方面,分析系統(tǒng)的有效性和可靠性。同時,由于應(yīng)用子系統(tǒng)、數(shù)據(jù)節(jié)點的不斷增加以及數(shù)據(jù)量的迅速增長,因此必須對系統(tǒng)的工作模式、系統(tǒng)的邏輯架構(gòu)和物理架構(gòu)以及運(yùn)行邏輯有深入的理解和把握[1]。
理解大數(shù)據(jù)系統(tǒng)的工作原理是分析大數(shù)據(jù)系統(tǒng)潛在安全風(fēng)險的前提和條件。由于大數(shù)據(jù)系統(tǒng)本質(zhì)上是無邊界的開放系統(tǒng),是由現(xiàn)有的各個應(yīng)用系統(tǒng)融合構(gòu)成的,具有面向所有用戶開放的特點,因此大數(shù)據(jù)系統(tǒng)與現(xiàn)有系統(tǒng)具有3個典型關(guān)系[2],如下所示:
(1)協(xié)同關(guān)系
圖1表明,大數(shù)據(jù)系統(tǒng)是可以產(chǎn)生有價數(shù)據(jù)的系統(tǒng)。有價數(shù)據(jù)是基于現(xiàn)有系統(tǒng)的結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)而產(chǎn)生的,它們之間是協(xié)同關(guān)系。
(2)依賴關(guān)系
如圖2所示,大數(shù)據(jù)系統(tǒng)采用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫系統(tǒng),可以處理大規(guī)模數(shù)據(jù)?,F(xiàn)有系統(tǒng)由于自身的局限性,只能滿足一段時間內(nèi)數(shù)據(jù)的處理。隨著時間的推移、數(shù)據(jù)量的增大,系統(tǒng)功能將無法滿足用戶的需求。因此,借助大數(shù)據(jù)系統(tǒng),現(xiàn)有系統(tǒng)可以超越數(shù)據(jù)處理模式,實現(xiàn)精準(zhǔn)數(shù)據(jù)預(yù)測和決策。
圖1 協(xié)同關(guān)系Fig.1 Cooperative relationship
圖2 依賴關(guān)系Fig.2 Dependency relationship
(3)并列關(guān)系
如圖3所示,對于用戶和數(shù)據(jù)利用組織(下文簡稱組織),現(xiàn)有系統(tǒng)能滿足個體的、局部的信息生產(chǎn)需求,大數(shù)據(jù)系統(tǒng)可以滿足基于生產(chǎn)信息的統(tǒng)計、分析和挖掘的應(yīng)用需求。因此,大數(shù)據(jù)系統(tǒng)和現(xiàn)有系統(tǒng)是并列的關(guān)系,即同時并存,而非取代關(guān)系。
圖3 并列關(guān)系Fig.3 Paratactic relationship
現(xiàn)有系統(tǒng)與大數(shù)據(jù)系統(tǒng)既可以是依賴關(guān)系,又可以是協(xié)同關(guān)系,亦可以是并列關(guān)系。對于組織的信息化系統(tǒng)建設(shè)而言,大數(shù)據(jù)系統(tǒng)是組織信息化建設(shè)藍(lán)圖中必不可少的部分。
大數(shù)據(jù)的本質(zhì)就是將數(shù)據(jù)看成為重要的資產(chǎn)、一種能力,是組織預(yù)測、決策的依據(jù),是從“粗放型經(jīng)營管理”模式走向“智慧型”模式的工具[3]。數(shù)據(jù)是組織的生命,數(shù)據(jù)的真實性、完整性和可用性是保障數(shù)據(jù)服務(wù)的可靠預(yù)測和決策的根本。因此,大數(shù)據(jù)的來源途徑就表現(xiàn)為主體、客體和社會。
(1)主體產(chǎn)生的數(shù)據(jù)
主體通常包括組織的管理者、成員、客戶與協(xié)同單位、競爭對手、上級部門以及組織的信息系統(tǒng)等幾個方面。組織的信息系統(tǒng)是重要的主體,它記錄了組織在業(yè)務(wù)活動中的詳細(xì)信息,也是組織大數(shù)據(jù)的主要來源。除信息系統(tǒng)外,其他主體產(chǎn)生的信息通常被組織忽視,在大數(shù)據(jù)系統(tǒng)中它卻是組織預(yù)測和決策的重要依據(jù)之一,應(yīng)加以重視。主體數(shù)據(jù)如表1所示。
表1 主體數(shù)據(jù)Tab.1 Body data
(2)客體產(chǎn)生的數(shù)據(jù)
客體通常是指組織所生產(chǎn)的產(chǎn)品。未來的產(chǎn)品大多具有物聯(lián)功能,組織根據(jù)這些物聯(lián)功能返回的信息,分析出產(chǎn)品目前的位置、運(yùn)行狀態(tài)等,并根據(jù)這些信息分析制訂客戶服務(wù)策略、新產(chǎn)品改進(jìn)策略以及相關(guān)決策??腕w數(shù)據(jù)通常表現(xiàn)為有源和無源2種。
有源產(chǎn)品是指需要動力源的產(chǎn)品。在這些產(chǎn)品中內(nèi)嵌信息傳輸系統(tǒng),從而將產(chǎn)品的位置、運(yùn)行狀態(tài)、操作行為等信息即時返回給生產(chǎn)企業(yè),生產(chǎn)企業(yè)通過對返回信息的識別,制訂相應(yīng)的措施。
無源產(chǎn)品即為無需動力源的產(chǎn)品。若在這類產(chǎn)品中利用電子標(biāo)簽,并借助于有源設(shè)備(如掃描儀、感知器等)將產(chǎn)品信息返回企業(yè),從而確定產(chǎn)品的去向和位置,則企業(yè)可獲得相應(yīng)的統(tǒng)計及分布資料,為產(chǎn)品決策提供依據(jù)[4]。
(3)社會產(chǎn)生的數(shù)據(jù)
社會是指行業(yè)協(xié)會、媒體、社會公眾等。這些組織或群體主要是從全局角度、個人角度和公眾角度對組織的相關(guān)信息進(jìn)行統(tǒng)計、分析和評論,往往會對社會公眾產(chǎn)生引導(dǎo)。社會數(shù)據(jù)如表2所示。
傳統(tǒng)的管理信息系統(tǒng)為面向個體信息生產(chǎn)、供局部簡單查詢和統(tǒng)計應(yīng)用的信息系統(tǒng),輸入是個體少量的信息,輸出是個體信息或某一主題統(tǒng)計信息[5]。大數(shù)據(jù)信息系統(tǒng)定位為面向全局,供復(fù)雜統(tǒng)計分析和數(shù)據(jù)挖掘的信息系統(tǒng)。傳統(tǒng)管理信息系統(tǒng)和大數(shù)據(jù)信息系統(tǒng)之間主要有3個區(qū)別,如下所示:
表2 社會數(shù)據(jù)Tab.2 Social data
(1)傳統(tǒng)管理信息系統(tǒng)用于現(xiàn)實事務(wù)的數(shù)據(jù)生產(chǎn),大數(shù)據(jù)信息系統(tǒng)是基于已有數(shù)據(jù)的應(yīng)用。
(2)傳統(tǒng)管理信息系統(tǒng)是對移動數(shù)據(jù)進(jìn)行線性處理,大數(shù)據(jù)信息系統(tǒng)是移動邏輯并行處理。
(3)傳統(tǒng)管理信息系統(tǒng)注重信息的簡單應(yīng)用,大數(shù)據(jù)信息系統(tǒng)是面向全局的統(tǒng)計分析和數(shù)據(jù)挖掘應(yīng)用。
傳統(tǒng)管理信息系統(tǒng)與大數(shù)據(jù)信息系統(tǒng)的對比如表3所示。
表3傳統(tǒng)管理信息系統(tǒng)和大數(shù)據(jù)信息系統(tǒng)對比
Tab.3Comparisonbetweentraditionalmanagementinformationsystemandbigdatainformationsystem
項目傳統(tǒng)管理信息系統(tǒng)大數(shù)據(jù)信息系統(tǒng)目的信息輸入生產(chǎn)信息輸出生產(chǎn)依賴人和物信息系統(tǒng)采集局部采集全局采集存儲集中存儲分布式存儲處理線性處理并行處理前提結(jié)構(gòu)化設(shè)計分析與挖掘模型建立價值記錄歷史發(fā)生事件信息問題發(fā)現(xiàn)、科學(xué)決策重點數(shù)據(jù)生產(chǎn)、簡單應(yīng)用統(tǒng)計挖掘、復(fù)雜應(yīng)用呈現(xiàn)局部個體的信息展現(xiàn)全局展現(xiàn)形態(tài)ERP、OA等系統(tǒng)宏觀決策信息系統(tǒng)作用武裝到牙齒構(gòu)建智慧的腦
由此可見,大數(shù)據(jù)的處理首先從分析或挖掘模型的建立開始,其次是將分析或挖掘模型轉(zhuǎn)變成邏輯可移動,并能并行處理的代碼,最后通過數(shù)據(jù)融合分析系統(tǒng)對數(shù)據(jù)進(jìn)行融合分析,把最終數(shù)據(jù)分析處理結(jié)果根據(jù)不同用戶的需求呈現(xiàn)于大數(shù)據(jù)展示平臺。大數(shù)據(jù)處理過程如圖4所示。
圖4 大數(shù)據(jù)處理過程模型Fig.4 Model of big data processing
2.1.1大數(shù)據(jù)系統(tǒng)的設(shè)計思想
無論是體系架構(gòu)還是功能設(shè)計,大數(shù)據(jù)系統(tǒng)的核心設(shè)計必須實現(xiàn)如表4所示的目標(biāo)。
表4 大數(shù)據(jù)系統(tǒng)的設(shè)計目標(biāo)Tab.4 Design goal for big data system
根據(jù)設(shè)計目標(biāo),大數(shù)據(jù)系統(tǒng)的整體設(shè)計通常分為以下模式:①分層分域;②數(shù)據(jù)分布;③封裝共性-移動邏輯-并行處理;④指令流-數(shù)據(jù)流分離;⑤同構(gòu)復(fù)制-屬性區(qū)分;⑥多個子系統(tǒng)集成。
(1)分層分域模式
該模式基于“分而治之”的思想,即將大的系統(tǒng)劃分成多個小的系統(tǒng)。主節(jié)點負(fù)責(zé)從節(jié)點工作任務(wù)的分布、狀態(tài)監(jiān)控,從節(jié)點負(fù)責(zé)任務(wù)的執(zhí)行和工作相關(guān)狀態(tài)的匯報。
(2)數(shù)據(jù)分布模式
該模式是基于“包產(chǎn)到戶”、以“空間換時間”的思想,將大數(shù)據(jù)分拆成對每個計算節(jié)點正好發(fā)揮其處理能力的固定塊,由多個處理節(jié)點同時處理同屬于一個邏輯整體的不同物理部分。數(shù)據(jù)分布模式采用以鎖協(xié)同模型。以鎖協(xié)同是當(dāng)分布式數(shù)據(jù)庫中同時有多個任務(wù)處理某個列族時,通過加鎖的機(jī)制解決數(shù)據(jù)記錄“臟讀”和“臟寫”的問題。
(3)封裝共性-移動邏輯-并行處理模式
分布式開發(fā)最復(fù)雜的問題是代碼的任務(wù)分發(fā)和并行處理間的協(xié)同,以及處理完成后的結(jié)果返回。封裝共性是將任務(wù)的分發(fā)、并行處理和結(jié)果返回這些工作完全交由作業(yè)節(jié)點來完成;移動邏輯是將分布式代碼由作業(yè)節(jié)點發(fā)送給每一個計算節(jié)點,對于計算節(jié)點,是邏輯代碼在網(wǎng)絡(luò)中傳輸,而不是數(shù)據(jù)在網(wǎng)絡(luò)中傳輸。移動邏輯的實現(xiàn)是一種邏輯不變而數(shù)據(jù)可變的思想體現(xiàn)。
(4)指令流-數(shù)據(jù)流分離模式
指令流是指主節(jié)點和子節(jié)點間只傳輸指令,不傳輸數(shù)據(jù);數(shù)據(jù)流是指子節(jié)點和子節(jié)點間、子節(jié)點和客戶端間進(jìn)行數(shù)據(jù)的傳輸。
(5)同構(gòu)復(fù)制-屬性區(qū)分模式
同構(gòu)復(fù)制是指安裝時所有節(jié)點,無論是主節(jié)點還是從節(jié)點,都采用同一套程序。只要一個初始節(jié)點安裝好后,就可以采用復(fù)制方式進(jìn)行分發(fā),目的是可以實
現(xiàn)節(jié)點的動態(tài)增減,而無需針對不同的節(jié)點進(jìn)行不同的程序安裝。
(6)多個子系統(tǒng)集成模式
大數(shù)據(jù)系統(tǒng)是由多個子系統(tǒng)集成的系統(tǒng),大數(shù)據(jù)系統(tǒng)的規(guī)模隨節(jié)點的變化而變化。每個從的子系統(tǒng)都是通過預(yù)先確定好的端口和屬性與主的子系統(tǒng)進(jìn)行協(xié)同工作。
2.1.2大數(shù)據(jù)系統(tǒng)的邏輯架構(gòu)
大數(shù)據(jù)系統(tǒng)的邏輯架構(gòu)如圖5所示。
圖5 大數(shù)據(jù)系統(tǒng)邏輯架構(gòu)Fig.5 Logical architecture of big data system
組織的大數(shù)據(jù)系統(tǒng)是由多個子系統(tǒng)集成構(gòu)成的系統(tǒng),所有子系統(tǒng)都有全面Hadoop的開源項目成果,如非結(jié)構(gòu)化存儲采用Hadoop分布式文件系統(tǒng)(HDFS),結(jié)構(gòu)化數(shù)據(jù)存儲采用分布式數(shù)據(jù)庫(HBase)系統(tǒng)。每個子系統(tǒng)都采用主從模式,即由一個主節(jié)點和多個從節(jié)點構(gòu)成。大數(shù)據(jù)系統(tǒng)的邏輯架構(gòu)是一個多層次的體系結(jié)構(gòu),采用“分布式平臺+分析式應(yīng)用”的模式進(jìn)行設(shè)計。
用戶層是所有訪問大數(shù)據(jù)系統(tǒng)用戶的集合,根據(jù)用戶職能不同,劃分為普通用戶、分析人員和系統(tǒng)管理人員等3類,并賦予相應(yīng)的訪問權(quán)限。
門戶層是用戶訪問大數(shù)據(jù)系統(tǒng)的統(tǒng)一入口,用戶經(jīng)應(yīng)用層系統(tǒng)統(tǒng)一認(rèn)證后,門戶子系統(tǒng)依據(jù)用戶身份和權(quán)限提供相應(yīng)的個性化門戶,用戶只能查閱系統(tǒng)授權(quán)的數(shù)據(jù)信息和操作應(yīng)用功能。
代理層是門戶層和應(yīng)用層各應(yīng)用系統(tǒng)之間的統(tǒng)一代理,由統(tǒng)一用戶管理、統(tǒng)一應(yīng)用資源管理和統(tǒng)一權(quán)限管理等3個子系統(tǒng)構(gòu)成,并向門戶層開放Web服務(wù),代理門戶層的系統(tǒng)調(diào)用。當(dāng)Web服務(wù)接收到門戶層的請求時,向應(yīng)用層應(yīng)用系統(tǒng)發(fā)出調(diào)用請求。
應(yīng)用層由數(shù)據(jù)應(yīng)用類、數(shù)據(jù)采集類、后臺管理類等3類子系統(tǒng)構(gòu)成。應(yīng)用類子系統(tǒng)包括MapRedce(MR)定制子系統(tǒng)、Pig分析子系統(tǒng)和Hive數(shù)據(jù)庫子系統(tǒng),目的是為普通用戶和分析人員提供大數(shù)據(jù)分析和挖掘服務(wù)。數(shù)據(jù)采集類子系統(tǒng)包括Chukwa采集子系統(tǒng)和數(shù)據(jù)抓取子系統(tǒng),目的是從組織的現(xiàn)有系統(tǒng)、大數(shù)據(jù)應(yīng)用系統(tǒng)和外部應(yīng)用系統(tǒng)中采集數(shù)據(jù)并存儲在大數(shù)據(jù)系統(tǒng)中。后臺管理類子系統(tǒng)主要是對大數(shù)據(jù)系統(tǒng)的用戶信息、節(jié)點設(shè)備信息和節(jié)點運(yùn)行狀態(tài)進(jìn)行管理。
管控層由NameNode子系統(tǒng)、JobTracker子系統(tǒng)、Hmaster子系統(tǒng)、ZooKeeper子系統(tǒng)和SecondNameNode子系統(tǒng)等構(gòu)成。
NameNode子系統(tǒng)是HDFS的重要組成部分,通過該系統(tǒng)對各種文件進(jìn)行統(tǒng)一讀寫,SecondNameNode子系統(tǒng)是其備份子系統(tǒng)。
JobTracker子系統(tǒng)是分布式作業(yè)系統(tǒng)的重要組成部分,是MR分布式程序的服務(wù)器端,目的是對作業(yè)任務(wù)進(jìn)行調(diào)度分配和運(yùn)行狀態(tài)的管理。
Hmaster子系統(tǒng)是HBase系統(tǒng)的主要組成部分,目的是負(fù)責(zé)初始安裝引導(dǎo),把Region域數(shù)據(jù)分別注冊到HBase集群中的域服務(wù)器HRegionServer,監(jiān)控HRegionServer服務(wù)器的運(yùn)行,并在出現(xiàn)故障時進(jìn)行恢復(fù)。
ZooKeeper子系統(tǒng)主要是為Hmaster子系統(tǒng)和RegionServer子系統(tǒng)提供共享信息的統(tǒng)一協(xié)同服務(wù)。
計算存儲層由HDFS的DataNode子系統(tǒng)和分布式作業(yè)系統(tǒng)的JobTracker子系統(tǒng)、RegionServer子系統(tǒng)和關(guān)系型數(shù)據(jù)庫管理子系統(tǒng)構(gòu)成。
HDFS的DataNode子系統(tǒng)和分布式作業(yè)系統(tǒng)的JobTracker子系統(tǒng)共同部署一個機(jī)器節(jié)點上,為分布式文件提供數(shù)據(jù)塊存儲和數(shù)據(jù)塊計算服務(wù)。
RegionServer子系統(tǒng)為客戶端提供分布式數(shù)據(jù)庫系統(tǒng)的訪問服務(wù)。
關(guān)系型數(shù)據(jù)庫子系統(tǒng)用來存儲應(yīng)用層,為后臺管理系統(tǒng)和Hive數(shù)據(jù)庫系統(tǒng)提供用戶信息、設(shè)備信息、元數(shù)據(jù)、運(yùn)行狀態(tài)監(jiān)測信息的存儲服務(wù)。
用戶從門戶登錄到大數(shù)據(jù)系統(tǒng)后,在用戶交互界面上選擇相應(yīng)的系統(tǒng)功能,經(jīng)應(yīng)用系統(tǒng)對后臺的分布式文件系統(tǒng)和分布式數(shù)據(jù)庫系統(tǒng)進(jìn)行訪問,以滿足用戶的應(yīng)用需求。系統(tǒng)的運(yùn)行邏輯如圖6所示。
圖6中共有3條系統(tǒng)運(yùn)行主線路,每條主線共有5步,其中第1~3步相同,第4、第5步不同。
第1步用戶登錄門戶子系統(tǒng)網(wǎng)站,進(jìn)入門戶子系統(tǒng)登錄界面。
圖6 大數(shù)據(jù)系統(tǒng)運(yùn)行邏輯Fig.6 Running logic of big data system
第2步門戶子系統(tǒng)將登錄信息提交給統(tǒng)一應(yīng)用代理,統(tǒng)一用戶代理調(diào)用統(tǒng)一用戶登錄模塊,驗證相關(guān)信息,并根據(jù)用戶角色返回個性化應(yīng)用界面,用戶選擇相應(yīng)的應(yīng)用功能再次提交給應(yīng)用代理。
第3步根據(jù)統(tǒng)一用戶代理應(yīng)用類型的不同,調(diào)用不同的應(yīng)用子系統(tǒng)。應(yīng)用類型分為3類:面向分布式文件的應(yīng)用、面向分布式數(shù)據(jù)庫的應(yīng)用和面向傳統(tǒng)關(guān)系型數(shù)據(jù)庫的應(yīng)用。面向分布式文件的應(yīng)用分為調(diào)用Pig分析子系統(tǒng)、Hive數(shù)據(jù)庫子系統(tǒng)或MR定制應(yīng)用子系統(tǒng)中的一種或幾種,并向HDFS發(fā)起訪問請求。面向分布式數(shù)據(jù)庫的應(yīng)用是調(diào)用MR定制應(yīng)用子系統(tǒng)并向HBase系統(tǒng)發(fā)起訪問請求。面向關(guān)系型數(shù)據(jù)庫的應(yīng)用是調(diào)用大數(shù)據(jù)管理子系統(tǒng)、Hive數(shù)據(jù)庫子系統(tǒng)向關(guān)系數(shù)據(jù)庫系統(tǒng)發(fā)起訪問請求。
第4步第1條路徑是對分布式文件讀寫和應(yīng)用的運(yùn)行主線路,根據(jù)分布式文件系統(tǒng)的訪問請求,由NameNode子系統(tǒng)和JobTracker子系統(tǒng)處理,向DataNode子系統(tǒng)數(shù)據(jù)節(jié)點發(fā)出指令。第2條路徑根據(jù)面向分布式數(shù)據(jù)庫的訪問請求,先到達(dá)ZooKeeper子系統(tǒng),然后返回元數(shù)據(jù)表地址,以便應(yīng)用系統(tǒng)定位HRegionServer服務(wù)器。第3條路徑根據(jù)關(guān)系型數(shù)據(jù)庫子系統(tǒng)的應(yīng)用請求,由關(guān)系型數(shù)據(jù)庫直接處理,并將處理結(jié)果返回給應(yīng)用系統(tǒng)。
第5步當(dāng)DataNode和TaskTraker子系統(tǒng)收到任務(wù)指令后,依據(jù)指令進(jìn)行文件的處理;當(dāng)RegionServer子系統(tǒng)收到應(yīng)用請求后,會對相應(yīng)的Region進(jìn)行處理。
大數(shù)據(jù)系統(tǒng)運(yùn)行邏輯框架是雙向的,通常情況下應(yīng)用層的MR程序可以與計算存儲層直接進(jìn)行交互,也就是說,門戶層、代理層、應(yīng)用層采用集群方式解決數(shù)據(jù)的大規(guī)模、高并發(fā)的用戶訪問。門戶層和代理層之間、代理層和應(yīng)用層之間均采用簡單對象訪問協(xié)議(SOAP)進(jìn)行調(diào)用請求的信息返回。管控層由多個主節(jié)點構(gòu)成,這些節(jié)點是單進(jìn)程的;應(yīng)用層和計算存儲層的多個節(jié)點直接進(jìn)行數(shù)據(jù)交互;應(yīng)用層、管控層、計算存儲層之間采用過程遠(yuǎn)程調(diào)控(RPC)進(jìn)行交互。
大數(shù)據(jù)系統(tǒng)采取分布式部署方式,其物理架構(gòu)通常通過網(wǎng)絡(luò)域的劃分來體現(xiàn)系統(tǒng)的不同層次及不同應(yīng)用,以便管理人員對網(wǎng)絡(luò)上的多個物理節(jié)點進(jìn)行分域管理,如圖7所示。大數(shù)據(jù)系統(tǒng)劃分為用戶域、應(yīng)用系統(tǒng)域、安全管理域、分布式文件域、分布式數(shù)據(jù)庫域、分布式協(xié)同域和關(guān)系數(shù)據(jù)庫域等7個域。
圖7 大數(shù)據(jù)系統(tǒng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)Fig.7 Topology of big data system network
大數(shù)據(jù)系統(tǒng)不僅具有傳統(tǒng)意義上信息系統(tǒng)的安全特征,同時還具有其自身的安全風(fēng)險特征,主要體現(xiàn)在以下5個方面:
大數(shù)據(jù)時代的數(shù)據(jù)量巨大且增長快速,有些數(shù)據(jù)關(guān)系到國家安全、企業(yè)競爭力的敏感問題,在存儲過程中一旦遭遇自然災(zāi)害或人為損害、泄露,與一般數(shù)據(jù)相比損失更為嚴(yán)重。
海量數(shù)據(jù)只有通過有效的處理方可使用,處理技術(shù)是否安全可靠,直接關(guān)系到大數(shù)據(jù)安全。若大數(shù)據(jù)處理技術(shù)中訪問控制機(jī)制較為薄弱,則可能給非法訪問帶來很大的利用空間。
大數(shù)據(jù)來源于組織自主數(shù)據(jù)、客體行為數(shù)據(jù)以及第三方數(shù)據(jù)等,無論是哪一種來源,如果不加以甄別使用,可能導(dǎo)致錯誤的決策。同時,在數(shù)據(jù)采集過程中對各種感知器件有一定的安全要求,若偏離了相關(guān)標(biāo)準(zhǔn)與要求,則造成錄入數(shù)據(jù)的錯誤或無效,從而產(chǎn)生不符合實際情況的決策數(shù)據(jù),造成重大的組織決策失誤。
目前,購物網(wǎng)站、社交網(wǎng)絡(luò)、視頻發(fā)布網(wǎng)站、微博等已成為人們?nèi)粘?shù)據(jù)交流、發(fā)布的重要平臺,這些平臺包含大量的用戶信息。利用大數(shù)據(jù)技術(shù),可以很容易地挖掘出用戶身份、位置、軌跡、健康甚至財務(wù)等敏感信息,若被不法分子利用,則可能侵害人們的人身和財產(chǎn)安全。
大數(shù)據(jù)系統(tǒng)在互聯(lián)網(wǎng)空間里容易成為高級可持續(xù)攻擊(APT)行為的目標(biāo)。
防范該風(fēng)險的方法就是預(yù)測預(yù)警以及轉(zhuǎn)移、抑制、控制風(fēng)險,確保大數(shù)據(jù)系統(tǒng)健康運(yùn)行,而這一保障最為核心的機(jī)制就是風(fēng)險評估。風(fēng)險評估就是利用技術(shù)手段和非技術(shù)思維對潛在的安全風(fēng)險進(jìn)行全方位評價,以發(fā)現(xiàn)潛在的安全風(fēng)險,并將各種威脅分散、轉(zhuǎn)移、抑制、規(guī)避到可容忍的范圍內(nèi),確保大數(shù)據(jù)系統(tǒng)的正常工作。
通過大數(shù)據(jù)來分析當(dāng)前信息安全威脅,可以大大提高大數(shù)據(jù)系統(tǒng)的安全性。本文主要闡述了大數(shù)據(jù)系統(tǒng)工作原理以及主要的安全威脅,構(gòu)建了大數(shù)據(jù)系統(tǒng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),從而顯著提高系統(tǒng)的安全性。