陶然 張?zhí)K炯
目前,傳統(tǒng)技術的安全審計系統(tǒng)已經(jīng)不能符合時代發(fā)展的要求。在經(jīng)濟水平不斷提高的背景下,大數(shù)據(jù)技術得到了應用,可以為安全審計系統(tǒng)的改造和開發(fā)提供技術保障。與傳統(tǒng)安全審計系統(tǒng)進行比較,應用大數(shù)據(jù)技術的安全審計系統(tǒng)可以提高應對結構化數(shù)據(jù)和非結構化數(shù)據(jù)的能力,同時可以在大量數(shù)據(jù)中挖掘對用戶具有價值的信息數(shù)據(jù),從而保證審計信息的有效性。
隨著新時代的到來,信息化程度不斷提高,信息系統(tǒng)得到了迅速發(fā)展,信息系統(tǒng)安全審計內(nèi)容和對象越來越復雜,一定程度上增加了審計信息的工作量。在企業(yè)中,對于大型信息系統(tǒng)而言,管理節(jié)點個數(shù)動輒將超過幾十萬。在需要審計的重要節(jié)點中,一般會超過1000個。此外,它的節(jié)點類型存在不同,主要包括應用系統(tǒng)、網(wǎng)絡設備、數(shù)據(jù)庫、服務器和安全設備等。在每天的操作日志和訪問中,已經(jīng)超過了數(shù)億條,甚至達到了幾百億條。在數(shù)據(jù)量到達TB數(shù)量級后,會對傳統(tǒng)安全審計系統(tǒng)造成嚴重威脅。在進行審計工作的過程中,審計對象類型各種各樣,日志格式也會存在不同。運用傳統(tǒng)關系型數(shù)據(jù)庫的過程中,儲存這些大量的異構數(shù)據(jù)存在一定的難度。
在運用大數(shù)據(jù)技術構建安全審計系統(tǒng)的過程中,需要分析和采集大量的數(shù)據(jù),保證大量異構數(shù)據(jù)處理的質(zhì)量。在大數(shù)據(jù)技術不斷成熟的背景下,可以為網(wǎng)絡技術的發(fā)展提供技術保障。運用大數(shù)據(jù)技術構建安全審計系統(tǒng)的過程中,以下幾點得到了優(yōu)化:
安全審計系統(tǒng)處理數(shù)據(jù)的過程中,提升了存儲、采集和分析能;
不僅提升了應對結構化數(shù)據(jù)的能力,還提高了處理非結構化數(shù)據(jù)的能力;
運用大數(shù)據(jù)技術可以建立相關的模型和算法,更加深入地分析歷史信息數(shù)據(jù),從大量數(shù)據(jù)中挖掘出對用戶有價值的信息。
(一) 大數(shù)據(jù)量的審計數(shù)據(jù)采集與存儲
在采集大量審計數(shù)據(jù)的過程中,審計系統(tǒng)的采集能力受到了很大威脅,導致出現(xiàn)系統(tǒng)響應慢和數(shù)據(jù)丟失的現(xiàn)象,甚至可能存在進程擁塞和停止響應的情況。大數(shù)據(jù)時代背景下,可以運用采集探針的部署方法,按照實際采集數(shù)據(jù)量的需求部署一個或者多個數(shù)據(jù)采集探針。探針得到數(shù)據(jù)后,需要運用TCP協(xié)議與分析平臺進行連接,壓縮并加密需要傳輸?shù)男畔?shù)據(jù),以提高采集數(shù)據(jù)的能力。對于數(shù)據(jù)冗余模塊而言,這并不必需。但是,在日志數(shù)據(jù)中并沒有充足的維度信息,或者需要提高增加維度的次數(shù),需要設置定義數(shù)據(jù)冗余模塊。通過運用冗余維度定義器,可以定義冗余的維度信息和來源,如內(nèi)存、數(shù)據(jù)庫和文件等,并且需要指定擴展方式,在數(shù)據(jù)日志中納入信息數(shù)據(jù)。在存儲數(shù)據(jù)的過程中,需要運用較快的內(nèi)存NoSQL對原始數(shù)據(jù)進行冗余,并且采取一定的節(jié)點實施并行冗余;或者可以在Hadoop中完全執(zhí)行批量Map,從而可以轉化數(shù)據(jù)的格式。
(二)數(shù)據(jù)歸一化和關聯(lián)分析
在采集審計數(shù)據(jù)后,需要對這些大量的數(shù)據(jù)進行劃分,然后根據(jù)標準要求對這些數(shù)據(jù)進行歸一化,同時可以對這些數(shù)據(jù)進行預處理。與傳統(tǒng)審計產(chǎn)品進行對比,它處理事件的流程一樣,但是也存在不同,需要處理大量的數(shù)據(jù)。在對傳統(tǒng)產(chǎn)品進行實時關聯(lián)分析的過程中,通常使用內(nèi)存數(shù)據(jù)庫的方式,但是存在板內(nèi)存資源或者SQL語句效率問題的情況下,會對規(guī)則引擎的處理能力造成影響,造成規(guī)則引擎出現(xiàn)檢測不出異常的現(xiàn)象。在實時規(guī)則分析引擎中,以大數(shù)據(jù)集群的復雜事件處理流程作為引擎,保證并行運行多種規(guī)則的有效性,從而保證檢測異常事件的實時性。實際中,需要運用Storm+Esper的方式。對于Storm而言,在統(tǒng)計計算大量數(shù)據(jù)方面得到了應用,可以提高反饋統(tǒng)計效果的速度。在Storm框架中,需要運用事件處理流程,保證運算數(shù)據(jù)的準確性。在運用Storm的內(nèi)存數(shù)據(jù)過程中,可以進行關聯(lián)分析運算。在運用Esper的情況下,它的實時關聯(lián)分析的引擎為復雜事件處理功能,可以提高系統(tǒng)關聯(lián)分析的有效性。
(三) 歷史數(shù)據(jù)統(tǒng)計分析
在安全審計系統(tǒng)中,對統(tǒng)計分析提出了一定的要求,需要在離線狀態(tài)下對存儲在集群中的海量數(shù)據(jù)進行統(tǒng)計分析。在面對大量數(shù)據(jù)的情況下,對于傳統(tǒng)的審計產(chǎn)品,它的ETL工具并不能起到什么作用。究其原因,主要在于轉化數(shù)據(jù)格式時需要的成本較大,能力方面不能滿足大量數(shù)據(jù)的處理需求。在傳統(tǒng)的審計產(chǎn)品中,關系型數(shù)據(jù)庫不能滿足大量數(shù)據(jù)的運算,并且已經(jīng)超出了檢索數(shù)據(jù)的范圍。在大數(shù)據(jù)技術的審計系統(tǒng)中,主要包括離線統(tǒng)計和分析功能。在對存儲大量數(shù)據(jù)進行分類總結和分析的過程中,運用分布式計算集群的方式可以滿足常見分析的多種需求。在Hadoop上層中,對Hive+Hbase框架進行部署,其對于Hive和Hbase來說含有的特征不同。Hbase的特征為面向編程、低延遲、非結構化等,而Hive的特征為面向分析、高延遲、結構化等。在Hive數(shù)據(jù)倉庫中,對于Hadoop屬于高延遲,而Hive集成Hbase,目的為使用Hbase含有的特性,通過Hive提供的Hive SQL簡化對Map/Reduce任務的編寫,利用Hive與Hbase之間的互補提高事件分析結果運算的效率,然后通過核心模塊將該命令轉變?yōu)镸ap-Reduce,交給Hadoop集群后生產(chǎn)報表,方便報表中心進行查看,從而可以離線統(tǒng)計分析存儲在HDFS上的數(shù)據(jù)。
(四)數(shù)據(jù)挖掘
挖掘數(shù)據(jù)的過程中也運用大量歷史數(shù)據(jù)進行分析,但是與前面統(tǒng)計及分析過程存在不同。在運用大數(shù)據(jù)技術的情況下,挖掘數(shù)據(jù)不會存在預先設定的主題,主要是在現(xiàn)有數(shù)據(jù)的基礎上運用各種算法進行計算,從而保證預測效果的有效性,滿足分析高級數(shù)據(jù)的各種需求。同時,運用各種挖掘算法可以運算已經(jīng)成型的審計分析模型。這些挖掘數(shù)據(jù)方式是傳統(tǒng)審計產(chǎn)品中不存在的。通過挖掘數(shù)據(jù)技術的運用,可以發(fā)現(xiàn)存在的系統(tǒng)配置誤配現(xiàn)象,還可以發(fā)現(xiàn)較為隱藏的違規(guī)訪問和網(wǎng)絡攻擊?,F(xiàn)階段,已經(jīng)有很多挖掘數(shù)據(jù)法得到了應用,現(xiàn)有技術中不存在難度,但是有效結合算法與信息安全行業(yè)模式還需要很長時間進行調(diào)試和訓練。
(五)高效便捷的海量事件追溯
在安全審計系統(tǒng)中,追溯系統(tǒng)有著重要地位。實際運用時,在分析大量數(shù)據(jù)的基礎上,對用戶使用中存在的問題進行解決,通過追溯系統(tǒng)的運用,分析平臺中含有的各種結果,然后定位事件源。因此,運用追溯系統(tǒng)可以保證處理大量事件的高效便捷。
隨著新時代的到來,信息化程度得到了迅速發(fā)展,信息系統(tǒng)的復雜程度也在不斷提高,說明安全審計的內(nèi)容會更加繁瑣,增加了單位審計信息的工作量。在我國社會經(jīng)濟不斷發(fā)展進步的背景下,各種數(shù)據(jù)不斷涌現(xiàn),形成了大數(shù)據(jù)技術系統(tǒng),并得到了廣泛應用。與傳統(tǒng)信息系統(tǒng)進行比較,應用大數(shù)據(jù)技術的安全審計系統(tǒng)不僅可以提高計算的工作效率,還可以提高系統(tǒng)的存儲能力。
作者單位:陶然 四川省公安廳科技信息化處
張?zhí)K炯 北京北信源軟件股份有限公司