張朝陽
(中國通信建設集團設計院有限公司第四分公司,鄭州 450000)
隨著科學技術的發(fā)展,信息安全顯得尤為重要。一般的信息安全系統(tǒng)采用日志存儲的方式進行分析,留存數據,占用空間大,存儲量大不利于系統(tǒng)運行。將大數據技術運用到信息安全系統(tǒng)中,有利于數據分析,提高管理數據的效率,實現(xiàn)對數據的快速訪問。
大數據處理中“云計算”具有非常重要的地位,云計算一般分為三個層次,IaaS、PaaS、SaaS,也就是基礎設施即服務,平臺即服務,軟件即服務。各個行業(yè)巨頭都采用云計算服務,可以說大數據技術的基礎平臺就是云計算,這樣可以快速處理數據信息。
在數據挖掘、人工智能、數據分析等領域都運用大數據中的MapReduce技術。MapReduce技術是分布式并行處理技術,其主要思想是將自動分割要執(zhí)行的問題拆分成map(映射)和reduce(化簡)的方式,Map、reduce是該系統(tǒng)中非常重要的兩個部分,MapReduce技術的思想就是分而治之,也就是需要將采集的數據進行分割數據源,然后每部分內容建立對應值,在不同map區(qū)進行處理,過程中將會具有相同值的集合發(fā)送給Reduce。數據被分割后通過Map函數的程序將數據映射成不同的區(qū)塊,分配給計算機集群中不同的處理節(jié)點并行處理,從而達到分布式運算的效果。該技術可以并行處理數據,是大數據處理的關鍵技術。
HDFS是HadoopFileSystem的簡稱,即分布式文件系統(tǒng)。HDFS是大數據處理的平臺,通過將多臺服務器池化,形成集群形式,統(tǒng)一處理海量數據。
通過信息安全系統(tǒng)將數據上傳到HDFS,將數據采集、數據入HDFS、數據清洗(Spark、Hive)、數據分析、分析結果。利用大數據平臺的技術進行處理分析信息安全傳輸的數據。
(1)數據入HDFS
數據收集后,進入HDFS系統(tǒng)。
(2)數據清洗
清洗數據,將數據整理成統(tǒng)一格式,方便管理。根據實際數據的時間戳(文件中的時間戳字段),將數據按機房、日、小時、5分鐘粒度分區(qū),保存到相應的HDFS目錄。采用Spark+Hive框架。
(3)數據分析
以Spark作為計算框架,分析數據。通過對活躍資源統(tǒng)計,按小時和日生成活躍資源的數據,使用Spark讀取清洗后的文件統(tǒng)計分析。
信息安全系統(tǒng)分為數據采集及數據分析兩個模塊。如圖1所示:
圖1 信息安全系統(tǒng)結構
數據采集是將IDC數據分流經過采集服務器,對分流過程中的數據進行過濾保存。經過鏈路傳輸到大數據分析平臺,利用HDFS平臺對數據日志進行大數據處理,留存時間長達半年。通過運用大數據技術,主要解決以下問題:第一、解決信息安全系統(tǒng)數據存儲問題,例如用戶信息,日志,地址信息等海量數據。通過大數據結束能夠有效解決和處理數據存儲問題。建立虛擬存儲結構,定期優(yōu)化冗余資源。第二、提供大數據級別算法處理,提供機器學習,數據挖掘等技術解決問題。
隨著信息安全系統(tǒng)的更新迭代,大數據技術的發(fā)展,越來越多的新技術會運用到信息安全系統(tǒng)中。信息安全存儲形式的變化,數據處理方式的改進都是未來的方向。信息安全系統(tǒng)對社會的發(fā)展起著重要作用,當今社會越來越注重安全保護及隱私問題,運用大數據技術,實現(xiàn)安全服務。