【 摘 要 】 計算機和互聯(lián)網技術正在改變人們的生活方式,同時而來的是信息安全問題。為了防御外部攻擊,保障日常應用系統(tǒng)可靠運行,需要投入大量資金用于防火墻、交換機等網絡安全產品和數(shù)據(jù)庫、服務器等基礎設施建設,這些系統(tǒng)日常運行中以日志形式記錄大量的信息,是信息技術人員日常監(jiān)控、維護的重要依據(jù)。隨著大數(shù)據(jù)技術的成熟,我們利用數(shù)據(jù)挖掘、關聯(lián)分析、模式識別等技術實現(xiàn)從基礎設施日常運行產生的海量日志數(shù)據(jù)中及時發(fā)現(xiàn)潛在的安全威脅,并形成實時的、自動化的阻截能力,將成為安全防御體系的發(fā)展方向。
【 關鍵詞 】 網絡安全;海量日志;安全威脅;安全防御;數(shù)據(jù)挖掘;關聯(lián)分析
Technical Analysis of “Eagle Eye” Big Data Security Management Platform
Li Li-hong
(Information Security Management Dept,China Pacific Insurance (Group) Co.Ltd. Shanghai 200233)
【 Abstract 】 Computer and Internet technology are changing the activities of human society, and also bring information security issues. In order to defend against network attacks and maintain business systems stable, it is necessary to invest a lot of money in network security products such as firewalls and IPS, infrastructure system such as databases and servers. In day-to-day operation, these systems create a large amount of logs which are the important information to monitor and maintain by technical personnel. With the maturity of big data technology, we use data mining, threat intelligence, reputation feeds, pattern recognition etc to identify, understand, respond to security threats. Based on the "Eagle Eye", we built a real-time situational awareness, actionable intelligence to block attack automatically which is the main direction of our security construction.
【 Keywords 】 network security;massive log;security threat; security defense;data mining;threat intelligence
1 引言
隨著移動、云計算、大數(shù)據(jù)、互聯(lián)網和移動終端的廣泛運用,傳統(tǒng)保險業(yè)快速向互聯(lián)網轉型,保險產品營銷和服務實現(xiàn)移動化、自助化不斷加速,各種APP如雨后春筍,層出不窮?;ヂ?lián)網+保險,以技術作為最主要驅動因素催生了傳統(tǒng)保險業(yè)營運和商業(yè)模式的變革。據(jù)不完全統(tǒng)計,全國通過互聯(lián)網渠道銷售的保險收入逐年翻倍增長。
2 互聯(lián)網+保險面臨的安全問題
新技術應用給保險行業(yè)的發(fā)展帶來了新的機遇,但同時,由于互聯(lián)網先天存在的虛擬特征,給企業(yè)帶來許多信息安全問題和挑戰(zhàn)。
一是各保險公司為提升客戶體驗,向用戶提供手機、PAD、互聯(lián)網等多種接入方式、多渠道支付方式,金融支付類病毒利用系統(tǒng)漏洞盜取用戶賬戶信息事件頻發(fā)。
二是大數(shù)據(jù)日益顯著的商業(yè)價值導致信息泄漏更嚴重。
三是全球化的商業(yè)競爭導致黑客攻擊更嚴重和頻密,金融平臺的特殊屬性,更容易成為各類惡意攻擊的首選目標。
四是商業(yè)化、工具化的黑客工具唾手可得,原來復雜的需要專業(yè)技能和設施的攻擊往往很方便可以從網上下載或購買。
五是內部人員的權限控制不當造成的信息泄露、篡改、丟失也是潛在的威脅。正如一把雙刃劍,移動互聯(lián)網技術既給保險業(yè)帶來了前所未有的創(chuàng)新,給客戶帶來從未有過的高效便捷,也給行業(yè)的信息安全帶來了挑戰(zhàn)和壓力。
3 “鷹眼”信息安全綜合管控平臺
面臨新的挑戰(zhàn),傳統(tǒng)的、依靠不同廠商的安全設備堆疊的安全防御系統(tǒng)需要改造升級,傳統(tǒng)的依靠安全和運維人員人工發(fā)現(xiàn)、判斷、分析和處理問題的流程需要優(yōu)化提升,需要建設一個集成的安全防御系統(tǒng)以實現(xiàn)各類威脅的預知、防御的自動化處理、追蹤的可視化展現(xiàn),實現(xiàn)以用戶可接受的運營成本,快速抵御更多威脅。
大數(shù)據(jù)技術的快速發(fā)展和日益成熟的應用為我們提供了技術手段。在信息系統(tǒng)中任何系統(tǒng)操作都會留下日志,黑客入侵的操作也會留下日志,而按照監(jiān)管規(guī)定,保險業(yè)務系統(tǒng)、操作系統(tǒng)、數(shù)據(jù)庫、網絡設備、安全設備均需保留一定時間的日志,對于一家大型保險公司而言,每日產生的日志量在數(shù)十億條。自主研發(fā)的“鷹眼大數(shù)據(jù)信息安全管理管控平臺”(簡稱“鷹眼系統(tǒng)”)正是借助大數(shù)據(jù)技術通過對這些日志的分析,來發(fā)現(xiàn)各類潛在威脅。
3.1 “鷹眼”系統(tǒng)架構和功能
“鷹眼”系統(tǒng)目前部署在太保集團上海數(shù)據(jù)中心和成都數(shù)據(jù)中心,可同時分析兩大數(shù)據(jù)中心的安全事件?!苞椦邸毕到y(tǒng)的部署架構如圖1所示。
ERC日志采集系統(tǒng)做HA提高其可用性,同時ERC也支持虛擬化平臺。
ELM日志存儲系統(tǒng)主要承擔接收、查詢原始日志的角色。
ACE事件關聯(lián)分析系統(tǒng)可提供實時關聯(lián)分析和歷史關聯(lián)分析。
ESM承擔整個生產SIEM的管理角色,也是用戶的訪問接口界面。
DAS-50是50T直連存儲,直連ELM-4600用于長期在線存儲原始日志,或直連ESM用于長期存儲關聯(lián)事件及參與關聯(lián)的規(guī)范化事件。
3.2 安全事件響應處置流程
“鷹眼”系統(tǒng)將各類安全事件集中監(jiān)控,通過關聯(lián)規(guī)則將有價值的安全事件呈現(xiàn)出來,再根據(jù)安全事件的大小與影響范圍,設置安全事件處置等級,依據(jù)等級進行不同優(yōu)先級響應。針對高風險的外部攻擊事件,平臺不僅可以立刻告警郵件通知相關人員,還能夠自動聯(lián)動IPS設備進行主動隔離;針對普通安全事件平臺能生成工單自動發(fā)送給安全運維人員及時處置。
4 “鷹眼”安全管控平臺的關鍵技術解析
4.1 各類設備和應用運行日志的統(tǒng)一采集和甄別
我們收集的對象為網絡設備日志、防火墻日志、入侵檢測日志、代理服務器日志以及操作系統(tǒng)、數(shù)據(jù)庫審計日志、事件日志等。這些信息由ERC日志采集系統(tǒng)收集,并且轉發(fā)給ESM集中管理平臺, ESM集中管理服務器把原始的事件一份直接存儲到ELM日志存儲系統(tǒng)上,另外一份解析成統(tǒng)一的能夠被關聯(lián)引擎所識別的格式,提供給ACE關聯(lián)分析引擎進行進一步的分析。
4.1.1日志采集范圍和技術
“鷹眼”系統(tǒng)采集事件日志類型有幾種。
操作系統(tǒng)日志:主要包括Windows、Linux、AIX、HP-UX系統(tǒng)。
網絡設備日志:主要包括防火墻(Cisco、Juniper)、交換機(H3C、Cisco、華為)、路由器(Cisco)、ACS、VPN、無線AC、負載均衡(F5、Radware)。
安全設備:主要包括IPS、WAF、郵件安全網關、安全代理、SSL加速、DP、TDA、TMCM、DeepSecurity、Officescan、SEP、WSUS、DLP、MVM、BVS、Appscan、堡壘機、特權CyberArk。
輔助系統(tǒng):主要包括CMDB、Remedy、Patrol、Windows AD。
采集日志的方式主要有Syslog、WMI、FTP、文本、讀取數(shù)據(jù)庫等方式。
4.1.2各類事件日志的標準化處理
不同類型的設備記錄日志的格式不同,從各類設備采集的日志必需經過解析處理并整理成統(tǒng)一的格式后才有價值。
我們在開發(fā)過程中首先對設備和事件日志設置唯一編號,每一種設備的編號為Normalized ID,日志的分類號為Signature ID,然后建立統(tǒng)一(Normalization)日志格式:事件日志觸發(fā)時間(Frist time)、結束時間(Last Time)、源地址(Source IP )、目的地址(Dest. IP )、源端口(Source Port)、目的端口(Dest. Port)、嚴重級別(Event Subtype)、唯一事件號(Signature ID),事件類別編號(Normalized ID)等等。這樣處理后可以標準化事件分類,在運維和問題排查過程中,可以很方便的定位故障點,管理和追蹤攻擊來源。
4.1.3正則表達式在安全事件標準化中的應用
一般成熟的廠商會標準化大部分產品的輸出日志格式,很多自己開發(fā)的系統(tǒng)以及部分國產產品日志格式并不能被直接解析成標準格式,因此就需要人工對unknown的日志進行解析,我們使用正則表達式識別并標準化此類日志。
正則表達式(Regular Expression)描述了一種字符串匹配的模式,可以用來檢查一個串是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。
舉例來說,如下收到原始日志格式為:
<29>Jul 30 00:03:47 [10.1.4.103.128.42] id=tos time="2012-07-29 23:32:33" fw=WT-NGFW4000-A pri=6 type=pf src=10.100.64.66 dst=10.1.4.103 sport=62595 dport=8 smac=00:1C:57:29:00:40 dmac=00:13:32:02:21:E8 proto=ICMP indev=intranet rule=Accept policyid=8057 msg="中文測試null"
“鷹眼”系統(tǒng)默認的識別規(guī)則不能解析,通過正則表達式可將日志中關鍵項提取出來并賦值到標準化字段中,編寫的正則表達式如下:
\x5d\s+id\x3d([^\s]*)\s+time\x3d\"([^\s]*\s[^\s]*)\"\s+fw\x3d([^\s]*)\s+pri\x3d([^\s]*)\s+type\x3d([^\s]*)\s+src\x3d((?:\d{1,3}\x2e){3}\d{1,3})\s+dst\x3d((?:\d{1,3}\x2e){3}\d{1,3})\s+sport\x3d([^\s]*)\s+dport\x3d([^\s]*)\s+smac\x3d([^\s]*)\s+dmac\x3d([^\s]*)\s+proto\x3d([^\s]*)\s+indev\x3d([^\s]*)\s+rule\x3d([^\s]*)\s+policyid\x3d([^\s]*)\s+msg\x3d([^\s]*)
通過上述標準化處理工作,可有效實現(xiàn)對不同設備日志的統(tǒng)一化管理。目前已實現(xiàn)可接入所有網絡、安全設備、數(shù)據(jù)庫、中間件、操作系統(tǒng)及業(yè)務系統(tǒng)日志,覆蓋太保集團上海、成都兩大異地數(shù)據(jù)中心六大類32種設備類型,每天收集的實時日志信息均在30億條左右,全部實現(xiàn)集中、標準化管理和可識別處理。
4.2 基于大數(shù)據(jù)技術的海量日志事件關聯(lián)分析平臺技術原理
我們研發(fā)的事件關聯(lián)分析平臺通過對各類外部攻擊、內部合規(guī)等事件的特征進行抽象歸納、提取特征值,再利用關聯(lián)、基線等分析技術對海量日志進行關聯(lián)分析,可以把在一個點發(fā)現(xiàn)的威脅迅速在平臺共享,形成安全威脅的主動發(fā)現(xiàn)與精準定位,該平臺具備幾項功能:(1)安全事件的快速定位、溯源;(2)安全攻擊等行為的及時預警;(3)海量安全事件的自動化關聯(lián)分析;(4)安全風險趨勢的可視化呈現(xiàn)與監(jiān)控報告生成。
下面主要介紹在“鷹眼”系統(tǒng)的設計中如何利用大數(shù)據(jù)的關聯(lián)規(guī)則、模式識別等技術,并就實現(xiàn)的一個案例做詳細分析。
除了日志的標準化工作外,關聯(lián)分析是“鷹眼”核心技術所在。而找到數(shù)據(jù)庫中存在的數(shù)據(jù)關聯(lián)就是知識發(fā)現(xiàn)的過程。理論上講,若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、因果關聯(lián)、時序關聯(lián),關聯(lián)分析的目的就是發(fā)現(xiàn)海量數(shù)據(jù)中存在的、對我們有價值的各種規(guī)律并表達出來。Agrawal等人1993年首先提出了挖掘客戶交易數(shù)據(jù)庫中數(shù)據(jù)間的關聯(lián)規(guī)則問題,之后人們對原有算法不斷優(yōu)化,如引入隨機采樣、并行計算的思想等提升算法的執(zhí)行效率。在研發(fā)中,主要是通過對海量存量日志的關聯(lián)分析發(fā)現(xiàn)用戶的正常行為模式,并描繪當前時點日志數(shù)據(jù)中展現(xiàn)的用戶行為模式,通過對比分析發(fā)現(xiàn)某些用戶的異常行為。
模式識別的具體方法這里不再論述,在實際應用中需要根據(jù)對象的性質選擇合適的方法。在應用中將句法和決策理論兩種方法結合使用收到較好的效果。下面重點展示下我們利用大數(shù)據(jù)關聯(lián)分析和模式識別技術的一個場景的片斷。
案例設計:能夠偵測蠕蟲病毒爆發(fā)并自動攔截
(1)日志源:IDS、IPS日志、防火墻日志
嚴重性:高;
規(guī)則說明:IDS、IPS日志中蠕蟲類報警,3分鐘內出現(xiàn)了50次以上相同報警,觸發(fā)自動終止動作。
(2)策略參數(shù)
Rule Name:CPIC10-Internal-Malware Breakout in Production Segments;
Signature: 47-6000009;
Severity : 75;
Normalization Name: Malware;
Tags: Current Threats:Worm,Malware:Worm;
Group By : N/A。
(3)判斷邏輯
展示Logic 3的實現(xiàn):
在防火墻設備上發(fā)現(xiàn)有生產網IP在10分鐘內訪問可疑端口(137、138、139、445)2000次以上,就產生Correlation Event。
(4)過濾條件
Part 4:
目前已完成207條規(guī)則開發(fā)、60張合規(guī)報表的開發(fā)。其中設計關聯(lián)規(guī)則和調優(yōu)是難點,需要不斷優(yōu)化算法收斂模型,使平臺輸出的結果更加精準。通過歷時幾個月的模型訓練,目前已從每天30多億的安全日志中可自動產生50000次左右威脅告警,其中需要運維人員關注、處置的300件左右,已實現(xiàn)“蠕蟲傳播”、“暴力破解”、“安全攻擊”、“GTI全球智能威脅惡意地址訪問”、“違規(guī)訪問生產環(huán)境”、“非授權路徑訪問”、“非法重啟服務器”“高危操作”等安全威脅的實時監(jiān)控、精準報警和自動化攔截。
4.3 可實現(xiàn)自動攔截的快速事件處置機制
開發(fā)的分級安全事件響應機制,是在實現(xiàn)集中監(jiān)控各類安全事件的基礎上,重新設計自動化管理流程、崗位和職責,設置安全事件等級和響應級別:針對高危攻擊事件,平臺能夠自動向IPS等安全防御設備發(fā)出指令自動隔離;針對普通安全事件平臺能生成工單自動發(fā)送給安全運維人員處置,真正實現(xiàn)7×24自動化監(jiān)控。
目前平臺每月發(fā)現(xiàn)并自動隔離來自全球的外部攻擊源達到兩千到一萬多次,每月自動化生成安全事件工單千件左右,涵蓋越權與濫用、惡意代碼與病毒、入侵和攻擊、破壞完整性、安全平臺系統(tǒng)五大類安全事件。
5 “鷹眼”系統(tǒng)應用成效顯著
“鷹眼”系統(tǒng)能把各種看似沒有關聯(lián)的各種事件源數(shù)據(jù)進行集中監(jiān)控、智能分析,敏銳地感知到可能會發(fā)生的安全威脅,并預警和準確定位,系統(tǒng)實施以來,成功發(fā)現(xiàn)、防范了多起安全事件。
典型應用案例:通過對內部網絡訪問日志的分析,及時發(fā)現(xiàn)惡意代碼行為?!苞椦邸毕到y(tǒng)在2015年11月曾觸發(fā)告警:“某服務器向內網各地址段掃描可疑端口?!苯浉櫡治?,確認該服務器已感染木馬控制病毒,正在掃描攻擊其他主機系統(tǒng)。安全運維人員隨后為該服務器安裝防病毒軟件并查殺該惡意軟件后,及時解除了內網攻擊威脅。
發(fā)現(xiàn)非法訪問生產網數(shù)據(jù)庫事件?!苞椦邸毕到y(tǒng)某日告警:某開發(fā)部軟件開發(fā)人員在凌晨1:00時嘗試破解應用系統(tǒng)密碼并訪問數(shù)據(jù)庫,違規(guī)操作數(shù)據(jù)。內控人員接到告警郵件后立即聯(lián)系開發(fā)部門應急處理。
通過對內部網絡日志的分析,構建威脅模型與關聯(lián)規(guī)則,主動發(fā)現(xiàn)網絡異常行為。“鷹眼”系統(tǒng)在2016年7月曾觸發(fā)告警:某網絡鏈路負載均衡設備不停掃描內網TELNET(23)、HTTP(80)、SSH(22)、HTTPS(443)、SMTP(25)、RDP(3389)等敏感端口,經跟蹤分析,確認為外部用戶訪問行為導致,存在網絡配置的不規(guī)范性。
6 結束語
本文主要論述如何通過大數(shù)據(jù)技術對日常運維產生的海量日志數(shù)據(jù)進行關聯(lián)、挖掘和對比分析,時刻監(jiān)控系統(tǒng)安全狀態(tài),發(fā)現(xiàn)安全威脅信息。這也正是本項目的創(chuàng)新點,通常我們依靠不同的團隊對各自掌握的日志信息孤立分析,單一設備或團隊往往難以判斷威脅的性質而不能很好的發(fā)現(xiàn)潛在問題。通過大數(shù)據(jù)技術訓練并預定義正常行為模式庫,再用庫中的模式去匹配當前的行為,并將匹配的程度直觀展現(xiàn)出來,因此當前系統(tǒng)的安全狀態(tài)可一目了然。
此外,也可以將威脅行為特征抽象表達成模式規(guī)則,持續(xù)豐富模式庫,對各類事件進行自動判斷是否是安全事故、采取何種措施。這種首次將大數(shù)據(jù)技術應用于安全防御體系的設計思路首次得以實踐并應用成功,使得可以建設一個集成的安全防御系統(tǒng)以實現(xiàn)各類威脅的預知、防御的自動化處理以及追蹤的可視化展現(xiàn),實現(xiàn)從小時級或日級的響應能力到分鐘級或秒級的跨越。
本文的成果可以對擁有海量數(shù)據(jù)的企業(yè)在拓展數(shù)據(jù)挖掘和關聯(lián)分析能力方面提供借鑒,對擁有海量運行日志的企業(yè)在如何實現(xiàn)和提升自動化運維能力方面拓展了思路。
參考文獻
[1] 劉宜.我國互聯(lián)網保險發(fā)展現(xiàn)狀及其對保險行業(yè)的影響[J].吉林金融研究,2015年1期.
[2] 鄭昊楠,陳露,江春華.“互聯(lián)網+”紅利時代傳統(tǒng)金融行業(yè)轉型的研究分析[J].中國商論,2016年20期.
[3] 曹瑞瑩,鄧喻方.把脈我國互聯(lián)網保險[J].金融經濟(理論版),2015年8期.
[4] https://www.cpic.com.cn/cpic/cn/companyeverts/latestactivity/26449.shtml.
[5] 唐輝.大數(shù)據(jù)時代信息資源建設面臨的挑戰(zhàn)和機遇[J].科技情報開發(fā)與經,2015年23期.
[6] 劉雅倩.淺析網絡保險的風險及防范建議[J].中國經貿,2014年16期.
[7] 阮清嫻.我國互聯(lián)網保險的操作風險分析[D].暨南大學(碩士學位論文),2015.
[8] 韓志雄.移動金融的產生、發(fā)展及前景探析[J].南方金融,2015年02期.
[9] 陳曦.移動金融終端安全研究[J].信息安全與通信保密,2014年11期.
[10] 陳一鼎,喬桂明.“互聯(lián)網+金融”模式下的信息安全風險防范研究[J].蘇州大學學報(哲學社會科學版),2015年06期.
[11] 董紀昌,焦丹曉,張欣,宋子健,李秀婷.大數(shù)據(jù)金融背景下商業(yè)銀行客戶信息保護研究[J].工程研究-跨學科視野中的工程,2014年03期.
[12] 楊延嬌著.異常數(shù)據(jù)挖掘在Web服務器日志文件中的應用[J].西北師范大學學報(自然科學版),2008年06期.
[13] 韓東海,王超,李群,編著.入侵檢測系統(tǒng)及實例剖析[M].北京:清華大學出版社,2002.
[14] 景永霞,著.基于分布式數(shù)據(jù)庫的關聯(lián)規(guī)則挖掘算法[J].湛江師范學院學報,2007(6).
[15] 葉和平,著.一種面向入侵檢測的數(shù)據(jù)挖掘算法研究[J].計算機技術與發(fā)展,2008(1).
[16] 張硯雪.基于數(shù)據(jù)挖掘的IDS日志算法的改進[J].齊齊哈爾大學學報,2008(6).
[17] E.Eugene Schultz,Russell Shumway,著,段海新,等譯.網絡安全事件響應[M].北京:人民郵電出版,2002.
[18] William Stallings,SNMP,SNMPv2 and SNMP v3.the Practical Guide to NetworkManagement Standards[M].北京:電子工業(yè)出版社,2002.
[19] Ralph Kimball,Joe Caserte.the data warehouse ETL toolkit[M].Wiley Publishing inc,2004.
[20] (美)邁克爾·貝里(MICHAEL J.A.BERRY),(美)戈登·利諾夫(GORDON S.L). 數(shù)據(jù)挖掘[M].北京:中國勞動社會保障出版社,2004.
[21] 朱明,著.數(shù)據(jù)挖掘[M].北京:中國科學技術大學出版社,2002.
[22] 袁玉波,楊傳勝,黃廷祝,著.數(shù)據(jù)挖掘與最優(yōu)化技術及其應用[M].北京:科學出版社,2007.
[23] 李雄飛,李軍,編著.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社,2003.
[24] 毛國君,等編著.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學出版社,2007.
[25] (美)OLIVIA PARR RUD,著.數(shù)據(jù)挖掘實踐[M].北京:機械工業(yè)出版社,2003.
[26] 朱玉全,楊鶴標,孫蕾,編著.數(shù)據(jù)挖掘技術[M].南京:東南大學出版社,2006.
作者簡介:
李麗紅(1968-),女,漢族,河北定州人,畢業(yè)于上海交通大學計算機與系統(tǒng)結構專業(yè),研究生,碩士學位,中國太平洋保險集團信息安全與內控管理部,副總經理;主要研究方向和關注領域:優(yōu)化各項安全和內控管理策略、機制、流程。