■ 中國航空結算有限責任公司 高紅巖
編者按:大數(shù)據(jù)對于推動企業(yè)業(yè)務發(fā)展與高效管理方面的作用不言而喻,但前提仍是安全。本文針對民航行業(yè)大數(shù)據(jù)在企業(yè)安全管理方面提出一些建議。
對于民航系統(tǒng)來說,信息系統(tǒng)具有獨特的行業(yè)特性,其穩(wěn)定性至關重要。旅客訂票、代理人出票、飛機離崗等操作不容有誤,任何信息系統(tǒng)出現(xiàn)的任何故障,都會帶來無法彌補的損失,有時還會危及到人民的生命財產(chǎn)安全。
因此,安全保障工作至關重要,必須要求7×24的高標準、高要求。隨著系統(tǒng)功能越來越豐富,系統(tǒng)架構越來越復雜,如何對眾多系統(tǒng)進行科學管理是IT運維管理所面臨的一大難題。開源產(chǎn)品的引入,不同廠商技術差異等問題也都會給系統(tǒng)管理帶來困難,用戶反映系統(tǒng)慢、資源不足、網(wǎng)速不達標等問題也是層出不窮。
面對各種各樣的問題,不經(jīng)過科學分析、系統(tǒng)評估,盲目的增加資源并不一定能徹底解決問題,而且糟糕的系統(tǒng)架構、程序bug等問題也并非可以單純通過增加資源就能夠解決,從長遠來看,資源的浪費、成本的大幅度提高、系統(tǒng)管理難度的上升都將是越來越嚴重的問題,所以,系統(tǒng)性的科學管理就顯得尤為重要。
隨著國外同行業(yè)的競爭對手不斷涌入國內,民航企業(yè)的行業(yè)保護政策卻不斷弱化,以及其它因素所帶來的經(jīng)濟影響,都使得民航業(yè)面臨的競爭越來越激烈。在這種情況下,如何保證公司的競爭優(yōu)勢,在市場上立于不敗之地,為客戶提供一個安全、穩(wěn)定的數(shù)據(jù)中心,保證客戶業(yè)務各個層面的安全穩(wěn)定是至關重要的。
當今社會,已經(jīng)進入了以云計算、大數(shù)據(jù)為代表的時代,大數(shù)據(jù)在發(fā)展經(jīng)濟、促進安全生產(chǎn)等方面的作用已日益顯現(xiàn),利用大數(shù)據(jù)助力企業(yè)發(fā)展、科學管理是我們近年來主推的一項重要舉措。
在實際生產(chǎn)維護工作中,從上到下都充分認識到了大數(shù)據(jù)的重要性,大數(shù)據(jù)之“大”,不僅在于海量數(shù)據(jù)的“大規(guī)模”,更重要的體現(xiàn)在:通過各行各業(yè)產(chǎn)生數(shù)據(jù)軌跡的“大覆蓋”,推動各類同構、異構數(shù)據(jù)的“大融合”,提升分析數(shù)據(jù)內在規(guī)律和發(fā)展趨勢的“大智慧”,實現(xiàn)從數(shù)據(jù)到信息、到顯隱價值挖掘的“大應用”。
在互聯(lián)網(wǎng)+浪潮的帶動下,傳統(tǒng)行業(yè)與互聯(lián)網(wǎng)行業(yè)的邊界逐漸變得模糊,傳統(tǒng)企業(yè)的IT系統(tǒng)變得越發(fā)復雜,運維對象開始由運維物理硬件的穩(wěn)定性和可靠性演變?yōu)槟軌蜃詣踊渴饝谩⒖焖賱?chuàng)建資源、動態(tài)擴縮容系統(tǒng)、實時監(jiān)控程序狀態(tài),以保證業(yè)務持續(xù)穩(wěn)定運行的敏捷運維。企業(yè)內部成百上千臺服務器,各種性能數(shù)據(jù)、資產(chǎn)信息、系統(tǒng)日志和業(yè)務信息等都屬于大數(shù)據(jù)領域范疇,如何利用這些數(shù)據(jù)助力企業(yè)進行科學管理呢?
在實際應用中,主要采取廣撒網(wǎng)的形式,注重對各種數(shù)據(jù)的有效收集、匯總、分析及展示。從管理的角度出發(fā),按照系統(tǒng)、網(wǎng)絡、數(shù)據(jù)庫、應用及虛擬化等不同方面,收集各方面的數(shù)據(jù)信息進行分析,為管理系統(tǒng)提供科學依據(jù)。
以數(shù)據(jù)庫管理為例,搭建數(shù)據(jù)庫性能數(shù)據(jù)收集系統(tǒng),通過編寫程序自動定期收集各種作業(yè)(應用、系統(tǒng))的實際運行時間、數(shù)據(jù)庫基礎配置信息、系統(tǒng)性能數(shù)據(jù)、數(shù)據(jù)庫性能數(shù)據(jù)、數(shù)據(jù)庫的備份時間等信息,以業(yè)務要求為基準,形成各種基線,為性能分析、故障定位、資源擴容提供依據(jù),使系統(tǒng)管理更加精準并且有據(jù)可依。
完成這項工作意義重大:首選提供一個基準,通過作業(yè)服務水平協(xié)議(SLA)要求時間和實際的作業(yè)運行時間進行比較,發(fā)現(xiàn)應用作業(yè)是否在性能上存在問題;也可作為性能調優(yōu)的基準,調到業(yè)務作業(yè)運行SLA要求的時間基線即可滿足要求;從系統(tǒng)配置上,也可以以系統(tǒng)性能數(shù)據(jù)為依據(jù),評估當前的系統(tǒng)配置是否合理,是否需要增減系統(tǒng)資源,做到有據(jù)可依;更重要的是根據(jù)性能數(shù)據(jù),對系統(tǒng)資源使用做趨勢分析,為后續(xù)資源擴容提供支撐,真正做到用數(shù)據(jù)說話。
面對成百上千臺系統(tǒng),如何安全、高效管理?以大數(shù)據(jù)為依托,借助監(jiān)控工具、自動化腳本、郵件系統(tǒng)等手段,實現(xiàn)全面、安全高效的管理系統(tǒng)。
(1)對系統(tǒng)實施全面監(jiān)控
系統(tǒng)中無時無刻不在產(chǎn)生數(shù)據(jù),系統(tǒng)報錯會自動產(chǎn)生日志,人為運行各種命令會產(chǎn)生日志,作業(yè)運行會產(chǎn)生日志等。這些信息是檢查系統(tǒng)是否正常、穩(wěn)定的有力數(shù)據(jù),也為查找問題原因提供可靠的線索。如何挖掘數(shù)據(jù)的價值,如何利用這些有價值的數(shù)據(jù)是一門大的學問。傳統(tǒng)的運維模式在逐步向大數(shù)據(jù)運維場景發(fā)展,大數(shù)據(jù)運維場景是借助專業(yè)監(jiān)控工具和軟件,實現(xiàn)自動化監(jiān)控、自動化性能與故障分析、趨勢預測和故障根本原因定位,其準確性遠遠超過人工運維的準確性,這才是提升管理效率和運維水平的有效出路。
此外,因各個企業(yè)的業(yè)務場景及實際需求都不盡相同,廠商的監(jiān)控軟件并不能完全覆蓋所有的功能需求,往往需要進行二次開發(fā),自行編寫程序,收集對維護系統(tǒng)有價值的數(shù)據(jù)信息,部署對全公司所有業(yè)務平臺的監(jiān)控。
收集的數(shù)據(jù)包括系統(tǒng)日志、性能數(shù)據(jù)、錯誤日志、網(wǎng)絡信息、資產(chǎn)信息及操作日志等,針對這些數(shù)據(jù)進行邏輯規(guī)則匹配和挖掘,有針對性的發(fā)出告警,做到對系統(tǒng)的實時監(jiān)控。同時所有數(shù)據(jù)信息進入信息歷史庫,以備將來追蹤問題時使用。
截至目前,部署的監(jiān)控點包括系統(tǒng)性能監(jiān)控、設備宕機、進程異常停止、備份失敗、系統(tǒng)軟硬件錯誤、數(shù)據(jù)庫空間不足,越權操作、存儲硬盤錯誤、文件修改、網(wǎng)絡中斷、鏈路錯誤、應用作業(yè)錯誤等大概70多個種類,覆蓋200多套數(shù)據(jù)庫,500多套操作系統(tǒng),幾十條網(wǎng)絡線路等,而這一切的基礎來源就是底層的信息數(shù)據(jù)。
通過收集底層大量基礎數(shù)據(jù),并對其加工、匹配、篩選、展示等處理,實現(xiàn)對系統(tǒng)的實時監(jiān)控。此項工作的實施,不但節(jié)省了人力維護成本,而且也減少了系統(tǒng)故障發(fā)生的概率,縮短了故障發(fā)現(xiàn)時間,大大提高了系統(tǒng)的可用性,達到了利用數(shù)據(jù)監(jiān)控系統(tǒng)、維護系統(tǒng)的目的,系統(tǒng)安全性上得到有利的保障。
(2)合理利用大數(shù)據(jù),定位故障
監(jiān)控的目的之一就是定位故障,而且還要求快速定位故障。當發(fā)現(xiàn)系統(tǒng)故障甚至不可用時,我們想立刻知道,是哪個服務器出了故障,對哪些業(yè)務有影響,需要哪些人來處理,到底出了什么樣的錯誤。更重要的是,要根據(jù)數(shù)據(jù)之間的邏輯關系,發(fā)現(xiàn)故障之間的關聯(lián)關系,判斷哪些是次生故障,哪個是故障根本原因,所有這些都需要數(shù)據(jù)來支撐。
所以對于數(shù)據(jù)而言,大而無用不是我們的目的,我們希望把零散的、無序的數(shù)據(jù)組合成大而有序,大而可用的數(shù)據(jù),正所謂數(shù)據(jù)的價值不在于數(shù)據(jù)本身,而在于數(shù)據(jù)之間的關聯(lián)關系。這就要求合理的使用數(shù)據(jù),對數(shù)據(jù)進行加工、分析,物盡其用。在實際生產(chǎn)業(yè)務的監(jiān)控中,以收集上來的信息為基準,結合業(yè)務邏輯,崗位負責人員,建立業(yè)務之間、資源之間的拓撲關系,把主機、數(shù)據(jù)庫、業(yè)務、故障解決人以及具體故障日志等信息囊括進來,作為告警通知的基礎架構。而發(fā)出的每一條告警消息都應該內容清晰,包括故障當前狀態(tài),是故障類還是預警類、需要哪個崗位來處理、故障發(fā)生時間、故障節(jié)點名稱、具體報錯日志等關鍵信息,以實現(xiàn)定位故障準確,為后續(xù)故障的處理縮短時間。因此,在實際的應用中,我們需要合理使用大數(shù)據(jù),深度挖掘它們的價值。
從我國情況看,大數(shù)據(jù)在面臨傳統(tǒng)安全風險的同時,還面臨著數(shù)據(jù)能否自有掌控,處理能否自主實現(xiàn),應用能否規(guī)范有序,安全能否有所保障等新的安全風險。針對這些問題,應盡快從強化數(shù)據(jù)立法,加快自主自控,注重顯隱價值保護等方面筑牢我國大數(shù)據(jù)安全管理的防線,實現(xiàn)以安全保發(fā)展,以發(fā)展促安全的良好局面。
對于企業(yè)來說,首先要建立數(shù)據(jù)保護制度以及相關的安全規(guī)范和流程,盡快從制度層面提出企業(yè)數(shù)據(jù)主權,規(guī)定數(shù)據(jù)的合理使用,對違規(guī)使用數(shù)據(jù)進行相關處罰。其次,加強自主研發(fā),真正做數(shù)據(jù)的主人。三要加大人才培養(yǎng)力度,整體規(guī)劃國家及企業(yè)的大數(shù)據(jù)安全人才的培養(yǎng)、引進和使用,形成學業(yè)、職業(yè)、產(chǎn)業(yè)三位一體的培育體系。
本文結合企業(yè)實際生產(chǎn)業(yè)務,介紹大數(shù)據(jù)在科學管理,安全、高效管理方面的實際案例,充分印證了大數(shù)據(jù)的實用價值,并指出,大數(shù)據(jù)本身安全性存在隱患,需要保護,也呼吁企業(yè)加大對大數(shù)據(jù)人才的培養(yǎng)。