李靜
摘要:實際生產(chǎn)環(huán)境中,有大量的服務(wù)器,交換機,防火墻需要及時關(guān)注其日志的信息,便于運維人員及時根據(jù)日志查找故障原因。本文以ELK為實現(xiàn)平臺搭建了一套日志分布式監(jiān)控系統(tǒng)。本系統(tǒng)對公司的網(wǎng)絡(luò)設(shè)備進行日志實時監(jiān)控,使管理員能夠隨時掌握系統(tǒng)日志信息,能及時收集網(wǎng)絡(luò)硬件及應(yīng)用軟件的日志信息,展示分析,'并告警。
【關(guān)鍵詞】ELK 日志分析系統(tǒng) 網(wǎng)絡(luò)
1 背景介紹
河鋼集團承綱公司的局域網(wǎng)到目前為止包括四級網(wǎng)絡(luò)辦公系統(tǒng),三級計量系統(tǒng),生產(chǎn)信息采集網(wǎng)絡(luò),能源網(wǎng)絡(luò),視頻及門禁網(wǎng)絡(luò),整個網(wǎng)絡(luò)擁有交換機,路由器,防火墻等網(wǎng)絡(luò)設(shè)備300多臺,小型機及服務(wù)器50多臺,主機及終端設(shè)備2000多臺。隨著網(wǎng)絡(luò)規(guī)模的不斷擴大,網(wǎng)絡(luò)及主機,數(shù)據(jù)庫的故障也時有發(fā)生。
在遇到設(shè)備故障時,如何有效的利用設(shè)備的日志信息快速查找故障原因,成為網(wǎng)絡(luò)運維人員急需解決的問題,日志監(jiān)控和分析在保障業(yè)務(wù)穩(wěn)定運行時,起到了很重要的作用,不過一般情況下日志都分散在各個生產(chǎn)服務(wù)器,且維護或開發(fā)人員無法登陸生產(chǎn)服務(wù)器,這時候就需要一個集中式的日志收集裝置,對日志中的關(guān)鍵字進行監(jiān)控,觸發(fā)異常時進行報警,方便維護或開發(fā)人員查看相關(guān)日志進行故障排查。ELK正好能夠滿足這種需求。
2 ELK系統(tǒng)架構(gòu)及主要功能
ELK由三部分組成elasticsearch、logstash、kibana,Elasticsearch:是一個近似實時的搜索平臺,它可以以很快的速度處理大數(shù)據(jù)。它是日志分布式存儲/搜索工具,原生支持集群功能,可以將指定時問的日志生成一個索引,加快日志查詢和訪問。
Logstash:日志收集工具,可以從本地磁盤,網(wǎng)絡(luò)服務(wù)(自己監(jiān)聽端口,接受用戶日志),消息隊列中收集各種各樣的日志,然后進行過濾分析,并將日志輸出到Elasticsearch中。
Kibana:可視化日志W(wǎng)eb展示工具,對Elasticsearch中存儲的日志進行展示,還可以生成炫麗的儀表盤。
流程簡圖如圖1。
簡單的講,就是通過Logstash收集各種各樣的日志,將其輸出到Elasticsearch中,這里可以把Elasticsearch理解為一個非關(guān)系型數(shù)據(jù)庫,最后利用Kibana對存儲在Elasticsearch中的日志進行幾乎實時的展示。
3 在承鋼局域網(wǎng)生產(chǎn)環(huán)境中的應(yīng)用
3.1 目前實現(xiàn)了Elasticsearch集群狀態(tài)下對網(wǎng)絡(luò)硬件設(shè)備方面的日志采集分析監(jiān)控
主要包括:通過udp協(xié)議和syslog插件集中采集四級網(wǎng)絡(luò)設(shè)備思科和華為交換機日志信息采集、展示、分析和告警;利用nxlog對門崗wmdows主機和咋zabbix服務(wù)器Linux主機日志的展示、分析:深信服防火墻和思科防火墻日志采集、展示、分析。以及惠普打印機日志采集,展示。圖2是日志分析的圖形化展示級分析,以交換機日志為例。
圖2是采集到的CISCO交換機日志的信息,可以看到每個時段日志的數(shù)量柱狀圖,以及日志的詳細信息,通過過濾相關(guān)的字段查找需要查看的日志,綜合分析判斷日志中存在的各種問題,便于快速定位故障原因。
3.2 實現(xiàn)了各種應(yīng)用軟件程序日志的實時監(jiān)控
主要包括:集中采集設(shè)備管理平臺應(yīng)用程序http,11S,tomcat日志的信息分析、展示、分析;集中采集三級oracle服務(wù)器數(shù)據(jù)庫相關(guān)日志信息,分析并利用kibana圖形化展示、分析。
3.3 ELK日志系統(tǒng)的管理和優(yōu)化
使用DSL對日志進行數(shù)據(jù)的基本查詢,filter查詢,組合查詢,利用正則表達式對日志各個字段進行篩選。各種插件如Filebeat工具、Packetbeat工具、Topbeat工具、Logstash-filter-csv插件的使用。ELK系統(tǒng)的優(yōu)化。通過調(diào)整ELK的各項配置參數(shù),保證系統(tǒng)在大數(shù)據(jù)量的日志吞吐下穩(wěn)定可靠運行。包括ES集群的備份與恢復(fù);ELK內(nèi)存分配優(yōu)化:ELK數(shù)據(jù)索引定期清理:ELK配置參數(shù)優(yōu)化。
4 結(jié)束語
ELK日志監(jiān)控系統(tǒng)在公司內(nèi)網(wǎng)中的成功應(yīng)用,為網(wǎng)絡(luò)運維人員判斷故障提供了很好到幫助,提高的故障分析能力和響應(yīng)速度,接下來還需要對ELK日志分析系統(tǒng)進一步深入的研究,使其更好的為生產(chǎn)服務(wù)。
參考文獻
[1]饒琛琳.ELK Stack權(quán)威指南[M].北京:機械工業(yè)出版社,2015.
[2]褚瓦金(Anton A,Chuvakin).日志管理與分析權(quán)威指南[M].北京:電子工業(yè)出版社.2014.endprint