IT綜合監(jiān)控系統(tǒng)在企業(yè)的運(yùn)維工作中發(fā)揮了越來越重要的作用,小王所在IT運(yùn)維組的同事們都越來越依賴這一監(jiān)控工具。為了進(jìn)一步深化IT綜合監(jiān)控功能應(yīng)用,同時(shí)也為了考察員工們對IT綜合監(jiān)控功能的應(yīng)用掌握情況,主管大劉召集了一次IT綜合監(jiān)控功能應(yīng)用探討會議,讓大家都說說利用IT綜合監(jiān)控工具解決了自己哪些問題、還存在什么問題,以下為發(fā)言記錄。
1.MES服務(wù)器有一段時(shí)間經(jīng)常死機(jī),原因未明。后來我通過主機(jī)性能報(bào)表發(fā)現(xiàn)在死機(jī)前的一段時(shí)間里,這臺服務(wù)器的磁盤繁忙率特別高,我就聯(lián)系了MES開發(fā)人員調(diào)整了應(yīng)用程序不合理的地方,現(xiàn)在死機(jī)現(xiàn)象再也沒有了。
2.我現(xiàn)在把我所管理的服務(wù)器都做了很精細(xì)的性能告警定制,確保收到的告警都是有效告警。例如,ERP服務(wù)器的cpu性能運(yùn)行在40%以下屬于正常,我就把告警閥值定為40%;LIMS服務(wù)器的cpu性能運(yùn)行在60%以下屬于正常,我就把告警閥值定義為60%。這樣做的好處就是我收到的告警都是需要我關(guān)注的。
3.資金結(jié)算應(yīng)用是我管理的十分重要的應(yīng)用,我就定制了對這一應(yīng)用進(jìn)程的監(jiān)控,什么時(shí)候這個(gè)進(jìn)程出了異常,比如宕了、占用cpu內(nèi)存高了,IT綜合監(jiān)控系統(tǒng)都能及時(shí)通知到我。自從這么做以來,我就再也沒接收到投訴了。
4.我還定制了對errpt log、system等日志的監(jiān)控,什么時(shí)候硬件有了異常現(xiàn)象我都能及時(shí)發(fā)現(xiàn)。
5.我利用主機(jī)監(jiān)控功能還做了些監(jiān)控腳本,重要的系統(tǒng)文件被改動,重要的日志文件很久沒更新(例如,通信接口日志文件如果超過30分鐘沒更新,這就很可能是接口程序出了異常)我都能及時(shí)發(fā)現(xiàn)。
6.以前咱們公司的主頁,還有OA系統(tǒng)不太穩(wěn)定,總有不能訪問的情況。以前都是投訴電話打來了我才知道,后來我利用IT綜合監(jiān)控系統(tǒng)的業(yè)務(wù)撥測功能,每隔1—5分鐘就探測下這些頁面能否正常訪問,有了異常我先知道。
7.以前我都是通過手工巡檢的方式查看各個(gè)服務(wù)器的運(yùn)行狀態(tài),有了IT綜合監(jiān)控系統(tǒng),我的工作模式徹底改變。在做好各項(xiàng)告警定之后,系統(tǒng)有了問題就會發(fā)告警給我,我的精力可以解放出來做系統(tǒng)優(yōu)化更有意義的工作了。
1.我管理著所有重要的數(shù)據(jù)庫,以前壓力特別大,生怕哪個(gè)數(shù)據(jù)文件滿了影響生產(chǎn),現(xiàn)在我對這些增長比較快的數(shù)據(jù)文件全都定義了性能閥值,超過70%就會告警,我的工作再也不會手忙腳亂了。
2.有一段時(shí)間應(yīng)用開發(fā)人員老是反映數(shù)據(jù)庫訪問慢,我通過數(shù)據(jù)庫性能監(jiān)控報(bào)表發(fā)現(xiàn)那一時(shí)刻有不少的死鎖存在,把這一現(xiàn)象告訴了應(yīng)用開發(fā)人員后,他們調(diào)整了訪問那幾張表的頻率和時(shí)間,現(xiàn)在這種現(xiàn)象已經(jīng)沒有了。
3.數(shù)據(jù)庫的alert日志監(jiān)控我很關(guān)心,里面記錄著數(shù)據(jù)庫的各種異常信息。我就把常見的錯誤關(guān)鍵字做了日志監(jiān)控,什么時(shí)候出現(xiàn)了ora-600之類的錯誤我都能及時(shí)發(fā)現(xiàn)。
4.美中不足的是,現(xiàn)在IT綜合監(jiān)控系統(tǒng)還不能告訴我數(shù)據(jù)庫慢的時(shí)候是什么sql語句導(dǎo)致的,要是能有這個(gè)信息應(yīng)用開發(fā)人員就能更快地調(diào)整程序了。
IT綜合監(jiān)控管理系統(tǒng)(Integrated Monitor System,IMS)是東華軟件ForceView IT運(yùn)維管理套件的重要組成部分,實(shí)現(xiàn)數(shù)據(jù)中心的IT環(huán)境、IT設(shè)備、IT應(yīng)用以及業(yè)務(wù)的7X24小時(shí)自動監(jiān)控。
通過IMS產(chǎn)品,運(yùn)維部門能夠?qū)崿F(xiàn)數(shù)據(jù)中心IT環(huán)境、IT設(shè)備、IT應(yīng)用以及業(yè)務(wù)四個(gè)層面的綜合監(jiān)控及管理數(shù)據(jù)的分析,能夠?qū)崿F(xiàn)不同廠家、不同型號/版本的軟硬件設(shè)備/應(yīng)用的綜合監(jiān)控,從根本上根治數(shù)據(jù)中心IT系統(tǒng)四國八制帶來的管理問題,單位領(lǐng)導(dǎo)、業(yè)務(wù)人員、CIO、運(yùn)維人員都能夠通過IMS系統(tǒng)獲得各自感興趣并能夠理解的管理數(shù)據(jù):
單位領(lǐng)導(dǎo)可獲知IT系統(tǒng)對本單位業(yè)務(wù)的支持情況以及信息部門的運(yùn)維水平。
業(yè)務(wù)人員可獲知業(yè)務(wù)交易的可用性及性能。
CIO可提高數(shù)據(jù)中心IT系統(tǒng)的運(yùn)維效率并可評估運(yùn)維人員的運(yùn)維工作能力,同時(shí)可量化的評估IT系統(tǒng)的使用效率、系統(tǒng)業(yè)務(wù)容量及升級方案。
運(yùn)維人員工作效率大幅提高,工作由被動的救火轉(zhuǎn)為主動的管理和優(yōu)化,故障的發(fā)現(xiàn)、定位、修復(fù)時(shí)間大大縮短。