張琦
摘要:隨著我國經(jīng)濟的不斷發(fā)展,企業(yè)科學(xué)管理水平的提高,企業(yè)管理信息化越來越受到企業(yè)的重視。企業(yè)信息系統(tǒng)投運后就進入系統(tǒng)運行維護階段,保障企業(yè)計算機信息系統(tǒng)安全、可靠、高效運行是系統(tǒng)維護的首要任務(wù)和目標(biāo),同時還需優(yōu)化信息系統(tǒng),使系統(tǒng)能夠不斷改善和提高,以便充分發(fā)揮企業(yè)信息系統(tǒng)的作用,更好的為企業(yè)提供務(wù),提升企業(yè)科學(xué)管理水平,提高工作效率。本文主要在平時運維過程的經(jīng)驗基礎(chǔ)上分析企業(yè)信息系統(tǒng)運行維護管理的方法。
關(guān)鍵詞:信息系統(tǒng);運行維護;故障;管理
企業(yè)信息化建設(shè)涉及到整個企業(yè)的經(jīng)營管理系統(tǒng),企業(yè)ERP(企業(yè)資源計劃)系統(tǒng)、OA辦公自動化系統(tǒng)等先進的管理系統(tǒng)都進入企業(yè)并成為企業(yè)重要的綜合管理系統(tǒng)。在企業(yè)信息系統(tǒng)投入正常運行之后,做好企業(yè)信息系統(tǒng)的日常維護和管理工作,確保企業(yè)的信息系統(tǒng)正常運行,是為企業(yè)帶來更多經(jīng)濟效益的重要舉措。企業(yè)信息系統(tǒng)運行維護管理主要體現(xiàn)在日常運行維護和故障管理兩方面。
1 系統(tǒng)日常運行維護管理
企業(yè)信息系統(tǒng)投入使用以后,日常運行的維護工作是非常重要的,確保企業(yè)計算機信息系統(tǒng)正常安全運行是系統(tǒng)維護的首要任務(wù)和目標(biāo)。
1.1 巡檢與監(jiān)控管理
制定信息系統(tǒng)巡檢計劃,定期對服務(wù)器、數(shù)據(jù)庫、中間件、應(yīng)用系統(tǒng)等進行巡檢,及時發(fā)現(xiàn)存在的各種安全隱患;通過監(jiān)控系統(tǒng),實時監(jiān)測服務(wù)器、數(shù)據(jù)庫、中間件、會話數(shù)等,及時了解系統(tǒng)當(dāng)前運行狀態(tài)。其主要包括:監(jiān)控系統(tǒng)的安全狀況,發(fā)現(xiàn)不良侵入立即采取措施予以制止;檢查系統(tǒng)日志和各種告警信息,根據(jù)分析結(jié)果提出解決方案;監(jiān)控各應(yīng)用系統(tǒng)間接口運行情況,對發(fā)現(xiàn)的異常數(shù)據(jù)要及時處理;對數(shù)據(jù)庫中垃圾數(shù)據(jù)的定時清理,及對歷史數(shù)據(jù)的及時遷移,優(yōu)化系統(tǒng)性能;檢查系統(tǒng)進程是否正常;檢查磁盤的空間占用率;檢查CPU、內(nèi)存的使用情況;檢查群集軟件運行情況等。
1.2 軟硬件啟停作業(yè)
信息系統(tǒng)啟停操作是為了使信息系統(tǒng)適應(yīng)環(huán)境和各種其他因素的變化,及時地進行重啟、升級、更新補丁,保證系統(tǒng)正常的工作,滿足系統(tǒng)用戶對系統(tǒng)的要求。首先必須了解系統(tǒng)環(huán)境搭建過程,整理軟硬件清單、相關(guān)作業(yè)指導(dǎo)書,這能更好地指導(dǎo)系統(tǒng)的維護過程。在系統(tǒng)部署階段,能更好地規(guī)劃系統(tǒng)軟硬件配置,如搭建集群、主備等雙機模式,避免信息系統(tǒng)于單機環(huán)境運行;在停機前必須保護好現(xiàn)有數(shù)據(jù),做好備份;在升級更新前還需做好舊應(yīng)用軟件備份,如出現(xiàn)新版本不能穩(wěn)定運行時能第一時間恢復(fù)系統(tǒng)。
1.3 權(quán)限管理與數(shù)據(jù)處理
用戶變更應(yīng)用系統(tǒng)權(quán)限、處理業(yè)務(wù)數(shù)據(jù)時,需用戶所在部門審查和業(yè)務(wù)管理部門審批后交由系統(tǒng)管理員確認(rèn),進行增刪改操作。用戶權(quán)限分配須遵循最小權(quán)限原則,用戶口令長度應(yīng)滿足密碼復(fù)雜性要求,用戶賬號的命名規(guī)則應(yīng)規(guī)范管理;進行業(yè)務(wù)數(shù)據(jù)的變更操作前需做好備份工作,并在有人監(jiān)護的情況下嚴(yán)格按照作業(yè)指導(dǎo)書開展工作。
2 系統(tǒng)故障管理
故障管理是計算機信息系統(tǒng)維護當(dāng)中的復(fù)雜過程,應(yīng)當(dāng)將故障維護作為出發(fā)點,積極采取綜合性措施,確保計算進信息系統(tǒng)得以正常運行,發(fā)揮其應(yīng)有作用。信息系統(tǒng)發(fā)生故障后,信息系統(tǒng)管理員應(yīng)組織相關(guān)人員對故障進行處理,需從網(wǎng)絡(luò)、服務(wù)器、接口、數(shù)據(jù)庫、應(yīng)用等多方面定位問題。一般結(jié)合監(jiān)控分析系統(tǒng)的實時告警信息,可以很快地分析出故障的影響范圍和問題原因。無論大小的故障,都應(yīng)該及時地記錄故障的發(fā)生時間、故障的現(xiàn)象、故障發(fā)生時的工作環(huán)境、處理的方法、處理的結(jié)果、處理人員、善后措施、原因分析等,形成故障處理分析報告,這對于信息系統(tǒng)的運維具有重要的意義。
2.1 數(shù)據(jù)庫故障
表空間不足、歸檔日志空間占滿是一般常見的故障,數(shù)據(jù)庫備份恢復(fù)操作是極少出現(xiàn),所以這里重點介紹常見的故障處理方法。表空間不足也就是指在非自動擴展設(shè)備上建立的表空間的使用率接近或等于100%,數(shù)據(jù)自身已經(jīng)不能再處理任何增加空間的SQL語句。當(dāng)表空間不足出現(xiàn)時,我們一般可以通過ORACLE自身的日志或者前端提示的錯誤信息進行快速定位,通過擴充表空間的設(shè)備文件進行故障的排除。歸檔日志空間占滿大多是由于大批量數(shù)據(jù)變動引起歸檔日志空間被占滿而造成數(shù)據(jù)庫沒有響應(yīng),登錄對應(yīng)的實例數(shù)據(jù)庫時會報無法登陸,等待日志空間回收;解決此類問題的辦法就是備份歸檔日志,然后刪除歸檔日志空間的歸檔日志文件。
2.2 應(yīng)用服務(wù)器故障
當(dāng)出現(xiàn)服務(wù)器不響應(yīng)新的請求、請求超時、請求處理的時間長等,這可能是應(yīng)用服務(wù)器掛起故障。例如內(nèi)存溢出,即當(dāng)JVM最大的內(nèi)存數(shù)無法滿足應(yīng)用邏輯處理的需求,系統(tǒng)就會報內(nèi)存溢出(OutOfMemoryError)錯誤,從而掛起應(yīng)用服務(wù),這一般需直接重啟應(yīng)用服務(wù)來解決問題。一般來說,服務(wù)器掛起之后可能會崩潰,這需馬上進行線程監(jiān)控,查看每個線程在特定時刻正在執(zhí)行什么操作的信息,是否存在死鎖或大量請求等,通過kill -3那些影響性能的進程。對于應(yīng)用服務(wù)器故障,我們平時應(yīng)注重對SQL語句優(yōu)化、weblogic配置調(diào)整、JVM配置優(yōu)化、擴充應(yīng)用服務(wù)器內(nèi)存和CPU等系統(tǒng)性能優(yōu)化,能有效降低故障發(fā)生次數(shù)。
3 結(jié)束語
針對企業(yè)信息系統(tǒng)所開展的運行維護管理的工作核心在于:依托于網(wǎng)絡(luò)、服務(wù)器、軟硬件平臺、應(yīng)用軟件等相關(guān)技術(shù)支持,確保系統(tǒng)安全、可靠運行。在運維過程中,需注重日常的巡檢和監(jiān)控,規(guī)范信息系統(tǒng)運行維護的流程,及時定位故障源并解決,提高系統(tǒng)可用性。
參考文獻
[1]葛世倫.信息系統(tǒng)運行與維護[M].北京:電子工業(yè)出版社,2012.
(作者單位:黑龍江煙草工業(yè)有限責(zé)任公司綏化卷煙廠)