周宇
【摘 要】文章從維護部門的角度,主要討論應(yīng)用系統(tǒng)維護所遇到的問題,分析問題的一些管理解決方案、制度。并探討發(fā)展科學(xué)系統(tǒng)的應(yīng)用系統(tǒng)維護解決方法。
【關(guān)鍵詞】應(yīng)用系統(tǒng)維護;解決方案;操作規(guī)則
中圖分類號: TP311.52 文獻(xiàn)標(biāo)識碼: A文章編號: 2095-2457(2019)05-0160-004
1 應(yīng)用系統(tǒng)維護的問題
隨著當(dāng)今社會技術(shù)的迭代更新,數(shù)據(jù)機房IDC化、數(shù)據(jù)應(yīng)用云網(wǎng)化,網(wǎng)絡(luò)條件的大幅度提升,應(yīng)用系統(tǒng)維護員不再是僅僅面對一兩臺設(shè)備的管理,而是要面對的許多不同類型、不同型號的設(shè)備,甚至是云化的設(shè)備集群。此時,一個高技術(shù)應(yīng)用系統(tǒng)維護人員不可能把精力平等的分給所有的設(shè)備,有時候甚至是不夠時間來照看所有的設(shè)備。
而與此同時,高技術(shù)的應(yīng)用系統(tǒng)維護人員需要全面的技術(shù)培訓(xùn)以及長時間的經(jīng)驗積累。特別是高級別的技術(shù)專家、熟練的維護人員,一旦發(fā)生人員變更,對整個應(yīng)用系統(tǒng)的穩(wěn)定性和持久性,都將會有巨大的挑戰(zhàn)。
2 應(yīng)用系統(tǒng)維護的問題分析
現(xiàn)有應(yīng)用系統(tǒng)地維護,已經(jīng)不是僅僅依靠個人或一個團隊的技術(shù)就能長期地防控風(fēng)險地發(fā)生,只能暫時性地維護并保持一個應(yīng)用系統(tǒng)的正常運行。文章認(rèn)為造成這個問題地根本原因,是維護部門和團隊,一直以來只是從技術(shù)的角度來看待對于應(yīng)用系統(tǒng)地維護,只是針對一個個孤立的故障案例來進行技術(shù)分析處理,缺少一個整體性的解決發(fā)難。
應(yīng)用系統(tǒng)維護應(yīng)該是一整套的體系、制度來對應(yīng)用系統(tǒng)維護進行控制,這也是文章所探討的主題。
3 應(yīng)用系統(tǒng)維護的解決方案
如上所說,現(xiàn)在技術(shù)更新迭代的速度越來越快,軟件及硬件更新也越來越快,往往老的技術(shù)還沒有全部掌握,新的技術(shù)就已經(jīng)出現(xiàn)了;另外,設(shè)備、軟件功能類型日益分工專業(yè)化,僅應(yīng)用系統(tǒng)所承載的服務(wù)器分類就有許多種,例如:IBM公司的aix,HP公司的hp-ux,SUN公司的Solaris,Linux不同的變種,windows系列等等。同一種系統(tǒng)在不同的階段還有不同的版本。技術(shù)的更新,類型的多樣,還有版本問題,這些都是應(yīng)用系統(tǒng)維護人員的噩夢。雖然私有云、公有云等云化的架構(gòu),可以使得應(yīng)用管理人員對硬件設(shè)備透明,但對于云系統(tǒng)的提供商來說,這些問題依舊存在。而且針對各類中間件、開發(fā)平臺、系統(tǒng)接口,同樣的問題依舊存在。同時每個人的精力都是有限的,如果需要應(yīng)用系統(tǒng)維護人員對上面所說的每種設(shè)備都能輕松應(yīng)對,那幾乎是不可能的,即使有,也只是極少數(shù)。同時,現(xiàn)在許多應(yīng)用系統(tǒng)維護的軟件,也只是提供了一種可視化的、集成的、圖形管理的工具,只能相應(yīng)減少應(yīng)用系統(tǒng)維護的工作,并不能真正的解決現(xiàn)階段的問題。
所以,現(xiàn)在的應(yīng)用系統(tǒng)維護已經(jīng)不僅僅是技術(shù)領(lǐng)域的范疇,而是應(yīng)該從一個更高更大的層次上來提供解決方案。即建立一整套應(yīng)用系統(tǒng)維護的體系,真正的從管理的角度來管理系統(tǒng),而不是從技術(shù)上來管理系統(tǒng)。在此稱之為應(yīng)用系統(tǒng)維護的解決方案。
3.1 解決方案的核心
解決方案的核心:使系統(tǒng)在可控制的情況下,平穩(wěn)運行盡可能長的時間。
這個也就是應(yīng)用系統(tǒng)維護的根本目的??梢苑譃閮蓚€部分來看
3.1.1 使系統(tǒng)在可控制的情況中
首先,系統(tǒng)需要處于可控制的情況中,這個是指應(yīng)用系統(tǒng)維護人員應(yīng)處于能對設(shè)備進行操作、管理的情況中;因為現(xiàn)在由于網(wǎng)絡(luò)十分發(fā)達(dá),機房往往位于不同的地方,應(yīng)用系統(tǒng)維護員也可能只在遠(yuǎn)程操控;而一旦設(shè)備當(dāng)機,無法啟動,或者由于網(wǎng)絡(luò)問題管理員無法連接到設(shè)備,那么技術(shù)再高的人也沒有辦法了。所以,必須確保管理人員能連接上設(shè)備,或者通過虛擬設(shè)備漂移等技術(shù)手段,實現(xiàn)設(shè)備容災(zāi)冗余。
3.1.2 平穩(wěn)運行盡可能長的時間
對于系統(tǒng)來說,經(jīng)常有升級補丁等需要,那么作為應(yīng)用系統(tǒng)維護員是否需要經(jīng)常安裝這些呢?為了確保系統(tǒng)能正常安全,首先考慮的應(yīng)該是系統(tǒng)穩(wěn)定。因為安裝補丁程序,本身就是一項增加風(fēng)險的操作。所以,平穩(wěn)是先決條件,新形成的系統(tǒng)都是不平穩(wěn)的,只有經(jīng)過時間考驗的,才能認(rèn)為是平穩(wěn)的。因此對于核心部分的設(shè)備,補丁升級一定需要兼顧系統(tǒng)穩(wěn)定性及系統(tǒng)安全性。
3.2 解決方案的規(guī)則
有了核心之后,需要制定一個整體的規(guī)則,以可以稱之為步驟,來確保核心的實現(xiàn),這里稱之為解決方案的規(guī)則。主要有三個:
3.2.1 用數(shù)據(jù)找出缺陷
首先,需要先確定一個概念:缺陷是指存在于系統(tǒng)中,未被發(fā)現(xiàn)的,可能造成故障或災(zāi)難的地方。好的應(yīng)用系統(tǒng)維護員可以依靠自己的經(jīng)驗,找出系統(tǒng)中存在的缺陷,但是,正如前面所說的,如果是對于不同的系統(tǒng),那么技術(shù)再高的應(yīng)用系統(tǒng)維護員也往往束手無策。
所以,應(yīng)該通過數(shù)據(jù)積累,從數(shù)據(jù)上的增長趨勢和不正常的變化,來找出潛在的缺陷。首先,對需要監(jiān)控的系統(tǒng),實行定點定時的數(shù)據(jù)采集、性能采集,然后根據(jù)得到的數(shù)據(jù),建立系統(tǒng)的基準(zhǔn)線;然后根據(jù)基準(zhǔn)線的趨勢,預(yù)測今后可能發(fā)生的上限、下限和峰值。當(dāng)某時刻的數(shù)據(jù)發(fā)生了突變,就預(yù)示著缺陷的存在和發(fā)生。如下圖所示:
12日的CPU使用率接近峰值,有可能造成系統(tǒng)崩潰。這樣,管理員就需要察看當(dāng)日的系統(tǒng)上運行了什么軟件或應(yīng)用,有什么人員登陸,然后分析得出造成該現(xiàn)象的具體原因;那在以后進行同樣操作的時候,就可以事先預(yù)知系統(tǒng)的承載能力,而將其它的事務(wù)(如ORACLE數(shù)據(jù)庫的導(dǎo)出備份等)分派到其他的時段,以避免CPU的超負(fù)載。
當(dāng)數(shù)據(jù)積累到了一定的程度,基準(zhǔn)線和上、下限也得到了比較正確的數(shù)值的時候,應(yīng)用系統(tǒng)維護員就能將各階段、各日期、格時段的風(fēng)險值以散列圖的方式展現(xiàn)出來,這樣就能在高風(fēng)險的時候更多的注意需要照顧的系統(tǒng)。
比如在月初或月末,由于系統(tǒng)需要出帳,系統(tǒng)的風(fēng)險值就會明顯上升,在這段時間內(nèi),管理員對系統(tǒng)需要進行全面的監(jiān)控。也許這不是一個最好的辦法,隨著時間的積累,數(shù)據(jù)的精確性會不斷的上升,而應(yīng)用系統(tǒng)維護所需的穩(wěn)定性也會隨之上升。
另一個優(yōu)勢在于,一個新上任的應(yīng)用系統(tǒng)維護員可以在很短的時間內(nèi),了解一個新系統(tǒng)的基本運行情況、需要關(guān)注的時間段以及需要特別注意的某個操作。
3.2.2 用制度防范風(fēng)險
作為規(guī)則的第一步,通過數(shù)據(jù)的收集、分類、整理,應(yīng)用系統(tǒng)維護就面臨著如何運用這些數(shù)據(jù),如何通過建立完善的制度來將存在的風(fēng)險轉(zhuǎn)移出去。
正如前面所說的,應(yīng)用系統(tǒng)維護是一項需要時間培養(yǎng)的工作,但是通過制度的制定,可以讓應(yīng)用系統(tǒng)維護人員的培養(yǎng)變得有章可循,也可以讓應(yīng)用系統(tǒng)維護工作真正做到具體化、細(xì)致化。
如上圖顯示:
原應(yīng)用系統(tǒng)維護,主要取決于個人的技術(shù)和操作,這樣就會導(dǎo)致每個應(yīng)用系統(tǒng)維護員都有自己的一套應(yīng)用系統(tǒng)維護方法,當(dāng)發(fā)生人員、技術(shù)甚至系統(tǒng)發(fā)生變化的時候,就可能導(dǎo)致在管理工作的延續(xù)上發(fā)生斷層,與此同時的系統(tǒng)的平穩(wěn)性也受到威脅。
而解決方案,則是采用通過數(shù)據(jù)—〉制度—〉系統(tǒng),不同的應(yīng)用系統(tǒng)維護人員可以通過不同的方法、經(jīng)驗采集數(shù)據(jù),但必須通過建立制度來對系統(tǒng)進行管理,這樣就可以避免人員的變動造成管理的混亂,因為新任的管理人員可以按部就班的根據(jù)以往的制度來繼續(xù)原先的管理步驟;然后根據(jù)自己的經(jīng)驗,對數(shù)據(jù)的收集方式、收集量進行調(diào)整,然后優(yōu)化制度;最后通過優(yōu)化后的制度來管理系統(tǒng),以便提供更全面的數(shù)據(jù)。
這樣就形成了一個封閉的循環(huán),可以不斷的改善應(yīng)用系統(tǒng)維護的方式方法和制度,并令系統(tǒng)的平穩(wěn)狀況得到更好的保證。
3.2.3 用技術(shù)解決故障
根據(jù)前兩步的操作,應(yīng)用系統(tǒng)維護人員已經(jīng)建立了可以不斷完善的體制來預(yù)防、分解存在的缺陷風(fēng)險;但是,對于突發(fā)故障(比如,掉電造成的系統(tǒng)當(dāng)機、文件系統(tǒng)的負(fù)載過高、人為操作的失誤等)的發(fā)生,應(yīng)用系統(tǒng)維護面對的就不僅僅是靠制度能解決的問題了,這是就需要依賴技術(shù)層面來解決問題;當(dāng)遇到無法解決的問題時,可以提供進一步的咨詢方案,并實施保護數(shù)據(jù)的措施,將損失、停機時間控制在最小的范圍之內(nèi)。
綜上所述,經(jīng)過三個步驟:用數(shù)據(jù)找出缺陷、用制度防范風(fēng)險、用技術(shù)解決故障;這樣就能形成一個應(yīng)用系統(tǒng)維護步驟的封閉環(huán)。
3.3 解決方案的具體操作建議
經(jīng)過上面兩部分關(guān)于解決方案的核心和規(guī)則的討論,已經(jīng)有了一個相對較為清晰的管理模式,或者稱為解決方案,就如一棟大廈的主體結(jié)構(gòu),已經(jīng)初步呈現(xiàn)。下面討論得如何運用這核心、規(guī)則,建立起一套真正的制度,對應(yīng)用系統(tǒng)維護進行可操作的應(yīng)用。也就是從細(xì)微處著手,給大廈進行裝修,使之成為可以生活、生產(chǎn)的地方。
3.3.1 用數(shù)據(jù)找出缺陷
缺陷采集主要通過三個方面來實現(xiàn),即性能收集、故障收集和數(shù)據(jù)收集;
性能收集方面,首先,在各類應(yīng)用上,各個應(yīng)用時間點和各類硬件設(shè)備上,對cpu、memory、文件系統(tǒng)、輸入輸出和進程等性能方面的數(shù)據(jù)進行收集。
其次,當(dāng)發(fā)生故障的時候同樣收集各類數(shù)據(jù)形成故障報表;
最后,通過性能報表、故障報表生成相應(yīng)的數(shù)據(jù)庫,形成圖形的數(shù)據(jù)報表;
3.3.2 用制度防范風(fēng)險
(1)必須給所有的系統(tǒng)劃分等級,有限的精力不可能平均的分配到所有的設(shè)備上,所以只有給系統(tǒng)劃分等級之后,合理分配應(yīng)用系統(tǒng)維護人員的時間和精力;
(2)根據(jù)分級定期收集察看系統(tǒng)日志;系統(tǒng)日志的重要性是不可忽視的;一般的系統(tǒng)告警,都會在系統(tǒng)日志重有所表現(xiàn);對于日志的收集也能為系統(tǒng)以后的診斷提供幫助;
(3)根據(jù)分級定期備份系統(tǒng)級重要文件;當(dāng)系統(tǒng)發(fā)生不可預(yù)見的問題之后,這些重要文件的存檔,可以幫助應(yīng)用系統(tǒng)維護縮短系統(tǒng)故障的時間;
(4)登陸用戶分級并各自進行記錄;
(5)日常操作必須規(guī)范,管理員的每個操作都應(yīng)該進行日志記錄;
(6)風(fēng)險管理;進行對系統(tǒng)可能產(chǎn)生重大影響的操作之前,可以通過系統(tǒng)全鏡像并單獨隔離的方法來實現(xiàn)對現(xiàn)有系統(tǒng)的存檔;當(dāng)操作的結(jié)果穩(wěn)定之后,再回復(fù)同步鏡像;對于長期的風(fēng)險,可以通過風(fēng)險累計的方式,令各系統(tǒng)的風(fēng)險值根據(jù)不同的應(yīng)用、運行時間而不斷變化,然后按風(fēng)險值進行從高到低的排序,排列出風(fēng)險值最高的一個或幾個系統(tǒng),對風(fēng)險清單設(shè)備加強監(jiān)控;通過故障表的統(tǒng)計,得出何鐘應(yīng)用的系統(tǒng)在風(fēng)險值為多大的時候可能引發(fā)缺陷,從而得出具體峰下那閥值,便于監(jiān)控那些風(fēng)險值高于閥值的那些系統(tǒng);
3.3.3 用技術(shù)解決故障
(1)應(yīng)用系統(tǒng)維護人員對于不同的故障應(yīng)采取不同的措施;對于那些小故障,應(yīng)用系統(tǒng)維護員應(yīng)該有能力去解決,對于諸如硬件等重大故障,應(yīng)用系統(tǒng)維護員應(yīng)該快速定位故障信息,并實施保護數(shù)據(jù)等措施;
(2)知識庫、經(jīng)驗庫、技術(shù)文檔、技術(shù)論壇共享,電話支持
(3)實驗環(huán)境的組建
(4)人員培訓(xùn)
4 應(yīng)用系統(tǒng)維護解決方案圖示
5 結(jié)論部分
對于大量的系統(tǒng)需要管理時,就應(yīng)該通過建立科學(xué)的體制來進行管理,通過對于數(shù)據(jù)的采集來進行優(yōu)化已有的制度,運用技術(shù)來解決已發(fā)生的故障;通過類似方法論的方式,從理論的角度令管理人員理解如何解決問題,而不是單從技術(shù)角度進行維護管理。
【參考文獻(xiàn)】
[1]張巨儉,甘仞初.管理信息系統(tǒng)的發(fā)展方向及實現(xiàn)技術(shù)[J].計算機應(yīng)用研究,2003,1.
[2]穆緒濤,穆建華,鄒微,孫志紅.管理信息系統(tǒng)的作用及應(yīng)用[J].現(xiàn)代情報,2005,10.