余志誠
(海南核電有限公司 海口)
IT運(yùn)維管理,是指單位 IT部門采用相關(guān)的方法、手段、技術(shù)、制度、流程和文檔等,對(duì)IT運(yùn)行環(huán)境(如硬軟件環(huán)境、網(wǎng)絡(luò)環(huán)境等)、IT業(yè)務(wù)系統(tǒng)和 IT運(yùn)維人員進(jìn)行的綜合管理。IT運(yùn)維既是一種管理,也是一種服務(wù)。隨著海南核電信息化建設(shè)的不斷深入和完善,計(jì)算機(jī)硬軟件系統(tǒng)的運(yùn)行維護(hù)已經(jīng)成為IT部門普遍關(guān)注的問題。海南核電由成立初期的5臺(tái)服務(wù)器,8臺(tái)交換機(jī),只有5、6種應(yīng)用到如今的60余臺(tái)服務(wù)器、近80余臺(tái)網(wǎng)絡(luò)交換機(jī)、4臺(tái)安全設(shè)備應(yīng)用,IT運(yùn)維工作已經(jīng)成為企業(yè)重點(diǎn)工作之一。同時(shí),隨著IT人員的不斷增加,如何將零散的、救火式的IT運(yùn)維工作,利用現(xiàn)有資源,變成流程化、有序、有案可查、知識(shí)積累的運(yùn)維方式,作為海南核電IT部門一個(gè)重點(diǎn)課題進(jìn)行研究與討論,并加以實(shí)施到日常工作中去。
海南核電成立初期,由于IT基礎(chǔ)設(shè)施規(guī)模較小、應(yīng)用不多、IT人員缺乏,IT部門作為一個(gè)技術(shù)支持部門,常常扮演"救火隊(duì)"的角色,運(yùn)維人員的工作非常被動(dòng)。例如,隨著IT規(guī)模的不斷擴(kuò)大,運(yùn)維人員的多數(shù)時(shí)間和精力都是在處理著重復(fù)性問題,無法專注于其核心業(yè)務(wù)的開展。不僅IT運(yùn)維效率低下,而且工作質(zhì)量不高。
(1)缺乏記錄,報(bào)告難以匯總與查詢。運(yùn)維人員大多未養(yǎng)成記錄習(xí)慣,每天、每周和每月匯總報(bào)告時(shí),對(duì)自己的工作量、所維護(hù)系統(tǒng)的整體情況,均不能清晰地表達(dá)。
(2)工作職責(zé)不明確。運(yùn)維人員對(duì)所轄的維護(hù)職責(zé)并不十分清楚,只知道大概應(yīng)該做什么,但是具體到某個(gè)事情時(shí),到底該由誰負(fù)責(zé),怎么負(fù)責(zé)卻沒有明細(xì)的定位。
(3)缺乏運(yùn)維知識(shí)管理。因?yàn)槿狈τ行У闹R(shí)積累和共享,造成操作維護(hù)效率低下。不僅使類似的故障和問題仍然在不斷發(fā)生,也因某些掌握關(guān)鍵信息和技能人員的調(diào)動(dòng),而使日常維護(hù)工作陷入癱瘓。
(4)工作績效難以量化考核。由于缺乏對(duì)運(yùn)維人員工作績效的考核依據(jù),無法對(duì)他們到底做了哪些事情,工作質(zhì)量如何,都無從考證。
(5)無序的“救火式”IT管理維護(hù)模式,使運(yùn)維人員幾乎很少能準(zhǔn)時(shí)下班,多在處理突發(fā)性技術(shù)故障問題。不僅很難有效地進(jìn)行服務(wù)管理,也無法保證IT服務(wù)的有效性和一致性,使IT管理處于無序狀態(tài)。
IT運(yùn)維和IT開發(fā)人員,在對(duì)信息系統(tǒng)進(jìn)行管理時(shí),若抱著各自負(fù)責(zé)的心態(tài),在系統(tǒng)較少或人員較少的情況下,或可十分快速地去完成工作。但也存有諸多隱患,例如,一旦系統(tǒng)增多或人員增多時(shí),若仍然各自負(fù)責(zé),就會(huì)因系統(tǒng)操作未通知他人,致使其他系統(tǒng)停運(yùn);或因隨意的操作導(dǎo)致機(jī)房跳線凌亂,設(shè)備配置凌亂;或因文件存放的散亂,而在清理系統(tǒng)時(shí)誤刪除,造成系統(tǒng)數(shù)據(jù)不可恢復(fù)的丟失;或因系統(tǒng)配置操作記錄缺失,造成系統(tǒng)二次配置時(shí)錯(cuò)誤,甚至無法挽回;或因系統(tǒng)備份文件未標(biāo)記,造成恢復(fù)系統(tǒng)時(shí),無法找到合適的備份等。
“救火式”IT運(yùn)維工作的產(chǎn)生原因,大多為:系統(tǒng)部署時(shí),缺少建設(shè)規(guī)劃,使得分配系統(tǒng)使用的資源較為隨意,后期難以收回;系統(tǒng)交付時(shí),缺少配置文檔,使得運(yùn)維人員按自己的理解去管理系統(tǒng),而不能結(jié)合系統(tǒng)的實(shí)際;系統(tǒng)運(yùn)維時(shí),缺少運(yùn)維規(guī)劃,使得不能很好的去定制系統(tǒng)的運(yùn)維計(jì)劃,致使往往是IT運(yùn)維人員晚于用戶發(fā)現(xiàn)故障;系統(tǒng)故障時(shí),缺少配置環(huán)境參考,不能分析故障原因,或知其原因,不敢下手;系統(tǒng)變更時(shí),缺少變更規(guī)劃,對(duì)其他系統(tǒng)的運(yùn)行帶來不良影響;由于預(yù)警機(jī)制的不完善,對(duì)于問題永遠(yuǎn)都處于后知后覺的狀況,從而導(dǎo)致一系列的惡性連鎖反應(yīng)的發(fā)生。為此,應(yīng)著手梳理好以下工作:
(1)系統(tǒng)建設(shè)環(huán)節(jié)。由IT運(yùn)維人員按IT項(xiàng)目負(fù)責(zé)人的需求,去分析系統(tǒng)所需的資源,并在建設(shè)環(huán)節(jié)全程跟蹤,以指導(dǎo)項(xiàng)目負(fù)責(zé)人去合適地利用資源。
(2)建設(shè)移交至運(yùn)維。由項(xiàng)目管理人員將建設(shè)完成的IT系統(tǒng),移交至運(yùn)維工作人員,運(yùn)維工作人員根據(jù)項(xiàng)目管理人員對(duì)系統(tǒng)的備份要求、管理要求,制定備份計(jì)劃和管理計(jì)劃,并將系統(tǒng)各類資源收錄在案。
(3)運(yùn)維管理環(huán)節(jié)。運(yùn)維人員將系統(tǒng)納入每日的巡檢工作之中,檢查系統(tǒng)的可用性,分析系統(tǒng)的錯(cuò)誤日志;若系統(tǒng)發(fā)生變更,則記錄變更內(nèi)容,并更新系統(tǒng)當(dāng)前的最新配置文案。通過化整為零的方式,梳理出了IT運(yùn)維工作的各個(gè)環(huán)節(jié),并細(xì)化出相關(guān)的工作事項(xiàng)。
在談到IT運(yùn)維/服務(wù)管理時(shí),不得不提到ITIL,即IT基礎(chǔ)架構(gòu)庫(Information Technology Infrastructure Library,ITIL,信息技術(shù)基礎(chǔ)架構(gòu)庫),因?yàn)镮T服務(wù)管理是ITIL框架的核心,是一套協(xié)同流程。 IT服務(wù)管理包含了網(wǎng)絡(luò)管理、系統(tǒng)管理、開發(fā)管理、資產(chǎn)管理、問題管理、配置管理、發(fā)布管理、事件管理、變更管理等諸多管理活動(dòng)和工作流程。
ITIL強(qiáng)調(diào)以客戶為中心,向客戶提供高質(zhì)量、低成本的服務(wù),重視服務(wù)質(zhì)量QoS,通過對(duì)服務(wù)質(zhì)量、服務(wù)可用性、可靠性和服務(wù)成本等方面進(jìn)行評(píng)估來實(shí)現(xiàn)IT服務(wù)管理。它同時(shí)強(qiáng)調(diào)“流程Process”的思想,即建立一套規(guī)章制度來實(shí)施對(duì)服務(wù)的有序化管理。海南核電的IT運(yùn)維工作主要表現(xiàn)在以下2處。
在梳理出運(yùn)維主要工作以后,不僅對(duì)每項(xiàng)工作進(jìn)行了流程再造和設(shè)計(jì),也對(duì)流程上的每個(gè)節(jié)點(diǎn)進(jìn)行了分析,對(duì)應(yīng)之角色。制定的2個(gè)工作流程是新建系統(tǒng)流程和變更流程。
①新建系統(tǒng)流程。主要通過分析項(xiàng)目負(fù)責(zé)人所提出的應(yīng)用系統(tǒng)平臺(tái)運(yùn)行環(huán)境需求,并結(jié)合海南核電信息系統(tǒng)環(huán)境所能提供的資源,在系統(tǒng)搭建前期遞交新建系統(tǒng)的部署方案,通過逐一審批,以認(rèn)可此方案的資源分配是合理的,對(duì)已有系統(tǒng)的影響是有益的,而后方可執(zhí)行部署。在部署完成后,通過新增系統(tǒng)表單,將新增系統(tǒng)的各項(xiàng)資源反饋給運(yùn)維工作人員,從而實(shí)現(xiàn)“建設(shè)移交至運(yùn)維”的過程,并將新增系統(tǒng)合理的內(nèi)容納入運(yùn)維工作中。
②變更流程。著力點(diǎn)是明確變更的原因,并寫出變更的操作預(yù)案,能有預(yù)見性地了解變更所能夠造成的影響,通過審批,以確認(rèn)變更操作是合理、無害的,而后方可執(zhí)行。并將變更事項(xiàng)記錄在案,以確保文案的最新性。
在建立了工作程序,制定了運(yùn)維流程后,如何將流程執(zhí)行起來,則是首要的問題。IT運(yùn)維工作人員利用簡(jiǎn)單的辦法,如利用郵件,實(shí)現(xiàn)IT運(yùn)維流程的編審批過程;利用處室存儲(chǔ)平臺(tái),實(shí)現(xiàn)IT技術(shù)支持文檔(ITSD)和運(yùn)維流程文件產(chǎn)物的存放查詢。主要體現(xiàn)在以下方面:
(1)IT運(yùn)維工作人員將明確的關(guān)鍵字,寫在郵件的主題開頭,從第一封郵件的開始,至最后一封的結(jié)束,保存了運(yùn)維編審批的操作過程。這些關(guān)鍵字是請(qǐng)審批、請(qǐng)批準(zhǔn)、批準(zhǔn)執(zhí)行、請(qǐng)審核、請(qǐng)更新ITSD、完成,以及駁回。
利用這些關(guān)鍵字,所形成的運(yùn)維編審批流轉(zhuǎn)郵件,在過程郵件及最終郵件,都能夠展現(xiàn)流程的執(zhí)行過程,確保了流程的完整性。
(2)IT技術(shù)支持文件是運(yùn)維工作中信息系統(tǒng)的基礎(chǔ)數(shù)據(jù)來源,對(duì)其更新管理是十分重要的。IT運(yùn)維工作人員,經(jīng)過多次分析和改進(jìn),將IT技術(shù)支持文件由原先的各自保留,變成統(tǒng)一存放和維護(hù),并將重復(fù)、凌亂的文件進(jìn)行整合,將缺失的數(shù)據(jù)重新收錄和規(guī)整,按類化分,從而形成可維護(hù)和有效利用的支持文件平臺(tái)。
目前的運(yùn)維方式,由于現(xiàn)有資源的局限性,可能仍處于被動(dòng)運(yùn)維方式中,還應(yīng)不斷地探索適合自身特點(diǎn)的運(yùn)維模式與分工。同時(shí),運(yùn)維人員不能僅停留在設(shè)備層面的維護(hù),應(yīng)加強(qiáng)在業(yè)務(wù)操作中的可塑性、替代性、理解性,使之能夠更加清晰公司的IT業(yè)務(wù)模型,更有針對(duì)性的開展相應(yīng)的工作。要在專注技術(shù)發(fā)展、技術(shù)參數(shù)等信息的同時(shí),及時(shí)了解相關(guān)IT業(yè)務(wù)、應(yīng)用的具體操作模式、部署、操作細(xì)節(jié),以便能為業(yè)務(wù)提供合理的解決方案與意見,且應(yīng)避免運(yùn)維人員與IT開發(fā)人員斷層式溝通,及時(shí)為應(yīng)用業(yè)務(wù)提供合理的IT建議。隨著IT建設(shè)的全面鋪開,對(duì)IT運(yùn)維人員的技術(shù)要求以及系統(tǒng)的安全可靠等要求也越來越高,因此,只有將IT運(yùn)維管理的重要性深入到人們的工作意識(shí)之中,IT運(yùn)維模式才會(huì)越來越優(yōu)化和越來越先進(jìn)。