周 娜1) 李永紅2)
?
基于ITIL的地震數(shù)據(jù)庫運行維護體系的研究與設(shè)計
周 娜李永紅
1)中國地震臺網(wǎng)中心,北京 100045 2)山東省地震局,濟南 250014
借鑒國際先進的信息技術(shù)基礎(chǔ)架構(gòu)庫(ITIL)運行維護管理方法論,針對地震行業(yè)Oracle數(shù)據(jù)庫的維護現(xiàn)狀和存在的問題,結(jié)合地震數(shù)據(jù)庫的維護管理實際需要,從運行維護組織架構(gòu)、流程制度規(guī)范和運行維護管理框架三個方面,論述了如何構(gòu)建地震數(shù)據(jù)庫運行維護體系。對加強地震數(shù)據(jù)庫運行維護管理,提高運行維護效率,改善運行維護質(zhì)量具有一定的參考和借鑒價值。
地震 數(shù)據(jù)庫 運行維護體系 ITIL
隨著“十五”中國數(shù)字地震觀測網(wǎng)絡(luò)項目的建設(shè)完成,地震行業(yè)在國家中心、41個區(qū)域中心、33個應(yīng)急中心、300個縣節(jié)點、300個臺站部署完成了Oracle數(shù)據(jù)庫系統(tǒng),其中雙機系統(tǒng)79套,單機系統(tǒng)600套,以支撐測震、前兆、應(yīng)急、信息和日常辦公等多業(yè)務(wù)的運行。幾年來,隨著數(shù)據(jù)庫系統(tǒng)的部署運行,在運行維護中出現(xiàn)過很多問題,主要體現(xiàn)在運行維護體系中的三個要素,即人員、組織流程規(guī)范和技術(shù)支撐平臺三方面的不足。為此,急需建立先進的運行維護管理體系,實現(xiàn)主動積極的運行維護管理,確保數(shù)據(jù)庫系統(tǒng)安全、可靠、穩(wěn)定運行。地震行業(yè)Oracle數(shù)據(jù)庫作為重要的IT資源,可借助ITIL運行維護管理方法論的服務(wù)支持模塊,針對目前的現(xiàn)狀和存在的問題,建立適合地震行業(yè)數(shù)據(jù)庫運行維護管理體系,實現(xiàn)“主動運行維護、業(yè)務(wù)不中斷、數(shù)據(jù)不丟失”的運行維護目標。
1.1 ITIL技術(shù)及應(yīng)用
IT基礎(chǔ)設(shè)施技術(shù)架構(gòu)庫(ITIL)是一種運行維護管理方法論,可以有效地提高IT資源的利用率和服務(wù)質(zhì)量,指導(dǎo)政府或企業(yè)高效、經(jīng)濟地運營信息化設(shè)備和系統(tǒng)等IT資源。主體框架主要包含6個模塊:服務(wù)管理、業(yè)務(wù)管理、IT基礎(chǔ)架構(gòu)管理、IT服務(wù)管理規(guī)劃與實施、應(yīng)用管理和安全管理,ITIL框架如圖1所示。主體框架的核心是服務(wù)管理,包含兩部分:服務(wù)支持和服務(wù)提供。其中,服務(wù)支持主要規(guī)范日常工作中對各種場景的處理方法,面向終端用戶,歸納了與IT管理相關(guān)的5個運作層次的流程,即:事件管理、問題管理、變更管理、配置管理和發(fā)布管理。
ITIL在20世紀90年代后期,被相關(guān)企業(yè)引入中國。在企業(yè)研究組織的推動下,越來越多的中國企業(yè)開始用ITIL管理自己的IT服務(wù)。如:中國銀行在2000年引入ITIL框架模型;中國工商銀行在2004年引入ITIL模型建立運維系統(tǒng);交通銀行在2007年開始進行基于ITIL的流程再造(安鋒等,2010)。中國石油西南油氣田信息系統(tǒng)從運行維護組織架構(gòu)、流程制度規(guī)范、技術(shù)支撐平臺3個層面出發(fā),成功建立了該油氣田信息系統(tǒng)的運行維護體系,經(jīng)過建設(shè)和應(yīng)用,西南油氣田信息系統(tǒng)運行維護質(zhì)量與效率明顯提升(蔣曉玲等,2012)。廣州交警結(jié)合ITIL,從制度、規(guī)范、組織、流程、表單和管理工具軟件等方面入手,建立了完整的運行維護管理體系(傅貴等,2007)。清華大學(xué)結(jié)合ITIL構(gòu)建了由運行維護服務(wù)管理、規(guī)章制度與規(guī)范化、運行維護隊伍建設(shè)3部分組成的運行維護服務(wù)體系(戚麗等,2008)。
1.2 地震行業(yè)Oracle數(shù)據(jù)庫運行維護存在的問題
目前,Oracle數(shù)據(jù)庫系統(tǒng)部署在國家中心、41個區(qū)域中心、33個應(yīng)急中心、300個縣節(jié)點、300個臺站,其中雙機系統(tǒng)79套,單機系統(tǒng)600套。支撐行業(yè)數(shù)據(jù)庫運行的硬件平臺多樣,具體表現(xiàn)為:①數(shù)據(jù)庫系統(tǒng)的部署環(huán)境多樣復(fù)雜;②數(shù)據(jù)庫系統(tǒng)的技術(shù)結(jié)構(gòu)復(fù)雜,管理難度高;③數(shù)據(jù)庫系統(tǒng)地域較分散;④系統(tǒng)管理分散。隨著數(shù)據(jù)庫系統(tǒng)運行周期越來越長,數(shù)據(jù)庫運行維護凸顯出越來越多的問題,主要表現(xiàn)在以下幾個方面。
(1)被動的運行維護工作模式。數(shù)據(jù)庫運行維護人員一般被動地等待問題或故障的發(fā)生,故障發(fā)生后忙于進行緊急處理,導(dǎo)致運行維護質(zhì)量不高,甚至影響正常的業(yè)務(wù)運行。
(2)缺乏統(tǒng)一的監(jiān)督和管理。數(shù)據(jù)庫運行維護過程中,對處理過的各種問題或故障,缺乏統(tǒng)一的記錄和分類,無法跟蹤和監(jiān)控問題的處理情況,難以對已發(fā)生的問題進行分析,從而采取措施避免同類問題的再次發(fā)生。
(3)缺乏運行維護經(jīng)驗和知識的共享與積累。數(shù)據(jù)庫運行維護中故障與問題的處理記錄往往保存在當?shù)貐^(qū)域的運行維護人員手中,或者故障與問題處理沒有記錄存檔,相關(guān)經(jīng)驗難以積累和共享。此外,運行維護人員因崗位調(diào)整或離職等原因,運行維護知識無法轉(zhuǎn)移到新的運行維護人員手中。
(4)缺少量化的績效考核指標。在運行維護工作中沒有建立量化的考核指標,運行維護人員的工作績效在很大程度上依賴于負責人對其的主觀印象,無法準確考核運行維護人員的績效,使得運行維護人員的積極性得不到提高。
(5)數(shù)據(jù)庫管理和維護缺乏科學(xué)依據(jù)。缺乏一套有效的數(shù)據(jù)庫監(jiān)控系統(tǒng)對數(shù)據(jù)庫運行狀態(tài)的各關(guān)鍵指標信息進行數(shù)據(jù)搜集和統(tǒng)計,完成如日常性能監(jiān)控、每月性能評估、數(shù)據(jù)庫審計等人工工作量大,難以完成的工作,將數(shù)據(jù)庫隱患消滅在萌芽狀態(tài)(秦士兵,2012)。
地震行業(yè)Oracle數(shù)據(jù)庫系統(tǒng)支撐了測震、前兆、信息、應(yīng)急、日常辦公等多種應(yīng)用,成為地震業(yè)務(wù)、政務(wù)系統(tǒng)運行的基礎(chǔ)保障,數(shù)據(jù)庫系統(tǒng)運行水平直接決定了業(yè)務(wù)系統(tǒng)運行質(zhì)量。如何建立一套行之有效的數(shù)據(jù)庫運行維護管理體系,改變原有的方式,變被動服務(wù)為主動服務(wù),已經(jīng)成為地震行業(yè)數(shù)據(jù)庫建設(shè)中需要高度關(guān)注的課題。作為IT服務(wù)管理的最佳實踐ITIL,將P(process,流程)、P(people,人員)、T(technology,技術(shù))作為IT運行維護管理體系建設(shè)中的三要素(李淑娟等,2008)。地震行業(yè)數(shù)據(jù)庫運行維護可參考三要素的原則,結(jié)合地震行業(yè)數(shù)據(jù)庫的實際狀況,構(gòu)建地震行業(yè)的數(shù)據(jù)庫運行維護體系,以提升數(shù)據(jù)庫運行維護水平,規(guī)避數(shù)據(jù)庫故障風險。
2.1 運行維護組織架構(gòu)
目前地震行業(yè)各區(qū)域數(shù)據(jù)庫系統(tǒng)自行管理維護,在各區(qū)域內(nèi)部,還按照應(yīng)用進行劃分來實施數(shù)據(jù)庫管理,這就導(dǎo)致了數(shù)據(jù)庫運行維護缺乏統(tǒng)一管理和監(jiān)督,甚至缺乏運行維護經(jīng)驗和知識的積累與共享。根據(jù)目前數(shù)據(jù)庫運行維護組織結(jié)構(gòu)存在的問題,結(jié)合地震行業(yè)的實際情況,可組建以數(shù)據(jù)庫系統(tǒng)運行維護組為核心的三級運行維護組織結(jié)構(gòu),具體如圖2所示。
將權(quán)力和責任向最熟悉系統(tǒng)的一線運行維護組傾斜。運行維護小組設(shè)組長,實施組長負責制。實施從硬件系統(tǒng)、操作系統(tǒng)、數(shù)據(jù)庫、存儲系統(tǒng)的全系統(tǒng)維護,小組由系統(tǒng)管理員、數(shù)據(jù)庫管理員(兼組長)、存儲系統(tǒng)管理員等構(gòu)成。這種架構(gòu)能在不改變現(xiàn)有行政組織架構(gòu)的前提下使運行維護的組織更加靈活,工作職責和工作界面更加清晰。
2.2 流程制度規(guī)范
完善的規(guī)章制度與流程規(guī)范是數(shù)據(jù)庫運行維護有條不紊進行的保障。數(shù)據(jù)庫運行維護制度和規(guī)范建議包含幾方面內(nèi)容:管理條例、工作規(guī)范、運行維護檔案、技術(shù)文檔以及數(shù)據(jù)庫開發(fā)指南。
(1)工作規(guī)范。是指對運行維護中一些重復(fù)性的工作,根據(jù)技術(shù)要求以及工作經(jīng)驗制定的工作順序以及工作要求的文檔。運行維護小組成員在工作中必須遵守,以確?;镜倪\行維護水平。
(2)運行維護檔案。運行維護小組成員將運行維護工作中遇到的問題進行歸納整理,把經(jīng)過實踐證明正確的、成熟的解決方案歸檔,為以后類似問題的解決提供共享和經(jīng)驗積累。
(3)技術(shù)文檔。用于運行維護小組進行相應(yīng)處理或操作時的技術(shù)文檔參考。例如“數(shù)據(jù)庫日常維護手冊”、“操作系統(tǒng)日常維護使用手冊”、“磁盤陣列系統(tǒng)管理員使用手冊”、“用戶服務(wù)管理流程”等。
(4)數(shù)據(jù)庫開發(fā)使用指南。是指導(dǎo)數(shù)據(jù)庫用戶開發(fā)使用應(yīng)用系統(tǒng)的操作指南和常見問題的建議。
2.3 運行維護技術(shù)體系
在完善運行維護規(guī)章制度與工作規(guī)范的同時,為了提高運行維護的精細化、自動化水平,強化流程制度規(guī)范執(zhí)行的強制性和規(guī)范性,本文以ITIL運行維護管理流程方法論為基礎(chǔ)建立了運行維護技術(shù)體系,具體如圖3所示。運行維護技術(shù)體系主要分為4個部分:運行維護管理平臺、數(shù)據(jù)管理平臺、運行維護支撐平臺、數(shù)據(jù)庫監(jiān)控平臺。
2.3.1 運維管理平臺
為了規(guī)范日常工作中對地震數(shù)據(jù)庫運行中出現(xiàn)的各種問題的處理方法,參照標準ITIL的服務(wù)支持流程部分,主要包括服務(wù)臺和相關(guān)的5個運作層次的流程,即:事件管理、問題管理、變更管理、配置管理和發(fā)布管理,結(jié)合流程管理規(guī)范,開展運行維護管理平臺的建設(shè)。運行維護管理平臺實現(xiàn)運行維護管理的主要流程和管理職能,在實現(xiàn)過程中將流程管理規(guī)范納入,并結(jié)合到運行維護管理平臺的各個模塊中。
(1)服務(wù)臺。服務(wù)臺是數(shù)據(jù)庫系統(tǒng)最終用戶與運行維護小組的聯(lián)絡(luò)點和報障臺,也是運行維護小組掌握系統(tǒng)運行情況,進行故障處理等維護工作的平臺。服務(wù)臺的最大任務(wù)就是登記報障記錄、指揮維護人員執(zhí)行維護流程、監(jiān)督維護過程以及綜合協(xié)調(diào)解決維護中出現(xiàn)的各種突發(fā)問題。
(2)故障管理。迅速回應(yīng)與數(shù)據(jù)庫有關(guān)的故障,盡快恢復(fù),使之正常運行。
(3)問題管理。問題管理就是要主動預(yù)防數(shù)據(jù)庫故障的發(fā)生,可稱之為預(yù)防性維護。數(shù)據(jù)庫應(yīng)用和基礎(chǔ)架構(gòu)建設(shè)中識別到的任何問題,都必須在問題管理中得以記錄。實際上,可以通過以下兩種途徑啟動問題管理流程:一種是通過故障統(tǒng)計分析,發(fā)現(xiàn)常見故障,然后歸結(jié)為“問題”,啟動問題管理流程;另一種是通過建立系統(tǒng)巡檢制度,主動發(fā)現(xiàn)“問題”,在“問題”尚未形成“故障”前解決。問題管理中識別的問題,通過觸發(fā)變更管理得以解決。
(4)變更管理。記錄與數(shù)據(jù)庫有關(guān)的變更。如:硬件系統(tǒng)的變化、體系結(jié)構(gòu)的變化、數(shù)據(jù)庫業(yè)務(wù)的細節(jié)變化等,都必須遵循變更管理流程。通過變更管理,能夠?qū)ψ兏M行影響評估,確保變更對正在運行的業(yè)務(wù)應(yīng)用產(chǎn)生最小的負面影響,同時通過變更審批流程進行溝通和協(xié)調(diào),確保有關(guān)人員都知道這個變更以及所帶來的影響,保證變更具有可追溯性。變更管理觸發(fā)配置管理,使得配置管理將其變化更新到配置管理數(shù)據(jù)庫中。
(5)配置管理。配置管理主要詳細記錄數(shù)據(jù)庫應(yīng)用和基礎(chǔ)體系結(jié)構(gòu)中的各種軟硬件信息,供其它流程使用。這些配置管理信息包括:數(shù)據(jù)庫服務(wù)器的詳細配置信息(品牌、型號、配置)、數(shù)據(jù)庫的詳細配置信息(版本、存儲系統(tǒng)為之分配的存儲資源、體系結(jié)構(gòu)中的關(guān)鍵點信息、業(yè)務(wù)應(yīng)用、業(yè)務(wù)應(yīng)用負責人、運行維護負責人、放置位置、聯(lián)系電話、供應(yīng)商、保修期限、供應(yīng)商維修電話)等,而且也不限于這些信息。記錄完整的信息將其存放到配置管理數(shù)據(jù)庫(CMDB)中。
2.3.2 數(shù)據(jù)管理平臺
數(shù)據(jù)管理平臺的數(shù)據(jù)主要來源于運行維護管理平臺,是存儲和管理數(shù)據(jù)庫運行維護的相關(guān)數(shù)據(jù),主要包括:運行維護知識庫、配置數(shù)據(jù)庫、事件問題庫和監(jiān)控數(shù)據(jù)庫。
(1)運行維護知識庫。將數(shù)據(jù)庫運行維護中每次的事件、故障或者問題解決過程中所獲得的成熟的解決方案記錄到知識庫中。當再次遇到類似問題時,可依據(jù)此歷史解決方案和建議進行處理,達到知識經(jīng)驗共享和快速解決問題的目的。
(2)配置數(shù)據(jù)庫。詳細記錄了與數(shù)據(jù)庫有關(guān)的軟硬件的配置信息以及相互的關(guān)聯(lián)關(guān)系,通過配置管理庫,真實地反應(yīng)了數(shù)據(jù)庫應(yīng)用和基礎(chǔ)架構(gòu)的配置情況,為事故管理、問題管理、變更管理和發(fā)布管理的運作提供支持。
(3)事件問題庫。記錄故障和問題的詳細信息,包括處理的交互過程、詳細的解決方案以及相應(yīng)的附件等,從而實現(xiàn)對故障和問題的跟蹤和監(jiān)督,并出具相關(guān)的統(tǒng)計報表,使運行維護小組可以按照不同的維度,對故障和問題進行統(tǒng)計分析。
(4)監(jiān)控數(shù)據(jù)庫。將底層數(shù)據(jù)庫監(jiān)控管理平臺中采集到的各類監(jiān)控指標信息統(tǒng)一記錄到監(jiān)控數(shù)據(jù)庫中,并設(shè)置相應(yīng)的報警閾值,當性能超過閾值時,通過短信方式通知相關(guān)的數(shù)據(jù)庫運行維護負責人。
2.3.3 運維支撐平臺
運行維護支撐平臺用于支撐運行維護管理平臺中的各種活動。如:通過工作流來實現(xiàn)運行維護流程的自動化處理;通過報表引擎來設(shè)計各種主題報表;通過日志管理來記錄系統(tǒng)中所發(fā)生的所有行為;通過權(quán)限管理來為用戶分配不同的權(quán)限(周旻等,2012)。
2.3.4 數(shù)據(jù)庫監(jiān)控平臺
建立一個集中的數(shù)據(jù)庫監(jiān)控平臺,從被監(jiān)控的數(shù)據(jù)庫中采集各類指標監(jiān)控信息,在大量各類監(jiān)控指標信息的歷史數(shù)據(jù)基礎(chǔ)上,對被監(jiān)控的數(shù)據(jù)庫運行狀態(tài)進行統(tǒng)計分析,從而判斷被監(jiān)控數(shù)據(jù)庫的運行狀態(tài),實現(xiàn)數(shù)據(jù)庫日常監(jiān)控、性能評估、數(shù)據(jù)庫審計、統(tǒng)計分析等功能(秦士兵,2012)。當監(jiān)控指標信息超過閾值時,系統(tǒng)將自動在運行維護管理平臺中創(chuàng)建一個事件,詳細記錄報警信息,并通過短信形式通知相應(yīng)的數(shù)據(jù)庫負責人和數(shù)據(jù)庫運行維護人員,改變以往被動服務(wù)的局面,提高系統(tǒng)無故障運行時間。
本文首先簡要地對ITIL運行維護管理方法論進行了介紹,然后引出對地震數(shù)據(jù)庫的運行維護現(xiàn)狀和存在問題的調(diào)研和分析,最后結(jié)合地震行業(yè)數(shù)據(jù)庫運行維護的實際需求,提出地震數(shù)據(jù)庫運行維護體系,為地震數(shù)據(jù)庫運行維護的加強,提高運行維護質(zhì)量和效率提供了一定的借鑒和參考。
安鋒,吳華暉,2010.ITIL在農(nóng)村信用社運維管理中的應(yīng)用.華南金融電腦,11:92—93.
傅貴,胡少鵬,周敏,吳毅能,2007.如何實施基于ITIL的IT運維服務(wù)管理——廣州交警IT運維服務(wù)管理實踐.廣東科技,167:49—50.
蔣曉玲,林鐘靈,2012.基于ITIL的油氣田信息系統(tǒng)運行維護體系的構(gòu)建——以中國石油西南油氣田為例.天然氣工業(yè),32(S1):162—164.
李淑娟,趙澤宇,宓詠,2008.信息化校園應(yīng)用的運維監(jiān)控保障研究. 實驗技術(shù)與管理,25(8):11—14.
戚麗,蔣東興,袁芳,沈立強,吳海燕,2008.高校運維服務(wù)體系的研究和實踐.實驗技術(shù)與管理,25(7):2.
秦士兵,2012.電力企業(yè)信息系統(tǒng)中Oracle數(shù)據(jù)庫運維管理.中國新技術(shù)新產(chǎn)品,21:41—42.
周旻,陳之華,2012.基于ITIL運維服務(wù)管理體系的研究與設(shè)計.信息安全與技術(shù),5:8—9.
The ITIL Based System of Seismic Database Operation and Maintenance
Zhou Naand Li Yonghong
1) China Earthquake Networks Center, Beijing 100045, China 2) Earthquake Administration of Shandong Province, Jinan 250014, China
Reference to international advanced Information Technology Infrastructure Library (ITIL) operation management methodology, with consideration of the actual needs for seismic database maintenance management, we developed a seismic database operation and maintenance system. Three important aspects regarding the system are discussed in this paper, including tissue architecture, process rules and norms, and the management framework of operation and maintenance.
Earthquake; Database; Maintenance system; ITIL
中國地震臺網(wǎng)中心青年基金項目資助
2013-06-31
周娜,女,生于1978年。中國地震臺網(wǎng)中心信息網(wǎng)絡(luò)部工程師。主要從事計算機網(wǎng)絡(luò)維護、數(shù)據(jù)庫管理等方面的工作。E-mail:zhouna@seis.ac.cn
周娜,李永紅,2014.基于ITIL的地震數(shù)據(jù)庫運行維護體系的研究與設(shè)計. 震災(zāi)防御技術(shù),9(2):317—323.