昆侖銀行信息科技部 許中華
昆侖銀行高度重視信息化建設(shè),近些年特別強(qiáng)化了安全生產(chǎn)工作,加強(qiáng)了IT運(yùn)維管理。昆侖銀行自重組以來(lái),經(jīng)過(guò)5年的信息化建設(shè)與實(shí)踐,逐步走出了獨(dú)具昆侖銀行特色的IT運(yùn)維管理體系建設(shè)之路,保障了全行信息系統(tǒng)的安全穩(wěn)定高效運(yùn)行,系統(tǒng)可用率達(dá)99.99%,為昆侖銀行穩(wěn)健經(jīng)營(yíng)和業(yè)務(wù)發(fā)展提供了高效的運(yùn)行服務(wù)。
ITIL由英國(guó)政府部門CCTA在20世紀(jì)80年代末制訂,現(xiàn)由英國(guó)商務(wù)部OG負(fù)責(zé)管理,主要適用于IT服務(wù)管理(ITSM)。ITIL的核心模塊是“服務(wù)管理”,這個(gè)模塊一共包括了10個(gè)流程和一項(xiàng)職能,這些流程和職能又被歸結(jié)為兩大流程組,即“服務(wù)提供”流程組和“服務(wù)支持”流程組。其中服務(wù)支持流程組包括事故管理、問(wèn)題管理、配置管理、變更管理和發(fā)布管理;服務(wù)提供流程組包括服務(wù)級(jí)別管理、IT服務(wù)財(cái)務(wù)管理、能力管理、IT服務(wù)持續(xù)性管理和可用性管理。
COBIT是信息系統(tǒng)審計(jì)和控制聯(lián)合會(huì)制訂的面向過(guò)程的信息系統(tǒng)審計(jì)和評(píng)價(jià)的標(biāo)準(zhǔn)。對(duì)信息化建設(shè)成果的評(píng)價(jià),如對(duì)最終成果評(píng)價(jià)、對(duì)建設(shè)過(guò)程評(píng)價(jià)、對(duì)系統(tǒng)架構(gòu)評(píng)價(jià)等。COBIT是一個(gè)基于IT治理、面向IT建設(shè)過(guò)程的IT治理實(shí)現(xiàn)指南和審計(jì)標(biāo)準(zhǔn)。
ISO20000是基于ITIL最佳實(shí)踐與BS15000英標(biāo)體系進(jìn)行構(gòu)建的,并由ISO組織發(fā)布的具有國(guó)際權(quán)威性的IT服務(wù)管理體系標(biāo)準(zhǔn)。此套體系秉承“以客戶為中心,以流程為導(dǎo)向”的服務(wù)理念,目的在于幫助企業(yè)或者組織能夠有效的識(shí)別與管理IT服務(wù)管理的關(guān)鍵過(guò)程,保證在滿足客戶與業(yè)務(wù)需求的同時(shí),依照“P-D-C-A”方法論充分發(fā)揮IT服務(wù)持續(xù)改進(jìn)的能力,最終達(dá)到企業(yè)或者組織利益最大化的目的。
ITIL、COBIT、ISO2000這三者之間的相互交叉和相互補(bǔ)充的,它們都是IT管理方法,但各自的側(cè)重點(diǎn)不同。COBIT側(cè)重于IT控制和評(píng)價(jià),對(duì)IT流程和安全方面涉及不多,側(cè)重事后管理;ISO2000主要是關(guān)于安全控制和管理的,側(cè)重事前控制;而ITIL主要針對(duì)的是IT流程,對(duì)安全和系統(tǒng)開(kāi)發(fā)關(guān)注不多,側(cè)重事中控制。
由于昆侖銀行重組時(shí)間短、基礎(chǔ)薄弱、科技人員偏少、IT外包比重較高,大多數(shù)中小商業(yè)銀行,特別是城市商業(yè)銀行在運(yùn)維管理中都不同程度地存在一些問(wèn)題:
運(yùn)維人員少、一人兼多崗、運(yùn)維人員風(fēng)險(xiǎn)意識(shí)參差不齊,部分人在這方面意識(shí)不強(qiáng),運(yùn)維經(jīng)驗(yàn)不足,過(guò)度依賴廠商。
網(wǎng)絡(luò)故障、數(shù)據(jù)庫(kù)表空間滿、MQ中間件通道異常、消息隊(duì)列杜塞、IPC消息隊(duì)列堵塞、應(yīng)用進(jìn)程缺失、WAS宕機(jī)等問(wèn)題都是被動(dòng)發(fā)現(xiàn)。
IT管理成熟度模型如表1。
此種方法從IT服務(wù)管理的必備條件到用戶使用界面和效果等全面對(duì)昆侖銀行的IT服務(wù)管理水平同ITIL推薦進(jìn)行比較,最終得出分析結(jié)果,我行的運(yùn)維管理水平已經(jīng)到達(dá)3級(jí)(已定以級(jí))或者以上。
昆侖銀行的運(yùn)維管理體系建設(shè)的目標(biāo):保障IT系統(tǒng)的穩(wěn)定與效率;從容應(yīng)對(duì)各類緊急事件;合理的IT系統(tǒng)架構(gòu)設(shè)計(jì)。我行的運(yùn)維管理體系目前包括IT服務(wù)管理系統(tǒng)、集中監(jiān)控平臺(tái)系統(tǒng)。
表1
現(xiàn)階段我行IT服務(wù)管理系統(tǒng)主要實(shí)現(xiàn)功能包括服務(wù)臺(tái)管理、事件管理、問(wèn)題管理、變更管理、處理服務(wù)請(qǐng)求、知識(shí)庫(kù)管理、投產(chǎn)演練以及投產(chǎn)管理統(tǒng)計(jì)分析等功能;IT資產(chǎn)全生命周期管理,設(shè)備出/入庫(kù)管理、設(shè)備調(diào)撥管理、供應(yīng)商管理、合同管理等內(nèi)容。通過(guò)此項(xiàng)目,我們也制定了一系列管理制度并且流程化,如事件管理、問(wèn)題管理、變更管理、服務(wù)請(qǐng)求管理、投產(chǎn)演練管理流程、投產(chǎn)管理流程,嚴(yán)格控制工作流程和操作流程。
現(xiàn)階段,我行集中監(jiān)控平臺(tái)系統(tǒng)主要監(jiān)控的對(duì)象有:主機(jī)(AIX、Linux、Windows磁盤空間、CPU、HA狀態(tài)等)、存儲(chǔ)(EMC、HDS、IBM產(chǎn)品的性能管理和事件管理)、總分支行網(wǎng)絡(luò)設(shè)備(路由器、交換機(jī)、防火墻)、總分行之間的通信線路、分支行之間的通信線路、總分行與外聯(lián)通信線路的連通性、數(shù)據(jù)庫(kù)(DB2、Oracle、Sybase的狀態(tài)、表空間、鎖數(shù)量等)、MQ中間件(通道狀態(tài)、隊(duì)列深度等指標(biāo))、WAS中間件(內(nèi)存大小、連接池、線程池等)、50多套應(yīng)用系統(tǒng)(核心、信貸、現(xiàn)金管理、綜合網(wǎng)關(guān)、銀聯(lián)前置、POSP、國(guó)結(jié)、外匯清算、SWIFT等)(系統(tǒng)運(yùn)行狀態(tài)、可用性、交易量、成功率等性能監(jiān)控以及批前檢查、批量監(jiān)控、批后監(jiān)控等)。監(jiān)控平臺(tái)通過(guò)聲光、短信、郵件的形式通知值班人員以及相關(guān)運(yùn)維人員,做到不漏報(bào)也不誤報(bào)。
IT服務(wù)管理系統(tǒng)和集中監(jiān)控平臺(tái)系統(tǒng)在物理上是獨(dú)立的,但是這兩者在邏輯上是緊密聯(lián)系的。IT服務(wù)管理系統(tǒng)與集中監(jiān)控平臺(tái)系統(tǒng)集成,接收其產(chǎn)生的事件,及時(shí)作出處理,形成閉環(huán),并達(dá)到自動(dòng)預(yù)警和自動(dòng)事件創(chuàng)建的功效,不僅可以管理人員跟蹤相關(guān)事件同時(shí)也可以根據(jù)事件處理時(shí)長(zhǎng)考核相關(guān)的運(yùn)維人員。
建立IT運(yùn)行的預(yù)警機(jī)制:從被動(dòng)管理到主動(dòng)管理,提高故障主動(dòng)發(fā)現(xiàn)的比率,快速定位系統(tǒng)故障,縮短系統(tǒng)故障解決時(shí)間,提高系統(tǒng)的可用率。通過(guò)分析報(bào)告發(fā)掘隱患:
保證日常變更的完整與準(zhǔn)確。
依據(jù)運(yùn)行中的各類事件和要求,調(diào)整應(yīng)用系統(tǒng)規(guī)范,做到預(yù)先控制,控制對(duì)關(guān)鍵配置信息的更改與維護(hù)。
建立系統(tǒng)的評(píng)估機(jī)制:基于數(shù)據(jù)對(duì)系統(tǒng)性能、容量評(píng)估,提升系統(tǒng)的性能,對(duì)系統(tǒng)優(yōu)化提出合理的建議。
建立IT運(yùn)行質(zhì)量控制機(jī)制:?jiǎn)栴}的預(yù)先解決和質(zhì)量把關(guān)。
建立應(yīng)用監(jiān)控接口規(guī)范,規(guī)范和完善我行業(yè)務(wù)應(yīng)用的開(kāi)發(fā)規(guī)范。
建立全面的監(jiān)控管理體系:通過(guò)監(jiān)控體系主動(dòng)發(fā)現(xiàn)事故,通過(guò)自檢、調(diào)整、判斷、分析四個(gè)流程保證監(jiān)控系統(tǒng)的不斷自我完善;通過(guò)監(jiān)控系統(tǒng)的積累,逐步建立告警知識(shí)庫(kù),同時(shí)建立和完善《綜合監(jiān)控規(guī)范》和《分行監(jiān)控規(guī)范》。
未來(lái),我們要繼續(xù)加強(qiáng)運(yùn)維管理體系的推廣實(shí)施,積極總結(jié)、分析實(shí)施成果,從標(biāo)準(zhǔn)化、規(guī)范化、自動(dòng)化等方面對(duì)運(yùn)維管理體系進(jìn)行定期審查和完善。要以加強(qiáng)運(yùn)維流程管理、提升運(yùn)維服務(wù)質(zhì)量為目標(biāo),從而持續(xù)改進(jìn)。同時(shí)引入新的工具,如批量作業(yè)自動(dòng)調(diào)度、應(yīng)用自動(dòng)部署,這樣可以消除人工操作風(fēng)險(xiǎn),提高作業(yè)效率,提高系統(tǒng)可用率,提升我行運(yùn)行操作管理水平,滿足我行發(fā)展和行業(yè)監(jiān)管要求,另外我們將在現(xiàn)有的集中監(jiān)控系統(tǒng)的基礎(chǔ)上實(shí)現(xiàn)業(yè)務(wù)影響智能分析,在對(duì)業(yè)務(wù)邏輯進(jìn)行梳理的同時(shí),建立了故障根源分析模型和影響分析模型,將跨業(yè)務(wù)系統(tǒng)的交易有序串聯(lián)起來(lái),生成交易樹(shù),實(shí)現(xiàn)對(duì)從交易發(fā)起到交易結(jié)束的完整的交易路由追蹤,結(jié)合基礎(chǔ)資源和交易日志監(jiān)控,實(shí)現(xiàn)了交易異?;蚴〉墓收蠝?zhǔn)確定位。
運(yùn)維管理體系用于管理層對(duì)整個(gè)管理體系進(jìn)行管理,制定方針目標(biāo)、進(jìn)行管理評(píng)審。管理層通過(guò)這些流程制定管理方針目標(biāo),測(cè)量目標(biāo)的執(zhí)行,監(jiān)督流程管理效果,執(zhí)行PDCA(即Plan、Do、Check和Action)循環(huán),以改進(jìn)數(shù)據(jù)中心績(jī)效,為昆侖銀行的發(fā)展保駕護(hù)航。