◆高明星 劉忠東 李淳 李士紅 劉旭
中國鐵路主數(shù)據(jù)中心基礎(chǔ)設(shè)施運維風(fēng)險管理研究
◆高明星1劉忠東2李淳3李士紅3劉旭3
(1.中國鐵路信息科技集團有限公司 北京 100844;2.中國國家鐵路集團有限公司 北京 100844;3.中鐵信大數(shù)據(jù)科技有限公司 天津 301700)
本文運用ERM風(fēng)險管理相關(guān)理論,從戰(zhàn)略管理目標(biāo)、風(fēng)險管理要素、管理層級三個維度,對中國鐵路主數(shù)據(jù)中心的基礎(chǔ)設(shè)施運維進(jìn)行全方位風(fēng)險影響分析,構(gòu)建持續(xù)改進(jìn)的風(fēng)險管理機制,保障運維決策的合理性和準(zhǔn)確性,不斷排除風(fēng)險隱患,提高運維質(zhì)量。
數(shù)據(jù)中心;基礎(chǔ)設(shè)施;運行維護;風(fēng)險管理
中國鐵路主數(shù)據(jù)中心(以下簡稱“主數(shù)據(jù)中心”)是國鐵集團業(yè)務(wù)應(yīng)用系統(tǒng)生產(chǎn)運行中心,承載著國鐵集團和全路集中應(yīng)用系統(tǒng)部署及數(shù)據(jù)資源存儲的主要功能,肩負(fù)著鐵路核心業(yè)務(wù)安全穩(wěn)定運行的重要使命。本文引入ERM風(fēng)險管理相關(guān)理論,構(gòu)建主數(shù)據(jù)中心基礎(chǔ)設(shè)施風(fēng)險管理框架模型,根據(jù)基礎(chǔ)設(shè)施運維全生命周期特點,進(jìn)行風(fēng)險管理要素分析,挖掘潛在風(fēng)險點,制定風(fēng)險應(yīng)對措施。同時引入質(zhì)量控制中PDCA相關(guān)技術(shù)方法,構(gòu)建持續(xù)改進(jìn)的風(fēng)險管理機制,確保運維質(zhì)量的持續(xù)改進(jìn)與高效可靠。
主數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理的核心是通過各項合理的運維決策,使基礎(chǔ)設(shè)施能夠持續(xù)實現(xiàn)各自功能,從而為部署在主數(shù)據(jù)中心的應(yīng)用系統(tǒng)提供可靠的外部條件。在基礎(chǔ)設(shè)施協(xié)同運行過程中,存在著設(shè)備種類繁多、配置復(fù)雜、維護保養(yǎng)差異性大等情況,為科學(xué)合理地開展運維工作,尤其是在風(fēng)險面前做出正確決策,提高風(fēng)險應(yīng)對能力,風(fēng)險管理應(yīng)運而生。精細(xì)化的基礎(chǔ)設(shè)施風(fēng)險管控策略,能夠促進(jìn)決策科學(xué)化,降低決策風(fēng)險,提升基礎(chǔ)設(shè)施的安全性、可靠性和穩(wěn)定性。
數(shù)據(jù)中心基礎(chǔ)設(shè)施運維的全生命周期大致分為建設(shè)轉(zhuǎn)運維期、運行穩(wěn)定期和磨損老化期三個階段。每個運維階段存在的主要問題不同,所面臨的運維風(fēng)險也不盡相同。
在建設(shè)轉(zhuǎn)運維期,風(fēng)險主要來自:設(shè)計、施工質(zhì)量等造成的工程遺留問題;設(shè)備投產(chǎn)后,隨著加載過程變化,設(shè)備性能參數(shù)未能調(diào)試到最佳運行模式;圖紙、設(shè)備手冊等資料不完整或與現(xiàn)場不一致;運維管理制度不健全、不系統(tǒng)等。建設(shè)轉(zhuǎn)運維期的主要風(fēng)險整改完成后,會進(jìn)入運行穩(wěn)定期。數(shù)據(jù)中心基礎(chǔ)設(shè)施長久運行后會不斷老化,部分設(shè)備設(shè)施也會因磨損等原因接近其使用壽命,此階段的風(fēng)險主要體現(xiàn)在設(shè)備設(shè)施的性能和可靠性持續(xù)降低。
主數(shù)據(jù)中心基礎(chǔ)設(shè)施ERM風(fēng)險管理框架包括戰(zhàn)略管理目標(biāo)、風(fēng)險管理要素和管理層級三個維度。
主數(shù)據(jù)中心基礎(chǔ)設(shè)施的戰(zhàn)略管理目標(biāo)分別是合規(guī)、安全、報告、綠色。其中“合規(guī)”體現(xiàn)在遵守國家法律法規(guī)以及行業(yè)相關(guān)設(shè)計、驗收、運維標(biāo)準(zhǔn)要求;“安全”體現(xiàn)在以保障主數(shù)據(jù)中心基礎(chǔ)設(shè)施整體安全為根本;“報告”體現(xiàn)在確保風(fēng)險管理過程可測量可監(jiān)控;“綠色”體現(xiàn)在以建設(shè)綠色節(jié)能型數(shù)據(jù)中心為目標(biāo)。主數(shù)據(jù)中心基礎(chǔ)設(shè)施的管理層級包括政府監(jiān)管部門、上級單位、公司本身和供應(yīng)商,各個管理層級在基礎(chǔ)設(shè)施運維管理過程中持續(xù)開展風(fēng)險管理工作,每個層級都構(gòu)筑了主數(shù)據(jù)中心基礎(chǔ)設(shè)施風(fēng)險管理的防線。
主數(shù)據(jù)中心基礎(chǔ)設(shè)施風(fēng)險管理八要素包括內(nèi)部環(huán)境、目標(biāo)設(shè)定、風(fēng)險識別、風(fēng)險評估、風(fēng)險應(yīng)對、控制活動、信息和交流、監(jiān)控。這八個要素相互獨立、相互聯(lián)系又相互制約,共同構(gòu)成了主數(shù)據(jù)中心基礎(chǔ)設(shè)施風(fēng)險管理的有機整體。
3.2.1內(nèi)部環(huán)境
在開展風(fēng)險管理工作時,必須對主數(shù)據(jù)中心所處的內(nèi)部環(huán)境進(jìn)行充分識別和了解,該環(huán)境是管理并確?;A(chǔ)設(shè)施協(xié)同運轉(zhuǎn)、系統(tǒng)穩(wěn)定高效運行的前提。內(nèi)部環(huán)境包含:戰(zhàn)略定位及目標(biāo)規(guī)劃、規(guī)章制度要求、服務(wù)內(nèi)容輸出要求、運維管理組織架構(gòu)設(shè)計及人員配置情況等。
3.2.2目標(biāo)設(shè)定
主數(shù)據(jù)中心基礎(chǔ)設(shè)施運維的核心是保證“風(fēng)、火、水、電”等各項設(shè)備設(shè)施功能的正常運行,因此按照電氣、暖通、消防、弱電、房建五大專業(yè)以及綜合安全共六個維度對風(fēng)險管理的目標(biāo)設(shè)定進(jìn)行分解,對每個專業(yè)或維度進(jìn)一步按其細(xì)分子系統(tǒng)分門別類進(jìn)行風(fēng)險管理。
3.2.3風(fēng)險識別
主數(shù)據(jù)中心基礎(chǔ)設(shè)施風(fēng)險識別以行業(yè)內(nèi)外歷史事件經(jīng)驗教訓(xùn)、運維過程中發(fā)現(xiàn)的問題和內(nèi)外部相關(guān)檢查評價報告為風(fēng)險分析基礎(chǔ),運用定性和定量風(fēng)險分析相結(jié)合的方法,對基礎(chǔ)設(shè)施安全現(xiàn)狀以及各專業(yè)系統(tǒng)功能的潛在失效情況,進(jìn)行系統(tǒng)性分析。
定性風(fēng)險分析:主數(shù)據(jù)中心在設(shè)計、建造、驗收以及運維過程中,要嚴(yán)格遵守國家法律法規(guī)、行業(yè)規(guī)范等相關(guān)要求,采用合規(guī)性檢查的方法,開展內(nèi)部檢查及外部評測等工作,對主數(shù)據(jù)中心基礎(chǔ)設(shè)施相關(guān)環(huán)境、人員、管理等進(jìn)行定性風(fēng)險分析?;A(chǔ)設(shè)施的現(xiàn)存隱患是合規(guī)性檢查的結(jié)果,輸入內(nèi)容主要包括A級機房測試報告、消防安全評估報告、安全現(xiàn)狀評價報告、運維事件資料庫、工程遺留問題清單等。
定量風(fēng)險分析:主數(shù)據(jù)中心基礎(chǔ)設(shè)施運行高度自動化,過程變量多來自于設(shè)備設(shè)施本身,因此定量風(fēng)險分析的關(guān)注點在設(shè)備設(shè)施上?;诖颂攸c,借鑒運用FEMA分析方法,以各專業(yè)系統(tǒng)的關(guān)鍵設(shè)備設(shè)施為主要分析對象,以其運行邏輯為分析主線,用風(fēng)險賦值的方式進(jìn)行風(fēng)險分析,剖析設(shè)備設(shè)施功能失效對系統(tǒng)的影響。其主要分析形式是衡量風(fēng)險權(quán)重、計算風(fēng)險指數(shù)、確定風(fēng)險等級及處置原則。
3.2.4風(fēng)險評估
根據(jù)定性分析結(jié)果,確定不符合項和建議整改項。根據(jù)定量分析中風(fēng)險指數(shù)情況,按照風(fēng)險承受能力、經(jīng)濟性等原則,進(jìn)行風(fēng)險等級劃分,確定應(yīng)對原則。
本次定性風(fēng)險評估共分析出252個風(fēng)險點,主要體現(xiàn)在主數(shù)據(jù)中心基礎(chǔ)設(shè)施存在的作業(yè)風(fēng)險、管理風(fēng)險、自然環(huán)境風(fēng)險、社會環(huán)境風(fēng)險、合規(guī)風(fēng)險、人身安全風(fēng)險等綜合性風(fēng)險。其中,作業(yè)風(fēng)險共147個風(fēng)險點,主要是人員作業(yè)及巡視存在的問題因素等;管理風(fēng)險共62個風(fēng)險點,主要包括運維管理制度不健全、操作流程不規(guī)范、標(biāo)識標(biāo)簽不完善等;合規(guī)風(fēng)險共18個風(fēng)險點,主要是設(shè)計、建設(shè)階段造成的工程遺留問題;人身安全風(fēng)險共12個風(fēng)險點,主要是火災(zāi)、跌落、觸電等;社會環(huán)境風(fēng)險共8個風(fēng)險點,主要是恐襲、治安、外部停水?dāng)嚯姷?;自然環(huán)境風(fēng)險共5個風(fēng)險點,主要是地震、強風(fēng)、極寒天氣等。
本次定量風(fēng)險評估共分析出759個風(fēng)險點,其中中等以上風(fēng)險點88個,主要體現(xiàn)在主數(shù)據(jù)中心基礎(chǔ)設(shè)施存在的部分技術(shù)和質(zhì)量風(fēng)險。電氣系統(tǒng)風(fēng)險主要包括設(shè)備自身絕緣、斷路器可靠性等;暖通系統(tǒng)風(fēng)險主要包括各類蝶閥、浮球閥是否正常等;消防系統(tǒng)風(fēng)險主要包括FAS報警主機或氣體滅火控制盤誤動作、閥門銹蝕導(dǎo)致無法打開等;弱電系統(tǒng)風(fēng)險點主要包括DCIM系統(tǒng)不定期掉線、BAS系統(tǒng)自動控制穩(wěn)定性差等;房建系統(tǒng)風(fēng)險主要包括防屋面水層破損造成雨水滲入機房、屋面馬道或爬梯等銹蝕造成人身傷害等。
依照以上風(fēng)險評估情況,對主數(shù)據(jù)中心基礎(chǔ)設(shè)施運維整體風(fēng)險情況進(jìn)行分析匯總,得出風(fēng)險分布情況如圖1所示。
圖1 主數(shù)據(jù)中心基礎(chǔ)設(shè)施運維整體風(fēng)險分布情況
3.2.5風(fēng)險應(yīng)對
依據(jù)風(fēng)險分析結(jié)果,梳理風(fēng)險應(yīng)對原則和措施,明確改進(jìn)問題方向。應(yīng)對措施主要從管理措施、工程技術(shù)措施、個人防護措施和風(fēng)險轉(zhuǎn)嫁措施等四方面進(jìn)行制定?;诒敬物L(fēng)險分析結(jié)果,考慮采取標(biāo)準(zhǔn)化運維、定期維保、日常值班巡檢、集中監(jiān)控、人員培訓(xùn)、搭建運維平臺等方式進(jìn)行優(yōu)化。
3.2.6控制活動
風(fēng)險控制活動的核心是建立主數(shù)據(jù)中心基礎(chǔ)設(shè)施風(fēng)險管理體系,明確管理核心及目標(biāo),識別風(fēng)險點,明確責(zé)任人及應(yīng)對措施。同時,將風(fēng)險管理理念的實施由點到面滲透,培養(yǎng)員工風(fēng)險意識和行為習(xí)慣,重視經(jīng)驗積累,定期評審風(fēng)險管理情況,建立長期運行機制。
3.2.7信息溝通
通過定期檢查、定期召開安全生產(chǎn)例會等形式分析當(dāng)前運維情況,更新風(fēng)險識別評價表,跟蹤計劃執(zhí)行情況。通過安全教育、技術(shù)培訓(xùn)將風(fēng)險管理工作落實到執(zhí)行層,確保全員參與。
3.2.8監(jiān)控
堅持對風(fēng)險管理工作進(jìn)行持續(xù)性管理審計和風(fēng)險監(jiān)控。監(jiān)控的范圍從風(fēng)險管理制度本身到執(zhí)行過程,從宏觀到局部。改進(jìn)評估制度的適用性,并進(jìn)行風(fēng)險管理經(jīng)驗復(fù)盤。
建設(shè)轉(zhuǎn)運維期,通過系統(tǒng)性的風(fēng)險管理,及早識別并處置工程遺留問題、設(shè)備功能調(diào)試、圖紙資料欠缺、制度流程不完善等問題,促使主數(shù)據(jù)中心基礎(chǔ)設(shè)施提早進(jìn)入穩(wěn)定運行階段。穩(wěn)定運行期,通過對規(guī)章制度流程、設(shè)備維護保養(yǎng)、人員技能培訓(xùn)、例行巡檢等運維過程的風(fēng)險管理,不斷優(yōu)化完善,持續(xù)改進(jìn),從而延長主數(shù)據(jù)中心基礎(chǔ)設(shè)施運維生命周期。磨損老化期,通過對設(shè)備設(shè)施運行性能的風(fēng)險分析,能夠提早發(fā)現(xiàn)設(shè)備設(shè)施故障發(fā)生前的征兆,進(jìn)行提前預(yù)警,避免突然的運行中斷。
風(fēng)險管理是一個動態(tài)變化的過程,外部條件的變化或分析對象自身的變化,都可能需要重新進(jìn)行風(fēng)險評估。通過定期評估、觸發(fā)式評估等方式,對風(fēng)險管控措施進(jìn)行緊密跟蹤、及時完善、確保落實,形成PDCA的持續(xù)改進(jìn)風(fēng)險管理機制。
根據(jù)鄧寧-克魯格效應(yīng):“人在能力不足時,作出的判斷往往是不周全的結(jié)論,但是人又無法正確認(rèn)識到自身的能力不足,來辨別這種錯誤的行為,這種現(xiàn)象是一種認(rèn)知偏差。”因此,隨著人員的經(jīng)驗不斷積累和技術(shù)能力不斷提升,對運維風(fēng)險點的分析也必將是一個周而復(fù)始、持續(xù)提升的過程。
[1]施衛(wèi)忠. 鐵路數(shù)據(jù)中心建設(shè)與規(guī)劃研究[J]. 中國鐵路,2021(01).
[2]楊陽,李印,孫麗玫,等. 數(shù)據(jù)中心基礎(chǔ)設(shè)施認(rèn)證體系研究綜述[J]. 工程建設(shè)標(biāo)準(zhǔn)化,2020(01).
[3]周平春. 數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)的規(guī)劃階段管理分析[J]. 工程建設(shè)(重慶),2020(06).
[4]朱林,李程貴,侯曉雯. 超大型數(shù)據(jù)中心基礎(chǔ)設(shè)施全生命周期維護模式的研究與應(yīng)用[J]. 信息通信,2019(09).
中國國家鐵路集團有限公司科研項目專項基金(N2019S009)