陳金會
(中國電信股份有限公司云計(jì)算貴州分公司,貴州 貴陽 550003)
數(shù)字經(jīng)濟(jì)已成為國家發(fā)展的重要經(jīng)濟(jì)支柱。作為數(shù)字經(jīng)濟(jì)的底座,超大型數(shù)據(jù)中心迎來了快速發(fā)展階段。數(shù)據(jù)中心內(nèi)基礎(chǔ)設(shè)施、維護(hù)人員不斷激增,傳統(tǒng)的基站式維護(hù)模式已不再適應(yīng)新的維護(hù)需求。通過對標(biāo)國際運(yùn)維標(biāo)準(zhǔn),對數(shù)據(jù)中心運(yùn)維管理體系優(yōu)化、提煉并全方面覆蓋,提高維護(hù)管理人員技能,明確運(yùn)行維護(hù)標(biāo)注,落實(shí)培訓(xùn)演練,有效管控運(yùn)行質(zhì)量,從而使園區(qū)網(wǎng)絡(luò)基礎(chǔ)設(shè)施實(shí)現(xiàn)永續(xù)運(yùn)行。
如何更加深刻理解超大型數(shù)據(jù)中心運(yùn)維管理體系,就需要對涉及影響永續(xù)運(yùn)營的各項(xiàng)因素進(jìn)行識別、分析、制定措施、審視、固化等。下面在人員組織、運(yùn)行與維護(hù)、流程管理、培訓(xùn)、協(xié)調(diào)與管理5個(gè)方面給予具體闡述。
數(shù)據(jù)中心交付使用前,管理者需要綜合考慮數(shù)據(jù)中心如何高效運(yùn)行,盡快提供產(chǎn)品服務(wù)。人員組織是支撐基礎(chǔ)設(shè)施永續(xù)運(yùn)維的基本保障,規(guī)劃需要什么專業(yè)人員、這些專業(yè)人員的管理架構(gòu)、各自工作職責(zé)是什么、需要什么資質(zhì)等。
結(jié)合信息園數(shù)據(jù)中心特點(diǎn),以專業(yè)管理為線條,形成網(wǎng)絡(luò)及IT專業(yè)、電源專業(yè)、暖通專業(yè)三大基礎(chǔ)設(shè)施專業(yè)。每個(gè)專業(yè)設(shè)專業(yè)主管2名,互為A/B角色。3個(gè)專業(yè)各自委托第三方專業(yè)維護(hù)團(tuán)隊(duì)實(shí)施維護(hù)代維服務(wù),代維團(tuán)隊(duì)設(shè)置項(xiàng)目管理員2名,分別為項(xiàng)目經(jīng)理和技術(shù)經(jīng)理,同時(shí)互為A/B角色。專業(yè)主管直接對口管理代維團(tuán)隊(duì),提供業(yè)務(wù)支撐、技術(shù)指導(dǎo)及考核。制定組織架構(gòu)如圖1所示[1]。
圖1 組織架構(gòu)
根據(jù)組織矩陣中不同的崗位,制定相應(yīng)的維護(hù)職責(zé)矩陣,分為一級職能、二級職能、三級職能,如圖2所示。職責(zé)矩陣中設(shè)定現(xiàn)場維護(hù)崗、經(jīng)理崗、主管崗、運(yùn)維部經(jīng)理、設(shè)備廠家,明確各崗位人員在維護(hù)職責(zé)矩陣中的實(shí)施內(nèi)容,做到各崗位分工明確。
圖2 數(shù)據(jù)機(jī)樓網(wǎng)絡(luò)及IT維護(hù)職責(zé)矩陣
根據(jù)專業(yè)的劃分,專業(yè)人員的工作職責(zé)有不同的要求,需制定完善的崗位說明書。崗位說明書包括崗位職責(zé)、工作難點(diǎn)、工作禁忌、職業(yè)發(fā)展、生理要求、知識經(jīng)驗(yàn)、綜合素質(zhì)等幾方面。達(dá)到條件的人員在崗位說明書上簽字認(rèn)可,同時(shí)直管的領(lǐng)導(dǎo)認(rèn)可簽字。崗位說明書如圖3所示。
圖3 崗位說明書
不同崗位根據(jù)國家行業(yè)標(biāo)準(zhǔn),應(yīng)考取相關(guān)從業(yè)資格證書,如網(wǎng)絡(luò)及IT應(yīng)具備HCNA、HCNP、CCNA,電源專業(yè)具備高低壓電工證,暖通專業(yè)應(yīng)具備高壓電工證、制冷工證、登高作業(yè)證[2]。崗位資質(zhì)配置如圖4所示。
圖4 崗位資質(zhì)配置
數(shù)據(jù)機(jī)樓投產(chǎn)后,具體要配置多少人,就需要核算工時(shí)?;A(chǔ)設(shè)施涵蓋暖通、電源大量設(shè)備,根據(jù)行業(yè)及企業(yè)維護(hù)標(biāo)準(zhǔn),規(guī)定了不同設(shè)備的維護(hù)內(nèi)容和維護(hù)周期。維護(hù)內(nèi)容包括操作類和非操作類,維護(hù)周期包括月度、季度、半年度和年度,估算每個(gè)設(shè)備的維護(hù)周期內(nèi)容的耗時(shí),統(tǒng)計(jì)數(shù)據(jù)中心基礎(chǔ)設(shè)施設(shè)備清單,匯總完成全年度的所需總工時(shí)。按照《勞動法》關(guān)于人員勞動工時(shí)的相關(guān)要求,剔除固定法定節(jié)假日,可計(jì)算出完成既定維護(hù)的人員配置數(shù)量,具體流程如圖5所示。
圖5 工時(shí)核算流程
為高效管理數(shù)據(jù)中心各崗位人員,應(yīng)制定針對數(shù)據(jù)中心應(yīng)用場景的管理制度。制度從人力資源需求、人員上崗流程、人員離崗流程、人員考勤管理、人員績效管理等5方面進(jìn)行規(guī)范,覆蓋了數(shù)據(jù)中心不同人員管理場景,如人員調(diào)動、人力資源申請、人員上崗確認(rèn)、人員離崗確認(rèn)、月度考勤、月度績效考核等。
運(yùn)行維護(hù)是數(shù)據(jù)中心持續(xù)開展的活動,分為日常運(yùn)行和預(yù)防性維護(hù)兩大模塊[3]。
日常運(yùn)行維護(hù)工作是每天固定執(zhí)行的維護(hù)工作,是運(yùn)行維護(hù)的基礎(chǔ)單元。
(1)排班值班。為規(guī)范維護(hù)人員日常維護(hù)規(guī)范行為,制定人員排班交接班制度,從職責(zé)、流程(排班及變更)、工作程序等方面規(guī)范排班行為。制定交接班管理制度,明確現(xiàn)場維護(hù)人員、值班長、項(xiàng)目經(jīng)理、專業(yè)主管等不同崗位的職責(zé),明確分工,層層落實(shí)責(zé)任。
(2)巡視巡查。為達(dá)到巡視巡查標(biāo)準(zhǔn)化,制定機(jī)樓巡視手冊涵蓋路線圖、設(shè)備巡視標(biāo)準(zhǔn)作業(yè)程序(Standard Operating Procedure,SOP)、巡檢記錄表。設(shè)備運(yùn)行狀態(tài)進(jìn)行可視化展示,便于巡視人員快速、準(zhǔn)確地判斷設(shè)備運(yùn)行狀況。柴油發(fā)電機(jī)巡視手冊如圖6所示。
圖6 柴油發(fā)電機(jī)巡視手冊
(3)標(biāo)準(zhǔn)化指導(dǎo)書及現(xiàn)場配置指導(dǎo)書。為規(guī)范數(shù)據(jù)中心人員操作規(guī)范性,避免因人員操作失誤導(dǎo)致業(yè)務(wù)中斷,要求制定標(biāo)準(zhǔn)化操作指導(dǎo)書。結(jié)合數(shù)據(jù)中心設(shè)施設(shè)備清單,針對每一類型設(shè)備編制SOP。該文檔規(guī)定了操作人員具備條件、配置工器具、預(yù)計(jì)耗時(shí)、回退措施等,圖文并茂,步驟清晰。標(biāo)準(zhǔn)化操作指導(dǎo)書如圖7所示。
圖7 標(biāo)準(zhǔn)化操作指導(dǎo)書
數(shù)據(jù)中心擁有龐大的設(shè)備數(shù)量,不同設(shè)備存在不同整定值配置,電源從10 kV高壓設(shè)備、低壓設(shè)備、不間斷系統(tǒng)、列頭柜設(shè)備建立標(biāo)準(zhǔn)化配置文檔,暖通建立設(shè)備輪詢、溫度送風(fēng)回風(fēng)定值、濕度定值、溫濕度告警閾值等標(biāo)準(zhǔn)化配置文檔,實(shí)施清單化管理,可及時(shí)掌握配置狀態(tài)、計(jì)劃更新等,如圖8所示。
圖8 暖通SCP
開展預(yù)防性維護(hù),對基礎(chǔ)設(shè)施主動維護(hù),可較早發(fā)現(xiàn)設(shè)備問題隱患、及早介入處理,避免因設(shè)備故障引發(fā)業(yè)務(wù)中斷。
(1)維護(hù)作業(yè)計(jì)劃手冊(Maintenance Operational Procedures,MOP)針對數(shù)據(jù)中心設(shè)施清單,針對不同的基礎(chǔ)設(shè)施設(shè)備,按月度、季度、半年度、年度等維護(hù)內(nèi)容,制定年度作業(yè)計(jì)劃,并把維護(hù)工作計(jì)劃分配到下一年度的52個(gè)日歷周中。針對不同類別基礎(chǔ)設(shè)施設(shè)備,制定MOP。手冊包括維護(hù)內(nèi)容、維護(hù)要求、影響客戶、維護(hù)工具、維護(hù)前提、人員防護(hù)及風(fēng)險(xiǎn)評估等內(nèi)容。MOP實(shí)現(xiàn)了維護(hù)作業(yè)標(biāo)準(zhǔn)化、可視化,如圖9所示。
圖9 MOP手冊
(2)應(yīng)急管理體系。為明確數(shù)據(jù)中心發(fā)生故障時(shí)應(yīng)急處置的組織架構(gòu)、各崗位職責(zé),建立保障和恢復(fù)應(yīng)急工作機(jī)制,提高應(yīng)對突發(fā)事件的組織指揮能力和應(yīng)急處置能力,保證應(yīng)急指揮調(diào)度工作迅速、高效、有序地進(jìn)行,滿足突發(fā)情況下系統(tǒng)保障和恢復(fù)的需要,確保安全運(yùn)行。應(yīng)制定應(yīng)急管理制度,包括應(yīng)急組織架構(gòu)圖、各部門在應(yīng)急管理工作中的職責(zé)、各崗位人員職責(zé)、應(yīng)急管理流程等模塊,如圖10所示。
圖10 應(yīng)急管理制度
(3)關(guān)鍵指標(biāo)檢測。數(shù)據(jù)中心關(guān)鍵指標(biāo)預(yù)防性檢測是預(yù)防性維護(hù)的重要項(xiàng)目,針對電源系統(tǒng),開展數(shù)據(jù)機(jī)樓外部防雷檢測、內(nèi)部防雷檢測。每年度開展柴油發(fā)電機(jī)組的潤滑油、柴油質(zhì)量檢測,確保油品質(zhì)量合格。針對暖通系統(tǒng),每月開展冷卻水水質(zhì)分析,確保冷卻水指標(biāo)符合標(biāo)準(zhǔn),減少對水系統(tǒng)的不利影響。同時(shí)針對電氣系統(tǒng)的關(guān)鍵開關(guān)、電氣連接點(diǎn)、電纜等進(jìn)行周期性溫度測試和大數(shù)據(jù)分析,確保關(guān)鍵點(diǎn)溫升處于政策范圍內(nèi)[4]。
數(shù)據(jù)中心業(yè)務(wù)連續(xù)運(yùn)行,需對其進(jìn)行不間斷運(yùn)維管理。通過對運(yùn)維事件進(jìn)行變更管理,消除潛在的應(yīng)用風(fēng)險(xiǎn),并將暫時(shí)無法找到原因的故障納入問題管理。數(shù)據(jù)中心供電容量、制冷容量總是有限的,需定期開展容量分析及負(fù)載管理,做到資源有效利用。
在數(shù)據(jù)中心正常運(yùn)營過程中出現(xiàn)的任何導(dǎo)致或可能導(dǎo)致服務(wù)中斷或服務(wù)質(zhì)量下降的情況稱為事件。制定事件管理制度,把事件分為特大、重大、嚴(yán)重、一般4個(gè)等級,形成基礎(chǔ)設(shè)施事件分級清單(電源、暖通),明確了不同事件等級處理時(shí)限、處理原則、上報(bào)流程、處理程序、事件關(guān)閉、事件升級機(jī)制等,同時(shí)根據(jù)園區(qū)運(yùn)營維護(hù)人員組織,賦予各崗位人員在事件處理過程的崗位職責(zé)。
問題是指在數(shù)據(jù)中心運(yùn)營過程中出現(xiàn)的,導(dǎo)致一個(gè)或多個(gè)事件產(chǎn)生的根本原因還沒有診斷出來。問題管理的目的是在事件發(fā)生時(shí)盡快找出產(chǎn)生的根本原因,防止事件重復(fù)出現(xiàn);確認(rèn)問題后,舉一反三,對同類設(shè)備進(jìn)行排查,開展糾正性維護(hù),避免同類事件重復(fù)發(fā)生;維護(hù)人員通過積極主動實(shí)施問題管理,對潛在事件進(jìn)行預(yù)防和糾正,從而減少事件的發(fā)生,降低數(shù)據(jù)中心的運(yùn)營風(fēng)險(xiǎn)。按問題引發(fā)或可能引發(fā)事件的程度,將問題定級為高風(fēng)險(xiǎn)問題和普通級問題。數(shù)據(jù)中心項(xiàng)目經(jīng)理、技術(shù)主管、管理者等不同崗位人員應(yīng)對問題管理承擔(dān)不同職責(zé),同時(shí)制定問題管理流程。
變更是指在維護(hù)過程中對系統(tǒng)(硬件和軟件)或服務(wù)進(jìn)行的所有改變,包括設(shè)備增補(bǔ)、移除,設(shè)備運(yùn)行狀態(tài)的改變,設(shè)備的啟停和切換,運(yùn)行參數(shù)和配置參數(shù)的改變,流程和標(biāo)準(zhǔn)的修訂,其他修改。實(shí)施變更管理是為了確保以受控的方式去評估、批準(zhǔn)、實(shí)施和評審所有變更,阻止未授權(quán)的變更發(fā)生,使得變更風(fēng)險(xiǎn)降至最低。同時(shí),將與變更相關(guān)的突發(fā)事件的影響降至最低,確保所有變更過程都可被追溯。通過制定變更管理制度確定變更的分類,如按發(fā)起方和使用場景不同分為內(nèi)部變更、客戶變更,按變更的緊迫性分為計(jì)劃類變更、緊急變更。根據(jù)變更事項(xiàng)視其影響面及對運(yùn)行安全和人身安全的風(fēng)險(xiǎn),實(shí)行分級管理,從高到低依次分為1~4級。此外,需要明確變更啟動流程、變更時(shí)間窗口、變更前導(dǎo)時(shí)間等,如圖11所示。根據(jù)園區(qū)運(yùn)營維護(hù)人員組織,賦予各崗位人員在變更管理過程的崗位職責(zé)。
圖11 變更流程
容量管理的目的是有效管控機(jī)架 U 位、機(jī)架電量、機(jī)房制冷量,進(jìn)一步保證設(shè)備運(yùn)行安全,更好地服務(wù)客戶。制定機(jī)柜容量統(tǒng)計(jì)表,實(shí)時(shí)掌握機(jī)柜內(nèi)U位、實(shí)時(shí)用電功率、用電量,避免機(jī)柜用電負(fù)荷超容,使機(jī)柜空間得到高效利用。制定空調(diào)末端、制冷機(jī)組供冷容量管理表,實(shí)時(shí)掌握用冷需求、冗余、備份等,使其性能達(dá)到最優(yōu),避免能源浪費(fèi)。用電方面落實(shí)不間斷電源系統(tǒng)容量統(tǒng)計(jì)分析,避免不間斷系統(tǒng)超容,對負(fù)載率較低的不間斷系統(tǒng)采取節(jié)能措施。將容量分析納入月度例會開展統(tǒng)計(jì)、分析、管理,采取快速舉措,如圖12所示。
圖12 電力容量分析表
數(shù)據(jù)中心基礎(chǔ)設(shè)施類型眾多,設(shè)備迭代更新快,迫使維護(hù)人員不斷學(xué)習(xí)新知識、新技能以滿足工作的需要。為加強(qiáng)園區(qū)運(yùn)行維護(hù)人員培訓(xùn)工作,結(jié)合運(yùn)行維護(hù)工作特點(diǎn),結(jié)合公司和個(gè)人職業(yè)生涯發(fā)展規(guī)劃,堅(jiān)持以培訓(xùn)育人、留人,運(yùn)行維護(hù)人員培訓(xùn)工作規(guī)范有序的進(jìn)行。按照園區(qū)業(yè)務(wù)發(fā)展和崗位需要,對運(yùn)行維護(hù)人員進(jìn)行管理知識、技術(shù)和業(yè)務(wù)、操作技能、安全管理、政治理論、企業(yè)文化、職業(yè)道德、行為規(guī)范等方面的培養(yǎng)和訓(xùn)練活動,是對員工進(jìn)行有目的、有計(jì)劃的培養(yǎng)和訓(xùn)練活動。員工培訓(xùn)按類別分為新員工上崗培訓(xùn)和在職培訓(xùn),按業(yè)務(wù)執(zhí)行角色分為內(nèi)部培訓(xùn)和供應(yīng)商培訓(xùn)。
內(nèi)部培訓(xùn)流程如13所示,外部培訓(xùn)流程如圖14所示。
圖13 內(nèi)部培訓(xùn)流程
圖14 外部培訓(xùn)流程
規(guī)劃協(xié)調(diào)管理外部環(huán)境,做到數(shù)據(jù)中心文檔的標(biāo)準(zhǔn)化,統(tǒng)籌好用電節(jié)能,加強(qiáng)同客戶溝通交流,做好業(yè)務(wù)機(jī)房的進(jìn)出入管理,使數(shù)據(jù)中心各項(xiàng)工作高效運(yùn)行。
為提高數(shù)據(jù)中心文檔處理工作的效率和質(zhì)量,使之規(guī)范化、科學(xué)化、制度化,對部門的文檔格式、編制、編號、審批、發(fā)布、歸檔等文檔管理的工作流程和作業(yè)標(biāo)準(zhǔn)作出明確規(guī)定。
根據(jù)園區(qū)組織架構(gòu),明確崗位職責(zé)。運(yùn)行維護(hù)部負(fù)責(zé)人是部門文檔審批的責(zé)任人,對于部門所有文檔的發(fā)布、修改、廢止進(jìn)行審批。綜合管理崗負(fù)責(zé)部門文檔的管理和歸檔工作,負(fù)責(zé)處理部門內(nèi)部及外部對于文檔的調(diào)用、歸還、修改、發(fā)布、廢止的申請和審核工作,負(fù)責(zé)對新發(fā)布及修改文檔按照本辦法進(jìn)行統(tǒng)一編碼和審核,負(fù)責(zé)部門內(nèi)部基礎(chǔ)管理文檔的起草工作。各專業(yè)維護(hù)主管技術(shù)型、操作規(guī)定規(guī)范、現(xiàn)場管理流程類文檔起草的第一責(zé)任人,也是文檔執(zhí)行的監(jiān)督者和執(zhí)行人,是調(diào)用、歸還、修改、發(fā)布、廢止的發(fā)起者。
按文檔的重要程度分為一級文檔、二級文檔、三級文檔,同時(shí)明確了文檔的標(biāo)識、編號及控制、編制、審核、發(fā)布、借閱等流程。
為加強(qiáng)水、電、油等能源使用的管理,保證數(shù)據(jù)中心安全運(yùn)行,需做好節(jié)能管理,提高能源利用率。管理節(jié)能有助于加強(qiáng)管理和宣傳,提高全員的節(jié)能意識,在能源采購、管理、使用的各個(gè)環(huán)節(jié)杜絕浪費(fèi),提高能源使用效率。技術(shù)節(jié)能通過合理可行的技術(shù)手段提高設(shè)備能效,在達(dá)到運(yùn)營目的的同時(shí)減少能源消耗。制定數(shù)據(jù)中心水電消耗及電源利用效率(Power Usage Effectiveness,PUE)分析,實(shí)時(shí)掌控用能數(shù)據(jù),建立數(shù)據(jù)中心水電臺賬、發(fā)電機(jī)用油臺賬,以月度為更新周期,如圖15所示。
圖15 數(shù)據(jù)機(jī)樓水電消耗臺賬
為保障數(shù)據(jù)中心運(yùn)行安全,嚴(yán)格控制人員及物品進(jìn)出機(jī)房,營造良好的機(jī)房工作環(huán)境。按進(jìn)出機(jī)房的需求進(jìn)行分類,如施工、維護(hù)、故障處理、外來參觀、臨時(shí)業(yè)務(wù)通知類,明確現(xiàn)場維護(hù)人員、項(xiàng)目經(jīng)理、技術(shù)主管等崗位職責(zé),明確人員進(jìn)出入機(jī)房管理、物品進(jìn)出機(jī)房管理流程、人員進(jìn)出登記本填寫要求,如圖16所示。
圖16 進(jìn)出機(jī)房流程圖
從數(shù)據(jù)中心永續(xù)運(yùn)營的角度出發(fā),規(guī)范專用儀器儀表與工具的使用管理,提高儀器儀表與工具精確度、準(zhǔn)備度及使用效率,延長其使用壽命。從儀表的使用和儀表的管理兩個(gè)維度,落實(shí)具體實(shí)施細(xì)則,明確維護(hù)人員、項(xiàng)目經(jīng)理、技術(shù)主管、管理人員等各自職責(zé),確定了部分精度較高儀表的校驗(yàn)周期、保存方法。工具儀表的借用歸還流程等,如圖17所示。
圖17 工具使用與采購流程
通過本次運(yùn)維標(biāo)準(zhǔn)化的推廣應(yīng)用,使信息園區(qū)運(yùn)維管理流程得到全面升華,真正能夠指導(dǎo)現(xiàn)場實(shí)際維護(hù)工作。隨著“東數(shù)西算”工程的啟動,勢必會給信息園區(qū)帶來快速發(fā)展新機(jī)遇,一方面通過夯實(shí)基礎(chǔ)運(yùn)維管理流程,在新交付的機(jī)樓可以繼續(xù)延用、擴(kuò)展;另一方面,運(yùn)維流程的固化需要自動化手段給予支撐,在后續(xù)的運(yùn)維管理手段方面逐步嵌入運(yùn)維管理流程,實(shí)現(xiàn)運(yùn)維管理標(biāo)準(zhǔn)化、自動化、智慧化的運(yùn)維目標(biāo)。