舒亮
[摘? ? 要 ]我國數(shù)據(jù)中心歷經(jīng)多年的發(fā)展歷程,建設(shè)規(guī)模持續(xù)拓展,特別是在大數(shù)據(jù)、人工智能等高新技術(shù)快速發(fā)展的背景下,數(shù)據(jù)中心新一輪的發(fā)展已經(jīng)拉開了帷幕。為確保數(shù)據(jù)中心能安全、高效率運作,就應(yīng)加大對動力、空調(diào)等基礎(chǔ)設(shè)施的運維管理。文章首先淺談數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理的現(xiàn)實狀況,其次解讀加強運維管理的現(xiàn)實意義,最后較為詳細地探究不同階段中運維管理、控制的具體措施,以供同行參考借鑒。
[關(guān)鍵詞]數(shù)據(jù)中心;基礎(chǔ)設(shè)施;運維現(xiàn)狀;措施探究
[中圖分類號]TP308 [文獻標(biāo)志碼]A [文章編號]2095–6487(2020)08–0–03
Some Thoughts on the Operation and Maintenance of Data Center Infrastructure
Shu Liang
[Abstract]My country's data center has experienced many years of development, and the construction scale has a trend of continuous expansion. Especially in the context of the rapid development of high-tech such as big data and artificial intelligence, a new round of development of data centers has begun. In order to ensure the safe and efficient operation of data centers, the operation and maintenance management of infrastructure such as power and air conditioning should be increased. Firstly, talk about the actual situation of data center infrastructure operation and maintenance management, secondly, explain the practical significance of strengthening operation and maintenance management, and finally explore the specific measures of operation and maintenance management and control in different stages in more detail for reference by peers.
[Keywords]data center; infrastructure; operation and maintenance status; investigation of measures
當(dāng)下,移動互聯(lián)網(wǎng)業(yè)務(wù)已經(jīng)普及到社會多個領(lǐng)域中,視頻、電商等在全網(wǎng)內(nèi)均可洞察到應(yīng)用蹤跡,數(shù)據(jù)量有暴增態(tài)勢,數(shù)據(jù)中心的數(shù)目與規(guī)模也相應(yīng)擴增,有資料記載2016—2019年中國數(shù)據(jù)中心市場維持著20.0%~30.0%的增長率。且數(shù)據(jù)中心建設(shè)表現(xiàn)出大型化、模塊劃分精細化趨勢,這也預(yù)示著成本有所提高且對基礎(chǔ)設(shè)施建設(shè)、運行、維護管理情況表現(xiàn)出更大的依賴性。
1 數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理現(xiàn)狀
數(shù)據(jù)中心基礎(chǔ)關(guān)聯(lián)到供配電、空調(diào)、消防、安防以及弱電監(jiān)控等諸多子系統(tǒng),不同子系統(tǒng)之間構(gòu)建了緊湊的相關(guān)性、互為作用與影響。可見,復(fù)雜性是該系統(tǒng)的典型特征之一,針對其開展的運維管理工作,可以將其看成是一個多目標(biāo)優(yōu)化的決策流程,只要能保證子系統(tǒng)綜合運行狀態(tài)抵達最優(yōu)化水平,那么數(shù)據(jù)中心運行階段高可靠性方能得到更大保障。在運維實踐中,可以將風(fēng)險管理有關(guān)理論及技術(shù)工具用于其中進行定性分析,主要有依照前期擬定好落實的基礎(chǔ)設(shè)施高危設(shè)備巡視、檢查清單與有關(guān)運維器具功能,按照季度對各機房進行一次和“體格檢查”相似的巡檢活動,針對當(dāng)場采獲到的設(shè)備運轉(zhuǎn)信息與故障記錄情況作出容量管控等解讀專研,借此方式感知到哪些設(shè)備存有“患病”的表征,盡早和設(shè)備廠商取得聯(lián)系進行調(diào)換與養(yǎng)護;針對現(xiàn)場排查出的安全隱患,依照其嚴重性對其進行分級、分類,制定風(fēng)險登記薄與改進計劃,及時作出閉環(huán)式處置,借此方式增強通信網(wǎng)絡(luò)運行過程的安穩(wěn)性。
2 基礎(chǔ)設(shè)施運維管理的必要性
(1)進一步量化設(shè)備的運維指標(biāo),拓展巡視檢查的深度性,整體提升設(shè)備運行過程的安穩(wěn)性、可靠性。
(2)盡早探查到安全隱患,降低故障發(fā)生的風(fēng)險。
(3)提升竣工驗收工作質(zhì)效,減輕前期工程項目滯留的缺陷對后期運維安全形成的不良影響。
(4)加大對外包運維團隊的監(jiān)管力度,整體提升他們的運維管理能力與工作力度。
(5)形成數(shù)據(jù)中心運維統(tǒng)一化規(guī)范,為廣大客戶群體提供標(biāo)準(zhǔn)化運維服務(wù),提高他們的滿意度。
(6)采用統(tǒng)計的巡檢清單和運維指標(biāo),循序漸進提高運維綜合水平與部署能力。
3 數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理措施
3.1 規(guī)劃設(shè)計
在規(guī)劃設(shè)計實施階段,運維管理工作的側(cè)重點是嚴把“方案審核”關(guān)卡,等同于參照數(shù)據(jù)中心的所屬等級、國標(biāo)和行業(yè)規(guī)定、客戶主觀需求、地方政府機關(guān)下達政策體制等,整體測評基礎(chǔ)設(shè)施運轉(zhuǎn)過程安穩(wěn)性、低成本性、通用性、可拓展性以及效益產(chǎn)出等,合理調(diào)度各類資源,最大限度地提升其有效利用率,力爭做到科技高端、節(jié)能有效、成本科學(xué)化。
但是工作實踐中,受多種因素的影響,很可能造成數(shù)據(jù)中心無法較好地滿足部分業(yè)務(wù)運維工作實施時提出的要求,故而需對其作出整改,降低標(biāo)準(zhǔn)要求是最無奈之舉。故而在設(shè)計階段應(yīng)對以下幾點問題予以一定重視。
3.1.1 加大需求管理力度
部分設(shè)計人員可能依照主觀臆斷去設(shè)定數(shù)據(jù)中心的功能指標(biāo),過度追求指標(biāo)的高可用性、低能耗性,而在具體操作環(huán)節(jié)并沒有嚴格按照現(xiàn)行規(guī)程作出充分論證,造成設(shè)計方案中部分內(nèi)容和配置實況、項目綜合規(guī)劃存在較大差異。由此滋生出一些負面后果,若屢次整改設(shè)計方案,則會導(dǎo)致部分資金浪費、工期延長,降低已投運機房的利用率,削弱了規(guī)劃工作的效能。故而,于需求管理階段應(yīng)認真落實如下幾點工作:①明確業(yè)務(wù)持續(xù)發(fā)展與用戶特殊要求;面對擴容項目時,需明確現(xiàn)網(wǎng)資源的容量狀況及投入狀態(tài);②把控持續(xù)改進的需求,針對一些業(yè)務(wù)或者用戶需求模糊化情況,理應(yīng)留置后期完善整改的空間;③牢牢掌控設(shè)備技術(shù)改革和發(fā)展需求,密切關(guān)注業(yè)內(nèi)與技術(shù)發(fā)展動態(tài),盡早使用可執(zhí)行度較高的新科技、設(shè)備及方案等,在具體應(yīng)用前均要組織專職人員屢次論證并進行試驗檢測,取得確切的結(jié)論后再做規(guī)?;瘧?yīng)用的決策。
3.1.2 科學(xué)規(guī)劃設(shè)計的次序
既往部分數(shù)據(jù)中心的建設(shè)方主管未能關(guān)注設(shè)計先后次序的規(guī)劃情況,很可能是在確定好結(jié)構(gòu)以后,再規(guī)劃、部署機電系統(tǒng)安裝活動,以致數(shù)據(jù)中心規(guī)劃部署階段遇到諸多阻力。如有結(jié)構(gòu)設(shè)計狀態(tài)不符合機電系統(tǒng)場地實際布設(shè)要求,這是造成機房空間配置欠缺合理性的主要原因之一,不同機房之間分區(qū)不科學(xué),管路、線纜距離控制力度不全面或者不到位,不僅會增加資金投入量、不利于系統(tǒng)安穩(wěn)運轉(zhuǎn),也增加后期運維工作難度系數(shù)。
合理的規(guī)劃設(shè)計次序可以做出如下表述。
①結(jié)合業(yè)務(wù)現(xiàn)實運行以及客戶主管需求等,準(zhǔn)確設(shè)定數(shù)據(jù)中心規(guī)劃的級別、規(guī)模、容量值等。
②落實各類型機電、制冷系統(tǒng)方案及機架規(guī)劃任務(wù)。最后,參照如上方案內(nèi)容規(guī)劃建筑結(jié)構(gòu)、規(guī)模及管線安裝方案等,使數(shù)據(jù)中心建筑結(jié)構(gòu)和機電安裝方案兩者契合度得到更大保障。
3.1.3 盡量提升系統(tǒng)架構(gòu)的設(shè)計水平
可以把數(shù)據(jù)中心基礎(chǔ)設(shè)施看成是一個結(jié)構(gòu)樣態(tài)復(fù)雜、內(nèi)部配置的不同構(gòu)造相互關(guān)聯(lián)的系統(tǒng),任一方面存在缺陷均可能會降低整個磁通的可靠性[3]。鑒于以上情況,設(shè)計人員要主動確立大局觀,特別是在供電、制冷系統(tǒng)方面進行全面規(guī)劃。如針對數(shù)據(jù)中心配置的備用柴油發(fā)電機系統(tǒng),并且要求機組與并機帶有自動化功能,還要分析從市電斷離后至備用系統(tǒng)完成供電的所有邏輯設(shè)計,比如啟停信號產(chǎn)出和傳送、機組并行與輸出油機調(diào)換邏輯、測算蓄電池后備時長等。
3.1.4 完善系統(tǒng)的可操作性、修復(fù)性水平
任何設(shè)備投運階段發(fā)生故障在所難免,運維階段應(yīng)指派專人落實常規(guī)巡檢維修、故障應(yīng)急處置、設(shè)備檢查與維修、報廢更替等工作事宜。故而,在規(guī)劃設(shè)計過程中應(yīng)重點分析機房建設(shè)空間;設(shè)備巡檢、維護操作空間,設(shè)備選型環(huán)節(jié)其可維護性;設(shè)備更換過程中需要投用的備件類型或者搬運渠道,系統(tǒng)智能化抵達的高度,減少手工輔助操作環(huán)節(jié)等。
3.1.5 鼓勵運維人員主動參與規(guī)劃設(shè)計工作
該種措施實施的益處如下。
(1)彌補設(shè)計人員在運維管理經(jīng)驗方面存在的疏漏,減少或規(guī)避設(shè)計缺陷。
(2)盡量維持規(guī)劃設(shè)計和運維目標(biāo)兩者的統(tǒng)一性。
(3)能較全面地分析運維期間對設(shè)計提出的要求。
3.2 工程實施
工程實施等同于把設(shè)計預(yù)想由圖紙轉(zhuǎn)變成生產(chǎn)力并予以充分落實,該階段工作的側(cè)重點是嚴格把控“入網(wǎng)驗收”關(guān)卡。
在工程隨工環(huán)節(jié)推進階段,針對設(shè)備類工程項目而言,重點是針對各類到貨設(shè)備、輔助性材料逐一進行確認,并加大對管路的施工工藝執(zhí)行階段的監(jiān)管力度。如針對空調(diào)銅管焊接,相關(guān)人員需要做好、做實氮氣保護工作,在焊接結(jié)束后吹洗、保壓試驗檢測活動應(yīng)及時跟進。針對空調(diào)用各類水管,一定要嚴格依照設(shè)計要求做好防腐處理、承壓試驗。
在待調(diào)試設(shè)備施工與測驗工作整體結(jié)束后方可進行通電調(diào)試,要求各種標(biāo)識完整、內(nèi)容精確,以最嚴謹?shù)膽B(tài)度開展通電調(diào)試。落實該項工作后便能測試性能及驗證功能,嚴格依照現(xiàn)行有關(guān)國家、行業(yè)、企業(yè)標(biāo)準(zhǔn)及具體設(shè)計要求,從設(shè)備與系統(tǒng)層面上分別進行測驗。針對調(diào)試、檢測階段發(fā)現(xiàn)的問題,盡早形成消缺清單,逐個解除。
入網(wǎng)交維可以被視為由工程建設(shè)轉(zhuǎn)進運維階段的標(biāo)識。在落實設(shè)備交接任務(wù)的基礎(chǔ)上,還需做好以下幾方面的交接。
(1)形成完整的調(diào)試、檢測報告,缺陷消除工作落實狀況。
(2)全部系統(tǒng)、設(shè)備相匹配的說明書、技術(shù)性材料。
(3)和項目相關(guān)的合同、技術(shù)規(guī)范文書。
(4)設(shè)備的售后、保修狀況以及具體聯(lián)絡(luò)人。
3.3 運行維護
從宏觀層面上分析,預(yù)防性管理是運維階段的核心工作內(nèi)容,重點要從以下2個方面:①實施前置式容量管理,加大對用電行為的管理與控制。統(tǒng)一容量預(yù)警管理和現(xiàn)實用電需求、上下電管理,力爭整體把供電、供冷系統(tǒng)的容量均控制在理想范疇中。②推行常態(tài)化的隱患排查整治措施。具體是采用日常巡檢、預(yù)防性維護、專項檢查等方法去辨識隱患風(fēng)險,參照隱患對業(yè)務(wù)的影響范疇、隱患整治階段滋生出的次生風(fēng)險狀況,對風(fēng)險作出綜合性測評,編制最后的隱患整治方案,并規(guī)范化的實施整治措施,力爭將故障問題扼殺于萌芽狀態(tài)中。
3.4 應(yīng)急保障
應(yīng)急預(yù)案是應(yīng)急保障目標(biāo)實現(xiàn)的前提條件,科學(xué)預(yù)測數(shù)據(jù)中心基礎(chǔ)設(shè)施投用階段可能出現(xiàn)的各種狀況,解讀成因以后,系統(tǒng)化的制定應(yīng)急保障預(yù)案,如果面對的是大型數(shù)據(jù)中心,還需要對供電保障方案的級別作出規(guī)劃。
4 結(jié)束語
數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理是業(yè)內(nèi)人員不斷探究的共性課題之一,本文以此為出發(fā)點展開論述,希望能不斷排除故障隱患,將其發(fā)生率降至最低。本文闡述運維管理方法與措施,相關(guān)人員在實踐中可以有選擇性的借鑒,并不斷總結(jié)方法經(jīng)驗,在運維與管理方面做出創(chuàng)新,促進運維工作智能化、安全、高效率推進過程。
參考文獻
[1] 于劉.大型數(shù)據(jù)中心基礎(chǔ)設(shè)施智能化及自動化研究[J].數(shù)字通信世界,2020,17(9):81-82.
[2] 張雷.黑龍江省副省長程志明調(diào)研5G、數(shù)據(jù)中心新型基礎(chǔ)設(shè)施建設(shè)[J].通信管理與技術(shù),2020,31(4):1-2.
[3] 王景艷,劉洋.基于鐵路主數(shù)據(jù)中心云化基礎(chǔ)設(shè)施的災(zāi)備關(guān)鍵技術(shù)研究[J].鐵路計算機應(yīng)用,2020,29(7):11-15.
[4] 梁麗雯.數(shù)據(jù)中心和云需求激增,引爆IT基礎(chǔ)設(shè)施萬億級市場[J].金融科技時代,2020,28(6):94.
[5] 全玉榮.數(shù)據(jù)中心基礎(chǔ)設(shè)施施工進度管理的分析和探討[J].科技經(jīng)濟導(dǎo)刊,2020,28(15):53,52.
[6] 郝峻.數(shù)據(jù)中心基礎(chǔ)設(shè)施智能運維探討[J].電信技術(shù),2019(11):51-55.
[7] 田軍,陳文婷,羅志剛.智能化平臺在數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理中的應(yīng)用[J].現(xiàn)代建筑電氣,2015(9):12-17.
[8] 毛文杰.數(shù)據(jù)中心基礎(chǔ)設(shè)施運維風(fēng)險管理技術(shù)[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2017,30(6):67-71.
[9] 郝峻.數(shù)據(jù)中心基礎(chǔ)設(shè)施智能運維探討[J].電信技術(shù),2019(11):51-55.
[10] 肖正煒.智能化平臺在數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理中的應(yīng)用[J].今日自動化,2019(2):44-45.