摘 要:數(shù)據(jù)中心機房管理難度在很大層面上表現(xiàn)在設(shè)備檔次與先進技術(shù)層面,而主動積極高度負責發(fā)揮每一個管理人員的能動性,是提高數(shù)據(jù)中心機房管理效能的有效途徑。認清數(shù)據(jù)中心機房工作原理和提高管理效能數(shù)據(jù)中心機房的主動管理不可或缺的任務(wù)。環(huán)保低耗、運行穩(wěn)定、運轉(zhuǎn)高效,參照ISO的標準,是不斷促進數(shù)據(jù)中心機房管理水平提檔升級目標。
關(guān)鍵詞:數(shù)據(jù)中心;機房管理;效能研究
隨著數(shù)據(jù)中心規(guī)模的擴大,云計算、虛擬化和大數(shù)據(jù)項目越來越多的走進數(shù)據(jù)中心機房,數(shù)據(jù)大集中已成為一種趨勢,越來越多的政府和企事業(yè)單位機構(gòu)紛紛建立大型數(shù)據(jù)中心。如何提高數(shù)據(jù)中心機房管理效能,以支撐各項繁雜業(yè)務(wù)的安全穩(wěn)定和持續(xù)運行,是擺在我們第一個工程技術(shù)人員和管理者面前重要問題。數(shù)據(jù)中心機房作為整個業(yè)務(wù)系統(tǒng)的核心區(qū)域,機房內(nèi)設(shè)備眾多,互相協(xié)調(diào)性高,必須建立一套完善有效的環(huán)境監(jiān)控系統(tǒng),對機房內(nèi)設(shè)備運行環(huán)境和機電設(shè)備的運行狀況進行嚴密監(jiān)測,對各種故障的報警情況和可能的設(shè)備早期預(yù)警狀況做出及時報警,予以相應(yīng)處理,使事故消除在萌芽狀態(tài)。
一般認為,數(shù)據(jù)中心機房管理難度在很大層面上表現(xiàn)在設(shè)備檔次與先進技術(shù)層面,畢竟一個龐大的數(shù)據(jù)中心機房系統(tǒng)需要不斷的進行監(jiān)控和維護。然而筆者通過自己十多年的工作實踐和兄弟單位的管理經(jīng)驗分析,主動積極高度負責發(fā)揮每一個管理人員的能動性,是提高數(shù)據(jù)中心機房管理效能的有效途徑。除了一系列的數(shù)據(jù)中心機房規(guī)章制度有效制定外,管理和工程技術(shù)人員積極、主動負責任地工作是提升數(shù)據(jù)中心機房管理效能的不二選擇。本人就提高了解機房特征,實事求是地敏捷管理,切實提高機房實現(xiàn)數(shù)據(jù)中心穩(wěn)定、安全、綠色、高效可靠運行進行了一些思考,希望能對同行有所啟發(fā)。
1 認清數(shù)據(jù)中心機房工作原理提高管理效能
做為機房管理者對所管理的機房全貌應(yīng)有充分的了解,分門別類劃分機房管理事項,避免不必要的混亂。首先,數(shù)據(jù)中心機房管理環(huán)境監(jiān)控系統(tǒng)工程是機房環(huán)境建設(shè)與多媒體信息化技術(shù)結(jié)合的完美體現(xiàn)。它經(jīng)歷了從早期傳統(tǒng)模擬總線方式到數(shù)字網(wǎng)絡(luò)方式的轉(zhuǎn)變。隨著該系統(tǒng)技術(shù)的發(fā)展,目前已全面進入了數(shù)字化發(fā)展階段。其次,現(xiàn)階段通過機房環(huán)境監(jiān)控系統(tǒng),可以實現(xiàn)4個目標:為機房內(nèi)各系統(tǒng)及設(shè)備運行提供高度穩(wěn)定可靠的監(jiān)控信息資源;節(jié)省機房運行管理費用,達到短期投資長期受益的目的;確保提高機房管理工作效率并提供安全舒適的工作環(huán)境;適應(yīng)發(fā)展需要,做到具有可擴展與可變性,適應(yīng)環(huán)境的變化和工作性質(zhì)的多樣化。再次,為了便于對整個機房環(huán)境設(shè)備進行統(tǒng)一管理,機房環(huán)境監(jiān)控系統(tǒng)的整體架構(gòu)通常采用分布式3層模塊化結(jié)構(gòu),分為管理操作層、數(shù)據(jù)通訊層及現(xiàn)場采集層。
現(xiàn)場采集層主要指各機房內(nèi)的機電設(shè)備運行數(shù)據(jù)、供配電系統(tǒng)數(shù)據(jù)、機房環(huán)境參數(shù)數(shù)據(jù)的采集設(shè)備,并通過RS485/RS232(串行通訊接口協(xié)議)總線方式上傳給數(shù)據(jù)通訊層進行統(tǒng)一的數(shù)據(jù)轉(zhuǎn)換;現(xiàn)場采集層設(shè)備主要包括二氧化碳傳感器、漏水檢測系統(tǒng)、溫濕度傳感器及其他相關(guān)機電設(shè)備、供配電設(shè)備提供的數(shù)據(jù)通訊接口。機房管理范圍大致可如下劃分:強電部分包括機房內(nèi)所有市電供電的設(shè)備及相應(yīng)的配套設(shè)施;弱電方面包括機房內(nèi)運行的IT設(shè)備和相應(yīng)的配套設(shè)施。還應(yīng)認識整個機房獨立禁水的消防體系、所有保密要求的設(shè)備和相關(guān)保密防護和包括所有機房備件、工具及臨時進出機房設(shè)備。數(shù)據(jù)中心是熱密度高的環(huán)境與場所,數(shù)據(jù)中心內(nèi)的計算機服務(wù)器等IT設(shè)備對機房的環(huán)境有較高的要求。數(shù)據(jù)中心機房應(yīng)用場地內(nèi),其服務(wù)對象服務(wù)器、交換機、路由器、存儲等IT類設(shè)備,對機房有著相同的要求。
2 數(shù)據(jù)中心機房的主動管理不可或缺
為保證機房及時響應(yīng)配備的24小時不間斷技術(shù)管理人員。管理人員為機房能夠安全、可靠、穩(wěn)定運行,制定的機房管理制度。內(nèi)容應(yīng)包括機房一般的公共道德準則、人員進出制度、設(shè)備進出制度、消防安全制度、檔案制度、日常巡視制度、值班人員配備制度。管理制度為機房制定,但數(shù)據(jù)中心機房管理,光靠管理制度是不全面的,管理人員的積極主動、進出設(shè)備的嚴格審查、故障響應(yīng)時間的及時與否、預(yù)判故障的預(yù)備方案、和及時維護,都是完善機房管理必不可少的工作。
2.1 強電管理是機房運行穩(wěn)定的基礎(chǔ)
在正常的機房強電管理中,管理者更多的是關(guān)心跳閘停電、UPS故障、機房負荷增減等。因為,1)市電停電會直接導(dǎo)致動力系統(tǒng)、空調(diào)和照明的停運;2)UPS故障會直接導(dǎo)致整個機房IT設(shè)備的非正常斷電;3)而機房超負荷的運轉(zhuǎn)也將直接導(dǎo)致跳閘的非正常斷電。這些就需要機房管理者對機房強電供電、UPS冗余、供電系統(tǒng)額定負載有實時的掌控,預(yù)先準備應(yīng)急預(yù)案,以便及時處理相應(yīng)故障;積極了解機房強電運行中數(shù)據(jù)變化的成因,可以有效的避免不必要的故障損失。同時,合理、有效的運行數(shù)據(jù)中心機房強電供應(yīng),是每個機房管理者提高能源效率的主導(dǎo)思想。
2.2 弱電管理是數(shù)據(jù)中心機房的核心
一個大型的數(shù)據(jù)中心機房,在廣泛的網(wǎng)絡(luò)布局中,起到核心節(jié)點和核心主干作用,有效的保證了網(wǎng)絡(luò)的正常、穩(wěn)定、可靠運行。隨著互連網(wǎng)的發(fā)展,信息的爆炸,網(wǎng)絡(luò)的不斷提速和保密需求的提高,機房管理者應(yīng)主動對管理范圍內(nèi)的網(wǎng)絡(luò)端口分配、流量控制、防火墻的配置設(shè)定、甚至對機房網(wǎng)絡(luò)延伸出去各個網(wǎng)絡(luò)小節(jié)點運行情況的做必要了解,針對不同的應(yīng)用需求制定不同的配置、限量、要求和防御,網(wǎng)絡(luò)就象是虛擬的道路,道路的暢通,穩(wěn)定的保障了數(shù)據(jù)價值的體現(xiàn)。預(yù)先做好網(wǎng)絡(luò)故障應(yīng)對的一系列的必要準備措施、預(yù)案可極大減少因網(wǎng)絡(luò)故障帶來的不必要的損失。
2.3 消防管理應(yīng)根據(jù)規(guī)范嚴格操作
整個機房的消防系統(tǒng)成獨立體系,不光是機房的特殊要求(禁水),也是機房重地的必須配備。除了必要的監(jiān)測報警,管理者應(yīng)主動對消防系統(tǒng)定時定量的檢查,制定機房消防管理制度并嚴格實施。適當主動的調(diào)整機房新風、排風開關(guān),能及時排除機房異味、通暢風道,保證機房有個良好的運行環(huán)境。定期的培訓消防系統(tǒng)的簡單操作和維護常識、預(yù)備好故障響應(yīng)方案,可以有效避免忙中出錯。
2.4 監(jiān)控管理是機房穩(wěn)定運行
每個大型機房都有自己獨立的安防和監(jiān)控系統(tǒng),這也是管理者全面、積極管理機房的必要工具。通過監(jiān)控系統(tǒng),管理者可以實時掌握整個機房運行環(huán)境的異常變化,針對機房動力環(huán)境和網(wǎng)絡(luò)運行特點,應(yīng)積極主動的運行管理機制。對有保密要求的設(shè)備應(yīng)采取積極有效的監(jiān)管和提醒。對當日的監(jiān)控應(yīng)有記錄保存,一定時期應(yīng)對監(jiān)控范圍內(nèi)的數(shù)據(jù)有個匯總和總結(jié),這對機房管理質(zhì)量的提高提供了基本的依據(jù)。
3 精準安全管理確保數(shù)據(jù)中心機房穩(wěn)定不間斷運行
精準安全的保障安防是機房必不可少的系統(tǒng)。機房重地,上至國家保密設(shè)備,下到各個單位項目數(shù)據(jù)的收集設(shè)備,無論從重要性,還是從必要性,都要求機房管理者制定嚴格的機房進出管理制度,并對機房中任何變動都要安排人員有效的監(jiān)督實行和記錄。網(wǎng)絡(luò)安全防御監(jiān)控,雖然現(xiàn)在有軟件對各個進出端口有實時監(jiān)控顯示和報警記錄提示,還是有必要人為主動的定時統(tǒng)計、分析網(wǎng)絡(luò)運行數(shù)據(jù),及時的掌握整個網(wǎng)絡(luò)在一段時間中運行的發(fā)展變化,網(wǎng)絡(luò)上的防火墻更是要在機房內(nèi)不斷新增項目時,根據(jù)不同的要求,制定不同的防御策略。特別是有網(wǎng)絡(luò)物理隔離需求的,更是要求管理者經(jīng)常性、定時、甚至是常侍監(jiān)控軟件邊上,以便及時發(fā)現(xiàn)或聽到違規(guī)報警提示。
對有保密要求的設(shè)備進行針對性管理。一是對機房中有特殊要求的設(shè)備、線路的管理應(yīng)對措施和設(shè)施,嚴格按照保密管理條例執(zhí)行。二是管理人員的保密工作,機房管理者應(yīng)對自己的工作具備基本的職業(yè)道德,不泄露任何有關(guān)機房內(nèi)的任何信息,每個上崗人員上崗前應(yīng)主動培訓,著重申明機房管理保密的重要性和嚴重性,甚至設(shè)定專人專項負責特定的保密項目管理維護,認真做好每個維護記錄。數(shù)據(jù)中心機房的安全可靠運行,是每個機房管理者追求的目標。長期運行的設(shè)備客觀上存在著運行風險,另外也可能由于人員的疏忽大意造成風險。為科學、有效地管理機房,促進網(wǎng)絡(luò)系統(tǒng)安全的應(yīng)用、高效運行,機房管理人員應(yīng)認請潛在風險,并制定相應(yīng)的規(guī)章制度,并嚴格按要求執(zhí)行。
此外,防止病毒侵害是機房安全管理的重要內(nèi)容。為落實責任,運行單位需要指定專門的機房管理人員負責維護設(shè)備運行安全。服務(wù)器必須安裝常用殺毒軟件、經(jīng)常升級系統(tǒng)補丁,并定期更改用戶口令。此外,要即時監(jiān)控網(wǎng)絡(luò)數(shù)據(jù)流,從中檢測出攻擊行為并給予響應(yīng)和處理。要統(tǒng)一管理計算機及相關(guān)設(shè)備,完整保存計算機及其相關(guān)設(shè)備的驅(qū)動程序、保修卡及重要隨機文件。
4 機房管理突出協(xié)同提高運行效能
現(xiàn)階段因為IT行業(yè)的專業(yè)性,很多機房、網(wǎng)絡(luò)都時新技術(shù)外包維護,但數(shù)據(jù)中心機房因其特殊性和保密性,需要對機房進行有效的、可靠的、穩(wěn)定的技術(shù)支持保障,更需要對中心機房內(nèi)的特殊設(shè)備認真的、有針對性的管理。外包不僅保密要求難以完全達到,機房分散的專業(yè)外包,對機房的管理會導(dǎo)致推卸責任、進出紊亂及無關(guān)不管的現(xiàn)象。好的機房管理應(yīng)是一條龍連續(xù)的管理,無論是事物還是人員,都要做到有問題,實時響應(yīng),及時處理,避免出現(xiàn)卡殼、停滯、延遲現(xiàn)象發(fā)生。
對整個的機房管理而言,定立完善的管理制度后,為了方便管理的一目了然,適當對關(guān)鍵事、物、制度、懲罰等明告張貼上墻,可以讓機房管理更加的井井有條。如對強電、弱電等主干用拓撲圖方式掛出,方便查找核對,節(jié)省時間;再如警示、警標、關(guān)鍵空開掛牌等,無論從危險性和重要性,都是必不可少的措施。在防泄密方面:由于機房內(nèi)服務(wù)器的存儲內(nèi)容涉及機關(guān)單位機密,一旦泄露會對機關(guān)單位造成無法估量的影響。防泄密也被提到議事日程,要安排專人負責安全防護工作,可采取指紋識別、安全門禁等方式,禁止非工作人員進入機房。
2009.12.11發(fā)布,2010.1.1實施的《通信機房安全管理總體要求》,著重規(guī)范了通信機房消防安全管理、生產(chǎn)安全管理和保衛(wèi)安全管理。數(shù)據(jù)中心機房因不完全是通信業(yè)務(wù),還有大量數(shù)據(jù)存儲、分析、計算、發(fā)布等功能,配合各個業(yè)務(wù)項目的實施,機房管理者因?qū)γ總€進機房的業(yè)務(wù)項目的設(shè)備,根據(jù)本機房的具體情況,審核并分配新進設(shè)備的空間、用電負荷、線纜進出方向等;特殊保密要求的,還要根據(jù)保密規(guī)范,新增通道、空間等?,F(xiàn)今許多數(shù)據(jù)中心機房的智能化管理均在摸索中,成熟、簡潔、低成本的智能化管理有待突破創(chuàng)新。
總之,優(yōu)秀的數(shù)據(jù)中心機房管理者,除了制定嚴格機房管理制度,還應(yīng)當根據(jù)機房運行中的具體要求,積極、主動的完善機房管理,做到管理中制度條理清晰、記錄清楚、檔案齊全、整理清潔、環(huán)保低耗、運行穩(wěn)定、運轉(zhuǎn)高效,參照ISO的標準,不斷促進數(shù)據(jù)中心機房管理水平提檔升級。
[參考文獻]
[1]陳昌廣,陳正奎.數(shù)據(jù)中心機房設(shè)備與線纜管理系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件》.2012年 第6期.
[2]錢猛,王慶亞.開放實驗室的建設(shè)與管理[J].實驗科學與技術(shù),2008,6(1):123-125.
[3]王代君.談計算機基礎(chǔ)實驗室的設(shè)備維護與管理[J].實驗室研究與探索,2005,24(7).
[4]郭曉明.數(shù)據(jù)中心能耗分析與治理.機房技術(shù)與管理[J].2010年03期.
[5]黃起豹.傳統(tǒng)制造業(yè)數(shù)據(jù)中心機房建設(shè)與管理[J].機房技術(shù)與管理.2012-3-8.
作者簡介:楊永偉,南京市信息中心網(wǎng)絡(luò)運行管理處,工程師。