班艷麗
摘? ?要:DCIM 是一種能夠?qū)?chǎng)地基礎(chǔ)設(shè)施和IT 設(shè)施納入統(tǒng)一平臺(tái)進(jìn)行監(jiān)控管理的工具,為消除數(shù)據(jù)中心監(jiān)控信息孤島、實(shí)現(xiàn)監(jiān)控管理一體化提供了全新的思路。文章闡述了DCIM系統(tǒng)在上海財(cái)經(jīng)大學(xué)數(shù)據(jù)中心運(yùn)維管理中的具體應(yīng)用,詳細(xì)介紹了數(shù)據(jù)中心資產(chǎn)管理、容量管理、變更管理、電源管理、環(huán)境管理、能源管理六大模塊的精細(xì)化管理,并結(jié)合實(shí)際工作經(jīng)驗(yàn),總結(jié)了DCIM系統(tǒng)在數(shù)據(jù)中心運(yùn)維管理中的建設(shè)價(jià)值。
關(guān)鍵詞:數(shù)據(jù)中心;DCIM;運(yùn)維管理
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)志碼:B 文章編號(hào):1673-8454(2020)01-0054-04
一、引言
隨著信息技術(shù)的發(fā)展,高校數(shù)據(jù)中心的規(guī)模越來越大,設(shè)備數(shù)量已經(jīng)從數(shù)十臺(tái)發(fā)展到數(shù)百臺(tái)、上千臺(tái)。由于高校數(shù)據(jù)中心專職運(yùn)維管理人員普遍較少,運(yùn)行規(guī)范相對(duì)盈利性運(yùn)營(yíng)商數(shù)據(jù)中心有所欠缺。實(shí)現(xiàn)數(shù)據(jù)中心運(yùn)營(yíng)管理的體系化、標(biāo)準(zhǔn)化、規(guī)范化、流程化,保障數(shù)據(jù)中心安全、穩(wěn)定、可靠、節(jié)能、低成本運(yùn)行成為高校數(shù)據(jù)中心發(fā)展的必然趨勢(shì)。
二、DCIM的概念
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理DCIM(Data Center Infrastructure Management)是數(shù)據(jù)中心運(yùn)維管理領(lǐng)域最近幾年興起的一個(gè)熱點(diǎn)。DCIM 是一座溝通場(chǎng)地基礎(chǔ)設(shè)施和IT基礎(chǔ)設(shè)施之間關(guān)系的橋梁,通過一整套包含特定硬件和軟件的管理平臺(tái)與工具,對(duì)數(shù)據(jù)中心內(nèi)的IT關(guān)鍵設(shè)備(如服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等)、場(chǎng)地基礎(chǔ)設(shè)施(配電、制冷、布線、消防等)以及人和制度(運(yùn)維計(jì)劃、SOP、EOP、MOP)等實(shí)施監(jiān)控和統(tǒng)一管理。實(shí)現(xiàn)信息技術(shù)和設(shè)施管理的綜合集成,能夠幫助數(shù)據(jù)中心運(yùn)維管理人員更高效地運(yùn)營(yíng)數(shù)據(jù)中心。
高校數(shù)據(jù)中心一般存在多套監(jiān)控管理子系統(tǒng),如電力系統(tǒng)、消防安防監(jiān)控、空調(diào)監(jiān)控等,但是普遍情況下這些子系統(tǒng)都是獨(dú)立進(jìn)行數(shù)據(jù)采集、統(tǒng)計(jì)分析,僅完成某一項(xiàng)功能。如要獲取數(shù)據(jù)中心整體成本管理、能效管理、容量管理等信息,則需要對(duì)這些子系統(tǒng)的數(shù)據(jù)進(jìn)行整合、挖掘分析,才能對(duì)數(shù)據(jù)中心的實(shí)際運(yùn)維管理產(chǎn)生價(jià)值。DCIM系統(tǒng)則通過對(duì)各子系統(tǒng)的數(shù)據(jù)進(jìn)行整合處理,進(jìn)行數(shù)據(jù)挖掘分析,可以實(shí)現(xiàn)數(shù)據(jù)中心資產(chǎn)管理、電源管理、環(huán)境管理、容量管理、變更管理及能源管理等多項(xiàng)功能,為數(shù)據(jù)中心運(yùn)維管理人員提供科學(xué)決策的依據(jù)。
三、數(shù)據(jù)中心DCIM建設(shè)與運(yùn)維管理實(shí)踐
以上海財(cái)經(jīng)大學(xué)數(shù)據(jù)中心為例,原數(shù)據(jù)存儲(chǔ)機(jī)房2004年建成,主要存放網(wǎng)絡(luò)核心設(shè)備和基礎(chǔ)網(wǎng)絡(luò)服務(wù)器,并接受校內(nèi)各院系、部門服務(wù)器托管的申請(qǐng)。原有機(jī)房設(shè)在學(xué)校教育技術(shù)大樓的三樓,無論是機(jī)柜容量、樓層設(shè)計(jì)承載力與消防安全等指標(biāo),均已不能適應(yīng)學(xué)校教育信息化發(fā)展。學(xué)校于2012年新建了一個(gè)綠色、環(huán)保、節(jié)能和安全的數(shù)據(jù)中心,新的數(shù)據(jù)中心位于教育技術(shù)中心大樓的一樓,機(jī)房共部署8列52個(gè)機(jī)柜,機(jī)房?jī)?nèi)配置了智能PDU、智能KVM等DCIM基礎(chǔ)構(gòu)件。隨著DCIM系統(tǒng)逐漸成熟,2015年我校啟動(dòng)相關(guān)DCIM系統(tǒng)建設(shè)項(xiàng)目,將信息技術(shù)和設(shè)備管理結(jié)合起來對(duì)數(shù)據(jù)中心關(guān)鍵設(shè)備進(jìn)行集中監(jiān)控、集中管理,并通過最近幾年的運(yùn)維管理,逐步實(shí)現(xiàn)IDC機(jī)房的現(xiàn)代化、精細(xì)化管理。
在DCIM項(xiàng)目實(shí)施過程中,我校逐步部署用于IT設(shè)備管理的軟件(DcTrack系統(tǒng))和用于場(chǎng)地基礎(chǔ)設(shè)施管理的軟件(PowerIQ系統(tǒng));每組機(jī)柜安裝AMS-42資產(chǎn)條,每臺(tái)設(shè)備通過資產(chǎn)標(biāo)簽貼AMT與資產(chǎn)條AMS進(jìn)行鏈接;機(jī)柜內(nèi)安裝配置溫濕探頭(每個(gè)機(jī)柜內(nèi)的進(jìn)風(fēng)口上、中、下三個(gè)點(diǎn)采集溫度,中間點(diǎn)采集濕度);同時(shí)每組列頭柜安裝EMX匯聚設(shè)備,與上述每個(gè)機(jī)柜內(nèi)的溫濕探頭及資產(chǎn)條AMS進(jìn)行物理連接。DCIM系統(tǒng)拓?fù)淙鐖D1所示。
通過項(xiàng)目的最終部署完成,上海財(cái)經(jīng)大學(xué)DCIM系統(tǒng)可實(shí)現(xiàn)資產(chǎn)管理、變更管理、容量管理、電源管理、環(huán)境管理、能源管理六大模塊的精細(xì)化管理。下文將對(duì)六大模塊進(jìn)行詳細(xì)說明。
1.資產(chǎn)管理
高校數(shù)據(jù)中心的資產(chǎn)是學(xué)校重要的信息來源及教學(xué)支撐設(shè)備。由于建設(shè)時(shí)間和周期的關(guān)系,很多高校數(shù)據(jù)中心的管理員可能都難以弄清楚自己有哪些資產(chǎn)、每個(gè)資產(chǎn)由誰擁有、這些資產(chǎn)是如何與網(wǎng)絡(luò)連接的及資產(chǎn)的維護(hù)情況如何。很多數(shù)據(jù)中心借助軟件系統(tǒng)(如Excel或Viso)進(jìn)行手工登記和修改,使得實(shí)時(shí)性和時(shí)效性低、使用效率低下,易出現(xiàn)信息過時(shí)、不準(zhǔn)確和不完整的情況,對(duì)數(shù)據(jù)中心運(yùn)維管理人員來說非常痛苦,往往需要花費(fèi)大量的時(shí)間去維護(hù)數(shù)據(jù),保持?jǐn)?shù)據(jù)同步,甚至新舊數(shù)據(jù)還有可能發(fā)生沖突?;贒CIM的資產(chǎn)管理系統(tǒng),有效消除了數(shù)據(jù)中心資產(chǎn)管理中的手工操作、非實(shí)時(shí)更新和“先做后變更”等管理盲點(diǎn),提高了資產(chǎn)管理的精準(zhǔn)化和智能化。
基于DCIM的資產(chǎn)管理系統(tǒng)可以詳細(xì)記錄設(shè)備的品牌型號(hào)等硬件信息,以及設(shè)備是如何安置及連接的、設(shè)備的資產(chǎn)負(fù)責(zé)人/單位、設(shè)備的維護(hù)狀態(tài)等信息。并且支持多種數(shù)據(jù)導(dǎo)入方式:SNMP發(fā)現(xiàn)、使用圖紙導(dǎo)入樓層對(duì)象(如AutoCAD、VISIO)、使用電子數(shù)據(jù)表的導(dǎo)入向?qū)Вㄈ鏓xcel)、Web 服務(wù) API、手工錄入等。另外通過部署資產(chǎn)條及資產(chǎn)標(biāo)簽,系統(tǒng)可自動(dòng)偵測(cè)到機(jī)柜內(nèi)的 IT 設(shè)備連上資產(chǎn)標(biāo)簽,標(biāo)簽所擁有的唯一資產(chǎn)ID及所安裝的相關(guān)IT設(shè)備將被登記到統(tǒng)一的數(shù)據(jù)庫(kù)中。當(dāng)由于添加或拆除某一IT設(shè)備而對(duì)資產(chǎn)標(biāo)簽進(jìn)行變動(dòng)時(shí),自動(dòng)報(bào)警并在事件日志中產(chǎn)生一條事件記錄。
DCIM提供的精細(xì)化、圖形化管理功能,支持對(duì)電源、網(wǎng)絡(luò)鏈路可用端口的查詢,確保在部署階段就能夠一目了然地明確正確的連接方法,進(jìn)而減少安裝錯(cuò)誤。使數(shù)據(jù)中心運(yùn)維管理人員擺脫了過去手摸、眼看等粗放的判斷方式,可實(shí)時(shí)對(duì)供電和網(wǎng)絡(luò)等連接關(guān)系進(jìn)行管理。
資產(chǎn)管理中的可視化設(shè)備網(wǎng)絡(luò)管理及電源管理,極大地提高了運(yùn)維管理人員的工作效率。網(wǎng)絡(luò)管理支持網(wǎng)絡(luò)鏈路的追蹤功能,即從服務(wù)器網(wǎng)卡開始,沿著布線直至端點(diǎn)服務(wù)器,跟蹤每一跳的端口使用情況,如圖2所示。
同樣,電源路徑支持監(jiān)視從主UPS到設(shè)備電源及二者之間所有節(jié)點(diǎn)的電路路徑,通過端到端的方式查看可用電源,可防止添加到某一電源插口的設(shè)備超出電源鏈路內(nèi)任何一個(gè)斷路器的極限值,進(jìn)而可提高正常工作時(shí)間。
2.容量管理
傳統(tǒng)的數(shù)據(jù)中心里,運(yùn)維管理人員幾乎不可能精確地了解在特定時(shí)間點(diǎn)上,到底擁有多少容量、哪些容量正在使用中、哪些容量已經(jīng)計(jì)劃被使用、如何更好地利用這些容量以及預(yù)測(cè)何時(shí)將用盡這些容量。為新IT服務(wù)確定最佳托管位置的日常任務(wù)極具挑戰(zhàn)性。 對(duì)于數(shù)據(jù)中心而言,每1U的容量都是寶貴的資源,因此盡可能提高設(shè)備的利用率,才能有效提高數(shù)據(jù)中心資產(chǎn)的利用率。
基于DCIM的容量管理可為運(yùn)維管理人員提供精確的信息及預(yù)測(cè)和分析工具,可以詳細(xì)地分析整個(gè)數(shù)據(jù)中心還有多少空間、電力、網(wǎng)絡(luò)資源可用,何處有空間可安置新設(shè)備,預(yù)測(cè)機(jī)房資源何時(shí)將被全部用盡,分析如何善加利用現(xiàn)有資源。機(jī)柜內(nèi)有多少電、多少空間、溫濕度、承重均可可視化查詢。機(jī)房運(yùn)維管理人員可通過設(shè)備的型號(hào)或者需要的條件,智能搜索可上架機(jī)柜位置。可以充分利用這些信息,更高效地做出決策。
3.變更管理
人員操作和流程規(guī)范也是數(shù)據(jù)中心運(yùn)維管理過程中需要重點(diǎn)考慮的因素之一。UPTIME的調(diào)查顯示,在以往的數(shù)據(jù)中心安全事故中,人為因素占據(jù)高達(dá)70%。由于高校數(shù)據(jù)中心專職運(yùn)維管理人員普遍較少,在數(shù)據(jù)中心運(yùn)維管理過程中往往缺乏規(guī)范化、流程化的管理手段,無法通過將具體事務(wù)(如日常巡檢、事故處置、更換配件、設(shè)備上下架、資產(chǎn)調(diào)撥報(bào)廢等)標(biāo)準(zhǔn)化、流程化的手段來規(guī)范管理人員的日常工作,在事前規(guī)避風(fēng)險(xiǎn)、事后進(jìn)行快速處置方面存在不可控因素,因此急需對(duì)規(guī)范、流程、制度、崗位職責(zé)等方面進(jìn)行優(yōu)化。
基于DCIM的變更管理,主要分析移動(dòng)、增加、移除設(shè)備會(huì)造成哪些影響,以及誰是變更負(fù)責(zé)人、變更何時(shí)完工、如何知道變更已正確地完成。在數(shù)據(jù)中心運(yùn)維過程中,采用基于角色的流程管理,將運(yùn)維管理人員分為:申請(qǐng)人員、審批人員、操作人員三類,其中申請(qǐng)人員僅需將設(shè)備的型號(hào)、U數(shù)、所需電源、網(wǎng)絡(luò)等信息提交至系統(tǒng),審批人員可根據(jù)DCIM里提供的信息分配設(shè)備位置、電源連接、網(wǎng)絡(luò)連接等信息,并派發(fā)工單至操作人員。即使操作人員對(duì)數(shù)據(jù)中心電源規(guī)劃、網(wǎng)絡(luò)鏈路情況不了解,也可以根據(jù)工單里的信息,輕松完成設(shè)備的上架、變更等操作。通過嚴(yán)格的工作流程,確保每一步的流程規(guī)范可查詢,降低了數(shù)據(jù)中心運(yùn)維管理過程中隨意化操作的風(fēng)險(xiǎn),使整個(gè)運(yùn)維管理更為直觀、可控,管理流程如圖3所示。
4.電源管理
數(shù)據(jù)中心電費(fèi)的支出在運(yùn)維費(fèi)用中占了相當(dāng)大的比例,因此,實(shí)時(shí)查看IT設(shè)備和基礎(chǔ)設(shè)施設(shè)備的能耗,降低綜合能源消耗及運(yùn)維成本,在整個(gè)數(shù)據(jù)中心運(yùn)維過程中是非常重要的。
基于DCIM的電源管理,可分析當(dāng)前數(shù)據(jù)中心已使用了多少電、還剩多少電可以用、如何確保上線及可靠度、如何安置高密度設(shè)備等信息??赏ㄟ^儀表盤和曲線圖的方式查看用電情況和溫濕度(展示內(nèi)容可定制),并根據(jù)要求生成各種分析報(bào)告,并且支持通過耗電數(shù)據(jù)、電源容量預(yù)測(cè)趨勢(shì)圖等方式來確定當(dāng)前和未來的限值,分析負(fù)荷數(shù)據(jù)的趨勢(shì)。從而幫助數(shù)據(jù)中心運(yùn)維管理人員有效定位空載或者低負(fù)載的服務(wù)器,以便對(duì)這些資源進(jìn)行負(fù)載整合或者下架。同時(shí)結(jié)合IT設(shè)備的生命周期管理及服務(wù)器的能耗數(shù)據(jù),幫助運(yùn)維管理人員提前做出規(guī)劃和預(yù)算,進(jìn)而淘汰一些老舊卻又能耗較高的設(shè)備,使數(shù)據(jù)中心更加節(jié)能增效。
5.環(huán)境管理
高校數(shù)據(jù)中心的運(yùn)行需保證為IT設(shè)備提供合理的工作環(huán)境,以確保正常工作時(shí)間及滿足能效要求。運(yùn)維管理人員需要監(jiān)視并確保流入IT設(shè)備的空氣溫度和濕度是在有關(guān)標(biāo)準(zhǔn)和規(guī)范建議的范圍內(nèi)(如ASHREA、GB-50174、GB-50462、GB-50243等)。在保持關(guān)鍵任務(wù)系統(tǒng)正常工作時(shí)間的同時(shí),最大程度地提高能效。
基于DCIM的環(huán)境管理,可有效管理熱點(diǎn)(hot spots)、分析如何節(jié)省能源、如何提供及維護(hù)一個(gè)安全的環(huán)境給所有的設(shè)備。通過在每機(jī)柜內(nèi)部署上、中、下三個(gè)點(diǎn)的探頭進(jìn)行微環(huán)境數(shù)據(jù)采集,可以監(jiān)測(cè)到機(jī)柜內(nèi)三個(gè)不同點(diǎn)的溫度和濕度,并根據(jù)要求可以查看任意時(shí)間段各機(jī)柜內(nèi)的溫濕度,通過算法行程及時(shí)更新、自動(dòng)變化的溫濕度圖,實(shí)現(xiàn)微環(huán)境的管理與分析。后期如有需要,還可以增加氣流、氣壓、機(jī)柜門開合等探頭。如圖4所示。
6.能源管理
為了滿足低投入、多產(chǎn)出的愿望及克服資產(chǎn)限制,要求高校數(shù)據(jù)中心運(yùn)維管理人員擁更好的信息,以有效地管理數(shù)據(jù)中心?;贒CIM的能源管理可幫助運(yùn)維管理人員分析如何節(jié)省能源、目前能源的總花費(fèi)、誰正在使用多少能源、如何提供及維護(hù)一個(gè)安全的環(huán)境給所有的設(shè)備。根據(jù)需求,分析需要的測(cè)量數(shù)據(jù),如功率、電流、電費(fèi)、溫濕度、碳排放數(shù)據(jù)等;并可根據(jù)需要,分析生成各種能源信息報(bào)表,支持學(xué)校可持續(xù)性發(fā)展綠色計(jì)劃,用于學(xué)校報(bào)告、趨勢(shì)分析和管理等。
四、DCIM項(xiàng)目實(shí)施難點(diǎn)
DCIM理論和框架在我校項(xiàng)目落地實(shí)施時(shí)也存在一些難點(diǎn),主要體現(xiàn)在兩個(gè)方面:
1.項(xiàng)目實(shí)施初期的數(shù)據(jù)梳理工作
項(xiàng)目實(shí)施初期,需要對(duì)數(shù)據(jù)中心設(shè)備的基礎(chǔ)數(shù)據(jù)進(jìn)行大量校對(duì)與清查。主要包括電源連接信息(從設(shè)備依次至PDU、配電柜、UPS等連接信息)、設(shè)備信息(包括設(shè)備品牌型號(hào)、名稱、安裝位置、U數(shù)等信息)和網(wǎng)絡(luò)連接信息(從設(shè)備至配線架、網(wǎng)絡(luò)交換機(jī)等連接信息),需將準(zhǔn)確數(shù)據(jù)批量導(dǎo)入到系統(tǒng)中。當(dāng)DCIM系統(tǒng)建設(shè)完成后,維護(hù)人員只需按照規(guī)范進(jìn)行簡(jiǎn)單的數(shù)據(jù)維護(hù),就能輕松實(shí)現(xiàn)數(shù)據(jù)中心資產(chǎn)信息的準(zhǔn)確管理。
2.數(shù)據(jù)中心運(yùn)維制度管理
DCIM系統(tǒng)建設(shè)完成后,為確保設(shè)備信息準(zhǔn)確,需要數(shù)據(jù)中心所有運(yùn)維管理人員改變已有的流程和工作習(xí)慣,嚴(yán)格按照設(shè)備上線/變更流程進(jìn)行操作。而在DCIM系統(tǒng)上線初期,運(yùn)維管理人員對(duì)新的規(guī)范執(zhí)行也不是一步到位,而是一個(gè)持續(xù)改進(jìn),不斷適應(yīng),直至完全按照規(guī)范操作的過程。
五、基于DCIM的數(shù)據(jù)中心運(yùn)維成效
DCIM上線運(yùn)行4年來,通過與我校歷史數(shù)據(jù)對(duì)比發(fā)現(xiàn):數(shù)據(jù)中心資源定位查找的準(zhǔn)確性基本提高了20%;運(yùn)維管理人員進(jìn)入機(jī)房的頻次大約減少30%;資源的實(shí)時(shí)情況掌握度提升40%;報(bào)告及報(bào)表80%改為自動(dòng)化導(dǎo)出。DCIM系統(tǒng)實(shí)現(xiàn)了數(shù)據(jù)中心基礎(chǔ)設(shè)施資產(chǎn)信息的統(tǒng)一管理,實(shí)現(xiàn)了數(shù)據(jù)中心多應(yīng)用全方位數(shù)據(jù)的統(tǒng)一自動(dòng)收集,為數(shù)據(jù)中心運(yùn)維管理提供了基礎(chǔ)數(shù)據(jù)支撐。
通過DCIM的能源管理,可以更加針對(duì)性地進(jìn)行能耗管理與調(diào)配,實(shí)現(xiàn)機(jī)房供電優(yōu)化、制冷優(yōu)化、容量管理優(yōu)化及節(jié)能降耗的效果,優(yōu)化了能源使用,提高了成本效率。通過DCIM的資產(chǎn)管理,提高了數(shù)據(jù)中心設(shè)備自動(dòng)化管理水平,使數(shù)據(jù)準(zhǔn)確性、及時(shí)性得到提升,日常頻繁的資產(chǎn)清查工作壓力得到釋放。通過設(shè)備連線關(guān)系的展現(xiàn)與管理,方便了維護(hù)人員進(jìn)行故障排除、信息查詢、操作指導(dǎo)等工作。通過規(guī)范數(shù)據(jù)中心的工作流程,大幅提高了工作效率,實(shí)現(xiàn)了數(shù)據(jù)中心綜合運(yùn)維管理能力的提升。
六、結(jié)束語
在信息集中共享和大數(shù)據(jù)的時(shí)代,數(shù)據(jù)中心后期的運(yùn)維管理也越來越引起重視。DCIM系統(tǒng)在整個(gè)數(shù)據(jù)中心運(yùn)維管理中起到了積極作用,可以在一定程度上保障數(shù)據(jù)中心機(jī)房運(yùn)行的安全,為業(yè)務(wù)穩(wěn)定、高效、低能耗發(fā)展奠定了基礎(chǔ)。DCIM系統(tǒng)有效提升了數(shù)據(jù)中心的運(yùn)行效率,將孤立存在的各個(gè)數(shù)據(jù)中心監(jiān)控及管理系統(tǒng)進(jìn)行有效整合,實(shí)現(xiàn)了數(shù)據(jù)中心信息的互聯(lián)互通與融合,為未來大數(shù)據(jù)挖掘奠定扎實(shí)基礎(chǔ)。
參考文獻(xiàn):
[1]黃鍇.數(shù)據(jù)中心基礎(chǔ)設(shè)施管理DCIM 綜述[J].智能建筑與城市信息,2012(11):39-41.
[2]黃鍇,潘秀青.邁向DCIM時(shí)代的數(shù)據(jù)中心智能網(wǎng)絡(luò)布線管理[J].智能建筑與城市信息,2012(5):32-35.
[3]何新年,安真,葉雷霖.DCIM與數(shù)據(jù)中心基礎(chǔ)設(shè)施管理[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2016(4):46-50.
[4]任華華.IDC運(yùn)營(yíng)的大數(shù)據(jù)分析與DCIM[J].工程建設(shè)標(biāo)準(zhǔn)化,2016(5):70-74.
[5]丁聰,沈巍.數(shù)據(jù)中心DCIM統(tǒng)一運(yùn)營(yíng)支撐系統(tǒng)建設(shè)需求分析[J].電信技術(shù),2017(8):111-115,123.
(編輯:王曉明)