李明江(中國移動國際信息港建設中心,北京 102206)
DCIM系統(tǒng)在數據中心部署中存在的問題探討
李明江
(中國移動國際信息港建設中心,北京 102206)
探討了目前大型數據中心在部署DCIM過程中遇到的問題,結合運維管理的需求和運維經驗提出對DCIM部署的一些建議。指出DCIM在國內數據中心行業(yè)的應用尚處于起步階段,但隨著數據中心運維管理人員對降低能耗和提高運營效率的關注度不斷提高,必將推動DCIM在數據中心的發(fā)展。
數據中心;DCIM;運維管理;用戶需求
李明江(1978-),男,工程師,從事數據中心基礎設施運維管理、節(jié)能技術應用方面的工作。
數據中心基礎設施管理(Data Center Infrastructure Management,DCIM)結合信息技術和設備管理,對數據中心關鍵設備進行集中監(jiān)控、容量規(guī)劃等集中管理。通過軟件、硬件和傳感器等,DCIM提供一個獨立的管理平臺,對數據中心IT設備和基礎設施進行實時監(jiān)控和管理。DCIM是數據中心運維管理方面的一個較新應用,隨著近期國內數據中心建設的高速發(fā)展,DCIM理念在數據中心行業(yè)得到廣泛認可。
本文結合DCIM在實際部署中遇到的問題,從運維管理角度探討對DCIM的認識和了解,并提出一些解決問題的建議。
目前,國際主流DCIM供應商在國外數據中心行業(yè)取得了較好的業(yè)績。近年來隨著國內數據中心建設的高速增長,國外廠商紛紛進入國內數據中心市場,與國內廠商進行市場角逐。國內外DCIM廠商對DCIM的理解主要存在以下差異。
1.1 對DCIM概念的理解
國際主流廠商認為DCIM是橫跨傳統(tǒng)不間斷電源(Uninterruptible Power Supply,UPS)、空調等關鍵基礎架構管理及IT設施管理的綜合管理平臺,實現(xiàn)對數據中心的資產和資源管理及關鍵基礎設施與IT設施運營的緊密結合?;A設施涵蓋數據中心配電、制冷等關鍵基礎設施及服務器等IT設施,并包括綜合布線、空間資源等管理。
國內DCIM廠商通常認為基礎設施是指電源和空調等關鍵基礎設施,多不涉及IT設施的管理,因此其提供的DCIM產品功能也多不包括IT設施的管理。
1.2 功能定位
DCIM主要目的是通過統(tǒng)一平臺實時收集資產信息、資源使用情況及各個組件的運行狀態(tài),對這些信息進行分類、聚合和分析,并加以應用,從而提升數據中心運營管理的效率和水平。DCIM的價值不僅在于設備動態(tài)維護,同時包括設備的靜態(tài)資產管理、機房資源管理和設備連接管理,并涵蓋系統(tǒng)影響分析及設備管理、變更規(guī)劃管理和運營流程管理范疇。
目前,國內市場上的DCIM仍以傳統(tǒng)動環(huán)監(jiān)控功能(監(jiān)控和報表)為主,在數據中心的資產管理和資源管理等方面,與國際成熟產品還存在較大的差距。
近年來,DCIM在國內數據中心行業(yè)的認可度和關注度得到穩(wěn)步提升,但目前仍缺乏大型數據中心成功部署的案例,一些在中、小型數據中心取得良好業(yè)績的廠商在實施大型數據中心DCIM時卻遇到很多困難。
2.1 系統(tǒng)組網結構
DCIM產品的網絡結構以三層居多,即數據采集層(對高低壓配電設備、柴油發(fā)電機組、冷水機組、冷卻塔、水泵、UPS、蓄電池、空調和智能電表等進行數據采集)、聚合層(包括變配電子系統(tǒng)、動環(huán)子系統(tǒng)、冷機群控子系統(tǒng)、樓控子系統(tǒng)等)、服務層(數據庫、存儲設備和呈現(xiàn)等)和顯示層(用戶界面、監(jiān)控大屏)。在數據采集層,通常采用Modbus協(xié)議或RS-485總線通過輪巡的方式對總線上的所有末端智能設備進行數據采集,并將輪詢結果按照標準協(xié)議上報給數據庫。
對采集設備逐個輪巡需要一定的時間周期,在中、小型數據中心應用效果良好的DCIM產品,在大型數據中心部署時如仍按在中、小數據中心部署實施的網絡架構進行設計,會由于系統(tǒng)規(guī)模的增大、輪巡方式造成系統(tǒng)反應遲鈍等問題而變得非常突出,甚至嚴重影響監(jiān)控的使用功能。因此,在部署大型DCIM系統(tǒng)時,應對網絡架構及通信方式充分論證,并進行嚴格的測試。
因此,設計和部署大型數據中心的DCIM時需要充分評估系統(tǒng)的規(guī)模,特別是數據采集周期。DCIM的網絡架構一旦構建完成,后期再做改動困難極大,不僅需付出數倍時間,造成資金的浪費,甚至可能嚴重損害產品聲譽。
2.2 缺乏對用戶需求的了解
DCIM開發(fā)人員多數并不具備數據中心的運維管理經驗,對DCIM最終用戶的實際需求缺乏深入的了解,往往造成所開發(fā)的功能與用戶需求存在巨大差距,甚至完全脫節(jié)。一旦與需求脫節(jié)不僅影響項目如期交付,而且后期如要更改困難更大。
每個數據中心的管理模式、安全保障等級、承載業(yè)務類型和設備選型等都不相同,因此每個數據中心運維管理部門對DCIM功能的需求、使用習慣等差異很大,每個DCIM產品都應當是個性化平臺。以蓄電池監(jiān)控功能為例,大型數據中心蓄電池數量非常龐大,蓄電池性能的監(jiān)控依賴于DCIM系統(tǒng)提供的數據,同時受限于每個數據中心供電系統(tǒng)架構、蓄電池后備時間和產品選型等因素,DCIM系統(tǒng)中針對蓄電池的告警閾值、放電終止電壓、蓄電池采樣周期等要求也不同。DCIM開發(fā)人員如果對此類個性化維護需求了解不明確,往往造成開發(fā)的功能與使用需求脫節(jié),影響用戶的滿意度。
2.3 產品缺乏標準化、規(guī)范化
大型數據中心的基礎設施規(guī)模龐大,設備種類、品牌、型號多樣,且在建設變配電、制冷系統(tǒng)和樓宇自動控制等系統(tǒng)時,業(yè)主方往往會在采購硬件設備時采購相應的軟件系統(tǒng),例如冷機群控系統(tǒng)、變配電系統(tǒng)、樓控系統(tǒng)等子系統(tǒng)(供應商都是整個系統(tǒng)供應的)。由于行業(yè)規(guī)范對各子系統(tǒng)的通信協(xié)議標準制約不夠,DCIM提供商需針對每個子系統(tǒng)專門開發(fā)接口,在DCIM部署過程中DCIM廠商也很難協(xié)調第三方子系統(tǒng)供應商按照統(tǒng)一標準提供數據接口,造成DCIM實際連接困難。DCIM的建設除實現(xiàn)對硬件設備直接進行數據采集外,還需對第三方軟件子系統(tǒng)進行個性化集成。
數據中心基礎設施的差異性造成各DCIM系統(tǒng)的個性化,這是DCIM遲遲無法實現(xiàn)標準化的原因之一。由于缺乏統(tǒng)一標準和規(guī)范,數據中心在部署DCIM時需要解決以下幾方面問題。
(1)設備信息命名標準化:設備信息包括被監(jiān)控設備的開關量、模擬量、告警名稱等信息。需要對不同品牌、不同型號的同類設備和同類監(jiān)控信息的命名進行規(guī)范和統(tǒng)一,以提高監(jiān)控識別率。
(2)告警分級標準化:按照數據中心業(yè)務重要性,應對所有被監(jiān)控設備的告警進行分級,以便監(jiān)控人員及時發(fā)現(xiàn)問題。另外,蓄電池、環(huán)境溫/濕度等監(jiān)控信息還應實現(xiàn)多級告警。
(3)采樣周期標準化:針對被監(jiān)控設備的特性對采集周期進行分類,在系統(tǒng)建設初期應充分評估擬采用的網絡架構和預期的采樣周期和刷新頻率,明確各類設備的采樣周期,避免后期產生爭議。例如,蓄電池在正常浮充狀態(tài)下可適當延長采集周期,以顯著降低傳輸數據量,提高系統(tǒng)響應速度;當蓄電池處于放電階段時則觸發(fā)短延時,確保放電過程準確記錄。通過對設備分類和優(yōu)化數據采集頻率,可顯著降低數據采集量和存儲量。
(4)數據存儲機制標準化:大型數據中心DCIM系統(tǒng)采集的數據量非常龐大,缺乏良好的數據存儲機制不僅增加初期硬件投資,還會造成系統(tǒng)穩(wěn)定性下降。通過優(yōu)化存儲機制,可減少入庫數據量,對大型數據中心部署DCIM具有重要的意義。
(5)功能需求明確化:在DCIM部署前,與需求部門深入溝通數據容量管理、能耗管理和流程管理等功能需求,在部署中定期溝通開發(fā)情況,避免功能與需求脫節(jié),以減少開發(fā)成本和壓縮開發(fā)周期。
2.4 與ITIL理念的融合
將IT基礎架構庫(IT Infrastructure Library,ITIL)的流程化管理理念融合到數據中心基礎設施的運維管理中受到了行業(yè)的認可,目前推出DCIM平臺的流程化運維管理基本參考ITIL制定的。不同數據中心管理體系不同,造成流程需求的差異化,因此DCIM系統(tǒng)中的運維流程應具備靈活的配置和調整功能,以滿足不同客戶需求。
2.5 管理功能不完善
DCIM優(yōu)勢在于其管理功能,通過系統(tǒng)的容量管理、資產管理和空間管理等管理功能,幫助最終用戶提高數據中心的運行效率。管理功能的實現(xiàn)需要很復雜的采集、統(tǒng)計和算法,因此DCIM作為數據中心行業(yè)的新技術、新應用,參考的成功案例較少。目前,多數產品在管理功能方面還處于概念化層面,能幫助客戶提高數據中心運行效率的功能還較少。
從國內數據中心行業(yè)發(fā)展來看,金融、互聯(lián)及第三方數據中心對DCIM的需求迫切性相對較高,金融行業(yè)的IT管理成熟度最高,且要求提供的服務等級最高;互聯(lián)網和第三方數據中心發(fā)展速度快,對能源消耗及新技術關注度最高。傳統(tǒng)電信運營商經過多年建設目前基本已建成較為成熟的動環(huán)監(jiān)控系統(tǒng),從傳統(tǒng)動環(huán)監(jiān)控改造到DCIM的成本壓力大,需求驅動不足以及公司管理架構都影響了DCIM的推廣和應用。隨著目前三大運營商已啟動的超大規(guī)模數據中心建設以及市場競爭壓力的加大,運營管理人員正逐步提升對DCIM的關注。
隨著數據中心行業(yè)的發(fā)展,從降低運營成本及社會責任的考量,數據中心運維管理人員對降低能耗和提高運營效率的關注度必將進一步提高,這些都將成為DCIM發(fā)展的驅動力。
本文結合實際工作經驗,討論了DCIM部署中注意的問題,并提出了相應的建議。雖然DCIM在國內數據中心行業(yè)的應用尚處于起步階段,且面臨著建設標準缺失、成功案例匱乏的困境,但數據中心行業(yè)建設的爆發(fā)性增長和強勁的需求必將推動DCIM在數據中心市場的蓬勃發(fā)展。
[1] 黃鍇.數據中心基礎設施管理DCIM綜述[J].智能建筑與城市信息,2012(192):39-42.
[2] 宗鏑.智能基礎設施管理系統(tǒng)在數據中心中的應用功能[J].智能建筑與城市信息,2013(197):61-63.
[3] 連雄偉.數據中心基礎設施能效管理系統(tǒng)關鍵模塊設計與實現(xiàn)[D].北京:中國科學院大學,2014.
Discussion about Problem s of DCIM System in Data Center Deploym ent
LIMingjiang
(Construction Center of International Information Port,China Mobile,Beijing 102206,China)
The problems encountered in the construction of DCIM for large-scale data centerwas discussed and the suggestions on the dep loyment of DCIM were put forward,based on the demands of data center and experience of operation and maintenancemanagement.It is pointed out that the application of DCIM in the domestic data center is still in early stages.As the operation and maintenance managers continuously enhance the attentions of energy-consuming reduction and operational efficiency improvement,the development of DCIM will be surely pushed in the data center.
data center;DCIM;operation and maintenancemanagement;user demand
TU 244.5
B
1674-8417(2015)09-0018-03
2015 09 07