隨著“新基建”的落地實(shí)施,數(shù)據(jù)中心作為重點(diǎn)發(fā)展的領(lǐng)域,其建設(shè)與運(yùn)維的發(fā)展趨勢(shì)、最新技術(shù)正在受到企業(yè)級(jí)的關(guān)注。越來(lái)越多的企業(yè)選擇擁抱云計(jì)算。在云化轉(zhuǎn)型之路上,選擇架構(gòu)靈活、減少業(yè)務(wù)成本的代價(jià)就是運(yùn)維復(fù)雜程度大大增加,給運(yùn)維人員提出了巨大的挑戰(zhàn)。
數(shù)據(jù)中心運(yùn)維面臨的主要挑戰(zhàn)就是數(shù)據(jù)中心效率與成本的協(xié)調(diào)問(wèn)題。比如,企業(yè)管理數(shù)據(jù)中心通常采用人工定時(shí)巡檢的方式,巡檢人員按照排班時(shí)間檢查服務(wù)器LED 燈狀態(tài),從而判斷IT 設(shè)備是否運(yùn)行正常,但人工的服務(wù)器巡檢費(fèi)時(shí)費(fèi)力令企業(yè)的運(yùn)維成本居高不下,且無(wú)法實(shí)時(shí)反映服務(wù)器健康狀況;互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)中心通常分布在流量較高的城市節(jié)點(diǎn),單個(gè)數(shù)據(jù)中心部署的服務(wù)器數(shù)量超過(guò)幾千臺(tái)規(guī)模,通常在企業(yè)辦公地點(diǎn)設(shè)立運(yùn)維中心,安排運(yùn)維人員對(duì)所有城市的設(shè)備集中管理,每位運(yùn)維人員管理動(dòng)輒上千臺(tái)的服務(wù)器設(shè)備,工作強(qiáng)度非常高,數(shù)據(jù)中心服務(wù)器太多,有沒(méi)有什么方法,能通過(guò)一臺(tái)電腦就可以實(shí)現(xiàn)對(duì)整個(gè)數(shù)據(jù)中心的管理和檢測(cè)呢?數(shù)據(jù)中心日常運(yùn)維中,如何管理IT 設(shè)備尤其是服務(wù)器組件級(jí)的資產(chǎn)信息,這些資產(chǎn)信息不僅僅是財(cái)務(wù)部門(mén)的成本管理,也必須對(duì)諸如內(nèi)存、硬盤(pán)、CPU 等組件的型號(hào)、數(shù)量、更換、保修信息等進(jìn)行管理,這將體現(xiàn)數(shù)據(jù)中心運(yùn)維管理水平和大數(shù)據(jù)采集分析等一系列能力。
要想回答這一系列數(shù)據(jù)中心運(yùn)維的難題,企業(yè)需要在運(yùn)維中加入一大利器——IT 設(shè)備的智能運(yùn)維。智能運(yùn)維使數(shù)據(jù)中心運(yùn)維既保障高質(zhì)量與高效率,又可以保持較低的運(yùn)營(yíng)成本,完美解決了困擾企業(yè)的難題。這里為大家分享數(shù)據(jù)中心管理案例供大家參考。
某電力行業(yè)國(guó)企,近一年開(kāi)始全面部署國(guó)內(nèi)云廠商提供的混合云方案,大規(guī)模外包數(shù)據(jù)中心運(yùn)營(yíng)服務(wù)。但是,隨之而來(lái)的困擾是:自家數(shù)據(jù)中心的可用性及可靠性完全取決于云服務(wù)供應(yīng)商的云平臺(tái)。服務(wù)器等IT 設(shè)備運(yùn)行狀態(tài)、健康狀況、數(shù)據(jù)中心耗電、用電安全等運(yùn)營(yíng)基礎(chǔ)信息靠云廠商的帶內(nèi)方案,并不能得到保證,需要更可靠的工具。該企業(yè)經(jīng)過(guò)認(rèn)真仔細(xì)的調(diào)研,決定采用Intel DCM 作為帶外管理工具,從另一角度彌補(bǔ)云服務(wù)方案必須基于業(yè)務(wù)網(wǎng)絡(luò)的天然不足,從而滿足了該企業(yè)IT 管理人員的需求。
某互聯(lián)網(wǎng)頭部企業(yè)是一家混合云ICT 廠商和服務(wù)商,為方便為客戶提供優(yōu)質(zhì)的服務(wù),他們?cè)趪?guó)內(nèi)各業(yè)務(wù)核心區(qū)域部署大量服務(wù)器,運(yùn)維中心設(shè)在北京,他們將各區(qū)域管理網(wǎng)絡(luò)打通,并在管理網(wǎng)內(nèi)部署了Intel 數(shù)據(jù)中心管理軟件平臺(tái)(DCM)替代人工巡檢實(shí)現(xiàn)潛在故障和硬件自動(dòng)告警,Intel DCM 通過(guò)帶外網(wǎng)絡(luò),無(wú)需安裝托盤(pán)程序即可自動(dòng)采集IT 設(shè)備溫度、功耗、健康狀態(tài)、告警、資產(chǎn)信息等信息,并且對(duì)信息按照類型梳理及聚合,從而提煉出精準(zhǔn)的數(shù)據(jù),便于運(yùn)維人員實(shí)時(shí)查看數(shù)據(jù)中心整體運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)潛在硬件風(fēng)險(xiǎn)并盡早制定應(yīng)對(duì)措施。
遠(yuǎn)程監(jiān)管服務(wù)器設(shè)備更換部件及維修,也是遠(yuǎn)程管理數(shù)據(jù)中心的痛點(diǎn),現(xiàn)場(chǎng)維修人員執(zhí)行時(shí)間不準(zhǔn)確,更換備件后核對(duì)信息耗時(shí)、費(fèi)力等問(wèn)題困擾著運(yùn)維人員,通過(guò)使用Intel DCM 的智能資產(chǎn)監(jiān)管功能,幫助用戶自動(dòng)發(fā)現(xiàn)并記錄服務(wù)器設(shè)備資產(chǎn)詳細(xì)信息,包括CPU、內(nèi)存、磁盤(pán)、網(wǎng)卡等部件廠商、規(guī)格、型號(hào)、頻率等信息。用戶通過(guò)與CMDB 中設(shè)備采購(gòu)信息對(duì)比,可以便捷的核實(shí)采購(gòu)資產(chǎn)的使用變化情況。另外,DCM 也為用戶提供實(shí)時(shí)發(fā)現(xiàn)資產(chǎn)監(jiān)視能力,DCM對(duì)服務(wù)器資產(chǎn)定時(shí)掃描并與歷史信息比對(duì),當(dāng)發(fā)現(xiàn)資產(chǎn)信息變動(dòng),將自動(dòng)產(chǎn)生告警信息,運(yùn)維人員只需按照告警提示查看更新內(nèi)容即可完成維修工單的核實(shí)工作,大大提升管理效率。
除自建數(shù)據(jù)中心外,為了快速完成產(chǎn)品和服務(wù)部署上線,企業(yè)租用IDC 機(jī)房空間部署服務(wù)器設(shè)備,租用合同通常會(huì)約定機(jī)柜瞬時(shí)電流上限,若瞬時(shí)電流超出上限,IDC 機(jī)房將額外征收費(fèi)用。如果僅僅為滿足電流約束而減少機(jī)柜中設(shè)備數(shù)量,機(jī)房租金平攤到每臺(tái)設(shè)備的費(fèi)用偏高,如何平衡這兩方關(guān)系也是運(yùn)維團(tuán)隊(duì)和IT 團(tuán)隊(duì)面臨的問(wèn)題。Intel DCM 的智能功耗控制功能為這類使用場(chǎng)景提供便捷的解決方案,以下是用戶的實(shí)踐案例:用戶按照服務(wù)器的實(shí)際功耗部署服務(wù)器到機(jī)柜,并按照與IDC 合約要求在DCM 軟件中設(shè)置機(jī)柜功耗控制閾值,當(dāng)服務(wù)器因瞬時(shí)處理任務(wù)增加導(dǎo)致功耗上升并試圖超越功耗閾值,DCM 智能功耗控制功能將自動(dòng)觸發(fā),此時(shí)機(jī)柜中的每臺(tái)服務(wù)器將按照預(yù)先設(shè)定的優(yōu)先級(jí)被強(qiáng)制降低功耗,確保機(jī)柜整體功耗低于閾值要求。在此案例中,通過(guò)在DCM 軟件中設(shè)定機(jī)柜功耗控制策略,保證在任何業(yè)務(wù)處理階段,機(jī)柜整體功耗不會(huì)超出合同約定,避免不必要的經(jīng)濟(jì)損失;另一方面,機(jī)柜中的服務(wù)器可以按照優(yōu)先級(jí)被控制功耗,優(yōu)先級(jí)較高的設(shè)備可以滿載、全速處理業(yè)務(wù)需求,優(yōu)先級(jí)較低的設(shè)備將被短時(shí)間內(nèi)限制功耗的使用,從整體來(lái)看即便在突發(fā)的業(yè)務(wù)處理高峰時(shí)段,機(jī)柜的功耗被控制在期望的范圍內(nèi),并且業(yè)務(wù)服務(wù)和數(shù)據(jù)吞吐能力不會(huì)受到影響。
Intel DCM 是一個(gè)將帶外管理功能發(fā)揮極致的數(shù)據(jù)中心智能管理解決方案,有別于帶內(nèi)管理、虛擬機(jī)和云操作系統(tǒng)的服務(wù)器管理方案,Intel DCM 將管理目標(biāo)集中于IT 設(shè)施的物理特征,匯集了英特爾在智能數(shù)據(jù)中心運(yùn)維上多年的經(jīng)驗(yàn),是通向數(shù)據(jù)中心優(yōu)化及敏捷管理之路上的絕佳伴侶,同時(shí)也為企業(yè)管理TCO 提供又一利器。