◆顏清華
(云南電網(wǎng)有限責(zé)任公司昭通供電局 云南 657000)
基于數(shù)據(jù)大集中的信息運(yùn)維研究平臺(tái)
◆顏清華
(云南電網(wǎng)有限責(zé)任公司昭通供電局 云南 657000)
目前國(guó)內(nèi)數(shù)據(jù)運(yùn)維的現(xiàn)狀是,規(guī)模較大的數(shù)據(jù)中心普遍建設(shè)了監(jiān)控、流程和自動(dòng)化運(yùn)維平臺(tái)。但其中存在兩方面問(wèn)題,一是產(chǎn)品基本以國(guó)外品牌為主,國(guó)外產(chǎn)品一方面價(jià)格昂貴,導(dǎo)致運(yùn)維成本居高不下;另一方面也存在一定的安全隱患,在當(dāng)前國(guó)家安全的背景下,采用國(guó)外運(yùn)維產(chǎn)品與業(yè)務(wù),存在相當(dāng)大的風(fēng)險(xiǎn)。二是監(jiān)控、流程和自動(dòng)化產(chǎn)品采用不同廠商、不同型號(hào)的產(chǎn)品,產(chǎn)品之間相互割裂,信息無(wú)法共享。運(yùn)維平臺(tái)無(wú)法自動(dòng)進(jìn)行運(yùn)維,都需要人為參與,嚴(yán)重影響了數(shù)據(jù)中心的運(yùn)維效率。
數(shù)據(jù)匯集;數(shù)據(jù)管理;數(shù)據(jù)運(yùn)維
數(shù)據(jù)大集中作為互聯(lián)網(wǎng)服務(wù)的物理載體,客戶(hù)對(duì)服務(wù)實(shí)時(shí)性、安全性、可靠性等的要求最終將內(nèi)化為對(duì)數(shù)據(jù)運(yùn)維管理的要求。數(shù)據(jù)中心運(yùn)維對(duì)象涉及種類(lèi)比較多,從供配電設(shè)施到IT設(shè)備、到應(yīng)用系統(tǒng)、到各類(lèi)人員,這無(wú)疑要求數(shù)據(jù)中心的運(yùn)維管理應(yīng)能適應(yīng)所有的管理對(duì)象。如果該數(shù)據(jù)中心要通過(guò)一些專(zhuān)業(yè)認(rèn)證,或?yàn)橐恍┨厥庑袠I(yè)提供IT服務(wù),其運(yùn)維管理必須符合相關(guān)標(biāo)準(zhǔn)與行業(yè)規(guī)范。對(duì)平臺(tái)中各子系統(tǒng)以及各功能模塊提供統(tǒng)一的運(yùn)行監(jiān)控服務(wù),包括服務(wù)的提供狀態(tài)監(jiān)控、服務(wù)的使用狀態(tài)監(jiān)控、系統(tǒng)的運(yùn)行狀態(tài)監(jiān)控等。
數(shù)據(jù)大集中的信息運(yùn)維研究平臺(tái)的設(shè)計(jì)是基于ISO/IEC20000和ITIL v3理論,遵循ITSS、GB/T 28827-2012系列運(yùn)行維護(hù)服務(wù)國(guó)家標(biāo)準(zhǔn),有效支持運(yùn)行維護(hù)能力相關(guān)的人員、流程、技術(shù)和資源四要素管理。
數(shù)據(jù)大集中的信息運(yùn)維研究平臺(tái)建立了集成化的資源運(yùn)行狀態(tài)監(jiān)控管理系統(tǒng),實(shí)現(xiàn)平臺(tái)運(yùn)行狀態(tài)和信息化資源的統(tǒng)一化、可視化、可控化管理?;谫Y源的統(tǒng)一化管理,實(shí)現(xiàn)監(jiān)控子系統(tǒng)和故障處理流程子系統(tǒng)的一體化部署,全面支撐信息技術(shù)服務(wù)管理,實(shí)現(xiàn)面向基礎(chǔ)資源和面向業(yè)務(wù)應(yīng)用兩個(gè)層面的監(jiān)控,遵循ITIL實(shí)踐標(biāo)準(zhǔn)對(duì)運(yùn)維管理流程進(jìn)行優(yōu)化再造,全面展示所有服務(wù)的運(yùn)行狀況和處理性能。
對(duì)平臺(tái)所涉及的所有服務(wù)和數(shù)據(jù)資源進(jìn)行實(shí)時(shí)不間斷的7x24小時(shí)的監(jiān)控和管理,合理設(shè)定資源狀態(tài)的預(yù)警閾值的設(shè)定,確保任何資源狀態(tài)異常的及時(shí)通報(bào)和展示,通過(guò)聲光報(bào)警、短信、郵件的及時(shí)通知,確保管理人員及時(shí)的發(fā)現(xiàn)和處理問(wèn)題。
同時(shí)借助大數(shù)據(jù)平臺(tái)的優(yōu)勢(shì),實(shí)現(xiàn)平臺(tái)內(nèi)部服務(wù)運(yùn)行狀態(tài)的趨勢(shì)預(yù)測(cè),不同資源告警閾值的智能化管理和自動(dòng)設(shè)定,做到平臺(tái)內(nèi)部運(yùn)行狀態(tài)的穩(wěn)定和持續(xù)。
數(shù)據(jù)大集中的信息運(yùn)維研究平臺(tái)內(nèi)部的軟件資源復(fù)雜,需要支持統(tǒng)一化的一體監(jiān)控模式,支持對(duì)Hadoop架構(gòu)體系內(nèi)所有軟件模塊和系統(tǒng)(HBase、HDFS等)、關(guān)系型數(shù)據(jù)庫(kù)(Oracle、Sqlserver、MySQL集群等)、接入共享接口、中間件系統(tǒng)、前端應(yīng)用等軟件資源的監(jiān)控和管理。
數(shù)據(jù)大集中的信息運(yùn)維研究平臺(tái)服務(wù)能夠?qū)θ缦路?wù)接口狀態(tài)進(jìn)行監(jiān)控:
(1)支持SNMP、SSH/telnet、JMX、JDBC等監(jiān)控方式和協(xié)議,實(shí)現(xiàn):支持?jǐn)?shù)據(jù)大集中內(nèi)部的各種傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)集群、Hadoop架構(gòu)中HDFS/HBase等的狀態(tài)、數(shù)據(jù)庫(kù)狀態(tài)、各類(lèi)中間件資源狀態(tài)、平臺(tái)內(nèi)部和前端應(yīng)用狀態(tài)、各類(lèi)內(nèi)外部的接口狀態(tài)的實(shí)時(shí)監(jiān)控。
(2)支持對(duì)數(shù)據(jù)匯集接入、數(shù)據(jù)推送、和數(shù)據(jù)共享接口的運(yùn)行狀態(tài)監(jiān)控。
(3)支持各類(lèi)監(jiān)控資源的告警閾值的自定義管理,管理人員可以根據(jù)資源自身和資源使用情況靈活定義預(yù)警閥值。
(4)支持告警信息的短信、郵件通知以及聲光報(bào)警通知。
數(shù)據(jù)大集中的信息運(yùn)維研究平臺(tái)涉及的軟硬件信息和數(shù)據(jù)量較大,平臺(tái)上線(xiàn)運(yùn)行后會(huì)面臨海量的故障信息,故障信息分析是運(yùn)維工程師面臨的難題,而云計(jì)算、虛擬化等新技術(shù)的廣泛采用進(jìn)一步加劇了運(yùn)維管理的復(fù)雜度。需要對(duì)運(yùn)維流程進(jìn)行梳理,將技術(shù)人員從繁重的運(yùn)維工作中解脫出來(lái),實(shí)現(xiàn)運(yùn)維作業(yè)的標(biāo)準(zhǔn)化、自動(dòng)化,縮短業(yè)務(wù)響應(yīng)時(shí)間,提高服務(wù)質(zhì)量。平臺(tái)的各類(lèi)故障和告警處理的管理主要針對(duì)平臺(tái)運(yùn)行期間所有異常事件的統(tǒng)一管理,確保所有異常事件都被處理的管理功能。借助國(guó)家標(biāo)準(zhǔn)和ITIL的SLA模型,需要建立一套完備的故障事件、問(wèn)題、變更和發(fā)布等的標(biāo)準(zhǔn)化故障處理流程,規(guī)范故障處理的過(guò)程,做到故障的及時(shí)處理、追蹤、統(tǒng)計(jì),確保每一個(gè)問(wèn)題和故障都能被及時(shí)的處理。提供頁(yè)面、郵件、短信、聲音、光、消息客戶(hù)端、WebService接口、Socket等方式及時(shí)通知責(zé)任人和運(yùn)維管理人員。
日常平臺(tái)管理工作中有很多是標(biāo)準(zhǔn)化的工作,如巡檢、值班等工作。這些工作會(huì)占用大量的時(shí)間,將人工的操作、管理轉(zhuǎn)變?yōu)橄到y(tǒng)自動(dòng)化的操作和管理,可以節(jié)省時(shí)間,將精力投入到更緊急、更重要的工作中,從而減少數(shù)據(jù)運(yùn)維人力成本。
(1)數(shù)據(jù)大集中的信息運(yùn)維研究平臺(tái)自動(dòng)巡檢功能
平臺(tái)的監(jiān)控管理系統(tǒng)自動(dòng)將需要巡檢的資源和接口狀態(tài)發(fā)送到系統(tǒng)中,自動(dòng)進(jìn)行設(shè)備運(yùn)行狀態(tài)和重要指標(biāo)性能數(shù)據(jù)的收集匯總形成自動(dòng)巡檢結(jié)果,同時(shí)巡檢過(guò)程全程記錄,通過(guò)巡檢工單,能夠跟蹤巡檢的執(zhí)行情況。
(2)數(shù)據(jù)大集中的信息運(yùn)維研究平臺(tái)人工巡檢功能
針對(duì)非監(jiān)控資源的巡檢,仍可通過(guò)系統(tǒng)內(nèi)提供的人工巡檢功能完成巡檢結(jié)果的記錄,為巡檢任務(wù)執(zhí)行的計(jì)劃、監(jiān)督和結(jié)果的電子化管理提供了有效的手段。
(1)實(shí)時(shí)故障預(yù)警,實(shí)現(xiàn)系統(tǒng)風(fēng)險(xiǎn)前移
對(duì)IT信息環(huán)境及各項(xiàng)業(yè)務(wù)系統(tǒng)尤其是重要業(yè)務(wù)系統(tǒng)及關(guān)聯(lián)數(shù)據(jù)的運(yùn)行情況進(jìn)行監(jiān)控,根據(jù)資源實(shí)際應(yīng)用情況建立靈活的事件管理機(jī)制,建立集中的告警分析處理和故障預(yù)警機(jī)制;建立事件的流程化管理機(jī)制及分析機(jī)制,使監(jiān)控系統(tǒng)成為強(qiáng)有力的助手,能夠在故障產(chǎn)生時(shí)進(jìn)行快速定位,盡可能的做到事前防范。
(2)動(dòng)態(tài)掌握數(shù)據(jù)集中資源,提高利用效率
需要運(yùn)維管理系統(tǒng)建設(shè),實(shí)時(shí)了解掌握數(shù)據(jù)集中資源的使用情況,根據(jù)需要從整體角度考慮資源的配置、調(diào)配和使用,提高硬件資源及數(shù)據(jù)的有效利用率。
(3)數(shù)據(jù)集中運(yùn)維管理平臺(tái)進(jìn)行統(tǒng)一規(guī)劃建設(shè),具有功能的全面性、可擴(kuò)展性、可移植性、易用性等特點(diǎn),從而滿(mǎn)足不同業(yè)務(wù)、硬件、軟件環(huán)境需求。
隨著用戶(hù)業(yè)務(wù)的迅速發(fā)展,網(wǎng)絡(luò)結(jié)構(gòu)和規(guī)模必然會(huì)不斷邁上新的發(fā)展臺(tái)階,各種系統(tǒng)和應(yīng)用服務(wù)也將陸續(xù)增加。因此,數(shù)據(jù)大集中運(yùn)維管理平臺(tái)具有強(qiáng)大的功能和可擴(kuò)展性,滿(mǎn)足未來(lái)10至20年的業(yè)務(wù)發(fā)展需求,具有對(duì)網(wǎng)絡(luò)、系統(tǒng)、應(yīng)用服務(wù)、硬件等資源狀態(tài)的監(jiān)控功能。
(4)服務(wù)管理規(guī)范化,提高工作效率,實(shí)現(xiàn)人員統(tǒng)一調(diào)度
采用運(yùn)維服務(wù)管理規(guī)范的工作流方式管理服務(wù)申請(qǐng)受理、處理、轉(zhuǎn)送、跟蹤、回復(fù)等環(huán)節(jié),形成閉環(huán)處理流程;實(shí)現(xiàn)投訴工單處理超時(shí)服務(wù)自動(dòng)升級(jí)和通告,使企業(yè)基于服務(wù)水平協(xié)議管理其IT基礎(chǔ)設(shè)施;實(shí)現(xiàn)了服務(wù)申請(qǐng)單點(diǎn)受理、統(tǒng)一調(diào)度運(yùn)維服務(wù)人員。
臨床相關(guān)調(diào)查表明[3] ,為異位妊娠大出血患者開(kāi)展輸血治療,患者的凝血指標(biāo)和血常規(guī)指標(biāo)在接受治療措施前后有較大變化出現(xiàn)?;颊咴诮邮茌斞委煹倪^(guò)程中若出現(xiàn)不良反應(yīng),則可一定程度上影響輸血治療的效果,且患者的凝血指標(biāo)可明顯下降,為此對(duì)異位妊娠大出血輸血治療患者在接受治療的過(guò)程中是否有不良反應(yīng)存在進(jìn)行判斷,可監(jiān)測(cè)患者的凝血指標(biāo)和血常規(guī)指標(biāo)變化情況。
(5)建立全面工作機(jī)制,提升整體服務(wù)水平,確保服務(wù)質(zhì)量建立知識(shí)共享機(jī)制,將個(gè)人經(jīng)驗(yàn)轉(zhuǎn)換為企業(yè)知識(shí),整體提升IT服務(wù)水準(zhǔn),確保服務(wù)質(zhì)量,建全工作監(jiān)控機(jī)制,使各級(jí)管理者可以隨時(shí)了解所轄區(qū)域/部門(mén)的工作狀態(tài),以便及時(shí)發(fā)現(xiàn)并解決問(wèn)題,扭轉(zhuǎn)工作的被動(dòng)局面。
(1)統(tǒng)計(jì)分析
利用各個(gè)模塊收集的信息,可以對(duì)網(wǎng)絡(luò)設(shè)備、服務(wù)器、環(huán)境監(jiān)控設(shè)備等進(jìn)行專(zhuān)門(mén)的分類(lèi)分析和監(jiān)控狀態(tài)匯總。
(2)自定義報(bào)表
可以按照自身需要對(duì)報(bào)表的格式,報(bào)表的內(nèi)容,報(bào)表的時(shí)間進(jìn)行自定義。
按照時(shí)間周期,可以實(shí)時(shí)、按計(jì)劃的對(duì)過(guò)往的日志信息進(jìn)行備份和恢復(fù)。
平臺(tái)支持遠(yuǎn)程異地備份及監(jiān)控。
為更好、更有效地實(shí)現(xiàn)數(shù)據(jù)中心運(yùn)維管理目標(biāo),建立高度信息化的數(shù)據(jù)大集中的信息運(yùn)維研究平臺(tái)應(yīng)始于對(duì)其信息系統(tǒng)的總體規(guī)劃,數(shù)據(jù)中心的信息系統(tǒng)規(guī)劃應(yīng)表達(dá)出對(duì)戰(zhàn)略、業(yè)務(wù)、信息、應(yīng)用、技術(shù)等方面的綜合考慮。
圖1 面向數(shù)據(jù)中心的企業(yè)架構(gòu)
(1)業(yè)務(wù)架構(gòu)和組織架構(gòu),用于理解組織使命、愿景、目標(biāo)、業(yè)務(wù)、期望、要求、約束,以及角色、職責(zé)、流程、業(yè)務(wù)實(shí)體、場(chǎng)景、規(guī)則、術(shù)語(yǔ)、需求。
(2)應(yīng)用架構(gòu),用于描述支持業(yè)務(wù)的系統(tǒng)功能和特征,以及系統(tǒng)間關(guān)系,還應(yīng)包括應(yīng)用系統(tǒng)的功能模塊、功能需求、系統(tǒng)間消息傳遞。
(3)數(shù)據(jù)架構(gòu),用于定義數(shù)據(jù)如何被使用、處理、保存、交換、所采用的標(biāo)準(zhǔn),采用主題域、實(shí)體、屬性、關(guān)系、約束、數(shù)據(jù)流等方式來(lái)描述。
(4)技術(shù)架構(gòu),表達(dá)了IT基礎(chǔ)結(jié)構(gòu)、技術(shù)路線(xiàn)、設(shè)計(jì)原則、開(kāi)發(fā)規(guī)范、非功能要求,常用層次、平臺(tái)、組件、類(lèi)、對(duì)象狀態(tài)、屬性、方法等要素來(lái)描述。
(5)運(yùn)行架構(gòu),定義了部署和運(yùn)維的過(guò)程,實(shí)現(xiàn)系統(tǒng)建設(shè)與運(yùn)維無(wú)縫集成,一般可包括流程與角色定義、工單分類(lèi)、配置項(xiàng)、服務(wù)影響樹(shù)等要素。
首先,對(duì)支撐數(shù)據(jù)中心業(yè)務(wù)和處理數(shù)據(jù)的信息系統(tǒng)進(jìn)行能力上的邏輯分組,明確如何滿(mǎn)足業(yè)務(wù)架構(gòu)中提出的業(yè)務(wù)功能和數(shù)據(jù)架構(gòu)中提出的數(shù)據(jù)處理要求,如圖2所示。
圖2 數(shù)據(jù)大集中運(yùn)維管理平臺(tái)
基于上面的邏輯分組,對(duì)應(yīng)用架構(gòu)進(jìn)行進(jìn)一步的細(xì)化,細(xì)化的顆粒度取決于規(guī)劃項(xiàng)目的范圍和質(zhì)量要求。
在數(shù)據(jù)中心信息系統(tǒng)架構(gòu)設(shè)計(jì)的基礎(chǔ)上,結(jié)合運(yùn)維管理的要求可以自行設(shè)計(jì)或從外部獲取信息系統(tǒng)建設(shè)的路線(xiàn)圖和解決方案,選擇適當(dāng)?shù)臅r(shí)機(jī)以項(xiàng)目群的方式啟動(dòng)信息系統(tǒng)建設(shè)過(guò)程,從而實(shí)現(xiàn)數(shù)據(jù)中心的運(yùn)維管理目標(biāo)。
[1]莫太平,蔣艷紅.通信電源設(shè)備智能遠(yuǎn)程監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn)[J].光通信技術(shù),2007.
[2]唐寶民,張穎編著.電信網(wǎng)監(jiān)控和管理技術(shù)[M].人民郵電出版社,2006.
[3]王華剛,羅森文,陳少川,藍(lán)郁峰.UPS動(dòng)環(huán)監(jiān)控雷擊案例分析及對(duì)策[J].廣東通信技術(shù),2016.
[4]劉廷亮.預(yù)約式智能門(mén)禁在基站動(dòng)環(huán)監(jiān)控中的應(yīng)用研究[J].電信技術(shù),2016.
[5]王小月.動(dòng)環(huán)監(jiān)控系統(tǒng)無(wú)線(xiàn)傳輸組網(wǎng)方案的選擇研究[J].通訊世界,2016.
[6]李曉迎.移動(dòng)通信動(dòng)環(huán)監(jiān)控系統(tǒng)現(xiàn)狀分析[J].電腦知識(shí)與技術(shù),2008.
[7]曹淳淳.基于動(dòng)環(huán)監(jiān)控技術(shù)的告警標(biāo)準(zhǔn)化解決方案及應(yīng)用[J].黑龍江生態(tài)工程職業(yè)學(xué)院學(xué)報(bào),2012.
[8]陳藝高.動(dòng)環(huán)大數(shù)據(jù),提升運(yùn)維效能[J].通信電源技術(shù),2014.
[9]王亞君,孫福明.基于多動(dòng)態(tài)核聚類(lèi)的間歇過(guò)程在線(xiàn)監(jiān)控[J].化工學(xué)報(bào).
[10]施建榮,何霞.開(kāi)展數(shù)據(jù)挖掘,提升動(dòng)力環(huán)境監(jiān)控效能[J].通信電源技術(shù),2014.