陳瑞,冷迪,李英
(深圳供電局有限公司,廣東 深圳 518000)
伴隨著經(jīng)濟的發(fā)展,人類社會用電量越來越龐大,智能化設備及信息系統(tǒng)采集數(shù)據(jù)越來越多,伴之而來的是數(shù)據(jù)量不斷膨脹的數(shù)據(jù)中心。數(shù)據(jù)中心的構成比較復雜,處理的信息涉及設備、器件較多,且相互之間具有很強的關聯(lián)性,因此必須要及時有效的處理數(shù)據(jù)中心的告警信息,這還包括要告警信息的甄別與收斂,不能錯失任何一條告警信息的解決機會,但也應盡可能減少在無效告警時間上浪費時間與資源。由于物聯(lián)網(wǎng)的出現(xiàn)使得數(shù)據(jù)中心告警信息量越來越大,結合大數(shù)據(jù)與機器學習手段打造一個數(shù)據(jù)中心告警事件全面自愈系統(tǒng)是既有效又節(jié)約時間與資源的解決辦法。
數(shù)據(jù)中心是一個數(shù)據(jù)核心交通樞紐,而各色各樣的邊緣數(shù)據(jù)中心就像一個個星羅密布的小樞紐,不僅需要適應各種運行環(huán)境,還對設備功耗、成本、空間、軟硬件集成與優(yōu)化、自動化部署與運維有著極高要求,需支持聯(lián)接、數(shù)據(jù)、管理、控制、安全、應用等的協(xié)同。數(shù)據(jù)中心組成設備眾多,設備間的連接復雜[1]。一般情況下,數(shù)據(jù)中心連接有多條工作鏈(即同一系統(tǒng)下),而每一工作鏈均包含有對應的器件,如大一點的天線、服務器、交換機、路由器及PC端等,又或者小一點的CPU、電源、磁盤、內(nèi)存卡、電容、電阻、繼電器、傳感器等,而這些器件之間工作關系緊密,每一個器件的工作參數(shù)的變化都會對同一系統(tǒng)下的相關聯(lián)器件產(chǎn)生一些影響(特殊情況下會達到很大影響),這些影響輕者包括改變器件的工作參數(shù),重者燒壞或損壞相鄰器件,而對整個數(shù)據(jù)中心而講,損壞器件是小事,雖然成本會增大,但如果影響整個系統(tǒng)甚至整個數(shù)據(jù)中心的工作而導致整個系統(tǒng)或者整個互聯(lián)網(wǎng)數(shù)據(jù)中心無法正常工作,隨之而來的經(jīng)濟損失更是無法想象。
對于數(shù)據(jù)中心的安全與穩(wěn)定性,常規(guī)的考慮主要是從其拓撲結構與傳輸協(xié)議出發(fā),這兩方面可能會造成一些無法避免的數(shù)據(jù)告警,對于這一部分告警與實際的被檢測設備、信息內(nèi)容關系不大,需要從數(shù)據(jù)中心的設計上進行考慮以解決告警信息。傳統(tǒng)的數(shù)據(jù)中心的拓撲結構是樹形拓撲,但因為這種結構對設備要求高、容錯性差等原因已經(jīng)不再適合現(xiàn)代要求,現(xiàn)在的數(shù)據(jù)中心主要采用是以交換機為核心和以服務器為核心的拓撲結構,新的拓撲結構很大的提高了數(shù)據(jù)中心的穩(wěn)定性,但依舊存在一些難以處理的技術問題。數(shù)據(jù)中心的數(shù)據(jù)傳輸協(xié)議是以TCP協(xié)議為主的,從協(xié)議角度出發(fā),數(shù)據(jù)中心會出現(xiàn)TCP Incast問題即因交換機緩沖區(qū)溢出造成的數(shù)據(jù)吞吐量急速下降,為此許多數(shù)據(jù)中心采用多路徑TCP傳輸模式甚至定制協(xié)議的方式進行數(shù)據(jù)傳輸。由于物聯(lián)網(wǎng)技術的發(fā)展,數(shù)據(jù)中心不再單純的使用傳統(tǒng)連接方式進行數(shù)據(jù)傳輸,傳統(tǒng)無線因為帶寬、穿透力等技術性問題可能引發(fā)一些告警,5G技術的出現(xiàn)使得這些問題得到了極大地改善,但依舊存在一些問題,在一些特殊場景物聯(lián)網(wǎng)傳輸數(shù)據(jù)還是要依賴于短距離傳輸網(wǎng)絡,因此在處理告警信息時應當予以甄別[2]。
當數(shù)據(jù)中心出現(xiàn)事件告警時,數(shù)據(jù)中心是否能夠有效地甄別與收斂告警信息并進行自愈,是一個數(shù)據(jù)中心安全可靠的重要標志。對于一個數(shù)據(jù)中心來講,應當實時監(jiān)控數(shù)據(jù)中心的系統(tǒng)下所有器件的運維數(shù)據(jù),并進行有效地存儲,一方面是為了存檔留據(jù),另一方面是為了進行大數(shù)據(jù)挖掘與智能分析比對。通過事先設置的運維數(shù)據(jù)閾值或者智能分析出的數(shù)據(jù)閾值比對來判斷該大數(shù)據(jù)中心的系統(tǒng)下的器件是否產(chǎn)生告警事件。經(jīng)過數(shù)據(jù)的比對判斷,如果發(fā)現(xiàn)確為器件告警,一方面要根據(jù)預設屏蔽策略對告警事件進行屏蔽,另一方面要根據(jù)預設收斂策略對告警事件進行收斂,以獲得最終的有效告警事件。總而言之,一些告警事件能夠被系統(tǒng)自動處理,只需存檔加入日志信息即可,可不進行告警提示,這部分告警事件會屏蔽;對于多次出現(xiàn)的同樣的告警事件,應當對這些告警事件進行收斂,即采用告警提示等級加重的模式告知相關人員進行處理,避免一些重要性較低的告警占用大量的帶寬與處理資源,影響重大事件告警的發(fā)出[3]。
與環(huán)境比較穩(wěn)定的工作內(nèi)容的告警信息處理不同的是,對于電網(wǎng)相關的告警信息,大部分無法通過智能化設備進行智能處理。因此數(shù)據(jù)中心獲取到有效告警事件所對應的器件信息,從器件信息中解析出對應的工作人員,并將有效告警事件及器件信息及時發(fā)送給對應的工作人員是非常重要的工作。當獲取到與該器件相關聯(lián)的設備的信息后,系統(tǒng)應當與工作人員都將逐一對與該器件相關聯(lián)的同一系統(tǒng)下的設備進行檢測,當然這一過程更多依賴于系統(tǒng)。得益于物聯(lián)網(wǎng)的發(fā)展,現(xiàn)階段設備與器件信息都比較全面,獲取的信息可以包括設備的ID號、名稱、工作時長等。而對關聯(lián)設備進行檢測,包括檢測工作電流、工作電壓,工作功率、溫度和工作時長的情況,以判斷工作電流是否大于安全電流,判斷工作電壓是否大于安全電壓、判斷工作功率是否大于安全功率、判斷設備的溫度是否過高等等。
在進行告警設備相關聯(lián)的設備信息獲取與排查時,首先是設備的供電電源的排查,其次是與告警設備具有點相連的設備,然后是與告警設備存在數(shù)據(jù)交互的設備。檢查之后,判斷這些設備是否已經(jīng)瀕臨告警或者收告警設備影響即將產(chǎn)生告警。如果監(jiān)測結果符合設定的閾值,系統(tǒng)則將接近產(chǎn)生故障或告警(或者即將產(chǎn)生故障或告警)的設備的信息一同發(fā)送給工作人員,使得工作人員關注這些關聯(lián)的設備,提前預知這些設備會產(chǎn)生告警并處理[4]。
基于數(shù)據(jù)中心系統(tǒng)下所有器件的告警事件處理,應當采用多接口與每一器件連接,實時獲取每一器件的操作事件,并記錄每一器件的告警事件。實現(xiàn)單一器件產(chǎn)生告警事件,對所有器件或者相關聯(lián)器件均需進行詳細檢測,以免因為某一器件產(chǎn)生告警事件而漏掉與之相關聯(lián)的器件產(chǎn)生告警事件,從而有效避免不必要的事故發(fā)生,一方面提高安全性,另一方面避免器件的損壞,降低運維成本。
基于數(shù)據(jù)中心的告警事件的全面處理系統(tǒng)包括檢測、告警判斷、告警屏蔽、告警收斂、信息解析、第一收發(fā)、關聯(lián)設備獲取、關聯(lián)設備檢測、關聯(lián)設備判斷和第二收發(fā)等模塊。其中,檢測模塊用于實時監(jiān)控數(shù)據(jù)中心的系統(tǒng)下所有器件的運維數(shù)據(jù)。告警判斷模塊用于通過運維數(shù)據(jù)判斷該大數(shù)據(jù)中心的系統(tǒng)下的器件是否產(chǎn)生告警事件。告警屏蔽模塊用于在確定有產(chǎn)生告警事件時,根據(jù)預設屏蔽策略對告警事件進行屏蔽。告警收斂模塊在確定有產(chǎn)生告警事件時,根據(jù)預設收斂策略對告警事件進行收斂,以獲得最終的有效告警事件。再次要說明的是,一些告警事件能夠系統(tǒng)自動處理,因此這些告警事件會屏蔽,而如果屬于多次同樣的告警事件,則對這些同樣的告警事件進行收斂。
信息解析模塊用于獲取有效告警事件所對應的器件信息,從器件信息中解析出對應的工作人員。第一收發(fā)模塊用于將有效告警事件及器件信息發(fā)送給工作人員。關聯(lián)設備獲取模塊用于獲取與該器件相關聯(lián)的設備的信息,這一關聯(lián)設備獲取模塊具有可以用于獲取為該器件供電的電源的信息、獲取與該器件電連接的設備的信息、獲取與該器件有進行數(shù)據(jù)傳輸?shù)脑O備的信息。關聯(lián)設備檢測模塊用于逐一對與該器件相關聯(lián)的設備進行檢測。關聯(lián)設備判斷模塊用于判斷與該器件相關聯(lián)的設備是否接近產(chǎn)生故障或告警的條件[5]。
第二收發(fā)模塊用于在確定關聯(lián)設備產(chǎn)生故障時將接近產(chǎn)生故障或告警(或者即將產(chǎn)生故障或告警)的設備的信息一同發(fā)送給工作人員,使得工作人員關注這些關聯(lián)的設備,提前預知這些設備會產(chǎn)生告警,提前處理。在一些實施例中,先判斷產(chǎn)生有效告警事件的器件是否為發(fā)熱器件(如電源、電阻、電阻或其他發(fā)熱器件),如果是,關聯(lián)設備獲取模塊獲取位置與該器件相鄰的設備的信息。因為器件如果發(fā)熱而產(chǎn)生告警事件,這勢必會影響該器件的周圍的設備,因此需要對這些相鄰設備進行檢測。在另外一些實施例中,獲取與該器件相關聯(lián)的設備的信息的步驟具體還包括:獲取與該器件的型號相同的設備。應理解,如果某一器件發(fā)生告警事件,說明這種型號的器件容易出故障,因此對相同型號的器件進行檢測,能夠避免同樣的告警再次發(fā)生。此外,獲取與該器件相關聯(lián)的設備的信息的步驟具體還包括:獲取與該器件同時正在工作的設備的信息,又或者獲取與該器件同時正在工作且位置處于預設范圍內(nèi)(即距離比較近的)的設備的信息。
由此邏輯獲取與該器件相關聯(lián)的設備的信息的步驟具體還包括:獲取系統(tǒng)中的同一信號經(jīng)過的所有設備的信息,如某一信號經(jīng)過第一器件、第二器件、第三器件、第四器件......第n器件進行處理,而當?shù)谌骷l(fā)生告警事件時,則獲取與該器件相關聯(lián)的設備的信息的步驟具體包括:獲取第一器件、第二器件……第n器件的信息,以使得對第一器件、第二器件……第n器件進行檢測。
信息化時代數(shù)據(jù)中心的地位越來越重要,在輸配電系統(tǒng)中尤為突出。由于輸配電網(wǎng)絡中的信息設備、信息點多且復雜,產(chǎn)生事件告警的頻率極高,對告警信息的來源與潛在問題進行分析甄別,實現(xiàn)一個能夠告警自愈的數(shù)據(jù)中心告警自愈軟件系統(tǒng),可以很好的提升數(shù)據(jù)中心工作性能。