胡聰,劉翠玲,洪德華,宮政
(國網(wǎng)安徽省電力有限公司信息通信分公司,合肥 230041)
隨著國家“互聯(lián)網(wǎng)+”行動計劃、云計算和大數(shù)據(jù)戰(zhàn)略深入推進,在“十三五”期間,國家電網(wǎng)公司建成規(guī)模龐大的信息化系統(tǒng),企業(yè)進入全面的數(shù)字化轉(zhuǎn)型階段,信息系統(tǒng)的穩(wěn)定運行以及日常的風(fēng)險及時預(yù)警處置直接關(guān)系到電網(wǎng)的穩(wěn)定運行[1-2]。
電網(wǎng)企業(yè)信息系統(tǒng)在運行過程中產(chǎn)生大量的日志信息,這些數(shù)據(jù)類型多樣、產(chǎn)生速度快、其中的某些數(shù)據(jù)可能包含著與系統(tǒng)的運行狀態(tài)相關(guān)的信息,信息系統(tǒng)中的數(shù)據(jù)具有典型的大數(shù)據(jù)特征[3-4]。一個應(yīng)用系統(tǒng)的運行數(shù)據(jù)包含程序運行周期內(nèi)發(fā)生的事件的相關(guān)信息,包括事件類型、發(fā)生時間、發(fā)生該事件的對象等[5-6]。對電力大數(shù)據(jù)的分析可以直觀地展現(xiàn)電網(wǎng)的運行狀態(tài),利用流形學(xué)習(xí)方法對高維的電力大數(shù)據(jù)進行降維處理,可以解決高維電力大數(shù)據(jù)可視化的圖元密集和圖形重疊的問題,將數(shù)據(jù)清晰地展現(xiàn),以便于直觀的分析數(shù)據(jù)的價值[7-8]。
目前電力企業(yè)已經(jīng)全面開展數(shù)據(jù)價值挖掘工作,針對電力信息系統(tǒng)數(shù)據(jù)格式特點,圍繞數(shù)據(jù)采集、數(shù)據(jù)處理、模型創(chuàng)建等方面開展相關(guān)的技術(shù)研究和應(yīng)用,對海量信息進行分析處理,深層挖掘信息的潛在價值,并取得了一定成效[9-10]。隨著信息化建設(shè)和應(yīng)用不斷深入,用戶對高維數(shù)據(jù)價值挖掘的需求持續(xù)增長,用戶范圍從信息系統(tǒng)管理部門擴展到全業(yè)務(wù),數(shù)據(jù)挖掘不能再只是面向單個信息系統(tǒng),需要全面掌握數(shù)據(jù)狀態(tài),及時發(fā)現(xiàn)故障隱患,提高電力信息系統(tǒng)的智能化運維水平。
電力企業(yè)積累了海量的高維數(shù)據(jù),為大數(shù)據(jù)挖掘工作奠定了基礎(chǔ)。但電力企業(yè)信息系統(tǒng)主要從專業(yè)角度出發(fā)開展系統(tǒng)高維數(shù)據(jù)格式管理,信息系統(tǒng)中的數(shù)據(jù)內(nèi)容、頻度僅考慮了各專業(yè)當前自身業(yè)務(wù)需求,未考慮后期大規(guī)模數(shù)據(jù)分析應(yīng)用和跨業(yè)務(wù)領(lǐng)域的需求,存在系統(tǒng)間高維數(shù)據(jù)標準不一致,以及數(shù)據(jù)缺失等數(shù)據(jù)質(zhì)量問題,給日志數(shù)據(jù)價值挖掘帶來困難。電力企業(yè)信息系統(tǒng)業(yè)務(wù)在逐步加寬,其業(yè)務(wù)支撐系統(tǒng)的復(fù)雜性也顯著增加,當前支撐系統(tǒng)運維管理和監(jiān)控系統(tǒng)只是從系統(tǒng)底層指標判斷系統(tǒng)的運行狀態(tài),為其提供系統(tǒng)監(jiān)控和服務(wù),缺少對系統(tǒng)整體性能的評價和系統(tǒng)健康評價標準。
通過對海量電網(wǎng)高維數(shù)據(jù)進行降維處理,將相似的文本收斂到可處理的量級,同時結(jié)合相關(guān)的半監(jiān)督學(xué)習(xí)以及隔離森林算法對降維數(shù)據(jù)文件進行分類,設(shè)計數(shù)據(jù)分類模型算法。
將多源異構(gòu)數(shù)據(jù)進行初步整理,針對其中的多源模糊沖突信息,基于不精確推理理論的隔離森林異常檢測分類技術(shù),流形學(xué)習(xí)中的t-分布隨機鄰域嵌入(t-SNE)的非線性降維算法,在保持局部幾何特征的前提下,對高維度的電網(wǎng)的大數(shù)據(jù)進行降維處理。由于t-SNE算法具有對非線性和高維度數(shù)據(jù)處理的能力,因此適應(yīng)智能電網(wǎng)的多類型數(shù)據(jù)的融合分析處理的需求,為高維電網(wǎng)大數(shù)據(jù)可視化提供了良好的思路?;趖-SNE算法的高維數(shù)據(jù)處理架構(gòu)如圖1所示。
圖1 高維數(shù)據(jù)處理架構(gòu)
電力信息系統(tǒng)在運行過程中產(chǎn)生大量的高維數(shù)據(jù)信息,這些數(shù)據(jù)類型多樣、產(chǎn)生速度快,其中的某些數(shù)據(jù)可能包含著與系統(tǒng)的運行相關(guān)的信息,電網(wǎng)運行數(shù)據(jù)具有典型的大數(shù)據(jù)特征。由于在電力信息系統(tǒng)的信息具有多源異構(gòu)的特點,針對數(shù)據(jù)的異構(gòu)性和多源性,分別對異構(gòu)數(shù)據(jù)的信息抽取融合、多源數(shù)據(jù)融合沖突的融合,數(shù)據(jù)降維過程圖如圖2所示。
圖2 數(shù)據(jù)降維過程圖
對融合的高維數(shù)據(jù)信息提取頻繁序列模式,從日志信息中發(fā)現(xiàn)高維數(shù)據(jù)之間的關(guān)聯(lián)性,構(gòu)建日志信息序列,利用滑動窗口的特性,將序列分為時間上等寬的子序列,當活動時間窗口進入到下一時間間隔時,從中挖掘?qū)挾葹閕的候選集,構(gòu)建寬度為i的頻繁集,再構(gòu)建i+1的候選集,直到新的頻繁序列為空。高維數(shù)據(jù)間的因果關(guān)系用因果矩陣表示,結(jié)合因果矩陣研究,形成基于滑動時間窗的高維數(shù)據(jù)日志關(guān)聯(lián)挖掘模型。高維數(shù)據(jù)日志關(guān)聯(lián)挖掘模型如圖3所示。
圖3 高維數(shù)據(jù)日志關(guān)聯(lián)挖掘模型
基于滑動窗口的高維數(shù)據(jù)日志關(guān)聯(lián)挖掘模型,其階段1即為日志數(shù)據(jù)聚合過程,按照時間序列將日志信息進行排序并標準格式化;階段2是利用時間滑動窗口進行頻繁模式的挖掘;階段3是事件模式檢測,從上一階段挖掘到頻繁序列模式集合之后,對集合中的序列進行關(guān)聯(lián)性分析;階段4是關(guān)聯(lián)規(guī)則的預(yù)測階段,這一階段對關(guān)聯(lián)規(guī)則進行預(yù)測生成預(yù)測規(guī)則;階段5將挖掘出的新的關(guān)聯(lián)模式補充道因果關(guān)系矩陣,并更新因果關(guān)聯(lián)矩陣。經(jīng)過這五個階段挖掘得到的高維日志關(guān)聯(lián)模式即為關(guān)聯(lián)模式挖掘的結(jié)果。
基于深度學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)的日志分析方法顯得尤為重要,具有現(xiàn)實意義。以t-SNE模型為基礎(chǔ),對海量電網(wǎng)數(shù)據(jù)進行聚類處理,將相似的高維數(shù)據(jù)收斂到可處理的量級,同時結(jié)合相關(guān)的半監(jiān)督學(xué)習(xí)以及深度學(xué)習(xí)對日志文件進行分類。高維數(shù)據(jù)異常檢測分類流程如圖4所示。
圖4 高維數(shù)據(jù)異常檢測分類流程
t-SNE向量:日志的量級較大,先對日志進行聚類處理,將相似的文本收斂到可以處理的量級,對所有重要子系統(tǒng)的日志進行文本清洗,同時引入詞頻和逆文檔頻率的建模方法對文檔信息進行數(shù)學(xué)建模,得到一個語料庫。然后將清洗后的日志信息在語料庫中映射得到其對應(yīng)的TF-IDF向量。
語義空間可視化:采用Skip-gram模型預(yù)測上下文目標詞,從而最大化整個語料庫∑(w,c)∈D∑wj∈ClogP(w|wj)。w為字典中的任意詞;c為w的上下文詞;D為從調(diào)度語料中抽取出的字典。模型每次從目標詞的上下文選擇n個詞,并將其詞向量映射到對應(yīng)的TF-IDF向量作為模型的輸入。接著使用Skip-gram模型來訓(xùn)練電網(wǎng)運行數(shù)據(jù)向量,并根據(jù)詞向量構(gòu)成句子向量進行文本分類衡量詞向量的質(zhì)量,優(yōu)化訓(xùn)練詞向量的迭代次數(shù)、維度以及調(diào)整訓(xùn)練模型及預(yù)料的大小。經(jīng)過優(yōu)化后的t-SNE向量作為LSTM模型的輸入,并在二維語義空間進行語義化表示。
信息的半監(jiān)督學(xué)習(xí):首先對有標記的訓(xùn)練集學(xué)習(xí)生成一個隨機森林,然后對未標記的訓(xùn)練集進行學(xué)習(xí)標注,標記過程中,樣本的預(yù)測結(jié)果越一致表面置信度越高,最后取出置信度最小的M個樣本,并把這類樣本剔除,接著重新訓(xùn)練這顆隨機森林,直到未標記訓(xùn)練集里的置信值都在置信閾值之內(nèi)。
信息相似度分析:采用Jaccard算法來計算日志信息的相似度,Jaccard算法簡潔高效,每檢測萬條日志文本的平均耗時大概在300ms左右,使用Jaccard距離進行預(yù)處理,將相似度相差較大的篩選出去,接著再使用編輯距離進行判斷,從而實現(xiàn)對日志的聚類收斂,以及給所有數(shù)據(jù)賦值唯一的id。
信息分類:由于傳統(tǒng)的單向LSTM只能獲取前向信息,而無法做到對后續(xù)信息的獲取以及預(yù)測。
本文選取公共數(shù)據(jù)集進行實驗驗證,實驗平臺的深度學(xué)習(xí)框架:PyTorch 1.3 穩(wěn)定版,開發(fā)工具:Visual Studio Code,編程語言:Python 3.6。作為對比,本文使用SVM,KNN和普通LSTM模型對故障進行檢測,檢測結(jié)果如表1所示。
表1 不同模型準確率對比
綜合來說,本文設(shè)計的基于t-SNE算法模型相比傳統(tǒng)機器學(xué)習(xí)模型擁有更高的降維準確率。SVM作為經(jīng)典的分類模型,其在訓(xùn)練集上表現(xiàn)出良好的效果,但是測試集上準確率顯著下降,存在明顯的過擬合現(xiàn)象。KNN分類器因為沒有顯式的訓(xùn)練過程,在訓(xùn)練集和測試集上的診斷效果均較為一般,LSTM在訓(xùn)練集和測試集上表現(xiàn)較為穩(wěn)定,表明深度學(xué)習(xí)模型能夠?qū)W習(xí)到數(shù)據(jù)中的時序變化信息。除此之外,隨著數(shù)據(jù)的積累,模型的準確率能夠進一步提高。
為了解決當前電力降維處理難題,本文提出了采用數(shù)據(jù)挖掘的高維數(shù)據(jù)降維處理方法模型,給出了數(shù)據(jù)處理系統(tǒng)架構(gòu),闡述了基于日志時間的降維關(guān)聯(lián)挖掘方法,設(shè)計了基于隔離森林的數(shù)據(jù)降維檢測算法,通過實驗驗證了模型的可行性。