高 蓮,程宏偉,于 虹,李 鵬?
(1.云南大學信息學院,云南 昆明 650500;2.云南電網(wǎng)有限責任公司電力科學研究院,云南 昆明 650500)
由于經(jīng)濟社會發(fā)展的需要,智能電網(wǎng)的建設得到充分發(fā)展,其在日常運行和維護過程中產(chǎn)生了大量的圖像、視頻、音頻、文本等非結(jié)構(gòu)化數(shù)據(jù)[1-2]。其中電力缺陷描述(以下簡稱“缺陷描述”)蘊藏著豐富的電力設備健康狀況信息,基于其對缺陷等級進行有效準確劃分有助于合理地安排設備檢修維護,對電網(wǎng)的安全穩(wěn)定運行有重要意義。當前缺陷等級由運維人員根據(jù)電力設備主要部件和對應現(xiàn)象組成的缺陷等級確定標準劃分為其他、一般、緊急、重大四個等級[3-4],但復雜多樣的具體情況使定級準確性因人而異[5],更無法保證電力缺陷等級確定的一致性。
針對運維人員基于缺陷描述信息進行等級劃分時準確性和一致性無法保障的問題,近年來國內(nèi)外學者進行了一系列的研究。文獻[6-7]分別采用粗糙集和分層方法對電網(wǎng)自動生成的具有很強規(guī)范性的設備運行信息進行研究,但仍需要調(diào)度運維人員依據(jù)經(jīng)驗對其進行審核,具有一定的主觀性;文獻[8-9]分別采用C5 樹和LSTM 方法對群眾反映的專業(yè)詞匯較少,較易理解的口語化缺陷描述進行分析,對于專業(yè)詞匯較多較為復雜的電力缺陷描述文本無法適用,且算法參數(shù)由研究人員依據(jù)經(jīng)驗直接給出,無法實現(xiàn)缺陷等級的自動確定;文獻[10-11]中使用K 最近鄰算法(k-nearest neighbor,KNN)進行缺陷描述的等級確定,但等級劃分準確性與K 的取值密切相關;文獻[12]中使用卷積神經(jīng)網(wǎng)絡對缺陷描述進行等級確定,但卷積神經(jīng)網(wǎng)絡層數(shù)的不同選擇使多次等級劃分的結(jié)果具有一定差異。
為提高缺陷等級劃分的準確性和一致性,本文提出了一種基于多元優(yōu)化算法(multi-variant optimization algorithm,MOA)及DS(Dempster-Shafer)證據(jù)理論的電力缺陷等級自動確定方法,并將其用于5 863 條西南某地區(qū)電網(wǎng)公司變壓器缺陷描述及表征電力設備運行狀態(tài)的紅綠燈信息。實驗首先將上述數(shù)據(jù)按照4:1 的比例隨機分為訓練集和測試集,其次基于缺陷定級標準[4]和常用缺陷用語[13]建立的變壓器缺陷描述分詞詞庫使用結(jié)巴算法對所有變壓器缺陷描述進行分詞,并使用word2vec 和詞頻-逆文檔頻率算法(term frequency-inverse document frequency,TF-IDF)得到缺陷描述的向量特征表達,同時分析訓練集紅綠燈信息和與其一一對應的初始缺陷等級建立燈色缺陷等級辨識對應權(quán)值表并基于此表將實驗數(shù)據(jù)中所有紅綠燈信息向量化;然后,使用MOA 算法對預處理后的訓練集在不同局部搜索半徑下自動進行等級判定,尋找判別準確率較高的最優(yōu)搜索半徑區(qū)間,并在此區(qū)間內(nèi)對測試集進行缺陷等級自動確定;最后,使用DS 證據(jù)理論決策融合測試集在最優(yōu)搜索半徑區(qū)間內(nèi)的50 次MOA 判別結(jié)果,達到提高自動判別準確率的目的。
為提高電力設備缺陷等級劃分的準確性和一致性,本文提出了基于MOA 算法和DS 證據(jù)理論的電力缺陷等級自動確定方法。該方法利用MOA 算法全局和局部交替探索的特性獲得判別準確率較高的最優(yōu)搜索半徑區(qū)間,并使用DS 證據(jù)理論決策融合測試集的50 次判別結(jié)果,方法流程如圖1 所示,詳細過程闡述如下。
圖1 MOA 和DS 證據(jù)理論等級自動確定方法流程
1.1.1 缺陷描述預處理
中文電力缺陷描述信息預處理的主要目的是剔除其中包含的地名、助詞等冗余項并向量化保留的有用信息,使其成為自動等級確定的有效輸入數(shù)據(jù)。由于缺陷描述大多為語言精簡的單句短文本,預處理時無需對其進行分段、分句操作,僅需進行分詞、去停用詞和文本向量化[14-15]處理,各步驟詳細說明如下。
(1)分詞和去停用詞。這一步為缺陷描述預處理的基礎和關鍵,其主要目的是將缺陷描述合理切分成不同的詞語序列并去除無用的地名和虛詞。本文采用結(jié)巴算法對文本進行分詞處理,在此過程中,由于電力設備缺陷描述的專業(yè)性,為提高分詞的準確性,本文根據(jù)缺陷定級標準[4]和常用缺陷用語[13]建立的變壓器缺陷描述分詞詞庫,如表1 所示。同時對“哈工大停用詞庫”、“中科院停用詞表”和電力設備缺陷描述中的地名聚合去重,構(gòu)建停用詞表,去除出現(xiàn)頻率較高但對等級確定沒有作用的冗余項,實現(xiàn)數(shù)據(jù)清理,以便后續(xù)特征選取,部分變壓器缺陷描述分詞結(jié)果如表2 所示。
表1 變壓器缺陷描述分詞詞庫
表2 變壓器缺陷描述分詞結(jié)果
(2)詞向量獲取。詞向量獲取目前有詞袋模型和分布式文本表示兩種。由于詞袋模型未考慮詞語之間的聯(lián)系且存在稀疏過高的問題,因此,本文利用訓練集選取分布式文本表示的word2vec 中Skipgram 模型實現(xiàn)詞向量[16],使用Python 中gensim 包的默認值并經(jīng)過測試構(gòu)建維度為50 的詞向量表,然后通過查表的方式匹配缺陷描述文本中的詞得出詞向量,對于詞向量表中沒有出現(xiàn)的詞匯,在區(qū)間[-1,1]內(nèi)隨機設置初始值[17]。
(3)基于詞向量的文本特征表達。當前,基于詞向量的文本特征表達有詞模型均值和結(jié)合TFIDF 加權(quán)兩種方式,文獻[18]通過實驗驗證了加權(quán)表達的有效性。因此,本文使用TF-IDF 對重要詞特征向量進行加權(quán),增強其在特征表達中的重要性,TF-IDF 算法公式如式(1)所示:
式中:TFi表示特征詞i在一種等級下出現(xiàn)的次數(shù)占全部等級下出現(xiàn)次數(shù)的比例,反映特征詞i在不同等級間的權(quán)重,其表達式如式(2)所示:
式中:Ti,k表示特征詞i在等級k中出現(xiàn)的次數(shù),Nt表示特征詞i在四種等級中出現(xiàn)的次數(shù)和。
IDFi,k表示等級k中包含特征詞i的文本數(shù)量占等級k全部文本數(shù)量的比例,反映同一等級下特征詞i的權(quán)重,其表達式如式(3)所示:
式中:Ak表示等級k的文本總數(shù),Di,k表示等級k中包含特征詞i的文本數(shù),分母加1 避免出現(xiàn)0 的情況。
例如分別選取缺陷等級為一般、緊急、重大、其他的變壓器缺陷描述各50 條,即四種等級下Ak值均為50,且四種等級下出現(xiàn)“熔斷”一詞的次數(shù)Ti,k分別對應為8、15、33、0,四種等級中出現(xiàn)“熔斷”一詞的條數(shù)Di,k分別對應為6、15、30、0,按照式(2)可知Nt的值為四種等級下出現(xiàn)熔斷一詞的次數(shù)Ti,k之和,即56。因此可由式(2)和式(3)計算得出TFi和IDFi,k的值分別對應為0.14、0.27、0.59、0;0.85、0.49、0.21、1.70。根據(jù)式(1)可以得出特征詞權(quán)重分別為0.119、0.132、0.124、0。
1.1.2 紅綠燈信息預處理
電網(wǎng)紅綠燈信息中蘊含著電力設備運行的健康狀態(tài)信息,可作為設備缺陷等級自動確定的有益補充數(shù)據(jù)。為此,對4 743 條訓練樣本紅綠燈信息及其對應的初始缺陷等級進行分析,獲得燈色與缺陷等級的最優(yōu)對應關系,并以此建立燈色缺陷等級辨識對應權(quán)值表作為實驗數(shù)據(jù)中所有燈色信息向量化的依據(jù)。訓練樣本中4 743 條燈色信息在初始缺陷等級中的占比如表3 所示。
表3 各色燈在初始缺陷等級中的分布比例
為更加直觀的看到訓練樣本中燈色和與其一一對應的初始缺陷等級間的關系,將表3 中的數(shù)據(jù)可視化處理,得到如圖2 所示的圓環(huán)圖。
圖2 四種等級下燈色占比
圖2 中從內(nèi)到外四個圓環(huán)依次對應訓練樣本中緊急、其他、一般和重大四個等級。從中可以看出藍燈在緊急、一般和重大等級中均占有較大比例,無法與單一缺陷等級形成較好對應,因此首先使用譜系圖和平均輪廓系數(shù)分析除藍燈以外的各色燈與初始缺陷等級間的關系,得到最佳的燈色缺陷等級對應并賦予權(quán)值;然后單獨對藍燈進行分析,得到藍燈的缺陷等級權(quán)值;最后依據(jù)上述兩步得到燈色缺陷等級權(quán)值構(gòu)建完整的燈色權(quán)值表并作為實驗數(shù)據(jù)中各色燈的量化依據(jù),詳細步驟如下。
首先,根據(jù)除藍燈外各燈色在初始缺陷等級中的占比構(gòu)建樣本集[19]作為譜系圖分析的依據(jù),樣本集如表4 所示。
根據(jù)表4 所示樣本集,采用組內(nèi)聯(lián)結(jié)法繪制如圖3 所示的譜系圖。
圖3 組內(nèi)聯(lián)結(jié)法譜系圖
表4 紅綠燈樣本集
由圖3 所示,從右往左依次做C、B、A 三條截斷線,由截斷線C 可以看出5 種顏色的燈可分為兩類{灰燈;紫燈、紅燈、綠燈、黃燈};由截斷線B 可以看出5 種顏色的燈可分為三類{灰燈;紫燈;紅燈、綠燈、黃燈};由截斷線A 可以看出5 種顏色的燈可分為四類{灰燈;紫燈;紅燈;綠燈、黃燈}。
為確定除藍燈外5 種顏色燈的最佳類別數(shù),本文使用輪廓系數(shù)法評估5 種顏色燈不同類別數(shù)的合理性,并選取平均輪廓系數(shù)最大即類別數(shù)最為合理的值作為評估結(jié)果。因此,分別計算類別數(shù)為2、3、4 的輪廓系數(shù)如圖4(a)~4(c)所示,并對其分別計算平均輪廓系數(shù)構(gòu)建如圖4(d)所示的平均輪廓系數(shù)曲線圖。
圖4 不同類別數(shù)下輪廓系數(shù)圖
從圖4(d)可見,當分類數(shù)為4 時,平均輪廓系數(shù)最大,可以實現(xiàn)燈色與缺陷等級的最佳對應。結(jié)合表4,除藍燈外的各色燈對應效果如下:灰燈只出現(xiàn)在其他等級中對應缺陷等級中的其他;紫燈在緊急等級中的占比較高對應缺陷等級中的緊急;紅燈在重大等級中的占比較高對應缺陷等級中的重大;綠燈和黃燈只出現(xiàn)在一般等級中對應缺陷等級中的一般。由此建立權(quán)值分布在[0,1]之間的燈色缺陷等級辨識對應關系,用以區(qū)分燈色不同。然后,慮到藍燈在緊急、一般、重大中均有較高占比及其自身的不可或缺性,因此賦予藍燈中間權(quán)值0.5,以區(qū)分其他燈色。最后,根據(jù)上述分析建立如表5 所示的燈色缺陷等級辨識對應權(quán)值表,作為實驗數(shù)據(jù)中紅綠燈信息的量化依據(jù)。
表5 燈色缺陷等級辨識對應權(quán)值表
MOA 算法是一種有效的動靜態(tài)條件下多模態(tài)算法,可在動態(tài)條件下對多模態(tài)聚類問題進行有效解決[20],因此適合于電力設備缺陷等級的確定。通過MOA 算法確定電力設備缺陷等級時,首先根據(jù)算法的基本思想構(gòu)建全局和局部搜索元;然后隨機確定全局搜索元的初始聚類中心,并使用局部搜索元在全局搜索元附近探索,尋找最優(yōu)的適應度函數(shù)值即類內(nèi)距離盡可能小但類間距離盡可能大的聚類中心;此后重復上述步驟,獲得新的聚類結(jié)果,并與上一輪聚類過程的適應度函數(shù)進行比較,保留適應度函數(shù)最優(yōu)的結(jié)果,直到適應度函數(shù)變化較小或達到最大循環(huán)次數(shù)后,電力設備缺陷數(shù)據(jù)聚類完成。
為保證聚類的準確性,構(gòu)造如式(4)所示的適應度函數(shù):
式中:
式(5)為類間距離,zi和zj分別表示第i個和第j個聚類中心點,K表示類中心點的個數(shù),Ja的值越大越好,其值越大表示類與類之間的區(qū)分度越大,判別效果較好。
式(6)表示類內(nèi)距離,zj和xi分別表示第j個聚類中心和屬于此類中心的樣本數(shù)據(jù),K表示類中心點的個數(shù),Jb的值越小越好,其值越小表示聚類中心點的選取較好,同一類分布的較為緊密。
式(4)確定的適應度函數(shù)可保證較大的類間距離和較小的類內(nèi)距離,實現(xiàn)對電力缺陷的準確聚類,且將類間距離和類內(nèi)距離做商后取對數(shù),避免二者商值過大,造成適應度函數(shù)的過度敏感,保證聚類過程中算法的穩(wěn)定性。
由于DS 證據(jù)理論可以利用合成規(guī)則將算法多次判別結(jié)果進行決策融合[21-22],避免算法單次判別產(chǎn)生的偶然性。因此為提高電力缺陷等級確定的準確性和穩(wěn)定性,本文使用DS 證據(jù)理論作為MOA 算法決策融合的工具,實現(xiàn)電力缺陷等級的準確確定,過程詳述如下。
首先,利用MOA 算法對向量化缺陷數(shù)據(jù)在最優(yōu)搜索半徑下的50 次運行結(jié)果,構(gòu)建如式(7)所示表征缺陷等級M精確信任函數(shù)[23]的基本概率分配m函數(shù);然后按照式(8)所示的Dempster 合成規(guī)則對上一步構(gòu)建的50 組m函數(shù)進行融合,得到合成后的基本概率分配[24];最后根據(jù)合成后的基本概率分配實現(xiàn)對缺陷等級的準確確定。
式中:θ={緊急,其他,一般,重大}表示缺陷等級M的識別框架,識別框架內(nèi)的m函數(shù)和為
式中:m(M)表示決策融合50 次MOA 運行結(jié)果后確定的缺陷等級m函數(shù),分子表示同一組缺陷數(shù)據(jù)50 次運行結(jié)果中被分為同一等級M的m函數(shù)乘積和,其值小于1。
以西南某地區(qū)電網(wǎng)公司的5 863 條變壓器缺陷記錄作為實驗數(shù)據(jù),其中一般、緊急、重大、其他缺陷數(shù)目分別為3 382、1 164、260、1 057 條,按照4 ∶1 的比例隨機選取其中的4 743 條為訓練樣本,剩下的1 120 條為測試樣本。
首先按照1.1.1 節(jié)的描述對變壓器缺陷描述進行分詞并向量化,同時根據(jù)本文1.1.2 節(jié)建立的燈色缺陷等級辨識對應權(quán)值表將實驗數(shù)據(jù)中紅綠燈信息向量化;最后利用MOA 算法將預處理后的訓練集缺陷描述和向量化的電網(wǎng)紅綠燈信息在不同局部搜索半徑下自動等級確定,尋找判別準確率較高的最優(yōu)搜索半徑區(qū)間,尋找過程如下。
設定MOA 算法的最大循環(huán)次數(shù)為200,全局搜索元個數(shù)為4,局部搜索元個數(shù)為20,使用訓練樣本作為輸入,令局部搜索半徑r從0.1 逐漸遞增到10,獲得各自對應的等級判定準確率,如圖5 所示。
圖5 訓練集不同局部搜索半徑r 下準確率
由圖5 可見,局部搜索半徑在區(qū)間[0.1,2.3]有較高的準確率,判別效果較好,隨著半徑的不斷增大,準確率總體有所下降。這是由于固定循環(huán)次數(shù)下,隨著局部搜索半徑的增大,算法搜索精細度下降,使準確率降低,因此確定局部搜索半徑的區(qū)間為[0.1,2.3],并選擇訓練集分類準確率最高時局部搜索半徑為0.4 的4 個等級聚類中心作為測試集等級的匹配中心,通過歐氏距離比較,將測試集4 個聚類中心分別歸為距離最小的類別中。
為進一步提高判別準確率,使用DS 證據(jù)理論對測試集中MOA 算法50 次判別的結(jié)果進行決策融合。為詳細說明決策融合的過程,從測試集一般、緊急、重大、其他四種缺陷等級中各隨機選取一組數(shù)據(jù),對表6 所示的MOA 算法在局部搜索半徑區(qū)間為[0.1,2.3],間隔為0.2 的前三次運行結(jié)果進行說明。
根據(jù)表6,DS 證據(jù)理論基本概率分配m函數(shù)按照同一次下同一組數(shù)據(jù)在不同半徑下被分為不同等級的次數(shù)占12 次結(jié)果的比例進行構(gòu)造,構(gòu)造結(jié)果如表7 所示。例如:選取第一次實驗中期望等級為一般的數(shù)據(jù),統(tǒng)計發(fā)現(xiàn)12 次判別中有9 次被分為一般,2 次被分為緊急,1 次被分為重大,0 次被分為其他,因此m1(一般)函數(shù)在缺陷等級為一般、緊急、重大、其他的m函數(shù)分別為0.75、0.17、0.08 和0。
表6 4 組數(shù)據(jù)在不同半徑下前三次運行結(jié)果
表7 前三次運行結(jié)果的m 函數(shù)
按照式(8)將表7 中4 組數(shù)據(jù)在12 個局部搜索半徑下的前三次運行結(jié)果決策融合,融合后的m函數(shù)分配如表8 所示。
表8 DS 證據(jù)理論融合結(jié)果
對比表7 和表8 可以看出使用DS 證據(jù)理論決策融合后,表7 中第三次重大組中誤分為緊急的電力缺陷正確糾正為重大。由此可見,DS 證據(jù)理論的使用避免了算法單次運行結(jié)果的偶然性對等級確定的影響,達到了提高自動判別準確率的目的。
為驗證本文所提方法在電力缺陷等級確定中的有效性,將局部搜索半徑區(qū)間為[0.1,2.3],運行次數(shù)為50 次且使用DS 證據(jù)理論的MOA 算法(MOADS)與局部搜索半徑為0.4,運行次數(shù)為1 次且未使用DS 證據(jù)理論的MOA 算法以及K值為4 的kmeans 算法對1120 組測試數(shù)據(jù)的聚類結(jié)果從平均準確率、平均召回率以及平均F值3 個評價指標進行對比,結(jié)果如表9 所示。
表9 三種模型下評價指標比較
表9 可以看出,使用DS 證據(jù)理論融合后的MOA 算法平均準確率可達83.57%,相比未進行DS證據(jù)理論融合的MOA 算法平均準確率提高了2.73%,相比k-means 算法平均準確率提高了6.14%,且平均召回率和平均F值均有明顯提升,驗證了本方法的有效性和可行性。MOA-DS 模型相比MOA 模型有較大提升的原因是使用DS 證據(jù)理論后將MOA 算法多次運行的結(jié)果進行決策融合,避免算法單次運行結(jié)果出現(xiàn)的偶然性,因此提高了判別的準確性;MOA-DS 模型相較于k-means 模型有較大提升的原因是MOA 算法依托局部搜索元使聚類質(zhì)心的選擇更加細致、合理,且適應度函數(shù)方面考慮了類間距離,提高了聚類結(jié)果不同類別的區(qū)分度,使聚類結(jié)果更加準確。
本文以變壓器缺陷描述和電網(wǎng)紅綠燈信息作為研究對象,提出了一種基于MOA 算法和DS 證據(jù)理論的電力缺陷等級確定方法。該方法一方面使用MOA 算法對電力缺陷等級確定,利用全局和局部搜索元使聚類中心的選擇更加細致合理,進一步提高了判別的準確性,豐富了電力文本挖掘領域的方法;另一方面使用DS 證據(jù)理論將多次判別結(jié)果進行決策融合,解決了已有模型多次運行時判別結(jié)果差異的問題。此外,本文在電力設備缺陷等級確定方面進行了有益探索,避免了運維人員確定缺陷等級的人為主觀性和個人認知有限帶來的判斷誤差,提高了判別的準確性和一致性,為缺陷等級的評判提供了參考依據(jù),為文本數(shù)據(jù)深層次利用提供了新的思路。