左慶鄰,慕福林,冉 艷,朱 鸝,楊 歡
(1.國網重慶市電力公司 客戶服務中心,重慶 400017; 2.國網重慶市電力公司 江北供電分公司,重慶 400017)
在當今經濟的發(fā)展趨勢下,傳統(tǒng)電網已經不能夠滿足電力行業(yè)的需求,智能電網成為發(fā)展方向。而就目前來說,電網已成為工業(yè)化、信息化社會發(fā)展的基礎和重要組成部分。隨著市場化改革的不斷推進,智能電網已成為現(xiàn)代電網技術發(fā)展的必由之路。其中,隨著電子技術的發(fā)展,用電信息采集系統(tǒng)為實現(xiàn)電量采集、數據統(tǒng)計分析及電量考核提供了切實可行的技術手段,從根本上克服了傳統(tǒng)人工抄表模式的弊端。隨著電網的結構與運行方式日趨復雜,人們對電網運行的可靠性與電能質量也提出了更高的要求。提高用戶信息采集數據準確性,研究可行的異常數據辨識及異常點精確定位方法,對電力系統(tǒng)的安全和穩(wěn)定運行意義重大。
用電信息采集系統(tǒng)已在電力系統(tǒng)建設中起到重要作用,但與之相對應的用電信息采集異常精確定位一直沒有良好的解決方案。如集抄系統(tǒng)雖然可以滿足負荷分析和低電壓監(jiān)測的要求,但難以滿足配網狀態(tài)檢修的需要。當電能表發(fā)生故障時,只能靠用戶電話反饋才能確定電能表發(fā)生故障并確定故障位置。因此找到一種合理有效的用電信息采集異常精確定位解決方法,是我國發(fā)展“電網2.0”的必然要求。
用電信息采集異常精確定位建設需要解決的是企業(yè)經營活動所覆蓋區(qū)域內復雜的、分布的、異構的信息資源的交換、轉換、集成與共享。從采集的數據中獲取故障集中器、關口表或電能表的地址信息,確定故障出現(xiàn)的具體位置。
用電信息采集異常精確定位的建設更重要的是從數據中獲取故障電能表的地址信息,不斷完善多種分析策略為電力生產服務。在電力系統(tǒng)中,數據挖掘技術可以用來完成電力系統(tǒng)的調度運行、決策支持控制、電力系統(tǒng)建模、設備運行狀態(tài)的監(jiān)視和電力系統(tǒng)負荷預測分類等決策任務。
數據挖掘中聚類分析的一個主要的難題是估計聚類的最佳數量,聚類離散度與聚類個數的關系包含著最佳聚類個數的信息,基于GSA(Gap Statistic Algorithm)的數據挖掘是挖掘此類信息的方法之一。目前,國外對GSA方法的研究剛起步,Tibshirini R.和Walther G.于2000年提出這種方法[1],但許多方面仍有待進一步完善,之后幾年在IEEE等期刊中陸續(xù)出現(xiàn)基于GSA方法的應用論文,表明GSA方法具有其一定的應用價值。本文將研究基于GSA的數據挖掘的方法,探索新的電力系統(tǒng)中異常數據檢測定位方法,并將之引入到電力系統(tǒng)異常數據定位的應用中來。
在應用于電力系統(tǒng)異常數據定位時,并不是對電力系統(tǒng)原始量測數據直接進行分析,而是建立在人工神經網絡對量測數據的預處理的基礎上的。利用神經網絡處理非線性輸入輸出關系的特性[2],從神經網絡的輸入輸出數據中挖掘出有關量測誤差值的信息。聚類分析階段對接收到的已處理數據進行自動定位,接著確定最佳聚類個數,最終對應定位原始數據中的異常數據。
GSA算法主要由神經網絡和聚類分析兩個模塊構成,如圖1[3]。
圖1 GSA算法模塊組成圖Fig.1 GSA algorithm module composition
文中選用BP神經網絡,首先將獲取到的用戶信息采集數據對BP神經網絡進行訓練,采樣200組實時量測數據,取出現(xiàn)異常數據前的180組正常數據對神經網絡進行訓練,完成后再代入余下的20組待測試數據進行處理。訓練調整網絡的權值后,量測值的估計值受外界的影響將會最小。這樣,量測值中如果存在異常數據,則其與網絡輸出必然有較大差值。取期望輸出和實際輸出之差的平方和為誤差函如果實際輸出不滿足要求,反向傳回誤差信號,并修改每個隱含層的各個神經元的權系數,直至誤差函數值最小,可使得輸出滿足系統(tǒng)精度要求[4-5]。
BP神經網絡的輸出數據作為聚類分析模塊的待測數據輸入。聚類模塊采用的是K-means聚類算法[6-7]。對于每次輸入的聚類數k ,計算得到聚類離散度 Wk。
圖2給出了基于GSA算法的程序流程圖[3]。
圖2 GSA算法程序流程圖Fig.2 GSA algorithm program flow
如圖所示,首先把聚類數量 置為1,然后執(zhí)行 直到確定最佳的聚類數量 為止。主要的計算過程有以下幾步[3]:
1) 待檢測數據計算誤平方
通過BP神經網絡的工作,獲得每個輸入變量ei(系統(tǒng)中各節(jié)點的測量數據與安全可靠運行數據之間的差值)相應的輸出Qi。這一步得到的平方誤差數據(ei-Qi)2作為下一步的輸入數據。
2) 平方誤差(ei-Qi)2進行聚類
這一步中,根據上一步獲得的數據通過K-means算法進行聚類,聚類數據的聚類離散度
3) 參考數據進行聚類
作為比較基準,參考數據集采用在待檢測數據范圍內產生均勻分布的隨機值。對于每個W(k) ,產生F組參考數據集。參考數據集聚類離散度也同樣通過式(1)計算得到,稱為Wi,j(k) (j=1,2,…,F)。然后使用2)中的方法對參考數據進行聚類。
4)確定最佳的聚類個數這一步中,首先計算值
接著,最佳聚類個數將等于 k-1,如果滿足下式:
5)檢測和定位異常數據
注意到當最佳聚類數量為1時,意味著所有待檢測數據都可以被認為是正常數據,而一旦最佳聚類數量不為1時,所觀察的待檢測數據中存在異常數據。接著計算每個聚類的(ei-Oi)2的平均值,其中具有最小(ei-Oi)2平均值的聚類被認為是正常數據的聚類,而其它的都被認為是異常數據的聚類。查詢這些均值較大的聚類中元素,相應地可以挑選出異常數據。通過上述流程,正常數據被歸并到一個類中,而異常數據被分離開來。
本文利用C語言根據此流程圖編寫GSA算法程序,以下有關GSA算法的數據均由此程序計算得出。
文中算法所用的數據選取連接500 kV、220 kV電網各變電站的聯(lián)絡線及變電站出線的有功值,共103條線路的有功測量值。仿真數據選取2013年3月15日至2013年3月18日SCADA所采集的用電信息實時數據,間隔為15分鐘,每天共88組數據。
本節(jié)以狀態(tài)估計后的正常數據為基礎,經過人為設置異常數據后代入程序進行驗證仿真,將對不含異常數據情況、含單個異常數據情況以及含多個異常數據情況等做進一步的仿真與分析。采用2013年3月16日數據,此日狀態(tài)估計系統(tǒng)共進行264次估計計算,估計計算結果全部收斂。首先利用3月16日的前80組數據對BP神經網絡算法進行訓練,81-83組數據為待測數據,其中第81、82、83組數據分別為不含異常數據的正確數據、含有單個異常的數據、含有多個異常的數據。利用神經網絡對數據進行訓練,完成后測試訓練結果。
1) 不含異常數據情況
采用數據集中2013年3月16日第81組數據進行測試,此組數據均為正常數據,不含異常數據。將BP神經網絡預處理后的數據代入GSA算法程序,各聚類參數結果如表1所示:
根據GSA算法最佳聚類判定公式有gap(k-1) ≥gap(k)-sk,當聚類個數為2時,gap(2) -s2=4.519 2,小于gap(1)的值,則最佳聚類為 (k-1)=1類,程序結果表明最佳聚類為1類,無異常數據,與實際情況相符。結果表明在無異常數據時,GSA算法能正確做出判定,將數據聚為一類,無異常數據。
表1 不含異常數據情況各聚類參數Tab.1 Clustering parameters without abnormal nodes
圖3 不含異常數據情況各聚類gap值折線圖Fig.3 Clustering gap values line graph without abnormal nodes
2) 含單個異常數據情況
采用數據集中2013年3月16日第82組數據進行測試,此組數據為準確數據,人為設置一個誤差量,假設電力系統(tǒng)中節(jié)點34中出現(xiàn)用電信息采集異常數據,歸一化處理后,對某一用電信息數據由0.867 4設置為1.305 6,為方便比較分析,表2列出了此類情況下聚類個數為1至5時所得的參數值:
表2 含單個異常數據情況各聚類參數Tab.2 Clustering parameters with one abnormal node
圖4 待測數據中含單個異常數據情況各聚類gap值折線圖Fig.4 Clustering gap values line graph with one abnormal node
由圖可看出,當聚類個數為2時,gap(2) -s2=8.297 4-0.095 7=8.201 7,大于gap(1)值5.768 6,則最佳聚類不是聚類為 (k-1)=1類,當k=3時,gap(3) -s3=6.998 7-0.102 4=6.896 3,此結果小于gap(2)值8.297 4,表明(k-1)=2為最佳聚類。
通過比較各聚類中數據平均值大小來確定異常數據所在的聚類。聚類結果中聚類元素平均值最小的被認為是正常數據所在聚類,而均值較大的其他聚類都被認為是異常數據所在的聚類。然后找出這些聚類內的數據,就能相應地定位出異常數據。進一步分析各聚類結果如表3所示。
表3 含單個異常數據情況聚類元素及各聚類中心Tab.3 Clustering elements and centers with one abnormal node
聚類1內各數據均值:
聚類2內各數據均值:
比較結果知,聚類1元素均值要大于聚類2元素,說明異常數據所在聚類為聚類1,第34個數據為異常數據,結果符合預期,說明GSA算法能準確定位出設定的異常數據。
3)含多個異常數據情況
電力系統(tǒng)中出現(xiàn)異常數據的概率較小,同時出現(xiàn)多個異常數據的概率更小,但為驗證GSA算法在多個異常數據定位方面也有較好表現(xiàn),此處采用2013年3月16日第83組數據進行測試,異常數據設置位置于節(jié)點20、45、74、99,其中節(jié)點20數據由0.547 5設置為0.954 6,,節(jié)點45數據由0.354 9設置為0.567 6,節(jié)點74數據由0.493 5設置為0.156 7,節(jié)點99數據由0.986 4設置為0.643 8。將含有多個異常數據的數組代入程序,為方便比較分析,表4列出聚類數為1至5時所得的參數值:
表4 含多個異常數據情況各聚類參數Tab.4 Clustering parameters with multiple abnormal nodes
圖5 待測數據中含多個異常數據情況各聚類gap值折線圖Fig.5 Clustering gap values line graph with multiple abnormal nodes
由圖可看出,當聚類個數為2時,gap(2) -s2=4.600 6-0.078 5=4.522 1,大于gap(1)值4.265 4,則最佳聚類不是聚類為 (k-1)=1類,當k=3時,gap(3) -s3=3.769 4-0.085 4=3.684 0,此結果小于gap(2)值4.600 6,表明(k-1)=2為最佳聚類。
為確定異常數據所在的位置,計算各聚類中心以確定各聚類的平均誤差。
表5 含多個異常數據情況聚類元素及各聚類中心Tab.5 Clustering elements and centers with multiple abnormal nodes
聚類1內各數據均值:
聚類2內各數據均值:
比較結果知,聚類1元素均值要大于聚類2元素,說明異常數據所在聚類為聚類1,第20,45,74,99個數據為異常數據,結果符合預期,說明在同時出現(xiàn)多個異常數據時,GSA算法也能準確定位出異常數據。
將假定異常點數量增加,仿真得到聚類結果出現(xiàn)多于兩個聚類數量的情況。
從仿真結果中可以看出,GSA算法在不含異常數據和含有單個異常數據情況下能夠精確進行定位,在出現(xiàn)多個異常數據定位過程中,若出現(xiàn)將異常數據聚為兩類及兩類以上的情況,這是由K均值算法固有特點決定的,這種情況也能精確定位出異常數據。
可見GSA算法的檢測效果取決于神經網絡以及聚類算法,只要神經網絡構造得好,訓練精度高并且聚類分析算法選擇恰當,對于各種規(guī)模的電力系統(tǒng),不論異常數據的形式如何,GSA 算法都能夠將其精確定位。
GSA算法是一種新的異常數據檢測算法。它結合了神經網絡技術與聚類算法在異常數據監(jiān)測方面的優(yōu)點,為檢測異常數據提供了一個新的方法。本文研究基于GSA算法的用電信息采集中異常數據的精確定位,采用電力系統(tǒng)中采集到的用電信息進行各種情況下的仿真,比較驗證了GSA算法在定位異常數據的優(yōu)越性,表明GSA算法具有更廣闊的應用范圍。
[1]Tibshirini R, Walther G, Hastie T. Estimating the Number of Cluster in a Dataset via the Gap Statistic[J]. Unpublished Technical Report: Stanford University. 2000: 1-18.
[2]H. Salehfar, R. Zhao. A neural network pre-estimation filter for bad-data detection and identification in power system state estimation[J]. Electric power system research. 1995, 34(8): 127-134.
[3]HUANG Shy-jier, LIN Jeu-min. Enhancement of Power System Data Debugging Using GSA-based Data-mining Technique[J].IEEE Trans on Power Systems, 2002, 17(4): 1022-1026.
[4]聞新, 周露. Matlab神經網絡仿真與應用[M]. 北京:科學出版社, 2003.
[5]邵峰晶, 于忠清. 數據挖掘原理與算法[M]. 北京:中國水利水電出版社, 2003.
[6] 黃新波,王婭娜, 劉林,等. 變壓器油色譜在線監(jiān)測中BP神經網絡算法分析[J]. 陜西電力,2013(6):56-60.HUANG Xin-bo,WANG Ya-na,LIU Lin,et al. Application of back propagation neural network in dissolved gas analysis based on transformer oil chromatographic on-line monitoring[J].Shaanxi Electric Power,2013(6):56-60.
[7] 寧姍. 基于蟻群聚類的多目標環(huán)形分類的方法研究[J]. 工業(yè)儀表與自動化裝置,2012(5):70-73.NING Shan. Research on annular sort of multi-objects based on ant colony clustering[J]. Industrial Instrumentation &Automation,2012(5):70-73.