楊峰,劉勝強
(廣東電網(wǎng)有限責任公司佛山供電局,廣東佛山 528000)
隨著智能配電網(wǎng)信息化、自動化的不斷發(fā)展,各行業(yè)廣泛使用先進配用電自動化和管理系統(tǒng),多源異構數(shù)據(jù)也在不斷增加。有效挖掘數(shù)據(jù)并且使用能夠提高智能配電網(wǎng)運行管理水平,此為電力企業(yè)在大數(shù)據(jù)背景下發(fā)展的需求[1]。由于存在不同的數(shù)據(jù)統(tǒng)計口徑與來源,從而使數(shù)據(jù)出現(xiàn)異常。異常數(shù)據(jù)存在異常信息,異常數(shù)據(jù)研究尤為重要,能夠提供實際使用幫助,包括用電設備故障監(jiān)測與設備監(jiān)測。傳統(tǒng)異常檢測為技術人員到現(xiàn)場排查,此方法效率低,而且物力、人力等資源較為浪費。通過數(shù)據(jù)方法自動鎖定異常事件,能夠提高異常事件查處命中率,降低稽核成本與電網(wǎng)企業(yè)經濟損失[2]。以此,文中就分析改進了檢測快速密度峰值聚類算法電力數(shù)據(jù)異常值。
基于密度峰值的空間聚類算法(CFSFDP)首先利用其他非類中心點到大密度且臨近數(shù)據(jù)點類別中歸類。類中心要滿足以下特征:自身密度比較大;對比其他大密度數(shù)據(jù)點,距離比較大。在該模型中,CFSFDP 算法要對數(shù)據(jù)點局部密度ρi和高密度點距離δi進行計算。
假設聚類數(shù)據(jù)集為S=(x1,x2,…,xn),指示坐標集設置為:
數(shù)據(jù)點xi與xj的距離表示為:
在具備離散值數(shù)據(jù)點時,局部密度表示為:
式中的i和j不相等,函數(shù)x(x)表示為:
在連續(xù)值為數(shù)據(jù)點時,局部密度表示為:
公式中的橫斷距離dc>0,ρi指的是S中和數(shù)據(jù)點xi的距離比dc要小的數(shù)據(jù)點數(shù)量[3]。
和高密度點的距離表示為:
相應指標集Is為:
通過以上公式表示,在xi指的是最大局部密度的時候,Is指的是空集,δi指的是S中和xi最大距離數(shù)據(jù)點和xi的距離。
對各個數(shù)據(jù)點局部密度和距離進行計算之后,CFSFDP 算法利用啟發(fā)式的方式對決策圖繪制,選擇類中心并實現(xiàn)類標記的初始化。使非聚類中心根據(jù)下述規(guī)則實現(xiàn)聚類:目前數(shù)據(jù)點類別標簽指的是比數(shù)據(jù)點密度要高的最近數(shù)據(jù)點類別,之后對類邊界區(qū)域進行計算,尋找類邊界高密度值的點,從而將噪聲點去除。
CFSFDP 算法直接操作數(shù)據(jù)集,沒有對數(shù)據(jù)空間分布的特性進行考慮,選擇并且使用全局密度閾值dc。在數(shù)據(jù)密度與類間距分布出現(xiàn)不均勻或者某個類中具有多密度峰值的時候,無法對合適dc值選擇實現(xiàn)聚類,所以得到的聚類結果也不精準[4]。
在信息論中使用香農熵作為系統(tǒng)不確定性度量,熵越大,就會提高其不確定性。n個樣本點局部密度估計值設置為ρ1,ρ2,…,ρn,假如其中樣本點密度估計值是一樣的,對于底層數(shù)據(jù)分布具有較大的不確定性,并且香農熵較大。相反,不確定性最小,香農熵也最小。所以,使用以下密度估計熵對樣本點局部密度估計合理性進行衡量,也就是:
式中,Z表示標準化因子。
在對密度估計熵性質進行分析的過程中0≤H≤log(n)。以此得到,全部樣本點局部密度估計值是近似相等的,所以密度估計熵最大[5]。
針對給定核函數(shù)的形態(tài),對密度參數(shù)dc通過0到+∞的遞增過程中密度估計熵H變化的情況:在dc→0的時候,H滿足Hmax=log(n)。在dc不斷增加的過程中,首先H減小,在某優(yōu)化dc地方為最小值。之后增大,在dc→+∞的時,為最大值Hmax=log(n)。參數(shù)優(yōu)化值為最小密度估計熵dc值,對dc值進行優(yōu)化的過程中就是單變量非線性函數(shù)最優(yōu)化的問題,也就是:
該問題中具有模擬退火法、簡單試探法等大量的標準算法,在實際使用過程中會在樣本容量不斷增加過程中,使dc值時間開銷得到降低。n越大,使用抽樣率在2.25%以下的隨機抽樣方法使算法優(yōu)化性能得到提高[6]。
利用以上對CFSFDP 算法的分析表示,該算法的基本立足點為:
1)聚類中心具有較大的局部密度;
2)聚類中對比其他大局部密度數(shù)據(jù)點的距離大。
以此表示,聚類中心局部密度和距離具有較大的值。那么本文所提出的改進快速密度峰值聚類算法自動選擇策略為:利用標準化局部密度與距離的乘積對聚類點差異度進行評測,之后將高斯分布應用到乘積中實現(xiàn)異常檢測,從而能夠得出異常點。針對需要聚類數(shù)據(jù),此異常點也就是聚類中心。高斯分布能夠滿足異常檢測需求,在兩端分布的小概率事件為異常點,通過此點能夠得出數(shù)據(jù)集聚類中心[7]。
首先,使用簇中心權值概念對數(shù)據(jù)點簇中心權值γi進行定義:
公式中的和指的是分別使用z-score的標準化結果。之后通過以下公式對γi均值和方差:
之后針對閾值ε關系對數(shù)據(jù)點是否為異常點進行判斷,本文的閾值設置為0.005。針對交叉驗證集使用多個閾值,并且將此閾值作為基礎,對交叉驗證集中的F1 值進行計算,得到最高值進行返回[8]。F1定義為:
在閾值為0.001~0.01的時候并不會影響到實驗結果,但是不能夠過大或者過小。如果p(γi)<ε的時候,此數(shù)據(jù)點就是聚類中心。圖1 為三螺旋數(shù)據(jù)集,圖2 為高斯分布得出聚類中心。一般,閾值設置的值比較小,所以圖2 接近橫軸點利用五角星標記,也就是數(shù)據(jù)集聚類中心[9]。
圖1 三螺旋數(shù)據(jù)集
圖2 高斯分布的聚類中心
聚類中心的選擇步驟為:
1)實現(xiàn)數(shù)據(jù)點局部密度和距離的標準化;
2)對每個點簇中心權值γi計算;
3)對每個點均值μi與方差進行計算;
4)對點概率密度p(γi)計算;
5)對p(γi)和閾值大小關系進行判斷,如果p(γi)<ε,那么此數(shù)據(jù)點就是簇中心,要不然就是聚類中心[10]。
為了對分析算法有效性進行驗證,該文進行了仿真實驗。案例使用某省交流10 kV 配電變壓器負荷數(shù)據(jù),設置1 h 為采集頻率,所以日負荷曲線中的數(shù)據(jù)點共有24 個。
圖3 為交流10 kV 配電變壓器日負荷數(shù)據(jù)的標準化曲線,該變壓器在常規(guī)運行過程中的曲線偏離正常的運行模式[11]。
圖3 日負荷數(shù)據(jù)標準化曲線
根據(jù)以上分析對數(shù)據(jù)集中樣本K各近鄰進行計算,并且計算樣本局部密度與KNN 距離。圖4 為異常值檢測的決策圖,表示大部分的樣本距離都在小于0.2 區(qū)域中集中,局部密度在大于0.95 區(qū)域中集中。只有部分樣本點具備大距離與小局部密度,也就是異常值[12]。
圖4 異常值檢測的決策圖
對比分析表示,該文算法能夠有效監(jiān)測和正常運行模式不同的曲線,在120 條曲線中所篩選的異常曲線共有7 條。表1 為曲線時間分布,在異常曲線中的時間是中國的信念,也就是表示該文所提算法能夠對異常用電模式進行檢測[13]。
表1 曲線時間分布
以不同的規(guī)模實現(xiàn)研究對象子集:對比傳統(tǒng)算法與改進算法的聚類分析,分析兩種算法的內存小號與執(zhí)行時間,兩種算法性能對比詳見表2。通過改進前后傳統(tǒng)算法與其他算法的聚類分析,對比算法內存消耗與執(zhí)行時間。為了保證算法執(zhí)行時間客觀性,在不同規(guī)模數(shù)據(jù)中的算法集中運行20 次,得出此數(shù)據(jù)規(guī)模中運行平均時間的執(zhí)行時間[14]。
表2 兩種算法的性能對比
通過表2 可知,傳統(tǒng)算法只能夠對8 000 條負荷曲線進行處理,在超過8 000 條的時會由于算法內存消耗過大導致計算機內存空間不足的情況,從而無法繼續(xù)的進行執(zhí)行。該文所分析的算法在數(shù)據(jù)集規(guī)模達到140 000 條以上時才會導致內存溢出,也就驗證了該文設計的算法能夠降低原本算法內存消耗[15-16]。
該文提出了基于改進的快速密度峰值聚類算法,通過全新思想對局部密度和距離進行定義,使傳統(tǒng)算法中的問題進行了改善,并且對異常值判斷的規(guī)則進行定義,基于異常值檢測角度實現(xiàn)優(yōu)化。該方法在某變壓器日負荷曲線仿真實驗中使用具有良好的性能,在對異常值進行檢測之后能夠結合實際業(yè)務實現(xiàn)異常用電的分析和設備的狀態(tài)監(jiān)測,還能夠以業(yè)務規(guī)則修正異常值,使數(shù)據(jù)質量得到提高。