王磊,朱皓,黃力,張宏俊
(貴州電網有限責任公司六盤水供電局,貴州 六盤水,550001)
隨著電力行業(yè)不斷地向信息化發(fā)展,電力信息系統已經成為我們工作中重要的組成部分[1]。電力信息系統可以實現信息共享,但在給人們帶來便利的同時,也面臨著電力運行數據泄露的風險。在電力信息系統數據庫中存儲著大量的數據,對企業(yè)和個人來說,這些數據可能是絕密的,如果不能保證電力運行數據的安全,不僅影響人們的生活,甚至會造成財產的重大損失[2]。電力運行數據泄露的風險來源主要有兩個方面,一是來自電力信息系統外網,來自外網的泄露風險更引起相關領域的關注;二是來自電力信息系統網絡內部的泄露風險,也得到了相關領域的重視。因此,對電力運行數據泄露風險預警方法的研究,成為電力信息系統領域關注的焦點[3]。
劉科研等人[4]提出了一種基于數據挖掘的電力運行數據泄露風險預警方法,首先采集電力運行數據泄露信息,對采集的信息進行去冗,再利用改進的有限元方程算法對電力運行泄露數據進行分析計算,得到泄露信息的特征集,利用數據挖掘系統對特征集進行風險預警。實驗結果表明,基于數據挖掘的電力運行數據泄露風險預警方法,可有效地提高電力信息系統的風險預警準確性。李敏等人[5]為了保證電力運行數據的安全,提出了一種基于信息聚類融合處理的電力運行數據泄露風險預警方法。構建電力運行數據泄露風險評估仿真模型,采集電力信息系統運行狀態(tài)下的數據信息,利用模糊自適應C聚類算法對運行狀態(tài)下的電力數據進行狀態(tài)評估,選取電力信息系統運行狀態(tài)下風險特征量子,利用信息追蹤反饋技術對風險特征量子進行預警。仿真試驗結果證明,基于信息聚類融合處理的電力運行數據泄露風險預警方法,可對運行的電力數據風險信息進行實時預警,有效地保證了電力運行數據的安全。
針對上述分析可知,雖然現有方法可以有效地進行實施預警,但是存在很多電力運行數據泄露都無法追蹤到具體的路徑,使相關領域對于電力運行數據泄露風險預警方法研究舉步維艱。因此,本文基于SOM聚類,對電力運行數據泄露風險預警方法進行研究,以期為實現電力運行數據泄露風險預警的實施提供幫助。
在電力信息系統運行過程中,當運行數據發(fā)生變化時,其變化值超過目標值時,表明發(fā)生了數據泄露,需要對電力運行數據泄露節(jié)點進行檢測。利用電力運行數據的信息特征量結合動態(tài)目標值[6-7],對泄露節(jié)點進行預警。這種檢測電力運行數據泄露節(jié)點的方法,可以根據電力運行數據的歷史目標值變化,調整相應的目標閾值,再通過對泄露節(jié)點的信息值與調整后的目標閾值進行對比分析[8],通過分析結果判斷電力運行數據是否存在泄露節(jié)點。具體操作如下:
Step1:在時間t內對電力信息系統的電力運行數據進行信息采集,并對采集到的數據進行分析;
Step2:計算時間t內,計算出每一個電力運行數據的特征量值E,根據特征量值使運行數據信息進行矩陣排列:
(1)
上述公式中,N為在時間T內,電力信息系統不同節(jié)點出現的電力運行數據信息的數量值,Q為第i個節(jié)點電力運行數據占總電力運行數據的百分比。
Step3:計算電力信息系統正常運行情況下,電力運行數據泄露節(jié)點的時刻檢測閾值ω[9-10],以及與平均目標閾值的差值。如果兩個電力運行數據信息節(jié)點的閾值差小于k*D,表明電力信息系統運行正常[11]。如果兩個電力運行數據信息節(jié)點的閾值差大于k*D,則表明存在泄露節(jié)點。A為檢測電力運行數據泄露節(jié)點的時刻檢測閾值ω的平均值,D為平均閾值A與ω之間存在的偏導系數;k為電力運行數據泄露節(jié)點的最大偏導系數,該指數直接影響檢測電力運行數據泄露節(jié)點的準確性。計算公式如下:
(2)
(3)
如果電力信息系統沒有電力運行數據泄露節(jié)點,可以在上述的矩陣中通過計算得到目標閾值,并根據公式(3)對各個電力運行數據節(jié)點進行目標閾值更新,以方便下一輪的電力運行數據泄露節(jié)點檢測。
如果電力信息系統存在電力運行數據泄露節(jié)點,則更新各個電力運行數據節(jié)點的目標閾值[12]。直接對電力運行數據泄露節(jié)點檢測,保證檢測數據的實時性與準確性。
為了有效地對電力運行數據泄露風險進行提前預警,采用自適應SOM聚類的方法[13-14],根據電力信息系統正常運行情況下泄露節(jié)點的特征量,確定基于自適應SOM聚類的電力運行數據樣本數,操作過程如下:
首先,設電力信息系統正常運行下電力運行數據的泄露節(jié)點集合為X=x1,x2,……,xN,各個泄露節(jié)點的電力運行數據和為目標集合A(L),B(L)為電力運行數據泄露節(jié)點的種類,L為電力信息系統運行情況下電力運行數據樣本的自適應分類。
其次,以第一個電力運行數據泄露節(jié)點作為起點,確定自適應聚類中心為泄露節(jié)點的樣本點,規(guī)定數據信息的密度集為xi,并將密度集作為自適應聚類中心的核心節(jié)點[15],當A(1)=xi,B(1)=1時,電力運行數據樣本的密度指數如下:
(4)
上述公式中,d1為電力型數據的樣本點,xi為聚類中心的半徑。
然后,計算出每一個電力運行數據泄露節(jié)點的樣本點xj與聚類中心的距離r,設自適應聚類閾值為d2。當r小于或等于d2時,將電力運行數據泄露節(jié)點的樣本點歸入自適應聚類中心中,當r大于d2時,樣本點暫不做歸類處理。把上述已歸類的樣本點重新做自適應分析處理,得到樣本集合X′,重復上述操作,設定一個閾值為M,最終使r≤d2。綜上所述,得到電力運行數據樣本自適應分類L。
利用下述公式計算,求得每一個電力運行數據泄露節(jié)點樣本的類別A(i),ci為隱藏樣本的原始數據。
(5)
上述公式中,i=1,2,3,……,L。
通過上述公式得到隱藏樣本的聚類中心,再利用下面公式求得聚類函數的擴展度[16-17]。
(6)
上述公式中,cmax為原始數據中心點與聚類中心的距離。利用聚類函數[18],實現電力運行數據樣本的自適應分類,則得出:
(7)
綜上所述,通過對電力信息系統電力運行數據泄露節(jié)點的樣本進行自適應聚類,增加其聚類函數的擴展度,最終實現電力運行數據樣本的自適應分類。
本文基于SOM聚類分析,對電力運行數據泄露節(jié)點進行采集篩查,并通過自適應分類[19],最終構建電力運行數據泄露風險預警模型。
設H為電力運行數據W的信息合集,Y為電力運行數據的特征量,O為每個節(jié)點電力運行數據的抽樣的樣本,得到電力信息系統的電力運行數據泄露時刻特征量為:
W=(H,Y,O)
(8)
設O為電力信息系統運行過程某個隱蔽的電力運行數據泄露節(jié)點[20-21],那么O就是n個泄露節(jié)點內的一個泄露風險信息,那么用下述方程表示電力運行數據泄露信息O:
∑ωa1a2……amxa1xa2……+b0……0
(9)
上述方程中,無法確定的電力運輸數據泄露風險信息為ωa1a2……am,電力運行數據信息泄露點合集為a=1,2,3,……,r,當隱藏泄露點信息量為x=xa1,xa2,……,aam,結合公式(9)可得到相應的電力運行數據泄露風險信息為:
(10)
用以下公式表示,當電力運行數據泄露風險信息進入監(jiān)控區(qū)域時,對泄露風險信息進行聚類分析[22-23],然后通過聚類樣本的動態(tài)閾值確定準確的泄露風險節(jié)點。
(11)
假如,G為電力運行數據泄露風險信息的橫向函數差,則電力運行數據泄露風險函數為:
(12)
假如,電力運行數據信息的輸入樣本l的泄露風險信息為xl,k為電力運行數據泄露風險信息的樣本因子,ck代表聚類樣本信息重點,ωkj為各個電力運輸數據節(jié)點的連接值,m和yj為電力運行數據泄露風險信息的函數數目與種類,那么得到電力運行數據泄露風險預警函數公式為:
(13)
根據電力運行數據方程,計算了電力運行數據的具體數值,利用電力運行數據的轉入函數,構建了電力運行數據泄露風險預警模型,實現了電力運行數據泄露風險的預警。
為了證明基于SOM聚類的電力運行數據泄露風險預警方法在實際應用中可以達到一種可觀的效果,將此次預警方法應用于某電網實時運行風險管控系統中進行驗證。
該電網實時運行風險管控系統的數據傳輸與發(fā)送主要表現在電網能量管理模塊,該模塊包括主站、生產管理系統以及調度操作執(zhí)行下發(fā)系統三部分,其中主站每5分鐘向總系統發(fā)布最新的電網運行數據信息,提供其必需的電網運行負荷等基本參數。生產管理系統則作為存儲和管理預設數據的來源,向其提供預設數據信息。調度操作執(zhí)行下發(fā)系統由調度員定期發(fā)送調度操作指令,供風險管控系統分析決策?;诖朔治?,設置了如表1所示的仿真環(huán)境參數。
表1 仿真環(huán)境參數Tab.1 Simulation environment parameters
在表1仿真環(huán)境參數設置完成后,確定此次仿真分析的評級指標??紤]到電力運行數據泄露風險預警需要具備實時性、高精度等特點,因此設定預警精度、查全率以及查全率和風險預警精度的調和均值為此次仿真分析的三個評價指標。評價指標參數的結果解釋如表2所示。
表2 評價指標參數的結果解釋Tab.2 Result interpretation of evaluation index parameters
假設precision表示電力運行數據泄露風險預警精度,recall為查全率,F-measure表示查全率和風險預警精度的調和均值,計算公式為:
(14)
(15)
(16)
分別引入傳統電力運行數據泄露風險預警方法、文獻[4]的數據挖掘方法和文獻[5]的信息聚類融合處理方法,與基于SOM聚類的電力運行數據泄露風險預警方法形成對比進行仿真分析,在2000組~9000組不同規(guī)模測試組內進行仿真分析,結果如下。
四種風險預警方法的準確率對比結果如圖1所示。
圖1 預警準確率對比結果Fig.1 Comparison results of early warning accuracy
從圖1的結果可以看出,與其他三種電力運行數據泄露風險預警方法相比,基于SOM聚類的電力運行數據泄露風險預警方法獲取到的預警準確率在70%以上,并且始終沒有出現比較大的波形。原因是本文設計的風險預警方法采用SOM聚類的方法首先檢測了電力運行數據泄露節(jié)點,減少了電力運行數據泄露風險在預警的最后階段產生的干擾信息,大大提高了電力運行數據泄露風險的預警準確率。
為了驗證基于SOM聚類的電力運行數據泄露風險預警方法在應用時的性能,測試了四種電力運行數據泄露風險預警方法的F-measure值,結果如圖2所示。
圖2 F-measure值對比結果Fig.2 F-measure value comparison results
從圖2的結果可以看出,隨著迭代次數的增加,基于SOM聚類的電力運行數據泄露風險預警方法在預警電力運行數據泄露風險時的性能是最好的,F-measure值最高時為迭代20次時的0.8。原因是本文設計的電力運行數據泄露風險預警方法可以通過對電力運行數據樣本進行自適應分類,計算出可能出現泄露風險的節(jié)點,大大降低了電力運行數據泄露風險預警的計算量,還可以有效提高查全率,最終獲得的預警結果具有更高的可信度。
基于SOM聚類的電力運行數據泄露風險預警方法在實際應用過程中幅度波動率測試結果如圖3所示。
圖3 幅度波動率測試結果Fig.3 Range volatility test results
電力運行數據泄露風險預警幅度波動率可以反映出風險預警模型的預警結果是否穩(wěn)定,判斷出外界環(huán)境因素是否會影響預警效果。從圖3的結果可以看出,基于SOM聚類的電力運行數據泄露風險預警方法在應用過程中預警的幅度波動率保持在[50,-50]之間,說明本文設計的風險預警模型在外界環(huán)境干擾的條件下,也可以獲得更加準確的風險預警效果,適合在多種環(huán)境中應用。
為了有效緩解電力系統中電力運行數據的泄露問題,采用SOM聚類方法對電力運行數據泄露風險預警方法進行改善,結果顯示,本文設計的電力運行數據泄露風險預警方法在實際應用中具有更好的預警效果,預警準確率在70%以上,查全率和風險預警精度的調和均值最高時為迭代20次時的0.8,預警的幅度波動率保持在[50,-50]。由于本文參考的文獻資料有限,雖然可以檢測出電力運行數據的泄露節(jié)點,但是無法確定泄露路徑,仍然無法從根本上解決電力運行數據的泄露問題,在今后的研究中要考慮到這一因素。