胡凱波,於立峰,鄭美芬,崔 娜
(浙江浙能蘭溪發(fā)電有限責任公司,浙江 金華 321100)
智能電網的深度融合,提升了電網的整體調度能力和效率。但伴隨5G、人工智能和大量終端設備接入,信息物理融合系統(Cyber-Physical System,CPS)網絡的安全風險也在不斷增加。由于CPS由感知層、傳輸層和應用層構成,所以針對CPS的攻擊類型復雜多樣,如虛假數據注入攻擊(False Data Injection Attacks,FDIA)[1]、拒絕服務攻擊[2]、傳感器欺騙攻擊[3]、重放攻擊[4]以及惡意軟件訪問隱私數據攻擊[5]等。在以上攻擊類型中,以FDIA攻擊最為常見,破壞性最強。攻擊者篡改傳感器量測數據,或刪除量測數據,造成決策系統發(fā)出錯誤決策,進而嚴重威脅CPS網絡安全。針對CPS的虛假數據注入攻擊,王電鋼[6]、王羽[7]等從博弈論的角度就攻防過程進行建模,并構建防御策略,以提高CPS網絡的安全性;阮兆文[8]等針對FDIA攻擊中的數據篡改問題,提出一種基于聚類算法與狀態(tài)預測的檢測方法,該方法的本質是基于狀態(tài)估計;陳碧云[9]、劉鑫蕊[10]等則針對量測冗余度低給CPS帶來的威脅問題,提出自適應無跡卡爾曼濾波動態(tài)估計結合神經網絡的攻擊檢測方法,結果顯示可有效提高攻擊檢測的辨識率;魏書珩等[11]也提出一種基于狀態(tài)估計的FDIA攻擊檢測方法。以上研究都是從數據篡改給CPS網絡帶來的穩(wěn)定性、安全性影響方面進行分析,進而躲避傳統攻擊檢測機制中的攻擊向量設計問題。針對攻擊向量設計的假設,使攻防兩方對CPS網絡拓撲結構、傳感器量測分布等均知曉,但實際中電網企業(yè)會采取各種攻擊防護措施,因此不可能完全知曉網絡拓撲結構和量測分布,很難建立攻擊模型。同時研究認為,電網節(jié)點和攻擊向量都呈正態(tài)分布[12]?;谠摲植继匦?,結合攻擊者惡意注入的攻擊向量和系統采集數據,提出一種基于高斯混合模型結合機器學習的網絡攻擊檢測方法,并就該方法的正確率等進行驗證。
GMM原理如圖1所示。該模型是基于一個概率密度函數,即設全部數據點X={x1,x2,...,xN}為同一密度函數中獨立抽樣得到的,且該概率密度函數為高斯函數的組合,具體表達式為[14]
式(1)中,ωm表示數據點xi產生于第i個高斯成員的先驗概率,,且?m=1,…,K;G(xi;μm,∑m)為高維高斯函數。
根據式(1),只需根據觀測的數據點,求解式(1)中的參數ΘK,其中Θm={αm,μm,∑m}。由此,根據以上描述,就將無監(jiān)督學習問題直接轉換為概率中的參數估計問題。而針對參數估計問題,通常采用極大似然估計方法。
實踐認為,FDIA檢測算法精度受狀態(tài)估計精度的影響[15]。但狀態(tài)估計的精度受兩方面影響:一是攻擊向量的攻擊強度。一般來說,檢測算法對攻擊強度較大的攻擊向量更具敏感性;二是檢測閾值。該值通常是根據經驗設定,它對于檢測算法精度起到關鍵影響。由于電力系統節(jié)點的電壓服從高斯分布,因而攻擊構造的虛假數據注入攻擊向量也服從高斯分布。在最優(yōu)潮流條件的約束下,電網節(jié)點電壓狀態(tài)數據分布較為集中,而攻擊向量卻較為分散。據此,除要構造2種不同的高斯分布外,還要引用高斯混合模型。考慮到智能電網未受攻擊和遭受攻擊的傳感器量測數據分別服從不同的高斯分布,因此采用高斯混合模型對兩組量測數據的分布特征進行擬合?;诟咚够旌夏P途垲惖腇DIA檢測流程如圖2所示。首先,根據遭受攻擊前后的傳感器量測數據分布特征,利用采集的最優(yōu)潮流數據,構造正負樣本數據,然后利用訓練集數據對GMM參數進行訓練,獲得優(yōu)化后的GMM參數;利用測試樣本數據對GMM分類效果進行檢驗,看是否可準確識別虛假數據注入攻擊;最后,通過仿真實驗對構建的攻擊檢測效果進行驗證。
依據智能電網節(jié)點電壓和攻擊向量服從正態(tài)分布的規(guī)律,將所有的量測數據分為正常和異常,這兩種數據分別屬于不同的高斯分量,同時通過這兩個高斯分量構成高斯混合模型。設某時刻的測量向量服從多維度的高斯分布,那么測量序列為
將測量序列構造為高斯混合模型,通過K個高斯分布向量加權求和,得到
式中,pi(x)表示高斯混合模型的各個分量;ωi表示各分量所對應的加權系數;xn(t)表示D維傳感器測量的特征矢量。
pi(x)根據高維高斯函數,可表示為
由于高斯混合模型的各分量相互獨立,所以可用對角矩陣的形式來表示協方差矩陣。
對式(5)進行整理,得到
式(6)中,d={1,2,…,D}。
利用傳感器樣本數據對GMM進行訓練,即利用EM算法對各個分量模型參數進行估計,從而獲得一組最優(yōu)的GMM參數。具體求解步驟如下所示:
(1)建立完整樣本集似然函數。
(2)對似然函數的期望進行求解。
將式(8)展開,則有
(3)計算使似然函數取得最大值的混合模型參數。
特征向量屬于第l個隱狀態(tài)的概率為
由此根據式(10),確定加權系數、均值、方差等參數。
通過以上計算,得到GMM的最優(yōu)參數,并在最優(yōu)參數下,對測試的量測數據進行分類。
在構建的GMM基礎上,將待檢測數據最大后驗概率設定為判別準則,然后利用軟分類法對測量值進行檢測,以達到檢測分類的目的。因此,設智能電網中的K個檢測量所對應的高斯模型參數依次是λ1,λ2,…,λk-1,λk,待檢測數據特征向量Z=(z1,z2,…,zT-1,zT)屬于第i個高斯分量的后驗概率為
測量矢量的最大后驗概率密度函數為
根據最大后驗概率密度,對測量矢量進行歸類。其中,i*表示該測量屬于第i個高斯分量。由于測量矢量屬于某一高斯分量的先驗概率是未知的,因此需進行初始化,假定先驗概率是相同的,由此,式(15)可表示為
利用最大對數似然函數進行求解。取對數似然函數,則有
最終分類的判別準則為
利用式(18)的判別準則,對待檢測數據進行歸類,實現正常數據與虛假數據的分離,從而達到攻擊檢測的目的。
為驗證上述檢測方法的準確性,在IEEE-18節(jié)點測試系統上搭建仿真驗證平臺,用以驗證本文提出的基于GMM的FDIA檢測效果。同時為對比GMM的優(yōu)劣,將SVM算法與GMM算法進行對比。
參考部分研究成果,分別以TP、TN、FP、FN表示真陽性、真陰性、假陽性、假陰性,然后采用Accuracy進行評價。若訓練樣本數據中包含同等數量的未受攻擊和遭受攻擊數據,此時的檢測準確率為
3.2.1 基本數據
以IEEE-18節(jié)點系統為例,該系統內置17條支路和18個節(jié)點,包含節(jié)點注入功率、支路端口功率、母線節(jié)點電壓幅值等多個測量值。其中,IEEE-18系統母線節(jié)點注入功率如表1所示。
表1 IEEE-18系統的母線節(jié)點注入功率Tab.1 Bus node input power of IEEE-18 system
在現實場景中,由于智能電網處于動態(tài)平衡狀態(tài),發(fā)電量與負荷調配都會對系統節(jié)點參數造成影響。因此本次仿真將最小成本設定為目標函數,由此得到節(jié)點的最優(yōu)潮流。另外結合電力系統量測方程,將疊加方差等于R的測量噪聲設為傳感器量測數據,并利用Matpower計算狀態(tài)向量。在不同攻擊強度條件下生成攻擊向量,并疊加到傳感器的量測數據中,用作傳感器在智能電網遭受攻擊時所采集的數據。同時設定攻擊樣本數據與未受攻擊樣本數據均為300個。利用樣本數據對高斯混合模型進行訓練,其中攻擊強度等于測量值的50%,正常測量向量與非正常測量向量的協方差矩陣分別為
3.2.2 GMM訓練結果
GMM參數估計結果如表2所示。
表2 GMM參數估計結果Tab.2 Estimation results of GMM parameters
由表2可見,IEEE-18系統節(jié)點電壓呈遞增態(tài)勢,因此攻擊值也表現出遞增趨勢。在量測數據統計特性一致的情況下,在節(jié)點3以后的混合模型權值均超過了0.5。
3.2.3 分類結果
利用訓練后的GMM參數,并依據準則對樣本數據進行分類,在節(jié)點8以后的聚類效果如圖3所示。
由圖3的分類可見,訓練后的GMM能夠將樣本數據完全分離開。為更好地驗證該模型,提高量測數據之間的離散度,改變狀態(tài)協方差矩陣對角元素的數量,設定攻擊向量和未受攻擊測量值的數量均為5000個,利用訓練后的高斯混合模型對疊加后的樣本數據進行分類,得到圖4的分類結果。
由圖4可見,本文提出的檢測成功完成了測試集數據的聚類,并且準確檢測出壞數據。
3.2.4 IEEE-18系統下不同算法的對比
對比基于高斯混合模型的檢測方法與基于支持向量機的檢測效果,從而驗證本檢測方法的優(yōu)勢,對比結果如圖5所示。
由圖5-6可見,兩種檢測算法在不同的攻擊強度條件下表現出大體相當的檢測準確性,但若兼顧測量值的統計特性,可發(fā)現基于高斯混合模型的檢測算法在檢測精度方面具有更優(yōu)性能。
通過以上研究可以看出,通過構建GMM,實現了智能電網的虛擬數據注入攻擊檢測,且大幅度提高了檢測的精度。而通過仿真也看出,GMM的檢測精度,受攻擊強度和協方差矩陣的影響。因此,要提高GMM分類的精度,關鍵要對以上參數進行優(yōu)化。