許訓煒,沈希澄,周霞,解相朋,戴劍豐
(1.南京南瑞繼保電氣有限公司,南京 211102;2.南京郵電大學 先進技術研究院,南京 210023)
在源網荷儲協(xié)同互動背景下,新型能源系統(tǒng)建設呈現(xiàn)出新能源為主、新設備大量接入、新技術廣泛應用的特點[1-3],因此建立了源網荷儲資源協(xié)調控制系統(tǒng),通過數(shù)據管理融合、數(shù)據統(tǒng)一服務、資源全息感知等技術實現(xiàn)源網荷儲各環(huán)節(jié)的應用[4-7]。但海量分布的新能源場站高比例、碎片化接入,導致網絡安全防御關口增加,網絡防護邊界愈發(fā)模糊[6]。物聯(lián)終端新設備的大量接入使數(shù)字化威脅逐步滲透至電力系統(tǒng)中,攻擊暴露面和防護范圍顯著增加,給以邊界為核心的傳統(tǒng)防護構架帶來了挑戰(zhàn)[7]。源網荷儲協(xié)同場景下多方數(shù)據頻繁交互,在交互過程中,若負荷側需求電量等關鍵數(shù)據被黑客篡改,將會影響發(fā)電側、負荷側調節(jié)計劃,威脅電網安全[8-9]。因此,構建異常事件與網絡攻擊場景的關聯(lián)分析框架,有效識別攻擊場景并設置對應策略成為電網安全防護的重要手段。
目前,基于數(shù)據驅動的關聯(lián)規(guī)則分析技術已被運用于輸電線路缺陷狀態(tài)預測、配電網薄弱點分析、用電異常數(shù)據挖掘等領域[10-12],關聯(lián)分析方式主要有基于相似度、因果關系、數(shù)據挖掘等方法。文獻[13]建立了基于Apriori 算法的關聯(lián)分析模型,挖掘電網網絡攻擊場景下的關聯(lián)規(guī)則,并結合貝葉斯模型實現(xiàn)攻擊場景的快速分類;但Apriori 算法在進行頻繁項集挖掘的過程中需要多次遍歷項集,算法的時間復雜度較高,面對源網荷儲系統(tǒng)的海量數(shù)據時效率較低。文獻[14]針對網絡攻擊對信息側與物理側的影響,從時間維度上的事前防御和事后恢復出發(fā),總結歸納了相關網絡攻擊防御手段,但并未指出如何識別相關網絡攻擊場景。文獻[15]將機器學習運用于攻擊關聯(lián)分析中,通過對電力通信側異常事件歸類,利用遺傳算法自動生成對應不同網絡攻擊場景的關聯(lián)規(guī)則,并基于時序邏輯實現(xiàn)關聯(lián)規(guī)則的匹配;但該方法需要對所有攻擊場景內的關聯(lián)規(guī)則依次進行匹配,異常事件匹配效率較低。
針對上述方法存在的問題,本文提出了基于數(shù)據驅動的源網荷儲協(xié)同控制系統(tǒng)網絡攻擊異常關聯(lián)規(guī)則分析方法,利用處理后的系統(tǒng)運行數(shù)據,應用FP-Growth 算法提升關聯(lián)規(guī)則挖掘的效率。通過灰色關聯(lián)分析算法實現(xiàn)異常事件與關聯(lián)規(guī)則的在線匹配,建立系統(tǒng)網絡攻擊異常事件關聯(lián)分析框架,提升網絡攻擊場景的識別準確率。最后,對比FP-Growth 算法與Apriori 算法在不同數(shù)據量下的關聯(lián)規(guī)則挖掘速度,驗證所提方法的可行性。
源網荷儲協(xié)同控制系統(tǒng)由應用層、平臺層、網絡層、接入層組成。接入層負責各終端與控制系統(tǒng)的物聯(lián),實現(xiàn)全場景數(shù)據融合。網絡層由生產控制、信息管理與互聯(lián)網3個大區(qū)組成,為源網荷儲之間的協(xié)調提供通信支持。平臺層對各項數(shù)據進行處理,為應用層提供統(tǒng)一服務,以實現(xiàn)源網荷儲優(yōu)化調度、泛在可控資源協(xié)調控制等功能。源網荷儲協(xié)同控制系統(tǒng)結構如圖1所示。
圖1 源網荷儲協(xié)同控制系統(tǒng)網絡安全防護結構Fig.1 Network security protection structure of a coordinated source-network-load-storage control system
源網荷儲協(xié)同控制系統(tǒng)的特點體現(xiàn)在多元信息采集的廣度與深度,將海量信息管理、多源數(shù)據統(tǒng)一融合等技術結合,實現(xiàn)源網荷儲協(xié)同互動。然而源網荷儲系統(tǒng)每個設備與環(huán)節(jié)之間存在大量的數(shù)據傳輸,使整個系統(tǒng)中存在信息安全隱患。其次,由于源網荷儲協(xié)調場景中信息流與能量流動態(tài)交互,系統(tǒng)中的信息安全風險可憑借這一特性在信息流與能量流中交叉擴散,進一步增大了原本安全風險的復雜性與嚴重性。
目前安全風險主要出現(xiàn)在新型電力系統(tǒng)的建設過程中,隨著安全防護大區(qū)外的業(yè)務不斷增多,電網核心區(qū)與外部系統(tǒng)的交互形式多樣,防護大區(qū)外的防護策略超出了三道防線的防護設計范圍,存在安全漏洞。其次,末梢開放式的連接沖擊了隔離體系,政府、電網企業(yè)、聚合商、用戶、市場等主體在采集和使用末梢數(shù)據時,用戶側設備處于廣泛連接狀態(tài),外部終端本體存在的漏洞會給系統(tǒng)帶來致命一擊。此外,控制系統(tǒng)匯集了大量數(shù)據,當內網數(shù)據未被加密存儲且通過第三方企業(yè)的數(shù)據引流直接暴露于公網時,黑客可以利用第三方企業(yè)的漏洞獲取控制系統(tǒng)的數(shù)據,產生嚴重的安全隱患。
針對控制系統(tǒng)的網絡攻擊主要包括場景信息泄露攻擊、虛假數(shù)據注入攻擊、拒絕服務攻擊與非法使用攻擊。信息泄露攻擊通過密碼破解攻擊與惡意軟件進行報文監(jiān)聽。虛假數(shù)據注入攻擊通過偽造控制指令或者對測量數(shù)據進行修改造成安全威脅。拒絕服務攻擊是較為常見的攻擊,其通過阻礙控制中心與遠程終端的通信,導致測控信號無法傳輸進而影響系統(tǒng)安全。非法使用攻擊指攻擊者違法占用系統(tǒng)傳感器/執(zhí)行器的操控權限,從而對設備進行破壞。本文分析源網荷儲控制系統(tǒng)的4種攻擊頻繁場景:DDoS(分布式拒絕服務)攻擊、數(shù)據篡改、偽造指令攻擊、測控設備破壞攻擊,如表1所示。
表1 針對源網荷儲系統(tǒng)的網絡攻擊場景Table 1 Cyberattack scenarios of the source-network-loadstorage system
關聯(lián)規(guī)則分析法用于挖掘數(shù)據集合中多個變量間的關系,發(fā)現(xiàn)集合中不同項之間的聯(lián)系,并利用這些聯(lián)系構成的規(guī)則,找到相關的行為特征從而幫助決策。設S={a1,a2,…,an}為總項集,ai(i=1,2,…,n)為S中的項集。設X和Y是S的兩個非空子集,如果項X與Y存在關聯(lián)規(guī)則,可記為X→Y。關聯(lián)規(guī)則有支持度Support 與置信度Confidence兩個指標衡量關聯(lián)性。支持度指在全部事物中{X,Y}出現(xiàn)的可能性,即項目集中{X,Y}同時出現(xiàn)的次數(shù)與事物總數(shù)N的比例:
置信度指先決事件X條件下,對應的關聯(lián)事件Y發(fā)生的概率,即:
通過設定最小支持度minSup 與最小置信度minConf,排除出現(xiàn)概率較小的無意義規(guī)則,篩選頻繁出現(xiàn)的項集對應的規(guī)則即強關聯(lián)規(guī)則。
最先提出的關聯(lián)規(guī)則算法為Apriori 算法,其是一種廣度優(yōu)先的挖掘方法,需要重復掃描數(shù)據庫,并產生大量候選集,導致時間、空間復雜度較高,對于擁有海量數(shù)據的源網荷儲系統(tǒng)場景,Apriori算法效率較低。
本文采用的FP-Growth 算法基于分治算法思想,建立一個FP-Tree 樹結構以壓縮數(shù)據記錄。首先掃描事件S記錄數(shù)據,根據設置的minSup 和minConf確定頻繁項并根據支持度降序排列,候選頻繁項集均按次序處理,并依次創(chuàng)建分支,形成事件S序列的FP-Tree。其次遞歸調用樹結構,剪枝不滿足minSup 閾值的項,并連接所有組合,最終形成單一路徑的樹結構,路徑的所有組合為條件頻繁項集。相較于傳統(tǒng)的Apriori 算法,F(xiàn)PGrowth 算法在建立關聯(lián)規(guī)則的過程中僅需掃描兩遍數(shù)據集,提高了數(shù)據挖掘效率。本文通過分析異常事件類型與網絡攻擊的關聯(lián)規(guī)則,為網絡攻擊的實時識別提供依據。源網荷儲控制系統(tǒng)網絡攻擊匹配方法架構如圖2所示。
圖2 源網荷儲控制系統(tǒng)網絡攻擊匹配方法架構Fig.2 Architecture of matching method for cyberattack of source-network-load-storage control system
分析網絡攻擊異常事件需要收集有效特征數(shù)據構成項集,從多個數(shù)據源中獲取抓包數(shù)據和日志文件作為網絡攻擊事件匹配特征庫。由于系統(tǒng)異常事件較多且存在重復,需要對數(shù)據進行篩選,按照屬性一致性規(guī)則合并重復的異常事件以提高后續(xù)分析效率。
遭受網絡攻擊而導致的異常事件可分類為電氣側與信息側,信息側異常事件包括業(yè)務異常、網絡異常和終端異常,電氣側異常包括電壓異常、電流異常、可切負荷異常、拒動異常和誤動異常。網絡攻擊對源網荷儲控制系統(tǒng)的影響如圖3所示。
圖3 網絡攻擊對源網荷儲控制系統(tǒng)的影響Fig.3 The impact of cyberattacks on the source-networkload-storage control system
分析網絡攻擊場景、攻擊影響與攻擊對象,提取關聯(lián)規(guī)則的必須元素,建立網絡攻擊異常事件關鍵要素集合:
式中:Si為攻擊場景;Ai為網絡攻擊異常表現(xiàn)形式;Oi為數(shù)據來源對象。網絡攻擊場景包括測控設備破壞攻擊、數(shù)據篡改上行/下行信道攻擊、DDoS 上行/下行信道攻擊、偽造指令攻擊共6 種攻擊場景,分別編號為1—6。異常事件主要有網絡拒絕服務、終端通信異常、終端配置變更、網絡流量異常、違規(guī)業(yè)務指令、電壓異常、電流異常、上報可切負荷異常等共12 類異常事件,分別編號為A—L。
采用FP-Growth算法進行關聯(lián)規(guī)則數(shù)據挖掘,獲得網絡攻擊導致的裝置異常的數(shù)據頻繁項集,將獲取的頻繁項集與新發(fā)生的異常事件比對以識別網絡攻擊。基本步驟如下:
1)對經過整理的網絡攻擊導致的異常數(shù)據集合進行第一遍掃描,集合中每條數(shù)據代表系統(tǒng)遭遇網絡攻擊的出現(xiàn)異常記錄,統(tǒng)計其中所有Si或Ai頻數(shù)1項集出現(xiàn)的次數(shù),去除出現(xiàn)頻數(shù)小于設定minSup 的元素,剩余的元素即為滿足支持度要求的頻繁元素,將這些元素作為根節(jié)點,構建FPTree表頭。
2)第二遍掃描數(shù)據集,對于數(shù)據集中的每條項集,剔除不在項表頭中的Si或Ai,并按照支持度降序排列,建立異常數(shù)據集。接著將每條項集中所有元素構成由根節(jié)點到葉節(jié)點的路徑,然后遞歸建立對應的條件模式,得到網絡攻擊異常事件頻繁項集。
基于FP-Growth 算法的頻繁項集挖掘流程如圖4所示。通過該方法,可以快速挖掘攻擊場景Si與網絡攻擊異常表現(xiàn)形式Ai之間的頻繁項集,獲得二者之間的關聯(lián)規(guī)則,寫入網絡攻擊規(guī)則庫,為在線網絡攻擊場景匹配提供基礎。
圖4 基于FP-Growth算法的頻繁項集挖掘流程Fig.4 Flow of frequent itemset mining based on FP-Growth algorithm
基于已經生成關聯(lián)規(guī)則,建立系統(tǒng)內異常事件與具體關聯(lián)規(guī)則的匹配機制,以實現(xiàn)對網絡攻擊場景的快速識別。本文提出了基于灰色關聯(lián)分析的系統(tǒng)攻擊關聯(lián)匹配模塊。
對于實時異常事件,建立異常事件屬性集X={x1,x2…,x12};設置各指標的最優(yōu)值(或最劣值)構成參考屬性集Y={y1,y2…,y12}。同時,為了計算屬性集中各屬性與參考屬性之間的關聯(lián)度,建立了實時比較數(shù)列xi(k)與參考數(shù)列y(k),其中k表示不同時刻,i表示屬性集中的不同屬性。
由于各因素列中數(shù)據的量綱不同,因此在評估異常事件各屬性與參考屬性之間的關聯(lián)度之前需要對數(shù)據進行無量綱化處理,主要采用初值化與均值化處理,即:
利用無量綱化處理后的數(shù)據計算各時段下的關聯(lián)系數(shù)ξi(k):
式中:ρ為分辨系數(shù),取ρ=0.5。
計算比較數(shù)列與參考數(shù)列在各個時刻的關聯(lián)系數(shù)平均值,即為實時異常事件各屬性與參考屬性之間的關聯(lián)度ri:
對單個屬性設定不同的閾值β,通過對比閾值β與對應屬性的關聯(lián)度ri,判斷該屬性對應的異常表現(xiàn)是否發(fā)生,例如設定:
最后,得到實時異常事件對于網絡攻擊異常表現(xiàn)形式的元素集合,結合網絡攻擊規(guī)則庫中的關聯(lián)規(guī)則,實現(xiàn)對攻擊場景的快速識別。
為驗證所提出的源網荷儲協(xié)同控制系統(tǒng)網絡攻擊關聯(lián)性分析方法的有效性與可行性,對某地區(qū)源網荷儲系統(tǒng)的抓包文件和日志文件進行解析,獲取涉及網絡攻擊場景下異常事件的數(shù)據,對采集的數(shù)據進行預處理,過濾無關項與重復項,生成網絡攻擊異常事件項集,利用FP-Growth 算法對數(shù)據進行關聯(lián)性分析,挖掘異常信息與網絡攻擊事件的關聯(lián)規(guī)則。對比FP-Growth 算法與其他算法,分析關聯(lián)訓練算法的效率,并將新的事件按照關聯(lián)規(guī)則進行匹配,對該事件是否存在網絡攻擊以及具體的攻擊類型進行識別。
某地源網荷儲協(xié)同控制系統(tǒng)數(shù)據經預處理后得到2 000 條有效數(shù)據,其中1 800 條作為訓練庫構建關聯(lián)規(guī)則,其余200條作為測試庫數(shù)據,將測試數(shù)據進行量化編碼。首先設置minSup 為15%、minConf 為60%,并使用FP-Growth 算法進行關聯(lián)規(guī)則挖掘,經多次調整支持度與置信度,得出部分強關聯(lián)規(guī)則如表2所示。將測試庫數(shù)據的網絡攻擊場景、異常事件的具體情況與挖掘得到的關聯(lián)規(guī)則進行對比,驗證本文關聯(lián)規(guī)則方法的準確率。
表2 關聯(lián)規(guī)則部分結果Table 2 Selected results of correlation rules
利用灰色關聯(lián)分析法,將測試庫的200條數(shù)據與關聯(lián)規(guī)則進行匹配,判斷事件屬于自然故障還是網絡攻擊;若屬于網絡攻擊,繼續(xù)檢測識別其攻擊場景,通過設置不同攻擊場景,生成不同特征序列,利用遷移學習不斷提高事件匹配的效率和準確性。測試事件中92%的數(shù)據可以準確匹配出相應的網絡攻擊場景。
在不同樣本量下比較Apriori 算法、改進Apriori 算法與本文所提FP-Growth 算法的分析準確度。選擇總樣本量為500、800、1 000、1 500的數(shù)據庫進行關聯(lián)規(guī)則分析與匹配,結果見表3。
由表3可知,當樣本量較少情況下,本文提出方法的準確率明顯高于其他方法,當樣本量逐漸增加時,不同算法的準確率也逐漸趨于相同水平。本文提出的方法能有效匹配出網絡攻擊場景,在數(shù)據總量較低的情況下依然可以實現(xiàn)對異常事件的成功匹配。因此對于出現(xiàn)頻率較低的網絡攻擊場景,利用FP-Growth 算法能夠實現(xiàn)準確識別并確認攻擊發(fā)生的環(huán)節(jié),針對網絡攻擊方式實施相應的防護策略。
表3 算法準確率對比Table 3 Accuracy comparison of algorithms
進一步測試本文方法在不同樣本量下的運行速度。分別設置1 000~20 000 條數(shù)據,采用Apriori算法、改進的Apriori 算法與本文所提FP-Growth算法進行關聯(lián)規(guī)則訓練。設定minSup 為10%、minConf為50%,訓練時間對比結果如表4所示。
表4 不同算法關聯(lián)規(guī)則訓練時間對比Table 4 Comparison of training time for correlation rules of different algorithms
由表4可以看出:
1)相較于Apriori 算法和改進的Apriori 算法,本文所提出的方法在不同數(shù)據量下,訓練時間大幅降低、訓練效率提高。
2)在大數(shù)據量下,本文所提方法在訓練時間上的優(yōu)勢更為明顯。當存在20 000 條數(shù)據時,本文所提方法相較于Apriori算法效率提高約135倍。
3)隨著數(shù)據量的增加,本文所提方法的訓練時間沒有大幅度增加,從1 000條數(shù)據到20 000條數(shù)據的訓練時間僅增加不到3倍。因此,本文方法更加適用于源網荷儲系統(tǒng)海量數(shù)據的環(huán)境。
隨著新型電力系統(tǒng)的不斷發(fā)展,源網荷儲協(xié)同互動導致信息交互需求不斷增加,針對網絡防護邊界外部系統(tǒng)進行的網絡攻擊手段更加多樣,攻擊影響越發(fā)嚴重。
本文面向源網荷儲協(xié)同控制系統(tǒng),從電氣側與信息側考慮可能受網絡攻擊而產生的異常事件?;跀?shù)據驅動,利用FP-Growth 算法建立網絡攻擊異常事件關聯(lián)規(guī)則,并大幅降低數(shù)據挖掘的時間復雜度。
利用灰色關聯(lián)度分析算法對異常事件與關聯(lián)規(guī)則進行在線匹配,實現(xiàn)對網絡攻擊場景的實時判別。實際電網數(shù)據測試結果表明,本文提出的方法能有效匹配出網絡攻擊場景,有助于系統(tǒng)安全漏洞的識別與定位。