王 奇,馮大蔚,戴逸聰,荊 浦
(1.太湖流域管理局水文局(信息中心),上海 200434;2.上海藍(lán)泰信息咨詢有限公司,上海 200434)
數(shù)字孿生(digital twin,DT)作為實(shí)現(xiàn)物理世界與信息世界深度融合的關(guān)鍵技術(shù),其最早的概念由Michael Grieves于2003年提出[1-2]。隨著物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、人工智能、5G等新一代信息技術(shù)在傳統(tǒng)水利行業(yè)中的深入應(yīng)用,數(shù)字孿生驅(qū)動(dòng)的智慧水利應(yīng)用進(jìn)程也不斷加快?!吨腔鬯ㄔO(shè)頂層設(shè)計(jì)》《“十四五”智慧水利建設(shè)規(guī)劃》等重要文件都明確將數(shù)字孿生流域建設(shè)作為構(gòu)建智慧水利體系、實(shí)現(xiàn)“四預(yù)”的核心和關(guān)鍵。數(shù)字孿生太湖是以物理太湖流域?yàn)閱卧?、時(shí)空數(shù)據(jù)為底座、數(shù)學(xué)模型為核心、水利知識(shí)為驅(qū)動(dòng),對(duì)流域全要素和水利治理管理活動(dòng)全過程的數(shù)字化映射、智能化模擬,最終實(shí)現(xiàn)與物理流域同步仿真運(yùn)行、虛實(shí)交互、迭代優(yōu)化[3]。
當(dāng)前對(duì)數(shù)字孿生的研究主要聚焦在理論建模、關(guān)鍵技術(shù)和行業(yè)應(yīng)用等方面[4],忽視了數(shù)字孿生應(yīng)用給智慧水利帶來的安全問題。數(shù)字孿生太湖一方面可提升流域治理與管理的科學(xué)化、精準(zhǔn)化、高效化能力和水平,但一旦遭到攻擊,產(chǎn)生的破壞力比傳統(tǒng)信息化更大,必須高度重視數(shù)字孿生太湖網(wǎng)絡(luò)安全主動(dòng)防御體系建設(shè)。為此,須引入新的安全防御技術(shù)及理論豐富由密碼學(xué)、防病毒和網(wǎng)絡(luò)邊界防護(hù)構(gòu)成的傳統(tǒng)靜態(tài)安全防御體系。本文是基于應(yīng)用大數(shù)據(jù)、人工智能、高級(jí)威脅檢測(cè)等新技術(shù)對(duì)智慧太湖1.0建成的網(wǎng)絡(luò)安全縱深防御體系進(jìn)行擴(kuò)充,進(jìn)一步提升數(shù)字孿生太湖網(wǎng)絡(luò)安全態(tài)勢(shì)分析效率及主動(dòng)防御能力,構(gòu)建完善的數(shù)字孿生太湖網(wǎng)絡(luò)安全整體架構(gòu)。
太湖流域管理局(以下簡(jiǎn)稱“太湖局”)以太湖流域太浦河數(shù)字孿生工程建設(shè)作為先行先試,在現(xiàn)有信息采集、通信網(wǎng)絡(luò)、計(jì)算存儲(chǔ)等基礎(chǔ)上,運(yùn)用三維建模技術(shù)構(gòu)建數(shù)字化孿生模型;強(qiáng)化感知和傳輸網(wǎng)絡(luò)建設(shè),夯實(shí)信息基礎(chǔ)設(shè)施;根據(jù)當(dāng)前已有的預(yù)報(bào)調(diào)度一體化等業(yè)務(wù)系統(tǒng),融合水位、流量、閘門開度及視頻等在線監(jiān)測(cè)信息,提升預(yù)報(bào)調(diào)度等水利專業(yè)模型精度,基于太湖流域L1+L2級(jí)數(shù)據(jù)底板搭建數(shù)字孿生平臺(tái),實(shí)現(xiàn)具有”四預(yù)“功能的數(shù)字孿生智能應(yīng)用。
依托太湖局網(wǎng)絡(luò)安全能力提升等項(xiàng)目,太湖局形成了有效的網(wǎng)絡(luò)安全縱深防御體系,但隨著數(shù)字孿生太湖建設(shè)的不斷推進(jìn),海量數(shù)據(jù)帶來的安全問題亟須解決,主要包括:①缺乏完善的數(shù)字孿生太湖網(wǎng)絡(luò)安全理論框架體系支持;②缺乏統(tǒng)一開放的安全平臺(tái)支撐數(shù)字孿生系統(tǒng)信息安全的快速發(fā)展和廣泛應(yīng)用;③數(shù)字孿生系統(tǒng)的防護(hù)策略基本以靜態(tài)的被動(dòng)識(shí)別和被動(dòng)防護(hù)為主(例如防火墻、入侵檢測(cè))[5],關(guān)于動(dòng)態(tài)的主動(dòng)防護(hù)策略和技術(shù)應(yīng)用較少;④網(wǎng)絡(luò)安全監(jiān)測(cè)預(yù)警的及時(shí)性、自動(dòng)防御的有效性、跟蹤溯源的準(zhǔn)確性不足。
基于數(shù)字孿生太湖涉及的物理系統(tǒng)、信息系統(tǒng)、數(shù)據(jù)資源和網(wǎng)絡(luò)通信4個(gè)方面,遵循“整合資源,信息共享”、“統(tǒng)一架構(gòu),業(yè)務(wù)協(xié)同”的設(shè)計(jì)原則,通過建設(shè)網(wǎng)絡(luò)安全威脅感知系統(tǒng),引入大數(shù)據(jù)、人工智能等新技術(shù),構(gòu)建數(shù)字孿生網(wǎng)絡(luò)安全主動(dòng)防御體系框架[6],形成數(shù)字孿生安全態(tài)勢(shì)感知和監(jiān)測(cè)預(yù)警能力,掌控全網(wǎng)安全態(tài)勢(shì)、預(yù)判威脅事件、動(dòng)態(tài)調(diào)整防護(hù)策略,實(shí)現(xiàn)數(shù)字孿生安全的泛感知、精度量、可預(yù)判和全展示;從而構(gòu)建數(shù)字孿生太湖一體化安全框架和運(yùn)營體系,實(shí)現(xiàn)“安全監(jiān)控-威脅感知-通報(bào)預(yù)警-應(yīng)急處置”的閉環(huán)安全管理。實(shí)現(xiàn)資源共享、服務(wù)協(xié)同??傮w安全架構(gòu)如圖1所示。
數(shù)據(jù)采集主要包括兩方面:①在數(shù)字孿生太湖各網(wǎng)絡(luò)域間及邊界部署流量探針采集全網(wǎng)流量;②通過原有網(wǎng)絡(luò)安全集中管控平臺(tái)(SOC)采集全網(wǎng)設(shè)備日志信息,包括代碼審計(jì)與系統(tǒng)漏掃日志。
數(shù)字孿生太湖安全大數(shù)據(jù)平臺(tái)作為整個(gè)水利數(shù)字孿生安全大數(shù)據(jù)平臺(tái)的邊緣支撐層,主要對(duì)數(shù)字孿生太湖產(chǎn)生的各類數(shù)據(jù)進(jìn)行匯總、清洗、分析、挖掘。平臺(tái)采用智能數(shù)據(jù)檢索引擎(ElasticSearch)和關(guān)系型數(shù)據(jù)庫(PostgreSQL),對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)、快速檢索及數(shù)據(jù)分析,其中數(shù)據(jù)檢索引擎基于RESTFUL WEB接口,支持大數(shù)據(jù)搜索請(qǐng)求、數(shù)據(jù)存儲(chǔ)和分布式多用戶能力全文搜索引擎,支持2000億條日志記錄以上的入庫和查詢,響應(yīng)時(shí)間在3S之內(nèi)。
安全大數(shù)據(jù)平臺(tái)由數(shù)據(jù)存儲(chǔ)接口層、數(shù)據(jù)查詢接口層、分布式數(shù)據(jù)緩存層、大數(shù)據(jù)存儲(chǔ)層和大數(shù)據(jù)分析層五個(gè)部分組成。數(shù)據(jù)存儲(chǔ)接口層調(diào)用數(shù)據(jù)緩存層接口,將數(shù)據(jù)交給分布式數(shù)據(jù)緩存層緩存;當(dāng)外部應(yīng)用系統(tǒng)發(fā)起數(shù)據(jù)查詢請(qǐng)求時(shí)由數(shù)據(jù)查詢接口返回所查詢的數(shù)據(jù);數(shù)據(jù)緩存層對(duì)數(shù)據(jù)存儲(chǔ)接口層接收到的數(shù)據(jù)起緩存作用,降低數(shù)據(jù)入庫高峰期時(shí)的性能壓力;大數(shù)據(jù)存儲(chǔ)層負(fù)責(zé)數(shù)據(jù)分詞,將分詞結(jié)果生成倒排索引,存儲(chǔ)在物理存儲(chǔ)介質(zhì)之上,便于數(shù)據(jù)查詢引擎快速查詢;大數(shù)據(jù)分析層主要包含智能檢索引擎、流式計(jì)算引擎等,為平臺(tái)提供核心的數(shù)據(jù)分析服務(wù)。
圖1 數(shù)字孿生太湖網(wǎng)絡(luò)安全總體框架
服務(wù)層使用安全大數(shù)據(jù)平臺(tái)的數(shù)據(jù),為上層提供統(tǒng)一開放的數(shù)字孿生安全服務(wù)支撐:①調(diào)度服務(wù)用于調(diào)度任務(wù),主要用于定期數(shù)據(jù)處理,定時(shí)計(jì)算等任務(wù);②規(guī)則引擎用于原始數(shù)據(jù)的處理,篩選或匯總告警生成的事件,可支持批量/流式處理;③查詢服務(wù)提供通用的查詢接口,可根據(jù)不同的條件查詢或匯聚告警/事件數(shù)據(jù);④統(tǒng)計(jì)服務(wù)根據(jù)預(yù)設(shè)的指標(biāo)計(jì)算方法通過查詢和統(tǒng)計(jì)匯總形成相應(yīng)的指標(biāo);⑤報(bào)表服務(wù)可定制報(bào)表,并根據(jù)定制模板定期生成階段報(bào)表;⑥字典服務(wù)提供系統(tǒng)中使用的字典管理、查詢等服務(wù);⑦標(biāo)簽服務(wù)為各種數(shù)據(jù)打上不同的標(biāo)簽,并能管理標(biāo)簽分組;⑧配置服務(wù)管理系統(tǒng)全局的配置和用戶個(gè)性化的配置,也可用于任務(wù)實(shí)例級(jí)別等配置;⑨權(quán)限服務(wù)用于確定用戶的功能權(quán)限和數(shù)據(jù)范圍;⑩日志服務(wù)記錄操作日志及其他需要記錄的日志,并提供簡(jiǎn)單的日志查詢能力。
安全應(yīng)用層通過調(diào)用安全服務(wù)層,提供安全態(tài)勢(shì)、資產(chǎn)管理、風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警、場(chǎng)景化分析、預(yù)警通報(bào)、安全信息共享,并與第三方系統(tǒng)進(jìn)行對(duì)接交互,實(shí)現(xiàn)數(shù)字孿生安全應(yīng)用的廣泛發(fā)展和快速迭代。
為確保數(shù)字孿生太湖網(wǎng)絡(luò)安全主動(dòng)防御體系能夠?qū)崟r(shí)、準(zhǔn)確地呈現(xiàn)太湖局整個(gè)網(wǎng)絡(luò)安全態(tài)勢(shì)情況,全面監(jiān)測(cè)預(yù)警、智能分析處置網(wǎng)內(nèi)潛在風(fēng)險(xiǎn),實(shí)現(xiàn)數(shù)字孿生太湖網(wǎng)絡(luò)安全的關(guān)口前移、主動(dòng)防御,須依托人工智能強(qiáng)化學(xué)習(xí)等網(wǎng)絡(luò)安全關(guān)鍵技術(shù),具體技術(shù)如下。
強(qiáng)化學(xué)習(xí)系統(tǒng)RLS(reinforcement learning system)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),其通過自身的經(jīng)歷進(jìn)行學(xué)習(xí),并在行動(dòng)—評(píng)價(jià)的過程中不斷改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境,并從中獲得知識(shí)。強(qiáng)化學(xué)習(xí)系統(tǒng)的目標(biāo)是動(dòng)態(tài)地調(diào)整參數(shù),以達(dá)到強(qiáng)化信號(hào)最大。由于數(shù)字孿生涉及到的資產(chǎn)、網(wǎng)絡(luò)業(yè)務(wù)、訪問行為十分復(fù)雜,只有通過人工智能強(qiáng)化學(xué)習(xí)技術(shù)才有可能達(dá)到比較好的網(wǎng)絡(luò)安全主動(dòng)防御效果。
對(duì)于數(shù)字孿生太湖,主要鎖定在關(guān)鍵網(wǎng)絡(luò)節(jié)點(diǎn)及大湖局各級(jí)單位采集上報(bào)的資產(chǎn)數(shù)據(jù)、安全事件日志和文件樣本,自動(dòng)篩選已知特征的惡意事件關(guān)聯(lián)數(shù)據(jù),用于建立評(píng)估網(wǎng)絡(luò),基于未篩選數(shù)據(jù)建立行動(dòng)網(wǎng)絡(luò)。將太湖局建立的威脅預(yù)警系統(tǒng)平臺(tái)所存儲(chǔ)的海量歸一化數(shù)據(jù)作為兩個(gè)網(wǎng)絡(luò)的輸入數(shù)據(jù),從而建立面向全網(wǎng)、各類資產(chǎn)、各級(jí)單位的多維度網(wǎng)絡(luò)模型。
流量分析與數(shù)據(jù)還原技術(shù)通過調(diào)用靈活的協(xié)議分析模塊,實(shí)現(xiàn)了對(duì)IPv4/IPv6雙棧環(huán)境下的主流協(xié)議高性能分析,其擁有的碎片文件偵測(cè)和P2SP重組模塊,還可以實(shí)現(xiàn)對(duì)迅雷等國內(nèi)主流P2SP軟件下載的文件進(jìn)行還原。
流量還原還利用到端口匹配、流量特征檢測(cè)、自動(dòng)鏈接關(guān)聯(lián)和行為特征分析等多種技術(shù)。其中端口匹配技術(shù)的優(yōu)點(diǎn)是檢測(cè)效率高,弱點(diǎn)是便于偽造,因此數(shù)字孿生太湖安全框架在端口檢測(cè)過程中嵌套了特征檢測(cè)的判斷和分析;流量特征檢測(cè)一般分為有標(biāo)準(zhǔn)協(xié)議識(shí)別和未公開協(xié)議識(shí)別兩種,前者規(guī)定了特有的消息、命令和狀態(tài)遷移機(jī)制,通過分析應(yīng)用層內(nèi)的這些專有字段和狀態(tài),就可以精確可靠地識(shí)別這些協(xié)議,后者一般需要通過逆向工程分析協(xié)議機(jī)制后,通過報(bào)文流的特征字段來識(shí)別該通信流量;自動(dòng)鏈接關(guān)聯(lián)主要用于識(shí)別利用動(dòng)態(tài)協(xié)商端口方式傳輸數(shù)據(jù)的協(xié)議;行為特征分析主要是針對(duì)一些無法輕易還原的數(shù)據(jù)流量,依托鏈接的統(tǒng)計(jì)特征,如連接數(shù)、IP連接方式、流量上下行比、發(fā)包頻率等指標(biāo)來判斷應(yīng)用類型。
基于全球威脅情報(bào)源的APT事件發(fā)現(xiàn),運(yùn)用威脅情報(bào)、文件虛擬執(zhí)行、智能規(guī)則引擎、機(jī)器學(xué)習(xí)等技術(shù),可以檢測(cè)和發(fā)現(xiàn)APT攻擊、勒索軟件、遠(yuǎn)控木馬、僵尸網(wǎng)絡(luò)、竊密木馬、間諜軟件、網(wǎng)絡(luò)蠕蟲、郵件釣魚等高級(jí)網(wǎng)絡(luò)攻擊,并基于可視化技術(shù),清晰的展示網(wǎng)絡(luò)中的威脅。同時(shí)也可檢測(cè)多種網(wǎng)絡(luò)協(xié)議中的攻擊行為,提供網(wǎng)頁漏洞利用、Webshell上傳、網(wǎng)絡(luò)攻擊等多種維度的告警展示。
數(shù)據(jù)關(guān)聯(lián)分析是從有限的數(shù)據(jù)線索向未知數(shù)據(jù)進(jìn)行挖掘探索的過程,一般用于系統(tǒng)的數(shù)據(jù)分析層,主要是將多源異構(gòu)數(shù)據(jù)通過關(guān)聯(lián)分析模型串聯(lián)起來,找到各類數(shù)據(jù)源之間的關(guān)系,并通過可視化技術(shù)進(jìn)行最終呈現(xiàn)。該技術(shù)能夠以圖形化界面、流暢交互操作等形式將枯燥的數(shù)據(jù)分析變得生動(dòng),同時(shí),數(shù)據(jù)統(tǒng)計(jì)等可視化輔助功能可幫助分析員理解數(shù)據(jù)含義,在很大程度上可提高數(shù)據(jù)分析員的工作效率。
該技術(shù)一般用在數(shù)據(jù)治理融合層和數(shù)據(jù)分析層,其生成過程為:采集多源情報(bào)數(shù)據(jù)去除不可信數(shù)據(jù),將關(guān)鍵數(shù)據(jù)結(jié)構(gòu)化后進(jìn)行數(shù)據(jù)關(guān)聯(lián),對(duì)具有關(guān)聯(lián)關(guān)系的數(shù)據(jù)利用強(qiáng)化學(xué)習(xí)的方式進(jìn)行準(zhǔn)確性驗(yàn)證,并賦予可信度指標(biāo),再根據(jù)攻擊目的、攻擊類型、傳播渠道、具體危害等信息確定報(bào)警優(yōu)先等級(jí),最后根據(jù)分發(fā)的要求,按照不同情報(bào)類型與用途推送給不同安全產(chǎn)品,從而實(shí)現(xiàn)基于威脅情報(bào)生成技術(shù)的網(wǎng)絡(luò)安全主動(dòng)防御。
在2022年公安部組織的網(wǎng)絡(luò)安全攻防演習(xí)中,太湖局作為水利行業(yè)協(xié)同防守單位,依托數(shù)字孿生太湖網(wǎng)絡(luò)安全框架體系有效實(shí)現(xiàn)了可信威脅情報(bào)獲取、可視化關(guān)聯(lián)分析、基于人工智能的異常監(jiān)測(cè),構(gòu)建了威脅感知、分析研判、智能處置的主動(dòng)防御體系。數(shù)字孿生太湖安全大數(shù)據(jù)平臺(tái)平均每日感知境內(nèi)外威脅事件8000起以上,惡意IP數(shù)量200條以上,通過對(duì)上述攻擊行為、異常流量、僵木蠕毒等情況進(jìn)行智能分析研判,安全服務(wù)人員高效的完成了應(yīng)急處置,演習(xí)期間太湖局未收到一起網(wǎng)絡(luò)安全事件通報(bào)。
通過引入可視化關(guān)聯(lián)分析技術(shù),將數(shù)字孿生太湖包括網(wǎng)絡(luò)流量數(shù)據(jù)、系統(tǒng)業(yè)務(wù)安全日志和外部威脅情報(bào)等多個(gè)信息源整合關(guān)聯(lián)分析,有效降低了安全誤報(bào);通過引入流量分析與還原技術(shù)及時(shí)準(zhǔn)確的發(fā)現(xiàn)了數(shù)字孿生太湖域間及網(wǎng)絡(luò)邊界異常流量背后的攻擊行為;同時(shí),通過廣泛協(xié)同數(shù)字孿生安全框架下的下一代防火墻、高級(jí)威脅監(jiān)測(cè)、漏洞掃描等應(yīng)用,使得數(shù)字孿生太湖網(wǎng)絡(luò)安全態(tài)勢(shì)分析的效率顯著提升。
人工智能技術(shù)快速梳理了海量數(shù)字孿生太湖安全元數(shù)據(jù)及日志,并生成預(yù)警信息,第一時(shí)間定位到網(wǎng)內(nèi)的潛在安全風(fēng)險(xiǎn),為安服人員及時(shí)采取加固措施、避免風(fēng)險(xiǎn)進(jìn)一步擴(kuò)大提供了支持。甚至有個(gè)別安全設(shè)備通過與預(yù)警信息或威脅情報(bào)聯(lián)動(dòng)實(shí)現(xiàn)了智能化的安全事件處置,從而實(shí)現(xiàn)了由傳統(tǒng)的事中處置向事前預(yù)警、智能響應(yīng)和事后溯源的升級(jí)轉(zhuǎn)變,既全面準(zhǔn)確的反映了數(shù)字孿生太湖的安全風(fēng)險(xiǎn),又有效提升了數(shù)字孿生太湖的主動(dòng)防護(hù)能力。
數(shù)字孿生太湖網(wǎng)絡(luò)安全框架在太湖局網(wǎng)絡(luò)安全防護(hù)中的具體實(shí)踐表明:現(xiàn)有框架體系有效提升了安全態(tài)勢(shì)分析效率與主動(dòng)防御能力等問題,能夠更好地保障數(shù)字孿生太湖網(wǎng)絡(luò)安全。但數(shù)字孿生太湖的安全不是單純的技術(shù)問題,而是一項(xiàng)涉及意識(shí)和習(xí)慣、管理和流程、系統(tǒng)和架構(gòu)、技術(shù)和產(chǎn)品、組織和人才等各方面的復(fù)雜系統(tǒng)工程[7],需要所有參與者在建設(shè)生命全周期持續(xù)實(shí)施安全防護(hù)并不斷完善。同時(shí)人工智能技術(shù)在信息安全上的應(yīng)用還處于起步和探索階段,下一步重點(diǎn)將結(jié)合水利安全大數(shù)據(jù)平臺(tái)加大獲取學(xué)習(xí)樣本,探索建立數(shù)字孿生多場(chǎng)景下的人工智能訓(xùn)練模型,進(jìn)一步提升數(shù)字孿生太湖的主動(dòng)安全防護(hù)能力,為新發(fā)展階段的水利行業(yè)高質(zhì)量發(fā)展保駕護(hù)航。