亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的智能網(wǎng)絡(luò)安全防護(hù)研究

        2021-12-14 01:48:20劉月華
        通信技術(shù) 2021年11期
        關(guān)鍵詞:網(wǎng)絡(luò)空間網(wǎng)絡(luò)安全神經(jīng)網(wǎng)絡(luò)

        周 云,劉月華

        (1.78111 部隊(duì),四川 成都 610011;2.中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)

        0 引言

        2013 年深度思考(DeepMind)公司開(kāi)發(fā)深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合構(gòu)建價(jià)值網(wǎng)絡(luò)訓(xùn)練智能體挑戰(zhàn)雅達(dá)利2600(Atari2600)中的游戲[1-2]。2016 年,阿爾法圍棋(AlphaGo)[3]在圍棋領(lǐng)域的成功是強(qiáng)化學(xué)習(xí)領(lǐng)域的里程碑事件,AlphoGo 將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合構(gòu)建價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練智能體,在對(duì)弈階段采用蒙特卡洛樹(shù)搜索[4]。隨后推出的阿爾法元(AlphaGoZero)在AlphaGo 的基礎(chǔ)上將策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)合并成一個(gè)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行強(qiáng)化學(xué)習(xí),在不使用已有知識(shí)經(jīng)驗(yàn)的條件下自我訓(xùn)練3 天即擊敗AlphaGo[5-7]。Atari 游戲、圍棋、國(guó)際象棋都屬于完美信息博弈,每個(gè)參與者可以在任何時(shí)候看到已經(jīng)發(fā)生或正在發(fā)生的游戲局勢(shì)。2019 年,阿爾法星(AlphaStar)[8]攻克即時(shí)戰(zhàn)略游戲星際爭(zhēng)霸,智能體可以戰(zhàn)勝99.8%的人類選手。星際爭(zhēng)霸是不完全信息下的博弈,主要使用了監(jiān)督學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)的局部馬爾可夫決策,該智能體解決了不完全信息,需要遠(yuǎn)期計(jì)劃,實(shí)時(shí)性以及多主體博弈的難點(diǎn)問(wèn)題。

        DeepMind 團(tuán)隊(duì)取得的成績(jī)推動(dòng)了人工智能從感知智能進(jìn)入認(rèn)知智能。感知智能以深度學(xué)習(xí)為代表,認(rèn)知智能以強(qiáng)化學(xué)習(xí)為代表。

        強(qiáng)化學(xué)習(xí)的基本思想是從與環(huán)境的不斷交互中學(xué)習(xí)[9],根據(jù)從環(huán)境觀測(cè)到的信息,做出行動(dòng)決策,然后觀察環(huán)境反應(yīng)調(diào)整行動(dòng),最終實(shí)現(xiàn)目標(biāo)。網(wǎng)絡(luò)空間安全攻防對(duì)抗過(guò)程中,攻防雙方通過(guò)將攻擊行為和防護(hù)行為作用于網(wǎng)絡(luò)環(huán)境,并根據(jù)網(wǎng)絡(luò)安全態(tài)勢(shì)的變化調(diào)整對(duì)抗策略,從而實(shí)現(xiàn)網(wǎng)絡(luò)攻擊和網(wǎng)絡(luò)安全防護(hù)的目的,而強(qiáng)化學(xué)習(xí)為網(wǎng)絡(luò)空間攻防對(duì)抗智能化提供了重要途徑和技術(shù)手段。

        本文主要研究強(qiáng)化學(xué)習(xí)的基礎(chǔ)理論,針對(duì)網(wǎng)絡(luò)空間安全防護(hù)如何應(yīng)用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)智能防護(hù)的問(wèn)題,提出初步解決方案。本文沒(méi)有考慮網(wǎng)絡(luò)攻擊智能化的問(wèn)題。

        1 深度強(qiáng)化學(xué)習(xí)基礎(chǔ)理論

        強(qiáng)化學(xué)習(xí)[9](Reinforcement Learning,RL)以試錯(cuò)的機(jī)制與環(huán)境進(jìn)行交互,通過(guò)最大化累積回報(bào)學(xué)習(xí)最優(yōu)策略。它是一種通過(guò)智能體Agent 與環(huán)境不斷交互,獲得最大累計(jì)期望回報(bào),學(xué)習(xí)最優(yōu)狀態(tài)到行動(dòng)映射關(guān)系的方法。強(qiáng)化學(xué)習(xí)系統(tǒng)的原理如圖1 所示。

        圖1 強(qiáng)化學(xué)習(xí)原理

        強(qiáng)化學(xué)習(xí)系統(tǒng)通常包含4 個(gè)元素[10]:狀態(tài)s,動(dòng)作a,回報(bào)(Reward,又稱獎(jiǎng)懲/獎(jiǎng)勵(lì))r,策略π(a|s)。

        狀態(tài)空間S:s∈S,狀態(tài)集合。

        動(dòng)作空間A:a∈A,動(dòng)作集合。

        累計(jì)期望回報(bào)R的計(jì)算方式為:

        式中:γ∈[0,1]為折扣因子表示未來(lái)某一時(shí)刻的獎(jiǎng)勵(lì)在累計(jì)獎(jiǎng)勵(lì)中所占的影響比重;E為r的數(shù)學(xué)期望。強(qiáng)化學(xué)習(xí)目標(biāo)是最大化累積回報(bào)期望,回報(bào)函數(shù)是關(guān)鍵。

        策略π(a|s):狀態(tài)空間到動(dòng)作空間的映射函數(shù),Agent 依據(jù)策略π(a|s)生成動(dòng)作a。

        時(shí)間序列T:t∈T,t表示當(dāng)前時(shí)刻,t+1 表示t時(shí)刻的下一時(shí)刻。

        Agent 根據(jù)輸入的環(huán)境狀態(tài)st由策略π(a|s)選取動(dòng)作at作用于環(huán)境,環(huán)境狀態(tài)轉(zhuǎn)移至st+1,新的環(huán)境狀態(tài)st+1和動(dòng)作執(zhí)行回報(bào)rt再次輸入Agent,Agent 評(píng)估策略π(a|s)優(yōu)劣程度,進(jìn)一步調(diào)整做出新的決策。

        如圖2 所示,強(qiáng)化學(xué)習(xí)分為基于值函數(shù)(Value-based)的強(qiáng)化學(xué)習(xí)和基于策略函數(shù)(Policy-based)的強(qiáng)化學(xué)習(xí)。

        圖2 強(qiáng)化學(xué)習(xí)分類

        行動(dòng)者-評(píng)論家(Actor-Critic)[11]算法結(jié)合了兩者優(yōu)勢(shì),其結(jié)構(gòu)包括Actor 策略函數(shù)和Critic 值函數(shù)。Actor 產(chǎn)生動(dòng)作,Critic 評(píng)價(jià)動(dòng)作好壞,并生成時(shí)序差分(Temporal Difference,TD)誤差指導(dǎo)Actor 和Critic 更新。Actor 策略函數(shù)π(a|s)和Critic值函數(shù)(s,w)通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)獲得。對(duì)于高維的狀態(tài)st和動(dòng)作at數(shù)據(jù),構(gòu)建深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)[12]提取數(shù)據(jù)特征,學(xué)習(xí)策略函數(shù)和值函數(shù)。

        圖3 為Actor-Critic 邏輯架構(gòu)。圖中,Actor 網(wǎng)絡(luò)使用環(huán)境狀態(tài)st作為輸入,輸出動(dòng)作at。Critic網(wǎng)絡(luò)計(jì)算動(dòng)作最優(yōu)價(jià)值,Actor 利用最優(yōu)價(jià)值迭代更新網(wǎng)絡(luò)參數(shù)θ,進(jìn)而選擇新的動(dòng)作作用于環(huán)境。Critic 使用環(huán)境反饋的回報(bào)at和環(huán)境新?tīng)顟B(tài)st+1更新網(wǎng)絡(luò)參數(shù)w,然后使用新的參數(shù)w計(jì)算Actor 輸出動(dòng)作的最優(yōu)價(jià)值。Critic 的評(píng)估點(diǎn)基于TD 誤差,TD 誤差代表了估計(jì)值與目標(biāo)值的誤差大小,誤差越大樣本的價(jià)值就越大。

        圖3 Actor-Critic 邏輯架構(gòu)

        TD 誤差的表達(dá)式為:

        Critic 網(wǎng)絡(luò)使用均方差損失函數(shù)作為參數(shù)w的更新梯度,表達(dá)式為:

        Actor 網(wǎng)絡(luò)使用帶權(quán)重的梯度更新策略網(wǎng)絡(luò)參數(shù)θ,表達(dá)式為:

        2 基于DRL 的智能網(wǎng)絡(luò)安全防護(hù)

        基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的網(wǎng)絡(luò)安全防護(hù)智能體學(xué)習(xí)引擎使用虛擬化的網(wǎng)絡(luò)空間綜合靶場(chǎng)作為“環(huán)境(Environment)”,并通過(guò)Actor-Critic 算法和深度神經(jīng)網(wǎng)絡(luò)構(gòu)建DRL 框架,如圖4 所示。

        圖4 智能網(wǎng)絡(luò)安全防護(hù)DRL 框架

        虛擬網(wǎng)絡(luò)空間綜合靶場(chǎng)基于云計(jì)算平臺(tái)構(gòu)建,作為實(shí)際網(wǎng)絡(luò)的仿真運(yùn)行環(huán)境[13-14],環(huán)境中的數(shù)據(jù)支持從實(shí)際網(wǎng)絡(luò)引入,從而使Agent 的訓(xùn)練學(xué)習(xí)面向真實(shí)環(huán)境。當(dāng)把虛擬化網(wǎng)絡(luò)空間綜合靶場(chǎng)換做實(shí)際網(wǎng)絡(luò)環(huán)境時(shí),Agent 可以直接使用不需要再做遷移學(xué)習(xí)。

        2.1 狀態(tài)集合設(shè)計(jì)

        狀態(tài)集合S是網(wǎng)絡(luò)狀態(tài)信息的集合,是網(wǎng)絡(luò)狀態(tài)已知信息的客觀描述數(shù)據(jù),是強(qiáng)化學(xué)習(xí)的重要數(shù)據(jù)。組成狀態(tài)集合的狀態(tài)要素分類如表1 所示。

        表1 狀態(tài)要素

        表1 中的狀態(tài)要素是一個(gè)分類,每個(gè)分類有更詳細(xì)的原子狀態(tài)信息,所有的原子狀態(tài)信息共同構(gòu)成環(huán)境狀態(tài)集合形成狀態(tài)空間,例如:攻擊對(duì)象原子狀態(tài)信息有計(jì)算機(jī)、網(wǎng)絡(luò)路由器、網(wǎng)絡(luò)交換機(jī)、系統(tǒng)、服務(wù),安全設(shè)備、工業(yè)設(shè)備等;計(jì)算機(jī)原子狀態(tài)信息有主機(jī)可訪問(wèn)狀態(tài),操作系統(tǒng)類型,操作系統(tǒng)版本、權(quán)限、漏洞、存在脆弱性的服務(wù)和進(jìn)程等[15];攻擊來(lái)源原子狀態(tài)信息有IP 地址,域名,AS 號(hào)等。

        2.2 動(dòng)作集合設(shè)計(jì)

        動(dòng)作集合A是Agent 可以采取的操作的集合,策略st+1從動(dòng)作集合中選取at執(zhí)行。組成動(dòng)作集合的動(dòng)作要素分類如表2 所示。

        表2 動(dòng)作要素

        表2 中的動(dòng)作要素是一個(gè)分類,每個(gè)分類有更詳細(xì)的原子動(dòng)作,所有的原子動(dòng)作共同構(gòu)成動(dòng)作集合形成動(dòng)作空間。

        2.3 回報(bào)函數(shù)設(shè)計(jì)

        2.3.1 回報(bào)函數(shù)

        回報(bào)函數(shù)對(duì)強(qiáng)化學(xué)習(xí)的每步?jīng)Q策選擇動(dòng)作進(jìn)行獎(jiǎng)勵(lì)或懲罰,評(píng)判動(dòng)作性能?;貓?bào)函數(shù)對(duì)強(qiáng)化學(xué)習(xí)過(guò)程起著導(dǎo)向作用,回報(bào)函數(shù)引導(dǎo)Agent 在與環(huán)境交互的過(guò)程中不斷修正策略以選擇價(jià)值回報(bào)最大的動(dòng)作。

        回報(bào)函數(shù)為:

        Agent 選擇動(dòng)作at執(zhí)行后,環(huán)境給出t時(shí)刻網(wǎng)絡(luò)攻擊威脅度xt∈X。如果xt大于閾值Xthreshold,進(jìn)行正值反饋對(duì)Agent 進(jìn)行獎(jiǎng)勵(lì);如果xt小于閾值Xthreshold,進(jìn)行負(fù)值反饋對(duì)Agent 進(jìn)行懲罰;xt等于閾值Xthreshold,不獎(jiǎng)勵(lì)也不懲罰。此處閾值Xthreshold不做特別規(guī)定,視具體情況自行定義。

        2.3.2 基于動(dòng)態(tài)貝葉斯的網(wǎng)絡(luò)攻擊威脅度評(píng)估

        動(dòng)態(tài)貝葉斯[16]網(wǎng)絡(luò)攻擊威脅度評(píng)估,首先確定攻擊威脅各組成要素及其關(guān)系,按照要素間關(guān)系建立對(duì)應(yīng)的貝葉斯模型;其次確定貝葉斯模型中各節(jié)點(diǎn)的先驗(yàn)概率和條件概率;最后進(jìn)行模型推理。

        靜態(tài)貝葉斯模型在時(shí)間維度上展開(kāi)得到動(dòng)態(tài)貝葉斯模型,如圖5 所示。

        圖5 動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)威脅度評(píng)估模型

        動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)推理使用濾波算法利用過(guò)去結(jié)果和當(dāng)前證據(jù)預(yù)測(cè)當(dāng)前結(jié)果的推理方法,推理公式為:

        式中:E代表證據(jù);X代表連接毗鄰時(shí)間片的節(jié)點(diǎn);t-1 代表過(guò)去;t代表當(dāng)前;P(Et)和P(Xt)是當(dāng)前證據(jù)E和節(jié)點(diǎn)X的先驗(yàn)概率;P(Xt|Et)是當(dāng)前網(wǎng)絡(luò)濾波推理前的概率結(jié)果;P(Xt-1|E1∶t-1)和P(Xt-1|E1∶t)是過(guò)去和當(dāng)前網(wǎng)絡(luò)濾波推理后的概率結(jié)果;是當(dāng)前和過(guò)去間節(jié)點(diǎn)X的狀態(tài)轉(zhuǎn)移概率;是過(guò)去網(wǎng)絡(luò)濾波推理后最大的概率結(jié)果對(duì)應(yīng)的狀態(tài);α是歸一化因子。

        2.4 網(wǎng)絡(luò)安全防護(hù)智能體訓(xùn)練過(guò)程

        圖6 為網(wǎng)絡(luò)安全防護(hù)智能體訓(xùn)練過(guò)程示意圖,訓(xùn)練部分包括網(wǎng)絡(luò)空間安全態(tài)勢(shì)狀態(tài)數(shù)據(jù)和安全防護(hù)動(dòng)作相關(guān)的樣本數(shù)據(jù)集、虛擬網(wǎng)絡(luò)空間綜合靶場(chǎng)仿真環(huán)境、Actor 神經(jīng)網(wǎng)絡(luò)和Critic 神經(jīng)網(wǎng)絡(luò)。

        圖6 中的網(wǎng)絡(luò)安全防護(hù)智能體訓(xùn)練過(guò)程描述如下。

        圖6 網(wǎng)絡(luò)安全防護(hù)智能體訓(xùn)練過(guò)程

        步驟1:構(gòu)建Actor 神經(jīng)網(wǎng)絡(luò)和Critic 神經(jīng)網(wǎng)絡(luò),形成Actor 策略網(wǎng)絡(luò)和Critic 價(jià)值網(wǎng)絡(luò)。由于網(wǎng)絡(luò)安全態(tài)勢(shì)數(shù)據(jù)和網(wǎng)絡(luò)安全防護(hù)動(dòng)作數(shù)據(jù)是高維數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)構(gòu)建采用深層的深度神經(jīng)網(wǎng)絡(luò)。初始化神經(jīng)網(wǎng)絡(luò)參數(shù)、初始化訓(xùn)練次數(shù)、折扣因子、學(xué)習(xí)率等。

        步驟2:引入實(shí)際網(wǎng)絡(luò)數(shù)據(jù),提取網(wǎng)絡(luò)安全攻擊數(shù)據(jù),按照動(dòng)作集合設(shè)計(jì)中的動(dòng)作要素構(gòu)建網(wǎng)絡(luò)安全防護(hù)動(dòng)作數(shù)據(jù)集。

        步驟3:將網(wǎng)絡(luò)安全態(tài)勢(shì)數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)輸入。

        步驟4:Actor 策略網(wǎng)絡(luò)根據(jù)策略函數(shù)從動(dòng)作空間A 中選擇actions 輸出給仿真環(huán)境。

        步驟5:仿真環(huán)境執(zhí)行動(dòng)作actions,動(dòng)作執(zhí)行后的網(wǎng)絡(luò)攻擊威脅度和新的網(wǎng)絡(luò)安全態(tài)勢(shì)做為Critic 價(jià)值網(wǎng)絡(luò)的輸入。

        步驟6:Critic 價(jià)值網(wǎng)絡(luò)計(jì)算TD 誤差(td_error),計(jì)算min(td_error2),使用策略梯度算法更新神經(jīng)網(wǎng)絡(luò)參數(shù)w,同時(shí)將TD 誤差反饋給Actor 策略網(wǎng)絡(luò)。

        步驟7:Actor 策略網(wǎng)絡(luò)使用策略梯度算法更新神經(jīng)網(wǎng)絡(luò)參數(shù)θ。

        步驟8:重復(fù)步驟3 至步驟7,直至訓(xùn)練結(jié)束。

        步驟9:訓(xùn)練結(jié)束后,Actor 策略網(wǎng)絡(luò)參數(shù)和學(xué)習(xí)到策略函數(shù)、Critic 價(jià)值網(wǎng)絡(luò)參數(shù)和學(xué)習(xí)到的價(jià)值函數(shù)共同構(gòu)成智能體Agent,訓(xùn)練過(guò)程獲得的目標(biāo)策略即是網(wǎng)絡(luò)安全攻擊與其相對(duì)應(yīng)的最優(yōu)安全防護(hù)策略。

        3 結(jié)語(yǔ)

        本文針對(duì)網(wǎng)絡(luò)空間安全防護(hù)如何智能化的問(wèn)題進(jìn)行研究,探索了深度強(qiáng)化學(xué)習(xí)解決問(wèn)題的方法和過(guò)程。將深度強(qiáng)化學(xué)習(xí)應(yīng)用在網(wǎng)絡(luò)空間安全防護(hù)領(lǐng)域,使用深度學(xué)習(xí)提取網(wǎng)絡(luò)安全態(tài)勢(shì)數(shù)據(jù)特征,構(gòu)建智能體,由回報(bào)函數(shù)進(jìn)行強(qiáng)化學(xué)習(xí)決策導(dǎo)引,判斷策略和動(dòng)作好壞,并通過(guò)在虛擬網(wǎng)絡(luò)空間綜合靶場(chǎng)訓(xùn)練學(xué)習(xí)獲得安全防護(hù)智能體和最優(yōu)安全防護(hù)策略集合。智能體在面對(duì)網(wǎng)絡(luò)攻擊時(shí)根據(jù)模型和策略快速應(yīng)對(duì),并且強(qiáng)化學(xué)習(xí)從環(huán)境交互過(guò)程中學(xué)習(xí)的特性可以使智能體在線學(xué)習(xí)新的策略。

        網(wǎng)絡(luò)空間已成為領(lǐng)土、領(lǐng)海、領(lǐng)空、太空之外的“第五空間”,是國(guó)家主權(quán)的新疆域,國(guó)家安全的重要組成部分。信息網(wǎng)絡(luò)安全已成為國(guó)家信息化建設(shè)的重要基礎(chǔ)支撐。信息與通信技術(shù)(Information and Communications Technology,ICT)和人工智能技術(shù)不斷取得的新進(jìn)展,為網(wǎng)絡(luò)空間安全防護(hù)提供了新手段新措施。此外,網(wǎng)絡(luò)空間安全對(duì)抗也將更加智能化,對(duì)該領(lǐng)域的研究將會(huì)持續(xù)深入。

        猜你喜歡
        網(wǎng)絡(luò)空間網(wǎng)絡(luò)安全神經(jīng)網(wǎng)絡(luò)
        共建誠(chéng)實(shí)守信網(wǎng)絡(luò)空間
        公民與法治(2020年4期)2020-05-30 12:31:20
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        網(wǎng)絡(luò)安全
        網(wǎng)絡(luò)安全人才培養(yǎng)應(yīng)“實(shí)戰(zhàn)化”
        網(wǎng)絡(luò)空間并非“烏托邦”
        上網(wǎng)時(shí)如何注意網(wǎng)絡(luò)安全?
        網(wǎng)絡(luò)空間安全人才培養(yǎng)探討
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        我國(guó)擬制定網(wǎng)絡(luò)安全法
        聲屏世界(2015年7期)2015-02-28 15:20:13
        女同久久精品国产99国产精品| 欧美手机在线视频| 狠狠干视频网站| 国产自产在线视频一区| 日韩亚洲无吗av一区二区| 青春草在线视频观看| 国产如狼似虎富婆找强壮黑人| 中文无码制服丝袜人妻av| 蜜桃一区二区三区在线看| 白色月光免费观看完整版| 国产视频激情在线观看| 美女视频黄是免费| 亚洲精品无码久久久久秋霞| 国产一区日韩二区欧美三区| 久久99精品久久久久久齐齐百度 | 国产精品女主播福利在线| 国产探花在线精品一区二区| 丰满人妻熟妇乱又伦精品视| 欧美手机在线视频| 人妻有码av中文幕久久| 亚洲av日韩综合一区二区三区| 暖暖免费 高清 日本社区在线观看| 亚洲自拍愉拍| 亚洲av毛片在线播放| 欧美成人国产精品高潮| 亚洲 欧美 激情 小说 另类 | 我也色自拍俺也色自拍| 亚洲国产精品无码aaa片| 亚州少妇无套内射激情视频 | 天堂资源中文网| 老熟女高潮一区二区三区| 99精品视频69v精品视频免费| 久久精品网站免费观看| 久久91精品国产一区二区| 无码熟妇人妻av影音先锋| 国产亚洲精品aaaa片小说| 午夜精品一区二区三区无码不卡| 91中文在线九色视频| 日韩日韩日韩日韩日韩| 日本一区二区不卡视频| 制服丝袜人妻中出第一页|