亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Q 算法的認證協(xié)議漏洞挖掘技術研究*

        2022-10-20 09:08:58呂樂樂董偉趙云飛馮志李致成張雅勤
        電子技術應用 2022年10期
        關鍵詞:動作環(huán)境策略

        呂樂樂,董偉,趙云飛,馮志,李致成,張雅勤

        (華北計算機系統(tǒng)工程研究所,北京 102209)

        0 引言

        隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,網(wǎng)絡應用已經(jīng)融入現(xiàn)實生活的方方面面。為了登錄不同的網(wǎng)絡應用,用戶需要注冊不同網(wǎng)站的賬號信息[1],并維護相應網(wǎng)站的賬號和口令,低效而麻煩。認證授權協(xié)議允許第三方服務在無需用戶提供賬戶和口令的情況下訪問用戶的私有資源,解決了當前開放云平臺下的第三方授權問題,提高了用戶的體驗。但是當前網(wǎng)絡環(huán)境復雜多樣,且協(xié)議實體之間的交互存在著復雜的關系和制約,使得認證協(xié)議在交互處理中存在不確定性。因此,協(xié)議在實際使用時可能存在安全漏洞[2],攻擊者會利用協(xié)議本身的邏輯缺陷對信息系統(tǒng)進行攻擊。

        針對協(xié)議進行安全性分析是揭示協(xié)議缺陷和安全漏洞的重要方法。模糊測試是進行漏洞挖掘的常規(guī)方法[3],其本質(zhì)是變異報文字段取值,而非變異協(xié)議本身邏輯,因而只能發(fā)現(xiàn)協(xié)議編碼實現(xiàn)的漏洞,不能發(fā)現(xiàn)協(xié)議邏輯上的漏洞。形式化方法是尋找協(xié)議邏輯缺陷的重要方法,其主要通過形式化分析工具對目標系統(tǒng)進行形式化建模[4],但期間若存在較復雜的邏輯影響因素(如時延),會使模型變得非常復雜,一方面可能會產(chǎn)生失真,另一方面可能會出現(xiàn)狀態(tài)空間爆炸問題[5]。

        為了避免“常規(guī)模糊測試查不了邏輯,形式化方法模型復雜”的問題,本文提出一種新型方法-基于模糊仿真的漏洞挖掘方法,根據(jù)協(xié)議規(guī)約進行建模,基于Dolev-Yao 模型[6]引入模糊體角色,以此制造交互過程中協(xié)議實體動作序列的不確定,結合SA-Q 強化學習算法,協(xié)助模糊體進行動作選擇與判斷,挖掘協(xié)議邏輯漏洞。

        1 相關工作

        1.1 認證協(xié)議

        認證協(xié)議是在通信過程中應用密碼學技術隱藏或解密信息,達到身份認證以及消息正確發(fā)送的目的。在近年內(nèi)許多提出的認證協(xié)議出現(xiàn)之初被認為是安全的[7],但是在使用多年之后卻被發(fā)現(xiàn)存在很嚴重的安全漏洞。

        認證協(xié)議通常僅由幾條消息組成,但是由于協(xié)議安全屬性多樣、邏輯結構復雜等特點,導致實際運用中存在諸多安全隱患,各種欺騙性和破壞性的攻擊表明,其設計是一項高難度的工作[8]。若在邏輯上存在缺陷,執(zhí)行過程中一個微小的安全漏洞就可能導致用戶敏感數(shù)據(jù)暴露,使得攻擊者在未授權的情況下訪問系統(tǒng),破壞網(wǎng)絡服務的安全性。目前越來越多的認證協(xié)議正在涌現(xiàn),關于其安全性性質(zhì)的討論方興未艾。因此,在使用協(xié)議之前,對其進行安全性檢測與分析至關重要。

        1.2 Q 學習算法

        強化學習本質(zhì)上是一種基于馬爾科夫決策過程(Markov Decision Process),訓練智能體與環(huán)境交互,以實現(xiàn)智能體策略改進的機器學習算法[9]。其中典型算法Q 學習利用三元組(S,A,R)來表征其智能體模型,如圖1所示。

        強化學習的目的是尋找一個策略π,使得每個狀態(tài)的值函數(shù)Qπ(s)達到最大。在決策過程中,智能體通過對當前狀態(tài)的認知選擇動作,環(huán)境接收該動作之后發(fā)生狀態(tài)的轉(zhuǎn)移[10],智能體可以感知當前的狀態(tài)st。交互環(huán)境會對該決策進行回應,給出相應的回報R=R(st,at),之后進入下一個狀態(tài)st+1[5]。狀態(tài)值函數(shù)如式(1)所示:

        其中,α 為學習率,0≤α≤1。

        2 模糊仿真模型構建

        認證協(xié)議模糊仿真建模主要包括兩部分:一是編碼合法協(xié)議體交互過程和通信時的數(shù)據(jù)流;另一部分是構建模糊體,可通過選擇模糊策略產(chǎn)生“混沌”交互的海量場景,利用SA-Q 學習算法對協(xié)議狀態(tài)分析,同時將智能體角色功能賦予給模糊體,通過維護Q 表為下一步的行為提供建議,協(xié)助模糊體進行決策。模型框架圖如圖2 所示。

        針對認證協(xié)議自身的特點,設置以下前提條件:

        (1)經(jīng)過加密的消息只有知道正確的密鑰才能對其進行解密;

        (2)模糊體是參與協(xié)議交互的合法主體;

        (3)模糊體熟知協(xié)議,有通信打包、解包、調(diào)用加解密算法的能力。

        2.1 協(xié)議實體分析

        首先根據(jù)協(xié)議RFC(Request For Comments)規(guī)約,分析參與協(xié)議的實體對象和報文參數(shù),對目標協(xié)議的交互時序深入研究,構建協(xié)議交互模型,確認交互達到預期行為,搭建一個動態(tài)仿真環(huán)境代替真實運行環(huán)境。

        在協(xié)議實體中參與者分為不同的角色,如圖3 所示。協(xié)議實體即遵守協(xié)議RFC 規(guī)約參與協(xié)議交互的主體,包括誠實主體和模糊體。誠實主體是嚴格按照協(xié)議規(guī)范執(zhí)行協(xié)議交互的主體,如認證用戶、第三方網(wǎng)站、服務器等;模糊體是以破壞協(xié)議交互邏輯為目標的實體,其采用模糊策略擾亂交互順序,期望在不被察覺的情況下獲得誠實主體的信任,從而對協(xié)議的某個目標造成破壞。

        2.2 模糊體構建

        基于Dolev-Yao 攻擊者模型[6]的思想,引入模糊體角色。在協(xié)議交互過程中,模糊體采取主動攻擊的思想,根據(jù)當前各狀態(tài)機的狀態(tài)選擇模糊策略,協(xié)議交互環(huán)境將做出相應的改變。模糊策略包括:

        (1)當前狀態(tài)在轉(zhuǎn)換處“選擇點”時,可以選擇非正常的狀態(tài)遷移。測試過程從協(xié)議的第一次交互開始,測試時模糊體根據(jù)當前自身狀態(tài)和環(huán)境狀態(tài),改變交互對象并且基于自己已有的知識庫組合或重放報文。

        (2)插入或者截獲某段交互過程[11]。

        (3)竊聽其他交互消息。

        在強化學習算法中,每一個動作可以視為一個攻擊向量,用<target,operation>表示,其中target 表示交互的對象,operation 表示采取的模糊策略。環(huán)境的狀態(tài)空間使用四元組(inter_phase,dat,own_state,env_state)表示,其中inter_phase 表示運行到協(xié)議交互第幾階段,data 表示接收的數(shù)據(jù),own_state 表示交互之后協(xié)議主體自身的狀態(tài),env_state 表示當前環(huán)境狀態(tài)或者其他主體狀態(tài)。

        認證協(xié)議最終需要按照協(xié)議規(guī)約,通過多次交互,達到參與者之間的單向認證或者雙向認證。因此若違背認證協(xié)議的安全屬性[12],則表明協(xié)議存在邏輯漏洞:

        (1)如果最后模糊體以其他合法實體的身份認證成功,卻不符合協(xié)議規(guī)約的認證關系;

        (2)模糊體獲得其他用戶的保密信息、關鍵參數(shù)等情況。

        2.3 SA-Q 學習算法決策

        為了引導測試走向深入,提高測試效率,采用SA-Q算法優(yōu)化模糊體的決策行為。將認證協(xié)議漏洞挖掘的過程建模為馬爾科夫決策模型,基于強化學習算法利用交互環(huán)境獲取獎賞,訓練模糊體選擇最佳響應動作。

        在訓練過程中,模糊體初始回合對狀態(tài)動作的經(jīng)驗了解較少,Q 學習算法基于貪婪策略容易導致局部最優(yōu)[13]。SA-Q 學習算法將模擬退火算法的Metropolis 準則[14]應用到動作搜索過程中,以解決局部最優(yōu)的問題。當智能體選擇動作時,除了迄今為止學習到的策略,也嘗試選擇當前最優(yōu)策略以外的動作來探索,動作選擇的概率表示為:

        其中,Q(s,ar)是隨機選擇動作的Q 值;Q(s,ag)是基于εgreedy 策略選擇動作的Q 值;Temperature 為退火溫度值,按照幾何比例因子準則遞減。初始回合訓練時,Temperature 值較大,模糊體探索的隨機性概率較高;后續(xù)隨著溫度下降,基于ε-greedy策略選擇動作逐漸占據(jù)主導策略,以達到動作探索和利用的平衡[14]。

        算法中回報函數(shù)反映了當前狀態(tài)下執(zhí)行不同動作的效果,發(fā)現(xiàn)漏洞的效率很大程度取決于對執(zhí)行動作的評價。本文動作評價標準如下:如果模糊體通過動作選擇之后達到下一個狀態(tài)節(jié)點,沒有按照協(xié)議規(guī)約的動作序列且交互環(huán)境產(chǎn)生新的狀態(tài),根據(jù)模糊體當前處于的交互階段給予獎勵,公式如下:

        其中,phase(fuzzy body)代表模糊體利用模糊策略進行到協(xié)議交互的第幾個階段,如果交互階段越偏后,說明模糊體越有可能攻擊成功,因此回報值的大小與協(xié)議交互的階段成比例;Scale factor 代表折扣因子,取值為0.6。實驗采用回合制的方式進行,在每次回合中,通過一次次的動作選擇,與外界環(huán)境交互得到反饋結果,計算回報函數(shù),不斷優(yōu)化更新Q 表從而實現(xiàn)策略改進。

        3 實驗仿真與結果分析

        3.1 實驗過程

        Needham-Schroeder 協(xié)議(NSPK 協(xié)議)是一個經(jīng)典的安全協(xié)議,一直被優(yōu)先選為新的協(xié)議分析方法的測試對象。協(xié)議最終的目的是通信雙方完成雙向的身份認證。本節(jié)以NSPK 協(xié)議為例進行測試,分別基于Q 學習算法、SA-Q 算法建模,在相同交互環(huán)境下測試實驗效果。

        本文方法的流程圖如圖4 所示。

        模糊仿真協(xié)議建模的第一步是構建協(xié)議交互實體,參數(shù)設置如表1 所示。

        表1 協(xié)議參數(shù)

        其中,Alice、Bob、Eve 是協(xié)議本身的合法主體,除此之外Eve 為模糊體。Eve 基于SA-Q 學習算法的決策方法根據(jù)當前協(xié)議體狀態(tài)選擇動作,充當一個有經(jīng)驗考慮長久化利益的交互體,以期待從交互中獲得長期積累獎勵的最大值。若交互中檢測到協(xié)議體產(chǎn)生新的狀態(tài),則給予獎賞。算法中設置學習率α=0.01,貪心策略ε=0.9,折扣因子γ=0.8,降溫等比系數(shù)為0.6,溫度Temperature取值350,增加模糊體選擇隨機動作的概率。

        3.2 實驗結果

        從初始狀態(tài)開始,協(xié)議交互的部分路徑簡化如下所示,其中Eve()代表Eve 沒有偽裝其他主體的情況,僅接收或發(fā)送消息;Eve(user)代表Eve 冒充user 身份進行交互、重放或者修改交互數(shù)據(jù)。

        路徑1:

        路徑2:

        路徑3:

        路徑4:

        實驗結果表明初始訓練時,由于Q 表尚未完善,模糊體學習軌跡偏向于隨機化,會呈現(xiàn)多種交互情況;后續(xù)隨著Q 表迭代更新,學習效率逐漸提高,表明易于在協(xié)議混亂交互環(huán)境下發(fā)現(xiàn)攻擊路徑。上述路徑4 表明算法發(fā)現(xiàn)了該協(xié)議的邏輯漏洞,NSPK 協(xié)議測試中,模糊體Eve 通過偽裝協(xié)議體Alice,維護Alice 的狀態(tài)機和合法身份的狀態(tài)機,完成了與Bob 的身份認證,是典型攻擊中的穿插攻擊,并且最終發(fā)現(xiàn)的攻擊路徑和形式化軟件Scyther[15]發(fā)現(xiàn)的攻擊路徑相同,其攻擊軌跡如下所示:

        3.3 模型仿真分析

        3.3.1 算法性能

        基于控制變量的方法,在實驗場景下使用同樣的一組超參數(shù)測試Q 學習算法、SA-Q 學習算法的性能,選擇平均獎勵值作為評價指標,算法在一定交互次數(shù)之后得到的平均獎勵值數(shù)據(jù)對比如表2 所示,數(shù)據(jù)變化趨勢如圖5 所示。

        表2 算法改進前后訓練結果對比

        圖5中,SA-Q 的獎勵值在訓練初始階段小于Q 學習算法的獎勵值,隨著訓練回合數(shù)增加,模糊體對環(huán)境知識的認知提高,大約在137 步之后獎勵值趨于收斂。基本Q 學習算法在大約150 步學習之后性能仍次于前者,并且獎勵值還未達到收斂狀態(tài)。因此可以得出結論:(1)基于SA-Q 探索算法在一段時間學習之后其動作策略優(yōu)于Q 學習算法的策略;(2)SA-Q 學習算法的收斂速度更快,獎勵值更快趨于穩(wěn)定。

        一次訓練回合結束后,如果模糊體發(fā)現(xiàn)攻擊路徑代表一次勝利[16]。勝利概率是訓練過程中勝利次數(shù)的總和與總的回合數(shù)episode 的比值,模糊體在不同回合下的勝利概率如圖6 所示。

        從圖6 中可以看出,在訓練初始階段,Q 學習算法的勝利概率相對較高;但后續(xù)SA-Q 學習算法在接近30回合時超過Q 學習算法的勝利概率,并且隨著訓練回合數(shù)的增加,勝率概率逐漸趨于1。

        3.3.2 漏洞探測能力

        基于SA-Q 學習模糊仿真模型參照協(xié)議RFC 規(guī)約和交互報文,清晰直觀地描述協(xié)議實體交互過程和相應的狀態(tài)機,實現(xiàn)了協(xié)議全范圍的模擬仿真。

        該模型發(fā)現(xiàn)了NSPK 協(xié)議的邏輯漏洞,從攻擊過程可知NSPK 協(xié)議的安全性依賴于不同參與者的合法身份標識,側(cè)面反映認證中心和協(xié)議體之間的密鑰加密并不是完全可靠的。通過設置模糊策略,呈現(xiàn)出協(xié)議深入交互的多場景,實現(xiàn)協(xié)議多角色身份交互的動態(tài)測試,有助于發(fā)掘更深層次的新型協(xié)議漏洞。

        4 結論

        本文針對傳統(tǒng)測試技術缺乏對認證協(xié)議邏輯漏洞挖掘的問題,提出了一種基于SA-Q 學習算法的模糊仿真測試方法,以Needham-Schroeder 公鑰協(xié)議為例,確定協(xié)議參與者和協(xié)議認證的安全屬性,結合Dolev-Yao 模型引入模糊體角色,在擁有合法身份的前提下進行邏輯模糊,檢測出協(xié)議的穿插攻擊,證實了建模的準確性和有效性。

        模糊仿真思想考慮了協(xié)議多會話交互、多方參與的特殊場景,在模擬系統(tǒng)各部分的協(xié)議交互中,增設有關機制模糊化處理,對協(xié)議交互邏輯進行深入分析。本文將SA-Q 學習算法與Q 學習算法進行對比分析,初步結果表明,SA-Q 學習算法在收斂速度方面優(yōu)于標準Q 學習算法。當前基于強化學習的漏洞挖掘仍處于模擬驗證階段,但使用虛擬化手段在仿真環(huán)境訓練智能體是未來的研究方向,在后續(xù)的工作中,針對復雜交互的認證協(xié)議,需要進一步完善模型和模糊策略,考慮使用基于神經(jīng)網(wǎng)絡的強化學習算法來調(diào)整模糊規(guī)則庫和狀態(tài)動作空間,使之具有泛化能力,增強模型的擴展性。

        猜你喜歡
        動作環(huán)境策略
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學習的虛擬仿真環(huán)境
        例談未知角三角函數(shù)值的求解策略
        孕期遠離容易致畸的環(huán)境
        我說你做講策略
        環(huán)境
        動作描寫要具體
        高中數(shù)學復習的具體策略
        畫動作
        動作描寫不可少
        国产手机在线αⅴ片无码| 国产爆乳美女娇喘呻吟| 亚洲va中文字幕无码毛片| 欧美性猛交xxxx乱大交蜜桃| 99在线无码精品秘 人口| 成人男性视频在线观看| 亚洲爆乳无码专区www| 亚洲av无码精品色午夜果冻不卡| 最新国产成人在线网站| 人妻少妇被猛烈进入中文| 国产午夜av秒播在线观看| 亚洲日韩精品欧美一区二区| 骚片av蜜桃精品一区| 亚洲精品国产熟女久久久| 无码 人妻 在线 视频| 福利视频一二三在线观看| 成人国产在线观看高清不卡| 人妻人妇av一区二区三区四区 | 永久免费a∨片在线观看| 亚洲精品中文字幕无码蜜桃 | 国产精品一区成人亚洲| 国内嫩模自拍偷拍视频| 少妇被粗大的猛烈进出69影院一| 在线视频一区色| 久久中文字幕av第二页| 在线视频国产91自拍| 日躁夜躁狠狠躁2001| 黑人巨大精品欧美在线观看| 亚洲精品中文字幕一二| 精品精品国产自在97香蕉| 亚洲成av人最新无码| 久久中文字幕av第二页| 免费a级毛片高清在钱| 欧美第一黄网免费网站| 国产视频不卡在线| 中文字幕中文字幕在线中二区| 亚洲国产成人久久综合| 2021国产成人精品国产| 国产成人一区二区三区| 中文字幕亚洲无线码一区女同| 免费无码肉片在线观看|