亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進TICC聚類算法的智能博弈宏觀策略生成技術*

        2023-06-05 00:49:26程健慶
        艦船電子工程 2023年2期
        關鍵詞:特征智能策略

        周 盼 程健慶 初 陽

        (江蘇自動化研究所 連云港 222006)

        1 引言

        智能博弈是指在仿真條件下?lián)碛兄悄芩季S的博弈雙方根據(jù)戰(zhàn)場實時態(tài)勢數(shù)據(jù),自主做出決策判斷,并反饋于戰(zhàn)場,進而控制戰(zhàn)場的兵力、裝備等形成智能對抗行為的過程。目前智能博弈技術在很多領域都取得了顯著突破。在民用領域,智能AI已經在人機對抗賽中戰(zhàn)勝人類頂尖選手。如AlphaGo/AlphaZero(圍棋AI)[1]、AlphaStar(星際爭霸AI)[2]和絕悟(王者榮耀AI)[3]等。在軍事領域,作戰(zhàn)與指揮智能博弈問題也得到了積極研究,美國一直推進智能博弈技術的發(fā)展,希冀借此提高作戰(zhàn)指揮的效能,縮短籌劃時間,先后啟動了“深綠”[4]、指揮官虛擬參謀[5]、“指南針”(COMPASS)等一系列項目。

        智能博弈中智能體輸出的自主決策主要分為微觀決策和宏觀策略兩種。微觀決策是指決策智能體根據(jù)當前時間點的博弈態(tài)勢輸出對戰(zhàn)場兵力進行控制的決策指令,如控制兵力進行轉向、移動或發(fā)射武器等;宏觀策略指智能體根據(jù)一段時間內整體博弈態(tài)勢輸出的更高層次的策略方案,如全面進攻敵方目標、撤退防守我方陣地等。目前,通過基于微觀決策的深度強化學習算法可以做到讓計算機在博弈對抗時獲得近似于人類表現(xiàn)的決策[6],但無法直接滿足當前作戰(zhàn)指揮中日趨復雜的宏觀策略需要。鑒于現(xiàn)實中復雜決策問題通常為宏觀策略問題,智能博弈中宏觀策略生成技術亟需研究。

        在宏觀策略研究領域,Synnaeve 等[9]對收集到的回放數(shù)據(jù)進行預處理,提出了將星際爭霸玩家的開放決策模式從有限的決策模式中集中分類的識別方法。Justesen、Rsis 等[8]提出一種基于DNN 方法的來學習博弈對抗中的宏觀全局狀態(tài)策略評估。Gabriel S 等[7]提出基于貝葉斯網絡的模型,專門應對態(tài)勢信息中的不確定性和不完全性進行宏觀策略。

        總體來說,目前關于宏觀策略的研究主要集中在數(shù)據(jù)預處理、決策識別分類以及決策效果評估等領域,而且大部分研究是面向固定領域任務的宏觀策略,在海上作戰(zhàn)方向,結合智能博弈生成宏觀策略的方法研究不多。鑒于智能博弈具有巨復雜、高動態(tài)、強對抗等特點,為解決宏觀策略生成問題,本文在以微觀決策為主的智能博弈中收集特征數(shù)據(jù),對TICC 聚類算法進行改進,提出一種基于FS-TICC 分割聚類算法的智能博弈宏觀策略生成框架,并使用該算法對某博弈中高維特征時間序列數(shù)據(jù)進行了分割聚類,驗證了算法的有效性。本研究能夠清晰地展示智能博弈中的宏觀策略生成過程,使智能體的自主決策較直觀、可信,且在某種程度上具有一定的可解釋性,為使用人工智能技術生成作戰(zhàn)方案奠定基礎。

        2 智能博弈宏觀策略生成框架

        針對智能博弈決策過程獲取的博弈態(tài)勢S 和微觀決策時間序列D,為了對其時變相關性結構進行建模和聚類,本文提出一種智能博弈宏觀策略生成框架,將由博弈態(tài)勢S 和微觀決策D 組成的智能博弈特征變量時間序列Xorig進行了階段分割,并對不同階段的宏觀策略進行了聚類,最后對聚類結果進行分析,生成框架如圖1所示。

        圖1 智能博弈宏觀策略生成框架

        具體步驟如下:

        1)智能博弈特征數(shù)據(jù)采集

        對智能博弈過程中實時產生的微觀決策指令和對應時間點的博弈態(tài)勢進行記錄,可以得到的博弈態(tài)勢時間序列和微觀決策時間序列。

        博弈態(tài)勢時間序列:

        微觀決策時間序列:

        這兩個序列將作為聚類算法輸入的智能博弈特征數(shù)據(jù),其中T 為智能博弈過程在時間維度上的長度,博弈態(tài)勢si表示時間點為i 時智能體已知的環(huán)境態(tài)勢和敵我雙方的狀態(tài)的n1元變量。微觀決策di表示時間點為i 時智能體直接控制兵力、武器單元執(zhí)行的相關動作指令的n2元變量。

        2)分割聚類

        為了獲取時間序列數(shù)據(jù)在特征維度之間和連續(xù)時間段之間的時間上相互依賴關系,通過特征選擇輸入、階段分割和策略聚類三個步驟對獲取的博弈數(shù)據(jù)進行分割聚類,具體方法見第4節(jié)介紹。

        3)宏觀策略生成

        使用算法聚類結果對智能博弈特征變量時間序列Xorig進行階段分割和宏觀策略聚類。Xorig由智能博弈的博弈態(tài)勢S 時間序列和微觀決策D 時間序列共同組成:

        其中n=n1+n2,xi表示時間點為i時的智能博弈聯(lián)合特征的n 元變量。智能體在階段i 的時間段中,會遵循一個宏觀策略li,當智能博弈轉換為下一個階段i+1 時,智能體會更新當前的宏觀策略為li+1。其中,階段是使用聚類結果將Xorig中的博弈態(tài)勢進行分割的q 個區(qū)間段落。而宏觀策略為通過算法對不同階段的特征數(shù)據(jù)進行聚類,從而提取不同階段下的宏觀策略模式。

        4)聚類結果分析

        對智能博弈特征變量Xorig進行分割聚類后,可以獲取分割后各個階段的宏觀策略標簽和聚類特征。通過宏觀策略聚類的特征數(shù)據(jù)隨時間變化的特點,對聚類結果進行分析解釋。通常可以選擇決策人員主要關注的部分態(tài)勢特征變量,繪制一組分割聚類后的時間序列數(shù)據(jù),由此將分割聚類的結果進行可視化,在此基礎上對聚類結果進行分析。

        綜上所述,智能博弈宏觀策略生成的總體框架是首先將智能博弈中采集的高維時間序列特征數(shù)據(jù)博弈態(tài)勢S 和微觀決策D 分割為q 個階段,然后將這q 個階段中的宏觀策略聚類為K 個類,最后對結果作出分析解釋。其中最關鍵的步驟是對特征數(shù)據(jù)進行分割聚類,這是本文的一大挑戰(zhàn),不但需要在分割階段后對重復出現(xiàn)的宏觀策略模式進行識別和合并,還不同于單獨的子序列聚類,需要盡可能地將相鄰時間戳聚為一類。傳統(tǒng)聚類方法通常依賴于基于距離的指標,在時間維度上的考量并不深入,很難適用于高維時間序列數(shù)據(jù)的分割聚類。本研究將智能博弈中的宏觀策略生成過程轉換為一種特殊的對多元時間序列進行無監(jiān)督分割和聚類的過程,對Hallac 等提出的TICC 算法[10]進行改進,提出FS-TICC 算法,實現(xiàn)基于特征選擇和時變相關性結構的分割聚類。

        3 基于特征輸入選擇的改進TICC算法

        托普利茲逆協(xié)方差聚類算法(Toeplitz Inverse Covariance-based Clustering,TICC)是一種基于模型的聚類方法,考慮了數(shù)據(jù)之間的時變相關性,在時間序列聚類上可以獲得較為理想的聚類結果。智能博弈過程特征變量的多元時間序列Xorig由博弈態(tài)勢時間序列S 和微觀決策時間序列D 共同組成,博弈過程中階段的劃分標準取決于博弈態(tài)勢在時間上的變化特征,與微觀決策沒有直接相關性。TICC 算法直接將特征變量Xorig作為特征輸入時,多余的特征會增加復雜度以及可能過擬合。為了降低數(shù)據(jù)的冗雜度和計算復雜度,提高算法的計算速度以及增強聚類結果的可理解性,本文將基于特征輸入選擇(Feature Selection)來改進TICC。

        3.1 TICC算法介紹

        在TICC 算法中,為了便于考察智能博弈特征變量Xorig時變相關性,定義大小為w<< T 的時間窗口,并將xi之前相鄰的w 個時間點拼接成一個向量Xi=[xi-w+1,…,xi]T作為算法的輸入。算法還定義了能夠描述各特征變量之間時變相關性的K 個對稱分塊Toeplitz 矩陣的逆協(xié)方差Θi,Θi可以捕獲特征變量之間時變結構模式,并根據(jù)不同階段的特征變量的逆協(xié)方差Θ與Θi的相似度將階段下的宏觀策略模式進行聚類。

        TICC 算法最終求解目標為K 個逆協(xié)方差Θ={Θ1,Θ2,…,ΘK},及其分割集合P={Pk|k=1,…,K},其中Pk?{1,…,T},求解該上述多元時間序列分割聚類問題的整體目標函數(shù)數(shù)學表達式如下:

        其中,λ為正則化參數(shù);??(Xt,Θi)為Xt于聚類i的對數(shù)似然函數(shù)值;β1{Xt-1?Pi}為確保使相鄰時間向量Xi-1和Xi盡可能聚為一類,保持時間一致性的參數(shù)。

        3.2 特征輸入的改進

        本文提出的FS-TICC算法的核心是求解式(1)中分割集合P 和簇參數(shù)逆協(xié)方差Θ兩組變量參數(shù)時各自選擇特征變量輸入,該求解過程是一個混合組合和連續(xù)優(yōu)化的高度非凸問題,通過對期望最大化算法[11](EM算法)進行改進來解決該問題。主要思路是在更新分割集合參數(shù)P 以及更新簇參數(shù)Θ之間選擇各自的輸入特征變量,并交替進行迭代最小化。

        改進后的TICC算法迭代過程主要分為兩步:

        1)更新分割集合P:初始化各個簇即各個逆協(xié)方差參數(shù)Θ,并且固定這些參數(shù),以更新分割集合參數(shù)P,這一步的目的是得到智能博弈過程中的特征時間序列數(shù)據(jù)的階段劃分,故只需要輸入特征變量中博弈態(tài)勢部分。因此,現(xiàn)階段子問題轉化為如下目標函數(shù):

        2)更新逆協(xié)方差Θ:在更新完分割集合參數(shù)P之后,固定P,以交替更新逆協(xié)方差Θ。該步驟是為了提取博弈過程中的宏觀策略模式,故需要輸入特征變量中博弈態(tài)勢和微觀決策兩個部分,在該步驟中整體目標函數(shù)中的β1{Xt-1?Pi}將變成不影響最小化目標函數(shù)的常數(shù)C。這樣,該階段的子問題目標函數(shù)將定義如下:

        其中Ci為Xi的博弈態(tài)勢和微觀決策特征參數(shù)計算得到的當前協(xié)方差陣。式(7)只有對數(shù)似然項和稀疏項,可以采用交替方向乘子法[13](Alternating Direction Method of Multipliers,ADMM)來求解該參數(shù)優(yōu)化問題,由此得到每個簇的逆協(xié)方差矩陣Θi。

        重復1),2)兩步,直到分割聚類結果收斂或者達到迭代次數(shù)的上限時終止,并輸出分割集合參數(shù)P和逆協(xié)方差矩陣參數(shù)Θ。

        3.3 參數(shù)選擇

        在本文提出的FS-TICC算法求解步驟中,需要對時間窗大小w、聚類簇數(shù)K 兩個參數(shù)進行選擇或設置。

        時間窗大小w 表示算法中最小的數(shù)據(jù)粒度,該值越大,輸入的時間序列數(shù)據(jù)越長。w 不宜太大,因為如果太大可能很難正確地分割時間段邊界上的點,在邊界上的關于時不變結構的假設可能不成立。因此,w 的取值一般相對較小,選取時應該綜合考慮在智能博弈領域的以往經驗、觀察數(shù)據(jù)的粒度和平均期望長度,或者針對具體的博弈場景進行多次預先實驗來確認。

        聚類簇數(shù)K表示提取的宏觀策略類的數(shù)量,有多種方法可以確定K 的具體數(shù)值,一般可以基于相應領域的專業(yè)先驗知識來確定一個理論上的聚類數(shù),或者結合BIC 分數(shù)、輪廓系數(shù)或交叉驗證等方法綜合考慮K 的具體數(shù)值。在本研究中聚類簇數(shù)的確定值往往主要取決于智能博弈場景本身,其主要因為除了聚類準確性之外,還需要給予結果的可解釋性。

        4 實驗與分析

        為了驗證提出算法的有效性,采用某智能藍軍項目構建的決策智能體和仿真系統(tǒng)開展研究。仿真想定為藍方某大型海上編隊起飛戰(zhàn)斗機,突破紅方防空攔截線,對紅方重要水面目標進行打擊。運行仿真系統(tǒng),開展100 組紅藍博弈對抗,博弈對抗中藍方某架戰(zhàn)斗機飛行軌跡如圖2所示。

        圖2 藍方某架戰(zhàn)斗機飛行軌跡

        選取博弈對抗數(shù)據(jù)中的總得分、起飛飛機數(shù)量、發(fā)射武器數(shù)量、己方兵力信息、探測到的敵方兵力信息、摧毀敵方飛機數(shù)量、摧毀敵方重要目標數(shù)量和己方被摧毀的單位價值等作為博弈態(tài)勢時間序列S 以及智能體控制兵力執(zhí)行的動作等作為微觀決策時間序列D 作為分割聚類算法的輸入。本次實驗為了使聚類結果更加合理準確,對獲取的數(shù)據(jù)進行了歸一化預處理,并以博弈中藍方智能體視角獲取的數(shù)據(jù)來進行實驗。

        4.1 實驗中算法參數(shù)選擇

        在進行分割聚類之前,首先要對算法的參數(shù)進行選擇,以選擇合適的窗口大小w 和聚類簇數(shù)K。主要思路是結合智能博弈場景和輪廓系數(shù)法,設計了9 組不同參數(shù)求解輪廓系數(shù)s。不同參數(shù)選擇下計算得到的輪廓系數(shù)如表1所示。

        表1 不同參數(shù)選擇下的聚類結果的輪廓系數(shù)

        經過對比分析,第4 組的輪廓系數(shù)得分最高,所以本次實驗選擇的參數(shù)為窗口大小為4,聚類簇數(shù)為4。

        4.2 聚類結果與分析

        利用本文提出的FS-TICC 算法對數(shù)據(jù)進行分割聚類,將分割聚類后的一部分時間序列數(shù)據(jù)(總分數(shù)、起飛飛機數(shù)量、己方單位總價值、發(fā)現(xiàn)敵方單位數(shù)量、發(fā)射武器數(shù)量、摧毀敵方單位的價值、摧毀敵方重要目標的總價值、被摧毀飛機數(shù)量)的聚類結果繪于圖3 中。其中時間序列的橫軸統(tǒng)一為時間刻度,分割結果為各個階段的簇標簽,不同階段用線劃分,并將其用A~D字母進行標記。

        圖3 宏觀策略FS-TICC分割聚類結果

        下面對聚類結果及其標簽做出分析解釋。

        階段一的宏觀策略聚類標簽為A,博弈對抗過程剛開始,己方逐步起飛飛機,但是尚未發(fā)現(xiàn)敵方單位,可以解釋當前宏觀策略為進行兵力部署;

        階段二的宏觀策略聚類標簽為B,總分數(shù)、起飛飛機數(shù)量繼續(xù)上升,開始發(fā)現(xiàn)大量敵方單位,但發(fā)射武器數(shù)量和摧毀敵方單位數(shù)量一直處于低位,沒有發(fā)生大規(guī)模沖突,可以解釋當前宏觀策略為偵查敵情;

        階段三的宏觀策略聚類標簽為C,起飛飛機數(shù)量上升趨勢減緩,發(fā)現(xiàn)敵方單位數(shù)量和發(fā)射武器數(shù)量迅速上升,敵我雙方開始交戰(zhàn),雙方均出現(xiàn)戰(zhàn)損,可以解釋當前宏觀策略為主動進攻敵方目標;

        階段四的宏觀策略聚類標簽為D,己方被摧毀飛機數(shù)量開始出現(xiàn)大規(guī)模上升的情況,但同時起飛更多飛機加入戰(zhàn)斗,同時摧毀的敵方單位數(shù)量上升,可以解釋當前宏觀策略為防守待援;

        階段五的宏觀策略聚類標簽為C,總分數(shù)迅速上升,且己方在迅速摧毀敵方重要目標和敵方單位,可以解釋當前宏觀策略為主動進攻敵方目標。

        最終宏觀策略聚類結果分析解釋見表2。通過上述分析,可以定性的認為本文提出的FS-TICC算法分割聚類的結果與智能博弈宏觀策略生成過程的特征一致,證明了該算法的有效性。

        表2 宏觀策略聚類結果分析解釋

        4.3 不同聚類算法對比結果

        本小節(jié)將實驗中獲取的數(shù)據(jù)取平均值,將FS-TICC 算法與TICC 算法、FCM 算法和K-means算法進行比較研究。所有算法的輸入數(shù)據(jù)集相同,聚類簇數(shù)均設置為4,聚類后不同結果轉化為二維的生產資源數(shù)量-己方單位總價值散點圖形式,其中聚類效果的展示如圖4~7 所示。FS-TICC 算法與TICC算法平均計算時長如表3所示。

        表3 FS-TICC 算法與TICC算法平均計算時長

        圖5 TICC 算法聚類效果

        圖6 FCM算法聚類效果

        1)FS-TICC算法與FCM等傳統(tǒng)聚類算法比較

        由圖7可以明顯看出,傳統(tǒng)聚類算法只是對時間序列數(shù)據(jù)進行了分割,并沒有發(fā)現(xiàn)博弈過程中的階段五的宏觀策略聚類標簽,得到的結果與智能博弈宏觀策略模型并不相符。分析其中原因是傳統(tǒng)聚類分析算法只是基于數(shù)據(jù)的結構在邊界閾值上進行分段劃分,無法反映出不同參數(shù)時域上的變化關系,而智能博弈中高維時序數(shù)據(jù)的維度之間以及連續(xù)時間段的數(shù)據(jù)是有著一定的關系,所以傳統(tǒng)的時序數(shù)據(jù)聚類算法對智能博弈中高維數(shù)據(jù)進行準確的聚類。

        圖7 K-means算法聚類效果

        2)改進的TICC算法與改進前算法比較

        由表3可以看出,由于FS-TICC算法在特征變量選擇針對TICC 算法做出了改進,減小了一部分輸入特征變量的維度,大大提高了計算效率。

        對比圖3 和圖4 可以看出,由于TICC 算法在分割階段時的特征變量輸入較為冗雜,分割成了較為繁復的六個階段,而且在階段一和階段二之間,階段三和階段四之間的均出現(xiàn)分界不清晰的情況,給聚類結果的分析帶來了困難。

        綜上可知,F(xiàn)S-TICC 算法對智能博弈中的高維時間序列數(shù)據(jù)進行時間序列分割聚類的效果要優(yōu)于其他幾種算法,結果更加符合智能博弈中宏觀策略模型。

        5 結語

        目前,智能博弈對抗中的高維時間序列數(shù)據(jù)的日趨繁多,然而傳統(tǒng)聚類分析算法忽略了高維時間序列數(shù)據(jù)中特征參數(shù)在時間域上的關系,從而限制了傳統(tǒng)聚類算法對宏觀策略聚類的性能。本文提出了一種智能博弈宏觀策略生成框架,并對TICC算法進行改進,實現(xiàn)對高維時間序列數(shù)據(jù)分割聚類,采用某智能博弈實驗收集到的數(shù)據(jù)進行了實驗驗證,通過對比分析可以看出,針對高維時間序列分割聚類問題,改進的TICC 算法比傳統(tǒng)算法具有更好的聚類效果,能夠表現(xiàn)一定程度的可解釋性,聚類結果可作為利用智能博弈技術生成作戰(zhàn)方案的基礎。

        猜你喜歡
        特征智能策略
        例談未知角三角函數(shù)值的求解策略
        如何表達“特征”
        我說你做講策略
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        高中數(shù)學復習的具體策略
        抓住特征巧觀察
        久久婷婷五月国产色综合| 亚洲视频在线中文字幕乱码| 亚洲熟女熟妇另类中文| 亚洲精品乱码久久久久久不卡 | 日韩偷拍一区二区三区视频 | 对白刺激的老熟女露脸| 91精品福利一区二区三区| 黑人大群体交免费视频 | 欧美日韩亚洲成人| 西西少妇一区二区三区精品| 日韩精品极品免费视频观看| 国产成人av一区二区三区 | 偷拍韩国美女洗澡一区二区三区| 在线观看的网站| 法国啄木乌av片在线播放| 亚洲AV无码一区二区水蜜桃| 大屁股流白浆一区二区三区 | 人妻少妇69久久中文字幕| 日韩人妻无码精品久久久不卡| 午夜高清福利| 日韩精品一区二区三区视频| 2021亚洲国产精品无码| 中文字幕乱码免费视频| 国产一线视频在线观看高清| 久久91精品国产一区二区| 97久久精品人妻人人搡人人玩 | 久久精品亚洲热综合一本色婷婷| 国产成人精品无码一区二区三区| 国产成人无码av在线播放dvd | 国产精品高清免费在线| 亚洲一区二区三区尿失禁| 色悠久久久久综合欧美99| 国产成人综合亚洲av| 亚洲写真成人午夜亚洲美女| 亚洲一区 日韩精品 中文字幕| 在线观看亚洲AV日韩A∨| 久久精品天堂一区二区| 欧美激情综合色综合啪啪五月| 久久久精品人妻一区亚美研究所 | 亚洲av综合av国产av中文| 亚洲av鲁丝一区二区三区|