亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人工智能深度增強學習的裝備維修保障兵棋研究

        2018-03-14 08:25:14李承興高桂清鞠金鑫
        兵器裝備工程學報 2018年2期
        關(guān)鍵詞:兵棋概率神經(jīng)網(wǎng)絡(luò)

        李承興,高桂清,鞠金鑫,蔣 振

        (火箭軍工程大學, 西安 710025)

        隨著人工智能學習技術(shù)的日趨發(fā)展,以Alphago為首的圍棋AI掀起“人機大戰(zhàn)”的潮流。在兵棋推演系統(tǒng)中通過利用基于大量兵棋對抗數(shù)據(jù)的深度增強學習人工智能技術(shù)方法,提升計算機AI的學習與進化能力,模擬人的思維方式,實現(xiàn)對抗經(jīng)驗的快速積累,同步提高對抗水準的同時,幫助裝備保障推演指揮員改善、提高指揮策略、謀略水平。

        1 增強學習原理

        1.1 基本原理

        參與學習過程的機器稱為智能體,增強學習的本質(zhì)是智能體通過嘗試與環(huán)境反饋而完善策略的過程。智能體的學習過程基于環(huán)境感知,通過付出行為動作得到反饋,并根據(jù)結(jié)果進行學習優(yōu)化。深度增強學習的原理主要包括兩方面:馬爾科夫決策過程(MDP)與神經(jīng)網(wǎng)絡(luò)。

        1) 馬爾科夫決策過程(MDP)。一個完整的MDP是一系列狀態(tài)S與動作A的組合,智能體通過動作完成狀態(tài)轉(zhuǎn)變,而馬爾科夫過程的基本假設(shè)是每個狀態(tài)只與上一個狀態(tài)相關(guān)。一個MDP一般由五要素構(gòu)成:{S,A,{Psa},γ,R},其中:

        智能體在狀態(tài)s0的情況下采取動作a0,并按照Psa的轉(zhuǎn)移概率到s1,在這個過程中產(chǎn)生了回值r0,按照以上步驟完成的決策過程可以用圖1表示。

        在MDP基本元素確定后由于增強學習過程之中很多行動并不能立刻得到回報,而是延遲到行動結(jié)果產(chǎn)生時,因而一步回報函數(shù)r(s,a)并不能具備表示策略好壞的能力。為了解決上述問題,需要定義值函數(shù)來體現(xiàn)整個策略π的回報(π定義了各種狀態(tài)對應(yīng)的行動)。常用的值函數(shù)如下:

        (1)

        在狀態(tài)s下采用策略π時:考慮未來回報與即時回報擁有不同權(quán)重。增強學習最終的目標是最大化值函數(shù),因而最優(yōu)化的π可以定義為

        π*=arg maxVπ(s),(?s)

        (2)

        即在每個狀態(tài)下均能取到最大值函數(shù)的動作集合π。

        一般一個狀態(tài)下可以對應(yīng)有多個動作,進而延伸出能夠清楚表示出不同動作下的回報動作效用函數(shù)Q函數(shù),記為Q(s,a)。Q函數(shù)可以簡單地理解為一張表格,即記錄下每個狀態(tài)s下采用動作a對應(yīng)的回報值。Q表的更新迭代規(guī)則為:

        (3)

        式(3)中表示在狀態(tài)s下采取動作a時,i+1輪參數(shù)等于第i輪的參數(shù)r與轉(zhuǎn)化后的狀態(tài)s′下能夠取得的最大回報之和。Q函數(shù)動態(tài)更新,最初初始化為0矩陣。

        2) 神經(jīng)網(wǎng)絡(luò)。對于裝備維修保障兵棋而言,上述最小化值函數(shù)的過程能夠很好地得到最優(yōu)化的策略集π,但是當狀態(tài)集較大的情況,Vπ(s)對應(yīng)的值空間將無比巨大,隨之而來的需要模擬的次數(shù)也將使得算法失去時間上的可行性。在這種情況下,需要采用相似的方法進行處理,即使用新的函數(shù)表示值函數(shù)。新函數(shù)在任意輸入的情況下均能給出近似輸出,即Vπ(s,W)≈Vπ(s),其中W為新函數(shù)的參數(shù)集。對于新的函數(shù),需要通過更新參數(shù)W來逼近最優(yōu)值函數(shù),這個更新過程即優(yōu)化過程。

        對于海量狀態(tài)集且不確定函數(shù)形式的情況,基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督學習是最優(yōu)解法。監(jiān)督學習是給定數(shù)據(jù)與結(jié)果,利用結(jié)果更新參數(shù)使得輸出盡可能逼近結(jié)果。神經(jīng)網(wǎng)絡(luò)通過梯度下降法,根據(jù)損失函數(shù)更新網(wǎng)絡(luò)參數(shù),從而實現(xiàn)函數(shù)逼近。神經(jīng)網(wǎng)絡(luò)學習的最終結(jié)果是大量神經(jīng)元的參數(shù),即W。

        1.2 深度Q學習流程

        對于推演狀態(tài)動作空間極大的過程,直接最優(yōu)化Q函數(shù)時間限制無法滿足,因而采用神經(jīng)網(wǎng)絡(luò)代替Q值的方法,即深度Q學習。深度Q學習的過程按照準備、訓練和應(yīng)用3個層次遞進,其中準備階段包括狀態(tài)與行動空間的確定、回報的確定;訓練階段包括隨機模擬數(shù)據(jù)生成、神經(jīng)網(wǎng)絡(luò)參數(shù)訓練;應(yīng)用階段即采用貪心或最長路徑算法確定最優(yōu)策略。

        1.2.1 準備階段

        1) 狀態(tài)空間。狀態(tài)空間是Q學習中的主線,各種狀態(tài)對應(yīng)需要的動作收益即Q學習目標。在裝備維修保障兵棋系統(tǒng)中,其狀態(tài)空間包括推演過程中每個回合結(jié)束后可能出現(xiàn)所有局面情況,可能出現(xiàn)復(fù)雜度較高的場景,因而可以對狀態(tài)進行分類,如分離狀態(tài)、交戰(zhàn)狀態(tài)、受損狀態(tài)、維修狀態(tài),其中分離狀態(tài)是指雙方并未接觸,各自執(zhí)行任務(wù);交戰(zhàn)狀態(tài)一般包含襲擾的過程;受損狀態(tài)即裝備受損且未被維修的狀態(tài);維修狀態(tài)則是維修過程狀態(tài),每個狀態(tài)空間包含多種狀態(tài),但是具有極大的相似性。

        2) 動作空間。動作空間是智能體在一定狀態(tài)下進行的操作行為統(tǒng)稱,分為全局和局部。全局動作是指整個過程中所有動作的集合,而局部動作則是針對特定狀態(tài)采用的動作,局部動作有助于減小動作空間,集中處理相應(yīng)狀態(tài)。在裝備維修保障兵棋中,動作空間等同于命令數(shù)據(jù)。局部動作空間是在特定場景下的命令集,如修理狀態(tài)命令主要集中在修理命令上。

        3) 回報?;貓笫荙學習的目標,是動作帶來的狀態(tài)轉(zhuǎn)變的收益。裝備維修保障兵棋中回報的確定主要包括裝備損傷、物資消耗與維修結(jié)果,并根據(jù)其重要程度分別復(fù)制不同的回報。紅方最終目的是取得損傷最小、消耗最少且維修成果最好的局面,而藍方則是在自己消耗最少的情況下盡可能使得紅方損傷最大。

        1.2.2 訓練階段

        1) 隨機模擬數(shù)據(jù)生成。在狀態(tài)與動作空間確定后,遍歷所有狀態(tài)與動作序列在時間上不現(xiàn)實,因而采用隨機初始化初始情況,并根據(jù)當前狀態(tài)空間下的可選動作,按照選定的概率分布,隨機選擇動作模擬。通過一系列模擬生成不同類型的數(shù)據(jù)資料,為神經(jīng)網(wǎng)絡(luò)的學習提供數(shù)據(jù)參考。

        在裝備維修保障兵棋中,確定想定場景之后的步驟均能夠根據(jù)相應(yīng)的空間執(zhí)行動作,模擬完成推演,推演的結(jié)束是維修任務(wù)的完成。在隨機模擬數(shù)據(jù)完成后,一套狀態(tài)動作序列的所有回報均能用于網(wǎng)絡(luò)訓練。

        2) 網(wǎng)絡(luò)訓練。對神經(jīng)網(wǎng)絡(luò)的訓練過程可以看作Q表的更新過程。第一步對網(wǎng)絡(luò)參數(shù)進行初始化,通過在網(wǎng)絡(luò)上做出相應(yīng)的動作行為觸發(fā)神經(jīng)元,最終由此得到相應(yīng)的反饋輸出進行在線學習。每個狀態(tài)動作序列按順序投入訓練,不同的是每輪訓練完成時,需要保留本輪的網(wǎng)絡(luò)參數(shù)為W-,用于下一輪更新相應(yīng)的Q值,其損失函數(shù)即兩輪之間Q值之差的平方,利用梯度下降法更新網(wǎng)絡(luò)。

        由此可見,網(wǎng)絡(luò)訓練就是Q表的生成,利用網(wǎng)絡(luò)對多種不同狀態(tài)的規(guī)律提取能力節(jié)省了大量存儲空間。直觀上理解為:在一次機動任務(wù)完成過程中存在多個不同的狀態(tài),這些狀態(tài)中采取襲擾而產(chǎn)生的結(jié)果可能是相似的。

        1.2.3 應(yīng)用階段

        應(yīng)用階段就是將訓練好的網(wǎng)絡(luò)用于實際策略選取的過程。在Q值完全精確的情況下,智能體只需要在每個狀態(tài)下選擇回報最高的動作進行操作,即能夠保證最優(yōu)的最終結(jié)果,這種策略稱為貪心法。在實際操作過程中,智能體遍歷通過當前狀態(tài)下的動作空間實現(xiàn)貪心。為避免局部最優(yōu)解的影響,通常還可以采用最長路徑算法優(yōu)化貪心法,增加貪心的步驟而更加靠近全局最優(yōu)解法。

        2 增強學習過程

        通過裝備維修保障過程中的裝備受損和機動維修分隊抵達受損裝備位置點等具體內(nèi)容,探討人工智能技術(shù)理論在推演中的狀態(tài)、動作量化,狀態(tài)轉(zhuǎn)移與回報值確定以及深度學習3個方面增強學習能力的應(yīng)用方式方法。

        2.1 狀態(tài)與動作量化

        機動分隊抵達受損位置后開始維修過程的模擬是對狀態(tài)的量化。在學習過程中采用一個狀態(tài)矩陣來表示當前狀態(tài),設(shè)置當前受損裝備所在部隊番號為K,機動分隊代號為X,則針對當前維修過程的狀態(tài)進行量化,如表1所示。其中各型狀態(tài)取值如表2所示。

        表1 機動維修分隊維修狀態(tài)類型量化

        表2 機動維修分隊維修狀態(tài)類型取值

        狀態(tài)的改變即為狀態(tài)矩陣中對應(yīng)屬性值的改變。馬爾科夫決策過程中的動作,可以狹義地理解為兵棋系統(tǒng)中的指令。維修過程中的指令只針對維修處置。同樣采用當前受損裝備所在部隊番號為K,機動分隊番號為L,則動作可以用指令向量描述如表3所示。

        表3 維修指令向量描述

        注:指令源棋子指執(zhí)行命令棋子,指令目標棋子指命令所影響棋子,如受損單位

        2.2 狀態(tài)轉(zhuǎn)移概率與回報值

        狀態(tài)的轉(zhuǎn)移主要包含兩方面因素,狀態(tài)轉(zhuǎn)移的概率以及轉(zhuǎn)移后新的狀態(tài)。在MDP中每個狀態(tài)轉(zhuǎn)移的過程即是變化的過程,狀態(tài)轉(zhuǎn)移的概率即引發(fā)狀態(tài)變化的多種裁決過程的概率集合,而轉(zhuǎn)移后的概率即裁決的最終結(jié)果。在維修過程中,維修指令下達后開始維修過程,每次維修都有成功的概率,即狀態(tài)轉(zhuǎn)移概率,而利用隨機數(shù)判定的維修結(jié)果即是新的狀態(tài)。具體應(yīng)用中設(shè)置當前的狀態(tài)為St,此時的行動集為A(其中動作集包括a1與a2,分別代指維修與放棄維修)。當前狀態(tài)中詳細描述了受損裝備的受損等級、維修棋子的維修等級與維修能力值。采取不同動作的狀態(tài)轉(zhuǎn)移概率描述如下:

        1) 采取動作a2。在采取動作a2,即放棄維修的情況下,當前狀態(tài)St向下一個狀態(tài)轉(zhuǎn)移的概率為0,即狀態(tài)不會改變。

        2) 采取動作a1。采取動作a1,即立刻維修的情況下,當前狀態(tài)的下一個狀態(tài)St+1共有兩種可能:

        第1種情況下,在St+1中裝備維修成功,則受損裝備k等級將為0,同時維修棋子l的維修能力值減去相應(yīng)消耗值,此時的P(St,St+1)即為裁決表中維修成功的概率p;

        第2種情況下,在St+1中裝備維修失敗,則受損裝備k等級保持不變,同時維修棋子l的維修能力值減去相應(yīng)消耗值,此時的P(St,St+1)為1減去裁決表中維修成功的概率p,即1-p;

        如上所述,兵棋中狀態(tài)轉(zhuǎn)移概率依照相應(yīng)的動作由裁決表決定。

        在確定狀態(tài)轉(zhuǎn)移概率后,動作的回報值由狀態(tài)之間的差異確定。狀態(tài)矩陣表示方法的優(yōu)點在于一步或多步回報均可采用矩陣差值的方式求得,針對維修過程的回報值考慮維修成果以及維修過程中的消耗,回報函數(shù)表示為

        回報=Ea(α1×裝備受損等級之差+

        α2×維修能力值消耗)

        (4)

        式(4)中,α1,α2為兩種屬性的回報權(quán)重,滿足等級差越大回報越大,維修能力值消耗越大,回報越小的原則。而Ea表示采取動作a時的回報期望。

        確定了狀態(tài)轉(zhuǎn)移概率與回報值函數(shù),即可通過馬爾科夫決策過程模擬動作過程,獲取最佳行動策略。

        2.3 深度學習的應(yīng)用

        兵棋的狀態(tài)空間包括了整個棋局所有單位的狀態(tài)信息,而每個狀態(tài)下對應(yīng)的動作集差異巨大。在不同狀態(tài)下動作集基礎(chǔ)上,狀態(tài)空間疊乘動作空間范圍過大帶來存儲空間與查詢時間過大的問題。通過狀態(tài)轉(zhuǎn)移概率與回報函數(shù),利用深度神經(jīng)網(wǎng)絡(luò)進行監(jiān)督學習的方式能夠有效模擬整個狀態(tài)行為空間。

        維修過程中,每個狀態(tài)可以由二維的狀態(tài)矩陣表征,相應(yīng)的動作由一維的指令向量表征,將狀態(tài)矩陣展開成一維,并拼接動作向量形成的長向量Vec為神經(jīng)網(wǎng)絡(luò)的輸入,相應(yīng)計算得到的回報值為神經(jīng)網(wǎng)絡(luò)的輸出,整體流程如圖2所示。

        假設(shè)狀態(tài)矩陣為M*N維,動作向量為1*K維,展開拼接所得的輸入向量為1*(M*N+K)維,通過給定的回報期望來訓練深度神經(jīng)網(wǎng)絡(luò)。在狀態(tài)矩陣的動作向量大量變化過程中,神經(jīng)網(wǎng)絡(luò)記錄其回報特征,模擬每種狀態(tài)與動作情況下的期望回報,從而解決Q值表過大的問題。

        3 增強學習意義

        當前部隊在使用各型訓練系統(tǒng)的過程中存在效能發(fā)揮不佳、資源分配不均等一系列問題,兵棋系統(tǒng)在汲取部隊應(yīng)用訓練系統(tǒng)過程中的實際情況和短板問題基礎(chǔ)上,通過對人工智能技術(shù)理論領(lǐng)域的認識和分析,以技術(shù)展望的角度探究融合MDP和神經(jīng)網(wǎng)絡(luò)技術(shù),從而增強裝備維修保障兵棋系統(tǒng)的深度策略學習能力,為更好發(fā)揮系統(tǒng)潛能,提高應(yīng)用的質(zhì)量效益提供了方法思路。

        1) 提高訓練對抗水準。策略學習的過程主要有兩部分:線下學習與在線增強學習。線下學習是建立在多次對弈的數(shù)據(jù)基礎(chǔ)上,通過數(shù)據(jù)訓練神經(jīng)網(wǎng)絡(luò)作為增強學習的近似值函數(shù),在對弈時利用在線增強學習達到最優(yōu)化策略的目的。以往經(jīng)驗的積累只能夠通過汲取歷史資料或?qū)嵺`演習任務(wù)和平時訓練而來,且經(jīng)驗的傳遞具有極大的限制性。機器學習的過程是經(jīng)驗積累的過程,通過大量數(shù)據(jù)抽象出最直接有效的策略,機器學習具備一次性與進化性,一次性是指通過一波訓練得到的結(jié)果將能夠永久保存,而進化性則是表示訓練完成的網(wǎng)絡(luò)參數(shù)能夠根據(jù)推演活動任務(wù)的區(qū)別、時代的變化而進行遷移訓練,在已有的經(jīng)驗基礎(chǔ)上學習新的策略。

        2) 挖掘資源利用效率。充分發(fā)掘兵棋系統(tǒng)的潛力,除了通過棋局復(fù)盤積累經(jīng)驗以外,充分的訓練過程必不可少。裝備維修保障兵棋的推演對抗活動需要導(dǎo)調(diào)員和紅藍方推演者,這意味著每次訓練需要一定的人力資源。此外,與類型、崗位的推演者進行對弈有助于受訓指揮員應(yīng)對不同思想和指揮風格的對抗者,這是有效提升訓練質(zhì)量對人力提出的功能需求,而經(jīng)由學習產(chǎn)生的AI具有多樣性與復(fù)用性,多樣性是指AI能夠通過改變訓練數(shù)據(jù)而模擬不同風格的對弈者,為指揮員提供多樣的訓練效果。復(fù)用性是計算機帶有的特性,即一個AI能夠同時參與多人對弈,不同于一對一的真人對弈,利用有效的資源充分發(fā)揮了計算機系統(tǒng)的潛能效益。

        3) 有效充當多重角色。推演過程中,增強訓練產(chǎn)生的策略除了用作AI以外,還能夠為推演者提供最優(yōu)化的指揮策略建議及驗證完善任務(wù)方案。通過確定模型,AI計算出的策略在一定的概率范圍內(nèi)浮動,不因推演者心理情緒的波動而產(chǎn)生偏差,體現(xiàn)出計算機的絕對理性,并且通過強大的計算能力,AI能夠根據(jù)戰(zhàn)場態(tài)勢情況模擬出多種策略方案并選取最優(yōu)解。雖然計算機在創(chuàng)造性上存在短板,但是在多數(shù)情況下,由大量數(shù)據(jù)累計的計算及先驗知識得出的結(jié)論對推演指揮員還是具有一定的參考意義。

        [1] 石崇林.基于數(shù)據(jù)挖掘的兵棋推演數(shù)據(jù)分析方法研究[D].北京:國防科學技術(shù)大學,2014.

        [2] 杜羨.基于分布式徑向基網(wǎng)絡(luò)的板形識別模型研究[D].秦皇島:燕山大學,2013.

        [3] 楊宇航,李志忠,傅焜,等.基于虛擬現(xiàn)實的導(dǎo)彈維修訓練系統(tǒng)[J].兵工學報,2006(2):107-110.

        [4] 劉平,高崎,黃照協(xié),等.維修分隊戰(zhàn)時裝備維修能力評估方法研究[J].裝備環(huán)境工程,2012(5):130-134.

        [5] 鐘劍輝,傅調(diào)平,鄧超.基于人工智能的兵棋推演作戰(zhàn)分析研究與設(shè)計[J].艦船電子工程,2015(1):32-33.

        [6] 吳偉,吳琳.基于兵棋推演的作戰(zhàn)效能評估方法研究[J].軍事運籌與系統(tǒng)工程,2013(6):16-19.

        [7] 劉紀紅,徐曉東.計算機兵棋人機交互平臺的研究[J].東北大學學報,2008(5):23-26.

        [8] 楊南征.虛擬演兵—兵棋、作戰(zhàn)模擬與仿真[M].北京:解放軍出版社,2007.

        猜你喜歡
        兵棋概率神經(jīng)網(wǎng)絡(luò)
        第6講 “統(tǒng)計與概率”復(fù)習精講
        第6講 “統(tǒng)計與概率”復(fù)習精講
        概率與統(tǒng)計(一)
        概率與統(tǒng)計(二)
        兵棋推演:未來戰(zhàn)爭的水晶球
        軍事文摘(2020年19期)2020-10-13 12:29:28
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        基于兵棋推演實驗的綜合評估指標度量方法
        基于深度學習的兵棋實體決策效果智能評估模型
        基于混合Beta分布的兵棋推演可信度評估方法研究
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        久久精品国产精品青草色艺| 手机在线观看日韩不卡av| 精品日韩国产欧美在线观看| 无码一区久久久久久久绯色AV| av无码久久久久久不卡网站| 国产一区二区精品尤物| 国内自拍第一区二区三区| 中文字幕乱码在线婷婷| 女优一区二区三区在线观看| 亚洲熟女一区二区三区| 91精彩视频在线观看| 永久免费在线观看蜜桃视频| 亚洲国产中文字幕无线乱码 | 乱子轮熟睡1区| 免费看黄a级毛片| 欧美老熟妇又粗又大| AV无码人妻一区二区三区牛牛| 亚洲女人天堂成人av在线| 狠狠综合亚洲综合亚洲色| 三叶草欧洲码在线| 日本免费人成视频播放| 国产成年女人特黄特色毛片免| 亚洲毛片免费观看视频| а√天堂资源官网在线资源| 肉体裸交丰满丰满少妇在线观看| 人妻无码ΑV中文字幕久久琪琪布| 四虎在线中文字幕一区| 国产99久久久国产精品~~牛| 亚洲人成影院在线观看| 亚欧AV无码乱码在线观看性色| 最新在线观看精品国产福利片| 国产一区二区在线观看av| 蜜桃视频一区二区在线观看| 国产成人无码免费网站| 毛片一级精油按摩无码| 性色av色香蕉一区二区蜜桃| 中国女人做爰视频| 无码午夜剧场| 国产免费人成视频在线观看播放播 | 在线观看国产激情视频| 黑人上司粗大拔不出来电影|