亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的航天信息綜合應(yīng)用與決策研究

        2019-06-25 09:54:04陳金勇
        無線電工程 2019年7期
        關(guān)鍵詞:航天決策衛(wèi)星

        王 港,帥 通,陳金勇,高 峰

        (中國電子科技集團(tuán)公司 航天信息應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,河北 石家莊 050081)

        0 引言

        隨著航天裝備的不斷發(fā)展,全球在軌衛(wèi)星已突破千顆。航天資源的種類和規(guī)模不斷擴(kuò)大,其所應(yīng)用的領(lǐng)域也不斷拓展,包括了通信、導(dǎo)航、遙感的所有領(lǐng)域,正在提供災(zāi)害評估預(yù)測、國土資源調(diào)查、城市管理規(guī)劃、農(nóng)業(yè)估產(chǎn)減災(zāi)、軍事偵查保障、導(dǎo)航定位授時(shí)、衛(wèi)星寬帶通信等服務(wù)[1]。與此同時(shí),由于歷史原因,各類航天信息資源仍然是各自建設(shè)并獨(dú)立對外提供服務(wù),其信息資源服務(wù)的深度和廣度無法滿足現(xiàn)階段用戶在航天信息的綜合應(yīng)用需求,這就迫切需要在現(xiàn)有機(jī)制體制下,尋找航天信息綜合應(yīng)用的需求籌劃和決策方法,為高效率、綜合化、深度化應(yīng)用航天信息提供技術(shù)支撐。

        現(xiàn)有航天資源籌劃與應(yīng)用方面的研究,主要是為衛(wèi)星管控機(jī)構(gòu)服務(wù),從而在專業(yè)角度優(yōu)化航天衛(wèi)星資源。張超為了解決航天資源應(yīng)用優(yōu)化的問題,在工程實(shí)踐方面提出了基于貪婪算法的遙感衛(wèi)星接收站的調(diào)度技術(shù)[2]。李軍等為解決現(xiàn)有空天資源規(guī)劃調(diào)度系統(tǒng)相對獨(dú)立、協(xié)同困難的問題,分析總結(jié)了SWE(Sensor Web Enablement)標(biāo)準(zhǔn),并在此基礎(chǔ)上提出了空天資源對地觀測協(xié)同任務(wù)規(guī)劃服務(wù)模型[3]。陳英武等提出了一種求解多星任務(wù)規(guī)劃問題的演化學(xué)習(xí)型蟻群算法,從而將人工智能算法應(yīng)用于衛(wèi)星資源應(yīng)用方面[4]。張超等針對現(xiàn)有衛(wèi)星管控體制,提出了星地聯(lián)動的運(yùn)行機(jī)制[5]。陳韜亦等在星地聯(lián)動的基礎(chǔ)上更是提出了衛(wèi)星的自主管控,從而將部分任務(wù)決策功能置于衛(wèi)星上[6]。上述學(xué)者和技術(shù)人員在航天信息應(yīng)用與優(yōu)化方面做出了大量的貢獻(xiàn),但是其研究對象為專業(yè)化的衛(wèi)星管控與接收機(jī)構(gòu),無法適用于通用用戶。

        深度強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的一個新的研究熱點(diǎn)。它以一種通用的形式將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,并能夠通過端對端的學(xué)習(xí)方式實(shí)現(xiàn)從原始輸入到輸出的直接控制和決策。自提出以來,在許多需要感知高維度原始輸入數(shù)據(jù)和決策控制的任務(wù)中,深度強(qiáng)化學(xué)習(xí)方法已經(jīng)取得了實(shí)質(zhì)性的突破,包括基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)、基于策略梯度的深度強(qiáng)化學(xué)習(xí)和基于搜索與監(jiān)督的深度強(qiáng)化學(xué)習(xí),其發(fā)展的前沿方向主要在分層深度強(qiáng)化學(xué)習(xí)、多任務(wù)遷移深度強(qiáng)化學(xué)習(xí)、多智能體深度強(qiáng)化學(xué)習(xí)、基于記憶與推理的深度強(qiáng)化學(xué)習(xí)等方面[7]。

        針對航天資源種類較多、應(yīng)用機(jī)制復(fù)雜難以被普通用戶所掌握的難題,提出基于深度強(qiáng)化學(xué)習(xí)的航天信息綜合應(yīng)用決策方法,將航天應(yīng)用需求、航天信息資源屬性進(jìn)行建模,以航天應(yīng)用需求向量作為強(qiáng)化學(xué)習(xí)模型中的環(huán)境變量,以航天信息資源屬性向量作為約束條件,通過典型場景的學(xué)習(xí)和反饋,實(shí)現(xiàn)模型的優(yōu)化,從而具備一定的航天信息綜合應(yīng)用決策能力。

        1 航天信息綜合應(yīng)用需求分析

        美軍的航天信息應(yīng)用代表了國際最高水平,目前,美軍不但實(shí)現(xiàn)了空間信息與戰(zhàn)場信息系統(tǒng)的高度集成,還實(shí)現(xiàn)了與主戰(zhàn)武器系統(tǒng)的有效鉸鏈。美軍大力發(fā)展集無人機(jī)、人工平臺、天基、?;完懟到y(tǒng)在內(nèi)的綜合系統(tǒng),應(yīng)對情報(bào)搜集需求與挑戰(zhàn),建立了軍、民、商用遙感衛(wèi)星應(yīng)用系統(tǒng)以及天基通信系統(tǒng),具備最強(qiáng)大的偵察、監(jiān)視、情報(bào)、通信、導(dǎo)航、定位以及氣象保障能力。同時(shí)美軍不惜巨資打造了FBCB2(旅及旅以下作戰(zhàn)指揮)系統(tǒng)、“快速戰(zhàn)術(shù)影像終端”、陸地勇士系統(tǒng)及“未來部隊(duì)勇士”系統(tǒng),用以實(shí)現(xiàn)了從“傳感器到射手”鏈接應(yīng)用[8]。

        美軍利用戰(zhàn)術(shù)應(yīng)用終端向作戰(zhàn)部隊(duì)提供了情報(bào)、通信、導(dǎo)彈預(yù)警、偵察監(jiān)視、空間導(dǎo)航和氣象保障服務(wù),提供運(yùn)動中實(shí)時(shí)的指揮控制信息、態(tài)勢感知信息;為指揮官、小分隊(duì)和單兵顯示敵我雙方的位置;能夠利用多種衛(wèi)星通信、戰(zhàn)地?zé)o線網(wǎng)通信、戰(zhàn)術(shù)電臺等通信方式收發(fā)作戰(zhàn)命令和后勤數(shù)據(jù),進(jìn)行目標(biāo)識別等,極大地提高了指揮員對戰(zhàn)場的感知能力和指揮效率。但是戰(zhàn)術(shù)終端造價(jià)和重量等因素一直制約著美軍終端的繼續(xù)發(fā)展,隨著新一代智能手機(jī)的出現(xiàn),美軍迅速采用商業(yè)手機(jī)改造的形式,加載特殊軟件,相比普通手機(jī)經(jīng)過了防塵、防震、防彈等改造。通過模塊化、總線化設(shè)計(jì),實(shí)現(xiàn)“全戰(zhàn)場可視性”以及供戰(zhàn)斗條件下使用的穩(wěn)定真實(shí)界面與數(shù)字化戰(zhàn)場的一體化,能夠提供有關(guān)敵方戰(zhàn)斗人員、路邊炸彈和友軍的照片、地圖及其他關(guān)鍵任務(wù)信息,并且可共享和實(shí)時(shí)更新。美軍戰(zhàn)術(shù)應(yīng)用終端如圖1所示。

        圖1 美軍戰(zhàn)術(shù)應(yīng)用終端

        綜上所述,美軍按照天地一體化的設(shè)計(jì)原則開展航天武器裝備研究的同時(shí),將航天裝備與戰(zhàn)場信息系統(tǒng)密切結(jié)合,戰(zhàn)術(shù)應(yīng)用終端呈多種應(yīng)用功能于一體的發(fā)展方向,整體發(fā)展趨勢如下:

        ① 由點(diǎn)及面縱向發(fā)展。首先表現(xiàn)為戰(zhàn)術(shù)終端全面進(jìn)入指揮所、武器系統(tǒng)、士兵各個作戰(zhàn)單元,通過作戰(zhàn)領(lǐng)域縱向發(fā)展,作戰(zhàn)裝備層次也由指揮機(jī)構(gòu)到單兵層次,能夠改善航天信息的流通和處理。

        ② 重視互聯(lián)互通的發(fā)展。目的在于合理地利用航天信息應(yīng)用系統(tǒng)和其他信息系統(tǒng)的數(shù)據(jù)信息,優(yōu)化合成部隊(duì)的作戰(zhàn)和部隊(duì)系統(tǒng)的整體效能,能夠保證各種武器系統(tǒng)、諸兵種之間信息、力量的相互協(xié)調(diào)。

        ③ 重視系統(tǒng)一體化的設(shè)計(jì)。強(qiáng)調(diào)戰(zhàn)術(shù)終端具有航天信息顯示與應(yīng)用、指揮控制和信息共享的能力,可提供終端的信息數(shù)據(jù)“全戰(zhàn)場可視性”、戰(zhàn)斗條件下使用穩(wěn)定性以及多種功能的一體化。

        美軍的發(fā)展趨勢對我國在航天信息綜合應(yīng)用方面具有十分重要的啟發(fā)。其在航天信息一體化應(yīng)用、多層次應(yīng)用以及戰(zhàn)術(shù)應(yīng)用均具有借鑒意義。隨著航天信息綜合應(yīng)用的深化和軍民需求的不斷拓展,其用戶群體將呈現(xiàn)爆炸式增長。而航天信息應(yīng)用處理的專業(yè)化人才并沒有出現(xiàn)太多的增長。這就要求在實(shí)現(xiàn)航天信息應(yīng)用深化和拓展的同時(shí),必須充分考慮航天信息應(yīng)用的知識基礎(chǔ)。在專業(yè)人才有限但應(yīng)用需求眾多的情況下,應(yīng)用人工智能技術(shù)結(jié)合航天信息綜合應(yīng)用模式,實(shí)現(xiàn)一些應(yīng)用環(huán)節(jié)的自動化和智能化十分必要。

        2 深度強(qiáng)化學(xué)習(xí)

        2.1 強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程是Agent與環(huán)境進(jìn)行交互并從環(huán)境中取得反饋信息的學(xué)習(xí)過程。作為一種交互式的學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)的主要特點(diǎn)是試錯和延遲回報(bào)[9]。Agent與環(huán)境的交互過程如圖2所示。在每個時(shí)間步長,Agent觀察環(huán)境得到狀態(tài)st,然后執(zhí)行動作at,環(huán)境根據(jù)at生成下一時(shí)刻的st+1,rt。這樣的過程可用馬爾可夫決策過程(Markov Decision Processes,MDP)來進(jìn)行描述。MDP分為4個部分,也可稱為四元組

        ①S表示狀態(tài)集;②A表示動作集;③P(s′|s,a)表示狀態(tài)s下采取動作a之后,轉(zhuǎn)移到s′狀態(tài)的概率;④R(s,a)表示狀態(tài)s下采取動作a獲得的獎勵。

        圖2 強(qiáng)化學(xué)習(xí)示意

        策略的目標(biāo)是使未來的累積獎賞最大,因而當(dāng)前狀態(tài)(或狀態(tài)-動作對)的好壞可以通過該狀態(tài)(狀態(tài)-動作對)能夠帶來的未來累積回報(bào)的大小來衡量。強(qiáng)化學(xué)習(xí)引入回報(bào)函數(shù)來表示某個時(shí)刻t的狀態(tài)下具備的回報(bào)值:

        由于距離當(dāng)前狀態(tài)越遠(yuǎn),回報(bào)值的不確定性越大,因而一般采用γ作為折扣系數(shù),對未來的回報(bào)值乘以一個折扣γ。進(jìn)而,引入值函數(shù)的概念,用值函數(shù)來表示一個狀態(tài)的價(jià)值,也就是未來累積回報(bào)的期望。定義如下:

        動作-狀態(tài)價(jià)值函數(shù)就可表示為:

        2.2 深度強(qiáng)化學(xué)習(xí)

        經(jīng)典的強(qiáng)化學(xué)習(xí)方法往往無法解決狀態(tài)和動作空間維度很高的問題,一個有效的解決途徑就是使用函數(shù)近似的方法,即將值函數(shù)或者策略用一個函數(shù)顯性的來進(jìn)行表示。常用的近似函數(shù)有線性函數(shù)、核函數(shù)、神經(jīng)網(wǎng)絡(luò)等。而近年來最成功的方法就是使用深度神經(jīng)網(wǎng)絡(luò)作為強(qiáng)化學(xué)習(xí)的近似函數(shù),即深度強(qiáng)化學(xué)習(xí)。深度神經(jīng)網(wǎng)絡(luò)不僅具有強(qiáng)大的非線性逼近能力,而且實(shí)現(xiàn)了端到端的學(xué)習(xí),能夠直接從原始數(shù)據(jù)的輸入映射到分類或回歸結(jié)果,而不再需要特征工程引入過多的人為因素。深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合最早可追溯于文獻(xiàn)[9]將AutoEncoder應(yīng)用于強(qiáng)化學(xué)習(xí)中,解決了路徑規(guī)劃尋優(yōu)的問題。而深度強(qiáng)化學(xué)習(xí)真正的開端是DeepMind在2013年NIPS會議上發(fā)表的DQN算法[10],其直接從像素圖像中學(xué)習(xí)策略來進(jìn)行Atari游戲。近年來,深度強(qiáng)化學(xué)習(xí)的研究成為機(jī)器學(xué)習(xí)的一個重要方向,文獻(xiàn)[11]在Nature上發(fā)表的深度學(xué)習(xí)綜述一文也將深度強(qiáng)化學(xué)習(xí)作為深度學(xué)習(xí)的重要發(fā)展方向。

        Mnih等人[12-13]將卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)RL中的Q學(xué)習(xí)[14-15]算法相結(jié)合,提出了深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)模型。該模型用于處理基于視覺感知的控制任務(wù),是DRL領(lǐng)域的開創(chuàng)性工作。DQN模型的輸入是距離當(dāng)前時(shí)刻最近的4幅預(yù)處理后的圖像。該輸入經(jīng)過3個卷積層和2個全連接層的非線性變換,最終在輸出層產(chǎn)生每個動作的Q值。DQN的模型架構(gòu)如圖3所示。

        圖3 DQN網(wǎng)絡(luò)模型結(jié)構(gòu)

        3 基于深度強(qiáng)化學(xué)習(xí)的航天信息綜合應(yīng)用決策

        航天系統(tǒng)獲取了相關(guān)的各類空間數(shù)據(jù),各類地面應(yīng)用系統(tǒng)要對所獲取的原始數(shù)據(jù)進(jìn)行加工、處理和應(yīng)用。而在應(yīng)用系統(tǒng)的開發(fā)過程中,如果每一個應(yīng)用都從底層進(jìn)行開發(fā),將存在大量的重復(fù)工作,開發(fā)周期長,系統(tǒng)質(zhì)量難以保證。通過對航天信息應(yīng)用系統(tǒng)功能的研究,抽取應(yīng)用中的公共部分,以應(yīng)用開發(fā)平臺的方式為各類航天信息應(yīng)用系統(tǒng)的開發(fā)提供一個通用的航天信息綜合應(yīng)用平臺,將是實(shí)現(xiàn)各種用途的航天信息應(yīng)用系統(tǒng)的基礎(chǔ),能極大地提高航天信息應(yīng)用系統(tǒng)的開發(fā)效率,加強(qiáng)航天信息的綜合應(yīng)用。航天信息綜合應(yīng)用系統(tǒng)的體系結(jié)構(gòu)如圖4所示。由航天系統(tǒng)中的遙感設(shè)備獲取的各類航天數(shù)據(jù)通過傳輸系統(tǒng)和接收系統(tǒng),傳到各類應(yīng)用系統(tǒng)的數(shù)據(jù)接口,航天信息應(yīng)用平臺提供對數(shù)據(jù)的處理、存儲和管理能力,并通過虛擬仿真平臺為應(yīng)用系統(tǒng)的開發(fā)提供底層功能,直接支持應(yīng)用系統(tǒng)功能的開發(fā)。

        圖4 航天信息綜合應(yīng)用系統(tǒng)結(jié)構(gòu)

        在考慮將航天信息綜合應(yīng)用的時(shí)候,需要將各個航天資源進(jìn)行個體化屬性描述,以本體形式進(jìn)行組織和描述。本體作為共享概念模型的形式化規(guī)范化說明,其技術(shù)目的在于使信息都能得到共享和重用。已經(jīng)在語義網(wǎng)、知識工程、信息系統(tǒng)建模等多個領(lǐng)域得到應(yīng)用。相關(guān)研究表明,本體技術(shù)是促進(jìn)空間信息服務(wù)在語義層次上進(jìn)行知識庫構(gòu)建和知識描述操作的一個有效途徑。航天資源本體描述的示例如圖5所示。

        圖5 航天資源本體描述示例

        接下來,研究描述向量構(gòu)建的方法,將上述屬性描述改進(jìn)為標(biāo)準(zhǔn)化,形成可以被強(qiáng)化學(xué)習(xí)模型所認(rèn)識的序列輸入。一般以固定的格式順序進(jìn)行標(biāo)準(zhǔn)化,形成序列。主要工作為對非數(shù)值類的屬性進(jìn)行編碼描述,形成一個標(biāo)準(zhǔn)描述向量,如圖6所示。

        航天器類型軌道信息載荷信息分辨率信息所屬機(jī)構(gòu)重訪周期光譜信息帶寬信息Value1Value2Value3Value4Value5Value6Value7Value8

        圖6 航天資源向量描述示例

        如何高效利用多顆衛(wèi)星的資源完成目標(biāo)任務(wù),是目前衛(wèi)星任務(wù)規(guī)劃領(lǐng)域的熱點(diǎn)。當(dāng)前,按照衛(wèi)星任務(wù)規(guī)劃模式可分為集中式和分布式協(xié)同規(guī)劃方法。雖然集中式任務(wù)規(guī)劃系統(tǒng)可從全局的角度對問題進(jìn)行求解和優(yōu)化,但在實(shí)際規(guī)劃過程中存在求解復(fù)雜度高、魯棒性差、可擴(kuò)展性不足等局限,難以保證遙感需求的質(zhì)量和時(shí)效性。

        為了解決上述問題,提出基于深度強(qiáng)化學(xué)習(xí)的航天信息綜合應(yīng)用決策算法。采用深度強(qiáng)化學(xué)習(xí)算法求解航天信息綜合應(yīng)用面臨建模難、籌劃難的問題,模型參數(shù)的知識難以完全獲取。因此,如何制作深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練樣本并建立模型使其可以為航天信息綜合應(yīng)用決策提供有價(jià)值的指導(dǎo),成為本項(xiàng)目研究的重要內(nèi)容。

        3.1 樣本內(nèi)容

        同時(shí),制作樣本的后續(xù)評價(jià)數(shù)據(jù),T={t1,t2,…,tM}為對應(yīng)的觀測目標(biāo)集合,?ti∈T可表示為ti=〈ui,Ai(k)〉,satk∈SAT,ui表示完成ti獲得的效用值,Ai(k)=(Ai,Vst(k),Ai,Mem(k),Ai,Eng(k))表示ti對衛(wèi)星satk的資源需求向量,由于衛(wèi)星能力異構(gòu),不同衛(wèi)星對于同一目標(biāo)ti的資源需求向量不相等。

        3.2 樣本模型建立

        綜合應(yīng)用方案主要由指針神經(jīng)網(wǎng)絡(luò)產(chǎn)生,該神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上由2個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)構(gòu)成,分別作為規(guī)劃方案的編碼器和解碼器。這2個網(wǎng)絡(luò)均由長短時(shí)記憶核(LSTM Cell)構(gòu)成。每一個樣本內(nèi)容為一個序列,其包含衛(wèi)星的各類相關(guān)信息。因此,需要使用神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,將信息序列編碼為可以供機(jī)器掌握的特征序列。進(jìn)入強(qiáng)化學(xué)習(xí)訓(xùn)練流程后,進(jìn)過訓(xùn)練,輸出為調(diào)整序列,同時(shí)此時(shí)進(jìn)行解碼工作,獲得任務(wù)序列情況。

        強(qiáng)化學(xué)習(xí)作為一種無監(jiān)督學(xué)習(xí)方法,提供了一種訓(xùn)練上述指針神經(jīng)網(wǎng)絡(luò)求解衛(wèi)星任務(wù)規(guī)劃問題的合理框架?;谛l(wèi)星任務(wù)規(guī)劃問題的目標(biāo)函數(shù)相對簡單,本項(xiàng)目提出一種基于策略的無模型強(qiáng)化學(xué)習(xí)算法用來優(yōu)化上節(jié)中的指針神經(jīng)網(wǎng)絡(luò)的參數(shù)。網(wǎng)絡(luò)的訓(xùn)練算法使用類似于Asynchronous Advantage Actor-critic (A3C)算法,算法流程如下所述:

        AlgorithmActor-critic Training

        1:procedure TRAIN(training set S,number of training steps T,batch size B)

        2:Initialize pointer network paramsθ

        3:Initialize critic network paramsθv

        4:for t = 1 to T do:

        5:si~SAMPLEINPUT(s)fori∈[|1,B|]

        6:πi~SAMPLESOLUTION(pθ(.|si))fori∈[|1,B|]

        7:bi←bθv(si)

        10:θ←ADAM(θ,θ)

        11:θv←ADAM(θv,θvLv)

        12:end for

        13:returnθ

        14:end procedure

        其中,算法訓(xùn)練的目標(biāo)函數(shù)是使安排的任務(wù)數(shù)量最大化為:

        J(θ|s)=Eπ~pθ(.|s)L(π|s)。

        在使用過程中,將用戶的航天信息應(yīng)用需求進(jìn)行向量化,同樣進(jìn)行編碼,輸入到?jīng)Q策模型中去,經(jīng)過決策模型對已知可用衛(wèi)星集的籌劃和安排,從而輸出航天信息應(yīng)用決策結(jié)果,主要內(nèi)容為需求衛(wèi)星及其使用時(shí)間、使用載荷等數(shù)據(jù)。

        4 實(shí)驗(yàn)與分析

        4.1 仿真與實(shí)驗(yàn)

        為了選擇最優(yōu)的價(jià)值網(wǎng)絡(luò)模型,本文建立了模擬仿真環(huán)境,通過測試結(jié)果選取最優(yōu)的價(jià)值網(wǎng)絡(luò)模型,主要候選模型為DQN,Double DQN(簡稱DDQN)。實(shí)驗(yàn)環(huán)境為Windows10操作系統(tǒng),Python3.6、Tensorflow 1.8 GPU版、Keras2.1.6、Gym0.10.8。設(shè)置8類環(huán)境評價(jià)變量,最大迭代次數(shù)為600次,主要考察訓(xùn)練的損失函數(shù)值、回報(bào)函數(shù)值以及測試的回報(bào)函數(shù)值,回報(bào)函數(shù)值最大為200。主要測試的價(jià)值模型為DQN,Double DQN[16],訓(xùn)練和測試結(jié)果如圖7~圖9所示。

        圖7 2種價(jià)值模型訓(xùn)練過程獎勵值曲線圖

        圖8 2種價(jià)值模型訓(xùn)練過程損失值曲線圖

        圖9 2種價(jià)值模型測試過程曲線圖

        從訓(xùn)練結(jié)果和測試結(jié)果可以看出,在使用相同參數(shù)的情況下,Double DQN收斂速度更快,在測試中Double DQN獲得的滿分更多。從而證明了Double DQN在訓(xùn)練學(xué)習(xí)和測試應(yīng)用中具有更好的性能。

        4.2 結(jié)果分析

        DQN本質(zhì)上是Q-learning,只是利用了神經(jīng)網(wǎng)絡(luò)表示動作值函數(shù),并利用了經(jīng)驗(yàn)回放和單獨(dú)設(shè)立目標(biāo)網(wǎng)絡(luò)這2個技巧。DQN無法克服Q-learning本身所固有的缺點(diǎn)——過估計(jì)[15-17]。一般來說,Q-learning之所以存在過估計(jì)的問題,根源在于Q-learning中的最大化操作[18-19]。取最大值操作使得估計(jì)的值函數(shù)比值函數(shù)的真實(shí)值大。如果值函數(shù)每一點(diǎn)的值都被過估計(jì)了相同的幅度,即過估計(jì)量是均勻的,那么由于最優(yōu)策略是貪婪策略,即找到最大的值函數(shù)所對應(yīng)的動作,這時(shí)候最優(yōu)策略是保持不變的。也就是說,在這種情況下,即使值函數(shù)被過估計(jì)了,也不影響最優(yōu)的策略。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)的策略,而不是要得到值函數(shù),所以這時(shí)候就算是值函數(shù)被過估計(jì)了,最終也不影響解決問題。然而,在實(shí)際情況中,過估計(jì)量并非是均勻的,因此值函數(shù)的過估計(jì)會影響最終的策略決策,從而導(dǎo)致最終的策略并非最優(yōu),而只是次優(yōu)[20]。為了解決值函數(shù)過估計(jì)的問題,Double Q-learning將動作的選擇和動作的評估分別用不同的值函數(shù)來實(shí)現(xiàn)。這一設(shè)計(jì)符合航天信息資源的具體情況,因此,作為今后航天信息決策與優(yōu)化模型實(shí)現(xiàn)的候選網(wǎng)絡(luò)模型。

        5 結(jié)束語

        本文通過分析航天信息應(yīng)用在新的時(shí)代背景下的新需求,得出航天信息綜合應(yīng)用需要大眾化和平民化的結(jié)論。在航天專業(yè)人才規(guī)模沒有跟上時(shí)代發(fā)展的情況下,提出應(yīng)用人工智能技術(shù)中的深度強(qiáng)化學(xué)習(xí)方法來處理航天信息綜合應(yīng)用決策的問題。通過介紹深度強(qiáng)化學(xué)習(xí)方法原理、航天信息綜合應(yīng)用決策建模等內(nèi)容,達(dá)到航天信息綜合應(yīng)用智能化決策的目的,從而打通從普通用戶需求到航天信息資源專業(yè)化應(yīng)用的途徑。同時(shí)仿真環(huán)境搭建,仿真了衛(wèi)星資源數(shù)據(jù)庫,在仿真環(huán)境下進(jìn)行了相關(guān)模型的訓(xùn)練和測試。實(shí)驗(yàn)顯示,Double DQN價(jià)值函數(shù)網(wǎng)絡(luò)模型具有更好的收斂性,適合作為航天信息優(yōu)化決策的價(jià)值網(wǎng)絡(luò)。后續(xù)將在網(wǎng)絡(luò)模型設(shè)計(jì)的基礎(chǔ)上構(gòu)建典型應(yīng)用場景,并且進(jìn)行基于實(shí)際數(shù)據(jù)和專家參與的模型訓(xùn)練與測試,在算法的實(shí)用化等方面開展研究工作。

        猜你喜歡
        航天決策衛(wèi)星
        我的航天夢
        航天夢,我的夢
        軍事文摘(2021年22期)2022-01-18 06:22:56
        miniSAR遙感衛(wèi)星
        為可持續(xù)決策提供依據(jù)
        靜止衛(wèi)星派
        科學(xué)家(2019年3期)2019-08-18 09:47:43
        逐夢航天日
        決策為什么失誤了
        Puma" suede shoes with a focus on the Product variables
        航天股為何遭爆炒
        太空探索(2015年4期)2015-07-12 14:16:14
        What Would Happen If All Satellites Stopped Working? 假如衛(wèi)星罷工一天
        新東方英語(2014年1期)2014-01-07 19:56:11
        最新国产三级| 无套内内射视频网站| 无码成人一区二区 | 日韩毛片在线| 日本一区二区视频免费观看| 中文字幕高清不卡视频二区| 欧美丰满熟妇性xxxx| 成人免费视频在线观看| 特级婬片国产高清视频| 亚洲AV无码国产永久播放蜜芽| 久久精品av一区二区免费| 2020国产在视频线自在拍| 亚洲色成人网站www永久四虎| 久久尤物AV天堂日日综合| 偷拍av一区二区三区| 国产av综合网站不卡| 爽爽精品dvd蜜桃成熟时电影院| 欧美黄色免费看| 亚洲人妻av在线播放| 蜜桃视频插满18在线观看| 婷婷五月综合丁香在线| 在线视频中文字幕乱人伦| 亚洲天堂男人的av天堂| 天天躁日日躁狠狠躁欧美老妇小说 | 青青手机在线视频观看| 亚洲一区二区三区中文字幕网| 国产人妻久久精品二区三区老狼| 日韩成人精品在线| 久久人妻精品中文字幕一区二区 | 特级精品毛片免费观看| 福利一区在线观看| 精品国产97av一区二区三区| 丰满女人猛烈进入视频免费网站 | 国产一区二区三区日韩精品| 亚洲综合网国产精品一区| 一本色综合久久| 2020亚洲国产| 日本亚洲系列中文字幕| 肉体裸交137日本大胆摄影| 国产夫妻av| 国产影片免费一级内射|