亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的兩輪模型車控制仿真分析

        2020-01-08 02:06:28
        測(cè)控技術(shù) 2019年12期
        關(guān)鍵詞:復(fù)雜度狀態(tài)動(dòng)作

        (東南大學(xué) 儀器科學(xué)與工程學(xué)院,江蘇 南京 210096)

        自20世紀(jì)80年代以來,強(qiáng)化學(xué)習(xí)已經(jīng)廣泛應(yīng)用于各大領(lǐng)域。例如,在智能駕駛技術(shù)領(lǐng)域中,強(qiáng)化學(xué)習(xí)為車輛駕駛行為學(xué)習(xí)提供了框架,使得車輛能夠模仿人類學(xué)習(xí)所使用的反復(fù)試錯(cuò)方法,采取所需要的行動(dòng)。通過機(jī)器人與環(huán)境的交互學(xué)習(xí),為其行動(dòng)作用設(shè)置不同的獎(jiǎng)勵(lì)和懲罰,以獲取最大的累計(jì)獎(jiǎng)勵(lì)為目標(biāo),這一啟發(fā)式學(xué)習(xí)方法廣泛應(yīng)用于各種場(chǎng)景。例如,Yau[1]等人提出利用強(qiáng)化學(xué)習(xí)算法使交通信號(hào)控制器通過觀察和學(xué)習(xí)選擇出最優(yōu)的交通控制方案,如確定交通信號(hào)燈的信號(hào)周期、綠信比,提高系統(tǒng)性能。DeepMind團(tuán)隊(duì)使用深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練AlphaGo[2],連勝數(shù)十位圍棋高手,棋力已經(jīng)超過人類職業(yè)圍棋頂尖水平。

        強(qiáng)化學(xué)習(xí)算法中,Q-Learning、Sarsa算法是強(qiáng)化學(xué)習(xí)領(lǐng)域中代表性的算法。默凡凡[3]利用Q-Learning算法進(jìn)行了仿真實(shí)驗(yàn)中的動(dòng)態(tài)避障。劉衛(wèi)朋[4]等人提出了基于Sarsa算法的未知干擾因素補(bǔ)償方法,提高了機(jī)械臂軌跡跟蹤的控制性能。Q-Learning算法在面對(duì)選擇時(shí)會(huì)考慮到之前試錯(cuò)的Q值,并傾向于選擇具有冒險(xiǎn)性的動(dòng)作。Sarsa算法與Q-Learning算法相比更為保守,傾向于選擇之前試錯(cuò)中Q值更大的動(dòng)作。DQN算法是近年來提出的一種基于深度神經(jīng)網(wǎng)絡(luò)和Q-Learning的方法,具有更強(qiáng)的學(xué)習(xí)能力。劉志榮[5]等人提出了一種基于DQN的復(fù)雜狀態(tài)環(huán)境下進(jìn)行良好路徑規(guī)劃的方法。狀態(tài)和動(dòng)作作為神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)神經(jīng)網(wǎng)絡(luò)處理后得到動(dòng)作的Q值。

        基于強(qiáng)化學(xué)習(xí)的控制方法可以優(yōu)化機(jī)器人的運(yùn)動(dòng)控制。然而,強(qiáng)化學(xué)習(xí)在實(shí)際使用中存在著高成本的問題,包括試錯(cuò)帶來的經(jīng)濟(jì)成本以及執(zhí)行學(xué)習(xí)操作帶來的時(shí)間成本。本文通過將Gym、ROS和Gazebo有機(jī)結(jié)合,搭建了用于不同環(huán)境下的強(qiáng)化學(xué)習(xí)算法仿真的小車平臺(tái),以提供一種利用仿真環(huán)境模擬實(shí)物運(yùn)動(dòng)控制的方案;并最終使用其對(duì)經(jīng)典的三種強(qiáng)化學(xué)習(xí)算法在兩輪模型車的行走控制訓(xùn)練中進(jìn)行測(cè)試驗(yàn)證,根據(jù)在復(fù)雜度遞增的地圖中獎(jiǎng)勵(lì)曲線圖的表現(xiàn),對(duì)算法的收斂性和魯棒性進(jìn)行分析。

        1 相關(guān)工作

        在強(qiáng)化學(xué)習(xí)和仿真結(jié)合方面,Zamora[6]等人提出了基于ROS和Gazebo的OpenAI Gym擴(kuò)展。OpenAI Gym是強(qiáng)化學(xué)習(xí)研究的工具包[7],其專注于對(duì)強(qiáng)化學(xué)習(xí)的訓(xùn)練設(shè)置,旨在最大限度地提高每次訓(xùn)練的總獎(jiǎng)勵(lì)的期望并盡可能快地獲得結(jié)果。Gazebo模擬器是一個(gè)3D建模渲染工具[8],ROS是一種機(jī)器人操作系統(tǒng)[9],將Gym與Gazebo結(jié)合,以幫助軟件開發(fā)人員創(chuàng)建機(jī)器人應(yīng)用程序。

        在強(qiáng)化學(xué)習(xí)實(shí)際應(yīng)用中,Sutton[10]等人在懸崖行走問題中使用了Q-Learning算法和Sarsa算法。此外,Wang[11]等人在Q-Learning和Sarsa的基礎(chǔ)上提出了一種Backward Q-learning算法。Shen[12]等人提出了基于DRL的多船自動(dòng)避碰方法。Peters[13]等人則使用策略梯度方法(Policy Gradient Methods)將強(qiáng)化學(xué)習(xí)方法擴(kuò)展到高維機(jī)器人領(lǐng)域(如機(jī)械手,腿式或人形機(jī)器人)。Wang[14]等人將強(qiáng)化學(xué)習(xí)與遺傳算法結(jié)合起來,提出了一種用于解決多機(jī)器人協(xié)調(diào)問題的二層多智能體結(jié)構(gòu)。Sharma[15]等人提出了模糊馬爾可夫?qū)Σ咦鳛槟:齉-Learning算法 (FQL)的一種改編。該方法利用增強(qiáng)信號(hào)對(duì)機(jī)械手的模糊馬爾可夫博弈控制器的在線結(jié)論部分進(jìn)行了調(diào)優(yōu)。Abdi[16]等人提出了一種用于交通流量預(yù)測(cè)的情緒時(shí)間差分學(xué)習(xí)算法。近年來,Wiering[17]在強(qiáng)化學(xué)習(xí)方面中還提出了一種集成算法。他們的思想結(jié)合了Q-learning、Sarsa算法、Sutton[18]提出的actor-critics (AC)算法、Q和V函數(shù)(QV-learning)。Wiering[17]提出的AC學(xué)習(xí)自動(dòng)機(jī)(ACLA)結(jié)合了不同強(qiáng)化算法價(jià)值函數(shù)導(dǎo)出的策略,但由于需要集成不同強(qiáng)化學(xué)習(xí)算法,需要對(duì)許多參數(shù)進(jìn)行調(diào)優(yōu),消耗了大量的計(jì)算時(shí)間。針對(duì)Q-Learning算法的開發(fā)-探索平衡性問題,Guo[19]等人提出了一種基于metropolis準(zhǔn)則的模擬退火算法(SA-Q-Learning)以改進(jìn)Q-Learning算法。與Q-Learning算法和玻爾茲曼探索相比,SA-Q-Learning算法的收斂速度將更快。將自適應(yīng)學(xué)習(xí)率和模糊均衡器集成到模糊Sarsa學(xué)習(xí)算法(FSL)中,Derhami[20]等人提出了一種增強(qiáng)的模糊Sarsa學(xué)習(xí)算法(EFSL),利用自適應(yīng)學(xué)習(xí)率防止高訪問狀態(tài)的參數(shù)過擬合,利用模糊均衡器實(shí)現(xiàn)了合理的開發(fā)-探索平衡管理。

        綜上所述,強(qiáng)化學(xué)習(xí)算法領(lǐng)域已有多方面研究,各種強(qiáng)化學(xué)習(xí)算法在不同環(huán)境中的控制效果存在差異,通過仿真平臺(tái),利用強(qiáng)化學(xué)習(xí)算法對(duì)模型進(jìn)行仿真控制驗(yàn)證,是理解強(qiáng)化學(xué)習(xí)以合理選擇算法的快捷方式。

        2 軟件架構(gòu)及測(cè)試框架

        軟件框架由3個(gè)部分組成:OpenAI Gym、ROS和Gazebo,如圖1所示。OpenAI Gym作為強(qiáng)化學(xué)習(xí)的工具包,與ROS環(huán)境交互。ROS是一個(gè)機(jī)器人操作系統(tǒng)平臺(tái),用于系統(tǒng)開發(fā),構(gòu)建兩輪模型車和控制算法等仿真模型。Gazebo仿真平臺(tái)提供強(qiáng)大的物理引擎、高質(zhì)量的圖像處理以及作圖的界面。ROS作為Gym與Gazebo仿真平臺(tái)連接的橋梁,以便在實(shí)際環(huán)境中驗(yàn)證和標(biāo)準(zhǔn)化強(qiáng)化學(xué)習(xí)算法。

        圖1 整體框架

        設(shè)置兩輪模型車無碰撞繞地圖行駛兩圈為訓(xùn)練成功的標(biāo)志,對(duì)強(qiáng)化學(xué)習(xí)各方法的測(cè)試驗(yàn)證框架分為以下3個(gè)部分:① 測(cè)試三種算法在3張地圖中的訓(xùn)練成功概率;② 在3張地圖中依次測(cè)試驗(yàn)證同一種算法的訓(xùn)練效果;③ 在同一張地圖中依次測(cè)試驗(yàn)證三種算法的訓(xùn)練效果。

        3 強(qiáng)化學(xué)習(xí)算法

        3.1 強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)系統(tǒng)由智能體和環(huán)境兩部分組成,目的是通過試錯(cuò)的方法進(jìn)行從環(huán)境到行為映射的學(xué)習(xí),尋找使獎(jiǎng)勵(lì)值函數(shù)達(dá)到最大時(shí)的動(dòng)作方案。建立基于強(qiáng)化學(xué)習(xí)的兩輪模型車控制仿真分析時(shí),需要對(duì)強(qiáng)化學(xué)習(xí)算法中的狀態(tài)集合S、動(dòng)作集合A以及獎(jiǎng)勵(lì)矩陣R進(jìn)行合理定義。為驗(yàn)證平臺(tái)的有效性,選取Q-Learning、Sarsa和DQN三大主流強(qiáng)化學(xué)習(xí)算法進(jìn)行有效性與魯棒性的測(cè)試驗(yàn)證。

        3.2 算法原理

        3.2.1 基于Q-table

        Q-Learning算法與Sarsa算法采用Q表的形式?jīng)Q策,通過不斷更新Q-table里的值,根據(jù)新的值來判斷在某個(gè)狀態(tài)S下模型該采取的動(dòng)作A。

        Q-Learning算法基于Q值函數(shù)估計(jì)[22]。Q值函數(shù)表示智能體在當(dāng)前狀態(tài)下采取下一個(gè)動(dòng)作的值函數(shù),一般初始化為0。

        Q(st,at)←Q(st,at)+α(rt+1+γmaxQ(st+1,at+1)-Q(st,at))

        整體算法流程如下。

        算法1:Q-Learning算法

        初始化所有狀態(tài)和Q值函數(shù)Q(s,a)

        重復(fù)(每一輪次)

        選擇隨機(jī)狀態(tài)st或初始化狀態(tài)st

        重復(fù)(輪次中的每一步)

        用ε-貪婪法選出在當(dāng)前狀態(tài)st的動(dòng)作at

        執(zhí)行動(dòng)作at,得到新狀態(tài)st+1和獎(jiǎng)勵(lì)rt+1

        計(jì)算新Q值函數(shù)Q(st,at):

        st←st+1

        直至st為終止?fàn)顟B(tài)

        直至搜索到所需輪次的數(shù)量

        Sarsa算法與Q-Learning算法類似,同樣基于Q值函數(shù)估計(jì)[23]。然其區(qū)別在于:Q-Learning算法是一種離線算法,在選擇Q(st,at)時(shí)使用了greedy方法,而計(jì)算Q(st+1,at+1)時(shí)使用max方法,實(shí)際做決定時(shí),選擇的不一定是max的動(dòng)作; Sarsa算法則是在線算法,它在行動(dòng)中進(jìn)行學(xué)習(xí),因此選擇Q(st,at)與Q(st+1,at+1)時(shí)都采用貪心方法,其Q值函數(shù)更新公式可以表示為

        Q(st,at)←Q(st,at)+α(rt+1+γQ(st+1,at+1)-Q(st,at))

        整體算法流程如下。

        算法2:Sarsa算法

        初始化所有狀態(tài)和Q值函數(shù)Q(s,a);

        重復(fù)(每一輪次)

        選擇隨機(jī)狀態(tài)st或初始化狀態(tài)st

        用ε-貪婪法選擇出在當(dāng)前狀態(tài)st的動(dòng)作at

        重復(fù)(輪次中的每一步)

        執(zhí)行動(dòng)作at,得到新狀態(tài)st+1和獎(jiǎng)勵(lì)rt+1

        用ε-貪婪法選出在當(dāng)前狀態(tài)st+1的動(dòng)作at+1

        計(jì)算新Q值函數(shù)Q(st,at):

        Q(st,at)←Q(st,at)+α(rt+1+γQ(st+1,at+1)-Q(st,at))st←st+1;at←at+1

        直至st為終止?fàn)顟B(tài)

        直至搜索到所需輪次的數(shù)量

        3.2.2 基于Q-network

        DQN算法的基本思路來源于Q-Learning[24],區(qū)別于Q-Learning用狀態(tài)S和動(dòng)作A計(jì)算Q值,DQN算法中利用Q網(wǎng)絡(luò)進(jìn)行Q值計(jì)算。Q網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò),DQN算法采用經(jīng)驗(yàn)回放的方法,構(gòu)建一個(gè)系統(tǒng)存儲(chǔ)樣本,通過隨機(jī)抽取以往記憶庫中的數(shù)據(jù),對(duì)抽取數(shù)據(jù)進(jìn)行學(xué)習(xí),打破經(jīng)歷之間的相關(guān)性,使神經(jīng)網(wǎng)絡(luò)的更新高效,解決結(jié)果難以收斂的問題。Q網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)為

        L(θ)=E[(TargetQ-Q(s,a;θ))2]
        TargetQ=r+γmaxa′Q(s′,a′;θ)

        DQN算法的基本流程如下。

        算法3:DQN算法

        初始化Q網(wǎng)絡(luò)的所有參數(shù)ω,基于ω初始化所有的狀態(tài)和動(dòng)作對(duì)應(yīng)的Q值。清空經(jīng)驗(yàn)回放集合D

        開始迭代:

        初始化S為當(dāng)前狀態(tài)序列的第一個(gè)狀態(tài),獲得其特征向量Φ(S)

        在Q網(wǎng)絡(luò)中將Φ(S)作為輸入,得到Q網(wǎng)絡(luò)對(duì)應(yīng)的所有Q值輸出。用ε-貪婪法在當(dāng)前Q值輸出中選擇對(duì)應(yīng)動(dòng)作A

        在狀態(tài)S執(zhí)行動(dòng)作A得到新狀態(tài)S′對(duì)應(yīng)的特征向量Φ(S′),獎(jiǎng)勵(lì)R(S)和是否終止is_end

        S←S′

        使用均方差損失函數(shù):

        通過神經(jīng)網(wǎng)絡(luò)梯度反向傳播更新Q網(wǎng)絡(luò)的參數(shù)ω;

        如果S′是終止?fàn)顟B(tài),則當(dāng)前輪次迭代結(jié)束,進(jìn)行下一輪迭代。

        4 研究過程

        4.1 實(shí)驗(yàn)平臺(tái)

        實(shí)驗(yàn)平臺(tái)基于ROS操作系統(tǒng),利用OpenAI Gym進(jìn)行強(qiáng)化學(xué)習(xí)的研究和測(cè)試驗(yàn)證,利用Gazebo對(duì)實(shí)驗(yàn)進(jìn)行仿真。兩輪模型車(如圖2所示)裝有Hokuyo激光雷達(dá),精度為±40 mm,測(cè)量距離為0.06~10 m,測(cè)量角度范圍為270°。分別利用Q-Learning、Sarsa和DQN,利用模型車的激光雷達(dá)數(shù)據(jù)進(jìn)行訓(xùn)練,測(cè)試驗(yàn)證算法在不同地圖下的有效性與魯棒性。

        圖2 兩輪模型車

        4.2 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)場(chǎng)景設(shè)置3個(gè)不同復(fù)雜程度的12 m×12 m的3D仿真環(huán)境,3張地圖依次設(shè)為MAP1、MAP2、MAP3,墻壁高度1 m、通道寬度1.35 m、通道總長(zhǎng)度42 m。每個(gè)地圖的復(fù)雜度由轉(zhuǎn)角數(shù)量決定,轉(zhuǎn)角數(shù)越多,相應(yīng)地圖復(fù)雜度越高。具體模型如圖3所示。

        圖3 尺寸相等的3種地圖

        4.3 實(shí)驗(yàn)?zāi)P?/h3>

        在實(shí)驗(yàn)中,模型車的最終目的是通過訓(xùn)練以實(shí)現(xiàn)穩(wěn)定繞地圖通道行駛且不會(huì)撞到墻壁等障礙物。設(shè)置模型車無障礙繞地圖行駛兩圈為訓(xùn)練成功的標(biāo)志。

        實(shí)驗(yàn)以雷達(dá)為主要傳感器進(jìn)行訓(xùn)練。雷達(dá)居于模型車中心位置,當(dāng)雷達(dá)檢測(cè)到距障礙物的最小距離小于0.2 m時(shí),即認(rèn)為模型車撞到了障礙物,該回合立即結(jié)束并進(jìn)行下一回合;否則,模型車將根據(jù)所用算法,選取不同策略來選擇下一動(dòng)作。參數(shù)設(shè)置如表1所示。

        表1 動(dòng)作離散化及其參數(shù)設(shè)置

        模型車的動(dòng)作集共有3種:前進(jìn)、左轉(zhuǎn)、右轉(zhuǎn)。根據(jù)所涉及的地圖環(huán)境和先驗(yàn)知識(shí),分別進(jìn)行設(shè)置,具體獎(jiǎng)勵(lì)值如表2所示。

        表2 動(dòng)作設(shè)置獎(jiǎng)勵(lì)

        4.4 實(shí)驗(yàn)參數(shù)

        分別采用Q-Learning算法、Sarsa算法及DQN算法對(duì)模型車進(jìn)行訓(xùn)練,以2400個(gè)回合后模型車的訓(xùn)練情況以及需要多少個(gè)回合能夠順利行駛兩圈作為測(cè)試驗(yàn)證的主要依據(jù)。模型車的學(xué)習(xí)周期為2400個(gè)回合,每個(gè)回合結(jié)束的標(biāo)志是模型車撞到障礙物,周期結(jié)束后,統(tǒng)計(jì)模型車所得獎(jiǎng)勵(lì),進(jìn)入下一個(gè)回合的學(xué)習(xí)。

        Q-Learning算法與Sarsa 算法中的學(xué)習(xí)速率的參數(shù)設(shè)置如表3所示。

        表3 算法參數(shù)設(shè)置

        4.5 結(jié)果分析

        按照算法對(duì)應(yīng)的參數(shù)及模型車的獎(jiǎng)懲規(guī)則進(jìn)行實(shí)驗(yàn),每一回合記錄一次模型車獎(jiǎng)勵(lì)值,對(duì)三種強(qiáng)化學(xué)習(xí)算法在3種地圖下的獎(jiǎng)勵(lì)值進(jìn)行數(shù)據(jù)分析。由于回合數(shù)較多,用平均值替代每10個(gè)回合數(shù)的獎(jiǎng)勵(lì)值。模型車無碰撞行駛超過兩圈的次數(shù)在總訓(xùn)練次數(shù)中所占的比例稱為訓(xùn)練成功率,如表4所示。

        表4 不同算法在3個(gè)地圖下的訓(xùn)練成功率

        由表4可知,隨著地圖復(fù)雜度的提高,三種強(qiáng)化算法的訓(xùn)練成功概率都會(huì)下降,且DQN算法訓(xùn)練成功率下降得更快。在復(fù)雜度較低的MAP1中,DQN算法的訓(xùn)練成功率明顯高于Q-Learning和Sarsa算法,但在最復(fù)雜的MAP3中,Q-Learning和Sarsa兩種算法訓(xùn)練成功率相差很小,DQN訓(xùn)練成功率最低。因此,在復(fù)雜地圖中Sarsa算法的穩(wěn)定性與自適應(yīng)性更佳。

        為了研究Q-Learning算法在不同地圖中的表現(xiàn),在3張地圖中分別測(cè)量了模型車的訓(xùn)練回合數(shù)和獎(jiǎng)勵(lì)值(如圖4所示)。圖中黑線代表模型車可以無障礙繞地圖行駛兩圈所獲得的獎(jiǎng)勵(lì)值1600。

        圖4 Q-Learning算法在3張地圖下的訓(xùn)練結(jié)果

        MAP1到MAP3地圖復(fù)雜度遞增。分析圖4可以得出,使用Q-Learning算法時(shí),模型車在MAP1中的獎(jiǎng)勵(lì)值最高,能順利行駛兩圈的次數(shù)最多。而在MAP3中的獎(jiǎng)勵(lì)值最低,且平均獎(jiǎng)勵(lì)值未達(dá)到行駛兩圈所需獎(jiǎng)勵(lì)值。這種現(xiàn)象與獎(jiǎng)懲設(shè)置有緊密聯(lián)系,直行的獎(jiǎng)勵(lì)值為5,大于左右轉(zhuǎn)的獎(jiǎng)勵(lì)值1,故直行通道越多的地圖獲得的獎(jiǎng)勵(lì)值應(yīng)該越高。實(shí)驗(yàn)現(xiàn)象與預(yù)期假設(shè)基本符合,得出如下結(jié)論:在直行獎(jiǎng)勵(lì)值大于左右轉(zhuǎn)獎(jiǎng)勵(lì)值的情況下,Q-Learning算法往往在較為簡(jiǎn)單的地圖中可以使模型車獲得較高的獎(jiǎng)勵(lì)值。

        Sarsa算法在不同地圖中的表現(xiàn)如圖5所示。與Q-Learning算法相比,使用Sarsa算法時(shí)模型車在不同地圖中獎(jiǎng)勵(lì)值的區(qū)分度更低,其行為更加平穩(wěn),訓(xùn)練完成后,獎(jiǎng)勵(lì)值保持在較高水平。在復(fù)雜度最高的MAP3中,平均獎(jiǎng)勵(lì)值也能達(dá)到行駛兩圈的獎(jiǎng)勵(lì)值。實(shí)驗(yàn)表明Sarsa算法在復(fù)雜度較高的地圖中表現(xiàn)更好。

        Q-Learning算法及Sarsa算法等傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法都需要一張由狀態(tài)S以及行為A組成的Q值表,當(dāng)場(chǎng)景的狀態(tài)過多即Q值表行數(shù)過多時(shí),將導(dǎo)致Q值表難以維護(hù)?;诖?,探究了DQN算法在不同地圖中的表現(xiàn),如圖6所示。與前兩種算法相比,使用DQN算法時(shí)模型車在同地圖中的訓(xùn)練輪次與獎(jiǎng)勵(lì)有較大區(qū)別。DQN算法采用存儲(chǔ)并隨機(jī)采樣經(jīng)驗(yàn)來打破樣本之間的相關(guān)性,避免優(yōu)化目標(biāo)隨優(yōu)化過程改變的問題。

        圖5 Sarsa算法在3張地圖下的訓(xùn)練結(jié)果

        圖6 DQN算法在3張地圖下的訓(xùn)練結(jié)果

        但是隨著地圖復(fù)雜度的提升,DQN算法的訓(xùn)練性能下降,訓(xùn)練輪次增加,其原因在于:地圖越復(fù)雜,對(duì)運(yùn)算處理能力要求越高,需要的訓(xùn)練量越大。但訓(xùn)練量足夠大時(shí),DQN算法在MAP3中也可以呈現(xiàn)出很強(qiáng)的收斂性與穩(wěn)定性。

        為了研究三種強(qiáng)化學(xué)習(xí)算法在同一環(huán)境中的表現(xiàn),在同一地圖中測(cè)量模型車的訓(xùn)練回合數(shù)和獎(jiǎng)勵(lì)值,并繪制相應(yīng)圖表(如圖7、圖8、圖9所示)??梢缘贸?,以模型車行駛兩圈作為其訓(xùn)練成功的標(biāo)志,Q-Learning算法可以更早地實(shí)現(xiàn)目標(biāo)。

        圖7 MAP1中模型車的訓(xùn)練結(jié)果

        圖8 MAP2中模型車的訓(xùn)練結(jié)果

        圖9 MAP3中模型車的訓(xùn)練結(jié)果

        這種現(xiàn)象是由于Q-Learning算法可以學(xué)習(xí)策略,同時(shí)更趨于冒險(xiǎn),即下一個(gè)狀態(tài)的獎(jiǎng)勵(lì)值不一定用來更新Q值。即使在Q-Learning算法訓(xùn)練后期,也仍有一定幾率去探索,因此訓(xùn)練后期仍有獎(jiǎng)勵(lì)值較低的情況發(fā)生。

        由于Sarsa算法是一種在線學(xué)習(xí)算法,使用漸近貪心無限探索策略來更新Q值函數(shù),因此任意時(shí)間模型車總有一定概率選擇非最優(yōu)的動(dòng)作。其中碰撞墻壁的動(dòng)作也始終有一定的概率被選中,并在Q值函數(shù)更新時(shí)被記錄下來,Q值函數(shù)變成了越靠近墻壁,值越小的分布,最終實(shí)現(xiàn)Sarsa選擇安全路徑。將MAP1、MAP2、MAP3三幅地圖的Q-Learning算法與Sarsa算法獎(jiǎng)勵(lì)值進(jìn)行對(duì)比,在1400回合數(shù)之前Sarsa算法獲得的平均獎(jiǎng)勵(lì)值要低于Q-Learning算法,1400回合數(shù)之后Sarsa算法獲得平均獎(jiǎng)勵(lì)值要高于Q-Learning算法。Sarsa算法訓(xùn)練的速度要比Q-Learning算法速度快,訓(xùn)練完成后,比Q-Learning算法訓(xùn)練效果更好。這也驗(yàn)證了Sarsa算法在控制方面要優(yōu)于Q-Learning算法。

        DQN算法通過經(jīng)驗(yàn)回放的方式,在過去多個(gè)狀態(tài)下平均化數(shù)據(jù)分布,提高了訓(xùn)練過程的平滑度,避免了訓(xùn)練發(fā)散,提高了收斂性。因而在MAP1中DQN算法在330次訓(xùn)練回合后可以實(shí)現(xiàn)模型車無碰撞行駛地圖兩圈,收斂性遠(yuǎn)高于Q-Learning以及Sarsa算法。在經(jīng)驗(yàn)回放中DQN算法采取隨機(jī)均勻采樣,每一步的數(shù)據(jù)都可以被多次采樣,并且隨機(jī)采樣打破了樣本之間的相關(guān)性,降低了參數(shù)更新的方差,提高了算法的穩(wěn)定性。因而在MAP1、MAP2中一次訓(xùn)練成功后,模型車就可以在之后的訓(xùn)練中有更大的幾率訓(xùn)練合格,穩(wěn)定性也高于Q-Learning和Sarsa算法。

        本文選取了三種基于價(jià)值的強(qiáng)化學(xué)習(xí)算法進(jìn)行研究,相比于基于概率的算法,基于價(jià)值的算法決策部分更明確,總是選擇價(jià)值最高的,收斂速度更快。在明確某個(gè)狀態(tài)執(zhí)行某個(gè)動(dòng)作價(jià)值更高的情況下,尤其是出于對(duì)時(shí)間的要求,將直行的獎(jiǎng)勵(lì)設(shè)置為高于轉(zhuǎn)彎時(shí),使用基于價(jià)值的算法更為合適。同時(shí),本實(shí)驗(yàn)狀態(tài)設(shè)置較多,使用單步更新的算法更節(jié)省計(jì)算資源。因此,本文將該三種基于價(jià)值的算法在不同環(huán)境下的效果作為測(cè)試驗(yàn)證對(duì)象,以驗(yàn)證平臺(tái)的有效性。

        5 結(jié)束語

        本文搭建了用于不同環(huán)境下的強(qiáng)化學(xué)習(xí)算法仿真的小車平臺(tái),提供了一種快捷的平臺(tái)環(huán)境仿真解決方案。對(duì)Q-Learning、Sarsa和DQN三大主流算法的有效性與魯棒性進(jìn)行了測(cè)試驗(yàn)證。得出以下結(jié)論:

        ① 在傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法中,Sarsa算法的穩(wěn)定性與自適應(yīng)性更佳,隨著地圖復(fù)雜度的提高,Sarsa算法仍可以取得較好的結(jié)果;而Q-Learning算法往往在較為簡(jiǎn)單的地圖中可以使模型車獲得較高的獎(jiǎng)勵(lì)值。

        ② Sarsa算法訓(xùn)練的速度要比Q-Learning算法快,訓(xùn)練完成后比Q-Learning算法訓(xùn)練效果更好。這驗(yàn)證了Sarsa算法在控制方面優(yōu)于Q-Learning算法。

        ③ DQN算法的收斂性與魯棒性優(yōu)于Q-Learning和Sarsa算法。

        猜你喜歡
        復(fù)雜度狀態(tài)動(dòng)作
        狀態(tài)聯(lián)想
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        動(dòng)作描寫要具體
        生命的另一種狀態(tài)
        求圖上廣探樹的時(shí)間復(fù)雜度
        畫動(dòng)作
        動(dòng)作描寫不可少
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅(jiān)持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
        久久久精品欧美一区二区免费| 一区二区在线观看视频高清| 色综合久久久久综合体桃花网| 亚洲精品午夜无码电影网| 日本一道综合久久aⅴ免费| 中文字幕精品一二三四五六七八| av一区无码不卡毛片| 精品国产一区二区三区男人吃奶| 国产av精品麻豆网址| 亚洲精品一区二区三区麻豆| 亚洲av无码成人网站在线观看| 又爽又黄禁片视频1000免费| 成人特黄特色毛片免费看| 中文字幕乱码日本亚洲一区二区| 综合色区亚洲熟妇另类| 精品人妻一区二区三区四区| 国产nv精品你懂得| av网站可以直接看的| 男女啪啪在线视频网站| 婷婷丁香五月激情综合| 米奇影音777第四色| 911精品国产91久久久久| 色综合久久五月天久久久| 日本黑人亚洲一区二区| 无人视频在线观看免费播放影院| √最新版天堂资源在线| 久久精品国产亚洲av一| 国产日产欧产精品精品蜜芽| 又色又爽又黄又硬的视频免费观看| 中文字幕无码高清一区二区三区| 韩国三级黄色一区二区| 东京热无码av一区二区| 亚洲天堂在线视频播放| 亚洲一区二区三区一区| 久久99精品久久久久婷婷| 国产成人久久777777| 国产杨幂AV在线播放| 国产精品高潮呻吟av久久黄| 欧美性猛交xxxx三人| 青草热久精品视频在线观看| 亚洲熟女一区二区三区不卡|