亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于加權密集連接卷積網絡的深度強化學習方法

2018-10-16 03:11:26宋穩(wěn)柱施必成

計算機應用 2018年8期

夏旻，宋穩(wěn)柱，施必成，劉佳

(南京信息工程大學信息與控制學院，南京 210044)(*通信作者電子郵箱xiamin@nuist.edu.cn)

0 引言

強化學習(Reinforcement Learning， RL)[1]是一種集理解力、自動指向目標與決策制定為一體的計算方法。強化學習已經有幾十年的歷史了，但直到最近幾年由于深度學習技術的突破，強化學習才得到了比較大的發(fā)展。傳統(tǒng)的強化學習在一些簡單的控制問題上有著很出色的表現(xiàn)，但大規(guī)模的問題存在著大量的不確定性，傳統(tǒng)的強化學習在處理這些問題時往往會出現(xiàn)維度災難。實際生活中的問題復雜多變，需要一種方法能夠很好地去解決。深度學習方法通常由多層的非線性運算單元組合而成，通過特征組合的方式，逐層將原始輸入轉化為淺層特征、中層特征、高層特征直至最終的任務目標。將深度學習和強化學習相結合，通過深度學習來自動學習大規(guī)模的輸入數(shù)據(jù)的抽象表征，并以此表征為依據(jù)進行自我激勵，從而彌補傳統(tǒng)強化學習的不足。

Riedmiller[2]使用一個多層感知器來近似表示Q值函數(shù)，并提出了神經擬合Q迭代算法。Lange等[3]結合深度學習模型和強化學習方法，提出了一種深度自動編碼器(Deep Auto-Encoder， DAE)模型。Abtahi等[4]用深度信念網絡作為傳統(tǒng)強化學習中的函數(shù)逼近器，極大地提高了代理人的學習效率。Google DeepMind團隊將深度學習和強化學習相結合，提出了深度Q網絡(Deep Q Network， DQN)[5]。2014年，DeepMind提出了用于連續(xù)動作空間確定性的策略梯度(Deterministic Policy Gradient， DPG)定理和一種學習確定性目標策略(Deterministic Target Policy， DTP)的off-policy Actor-Critic算法[6]。2016年，DeepMind在DPG基礎上提出了深度確定性策略梯度(Deep Deterministic Policy Gradient， DDPG)[7]方法，它吸收了Actor-Critic和Policy gradient單步更新的精華,而且還結合了讓計算機學會玩游戲的DQN方法。之后DeepMind又提出了A3C(Asynchronous Advantage Actor-Critic)[8]方法，A3C提出了一個新的算法框架，通過并行使得計算效率提升，而且綜合了以前幾乎所有的深度增強學習的算法。

深度強化學習方法能夠很好地應用在不同的環(huán)境之中，適用性更強。然而，卷積神經網絡層數(shù)如果太少就不能充分提取出游戲的狀態(tài)信息。眾所周知，卷積神經網絡為了提高效果通常采取的方法就是使網絡變寬或者變深，隨著網絡層數(shù)的加深，網絡的節(jié)點數(shù)增加，訓練的計算量會幾何倍地增加，同時網絡在訓練過程中梯度會逐漸減小甚至消失，從而減緩收斂[9]。而密集連接卷積網絡(Densely Connected Convolutional Network， DenseNet)[10]通過對特征圖的極致利用能達到更好的效果。密集連接卷積網絡將網絡中所有層都進行兩兩連接，從而網絡中每一層都可以接收到前面所有層的特征信息。本文將深度強化學習和密集連接卷積網絡進行結合，并且在密集連接的基礎上提出了一種加權密集連接的方法，以便對輸入圖像進行更深入有效的信息提取，達到改善訓練效果的目的。

1 強化學習

常規(guī)的強化學習方法通常分為policy-based和value-based。其中：policy-based是強化學習中最直接的一種，它直接輸出下一步要采取的各種動作的概率，然后根據(jù)概率采取行動；而value-based則輸出所有動作的價值，我們會根據(jù)最高價值來選取動作，相比policy-base的方法，value-based的決策部分更為確定[11]。Policy-based方法又可分為兩大類：PG(Policy Gradient)和gradient-free。PG方法又可細分為幾類，如finite difference、Monte-Carlo和AC(Actor-Critic)等。AC方法其實是policy-based和value-based方法的結合，actor會基于概率做出動作，而critic會對做出的動作給出動作的價值，這樣就在原有的policy gradient上加速了學習過程。

強化學習問題里包括三個概念：環(huán)境狀態(tài)、獎勵以及行動。強化學習就是系統(tǒng)從環(huán)境到行為映射的學習，其目標是使得累計獎勵最大化[12-13]。行為主體選擇一個動作作用于所在的環(huán)境中時，環(huán)境受到該動作以后當前狀態(tài)發(fā)生變化，并且會產生一個反饋信號(獎懲)給行為主體，行為主體則會根據(jù)獲得的信號和當前狀態(tài)選擇下一個動作。多數(shù)情況下，RL不需要專家知識，Agent必須靠自身的經歷進行學習。通過這種方式，Agent獲得知識，改進行動方案以適應環(huán)境。

1.1 Q-Learning算法

Q-Learning是強化學習領域重要的一類算法，它是一種使用Q表來學習動作對應期望價值的方法[14-15]。Q-learning的核心是Q-table。Q-table的行和列分別表示state和action的值，Q-table的值衡量每一個state采取的action的好壞。Q-Learning最早由Watkins[16]在1989年提出，于1992年被Watkins和Dayan一起證明具有收斂性。該算法的基本迭代公式如下：

(1)

其中:r、s、a、st+1、at+1分別表示獎勵值、當前狀態(tài)、當前動作、下一個狀態(tài)、下一個動作；0<η<1為學習速率；0<γ<1為折扣因子，γ參數(shù)決定了未來獎勵在學習中的重要性。如果折扣因子為0，則模型無法學習未來獎勵信息，將會只關注當前的利益；如果折扣因子為1，則算法極有可能無法收斂。因此，折扣因子一般設為比1稍小的數(shù)值。Q-Learning的目標是求解函數(shù)Q(s,a)，簡單描述這個公式就是，將舊的Q函數(shù)，向著學習目標(當前獲得的獎勵值加上下一步可獲得的最大期望價值)按一個較小的學習速率η學習，得到新的Q函數(shù)。

Q-Learning算法流程描述如下：

輸入環(huán)境E；動作空間A；起始狀態(tài)s0；衰減系數(shù)γ；學習速率η。

過程：

Qt(s,a)=0，π(s)=在動作空間A中隨機選擇動作;

s=s0；

fort=0:Tdo

r,st+1=在E中執(zhí)行動作πε(s)(原始策略的ε-貪心策略)產生的獎勵與轉移的狀態(tài)；

a′=π(st+1)；

s=st+1,a=a′；

end for

輸出策略π。

2 基于加權密集連接卷積的強化學習

2.1 密集連接卷積網絡

密集連接卷積網絡是在傳統(tǒng)的卷積神經網絡中采用了一種全新的連接模式?；诳鐚舆B接連通網絡中前后層使得信號可以在輸入層和輸出層之間高速流通這個思想，密集連接卷積網絡中將所有層都進行兩兩連接，使得網絡中的每一層都接收它前面所有層的特征作為輸入。

圖1展示了密集連接的網絡結構，在該網絡結構中每層特征圖都要經過批量歸一化(Batch Normalization，BN)、ReLU[17]激活和卷積操作(BN-ReLU-1x1conv-ReLU-3×3conv)，其中1×1卷積是一個瓶頸層，可以減少輸入特征圖的數(shù)量來提高計算效率。為了讓特征能夠反復利用，在跨層連接時特征圖采用并聯(lián)的方式，即網絡每一層的輸入包括前面所有層的輸出。

圖1 增長率k=4的4層密集連接塊

2.1.1 增長率

由于采用密集連接的方式，如果每層產生k個特征圖，則它將在第i層輸入k0+k(i-1)個特征圖，其中k0是輸入層的通道數(shù)，將超參數(shù)k稱為網絡的增長率。k值越大,網絡中流通的信息量也就越大，提取特征的能力就越強，同時也會相應地增加模型的計算量。

2.1.2 過渡層

由于網絡每層都會接收前面所有層的特征作為輸入，采用并聯(lián)特征圖會使得網絡層數(shù)不斷加深，因此在每個密集連接塊后面會有一個過渡層進行降維操作。在過渡層中首先使用一個1×1的卷積層將特征圖的深度壓縮為當前輸入的θ倍，其中θ(0<θ≤1)是壓縮因子，θ=1時表示輸出特征圖數(shù)量不變。接著進行池化操作降低每張?zhí)卣鲌D的維度。

密集連接卷積主要擁有以下兩個特性：

1)反向誤差傳播過程中，每一層都會接收到之后所有層傳遞的梯度信號，因此不會出現(xiàn)隨著網絡層數(shù)的增加導致靠近輸入層的梯度會變得越來越小的情況，在一定程度上減輕訓練過程的梯度消失問題。

2)網絡結構中大量特征的復用，使得通過使用少量卷積核就可以生成大量的特征，從而降低了模型的計算量，同時模型的尺寸也被控制得比較小。

2.2 加權密集連接

在DenseNet的跨層連接中所有層都是平等的關系，僅僅只是將當前層與之前所有層之間進行一個并聯(lián)后進行BN-ReLU-conv操作。我們覺得每一層卷積操作的作用是不同的，提取的特征也各不相同，因此在跨層連接時應該是有主次分別的，即跨層連接時當前層起到主要作用，之前所有層起到輔助作用。為此本文中提出一種加權密集連接的跨層連接方式，即在初始時對密集連接的跨層賦予不同的權值，在訓練過程中網絡自我進行權值調整找到最合適的權重分配，這樣對特征圖的利用才會更加有效。

如圖2所示，加權密集連接在跨層連接時的權重分配，當前層特征圖權重系數(shù)設為1，密集連接塊的第一層特征圖權重設置為w(0

(2)

圖2 加權密集連接的初始化權重

2.3 網絡模型的具體實現(xiàn)

加權密集連接卷積由于層數(shù)越深特征維度增長越快，因此每隔一定層數(shù)需要采取下采樣進行降維。本文將加權密集連接卷積分割成三塊，這樣能夠更好地減少特征維度的增加。增長率k設置為32，因此每經過一層特征維度就會增加k。網絡模型如圖3所示。

圖3 網絡模型

加權密集連接卷積網絡從環(huán)境中獲取當前狀態(tài)的截圖作為網絡的輸入，首先經過一層常規(guī)的卷積操作，卷積核個數(shù)初始為64；接著ReLU激活以及最大池化操作；然后特征圖進入第一個加權密集連接塊，第一個加權密集連接塊內部有6層。

緊隨加權密集連接塊之后的是過渡層，過渡層中包括一個1×1卷積層和一個2×2的平均池化層。過渡層的目的是減少特征圖數(shù)量以及減小特征圖的尺寸，本文中壓縮因子設為θ=0.5。步長為2的池化層使得特征圖大小壓縮為原來的一半，經過過渡層壓縮后特征圖的數(shù)量和大小都變?yōu)橹暗?/2。

加權密集連接塊和過渡層交替連接，第二個加權密集連接塊內部設為12層，第三個設為24層。當經過第三個加權密集連接塊后每張?zhí)卣鲌D的尺寸已經變得很小，此時進行全局池化操作將每張?zhí)卣鲌D壓縮為1×1大小，此時所有特征圖組成一維數(shù)據(jù)，經過兩層全連接輸出每個動作對應的Q值。

2.4 經驗池回放

經驗池回放[18]這個概念最早由Lin于1993年提出。深度學習在訓練過程中需要大量樣本數(shù)據(jù)，所以傳統(tǒng)的逐一對新樣本進行學習的方法不適應此種訓練[19]。為了增加樣本的數(shù)量來進行多個epoch的訓練，我們需要對樣本數(shù)據(jù)進行多次的利用，經驗池技術很好地解決了這個問題。

經驗池回放是把之前的樣本存儲起來，并且每次訓練時隨機抽取一部分樣本供給網絡進行學習。經驗池回放克服了非平衡分布的問題，同時提高了數(shù)據(jù)的利用率[20]。多次反復利用以前的樣本學習，很好地避免了只學習最新接觸到的樣本。當經驗池達到設定上限時，新樣本將替換最舊的那些樣本，以此保證樣本被抽概率相近[21-22]。

2.5 隨機批量學習

本文構建了一個能容納m個數(shù)據(jù)樣本的經驗池，將從環(huán)境中獲得的樣本數(shù)據(jù)，即[s,a,r,s1]存儲在經驗池之中，每次訓練時隨機從經驗池中抽取一定量樣本供給網絡學習，其中：s為當前環(huán)境狀態(tài)圖像，a為選擇的動作，r為從環(huán)境中獲得的獎勵值，s1為下一個環(huán)境狀態(tài)圖像。本文使用加權密度連接卷積神經網絡來學習需要輸入圖像信息的Q-Learning模型問題?；灸Ｐ徒Y構框架如圖4所示。

加權密集連接卷積網絡反復迭代訓練需要大量的樣本，因此在開始時需要通過隨機選擇動作來熟悉環(huán)境信息，并將獲得的數(shù)據(jù)保存在經驗池中，在以后的每次訓練隨機抽取一部分樣本供給網絡學習。動作的選擇分為如下三個階段：

圖4 模型結構框架

1)觀察階段：在觀察階段模型不進行訓練，僅僅是隨機選取動作對游戲環(huán)境進行充分的熟悉。設定觀察階段步數(shù)為steps1，當總步數(shù)小于等于steps1時，隨機選擇動作概率e為初始隨機選擇動作概率值E1=1，即所有動作全部通過隨機選擇。

2)探索階段：設定探索階段步數(shù)為steps2，當總步數(shù)在[steps1，steps1+steps2)范圍內時，隨機選擇動作概率e由初始隨機動作概率E1逐漸減小到最終隨機選擇動作概率E0，每步減小的概率值stepdrop=(E1-E0)/steps2，當隨機值小于e時，動作隨機選擇；當隨機值大于等于e時，動作選擇密集連接網絡輸出的最大Q值對應的動作。

3)訓練階段：當總步數(shù)大于steps2時，進入訓練階段，此時隨機選擇動作概率值e固定為最終隨機選擇動作概率E0不變，當隨機值小于e時，動作隨機選擇；當隨機值大于等于e時，動作選擇密集連接網絡輸出的最大Q值對應的動作。

在探索階段和訓練階段里，動作通過密集連接卷積網絡來選擇時，加權密集連接從環(huán)境中獲得當前狀態(tài)圖像作為輸入，輸出對應動作的Q值，選擇Q值最大的動作并作用于環(huán)境，環(huán)境會給出該動作下的獎勵值以及下一個狀態(tài)。將獲得的獎勵、下一個狀態(tài)、當前動作以及當前狀態(tài)存儲在經驗池之中。當進行訓練時，隨機從經驗池中抽取一部分樣本通過式(1)的方法進行迭代訓練。

訓練網絡參數(shù)的損失函數(shù)使用的是均方誤差函數(shù)：

(3)

其中:G指模型，它根據(jù)輸入矩陣X輸出一個預測向量G(X)。均方誤差函數(shù)將“距離”這一概念引入，它的直觀意義是：預測值G(X)和真實值Y的歐氏距離越大，損失就越大，反之就越小。

訓練過程中，使用Adam優(yōu)化器優(yōu)化預測Q值和目標Q值的偏差。Adam利用梯度的一階矩估計(即梯度的均值)和二階矩估計(即梯度的未中心化的方差)動態(tài)調整每個參數(shù)的學習率。它具有以下一些優(yōu)點：實現(xiàn)簡單，計算高效，對內存需求少；參數(shù)的更新不受梯度的伸縮變換影響；更新的步長能夠被限制在大致的范圍內；適合應用于大規(guī)模數(shù)據(jù)及參數(shù)的場景；適用于不穩(wěn)定目標函數(shù)；適用于梯度稀疏或梯度存在很大噪聲的問題。

3 仿真實驗與分析

為了驗證本文提出的基于加權密集連接網絡的深度強化學習的效果，通過訓練GridWorld和FlappyBird這兩個游戲的結果與基于普通卷積的深度強化學習進行比較。

3.1 GridWorld游戲

3.1.1 游戲描述

如圖5所示，GridWorld是一個5×5的方格狀的導航類游戲。GridWorld游戲中包含一個白色方格、四個灰色方格和兩個深灰色方格。白色方格代表hero，即游戲玩家，它能夠進行上、下、左、右四種移動?；疑礁翊韌oal，游戲過程中hero到達goal所處位置就會接受獎勵。深灰色方格代表fire，游戲過程中hero到達其所處位置則會接受懲罰。每到達一次goal獎勵1分，到達fire獎勵值為-1分。Hero的目標就是在游戲限定的回合步數(shù)里盡可能多地到達goal，同時避開所有fire，從而獲得更多的獎勵值。GridWorld游戲環(huán)境是隨機生成的，即每一回合不同顏色的方格位置都會發(fā)生變化。因為最近的研究表明，在靜態(tài)環(huán)境中，簡單的強力方法可以記住所需的動作而不必知道狀態(tài)信息[23]。

圖5 GridWorld游戲環(huán)境

表1列出了網絡的所有參數(shù)設置，輸入為三幀游戲過程的截圖，圖片大小為84×84，輸出為四個動作對應的Q值。在第一層的卷積網絡中，使用7×7的大尺寸卷積核來提取淺層特征，同時步長設為3來快速壓縮圖片尺寸。受到Google Inception Net的啟發(fā)，網絡中大量使用1×1和3×3大小的卷積核。1×1的卷積是一個十分優(yōu)秀的結構，它可以跨通道組織信息，提高網絡的表達能力，同時可以對輸出通道升維和降維。1×1的卷積用很小的計算量就能增加一層特征變換和非線性化。通過大量使用1×1和3×3的卷積，在控制了計算量和參數(shù)的同時，也獲得了非常好的性能。網絡中的增長率k太小不能充分地提取特征信息，但k值過大會導致模型計算量暴增。本實驗所使用的計算機內存16 GB、顯卡型號為GTX980?？紤]硬件設備，本文k值設置為32，網絡分成三個密集連接塊。經過過渡層的降維壓縮，特征圖數(shù)量和大小都得到了很好的控制。密集連接塊3輸出的特征圖大小為4×4，此時使用全局平均池化層(即將圖片壓縮為1×1)來取代傳統(tǒng)的全連接方法，從而進一步減小參數(shù)量，并且減輕了過擬合風險。

本次仿真經驗池容量設置為50 000，初始隨機步數(shù)設置為10 000，當10 000步以后，隨機選擇動作的概率在10 000步內由1逐步降低至0.1后保持不變。對Q值的折扣因子y設置為0.99，每4步訓練一次，每次從經驗池隨機采樣32個樣本進行訓練，每回合最大步數(shù)設置為50。

3.1.2 仿真結果分析

圖6展示了基于加權密集連接卷積網絡強化學習和傳統(tǒng)深度強化學習在訓練GridWorld游戲過程中的實驗對比圖。圖6(a)和圖6(d)顯示了損失函數(shù)變化，可以看出兩組平均損失函數(shù)曲線在開始都有一個急劇下降的過程，直至最后趨近于0。傳統(tǒng)深度強化學習在橫坐標為500時損失函數(shù)值才接近0，而基于加權密集連接的卷積神經網絡在訓練開始后損失函數(shù)值很快就接近0。

表1 GridWorld游戲網絡層詳細設置

圖6 GridWorld實驗結果對比

圖6(b)和圖6(e)展示了訓練過程中網絡預測的最大Q值。兩種方法的最大Q值都穩(wěn)步提升，這意味著兩種網絡都在逐步地探索環(huán)境的狀態(tài)，并且很好地預測特定狀態(tài)下的動作?？梢钥闯鰝鹘y(tǒng)深度學習方法的平均最大Q值波動較大，基于加權密集連接卷積網絡的深度強化學習方法的平均最大Q值波動相對較小，訓練時結果更加穩(wěn)定。

圖6(c)和圖6(f)展示了在訓練過程中的獎勵值變化趨勢，橫坐標一格表示1 000個回合，每個回合50步，縱坐標每格表示5分獎勵值。由圖中可以看出，基于加權密集連接卷積的強化學習收斂速度比傳統(tǒng)的4層卷積神經網絡的強化學習要快得多。基于加權密集連接卷積的強化學習在1 000個回合時，平均獎勵值就已經在20分以上，此時Agent可以自動選擇最佳動作，Agent和環(huán)境進入了一個友好的互動從而保證了最大總獎勵值。而傳統(tǒng)4層卷積神經網絡的強化學習總回合數(shù)到達3 000左右時，平均獎勵值才達到20分。由圖對比可以明顯看出，基于加權密集連接卷積網絡的強化學習性能遠優(yōu)于傳統(tǒng)的深度強化學習。

雖然加權密集連接卷積網絡的特殊結構使得網絡的參數(shù)量得到了極大的削減，計算量得到了很好的控制，但是加權密集連接卷積網絡的層數(shù)遠遠多于普通的卷積網絡。在單次訓練時長的對比上，本文中基于加權密集連接卷積的強化學習要比普通的4層卷積網絡稍慢，但由于收斂速度比普通4層卷積神經網絡快很多，因此在達到相同訓練效果的總時長上比較，本文方法的速度要比普通卷積的強化學習速度快。

3.2 FlappyBird游戲

3.2.1 游戲描述

FlappyBird是一款由來自越南的獨立游戲開發(fā)者Doong Nguyen所開發(fā)的作品，曾風靡全球。在游戲中，玩家只要控制一只像素鳥通過兩個管道中間的縫隙即可。游戲操作簡單，但通過管道卻十分困難，是一只特別容易死掉的鳥。如果玩家點擊屏幕，鳥就會跳起來，如果玩家什么都不做，像素鳥就會一直下落。游戲中，像素鳥觸碰到管道或者落地則游戲結束。

本文將使用加權基于密集連接卷積的強化學習來訓練FlappyBird游戲，并將結果與DQN的訓練效果進行對比。直接輸入原始截圖圖片的像素點很多，計算量比較大，因此在訓練之前要對游戲的輸入圖片進行預處理。首先將圖片的游戲背景刪除，這樣可以使其更快收斂，效果如圖7所示。接著對去掉背景的截圖進行灰度處理變成一張灰度圖片，然后將其下采樣壓縮為80×80大小的圖片，之后疊加最后4幀圖片作為當前狀態(tài)。

圖7 FlappyBird去掉游戲背景

FlappyBird游戲的網絡結構除了輸入變成80×80×4,輸出節(jié)點變?yōu)?以外，其他和表1結構相同。訓練參數(shù)設置如下：觀察步數(shù)=10 000，探索步數(shù)=200 000；經驗池容量=50 000；訓練樣本個數(shù)=32；折扣因子=0.99；學習率=0.000 001。

3.2.2 仿真結果分析

圖8展示了基于加權密集連接卷積網絡的深度強化學習方法和傳統(tǒng)深度強化學習在訓練FlappyBird游戲過程中的實驗對比。由圖8(a)和圖8(d)可以看出，兩組平均損失函數(shù)曲線在開始都有一個急劇下降的過程，直至最后均趨近于0。圖8(b)和圖8(e)展示了訓練過程中網絡預測的最大Q值。兩種方法的最大Q值都有著逐漸上升的趨勢，可以看出傳統(tǒng)深度學習方法的平均最大Q值波動較大，基于加權密集連接卷積網絡的深度學習方法在橫坐標為4 000～5 000有個快速上升的勢態(tài)，之后逐漸穩(wěn)定在10～15，這意味著網絡已經完成了對環(huán)境狀態(tài)的探索，具備了準確預測特定狀態(tài)下的動作的能力[24-25]。圖8(c)和圖8(f)展示了DQN和基于加權密集連接卷積的DQN兩種方法在訓練過程中獲得的獎勵值。本次訓練總步數(shù)設置為800 000步，由圖中可以看出，圖8(c)中DQN方法最高獎勵值只有50多，并且在訓練600 000步以后獎勵值才開始穩(wěn)定在10以上；圖8(f)中獎勵值最高值已經快接近800，在500 000步左右時獎勵值就開始了快速的增加，訓練效果明顯好于圖8(c)。

與GridWorld不同，F(xiàn)lappyBird不是按照回合進行訓練。GridWorld游戲每個回合最大步數(shù)設置為50，獎勵按照回合進行計算，因此獎勵值存在一個最大值限制。FlappyBird游戲中只有當像素鳥落地或者碰到管道游戲才重新開始，像素鳥通過一個管道獎勵值加1，因此獎勵值沒有上限。從圖8的實驗對比可以看出，相同的訓練次數(shù)下，基于加權密集連接卷積的強化學習獲得的獎勵遠遠高于普通4層卷積網絡的強化學習方法，即本文的方法通過了更多的管子，游戲存活時間更長。

圖8 FlappyBird實驗結果對比

4 結語

本文將強化學習與加權密集連接卷積網絡相結合，在密集連接中引入了權重系數(shù)，當前層接收到之前所有層的特征圖并被賦予不同的初始權重，在訓練中動態(tài)調整每層的權重，能夠更加有效地提取特征信息，從而使得深度強化學習在處理圖像輸入問題時能夠更快收斂，取得更好的訓練效果。加權密集連接卷積網絡以其獨特的密集連接塊以及一種全新的跨層連接方式，使得梯度信號在層與層之間能夠更有效地進行傳遞，很大程度上減輕了深層神經網絡在訓練過程中梯度消散從而難以優(yōu)化的問題。網絡結構中采用共享特征這一方法，減小了模型的尺寸和計算量。實驗結果顯示，加權密集連接卷積網絡和強化學習的結合產生了很好的學習效果，在兩個游戲的訓練上效果明顯好于以往的深度強化學習。然而，本文中還有一些需要繼續(xù)改進完善的地方。隨著密集連接卷積網絡的層數(shù)增加，模型的特征維度會以增長率k的速度線性地增加，因此，網絡設計得過深會導致計算量和占用內存爆發(fā)地增加。本次設計的網絡通過加權的方式來動態(tài)調整密集連接卷積網絡的跨層連接，在以后的研究中會考慮嘗試引入長短時記憶網絡中的門限機制來控制跨層連接，減少不必要的一些跨層，從而減少模型參數(shù)。