亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        重復(fù)利用狀態(tài)值的競爭深度Q網(wǎng)絡(luò)算法

        2021-02-22 12:00:08張俊杰趙涵捷
        關(guān)鍵詞:深度動作模型

        張俊杰,張 聰,趙涵捷

        武漢輕工大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,武漢 430023

        強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是一種由動物心理學(xué)和控制理論等相關(guān)學(xué)科結(jié)合發(fā)展形成的機(jī)器學(xué)習(xí)方法[1-2]。在學(xué)習(xí)過程中,強(qiáng)化學(xué)習(xí)的智能體(Agent)通過不斷試錯的方式進(jìn)行學(xué)習(xí),尋求在當(dāng)前環(huán)境中獲得累計(jì)獎賞最大的策略[3]。目前強(qiáng)化學(xué)習(xí),獲得了產(chǎn)業(yè)界和科研人員的密切關(guān)注,并且在優(yōu)化、控制、仿真模擬等領(lǐng)域取得了豐富的研究成果[4-6]。深度學(xué)習(xí)(Deep Learning,DL)是機(jī)器學(xué)習(xí)(Machine Learning,ML)領(lǐng)域中一類重要的方法,其中神經(jīng)網(wǎng)絡(luò)是模仿人類大腦的運(yùn)行機(jī)制來解釋數(shù)據(jù),它可以從人腦無法直接提取特征的復(fù)雜高維數(shù)據(jù)中提取易于區(qū)分的特征數(shù)據(jù)[7]。近年來,深度學(xué)習(xí)已在計(jì)算機(jī)視覺、自然語言處理以及語音識別等領(lǐng)域取得較大的進(jìn)步,也有不少實(shí)際應(yīng)用[8-9]。

        在過去幾年,強(qiáng)化學(xué)習(xí)已經(jīng)和深度學(xué)習(xí)成功地結(jié)合,兩者結(jié)合形成的機(jī)器學(xué)習(xí)方法稱為深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)。如由強(qiáng)化學(xué)習(xí)中的Q 學(xué)習(xí)(Q-Learning)方法和深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)結(jié)合而成的深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)是深度強(qiáng)化學(xué)習(xí)領(lǐng)域中的一個(gè)重要方法[10-11]。Hasselt等人[12]提出雙Q網(wǎng)絡(luò)(Double Deep Q-Network,DDQN)[13],該方法在計(jì)算目標(biāo)網(wǎng)絡(luò)的Q 值時(shí)使用兩套不同的參數(shù),有效解決了DQN 網(wǎng)絡(luò)對動作值過高的估計(jì)。Hausknecht 等人[14]首次將長短時(shí)間記憶單元(Long-Short Term Memory,LSTM)引入DQN中,提出了一種基于LSTM修正單元的深度循環(huán)Q 網(wǎng)絡(luò)(Deep Recurrent Q-Network,DRQN),其利用LSTM 的記憶功能在大多數(shù)Atari2600游戲?qū)嶒?yàn)環(huán)境中取得較為理想的成績。Wang等人[15]提出競爭深度Q 網(wǎng)絡(luò)(Dueling Deep Q-Network,DuDQN),將神經(jīng)網(wǎng)絡(luò)中提取出來的特征分為優(yōu)勢函數(shù)通道和狀態(tài)值函數(shù)通道輸出,該方法顯著提高了在Atari2600 環(huán)境下的游戲效果。但是使用深度強(qiáng)化學(xué)習(xí)算法對空間插值算法進(jìn)行超參數(shù)優(yōu)化時(shí),例如對反距離加權(quán)法(Inverse Distance Weighted method,IDW)中的加權(quán)冪次數(shù)或克里格插值算法中變異函數(shù)模型的基臺值、變程等超參數(shù)進(jìn)行優(yōu)化[16],當(dāng)算法的超參數(shù)空間大且為連續(xù)空間時(shí),優(yōu)化過程耗時(shí)久,效率低,并且容易產(chǎn)生過估計(jì)現(xiàn)象。

        1 經(jīng)典理論基礎(chǔ)

        1.1 反距離加權(quán)算法

        反距離加權(quán)算法廣泛應(yīng)用于重金屬含量分析、氣象分析、水文分析等多個(gè)領(lǐng)域。它是一種多元空間插值方法,通過若干個(gè)已知空間離散點(diǎn)的值計(jì)算待測點(diǎn)的值,其最大的優(yōu)點(diǎn)是計(jì)算簡單且插值速度快。反距離加權(quán)算法是根據(jù)待測點(diǎn)和已知點(diǎn)的距離的倒數(shù)或距離n(n>0)次方的倒數(shù)進(jìn)行加權(quán),然后取所有鄰近點(diǎn)的加權(quán)平均值。對于點(diǎn)p的估計(jì)值Y,其一般形式為[17]:

        式中,x為插值點(diǎn);xi為已知點(diǎn);Yi為已知點(diǎn)xi處的值;N為用于插值的已知點(diǎn)的總數(shù);d(x,xi)為已知點(diǎn)xi到未知點(diǎn)x的距離。權(quán)重wi隨著與未知點(diǎn)距離的增加而減小,p值越大,則距離未知點(diǎn)越近,對未知點(diǎn)的值影響也越大。

        1.2 強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)是智能體以當(dāng)前環(huán)境狀態(tài)為根據(jù),采取行為并從環(huán)境中獲得獎勵的過程。一般情況下,強(qiáng)化學(xué)習(xí)是以馬爾科夫決策過程為基礎(chǔ),尋求馬爾科夫決策過程的最佳策略[18-21]。

        強(qiáng)化學(xué)習(xí)框架如圖1 所示,在當(dāng)前狀態(tài)St下,總體采取行為at,并根據(jù)狀態(tài)轉(zhuǎn)移函數(shù)P,環(huán)境狀態(tài)將從St轉(zhuǎn)到St+1,同時(shí)環(huán)境會根據(jù)在狀態(tài)St下采取行為at的情況,反饋給智能體一個(gè)獎勵信號r。智能體多次循環(huán)執(zhí)行這一過程,以獲得最大化累計(jì)獎勵為目標(biāo),通過不斷訓(xùn)練,最終得到該過程的最優(yōu)策略。

        圖1 強(qiáng)化學(xué)習(xí)框架

        1.2.1 DQN網(wǎng)絡(luò)

        深度Q網(wǎng)絡(luò)是一種經(jīng)典的深度強(qiáng)化學(xué)習(xí)算法,其中深度學(xué)習(xí)部分可以感知環(huán)境信息,而強(qiáng)化學(xué)習(xí)部分可以根據(jù)深度學(xué)習(xí)部分提供的環(huán)境信息做出決策,完成從狀態(tài)到動作的映射,并獲得獎賞,再將這些信息轉(zhuǎn)化為訓(xùn)練數(shù)據(jù)提供給深度學(xué)習(xí),用以持續(xù)優(yōu)化神經(jīng)網(wǎng)絡(luò)中的權(quán)重矩陣。深度Q 網(wǎng)絡(luò)使用神經(jīng)網(wǎng)絡(luò)來近似估計(jì)Q-Learning中的Q-table值,但也因此破壞了Q-Learning的無條件收斂性[11]。為解決這一問題,DQN從以下兩方面進(jìn)行了改進(jìn)。

        第一方面,在DQN 的智能體與環(huán)境的不斷迭代交互中,上一個(gè)狀態(tài)與當(dāng)前狀態(tài)具有高度相關(guān)性,如果不經(jīng)過處理,直接輸入到神經(jīng)網(wǎng)絡(luò)中,會導(dǎo)致神經(jīng)網(wǎng)絡(luò)產(chǎn)生過擬合現(xiàn)象而無法收斂。因此在DQN中加入一個(gè)記憶庫,用來儲存一段時(shí)間內(nèi)的訓(xùn)練樣本。在每次學(xué)習(xí)過程中,DQN會從記憶庫中隨機(jī)抽取一批樣本,輸入到深度神經(jīng)網(wǎng)絡(luò)中,并對其梯度下降進(jìn)行學(xué)習(xí)。在產(chǎn)生新的訓(xùn)練樣本時(shí),將老的訓(xùn)練樣本和新的訓(xùn)練樣本進(jìn)行混合批次更新,從而在打斷相鄰訓(xùn)練樣本之間的關(guān)聯(lián)性的同時(shí),提高了訓(xùn)練樣本的利用率。

        第二方面,在DQN中建立了一個(gè)與當(dāng)前Q-Evaluate網(wǎng)絡(luò)結(jié)構(gòu)完全相同,但參數(shù)不同的Q-Target 的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)僅僅用來計(jì)算目標(biāo)Q 值,而當(dāng)前Q 值只由當(dāng)前Q-Evaluate 網(wǎng)絡(luò)預(yù)測產(chǎn)生。此方法可以減少目標(biāo)值與當(dāng)前值的相關(guān)性。損失函數(shù)公式為:

        式中,s表示當(dāng)前狀態(tài),a表示執(zhí)行的動作,r表示環(huán)境對智能體的獎勵值。Q(s,a;ω)為在s狀態(tài)下執(zhí)行a動作時(shí),當(dāng)前Q-Evaluate 網(wǎng)絡(luò)的輸出值,用來評估當(dāng)前動態(tài)動作對的值函數(shù);Q(s′,a′;ω-)為使用Q-Target網(wǎng)絡(luò)計(jì)算得出的目標(biāo)值函數(shù)的Q值。

        Q-Evaluate 網(wǎng)絡(luò)的參數(shù)w在每輪訓(xùn)練結(jié)束后實(shí)時(shí)更新,而Q-Target網(wǎng)絡(luò)的參數(shù)ω-是由Q-Evaluate網(wǎng)絡(luò)的參數(shù)ω延遲更新獲得,即在若干輪訓(xùn)練結(jié)束后,將QEvaluate 網(wǎng)絡(luò)中的所有參數(shù)完整地賦值給Q-Target 網(wǎng)絡(luò)。對參數(shù)ω進(jìn)行求解,可得到值函數(shù)的更新公式:

        1.2.2 Double DQN

        在使用經(jīng)典強(qiáng)化學(xué)習(xí)算法Q 學(xué)習(xí)和深度Q 學(xué)習(xí)對動作進(jìn)行決策和評估時(shí),會參考Q-max的值。由于根據(jù)Q-max選擇的動作并非一定是下一狀態(tài)選擇的動作,會導(dǎo)致對Q 現(xiàn)實(shí)值的過估計(jì),而為了解決這一問題,van Hasselt等人提出了雙重深度Q學(xué)習(xí)。

        DDQN和經(jīng)典DQN一樣也具有兩個(gè)結(jié)構(gòu)完全相同的神經(jīng)網(wǎng)絡(luò),但DDQN與經(jīng)典DQN不同的是:DDQN通過解耦目標(biāo)Q值動作的選擇和目標(biāo)Q值的計(jì)算這兩步,來消除對Q 現(xiàn)實(shí)值的過度估計(jì)問題。先在當(dāng)前Q 網(wǎng)絡(luò)中,找到Q-max 值對應(yīng)的動作,然后利用找到的動作在Q-Target網(wǎng)絡(luò)中選擇該動作的Q值。更新公式為:

        2 基于狀態(tài)值再利用的競爭深度Q學(xué)習(xí)網(wǎng)絡(luò)算法

        2.1 競爭深度Q學(xué)習(xí)網(wǎng)絡(luò)

        在DDQN中,通過減小對目標(biāo)Q值的過估計(jì)來優(yōu)化算法,而在競爭深度Q學(xué)習(xí)網(wǎng)絡(luò)(Dueling Deep Q-learning Network,DuDQN)中,通過改進(jìn)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來優(yōu)化算法。DuDQN將經(jīng)典的DQN中的Q網(wǎng)絡(luò)分成兩部分:第一部分是價(jià)值函數(shù)部分,此部分僅僅與狀態(tài)S有關(guān),與將要采取的動作并無關(guān)聯(lián),記作V(s;θ,β);第二部分是優(yōu)勢函數(shù)部分,此部分不僅與當(dāng)前狀態(tài)S有關(guān),并且與將要執(zhí)行的動作A相關(guān),記為A(s,a;θ,α) 。因此DuDQN中Q網(wǎng)絡(luò)的輸出為:

        由于DuDQN 的Q 網(wǎng)絡(luò)直接輸出Q 值,無法分辨價(jià)值函數(shù)部分和優(yōu)勢函數(shù)部分各自的作用,為了體現(xiàn)這種可辨識性,對公式進(jìn)行適當(dāng)修改,修改后的公式為:

        在實(shí)際應(yīng)用中,通常使用優(yōu)勢函數(shù)的均值來代替優(yōu)勢函數(shù)的最大值求解,在保證性能的前提下在一定程度上提高了優(yōu)化的穩(wěn)定性。

        2.2 RSV-DuDQN模型

        在使用DuDQN對IDW算法中超參數(shù)進(jìn)行學(xué)習(xí)時(shí),DuDQN的收斂速度和在收斂之后的穩(wěn)定性方面較其他經(jīng)典深度強(qiáng)化學(xué)習(xí)算法有一定差距,算法性能有待提高。針對這一問題,提出了一種改進(jìn)的DuDQN 模型。狀態(tài)值再利用的競爭深度Q 學(xué)習(xí)網(wǎng)絡(luò)(Reuse of State Value-Dueling Deep Q-learning Network,RSV-DuDQN)通過將Q 網(wǎng)絡(luò)中的價(jià)值函數(shù)部分的狀態(tài)值與當(dāng)前狀態(tài)下執(zhí)行動作的獎勵值結(jié)合,增強(qiáng)了狀態(tài)與動作的內(nèi)在聯(lián)系,并強(qiáng)化了各個(gè)狀態(tài)-動作對的獎勵信號,使得智能體在較好狀態(tài)時(shí),對環(huán)境獎勵更加敏感,在較差狀態(tài)時(shí),對獎勵不敏感。從而使算法收斂速度更快,并在收斂之后波動幅度大大減小,提高了算法的穩(wěn)定性。

        在DuDQN 訓(xùn)練中,獎勵信號值為r,表示在狀態(tài)s下,執(zhí)行a動作后,環(huán)境對此行為的獎賞。而在RSVDuDQN中,獎勵信號值公式為:

        其中,p表示在當(dāng)前狀態(tài)s下,執(zhí)行動作a后,環(huán)境轉(zhuǎn)移到下一狀態(tài)的概率。在對IDW算法中超參數(shù)學(xué)習(xí)中,p是確定的。V(s;θ,β)為Q 網(wǎng)絡(luò)的價(jià)值函數(shù)部分的輸出。λ是懲罰分子,范圍為(0,1],其作用是確定環(huán)境反饋的獎勵信號r在整個(gè)獎勵值中占主導(dǎo)地位,防止因價(jià)值函數(shù)的狀態(tài)值過大,導(dǎo)致對環(huán)境反饋獎勵信號的失去敏感,從而使Q網(wǎng)絡(luò)無法收斂。

        RSV-DuDQN 模型的框架流程圖如圖2 所示,智能體在學(xué)習(xí)階段隨機(jī)采取動作和環(huán)境進(jìn)行交互,并將得到的獎勵r與采取的動作a,采取動作前后環(huán)境的狀態(tài)s和s′結(jié)合,并以(s,a,r,s′)的形式存放到記憶庫中。當(dāng)記憶庫中的信息達(dá)到規(guī)定值后,開始訓(xùn)練。首先從記憶庫中隨機(jī)提取若干條記錄輸入到DuelingDQN 的輸入層中,經(jīng)過若干個(gè)隱藏層后到達(dá)輸出層。圖中Fc_V 層的輸出為價(jià)值函數(shù)的值V(s;θ,β),而Fc_A層的輸出為優(yōu)勢函數(shù)的值A(chǔ)(s,a;θ,α)。將Fc_V層的輸出與環(huán)境的獎勵值結(jié)合形成最終的總獎勵值并將其反饋給智能體。優(yōu)勢函數(shù)和價(jià)值函數(shù)結(jié)合形成Q(s,a),Q(s,a)指導(dǎo)智能體選擇動作。如此循環(huán),直到智能體達(dá)到目標(biāo)狀態(tài)或者訓(xùn)練步數(shù)達(dá)到指定值。

        在實(shí)際訓(xùn)練中,為防止神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到獎勵信號與狀態(tài)值的直接關(guān)系,使用無限制增加價(jià)值函數(shù)的狀態(tài)值來獲得更大的環(huán)境總獎勵。通常在每輪訓(xùn)練時(shí),從記憶庫中抽取若干個(gè)訓(xùn)練樣本,將樣本中的狀態(tài)動作對輸入到Q-網(wǎng)絡(luò)中學(xué)習(xí),得到價(jià)值函數(shù)部分的輸出,再將得到的輸出進(jìn)行標(biāo)準(zhǔn)化,然后再以上文提出的方式進(jìn)行結(jié)合。這樣做的優(yōu)點(diǎn)如下:

        將不同狀態(tài)下的訓(xùn)練樣本進(jìn)行標(biāo)準(zhǔn)化,進(jìn)一步減小了相鄰兩個(gè)狀態(tài)的樣本相關(guān)性,更有利于算法的學(xué)習(xí)和收斂。

        圖2 RSV-DuDQN框架流程圖

        標(biāo)準(zhǔn)化之后,得到的狀態(tài)值僅僅與當(dāng)前狀態(tài)有關(guān),切斷了總獎勵值與Q網(wǎng)絡(luò)的關(guān)聯(lián),從而避免Q網(wǎng)絡(luò)通過直接輸出較大狀態(tài)值來變相獲得總獎勵。

        算法實(shí)現(xiàn)步驟如下:

        3 實(shí)驗(yàn)與結(jié)果分析

        以下將驗(yàn)證提出的RSV-DuDQN 模型較常見的深度強(qiáng)化學(xué)習(xí)模型具有一定的優(yōu)勢。實(shí)驗(yàn)1 分別使用DQN、DDQN、DuDQN和RSV-DuDQN學(xué)習(xí)反距離加權(quán)插值法在武漢城郊農(nóng)田土壤重金屬含量數(shù)據(jù)集[22]上的加權(quán)冪次數(shù)。該數(shù)據(jù)集來自于湖北省技術(shù)創(chuàng)新重大項(xiàng)目“武漢城郊農(nóng)田土壤重金屬積累特征及風(fēng)險(xiǎn)評價(jià)”,數(shù)據(jù)集中每個(gè)樣本的測定方法都是依據(jù)《土壤環(huán)境監(jiān)測技術(shù)規(guī)范》(HJ/T166—2004)和《土壤環(huán)境質(zhì)量農(nóng)業(yè)農(nóng)用地土壤環(huán)境污染管控》(GB15618—2018)的要求執(zhí)行,總采樣點(diǎn)1 161個(gè),重金屬種類八種。實(shí)驗(yàn)2使用由實(shí)驗(yàn)1學(xué)習(xí)到的超參數(shù)進(jìn)行反距離加權(quán)插值,并與經(jīng)典反距離加權(quán)插值算法進(jìn)行對比。

        實(shí)驗(yàn)環(huán)境如下:處理器為AMD2600,主頻為3.4 GHz,內(nèi)存為24 GB,由于模型中使用深度神經(jīng)網(wǎng)絡(luò),大多采用矩陣運(yùn)算,因此使用了GTX1660 圖形處理器對模型進(jìn)行輔助加速運(yùn)算。

        3.1 基于RSV-DuDQN的超參數(shù)估計(jì)

        為驗(yàn)證RSV-DuDQN模型的有效性,本節(jié)采用武漢城郊農(nóng)田土壤重金屬含量數(shù)據(jù)集,該數(shù)據(jù)集包括As、Cd、Cr、Cu、Hg、Ni、Pb、Zn 八種常見土壤重金屬。分別使用DQN、DDQN、DuDQN和RSV-DuDQN估計(jì)反距離加權(quán)插值法在該數(shù)據(jù)集中六種金屬含量數(shù)據(jù)上的超參數(shù)。所有深度強(qiáng)化學(xué)習(xí)算法中智能體的動作空間為[-1,1],經(jīng)過多次實(shí)驗(yàn),最終確定動作空間離散為[-1.0,-0.5,-0.1,0,0.1,0.5,1.0]。經(jīng)過實(shí)驗(yàn)驗(yàn)證,將動作由連續(xù)空間離散到精度0.1 的離散空間后,算法學(xué)習(xí)到的超參數(shù)對整個(gè)插值結(jié)果影響可以忽略不記。在實(shí)驗(yàn)開始階段,先使用ArcGIS+軟件將原數(shù)據(jù)中的經(jīng)緯網(wǎng)坐標(biāo)轉(zhuǎn)換為常用的平面直角坐標(biāo),并將標(biāo)準(zhǔn)化與初始化后的超參數(shù)一起輸入到Q 網(wǎng)絡(luò)。八種金屬的算法訓(xùn)練圖如圖3~圖10所示,橫坐標(biāo)為訓(xùn)練次數(shù),縱坐標(biāo)代表在當(dāng)前學(xué)習(xí)到的超參數(shù)下,用反距離加權(quán)法進(jìn)行插值得到的預(yù)測值與真實(shí)值的誤差,單位為mg/kg。四種深度強(qiáng)化學(xué)習(xí)算法分別在對八種重金屬含量進(jìn)行IDW的超參數(shù)預(yù)測時(shí),訓(xùn)練情況如表1。表中展示了各種模型在對不同重金屬數(shù)據(jù)集訓(xùn)練中第一次收斂時(shí)的訓(xùn)練輪數(shù)。為了更直觀地展示算法訓(xùn)練時(shí)的情況,在訓(xùn)練中,當(dāng)訓(xùn)練輪數(shù)達(dá)到5 000時(shí),停止訓(xùn)練,此時(shí)還未收斂的算法在表格中收斂時(shí)的訓(xùn)練次數(shù)以“>5 000”形式表達(dá)。

        圖3 重金屬As數(shù)據(jù)的訓(xùn)練結(jié)果

        圖4 重金屬Cd數(shù)據(jù)的訓(xùn)練結(jié)果

        圖5 重金屬Cr數(shù)據(jù)的訓(xùn)練結(jié)果

        圖6 重金屬Cu數(shù)據(jù)的訓(xùn)練結(jié)果

        圖7 重金屬Ni數(shù)據(jù)的訓(xùn)練結(jié)果

        圖8 重金屬Pb數(shù)據(jù)的訓(xùn)練結(jié)果

        圖9 重金屬Zn數(shù)據(jù)的訓(xùn)練結(jié)果

        圖10 重金屬Hg數(shù)據(jù)的訓(xùn)練結(jié)果

        由于RSV-DuDQN的時(shí)間復(fù)雜度與DQN、DDQN和DuDQN 相同,因此各模型的最小收斂輪數(shù)基本可以代表各模型的收斂時(shí)間。由表1可知,對于不同的重金屬種類,DQN、DDQN 和DuDQN 的算法收斂速度不同。其中 DDQN 在 As 數(shù)據(jù)上收斂較快,DuDQN 在 Cu 數(shù)據(jù)上收斂較快,DQN在Cd、Cr、Ni數(shù)據(jù)上的收斂速度相比于 DDQN 和DuDQN 有較大提升。在As、Cd、Cr、Ni、Pb數(shù)據(jù)上,RSV-DQN 模型在收斂速度方面明顯優(yōu)于其他三個(gè)模型,而在Hg 數(shù)據(jù)上,四個(gè)模型的收斂速度相同。由圖5、圖6、圖7、圖10可以看出,DQN、DDQN和DuDQN在算法搜尋到最優(yōu)解之后,仍然會出現(xiàn)較大波動,無法穩(wěn)定在較好的狀態(tài),此情況在圖5 中DQN 模型的表現(xiàn)上尤為明顯。而由圖4、圖5、圖9可知,DDQN和DuDQN并不能總是學(xué)習(xí)到最優(yōu)超參數(shù),某些情況下僅僅可以學(xué)習(xí)到較優(yōu)超參數(shù)。對于圖3~圖10,RSV-DuDQN模型總是可以較快找到最優(yōu)解,并且可以一直穩(wěn)定在一定范圍內(nèi),說明該模型相比于其他模型,在穩(wěn)定性方面具有一定的優(yōu)越性。

        表1 不同模型在不同數(shù)據(jù)集上的最小收斂輪數(shù)

        3.2 基于RSV-DuDQN的IDW插值實(shí)驗(yàn)

        為了驗(yàn)證由深度強(qiáng)化學(xué)習(xí)模型搜索出來的超參數(shù)的有效性,本次實(shí)驗(yàn)使用實(shí)驗(yàn)1 中數(shù)據(jù)集的江夏區(qū)數(shù)據(jù),共包含266 個(gè)采樣點(diǎn)。分別使用RSV-DuDQN 模型搜索出來的超參數(shù)和常用先驗(yàn)超參數(shù)進(jìn)行IDW插值實(shí)驗(yàn),在As 數(shù)據(jù)集上使用RSV-DuDQN 模型搜索出來的超參數(shù)進(jìn)行IDW 插值實(shí)驗(yàn),然后使用相同方法常見超參數(shù)進(jìn)行對比實(shí)驗(yàn),并標(biāo)記為“id=0”。用相同方法在Cr和Ni數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),分別標(biāo)記為“id=1”和“id=2”。最后兩個(gè)模型預(yù)測的結(jié)果與真實(shí)值做比較,得到均方誤差(Mean Square Error,MSE)、均方根誤差(Root Mean Square Error,RMSE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)和平均絕對誤差(Mean Absolute Error,MAE),實(shí)驗(yàn)結(jié)果如表2所示,所有誤差精度取0.01。

        表2 模型在不同數(shù)據(jù)上的插值誤差

        在三次對比實(shí)驗(yàn)中,由于加入了RSV-DuDQN 模型,整個(gè)插值過程更為復(fù)雜,除IDW 插值所需時(shí)間外,RSV-DuDQN 模型需要額外的時(shí)間對IDW 算法中的超參數(shù)進(jìn)行學(xué)習(xí)。但由表2 可知,基于RSV-DuDQN 的反距離加權(quán)法的MSE、RMSE、MAPE 以及MAE 均在不同程度上小于經(jīng)典反距離加權(quán)法,使用RSV-DuDQN模型搜索出來的超參數(shù)進(jìn)行IDW插值時(shí)得到的平均誤差相比與使用常見超參數(shù)插值時(shí)的誤差低13.11%,說明其在該數(shù)據(jù)集上的插值表現(xiàn)優(yōu)于經(jīng)典反距離加權(quán)法。因此可知,由RSV-DuDQN模型學(xué)習(xí)到的超參數(shù)優(yōu)于常見的先驗(yàn)超參數(shù),并且RSV-DuDQN模型確實(shí)有效可行。

        4 結(jié)束語

        本文提出了一種基于競爭深度Q學(xué)習(xí)網(wǎng)絡(luò)的RSVDuDQN模型。該模型將競爭深度Q學(xué)習(xí)算法中Q網(wǎng)絡(luò)中價(jià)值函數(shù)部分的狀態(tài)輸出值與環(huán)境反饋得到的獎勵信號相結(jié)合,并將其以總獎勵的形式加入到強(qiáng)化學(xué)習(xí)的訓(xùn)練中,解決了競爭深度Q 學(xué)習(xí)網(wǎng)絡(luò)在一定情況下收斂速度較慢,并且收斂之后網(wǎng)絡(luò)依然不穩(wěn)定的問題。在與DQN、DDQN 和DuDQN 的對比實(shí)驗(yàn)中,證明了RSV-DuDQN 模型在收斂速度以及穩(wěn)定性方面具有一定的優(yōu)勢。最后使用RSV-DuDQN 模型學(xué)習(xí)到的超參數(shù)對數(shù)據(jù)進(jìn)行反距離加權(quán)法插值,并與常用先驗(yàn)超參數(shù)進(jìn)行對比實(shí)驗(yàn),證明了RSV-DuDQN模型學(xué)習(xí)到的超參數(shù)具有一定可行性。

        雖然該算法在插值算法類的小規(guī)模動作空間中的超參數(shù)優(yōu)化問題上,優(yōu)化效果較好,但在較大規(guī)模動作空間上超參數(shù)優(yōu)化過程的時(shí)間復(fù)雜度還有進(jìn)一步提高空間。在接下來的研究中,可以使用遺傳算法對深度強(qiáng)化學(xué)習(xí)的超參數(shù)進(jìn)行優(yōu)化,進(jìn)一步在降低算法時(shí)間復(fù)雜度的同時(shí)提高算法收斂速度。

        猜你喜歡
        深度動作模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        深度觀察
        深度觀察
        深度觀察
        動作描寫要具體
        畫動作
        動作描寫不可少
        精品国产yw在线观看| 久久AⅤ无码精品色午麻豆| 四虎影视久久久免费| 99热这里只有精品久久6| 国产亚洲青春草在线视频| 久久蜜桃一区二区三区| 少妇精品揄拍高潮少妇桃花岛| 蜜桃视频在线免费视频| 久久久久久久久毛片精品| 破了亲妺妺的处免费视频国产| 久久精品成人亚洲另类欧美| 国产一区二区黑丝美女| 国产流白浆视频在线观看| 国产在线第一区二区三区| 狠狠躁日日躁夜夜躁2020| 精品麻豆国产色欲色欲色欲www| 国产色诱视频在线观看| 国产呦系列视频网站在线观看| 精品亚洲一区二区三洲| 亚洲日韩激情无码一区| 国产精品无码成人午夜电影| 精品丝袜人妻久久久久久| 久久久国产精品粉嫩av| 在线看高清中文字幕一区| 天天做天天爱夜夜爽女人爽| 国产成人精品日本亚洲| 久久精品无码一区二区三区不 | 乌克兰少妇xxxx做受野外| 国产精品18久久久久网站| 亚洲粉嫩视频在线观看| 成人a级视频在线播放| 少妇无码吹潮| 精品久久久久久国产| 久久亚洲av成人无码软件| 特级国产一区二区三区| 亚洲国产成人精品无码区在线秒播 | 国产在线手机视频| 国产精品久久这里只有精品| 综合亚洲二区三区四区在线| 欧美精品欧美人与动人物牲交| 国产女女精品视频久热视频|