亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        馬爾可夫決策問題的關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法

        2016-05-14 09:37:41白塵
        中國管理信息化 2016年7期

        白塵

        [摘 要] 針對傳統(tǒng)強化學(xué)習(xí)算法的維數(shù)災(zāi)難問題,首先提出了用于識別關(guān)鍵狀態(tài)的“決策收益率”概念及其估算方法,然后借鑒學(xué)習(xí)范圍擴展的思想,以經(jīng)典Q-Learning學(xué)習(xí)算法為基礎(chǔ),提出了關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法(Critical States Prioritized Learning,CSPL)。最后本文實現(xiàn)了機器人尋徑實驗,并比較了CSPL算法與Q-Learning算法的實驗結(jié)果。

        [關(guān)鍵詞] 馬爾可夫決策;關(guān)鍵狀態(tài);決策收益率;關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法

        doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 07. 092

        [中圖分類號] TP311 [文獻標(biāo)識碼] A [文章編號] 1673 - 0194(2016)07- 0198- 05

        1 引 言

        馬爾可夫決策過程(Markov Decision Process,MDP)模型被廣泛用于描述通訊網(wǎng)絡(luò)、金融工程、制造系統(tǒng)和人工智能等領(lǐng)域的序貫決策問題[1]。強化學(xué)習(xí)算法(Reinforcement Learning,RL)是MDP問題的一類重要解決方法[2]。在解決復(fù)雜MDP問題時,傳統(tǒng)強化學(xué)習(xí)算法面臨著“維數(shù)災(zāi)難”問題,即隨著狀態(tài)空間和行為空間維數(shù)增大,算法的學(xué)習(xí)空間和學(xué)習(xí)時間呈指數(shù)增長[3]。

        維數(shù)災(zāi)難問題的常用解決方法是分層強化學(xué)習(xí)(Hierarchical Reinforcement Learning)[4]和學(xué)習(xí)范圍擴展(Learning Scale Extension)[5]。分層強化學(xué)習(xí)將原有決策問題分解為由多個子任務(wù)構(gòu)成的層次結(jié)構(gòu)以提高整體效率,但是構(gòu)建層次結(jié)構(gòu)需要依賴大量先驗知識;學(xué)習(xí)范圍擴展是通過學(xué)習(xí)狀態(tài)空間結(jié)構(gòu)信息以擴大一次學(xué)習(xí)所影響的狀態(tài)范圍,若學(xué)習(xí)范圍設(shè)定不合理,需要耗費大量運算時間和空間記憶額外信息。兩種解決方法的實用性較低。

        本文針對傳統(tǒng)強化學(xué)習(xí)算法的維數(shù)災(zāi)難問題,提出了一種新的思路:優(yōu)先學(xué)習(xí)對整體決策效果影響較大的“關(guān)鍵狀態(tài)”,從而提高復(fù)雜狀態(tài)空間下的整體決策效率。本文首先提出“決策收益率”的概念和估計方法,解決了“如何識別關(guān)鍵狀態(tài)”的問題;然后提出“逆向?qū)W習(xí)”的方法,解決了“如何優(yōu)先學(xué)習(xí)關(guān)鍵狀態(tài)”的問題;并借鑒學(xué)習(xí)范圍擴展的思想,以經(jīng)典Q-Learning學(xué)習(xí)算法[6]為基礎(chǔ),提出了關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法。

        国产99久久久国产精品免费看| 日韩精品免费观看在线| 亚洲中文字幕乱码一二三| 无码人妻久久一区二区三区蜜桃| 99精品国产99久久久久久97| 狠狠躁夜夜躁AV网站中文字幕 | 国产av无码专区亚洲a∨毛片 | 亚洲av成人无码久久精品老人| 久久久精品人妻久久影视| 亚洲AV无码永久在线观看| 黄色中文字幕视频网站| 国产综合精品久久99之一| 2021久久精品国产99国产精品 | 亚洲精品成人一区二区三区| 亚洲国产精品日本无码网站 | 久久亚洲中文字幕精品一区四 | 亚洲中文字幕在线综合| 欧美黑人性暴力猛交喷水| 国产欧美精品在线一区二区三区| 亚洲国产精品美女久久久| 熟女中文字幕一区二区三区| 日本japanese丰满多毛| 亚洲性啪啪无码AV天堂| 91久久精品一二三区色| 亚洲国产精品久久久久久无码| 精品久久久久久久久久中文字幕| 日韩欧美在线观看成人| av网站免费观看入口| 亚洲av精品一区二区三区| a一区二区三区乱码在线 | 欧洲| 亚洲免费观看一区二区三区| 一本色道久久88—综合亚洲精品| 亚洲精品无码久久久久牙蜜区 | 亚洲av无码一区二区三区系列| 美女在线国产| av男人操美女一区二区三区| 久久精品国产亚洲超碰av| 我的美艳丝袜美腿情缘| 国产 精品 自在 线免费| 亚洲欧美日韩一区二区三区在线| 色婷婷丁香综合激情|