亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        OpenAI發(fā)布訓(xùn)練 實(shí)體機(jī)器人的最新模擬環(huán)境

        2018-05-14 10:55:09
        機(jī)器人產(chǎn)業(yè) 2018年2期
        關(guān)鍵詞:冰球經(jīng)驗(yàn)機(jī)器人

        最近,OpenAI發(fā)布了8個(gè)模擬機(jī)器人環(huán)境,以及一個(gè)事后經(jīng)驗(yàn)回放(Hindsight Experience Replay)的基線實(shí)現(xiàn),所有這些都是基于過去一年的研究而開發(fā),并已經(jīng)使用這些環(huán)境對在物理機(jī)器人上運(yùn)行的模型進(jìn)行訓(xùn)練。同時(shí),OpenAI還發(fā)布了一系列用于機(jī)器人研究的請求。

        該版本包括四個(gè)使用了Fetch研究平臺的環(huán)境和四個(gè)使用了ShadowHand機(jī)器人的環(huán)境??梢哉f,這些環(huán)境中所包含的操作任務(wù)要比目前在Gym中可用的MuJoCo連續(xù)控制環(huán)境要困難得多,因?yàn)樗羞@些現(xiàn)在都可以使用最近發(fā)布的算法(如PPO)得以輕松解決。此外,新發(fā)布的環(huán)境使用真實(shí)機(jī)器人模型,并要求智能體解決實(shí)際任務(wù)。

        環(huán)境

        該版本配備了8個(gè)使用MuJoCo物理模擬器的Gym機(jī)器人環(huán)境。這些環(huán)境是:Fetch(4個(gè))和ShadowHand(4個(gè))。

        目標(biāo)

        所有新任務(wù)都有一個(gè)“目標(biāo)”的概念,例如在滑動任務(wù)中冰球的期望位置,或用手在方塊操控任務(wù)中操控方塊的期望方向。默認(rèn)情況下,如果沒有達(dá)到預(yù)期目標(biāo),所有環(huán)境都會使用-1的稀疏獎勵,如果達(dá)到預(yù)期目標(biāo)(在一定的范圍內(nèi)),則為0。這與舊的Gym連續(xù)控制問題中所使用的形狀獎勵形成鮮明對比,例如帶有形狀獎勵的Walker2d-v2。

        OpenAI還為每個(gè)環(huán)境引入了一個(gè)密集獎勵的變體。同時(shí),還認(rèn)為稀疏獎勵在機(jī)器人應(yīng)用中更具實(shí)際性,并鼓勵每個(gè)人使用稀疏獎勵變體。

        事后經(jīng)驗(yàn)回放

        除了這些新的機(jī)器人環(huán)境外,OpenAI還發(fā)布了事后經(jīng)驗(yàn)回放(Hindsight Experience Replay)(簡稱為HER)的代碼,這是一種可從失敗中汲取經(jīng)驗(yàn)教訓(xùn)的強(qiáng)化學(xué)習(xí)算法。研究結(jié)果表明,僅需要稀疏獎勵,HER便可以從大多數(shù)新機(jī)器人問題中學(xué)習(xí)成功的策略。下面,OpenAI還展示了未來研究的一些潛在方向,從而可以進(jìn)一步提高HER算法在這些任務(wù)上的性能表現(xiàn)。

        理解HER

        要想理解HER的作用是什么,我們先來看看FetchSlide的上下文,這是一個(gè)需要學(xué)習(xí)如何在桌子上滑動冰球并擊中目標(biāo)的任務(wù)。第一次嘗試很可能不會成功,除非我們很幸運(yùn),否則接下來的幾次嘗試也未必會成功。典型的強(qiáng)化學(xué)習(xí)算法不會從這樣的經(jīng)驗(yàn)中學(xué)到任何東西,因?yàn)樗鼈冎猾@得一個(gè)不包含任何學(xué)習(xí)信號的恒定獎勵(在這種情況下為-1)。

        HER形式的關(guān)鍵洞察力在于直覺上人類是怎么做的:盡管我們在某個(gè)特定目標(biāo)上還沒有取得成功,但我們至少實(shí)現(xiàn)了一個(gè)不同的成果。那么我們?yōu)槭裁床患僭O(shè)想要實(shí)現(xiàn)的目標(biāo)就是開始時(shí)的目標(biāo),而不是我們最初設(shè)定的目標(biāo)?通過這種替代,強(qiáng)化學(xué)習(xí)算法可以獲得學(xué)習(xí)信號,因?yàn)樗呀?jīng)實(shí)現(xiàn)了一些目標(biāo),即使它不是我們原本想達(dá)到的目標(biāo)。如果我們重復(fù)這一過程,我們最終將學(xué)會該如何實(shí)現(xiàn)任意目標(biāo),包括我們真正想要實(shí)現(xiàn)的目標(biāo)。

        這種方法使得我們?nèi)W(xué)習(xí)如何在桌子上滑動一個(gè)冰球,盡管獎勵是完全稀疏的,盡管實(shí)際上我們可能從未在早期達(dá)到過預(yù)期目標(biāo)。我們將這種技術(shù)稱為事后經(jīng)驗(yàn)回放,因?yàn)樗鼤谑录Y(jié)束后,對事件中選擇的目標(biāo)進(jìn)行經(jīng)驗(yàn)回放(在諸如DQN和DDPG之類的off-policy強(qiáng)化學(xué)習(xí)算法中經(jīng)常使用的技術(shù))。因此,HER可以與任何off-policy強(qiáng)化學(xué)習(xí)算法結(jié)合使用(例如,HER可以與DDPG結(jié)合,我們將其寫為“DDPG + HER”)。

        結(jié)果

        我們發(fā)現(xiàn)HER在基于目標(biāo)的、具有稀疏獎勵的環(huán)境中運(yùn)行得非常好。我們在新任務(wù)中對DDPG + HER和vanilla DDPG進(jìn)行了對比。這種對比涵蓋了每個(gè)環(huán)境的稀疏和密集獎勵版本。

        帶有稀疏獎勵的DDPG + HER明顯優(yōu)于其他所有配置,并且僅需要很少的獎勵,便可以從這項(xiàng)具有挑戰(zhàn)性的任務(wù)上學(xué)習(xí)成功的策略。有趣的是,帶有密集獎勵的DDPG + HER也能夠?qū)W習(xí),但表現(xiàn)性能較差。在這兩種情況下,vanilla DDPG大多不能進(jìn)行學(xué)習(xí)。我們發(fā)現(xiàn)這種趨勢在大多數(shù)環(huán)境中都是正確的。

        Requests for Research:

        HER版本

        盡管HER是一種很有發(fā)展前景的方式,可以用像文中所提出的機(jī)器人環(huán)境那樣的稀疏獎勵來學(xué)習(xí)復(fù)雜的、基于目標(biāo)的任務(wù),但仍有很大的提升空間。與最近發(fā)布的Requests for Research 2.0要求類似,我們對于如何具體改進(jìn)HER和通用強(qiáng)化學(xué)習(xí)有一些想法。

        自動事后目標(biāo)創(chuàng)建(Automatic hindsight goal creation):我們現(xiàn)在有一個(gè)硬編碼策略以選擇我們想要替換的事后目標(biāo)。如果這個(gè)策略可以被學(xué)習(xí),那將是很有趣的。

        無偏差HER:目標(biāo)替換以無原則的方式改變了經(jīng)驗(yàn)分配。這種偏差在理論上會導(dǎo)致不穩(wěn)定性,盡管我們在實(shí)踐中并沒有發(fā)現(xiàn)這種情況。不過,例如通過利用重要性抽樣,可以推導(dǎo)出HER的無偏差版本。

        HER + HRL:將HER與層級強(qiáng)化學(xué)習(xí)(HRL)中的最新想法進(jìn)一步結(jié)合起來會很有趣。它不僅可以將HER用于目標(biāo),還可以應(yīng)用于由更高級別策略生成的操作中。例如,如果較高級別要求較低級別實(shí)現(xiàn)目標(biāo)A,但卻實(shí)現(xiàn)了目標(biāo)B,則我們可以假設(shè)較高級別最初就是要求我們實(shí)現(xiàn)目標(biāo)B。

        更豐富的值函數(shù):將最近的研究進(jìn)行擴(kuò)展將會非常有趣,并在附加的輸入上(如折扣因子或成功閾值)調(diào)整值函數(shù)。

        更快的信息傳播:大多數(shù)off-policy深度強(qiáng)化學(xué)習(xí)算法使用目標(biāo)網(wǎng)絡(luò)來穩(wěn)定訓(xùn)練。然而,由于變化需要時(shí)間來進(jìn)行傳播,這將會對訓(xùn)練的速度產(chǎn)生影響,并且我們在實(shí)驗(yàn)中注意到,它往往是決定DDPG + HER學(xué)習(xí)速度的最重要因素。研究其他不引起這種減速的穩(wěn)定訓(xùn)練的方法是很有趣的。

        HER +多步返回:由于我們替換了目標(biāo),因此在HER中所使用的經(jīng)驗(yàn)極其off-policy。這使得它很難與多步返回一起使用。但是,多步返回是可取的,因?yàn)樗鼈冊试S更快地傳遞關(guān)于返回的信息。

        on-policy HER:目前,由于我們?nèi)〈四繕?biāo),所以HER只能與off-policy算法一起使用,這使得經(jīng)驗(yàn)極其off-policy。然而,像PPO這樣的最新技術(shù)算法表現(xiàn)出非常吸引人的穩(wěn)定性特征。研究HER是否可以與這種on-policy算法相結(jié)合是非常有趣的,例如通過重要性采樣,在這方面已經(jīng)有一些初步結(jié)果。

        具有高頻行動的強(qiáng)化學(xué)習(xí):目前的強(qiáng)化算法對采取動作的頻率非常敏感,這就是為什么在Atari上通常使用跳幀技術(shù)。在連續(xù)控制領(lǐng)域,隨著所采取行動的頻率趨于無窮大,性能趨于零,這是由兩個(gè)因素造成的:不一致的探索,以及引導(dǎo)更多時(shí)間來向后傳播有關(guān)返回信息的必要性。

        將HER與強(qiáng)化學(xué)習(xí)的最新進(jìn)展的結(jié)合:最近有大量研究改進(jìn)了強(qiáng)化學(xué)習(xí)的不同方面。首先,HER可以與優(yōu)先經(jīng)驗(yàn)回放、分布式強(qiáng)化學(xué)習(xí)、熵正則化強(qiáng)化學(xué)習(xí)或反向課程生成相結(jié)合。

        使用基于目標(biāo)的環(huán)境

        引入“目標(biāo)”的概念需要對現(xiàn)有的Gym API進(jìn)行一些反向兼容的更改:

        所有基于目標(biāo)的環(huán)境都使用gym.spaces.Dict觀察空間。預(yù)期環(huán)境包含一個(gè)智能體試圖實(shí)現(xiàn)的期望目標(biāo)(desired_goal)、其目前達(dá)到的目標(biāo)(achieved_goal),以及實(shí)際觀察(observation),例如機(jī)器人的狀態(tài)。

        我們展示了環(huán)境的獎勵函數(shù),從而允許通過改變的目標(biāo)以對獎勵進(jìn)行重新計(jì)算。這使得對目標(biāo)進(jìn)行替換的HER風(fēng)格的算法成為可能。

        猜你喜歡
        冰球經(jīng)驗(yàn)機(jī)器人
        2021年第20期“最值得推廣的經(jīng)驗(yàn)”評選
        黨課參考(2021年20期)2021-11-04 09:39:46
        冰球守門員髖關(guān)節(jié)損傷與治療
        我國冰球“貫通化”后備人才培養(yǎng)模式的思考
        經(jīng)驗(yàn)
        2018年第20期“最值得推廣的經(jīng)驗(yàn)”評選
        黨課參考(2018年20期)2018-11-09 08:52:36
        冰球
        幼兒100(2018年26期)2018-09-26 06:18:48
        冰與火的運(yùn)動——冰球
        機(jī)器人來幫你
        認(rèn)識機(jī)器人
        機(jī)器人來啦
        欧美性猛交xxxx乱大交极品| 最新福利姬在线视频国产观看| 国产精品一区二区黄色片| 日韩极品视频免费观看| 欧美性xxxx极品高清| 亚洲天堂2017无码中文| 淫妇日韩中文字幕在线| 青青草激情视频在线播放| 亚洲欧美日韩中文字幕一区二区三区| 欧美疯狂做受xxxxx高潮| 蜜芽尤物原创AV在线播放| 午夜理论片日本中文在线| 亚洲欧洲国产成人综合在线| 亚洲免费人成在线视频观看| 成年视频网站在线观看777| 伊人久久大香线蕉av不变影院| 亚洲中文字幕无码不卡电影 | 久久精品国产亚洲av成人擦边 | 吃奶摸下的激烈视频| 中文精品久久久久中文| 亚洲av手机在线观看| 亚洲av无码一区二区一二区| 亚洲av日韩av无码av| jiZZ国产在线女人水多| 日本成人午夜一区二区三区 | 国内a∨免费播放| 国产精品无码不卡在线播放| 国产亚洲中文字幕一区| 国产超碰女人任你爽| 欧美午夜刺激影院| 国产精品久久中文字幕亚洲| 青青草精品视频在线播放| 中文字幕一区二区三区乱码| 亚洲无码夜夜操| 中文字幕人妻精品一区| 中文字幕人妻第一区| 日韩AVAV天堂AV在线| 国语对白三级在线观看| 久久国产精品一国产精品金尊| 久久午夜伦鲁片免费无码| 无遮挡粉嫩小泬|