亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        DeepMind又出新招!智能體觀看視頻學(xué)會(huì)玩游戲

        2018-05-14 10:55:10
        機(jī)器人產(chǎn)業(yè) 2018年4期
        關(guān)鍵詞:蒙特軌跡人類

        人們可以通過(guò)在線觀看視頻,學(xué)習(xí)從編織到跳舞再到玩游戲等許多任務(wù),這展示出將從在線演示中所學(xué)到的知識(shí)遷移到現(xiàn)實(shí)任務(wù)的能力。人工智能中的智能體能否獲得這種能力呢?最近,DeepMind的科學(xué)家們提出了一種新方法,通過(guò)觀看YouTube視頻,指導(dǎo)智能體進(jìn)行探索以贏得難以完成的游戲。

        深度強(qiáng)化學(xué)習(xí)方法通常在環(huán)境獎(jiǎng)勵(lì)(environment reward)特別稀疏的任務(wù)中存在較大的困難。在這些領(lǐng)域中有一個(gè)成功的方法能夠指導(dǎo)探索,就是去模仿人類演示者提供的軌跡。然而,這些演示通常是在人工條件下收集的,即可以訪問(wèn)智能體的精確環(huán)境設(shè)置和演示者的動(dòng)作以及獎(jiǎng)勵(lì)軌跡。在本文中,我們提出了一種兩個(gè)階段的方法,它能夠通過(guò)依賴沒(méi)有訪問(wèn)過(guò)這些數(shù)據(jù)的嘈雜、未對(duì)齊的視頻素材來(lái)克服這些限制。首先,我們學(xué)習(xí)使用在時(shí)間和模態(tài)(即視覺(jué)和聲音)上構(gòu)建的自監(jiān)督目標(biāo)(self-supervised objective),將來(lái)自多個(gè)來(lái)源的未對(duì)齊視頻映射到一個(gè)共同表征上。其次,我們?cè)谠摫碚髦星度胍粋€(gè)YouTube視頻以構(gòu)建一個(gè)獎(jiǎng)勵(lì)函數(shù),鼓勵(lì)智能體模仿人類的游戲玩法。這種一次性模仿(one-shot imitation)的方法讓我們的智能體在臭名昭著的難于完成的探索游戲《蒙特祖瑪?shù)膹?fù)仇》(MONTEZUMAS REVENGE)、《逃離險(xiǎn)境》(PITFALL! )和《私人偵探》(PRIVATE EYE)中第一次令人信服地超越了人類水平的表現(xiàn),即使智能體沒(méi)有獲得任何環(huán)境獎(jiǎng)勵(lì)。

        人們通過(guò)在線觀看視頻,學(xué)習(xí)了從編織到跳舞再到玩游戲等許多任務(wù)。他們展示了能夠?qū)脑诰€演示中得到的知識(shí)遷移到手頭任務(wù)的卓越能力,盡管在時(shí)間選擇、視覺(jué)外觀、傳感模態(tài)(sensing modality)和身體形態(tài)方面存在巨大的差異。這種具有豐富無(wú)標(biāo)簽數(shù)據(jù)的設(shè)置促進(jìn)了人工智能的研究進(jìn)程,這可能會(huì)帶來(lái)第三人稱模仿(third-person imitation)、自監(jiān)督學(xué)習(xí)(self-supervised learning)、強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)和相關(guān)領(lǐng)域的重大進(jìn)展。在本文中,我們展示了所提出的這個(gè)研究進(jìn)程是如何使我們能夠在對(duì)RL智能體的嘈雜演示序列的自監(jiān)督隊(duì)列中取得一些初步的進(jìn)展,使在最復(fù)雜且之前未解決的Atari 2600游戲中取得人類水平的性能。

        盡管在深度強(qiáng)化學(xué)習(xí)算法和架構(gòu)方面取得了一些最新進(jìn)展,但仍存在許多“艱苦探索”的挑戰(zhàn),其特點(diǎn)是環(huán)境獎(jiǎng)勵(lì)非常少,這依舊對(duì)現(xiàn)有的RL智能體提出了一個(gè)極具困難的挑戰(zhàn)。一個(gè)典型的例子是Atari的《蒙特祖瑪?shù)膹?fù)仇》,它需要一個(gè)像人類一樣的化身來(lái)駕馭一系列的平臺(tái)和障礙(其特性從空間到空間本質(zhì)上發(fā)生了改變)以收集得分的物品。在這種任務(wù)中使用幼稚、貪婪的探索方法幾乎是不可能的,因?yàn)樵诜蛛x獎(jiǎng)勵(lì)的幀數(shù)中,可能的動(dòng)作軌跡的數(shù)量呈指數(shù)增長(zhǎng)。例如,在《蒙特祖瑪?shù)膹?fù)仇》中獲得第一個(gè)環(huán)境獎(jiǎng)勵(lì)需要大約100個(gè)環(huán)境步驟,相當(dāng)于10018個(gè)可能的動(dòng)作序列。即使隨機(jī)遇到獎(jiǎng)勵(lì),如果這個(gè)信號(hào)在特別長(zhǎng)的時(shí)間范圍內(nèi)有所備份,那么折中權(quán)衡的RL就難以穩(wěn)定地學(xué)習(xí)。

        可以這樣說(shuō),試圖克服稀疏獎(jiǎng)勵(lì)問(wèn)題的成功性方法大致分為兩類,即指導(dǎo)性探索。首先,內(nèi)在動(dòng)機(jī)方法提供了一種輔助獎(jiǎng)勵(lì),鼓勵(lì)智能體探索關(guān)于某些度量的“全新性”或“信息性”的狀態(tài)或行動(dòng)軌跡。這些方法傾向于幫助智能體重新探索那些看起來(lái)全新的或不確定的已知部分狀態(tài)空間(已知—未知),但往往無(wú)法提供關(guān)于這些狀態(tài)在環(huán)境中的哪些地方可以首先被發(fā)現(xiàn)的指導(dǎo)(未知—未知)。因此,這些方法通常依賴于附加的隨機(jī)組件來(lái)驅(qū)動(dòng)初始的探索過(guò)程。另一類是模仿學(xué)習(xí)(imitation learning),介于此,人類演示者生成狀態(tài)——行為軌跡,用以指導(dǎo)探索朝著被認(rèn)為具有歸納偏差的突出性區(qū)域前進(jìn)。這些偏差在Atari環(huán)境中被證明是一個(gè)非常有用的約束,因?yàn)槿祟惪梢粤⒓醋龀鲎R(shí)別,例如,頭骨代表危險(xiǎn),或者一把鑰匙能夠打開一扇門。

        在現(xiàn)有的模仿學(xué)習(xí)方法中,Hester等人所提出的DQfD已在Atari最難探索游戲中展示了最佳的性能表現(xiàn)。盡管取得了這些令人印象深刻的結(jié)果,但在DQfD和相關(guān)方法里面存在兩個(gè)局限性。首先,他們假設(shè)智能體和演示者的觀察空間之間沒(méi)有“域差距”,例如,顏色或分辨率的變化,或其他視覺(jué)工件的引入。圖1顯示了《蒙特祖瑪?shù)膹?fù)仇》(MONTEZUMA'S REVENGE)中“域差距”的一個(gè)例子,考慮了(a)我們的環(huán)境與(b)YouTube游戲畫面相比的第一幀。其次,他們假設(shè)智能體可以訪問(wèn)確切的動(dòng)作和獎(jiǎng)勵(lì)序列,而這些確切的動(dòng)作和獎(jiǎng)勵(lì)序列導(dǎo)致了演示者的觀察軌跡。在這兩種情況下,這些假設(shè)限制了在人工條件下收集的那些有用的演示集,通常需要專門的軟件堆棧以用于強(qiáng)化學(xué)習(xí)智能體訓(xùn)練的唯一目的。

        為了解決這些局限性,本文提出了一種新方法,用以克服多個(gè)演示中觀察序列之間的域差距,通過(guò)使用在時(shí)間(時(shí)間距離分類)和模態(tài)(跨模態(tài)時(shí)間距離分類)上構(gòu)建的自監(jiān)督分類任務(wù)來(lái)學(xué)習(xí)一個(gè)通用的表征(見圖2)。與以前的方法不同,我們的方法既不需要(a)演示之間的逐幀對(duì)齊(frame-by-frame alignment),也不需要(b)類標(biāo)簽或其他注釋,而這些類標(biāo)簽或注釋可能是從一個(gè)對(duì)齊中間接推斷出來(lái)的。我們還提出了一種新的度量(循環(huán)一致性)來(lái)評(píng)估這種已學(xué)習(xí)嵌入的質(zhì)量。

        使用我們的嵌入技術(shù),我們提出了一種輔助模仿?lián)p失(auxiliary imitation loss),它使得智能體能夠在不需要知道演示者的動(dòng)作軌跡的情況下成功進(jìn)行艱難的探索游戲。具體來(lái)說(shuō),我們提供了一個(gè)標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)智能體,并且從一個(gè)YouTube視頻中獲得了一個(gè)模仿獎(jiǎng)勵(lì)。我們是第一個(gè)令人信服地能夠在Atari最難的三款探險(xiǎn)游戲(《蒙特祖瑪?shù)膹?fù)仇》(MONTEZUMA'S REVENGE)、《逃離險(xiǎn)境》(PITFALL)以及《私人偵探》(PRIVATE EYE))中獲得人類級(jí)別的性能表現(xiàn)。盡管在設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)或使用逆向強(qiáng)化學(xué)習(xí)對(duì)它們進(jìn)行學(xué)習(xí)時(shí)存在很大的挑戰(zhàn),我們?nèi)匀辉诩词箾](méi)有環(huán)境獎(jiǎng)勵(lì)信號(hào)的情況下達(dá)到人類級(jí)別的性能表現(xiàn)。

        在本文中,我們提出了一種通過(guò)觀看YouTube視頻,來(lái)指導(dǎo)智能體進(jìn)行探索從而贏得艱難探索挑戰(zhàn)的方法。相較于傳統(tǒng)的模仿學(xué)習(xí)方法,其中,演示是在受控條件下生成并獲得動(dòng)作和獎(jiǎng)勵(lì)序列的,而YouTube視頻僅包含未對(duì)齊且經(jīng)常是噪雜的視聽序列。我們提出了全新的自監(jiān)督目標(biāo),從而使得從視頻中學(xué)習(xí)域不變表征,并描述了通過(guò)在整個(gè)空間嵌入檢查點(diǎn)來(lái)指導(dǎo)智能體進(jìn)行探索的一次性模仿(one-shot imitation)機(jī)制。將這些方法與標(biāo)準(zhǔn)的IMPALA智能體相結(jié)合,我們展示了在《蒙特祖瑪?shù)膹?fù)仇》、《逃離險(xiǎn)境》以及《私人偵探》上的第一個(gè)人類級(jí)別的性能表現(xiàn)。

        猜你喜歡
        蒙特軌跡人類
        人類能否一覺(jué)到未來(lái)?
        軌跡
        軌跡
        人類第一殺手
        1100億個(gè)人類的清明
        軌跡
        進(jìn)化的軌跡(一)——進(jìn)化,無(wú)盡的適應(yīng)
        人類正在消滅自然
        奧秘(2015年2期)2015-09-10 07:22:44
        国产在线视欧美亚综合| 免费国产成人肉肉视频大全| 国产97在线 | 中文| 含羞草亚洲AV无码久久精品| 天堂a版一区二区av| 黄片视频免费观看蜜桃| 人妖一区二区三区视频| 亚洲av无码专区在线观看成人| 欧美极品少妇性运交| 成人无码激情视频在线观看| 亚洲男同免费视频网站| 国产太嫩了在线观看| 美女高潮无遮挡免费视频| 亚洲AV专区一专区二专区三| 亚洲一区二区三区精品视频 | 欧美色aⅴ欧美综合色| 亚洲av福利天堂在线观看| 最近更新中文字幕一区二区| 好男人社区影院www| 国产精品jizz观看| 日韩成精品视频在线观看| 色哟哟亚洲色精一区二区| 亚洲中文字幕久久精品无码a| 亚洲精品永久在线观看| 在线视频一区二区亚洲| 97久久综合精品国产丝袜长腿| 狠狠色丁香婷婷综合潮喷| 醉酒后少妇被疯狂内射视频| 欧美亚洲另类 丝袜综合网| 日本一区二区三区视频免费在线| 超级碰碰色偷偷免费视频| 久久久久国产精品免费免费搜索| 国产美熟女乱又伦av果冻传媒| 求网址日韩精品在线你懂的| 中文字幕亚洲在线第一页| 精品伊人久久大香线蕉综合| 初高中生精品福利视频| av免费网站不卡观看| 欧美老妇交乱视频在线观看| 国产亚洲婷婷香蕉久久精品| 中文乱码字幕在线中文乱码 |