亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        對抗鑒別式遷移:實現(xiàn)視覺運動策略“從模擬到真實”的遷移

        2018-05-14 10:55:10
        機器人產(chǎn)業(yè) 2018年4期
        關(guān)鍵詞:真實世界模塊化機器人

        如今,科學(xué)家們提出了各種方法學(xué)習(xí)應(yīng)用于機器人上的視覺運動策略。其中常用的就是在模擬環(huán)境中進行學(xué)習(xí),然后將其遷移到現(xiàn)實世界中。在本文中,澳大利亞機器人視覺中心(ACRV)、昆士蘭科技大學(xué)(QUT)和莫納什大學(xué)(Monash University)的科學(xué)家們提出了一種對抗鑒別式遷移方法,用于將視覺運動策略以更低的成本從模擬遷移到真實世界中。

        現(xiàn)如今,人們已經(jīng)提出了各種方法來學(xué)習(xí)用于現(xiàn)實世界機器人應(yīng)用的視覺運動策略。其中一種解決方案是:首先在模擬中進行學(xué)習(xí),然后將其遷移到真實世界。在遷移的過程中,大多數(shù)現(xiàn)有方法需要帶有標(biāo)記的真實圖像。然而,在許多機器人應(yīng)用中,標(biāo)記的過程通常是昂貴甚至是不切實際的。在本文中,我們提出了一種對抗鑒別式的從模擬到真實的遷移方法,以降低標(biāo)記真實數(shù)據(jù)的成本。該方法的有效性通過一個桌面物體抓取任務(wù)的模塊化網(wǎng)絡(luò)得以演示。在該任務(wù)中,一個具有7個自由度的手臂被控制在速度模式下,以通過視覺觀察抓取雜亂環(huán)境中的一個藍色長方體。該對抗性遷移方法將對標(biāo)記實際數(shù)據(jù)的需求降低了50%。策略可以通過僅使用93個標(biāo)記和186個未標(biāo)記的真實圖像遷移到真實環(huán)境中。這種遷移的視覺運動策略對于雜亂環(huán)境中的全新(在訓(xùn)練中未見過的)對象甚至是移動目標(biāo)是具有魯棒性的,達到了97.8%的成功率和1.8厘米的控制精確度。

        近年來,大型數(shù)據(jù)集和復(fù)雜的機器學(xué)習(xí)模型(通常稱為深度學(xué)習(xí))的出現(xiàn)創(chuàng)造了一種趨勢,即從手動的解決方案轉(zhuǎn)向更多由數(shù)據(jù)驅(qū)動的解決方案。自早期研究(Krizhevsky等人于2012年提出)以來,學(xué)習(xí)技術(shù)在魯棒性和性能方面取得了顯著提高,特別是在計算機視覺領(lǐng)域。

        傳統(tǒng)的基于機器人視覺的抓取方法是基于手動的控制器的。這些控制器將(啟發(fā)式)運動規(guī)劃器與手動操作的特征相結(jié)合,以可視化地定位目標(biāo)。最近,人們提出了解決這個問題的學(xué)習(xí)方法,但是大多數(shù)方法面臨的一致問題是依賴大量數(shù)據(jù)來訓(xùn)練這些模型。而泛化則形成了另一個挑戰(zhàn):當(dāng)學(xué)習(xí)模型被應(yīng)用于與訓(xùn)練中所使用的不同的機器人配置或場景時,許多當(dāng)前系統(tǒng)都是非常脆弱的。這就引出了一個問題:如何更好地學(xué)習(xí)和遷移機器人的視覺運動策略以完成諸如抓取的任務(wù)?

        人們已經(jīng)提出了各種方法來解決這個問題。一些研究試圖直接從大規(guī)模真實世界數(shù)據(jù)集中學(xué)習(xí)(Levine等人于2016年;Pinto和Gupta于2016年提出)。然而,在機器人應(yīng)用中收集大量真實數(shù)據(jù)可能會十分昂貴。例如,一個擁有6到14個物理機器人的“手臂農(nóng)場”被開發(fā)用以并行收集數(shù)據(jù),以學(xué)習(xí)機器人抓?。↙evine等人于2016年提出)。因此,人們提出了一些方法,通過使用模擬或合成數(shù)據(jù)來降低收集大量真實世界數(shù)據(jù)的成本(Bateux等人于2018年;D'Innocente等人于2017年;Tobin等人于2017年;James等人于2017年提出)。

        還有一些人試圖利用模擬和真實數(shù)據(jù)來獲得更加平衡的解決方案(Fitzgerald等人于2015年;Tzeng等人于2016年提出)。一種特殊的方法是模塊化的深度Q網(wǎng)絡(luò),用于在模擬中學(xué)習(xí)平面抓取任務(wù),然后將其遷移到具有少量已標(biāo)記的真實圖像的真實環(huán)境中(Zhang 等人于2017年提出)。

        在這項研究中,我們擴展了模塊化方法(Zhang等人于2017年提出),并專注于同時利用模擬和真實數(shù)據(jù)來學(xué)習(xí)機器人技能。在模塊化的深度Q網(wǎng)絡(luò)中,已標(biāo)記的真實圖像是先前使用過的。雖然其數(shù)量很少,但標(biāo)記數(shù)據(jù)的成本很重要。相比之下,圖像本身對于基于視覺的機器人系統(tǒng)來說是便宜的。為了獲得更多的數(shù)據(jù)有效學(xué)習(xí),人們提出了一種類似于GAN的對抗式方法(Goodfellow等人于2014年提出),以學(xué)習(xí)使用已標(biāo)記的合成數(shù)據(jù)和未標(biāo)記的真實數(shù)據(jù)來進行抓取的分類器(Bousmalis等人于2018年提出)。然而,大多數(shù)現(xiàn)有研究都使用對抗式方法進行分類任務(wù),例如對可行駛路徑分割進行增量式的對抗式域自適應(yīng)(Wulfmeier等人于2018年提出)。據(jù)我們所知,目前還沒有使用對抗式方法來對回歸任務(wù)進行遷移的研究。

        在本文中,我們提出了一種用于回歸遷移的對抗鑒別式方法,并研究了其從模擬到真實世界學(xué)習(xí)視覺運動策略的有效性。該方法通過視覺化引導(dǎo)的桌面物體抓取任務(wù)中用于具有7個自由度的機械臂的模塊化網(wǎng)絡(luò)進行了驗證(圖1)。通過引入對抗時損失,僅使用93個已標(biāo)記的和186個未標(biāo)記的真實圖像,就可以成功地將視覺運動策略從模擬(圖1A)遷移到真實(圖1B)環(huán)境。受益于模塊化結(jié)構(gòu)和加權(quán)的端到端微調(diào),經(jīng)過學(xué)習(xí)的視覺運動策略實現(xiàn)了1.8厘米的抓取精度,且僅有333條軌跡(在模擬中所收集的30225個狀態(tài)速度對)。經(jīng)過學(xué)習(xí)的視覺運動策略不僅能夠在可見的雜亂干擾物中抓取到目標(biāo)對象,而且在全新的(在訓(xùn)練中未見過的)干擾物乃至在目標(biāo)對象移動的情況下也能夠?qū)崿F(xiàn)抓取。特別地,本文有三個主要貢獻:

        ·在半監(jiān)督方式中引入對抗鑒別式方法,以便從模擬到真實世界實現(xiàn)更高數(shù)據(jù)效率的感知遷移,用減少了50%的已標(biāo)記真實數(shù)據(jù)實現(xiàn)較高的精確度(2.7 厘米),以及用減少了75%的已標(biāo)記真實數(shù)據(jù)實現(xiàn)稍差一些的精確度(3.0 厘米)(與監(jiān)督自適應(yīng)相比:2.8厘米)。

        ·進一步驗證模塊化神經(jīng)網(wǎng)絡(luò)(Zhang等人于2017年提出),在更逼真的機器人抓取任務(wù)中實現(xiàn)視覺運動策略從模擬到真實的遷移:桌面物體在速度模式下使用一個具有7個自由度的臂在雜亂中實現(xiàn)抓取,成功率達到97.8%,精確度達到1.8厘米。

        ·通過綜合比較實驗和詳細分析,對我們的對抗鑒別式方法中的重要因素所進行的研究顯示出了它對未來研究的益處和局限性。

        相關(guān)研究

        數(shù)據(jù)驅(qū)動的學(xué)習(xí)方法在計算機視覺中越來越普遍,并開始取代機器人應(yīng)用中的手動解決方案(Sünderhauf等人于2018年提出)。特別是人們對機器人視覺任務(wù)(直接基于真實圖像數(shù)據(jù)的機器人任務(wù))的興趣越來越大,例如物體抓取和操縱(Levine等人于2016年;Pinto和Gupta于2016年;Lenz等人于2015年提出)。數(shù)據(jù)驅(qū)動的機器人學(xué)習(xí)方法中的一個重要因素是來自真實世界或模擬中的大規(guī)模數(shù)據(jù)集。

        從真實數(shù)據(jù)集中學(xué)習(xí)

        在真實世界中,許多并行操作機器人的使用提升了收集深度學(xué)習(xí)所需的數(shù)據(jù)集的速度(Levine等人于2016年提出)。使用所記錄的超過80萬次抓握嘗試,對一個深度網(wǎng)絡(luò)進行訓(xùn)練以預(yù)測一系列動作的成功率。這些動作的目的在于使用帶有雙指抓手的具有7個自由度的機械臂進行抓取。結(jié)合簡單的無導(dǎo)數(shù)優(yōu)化算法,該抓取系統(tǒng)的成功率達到80%。另一個用于抓取的數(shù)據(jù)集收集樣本是在真實世界中進行自監(jiān)督抓取的學(xué)習(xí)方法,其中,力傳感器用于自主標(biāo)記樣本(Pinto和Gupta于2016年提出)。在使用分階段傾斜方法對5萬個真實世界的試驗進行訓(xùn)練后,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲得了70%左右的抓取成功率。

        上述結(jié)果令人印象深刻,但在費用、空間和時間(數(shù)周至數(shù)月)方面的成本很高。為了降低成本,Levine等人引入了基于CNN的策略表征架構(gòu),增加了引導(dǎo)式策略搜索(GPS)以學(xué)習(xí)視覺運動策略(將關(guān)節(jié)角度和相機圖像映射到關(guān)節(jié)力矩)(Levine等人于2016年提出)。這可以通過提供oracle(或?qū)<业某跏紬l件來開始學(xué)習(xí))減少真實世界訓(xùn)練樣本的數(shù)量。它在復(fù)雜的任務(wù)中已經(jīng)取得了令人印象深刻的結(jié)果,例如懸掛衣架、將塊插入玩具以及擰緊瓶蓋。

        從模擬中學(xué)習(xí)

        模擬是另一種降低收集真實數(shù)據(jù)集成本的資源。通過域隨機化,使用真實的RGB相機觀察操作任務(wù)中的真實場景,在模擬中學(xué)習(xí)到的策略具有強大的魯棒性,足以直接用于真實機器人(Tobin等人于2017年;James等人于2017年提出)。最近也有人提出了模擬深度圖像來學(xué)習(xí),然后直接將抓取技能遷移到真實世界的機器人手臂(Viereck等人于2017年提出)。

        也有一些負面結(jié)果表明,在低保真度的模擬器中所學(xué)習(xí)到的視覺運動策略不會通過真實相機觀察真實場景而直接遷移到真實機器人上(Zhang等人于2015年提出)。實際上,在模擬環(huán)境中,非常小的圖像失真(小的平移、高斯噪聲和RGB顏色通道的縮放)會導(dǎo)致系統(tǒng)的性能急劇下降。引入真實相機來觀察游戲屏幕甚至更糟(Tow等人于2016年提出)。然而,如果采用少量真實圖像,在低保真度的模擬器中學(xué)習(xí)的視覺運動策略可以很好地遷移到機器人平面抓取任務(wù)的真實場景中(Zhang等人于2017年提出)。

        遷移學(xué)習(xí)

        遷移學(xué)習(xí)嘗試開發(fā)在不同任務(wù)(場景)之間遷移知識的方法(Pan和Yang于2010年;Taylor和Stone于2009年提出)。為了減少真實世界中收集的數(shù)據(jù)量(昂貴),將技能從模擬遷移到真實世界是一種很有吸引力的選擇。對于模擬中的預(yù)訓(xùn)練而言,使用非常少的真實樣本進行自適應(yīng)需要合適的遷移學(xué)習(xí)方法。

        為了減少學(xué)習(xí)視覺運動策略所需的真實世界圖像的數(shù)量,人們提出了一種從模擬到真實環(huán)境的自適應(yīng)視覺表征方法,在“鉤環(huán)”任務(wù)中實現(xiàn)了79.2%的成功率,只用了真實世界圖像的數(shù)量的十分之一(Tzeng等人于2016年提出)。另一個基于視覺的策略遷移的例子是漸進式神經(jīng)網(wǎng)絡(luò)(progressive neural networks),它被提出用于在學(xué)習(xí)復(fù)雜的任務(wù)序列時改善遷移并避免災(zāi)難性的遺忘(Rusu等人于2016年提出)。它們的有效性已經(jīng)在強化學(xué)習(xí)任務(wù)上得到驗證,例如Atari、3D迷宮游戲以及模擬機器人操作(Rusu等人于2017年提出)。

        與GAN類似,Goodfellow等人于2014年人們也提出了在分類背景下用于域自適應(yīng)的對抗式方法,例如手寫數(shù)字識別(Tzeng等人于2017年;Luo等人于2017年;Ge等人于2017年提出)、地點分類和分割(Wulfmeier等人于2017年,2018年提出)。另一種類似的方法是域混淆,其可行性已經(jīng)在目標(biāo)識別(Tzeng等人于2015年提出)和細粒度識別(Gebru等人于2017年提出)中得到驗證。還提出了一種提高學(xué)習(xí)分類器效率的對抗式適應(yīng)方法,以確定抓取命令是否成功(Bousmalis等人于2018年提出)。這些方法使用于分類任務(wù)的數(shù)據(jù)有效的域自適應(yīng)成為可能,但是,我們還沒有找到任何使用對抗式方法進行回歸任務(wù)的研究。

        在我們之前的研究中(Zhang等人于2017年提出),提出了一種模塊化結(jié)構(gòu)和它的訓(xùn)練方法,以便以低成本的方式將視覺運動策略從模擬遷移到真實世界。通過使用1418個已標(biāo)記的真實圖像對在模擬中已預(yù)訓(xùn)練的感知模塊進行微調(diào)從而實現(xiàn)遷移。本文提出了一種半監(jiān)督的遷移方法來減少所需的已標(biāo)記真實圖像的數(shù)量。我們將這種半監(jiān)督方法稱為對抗鑒別式遷移(Adversarial Discriminative Transfer,ADT),其主要受益于對抗式損失的引入(Tzeng等人于2017年提出)。

        在本文中,我們提出了一種對抗鑒別式遷移方法,用于將視覺運動策略以更低的成本從模擬遷移到真實世界。其可行性是通過任務(wù)中的模塊化方法證明的,該任務(wù)是在速度模式下使用一個具有7 個自由度的機械臂在雜亂環(huán)境中抓取一個桌面物體。我們的對抗式遷移方法將對已標(biāo)記的真實數(shù)據(jù)的需求降低了50%。僅使用93個已標(biāo)記和186個未標(biāo)記的真實圖像即可成功完成遷移。通過使用加權(quán)損失,以端到端的方式對組合網(wǎng)絡(luò)進行微調(diào),其抓取精確度得到顯著提高(比進行微調(diào)前提高了37.9%),成功率為97.8%,中間控制誤差為1.8厘米。該經(jīng)過學(xué)習(xí)的策略對于雜亂環(huán)境甚至移動目標(biāo)中的新型干擾物對象具有強大的魯棒性。對抗鑒別式遷移以及模塊化方法有望實現(xiàn)更為有效的視覺運動策略從模擬到真實世界的遷移。

        猜你喜歡
        真實世界模塊化機器人
        多替拉韋聯(lián)合拉米夫定簡化方案治療初治HIV感染者真實世界研究
        傳染病信息(2022年6期)2023-01-12 08:57:10
        參麥寧肺方治療223例新冠病毒感染者的真實世界研究
        模塊化自主水下機器人開發(fā)與應(yīng)用
        模塊化住宅
        ACP100模塊化小型堆研發(fā)進展
        中國核電(2017年2期)2017-08-11 08:00:56
        虛擬世界和真實世界的紐帶
        模塊化VS大型工廠
        虛擬現(xiàn)實:另一個真實世界
        機器人來幫你
        認識機器人
        全部亚洲国产一区二区| 一区二区日韩国产精品| 91青草久久久久久清纯| 中文字幕亚洲中文第一| 亚洲国产精品成人天堂| 国产真实老熟女无套内射| 国产精品美女白浆喷水| 大岛优香中文av在线字幕| 午夜免费观看日韩一级视频| 琪琪的色原网站| 亚洲天堂中文| 久久精品国产亚洲av一| 香蕉视频在线观看亚洲| 亚洲av无码不卡久久| 欧美韩国精品另类综合| 丰满人妻被公侵犯的视频| 亚洲av永久无码精品一福利| 夫妇交换刺激做爰视频| 国产96在线 | 免费| 国产精品久久av色婷婷网站| 亚洲国产精品无码久久| 最新69国产成人精品视频免费| 人妻丝袜中文字幕久久| 亚洲美女毛片在线视频| 久久久精品人妻无码专区不卡| 欧美在线观看一区二区| 国产精品丝袜美腿诱惑| 国产香港明星裸体xxxx视频| 69久久夜色精品国产69| 国产美女精品AⅤ在线老女人| 最近更新中文字幕一区二区| 又色又爽又高潮免费视频观看| 欧美伊人网| 一区二区在线观看日本免费 | 天堂网站一区二区三区 | 四虎4545www国产精品| 亚洲美女主播一区二区| 黄片大全视频在线播放| 国外精品视频在线观看免费| 亚洲成AV人久久| 风骚人妻一区二区三区|