亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云端可視化交互的強(qiáng)化學(xué)習(xí)平臺

        2021-05-17 05:31:32姚鐵錘王彥棡遲學(xué)斌王曉光
        計(jì)算機(jī)工程 2021年5期
        關(guān)鍵詞:引擎可視化物理

        姚鐵錘,王 玨,王彥棡,遲學(xué)斌,王曉光

        (1.中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190;2.中國科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049)

        0 概述

        強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),在博弈游戲[1-2]、機(jī)器人控制、圖像處理、機(jī)器翻譯、交通控制[3]和自動(dòng)駕駛等任務(wù)中表現(xiàn)優(yōu)異。隨著對強(qiáng)化學(xué)習(xí)研究的不斷深入,各個(gè)研究機(jī)構(gòu)和公司相繼研發(fā)了不同的強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)環(huán)境和平臺。

        OpenAI Gym[4]集文字任務(wù)、Atari、Box2D、經(jīng)典控制、MuJoCo[5]和機(jī)械手臂等物理引擎于一體,提供統(tǒng)一的算法接口用于強(qiáng)化學(xué)習(xí)算法訓(xùn)練。DeepMind Control Suite[6]對MuJoCo 進(jìn)行封裝,輔以基礎(chǔ)強(qiáng)化學(xué)習(xí)算法,用于機(jī)器人控制。DeepMind Lab和TORCS(The Open Racing Car Simulator)[7]分別構(gòu)建迷宮和賽車的模擬器,訓(xùn)練強(qiáng)化學(xué)習(xí)智能體的導(dǎo)航、3D 視覺和策略等方面能力。OpenAI Gym、DeepMind Control Suite、RLlab[8]、DeepMind Lab[9]、TORCS、Pybullet[10]和PySC2[11]等用于強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)環(huán)境均包含物理引擎和基礎(chǔ)渲染顯示模塊,其中,物理引擎通過感知用戶操作和物體當(dāng)前狀態(tài)計(jì)算物體新的狀態(tài),渲染顯示模塊根據(jù)物體的信息進(jìn)行渲染并在顯示界面感知用戶的操作。然而此類強(qiáng)化學(xué)習(xí)環(huán)境中實(shí)驗(yàn)場景的物理引擎模塊和渲染模塊耦合性較高,且模擬渲染的方式各成一體[1,5-6,8-9,12-13],這限制了大規(guī)模集群資源的利用率,增加了強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境部署和算法驗(yàn)證的難度。

        2018 年加州大學(xué)伯克利分校DASARI 等人開發(fā)的RoboNet[14]平臺,收集了線下實(shí)體機(jī)器人1 500 萬幀手臂與物體交互的視頻作為強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,2019 年李飛飛團(tuán)隊(duì)開發(fā)的RoboTurk[15]平臺則提供了137.5 h 的機(jī)器人交互數(shù)據(jù)。然而此類平臺僅提供特定的數(shù)據(jù)集[5,8,12,15-17],缺少強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境和硬件資源的支撐。此外,阿里巴巴PAI 平臺[18]、騰訊智能鈦平臺[19]和百度AI Studio 開發(fā)平臺[20]集成了Notebook、Shell 工具和Tensorflow、PyTorch 深度學(xué)習(xí)框架,側(cè)重支持傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,同樣無法友好地支持需要環(huán)境模擬的強(qiáng)化學(xué)習(xí)算法。

        本文通過設(shè)計(jì)物理引擎與渲染模塊之間的數(shù)據(jù)結(jié)構(gòu)、WebRender 算法和接口標(biāo)準(zhǔn)構(gòu)建Web 云端交互式模型,用于對物理引擎和渲染模塊進(jìn)行解耦?;谠撃P蛯?shí)現(xiàn)并驗(yàn)證針對MuJoCo 物理引擎的Web 模擬器,同時(shí)集成可視化交互開發(fā)工具和面向項(xiàng)目的知識管理模塊,開發(fā)一個(gè)支持云端可視化交互的強(qiáng)化學(xué)習(xí)平臺。

        1 云端交互式模型

        本文構(gòu)建的云端交互式模型抽象了物理引擎與渲染模塊之間的數(shù)據(jù)結(jié)構(gòu),通過引入WebRender 算法和相應(yīng)接口,將實(shí)驗(yàn)環(huán)境的物理引擎和渲染模塊分離,從而幫助不同物理引擎接入,促進(jìn)強(qiáng)化學(xué)習(xí)中環(huán)境模擬標(biāo)準(zhǔn)的統(tǒng)一。如圖1 所示,該模型涉及到客戶端和服務(wù)器端之間的通信。在限定時(shí)間內(nèi),瀏覽器端的交互操作由操作塊即操作字典(operation_dict)傳入服務(wù)器端進(jìn)行解析處理,服務(wù)器端通過物理引擎計(jì)算產(chǎn)生元素塊即元素字典(element_dict)并將其傳回客戶端,通過Web 端渲染模塊在瀏覽器端渲染。

        圖1 云端交互式模型Fig.1 Cloud interactive model

        圖2 所示的元素字典記錄幾何體的名稱、類型、位置、顏色信息以及相機(jī)的類型和視角等關(guān)鍵信息,用于Web 端渲染模塊的可視化。圖3 所示的操作字典記錄鼠標(biāo)點(diǎn)擊和位移等交互信息,用于不同物理引擎的物理變量計(jì)算。

        圖2 元素字典Fig.2 Element dictionary

        圖3 操作字典Fig.3 Operation dictionary

        WebRender 算法通過圖4 所示的3 個(gè)接口接入物理引擎,使其獨(dú)立于渲染模塊,具體描述如下:move_perturb 接口傳入操作字典,使用自定義物理引擎計(jì)算動(dòng)力學(xué)信息;move_camera 接口傳入操作字典,使用自定義物理引擎計(jì)算相機(jī)位置信息;generate_element 接口使用自定義物理引擎輸出元素字典。

        圖4 云端交互式模型接口設(shè)計(jì)Fig.4 Interfaces design of cloud interactive model

        WebRender 算法通過translate_operation 解析操作字典,在給定的時(shí)間步內(nèi),循環(huán)調(diào)用move_perturb或move_camera 進(jìn)行計(jì)算,并調(diào)用generate_element產(chǎn)生當(dāng)前時(shí)間步的元素字典,最終輸出最后時(shí)刻的元素字典。

        WebRender 算法偽代碼如下:

        算法1WebRender

        2 強(qiáng)化學(xué)習(xí)平臺設(shè)計(jì)

        基于云端可視化交互的強(qiáng)化學(xué)習(xí)平臺架構(gòu)如圖5 所示,其中包括基礎(chǔ)設(shè)施層、應(yīng)用服務(wù)層以及接口訪問層。

        圖5 基于云端可視化交互的強(qiáng)化學(xué)習(xí)平臺架構(gòu)Fig.5 Architecture of reinforcement learning platform based on cloud visual interaction

        1)基礎(chǔ)設(shè)施層基于異構(gòu)GPU 計(jì)算資源和存儲系統(tǒng)資源[21],采用虛擬化技術(shù)為模擬器的穩(wěn)定運(yùn)行和強(qiáng)化學(xué)習(xí)算法的使用提供軟硬件保障。

        2)應(yīng)用服務(wù)層包括虛擬開發(fā)環(huán)境接口、可視化交互模塊和基于項(xiàng)目的知識管理模塊。虛擬開發(fā)環(huán)境接口負(fù)責(zé)前端頁面對可視化工具的控制。云端交互式模擬器基于可視化交互模塊實(shí)現(xiàn)。Web 端渲染模塊采用WebGL[22]技術(shù)統(tǒng)一實(shí)現(xiàn),物理引擎模塊支持用戶自定義,僅需要少量工作即可接入模擬器,提高了實(shí)驗(yàn)環(huán)境模擬的便捷性和統(tǒng)一性?;陧?xiàng)目的知識管理模塊將強(qiáng)化學(xué)習(xí)所涉及的模擬器、可視化工具、數(shù)據(jù)、算法以及研究環(huán)境以項(xiàng)目的形式封裝在虛擬化容器中,并劃分為私有項(xiàng)目和公共項(xiàng)目。其中,私有項(xiàng)目包括發(fā)布為公共項(xiàng)目的功能、支持分享特定數(shù)據(jù)集、自定義算法和實(shí)驗(yàn)環(huán)境,公共項(xiàng)目可以快速復(fù)制為私有項(xiàng)目,用戶復(fù)制后即可查看共享的知識。

        3)接口訪問層是用戶的接入層,其中較為典型的應(yīng)用是用戶注冊、用戶統(tǒng)一登錄接口以及用戶認(rèn)證模塊。

        3 系統(tǒng)實(shí)現(xiàn)

        本文在OpenStack[23]云平臺虛擬化技術(shù)的基礎(chǔ)上,通過多臺服務(wù)器搭建包含云端交互式模擬器的強(qiáng)化學(xué)習(xí)平臺,并以MuJoCo 物理引擎為例,驗(yàn)證云端交互式模型接入自定義物理引擎的便捷性。

        登錄平臺后展現(xiàn)的用戶私有項(xiàng)目如圖6 所示,可見其中提供了OpenAI Gym、MuJoCo-py、PyTorch等多個(gè)基礎(chǔ)模板。

        圖6 用戶私有項(xiàng)目Fig.6 User’s private project

        針對MuJoCo 物理引擎的實(shí)驗(yàn)場景,本文平臺僅通過動(dòng)力學(xué)等模塊的少量函數(shù)實(shí)現(xiàn)WebRender 算法的接口,即可使用云端交互式模擬器渲染,而無需再安裝額外的依賴包。云端交互式模擬器與MuJoCo的渲染效果對比如圖7 所示,其在強(qiáng)化學(xué)習(xí)平臺上驗(yàn)證的效果如圖8 所示。

        圖7 云端交互式模擬器與MuJoCo 的渲染效果對比Fig.7 Rendering effect comparison of cloud interactive simulator and MuJoCo

        圖8 云端交互式模擬器渲染界面Fig.8 Rendering interface of cloud interactive simulator

        本文設(shè)計(jì)的平臺除了集成Notebook、Shell 類基本工具,還提供了在線代碼編輯器、TensorBoard、視頻播放器和數(shù)據(jù)集中心等可視化開發(fā)工具,如圖9所示。其中,在線代碼編輯器相較Notebook 更易支持在線大規(guī)模開發(fā),TensorBoard 能夠?qū)崿F(xiàn)函數(shù)圖像、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)等數(shù)據(jù)的可視化,視頻播放器便于驗(yàn)證需要錄制視頻的算法,數(shù)據(jù)集中心提供了數(shù)據(jù)集的上傳、下載、管理等功能,便于用戶保存、分享數(shù)據(jù)集。

        圖9 可視化開發(fā)工具Fig.9 Visualization development tools

        4 結(jié)束語

        本文在強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)場景下構(gòu)建云端交互式模型,并通過融合可視化工具和基于項(xiàng)目的知識管理模塊功能,設(shè)計(jì)一站式的強(qiáng)化學(xué)習(xí)平臺。結(jié)合MuJoCo 物理引擎在平臺中實(shí)現(xiàn)云端交互式模擬器,以驗(yàn)證云端交互式模型的有效性。實(shí)驗(yàn)結(jié)果表明,該模型提升了物理引擎接入模擬器的便捷性,對統(tǒng)一實(shí)驗(yàn)場景的模擬標(biāo)準(zhǔn)具有一定的借鑒意義,在其基礎(chǔ)上搭建的平臺可支持100 余個(gè)具有云端交互式模擬器的項(xiàng)目并發(fā)穩(wěn)定運(yùn)行。下一步將對不同物理引擎接口標(biāo)準(zhǔn)進(jìn)行優(yōu)化,使平臺適用于更多實(shí)驗(yàn)場景,同時(shí)設(shè)計(jì)分布式強(qiáng)化學(xué)習(xí)算法并優(yōu)化集群異構(gòu)資源調(diào)度過程,實(shí)現(xiàn)對大規(guī)模強(qiáng)化學(xué)習(xí)算法訓(xùn)練的支持和加速。

        猜你喜歡
        引擎可視化物理
        只因是物理
        井岡教育(2022年2期)2022-10-14 03:11:44
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        處處留心皆物理
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        藍(lán)谷: “涉藍(lán)”新引擎
        商周刊(2017年22期)2017-11-09 05:08:31
        三腳插頭上的物理知識
        無形的引擎
        河南電力(2015年5期)2015-06-08 06:01:46
        我不是教物理的
        中學(xué)生(2015年2期)2015-03-01 03:43:33
        久久老子午夜精品无码怎么打| 日韩少妇人妻精品中文字幕| 日韩一区在线精品视频| 亚洲精品无码永久在线观看你懂的| 1717国产精品久久| 国产品精品久久久久中文| 亚洲国产高清一区av| 大尺度无遮挡激烈床震网站| 在线观看免费人成视频| 永久无码在线观看| 99精品又硬又爽又粗少妇毛片| 久久精品国产亚洲av天| 精品欧洲av无码一区二区| 欧美激情αv一区二区三区| 日韩av不卡一二三区| 亚洲人成网站色在线入口口| 国产精品18久久久| 无码专区中文字幕DVD| 久久国产劲爆内射日本| av影院手机在线观看| 亚洲av高清在线一区二区三区| 国产一区曰韩二区欧美三区| 久久精品中文字幕免费| 日韩乱码中文字幕在线| 天堂aⅴ无码一区二区三区| 国产哟交泬泬视频在线播放| 久久久精品人妻一区二区三区免费| 给你免费播放的视频| 亚洲国产综合人成综合网站| 国产精品久久久久久福利| 国产98在线 | 日韩| 亚洲乱码一区二区三区成人小说| 人妻中文字幕一区二区三区| 久久精品成人一区二区三区 | 丰满岳乱妇久久久| 亚洲高清中文字幕精品不卡| 三级日本理论在线观看| 久久久久久久波多野结衣高潮 | 中文字幕文字幕视频在线| 精品视频一区二区三区在线观看| 亚洲综合av在线在线播放 |