亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于近端策略優(yōu)化算法的水下機(jī)器人目標(biāo)抓取仿真驗(yàn)證

        2021-01-19 08:11:20鮑軒
        艦船科學(xué)技術(shù) 2020年12期
        關(guān)鍵詞:環(huán)境策略

        鮑軒

        (中國艦船研究院,北京 100192)

        1 水下機(jī)器人與任務(wù)建模

        本文水下機(jī)器人實(shí)體為中小型作業(yè)ROV,總體尺寸大約為0.82 m×0.68 m×0.50 m,配有2 個(gè)密封艙,分別是電源艙與控制艙。動力系統(tǒng)為6 個(gè)推進(jìn)器,水平有4 個(gè),為矢量布置,2 個(gè)垂推前后布置。作業(yè)系統(tǒng)為2 關(guān)節(jié)機(jī)械臂。傳感器配有深度計(jì)、高度計(jì)、加速度計(jì)、多普勒測速儀、攝像機(jī)、聲吶等。

        對ROV 以及水池環(huán)境在仿真軟件MuJoCo 中進(jìn)行建模,主要包括模型的尺度、形狀、密度、重量等參數(shù)的設(shè)定。

        1.1 水下機(jī)器人建模

        MuJoCo 表示“多連接體動力學(xué)”。它由Emo Todorov 為Roboti LLC 開發(fā)。最初,它在華盛頓大學(xué)的運(yùn)動控制實(shí)驗(yàn)室中使用,現(xiàn)在已被眾多研究人員和開發(fā)人員所采用。其旨在促進(jìn)機(jī)器人技術(shù),生物力學(xué),圖形和動畫以及其他需要快速而準(zhǔn)確的仿真的領(lǐng)域的研究和開發(fā),提供了速度,準(zhǔn)確性和建模能力的獨(dú)特組合。其為開源軟件,通過把自己建立的模型導(dǎo)入其中,進(jìn)行仿真演示、數(shù)據(jù)收集等工作。

        ROV 建模采用與真實(shí)比例1∶1 進(jìn)行建模,但因?yàn)镽OV 中有些部分難以精確繪制,會耗費(fèi)大量時(shí)間,并且不是影響仿真結(jié)果的主要原因,故仿真模型只是盡可能逼近真實(shí)ROV,省略了纜,螺旋槳推進(jìn)器和一些傳感器、連接件設(shè)備。仿真模型見圖1。

        為了對仿真中的動力學(xué)計(jì)算進(jìn)行討論[1],定義需要用到的符號見表1。

        其中,仿真時(shí)刻要計(jì)算的不但有剛體平動,還有關(guān)節(jié)的轉(zhuǎn)動,所以需要用到約束雅可比行列式。雅可比行列式建立關(guān)節(jié)坐標(biāo)和約束坐標(biāo)之間的數(shù)量關(guān)系。它將關(guān)節(jié)的運(yùn)動矢量(速度和加速度)對應(yīng)到約束坐標(biāo):關(guān)節(jié)速度 v 映射到約束坐標(biāo)中的速度 Jv。雅可比行列式的轉(zhuǎn)置將力矢量從約束坐標(biāo)對應(yīng)到關(guān)節(jié)坐標(biāo):約束力 f 對應(yīng)到關(guān)節(jié)坐標(biāo)中的力JTf。

        圖 1 ROV 上的傳感器設(shè)備Fig. 1Sensor equipment on ROV

        圖 2 MuJoCo 中對ROV 的建模Fig. 2ROV modeling in MuJoCo

        表 1 動力學(xué)公式符號意義Tab. 1Symbolic meaning of kinetic formula

        在連續(xù)時(shí)間內(nèi),所用的動力學(xué)方程為下式:

        2)目標(biāo)位置信息接受不完全

        (2)明確“充分的保護(hù)和安全”確定標(biāo)準(zhǔn)或解釋的方式??梢栽趨f(xié)定正文條款中單列條款,或者以注釋或附件或議定書方式予以規(guī)定。其中,單獨(dú)條款方式可以采取中國-烏茲別克斯坦2011投資協(xié)定模式;注釋方式可以借鑒印度2015年BIT示范文本模式和參考中國-加拿大2012年BIT中的注釋方式;附件方式可以參考并擴(kuò)展中國-加拿大2012年BIT的附件形式;議定書方式可以參考中國一些BITs的做法。

        因?yàn)閮?yōu)勢函數(shù)為正,所以下一步更新會傾向增加采取相同動作的概率,從而使目標(biāo)函數(shù)值增加。這時(shí)候取最小值操作就是設(shè)置一個(gè)增加此動作概率的極限值。一旦πθ(a|s)>(1+ε)πθk(a|s),就會取最小項(xiàng) ( 1+ε)Aπθk(s,a),阻止新就策略之間的差異變得太大。

        上述計(jì)算式隱式地假設(shè)了高雷諾數(shù),升阻比等于攻角的切線。

        每個(gè)物體還承受與粘度成正比且與其線性和角速度相反的力和轉(zhuǎn)矩。假設(shè)物體為低雷諾數(shù)的球體,當(dāng)物體不為球體時(shí)直徑d 等于等效慣性盒尺寸的平均值。公式為:

        1.2 仿真任務(wù)建模

        本文基于深度強(qiáng)化學(xué)習(xí)[2]進(jìn)行水下機(jī)器人抓取控制的仿真實(shí)驗(yàn),采用由簡單到困難的仿真環(huán)境進(jìn)行研究,針對各階段分為4 種仿真環(huán)境[3]。

        1)目標(biāo)初始位置固定,且位置已知

        構(gòu)造一個(gè)邊長10 m 的正方形水池,將對ROV 建立的仿真模型放入其中,其初始高度為2 m。然后創(chuàng)建一個(gè)形狀類似海參的模型放在池底,其位于ROV 的前下方。ROV 如同現(xiàn)實(shí)中一樣,有5 個(gè)自由度的運(yùn)動,分別為前后左右的平移運(yùn)動、上升下降、回轉(zhuǎn)及縱傾運(yùn)動。

        ROV 的仿真模型并沒有手抓結(jié)構(gòu),所以對于ROV的最終目標(biāo)是:在沒有失去穩(wěn)性的情況下,在局部趨近目標(biāo)并且將機(jī)械臂末端距離目標(biāo)足夠近時(shí)其可以穩(wěn)定的懸浮在目標(biāo)上方。

        需要說明的是:實(shí)體機(jī)械抓在操作時(shí)只有張開和閉合2 個(gè)操作,并且在真實(shí)水池中抓取目標(biāo)時(shí),只要機(jī)械臂末端離目標(biāo)足夠近,并且ROV 可以穩(wěn)定住姿態(tài),成功抓取的概率大于90%,所在只要達(dá)成仿真中的目標(biāo),就可以說完成了一次成功的抓取。對于足夠近這個(gè)概念來講,從經(jīng)驗(yàn)上看其值小于0.1 m 這個(gè)范圍可以說是很苛刻了。而對于ROV 穩(wěn)定懸浮,在仿真設(shè)置的范圍更加苛刻,其規(guī)定5 個(gè)自由度的運(yùn)動均小于0.03 m/s(或0.03 rad/s)。沒有失去穩(wěn)性是指ROV在運(yùn)動的過程中,要保持其橫傾與縱傾的角度不能過大,在抓取的時(shí)候要更加平衡,具體數(shù)值設(shè)定是在趨近目標(biāo)的時(shí)候要保持傾角在40°以內(nèi),到抓取范圍內(nèi)要保持在25°以內(nèi)。

        關(guān)節(jié)空間慣性矩陣M(q)始終是可逆的。因此,一旦知道了約束力 f,就可以將式子變換成式(2)從而計(jì)算前向動力學(xué),然后利用特定的積分器積分得到速度與位置。

        2)目標(biāo)初始位置隨機(jī),位置已知

        相對于上面的仿真環(huán)境,在這次仿真訓(xùn)練中,使目標(biāo)位置隨機(jī)出現(xiàn)在ROV 正下方4 m×4 m 的正方形區(qū)域內(nèi),ROV 可以在仿真中得到目標(biāo)的位置信息。

        3)目標(biāo)位置信息接受不完全,且位置信息獲取是基于對視覺識別的仿真

        針對基于傳統(tǒng)控制方法進(jìn)行目標(biāo)抓取可能出現(xiàn)的跟蹤目標(biāo)失敗,或者提供錯(cuò)誤信息,設(shè)計(jì)了這種目標(biāo)初始位置隨機(jī),并且對于目標(biāo)位置信息并不是完全準(zhǔn)確的情況。在這次仿真中,有15%的概率,會不提供目標(biāo)信息,有5%的概率會提供錯(cuò)誤的信息。

        圖 3 環(huán)境1 初始狀態(tài)Fig. 3Environment 1 initial state

        圖 4 環(huán)境4 初始狀態(tài)Fig. 4Environment 4 initial state

        4)多位置隨機(jī)目標(biāo)抓取,且位置信息獲取是基于對視覺識別的仿真[4]

        在PPO 算法中使用的探索策略為對角高斯策略,對角高斯策略使用神經(jīng)網(wǎng)絡(luò)表示從狀態(tài)與平均輸出動作μθ(s) 的 關(guān)系,并使用單獨(dú)向量 σ表示定值的對角協(xié)方差矩陣。

        2 近端策略優(yōu)化算法

        策略梯度算法(VPG,Vanilla Policy Gradient)是近端策略優(yōu)化算法的基礎(chǔ)[8],其核心想法很簡單,就是把可以得到更多獎(jiǎng)勵(lì)的動作概率增大,反之,減少獎(jiǎng)勵(lì)的動作概率,并且不停的迭代,直到達(dá)到最優(yōu)的策略[8]。

        2.1 教學(xué)目標(biāo) ①嘗試建構(gòu)種群數(shù)量J型增長的數(shù)學(xué)模型;②認(rèn)同數(shù)學(xué)模型在科學(xué)研究中的應(yīng)用;③解釋種群數(shù)量J型增長的一般規(guī)律;④關(guān)注人類活動對種群數(shù)量變化的影響。

        下面使用 πθ表示參數(shù)為 θ的策略,使用J(πθ)來表示這個(gè)策略下的有限無折扣期望累計(jì)回報(bào),經(jīng)過上節(jié)介紹得知:

        式中: τ為在當(dāng)前策略 πθ下的軌跡, Aπθ為當(dāng)前策略下的優(yōu)勢函數(shù)。

        策略梯度算法是通過對表示策略好壞的J(πθ)進(jìn)行梯度上升更新策略的參數(shù),如下式:

        近端策略優(yōu)化(PPO,Proximal Policy Optimization)解決的問題[9-10,13]:如何在當(dāng)前所采取策略下產(chǎn)生的數(shù)據(jù),盡最大的可能更新到更好的策略,并且避免更新步幅過大,而導(dǎo)致運(yùn)行新策略所得到的獎(jiǎng)勵(lì)大幅下降。PPO 運(yùn)用一些技巧,使更新所得到的新策略與舊策略足夠接近,并且是一階方法,這使得PPO 方法易于實(shí)現(xiàn),并且從經(jīng)驗(yàn)上來看,其性能不錯(cuò)。

        PPO-Clip 在更新公式中沒有KL-散度項(xiàng)[11-12],也沒有任何約束。取而代之的是依靠對目標(biāo)函數(shù)進(jìn)行剪枝操作,來控制新舊策略之間的差距。

        PPO-剪枝更新策略如下式:

        通常取最大值操作都是用批量隨機(jī)梯度下降來實(shí)現(xiàn)的。

        式中:

        式中: ε為一個(gè)參數(shù),其值很小。它決定了新舊策略之間的差異。

        式(13)很復(fù)雜,將其拆解為式(14)和式(15):

        優(yōu)勢函數(shù)為正:假設(shè)對一狀態(tài)-動作對(s,a)優(yōu)勢函數(shù)為正,在這種情況下公式變?yōu)椋?/p>

        為了使其計(jì)算速度可以適應(yīng)仿真的頻率,每個(gè)物體的形狀被假定為等效慣性箱。盒子的每個(gè)正面(相對于線速度)面都沿其法線方向承受力。由于角速度,所有面也承受扭矩,該轉(zhuǎn)矩是通過對表面積上旋轉(zhuǎn)所產(chǎn)生的力進(jìn)行積分獲得的。用參數(shù)指定介質(zhì)的粘度β 和密度ρ,并適用于所有物體令v 和ω 表示與等效慣性盒對齊的線速度和角速度,而s 表示盒大小的三維向量。

        出于同樣的目的,當(dāng)優(yōu)勢函數(shù)為負(fù)時(shí),只需將上式的 ( 1+ε)改為(1-ε)即可。

        2015年底大港油田未動用儲量3.5億噸。這些儲量具有儲量單元塊數(shù)多、單塊儲量規(guī)模小,以中深層、深層為主,低孔、低滲、低豐度、低流度等特點(diǎn)。開發(fā)上表現(xiàn)為注不進(jìn)水,產(chǎn)量低和產(chǎn)量遞減快,效益差,內(nèi)部收益率不達(dá)標(biāo)。如何經(jīng)濟(jì)有效開發(fā)這些儲量,實(shí)現(xiàn)儲量到產(chǎn)量的轉(zhuǎn)化,一直是困擾油田開發(fā)的難題。

        2.1 目標(biāo)位置已知的抓取環(huán)境仿真實(shí)驗(yàn)

        以下算法所進(jìn)行仿真環(huán)境為仿真環(huán)境1。

        獎(jiǎng)勵(lì)函數(shù)的設(shè)定分為了以下的幾種情況:

        1)運(yùn)動過程中失去了穩(wěn)性,會有一個(gè)很大的負(fù)獎(jiǎng)勵(lì),reward=-3 000;

        內(nèi)部控制管理是實(shí)現(xiàn)國有企業(yè)健康穩(wěn)定發(fā)展的基礎(chǔ),對國有企業(yè)實(shí)現(xiàn)有效的經(jīng)營有著重要的意義。對此,就需要國有企業(yè)經(jīng)營發(fā)展過程中,提高對內(nèi)部控制措施的使用,以此來提高對企業(yè)內(nèi)部控制管理的合理性,這就可以從以下幾方面進(jìn)行思考:

        2)在機(jī)械臂離末端與目標(biāo)相對較遠(yuǎn),在0.18 m 以上時(shí),reward=-(10-dis_difference*500);

        3)當(dāng)機(jī)械臂離末端與目標(biāo)相對較近,小于等于0.18 m 時(shí),reward=(0.18-distance)*30;

        基本設(shè)置與策略網(wǎng)絡(luò)相同,不過其輸出層只有一個(gè)神經(jīng)元作為輸出[7]。

        其中dis_difference 代表的是2 次互動中機(jī)械臂距離目標(biāo)遠(yuǎn)近的差異,因?yàn)? 次互動間隔的時(shí)間很小,這個(gè)值不會很大,所以乘以一個(gè)系數(shù),得到一個(gè)適合的量。Distance 代表每一時(shí)刻機(jī)械臂離目標(biāo)的距離。之所以以這個(gè)作為獎(jiǎng)勵(lì)函數(shù),是希望在ROV離目標(biāo)較遠(yuǎn)的情況下,可以快速移動到目標(biāo)附近,當(dāng)距離較近可以進(jìn)行抓取時(shí),ROV 要穩(wěn)定住。dis_difference 不僅在距離上,還在時(shí)間上對訓(xùn)練過程中策略的選擇產(chǎn)生了影響。

        算法參數(shù)設(shè)置:訓(xùn)練輪次3 000 輪,每輪包括4 000次與環(huán)境的互動,獎(jiǎng)勵(lì)折扣因子 γ為0.99,KL 散度 δ為0.01,值函數(shù)優(yōu)化器學(xué)習(xí)率為0.001,每個(gè)輪次值函數(shù)網(wǎng)絡(luò)梯度下降次數(shù)為80 次,黑塞矩陣阻尼因子為0.1,共軛矩陣因子10,回溯步驟的最大數(shù)量K 為10,回溯因子為0.8,GEA-Lambda 為0.97。

        深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為2 個(gè)神經(jīng)網(wǎng)絡(luò),分別用來訓(xùn)練策略與擬合值函數(shù)。其結(jié)構(gòu)分別為:

        1)策略網(wǎng)絡(luò)

        有2 個(gè)隱藏層,每個(gè)隱藏層的神經(jīng)元個(gè)數(shù)是64 個(gè),輸入層神經(jīng)元個(gè)數(shù)為22 個(gè)神經(jīng)元,其中包括各個(gè)維度運(yùn)動以及2 個(gè)關(guān)節(jié)的位置以及速度并且還包括機(jī)械手末端與目標(biāo)的位置信息[5-6]。輸出為控制ROV 的5 個(gè)自由度的力,與2 個(gè)關(guān)節(jié)的角度,共7 個(gè)輸出。出于輸出力有正有負(fù)的原因考慮,所以每層的激活函數(shù)都為tanh 函數(shù)。

        2)值函數(shù)網(wǎng)絡(luò)

        話說回來,老人為子女辛苦一輩子,子女贍養(yǎng)老人,讓老人享受人生的夕陽晚霞是兒女的責(zé)任跟義務(wù)。劉主任建議,在帶孩子這件事上,應(yīng)以年輕人為主,老年人身體畢竟不如年輕時(shí),容易失眠、焦慮、健忘,所以要綜合老年人的想法與意愿,不能因?yàn)檫@件事而影響家庭和睦相處。

        4)當(dāng)兩者距離小于0.18 m 時(shí),并且ROV 各個(gè)維度的運(yùn)動都小于0.03 m/s(或0.03 rad/s)s 時(shí),會有一個(gè)很大的正獎(jiǎng)勵(lì),reward=3 000。

        圖 5 PPO 算法機(jī)械臂末端抓取軌跡Fig. 5PPO algorithm manipulator end grab trajectory

        PPO 算法完成任務(wù)在仿真中所需要的時(shí)間步數(shù)為49 步,其速度曲線如圖6 所示。抓取過程中的平均速度為0.16 m/s,抓取成功率在99%以上。

        2.2 標(biāo)位置未知的抓取環(huán)境仿真實(shí)驗(yàn)

        在使用PPO 算法對這種環(huán)境進(jìn)行訓(xùn)練仿真時(shí),由于動作維度巨大,而且獎(jiǎng)勵(lì)稀疏,所以對算法進(jìn)行改進(jìn)[14 - 15]。

        圖 6 PPO 算法抓取過程中ROV 速度曲線Fig. 6Velocity curve of ROV in the process of grasping with PPO algorithm

        圖 7 PPO 算法收斂軌跡Fig. 7Convergence trajectory of PPO algorithm

        圖 8 PPO 算法訓(xùn)練后的仿真抓取過程Fig. 8Simulation process of PPO algorithm after training

        由于真實(shí)情況下,只有目標(biāo)出現(xiàn)在攝像機(jī)視野中,才有機(jī)會得到目標(biāo)的相對位置信息,所以設(shè)置ROV的攝像機(jī)視野,其范圍大小與其高度和姿態(tài)相關(guān),并且設(shè)置多個(gè)抓取目標(biāo),其初始位置隨機(jī)分布。只有目標(biāo)出現(xiàn)在攝像機(jī)視野內(nèi)并且離視野中心最近,才會有80%的概率得到其相對位置信息,有15%幾率沒有檢測到,有5%的幾率返回錯(cuò)誤的位置信息。這種情況與現(xiàn)實(shí)中抓取幾乎完全相似。

        用來進(jìn)行探索的動作輸出最終由下式得出,式中z 為概率密度服從(0,1)的正態(tài)分布取值。

        式中:M 為動作最大取值范圍的固定向量, ε為一固定常量其值很小,防止KL 散度為0,而無法計(jì)算。所以最終式子變?yōu)椋?/p>

        這樣雖然增加了需要收斂的時(shí)間,卻使策略在探索的過程中可以遍歷更大的區(qū)域,使其收斂到局部最優(yōu)時(shí)可以快速跳出,尋找全局最優(yōu)。

        1)目標(biāo)初始位置隨機(jī)

        仿真環(huán)境:對應(yīng)仿真環(huán)境2。

        對于以上四個(gè)構(gòu)成要素,需要增加基礎(chǔ)實(shí)驗(yàn)和綜合實(shí)驗(yàn)的分值占比,降低期末考試的分值占比,更科學(xué)地評價(jià)學(xué)生們的學(xué)習(xí)效果。

        參數(shù)設(shè)置:訓(xùn)練輪次3 000 輪,每輪包括9 000 次與環(huán)境的互動,獎(jiǎng)勵(lì)折扣因子 γ為0.99,KL 散度 δ為0.01,值函數(shù)優(yōu)化器學(xué)習(xí)率為0.001,每個(gè)輪次值函數(shù)網(wǎng)絡(luò)梯度下降次數(shù)為80 次,黑塞矩陣阻尼因子為0.1,共軛矩陣因子10,回溯步驟的最大數(shù)量K 為10,回溯因子為0.8,GEA-Lambda 為0.97。探索方式為改進(jìn)算法。

        深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與上文相同。

        獎(jiǎng)勵(lì)函數(shù)的設(shè)定分為了以下的幾種情況:

        ①運(yùn)動過程中失去了穩(wěn)性,會有一個(gè)很大的負(fù)獎(jiǎng)勵(lì),reward=-70 000;

        線列陣各部分線性參數(shù)見表1。d為纜的橫截面的直徑;ρc為纜密度;EA為軸向拉伸剛度;EI為彎曲剛度;Cdτ、Cdn和Cdb分別為各纜索的切向阻力系數(shù)、法向阻力系數(shù)以及副法向阻力系數(shù);Caτ、Can和Cab分別為切向附加質(zhì)量系數(shù)、法向附加質(zhì)量系數(shù)以及副法向附加質(zhì)量系數(shù)。

        ②在機(jī)械臂離末端與目標(biāo)相對較遠(yuǎn)的時(shí)候,在0.18 m 以上時(shí),reward=-(10-dis_difference*500);

        布拉姆·斯托克是19世紀(jì)著名愛爾蘭小說家,創(chuàng)作了大量以超自然邪惡幽靈為特征的長、中、短篇小說,其中《德古拉》因開啟了恐怖吸血鬼題材小說的先河而被公認(rèn)為一部經(jīng)典之作?!兜鹿爬芬?9世紀(jì)末期的英國為背景,以書信、日記、電報(bào)、報(bào)紙通訊等各種形式,時(shí)空交錯(cuò)地描寫了一個(gè)吸血鬼的施暴和滅亡的故事。本文運(yùn)用康奈爾的男性氣質(zhì)理論聚焦于該小說中男主人公喬納森·哈克的男性氣質(zhì)危機(jī)以及重建問題。

        ③當(dāng)臂離末端與目標(biāo)相對較近的時(shí),小于等于0.18 m 時(shí),reward=(0.18-distance)*30;

        ④當(dāng)兩者距離小于0.18 m 時(shí),并且ROV 各個(gè)維度的運(yùn)動都小于0.03 m/s(或0.03 rad/s)時(shí),會有一個(gè)很大的正獎(jiǎng)勵(lì),reward=10 000。

        圖9 與圖10 分別為測試的ROV 軌跡與訓(xùn)練所獲總獎(jiǎng)勵(lì)的收斂曲線。

        農(nóng)田灌溉用水指標(biāo)分析采用凈灌溉定額及灌溉水利用系數(shù)兩類指標(biāo),考慮到耕作技術(shù)、灌水技術(shù)的提高,未來各水平年灌溉凈定額將趨于減小。由于節(jié)水增糧行動采用膜下滴灌技術(shù),經(jīng)分析其年最大用水量為60.35 m3/畝,各項(xiàng)目區(qū)的實(shí)施期在2015年結(jié)束,因此用各論證區(qū)域的項(xiàng)目面積乘以用水定額計(jì)算項(xiàng)目區(qū)用水量,未改造的水澆地和菜田用水量按遼寧省行業(yè)用水定額標(biāo)準(zhǔn)進(jìn)行計(jì)算。2020年的用水量和2015年用水量一致,均為354.1萬m3。

        圖 9 目標(biāo)位置隨機(jī)機(jī)械臂末端抓取軌跡Fig. 9Grab trajectory of robot arm with random target position

        圖 10 目標(biāo)位置未知環(huán)境下訓(xùn)練的收斂曲線Fig. 10Convergence curve of training in unknown target location environment

        從圖11 可以看出ROV 在趨近目標(biāo)的過程中比較迅速的,其所走軌跡也近乎是最短的路線,但是在目標(biāo)附近時(shí)為了滿足抓取的要求會做許多調(diào)整,所以軌跡看起來會抖動比較多。綜合來看,這一系列動作所用時(shí)間很短,平均只用200 多次的與環(huán)境互動次數(shù)。

        王貴平在總結(jié)講話中要求,要認(rèn)真?zhèn)鬟_(dá)、貫徹落實(shí)好本次會議和常廳長的重要講話精神,做好下一階段的水土保持工作。一是高度重視全國水土保持規(guī)劃實(shí)施情況考核評估工作。二是切實(shí)加強(qiáng)重點(diǎn)水土保持工程建設(shè)管理。三是全力抓好淤地壩安全度汛和病險(xiǎn)淤地壩除險(xiǎn)加固工作。四是強(qiáng)化水土保持監(jiān)督監(jiān)測和信息化工作。五是補(bǔ)短板、抓薄弱環(huán)節(jié),有特色、因地制宜,點(diǎn)突破、精益求精,全力以赴推動我省水土保持工作再上新臺階。

        二級、三級國有資產(chǎn)管理機(jī)構(gòu)要定時(shí)向一級國有資產(chǎn)管理機(jī)構(gòu)報(bào)告有關(guān)國有資產(chǎn)的使用、變動以及盈虧情況等,國有資產(chǎn)出現(xiàn)問題要及時(shí)上報(bào),方便國有資產(chǎn)管理領(lǐng)導(dǎo)者科學(xué)適時(shí)地進(jìn)行決策。

        圖 11 目標(biāo)位置隨機(jī)機(jī)械臂末端抓取軌跡Fig. 11Grab trajectory of random manipulator at target position

        仿真環(huán)境:對應(yīng)仿真環(huán)境3。

        利用對仿真環(huán)境2 訓(xùn)練所得出的網(wǎng)絡(luò)可以直接應(yīng)用到這里,并取得不錯(cuò)的效果。

        3)攝像機(jī)視野下多位置隨機(jī)目標(biāo)抓取

        隨著這條路,我們來到了村中心的表姑家,眼前的景象讓我驚呆了。表姑家居然也住上了跟我家一樣的高樓大廈,已經(jīng)不是記憶中低矮殘破的平房了。在表姑家落座后,媽媽和表姑拉起了家常。我的思緒則飄回了幾年前。記得有一次,表姑家的屋頂有幾個(gè)地方還漏水。有客人來,表姑包了餃子,表哥、表姐像過年似的,狼吞虎咽……

        仿真環(huán)境:對應(yīng)仿真環(huán)境4。

        胡適并不認(rèn)識她,作為一位相貌堂堂的知名學(xué)者,他的女粉絲多不勝數(shù),他比吳健雄年長了近二十一歲,代溝如馬里亞納海溝一樣深??墒菂墙⌒蹖ε枷衲钅畈煌?929年,吳健雄考入中國公學(xué),當(dāng)時(shí)任中國公學(xué)校長的正是胡適先生。也許她報(bào)考中國公學(xué),就是沖著他去的吧?想想一個(gè)十七歲的女孩為了心目中的偶像,一步步地努力靠近他,去報(bào)考他管理的大學(xué),這是一個(gè)多么美麗的借口。

        參數(shù)設(shè)置:訓(xùn)練輪次3 000 輪,每輪包括9 000 次與環(huán)境的互動,獎(jiǎng)勵(lì)折扣因子 γ為0.99,KL 散度 δ為0.01,值函數(shù)優(yōu)化器學(xué)習(xí)率為0.001,每個(gè)輪次值函數(shù)網(wǎng)絡(luò)梯度下降次數(shù)為80 次,黑塞矩陣阻尼因子為0.1,共軛矩陣因子10,回溯步驟的最大數(shù)量K 為10,回溯因子為0.8,GEA-Lambda 為0.97。探索方式為改進(jìn)算法。深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與上文相同。

        獎(jiǎng)勵(lì)函數(shù)的設(shè)定分為以下幾種情況:

        1)運(yùn)動過程中失去穩(wěn)性,會有一個(gè)很大的負(fù)獎(jiǎng)勵(lì),reward=-70 000;

        2)當(dāng)目標(biāo)出現(xiàn)在攝像機(jī)視野內(nèi)獎(jiǎng)勵(lì)為:在機(jī)械臂離末端與目標(biāo)相對較遠(yuǎn),在0.18 m 以上時(shí),reward=-(10-dis_difference*500)+10,當(dāng)機(jī)械臂離末端與目標(biāo)相對較近,小于等于0.18 m 時(shí),reward=(0.18-distance)*30,當(dāng)兩者距離小于0.18 m,并且ROV 各個(gè)維度的運(yùn)動都小于0.03 m/s(或0.03 rad/s)時(shí),會有一個(gè)很大的正獎(jiǎng)勵(lì),reward=10 000;

        3)當(dāng)目標(biāo)沒有出現(xiàn)在視野內(nèi)時(shí),reward=-5。

        圖 12 復(fù)雜環(huán)境仿真實(shí)驗(yàn)Fig. 12Complex environment simulation experiment

        在PPO 改進(jìn)算法訓(xùn)練后,利用訓(xùn)練好的網(wǎng)絡(luò)模型作為控制器在所設(shè)置環(huán)境中執(zhí)行抓取任務(wù),任務(wù)中機(jī)械臂開始所處位置為(-0.062 5,0,1.357),移動到分布在3 m×3 m 的區(qū)域內(nèi)6 個(gè)隨機(jī)目標(biāo)中某一個(gè)所處位置,在仿真中所需要的時(shí)間步數(shù)為100~150 步左右,其速度曲線如圖13 所示。抓取過程中的平均速度為0.2 m/s,抓取成功率在41%以上。

        從收斂曲線可以看出,算法在改進(jìn)后應(yīng)對更為復(fù)雜的環(huán)境有較大的波動,但其最終成功抓取率優(yōu)于修改之前,并且在相同的獎(jiǎng)勵(lì)函數(shù)下,獎(jiǎng)勵(lì)得分提高了53.1%,說明算法在收斂到局部最優(yōu)值后可以跳出,繼續(xù)搜索。

        3 結(jié) 語

        表3 是對不同抓取方式進(jìn)行抓取測試的結(jié)果總結(jié),其中需要說明的是學(xué)習(xí)類算法進(jìn)行訓(xùn)練每次所采取的參數(shù)不同,但對最終結(jié)果影響很小,成功率為多次訓(xùn)練測試結(jié)果的平均水平。

        從表3 比較得出結(jié)論:PPO 算法在應(yīng)對更復(fù)雜的環(huán)境時(shí),抓取成功率大幅度降低。這是由于算法過早收斂,對一些情況探索不足。在對PPO 算法利用散度關(guān)系進(jìn)行修改,增加了探索的隨機(jī)性,最終的抓取成功率有所提升。

        圖 13 改進(jìn)PPO 算法機(jī)械臂末端抓取軌跡抓取過程速度Fig. 13The speed of manipulator end grasping trajectory based on improved PPO algorithm

        圖 14 改進(jìn)PPO 算法收斂圖Fig. 14Convergence diagram of improved PPO algorithm

        表 3 抓取方法比較Tab. 3Comparison of grabbing methods

        猜你喜歡
        環(huán)境策略
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        基于“選—練—評”一體化的二輪復(fù)習(xí)策略
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        孕期遠(yuǎn)離容易致畸的環(huán)境
        不能改變環(huán)境,那就改變心境
        我說你做講策略
        環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        一区二区三区四区免费国产视频| 破了亲妺妺的处免费视频国产| 成人国产精品一区二区网站公司 | 欧美俄罗斯乱妇| 日韩偷拍一区二区三区视频| 日本高清一区在线你懂得| 欧美又大粗又爽又黄大片视频| 国产美女在线精品免费观看| 青春草国产视频| 亚洲女同av一区二区在线观看| 国产成人久久精品一区二区三区 | 亚洲国产精品中文字幕久久| 日韩精品一区二区午夜成人版| 亚洲人成网站77777在线观看 | 亚洲国产一区二区视频| 久久午夜福利无码1000合集 | 亚洲女同成av人片在线观看| 美利坚合众国亚洲视频| 亚洲精品第一国产综合精品 | 女同av在线观看网站| 日韩激情视频一区在线观看| 国产激情无码视频在线播放性色 | 久久99精品国产99久久| 久久中文字幕久久久久91| 偷拍熟女露出喷水在线91| 亚洲 日韩 激情 无码 中出| 手机在线看永久av片免费| 国产又色又爽又刺激视频| 亚洲av精品一区二区| 狠狠躁天天躁无码中文字幕图| 国产成人亚洲日韩欧美| 最新在线观看精品国产福利片| 亚洲国产精品av麻豆网站| 蜜桃av抽搐高潮一区二区| 久久青草伊人精品| 久久这黄色精品免费久| 欧美xxxx做受欧美88| 亚洲av无码乱观看明星换脸va| 国产一区二区丁香婷婷| 国产三级视频不卡在线观看| 国产精品无码专区av在线播放|