亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的起重機(jī)動(dòng)作序列規(guī)劃

        2021-10-25 05:02:28高順德李傳發(fā)
        機(jī)電工程技術(shù) 2021年9期
        關(guān)鍵詞:吊鉤臂架起重機(jī)

        高順德,李傳發(fā),郭 忠

        (1.大連理工大學(xué)機(jī)械工程學(xué)院,遼寧大連116024;2.中石化重型起重運(yùn)輸工程有限責(zé)任公司,北京100029)

        0 引言

        隨著人工智能技術(shù)的成熟,強(qiáng)化學(xué)習(xí)已經(jīng)被應(yīng)用于各個(gè)領(lǐng)域如自動(dòng)駕駛汽車(chē)、機(jī)器人等,大大提升了人類(lèi)社會(huì)的生產(chǎn)力。而汽車(chē)起重機(jī)恰好與汽車(chē)與機(jī)器人有交叉重疊的部分,如汽車(chē)起重機(jī)在行駛時(shí)是一輛大型的汽車(chē),其臂架在運(yùn)行時(shí)可以類(lèi)比于機(jī)器人的臂架,所以汽車(chē)起重機(jī)有很大的希望實(shí)現(xiàn)自動(dòng)化,這將會(huì)大大提高吊裝效率與人力成本。所以本文將一種強(qiáng)化學(xué)習(xí)方法DDPG應(yīng)用于汽車(chē)起重機(jī)的動(dòng)作序列規(guī)劃,以此實(shí)現(xiàn)起重機(jī)自動(dòng)吊取的動(dòng)作序列規(guī)劃。盡管起重機(jī)的動(dòng)作序列是高維度、多種類(lèi)的,但是通過(guò)三維軟件VTK的仿真,證明DDPG可以很好地被應(yīng)用在汽車(chē)起重機(jī)的動(dòng)作序列規(guī)劃中。

        本文所要解決的問(wèn)題是:在使用汽車(chē)起重機(jī)進(jìn)行目標(biāo)物的吊取時(shí),從原始狀態(tài)自動(dòng)地規(guī)劃出一個(gè)動(dòng)作序列來(lái)實(shí)現(xiàn)目標(biāo)物的吊取,由此實(shí)現(xiàn)起重機(jī)的智能化。而強(qiáng)化學(xué)習(xí)可以使機(jī)器按照人的思維來(lái)進(jìn)行學(xué)習(xí)和與環(huán)境進(jìn)行交互,具有解決此問(wèn)題的潛力。

        而將人工智能應(yīng)用于起重機(jī)的動(dòng)作序列規(guī)劃中的方法暫時(shí)還處于萌芽階段,但是因?yàn)闄C(jī)器人手臂的動(dòng)作序列與起重機(jī)的動(dòng)作序列規(guī)劃有相似之處,所以關(guān)于機(jī)器人的動(dòng)作序列規(guī)劃的文獻(xiàn)亦有很好的參考價(jià)值。比如Weitian Wang等[1]利用幾何圖形來(lái)表示現(xiàn)實(shí)任務(wù)中的模型,并設(shè)計(jì)包含時(shí)間消耗和與人工協(xié)作成本的函數(shù)。使用此函數(shù)來(lái)控制機(jī)器人的動(dòng)作,通過(guò)優(yōu)化此函數(shù),來(lái)達(dá)到在線規(guī)劃?rùn)C(jī)器人動(dòng)作的目的。其算法通過(guò)實(shí)驗(yàn)證明了能夠成功地為機(jī)器人產(chǎn)生最優(yōu)動(dòng)作,從而保證人機(jī)協(xié)同裝配的效率。Jinglun Yu等[2]測(cè)試了Q-Learning、A3C、DDPG等算法完成路徑規(guī)劃的時(shí)間和路徑性能的評(píng)估與算法的收斂時(shí)間和累積獎(jiǎng)勵(lì)性能,發(fā)現(xiàn)DDPG算法在以上4個(gè)測(cè)試中表現(xiàn)都為最優(yōu)。Timothy P Lillicrap等[3]提出的DDPG算法在Deep Q-Learning的基礎(chǔ)進(jìn)行創(chuàng)新。提出了一種基于確定性策略梯度的Actor-critic與模型無(wú)關(guān)的算法,該算法可以在連續(xù)動(dòng)作空間上收斂。本文的算法正是基于此算法很好地勝任了起重機(jī)臂架動(dòng)作序列的規(guī)劃。Haarnoja T等[4]提出了了軟參與者關(guān)鍵算法(SAC),是基于離線學(xué)習(xí)的最大熵RL框架Actor-critic算法。在此框架中,Actor網(wǎng)絡(luò)的目標(biāo)是同時(shí)最大化預(yù)期收益和熵。這些公式可以加速訓(xùn)練并提高有關(guān)超參數(shù)的穩(wěn)定性,包括自動(dòng)調(diào)整溫度超參數(shù)的約束公式。Stouraitis T[5]提出了一種高效的結(jié)合圖搜索算法(基于A*算法)與軌跡優(yōu)化的雙重動(dòng)作序列規(guī)劃方法,使機(jī)器人能夠根據(jù)動(dòng)態(tài)任務(wù)的變化動(dòng)態(tài)地調(diào)整其策略。這種方法使智能體能夠在混合任務(wù)中進(jìn)行在線規(guī)劃。通過(guò)優(yōu)化離散的智能體與目標(biāo)物接觸的位置,以及接觸期間的動(dòng)作序列、連續(xù)軌跡和力曲線來(lái)實(shí)現(xiàn)不同智能體的協(xié)同操作。范卿[6]利用蟻群優(yōu)化算法獲取吊裝路徑,且可通過(guò)權(quán)重調(diào)整選擇不同條件的最優(yōu)路徑,生成最終吊裝路徑,從而為吊裝方案中的路徑規(guī)劃提供解決方案。Wu Di等[7]提出了一種改進(jìn)的RRT-Tailor-Spline(RRT-TS)算法。通過(guò)這種方法,提升了起重機(jī)的路徑規(guī)劃的安全性,在規(guī)劃起重機(jī)的吊裝軌跡時(shí),一些經(jīng)典算法比如A*、Dijkstra算法、人工勢(shì)場(chǎng)法等基于空間幾何構(gòu)造和圖搜索的算法也可以規(guī)劃出一條軌跡,但是還是需要人去操縱起重機(jī)來(lái)按照所規(guī)劃出來(lái)的軌跡去吊裝,所以直接規(guī)劃起重機(jī)在吊裝時(shí)的動(dòng)作智能化程度將會(huì)更高。而強(qiáng)化學(xué)習(xí)的輸出即為動(dòng)作輸出,所以強(qiáng)化學(xué)習(xí)具有直接規(guī)劃出動(dòng)作序列的能力。

        1 DDPG算法

        DDPG算法由Google Deepmind團(tuán)隊(duì)提出的一種基于Actor-critic具有確定性策略的算法,此算法有兩個(gè)主要優(yōu)點(diǎn):可以作用于具有連續(xù)動(dòng)作的智能體與算法易于收斂。此算法基于傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法:一個(gè)智能體(Agent)用其策略π環(huán)境進(jìn)行交互,由環(huán)境產(chǎn)生當(dāng)前智能體所處的狀態(tài)S,采取策略π產(chǎn)生的動(dòng)作A后智能體處于環(huán)境的下一狀態(tài)S_及其獎(jiǎng)勵(lì)R。然后利用這些參數(shù)來(lái)找出一個(gè)策略π使智能體與環(huán)境交互能產(chǎn)生最大收益。

        DDPG算法共有兩個(gè)網(wǎng)絡(luò)組成,分別為Actor網(wǎng)絡(luò)輸入狀態(tài)S,輸出動(dòng)作A,所以Actor可以看作是一種策略;Critic網(wǎng)絡(luò)輸入狀態(tài)S,由β策略產(chǎn)生的動(dòng)作a(需要注意的是這里的β策略并不是Actor網(wǎng)絡(luò)的策略,所以DDPG算法在計(jì)算Actor網(wǎng)絡(luò)的參數(shù)梯度時(shí)進(jìn)行了近似),獎(jiǎng)勵(lì)r與下一狀態(tài)S_。Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)又由兩個(gè)結(jié)構(gòu)相同但是更新策略不同的評(píng)估網(wǎng)絡(luò)(Eval-net)與對(duì)照網(wǎng)絡(luò)(Target-net)組成,因?yàn)橹苯訉-Learning方法應(yīng)用到神經(jīng)網(wǎng)絡(luò)中在很多環(huán)境中被證明不夠穩(wěn)定,所以增加對(duì)照網(wǎng)絡(luò)可以增加網(wǎng)絡(luò)的整體穩(wěn)定性,其中評(píng)估網(wǎng)絡(luò)的參數(shù)隨著訓(xùn)練的進(jìn)行不斷地更新,而對(duì)照網(wǎng)絡(luò)的參數(shù)則是根據(jù)評(píng)估網(wǎng)路的參數(shù)進(jìn)行跟新,更新方式為θ′←τθ+(1-τ)θ′其中τ<<1,這樣就使得對(duì)照網(wǎng)絡(luò)更新的速度大大減緩,增加了網(wǎng)絡(luò)的穩(wěn)定性。Crit?ic中評(píng)估網(wǎng)絡(luò)參數(shù)的更新與DQN網(wǎng)絡(luò)[1]更新的方式相同,都是借助估計(jì)的Q值與實(shí)際Q值的差值loss來(lái)更新,其中l(wèi)oss函數(shù)為:

        其中yi為近似的實(shí)際Q值,其表達(dá)式為:

        在這兩個(gè)表達(dá)式中的參數(shù)帶符號(hào)“′”的即為對(duì)照網(wǎng)絡(luò)輸出的參數(shù)值,反之則為估計(jì)網(wǎng)絡(luò)的參數(shù)值。而作為off-policy算法DDPG采用了與DQN算法類(lèi)似的輸入策略,即小批量的輸入?yún)?shù)(數(shù)量即為式(1)中的N),這時(shí)就需要一個(gè)容器來(lái)儲(chǔ)存這些參數(shù),所以由網(wǎng)絡(luò)產(chǎn)生輸出并不會(huì)立即開(kāi)始訓(xùn)練,而是以類(lèi)似貨物的方式先儲(chǔ)存起來(lái),而在本算法中的儲(chǔ)存方式即為(st,at,rt,st+1),而這些參數(shù)在critic網(wǎng)絡(luò)開(kāi)始訓(xùn)練時(shí)以N個(gè)為一組的方式輸入到網(wǎng)絡(luò),這樣就大大地提高了網(wǎng)絡(luò)的學(xué)習(xí)效率,因?yàn)榫W(wǎng)絡(luò)不用在等待一個(gè)策略完成后再開(kāi)始學(xué)習(xí),而是可以邊探索邊學(xué)習(xí)。

        Actor網(wǎng)絡(luò)中Eval-net的更新為:θ=θ+λ?J。

        根據(jù)Sutton提出的策略梯度計(jì)算公式:

        將J在θ進(jìn)行微分得到:

        將積分去掉,近似為:

        這時(shí)?J≈?θμJ即為式(5)中的?θμJ,但是其實(shí)?J≈?θμJ,因?yàn)樯厦妫?個(gè)式子中的μ其實(shí)并不是Ac?tor的策略而是在Actor的策略μ′上加了一個(gè)隨機(jī)過(guò)程?,即所以Actor所產(chǎn)生的動(dòng)作與μ產(chǎn)生的動(dòng)作并不一定相同,但是用μ動(dòng)作的價(jià)值來(lái)近似評(píng)估Actor策略的好壞可以使得Actor網(wǎng)絡(luò)在前期能夠探索足夠多的動(dòng)作,使算法盡可能避免收斂到局部最優(yōu)值,而是向全局最優(yōu)值收斂。

        2 算法環(huán)境編寫(xiě)

        2.1 動(dòng)作序列

        起重機(jī)的動(dòng)作序列主要有4個(gè):起升、回轉(zhuǎn)、變幅、吊取。以起重機(jī)臂架為x方向,垂直于地面的方向?yàn)閦方向,建立局部坐標(biāo)系,假設(shè)吊鉤與第5節(jié)臂的末端相同,不考慮折疊距離,則吊鉤的初始位置即為第一節(jié)臂的末端坐標(biāo)設(shè)為(30,0,0)。將4個(gè)動(dòng)作儲(chǔ)存在動(dòng)作列表中,在環(huán)境中進(jìn)行交互時(shí),再將由DDPG傳入的角度動(dòng)作值縮小為原來(lái)的10倍、伸長(zhǎng)動(dòng)作擴(kuò)大為原來(lái)的30倍,因?yàn)檫@樣可以使得神經(jīng)網(wǎng)絡(luò)的輸出沒(méi)有太大的差異,防止參數(shù)在更新時(shí)發(fā)生梯度爆炸或梯度消失。

        如圖1所示,如果不將動(dòng)作值做一定的處理,雖然獎(jiǎng)勵(lì)不斷的提升,但是critic網(wǎng)絡(luò)中的loss函數(shù)的值在不斷減小到800步時(shí),開(kāi)始出現(xiàn)周期性的震蕩,結(jié)合神經(jīng)網(wǎng)路的參數(shù)值變化可以看出網(wǎng)絡(luò)在800步處于發(fā)散狀態(tài),所以直接將參數(shù)輸入,會(huì)導(dǎo)致輸入?yún)?shù)差異過(guò)大導(dǎo)致神經(jīng)網(wǎng)路無(wú)法收斂。

        圖1 直接將參數(shù)輸入得到的結(jié)果

        根據(jù)動(dòng)作列表中起重機(jī)臂架的動(dòng)作序列就可以求得起重機(jī)在運(yùn)動(dòng)之后的坐標(biāo)值,將其中進(jìn)行簡(jiǎn)化為剛體模型則只要知道起重機(jī)臂架末端的坐標(biāo)與吊鉤的坐標(biāo)即可,所以將其分別設(shè)置為crane_x、crane_y、crane_z,起重機(jī)臂架的原始長(zhǎng)度為L(zhǎng),可以得到更新公式為:

        2.2 獎(jiǎng)勵(lì)函數(shù)

        獎(jiǎng)勵(lì)R的設(shè)置也極為重要,而且是強(qiáng)化學(xué)習(xí)中的難點(diǎn),因?yàn)楠?jiǎng)勵(lì)相當(dāng)于不斷引導(dǎo)強(qiáng)化學(xué)習(xí)算法的導(dǎo)師,所以如果獎(jiǎng)勵(lì)設(shè)立的不正確也無(wú)法保證算法的收斂或者出現(xiàn)不符合設(shè)計(jì)者預(yù)想的收斂方式,而對(duì)于起重機(jī)的動(dòng)作序列規(guī)劃則可以很直觀地得出,獎(jiǎng)勵(lì)的設(shè)置即為吊鉤到目標(biāo)物的距離的負(fù)數(shù),這樣當(dāng)?shù)蹉^接近目標(biāo)物時(shí),獎(jiǎng)勵(lì)就會(huì)增大從而使得Actor網(wǎng)絡(luò)更加傾向于此類(lèi)動(dòng)作,所以算法就會(huì)有收斂的趨勢(shì),如圖2所示,如果只將距離的負(fù)數(shù)作為輸入,雖然算法會(huì)收斂,但結(jié)合獎(jiǎng)勵(lì)收斂曲線卻發(fā)現(xiàn)獎(jiǎng)勵(lì)曲線震蕩嚴(yán)重,可能導(dǎo)致訓(xùn)練后的網(wǎng)絡(luò)精度不夠。

        圖2 只將距離的負(fù)數(shù)作為輸入得到的結(jié)果

        2.3 狀態(tài)函數(shù)

        狀態(tài)的設(shè)置為兩個(gè)分別為起重機(jī)底座與目標(biāo)物的距離S1和起重機(jī)的吊鉤與目標(biāo)物的距離S2,設(shè)置第一個(gè)S1是為了使得神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)使可以起重機(jī)具有方向識(shí)別的能力,因?yàn)樯窠?jīng)網(wǎng)絡(luò)的輸出動(dòng)作值是一個(gè)矢量值,如圖3所示,如果只將S2作為輸入,起重機(jī)在兩個(gè)不同的位置卻有相同的輸入,這樣必然會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)無(wú)法收斂,所以還需要添加S1,使算法具有方向識(shí)別的能力。

        圖3 起重機(jī)狀態(tài)

        實(shí)驗(yàn)最優(yōu)輸入下的DDPG算法中critic神經(jīng)網(wǎng)絡(luò)的re?ward函數(shù)如圖4所示,神經(jīng)網(wǎng)絡(luò)在大約800步的時(shí)候開(kāi)始收斂,因?yàn)樵谟?xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),設(shè)置一個(gè)循環(huán)的退出條件為網(wǎng)絡(luò)探索次數(shù)為300或者吊鉤持續(xù)接觸目標(biāo)物50次,因?yàn)?,在網(wǎng)路快收斂時(shí)。吊鉤可能接觸到了目標(biāo)物,但卻沒(méi)有持續(xù)接觸,但是這種情況下,反而獎(jiǎng)勵(lì)加的更多,比如斷續(xù)接觸了200次的獎(jiǎng)勵(lì)就要大于連續(xù)接觸50次的獎(jiǎng)勵(lì)。而如圖所示可以推斷網(wǎng)絡(luò)在800步時(shí)開(kāi)始有在一個(gè)策略循環(huán)中出現(xiàn)收斂的情況,當(dāng)?shù)竭_(dá)1 100步時(shí),網(wǎng)絡(luò)基本在整個(gè)狀態(tài)空間都收斂了,所以在到2 000步時(shí)獎(jiǎng)勵(lì)基本保持不變。

        圖4 最優(yōu)輸入下獎(jiǎng)勵(lì)函數(shù)收斂曲線

        3 模擬實(shí)驗(yàn)

        為了驗(yàn)證訓(xùn)練好的算法可以按照起重機(jī)實(shí)際吊起動(dòng)作序列進(jìn)行規(guī)劃,所以作者利用三維建模軟件VTK模擬了起重機(jī)吊取目標(biāo)物的過(guò)程。在驗(yàn)證的過(guò)程中發(fā)現(xiàn)模擬的起重機(jī)可以按照作者預(yù)想的策略進(jìn)行規(guī)劃。

        為了在3D環(huán)境中方便觀看結(jié)果,所以將起重機(jī)的模型進(jìn)行了簡(jiǎn)化:將起重機(jī)的底座簡(jiǎn)化為一個(gè)長(zhǎng)方體,將5節(jié)臂架簡(jiǎn)化為1根可以伸出旋轉(zhuǎn)的鋼桿,吊繩在程序的設(shè)定雖然假設(shè)為了鋼桿,但是其運(yùn)作原理卻是與實(shí)際的運(yùn)行情況相同。如圖5所示將底座設(shè)為彩色,將起重機(jī)的臂架設(shè)置為白色的鋼桿,為了方便觀看,其初始長(zhǎng)度設(shè)為了100 m,其末端坐標(biāo)為(100,0,0),目標(biāo)物為圖中位于起重機(jī)左前方的圓柱體,坐標(biāo)值為(100,100,0)。

        圖5 起重機(jī)原始位置

        在VTK顯示界面上加了可以改變目標(biāo)物坐標(biāo)的狀態(tài)欄,這樣可以方便觀看起重機(jī)移向目標(biāo)物的動(dòng)作方式,經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)移動(dòng)狀態(tài)欄改變目標(biāo)物的坐標(biāo)時(shí),訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)可以按照實(shí)際的吊取動(dòng)作序列進(jìn)行規(guī)劃,即在原始狀態(tài)下,經(jīng)過(guò)起升、回轉(zhuǎn)、變幅、吊取4個(gè)狀態(tài)使吊鉤接觸到目標(biāo)物,如圖6所示。

        圖6 起重機(jī)目標(biāo)位置

        綜上所述,本文所設(shè)計(jì)的算法可以被應(yīng)用到起重機(jī)的動(dòng)作序列規(guī)劃中。

        4 結(jié)束語(yǔ)

        通過(guò)對(duì)算法的不斷優(yōu)化以及通過(guò)VTK虛擬環(huán)境的仿真,說(shuō)明了本文所應(yīng)用的強(qiáng)化學(xué)習(xí)算法,可以應(yīng)用到起重機(jī)的動(dòng)作序列規(guī)劃中,可以快速地在無(wú)障礙物的情形下規(guī)劃出起重機(jī)所需執(zhí)行的動(dòng)作。本文的創(chuàng)新點(diǎn)主要有:

        (1)創(chuàng)新性地將強(qiáng)化學(xué)習(xí)應(yīng)用到起重機(jī)的動(dòng)作序列規(guī)劃中,使得訓(xùn)練完成后的算法可以更快的規(guī)劃出最優(yōu)的動(dòng)作序列使得起重機(jī)完成吊裝;

        (2)應(yīng)用強(qiáng)化學(xué)習(xí),使得規(guī)劃起重機(jī)的動(dòng)作序列時(shí),不需要對(duì)環(huán)境進(jìn)行坐標(biāo)系建模,因?yàn)楸疚膽?yīng)用算法的輸入為起重機(jī)底盤(pán)和吊鉤到被吊物的距離,輸出為臂架的動(dòng)作序列,所以在實(shí)際的吊裝情境中輸入的距離可以用傳感器直接測(cè)量得出,本文對(duì)環(huán)境進(jìn)行建模是因?yàn)闆](méi)有坐標(biāo)系,就無(wú)法得出算法所需要的距離輸入。

        猜你喜歡
        吊鉤臂架起重機(jī)
        水下作業(yè)臂架力學(xué)特性分析
        海上風(fēng)電有位“吊鉤大王”
        起重機(jī)吊鉤定位裝置
        山西冶金(2020年3期)2020-07-15 04:15:04
        對(duì)起重機(jī)“制動(dòng)下滑量”相關(guān)檢驗(yàn)要求的探討
        MYQ型5000t門(mén)式起重機(jī)簡(jiǎn)介
        基于ANSYS的四連桿臂架系統(tǒng)全幅度應(yīng)力分析
        混凝土泵車(chē)臂架系統(tǒng)折疊型式和機(jī)構(gòu)分析
        折臂式舉高消防車(chē)臂架系統(tǒng)振動(dòng)特性研究
        大型起重機(jī)集中潤(rùn)滑的研究與改善
        Q48 懸鏈?zhǔn)綊佂枨謇頇C(jī)爬坡吊鉤的結(jié)構(gòu)設(shè)計(jì)
        无码人妻av免费一区二区三区| 日本视频一区二区三区一| 蜜桃av人妻精品一区二区三区| 久久精品色福利熟妇丰满人妻91| 人妻精品在线手机观看| 亚洲精品久久久久久久蜜桃| 爆乳熟妇一区二区三区霸乳| 玩弄少妇高潮ⅹxxxyw| 国产精品一区二区 尿失禁 | 台湾佬中文网站| 大又大粗又爽又黄少妇毛片| 在线播放a欧美专区一区| 国产尤物精品福利视频| 黄色成人网站免费无码av| 欧美成人久久久| 午夜国产精品久久久久| 61精品人妻一区二区三区蜜桃| 日本午夜a级理论片在线播放| 日本亚洲中文字幕一区| 99久久99久久精品国产片 | 成片免费观看视频大全| 亚洲人成人影院在线观看| 亚洲色AV性色在线观看| 无码伊人久久大香线蕉| 国产精品一区二区三区成人| 亚洲综合在线观看一区二区三区| 亚洲成av人综合在线观看| 东北老女人高潮大喊舒服死了| 老司机在线精品视频网站| 中文文精品字幕一区二区| 亚洲日日噜噜噜夜夜爽爽| 亚洲视一区二区三区四区| 日本高级黄色一区二区三区| 久久亚洲中文字幕精品一区| 欧美日韩亚洲国产精品| 久久久www成人免费无遮挡大片| 日韩中文字幕一区在线| 久久一区二区三区久久久| 永久亚洲成a人片777777| 99精品视频在线观看| 亚洲色图少妇熟女偷拍自拍|