亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的工業(yè)機(jī)械臂數(shù)字孿生與智能控制

        2023-08-21 08:43:58王子琪嚴(yán)知宇王正方
        科技創(chuàng)新與應(yīng)用 2023年23期
        關(guān)鍵詞:機(jī)械策略模型

        王子琪,嚴(yán)知宇,武 辰,王正方*

        (1.山東大學(xué) 控制科學(xué)與工程學(xué)院,濟(jì)南 250003;2.山東大學(xué) 物理學(xué)院,濟(jì)南 250003;3.山東大學(xué) 能源與動(dòng)力工程學(xué)院,濟(jì)南 250003)

        如今,在中國(guó)制造2025 背景下,智能制造工程備受關(guān)注,數(shù)字孿生技術(shù)也正在成為受到關(guān)注和重視的工業(yè)熱點(diǎn)話題,聚焦到工業(yè)機(jī)械臂問題上,在現(xiàn)實(shí)工業(yè)機(jī)械臂的應(yīng)用中,示教法是大多數(shù)企業(yè)對(duì)于機(jī)械臂采用的控制方法。

        當(dāng)前數(shù)字孿生技術(shù)已經(jīng)趨于成熟,在各個(gè)領(lǐng)域廣泛適用且效果良好。由于數(shù)字孿生技術(shù)具有多物理、多尺度、多學(xué)科屬性,因而能夠?qū)崿F(xiàn)物理空間與信息空間交互與融合[1]。在數(shù)字孿生技術(shù)發(fā)展方面,Li 等[2]基于幾何、物理和順序規(guī)則描述構(gòu)建了一個(gè)多源模型驅(qū)動(dòng)的數(shù)字孿生系統(tǒng),用于對(duì)機(jī)器人裝配系統(tǒng)進(jìn)行精確的實(shí)時(shí)仿真。Malik 等[3-5]通過案例演示,探索了數(shù)字孿生在解決復(fù)雜協(xié)作生產(chǎn)系統(tǒng)中的應(yīng)用。李浩等[6]對(duì)面向人機(jī)交互的數(shù)字孿生系統(tǒng)特征進(jìn)行分析,提出了人機(jī)協(xié)作的安全控制技術(shù)以及孿生系統(tǒng)的態(tài)勢(shì)感知和監(jiān)測(cè)預(yù)警解決方案。鮑勁松等[7]面向人-機(jī)-環(huán)境共融的數(shù)字孿生協(xié)同技術(shù),從環(huán)境和任務(wù)2 個(gè)核心來展開數(shù)字孿生協(xié)同的人機(jī)共融科學(xué)問題。在數(shù)字孿生技術(shù)應(yīng)用方面,陶飛等[8]在數(shù)字孿生車間基礎(chǔ)上探討了基于車間孿生數(shù)據(jù)的車間物理世界和信息世界的交互與共融理論和實(shí)現(xiàn)方法。林潤(rùn)澤等[9]依托智能工廠流水線實(shí)驗(yàn)裝置,構(gòu)建了智能裝配機(jī)械臂數(shù)字孿生實(shí)驗(yàn)系統(tǒng),提出了一種基于多模型融合的數(shù)字孿生系統(tǒng)模型集成方法。

        針對(duì)傳統(tǒng)機(jī)理模型的非線性、不確定性問題,本文采用一種基于數(shù)字孿生技術(shù)的工業(yè)機(jī)械臂控制方法及系統(tǒng),通過構(gòu)建機(jī)械臂的數(shù)字孿生體實(shí)現(xiàn)對(duì)工業(yè)機(jī)械臂的實(shí)時(shí)、自動(dòng)化智能控制。

        1 工業(yè)機(jī)械臂的數(shù)字孿生體建模

        1.1 Aubo-i10 工業(yè)機(jī)械臂的結(jié)構(gòu)與參數(shù)

        對(duì)Aubo-i10 工業(yè)機(jī)械臂進(jìn)行建模,該機(jī)械臂的結(jié)構(gòu)如圖1 所示。

        圖1 Aubo-i10 工業(yè)機(jī)械臂的結(jié)構(gòu)

        該機(jī)械臂包括6 個(gè)旋轉(zhuǎn)關(guān)節(jié)、5 個(gè)從動(dòng)部件、基座和工具端。其中,每個(gè)旋轉(zhuǎn)關(guān)節(jié)表示一個(gè)自由度,包括基 座關(guān)節(jié)1、肩部關(guān)節(jié)2、肘部關(guān)節(jié)3、第一腕部關(guān)節(jié)4、第 二腕部關(guān)節(jié)5 和第三腕部關(guān)節(jié)6;每2 個(gè)關(guān)節(jié)之間設(shè)有1 個(gè)由轉(zhuǎn)動(dòng)帶動(dòng)的部件即從動(dòng)部件,共5 個(gè)從動(dòng)部件,基座關(guān)節(jié)1 和肩部關(guān)節(jié)2 之間設(shè)置第一從動(dòng)部件,肩部關(guān)節(jié)2 和肘部關(guān)節(jié)3 之間設(shè)置第二從動(dòng)部件,肘部關(guān)節(jié)3 和第一腕部關(guān)節(jié)4 之間設(shè)置第三從動(dòng)部件,第一腕部關(guān)節(jié)4 和第二腕部關(guān)節(jié)5 之間設(shè)置第四從動(dòng)部件,第二腕部關(guān)節(jié)5 和第三腕部關(guān)節(jié)6 之間設(shè)置第五從動(dòng)部件;除此以外,該工業(yè)機(jī)械臂還包括基座7 和工具端8,基座與基座關(guān)節(jié)1 連接,用于機(jī)械臂本體和機(jī)器人底座連接,工具端與第三腕部關(guān)節(jié)6 連接,用于機(jī)械臂本體與工具連接。

        1.2 數(shù)字孿生體的建模

        以上述六自由度工業(yè)機(jī)械臂為基礎(chǔ),利用數(shù)字孿生技術(shù)構(gòu)建工業(yè)機(jī)械臂的數(shù)字孿生體模型,如圖2 所示,該數(shù)字孿生體模型包括6 個(gè)旋轉(zhuǎn)關(guān)節(jié)和5 個(gè)從動(dòng)部件,以及固定的基座和機(jī)械臂末端的工具端,設(shè)置旋轉(zhuǎn)關(guān)節(jié)和從動(dòng)部件之間的父子邏輯關(guān)系。

        圖2 Aubo-i10 工業(yè)機(jī)械臂的數(shù)字孿生體

        上述父子邏輯關(guān)系是指,當(dāng)設(shè)置一個(gè)物體為另一個(gè)物體的子對(duì)象時(shí),該物體即為子物體,另一個(gè)物體為父物體,子物體隨著父物體的轉(zhuǎn)動(dòng)變化而變化,相對(duì)點(diǎn)位置不發(fā)生改變,而子物體轉(zhuǎn)動(dòng)變化時(shí)父物體并不主動(dòng)跟隨發(fā)生改變。一個(gè)父物體可以有多個(gè)子物體,但一個(gè)子物體只能有一個(gè)父物體,子物體可以再成為其他物體的父物體。

        數(shù)字孿生體模型上述11 個(gè)部件(6 個(gè)旋轉(zhuǎn)關(guān)節(jié)和5個(gè)從動(dòng)部件)分別兩兩構(gòu)成父子邏輯關(guān)系,具體為基座關(guān)節(jié)1 和第一從動(dòng)部件為父子邏輯關(guān)系、第一從動(dòng)部件和肩部關(guān)節(jié)2 為父子邏輯關(guān)系,以此類推,最終,基座關(guān)節(jié)1、第一從動(dòng)部件、肩部關(guān)節(jié)2、第二從動(dòng)部件、肘部關(guān)節(jié)3、第三從動(dòng)部件、第一腕部關(guān)節(jié)4、第四從動(dòng)部件、第二腕部關(guān)節(jié)5、第五從動(dòng)部件和第三腕部關(guān)節(jié)6 按順序依次兩兩構(gòu)成父子邏輯關(guān)系。此外,該工業(yè)機(jī)械臂還包括基座和工具端,基座和基座關(guān)節(jié)1 構(gòu)成父子邏輯關(guān)系,第三腕部關(guān)節(jié)6 和工具端構(gòu)成父子邏輯關(guān)系。

        在上述建模過程中,使用的數(shù)據(jù)參數(shù)還包括:基于工業(yè)機(jī)械臂的實(shí)際參數(shù),設(shè)置該模型的基本參數(shù),包括關(guān)節(jié)靈敏度、關(guān)節(jié)活動(dòng)范圍(在本實(shí)施例中為-175~175°)、各關(guān)節(jié)的線性速度和加速度的上限等,保證該數(shù)字孿生體模型的運(yùn)動(dòng)軌跡更貼近實(shí)際工業(yè)機(jī)械臂的運(yùn)動(dòng)。

        2 實(shí)時(shí)數(shù)據(jù)的采集與傳輸

        Modbus[10]是一種串行通信協(xié)議,其已經(jīng)成為工業(yè)領(lǐng)域通信協(xié)議的業(yè)界標(biāo)準(zhǔn)(De facto),并且現(xiàn)在是工業(yè)電子設(shè)備之間常用的連接方式。允許多種電子接口,屬于一種一主多從的通信協(xié)議。選擇Aubo-i10 作為主機(jī),Unity3D 平臺(tái)中的數(shù)字孿生體作為從機(jī)。使用基于Socket 的Modbus-TCP 通信建立連接。在通信過程中,通過C#代碼控制Aubo-i10 的運(yùn)動(dòng),同時(shí)將運(yùn)動(dòng)參數(shù)發(fā)送至Unity3D 平臺(tái)。在Unity3D 平臺(tái)中的數(shù)字孿生體中,進(jìn)行強(qiáng)化學(xué)習(xí)后得到最優(yōu)參數(shù),再返回至Aubo-i10實(shí)體。

        3 數(shù)字孿生體的學(xué)習(xí)訓(xùn)練

        強(qiáng)化學(xué)習(xí)是一種針對(duì)不同的agent(代指數(shù)字孿生體)采取相應(yīng)動(dòng)作的機(jī)器學(xué)習(xí)方法。動(dòng)作at∈A 是基于狀態(tài)st∈S 和當(dāng)時(shí)的環(huán)境t 做出的選擇,其中動(dòng)作空間A 是給定環(huán)境中所有有效操作的集合,并且S 是一組狀態(tài),針對(duì)不同的選擇,agent 會(huì)收到不同的獎(jiǎng)勵(lì)Rt,這取決于其導(dǎo)致下一狀態(tài)的行為的影響st+1∈S,選擇行動(dòng)的策略稱為策略π。agent 的目標(biāo)是學(xué)習(xí)最優(yōu)策略,即從長(zhǎng)遠(yuǎn)來看使累積獎(jiǎng)勵(lì)最大化的策略。該原理基于馬爾可夫決策過程(MDP)模型,該模型依賴于描述過程記憶缺失的馬爾可夫特性,即未來狀態(tài)的概率st+1 僅取決于當(dāng)前狀態(tài)和操作st和at而不是基于過去的狀態(tài)和行為。

        3.1 強(qiáng)化學(xué)習(xí)算法的選擇

        強(qiáng)化學(xué)習(xí)算法主要分為基于價(jià)值的算法和基于策略的算法。基于價(jià)值的方法通過優(yōu)化動(dòng)作值函數(shù)來確定強(qiáng)化學(xué)習(xí)算法的最優(yōu)策略。基于策略的算法不是價(jià)值函數(shù)的近似,而是使用基于梯度的方法直接近似策略,因此是學(xué)習(xí)最優(yōu)策略的更直接的方法。使用這類方法的算法包括普通策略梯度算法(VPG)、可信區(qū)域策略梯度算法(TRPO)和近端策略優(yōu)化算法(PPO)。

        這3 種算法具有相同的操作原理,但PPO 使用的技術(shù)解決了其他方法的一些缺點(diǎn),如方差問題和計(jì)算復(fù)雜性。在基準(zhǔn)任務(wù)集合上的PPO 方法優(yōu)于TRPO 和VPG,并且更容易實(shí)現(xiàn)。

        鑒于以上提出的與使用基于值的算法相關(guān)的各種缺點(diǎn),本項(xiàng)目決定使用PPO 算法對(duì)數(shù)字孿生體進(jìn)行學(xué)習(xí)訓(xùn)練。

        3.2 PPO 算法的原理

        PPO 算法是在TRPO 算法(PG 系算法)基礎(chǔ)上進(jìn)行的改進(jìn)。TRPO 算法的每次迭代都嘗試從當(dāng)前的策略中選擇一個(gè)合適的步長(zhǎng),使新策略得到的累計(jì)回報(bào)單調(diào)遞增,其目標(biāo)函數(shù)如式(1)所示

        式中:Aπθ(st,at)=Qπθ(st,at)-Vπθ(st)是優(yōu)勢(shì)函數(shù)是重要性采樣權(quán)重,πθ~(at|st)表示新策略的概率分布,πθ(at|st)表示舊策略的概率分布,st表示當(dāng)前狀態(tài),at表示當(dāng)前所采取的動(dòng)作,π 表示策略,為關(guān)于狀態(tài)s的函數(shù),且在深度強(qiáng)化學(xué)習(xí)中,策略π 由神經(jīng)網(wǎng)絡(luò)構(gòu)成,神經(jīng)網(wǎng)絡(luò)的參數(shù)為θ,表示為πθ,KL 表示KL散度。

        在強(qiáng)化學(xué)習(xí)中,用π 表示策略,表示在當(dāng)前狀態(tài)下機(jī)械臂(agent)從動(dòng)作(action)集合中選擇一個(gè)動(dòng)作的概率分布,進(jìn)而期望存在函數(shù)f,當(dāng)輸入目前的狀態(tài)(state)時(shí),輸出策略π,獲取機(jī)械臂(agent)的下一步動(dòng)作(action),即π=f(state)。若agent 的action 能夠促進(jìn)agent盡快到達(dá)目標(biāo)值的動(dòng)作,則需要增加這個(gè)action 獲得更多被選擇的幾率,即增大獎(jiǎng)勵(lì)(reward);反之,則這個(gè)action 被選擇的幾率將會(huì)減少,即減少獎(jiǎng)勵(lì)(reward)。在以此構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,估算出動(dòng)作(action)的期望收益,通過上述目標(biāo)函數(shù)求解更新模型的參數(shù)θ,使得期望收益更高,輸出機(jī)械臂動(dòng)作。

        為了控制策略的更新幅度,PPO 算法采用了截?cái)嗟拇砟繕?biāo)函數(shù),實(shí)現(xiàn)重復(fù)性采樣,加快訓(xùn)練速度。該算法將新舊策略的比值kt(θ~)限制在一個(gè)區(qū)域中,通過控制區(qū)域的大小來限制更新的步幅。相比TRPO 中使用KL散度進(jìn)行限制,PPO 中kt(θ~)的限制更加簡(jiǎn)單,也更容易實(shí)現(xiàn)。PPO 算法的目標(biāo)函數(shù)如式(2)所示

        PPO 算法還運(yùn)用了優(yōu)勢(shì)函數(shù)估計(jì)方法和增加額外熵獎(jiǎng)勵(lì)的優(yōu)化方法來進(jìn)一步提升其性能。使用泛化優(yōu)勢(shì)估計(jì)構(gòu)造優(yōu)勢(shì)函數(shù)能夠降低方差,使算法不會(huì)產(chǎn)生較大的波動(dòng)。泛化優(yōu)勢(shì)估計(jì)GAE 的計(jì)算式如式(3)所示

        式中:δt=rt+γV(st+1)-V(st)。

        將PPO 算法應(yīng)用在策略和值函數(shù)共享參數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)上時(shí),除了截?cái)嗷貓?bào)之外,目標(biāo)函數(shù)還加上了關(guān)于值函數(shù)估計(jì)的誤差項(xiàng)以及策略模型的熵正則項(xiàng),用于鼓勵(lì)探索。因此,優(yōu)化后的目標(biāo)函數(shù)如式(4)所示

        式中:c1和c2為2 個(gè)常數(shù)超參數(shù);c1(Vθ(s)-Vtarget)2是狀態(tài)值函數(shù)的均方誤差,誤差越小越好;H(s,πθ)表示策略πθ的熵值,熵越大越好。

        利用PPO 算法,基于上述優(yōu)化后的目標(biāo)函數(shù)不斷進(jìn)行迭代,最終能夠快速完成訓(xùn)練并輸出機(jī)械臂當(dāng)前狀態(tài)下最優(yōu)的策略,根據(jù)該策略執(zhí)行相應(yīng)的動(dòng)作,通過自學(xué)習(xí)規(guī)劃出數(shù)字孿生體模型運(yùn)動(dòng)的最優(yōu)軌跡。

        4 結(jié)束語

        本文提出了一種基于數(shù)字孿生技術(shù)的工業(yè)機(jī)械臂控制方法,應(yīng)用數(shù)字孿生技術(shù)構(gòu)建機(jī)械臂的數(shù)字孿生體,連接數(shù)字世界和物理世界,使得物理對(duì)象與虛擬對(duì)象之間實(shí)現(xiàn)上下行的物理信息數(shù)據(jù)交互,解決傳統(tǒng)機(jī)理模型無法解決的非線性、不確定性問題,大大提高了機(jī)械臂的實(shí)時(shí)性和泛化能力。通過強(qiáng)化學(xué)習(xí)訓(xùn)練使機(jī)械臂實(shí)現(xiàn)自學(xué)習(xí)自適應(yīng)轉(zhuǎn)動(dòng),解決傳統(tǒng)機(jī)械臂運(yùn)動(dòng)過程不連續(xù)問題,實(shí)現(xiàn)對(duì)機(jī)械臂的智能控制,提高自動(dòng)化程度和工業(yè)生產(chǎn)效率。

        猜你喜歡
        機(jī)械策略模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        調(diào)試機(jī)械臂
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        簡(jiǎn)單機(jī)械
        3D打印中的模型分割與打包
        機(jī)械班長(zhǎng)
        中文字幕福利视频| 精品无码久久久久久久久| 免费视频成人片在线观看| 人妖一区二区三区四区 | 日韩久久一级毛片| 蜜桃一区二区三区自拍视频| 国产麻豆一区二区三区在线播放| 国产成人精品一区二三区孕妇| 国产一区二区三区日韩精品| 成人精品天堂一区二区三区| 国产99久久亚洲综合精品| 国产av一区二区三区丝袜| 日韩在线精品免费观看| 久久久久99人妻一区二区三区| 成人无码网www在线观看| 国产精品乱码在线观看| 久久精品国产精品亚洲艾| 亚洲国产综合精品中文| 国产精品久久久天天影视| 人妻av无码系列一区二区三区| 啪啪视频一区二区三区入囗| 国产亚洲青春草在线视频| 漂亮人妻被强了中文字幕| 特黄aaaaaaaaa毛片免费视频| 老头巨大挺进莹莹的体内免费视频| 国产成人啪精品| 久久精品视频按摩| 国产美腿丝袜一区二区| 国产女人精品视频国产灰线| 夜夜躁狠狠躁2021| 国产成人久久蜜一区二区| 男人的天堂av你懂得| 国产欧美综合一区二区三区 | 可以免费看亚洲av的网站| 亚洲国产精品日韩av专区| 美女超薄透明丝袜美腿| 亚洲天堂av一区二区三区不卡 | 高清少妇一区二区三区| 久久国产成人精品av| 乱人伦中文字幕成人网站在线| 亚洲中文欧美日韩在线人|