基于增強(qiáng)學(xué)習(xí)算法的工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃研究
在工業(yè)4.0和網(wǎng)絡(luò)物理生產(chǎn)系統(tǒng)迅速發(fā)展的背景下,當(dāng)今生產(chǎn)系統(tǒng)面臨著一個(gè)主要挑戰(zhàn),即具有高的靈活性和適應(yīng)性,同時(shí)也具有強(qiáng)大的經(jīng)濟(jì)效益。具體來(lái)說(shuō),工業(yè)機(jī)器人的運(yùn)動(dòng)規(guī)劃過(guò)程的實(shí)施需要細(xì)化其運(yùn)動(dòng)任務(wù)的可變性,使機(jī)器人能夠具有自適應(yīng)處理環(huán)境變化的能力。本文提出了一種基于強(qiáng)化學(xué)習(xí)(RL)的認(rèn)知增強(qiáng)型6軸工業(yè)機(jī)器人,用于具有連續(xù)軌跡的復(fù)雜運(yùn)動(dòng)規(guī)劃實(shí)現(xiàn)。該方法的靈感來(lái)自于經(jīng)典的線環(huán)游戲,即從開(kāi)始到結(jié)束沿著曲線的路徑引導(dǎo)金屬環(huán),同時(shí)避免線和環(huán)之間的任何接觸。研究結(jié)果表明,增強(qiáng)學(xué)習(xí)算法可以更好地控制機(jī)器人的運(yùn)動(dòng),并且不需要預(yù)先對(duì)路徑進(jìn)行建模或?qū)C(jī)器人運(yùn)動(dòng)進(jìn)行編程。此外,通過(guò)視覺(jué)傳感器(相機(jī))可以對(duì)系統(tǒng)進(jìn)行擴(kuò)展以充分概括學(xué)習(xí)環(huán)境,使得機(jī)器人可以解決新的路徑問(wèn)題。因此,增強(qiáng)學(xué)習(xí)算法對(duì)于工業(yè)機(jī)器人和生產(chǎn)系統(tǒng)的適用性來(lái)說(shuō),具有巨大的未開(kāi)發(fā)的潛力,因此需要一個(gè)通用和強(qiáng)大的過(guò)程自動(dòng)化方法。
提出了一種基于增強(qiáng)學(xué)習(xí)算法和Q-學(xué)習(xí)算法的工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃的概念,可以控制機(jī)器人能夠自主地按照最適合的策略來(lái)解決相應(yīng)任務(wù)。將所提出的方法應(yīng)用在6軸工業(yè)機(jī)器人上,控制其來(lái)完成線環(huán)游戲。研究結(jié)果表明,該方法使機(jī)器人能夠在幾分鐘內(nèi)學(xué)習(xí)正確的軌跡,而且可以積累經(jīng)驗(yàn)以節(jié)省以后學(xué)習(xí)的時(shí)間。經(jīng)驗(yàn)指的是將非關(guān)系知識(shí)數(shù)據(jù)庫(kù)中的狀態(tài)和動(dòng)作之間的相關(guān)性存儲(chǔ)為相應(yīng)的反饋。機(jī)器人人的問(wèn)題概括的能力和新問(wèn)題處理能力基于其感知的環(huán)境,因此,經(jīng)驗(yàn)的積累使得機(jī)器人能夠根據(jù)前期集的經(jīng)驗(yàn)通過(guò)排列組合來(lái)解決未知的問(wèn)題??傊?,基于增強(qiáng)學(xué)習(xí)的機(jī)器人可以在一定程度上適應(yīng)生產(chǎn)過(guò)程的變化。這些機(jī)器人根據(jù)其自動(dòng)收集的經(jīng)驗(yàn),提供了以非常方式整合流程和領(lǐng)域?qū)I(yè)知識(shí)的巨大潛力。
刊名:Procedia CIRP
刊期:2017年95期
作者:Richard Meyes et al
編譯:陳少帥