黃新勝
(聚和(天津)智能制造有限公司,天津 301802)
隨著新一輪世界科技與產(chǎn)業(yè)轉(zhuǎn)型的到來,智能制造正以前所未有的速度在世界各地蓬勃發(fā)展[1]。加快智能制造的發(fā)展,對推動我國制造業(yè)的供給側(cè)結(jié)構(gòu)性改革,培養(yǎng)新的經(jīng)濟發(fā)展動力,建立新的制造系統(tǒng),推動制造業(yè)邁向中高端,建設(shè)制造強國,具有十分重要的作用[2]。機器人流水線是實現(xiàn)數(shù)字化車間、智能化工廠的主要設(shè)備,是實現(xiàn)智能化生產(chǎn)的關(guān)鍵[3]。裝配流水線的出現(xiàn),為工業(yè)生產(chǎn)方式帶來了一場革命,廣泛應(yīng)用于電子制造、汽車制造、加工包裝以及貨物分揀等行業(yè)[4]。尤其是將機器視覺技術(shù)應(yīng)用于生產(chǎn)過程,可以使整個生產(chǎn)過程變得更加靈活,大大提高了其智能化和自動化程度[5]。機器人作業(yè)線是一種具有代表性的作業(yè)線,在貨物搬運、包裹分類以及零件提取等領(lǐng)域得到了廣泛應(yīng)用[6]。在機器人生產(chǎn)線上,一般會配置一臺或多臺拾取機器人作為特定的執(zhí)行器;一臺或多臺輸送機,用來運送工件和包裝盒子;一臺工業(yè)視覺系統(tǒng),用來對工件進行定位、識別、尺寸測量等作業(yè)[7]。在現(xiàn)代工業(yè)生產(chǎn)迅速發(fā)展的同時,它的復(fù)雜性不斷增加,壽命不斷縮短[8]。但是,傳統(tǒng)的、剛性的生產(chǎn)方式通常只適用于一種固定的、特定的產(chǎn)品,而且需要大量生產(chǎn)才能收回生產(chǎn)成本。針對現(xiàn)存問題,文章將開展面向工業(yè)制造的智能機器人生產(chǎn)線調(diào)度優(yōu)化研究。
在智能機器人生產(chǎn)線上,工件會按照參數(shù)為λ的泊松分布到達傳送帶。假設(shè)將一個節(jié)拍時間作為周期,要求每個決策時刻都能夠在節(jié)拍點上,以攝像機所能探測的工作區(qū)域和機械手的抓取間隙為目標(biāo)。若將機器人所執(zhí)行的作業(yè)視為系統(tǒng)作業(yè),則可將智能機器人生產(chǎn)線模型描述為
智能機器人生產(chǎn)線在第n個決策時刻的狀態(tài)可以定義為
式中:Xp(n)為第n個決策時刻前視距離內(nèi)的工件分布信息;XR(n)為第n個決策時刻機器人抓手的空余量。
將機器人的抓手空余量作為最高位,與工件分布狀態(tài)一同編碼,導(dǎo)入調(diào)度策略。用v[x(n)]作為智能機器人生產(chǎn)線行動狀態(tài)。當(dāng)v[x(n)]取值為2 時,表示機器人正在進行放置操作;v[x(n)]取值為1 時,表示機器人正在進行撿取操作;v[x(n)]取值為0 時,表示機器人正在進行等待操作。根據(jù)分析可知,行動集D={0,1,2}。
在某一個決策時刻n中,轉(zhuǎn)移概率矩陣決定下一個決策時刻所處狀態(tài)[9],因此求解調(diào)度模型,必須求解出轉(zhuǎn)移概率矩陣[10]
式中:Px(n)x(n+1){v[x(n)]}為在狀態(tài)x(n)下采取行動,v[x(n)]轉(zhuǎn)移到狀態(tài)x(n+1)的概率。
因為工件是按照泊松流到達的,所以下一秒的工件狀態(tài)只取決于當(dāng)前的工件狀態(tài)和系統(tǒng)的動作,而不取決于前一秒的工件狀態(tài)或者抓取狀態(tài)的變化[11]。由于工件分布特征與機器人手抓取兩種狀態(tài)互不相關(guān),聯(lián)合狀態(tài)遷移概率應(yīng)該是工件分布特征與機器人手抓取兩種狀態(tài)遷移概率之積。在任意決策時刻n,在狀態(tài)X(n)下,采取行動v[x(n)]后,若完成對該工件的撿取,則將會獲得相應(yīng)的撿取報酬。若完成了對工件的放置,則將得到相應(yīng)的放置報酬。在這一過程中,機器人撿取和放置工件都會產(chǎn)生相應(yīng)的移動代價。若工件流失,則會產(chǎn)生相應(yīng)的流失代價。將報酬與代價編碼根據(jù)實際情況代入調(diào)度模型,可以有效提升模型的準確性。在完成運算后,將式(1)作為智能機器人生產(chǎn)調(diào)度模型,在后續(xù)對其進行優(yōu)化調(diào)度求解。
結(jié)合工業(yè)制造智能機器人運行的基本性能要求,對智能機器人生產(chǎn)線調(diào)度模型進行優(yōu)化求解。引入性能勢理論,明確Markov 性能勢與Markov 決策過程之間的關(guān)聯(lián),從而為調(diào)度模型的優(yōu)化求解提供途徑[12]。采用基于性能勢的策略迭代算法,針對式(1)的調(diào)度模型,定義有關(guān)策略v的性能勢矢量,得到泊松方程的解為
式中:I為單位矩陣;β為折扣因子;πv為等價Markov 決策過程中的穩(wěn)態(tài)分布。
圖5為經(jīng)過拾取分層得到的滑坡體厚度劃分剖面,其中滑體厚度坡面未進行地形校正。結(jié)合現(xiàn)場地質(zhì)環(huán)境,給定其波速為0.09 m/ns,利用層速度拾取,得出沿測線分布的滑坡體厚度??梢灾?,其厚度最大約4 m,最小約2 m,平均厚度約為3 m左右,且滑坡體上部厚度大于滑坡體下部厚度,這也為滑坡提供了物源條件。綜合采用現(xiàn)場測量和物探方法,假定滑坡體為一矩形模型,確定出滑坡體大致的尺寸為101 m×30 m×3 m,滑坡體方量大約在9 090 m3左右,綜合判定該滑坡為一小型淺層滑坡。
在調(diào)度優(yōu)化求解的過程中,當(dāng)β的取值在0 ~1時,說明為折扣性能準則情況;當(dāng)β的取值為1 時,說明為平均性能準則情況[13]。
在進行調(diào)度優(yōu)化時,存在一個最優(yōu)策略v*與二元組之間滿足等式關(guān)系
式中:Ω 為策略集。
在不斷迭代的過程中,新的策略通過下述步驟得出。
第1 步,對調(diào)度優(yōu)化策略進行初始化處理,并選擇折扣因子;第2 步,求解式(4),得到gβ v*;第3 步,計算式(5)更新策略;第4 步,滿足條件,退出算法,得到的策略為最優(yōu)調(diào)度策略,否則重復(fù)上述步驟,直到滿足條件為止,完成對智能機器人生產(chǎn)線調(diào)度的優(yōu)化求解。
為達到最優(yōu)化的效果,對調(diào)度優(yōu)化求解過程進行強化學(xué)習(xí)訓(xùn)練,基本框架如圖1 所示。
圖1 調(diào)度優(yōu)化求解強化學(xué)習(xí)訓(xùn)練基本框架
如圖1 所示,強化學(xué)習(xí)訓(xùn)練基本框架主體通過傳感器(Sensor)感知外部環(huán)境,并通過執(zhí)行者對外部環(huán)境做出相應(yīng)的行為,從而實現(xiàn)對外部環(huán)境的影響。從廣義上來說,任何能夠和主體互動的客體都可以被稱作環(huán)境。在強化學(xué)習(xí)中,當(dāng)個體行為給環(huán)境帶來積極的獎勵(Reward)時,個體的行為傾向會增強;反之,當(dāng)個體行為導(dǎo)致環(huán)境的負面回報時,個體行為傾向就會降低[14]。
強化學(xué)習(xí)的訓(xùn)練具體流程如下。第1 步,Agent感知當(dāng)前環(huán)境狀態(tài);第2 步,針對當(dāng)前狀態(tài)和學(xué)習(xí)情況,Agent 按照相應(yīng)策略選擇下一個執(zhí)行動作;第3 步,當(dāng)Agent 選擇的行動作用在環(huán)境中后,環(huán)境會發(fā)生改變;第4 步,由環(huán)境將獎賞反饋到Agent。
采用上述步驟完成,可以使智能機器人生產(chǎn)線在調(diào)度過程中自動適應(yīng)環(huán)境的變化,從而為其提供更切實可行的調(diào)度方案。
對面向工業(yè)制造的智能機器人生產(chǎn)線調(diào)度問題進行優(yōu)化。為驗證優(yōu)化效果,將優(yōu)化后的調(diào)度策略應(yīng)用到某工業(yè)制造廠的智能機器人生產(chǎn)線,并對比優(yōu)化前后的效果。研究過程中,以實際機器人自動化生產(chǎn)線為依據(jù),設(shè)定有關(guān)參數(shù),原則是使生產(chǎn)線的到達率和機器人的平均生產(chǎn)率達到一種平衡,以避免工件到達率過大而造成工件大量堵塞和損失,或由于機器人移動速度過大而造成機器人發(fā)熱和損耗。按照表1 中的數(shù)據(jù)完成對智能機器人生產(chǎn)線參數(shù)的設(shè)置。
表1 智能機器人生產(chǎn)線參數(shù)設(shè)置表
在完成準備工作后,兩條生產(chǎn)線(優(yōu)化前生產(chǎn)線和優(yōu)化后生產(chǎn)線)同時開始運行,在運行結(jié)束后記錄工件生產(chǎn)各環(huán)節(jié)耗時情況,并記錄結(jié)果如表2 所示。
表2 調(diào)度優(yōu)化前后工件生產(chǎn)各環(huán)節(jié)耗時情況記錄表單位:s
分析表2 中記錄的數(shù)據(jù)可知,應(yīng)用優(yōu)化前的調(diào)度策略工件生產(chǎn)的各個環(huán)節(jié)耗時均明顯多于優(yōu)化后的調(diào)度策略工件生產(chǎn)的各個環(huán)節(jié)耗時。可見,應(yīng)用優(yōu)化后的調(diào)度策略可以顯著提高智能機器人工件生產(chǎn)效率和整個生產(chǎn)線的工作效率,為工業(yè)制造廠帶來更高的經(jīng)濟效益。
“工業(yè)4.0”在世界范圍內(nèi)掀起了一場新的工業(yè)革命,為制造業(yè)提供了新的機會與挑戰(zhàn)[15]。文章在面向工業(yè)制造的基礎(chǔ)上,提出一種全新的智能機器人生產(chǎn)線調(diào)度優(yōu)化思路,并通過實例驗證了該優(yōu)化思路的可行性。將優(yōu)化后的調(diào)度策略應(yīng)用到面向工業(yè)制造的生產(chǎn)車間,可以進一步提高其生產(chǎn)水平。后續(xù)研究中將利用優(yōu)化思路對大規(guī)模車間中的智能機器人生產(chǎn)線進行優(yōu)化調(diào)度,并進一步優(yōu)化可能出現(xiàn)的問題,促進工業(yè)制造行業(yè)可持續(xù)發(fā)展。