摘要:【目的】提高傳統(tǒng)的單一類別煤矸分選機(jī)器人在面對形狀、尺寸差異較大的矸石時(shí)的適應(yīng)性,分析異構(gòu)機(jī)器人工作特性,實(shí)現(xiàn)異構(gòu)機(jī)器人協(xié)同分選?!痉椒ā炕谏疃萉值網(wǎng)絡(luò)(deep Q network,DQN)提出異構(gòu)機(jī)器人協(xié)同分選模型;分析協(xié)同工作分選流程制定決策框架,根據(jù)強(qiáng)化學(xué)習(xí)所需,設(shè)計(jì)交互環(huán)境,構(gòu)建智能體連續(xù)的狀態(tài)空間獎(jiǎng)懲函數(shù),長短期記憶網(wǎng)絡(luò)(long short term memory,LTSM)和全連接網(wǎng)絡(luò)相結(jié)合,構(gòu)建DQN價(jià)值和目標(biāo)網(wǎng)絡(luò),實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)模型在工作過程中的任務(wù)分配?!窘Y(jié)果】協(xié)同分選模型與傳統(tǒng)順序分配模型相比,在不同含矸率工作負(fù)載下,可提高分選效益0.49%~17.74%;在樣本含矸率為21.61%,傳送帶速度為0.4~0.6 m/s的條件下,可提高分選效率2.41%~8.98%。【結(jié)論】異構(gòu)機(jī)器人協(xié)同分選方法可以在不同的工作負(fù)載下獲得穩(wěn)定的分揀效益,避免單一分配方案無法適應(yīng)動態(tài)變化的矸石流缺陷。
關(guān)鍵詞:異構(gòu)機(jī)器人;協(xié)同分選;強(qiáng)化學(xué)習(xí);長短期記憶網(wǎng)絡(luò);深度Q值網(wǎng)絡(luò)
中圖分類號:TP23;TH6;TB4文獻(xiàn)標(biāo)志碼:A
引用格式:
張杰,夏蕊,李博,等.基于長短期記憶-深度Q值網(wǎng)絡(luò)的異構(gòu)機(jī)器人煤矸協(xié)同分選方法[J].中國粉體技術(shù),2024,30(3):28-38.
ZHANG J,XIA R,LI B,et al.Heterogeneous robot coal gangue collaborative sorting method based on long short term memory-deep Q network[J].China Powder Science and Technology,2024,30(3):28?38.
煤矸石是指煤炭采礦作業(yè)中產(chǎn)生的固體廢棄物,煤矸石分揀是指在煤炭開采、加工和使用過程中,將混雜在煤炭中的巖石、矸石等雜質(zhì)分離出來的過程,對于提高煤炭質(zhì)量、減少污染和提升能源利用效率具有重要意義[1-2]。傳統(tǒng)的煤矸石分揀多依賴人工或簡單的機(jī)械設(shè)備,但這些方法往往效率低下,成本高昂且勞動條件差。機(jī)械洗滌法包括重介質(zhì)分離法、跳汰法和浮選法,但存在設(shè)備易損、能耗高、干燥和介質(zhì)回收增加生產(chǎn)成本等問題[3-6]。重力分離、振動篩分和離心分離等機(jī)械振動方法僅適用于少數(shù)情況[7]。
近年來,隨著機(jī)器人技術(shù)和計(jì)算機(jī)視覺技術(shù)的發(fā)展,機(jī)械手在煤矸石分揀領(lǐng)域的應(yīng)用逐漸增多。Liu等[8]提出了一種基于機(jī)器視覺系統(tǒng)的煤矸石分揀機(jī)器人運(yùn)動模型。Sun等[9]改進(jìn)了六軸機(jī)械手系統(tǒng),實(shí)現(xiàn)了高效的運(yùn)動規(guī)劃。Liu等[10]提高了矸石分揀機(jī)器人路徑規(guī)劃穩(wěn)定性。盡管機(jī)械手分揀具有高度自動化和精確性的特點(diǎn),但往復(fù)運(yùn)動會消耗大量時(shí)間,從而影響分揀過程的整體效率[11]。針對這一問題,研究人員[12-13]提出了多機(jī)械手系統(tǒng)來提高分揀系統(tǒng)的工作性能。隨著煤炭開采量和強(qiáng)度的增加,對煤矸石分選線的皮帶傳送速度和分選效率提出了更高的要求。為了滿足這些要求,有必要采用更多的機(jī)械手和更高效的協(xié)同工作方案。許多學(xué)者針對多機(jī)械手協(xié)同煤矸分揀提出了一系列優(yōu)化算法,如Wang等[14]提出了免疫空間協(xié)同分選策略,Ma等[15]提出了匈牙利算法優(yōu)化動作路徑,Wu等[16]利用無限馬爾可夫決策模型提高多機(jī)械手任務(wù)分配能力。
機(jī)械手分揀系統(tǒng)的引入也面臨一些挑戰(zhàn),如投資成本較高、需要專業(yè)人員進(jìn)行維護(hù)、調(diào)試復(fù)雜性、故障率高和對復(fù)雜多變環(huán)境的適應(yīng)性不強(qiáng)等。在這種方法中,機(jī)器人通常是同構(gòu)的,傳統(tǒng)的機(jī)械手分揀方式包括剝離式與夾取式,剝離式分揀速度較慢且容易與后續(xù)的矸石發(fā)生碰撞干涉。夾取式的夾爪通常為固定尺寸,面對形狀尺寸差異較大的矸石適應(yīng)性較差。目前,以陣列式高壓氣動噴嘴作為分揀執(zhí)行機(jī)構(gòu)的選矸機(jī)器人應(yīng)用較為成熟,其優(yōu)點(diǎn)是能夠適配較高的傳送帶帶速,可對小塊煤矸進(jìn)行快速分離,但在大體積、大質(zhì)量矸石分揀環(huán)境和煤矸密集分布的情況下具有局限性[17-20]。
為了提高傳統(tǒng)的單一類別煤矸分選機(jī)器人的環(huán)境任務(wù)適應(yīng)性,提出基于氣吹與夾取的異構(gòu)機(jī)器人組合分選模型,并基于強(qiáng)化學(xué)習(xí)算法制定任務(wù)分配方案。這種方法提高了系統(tǒng)的適應(yīng)性和分揀精度,同時(shí)降低了大量使用機(jī)器人的相關(guān)成本。為了驗(yàn)證這種方法的可行性和有效性,本文中在不同的傳送帶速度和含矸率下進(jìn)行分揀實(shí)驗(yàn)。
1協(xié)同分選系統(tǒng)
系統(tǒng)組成示意圖如圖1所示。主要包括機(jī)器視覺識別和分揀執(zhí)行2部分。視覺部分由MV-CS050-10UC型面陣相機(jī)(??低晹?shù)字技術(shù)股份有限公司)和Kinectv2型深度相機(jī)(微軟股份有限公司)組成,前者用于捕捉傳送帶上矸石與煤塊的圖像并送入計(jì)算機(jī)進(jìn)行分類與定位,后者則是獲取煤矸的點(diǎn)云信息,獲取矸石個(gè)體的三維信息,并估算該矸石的質(zhì)量,為后續(xù)的矸石分揀控制提供依據(jù)。上位機(jī)根據(jù)帶式輸送機(jī)的速度實(shí)時(shí)計(jì)算坐標(biāo)信息,基于協(xié)同分揀策略,向執(zhí)行器合理的分配任務(wù),并將實(shí)時(shí)計(jì)算的可行結(jié)果發(fā)送給控制器,以指導(dǎo)相應(yīng)的氣吹機(jī)構(gòu)和機(jī)械手工作。分揀執(zhí)行部分包括控制器、空氣壓縮機(jī)、電磁閥和氣吹噴嘴、CHI 580型機(jī)械手(凌創(chuàng)科技有限公司)和控制箱組成。
2分選流程
在異構(gòu)機(jī)器人協(xié)同分揀煤矸的過程中,每一個(gè)機(jī)器人均視為一個(gè)智能體,而機(jī)器人分揀目標(biāo)的選擇過程是一個(gè)動態(tài)系統(tǒng)的順序決策過程,決策結(jié)果受當(dāng)前機(jī)器人的工作特性、工作狀態(tài)以及任務(wù)狀況共同影響。在常規(guī)的異構(gòu)機(jī)器人控制方法中,決策機(jī)制往往取決于當(dāng)前矸石的密集狀態(tài)以及大小,不能兼顧矸石流整體,因此容易存在異構(gòu)機(jī)器人利用率不平衡、任務(wù)存在沖突、漏檢高權(quán)重目標(biāo)等問題。
將基于動態(tài)規(guī)劃思想的深度強(qiáng)化學(xué)習(xí)與煤矸異構(gòu)分揀機(jī)器人相結(jié)合,把連續(xù)的煤矸分揀過程離散為若干任務(wù)片段,對每一個(gè)任務(wù)片段進(jìn)行整體規(guī)劃,給出可行的執(zhí)行器協(xié)同工作方案。通過合理的多目標(biāo)分配策略,綜合優(yōu)化實(shí)現(xiàn)分揀損失的最小化,同時(shí)實(shí)現(xiàn)最高的工作節(jié)拍。協(xié)同分選流程示意圖如圖2所示。
根據(jù)煤矸分選的實(shí)際情況,抽象出2種智能體,分別是氣動分離、機(jī)械手分揀裝置。在煤矸分選任務(wù)中,待分揀目標(biāo)隨傳送帶勻速運(yùn)動,機(jī)械手位于傳送帶兩邊,每個(gè)機(jī)械手分揀區(qū)域固定且不重疊。氣吹分離裝置位于傳動帶末端,由多組氣吹噴頭組成,實(shí)現(xiàn)沿傳送帶寬度方向全覆蓋。智能體可以在整個(gè)系統(tǒng)中相互作用、協(xié)同工作。動態(tài)任務(wù)分配問題分為以下4步。
第1步,分揀任務(wù)的產(chǎn)生。平臺將工業(yè)相機(jī)采集的傳送帶實(shí)時(shí)畫面?zhèn)鬟f至檢測系統(tǒng),檢測系統(tǒng)提交目標(biāo)類型、位置、形狀等相關(guān)信息。然后,平臺保存任務(wù)詳細(xì)信息,并將任務(wù)添加到任務(wù)隊(duì)列中。
第2步,根據(jù)矸石分布情況選定任務(wù)優(yōu)化區(qū)域。當(dāng)某一區(qū)域的待分揀目標(biāo)數(shù)量小于等于該區(qū)域分揀容量,且任務(wù)損失小于規(guī)定的閾值,將該區(qū)域視為無需優(yōu)化區(qū)域;反之,該區(qū)域?yàn)榇齼?yōu)化分揀區(qū)。
第3步,系統(tǒng)分配任務(wù)。系統(tǒng)對于待優(yōu)化區(qū)域,在任務(wù)執(zhí)行時(shí)間、任務(wù)可執(zhí)行時(shí)間窗口等約束條件下,根據(jù)當(dāng)前任務(wù)和執(zhí)行器狀態(tài),通過算法選擇合理的分配策略
第4步,分揀任務(wù)的執(zhí)行。在這個(gè)階段中,執(zhí)行器按照規(guī)定方式執(zhí)行分配的分揀任務(wù)。
3決策模型
3.1決策框架
煤矸分揀系統(tǒng)由機(jī)械手與氣吹組成,傳送帶上存在若干待分揀目標(biāo),每個(gè)目標(biāo)都需要一個(gè)機(jī)器人來執(zhí)行任務(wù)。任務(wù)可根據(jù)目標(biāo)的相對于執(zhí)行器的適應(yīng)性進(jìn)行分配,假設(shè)某一時(shí)間段,待分揀矸石數(shù)量大于整套系統(tǒng)的分揀容量,進(jìn)而影響任務(wù)完成的質(zhì)量。考慮到環(huán)境不確定性和目標(biāo)特性的影響,設(shè)定的目標(biāo)是在不增加設(shè)備的前提下,實(shí)現(xiàn)分揀任務(wù)的全局最優(yōu)。
分揀任務(wù)由上層識別系統(tǒng)在線檢測獲得,并依據(jù)時(shí)間順序按照列表的形式下發(fā)至任務(wù)分配模塊,矸石分揀任務(wù)集用G={g 1,g2,g3,…,gi}表示,gi為第i個(gè)矸石分揀任務(wù)。為了使系統(tǒng)給出合理可行的任務(wù)分配方案并使分揀效益盡可能達(dá)到全局最優(yōu),分配任務(wù)時(shí)必須獲得各類型矸石之間的位置信息對后續(xù)分揀產(chǎn)生的影響;由于待分揀的目標(biāo)連續(xù)不斷地隨機(jī)產(chǎn)生,必須將連續(xù)的任務(wù)段分割為若干個(gè)任務(wù)時(shí)間周期t,時(shí)間總段數(shù)為T,該參數(shù)可根據(jù)傳送帶運(yùn)行速度v,識別與分揀之間的緩沖區(qū)大小決定。原因如下:1)矸石從識別區(qū)移動到分揀區(qū)的時(shí)間是有限的,系統(tǒng)必須在矸石進(jìn)入分揀區(qū)之前完成分配方案的下達(dá);2)頻繁地更新任務(wù)列表會導(dǎo)致任務(wù)分配方案的持續(xù)變化。
執(zhí)行器集合定義為W={a 1,a2,…,an,r 1},其中an代表第n個(gè)氣吹分離設(shè)備,r 1代表第1個(gè)機(jī)械手。每個(gè)執(zhí)行器對都不同的分揀目標(biāo)具有不同執(zhí)行能力。由于每個(gè)目標(biāo)在傳送帶上實(shí)時(shí)移動,每個(gè)執(zhí)行器的分揀區(qū)域是固定的,因此每個(gè)分揀任務(wù)gi∈G具有時(shí)間敏感性,必須在一個(gè)時(shí)間窗口內(nèi)完成分揀。在分配任務(wù)時(shí),需充分考慮執(zhí)行器分揀目標(biāo)時(shí)的動作時(shí)間。
在本文中所提的異構(gòu)機(jī)器人協(xié)同分選方法中,使用基于深度Q值網(wǎng)絡(luò)(deep Q network,DQN)和長短期記憶網(wǎng)絡(luò)(long short term memory,LTSM)的LSTM-DQN決策模型進(jìn)行矸石任務(wù)的分配,決策模型框架的組成如圖3所示。該框架包括狀態(tài)空間、動作空間和獎(jiǎng)勵(lì)機(jī)制構(gòu)成的交互環(huán)境,狀態(tài)空間根據(jù)當(dāng)前的分揀任務(wù)進(jìn)行初始化,動作空間根據(jù)執(zhí)行器類型定義,交互環(huán)境將當(dāng)前的狀態(tài)信息賦予決策網(wǎng)絡(luò),決策網(wǎng)絡(luò)向交互環(huán)境中的獎(jiǎng)勵(lì)機(jī)制輸出所選擇動作并獲得當(dāng)前執(zhí)行器選擇的獎(jiǎng)勵(lì)反饋,將當(dāng)前任務(wù)列表中所有的矸石進(jìn)行執(zhí)行器選擇,并輸出選擇結(jié)果視為一次完整的訓(xùn)練,經(jīng)過多輪往復(fù)訓(xùn)練,最終輸出最佳的執(zhí)行器選擇方案。
3.2交互環(huán)境
交互環(huán)境是強(qiáng)化學(xué)習(xí)進(jìn)行動作決策獲得反饋,進(jìn)而優(yōu)化當(dāng)前策略的核心,在強(qiáng)化學(xué)習(xí)領(lǐng)域,智能體必須通過學(xué)習(xí)來做出決策,以最大化長期獎(jiǎng)勵(lì)。
3.2.1狀態(tài)與動作空間
強(qiáng)化學(xué)習(xí)是作為主體的智能體與作為客體的環(huán)境相互作用的順序決策的過程。數(shù)學(xué)上,它通常被歸一化為馬爾可夫決策過程,由當(dāng)前狀態(tài)和采取的行動來描述。一個(gè)馬爾可夫決策過程可以被描述為M=(S,A,P,R,γ)。S為環(huán)境可能發(fā)生的潛在狀態(tài)有限集合,每個(gè)狀態(tài)集由當(dāng)前代理觀察到的任務(wù)集組成,包含決策所需的所有特征信息;A為動作空間;P為狀態(tài)轉(zhuǎn)移概率;R為獎(jiǎng)勵(lì);γ為獎(jiǎng)勵(lì)衰減系數(shù)。
其中S可以表示為一個(gè)向量,為
S={gx,gw,gl,gp,rs,as},(1)
式中:gx為矸石的形狀;gw為矸石的質(zhì)量;gl為矸石的位置;gp為任務(wù)偏好得分;rs為機(jī)械手的當(dāng)前狀態(tài);as為氣吹系統(tǒng)的當(dāng)前狀態(tài)。
智能體對矸石的任務(wù)偏好得分由交叉注意力機(jī)制計(jì)算得出。該模型的輸入是矸石的形狀和質(zhì)量特征,其中形狀特征和質(zhì)量特征被拼接在一起構(gòu)成輸入向量。模型的核心結(jié)構(gòu)包括一個(gè)多頭自注意力層和一個(gè)全連接層。多頭自注意力層能夠?qū)W習(xí)輸入序列內(nèi)不同元素之間的復(fù)雜關(guān)系。該層通過計(jì)算輸入向量之間的注意力權(quán)重,聚焦于對當(dāng)前任務(wù)有關(guān)聯(lián)性的特征,使模型可以動態(tài)地調(diào)整對不同特征的關(guān)注度,更精準(zhǔn)地表示機(jī)械手和氣吹的任務(wù)偏好。全連接層則負(fù)責(zé)將自注意力層的輸出映射為任務(wù)偏好得分。通過交叉注意力機(jī)制學(xué)習(xí)到機(jī)械手和氣吹的任務(wù)偏好得分,以提高任務(wù)分配的準(zhǔn)確性和效率。交叉注意力機(jī)制示意圖如圖4所示。
動作空間由執(zhí)行器決定,在多機(jī)器人任務(wù)分配過程中,將智能體在時(shí)刻為t時(shí)是否執(zhí)行任務(wù)gi定義為
同一智能體在相同的時(shí)間內(nèi)只能執(zhí)行一個(gè)分揀任務(wù),且每個(gè)任務(wù)gi只能被執(zhí)行一次,因此受到以下約束
a i(gi,t)≤1,?W,t,
a i(gi,t)=1,?W。
單個(gè)機(jī)械手狀態(tài)分為忙碌與非忙碌,根據(jù)機(jī)械手的動作選擇和后續(xù)任務(wù)的到達(dá)時(shí)間進(jìn)行機(jī)械手的狀態(tài)更新。為了便于計(jì)算,提出3點(diǎn)假設(shè):1)傳送帶的理想平面作為工作平面,保持恒定的運(yùn)行速度;2)機(jī)械手的分揀任務(wù)必須在規(guī)定的工作區(qū)域內(nèi)完成,超出該區(qū)域的任務(wù)視為不可行;3)不考慮煤矸石分揀系統(tǒng)的識別模塊、控制系統(tǒng)和執(zhí)行系統(tǒng)之間的通信時(shí)間延遲。
將動態(tài)變化的矸石位置轉(zhuǎn)化為靜態(tài)數(shù)組,在任務(wù)分配的計(jì)算過程中避免矸石坐標(biāo)的持續(xù)變化。當(dāng)系統(tǒng)完成一個(gè)任務(wù)周期內(nèi)矸石的信息采集后,根據(jù)傳送帶運(yùn)行速度,分揀區(qū)位置,將當(dāng)前矸石的位置信息轉(zhuǎn)化為一個(gè)列表tw=[[ts,td]1,[ts,td]2,…,[ts,td]i],其中,ts與td分別為矸石進(jìn)入和離開分揀區(qū)的時(shí)間,定義為時(shí)間窗口。機(jī)械手在對第i個(gè)矸石進(jìn)行分揀時(shí),抓取動作的發(fā)生時(shí)間不應(yīng)該早于ts、不晚于td,動作時(shí)間由機(jī)械手的路徑規(guī)劃算法計(jì)算得出,機(jī)械手當(dāng)前的任務(wù)結(jié)束時(shí)間大于下一個(gè)任務(wù)的到達(dá)時(shí)間時(shí)則視為忙碌狀態(tài),即rs=1,反之視為非忙碌狀態(tài),rs=0。氣吹分選通過電磁閥開閉控制,分揀時(shí)間幾乎可以忽略。
3.2.2獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
智能體從當(dāng)前狀態(tài)st執(zhí)行動作指令,環(huán)境將智能體轉(zhuǎn)移到下一個(gè)狀態(tài)st+1,并返回回報(bào)值rt。根據(jù)執(zhí)行器當(dāng)前的忙碌狀態(tài)、是否接受以及當(dāng)前任務(wù)個(gè)體特性可以準(zhǔn)確的反映當(dāng)前智能體所獲得的獎(jiǎng)懲情況,由公式(4)計(jì)算而得
式中,pi為當(dāng)前智能體分揀目標(biāo)矸石的分揀可靠性系數(shù),只有當(dāng)智能體非忙碌狀態(tài)且接受目標(biāo)矸石時(shí)才可獲得獎(jiǎng)勵(lì),若處于忙碌狀態(tài)則進(jìn)行懲罰。
3.3 LSTM-DQN網(wǎng)絡(luò)模型
深度學(xué)習(xí)中采用DQN算法是計(jì)算最優(yōu)策略的經(jīng)典算法。核心是通過深度學(xué)習(xí)迭代得到狀態(tài)-動作值函數(shù)Qπ(s,a)。該函數(shù)描述了狀態(tài)s下每個(gè)動作a的Q值,最優(yōu)策略是狀態(tài)si下所得到的最大Qπ(s,a)值的動作組合。Qπ(s,a)的迭代學(xué)習(xí)如公式5所示[21]。
Qk(π)+1(st,at)=Qk(π)(st,at)+α[rt+γmaxQk(π)(st+1,at+1)-Qk(π)(st,at)],(5)
式中:k為迭代次數(shù);st為第t時(shí)刻的狀態(tài);at為第t時(shí)刻的動作;rt為在狀態(tài)st下執(zhí)行動作的即時(shí)獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)獎(jiǎng)勵(lì)衰減系數(shù)γ∈(0,1)。
模型通過價(jià)值網(wǎng)絡(luò)進(jìn)行上述Q值的計(jì)算。對于模型的核心網(wǎng)絡(luò),設(shè)計(jì)的層數(shù)不足,則網(wǎng)絡(luò)無法完成對復(fù)雜環(huán)境的全局收斂;設(shè)計(jì)的層數(shù)過多,則可能會產(chǎn)生過擬合,且十分耗費(fèi)計(jì)算資源。經(jīng)過多次實(shí)驗(yàn)測試,最終設(shè)定本文模型價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)圖如圖5所示。由于該環(huán)境中的決策為順序決策且具有連貫性,因此引入LTSM來處理具有時(shí)序性和長期依賴關(guān)系的狀態(tài)序列。LTSM是一種循環(huán)神經(jīng)網(wǎng)絡(luò)并具有記憶單元,設(shè)計(jì)目的是處理序列數(shù)據(jù)并保留與時(shí)間相關(guān)的信息,從而更好地捕捉長期依賴關(guān)系。狀態(tài)信息首先輸入LTSM計(jì)算后,再通過全連接層,經(jīng)輸出層輸出Q值,全連接層與輸出層以Relu函數(shù)作為激活函數(shù)。
模型的訓(xùn)練過程涉及價(jià)值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。價(jià)值網(wǎng)絡(luò)通過深度神經(jīng)網(wǎng)絡(luò)估計(jì)狀態(tài)動作對的價(jià)值,而目標(biāo)網(wǎng)絡(luò)在訓(xùn)練中定期從價(jià)值網(wǎng)絡(luò)復(fù)制參數(shù)。在經(jīng)驗(yàn)回放中,智能體從記憶庫中隨機(jī)抽樣經(jīng)驗(yàn),并通過比較當(dāng)前狀態(tài)的預(yù)測Q值Qk(π)(st,at)與由目標(biāo)網(wǎng)絡(luò)計(jì)算的目標(biāo)Q值maxQk(π)(st+1,at+1)的均方誤差來更新價(jià)值網(wǎng)絡(luò),損失函數(shù)如公式6所示[21]。這一過程使得模型能夠?qū)W習(xí)到有效的策略以最大化累積獎(jiǎng)勵(lì),整個(gè)網(wǎng)絡(luò)訓(xùn)練過程示意圖如圖6所示。
4試驗(yàn)與討論
4.1試驗(yàn)參數(shù)設(shè)置
模型學(xué)習(xí)率設(shè)置為10-4,采用批量梯度下降的方式進(jìn)行學(xué)習(xí),設(shè)定訓(xùn)練批次的大小為32,價(jià)值網(wǎng)絡(luò)每100步與目標(biāo)網(wǎng)絡(luò)同步參數(shù)。
為了處理探索與利用的矛盾問題,采用動態(tài)探索率ε的機(jī)制處理訓(xùn)練過程,設(shè)定初始ε=1,而后按照每學(xué)習(xí)一次5-4的步進(jìn)逐漸減小ε,并設(shè)置下限0.1,即ε=max(ε-5-4 n,0.1),式中n為學(xué)習(xí)的步數(shù)。
設(shè)定記憶庫的規(guī)模為5 000,記憶庫中存儲數(shù)據(jù)到達(dá)100條時(shí)開始進(jìn)行模型的學(xué)習(xí)。設(shè)定獎(jiǎng)勵(lì)衰減率γ=0.85。軟件環(huán)境為Windows 11,內(nèi)存32 GB,顯卡為GTX3060,顯存6 GB,采用Pytorch的深度學(xué)習(xí)框架。
4.2模型驗(yàn)證
選擇實(shí)驗(yàn)室煤矸分選平臺作為試驗(yàn)環(huán)境,該平臺擁有三通道氣吹分選設(shè)備,氣吹壓力為0.8 MPa,空氣體積流量為0.97 m3/min。擁有一個(gè)四軸機(jī)械手,可進(jìn)行三通道定點(diǎn)揀取。傳送帶寬度為0.8 m,帶速可在0.3~0.8 m/s調(diào)節(jié),根據(jù)上述參數(shù)構(gòu)建模型交互環(huán)境。
由于傳送帶寬度限制,在煤與矸石顆粒不發(fā)生堆疊的情況下約放置煤料質(zhì)量為10.42 kg,設(shè)置含矸率為4.73%~30.45%,質(zhì)量為70~1 800 g的煤矸試驗(yàn)樣本6組,樣本示例如圖7所示。
模型的評價(jià)指標(biāo)為所輸出的方案可以獲得的分揀收益與期望收益的比值,分揀收益的計(jì)算方式為當(dāng)使用機(jī)械手分揀時(shí)為當(dāng)前煤矸石的質(zhì)量,若使用氣吹分揀時(shí)為當(dāng)前煤矸石的質(zhì)量與氣吹可靠性系數(shù)的乘積。期望收益為當(dāng)煤矸石的氣吹分揀可靠性小于80%時(shí),使用機(jī)械手分揀;當(dāng)該煤矸石的氣吹分揀可靠性大于80%時(shí),采用氣吹分揀,并計(jì)算分揀收益。
為了證明本文中模型控制算法可以獲得全局最高分揀效益,首先采用傳統(tǒng)的順序分配模型進(jìn)行分揀試驗(yàn),即根據(jù)煤矸石流的具體情況,設(shè)置一個(gè)質(zhì)量閾值,當(dāng)煤矸石質(zhì)量大于額定閾值時(shí)使用機(jī)械手分揀,其余情況使用氣吹分揀。隨后采用本文中模型分配算法進(jìn)行分選試驗(yàn)。將煤矸石的位置、質(zhì)量和形態(tài)信息提前記錄并生成任務(wù)列表,保證進(jìn)行對比試驗(yàn)時(shí)的數(shù)據(jù)一致性。
將不同含矸率的樣本送入本文中模型進(jìn)行任務(wù)分配,固定皮帶機(jī)帶速為0.6 m/s,分析在不同負(fù)載下的分揀收益與期望收益的比值。不同含矸率下的模型收斂曲線如圖8所示。由圖可知,在訓(xùn)練初期,模型積極探索不同分配方案并產(chǎn)生獎(jiǎng)勵(lì)值的波動,經(jīng)過一定次數(shù)的訓(xùn)練之后價(jià)值網(wǎng)絡(luò)參數(shù)不斷更新優(yōu)化,模型均可以在500輪訓(xùn)練之前收斂并輸出獎(jiǎng)勵(lì)最佳的分揀方案。
根據(jù)輸出的分配方案計(jì)算分揀效益并與期望值進(jìn)行比較,不同分配模型在不同含矸率時(shí)分揀效益與期望值的比值如表1所示。由表可知,在含矸率為4.73%工況下,矸石數(shù)量較少,分揀壓力較低,2種模型的性能差異僅有0.49%。當(dāng)含矸率逐漸增加,相同時(shí)間內(nèi)機(jī)械手分揀區(qū)存在的矸石數(shù)量增多,部分煤矸石會在機(jī)械手執(zhí)行分揀動作的過程中超出機(jī)械手分揀區(qū)域,導(dǎo)致漏檢的煤矸石增多,分揀率逐漸下降,且含矸率越高,漏檢數(shù)量越大。由于順序分配模型無法在諸多矸石中選擇高價(jià)值的目標(biāo),因此它的分揀性能出現(xiàn)5.57%~17.74%的下降,而本文模型所獲得的最佳組合方案則可以避免的這一問題,本文中模型會遍歷所有即將進(jìn)行分揀區(qū)的矸石,在滿足機(jī)械手分揀動作的時(shí)間要求下,求解出最佳的分揀目標(biāo)的組合方案,使得分揀效益的下降在8.44%以內(nèi)。
不同分配模型在不同帶速時(shí)所得分揀效益與期望值的比值如表2所示。由表可知,試驗(yàn)使用矸石含量為21.61%的煤矸石樣品,設(shè)置皮帶速度為0.45~0.6 m/s。在同一組實(shí)驗(yàn)樣品的不同皮帶速度下,本文中模型的分揀收益大于順序分配模型2.41%~8.98%。隨著帶速的增加,煤矸石在機(jī)械手分揀區(qū)的通過時(shí)間由2.2 s縮短至1.3 s,部分煤矸石會在機(jī)械手執(zhí)行分揀動作的過程中進(jìn)入并超出機(jī)械手分揀區(qū)域,導(dǎo)致漏檢的煤矸石增多,分揀率逐漸下降,且?guī)僭礁?,漏檢數(shù)量越大。
部分煤矸石樣本的分配結(jié)果如表3所示。由表可知,表中0表示氣吹分揀,1表示機(jī)械手分揀,×表示漏檢,本文中模型可以動態(tài)調(diào)整煤矸石的分揀方式,避免漏檢,且在皮帶速度較快時(shí)優(yōu)先將氣吹可靠性低的煤矸石分配向機(jī)械手,而順序分配模型在固定閾值的情況下,無法考慮各設(shè)備的工作狀態(tài),存在漏檢現(xiàn)象,因此,在不同的帶速下,本文模型會通過對機(jī)械手和氣吹分揀目標(biāo)的進(jìn)行調(diào)整尋優(yōu),得出在不同帶速下分揀效益最高的分揀方案,從而適應(yīng)帶速的改變。
5結(jié)論
1)提出了一種異構(gòu)機(jī)器人協(xié)同分選方法并加入強(qiáng)化學(xué)習(xí)算法優(yōu)化的任務(wù)分配策略,以實(shí)現(xiàn)高效、低成本的分選。
2)煤矸石的協(xié)同分選方法在不同皮帶速度和矸石含量條件下,與傳統(tǒng)分配方法相比,可以使系統(tǒng)在不同負(fù)載下的整體分揀效益穩(wěn)定在90%以上,且受帶速的影響較小。
3)協(xié)同分選方式有望向氣動分選方式和多機(jī)械手協(xié)同作業(yè)方式發(fā)展,加強(qiáng)系統(tǒng)在多機(jī)械手協(xié)作,氣吹與機(jī)械手協(xié)作方面的優(yōu)化,根據(jù)礦區(qū)實(shí)際需求進(jìn)行合理和定制化擴(kuò)展,以低成本的方式滿足特定分選需求。
利益沖突聲明(Conflict of Interests)
所有作者聲明不存在利益沖突。
All authors disclose no relevant conflict of interests.
作者貢獻(xiàn)(Author’s Contributions)
張杰、李博、夏蕊、王學(xué)文、李娟莉與徐文軍進(jìn)行了方案設(shè)計(jì),張杰和李博參與了論文的寫作和修改。所有作者均閱讀并同意了最終稿件的提交。
The study was designed by ZHANG Jie,LI Bo,XIA Rui,WANG Xuewen,LI Juanli and XU Wenjun.The manuscript was written and revised by ZHANG Jie and LI Bo.All authors have read the last version of paper.
參考文獻(xiàn)(References)
[1]FAN G W,ZHANG D S,WANG X F.Reduction and utilization of coal mine waste rock in China:a case study in Tiefa coalfield[J].Resources Conservation and Recycling,2014,83:24-33.
[2]YANG Y,ZENG Q,YIN G,et al.Vibration test of single coal gangue particle directly impacting the metal plate and the study of coal gangue recognition based on vibration signal and stacking integration[J].IEEE Access,2019(7):106783-106804.
[3]劉學(xué)雷.我國選煤技術(shù)發(fā)展現(xiàn)狀及趨勢分析[J].選煤技術(shù),2018(6):12-15.
LIU X L.Analysis of the current situation and trend of the development of coal beneficiation technology in China[J].Coal Selection Technology,2018(6):12-15.
[4]MEYER E J,CRAIG I K.Dynamic model for a dense medium drum separator in coal beneficiation[J].Minerals Engineer-ing,2015,77:78-85.
[5]AMBROS W M.Jigging:a review of fundamentals and future directions[J].Minerals,2020,10(11):998-1029.
[6]ZHOU Y,ALBIJANIC B,TADESSE B,et al.Surface properties of aged coal and their effects on bubble particle attachment during flotation[J].Advanced Powder Technology,2020,31(4):1490-1499.
[7]YANG Y,ZENG Q.Multipoint acceleration information acquisition of the impact experiments between coal gangue and the metal plate and coal gangue recognition based on SVM and serial splicing data[J].Arabian Journal for Science and Engine-ering,2021,46(3):2749-2768.
[8]LIU P,MA H W,ZHANG X H,et al.On the equivalent position workspace for a coal gangue picking robot[C]//2019 3rd International Conference on Artificial Intelligence,Auto-mation and Control Technologies.Xi'an:IOP science,2019:012078.
[9]SUN Z Y,HUANG L L,JIA R Q.Coal and gangue separating robot system based on computer vision[J].Sensors,2021,21(4):1349-1353.
[10]LIU P,TIAN H B,CAO X G,et al.Pick-and-place trajectory planning and robust adaptive fuzzy tracking control for cable based gangue sorting robots with model uncertainties and external disturbances[J].Machsines,2022,10(8):10080714.
[11]PENG L,XIN Z Q,XU H Z.Stability sensitivity for a cable-based coal-gangue picking robot based on grey relational analysis[J].International Journal of Advanced Robotic Systems,2021,18(6):1059729.
[12]曹現(xiàn)剛,費(fèi)佳浩,王鵬,等.基于多機(jī)械手協(xié)同的煤矸分揀方法研究[J].煤炭科學(xué)技術(shù),2019,47(4):7-12.
CAO X G,F(xiàn)EI J H,WANG P,et al.Research on coal gangue sorting method based on multi-mechanical arm collabora-tion[J].Coal Science and Technology,2019,47(4):7-12.
[13]SHANG D,WANG Y,YANG Z,et al.Study on comprehensive calibration and image sieving for coal gangue separation parallel robot[J].Applied Sciences-Basel,2020,10(20):10207059.
[14]WANG P,MA H,ZHANG Y,et al.A cooperative strategy of multi-arm coal gangue sorting robot based on immune dynamic workspace[J].International Journal of Coal Preparation and Utilization,2023,43(5):794-814.
[15]MA H,WEI X,WANG P,et al.Multi-arm global cooperative coal gangue sorting method based on improved Hungarian algorithm[J].Sensors,2022,22(20):22207987.
[16]WU X D,CAO X A,WANG P,et al.Multi-task allocation framework of coal gangue sorting robot system for the time-varying raw coal flow[J].International Journal of Coal Preparation and Utilization,2023:2217657
[17]張?jiān)?,潘祥生,陳曉晶,?智能選矸機(jī)器人關(guān)鍵技術(shù)研究[J].工礦自動化,2022,48(6):69-76.
ZHANG Y H,PAN X S,CHEN X J,et al.Research on key technology of intelligent gangue selecting robot[J].Indus-trial and Mining Automation,2022,48(6):69-76.
[18]ZHENG K,DU C,LI J,et al.Underground pneumatic separation of coal and gangue with large size(≥50 mm)in green mining based on the machine vision system[J].Powder Technology,2015,278:223-233.
[19]ZHENG K,DU C,LI J,et al.Coal and gangue underground pneumatic separation effect evaluation influenced by different airflow directions[J].Advances in Materials Science and Engineering,2016:6465983.
[20]WANG Z X,XIE S X,CHEN G D,et al.An online flexible sorting model for coal and gangue based on multi-information fusion[J].IEEE Access,2021,9:90816-90827.
[21]VOLODYMYR,MNIH,KORAY,et al.Human-level control through deep reinforcement learning.[J].Nature,2015,518:529-533.
Heterogeneous robot coal gangue collaborative sorting method based on long short term memory-deep Q network
ZHANG Jie1,XIA Rui1,LI Bo1,WANG Xuewen1,LI Juanli1,XU Wenjun1,2
1.Faculty of Mechanical and Vehicle Engineering,Taiyuan University of Technology,Taiyuan 030000,China;2.Shanxi Liangjie Digital Technology Corporation,Taiyuan 030000,China
Abstract
Objective Gangue is the waste and impurity produced during the process of coal mining and handling.Its proper separation can reduce environmental pollution,improve energy efficiency,and provide economic benefits.Intelligent coal gangue sorting com?monly involves robotic sorting and air-blowing separation.However,robotic sorting is offten costly and complex,with a high failure rate,while air-blowing separation is not adaptable to gangue with significant differences in quality.Byanalysing the working characteristics of the two different separation methods and designing a synergistic sorting system,the adaptability and cost-effectiveness of the gangue sorting system can be improved.
Methods This paper proposed a collaborative sorting model using heterogeneous robots.The model combined deep reinforce?ment learning with heterogeneous sorting robots.The continuous sorting process of coal gangue was divided into a number of task segments.Overall planning was carried out for each task segment to develop a feasible cooperative work scheme for actuators.The third task set for gangue sorting and actuator collection was presented.To meet the continuity requirements for gangue sort?ing,we proposed splitting the continuous task into several subsets.Tasks were allocated using a buffer between identification and sorting.Furthermore,this paper proposed a reinforcement learning decision-making framework based on LSTM-DQN(long short term memory,LTSM;deep Q network,DQN)to design an interaction environment for reinforcement learning during the coal gangue sorting process.The framework includes state space,action space,and reward function.Additionally,a cross-attention mechanism was used to compute the actuator preferences for tasks,which accelerated the model convergence speed.Also,this paper constructed a core network of the model and introduced LSTM to handle state sequences for temporal and long-term dependencies.The DQN structure was then optimized.Samples with different gangue rates were set up,and the proposed method was compared with the sequential allocation model across different gangue rates and band speeds to demonstrate its superiority.
Results and Discussion Based on the proposed LTSM-DQN model,a method for sorting coal gangue using heterogeneous robots was developed.Six groups of samples with varying gangue rates were prepared to simulate different workloads.The experiment showed that the LTSM-DQN model was effective for task assignment in heterogeneous robot cooperation.Fig.7 showed that vari?ous loads could converge within 500 rounds of training.Samples with gangue rates ranging from 4.73%to 30.45%were sorted using the LTSM-DQN-based sorting model,which could limit the reduction in sorting efficiency to within 8%.When compared to the traditional sequential assignment,the sorting model based on LTSM-DQN could improve sorting efficiency by 2.41%to 8.98%at a gangue rate of 21.61%and an adjusted belt speed of 0.4~0.6 m/s,as shown in Tab 2.This improvement was sig?nificant and demonstrated the effectiveness of the LTSM-DQN model.
Conclusion A collaborative method for heterogeneous robots and an optimized task allocation strategy using a reinforcement learning algorithm were proposed to achieve efficient and cost-effective sorting.The experiment demonstrated that this collabora?tive sorting method for coal gangue sorting can maintain the overall sorting efficiency of the system above 90%under different loads and is less affected by belt speed compared to the traditional allocation method under different belt speeds and gangue con?tentconditions.The cooperative sorting method is expected to evolve into pneumatic sorting method and multi-mechanic coop?erative operation method.The system will be optimized in terms of multi-mechanic cooperation,air blowing,and robot coopera?tion.Reasonable and customized expansion will be carried out based the actual needs of the mining area to satisfy specific sort?ing needs in a cost-effective manner.
Keywords:heterogeneous robots;cooperative sorting;reinforcement Learning;long short term memory;deep Q network
(責(zé)任編輯:武秀娟)