王伯健 戰(zhàn) 凱 郭 鑫,2 石 峰 高澤宇
(1.北京礦冶研究總院,北京 100160;2.北京科技大學(xué) 機(jī)械工程學(xué)院,北京 100083)
地下鏟運(yùn)機(jī)屬于鉸接車的一種,是靈活、機(jī)動(dòng)的鏟裝運(yùn)輸設(shè)備。KCY-2型鏟運(yùn)機(jī)通過鉸接點(diǎn)一側(cè)布置的油缸伸縮來實(shí)現(xiàn)轉(zhuǎn)向,在車輛行駛過程中,有左右轉(zhuǎn)向響應(yīng)效果不同的問題,加上地面摩擦條件的因素,車輛轉(zhuǎn)向的控制較為復(fù)雜。為保證無人駕駛過程中轉(zhuǎn)向控制的精確,對(duì)車速的控制要求更高,需要車速的控制反應(yīng)快、穩(wěn)定性強(qiáng)。
針對(duì)剛性車輛的車速控制的研究,當(dāng)前大多采用專家經(jīng)驗(yàn)法、模糊化車速、PID控制、滑膜控制、智能控制算法、智能優(yōu)化搜索算法等。目前,很多車速控制算法是依據(jù)駕駛特征大數(shù)據(jù)、視覺等經(jīng)驗(yàn)法控制車速[1,2],存在局限性。通過模糊理論模糊化分級(jí)控制輸出車速的方法會(huì)使車速分級(jí)變化,平穩(wěn)性、可控性較低[3]。傳統(tǒng)的PID控制器和控制方法穩(wěn)定性較高,但存在應(yīng)用需大量時(shí)間調(diào)整參數(shù)和無法適應(yīng)變化等系統(tǒng)問題[4-6]。滑膜控制、逆控制、智能優(yōu)化算法等其他方法對(duì)于非線性不穩(wěn)定系統(tǒng)問題的控制效果不理想,存在不足[7-9]。在實(shí)際巷道中,地下鏟運(yùn)機(jī)的車速控制需要較高的及時(shí)性、可靠性和穩(wěn)定性,但因?yàn)檐囕d控制器硬件配置限制,以及對(duì)響應(yīng)速度的要求較高,復(fù)雜的算法無法滿足使用條件。而強(qiáng)化學(xué)習(xí)是從環(huán)境獲得數(shù)據(jù)后不斷訓(xùn)練,從而獲得對(duì)環(huán)境的精確反應(yīng),是一種強(qiáng)學(xué)習(xí)行為,可以進(jìn)行離線學(xué)習(xí),得到穩(wěn)定的模型和參數(shù),從而滿足控制要求。鏟運(yùn)機(jī)是鉸接車輛,其轉(zhuǎn)向是通過油缸伸縮改變其鉸接角來完成,當(dāng)油缸動(dòng)作開始轉(zhuǎn)向時(shí),若鉸接角變化過大則需要車輛減速到合適且盡可能大的車速轉(zhuǎn)向,以便提升行駛效率,強(qiáng)化學(xué)習(xí)控制車速的目的是找到這一時(shí)刻的車速。利用專家經(jīng)驗(yàn)和強(qiáng)化學(xué)習(xí)方法,設(shè)計(jì)出符合地下鏟運(yùn)機(jī)工況以及硬件設(shè)備要求的強(qiáng)化學(xué)習(xí)策略,再利用智能優(yōu)化算法離線仿真后得出完整的強(qiáng)化學(xué)習(xí)模型,進(jìn)行實(shí)車試驗(yàn),驗(yàn)證可行性和準(zhǔn)確性。
強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)不同,是從環(huán)境狀態(tài)獲得信息判斷執(zhí)行動(dòng)作的學(xué)習(xí),使執(zhí)行動(dòng)作從環(huán)境中獲得的累積獎(jiǎng)賞值最大,通過試錯(cuò)來尋找最優(yōu)的動(dòng)作行為。其學(xué)習(xí)過程是一個(gè)試錯(cuò)與評(píng)價(jià)選擇的馬爾科夫決策過程,對(duì)問題進(jìn)行建模,將其定義為一個(gè)四元組(S,A,p,f),其中,S為狀態(tài)集合,st∈S表示控制對(duì)象在t時(shí)刻的狀態(tài)量;A為控制對(duì)象可執(zhí)行動(dòng)作集合,at∈A表示控制對(duì)象在t時(shí)刻的動(dòng)作;p為獎(jiǎng)賞函數(shù)集合,rt→p(st,at)表示控制對(duì)象狀態(tài)st執(zhí)行動(dòng)作at獲得的即時(shí)獎(jiǎng)勵(lì)量;f為概率在0~1的狀態(tài)轉(zhuǎn)移概率分布函數(shù),st+1→f(st,at) 表示控制對(duì)象在狀態(tài)st執(zhí)行動(dòng)作at轉(zhuǎn)移到下一狀態(tài)st+1的概率[10,11]。
強(qiáng)化學(xué)習(xí)方法是學(xué)習(xí)一個(gè)行為策略π:S→A,使學(xué)習(xí)對(duì)象的動(dòng)作能夠獲得最大獎(jiǎng)賞。即當(dāng)學(xué)習(xí)對(duì)象由狀態(tài)st變化到狀態(tài)st+1時(shí),所有動(dòng)作集合能夠獲得最大的獎(jiǎng)賞值,作為一個(gè)行為策略[12-14]。獎(jiǎng)賞函數(shù)形式為:
Rst=∑γtrtst(0<γt≤1,0 (1) 式中,γt是折扣因子,用來平衡未來獎(jiǎng)賞對(duì)累積獎(jiǎng)賞的影響。 根據(jù)式2目標(biāo)函數(shù)可以計(jì)算出最優(yōu)值,確定最優(yōu)行為策略[15-19]: π=arg(Rst)max,st∈S (2) 根據(jù)控制系統(tǒng)硬件分析,受控制器和傳感器的硬件限制,無法對(duì)龐大的數(shù)據(jù)進(jìn)行實(shí)時(shí)在線學(xué)習(xí),且速度較快時(shí),學(xué)習(xí)速度來不及會(huì)帶來車輛行駛風(fēng)險(xiǎn),因此采用離線學(xué)習(xí)出強(qiáng)化學(xué)習(xí)模型,導(dǎo)入到車輛進(jìn)行車速控制。學(xué)習(xí)算法邏輯如圖1所示。 訓(xùn)練數(shù)據(jù)集主要是平時(shí)實(shí)車測(cè)試的數(shù)據(jù)包和隨機(jī)生成的一些數(shù)據(jù)包,測(cè)試數(shù)據(jù)集主要來源于平時(shí)實(shí)車測(cè)試表現(xiàn)良好的數(shù)據(jù)包和有經(jīng)驗(yàn)的司機(jī)師傅駕駛鏟運(yùn)機(jī)時(shí)記錄的數(shù)據(jù)包。訓(xùn)練數(shù)據(jù)數(shù)量和測(cè)試數(shù)據(jù)數(shù)量比例大致為2∶1。數(shù)據(jù)包的信息主要包含了車輛GPS得到的正東和正北方向的坐標(biāo)、前車頭航向角、鉸接角角度值、車輛行駛速度以及當(dāng)前時(shí)刻等。通過計(jì)算得出車輛坐標(biāo)變換得到的橫向位置誤差、絕對(duì)航向角誤差、鉸接角變化量以及上一時(shí)刻車速。 根據(jù)一般的強(qiáng)化學(xué)習(xí)方法,將信息量全部考慮其中,考慮到實(shí)際問題,車輛在行駛過程中,下一時(shí)刻的狀態(tài)信息是未知的,只能通過預(yù)測(cè)或者經(jīng)驗(yàn)進(jìn)行判斷,因此在已知當(dāng)前時(shí)刻之前的狀態(tài)信息前提下,采用強(qiáng)化學(xué)習(xí)控制下一時(shí)刻的車速。初步模型中,記錄了之前10個(gè)時(shí)刻的狀態(tài)信息,將其作為控制因素考慮其中,進(jìn)行簡單學(xué)習(xí)時(shí)發(fā)現(xiàn),鉸接角變化量和航向角偏差基本一致,且鉸接角變化量的角度變化很小,其絕對(duì)值基本小于3°,所以略去鉸接角變化量,確定模型具有其他三個(gè)狀態(tài)信息量,由于車速?zèng)]有方向,且無需考慮狀態(tài)量的方向,所有狀態(tài)量采用絕對(duì)值形式,模型見式3,其中n=10,1≤t<10: vf+1= (3) 式3中,vt+1為輸出的期望車速;vt為之前t時(shí)刻的車速,km/h;xt為之前t時(shí)刻橫向位置誤差絕對(duì)值,cm;θt為之前t時(shí)刻航向角誤差絕對(duì)值,°。 因設(shè)備配置水平和提高算法執(zhí)行效率,只采用上一時(shí)刻的狀態(tài)信息,即n=1,t=1,修改強(qiáng)化學(xué)習(xí)模型見式4。 (4) (5) 式5為最終的強(qiáng)化學(xué)習(xí)模型,對(duì)其進(jìn)行離線學(xué)習(xí)訓(xùn)練出系數(shù)參數(shù)即可。 離線訓(xùn)練強(qiáng)化學(xué)習(xí)模型中的三個(gè)系數(shù)參數(shù),獲得最終完善的強(qiáng)化學(xué)習(xí)模型。強(qiáng)化學(xué)習(xí)一般分為基于值函數(shù)的方法和基于策略搜索的方法求解最優(yōu)參數(shù)。本文采用基于遺傳算法的策略搜索方法,遺傳算法其交叉、變異的算子具有打破局部最優(yōu)特點(diǎn),且算法靈活多變,應(yīng)用廣泛,適用絕大多數(shù)優(yōu)化求解問題。具體步驟為: 1)隨機(jī)生成5個(gè)個(gè)體和選取計(jì)算后的5個(gè)訓(xùn)練集數(shù)據(jù)組成父代種群,即建立10行3列n頁的矩陣A,n為最短數(shù)據(jù)集的總元素組個(gè)數(shù); 2)對(duì)矩陣A每頁數(shù)據(jù)隨機(jī)配對(duì)隨機(jī)選擇交叉點(diǎn)進(jìn)行交叉計(jì)算,生成子一代個(gè)體; 3)當(dāng)前時(shí)刻元素對(duì)矩陣A每頁數(shù)據(jù)進(jìn)行最優(yōu)策略選擇,選取最接近測(cè)試數(shù)據(jù)集的車速,并進(jìn)行迭代計(jì)算搜索; 4)分析計(jì)算選取一組適合參數(shù)進(jìn)行參數(shù)擬合校驗(yàn),再進(jìn)行彎道和直道的加權(quán)平均,計(jì)算出合理的三個(gè)系數(shù)參數(shù)。 圖2 強(qiáng)化學(xué)習(xí)遺傳算法計(jì)算系數(shù)參數(shù)流程圖Fig.2 Flow chart of parameters calculated by reinforcement learning genetic algorithm 兩種控制算法都在直線行駛時(shí)的結(jié)果如圖3和圖4所示。兩種控制算法都先行駛一小段直線加速后再轉(zhuǎn)向行駛時(shí)的結(jié)果如圖5和圖6所示。 圖3 純模糊控制直線行駛結(jié)果數(shù)據(jù)圖Fig.3 Data graph of straight line driving results of pure fuzzy control 圖4 強(qiáng)化學(xué)習(xí)控制直線行駛結(jié)果數(shù)據(jù)圖Fig.4 Data graph of straight line driving results of reinforcement learning control 圖5 純模糊控制直線再轉(zhuǎn)向結(jié)果數(shù)據(jù)圖Fig.5 Result data graph of straight redirection of pure fuzzy control 圖6 強(qiáng)化學(xué)習(xí)控制直線再轉(zhuǎn)向結(jié)果數(shù)據(jù)圖Fig.6 Data graph of redirection results of reinforcement learning control 其中,由于鏟運(yùn)機(jī)轉(zhuǎn)向是通過油缸伸縮來實(shí)現(xiàn),由于油缸存在摩擦力,且控制油缸轉(zhuǎn)向的液壓閥有死區(qū),所以只有當(dāng)壓力達(dá)到一定值時(shí),油缸才會(huì)動(dòng)作,因此在圖中轉(zhuǎn)向控制量的絕對(duì)值達(dá)到4以上時(shí),鉸接角才會(huì)開始變化。 實(shí)車控制最初采用的是純模糊控制,控制因素只有航向角誤差為主導(dǎo),不考慮其他因素。實(shí)驗(yàn)數(shù)據(jù)表明,車速控制效果不理想且有明顯頓挫感,車輛安全人員十分不適。使用離線學(xué)習(xí)的理想強(qiáng)化學(xué)習(xí)模型后,控制因素考慮了橫向位置誤差、航向角誤差以及上一時(shí)刻車速,試驗(yàn)數(shù)據(jù)表明控制曲線較為理想,無明顯頓挫感,震蕩感不明顯。 分析發(fā)現(xiàn),直線試驗(yàn)中,純模糊控制在加速后,行駛不是很穩(wěn)定,行駛6 s左右時(shí),速度有向上的突變,且速度變化較大不平穩(wěn),而強(qiáng)化學(xué)習(xí)控制在加速后,行駛比較平穩(wěn),且速度變化微小,在0.2 km/h之內(nèi)。 轉(zhuǎn)向試驗(yàn)中,純模糊控制會(huì)有相應(yīng)的減速效果,但是隨后偏差變化過快時(shí),其控制有些失控,不再準(zhǔn)確,速度會(huì)十分不穩(wěn)定,變化超出1 km/h,甚至開始加速超出原來直線行駛速度,會(huì)給拐彎造成風(fēng)險(xiǎn),在行駛13 s時(shí),人為干預(yù)將車輛急停,而強(qiáng)化學(xué)習(xí)控制車速,在加速直線前進(jìn)后進(jìn)入彎道前,會(huì)提前及時(shí)減速,且速度變化平穩(wěn),變化在0.2 km/h之內(nèi),隨后車速一直穩(wěn)定直到轉(zhuǎn)彎結(jié)束。算法優(yōu)劣對(duì)照見表1。 表1 純模糊控制和強(qiáng)化學(xué)習(xí)控制車速效果對(duì)比 1)針對(duì)鏟運(yùn)機(jī)的自身車輛特性和工作工況,對(duì)比模糊控制和強(qiáng)化學(xué)習(xí)控制初步實(shí)驗(yàn),分析推導(dǎo)出的鏟運(yùn)機(jī)車速強(qiáng)化學(xué)習(xí)控制模型,即控制車速和上一時(shí)刻車速、上一時(shí)刻航向角偏差、上一時(shí)刻位置偏差的關(guān)系,強(qiáng)化學(xué)習(xí)算法控制車速可以更好地提高控制效果和行駛平滑性。 2)強(qiáng)化學(xué)習(xí)算法控制可顯著減少車輛行駛過程中的急加、急減速現(xiàn)象,使車速更好地配合轉(zhuǎn)向操作,安全員的舒適度可得到顯著提高。在突發(fā)情況下,安全員能夠更快地接管車輛,提高了車輛無人駕駛的穩(wěn)定性、可靠性和安全性。 3)由于條件限制,強(qiáng)化學(xué)習(xí)模型本身化簡的相對(duì)比較簡單,之后還需使其更完善、更具體。例如,除了上一時(shí)刻的狀態(tài)信息,將前幾個(gè)時(shí)刻的狀態(tài)都考慮其中進(jìn)行計(jì)算分析,還需繼續(xù)優(yōu)化控制算法的動(dòng)態(tài)性能和控制指標(biāo),甚至具備邊行駛邊學(xué)習(xí)的在線學(xué)習(xí)能力,讓其更自動(dòng)化、智能化,達(dá)到更高的目標(biāo)。2 適用于鏟運(yùn)機(jī)的強(qiáng)化學(xué)習(xí)算法
2.1 強(qiáng)化學(xué)習(xí)數(shù)據(jù)集
2.2 強(qiáng)化學(xué)習(xí)模型建立
2.3 強(qiáng)化學(xué)習(xí)過程
3 實(shí)車測(cè)試結(jié)果
4 結(jié)論