侯艷麗
(商丘師范學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院,河南商丘476000)
移動(dòng)機(jī)器人要在未知環(huán)境中安全地完成指定任務(wù),導(dǎo)航系統(tǒng)應(yīng)具有靈活性和適應(yīng)性,使其能適應(yīng)工作環(huán)境,提高工作效率[1]。要達(dá)到這一目的,學(xué)習(xí)是一個(gè)不可缺少的重要環(huán)節(jié)。強(qiáng)化學(xué)習(xí)以其自學(xué)習(xí)和自適應(yīng)的特點(diǎn)成為求解不完全、離散的馬爾可夫決策問(wèn)題的有效方法,已經(jīng)廣泛應(yīng)用在機(jī)器人研究領(lǐng)域[2-7]。在國(guó)內(nèi)外大量的強(qiáng)化學(xué)習(xí)研究中,大都把系統(tǒng)的狀態(tài)看作有限的集合。但是在實(shí)際機(jī)器人導(dǎo)航中,系統(tǒng)的狀態(tài)空間往往是連續(xù)的,并存在狀態(tài)變量的空間復(fù)雜性問(wèn)題[8]。為了解決強(qiáng)化學(xué)習(xí)中的泛化問(wèn)題,常用神經(jīng)網(wǎng)絡(luò)值函數(shù)做最優(yōu)策略逼近[2-7]。盡管這些方法可以提高強(qiáng)化學(xué)習(xí)的效率,但在理論上是非凸的,容易陷入局部極小。文獻(xiàn)[9]提出利用LS-SVM實(shí)現(xiàn)由系統(tǒng)狀態(tài)-動(dòng)作對(duì)到Q值函數(shù)的映射,同時(shí)為了提高學(xué)習(xí)速度,引入滾動(dòng)時(shí)間窗。該方法與神經(jīng)網(wǎng)絡(luò)相比,泛化能力明顯提高,簽于此,筆者將其用于CASIA-I的導(dǎo)航控制中。
安裝有觸覺(jué)紅外、近紅外和超聲等多傳感器的CASIA-I利用它們感知障礙物。它們的有效作用距離分別為dch=20 cm,dnear=45 cm和45~350 cm。將這些傳感器分成3組:1)由觸覺(jué)紅外ch1~ch3、近紅外nh1~nh3和超聲ul1~ul3構(gòu)成;2)由觸覺(jué)紅外ch4~ch8、近紅外nh4~nh8和超聲ul4~ul8構(gòu)成;3)由觸覺(jué)紅外ch9~ch11,近紅外nh9~nh11和超聲ul9~ul11構(gòu)成。
假設(shè)CASIA-I的動(dòng)作有直行、右轉(zhuǎn)15°,左轉(zhuǎn)15°。直行的最大速度為每步dmax。不管是觸覺(jué)紅外還是近紅外,當(dāng)探測(cè)到障礙物時(shí),輸出為1,否則,輸出為0。取
di為障礙物到超聲的距離,ds為事先確定的安全區(qū)域的半徑,將CASIA-I工作環(huán)境分成:
1)自由空間FS
2)安全空間SS
3)非安全空間NSS
其他情況都?xì)w并到該空間,在該空間中,至少存在一個(gè)障礙物。因此必須采取措施,避免相碰。
在上述空間劃分的基礎(chǔ)上,CASIA-I從當(dāng)前狀態(tài),執(zhí)行某一動(dòng)作,達(dá)到其后續(xù)狀態(tài),回報(bào)函數(shù)為:
Q學(xué)習(xí)的實(shí)現(xiàn)過(guò)程為:在每個(gè)時(shí)間步t,觀察當(dāng)前狀態(tài)st,選擇和執(zhí)行動(dòng)作at,再觀察后續(xù)狀態(tài)st+1并接受立即回報(bào)rt,然后用式(3)來(lái)調(diào)整Qt。
η控制學(xué)習(xí)速度,0≤γ≤1表示學(xué)習(xí)系統(tǒng)的遠(yuǎn)視程度。
為了構(gòu)造LS-SVM,提高估計(jì)速度,樣本是窗式移動(dòng)的[10]。即在將新數(shù)據(jù)加入樣本集之前要進(jìn)行KKT[11]判斷,若滿足KKT條件,不更新訓(xùn)練集,時(shí)間窗保持不變,若違反,滾動(dòng)時(shí)間窗,重新訓(xùn)練得到的LS-SVM。設(shè)t時(shí)刻訓(xùn)練樣本集由過(guò)去L組數(shù)據(jù)構(gòu)成。
為了解決學(xué)習(xí)中探索與利用的兩難問(wèn)題,LS-SVM的輸出被送入隨機(jī)動(dòng)作選擇器。采用BoltzmanGibbs分布作為選擇策略[10],則動(dòng)作ak從動(dòng)作集A={a1,a2,…am}中被選擇的概率為:
式中,T>0為溫度參數(shù),控制動(dòng)作選擇的隨機(jī)程度。
對(duì)L區(qū)間的數(shù)據(jù)進(jìn)行建模,把回歸問(wèn)題表示為約束優(yōu)化問(wèn)題:
其中,γi反映區(qū)間內(nèi)樣本的重要程度,文中定義為:
建立Lagrange函數(shù),并根據(jù)KKT條件,得到回歸模型為:
根據(jù)上述分析,CASIA-I導(dǎo)航算法描述如下:
第一步:初始化Q學(xué)習(xí)控制器及回歸模型的參數(shù);
第二步:根據(jù)各傳感器提供的信息確定機(jī)器人的當(dāng)前狀態(tài)st,如果st?FS,則執(zhí)行第三步。否則執(zhí)行:
1)構(gòu)造t時(shí)刻LS-SVM的學(xué)習(xí)訓(xùn)練樣本集D;
2)根據(jù)貪心策略選擇最大Q值對(duì)應(yīng)的動(dòng)作αt;
3)執(zhí)行動(dòng)作αt,獲取下一時(shí)刻狀態(tài)St+1及立即回報(bào)rt;
4)按照式(3)更新Q值,得到目標(biāo)值Qt;
5)判斷新數(shù)據(jù)(xt,Qt)是否違反KKT條件,若不違反,則保持時(shí)間窗不變,若違反,則將該數(shù)據(jù)加入訓(xùn)練集并滾動(dòng)時(shí)間窗;
第三步:根據(jù)傳感器提供的數(shù)據(jù),調(diào)整移動(dòng)機(jī)器人的運(yùn)動(dòng)方向,然后以每步dmax的最大速度向目標(biāo)運(yùn)動(dòng)一步;
第四步:若不滿足學(xué)習(xí)結(jié)束條件,t←t+1,轉(zhuǎn)第二步。
對(duì)文中所提方法進(jìn)行30次的獨(dú)立仿真運(yùn)行,取η=0.16,γ=0.94,T=0.009,C=100,ε=0.006,σ=0.5,L=33。表1給出了系統(tǒng)學(xué)習(xí)性能比較,由表1可知,與文獻(xiàn)[5]提出的基于BP神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)系統(tǒng)相比,基于SVM的Q學(xué)習(xí)在每次仿真中均能以較少的學(xué)習(xí)次數(shù)獲得最優(yōu)策略,而基于LS-SVM則以更少的次數(shù)獲得最優(yōu)策略。
強(qiáng)化學(xué)習(xí)已經(jīng)應(yīng)用在移動(dòng)機(jī)器人導(dǎo)航中,為了解決強(qiáng)化學(xué)習(xí)中的泛化問(wèn)題,提出用基于時(shí)間窗的LS-SVM實(shí)現(xiàn)由系統(tǒng)狀態(tài)-動(dòng)作對(duì)到的Q值函數(shù)的映射。實(shí)驗(yàn)結(jié)果表明所提方法能夠使機(jī)器人在較少的學(xué)習(xí)次數(shù)內(nèi)無(wú)碰撞的到達(dá)目的地。
[1] 蔡自興,賀漢根,陳虹.未知環(huán)境中移動(dòng)機(jī)器人導(dǎo)航控制研究的若干問(wèn)題[J].控制與決策,2002,4(17):385-391.CAI Zi-xing,HE Han-gen,CHEN Hong.Some issues for mobile robots navigation under unknown environments[J]Control and Decision,2002,4(17):385-391.
[2] Cicirelli G,D’Orazio T,Distante A.Neural Q-learning control architectures for wall-following behavior[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems,2003.
[3] Carreras M,Ridao P,EI-Fakdi A.Semi-online neural Q-learning for real-time robot learning[C]//Proceedings of theIEEE/RSJ International Conference on Intelligent Robots and Systems,Las Vegas Nevada,2003:662-667.
表1 具體系統(tǒng)性能比較Tab.1 The comparison of system performance
[4] Kondo T,Ito K.A reinforcement learning with evolutionary state recruitment strategy for autonomous mobile robots control[J].Robotics ans Autonomous Systems,2004,46(2):121-124.
[5] Yang G S,Chen K A,Cheng W.Mobile robot navigation using neural Q-Learning[C]//IEEE Proceedings of International Conference on Machine Learning and Cybernetics,Shanghai,China,2004:48-52.
[6] Yang G S,Hou Z G,Liang Z Z.Distributed visual navigation based on neural Q-learning for a mobile robot[C]//International Journal of Vehicle Autonomous Systems,Britain,2006:225-235.
[7] 秦政,丁福光,邊信黔.強(qiáng)化學(xué)習(xí)在移動(dòng)機(jī)器人自主導(dǎo)航中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(18):215-217.QIN Zheng,DING Fu-guang,BIAN Xin-qian.Application of reinforcement learning in autonomous navigation for mobile robot[J].Computer Engineering and Applications,2007,43(18):215-217.
[8] Preu P,Delepoulies S,Raqcheville J C.A generic architecture for adaptive agents based on reinforcement learning[J].Information Sciences,2004,(161):37-55.
[9] 王雪松,田西蘭,程玉虎.最小二乘支持向量機(jī)在強(qiáng)化學(xué)習(xí)系統(tǒng)中的應(yīng)用[J].系統(tǒng)仿真學(xué)報(bào),2008,14(20):3702-3706.WANG Xue-song,TIAN Xi-lan,CHEN Yu-hu.Application of least squares support vector machine to reinforcement learning system[J].Journal of System Simulatioin,2008,14(20):3702-3706.
[10] BO C M,WANG Z Q,LU A J.Study and application on dynamic modeling method based on SVMand sliding time window techniques[C]//Proceedings of the 6th World Congress on Intelligent Control and Automation.Piscataway:Institute of Electrical and Electronics Engineerings Inc.Press,2006:4714-4718.
[11] Suykens J A K,Vandewale J.Least squares support vector machine classifiers[J].Neural Processing Letters,1999,9(3):293-300.