亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于最小二乘支持向量機(jī)的移動(dòng)機(jī)器人導(dǎo)航

2011-03-28 01:52:52侯艷麗

電子設(shè)計(jì)工程 2011年23期

關(guān)鍵詞：移動(dòng)機(jī)器人動(dòng)作系統(tǒng)

侯艷麗

（商丘師范學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院，河南商丘476000）

移動(dòng)機(jī)器人要在未知環(huán)境中安全地完成指定任務(wù)，導(dǎo)航系統(tǒng)應(yīng)具有靈活性和適應(yīng)性，使其能適應(yīng)工作環(huán)境，提高工作效率[1]。要達(dá)到這一目的，學(xué)習(xí)是一個(gè)不可缺少的重要環(huán)節(jié)。強(qiáng)化學(xué)習(xí)以其自學(xué)習(xí)和自適應(yīng)的特點(diǎn)成為求解不完全、離散的馬爾可夫決策問(wèn)題的有效方法，已經(jīng)廣泛應(yīng)用在機(jī)器人研究領(lǐng)域[2-7]。在國(guó)內(nèi)外大量的強(qiáng)化學(xué)習(xí)研究中，大都把系統(tǒng)的狀態(tài)看作有限的集合。但是在實(shí)際機(jī)器人導(dǎo)航中，系統(tǒng)的狀態(tài)空間往往是連續(xù)的，并存在狀態(tài)變量的空間復(fù)雜性問(wèn)題[8]。為了解決強(qiáng)化學(xué)習(xí)中的泛化問(wèn)題，常用神經(jīng)網(wǎng)絡(luò)值函數(shù)做最優(yōu)策略逼近[2-7]。盡管這些方法可以提高強(qiáng)化學(xué)習(xí)的效率，但在理論上是非凸的，容易陷入局部極小。文獻(xiàn)[9]提出利用LS-SVM實(shí)現(xiàn)由系統(tǒng)狀態(tài)-動(dòng)作對(duì)到Q值函數(shù)的映射，同時(shí)為了提高學(xué)習(xí)速度，引入滾動(dòng)時(shí)間窗。該方法與神經(jīng)網(wǎng)絡(luò)相比，泛化能力明顯提高，簽于此，筆者將其用于CASIA-I的導(dǎo)航控制中。

1 移動(dòng)機(jī)器人模型

安裝有觸覺(jué)紅外、近紅外和超聲等多傳感器的CASIA-I利用它們感知障礙物。它們的有效作用距離分別為dch=20 cm，dnear=45 cm和45～350 cm。將這些傳感器分成3組：1）由觸覺(jué)紅外ch1～ch3、近紅外nh1～nh3和超聲ul1～ul3構(gòu)成；2）由觸覺(jué)紅外ch4～ch8、近紅外nh4～nh8和超聲ul4～ul8構(gòu)成；3）由觸覺(jué)紅外ch9～ch11，近紅外nh9～nh11和超聲ul9～ul11構(gòu)成。

假設(shè)CASIA-I的動(dòng)作有直行、右轉(zhuǎn)15°，左轉(zhuǎn)15°。直行的最大速度為每步dmax。不管是觸覺(jué)紅外還是近紅外，當(dāng)探測(cè)到障礙物時(shí)，輸出為1，否則，輸出為0。取

di為障礙物到超聲的距離，ds為事先確定的安全區(qū)域的半徑，將CASIA-I工作環(huán)境分成：

1）自由空間FS

2）安全空間SS

3）非安全空間NSS

其他情況都?xì)w并到該空間，在該空間中，至少存在一個(gè)障礙物。因此必須采取措施，避免相碰。

在上述空間劃分的基礎(chǔ)上，CASIA-I從當(dāng)前狀態(tài)，執(zhí)行某一動(dòng)作，達(dá)到其后續(xù)狀態(tài)，回報(bào)函數(shù)為：

2 基于LS-SVM的Q學(xué)習(xí)

Q學(xué)習(xí)的實(shí)現(xiàn)過(guò)程為：在每個(gè)時(shí)間步t，觀察當(dāng)前狀態(tài)st，選擇和執(zhí)行動(dòng)作at，再觀察后續(xù)狀態(tài)st+1并接受立即回報(bào)rt，然后用式（3）來(lái)調(diào)整Qt。

η控制學(xué)習(xí)速度，0≤γ≤1表示學(xué)習(xí)系統(tǒng)的遠(yuǎn)視程度。

為了構(gòu)造LS-SVM，提高估計(jì)速度，樣本是窗式移動(dòng)的[10]。即在將新數(shù)據(jù)加入樣本集之前要進(jìn)行KKT[11]判斷，若滿足KKT條件，不更新訓(xùn)練集，時(shí)間窗保持不變，若違反，滾動(dòng)時(shí)間窗，重新訓(xùn)練得到的LS-SVM。設(shè)t時(shí)刻訓(xùn)練樣本集由過(guò)去L組數(shù)據(jù)構(gòu)成。

為了解決學(xué)習(xí)中探索與利用的兩難問(wèn)題，LS-SVM的輸出被送入隨機(jī)動(dòng)作選擇器。采用BoltzmanGibbs分布作為選擇策略[10]，則動(dòng)作ak從動(dòng)作集A={a1，a2，…am}中被選擇的概率為：

式中，T＞0為溫度參數(shù)，控制動(dòng)作選擇的隨機(jī)程度。

3 LS-SVM的學(xué)習(xí)及導(dǎo)航算法

對(duì)L區(qū)間的數(shù)據(jù)進(jìn)行建模，把回歸問(wèn)題表示為約束優(yōu)化問(wèn)題：

其中，γi反映區(qū)間內(nèi)樣本的重要程度，文中定義為：

建立Lagrange函數(shù)，并根據(jù)KKT條件，得到回歸模型為：

根據(jù)上述分析，CASIA-I導(dǎo)航算法描述如下：

第一步：初始化Q學(xué)習(xí)控制器及回歸模型的參數(shù)；

第二步：根據(jù)各傳感器提供的信息確定機(jī)器人的當(dāng)前狀態(tài)st，如果st?FS，則執(zhí)行第三步。否則執(zhí)行：

1）構(gòu)造t時(shí)刻LS-SVM的學(xué)習(xí)訓(xùn)練樣本集D；

2）根據(jù)貪心策略選擇最大Q值對(duì)應(yīng)的動(dòng)作αt；

3）執(zhí)行動(dòng)作αt，獲取下一時(shí)刻狀態(tài)St+1及立即回報(bào)rt；

4）按照式（3）更新Q值，得到目標(biāo)值Qt；

5）判斷新數(shù)據(jù)（xt，Qt）是否違反KKT條件，若不違反，則保持時(shí)間窗不變，若違反，則將該數(shù)據(jù)加入訓(xùn)練集并滾動(dòng)時(shí)間窗；

第三步：根據(jù)傳感器提供的數(shù)據(jù)，調(diào)整移動(dòng)機(jī)器人的運(yùn)動(dòng)方向，然后以每步dmax的最大速度向目標(biāo)運(yùn)動(dòng)一步；

第四步：若不滿足學(xué)習(xí)結(jié)束條件，t←t+1，轉(zhuǎn)第二步。

4 仿真研究

對(duì)文中所提方法進(jìn)行30次的獨(dú)立仿真運(yùn)行，取η=0.16，γ=0.94，T=0.009，C=100，ε=0.006，σ=0.5，L=33。表1給出了系統(tǒng)學(xué)習(xí)性能比較，由表1可知，與文獻(xiàn)[5]提出的基于BP神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)系統(tǒng)相比，基于SVM的Q學(xué)習(xí)在每次仿真中均能以較少的學(xué)習(xí)次數(shù)獲得最優(yōu)策略，而基于LS-SVM則以更少的次數(shù)獲得最優(yōu)策略。

5 結(jié)束語(yǔ)

強(qiáng)化學(xué)習(xí)已經(jīng)應(yīng)用在移動(dòng)機(jī)器人導(dǎo)航中，為了解決強(qiáng)化學(xué)習(xí)中的泛化問(wèn)題，提出用基于時(shí)間窗的LS-SVM實(shí)現(xiàn)由系統(tǒng)狀態(tài)-動(dòng)作對(duì)到的Q值函數(shù)的映射。實(shí)驗(yàn)結(jié)果表明所提方法能夠使機(jī)器人在較少的學(xué)習(xí)次數(shù)內(nèi)無(wú)碰撞的到達(dá)目的地。

[1] 蔡自興，賀漢根，陳虹.未知環(huán)境中移動(dòng)機(jī)器人導(dǎo)航控制研究的若干問(wèn)題[J].控制與決策，2002，4（17）:385-391.CAI Zi-xing，HE Han-gen，CHEN Hong.Some issues for mobile robots navigation under unknown environments[J]Control and Decision，2002，4（17）:385-391.

[2] Cicirelli G，D’Orazio T，Distante A.Neural Q-learning control architectures for wall-following behavior[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems，2003.

[3] Carreras M，Ridao P，EI-Fakdi A.Semi-online neural Q-learning for real-time robot learning[C]//Proceedings of theIEEE/RSJ International Conference on Intelligent Robots and Systems，Las Vegas Nevada，2003：662-667.

表1 具體系統(tǒng)性能比較Tab.1 The comparison of system performance

[4] Kondo T，Ito K.A reinforcement learning with evolutionary state recruitment strategy for autonomous mobile robots control[J].Robotics ans Autonomous Systems，2004，46（2）:121-124.

[5] Yang G S，Chen K A，Cheng W.Mobile robot navigation using neural Q-Learning[C]//IEEE Proceedings of International Conference on Machine Learning and Cybernetics，Shanghai，China，2004：48-52.

[6] Yang G S，Hou Z G，Liang Z Z.Distributed visual navigation based on neural Q-learning for a mobile robot[C]//International Journal of Vehicle Autonomous Systems，Britain，2006：225-235.

[7] 秦政，丁福光，邊信黔.強(qiáng)化學(xué)習(xí)在移動(dòng)機(jī)器人自主導(dǎo)航中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用，2007，43（18）:215-217.QIN Zheng，DING Fu-guang，BIAN Xin-qian.Application of reinforcement learning in autonomous navigation for mobile robot[J].Computer Engineering and Applications，2007，43（18）:215-217.

[8] Preu P，Delepoulies S，Raqcheville J C.A generic architecture for adaptive agents based on reinforcement learning[J].Information Sciences，2004，（161）:37-55.

[9] 王雪松，田西蘭，程玉虎.最小二乘支持向量機(jī)在強(qiáng)化學(xué)習(xí)系統(tǒng)中的應(yīng)用[J].系統(tǒng)仿真學(xué)報(bào)，2008，14（20）:3702-3706.WANG Xue-song，TIAN Xi-lan，CHEN Yu-hu.Application of least squares support vector machine to reinforcement learning system[J].Journal of System Simulatioin，2008，14（20）:3702-3706.

[10] BO C M，WANG Z Q，LU A J.Study and application on dynamic modeling method based on SVMand sliding time window techniques[C]//Proceedings of the 6th World Congress on Intelligent Control and Automation.Piscataway:Institute of Electrical and Electronics Engineerings Inc.Press，2006:4714-4718.

[11] Suykens J A K，Vandewale J.Least squares support vector machine classifiers[J].Neural Processing Letters，1999，9（3）:293-300.