亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于最小二乘支持向量機(jī)的移動(dòng)機(jī)器人導(dǎo)航

        2011-03-28 01:52:52侯艷麗
        電子設(shè)計(jì)工程 2011年23期
        關(guān)鍵詞:移動(dòng)機(jī)器人動(dòng)作系統(tǒng)

        侯艷麗

        (商丘師范學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院,河南商丘476000)

        移動(dòng)機(jī)器人要在未知環(huán)境中安全地完成指定任務(wù),導(dǎo)航系統(tǒng)應(yīng)具有靈活性和適應(yīng)性,使其能適應(yīng)工作環(huán)境,提高工作效率[1]。要達(dá)到這一目的,學(xué)習(xí)是一個(gè)不可缺少的重要環(huán)節(jié)。強(qiáng)化學(xué)習(xí)以其自學(xué)習(xí)和自適應(yīng)的特點(diǎn)成為求解不完全、離散的馬爾可夫決策問(wèn)題的有效方法,已經(jīng)廣泛應(yīng)用在機(jī)器人研究領(lǐng)域[2-7]。在國(guó)內(nèi)外大量的強(qiáng)化學(xué)習(xí)研究中,大都把系統(tǒng)的狀態(tài)看作有限的集合。但是在實(shí)際機(jī)器人導(dǎo)航中,系統(tǒng)的狀態(tài)空間往往是連續(xù)的,并存在狀態(tài)變量的空間復(fù)雜性問(wèn)題[8]。為了解決強(qiáng)化學(xué)習(xí)中的泛化問(wèn)題,常用神經(jīng)網(wǎng)絡(luò)值函數(shù)做最優(yōu)策略逼近[2-7]。盡管這些方法可以提高強(qiáng)化學(xué)習(xí)的效率,但在理論上是非凸的,容易陷入局部極小。文獻(xiàn)[9]提出利用LS-SVM實(shí)現(xiàn)由系統(tǒng)狀態(tài)-動(dòng)作對(duì)到Q值函數(shù)的映射,同時(shí)為了提高學(xué)習(xí)速度,引入滾動(dòng)時(shí)間窗。該方法與神經(jīng)網(wǎng)絡(luò)相比,泛化能力明顯提高,簽于此,筆者將其用于CASIA-I的導(dǎo)航控制中。

        1 移動(dòng)機(jī)器人模型

        安裝有觸覺(jué)紅外、近紅外和超聲等多傳感器的CASIA-I利用它們感知障礙物。它們的有效作用距離分別為dch=20 cm,dnear=45 cm和45~350 cm。將這些傳感器分成3組:1)由觸覺(jué)紅外ch1~ch3、近紅外nh1~nh3和超聲ul1~ul3構(gòu)成;2)由觸覺(jué)紅外ch4~ch8、近紅外nh4~nh8和超聲ul4~ul8構(gòu)成;3)由觸覺(jué)紅外ch9~ch11,近紅外nh9~nh11和超聲ul9~ul11構(gòu)成。

        假設(shè)CASIA-I的動(dòng)作有直行、右轉(zhuǎn)15°,左轉(zhuǎn)15°。直行的最大速度為每步dmax。不管是觸覺(jué)紅外還是近紅外,當(dāng)探測(cè)到障礙物時(shí),輸出為1,否則,輸出為0。取

        di為障礙物到超聲的距離,ds為事先確定的安全區(qū)域的半徑,將CASIA-I工作環(huán)境分成:

        1)自由空間FS

        2)安全空間SS

        3)非安全空間NSS

        其他情況都?xì)w并到該空間,在該空間中,至少存在一個(gè)障礙物。因此必須采取措施,避免相碰。

        在上述空間劃分的基礎(chǔ)上,CASIA-I從當(dāng)前狀態(tài),執(zhí)行某一動(dòng)作,達(dá)到其后續(xù)狀態(tài),回報(bào)函數(shù)為:

        2 基于LS-SVM的Q學(xué)習(xí)

        Q學(xué)習(xí)的實(shí)現(xiàn)過(guò)程為:在每個(gè)時(shí)間步t,觀察當(dāng)前狀態(tài)st,選擇和執(zhí)行動(dòng)作at,再觀察后續(xù)狀態(tài)st+1并接受立即回報(bào)rt,然后用式(3)來(lái)調(diào)整Qt。

        η控制學(xué)習(xí)速度,0≤γ≤1表示學(xué)習(xí)系統(tǒng)的遠(yuǎn)視程度。

        為了構(gòu)造LS-SVM,提高估計(jì)速度,樣本是窗式移動(dòng)的[10]。即在將新數(shù)據(jù)加入樣本集之前要進(jìn)行KKT[11]判斷,若滿足KKT條件,不更新訓(xùn)練集,時(shí)間窗保持不變,若違反,滾動(dòng)時(shí)間窗,重新訓(xùn)練得到的LS-SVM。設(shè)t時(shí)刻訓(xùn)練樣本集由過(guò)去L組數(shù)據(jù)構(gòu)成。

        為了解決學(xué)習(xí)中探索與利用的兩難問(wèn)題,LS-SVM的輸出被送入隨機(jī)動(dòng)作選擇器。采用BoltzmanGibbs分布作為選擇策略[10],則動(dòng)作ak從動(dòng)作集A={a1,a2,…am}中被選擇的概率為:

        式中,T>0為溫度參數(shù),控制動(dòng)作選擇的隨機(jī)程度。

        3 LS-SVM的學(xué)習(xí)及導(dǎo)航算法

        對(duì)L區(qū)間的數(shù)據(jù)進(jìn)行建模,把回歸問(wèn)題表示為約束優(yōu)化問(wèn)題:

        其中,γi反映區(qū)間內(nèi)樣本的重要程度,文中定義為:

        建立Lagrange函數(shù),并根據(jù)KKT條件,得到回歸模型為:

        根據(jù)上述分析,CASIA-I導(dǎo)航算法描述如下:

        第一步:初始化Q學(xué)習(xí)控制器及回歸模型的參數(shù);

        第二步:根據(jù)各傳感器提供的信息確定機(jī)器人的當(dāng)前狀態(tài)st,如果st?FS,則執(zhí)行第三步。否則執(zhí)行:

        1)構(gòu)造t時(shí)刻LS-SVM的學(xué)習(xí)訓(xùn)練樣本集D;

        2)根據(jù)貪心策略選擇最大Q值對(duì)應(yīng)的動(dòng)作αt;

        3)執(zhí)行動(dòng)作αt,獲取下一時(shí)刻狀態(tài)St+1及立即回報(bào)rt;

        4)按照式(3)更新Q值,得到目標(biāo)值Qt;

        5)判斷新數(shù)據(jù)(xt,Qt)是否違反KKT條件,若不違反,則保持時(shí)間窗不變,若違反,則將該數(shù)據(jù)加入訓(xùn)練集并滾動(dòng)時(shí)間窗;

        第三步:根據(jù)傳感器提供的數(shù)據(jù),調(diào)整移動(dòng)機(jī)器人的運(yùn)動(dòng)方向,然后以每步dmax的最大速度向目標(biāo)運(yùn)動(dòng)一步;

        第四步:若不滿足學(xué)習(xí)結(jié)束條件,t←t+1,轉(zhuǎn)第二步。

        4 仿真研究

        對(duì)文中所提方法進(jìn)行30次的獨(dú)立仿真運(yùn)行,取η=0.16,γ=0.94,T=0.009,C=100,ε=0.006,σ=0.5,L=33。表1給出了系統(tǒng)學(xué)習(xí)性能比較,由表1可知,與文獻(xiàn)[5]提出的基于BP神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)系統(tǒng)相比,基于SVM的Q學(xué)習(xí)在每次仿真中均能以較少的學(xué)習(xí)次數(shù)獲得最優(yōu)策略,而基于LS-SVM則以更少的次數(shù)獲得最優(yōu)策略。

        5 結(jié)束語(yǔ)

        強(qiáng)化學(xué)習(xí)已經(jīng)應(yīng)用在移動(dòng)機(jī)器人導(dǎo)航中,為了解決強(qiáng)化學(xué)習(xí)中的泛化問(wèn)題,提出用基于時(shí)間窗的LS-SVM實(shí)現(xiàn)由系統(tǒng)狀態(tài)-動(dòng)作對(duì)到的Q值函數(shù)的映射。實(shí)驗(yàn)結(jié)果表明所提方法能夠使機(jī)器人在較少的學(xué)習(xí)次數(shù)內(nèi)無(wú)碰撞的到達(dá)目的地。

        [1] 蔡自興,賀漢根,陳虹.未知環(huán)境中移動(dòng)機(jī)器人導(dǎo)航控制研究的若干問(wèn)題[J].控制與決策,2002,4(17):385-391.CAI Zi-xing,HE Han-gen,CHEN Hong.Some issues for mobile robots navigation under unknown environments[J]Control and Decision,2002,4(17):385-391.

        [2] Cicirelli G,D’Orazio T,Distante A.Neural Q-learning control architectures for wall-following behavior[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems,2003.

        [3] Carreras M,Ridao P,EI-Fakdi A.Semi-online neural Q-learning for real-time robot learning[C]//Proceedings of theIEEE/RSJ International Conference on Intelligent Robots and Systems,Las Vegas Nevada,2003:662-667.

        表1 具體系統(tǒng)性能比較Tab.1 The comparison of system performance

        [4] Kondo T,Ito K.A reinforcement learning with evolutionary state recruitment strategy for autonomous mobile robots control[J].Robotics ans Autonomous Systems,2004,46(2):121-124.

        [5] Yang G S,Chen K A,Cheng W.Mobile robot navigation using neural Q-Learning[C]//IEEE Proceedings of International Conference on Machine Learning and Cybernetics,Shanghai,China,2004:48-52.

        [6] Yang G S,Hou Z G,Liang Z Z.Distributed visual navigation based on neural Q-learning for a mobile robot[C]//International Journal of Vehicle Autonomous Systems,Britain,2006:225-235.

        [7] 秦政,丁福光,邊信黔.強(qiáng)化學(xué)習(xí)在移動(dòng)機(jī)器人自主導(dǎo)航中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(18):215-217.QIN Zheng,DING Fu-guang,BIAN Xin-qian.Application of reinforcement learning in autonomous navigation for mobile robot[J].Computer Engineering and Applications,2007,43(18):215-217.

        [8] Preu P,Delepoulies S,Raqcheville J C.A generic architecture for adaptive agents based on reinforcement learning[J].Information Sciences,2004,(161):37-55.

        [9] 王雪松,田西蘭,程玉虎.最小二乘支持向量機(jī)在強(qiáng)化學(xué)習(xí)系統(tǒng)中的應(yīng)用[J].系統(tǒng)仿真學(xué)報(bào),2008,14(20):3702-3706.WANG Xue-song,TIAN Xi-lan,CHEN Yu-hu.Application of least squares support vector machine to reinforcement learning system[J].Journal of System Simulatioin,2008,14(20):3702-3706.

        [10] BO C M,WANG Z Q,LU A J.Study and application on dynamic modeling method based on SVMand sliding time window techniques[C]//Proceedings of the 6th World Congress on Intelligent Control and Automation.Piscataway:Institute of Electrical and Electronics Engineerings Inc.Press,2006:4714-4718.

        [11] Suykens J A K,Vandewale J.Least squares support vector machine classifiers[J].Neural Processing Letters,1999,9(3):293-300.

        猜你喜歡
        移動(dòng)機(jī)器人動(dòng)作系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        移動(dòng)機(jī)器人自主動(dòng)態(tài)避障方法
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        動(dòng)作描寫(xiě)要具體
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        基于Twincat的移動(dòng)機(jī)器人制孔系統(tǒng)
        畫(huà)動(dòng)作
        動(dòng)作描寫(xiě)不可少
        非同一般的吃飯動(dòng)作
        成人艳情一二三区| 国产一区二区在线观看视频免费| 亚洲偷自拍国综合第一页国模| 国产精品无码翘臀在线观看| 久久露脸国产精品| 任你躁国产自任一区二区三区| 在线免费午夜视频一区二区| 久久精品国产亚洲av天| 亚洲av无码专区在线播放中文 | 日本一区二区在线免费视频| 国产精品伦一区二区三级视频| 欧美黄色免费看| 国产成人精品中文字幕| 国产精品国产高清国产专区| 爆爽久久久一区二区又大又黄又嫩| 久久se精品一区精品二区国产| 91中文字幕精品一区二区| 伊人中文字幕亚洲精品乱码| 欧美国产一区二区三区激情无套| 中文字幕永久免费观看| 久久中文字幕av一区二区不卡 | 国产二级一片内射视频播放| 性夜夜春夜夜爽aa片a| 99久久无色码中文字幕鲁信| 一区二区视频在线观看地址| 天天夜碰日日摸日日澡| 98精品国产综合久久| 亚洲天堂男人的av天堂| 成在线人av免费无码高潮喷水| 无码人妻丰满熟妇精品区| 天堂av在线一区二区| 人妻少妇精品视频专区vr| 精品无码久久久久成人漫画| 中文字幕一区二区三区人妻精品| 大尺度极品粉嫩嫩模免费| …日韩人妻无码精品一专区| 伊人影院综合在线| 狼人狠狠干首页综合网| 日韩大片高清播放器大全| 亚洲av色先锋资源电影网站| 成年人视频在线播放视频|