亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)Q-學(xué)習(xí)的導(dǎo)航知識(shí)獲取算法研究

        2011-01-23 09:25:42鄭炳文
        科學(xué)之友 2011年4期
        關(guān)鍵詞:模擬退火移動(dòng)機(jī)器人機(jī)器

        鄭炳文

        (勝利油田海洋采油廠,山東 東營(yíng) 257000)

        基于改進(jìn)Q-學(xué)習(xí)的導(dǎo)航知識(shí)獲取算法研究

        鄭炳文

        (勝利油田海洋采油廠,山東 東營(yíng) 257000)

        基本Q-學(xué)習(xí)算法總是利用當(dāng)前最優(yōu)策略進(jìn)行動(dòng)作的選取,這樣容易陷入局部最優(yōu)。文章在模擬退火強(qiáng)化學(xué)習(xí)基礎(chǔ)上提出了基于探索區(qū)域擴(kuò)張的Q-學(xué)習(xí),加入原地探索策略,提高了找到目標(biāo)的效率;引入了探索區(qū)域擴(kuò)張策略,避免了初始時(shí)在整個(gè)環(huán)境中加入探索的盲目性,提高了學(xué)習(xí)效率;加入算法的自主學(xué)習(xí)結(jié)束條件,避免了找到最優(yōu)路徑后的重復(fù)學(xué)習(xí),節(jié)省了學(xué)習(xí)時(shí)間。仿真實(shí)驗(yàn)驗(yàn)證了算法的有效性。

        強(qiáng)化學(xué)習(xí);Q-學(xué)習(xí);探索區(qū)域擴(kuò)張;模擬退火;神經(jīng)網(wǎng)絡(luò)

        1 機(jī)器學(xué)習(xí)背景

        移動(dòng)機(jī)器人要在未知環(huán)境中安全、可靠地完成指定任務(wù),除了應(yīng)具有建模、定位、規(guī)劃、運(yùn)動(dòng)等基本能力外,還應(yīng)能夠處理各種突發(fā)情況,逐漸適應(yīng)環(huán)境,提高工作效率,這就要求其導(dǎo)航控制系統(tǒng)具有靈活性和適應(yīng)性。近年來,機(jī)器學(xué)習(xí)已成為人工智能和機(jī)器人學(xué)的一個(gè)研究熱點(diǎn),并且取得了不少突破性進(jìn)展,其中包括神經(jīng)網(wǎng)絡(luò)算法研究、模糊邏輯算法研究、進(jìn)化學(xué)習(xí)算法應(yīng)用研究、統(tǒng)計(jì)學(xué)習(xí)特別是支持向量機(jī)(Support Vector Machine,SVM)理論和算法研究、強(qiáng)化學(xué)習(xí)理論和算法研究等。上述機(jī)器學(xué)習(xí)理論和方法為復(fù)雜和未知環(huán)境中的信息提取、環(huán)境理解、任務(wù)規(guī)劃和行為決策提供了有效的解決途徑,應(yīng)用機(jī)器學(xué)習(xí)方法來實(shí)現(xiàn)未知環(huán)境中移動(dòng)機(jī)器人導(dǎo)航控制器的設(shè)計(jì)和優(yōu)化,已成為近年來移動(dòng)機(jī)器人導(dǎo)航控制技術(shù)的研究熱點(diǎn)。

        2 機(jī)器學(xué)習(xí)在導(dǎo)航中的研究概況

        隨著模糊邏輯方法和技術(shù)研究的進(jìn)展,應(yīng)用模糊邏輯方法實(shí)現(xiàn)移動(dòng)機(jī)器人的導(dǎo)航成為一個(gè)研究熱點(diǎn)。在基于模糊邏輯的移動(dòng)機(jī)器人導(dǎo)航方法中存在的另一個(gè)關(guān)鍵問題是參數(shù)的優(yōu)化和對(duì)環(huán)境的自適應(yīng)。雖然模糊規(guī)則的建立可以利用人類的語言知識(shí),但仍然有許多參數(shù)需要調(diào)整和優(yōu)化,才能獲得滿意的效果,而且一旦環(huán)境發(fā)生改變,模糊控制器往往缺乏自適應(yīng)和自學(xué)習(xí)的能力。

        神經(jīng)網(wǎng)絡(luò)作為人工智能和機(jī)器學(xué)習(xí)研究的一個(gè)熱點(diǎn),已成功地應(yīng)用于模式識(shí)別、自適應(yīng)控制、系統(tǒng)辨識(shí)等領(lǐng)域。神經(jīng)網(wǎng)絡(luò)具有良好的非線性函數(shù)逼近能力和容錯(cuò)能力,且能夠?qū)崿F(xiàn)自適應(yīng)和學(xué)習(xí)?;谏窠?jīng)網(wǎng)絡(luò)的導(dǎo)航方法采用了神經(jīng)網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)或監(jiān)督學(xué)習(xí)方法,其中無監(jiān)督學(xué)習(xí)方法僅能夠?qū)崿F(xiàn)對(duì)環(huán)境特征的自組織分類和識(shí)別,難以實(shí)現(xiàn)行為選擇的優(yōu)化,而監(jiān)督學(xué)習(xí)方法則要求構(gòu)造各種條件下的教師信號(hào),因此缺乏對(duì)未知和快速變化環(huán)境的自適應(yīng)能力。

        進(jìn)化計(jì)算是模擬自然界生物進(jìn)化過程的一種計(jì)算智能方法,目前已在算法和理論上取得了大量的研究成果,并成功地應(yīng)用于組合優(yōu)化、自適應(yīng)控制、規(guī)劃設(shè)計(jì)、機(jī)器學(xué)習(xí)和人工生命等領(lǐng)域。利用進(jìn)化計(jì)算方法雖然可以實(shí)現(xiàn)移動(dòng)機(jī)器人導(dǎo)航控制器對(duì)環(huán)境的自適應(yīng)和優(yōu)化,但存在計(jì)算時(shí)間長(zhǎng)、學(xué)習(xí)效率不高的缺點(diǎn)。

        2.1 ε-greedy 策略

        如果ka=0,就定義Qt(a)為默認(rèn)值,如Q0(a)=0,當(dāng)ka→∞時(shí),Qt(a)一定收斂于Q*(a)。因?yàn)槊看喂烙?jì)是相關(guān)回報(bào)抽樣的簡(jiǎn)單的平均,因此稱此估計(jì)動(dòng)作值的方法為抽樣平均法。這只是估計(jì)動(dòng)作值的一種方法,不一定是最好的,下面討論怎樣用此估計(jì)來選擇動(dòng)作。

        2.2 Boltzmann分布

        這里T為溫度參數(shù)。溫度高時(shí),所有動(dòng)作概率接近相等。溫度低時(shí),動(dòng)作選擇概率由于它們的估計(jì)值的不同而存在很大不同。當(dāng)溫度趨近于0時(shí),軟最大化動(dòng)作選擇變?yōu)樨澙穭?dòng)作選擇。

        2.3 基于Metropolis規(guī)則的Q-學(xué)習(xí)算法

        模擬退火算法是求解組合優(yōu)化問題的有效近似算法,它是對(duì)固體退火過程的模擬。該算法是局部搜索算法的一種擴(kuò)展,解決優(yōu)化解陷入局部最小的情形,其核心是Metropolis準(zhǔn)則。模擬退火算法不是完全拒絕惡化解,因此,能夠跳出局部最優(yōu),避免陷入局部搜索。

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境描述

        實(shí)驗(yàn)環(huán)境為一個(gè)20×20的柵格世界,每個(gè)柵格代表智能體的一種狀態(tài)。S為智能體的初始點(diǎn),T為目標(biāo)點(diǎn),黑色區(qū)域?yàn)檎系K物。環(huán)境中的障礙物和目標(biāo)都是靜態(tài)的,對(duì)于智能體而言,環(huán)境(即障礙物、邊界以及目標(biāo)的位置)是未知的。以智能體為中心的二維空間內(nèi)平均分布8個(gè)運(yùn)動(dòng)方向,代表它的8個(gè)可選動(dòng)作。立即回報(bào) r為{-100,100,0},對(duì)應(yīng)條件為{碰到障礙物,到達(dá)目標(biāo),其他}。

        3.2 實(shí)驗(yàn)結(jié)果分析

        比較了3種算法的綜合指標(biāo),可以看出,環(huán)境越復(fù)雜,ERE-Q-learning算法的優(yōu)勢(shì)越明顯。

        表1 搜索路徑總長(zhǎng)度的降低率比較

        4 結(jié)束語

        通過討論 Q-學(xué)習(xí)算法中探索與利用之間的平衡問題,首先介紹了平衡探索和利用的各種算法,然后分析了這些算法的不足之處,最后在基于Metropolis準(zhǔn)則的Q-學(xué)習(xí)的基礎(chǔ)上,提出了基于探索區(qū)域擴(kuò)張的 Q-學(xué)習(xí)算法。此算法加入原地探索策略,提高了找到目標(biāo)的效率;引入了探索區(qū)域擴(kuò)張策略,避免了初始時(shí)在整個(gè)環(huán)境中加入探索的盲目性,提高了學(xué)習(xí)效率;加入算法的自主學(xué)習(xí)結(jié)束條件,避免了找到最優(yōu)路徑后的重復(fù)學(xué)習(xí),節(jié)省了學(xué)習(xí)時(shí)間,而且環(huán)境越復(fù)雜,越能體現(xiàn)該算法的優(yōu)越性。該算法的折算率、降溫率和最大限制步數(shù)還有必要進(jìn)一步優(yōu)化,以使算法具有更好的適應(yīng)性。

        Based on Improves the Q-study the Guidance Knowledge Gain Algorithm Research

        Zheng Bingwen

        The basic Q-learning algorithm always uses the current most superior strategy to carry on the movement the selection, such easy to fall into is partially most superior.Article proposed in the simulation annealing strengthening study foundation based on explores the Q-study which the region expands, joins in-situ exploration strategy, enhanced has found the goal the efficiency; Introduced has explored the region expansion strategy, has avoided initial when joined the exploration in the entire environment blindness, enhanced the study efficiency;Joined the algorithm the independent study termination condition, after having avoided found the optimal choice the redundant study, has saved study time.The simulation experiment has confirmed the algorithm validity.

        strengthened study; Q-study; explores the region expansion; simulation annealing; neural network

        TP242

        A

        1000-8136(2011)06-0141-02

        猜你喜歡
        模擬退火移動(dòng)機(jī)器人機(jī)器
        機(jī)器狗
        移動(dòng)機(jī)器人自主動(dòng)態(tài)避障方法
        機(jī)器狗
        模擬退火遺傳算法在機(jī)械臂路徑規(guī)劃中的應(yīng)用
        未來機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        基于Twincat的移動(dòng)機(jī)器人制孔系統(tǒng)
        基于模糊自適應(yīng)模擬退火遺傳算法的配電網(wǎng)故障定位
        SOA結(jié)合模擬退火算法優(yōu)化電容器配置研究
        無敵機(jī)器蛛
        基于遺傳-模擬退火算法的城市軌道交通快慢車停站方案
        av影院在线免费观看不卡| 人妻无码一区二区视频| 国产啪精品视频网站| 国产在线视频国产永久视频| 中文字幕亚洲日本va| 亚洲婷婷久悠悠色悠在线播放| 性猛交╳xxx乱大交| 欧美性群另类交| 日韩精品永久免费播放平台| 在线观看一区二区三区国产| 2018天天躁夜夜躁狠狠躁| 国产日韩精品中文字无码| 国产成人av一区二区三区无码| 99国产精品久久久蜜芽| 中文字幕一区二区人妻在线不卡 | 日本不卡一区二区高清中文| 久草久热这里只有精品| 女同三级伦理在线观看| 国产精品成人va在线观看| 日本精品一区二区三区在线视频| 太大太粗太爽免费视频| 在线精品国产亚洲av麻豆| 色欲aⅴ亚洲情无码av| 亚洲AV成人无码久久精品老人| 中文字幕一区,二区,三区| 国产国拍精品亚洲av在线观看 | 白又丰满大屁股bbbbb| 免费二级毛片在线播放| 亚洲av激情久久精品人| 亚洲最新精品一区二区| 芒果乱码国色天香| 日韩在线不卡免费视频| 色老板在线免费观看视频日麻批| 国产欧美va欧美va香蕉在线| 国模无码一区二区三区不卡| 91精品国产综合成人| 久久深夜中文字幕高清中文| 韩国av一区二区三区不卡| 久久综合九色综合网站| 在线a人片免费观看国产| 最近更新中文字幕一区二区|