亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的多機(jī)器人協(xié)作控制方法分析

        2020-06-29 09:44:45王旭升
        大眾科學(xué)·中旬 2020年6期

        王旭升

        摘要:機(jī)器人通過(guò)強(qiáng)化學(xué)習(xí)能夠和環(huán)境進(jìn)行交互,并通過(guò)交互內(nèi)容不斷對(duì)自身性能和工作方式進(jìn)行改變,進(jìn)而適應(yīng)復(fù)雜條件的作業(yè)任務(wù),已經(jīng)成為了機(jī)器學(xué)習(xí)重要技術(shù)。但是強(qiáng)化學(xué)習(xí)的時(shí)間卻并不受到控制,并和機(jī)器人數(shù)量有著一定的關(guān)系,數(shù)量增多其交互更加復(fù)雜,這就給機(jī)器學(xué)習(xí)帶來(lái)了一定的難度。因此需要群體智能算法對(duì)多機(jī)器人協(xié)作控制提供更為優(yōu)秀的改進(jìn),幫助機(jī)器人更好的完成群體任務(wù)。

        關(guān)鍵詞:強(qiáng)化學(xué)習(xí);多機(jī)器人;協(xié)作控制

        前言

        人工智能的發(fā)展使機(jī)器人能夠?qū)崿F(xiàn)自主強(qiáng)化學(xué)習(xí),但是在實(shí)際操作中,多機(jī)器人協(xié)作控制并不是特別容易實(shí)現(xiàn),隨著機(jī)器人數(shù)量的增加,交互過(guò)程更急復(fù)雜,學(xué)習(xí)效率更為低下。這就導(dǎo)致機(jī)器人在行為上的不可預(yù)測(cè)性。蟻群算法則是可以通過(guò)尋找最優(yōu)路徑的概率算法,可以被應(yīng)用到增強(qiáng)學(xué)習(xí)中去。本文對(duì)基于強(qiáng)化學(xué)習(xí)的多機(jī)器人協(xié)作控制進(jìn)行了簡(jiǎn)單概述,提出了區(qū)別于傳統(tǒng)強(qiáng)化學(xué)習(xí)方案的算法,并結(jié)合仿真實(shí)驗(yàn)結(jié)果,對(duì)相關(guān)技術(shù)特點(diǎn)進(jìn)行了研究。提供了良好的解決方案。

        1 基于強(qiáng)化學(xué)習(xí)的多機(jī)器人協(xié)作控制的簡(jiǎn)單概述

        機(jī)器人學(xué)的發(fā)展,使分布式人工智能和系統(tǒng)的研發(fā)工作成為了可能,這些機(jī)器人在實(shí)際工作中有著十分寬廣的使用領(lǐng)域,較為低廉的成本,在機(jī)器人研究中成為了熱點(diǎn),但是由于受到技術(shù)條件的限制,在進(jìn)行對(duì)機(jī)器人系統(tǒng)的研究中,個(gè)體機(jī)器人通過(guò)協(xié)作完成復(fù)雜條件下的工作任務(wù),并通過(guò)學(xué)習(xí)對(duì)環(huán)境進(jìn)行適應(yīng),還需要感知度環(huán)境的動(dòng)態(tài)變化,提升任務(wù)處理能力。因此強(qiáng)化學(xué)習(xí)作為一種能夠不斷適應(yīng)新情況的模式,能夠?qū)崿F(xiàn)高度反應(yīng)性和自適應(yīng)性。從而對(duì)于機(jī)器人的工作能力有所提高。但是,在實(shí)際的將技術(shù)層面需要對(duì)多個(gè)機(jī)器人的協(xié)作能力進(jìn)行調(diào)整,使其適應(yīng)復(fù)雜的工作環(huán)境。單機(jī)器人的強(qiáng)化學(xué)習(xí)已經(jīng)取得一定的成功。但是在向多機(jī)器人協(xié)作進(jìn)行遷移的過(guò)程中,卻存在著諸多不可控因素,如出現(xiàn)新的交互,學(xué)習(xí)速度慢等,在實(shí)際應(yīng)用中表現(xiàn)不盡如人意。而機(jī)器人足球,作為多機(jī)器人協(xié)作的重要組成部分,能夠?yàn)閺?qiáng)化學(xué)習(xí)提供重要的實(shí)驗(yàn)素材[1]。

        2 多機(jī)器人合作學(xué)習(xí)研究

        在進(jìn)行機(jī)器人學(xué)習(xí)研究中,機(jī)器人數(shù)目一旦增多,對(duì)其學(xué)習(xí)決策行為的變化,也會(huì)有著不穩(wěn)定因素。如在學(xué)習(xí)早期階段,機(jī)器人的動(dòng)作都是隨機(jī)的,在機(jī)器人數(shù)目增多的過(guò)程中,其隨機(jī)性變化呈現(xiàn)指數(shù)級(jí)增加。因此這個(gè)階段的機(jī)器學(xué)習(xí),存在著不可預(yù)知的后果,影響著機(jī)器學(xué)習(xí)成功性。針對(duì)如何決定機(jī)器人的學(xué)習(xí)次序,可以通過(guò)人工勢(shì)場(chǎng)法的方式引入學(xué)習(xí)優(yōu)先級(jí)。在學(xué)習(xí)階段確定其中優(yōu)先級(jí)較大部分進(jìn)行學(xué)習(xí),該機(jī)器人作為整個(gè)機(jī)器人團(tuán)隊(duì)的核心成員,暫定為決策機(jī)器人。使其他機(jī)器人能夠按照上個(gè)周期學(xué)習(xí)過(guò)的策略進(jìn)行動(dòng)作學(xué)習(xí)。要求對(duì)已經(jīng)學(xué)習(xí)過(guò)的動(dòng)作進(jìn)行執(zhí)行學(xué)習(xí)策略。對(duì)應(yīng)學(xué)習(xí)過(guò)的動(dòng)作值為Q,然后進(jìn)入下一個(gè)學(xué)習(xí)周期,之后的機(jī)器人可以采用同樣的方法進(jìn)行學(xué)習(xí),使其處于固有的學(xué)習(xí)策略的階段,并且由優(yōu)先級(jí)排在后面的機(jī)器人完成相應(yīng)的學(xué)習(xí)任務(wù),對(duì)學(xué)習(xí)過(guò)程進(jìn)行循環(huán),直到完成相關(guān)學(xué)習(xí)。

        在強(qiáng)化學(xué)習(xí)階段,需要每個(gè)機(jī)器人能夠根據(jù)對(duì)每個(gè)局部的感知,進(jìn)行局部場(chǎng)勢(shì)的計(jì)算,結(jié)合LPL參數(shù)進(jìn)行排序。并由LPL值最大的機(jī)器人根據(jù)學(xué)習(xí)算法,并首先對(duì)上個(gè)周期學(xué)習(xí)的策略進(jìn)行學(xué)習(xí)。其他機(jī)器人隨后在此機(jī)器人的配合下,完成相應(yīng)的學(xué)習(xí)狀態(tài)。并根據(jù)上個(gè)周期的策略進(jìn)行執(zhí)行下一個(gè)動(dòng)作。機(jī)器人n對(duì)更新的策略進(jìn)行動(dòng)作反應(yīng),其他機(jī)器人也進(jìn)行動(dòng)作更新。依次進(jìn)行重復(fù),確保機(jī)器人的強(qiáng)化學(xué)習(xí)算法能夠更好的完成[2]。

        3 仿真實(shí)驗(yàn)

        對(duì)機(jī)器人的動(dòng)作效果進(jìn)行評(píng)價(jià),并設(shè)立短期獎(jiǎng)勵(lì)函數(shù),具體公式如下:

        其中P指的是執(zhí)行學(xué)習(xí)的機(jī)器人,s環(huán)境狀態(tài)用s表示,t表示學(xué)習(xí)時(shí)間,閾值C則展現(xiàn)對(duì)該函數(shù)的判斷家里效果。以足球機(jī)器人為例,如果進(jìn)球則獎(jiǎng)勵(lì)為1,丟球則標(biāo)示為-1,如果在指定的時(shí)間內(nèi)沒(méi)有獲得進(jìn)球,則可以判定獎(jiǎng)勵(lì)為0。取值范圍應(yīng)在[-1,1]之間。本測(cè)試需要?jiǎng)澐謾C(jī)器人的活動(dòng)場(chǎng)地,其中M代表了整支隊(duì)伍。

        4 仿真結(jié)果分析

        對(duì)測(cè)試文本算法進(jìn)行校正,經(jīng)過(guò)反復(fù)訓(xùn)練和傳統(tǒng)的算法進(jìn)行比較,其中在仿真訓(xùn)練階段,進(jìn)行了500場(chǎng)訓(xùn)練,仿真周期為1500,每隔10場(chǎng)進(jìn)行一次仿真訓(xùn)練。并在學(xué)習(xí)訓(xùn)練中,對(duì)比賽結(jié)果則需要由獨(dú)立訓(xùn)練過(guò)程進(jìn)行重組,如果比賽有一方結(jié)束進(jìn)球,完成一次訓(xùn)練周期。如規(guī)定時(shí)間內(nèi)沒(méi)有進(jìn)球,則判定為平局。在測(cè)試中,將機(jī)器人分成兩組進(jìn)行訓(xùn)練,其中一支為傳統(tǒng)學(xué)習(xí)算法。另一支則是以本算法進(jìn)行仿真實(shí)驗(yàn)。對(duì)比兩種算法,本算法學(xué)習(xí)效率等方面明顯優(yōu)于傳統(tǒng)算法,在學(xué)習(xí)時(shí)間上以及學(xué)習(xí)效果上都得到較為良好的效果。這就說(shuō)明了本算法能夠?qū)斎霠顟B(tài)空間進(jìn)行改變,減少不必要的算法冗余,提升了機(jī)器人的學(xué)習(xí)速度[3]。

        總結(jié)

        總之,在進(jìn)行多機(jī)器人協(xié)作研究中,通過(guò)以足球機(jī)器人研究發(fā)現(xiàn),其中并不需要復(fù)雜的算法,只需要通過(guò)設(shè)置機(jī)器人學(xué)習(xí)的優(yōu)先級(jí),并以此為基礎(chǔ)進(jìn)行依次學(xué)習(xí),并配合蟻群算法,智能涌現(xiàn)等先進(jìn)的技術(shù),通過(guò)強(qiáng)化學(xué)習(xí)算法,對(duì)多機(jī)器人的協(xié)作能力給予一定的幫助,進(jìn)而完成相關(guān)研究工作。為今后的多機(jī)器人協(xié)作提供算法支持。

        參考文獻(xiàn)

        [1]高慧. 基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究[D]. 2016(22):52-53.

        [2]丁明剛. 基于多智能體強(qiáng)化學(xué)習(xí)的足球機(jī)器人決策策略研究[D]. 2017(15):41-42.

        [3]任紅格, 向迎帆, 李福進(jìn). 基于內(nèi)在動(dòng)機(jī)的智能機(jī)器人自主發(fā)育算法[J]. 計(jì)算機(jī)應(yīng)用, 2015, 35(9):2602-2605.

        亚洲 中文 欧美 日韩 在线| 国产一区二区三区在线观看第八页| 97人妻人人揉人人躁九色| 国产3p一区二区三区精品| 少妇无码av无码专线区大牛影院| 欧美性受xxxx白人性爽| 无遮挡网站| 国产av区亚洲av毛片| 少妇高潮在线精品观看| 少妇被又大又粗又爽毛片| 欧美午夜精品一区二区三区电影 | 国产v视频| 日韩精品一区二区av在线| 少妇太爽了在线观看免费| 国产精品www夜色视频| 男人扒开女人双腿猛进女人机机里| 久久国产成人亚洲精品影院老金| 日韩在线精品视频观看| 国产免费在线观看不卡| 免费国产黄网站在线观看可以下载 | 精品麻豆国产色欲色欲色欲www| 午夜无码一区二区三区在线| 精品国产一区二区av麻豆不卡| 丰满少妇被猛烈进入高清播放| 久久天天躁狠狠躁夜夜2020一| 国产一品道av在线一二三区| 日本av在线精品视频| 国产让女高潮的av毛片| 国产精品夜间视频香蕉| chinese国产在线视频| 久久精品伊人久久精品伊人| 大地资源在线影视播放| av人摸人人人澡人人超碰小说| 人妻中文字幕一区二区二区| 亚洲国产精品久久无人区| 亚洲综合网站久久久| 亚洲精品无码高潮喷水在线| 亚洲国产一区久久yourpan| 蜜桃av噜噜一区二区三区9| 国产中文欧美日韩在线| 欧美日韩一线|