亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模糊強(qiáng)化學(xué)習(xí)的雙輪機(jī)器人姿態(tài)平衡控制

        2021-04-07 07:21:44董朝陽何康輝
        關(guān)鍵詞:動作

        閆 安, 陳 章, 董朝陽, 何康輝

        (1.北京航空航天大學(xué)航空科學(xué)與工程學(xué)院, 北京 100191;2.清華大學(xué)自動化系, 北京 100084)

        0 引 言

        單軌雙輪機(jī)器人因其高度的平穩(wěn)性、較強(qiáng)的越障能力等性能在生活服務(wù)型機(jī)器人中表現(xiàn)出其強(qiáng)大的優(yōu)勢,可以廣泛應(yīng)用于軍事、交通、安保、工業(yè)生產(chǎn)等領(lǐng)域。同時,與倒立擺系統(tǒng)類似,雙輪機(jī)器人有多變量、非線性、強(qiáng)耦合、高階次、參數(shù)不確定性等動力學(xué)特性,是自動控制領(lǐng)域研究的重要對象[1-3]。目前,雙輪機(jī)器人的控制方法仍以傳統(tǒng)控制理論居多,最常見的方法是將建模得到的非線性系統(tǒng)做線性化處理,通過比例-積分-微分(簡稱為PID)控制器或者狀態(tài)反饋控制器來實(shí)現(xiàn)控制[4-5]。由于機(jī)器人存在著固有的靜態(tài)不穩(wěn)定問題,Keo等[6]提出了利用控制陀螺力矩來實(shí)現(xiàn)機(jī)器人的傾角穩(wěn)定;Lam等[7]在此基礎(chǔ)上通過比例微分控制器實(shí)現(xiàn)了傾角穩(wěn)定,具有較好的魯棒性和效率。He等[8]采用極點(diǎn)配置法設(shè)計狀態(tài)反饋控制器實(shí)現(xiàn)控制系統(tǒng)的穩(wěn)定,但極點(diǎn)位置和數(shù)目的設(shè)計對經(jīng)驗(yàn)的依賴較大。Hsieh等[9]采用模糊滑??刂破骱屯勇萜胶馄?具有系統(tǒng)響應(yīng)快、抗干擾能力強(qiáng)等優(yōu)點(diǎn)。Jian等[10]提出了一種基于粒子群算法的自平衡控制方法,根據(jù)線性二次型調(diào)節(jié)器(linear quadratic regulator, LQR)控制方法對LQR控制器的參數(shù)矩陣進(jìn)行優(yōu)化,速度快,超調(diào)量小。然而,上述傳統(tǒng)算法均受到系統(tǒng)模型的制約,對于非線性、時變的、多變量復(fù)雜系統(tǒng)往往難以滿足控制要求,且多依賴于經(jīng)驗(yàn)。

        強(qiáng)化學(xué)習(xí)[11-12]是一種不需要先驗(yàn)知識,與環(huán)境直接進(jìn)行交互試錯,通過反復(fù)迭代得到的反饋信息來獲取最優(yōu)策略的人工智能算法,因而被廣泛應(yīng)用于控制領(lǐng)域中[13-14]。強(qiáng)化學(xué)習(xí)根據(jù)求解方法不同可以分為策略迭代法和值函數(shù)迭代法。其中,策略迭代法[15]從一個初始化策略出發(fā),通過策略評估,迭代改進(jìn)直至收斂來得到最優(yōu)策略。但在離散空間問題上不能很好地評估單個策略,容易陷于局部最小值,且該方法得到的隨機(jī)性策略在實(shí)際應(yīng)用中的可靠性難以保證。而值函數(shù)迭代法則是根據(jù)狀態(tài)選擇動作,得到相應(yīng)策略。其中,Q-learning算法[16-17]是一種典型的與模型無關(guān)的強(qiáng)化學(xué)習(xí)算法,其狀態(tài)收斂與初值無關(guān),無需知道模型就可以保證收斂。在狀態(tài)空間不大的情況下能夠很好地構(gòu)建Q值表,得到最優(yōu)控制策略。

        傳統(tǒng)的Q-learning算法主要針對離散狀態(tài)和離散動作,但實(shí)際問題中存在很多連續(xù)變量,因此處理連續(xù)的動作和狀態(tài)成為了此類強(qiáng)化學(xué)習(xí)研究的關(guān)鍵。文獻(xiàn)[18]提出了一種線性擬合方法,結(jié)合插值函數(shù)實(shí)現(xiàn)了連續(xù)動作輸出。本文在以上研究的基礎(chǔ)上,針對傳統(tǒng)Q-learning在機(jī)器人控制方面的不足,引入模糊算法,提出了一種基于模糊強(qiáng)化學(xué)習(xí)(簡稱為Fuzzy-Q)算法的雙輪機(jī)器人側(cè)傾控制方法,實(shí)現(xiàn)較大傾角下(0.15°)機(jī)器人的姿態(tài)控制,使機(jī)器人能夠抑制跌倒且快速恢復(fù)平衡狀態(tài)。本文的主要研究內(nèi)容如下:①建立單軌雙輪機(jī)器人的非線性動力學(xué)模型,確定系統(tǒng)的狀態(tài)轉(zhuǎn)移方程;②針對傳統(tǒng)Q-learning算法的不足,引入模糊推理方法泛化系統(tǒng)動作空間,建立輸出連續(xù)的Fuzzy-Q算法;③基于雙輪機(jī)器人特性,設(shè)計算法的狀態(tài)空間和動作空間,并結(jié)合機(jī)器人傾角動態(tài)變化設(shè)計回報函數(shù),提高訓(xùn)練效率;④通過仿真實(shí)驗(yàn),對比分析傳統(tǒng)Q-learning和Fuzzy-Q的學(xué)習(xí)能力和控制精度,驗(yàn)證所設(shè)計算法的有效性和魯棒性。

        1 基于控制力矩陀螺的雙輪機(jī)器人動力學(xué)模型

        1.1 控制力矩陀螺

        控制力矩陀螺(control moment gyro, CMG)廣泛應(yīng)用于航天器、船舶、自動潛航器等裝置的姿態(tài)調(diào)整[19-20],也在機(jī)器人、單軌列車等領(lǐng)域有相關(guān)的學(xué)術(shù)性研究[21]。本文的CMG安裝右側(cè)視圖如圖1所示。其中,O-XYZ是慣性坐標(biāo)系,車體圍繞Y軸旋轉(zhuǎn),是一個近似的倒立擺,車身傾角為θ。Ob-xbybzb是固連在車體上的坐標(biāo)系。陀螺框架在CMG進(jìn)動軸力矩τp的作用下圍繞xb軸進(jìn)動,進(jìn)動角為γ。Og-xgygzg是固連在陀螺框架上的坐標(biāo)系。陀螺飛輪圍繞zg軸自轉(zhuǎn),角速度為Ω。其核心是一個高速旋轉(zhuǎn)的飛輪,飛輪安裝在陀螺框架上,框架繞與自轉(zhuǎn)軸垂直方向進(jìn)動時,飛輪的角動量方向會隨之發(fā)生改變,由于系統(tǒng)滿足角動量守恒定律,系統(tǒng)會產(chǎn)生一個與自轉(zhuǎn)軸和框架轉(zhuǎn)軸方向正交的反作用力矩。

        圖1 CMG右側(cè)視圖

        1.2 系統(tǒng)組成及平衡原理

        如圖2所示,本文設(shè)計的CMG機(jī)器人系統(tǒng)主要由兩個對稱安裝的CMG和平衡車架組成。

        圖2 基于CMG的機(jī)器人模型

        兩個CMG自轉(zhuǎn)速度大小相等、方向相反,靜止穩(wěn)定控制時,進(jìn)動角速度大小相等,方向相反。分析可知,當(dāng)機(jī)器人產(chǎn)生一定的傾斜角時,進(jìn)動電機(jī)施加扭矩使飛輪轉(zhuǎn)子在自轉(zhuǎn)的同時相對車體進(jìn)動。根據(jù)陀螺力矩效應(yīng),陀螺進(jìn)動過程中受到沿進(jìn)動軸方向外力矩的同時會對車體產(chǎn)生一個反作用力矩τp來抵消重力矩分量以及外界干擾力矩。反作用力矩可表示為

        (1)

        1.3 系統(tǒng)動力學(xué)模型

        雙輪機(jī)器人處于運(yùn)動狀態(tài)時,其運(yùn)動速度與車身傾角和車把轉(zhuǎn)向角之間存在著非線性的耦合關(guān)系[22-24]。而在靜止?fàn)顟B(tài),雙輪機(jī)器人存在固有的靜態(tài)不穩(wěn)定問題,需借助配重或車把來保持平衡。因此,本文通過CMG的方式來實(shí)現(xiàn)機(jī)器人的姿態(tài)平衡控制。

        在使用拉格朗日法建立系統(tǒng)的動力學(xué)模型和控制模型前,先對系統(tǒng)作如下假設(shè)[25-26]:

        假設(shè)1雙輪機(jī)器人處于靜止?fàn)顟B(tài),即Y向速度為0;

        假設(shè)2陀螺框架、飛輪都是剛體,車身不考慮車把轉(zhuǎn)向,也是剛體;

        假設(shè)3輪胎與地面為點(diǎn)接觸,不考慮輪胎形變;

        假設(shè)4不考慮進(jìn)動方向的摩擦。

        同時,選取車身傾角θ,陀螺進(jìn)動角γ為廣義坐標(biāo),系統(tǒng)動能為

        (2)

        式中,mg、mb、mf分別表示陀螺框架質(zhì)量、車身質(zhì)量和飛輪質(zhì)量;Igx、Igy、Igz分別表示陀螺框架主軸慣量;Ifx、Ify、Ifz分別表示飛輪主軸慣量;hb、hf、hg分別表示車身質(zhì)心高度、飛輪質(zhì)心高度和陀螺框架質(zhì)心高度;Iby表示車身主軸慣量。

        系統(tǒng)勢能可表示為

        V=(2mghg+2mfhf+mbhb)gcosθ

        (3)

        根據(jù)拉格朗日方程:

        (4)

        得到系統(tǒng)的動力學(xué)模型:

        (2mfhf+2mghg+mbhb)gsinθ-

        (5)

        (6)

        式中,τp作為系統(tǒng)的控制輸入,用來保持系統(tǒng)平衡。對于本文的單軌雙輪機(jī)器人,強(qiáng)化學(xué)習(xí)的目標(biāo)是通過大量的學(xué)習(xí)訓(xùn)練使機(jī)器人能在具有初始傾角的情況下根據(jù)經(jīng)驗(yàn)策略實(shí)現(xiàn)自主的靜止穩(wěn)定控制。

        2 強(qiáng)化學(xué)習(xí)與Fuzzy-Q算法

        2.1 Q-learning算法原理

        Q-learning算法是Watkings在1989年提出的一種與模型無關(guān)的離線學(xué)習(xí)算法[27]。Q-learning算法在建立Q值表的基礎(chǔ)上,通過機(jī)器和環(huán)境的交互,得到對應(yīng)的回報值,再通過不斷改進(jìn)Q值表,使得回報值越來越高[28-29],隨之機(jī)器人的動作也趨于最優(yōu)。Q-learning算法的基本形式為

        Q(st,at)=α[rt+βmaxQ(st+1,at+1)]+

        (1-α)Q(st,at)

        (7)

        式中,α和β分別表示學(xué)習(xí)率和折扣因子;α越大則學(xué)習(xí)速率越快,但受到干擾后的影響越大,可能導(dǎo)致算法不收斂;β表示未來獎勵對決策的影響程度,β越大系統(tǒng)更關(guān)注長時間內(nèi)的決策,β越小則更關(guān)注最近的決策的影響;st為t時刻機(jī)器人的狀態(tài),控制器在機(jī)器人st狀態(tài)下輸出at,使其狀態(tài)更新為st+1,并得到獎賞回報rt,表示機(jī)器人從st狀態(tài)到st+1狀態(tài)獲得的回報值;動作at∈A,A為動作空間;狀態(tài)st∈S,S為狀態(tài)空間。maxQ(st+1,at+1)表示控制器從動作空間中選擇一個動作at+1使得Q(st+1,at+1)的取值最大[30]。Q-learning通過式(7)進(jìn)行更新,經(jīng)過N次訓(xùn)練迭代,可得

        Q(st,at)=[1-(1-αn)](rt+βQ(st+1,at+1))+

        (1-α)Q(st,at)

        (8)

        由于0<α<1,故當(dāng)n→∞時,Q(st,at)將收斂于最優(yōu)值rt+βQ(st+1,at+1)。Q-learning算法本質(zhì)上屬于一種時間差分(temporal difference, TD)算法。與一般TD算法不同,Q-learning的策略核心是狀態(tài)-動作值函數(shù)Q(s,a),即Q-learning將每個狀態(tài)與動作視為一個整體考慮其性能,并對狀態(tài)-動作值函數(shù)Q(s,a)進(jìn)行增量式更新,針對Q值表中的值函數(shù)Q(s,a),動作選擇通常采用ε貪心算法,策略表示為

        (9)

        即Q值表中最大的Q值對應(yīng)的動作被選擇的概率最大,其他動作被選擇的概率相同,以便盡可能地利用已知信息,并保證所有的狀態(tài)空間都有被探索的機(jī)會[31-32]。

        Q-learning的算法流程的最終目標(biāo)就是通過迭代、更新,使得Q值函數(shù)收斂[33]。使用Q-learning算法實(shí)現(xiàn)機(jī)器人的控制,可以直接分析每個狀態(tài)-動作對,在每個狀態(tài)下對所能采取的動作進(jìn)行評價,且Q-learning算法通過離散化的Q值表形式進(jìn)行了簡化,適合作為實(shí)現(xiàn)機(jī)器人控制的強(qiáng)化學(xué)習(xí)方法探索。

        2.2 Fuzzy-Q算法設(shè)計及優(yōu)化

        在初步仿真中發(fā)現(xiàn)傳統(tǒng)的Q-learning算法由于動作空間離散化,控制器的輸出存在高頻振蕩。實(shí)際執(zhí)行機(jī)構(gòu)難以輸出如此劇烈變化的量,且容易對CMG造成損害,同時機(jī)器人恢復(fù)平衡后的控制精度也有待提高。因此,本文考慮將模糊控制算法與Q-learning算法相結(jié)合,即當(dāng)控制器接收到當(dāng)前機(jī)器人的狀態(tài)向量之后,通過模糊推理選擇一種更合適的動作執(zhí)行,使執(zhí)行機(jī)構(gòu)的輸出量更加平滑??紤]到模糊控制器的特點(diǎn),選擇以機(jī)器人傾角和傾角角速度作為模糊優(yōu)化的輸入量,模糊推理的輸出量為控制力矩。

        (10)

        式中,x為狀態(tài)空間變量;a、b為待定系數(shù),根據(jù)論域范圍和模糊空間劃分來確定。綜合考慮控制性能和模型特點(diǎn),模糊空間分割采取不等間距劃分。在橫向比較多種隸屬度函數(shù)后,本文選用效果最佳的三角形隸屬度函數(shù)進(jìn)行模糊化,如圖3所示。

        圖3 傾角隸屬度函數(shù)

        對于系統(tǒng)輸出的連續(xù)狀態(tài),在劃分狀態(tài)區(qū)間時,通過隸屬度函數(shù)將區(qū)間模糊化并計算其隸屬度,此時每個狀態(tài)都以相應(yīng)的隸屬度劃分到兩個子狀態(tài)中。如T時刻機(jī)器人傾角為0.25 rad,則對應(yīng)以70%隸屬于第一狀態(tài),以30%隸屬于第二狀態(tài),傾角角速度的狀態(tài)區(qū)間劃分同理,則此時共有4種機(jī)器人狀態(tài)。這4種狀態(tài)均為強(qiáng)化學(xué)習(xí)的狀態(tài),且每個狀態(tài)的隸屬度為對應(yīng)兩項(xiàng)的隸屬度乘積。在每次迭代時,選擇4種狀態(tài)中對應(yīng)最大的Q值進(jìn)行學(xué)習(xí)更新,并通過面積重心法對各個狀態(tài)的輸出進(jìn)行反模糊化,即

        (11)

        式中,μk為狀態(tài)xk對應(yīng)的隸屬度函數(shù);v0為各狀態(tài)的反模糊化輸出值。在更新Q值時,選擇對隸屬度大于30%的狀態(tài)進(jìn)行更新,系統(tǒng)通過反模糊化后得到最終的控制器輸出。由于結(jié)合模糊理論后算法涉及的狀態(tài)空間更廣,運(yùn)算量更大,因此需要較長的訓(xùn)練時間才能達(dá)到收斂,但學(xué)習(xí)效果和控制性能比傳統(tǒng)的強(qiáng)化學(xué)習(xí)更優(yōu),且抗干擾能力更好。

        3 基于強(qiáng)化學(xué)習(xí)的控制器設(shè)計

        3.1 狀態(tài)空間設(shè)計

        表1 傾角離散區(qū)間劃分

        表2 傾角角速度離散區(qū)間劃分

        這樣狀態(tài)空間中的每個元素都對應(yīng)以上10×10個狀態(tài),因此也就生成了100個強(qiáng)化學(xué)習(xí)狀態(tài)。

        3.2 動作空間設(shè)計

        在整個控制過程中,機(jī)器人的傾角變化由控制器輸出的陀螺力矩決定,為避免動作搜索空間過大,對控制器的輸出動作進(jìn)行離散化。根據(jù)控制經(jīng)驗(yàn),具體的劃分如表3所示。

        表3 動作離散區(qū)間劃分

        3.3 回報函數(shù)設(shè)計

        強(qiáng)化學(xué)習(xí)通過狀態(tài)轉(zhuǎn)移產(chǎn)生的回報函數(shù)來對選擇的動作進(jìn)行評估,從而調(diào)整Q值表。即回報函數(shù)直接決定了Q-learning算法的控制效果和收斂效果,雙輪機(jī)器人控制的最終目的是使車身傾角θ趨于0,由此設(shè)計Q-learning算法回報函數(shù)為

        (12)

        式中,α1和α2表示回報系數(shù),其大小主要由回報評價項(xiàng)的重要性和相對值來決定。為優(yōu)化回報函數(shù),本文同時將機(jī)器人傾角和傾角角速度作為評價量,車身傾角越大,回報懲罰越大,平方項(xiàng)用來加快收斂速度。使得機(jī)器人傾角較大時,以角度為回報函數(shù)的主要評價項(xiàng);當(dāng)傾角較小時(|φ|<5 rad),以傾角角速度為主要評價項(xiàng),保證機(jī)器人在傾角接近0 rad的時候減速,盡量保持在平衡點(diǎn)附近擺動。

        3.4 算法流程設(shè)計

        Q-learning算法采用離散化的Q值表進(jìn)行值函數(shù)的迭代,通過將系統(tǒng)狀態(tài)和動作人為分割為若干離散序列,從而把連續(xù)問題轉(zhuǎn)化為離散的表格化問題。算法的最終目標(biāo)是使得Q值表中的Q(si,ai)收斂于Q*(si,ai),智能體可根據(jù)Q值表做出正確的動作。系統(tǒng)的結(jié)構(gòu)框圖如圖4所示。

        圖4 系統(tǒng)結(jié)構(gòu)框圖

        基于強(qiáng)化學(xué)習(xí)的單軌雙輪機(jī)器人控制算法流程圖如圖5所示。

        圖5 算法流程圖

        4 仿真結(jié)果

        本文的算法基于Matlab R2018a環(huán)境,訓(xùn)練在英偉達(dá) GeForce GTX 1080 GPU上完成,在訓(xùn)練開始時,任意狀態(tài)-動作對的Q值初始化為0,且機(jī)器人的初始傾角10 rad,CMG的進(jìn)動軸力矩大小由強(qiáng)化學(xué)習(xí)算法得到的動作輸出獲得,當(dāng)機(jī)器人傾角大于30 rad,則整個環(huán)境進(jìn)行復(fù)位,重新學(xué)習(xí),直到傾角能夠保持在0 rad左右并維持一段時間。整個訓(xùn)練過程中,系統(tǒng)模型參數(shù)基于機(jī)器人實(shí)物如圖6所示,涉及的具體參數(shù)和數(shù)值如表4所示。

        圖6 機(jī)器人實(shí)物圖

        表4 機(jī)器人模型參數(shù)

        4.1 Q-learning算法下的姿態(tài)穩(wěn)定控制

        采用Q-learning算法實(shí)現(xiàn)機(jī)器人控制,在經(jīng)過約5分鐘的反復(fù)訓(xùn)練后,仿真結(jié)果如圖7所示。

        圖7 Q-learning算法下機(jī)器人控制仿真結(jié)果

        可以看到訓(xùn)練成功后,機(jī)器人的傾角在3 s左右就可以趨于收斂,控制精度為0.025 rad,同時傾角角速度的變化范圍為±0.2 rad/s,這主要是通過動作空間中的大幅度動作(±10N)配合小幅度調(diào)整動作(±1 N)以及靜止動作(0 N)來實(shí)現(xiàn)的。說明在模型未知且無任何先驗(yàn)知識的條件下,控制器通過強(qiáng)化學(xué)習(xí)可以很快的控制平衡,且控制精度較高。

        圖8為訓(xùn)練過程中的回報函數(shù)值??梢钥闯?在訓(xùn)練初期,由于動作的選擇處于探索階段,具有一定的隨機(jī)性,因此獲得的回報值較小。但在經(jīng)歷了1 000次左右的學(xué)習(xí)之后,Q值表逐漸得到完善,智能體獲得的獎勵也越來越高,算法最終達(dá)到收斂。

        圖8 Q-learning算法的回報函數(shù)

        4.2 Fuzzy-Q算法下的姿態(tài)穩(wěn)定控制

        從仿真結(jié)果可以看到,由于Q-learning算法的離散化,控制器輸出振蕩幅度較大。為改善控制器輸出并提高控制精度,本文在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上改進(jìn)并設(shè)計了Fuzzy-Q算法,其仿真結(jié)果如圖9所示。

        圖9 Fuzzy-Q算法下機(jī)器人控制仿真結(jié)果

        圖9(c)是采用了Fuzzy-Q算法的控制器輸出,可以看到,在訓(xùn)練成功后的控制周期內(nèi),陀螺力矩的輸出值較為平滑,未發(fā)生劇烈的突變,整個控制過程較為平順。

        同時,在采用了Fuzzy-Q算法之后,機(jī)器人的控制精度為±0.01 rad,且傾角角速度收斂于±0.2 rad/s。由此可以證明整個訓(xùn)練過程是成功的,機(jī)器人在此時已經(jīng)學(xué)習(xí)到了一個最優(yōu)策略,達(dá)到了較高的控制精度。同時,控制器的輸出為連續(xù)信號,比傳統(tǒng)強(qiáng)化學(xué)習(xí)的控制效果更好。證明了在傳統(tǒng)強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入模糊算法,可以將離散控制器轉(zhuǎn)化為連續(xù)控制器,控制效果上可以得到明顯改善。

        圖10為訓(xùn)練過程中的回報函數(shù)值變化曲線??梢钥吹?累積回報值在訓(xùn)練開始時并不穩(wěn)定,隨著訓(xùn)練周期及次數(shù)增加,總體變化趨勢逐漸增大,即隨著訓(xùn)練次數(shù)的增加最終趨于穩(wěn)定值。證明算法實(shí)現(xiàn)收斂,且訓(xùn)練次數(shù)比Q-learning算法更短,學(xué)習(xí)能力更強(qiáng)。

        圖10 Fuzzy-Q算法的回報函數(shù)

        4.3 外加力矩干擾下的姿態(tài)穩(wěn)定控制

        為分析系統(tǒng)的抗干擾能力,在訓(xùn)練成功后,人為地加入擾動,具體做法為在21 s時對處于平衡狀態(tài)的機(jī)器人施加脈沖干擾力矩(9 N·m),傾角受到擾動后恢復(fù)情形的仿真結(jié)果如圖11所示。

        圖11 受干擾時機(jī)器人控制仿真結(jié)果

        可以很明顯地看到,在加入干擾之后,車身傾角出現(xiàn)了輕微增加,偏離角度約為0.116 rad,同時控制器迅速做出反應(yīng)調(diào)整輸出,最終使機(jī)器人傾角平穩(wěn)地恢復(fù)到了平衡位置,整個過程花費(fèi)時間約為1 s,證明了Fuzzy-Q算法具有較強(qiáng)的魯棒性,在受到干擾后傾角偏離角度較小且恢復(fù)時間短。

        5 結(jié) 論

        本文設(shè)計了一種基于CMG和Q-learning算法的機(jī)器人側(cè)傾姿態(tài)穩(wěn)定控制方法,實(shí)現(xiàn)了[-0.01,0.01]rad控制精度內(nèi)的機(jī)器人靜止平衡控制。在傳統(tǒng)強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,結(jié)合模糊理論建立了Fuzzy-Q算法,以模糊輸出代替Q值函數(shù)輸出,解決了Q-learning算法存在的控制器輸出高頻振蕩的問題,避免了在實(shí)際應(yīng)用中對執(zhí)行機(jī)構(gòu)造成損傷。同時基于機(jī)器人特性優(yōu)化回報函數(shù),提高了學(xué)習(xí)效率。結(jié)果表明,經(jīng)過訓(xùn)練后,本文所設(shè)計的Fuzzy-Q算法能夠快速平穩(wěn)地實(shí)現(xiàn)機(jī)器人的側(cè)傾穩(wěn)定控制。相較于傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法,Fuzzy-Q算法學(xué)習(xí)時間更短,控制精度更高且具有較強(qiáng)的抗干擾能力,能夠?qū)崿F(xiàn)單軌雙輪機(jī)器人側(cè)傾穩(wěn)定的控制目標(biāo)。

        猜你喜歡
        動作
        動作不可少(下)
        動作不能少(上)
        巧借動作寫友愛
        下一個動作
        動作描寫要具體
        畫動作
        讓動作“活”起來
        動作描寫不可少
        非同一般的吃飯動作
        神奇的手
        久久无码av中文出轨人妻| 亚洲中文字幕第一页免费 | 日韩精品中文一区二区三区在线| 97精品超碰一区二区三区| 美女黄18以下禁止观看| 亚洲国产精品日韩专区av| 与最丰满美女老师爱爱视频| 久久精品国产亚洲av网站| 日韩精品无码久久久久久| 漂亮的小少妇诱惑内射系列| 久久一区二区三区老熟女| 国产一区二区三区免费观看在线| 一本一本久久a久久精品综合| 欧美综合自拍亚洲综合百度| 天堂网日韩av在线播放一区 | 国产精品深夜福利免费观看| 久久开心婷婷综合中文| 婷婷伊人久久大香线蕉av| 人妻少妇被猛烈进入中文字幕| 免青青草免费观看视频在线| 国产丝袜美腿一区二区三区| 97精品人人妻人人| 亚洲av无码一区二区乱子伦| 国产在线观看精品一区二区三区| 极品一区二区在线视频| 色www视频永久免费| 久久免费区一区二区三波多野在| 日韩美女人妻一区二区三区| 亚洲最大成人网站| 无码国产一区二区三区四区| 国产日韩久久久久69影院| 中文字幕在线乱码亚洲| 人妻少妇乱子伦精品| 久久99热精品这里久久精品| 男女后入式在线观看视频| 国产老熟妇精品观看| 亚洲av无码成人精品区在线观看| 午夜无码国产18禁| 人妻免费一区二区三区免费| 天堂а√在线中文在线新版| 国产av色|