鐘偉嵐
【摘要】? ? 近年來,人工智能研究領(lǐng)域中強(qiáng)化學(xué)習(xí)大受歡迎,它與監(jiān)督學(xué)習(xí)有異曲同工之妙,也有許多的不同點(diǎn)可以區(qū)分。首先,監(jiān)督學(xué)習(xí)需要在他人的督促下進(jìn)行,而強(qiáng)化學(xué)習(xí)更多的依賴自身的管理。強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)能夠不是先設(shè)置目標(biāo),從周圍數(shù)據(jù)中獲得有關(guān)動(dòng)作的反饋信息,然后再利用這些信息來優(yōu)化模型數(shù)據(jù)。顯而易見,強(qiáng)化學(xué)習(xí)具有廣闊的前景。集多種環(huán)節(jié)于一體的復(fù)雜控制系統(tǒng),具有非常經(jīng)典的復(fù)雜問題,以本次論文研究的倒立擺為例。自然界有很多無規(guī)律的不穩(wěn)定的物體,倒立擺系統(tǒng)可以通過控制手段,使不穩(wěn)定的物體變得穩(wěn)定,具有規(guī)律性。而在控制過程中,倒立擺系統(tǒng)也是一個(gè)驗(yàn)證各種控制理論的很理想的模型之一。它可以反映例如可鎮(zhèn)定性,隨機(jī)能動(dòng)性以及魯棒性一系列情況。近代以來,倒立擺系統(tǒng)廣泛應(yīng)用于我們的生活當(dāng)中。衛(wèi)星的運(yùn)行、火箭的飛行都借助了倒立擺系統(tǒng)。因此,非常有必要對倒立擺系統(tǒng)進(jìn)行研究,該系統(tǒng)具有無可取代的現(xiàn)實(shí)意義,以及深刻的工程意義。
【關(guān)鍵詞】? ? 強(qiáng)化學(xué)習(xí)? ? Q學(xué)習(xí)算法? ? 倒立擺系統(tǒng)
引言:
眾所周知,我們獲得新的知識的主要途徑之一就是學(xué)習(xí),學(xué)習(xí)是人類聰明才智的體現(xiàn)。近年來人工智能領(lǐng)域在研究機(jī)器學(xué)習(xí)時(shí),主要將研究的內(nèi)容放在擬人化,目的是讓機(jī)器的行為舉止與人類無限接近,能夠像人類一樣主動(dòng)吸收知識。機(jī)器學(xué)習(xí)比人類學(xué)習(xí)具有更多的優(yōu)點(diǎn),首先機(jī)器是不會(huì)感到疲憊的,不需要大腦對信息進(jìn)行整合,通過數(shù)字編碼就可以對信息進(jìn)行儲存復(fù)制,具有學(xué)習(xí)時(shí)間長,學(xué)習(xí)效率高的優(yōu)點(diǎn)。[1]選擇機(jī)器學(xué)習(xí),可以讓學(xué)習(xí)不會(huì)因?yàn)槿祟惖膲勖蛩乇挥绊?,有利于知識的儲備。
強(qiáng)化學(xué)習(xí)[2]機(jī)器學(xué)習(xí)的研究模塊中,有一部分涉及到心理學(xué)理論和動(dòng)物學(xué)習(xí)原理。首先從生物學(xué)的研究中構(gòu)建反饋機(jī)制,借助該反饋機(jī)制采集周圍環(huán)境對動(dòng)作產(chǎn)生的評價(jià)信息,利用反饋的信號對學(xué)習(xí)模型參數(shù)進(jìn)行更新。強(qiáng)化學(xué)習(xí)是人工智能學(xué)習(xí)模塊中非常熱門的一個(gè)板塊,涉及到多個(gè)學(xué)科的內(nèi)容[3]。
智能控制,人們希望通過對人工智能的研究,賦予機(jī)器人性化。詳細(xì)的說就是使僵硬的機(jī)器被賦予學(xué)習(xí)的功能,通過機(jī)器的運(yùn)轉(zhuǎn)將信息儲存,從而達(dá)到擁有類似于生物的運(yùn)動(dòng)控制技能[4]。到目前來說也取得了不少成果,許多機(jī)器人構(gòu)建的認(rèn)知模型中,很少涉及到運(yùn)動(dòng)平衡控制問題,但實(shí)際上,機(jī)器人的運(yùn)動(dòng)與運(yùn)動(dòng)平衡控制具有十分緊密的聯(lián)系,所以本次論文研究將從運(yùn)動(dòng)平衡問題入手,結(jié)合相關(guān)認(rèn)知問題進(jìn)行探索[5]。在借閱許多學(xué)者前輩的研究材料發(fā)現(xiàn),對倒立擺的控制問題的研究,一直是智能領(lǐng)域中熱門板塊。
倒立擺系統(tǒng),該系統(tǒng)擁有非常多的特殊性,常見的有快速、多變量、嚴(yán)重非線性等。除此之外該系統(tǒng)是實(shí)驗(yàn)室中研究自控理論時(shí)所必備的設(shè)備,同樣是經(jīng)典的控制理論教學(xué)物理模型[6]。倒立擺采用線性設(shè)計(jì),能夠使用線性控制理論,而且還與系統(tǒng)識別等多方面皆有所關(guān)聯(lián),在控制理論研究中極具挑戰(zhàn)性,一直被學(xué)者所關(guān)注。倒立擺系統(tǒng)在近代的許多科學(xué)領(lǐng)域都有應(yīng)用,像直升飛機(jī)和衛(wèi)星的運(yùn)行等等都與倒立擺系統(tǒng)穩(wěn)定控制有所聯(lián)系。所以倒立擺系統(tǒng)的研究對于我們生活中的許多的新興科技都具有十分重要的研究意義。筆者在對論文進(jìn)行設(shè)計(jì)時(shí),以運(yùn)動(dòng)平衡控制為出發(fā)點(diǎn),將強(qiáng)化學(xué)習(xí)作為研究對象,倒立擺系統(tǒng)作為實(shí)驗(yàn)?zāi)P?。在這些的基礎(chǔ)上使用一種基于Q學(xué)習(xí)的強(qiáng)化學(xué)習(xí)系統(tǒng)以對倒立擺平衡控制展開深入探索,最終目的將學(xué)習(xí)能力賦予學(xué)習(xí)系統(tǒng),以期該學(xué)習(xí)系統(tǒng)在日常運(yùn)行時(shí),能夠自主學(xué)習(xí)新的知識,能夠做出行走、跳躍各種動(dòng)作,從而在各個(gè)領(lǐng)域中進(jìn)行應(yīng)用。
一、強(qiáng)化學(xué)習(xí)原理
1.1 強(qiáng)化學(xué)習(xí)原理與模型
眾所周知,機(jī)器學(xué)習(xí)有許多的方向,強(qiáng)化學(xué)習(xí)是其中一種重要的方法。在我們的身邊的諸多領(lǐng)域都與強(qiáng)化學(xué)習(xí)有著不少聯(lián)系。在強(qiáng)化學(xué)習(xí)過程中,裝載強(qiáng)化學(xué)習(xí)系統(tǒng)的智能體與周圍的環(huán)境進(jìn)行信息交流,再通過反饋信息不斷更新策略,直到最終獲得最優(yōu)決策。在訓(xùn)練的過程中系統(tǒng)會(huì)通過不斷的嘗試并且在這個(gè)過程中得到相應(yīng)環(huán)境反饋評價(jià)。系統(tǒng)會(huì)在這整個(gè)過程中不斷的積累經(jīng)驗(yàn)并且更新策略,最后可以使累積的獎(jiǎng)懲值達(dá)到最大值。
很明顯由強(qiáng)化學(xué)習(xí)的原理與模型可知強(qiáng)化學(xué)習(xí)不等同于自適應(yīng)控制技術(shù)和規(guī)劃技術(shù)。
強(qiáng)化學(xué)習(xí)也被認(rèn)為是一種直接最適應(yīng)最優(yōu)方法,擁有自適應(yīng)控制技術(shù)的環(huán)境反饋機(jī)制。但是,自適應(yīng)控制技術(shù)是要處理參數(shù)問題,系統(tǒng)也要求能夠在統(tǒng)計(jì)數(shù)據(jù)中獲得結(jié)果。但強(qiáng)化學(xué)習(xí)去除了這些限制因素。實(shí)際上,無論是強(qiáng)化學(xué)習(xí)還是規(guī)劃技術(shù),他們二者之間在技術(shù)上是有明顯區(qū)別的。以狀態(tài)圖的規(guī)劃構(gòu)造為例,如果一些復(fù)雜的狀態(tài)圖沒有提前進(jìn)行設(shè)計(jì),就無法進(jìn)行規(guī)劃技術(shù)。但是強(qiáng)化學(xué)習(xí)只對環(huán)境的反饋信息進(jìn)行記憶即可。除此之外,強(qiáng)化學(xué)習(xí)與規(guī)劃技術(shù)相比更加強(qiáng)調(diào)與環(huán)境的交互。也由此可見,強(qiáng)化學(xué)習(xí)擁有更廣闊的適用面。
1.2 強(qiáng)化學(xué)習(xí)系統(tǒng)的組成要素
強(qiáng)化學(xué)習(xí)的內(nèi)容按要素分可以分為三類:策略、獎(jiǎng)賞函數(shù)和值函數(shù)。在一般情況下智能體在給定的時(shí)間內(nèi)產(chǎn)生相應(yīng)的動(dòng)作的方法就是策略(Policy)。 策略在強(qiáng)化學(xué)習(xí)中占據(jù)著舉足輕重的地位,是智能體的核心。在一般情況下策略會(huì)給予智能體特定的答案,告訴在智能體應(yīng)該采取哪些動(dòng)作。獎(jiǎng)賞函數(shù)(Reward Function)在強(qiáng)化學(xué)習(xí)問題中有著舉足輕重的地位,一般表現(xiàn)在獎(jiǎng)賞函數(shù)往往會(huì)對問題中的目標(biāo)會(huì)起到?jīng)Q定性的作用。獎(jiǎng)賞函數(shù)具有確定性和客觀性等性質(zhì),這些性質(zhì)會(huì)給予智能體正確的動(dòng)作選擇。最后再來介紹一下值函數(shù)(Value Function) ,從長遠(yuǎn)的角度來看,直函數(shù)可以用來判斷狀態(tài)的優(yōu)劣,這種函數(shù)可以更有效的幫助學(xué)者研究強(qiáng)化學(xué)習(xí)的算法。
二、強(qiáng)化學(xué)習(xí)算法的應(yīng)用
馬爾可夫決策問題在人類科技進(jìn)步的過程中扮演著重要的角色,而動(dòng)態(tài)規(guī)劃方法的提出可謂是馬爾可夫決策問題里具有代表性的成果之一,Q學(xué)習(xí)算法和SARSA學(xué)習(xí)算法可以通過值函數(shù)的逼近來尋求最優(yōu)策略,這兩種算法可以說把時(shí)間差分和動(dòng)態(tài)規(guī)劃結(jié)合起來的典型。
2.1 SARSA算法
到現(xiàn)在,算法有了新的突破,理論研究也向前邁進(jìn)一大步。Sarsa學(xué)習(xí)算法和Q學(xué)習(xí)算法可以算作是里面具有代表性的兩個(gè)。
Rummery在1994 年第一次提出了SARSA這種強(qiáng)化學(xué)習(xí)算法,我們可以把SARSA學(xué)習(xí)算法看作Q學(xué)習(xí)算法的一種改進(jìn)過的在線的(Online)形式。
2.2 Q學(xué)習(xí)算法
整體的算法流程如下所示:
對Q(s,a)初始化,在每一個(gè)情節(jié)都會(huì)進(jìn)行以下的操作:
初始化狀態(tài)s并且重復(fù)以下的操作一直到能夠到達(dá)終態(tài);
由貪心策略確定和執(zhí)行動(dòng)作a,狀態(tài)得到轉(zhuǎn)移到s'并且能夠獲得獎(jiǎng)賞r;
對Q(s,a)進(jìn)行更新,令s←s'。
列式如下所示:
(1)
其中C為常數(shù),用高等代數(shù)的方法對該式子進(jìn)行收斂判斷,如果在貪心策略的方法下式子是收斂的,就可以將該式子認(rèn)為是強(qiáng)化學(xué)習(xí)中最有效的算法是Q學(xué)習(xí)。
2.3 程序運(yùn)行結(jié)果
我們分別運(yùn)行SARSA算法,Q學(xué)習(xí)算法的有模型和無模型三個(gè)程序,得到結(jié)果如圖1。
由圖1可知,三個(gè)程序都順利的驗(yàn)證了不同的強(qiáng)化學(xué)習(xí)算法按照目標(biāo)驗(yàn)證了其在倒立擺平衡控制過程中有認(rèn)知和學(xué)習(xí)的能力。
2.4? 仿真結(jié)果分析與結(jié)論
在本次畢業(yè)設(shè)計(jì)中,我們主要會(huì)對Q學(xué)習(xí)算法的倒立擺實(shí)驗(yàn)進(jìn)行波形的仿真與研究。在設(shè)置變量時(shí),初始狀態(tài)的倒立擺是隨機(jī)數(shù),而這個(gè)隨機(jī)值常常被指定在一定的范圍內(nèi)。
從圖2的仿真曲線中我們不難看出即使沒有儲備的知識條件,強(qiáng)化學(xué)習(xí)也可以讓倒立擺系統(tǒng)具備自我的學(xué)習(xí)能力和記憶聯(lián)想能力并且很快的得到控制。在圖2中,不難看出這是強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)曲線,我們可以觀察到的是平衡控制技能在強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)過程中在被逐漸掌握,直至最后強(qiáng)化學(xué)習(xí)系統(tǒng)成功的控制了倒立擺系統(tǒng)。接下來我們會(huì)通過不同的仿真波形探究在不同的條件下Q學(xué)習(xí)強(qiáng)化學(xué)習(xí)系統(tǒng)對于倒立擺系統(tǒng)平衡的掌握。
2.4.1? 不同初始角度的控制效果
我們先改變擺桿的初始角度,再去觀察系統(tǒng)控制性能是否會(huì)產(chǎn)生明顯的變化。我們觀察圖3不難看出擺桿的角度初始角度分別為-5與10,角度不同,但是強(qiáng)化學(xué)習(xí)系統(tǒng)在時(shí)間為三秒的時(shí)候,都幾乎達(dá)到直線狀態(tài),控制效果幾乎沒有變化。
2.4.2? 改變小車初始位置多次實(shí)驗(yàn)
在其他條件一致的情況下,我們改變小車初始位置變量,進(jìn)行重復(fù)實(shí)驗(yàn),探索系統(tǒng)的控制性能變化情況。我們從圖4不難看出即使小車處在不同的初始位置,倒立擺的控制精度仍然可以達(dá)到要求并在短時(shí)間內(nèi)再次返回到平衡狀態(tài)。
2.4.3? 有外界擾動(dòng)的控制效果
在我們加入幅值不同的脈沖干擾后強(qiáng)化學(xué)習(xí)系統(tǒng)仍然可以順利的完成對倒立擺的控制。在圖5中不難看出在控制過程中的脈沖干擾無法對但強(qiáng)化學(xué)習(xí)系統(tǒng)產(chǎn)生明顯的影響,證明了其具有良好的抗干擾能力。
三、結(jié)束語
強(qiáng)化學(xué)習(xí)采用了生物學(xué)習(xí)中的“行動(dòng)——評價(jià)——改進(jìn)”機(jī)制。這種評價(jià)機(jī)制的特點(diǎn)是將活動(dòng)與環(huán)境相聯(lián)系,將活動(dòng)置于環(huán)境下,接收環(huán)境對于活動(dòng)的評價(jià)信息,從而利用評價(jià)信息更新模型數(shù)據(jù),優(yōu)化決策行為。強(qiáng)化學(xué)習(xí)在目前已經(jīng)成為了很多領(lǐng)域研究的熱點(diǎn)之一,是一個(gè)多學(xué)科交叉的研究方向。在本次實(shí)驗(yàn)中,我們把倒立擺系統(tǒng)作為實(shí)驗(yàn)的載體,對幾個(gè)強(qiáng)化學(xué)習(xí)算法做了研究與學(xué)習(xí),并探究了強(qiáng)化學(xué)習(xí)在倒立擺系統(tǒng)中的控制和應(yīng)用。
具體對整體的過程進(jìn)行總結(jié):1.通過查閱文獻(xiàn)的方式來分析總結(jié)強(qiáng)化學(xué)習(xí)研究的現(xiàn)狀。2.介紹分析本文中用到的相關(guān)強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念以及模型。3.在 Python 語言開發(fā)環(huán)境下利用 Pycharm完成了強(qiáng)化學(xué)習(xí) SARSA算法和Q學(xué)習(xí)算法在一級直線倒立擺平衡控制的實(shí)驗(yàn)仿真,三種控制算法均可以完成訓(xùn)練以達(dá)到一級直線倒立擺的平衡控制。4.對實(shí)驗(yàn)仿真的波形進(jìn)行提取分析,對實(shí)驗(yàn)進(jìn)行總結(jié)與展望。
總之強(qiáng)化學(xué)習(xí)已經(jīng)在默默影響與改變我們的生活,在機(jī)器人規(guī)劃和控制和人工智能問題的求解等領(lǐng)域取得了成績,擁有值得期待的未來與前景。
參? 考? 文? 獻(xiàn)
[1]李京,劉道偉,安軍,李宗翰,楊紅英,趙高尚,楊少波,鄭恒峰.基于強(qiáng)化學(xué)習(xí)理論的靜態(tài)電壓穩(wěn)定裕度評估[J].中國電機(jī)工程學(xué)報(bào),2020,40(16):5136-5148.
[2]萬里鵬,蘭旭光,張翰博,鄭南寧.深度強(qiáng)化學(xué)習(xí)理論及其應(yīng)用綜述[J].模式識別與人工智能,2019,32(01):67-81.
[3]劉洋,崔穎,李鷗.認(rèn)知無線電網(wǎng)絡(luò)中基于強(qiáng)化學(xué)習(xí)的智能信道選擇算法[J].信號處理,2014,30(03):253-260.
[4]閆友彪,陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J].計(jì)算機(jī)應(yīng)用研究,2004(07):4-10.
[5]張汝波,顧國昌,劉照德,王醒策.強(qiáng)化學(xué)習(xí)理論、算法及應(yīng)用[J].控制理論與應(yīng)用,2000(05):637-642.