亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于近似Q-學(xué)習(xí)算法的數(shù)據(jù)驅(qū)動(dòng)控制仿真

        2022-06-14 10:06:26于子航王改云
        計(jì)算機(jī)仿真 2022年5期
        關(guān)鍵詞:驅(qū)動(dòng)控制器狀態(tài)

        于子航,王改云

        (桂林電子科技大學(xué)花江校區(qū)電子工程與自動(dòng)化學(xué)院,廣西 桂林 541000)

        1 引言

        數(shù)據(jù)驅(qū)動(dòng)控制是智能控制的一種形式,是智能領(lǐng)域的一個(gè)研究分支,最早起源于計(jì)算機(jī)科學(xué)領(lǐng)域。其中包含數(shù)據(jù)驅(qū)動(dòng)思想與數(shù)據(jù)驅(qū)動(dòng)控制兩方面。數(shù)據(jù)驅(qū)動(dòng)思想是利用受控系統(tǒng)現(xiàn)有數(shù)據(jù)實(shí)現(xiàn)系統(tǒng)數(shù)據(jù)的預(yù)報(bào)、調(diào)度、監(jiān)控和決策等功能。數(shù)據(jù)驅(qū)動(dòng)控制指的是在控制器設(shè)計(jì)過(guò)程中,不包含受控系統(tǒng)的數(shù)學(xué)模型,簡(jiǎn)單來(lái)說(shuō)就是從數(shù)據(jù)直接到控制器的設(shè)計(jì)理論方法。傳統(tǒng)的受控系統(tǒng)包含受控對(duì)象和控制器兩部分,受控對(duì)象設(shè)計(jì)有四種方法,分別為:有精準(zhǔn)的機(jī)理模型;有不精準(zhǔn)的機(jī)理模型;機(jī)理模型過(guò)于復(fù)雜,非線(xiàn)性較強(qiáng),階數(shù)較高;無(wú)機(jī)理模型。控制器分為基于有機(jī)理模型和無(wú)機(jī)理模型兩種。

        隨著研究深入,現(xiàn)階段數(shù)據(jù)控制方法取得了巨大發(fā)展,并且產(chǎn)生了如自適應(yīng)控制、最優(yōu)控制、系統(tǒng)辨識(shí)等領(lǐng)域分支。例如,在智能車(chē)輛領(lǐng)域,許德智等人[1]提出了一種智能車(chē)輛自動(dòng)超車(chē)系統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)路徑跟蹤約束控制,該方法在設(shè)計(jì)控制器的過(guò)程中,設(shè)計(jì)了一種抗飽和補(bǔ)償器來(lái)解決控制輸入受變換范圍和速率限制問(wèn)題,系統(tǒng)的控制僅使用自動(dòng)超車(chē)系統(tǒng)數(shù)據(jù),使控制性能不受車(chē)輛模型信息的影響,最后通過(guò)與PID(Proportional Integral Derivative)控制作仿真對(duì)比實(shí)驗(yàn)證明該方法能夠較好地實(shí)現(xiàn)自動(dòng)超車(chē)的路徑跟蹤,且誤差較小,但是由于該方法需要處理數(shù)據(jù)較多,導(dǎo)致響應(yīng)時(shí)間較長(zhǎng);在礦物浮選領(lǐng)域,姜藝等人[2]提出了一種數(shù)據(jù)驅(qū)動(dòng)的浮選過(guò)程運(yùn)行反饋解耦控制方法,該方法首先以礦漿液位和流量為輸入,精礦品位為輸出建立非線(xiàn)性運(yùn)行模型,以未建模前的一拍可測(cè)特點(diǎn)為基礎(chǔ),設(shè)計(jì)出包含了PID控制器和反饋解耦控制器等為一體的數(shù)據(jù)控制方案,經(jīng)過(guò)仿真結(jié)果表明,該方法具有一定的可行性,但是由于需要依賴(lài)的模型過(guò)多,導(dǎo)致控制結(jié)果還存在一定誤差。

        雖然數(shù)據(jù)驅(qū)動(dòng)在多個(gè)領(lǐng)域取得了巨大成就,但是現(xiàn)階段大多數(shù)的控制理論成果仍然對(duì)被控系統(tǒng)精準(zhǔn)的數(shù)學(xué)模型過(guò)于依賴(lài)并且存在未建模動(dòng)態(tài)等問(wèn)題。然而在實(shí)際操作過(guò)程中,控制系統(tǒng)的參數(shù)和方程形式通常為未知的,進(jìn)一步導(dǎo)致了受控系統(tǒng)的數(shù)學(xué)模型建立較為困難。因此,本文提出了一種基于近似Q-學(xué)習(xí)算法的數(shù)據(jù)驅(qū)動(dòng)控制仿真,Q-學(xué)習(xí)是重要的強(qiáng)化學(xué)習(xí)方法之一,是一種不依賴(lài)環(huán)境模型的學(xué)習(xí)手段,主要通過(guò)經(jīng)歷的動(dòng)作序列來(lái)完成最優(yōu)動(dòng)作學(xué)習(xí)。本文以Q-學(xué)習(xí)算法作為控制器結(jié)構(gòu),同時(shí)使用遞推方式解決被控模型未知,致使優(yōu)化算法不能繼續(xù)使用的問(wèn)題,最后通過(guò)對(duì)被控對(duì)象的偽偏導(dǎo)函數(shù)進(jìn)行評(píng)估,完成數(shù)據(jù)驅(qū)動(dòng)控制。在仿真中,將本文方法與傳統(tǒng)方法的控制結(jié)果進(jìn)行比較,結(jié)果表明本文方法的誤差較小,具有一定的可行性。

        2 近似Q-學(xué)習(xí)算法下數(shù)據(jù)驅(qū)動(dòng)控制研究

        2.1 近似Q-學(xué)習(xí)算法分析

        智能學(xué)習(xí)的過(guò)程中,由于訓(xùn)練數(shù)據(jù)中不包含〈s,a〉訓(xùn)練樣例,直接對(duì)函數(shù)π*:S→A進(jìn)行學(xué)習(xí)較為困難,因此,可將立即回報(bào)序列r〈s,a〉,i=0,1,2…作為替代樣例。給定訓(xùn)練信息以后,整個(gè)學(xué)習(xí)的過(guò)程是以狀態(tài)和動(dòng)作的數(shù)值評(píng)估函數(shù)為基礎(chǔ)的,并且最終通過(guò)該評(píng)估函數(shù)實(shí)現(xiàn)最優(yōu)策略的構(gòu)建。假設(shè)要學(xué)習(xí)的評(píng)估函數(shù)為V*,當(dāng)V*(s1)>V*(s2)時(shí),則認(rèn)為狀態(tài)s1優(yōu)于s2。在狀態(tài)s下的最優(yōu)動(dòng)作為立即回報(bào)r(s,a)加上V*值時(shí)a的最大動(dòng)作,即

        π*(s)=arg max[r(s,a)+γV*(δ(s,a))]

        (1)

        Q-學(xué)習(xí)算法[3]作為智能學(xué)習(xí)中的分支,是一種無(wú)模型學(xué)習(xí),該學(xué)習(xí)過(guò)程采用增量學(xué)習(xí)的馬爾可夫決策的變化形式,其主要依據(jù)是學(xué)習(xí)各個(gè)狀態(tài)-動(dòng)作對(duì)的評(píng)價(jià)值Q(s,a)。Q(s,a)為從狀態(tài)s開(kāi)始到執(zhí)行動(dòng)作a的過(guò)程中累計(jì)獲得的回報(bào)值。將Q(s,a)值定義為最大的折算累積回報(bào)值,也就是說(shuō)Q的值是從狀態(tài)s開(kāi)始執(zhí)行到動(dòng)作a后,立即回報(bào)值遵循最優(yōu)策略值,用γ對(duì)其進(jìn)行折算,則該最優(yōu)值數(shù)學(xué)表達(dá)式可表示為

        Q(s,a)=r(s,a)+γV*(δ(s,a))

        (2)

        若Q(s,a)為狀態(tài)s上最優(yōu)動(dòng)作,則a的值應(yīng)最大化,將式(2)代入式(1)中,則可得出

        π*(s)=arg maxQ(s,a)

        (3)

        從式(3)中可以看出,當(dāng)智能學(xué)習(xí)Q函數(shù)在缺少函數(shù)r和函數(shù)δ的相關(guān)知識(shí)時(shí),仍可以選擇出最優(yōu)動(dòng)作,由此可以證明在學(xué)習(xí)的過(guò)程中,只需關(guān)注狀態(tài)Q的局部值重復(fù),就能夠獲得全局最優(yōu)的動(dòng)作序列,這意味著不需要進(jìn)行前瞻搜索和明確從該動(dòng)作中獲得的狀態(tài)即可選擇出最優(yōu)動(dòng)作。在時(shí)間軸上的立即回報(bào)序列上估計(jì)訓(xùn)練值,可通過(guò)下式完成

        (4)

        用式(4)改寫(xiě)式(2),結(jié)果如下

        Q(s,a)=r(s,a)+γmaxQ(δ(s,a),a′)

        (5)

        本文采用新?tīng)顟B(tài)s′的當(dāng)前值精化前一狀態(tài)s的評(píng)價(jià)值(s,a),在估計(jì)出在極限的條件下收斂到實(shí)際Q函數(shù)時(shí),系統(tǒng)能夠被建模成確定性的馬爾可夫決策[4]過(guò)程,并且學(xué)習(xí)過(guò)程中各個(gè)動(dòng)作的選擇可被每個(gè)狀態(tài)、動(dòng)作對(duì)無(wú)限訪(fǎng)問(wèn)。當(dāng)系統(tǒng)為非確定情況時(shí),回報(bào)函數(shù)r(s,a)與動(dòng)作函數(shù)δ(s,a)會(huì)存在概率輸出,在這種情況下,函數(shù)r(s,a)和δ(s,a)可以被看作為基于狀態(tài)s和動(dòng)作a的輸出概率分布,定義π為所有狀態(tài)中能夠使Vπ(s)最大化的最優(yōu)策略,則Q(s,a)又可以表示為

        (6)

        式(6)中,p(s′|s,a)表示狀態(tài)s運(yùn)行動(dòng)作a時(shí)會(huì)產(chǎn)生下一狀態(tài)s′的概率,將Q重新定義為遞歸形式,其數(shù)學(xué)表達(dá)式可以表示為

        (7)

        確定性的推導(dǎo)訓(xùn)練法則不能在非確定性條件下進(jìn)行收斂,因此對(duì)確定性規(guī)則進(jìn)行修改,使其采用當(dāng)前值和修正后估計(jì)衰減值的加權(quán)平均,修改后的規(guī)則可作如下表示

        Q(s,a)←Q(s,a)+α[r+γmaxQ(s′,a′)-Q(s,a)]

        (8)

        式(8)中,α表示學(xué)習(xí)率。Q值函數(shù)的學(xué)習(xí)是通過(guò)迭代完成的,經(jīng)過(guò)一次迭代后就會(huì)更新一個(gè)Q(s,a),經(jīng)過(guò)一系列迭代后,當(dāng)每一個(gè)數(shù)值不再發(fā)生較為明顯的變化時(shí),即可認(rèn)為Q值函數(shù)收斂,學(xué)習(xí)結(jié)束。學(xué)習(xí)與環(huán)境交互過(guò)程如圖1所示。

        圖1 學(xué)習(xí)與環(huán)境交互過(guò)程模型

        2.2 數(shù)據(jù)驅(qū)動(dòng)控制

        以Q-學(xué)習(xí)算法為基礎(chǔ)算法構(gòu)建數(shù)據(jù)驅(qū)動(dòng)控制[5]模型,其結(jié)構(gòu)如圖2所示。

        圖2 基于Q-學(xué)習(xí)的控制方法

        控制器為函數(shù)逼近器[6],雖然為固定結(jié)構(gòu),但是相關(guān)參數(shù)可調(diào),如果控制器為近似Q-學(xué)習(xí)結(jié)構(gòu),則學(xué)習(xí)層的狀態(tài)s和動(dòng)作a是根據(jù)實(shí)際要求選定好的,而當(dāng)前Q值和修正后估計(jì)衰減值的加權(quán)平均[7]就是控制器的參數(shù)θ。當(dāng)Q-學(xué)習(xí)算法輸入的是當(dāng)前時(shí)刻固定狀態(tài)的控制量和輸出量[8],即下一個(gè)狀態(tài)的期望輸出值,則控制器的輸入量數(shù)學(xué)表達(dá)式如式(9),輸出量可用u(s)來(lái)表示

        a(s),a(s-1),…,a(s-M+1),

        u(s-1),u(s-2),…,u(s-N),ad(s+1)

        (9)

        Js(θk)=E[a(θk,s+1)-ad(s+1)2]

        (10)

        由于被控系統(tǒng)的模型是未知,致使優(yōu)化算法不能繼續(xù)使用,因此本文利用遞推式(11)來(lái)解決此問(wèn)題。

        (11)

        (12)

        (13)

        為使數(shù)據(jù)驅(qū)動(dòng)控制響應(yīng)時(shí)間更快,將受控系統(tǒng)的當(dāng)前工作點(diǎn)處使用等價(jià)線(xiàn)性模型替代非線(xiàn)性離散系統(tǒng)[10],并且通過(guò)被控對(duì)象提供的數(shù)據(jù)對(duì)模型中的偽偏導(dǎo)函數(shù)進(jìn)行評(píng)估。非線(xiàn)性離散系統(tǒng)一般可以表示為

        y(k+1)=f(y(k),…,y(k-ny),u(k),…,u(k-nu))

        (14)

        式(14)中,y(k)表示k時(shí)刻被控系統(tǒng)的輸出數(shù)據(jù),u(k)表示k時(shí)刻被控系統(tǒng)輸入數(shù)據(jù);ny、nu表示系統(tǒng)未知階數(shù);f(·)表示未知線(xiàn)性函數(shù)。假設(shè)系統(tǒng)滿(mǎn)足|Δy(k+1)≤b|Δu(k)||,則式(14)可以等價(jià)表示為線(xiàn)性化模型如式(15),且偽偏導(dǎo)函數(shù)是有解的。

        y(k+1)=y(k)+φT(k)Δu(k)

        (15)

        式(15)中,φ(k)=[φ1(k)…φL(k)]T表示偽梯度向量,Δu(k)=[Δu(k)…Δ(k-G+1)]T,G表示線(xiàn)性水平常數(shù),將傳統(tǒng)的非線(xiàn)性模型改為上述線(xiàn)性化方法后,在控制的過(guò)程中完全不依賴(lài)受控系統(tǒng)的數(shù)學(xué)模型和先驗(yàn)知識(shí)。線(xiàn)性化后模型結(jié)構(gòu)較為簡(jiǎn)單,需要確定參數(shù)變少,從而使響應(yīng)時(shí)間變短。

        最后使用最小化加權(quán)預(yù)測(cè)誤差準(zhǔn)則函數(shù)[11-12],可得如下數(shù)據(jù)控制方案

        (16)

        (17)

        式中,ρk、ηk分別表示步長(zhǎng)序列??刂破鹘Y(jié)構(gòu)如圖3所示。

        圖3 控制器結(jié)構(gòu)圖

        3 仿真研究

        為驗(yàn)證基于近似Q-學(xué)習(xí)算法的數(shù)據(jù)驅(qū)動(dòng)控制方法的有效性,引入典型的線(xiàn)性系統(tǒng),并對(duì)其跟蹤控制問(wèn)題進(jìn)行仿真,并與文獻(xiàn)[1]、文獻(xiàn)[2]方法作仿真對(duì)比。引入的線(xiàn)性系統(tǒng)數(shù)學(xué)表達(dá)式如下

        (18)

        分別使用本文方法和文獻(xiàn)[1]方法對(duì)引入系統(tǒng)進(jìn)行了50次獨(dú)立控制實(shí)驗(yàn),并且對(duì)輸出的誤差Err進(jìn)行了評(píng)估。

        (19)

        式(18)中,b表示運(yùn)行步數(shù)。給定被控系統(tǒng)幅值為1的方波輸入控制信號(hào),在系統(tǒng)單次運(yùn)行后,本文的跟蹤結(jié)果如圖4所示,文獻(xiàn)[1]方法、文獻(xiàn)[2]方法的跟蹤結(jié)果分別如圖5、圖6所示。

        圖4 本文方法對(duì)系統(tǒng)的跟蹤控制結(jié)果

        圖5 文獻(xiàn)[1]方法跟蹤控制結(jié)果

        圖6 文獻(xiàn)[6]方法跟蹤控制結(jié)果

        從圖4、5、6中可以看出,文獻(xiàn)[1]、文獻(xiàn)[2]方法在計(jì)算每步運(yùn)行控制信號(hào)的過(guò)程中,會(huì)存在擾動(dòng)的問(wèn)題,并且由于該方法控制器選取不當(dāng)對(duì)系統(tǒng)的穩(wěn)定性產(chǎn)生了影響,從而導(dǎo)致在控制跟蹤的過(guò)程中出現(xiàn)異常尖峰的問(wèn)題,而本文方法由于不依賴(lài)被控系統(tǒng)的數(shù)學(xué)模型,且用線(xiàn)性動(dòng)態(tài)模型替代非線(xiàn)性模型,減少了參數(shù)的計(jì)算量,從而得到準(zhǔn)確度更高的控制結(jié)果。

        同時(shí)統(tǒng)計(jì)三種控制算法50次試驗(yàn)的平均輸出誤差和響應(yīng)時(shí)間,其結(jié)果如表1所示。

        表1 實(shí)驗(yàn)結(jié)果誤差對(duì)比

        從表1的誤差結(jié)果可以看出,與文獻(xiàn)[1]、文獻(xiàn)[2]方法相比,本文的跟蹤誤差更小,響應(yīng)時(shí)間更短。

        通過(guò)以上仿真比較證明本文方法的結(jié)果準(zhǔn)確度要優(yōu)于傳統(tǒng)方法,進(jìn)一步證明了本文基于近似Q-學(xué)習(xí)算法的數(shù)據(jù)驅(qū)動(dòng)控制的有效性,具有一定的實(shí)際應(yīng)用價(jià)值。

        4 結(jié)論

        本文方法的控制律不依賴(lài)受控系統(tǒng)的數(shù)學(xué)模型結(jié)構(gòu),僅利用Q-學(xué)習(xí)算法的迭代學(xué)習(xí),在實(shí)際操作過(guò)程中,又僅有一個(gè)偽偏導(dǎo)數(shù)作為在線(xiàn)調(diào)整參數(shù),使系統(tǒng)的計(jì)算量較小,響應(yīng)時(shí)間較短,在一定程度上解決了未建模動(dòng)態(tài)的問(wèn)題。仿真條件下證明了本文方法獲得的控制結(jié)果誤差較小,具有一定的可行性。

        本文提出數(shù)據(jù)驅(qū)動(dòng)控制方法采用以近似Q-學(xué)習(xí)算法為結(jié)構(gòu)的控制器,Q-學(xué)習(xí)算法最終獲得的值可能不是最優(yōu),如何根據(jù)受控系統(tǒng)特性精準(zhǔn)的在從學(xué)習(xí)狀態(tài)開(kāi)始到執(zhí)行動(dòng)作的過(guò)程中獲得最優(yōu)回報(bào)值,是下一步需要改善的問(wèn)題。

        猜你喜歡
        驅(qū)動(dòng)控制器狀態(tài)
        基于模糊PI控制的驅(qū)動(dòng)防滑仿真系統(tǒng)分析
        屈宏斌:未來(lái)五年,雙輪驅(qū)動(dòng),砥礪前行
        軌旁ATC系統(tǒng)門(mén)控柜接收/驅(qū)動(dòng)板改造
        狀態(tài)聯(lián)想
        生命的另一種狀態(tài)
        基于S3C6410的Wi-Fi驅(qū)動(dòng)移植實(shí)現(xiàn)
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅(jiān)持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        模糊PID控制器設(shè)計(jì)及MATLAB仿真
        MOXA RTU控制器ioPAC 5542系列
        国产av人人夜夜澡人人爽麻豆| 色婷婷一区二区三区久久亚洲| 国产激情一区二区三区在线| 亚洲第一大av在线综合| 91九色国产老熟女视频| 国产无套内射又大又猛又粗又爽 | 精品熟女av中文字幕| 97一期涩涩97片久久久久久久 | 国产亚洲欧美日韩国产片| 亚洲一区二区国产精品视频| 国产不卡在线观看视频| 人妻夜夜爽天天爽三区麻豆av网站| 少妇人妻偷人精品无码视频| 成在线人免费无码高潮喷水| 久久精品国产亚洲av试看| 开心久久婷婷综合中文字幕| 99久久精品免费观看国产| 中文字幕日韩一区二区三区不卡| 二区三区视频| 精品国产一区二区三区久久狼| 亚洲中文字幕剧情类别| 色爱无码av综合区| 黄色网址国产| 久久国产精品免费久久久| 日韩av无码一区二区三区| 亚洲国产天堂一区二区三区| 97视频在线播放| 国产一级r片内射免费视频| 在线视频自拍视频激情| 亚洲国产精品成人精品无码区在线| 玩弄放荡人妻少妇系列视频| 亚洲精品美女久久久久久久| 亚洲中文字幕国产剧情| 中文字幕无线码一区二区| 国产又黄又猛又粗又爽的a片动漫| 精品无码国产一二三区麻豆| 久久本道久久综合伊人| 最新国产毛2卡3卡4卡| 品色永久免费| 亚洲欧洲日产国码无码| av男人的天堂第三区|