亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于迭代神經(jīng)動態(tài)規(guī)劃的數(shù)據(jù)驅(qū)動非線性近似最優(yōu)調(diào)節(jié)

        2017-04-01 05:17:03王鼎穆朝絮劉德榮
        自動化學(xué)報 2017年3期
        關(guān)鍵詞:規(guī)劃系統(tǒng)

        王鼎 穆朝絮 劉德榮

        基于迭代神經(jīng)動態(tài)規(guī)劃的數(shù)據(jù)驅(qū)動非線性近似最優(yōu)調(diào)節(jié)

        王鼎1,2穆朝絮2劉德榮3

        利用數(shù)據(jù)驅(qū)動控制思想,建立一種設(shè)計離散時間非線性系統(tǒng)近似最優(yōu)調(diào)節(jié)器的迭代神經(jīng)動態(tài)規(guī)劃方法.提出針對離散時間一般非線性系統(tǒng)的迭代自適應(yīng)動態(tài)規(guī)劃算法并且證明其收斂性與最優(yōu)性.通過構(gòu)建三種神經(jīng)網(wǎng)絡(luò),給出全局二次啟發(fā)式動態(tài)規(guī)劃技術(shù)及其詳細的實現(xiàn)過程,其中執(zhí)行網(wǎng)絡(luò)是在神經(jīng)動態(tài)規(guī)劃的框架下進行訓(xùn)練.這種新穎的結(jié)構(gòu)可以近似代價函數(shù)及其導(dǎo)函數(shù),同時在不依賴系統(tǒng)動態(tài)的情況下自適應(yīng)地學(xué)習(xí)近似最優(yōu)控制律.值得注意的是,這在降低對于控制矩陣或者其神經(jīng)網(wǎng)絡(luò)表示的要求方面,明顯地改進了迭代自適應(yīng)動態(tài)規(guī)劃算法的現(xiàn)有結(jié)果,能夠促進復(fù)雜非線性系統(tǒng)基于數(shù)據(jù)的優(yōu)化與控制設(shè)計的發(fā)展.通過兩個仿真實驗,驗證本文提出的數(shù)據(jù)驅(qū)動最優(yōu)調(diào)節(jié)方法的有效性.

        自適應(yīng)動態(tài)規(guī)劃,數(shù)據(jù)驅(qū)動控制,迭代神經(jīng)動態(tài)規(guī)劃,神經(jīng)網(wǎng)絡(luò),非線性近似最優(yōu)調(diào)節(jié)

        最優(yōu)控制研究如何設(shè)計控制器使得系統(tǒng)的性能指標(biāo)達到最優(yōu).它廣泛存在于工程技術(shù)和社會生活中,是現(xiàn)代控制理論的重要內(nèi)容之一.與線性系統(tǒng)的最優(yōu)控制問題需要求解Riccati方程不同,研究非線性系統(tǒng)的最優(yōu)控制通常需要求解非線性Hamilton-Jacobi-Bellman(HJB)方程.例如,對于離散時間非線性系統(tǒng)而言,這一過程就包含求解非線性偏微分方程,這在很多情況下是難以實現(xiàn)的.雖然動態(tài)規(guī)劃是求解最優(yōu)控制問題的經(jīng)典方法,但是其后向求解的特點往往導(dǎo)致“維數(shù)災(zāi)”現(xiàn)象的發(fā)生[1],同時這種后向求解模式也不利于該方法的實際應(yīng)用.于是,基于人工神經(jīng)網(wǎng)絡(luò)良好的自適應(yīng)、自學(xué)習(xí)等特性,自適應(yīng)(或者近似)動態(tài)規(guī)劃(Adaptive/approximate dynamic programming,ADP)方法應(yīng)運而生[2].文獻[3?5]針對ADP方法的基本原理、實現(xiàn)結(jié)構(gòu)和目前的發(fā)展?fàn)顩r,給出了階段性總結(jié)與研究展望,并且指出ADP實際上是一種有效的數(shù)據(jù)驅(qū)動方法[5?6].根據(jù)文獻[2]和文獻[7],可以將ADP方法劃分為三種主要結(jié)構(gòu):1)啟發(fā)式動態(tài)規(guī)劃(Heuristic dynamic programming,HDP);2)二次啟發(fā)式動態(tài)規(guī)劃(Dual heuristic dynamic programming, DHP);3)全局二次啟發(fā)式動態(tài)規(guī)劃(Globalized DHP,GDHP).在與上述內(nèi)容相關(guān)的三種執(zhí)行依賴結(jié)構(gòu)(Action-dependent)中,執(zhí)行依賴HDP類似于機器學(xué)習(xí)領(lǐng)域的Q-學(xué)習(xí)(Q-learning)[8].另外,Si和Wang[9]提出的神經(jīng)動態(tài)規(guī)劃也是一種類似于執(zhí)行依賴HDP的在線學(xué)習(xí)控制方法,具有容易實現(xiàn)、在線優(yōu)化、不依賴被控對象模型等特點,對于ADP結(jié)構(gòu)的發(fā)展產(chǎn)生了很大的影響.但是,值得注意的是,上述神經(jīng)動態(tài)規(guī)劃方法的重點在于強調(diào)控制系統(tǒng)的在線學(xué)習(xí)與優(yōu)化設(shè)計,沒有從理論上證明控制算法的收斂性,因此可以看到,實驗結(jié)果的成功具有一定的概率.

        近年來,正在興起的許多社會和工程新技術(shù)的重要特點是擁有實時海量的大數(shù)據(jù)信息[10].在大數(shù)據(jù)技術(shù)快速發(fā)展的背景下,隨著對數(shù)據(jù)驅(qū)動思想和類腦學(xué)習(xí)理念的深入研究,ADP已經(jīng)發(fā)展成為進行智能控制與優(yōu)化設(shè)計的有效途徑,因此受到了許多學(xué)者的重視.針對離散時間系統(tǒng)[11?20]和連續(xù)時間系統(tǒng)[21?26],這種基于數(shù)據(jù)的自學(xué)習(xí)控制都取得了豐碩的研究成果.Al-Tamimi等[11]針對離散時間仿射非線性系統(tǒng)xk+1=f(xk)+g(xk)uk,首次提出基于貪婪迭代的HDP算法研究無限時間最優(yōu)控制設(shè)計,創(chuàng)造性地將求解代數(shù)方程的迭代思想引入ADP方法的框架之中.這促進了迭代ADP算法的快速發(fā)展,由此涌現(xiàn)出大量的研究成果[12?19].在基本的迭代ADP算法中,一般需要構(gòu)建兩個神經(jīng)網(wǎng)絡(luò),即評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò),分別用以近似代價函數(shù)和控制函數(shù).然后利用特定的最優(yōu)化算法,通過在迭代過程中不斷更新神經(jīng)網(wǎng)絡(luò)的權(quán)值矩陣,從而自適應(yīng)地學(xué)習(xí)最優(yōu)權(quán)值.值得一提的是,Wang等[14]針對有限時間域上的非線性最優(yōu)控制問題,提出迭代ε-ADP算法,得到和文獻[11]不同的收斂性結(jié)論,從全新的角度詮釋迭代ADP算法的精髓.但是,也應(yīng)該注意到,在現(xiàn)有的迭代ADP算法中,針對執(zhí)行網(wǎng)絡(luò)的訓(xùn)練大多數(shù)依賴于控制矩陣g(xk)的直接信息或者其神經(jīng)網(wǎng)絡(luò)表示,也就是在一定程度上依賴于系統(tǒng)動態(tài).于是,Zhong等[19]提出一種新的目標(biāo)導(dǎo)向型(Goal representation)ADP結(jié)構(gòu)求解非線性系統(tǒng)的在線優(yōu)化控制,以發(fā)展神經(jīng)動態(tài)規(guī)劃的結(jié)論,放松對系統(tǒng)動態(tài)的要求,但是基于HDP的實現(xiàn)結(jié)構(gòu)導(dǎo)致評判網(wǎng)絡(luò)不能直接輸出代價函數(shù)的導(dǎo)函數(shù)信息,而且HDP結(jié)構(gòu)的控制效果也有待改進.實際上,已有的研究表明,在ADP方法的實現(xiàn)結(jié)構(gòu)中,DHP和GDHP會在一定程度上得到比HDP更好的控制效果[12,16].總的來說,雖然基于ADP的非線性系統(tǒng)最優(yōu)控制研究已經(jīng)取得了很大的進展,但是仍然缺少基于GDHP實現(xiàn)結(jié)構(gòu)的迭代意義下神經(jīng)動態(tài)規(guī)劃的報道,因此對于現(xiàn)有執(zhí)行網(wǎng)絡(luò)的更新方法也鮮有改進.基于此,本文提出一種基于迭代神經(jīng)動態(tài)規(guī)劃的離散時間非線性系統(tǒng)數(shù)據(jù)驅(qū)動近似最優(yōu)控制方法,旨在改進執(zhí)行網(wǎng)絡(luò)的訓(xùn)練方法,進一步降低迭代ADP算法對于控制系統(tǒng)動態(tài)模型的依賴,促進基于數(shù)據(jù)的復(fù)雜非線性系統(tǒng)優(yōu)化控制的發(fā)展.

        1 問題描述

        考慮離散時間非線性系統(tǒng)

        其中,k是描述系統(tǒng)運行軌跡的時間步驟,xk=[x1k, x2k,···,xnk]T∈?x?Rn為系統(tǒng)的狀態(tài)向量,uk=[u1k,u2k,···,umk]T∈?u?Rm為系統(tǒng)的控制向量.我們設(shè)定時間步驟k=0時的狀態(tài)x0=[x10, x20,···,xn0]T為被控系統(tǒng)的初始狀態(tài)向量.這里,式(1)描述的是一般意義下的離散時間非線性系統(tǒng).容易知道,具有仿射形式的非線性系統(tǒng),即xk+1=f(xk)+g(xk)uk,其中,g(xk)為控制矩陣,是系統(tǒng)(1)的一種特殊情況.這里給出下面兩個基本假設(shè)[11?12,16].

        假設(shè)1.動態(tài)函數(shù)F(·,·)在屬于Rn并且包含原點的集合?x上Lipschitz連續(xù)且有F(0,0)=0,因此,x=0是系統(tǒng)(1)在控制u=0時的一個平衡狀態(tài).

        假設(shè)2.動態(tài)系統(tǒng)(1)可控,即在集合?u中存在一個能夠漸近鎮(zhèn)定被控系統(tǒng)的連續(xù)控制律,使得在其作用下產(chǎn)生的控制輸入序列能夠?qū)⑾到y(tǒng)從初始狀態(tài)轉(zhuǎn)移到平衡狀態(tài).

        本文研究無限時間域上的最優(yōu)調(diào)節(jié)器設(shè)計問題.這里,最優(yōu)調(diào)節(jié)的目標(biāo)是設(shè)計一個狀態(tài)反饋控制律u(x),將系統(tǒng)從初始狀態(tài)x0鎮(zhèn)定到平衡狀態(tài),同時使得在其作用下的(無限時間)代價函數(shù)

        達到最小,其中,U是效用函數(shù),U(0,0)=0,且對于任意的xp,up,有U(xp,up)≥0,折扣因子γ滿足0<γ≤1.方便討論起見,選取二次型形式的效用函數(shù)U(xp,up)=xTpQxp+uTpRup,其中,Q和R為正定矩陣.事實上,對于最優(yōu)控制問題,待設(shè)計的反饋控制律不僅能夠在?x上鎮(zhèn)定被控系統(tǒng),而且使得相應(yīng)的代價函數(shù)有限,這就是容許控制的概念[11?12,16].

        根據(jù)經(jīng)典的最優(yōu)控制理論,最優(yōu)代價函數(shù)

        可以寫為

        于是,J?(xk)滿足離散時間HJB方程

        相應(yīng)的最優(yōu)控制為

        注1.通過式(4)發(fā)現(xiàn),求解當(dāng)前時刻k的最優(yōu)控制u?,需要得到最優(yōu)代價J?,但是卻與系統(tǒng)下一時刻的狀態(tài)向量xk+1有關(guān),這在當(dāng)前時刻是不能做到的.因此,在難以得到HJB方程解析解的情況下,有必要研究如何獲得其近似解.ADP以及隨后出現(xiàn)的迭代ADP算法,就是為了克服這些難題而提出的近似求解方法.

        2 迭代ADP算法及其收斂性

        根據(jù)迭代ADP算法的基本思想[11?13,16],需要構(gòu)建兩個序列,即代價函數(shù)序列{Vi(xk)}和控制律序列{vi(xk)},通過迭代運算得到收斂性結(jié)論.這里,記i為迭代指標(biāo),并初始化代價函數(shù)V0(·)=0.對于i=0,1,···,迭代過程包括不斷計算控制律和更新代價函數(shù)

        直到算法收斂(當(dāng)i→∞ 時,有Vi→J?和vi→ u?).

        在證明上述迭代算法的收斂性與最優(yōu)性之前,首先給出下面兩個引理[11?12,16].

        引理1.(有界性)定義代價函數(shù)序列{Vi(xk)}如式(6)所示.如果系統(tǒng)可控,則存在一個上界Y使得對于任意的i,都有0≤Vi(xk)≤Y成立.

        引理2.(單調(diào)性)定義代價函數(shù)序列{Vi(xk)}如式(6)所示且有V0(·)=0,同時定義控制律序列{vi(xk)}如式(5)所示.那么,{Vi(xk)}是一個單調(diào)非減序列,即0≤Vi(xk)≤Vi+1(xk),?i.

        定理 1.定義代價函數(shù)序列{Vi(xk)}如式(6)所示,且V0(·)=0,控制律序列{vi(xk)}如式(5)所示.執(zhí)行迭代ADP算法,代價函數(shù)序列{Vi(xk)}收斂于離散時間HJB方程中的最優(yōu)代價函數(shù)J?(xk),即當(dāng)i→ ∞ 時,有Vi(xk)→ J?(xk).相應(yīng)地,當(dāng)i→∞ 時,{vi(xk)}收斂于最優(yōu)控制律u?(xk),即limi→∞vi(xk)=u?(xk).

        證明.根據(jù)引理1和引理2,代價函數(shù)序列{Vi(xk)}單調(diào)非減且有上界,所以,它的極限存在.定義limi→∞Vi(xk)=V∞(xk)為其極限.

        一方面,對于任意的uk和i,根據(jù)式(6),可得

        由引理2,對于任意的i,都有Vi(xk)≤V∞(xk)成立.因此,式(7)變?yōu)?/p>

        令i→∞,則

        考慮到式(8)中的控制向量uk是任意的,可以得到

        另一方面,由于對任意的i,迭代過程中的代價函數(shù)滿足

        再次考慮Vi(xk)≤V∞(xk),我們有

        令i→∞,則

        結(jié)合式(9)和式(10),可以得到

        同樣地,記limi→∞vi(xk)=v∞(xk)為控制律序列{vi(xk)}的極限.根據(jù)式(5)和式(6),有

        其中,

        注意式(11)和式(3),同時注意式(12)和式(4),可以得到,V∞(xk)=J?(xk)和v∞(xk)=u?(xk),即,limi→∞Vi(xk)=J?(xk)且limi→∞vi(xk)= u?(xk).由此驗證了迭代算法的收斂性和最終得到的控制律的最優(yōu)性. □

        注2.利用迭代代價函數(shù)的表達式(6),依據(jù)迭代指標(biāo)i逐次進行遞推,我們有

        進而,考慮到V0(xk+i+1)=0這一事實,可以將迭代代價函數(shù)Vi+1(xk)寫成關(guān)于效用函數(shù)加和的形式

        觀察式 (13)可以發(fā)現(xiàn),在迭代代價函數(shù)Vi+1(xk)中,構(gòu)成效用函數(shù)的控制輸入序列是由一個控制律組(vi,vi?1,···,v0)產(chǎn)生的,即其中的每一個控制輸入都依賴于不同的控制律,因此控制輸入是vi?l(xk+l)的形式,其中,l=0,1,···,i.盡管如此,最終作用到被控對象的控制律,是經(jīng)過上述迭代算法之后得到的收斂的(狀態(tài)反饋)控制律.事實上,根據(jù)定理1和容許控制的概念,最終得到的v∞=u?是一個可以鎮(zhèn)定系統(tǒng)的穩(wěn)定控制.在其作用下,將會產(chǎn)生一個控制輸入序列,實現(xiàn)被控非線性系統(tǒng)的最優(yōu)調(diào)節(jié).

        3 迭代神經(jīng)動態(tài)規(guī)劃及其實現(xiàn)

        由于這里研究的被控對象是一般的非線性系統(tǒng),難以直接求解HJB方程.雖然通過執(zhí)行迭代ADP算法(5)和(6),可以從理論上得到最優(yōu)控制律和最優(yōu)代價函數(shù),但是迭代控制律和代價函數(shù)的信息是不能精確獲得的,而且進行迭代運算需要被控系統(tǒng)的近似動態(tài)信息.所以,利用函數(shù)近似結(jié)構(gòu)(例如神經(jīng)網(wǎng)絡(luò))來重構(gòu)系統(tǒng)動態(tài)以及vi(xk)和Vi(xk).這里,將基于神經(jīng)動態(tài)規(guī)劃思想的迭代ADP算法稱為迭代神經(jīng)動態(tài)規(guī)劃方法.本節(jié)給出基于GDHP技術(shù)的迭代神經(jīng)動態(tài)規(guī)劃實現(xiàn)方案,包含構(gòu)建三種神經(jīng)網(wǎng)絡(luò),即模型網(wǎng)絡(luò)、評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò).

        3.1 模型網(wǎng)絡(luò)

        為了不依賴被控系統(tǒng)的動態(tài)信息F(xk,uk),在執(zhí)行主要的迭代過程之前,首先構(gòu)建一個模型網(wǎng)絡(luò)并記隱藏層神經(jīng)元個數(shù)為Nm,輸入層到隱藏層的權(quán)值矩陣為νm∈R(n+m)×Nm,隱藏層到輸出層的權(quán)值矩陣為ωm∈RNm×n.輸入狀態(tài)向量xk和近似的控制向量?vi(xk)如下文所示,模型網(wǎng)絡(luò)的輸出為

        其中,σ(·)∈RNm為激活函數(shù)(下同).模型網(wǎng)絡(luò)的誤差函數(shù)為emk= ?xk+1?xk+1,訓(xùn)練目標(biāo)函數(shù)為Emk=(1/2)eTmkemk.利用梯度下降法更新模型網(wǎng)絡(luò)的權(quán)值矩陣

        其中,αm>0是模型網(wǎng)絡(luò)的學(xué)習(xí)率且j是訓(xùn)練權(quán)值參數(shù)的迭代指標(biāo).當(dāng)模型網(wǎng)絡(luò)經(jīng)過充分學(xué)習(xí)之后,保持其權(quán)值不再改變,并開始執(zhí)行迭代神經(jīng)動態(tài)規(guī)劃的主要步驟,即訓(xùn)練評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò).

        3.2 評判網(wǎng)絡(luò)

        評判網(wǎng)絡(luò)的作用是近似代價函數(shù)Vi(xk)及其偏導(dǎo)數(shù)(稱為協(xié)函數(shù),記為λi(xk),即λi(xk)根據(jù)定理1,當(dāng)i→ ∞ 時,Vi(xk)→ J?(xk).由于則相應(yīng)的協(xié)函數(shù)序列{λi(xk)}在i→∞時也是收斂的,即λi(xk)→λ?(xk).這在仿真研究中也會得到驗證.

        設(shè)評判網(wǎng)絡(luò)的隱藏層神經(jīng)元個數(shù)為Nc,輸入層到隱藏層的權(quán)值矩陣為νc∈Rn×Nc,隱藏層到輸出層的權(quán)值矩陣為ωc∈RNc×(n+m).在進行第i次迭代時,可以將權(quán)值矩陣寫為νci和ωci,于是,評判網(wǎng)絡(luò)的輸出為

        這里,GDHP技術(shù)中評判網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示.可以看出,它將HDP和DHP技術(shù)中的評判網(wǎng)絡(luò)進行了融合.

        圖1 評判網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The architecture of critic network

        在GDHP實現(xiàn)結(jié)構(gòu)中,評判網(wǎng)絡(luò)的訓(xùn)練目標(biāo)由代價函數(shù)和協(xié)函數(shù)兩部分組成,即

        其中,αc>0為評判網(wǎng)絡(luò)的學(xué)習(xí)率,j為更新權(quán)值參數(shù)的迭代指標(biāo),0≤β≤1是一個常數(shù),反映HDP和 DHP在GDHP技術(shù)中相結(jié)合的權(quán)重大小.

        注3.這里采用的GDHP技術(shù)綜合了HDP能夠直接輸出代價函數(shù)和DHP控制效果好的優(yōu)點.雖然引入?yún)f(xié)函數(shù)會在一定程度上增加計算復(fù)雜度,但是可以獲得比初等的ADP方法(例如HDP)更好的運行效果.

        3.3 執(zhí)行網(wǎng)絡(luò)

        構(gòu)建執(zhí)行網(wǎng)絡(luò)的作用是近似控制律,設(shè)其隱藏層神經(jīng)元個數(shù)為Na,輸入層到隱藏層的權(quán)值矩陣為νa∈Rn×Na,隱藏層到輸出層的權(quán)值矩陣為ωa∈RNa×m.在上述的迭代環(huán)境下,我們將權(quán)值矩陣寫成νa(i?1)和ωa(i?1)的形式,則執(zhí)行網(wǎng)絡(luò)的輸出為

        其中,αa>0是執(zhí)行網(wǎng)絡(luò)的學(xué)習(xí)率,j是更新權(quán)值參數(shù)的迭代指標(biāo).

        總的來說,本文提出的迭代神經(jīng)動態(tài)規(guī)劃的結(jié)構(gòu)如圖2所示,其中,模塊γDX表示?xk+1關(guān)于xk的偏導(dǎo)數(shù)計算結(jié)果n×n方陣的γ倍.

        注4.傳統(tǒng)的迭代ADP算法,例如文獻[11?18],在訓(xùn)練執(zhí)行網(wǎng)絡(luò)時需要利用控制矩陣的直接信息或者其神經(jīng)網(wǎng)絡(luò)表示. 其中,針對仿射系統(tǒng)[11?13,15,17],需要系統(tǒng)控制矩陣的直接信息g(xk)[11,12,17],或者辨識控制矩陣得到其近似表示?g(xk)[13,15];針對非仿射系統(tǒng)[14,16,18],也需要神經(jīng)網(wǎng)絡(luò)表示.那樣,執(zhí)行網(wǎng)絡(luò)的訓(xùn)練目標(biāo)為

        誤差函數(shù)定義為ˉea(i?1)k=?vi?1(xk)?vi?1(xk),在此基礎(chǔ)上訓(xùn)練執(zhí)行網(wǎng)絡(luò).這樣的實現(xiàn)方法,很大程度上依賴于控制系統(tǒng)的動態(tài)信息,尤其是控制矩陣的信息.這里提出的迭代神經(jīng)動態(tài)規(guī)劃方法,不僅沿用迭代ADP算法的基本框架,能夠保證迭代算法的收斂性;而且引入神經(jīng)動態(tài)規(guī)劃的思想,放松對系統(tǒng)動態(tài)的要求,所以更利于達到數(shù)據(jù)驅(qū)動控制的目的.

        圖2 迭代神經(jīng)動態(tài)規(guī)劃結(jié)構(gòu)Fig.2 The architecture of iterative neural dynamic programming

        3.4 設(shè)計步驟

        設(shè)xk為任意可控狀態(tài),J?(xk)為最優(yōu)代價函數(shù).根據(jù)定理1中的收斂性結(jié)論,當(dāng)?shù)笜?biāo)i→∞時,Vi(xk)→J?(xk).但是,在計算機實現(xiàn)中,不可能無限地執(zhí)行迭代算法.從工程應(yīng)用角度來看,我們更關(guān)心是否存在一個有限的i,使得

        成立.因此,將J?(xk)和Vi(xk)之間的誤差ε引入迭代ADP算法,使得代價函數(shù)序列{Vi(xk)}能夠在經(jīng)過有限次迭代之后收斂.從這個角度來看,這里設(shè)計的控制器實現(xiàn)了對被控系統(tǒng)近似最優(yōu)調(diào)節(jié)的目的.實際上,這種近似意義上的收斂,能夠滿足一般的設(shè)計需求;也是ADP方法在無法精確求解HJB方程的背景下,進行近似最優(yōu)控制設(shè)計的體現(xiàn).

        但是,也應(yīng)該看到,在一般情況下,最優(yōu)代價函數(shù)J?(xk)事先未知,難以利用停止準(zhǔn)則(14)來驗證迭代算法是否達到要求.因此,這里提出一種相對容易判定的算法停止準(zhǔn)則,即

        定理 2.對于非線性系統(tǒng)(1)和代價函數(shù)(2),在使用迭代神經(jīng)動態(tài)規(guī)劃方法時,由式(14)和式(15)描述的兩種收斂性準(zhǔn)則是等價的.

        證明.一方面,若|J?(xk)?Vi(xk)|≤ε成立,則有J?(xk)≤Vi(xk)+ε.根據(jù)引理2和定理1可知Vi(xk)≤Vi+1(xk)≤J?(xk)成立.于是,有Vi(xk)≤Vi+1(xk)≤Vi(xk)+ε.即,0≤Vi+1(xk)?Vi(xk)≤ε,也即式(15)成立.

        另一方面,根據(jù)定理1,|Vi+1(xk)?Vi(xk)|→0意味著Vi(xk)→J?(xk).這樣,如果對于任意小的ε都有|Vi+1(xk)?Vi(xk)|≤ε成立,則當(dāng)i相當(dāng)大時,|J?(xk)?Vi(xk)|≤ε成立.由此證明了兩種準(zhǔn)則的等價性. □

        考慮到神經(jīng)網(wǎng)絡(luò)的近似作用,在具體的實現(xiàn)過程中,采用近似的代價函數(shù)構(gòu)建停止準(zhǔn)則,即這里給出利用迭代神經(jīng)動態(tài)規(guī)劃方法設(shè)計非線性系統(tǒng)近似最優(yōu)調(diào)節(jié)器的具體步驟,如算法1所示.

        算法1.迭代神經(jīng)動態(tài)規(guī)劃方法

        注5.定理2的重要作用在于,它提供了利用迭代神經(jīng)動態(tài)規(guī)劃方法實現(xiàn)離散時間非線性系統(tǒng)近似最優(yōu)調(diào)節(jié)的具有實用意義的設(shè)計準(zhǔn)則.因此,在實際應(yīng)用中,我們可以運行算法1得到合理可行的結(jié)果.

        4 仿真實驗

        本節(jié)開展兩個仿真實驗:1)針對仿射非線性系統(tǒng);2)針對非仿射形式的一般非線性系統(tǒng).

        例1.考慮離散時間(仿射)非線性系統(tǒng)

        這是對文獻[14]和文獻[20]中仿真例子的修改,其中,xk=[x1k,x2k]T∈R2和uk∈R分別是被控系統(tǒng)的狀態(tài)向量和控制向量.選取二次型形式的效用函數(shù)U(xk,uk)=xTkxk+uTkuk.

        利用三層反向傳播(Back propagation)神經(jīng)網(wǎng)絡(luò)來構(gòu)建模型網(wǎng)絡(luò)、評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò),且三者的結(jié)構(gòu)分別為3-8-2、2-8-3和2-8-1.激活函數(shù)通常選取為

        其中,ξ是一個列向量且維數(shù)與隱藏層神經(jīng)元個數(shù)相同,ξj代表該向量的第j個分量.

        注6.這里對隱藏層神經(jīng)元個數(shù)的設(shè)定主要是憑借工程經(jīng)驗,同時在計算精度要求和計算復(fù)雜度之間取得一個折衷方案.

        利用迭代神經(jīng)動態(tài)規(guī)劃方法,運行算法1,首先需要訓(xùn)練模型網(wǎng)絡(luò):輸入層和隱藏層、隱藏層和輸出層之間的權(quán)值分別在區(qū)間[?0.5,0.5]和[?0.1,0.1]中隨機初始化.參數(shù)設(shè)置(如學(xué)習(xí)率)會在一定程度上影響算法的收斂速度.我們通過實驗選取合適的學(xué)習(xí)率αm=0.1,采集500組數(shù)據(jù)進行學(xué)習(xí),并在訓(xùn)練結(jié)束之后保持其權(quán)值不再變化.其次,評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的初始權(quán)值都在區(qū)間[?0.1,0.1]中隨機選取.然后,選取折扣因子γ=1,GDHP技術(shù)的調(diào)節(jié)參數(shù)β=0.5,在k=0時刻執(zhí)行神經(jīng)動態(tài)規(guī)劃方法完成59次迭代(即i=1,2,···,59),使得計算誤差達到預(yù)先定義的精度10?6.在每次迭代中,都對評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)分別進行2000次訓(xùn)練,并且學(xué)習(xí)率參數(shù)取為αc=αa=0.05.評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的權(quán)值矩陣范數(shù)的收斂結(jié)果如圖3所示.這里,我們對比兩種不同的實現(xiàn)方法的收斂效果.這種不同主要體現(xiàn)在對執(zhí)行網(wǎng)絡(luò)的訓(xùn)練方法上(如第3.3節(jié)和注4所述).對于k=0和x0=[0.5,?1]T,代價函數(shù)及其偏導(dǎo)數(shù)序列的收斂過程如圖4所示(清楚起見,只刻畫前15次迭代的結(jié)果),其中,星線代表本文提出的迭代神經(jīng)動態(tài)規(guī)劃方法,點線代表傳統(tǒng)的迭代ADP算法[12?18](下同).可以發(fā)現(xiàn),迭代神經(jīng)動態(tài)規(guī)劃方法在不利用系統(tǒng)動態(tài)信息的情況下,也基本達到了和傳統(tǒng)迭代ADP算法一樣的收斂效果,這驗證了迭代神經(jīng)動態(tài)規(guī)劃方法的有效性.

        最后,對于給定的初始狀態(tài)x0=[0.5,?1]T,我們將基于兩種不同實現(xiàn)方法的GDHP近似最優(yōu)控制律運用于被控對象(16).在運行15個時間步后得到的系統(tǒng)狀態(tài)響應(yīng)曲線及相應(yīng)的控制曲線分別如圖5和圖6所示.由此可以清楚地看到,采用兩種不同的實現(xiàn)方法得到的控制效果是很相近的.這再次驗證了融合迭代ADP算法,神經(jīng)動態(tài)規(guī)劃思想,和GDHP技術(shù)的優(yōu)點.

        圖3 權(quán)值矩陣范數(shù)的收斂過程Fig.3 The convergence process of the norm of weight matrices

        圖4 代價函數(shù)及其偏導(dǎo)數(shù)的收斂過程Fig.4 The convergence process of the cost function and its derivative

        例2.考慮離散時間(非仿射)非線性系統(tǒng)

        其中,xk∈R和uk∈R分別是被控系統(tǒng)的狀態(tài)向量和控制向量.構(gòu)建模型網(wǎng)絡(luò)、評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò),且三者的結(jié)構(gòu)分別為2-6-1、1-6-2和1-6-1.首先訓(xùn)練模型網(wǎng)絡(luò),得到的最終權(quán)值為

        圖5 系統(tǒng)狀態(tài)軌跡xFig.5 The system state trajectory x

        圖6 控制輸入軌跡uFig.6 The control input trajectory u

        對于評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò),選取初始的權(quán)值矩陣分別為

        其他參數(shù)設(shè)置同例1.在k=0時刻執(zhí)行算法1并完成19次迭代,使得計算誤差達到預(yù)先定義的精度10?5.評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的權(quán)值矩陣范數(shù)的收斂結(jié)果如圖7所示.對于k=0和x0=0.8,代價函數(shù)及其偏導(dǎo)數(shù)序列的收斂過程如圖8所示.最后,對于給定的初始狀態(tài)x0=0.8,利用GDHP技術(shù)和迭代神經(jīng)動態(tài)規(guī)劃方法得到的最優(yōu)控制律運用于被控對象(17),在運行60個時間步后得到的系統(tǒng)狀態(tài)響應(yīng)曲線及相應(yīng)的控制曲線如圖9所示.這些仿真結(jié)果驗證了迭代神經(jīng)動態(tài)規(guī)劃設(shè)計方法的有效性.

        圖8 代價函數(shù)及其偏導(dǎo)數(shù)的收斂過程Fig.8 The convergence process of the cost function and its derivative

        圖9 系統(tǒng)狀態(tài)軌跡x和控制輸入軌跡uFig.9 The system state trajectory x and control input trajectory u

        5 結(jié)論

        本文利用基于數(shù)據(jù)的思想,建立針對離散時間非線性系統(tǒng)近似最優(yōu)調(diào)節(jié)的迭代神經(jīng)動態(tài)規(guī)劃方法.提出離散時間非仿射非線性系統(tǒng)的迭代ADP算法并且證明其滿足收斂性與最優(yōu)性.通過構(gòu)建三種神經(jīng)網(wǎng)絡(luò)(模型網(wǎng)絡(luò)、評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)),結(jié)合GDHP技術(shù),給出迭代算法的具體實現(xiàn)步驟.在這種新穎的迭代神經(jīng)動態(tài)規(guī)劃結(jié)構(gòu)中,訓(xùn)練執(zhí)行網(wǎng)絡(luò)不需要利用系統(tǒng)動態(tài)信息,尤其是仿射非線性系統(tǒng)xk+1=f(xk)+g(xk)uk中的控制矩陣g(xk).這在很大程度上減少了迭代算法對系統(tǒng)動態(tài)的依賴,改進了以往的實現(xiàn)結(jié)構(gòu).通過仿真研究,驗證了本文建立的數(shù)據(jù)驅(qū)動最優(yōu)調(diào)節(jié)器設(shè)計策略的有效性.值得注意的是,本文研究的是無限時間近似最優(yōu)控制問題.如何將神經(jīng)動態(tài)規(guī)劃思想與有限時間迭代ADP算法[14]相結(jié)合,改進執(zhí)行網(wǎng)絡(luò)的訓(xùn)練方法,從而將迭代神經(jīng)動態(tài)規(guī)劃方法推廣到有限時間近似最優(yōu)調(diào)節(jié)器設(shè)計是值得深入研究的主題之一.另外,本文目前的研究側(cè)重于理論方面的收斂性分析和具體的算法實現(xiàn),如何將提出的方法應(yīng)用于實際系統(tǒng)也有待于進一步討論.

        1 Bellman R E.Dynamic Programming.Princeton,NJ: Princeton University Press,1957.

        2 Werbos P J.Approximate dynamic programming for realtime control and neural modeling.Handbook of Intelligent Control.New York:Van Nostrand Reinhold,1992.

        3 Lewis F L,Vrabie D,Vamvoudakis K G.Reinforcement learning and feedback control:using natural decision methods to design optimal adaptive controllers.IEEE Control Systems,2012,32(6):76?105

        4 Zhang Hua-Guang,Zhang Xin,Luo Yan-Hong,Yang Jun. An overview of research on adaptive dynamic programming. Acta Automatica Sinica,2013,39(4):303?311 (張化光,張欣,羅艷紅,楊珺.自適應(yīng)動態(tài)規(guī)劃綜述.自動化學(xué)報, 2013,39(4):303?311)

        5 Liu De-Rong,Li Hong-Liang,Wang Ding.Data-based selflearning optimal control:research progress and prospects. Acta Automatica Sinica,2013,39(11):1858?1870 (劉德榮,李宏亮,王鼎.基于數(shù)據(jù)的自學(xué)習(xí)優(yōu)化控制:研究進展與展望.自動化學(xué)報,2013,39(11):1858?1870)

        6 Hou Z S,Wang Z.From model-based control to data-driven control:survey,classi fi cation and perspective.Information Sciences,2013,235:3?35

        7 Prokhorov D V,Wunsch D C.Adaptive critic designs.IEEE Transactions on Neural Networks,1997,8(5):997?1007

        8 Sutton R S,Barto A G.Reinforcement Learning—An Introduction.Cambridge,MA:MIT Press,1998.

        9 Si J,Wang Y T.Online learning control by association and reinforcement.IEEE Transactions on Neural Networks, 2001,12(2):264?276

        10 Wang Fei-Yue.Parallel control:a method for data-driven and computational control.Acta Automatica Sinica,2013, 39(4):293?302 (王飛躍.平行控制:數(shù)據(jù)驅(qū)動的計算控制方法.自動化學(xué)報,2013, 39(4):293?302)

        11 Al-Tamimi A,Lewis F L,Abu-Khalaf M.Discrete-time nonlinear HJB solution using approximate dynamic programming:convergence proof.IEEE Transactions on Systems, Man,Cybernetics,Part B,Cybernetics,2008,38(4):943?949

        12 Zhang H G,Luo Y H,Liu D R.Neural-network-based nearoptimal control for a class of discrete-time affine nonlinear systems with control constraints.IEEE Transactions on Neural Networks,2009,20(9):1490?1503

        13 Dierks T,Thumati B T,Jagannathan S.Optimal control of unknown affine nonlinear discrete-time systems using offlinetrained neural networks with proof of convergence.Neural Networks,2009,22(5?6):851?860

        14 Wang F Y,Jin N,Liu D R,Wei Q L.Adaptive dynamic programming for fi nite-horizon optimal control of discrete-time nonlinear systems with ε-error bound.IEEE Transactions on Neural Networks,2011,22(1):24?36

        15 Liu D R,Wang D,Zhao D B,Wei Q L,Jin N.Neuralnetwork-based optimal control for a class of unknown discrete-time nonlinear systems using globalized dual heuristic programming.IEEE Transactions on Automation Science and Engineering,2012,9(3):628?634

        16 Wang D,Liu D R,Wei Q L,Zhao D B,Jin N.Optimal control of unknown nonaffine nonlinear discrete-time systems based on adaptive dynamic programming.Automatica, 2012,48(8):1825?1832

        17 Zhang H G,Qin C B,Luo Y H.Neural-network-based constrained optimal control scheme for discrete-time switched nonlinear system using dual heuristic programming.IEEE Transactions on Automation Science and Engineering,2014, 11(3):839?849

        18 Liu D R,Li H L,Wang D.Error bounds of adaptive dynamic programming algorithms for solving undiscounted optimal control problems.IEEE Transactions on Neural Networks and Learning Systems,2015,26(6):1323?1334

        19 Zhong X N,Ni Z,He H B.A theoretical foundation of goal representation heuristic dynamic programming.IEEE Transactions on Neural Networks and Learning Systems, 2016,27(12):2513?2525

        20 HeydariA,BalakrishnanS N.Finite-horizon controlconstrained nonlinear optimal control using single network adaptive critics.IEEE Transactions on Neural Networks and Learning Systems,2013,24(1):145?157

        21 Jiang Y,Jiang Z P.Robust adaptive dynamic programming and feedback stabilization of nonlinear systems.IEEE Transactions on Neural Networks and Learning Systems, 2014,25(5):882?893

        22 Na J,Herrmann G.Online adaptive approximate optimal tracking control with simpli fi ed dual approximation structure for continuous-time unknown nonlinear systems. IEEE/CAA Journal of Automatica Sinica,2014,1(4):412?422

        23 Liu D R,Yang X,Wang D,Wei Q L.Reinforcement

        learning-based robust controller design for continuous-time uncertain nonlinear systems subject to input constraints. IEEE Transactions on Cybernetics,2015,45(7):1372?1385

        24 Luo B,Wu H N,Huang T W.O ff-policy reinforcement learning for H∞control design.IEEE Transactions on Cybernetics,2015,45(1):65?76

        25 Mu C X,Ni Z,Sun C Y,He H B.Air-breathing hypersonic vehicle tracking control based on adaptive dynamic programming.IEEE Transactions on Neural Networks and Learning Systems,2017,28(3):584?598

        26 Wang D,Liu D R,Zhang Q C,Zhao D B.Data-based adaptive critic designs for nonlinear robust optimal control with uncertain dynamics.IEEE Transactions on Systems,Man, and Cybernetics:Systems,2016,46(11):1544?1555

        Data-driven Nonlinear Near-optimal Regulation Based on Iterative Neural Dynamic Programming

        WANG Ding1,2MU Chao-Xu2LIU De-Rong3

        An iterative neural dynamic programming approach is established to design the near optimal regulator of discrete-time nonlinear systems using the data-driven control formulation.An iterative adaptive dynamic programming algorithm for discrete-time general nonlinear systems is developed and proved to guarantee the property of convergence and optimality.Then,a globalized dual heuristic programming technique is developed with detailed implementation by constructing three neural networks,where the action network is trained under the framework of neural dynamic programming.This novel architecture can approximate the cost function with its derivative,and simultaneously,adaptively learn the near-optimal control law without depending on the system dynamics.It is signi fi cant to observe that it greatly improves the existing results of iterative adaptive dynamic programming algorithm,in terms of reducing the requirement of control matrix or its neural network expression,which promotes the development of data-based optimization and control design for complex nonlinear systems.Two simulation experiments are described to illustrate the e ff ectiveness of the data-driven optimal regulation method.

        Adaptive dynamic programming,data-driven control,iterative neural dynamic programming,neural networks,nonlinear near-optimal regulation

        王 鼎 中國科學(xué)院自動化研究所副研究員.2009年獲得東北大學(xué)理學(xué)碩士學(xué)位,2012年獲得中國科學(xué)院自動化研究所工學(xué)博士學(xué)位.主要研究方向為自適應(yīng)與學(xué)習(xí)系統(tǒng),智能控制,神經(jīng)網(wǎng)絡(luò).本文通信作者.E-mail:ding.wang@ia.ac.cn(WANG Ding Associate professor at the Institute of Automation,Chinese Academy of Sciences.He received his master degree in operations research and cybernetics from Northeastern University,Shenyang, China and his Ph.D.degree in control theory and control engineering from the Institute of Automation,Chinese Academy of Sciences,Beijing,China,in 2009 and 2012,respectively.His research interest covers adaptive and learning systems,intelligent control,and neural networks.Corresponding author of this paper.)

        穆朝絮 天津大學(xué)電氣自動化與信息工程學(xué)院副教授.2012年獲得東南大學(xué)工學(xué)博士學(xué)位.主要研究方向為非線性控制理論與應(yīng)用,智能控制與優(yōu)化,智能電網(wǎng).E-mail:cxmu@tju.edu.cn(MU Chao-Xu Associate professor at the School of Electrical and Information Engineering,Tianjin University. She received her Ph.D.degree in control science and engineering from Southeast University,Nanjing,China,in 2012. Her research interest covers nonlinear control and application,intelligent control and optimization,and smart grid.)

        劉德榮 北京科技大學(xué)教授.主要研究方向為自適應(yīng)動態(tài)規(guī)劃,計算智能,智能控制與信息處理,復(fù)雜工業(yè)系統(tǒng)建模與控制.E-mail:derong@ustb.edu.cn(LIU De-Rong Professor at University of Science and Technology Beijing.His research interest covers adaptive dynamic programming,computational intelligence,intelligent control and information processing,and modeling and control for complex industrial systems.)

        王鼎,穆朝絮,劉德榮.基于迭代神經(jīng)動態(tài)規(guī)劃的數(shù)據(jù)驅(qū)動非線性近似最優(yōu)調(diào)節(jié).自動化學(xué)報,2017,43(3): 366?375

        Wang Ding,Mu Chao-Xu,Liu De-Rong.Data-driven nonlinear near-optimal regulation based on iterative neural dynamic programming.Acta Automatica Sinica,2017,43(3):366?375

        2016-03-16 錄用日期2016-05-17

        Manuscript received March 16,2016;accepted May 17,2016國家自然科學(xué)基金(61233001,61273140,61304018,61304086,615 33017,U1501251,61411130160),北京市自然科學(xué)基金(4162065),天津市自然科學(xué)基金(14JCQNJC05400),中國科學(xué)院自動化研究所復(fù)雜系統(tǒng)管理與控制國家重點實驗室優(yōu)秀人才基金,天津市過程檢測與控制重點實驗室開放課題基金(TKLPMC-201612)資助

        Supported by National Natural Science Foundation of China (61233001,61273140,61304018,61304086,61533017,U1501251, 61411130160),Beijing Natural Science Foundation(4162065), Tianjin Natural Science Foundation(14JCQNJC05400),the Early Career Development Award of the State Key Laboratory of Management and Control for Complex Systems(SKL-MCCS)of the Institute of Automation,Chinese Academy of Sciences(CASIA),and Research Fund of Tianjin Key Laboratory of Process Measurement and Control(TKLPMC-201612)本文責(zé)任編委侯忠生

        Recommended by Associate Editor HOU Zhong-Sheng

        1.中國科學(xué)院自動化研究所復(fù)雜系統(tǒng)管理與控制國家重點實驗室北京100190 2.天津市過程檢測與控制重點實驗室,天津大學(xué)電氣自動化與信息工程學(xué)院天津300072 3.北京科技大學(xué)自動化學(xué)院北京100 083

        1.The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190 2.Tianjin Key Laboratory of Process Measurement and Control,School of Electrical and Information Engineering,Tianjin University,Tianjin 300072 3.School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083

        DOI10.16383/j.aas.2017.c160272

        猜你喜歡
        規(guī)劃系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        發(fā)揮人大在五年規(guī)劃編制中的積極作用
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        規(guī)劃引領(lǐng)把握未來
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        多管齊下落實規(guī)劃
        久久久亚洲欧洲日产国码二区| 中国丰满人妻videoshd| 欧美日韩一区二区综合| 午夜高清福利| 中文字幕乱码av在线| 男女上床免费视频网站| 国产激情视频在线观看的 | 国产午夜精品久久精品| 久久国产成人精品av| 国产成人啪精品视频免费软件| 久久精品—区二区三区无码伊人色 | 久久99人妖视频国产| 手机看黄av免费网址| 欧美日韩亚洲国内综合网| 久久国产国内精品对话对白| 日本国产精品高清在线| 国产精品偷窥熟女精品视频| 一二三四在线观看免费视频| 亚洲爱婷婷色婷婷五月| 初高中生精品福利视频| 亚洲日本在线中文字幕| 一区二区三区人妻av| 无码丰满熟妇一区二区| 国产精品亚洲欧美天海翼| 99综合精品久久| 国产av一区二区网站| 日本一区二区三区免费播放| 免费人成视频xvideos入口| 狠狠色噜噜狠狠狠97影音先锋| 男女搞黄在线观看视频 | 国产日韩av在线播放| 豆国产95在线 | 亚洲| 绿帽人妻被插出白浆免费观看| 不卡av网站一区二区三区| 国产中文字幕乱人伦在线观看| 永久国产盗摄一区二区色欲| 国产成人av一区二区三| 女人18毛片a级毛片| 无码人妻精品一区二区在线视频| 麻豆国产巨作AV剧情老师| 亚洲av伊人久久综合性色|