亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于勒貝格采樣的非線性系統(tǒng)優(yōu)化控制

2019-07-11 08:44:12朱萌萌宋運忠

復(fù)雜系統(tǒng)與復(fù)雜性科學(xué) 2019年1期

朱萌萌，宋運忠

(河南理工大學(xué)電氣工程與自動化學(xué)院，河南焦作 454000)

0 引言

隨機(jī)系統(tǒng)廣泛存在于實際的生產(chǎn)生活中，比如，在社會經(jīng)濟(jì)、航天航空、生物醫(yī)學(xué)、生態(tài)環(huán)境、工業(yè)過程等領(lǐng)域，許多系統(tǒng)會受到外界隨機(jī)干擾和觀測噪聲的影響形成非線性隨機(jī)擾動，造成系統(tǒng)的性能差、不穩(wěn)定。類似這些內(nèi)部含有隨機(jī)變量，外部受隨機(jī)擾動或噪聲干擾的系統(tǒng)，稱為隨機(jī)系統(tǒng)[1-7]。為了改善系統(tǒng)的性能，降低外界干擾的影響，專家們開始利用隨機(jī)的觀點分析和解決此類實際問題。從而推動了隨機(jī)系統(tǒng)優(yōu)化控制理論的迅速發(fā)展，也使其成為目前最優(yōu)控制領(lǐng)域的重要研究方向之一。

近年來，隨機(jī)系統(tǒng)的最優(yōu)控制理論已逐步完善和成熟。但是，大部分研究成果的取得均依賴于系統(tǒng)精確地數(shù)學(xué)模型，這對于實際系統(tǒng)來說是復(fù)雜的，分析起來極其困難。因而，把連續(xù)信號轉(zhuǎn)換成離散信號的采樣過程，是求解隨機(jī)系統(tǒng)控制問題的一種行之有效的方法。采樣定理的提出已有70多年，學(xué)者們相繼提出了多種采樣方法，并利用這些采樣方案解決不同的控制問題[8-10]。其中，周期采樣和事件觸發(fā)采樣機(jī)制是解決此類控制問題的兩種常用方法。傳統(tǒng)的采樣方法是周期性采樣，無論系統(tǒng)狀態(tài)如何變化，采樣間隔往往是不變的。雖然，這種采樣策略的問題比較容易研究，但是也容易造成計算資源和通信資源的浪費，在某種程度上也易造成“維數(shù)災(zāi)”。因此，可變采樣速率的采樣方案得到了研究者的廣泛關(guān)注。這種采樣方法的特點是只有當(dāng)滿足系統(tǒng)狀態(tài)的變化量超過事先給定的閾值后，系統(tǒng)狀態(tài)的信息才被采樣并實施控制。這種采樣機(jī)制被稱為勒貝格采樣，又叫事件觸發(fā)采樣。勒貝格采樣方法早在20世紀(jì)60年代就被提出，在實際系統(tǒng)中的應(yīng)用亦得到了廣泛研究。譬如，文獻(xiàn)[11]基于脈沖系統(tǒng)、分段線性系統(tǒng)和擾動線性系統(tǒng)分別提出了3種方法來分析事件觸發(fā)控制系統(tǒng)的穩(wěn)定性，理論上研究了線性系統(tǒng)的周期事件驅(qū)動控制。文獻(xiàn)[12]在減少目標(biāo)跟蹤系統(tǒng)通信量的同時保證系統(tǒng)的最優(yōu)估計性能，針對目標(biāo)跟蹤問題，將事件驅(qū)動控制擴(kuò)展到了非線性系統(tǒng)中。文獻(xiàn)[13]針對線性系統(tǒng)狀態(tài)反饋控制問題，利用脈沖控制方法，研究了事件觸發(fā)控制系統(tǒng)的穩(wěn)定性。文獻(xiàn)[14]針對連續(xù)時間非線性系統(tǒng)的控制問題，設(shè)計了最優(yōu)自適應(yīng)事件觸發(fā)控制算法。文獻(xiàn)[15]針對積分器的穩(wěn)定性問題，在勒貝格采樣環(huán)境下提出了一種非線性控制律，從而使系統(tǒng)達(dá)到漸近穩(wěn)定?；谏鲜鑫墨I(xiàn)，學(xué)者們在很大程度上對事件觸發(fā)機(jī)制的應(yīng)用研究做出了杰出貢獻(xiàn)，使最優(yōu)控制理論得到了進(jìn)一步的完善。但是，在這些文獻(xiàn)中，采用事件觸發(fā)采樣時的控制策略往往簡單，如脈沖控制、開關(guān)控制、啟發(fā)式PID控制或自適應(yīng)觸發(fā)控制，并且大部分針對的是連續(xù)時間線性系統(tǒng)或者離散時間非線性系統(tǒng)。然而，基于勒貝格采樣的連續(xù)非線性系統(tǒng)的最優(yōu)控制問題還沒有一個完整的模型，也沒有得到深入的研究。因此，本文提出了基于勒貝格采樣的非線性系統(tǒng)最優(yōu)控制模型，并給出了基于馬爾可夫決策過程的求解方法。

本文主要研究了連續(xù)時間非線性系統(tǒng)的最優(yōu)控制問題，提出了基于勒貝格采樣的一般最優(yōu)控制方案。首先，給出了勒貝格采樣系統(tǒng)模型的數(shù)學(xué)描述。然后，利用馬爾可夫決策過程中的時間集結(jié)方法搭建模型，并通過策略迭代算法對該模型進(jìn)行Matlab仿真，結(jié)合解析法求解策略迭代算法中系統(tǒng)的相關(guān)參數(shù)。最后，利用仿真算例，通過給定初始策略求得勒貝格采樣系統(tǒng)的最優(yōu)策略和平均采樣間隔，再用此平均采樣間隔作為周期性采樣系統(tǒng)的等采樣間隔，對比兩種采樣策略，可以發(fā)現(xiàn)基于勒貝格采樣的非線性系統(tǒng)的優(yōu)化性能好于基于周期采樣的隨機(jī)動態(tài)系統(tǒng)。為了更好地說明方法的有效性，分別定量地改變代價函數(shù)的控制能量和事件的狀態(tài)值對其進(jìn)行仿真研究，實驗結(jié)果再次表明勒貝格采樣系統(tǒng)不僅改善了系統(tǒng)性能，還減小了系統(tǒng)能耗。

1 問題描述

給定一個1維連續(xù)非線性控制系統(tǒng)[16]：

dx=μ(x,u)dt+σdv

(1)

其中，x=x(t)∈R表示系統(tǒng)在t時刻的狀態(tài)，u=u(t)∈U?Rn為系統(tǒng)在t時刻的控制量，U是控制量的集合，v=v(t)表示一個維納過程，σ是常數(shù)。μ(x,u)為“狀態(tài)-行動”對的數(shù)值函數(shù)。假設(shè)系統(tǒng)(1)是勒貝格可測函數(shù)，則系統(tǒng)的代價函數(shù)記為fu(x)。研究隨機(jī)系統(tǒng)的最優(yōu)控制問題，其目的就是找一個最優(yōu)控制律u(t),t∈[0,∞)，使無窮時段長期平均性能最小。

定義系統(tǒng)的無窮時段長期平均性能為

(2)

其中，“E”表示概率測度下的期望，假設(shè)在控制變量u(t)的作用下系統(tǒng)是穩(wěn)定的，那么上述性能ηu與初始狀態(tài)x(0)無關(guān)。

2 基于勒貝格采樣系統(tǒng)的最優(yōu)控制

2.1 勒貝格采樣系統(tǒng)

本文研究的勒貝格采樣[17-18]定義如下：首先，定義一個有限離散事件集合：D={1,…,D} 。每一個事件d∈D對應(yīng)系統(tǒng)的一個狀態(tài)值xd。那么，事件集合D相對應(yīng)的系統(tǒng)狀態(tài)值的集合為χD={xd:d∈D}?R，簡稱事件的值集合。為了更加完整地描述系統(tǒng)的一般數(shù)學(xué)模型，假設(shè)x1

ti= min{t:t>ti-1,x(t)∈χD,x(t)≠x(ti-1)}

(3)

對所有的i=1,2,…均成立。發(fā)生在時刻ti的事件記做di∈D，則{di,i=0,1,2,L}構(gòu)成了一個嵌入鏈。為了保證嵌入鏈?zhǔn)前l(fā)生在離散時刻，即di+1-di∈{-1,1}，從而排除了di+1=di的情況。如上所述，只在事件發(fā)生的時候才進(jìn)行的采樣過程，被稱為勒貝格采樣。

勒貝格采樣又稱基于事件的采樣，由此可結(jié)合基于事件驅(qū)動的優(yōu)化控制方法來研究系統(tǒng)模型。在基于勒貝格采樣的系統(tǒng)模型構(gòu)建中，系統(tǒng)的控制量是在系統(tǒng)狀態(tài)被采樣的時候加入的，直到下一個采樣時刻發(fā)生才停止。因此，在時刻ti的控制量，記做ui。數(shù)學(xué)符號描述為：u(t)=ui且t∈[ti,ti+1)。原動態(tài)系統(tǒng)(1)可以描述為

dx=μ(xi,ui)dt+σdv,ti≤t

(4)

其中，ui表示系統(tǒng)在時刻ti所加入的控制量，又稱為事件的行動。它是由控制策略所決定的，記為ui=u(di),di∈D,ui∈U,i= 0,1,L。這個與事件di有關(guān)的控制策略稱為控制律或策略，記作u。從式(4)可得，行動ui僅由事件di決定，因此u稱作基于事件的策略。假設(shè)可采取的行動集合U是有限的，則原系統(tǒng)(1)的問題就變成了如何選擇一個最優(yōu)控制策略u使得動態(tài)系統(tǒng)(4)的平均性能最小。

2.2 時間集結(jié)法

研究動態(tài)系統(tǒng)的最優(yōu)控制問題常常通過搭建馬爾可夫數(shù)學(xué)模型來求解，許多關(guān)于馬爾可夫模型的優(yōu)化設(shè)計方法也均可適用。因此，可以通過構(gòu)造一個等價的馬爾可夫模型，再結(jié)合時間集結(jié)法來求解系統(tǒng)的最優(yōu)控制問題[19-20]。

本文研究的時間集結(jié)法[21]定義如下：通過分析動態(tài)系統(tǒng)(4)可知，嵌入鏈{di,i=0,1,2,…}是一個馬爾可夫鏈，具有狀態(tài)空間D以及轉(zhuǎn)移概率矩陣Pu={pu(d)(d'|d)}d,d'∈D，它表示在策略u下，這個嵌入式的馬爾可夫鏈從事件d轉(zhuǎn)移到下一個事件d'的概率。在系統(tǒng)穩(wěn)定的條件下，由式(3)可得:

(5)

其中,pu(1)(2|1)=1，pu(D)(D-1|D)=1。顯然，這個嵌入鏈?zhǔn)遣豢杉s的且周期為2的馬氏鏈。則有唯一的穩(wěn)態(tài)分布πu滿足平衡方程：πuPu=πu和πue=1，其中e=(1,1,…,1)T是每個元素都為1的D維列向量。

根據(jù)馬爾可夫模型，通過構(gòu)造一個等價的馬爾可夫過程，并且結(jié)合代價函數(shù)，使平均性能(2)和動態(tài)系統(tǒng)(4)的性能是相同的。由于系統(tǒng)的樣本路徑被各個嵌入點分隔成許多片段，因此，定義第d片段為：ζi={x(t),ti≤t

(6)

(7)

(8)

(9)

在策略u下，通過運用強(qiáng)大數(shù)法則[22]，系統(tǒng)的性能表示為

(10)

(11)

2.3 策略迭代算法

(12)

對任意策略u有：

嵌入鏈對應(yīng)的平均性能為

(13)

其中，δ是實數(shù)。

針對連續(xù)非線性系統(tǒng)的最優(yōu)控制問題，通過定理1可知，新構(gòu)建的馬爾可夫模型可采用策略迭代算法進(jìn)行求解和仿真驗證。

定理1

1)對于馬爾可夫模型中代價函數(shù)為(12)以及δ=ηu，策略u′優(yōu)于策略u的充分必要條件是：具有代價函數(shù)(11)的馬爾可夫模型，策略u′也優(yōu)于策略u。

2)對于馬爾可夫模型中代價函數(shù)為(11)以及最佳策略u*的充分必要條件是：馬爾可夫模型中代價函數(shù)為(12)以及δ=ηu*，策略u*也是最佳的。

證明：

(14)

其中，I是單位陣，gu表示在策略u的性能勢向量[23]。特別地，gu的特解如下[23]：

(15)

通過定理1可給出如下策略迭代算法[21]。定義uk為第k次迭代中所使用的策略，u*為最優(yōu)策略。策略迭代算法的具體步驟如表1所示：

表1 策略迭代算法Tab.1 Policy iteration algorithm

通過定理1)和策略迭代理論[23]，如果該算法不停止，則在每次迭代中，嵌入式馬爾可夫鏈的性能都會得到提升。當(dāng)只有有限數(shù)量的策略時，迭代過程必將停止。由定理2)可知，當(dāng)?shù)Ｖ?，系統(tǒng)將會達(dá)到嵌入式馬爾可夫鏈的最優(yōu)性能。

2.4 解析法

本文主要研究這種狀態(tài)無關(guān)的特殊情況[23]，代價函數(shù)為fu(x)=mx2+uTNu，其中是正實數(shù)，N是正定矩陣。在策略迭代中使用的3個變量，通過求解微分方程可得到解析解。經(jīng)過計算，結(jié)果如下：

對于所有的xd-1≤x≤xd+1，1

(16)

(17)

(18)

其中,qp(x,u)表示從狀態(tài)x∈(xd-1,xd+1)、行動為u出發(fā)的過程中，首先到達(dá)狀態(tài)xd+1而不是xd-1的概率。q1(x,u)表示x∈(xd-1,xd+1)時,從初始狀態(tài)x0、行動u0出發(fā)的片段期望長度，而對于其他狀態(tài)x，令q1(x,u)=0。qf(x,u)表示從狀態(tài)x∈(xd-1,xd+1)、行動為u開始的在一個片段上的期望代價積分，而當(dāng)x?(xd-1,xd+1)有qf(x,u)=0。下式中出現(xiàn)的相同符號，含義亦相同。

如果μ(u)=0，則：

(19)

(20)

(21)

當(dāng)d=1時，因為該系統(tǒng)是穩(wěn)定的，且如前面假設(shè)的x1<0，必有μ(u)>0，于是有qp(x,u)=1，q1(x,u)=(x2-x1)=μ(u)和：

(22)

當(dāng)d=D和μ(u)<0時，有qp(xD,u)=0和q1(xD,u)=(xD-1-xD)/μ(u)：

(23)

3 周期采樣系統(tǒng)的優(yōu)化控制

上文已經(jīng)對勒貝格采樣系統(tǒng)的最優(yōu)控制方案作了詳細(xì)的闡述，下面對周期性采樣方案的優(yōu)化控制作簡要地分析[24-25]。為了保證在其他條件不變的情況下比較兩者的性能，利用勒貝格采樣系統(tǒng)中所得平均采樣間隔作為周期性采樣的等采樣間隔，即Δ=ti+1-ti。其中，ti,i=0,1,2,…,表示系統(tǒng)的采樣時刻。

動態(tài)系統(tǒng)描述為：

dx=(ax+bui)dt+σdv,ti≤t

(24)

其中，ui是采樣時刻ti上的控制量，在區(qū)間[ti,ti+1)上保持不變，且由系統(tǒng)狀態(tài)決定：令xi=x(ti)，則ui=u(xi)。a∈R和b∈R1×n都是給定參數(shù)，從而保證系統(tǒng)的可鎮(zhèn)定性。代價函數(shù)為fu(x)=mx2+uTNu。該系統(tǒng)的優(yōu)化問題是找到一個反饋控制律u(x)使性能(2)最小。

針對狀態(tài)無關(guān)這種特殊情形，由式(24)可知，當(dāng)a=0時，有：

xi+1=Axi+Bui+ξ

(25)

其中，A=1,B=bΔ，且ξ=σv是一個零均值，方差為Var(ξ)=σ2Δ的正態(tài)分布隨機(jī)變量。

Fu(x)=Gx2+xRu+uTVu+J

(26)

其中G=m,R=mbΔ，V=(1/3)mbTbΔ2+N以及J=(1/2)mσ2Δ。最優(yōu)控制律是u(x)=-Lx，其中L=(1/2)(BTBS+V)-1(2ABTS+RT)，并且S滿足代數(shù)Riccati方程:

(27)

通過求解方程(27)可以得到最優(yōu)控制策略，其相對應(yīng)的最優(yōu)性能為η=σ2ΔS+J。

4 仿真結(jié)果與分析

圖1 基于勒貝格采樣的控制策略Fig.1 Lebesgue-sampling-based control policy

為了避免初始策略選擇的偶然性，對初始策略進(jìn)行多組數(shù)據(jù)實驗后，實驗結(jié)果如表2所示。觀察發(fā)現(xiàn)，當(dāng)初始策略中間項為0時，左右兩端的策略關(guān)于中間項互為相反數(shù)，且左邊的控制量大于零，右邊的控制量小于零時，迭代次數(shù)k=1；當(dāng)初始策略為最優(yōu)策略時，不進(jìn)行迭代，即k=0；當(dāng)初始策略偏離最優(yōu)策略較大時，迭代次數(shù)也相對的增加。故而，為了快速得到較好的性能，初始策略的設(shè)定可為最優(yōu)策略的形式。

表2 初始策略與迭代次數(shù)的關(guān)系Tab.2 The relationship between the initial strategy and the number of iterations

表3 兩種采樣方案的數(shù)據(jù)對比Tab.3 Data comparison of two sampling schemes

例2根據(jù)例1，令系統(tǒng)代價函數(shù)fu(x)=x2+Nu2中的正定矩陣N=0,0.1,0.2,…,1,2,3,4,10，其余參數(shù)不變的情況下，對比觀察勒貝格采樣系統(tǒng)和傳統(tǒng)周期采樣系統(tǒng)的性能參數(shù)變化。仿真驗證，其結(jié)果分別用表4和圖2表示：

表4 兩種采樣方案的數(shù)據(jù)對比Tab.4 Data comparison of two sampling schemes

圖2 兩種采樣方案的性能比較Fig.2 Performance comparison of two sampling schemes

觀察上面的表4，表中的最后1列表示勒貝格采樣優(yōu)于周期采樣性能的百分比，百分比隨著N的變大而減小，說明了控制能量的代價在設(shè)計控制器時顯得尤為重要。由整個結(jié)果分析可知，當(dāng)N>0時，系統(tǒng)的控制能量代價不為零，最優(yōu)策略也不是max-min形式。比如，當(dāng)N=0.3時，系統(tǒng)的最優(yōu)策略為u*=[5,3,2,0,-2,-3,-5]T。

再分析圖2可知，在相同的采樣間隔下，當(dāng)N=3時，勒貝格采樣系統(tǒng)性能和周期采樣性能有相同的效果；當(dāng)N<3時，基于勒貝格采樣系統(tǒng)的性能明顯優(yōu)于基于周期采樣系統(tǒng)的性能。雖然，當(dāng)N>3時，周期采樣系統(tǒng)的性能優(yōu)于勒貝格采樣系統(tǒng)，但是，從圖中可以清晰地看到，隨著N的增大，平均采樣間隔變化非常小，性能百分比也趨于零。

表5 兩種采樣方案的數(shù)據(jù)對比(N=0,0.3,3)Tab.5 Data comparison of two sampling schemes(N=0,0.3,3)

圖3 系數(shù)m單獨改變時的性能比較Fig.3 Performance comparison when coefficient m is changed separately

例3在例2的基礎(chǔ)上，改變代價函數(shù)為fu(x)=mx2+Nu2的系數(shù)，其他條件亦不變的情況下，當(dāng)m=0.01，0.1，1，10，100,N=0,0.3,1,3.時，得出如下結(jié)論：

通過仿真實驗數(shù)據(jù)分析可得，當(dāng)控制能量N=0時，無論代價函數(shù)中系數(shù)為何值時，系統(tǒng)平均采樣間隔不變，即Δ=0.347 6s，最優(yōu)策略始終為min-max形式，即u*=[5,5,5,0,-5,-5,-5]T；由表5分析可知，系統(tǒng)的最優(yōu)性能隨著的增大而增大，且倍數(shù)增加相同。從而表明了勒貝格采樣系統(tǒng)中，與狀態(tài)權(quán)值相關(guān)的代價函數(shù)不影響系統(tǒng)的采樣間隔，但對系統(tǒng)的性能影響較大。再觀察圖3中的四個結(jié)果，比較圖3a與圖3b可知，當(dāng)N<1時，勒貝格采樣系統(tǒng)的平均采樣間隔和兩種兩樣方案的系統(tǒng)性能百分比幾乎是不變的，且兩種采樣系統(tǒng)性能也都是隨著成倍的增加而成倍的增大，呈正比例關(guān)系。由圖3c可知，當(dāng)N>1時，雖然兩種采樣系統(tǒng)的最優(yōu)性能也隨著的增大而增大，但也不是正比例的關(guān)系。由于圖3a-圖3c的選值范圍較大，為了仔細(xì)分析比較兩種采樣方案的系統(tǒng)性能，針對又選擇了(0,1]區(qū)間的數(shù)值。根據(jù)例2中的結(jié)果可知，當(dāng)N=3時，勒貝格采樣系統(tǒng)性能和周期采樣性能有相同的效果，屬于一個臨界值。在細(xì)化值時，依然選擇N=3。由圖3d可知，當(dāng)N=3,m=1時，兩種采樣方案的系統(tǒng)性能相同，從而驗證了例2的結(jié)果。然而，只有當(dāng)m<1時，勒貝格采樣系統(tǒng)的性能稍微比周期采樣的性能差一點。因此，整體上可得出勒貝格采樣系統(tǒng)的性能優(yōu)于周期采樣系統(tǒng)的性能是有條件的。

通過多次仿真實驗，由表6中數(shù)據(jù)可得，在控制能量代價不為零時，系統(tǒng)的最優(yōu)性能隨著的增大而增大；平均采樣間隔隨著的增大而減小，系統(tǒng)達(dá)到最優(yōu)策略后也幾乎不再變化。

表6 兩種采樣方案的數(shù)據(jù)對比(N=1)Tab.6 Data comparison of two sampling schemes(N=1)

圖4 v變化時各個參量改進(jìn)的比例Fig.4 Proportion of improvement of each parameter when v changes

例4在例1的基礎(chǔ)上，假定系統(tǒng)的代價函數(shù)中N=0.3，其余條件不變，事件集D的值集合變?yōu)棣諨= {-3,-1-v,-v…,v,1 +v,3},v∈[0.2,1.8]。采用勒貝格采樣，對所有的系統(tǒng)優(yōu)化性能結(jié)果用圖4表示，實線表示最化性能的比例，即各種可能的對應(yīng)的最優(yōu)性能比上v=1時的最優(yōu)性能，虛線表示平均采樣間隔的比例，即各種可能的對應(yīng)的采樣間隔比上v=1時的采樣間隔。

由圖4可知，實線斜率的絕對值小于虛線的斜率。當(dāng)增加時，系統(tǒng)性能略微變差，但平均采樣間隔也會隨之增加，從而節(jié)約了計算資源。

5 結(jié)論

本文研究了勒貝格采樣系統(tǒng)的一般最優(yōu)控制模型，為性能勢理論在隨機(jī)控制系統(tǒng)中的應(yīng)用提供了新的解決方案。首先，通過構(gòu)造等價的馬爾可夫模型，提出了基于勒貝格采樣的非線性系統(tǒng)最優(yōu)控制的一般數(shù)學(xué)模型；然后，根據(jù)該模型具有馬爾可夫性，編寫了相應(yīng)的策略迭代算法以求解勒貝格采樣系統(tǒng)的最優(yōu)策略和長期平均性能，并結(jié)合解析法得出了算法中需要用到的樣本路徑上片段的期望性能、片段長度和相應(yīng)的轉(zhuǎn)移概率；最后，仿真結(jié)果驗證了在相同的采樣間隔情況下，勒貝格采樣系統(tǒng)的優(yōu)化性能不僅明顯要優(yōu)于周期采樣系統(tǒng)，而且基于勒貝格采樣的方法更符合實際的控制系統(tǒng)，有效地降低了系統(tǒng)的采樣次數(shù)并節(jié)約了系統(tǒng)的資源消耗。