徐君鵬,尹遜和
(北京交通大學電子信息工程學院,北京 100044)
網絡控制系統(tǒng)是由各個智能節(jié)點(傳感器節(jié)點、控制器節(jié)點和執(zhí)行器節(jié)點)通過共享的通信網絡連接構成的分布式控制系統(tǒng).與傳統(tǒng)的點對點控制系統(tǒng)相比,通信網絡的引入降低了控制系統(tǒng)的維護成本,提高了控制系統(tǒng)的靈活性.因此網絡控制系統(tǒng)廣泛地應用在工業(yè)控制、智能電網、汽車等實際系統(tǒng)中[1-3].通信網絡為控制系統(tǒng)帶來便利的同時也引入了網絡誘導時延、數據包丟失、數據包亂序等問題.這些問題降低了控制系統(tǒng)的性能,甚至讓控制系統(tǒng)不穩(wěn)定.
對于通信網絡帶來的時延、丟包等問題,現有的文獻已經提出了很多方法.文獻[4]針對網絡環(huán)境的丟包問題,使用改進的模型預測控制算法來控制焦炭爐的燃燒室壓力,但是沒有考慮網絡時延對控制系統(tǒng)的影響.文獻[5]假設網絡的連續(xù)數據包丟失數量小于預先設定的上界,設計預測控制器來處理網絡的丟包問題.文獻[6]假設無線網絡的時延小于設定的采樣周期,設計模糊滑模控制器控制機器人跟蹤給定的參考軌跡.文獻[7]假設網絡時延為常數,設計了自適應模糊控制器來控制非線性的被控對象.文獻[8]假設網絡時延小于設定的上界,使用切換控制方法設計了控制器,但是沒有考慮網絡的丟包問題.文獻[9-10]把網絡的丟包和數據包亂序考慮為往返時延(round trip time),假設網絡的往返時延小于一個設定的上界,使用預測控制方法對往返時延進行補償.
上述文獻首先對網絡環(huán)境的時延和丟包特性進行理想性假設,然后設計對應的控制算法,所以能夠較好地控制被控對象.然而無線網絡環(huán)境的時延和丟包特性具有不確定性,在控制系統(tǒng)運行過程中難以保證所做的假設得到滿足.在2012年,Simon Haykin提出了工程意義下的認知控制思想[11].他認為傳統(tǒng)的控制方法在結構化的環(huán)境(structured environment)中,可以很好地完成控制任務,但是在非結構化的環(huán)境(unstructured environment)中,傳統(tǒng)的控制方法的性能不夠好,而認知控制能夠更好地在非結構化的環(huán)境中控制被控對象[11].
在本文中,如果網絡的時延和丟包特性滿足預先設定的理想性假設,例如,網絡的時延總是小于一個采樣周期或者總是小于設定的上界、網絡連續(xù)丟包數量一定小于提前設定的上界,那么稱這樣的網絡環(huán)境為結構化的網絡環(huán)境;如果網絡的時延和丟包特性不滿足預先設定的理想性假設,例如,網絡環(huán)境的時延和丟包特性是未知的,無法設置一個合理的上界來說明網絡的時延和丟包特性,那么這樣的網絡環(huán)境為非結構化的網絡環(huán)境.
到目前為止,工程領域的認知控制處于剛剛起步的階段.文獻[12-14]使用認知控制方法調節(jié)雷達發(fā)射的電波的波形參數,提高了雷達追蹤目標的精度.文獻[15-16]把認知控制思想應用到基于通信的列車控制系統(tǒng)中,提高了列車的控制性能,降低了列車的能耗.文獻[17]以認知車為應用背景,概述了環(huán)境認知、駕駛員認知及駕駛員的刺激-反應過程、決策-動作過程的建模方法,突出了人在控制系統(tǒng)中的作用.文獻[18]把無人機與環(huán)境的交互過程建模為脈沖微分包含(impulse differential inclusions)模型,導出了認知無人機-環(huán)境系統(tǒng)的防碰撞穩(wěn)定性條件,驗證了該條件的有效性.文獻[19]提出了基于認知博弈制導的無人機防碰撞方法,并通過仿真驗證了所提方法的有效性.
與通常的設計控制算法的思路不同,本文是在沒有預先對網絡環(huán)境的時延和丟包特性進行理想性假設的條件下進行控制算法設計的.借鑒Simon Haykin提出的認知控制思想,本文定義了無線網絡環(huán)境的狀態(tài)(請見第5 部分),并使用網絡的狀態(tài)表示信息間隙(information gap);然后在無線網絡控制系統(tǒng)(wireless networked control system,WNCS)中加入了認知控制器,用認知控制器來調節(jié)無線網絡的媒體接入控制(media access control,MAC)層的重傳次數上限和物理控制器的命令序列長度.目的是通過調節(jié)MAC 層的重傳次數上限來減小WNCS的信息間隙,降低非結構化的網絡環(huán)境的時延和丟包對控制系統(tǒng)的影響.通過調節(jié)物理控制器的命令序列長度(請見第6部分),來提高控制系統(tǒng)對非結構化的網絡環(huán)境的時延和丟包的承受能力.
與現有的認知控制相關的工作[15-16]相比,本文的創(chuàng)新點為:在無線網絡控制系統(tǒng)中應用認知控制思想,把模型預測控制器(本文中稱為物理控制器)的命令序列長度的調節(jié)和無線網絡MAC層重傳次數上限參數的調節(jié)加入到基于認知控制的WNCS的設計中,提高了WNCS對網絡環(huán)境的時延和丟包的承受能力.
本文的結構如下:第2部分介紹了認知控制思想的基本內容;第3部分概括地描述了本文設計的WNCS的工作過程,它的工作細節(jié)在第4部分到第6部分給出;第4部分介紹了全向輪移動機器人的動態(tài)特性數學模型及其工作過程;第5部分描述了來自于無線網絡環(huán)境的感知過程;第6部分展示了WNCS的控制部分;第7部分分析了基于認知控制思想設計的WNCS的仿真結果;第8部分對本文進行了總結.
認知控制起源于神經科學和心理學[20].在2012年,Simon Haykin提出了工程意義下的認知控制思想[11].在文獻[11]中,Simon Haykin 指出當傳統(tǒng)的控制系統(tǒng)在非結構化的或者高度不確定的環(huán)境中運行時,人類對控制系統(tǒng)的調節(jié)是必不可少的.如果把“認知能力”整合到控制系統(tǒng)中,那么這個“認知能力”可以替代或者減少人類對控制系統(tǒng)的干預.因此,在控制系統(tǒng)中加入認知控制器,代替人類對控制系統(tǒng)的調節(jié)作用,會使得在非結構化的環(huán)境中運行的控制系統(tǒng)的性能更好.
與傳統(tǒng)的以控制被控對象的狀態(tài)為目標的控制算法不同,認知控制思想的目標是通過對系統(tǒng)有向信息流的調整,來減小由具體任務定義的信息間隙[11].通過減小信息間隙,提高在非結構化的環(huán)境中運行的控制系統(tǒng)的性能.認知控制系統(tǒng)的結構框圖如圖1所示.認知控制系統(tǒng)由感知部分、控制部分、工作記憶(working memory)、系統(tǒng)和環(huán)境組成[11].為避免混淆,認知控制系統(tǒng)中的“系統(tǒng)”在本文中稱為廣義的被控對象.值得注意的是,圖1中的認知控制系統(tǒng)是一個抽象的框架,其中的箭頭及結構可以根據具體的應用進行裁剪[11].圖1所示的認知控制系統(tǒng)的工作過程概述如下:感知部分的感知器聯(lián)合感知記憶,對來自于廣義的被控對象和環(huán)境的感知測量信息進行處理,然后把處理后的信息反饋給認知控制系統(tǒng)的控制部分.控制部分中的認知控制器利用感知部分反饋的信息進行學習,并對環(huán)境、廣義的被控對象及物理控制器產生認知作用(cognitive action).物理控制器產生物理作用(physical action)作為廣義的被控對象的輸入.廣義的被控對象和環(huán)境由于認知控制器和物理控制器的激勵而產生變化.此時,認知控制系統(tǒng)完成了一個感知-作用循環(huán)(perception-action cycle).認知控制器在不斷的感知-作用循環(huán)中學習產生認知作用的策略.
圖1 Simon Haykin提出的認知控制系統(tǒng)框架[11]Fig.1 The cognitive control framework proposed by Simon Haykin[11]
本文把認知控制思想應用到WNCS中,設計的WNCS如圖2所示.圖2中的WNCS由全向輪移動機器人(簡稱移動機器人,即圖1 中的“廣義的被控對象”)、無線網絡環(huán)境、感知部分和控制部分組成.WNCS 的工作過程分為2 個子過程:①感知過程;②控制過程.這2個子過程構成了WNCS的基本工作過程:感知-作用循環(huán).
在概述WNCS的感知-作用循環(huán)之前,首先說明WNCS使用的時間戳機制.設控制系統(tǒng)的當前時刻k為傳感器發(fā)送的數據包的時間戳,k=0,ΔT,2ΔT,···,其中ΔT是傳感器的采樣間隔.由于無線網絡中存在時延和丟包的現象,到達感知部分的數據包并不是傳感器在當前時刻k發(fā)送的,而是在時刻k之前的某個觸發(fā)時刻k′發(fā)送的,所以感知部分收到的數據包的時間戳為k′,且有k′<k.同理,設移動機器人的緩存模塊收到的數據包的時間戳為k′′,則有k′′<k′.最后k,k′,k′′三者的關系為:k >k′>k′′.
圖2 基于認知控制思想設計的WNCSFig.2 WNCS designed based on the idea of cognitive control
以時間戳機制為基礎,WNCS的感知-作用循環(huán)過程概述如下:①感知過程:在觸發(fā)時刻k,傳感器把SEN(k)={ub(k),x(k),p(k)}送入網絡,其中:ub(k)為執(zhí)行器的輸入信號,x(k)為移動機器人的離散動態(tài)模型式(3)中的狀態(tài)(請見第4部分),p(k)為移動機器人的位置及姿態(tài).傳感器之所以發(fā)送信號ub(k),是因為物理控制器需要利用信號ub(k)和狀態(tài)x(k)計算移動機器人下一時刻的狀態(tài)(請見第6.3節(jié)).由WNCS的時間戳機制可知,感知部分收到的數據包的時間戳為k′,所以設感知部分收到的數據包中的信息為SEN(k′).在感知部分收到信息SEN(k′)后,它聯(lián)合感知記憶存儲的歷史信息MEM,利用時間戳k′得到網絡的狀態(tài)snet和信息間隙h(請見第5.2 節(jié)).感知器把SEN(k′)中的移動機器人的狀態(tài)x(k′)、執(zhí)行器在時刻k′的輸入信號ub(k′)送入物理控制器,把移動機器人的位置及姿態(tài)p(k′)傳給參考信號產生器;②控制過程:認知控制器由信息間隙h、網絡的狀態(tài)snet產生認知作用,來調節(jié)物理控制器的命令序列長度al、無線網絡MAC層的重傳次數上限ar.參考信號產生器產生速度參考信號Rv(k′)并把它傳給物理控制器,物理控制器由信號Rv(k′),x(k′),ub(k′),al產生控制命令序列U(k′)并把它發(fā)送到網絡中.由WNCS的時間戳機制可知,移動機器人的緩存模塊收到的數據包的時間戳為k′′,所以這里使用U(k′′)表示移動機器人收到的信息.在移動機器人的緩存模塊收到U(k′′)后,把其中的控制命令ub(k)傳給執(zhí)行器,執(zhí)行器驅動移動機器人運動.
本文設計的WNCS的工作細節(jié)在第4部分到第6部分給出,其中:第4部分介紹了移動機器人的動態(tài)特性數學模型及其工作細節(jié);第5部分描述了感知部分的工作細節(jié);第6部分展示了控制部分的工作細節(jié).
本部分首先介紹全向輪移動機器人的動態(tài)特性數學模型,然后給出全向輪移動機器人的緩存模塊及傳感器的工作過程.
本文使用文獻[21]中的三輪移動機器人作為被控對象.圖3為移動機器人的結構示意圖,v(t)和vn(t)分別表示全向輪移動機器人的前進速度和側向速度的大小,w(t)為轉動角速度的大小.
圖3 三輪全向輪移動機器人的結構示意圖[21]Fig.3 The structure of omnidirectional three wheels mobile robot[21]
圖3中:σ為移動機器人側向速度與其中心點P到第3個車輪所在射線的夾角,σ固定為30°.xp(t),yp(t)表示移動機器人中心點P的橫坐標和縱坐標,θp(t)表示移動機器人與地面坐標系x軸之間的夾角,移動機器人的位置及姿態(tài)用p(t)=[xp(t) yp(t) θp(t)]T表示.全向輪移動機器人的動態(tài)特性數學模型由式(1)給出[21]:
其中:x(t)=[v(t) vn(t) w(t)]T,u(t)=[u1(t) u2(t)u3(t)]T為移動機器人3 個馬達的輸入電壓,y(t)=x(t)是移動機器人的模型的輸出,sgn(·)是符號函數,矩陣A,B,K的具體數值以及移動機器人的各個參數的數值請見文獻[21].由于移動機器人的動態(tài)特性模型式(1)中帶有非線性項sgnx(t),可令u(t)=uf(t)+ub(t)進行反饋線性化[21],其中uf(t)=-B-1K·sgnx(t).把u(t)代入式(1)可得
進而可以把式(2)變換為如式(3)所示的離散形式:
移動機器人的緩存模塊用新得到的物理控制器的命令序列覆蓋原本存儲于其中的命令序列.執(zhí)行器為時間驅動,在執(zhí)行器的觸發(fā)時刻k,設緩存模塊中的命令序列為U(k′′)={ub(k′′+1|k′′),ub(k′′+2|k′′),···,ub(k′′+al|k′′)},其中al是物理控制器的命令序列長度(控制命令的計算過程請見第6.3節(jié)).緩存模塊根據以下方法取出控制命令序列U(k′′)中的命令:①如果k′′+al<k,即U(k′′)中不存在時刻k的命令,那么使用零輸入策略,即ub(k)=0;②如果k′′+al≥k,即U(k′′)中存在時刻k的命令,則ub(k)=ub(k|k′′).緩存模塊取出命令ub(k)后,把它送給執(zhí)行器來驅動移動機器人運動.需要強調的是,本文設計的WNCS的目標是控制移動機器人跟蹤給定的正弦參考軌跡,緩存模塊采取“零輸入策略”比“保持策略”具有更好的控制效果.因為在無線網絡環(huán)境的時延和丟包比較嚴重時,零輸入策略會讓移動機器人失去動力,它會停在參考軌跡附近,而保持策略會繼續(xù)驅動移動機器人運動.這會使它嚴重地偏離正弦參考軌跡,所以本文采用了零輸入策略.
設移動機器人的傳感器可以測得其位置及姿態(tài)信號p(k)=[xp(k) yp(k) θp(k)]T.在觸發(fā)時刻k,傳感器得到執(zhí)行器的輸入信號ub(k)、移動機器人的狀態(tài)x(k)及移動機器人的位置及姿態(tài)p(k)后,把信息SEN(k)={ub(k)x(k)p(k)}送入網絡.
由于感知部分需要測量無線網絡的丟包率及時延,本部分首先介紹無線網絡的丟包率和數據包重傳機制的關系,然后描述感知部分對無線網絡環(huán)境的感知過程.
本文使用的無線網絡協(xié)議符合IEEE 802.11g 標準.與有線網絡相比,雖然無線網絡的丟包現象比較嚴重,但是無線網絡的MAC層的重傳機制可以有效地降低WNCS的丟包率.因為一旦數據包在MAC層傳輸失敗,MAC層會對丟失的數據包進行重傳,直到數據包傳輸成功或者重傳次數達到設定的上界.如果MAC層成功地重傳了數據包,那么對于WNCS而言,相當于這個數據包沒有丟失,所以MAC層重傳數據包的機制會減小無線網絡的丟包率.
但是MAC層的重傳次數上限不是越高越好.如果MAC層的重傳次數上限過高,那么MAC層會對丟失的數據包進行大量地重傳,這會增加網絡的負擔,并有可能造成網絡的擁塞.如果網絡產生了擁塞,那么網絡控制系統(tǒng)將會癱瘓.大量地重傳數據包還會增加數據包的時延,而這對實時性要求較高的控制系統(tǒng)而言是無價值且不利的.
感知部分的感知器只接收最新的數據包.假設新得到的數據包中的信息為SEN(k′)={ub(k′),x(k′),p(k′)}.在接收到數據包后,感知器由現在的時間tc及時間戳k′計算數據包從傳感器到感知器的時延τsp=tc-k′,并把時間戳k′傳給感知記憶.感知記憶中存儲的時間戳集合用PM表示.在感知部分收到數據包后,感知記憶把時間窗口N中的時間戳的集合MEM={i|kc-N+1≤i≤kc,i∈PM}傳給感知器(若kc-N+1<0,則MEM={i|0 ≤i ≤kc,i ∈PM}),其 中kc為與現在的時間tc最近且小于tc的傳感器觸發(fā)時刻.感知器利用MEM由式(4)計算WNCS的丟包率
其中I(i)用來指示時間戳i是否屬于MEM;若屬于,則I(i)=1,否則I(i)=0.
有了估算的WNCS的丟包率ploss及時延τsp,就可以對網絡環(huán)境的狀態(tài)進行表示.設網絡的狀態(tài)為snet=f(ploss,τsp),其中函數f是一個非減函數,且有理想的網絡狀態(tài)=f(0,0)=0,這里使用函數
把ploss和τsp映射到范圍在0和1之間的網絡狀態(tài)snet.一般地,丟包率越高,時延越長代表網絡的狀態(tài)越差.式(5)表示的是時延、丟包到網絡狀態(tài)的映射關系,意在表示網絡的狀態(tài)越好,其對應的時延和丟包率越小;網絡的狀態(tài)越差,對應的時延和丟包率越大.如果考慮網絡其他的不利因素,可以根據經驗或者其他依據設計式(5),表達網絡的狀態(tài)和不利因素的關系.
定義1信息間隙h為感知器得到的通信網絡的狀態(tài)snet和理想的網絡的狀態(tài)之間的差,即h=
這里定義的信息間隙本質上代表了網絡環(huán)境的優(yōu)劣.信息間隙h越大,它所代表的網絡環(huán)境越惡劣.為了提高網絡控制系統(tǒng)的控制效果,根據第5.1節(jié)對無線網絡環(huán)境的分析,可以通過認知控制器調節(jié)MAC層的重傳次數上限來減小WNCS的丟包率和時延.這樣就減小了本部分定義的信息間隙,而認知控制的目標即是減小由具體任務定義的信息間隙.認知控制器的細節(jié)在第6.1節(jié)給出.
最后,感知部分把執(zhí)行器的輸入ub(k′)、移動機器人的狀態(tài)x(k′)傳給物理控制器,把移動機器人的位置及姿態(tài)p(k′)傳給參考信號產生器,把網絡狀態(tài)snet和信息間隙h發(fā)送給認知控制器.
本部分首先描述認知控制器的工作過程,參考信號產生器的工作細節(jié)在第6.2節(jié)給出.第6.3節(jié)展示了物理控制器的工作過程.
本文采用Q學習算法作為認知控制器的算法.認知控制器的輸入是感知部分傳來的網絡的狀態(tài)snet和信息間隙h,其中:信息間隙h用來計算認知控制器的回報,網絡的狀態(tài)snet用來確定認知控制器的狀態(tài).認知控制器產生的認知作用為a=(ar,al).
由式(5)可知,snet越大表示網絡的時延及丟包越嚴重.本文把snet的取值范圍劃分為4個區(qū)間,每個區(qū)間對應認知控制器的一個狀態(tài),如表1所示.認知控制器可以根據其狀態(tài)產生相應的認知作用,調節(jié)WNCS的MAC層重傳次數上限和物理控制器的命令序列長度,提高WNCS對網絡的時延和丟包的承受能力.
表1 網絡的狀態(tài)snet所在的區(qū)間、網絡的時延和丟包的嚴重程度定性描述、認知控制器的狀態(tài)的對應關系Table 1 The relationship between the interval of network state snet,qualitative description of severity of the network delay and packet loss and the state of cognitive controller
認知控制器產生的認知作用集合為Ac={(al,ar)|al∈AL,ar∈AR},其中:AR={2,4,6,8},AL={2,4,8,16}.這樣設計的原因是:①Q 學習算法的動作空間應該盡量的小,這有利于認知控制器快速地學習產生認知作用的策略;②對于實時性要求較高的控制系統(tǒng)而言,MAC層的重傳次數上限不宜過高;③物理控制器的命令序列長度過長會增加物理控制器的計算負擔,過短則難以起到預測的效果.為了減小動作空間的大小,集合AR中的重傳次數上限采用偶數次.為了使MAC層的重傳次數上限不至于過高,設定最大的重傳次數上限為8次.由于物理控制器的命令序列過長會增加物理控制器的計算負擔,所以設置它的命令序列長度最長為16.同樣為了減小動作空間的大小,AL中的物理控制器命令序列長度為2的指數次.
使用Q學習算法實現認知控制器的目的是減小第5.2節(jié)定義的信息間隙,所以設計Q學習算法的回報為
其中:h′表示認知控制器在上一個感知-作用循環(huán)中得到的信息間隙;μ的值為0.1,用來防止當h接近0時,回報的絕對值變得很大.這樣設計回報的原因是:可以通過回報的符號(即,正:獎勵;負:懲罰)使認知控制器產生合適的認知作用.
對于認知控制器在狀態(tài)s做出的每個動作a=(al,ar),認知控制器可由式(6)得到相應的回報r、由表1的對應關系得到狀態(tài)s′,認知控制器利用式(7)[22]來更新Q(s,a):
其中:α是學習率,γ是折扣因子,α′是使Q(s′,a′)的值最大的認知作用.最后,認知控制器由式(8)產生認知作用:
其中Ac為認知控制器的認知作用的集合.
顧名思義,參考信號產生器的功能是由移動機器人的位置及姿態(tài)p(k′)產生適合的物理控制器的速度參考信號Rv(k′).
參考信號產生器中預先設定的正弦軌跡參考點如式(9)所示.
圖4 參考信號產生器選擇軌跡參考點Fig.4 Reference signal generator choosing trajectory reference points
需要注意的是,在下一次參考信號產生器選擇軌跡參考點時,它是接著從第nk′個軌跡參考點開始判斷移動機器人與軌跡參考點的距離是否小于ls的.按照這種方法選出的軌跡參考點會在移動機器人的前方引導它前進.使用閾值ls是由于網絡的時延和丟包現象導致參考信號產生器得到的信息p(k′)不是實時信息.因為在參考信號產生器得到信息p(k′)時,移動機器人已經向前走了小段的距離,所以在選擇軌跡參考點時,應該留有一定的裕量.在選定Np個軌跡參考點后,參考信號產生器用式(10)和式(11)[21]來計算物理控制器的參考信號
物理控制器中運行的控制算法是模型預測控制算法[23],預測模型為式(3).在得到反饋的狀態(tài)x(k′)和k′時刻執(zhí)行器的輸入ub(k′)后,物理控制器首先利用式(3)求出k′+1時刻的移動機器人的狀態(tài)x(k′+1).這是因為移動機器人在k′時刻已經輸入了ub(k′),計算k′時刻的控制命令已經沒有意義.
在得到信號Rv(k′),x(k′),ub(k′),al后,物理控制器使用模型預測控制算法計算它的命令序列.模型預測控制算法中預測時域(predictive horizon)的長度(即參考信號序列的長度)為Np;控制時域(control horizon)的長度(即物理控制器命令序列的長度al)由認知控制器調節(jié).模型預測控制算法表示為[23]
其中:Q=100I,R=I.式(12)是一個二次規(guī)劃問題,可以通過“內點法”進行求解.最后,物理控制器得到的控制命令序列為U(k′)={ub(k′+1|k′),ub(k′+2|k′),···,ub(k′+al|k′)}.
在無線網絡的時延和丟包較輕時,使用較短的物理控制器命令序列可以減小物理控制器的計算負擔;在無線網絡的時延和丟包比較嚴重時,增加物理控制器的命令序列長度對網絡的時延和丟包具有一定的補償作用.所以,物理控制器的命令序列長度需要認知控制器根據網絡的狀態(tài)來進行調節(jié).
本部分使用70%,80%,90%的MAC層丟包率及相應的網絡時延來近似地表示非結構化的無線網絡環(huán)境.在此網絡環(huán)境下,對比兩種配置的WNCS的仿真結果,這兩種配置為:①使用固定的MAC層重傳次數上限和固定的物理控制器命令序列長度(請見第7.1節(jié));②使用認知控制器調節(jié)MAC層重傳次數上限和物理控制器命令序列長度(請見第7.2節(jié)).通過第7.1節(jié)和第7.2節(jié)中移動機器人跟蹤正弦參考軌跡的控制效果及相對應的網絡狀態(tài)的比較,展示了在WNCS中加入認知控制器的有效性,即通過調節(jié)MAC層重傳次數上限和物理控制器的命令序列長度,減小了第5.2節(jié)定義的信息間隙,降低了非結構化的網絡環(huán)境對WNCS的控制性能的影響,提高了WNCS對非結構化的網絡環(huán)境的時延和丟包的承受能力.
本文使用Truetime工具箱進行WNCS的仿真.在仿真中,移動機器人的初始位置是世界坐標系的原點.移動機器人與世界坐標系x軸的夾角初始值為0°.傳感器的采樣間隔ΔT為0.01 s.關于移動機器人的參數請見文獻[21].無線網絡的數據率為54 Mb/s.感知器估計丟包率的時間窗口N為50.參考信號產生器中預先設定的參考軌跡為式(9)所示的正弦參考軌跡,其中:Δ d 為0.005 m;參考信號產生器中的閾值ls為0.05 m;選取的軌跡參考點的個數Np為20;式(7)中的學習率α為0.1;折扣因子γ為0.9.
由于運動控制系統(tǒng)要求較高的采樣率,而符合IEEE 802.11g 標準的無線網絡的數據率可以達到54 Mb/s,這為傳感器0.01 s的采樣間隔提供了保障.在感知部分估計網絡的丟包率時,采用過長的時間窗口會使估計過程變慢;如果時間窗口過短則導致估計的丟包率不準確,所以選擇N為50.由于在參考軌跡上取足夠多的軌跡參考點才能讓這些參考點逼近連續(xù)的參考軌跡,所以式(9)中Δd為0.005 m.移動機器人在一個采樣周期中前進的距離d≈vnavΔT=0.005 m.由第6.2節(jié)所述,這里選擇ls為0.05 m大約可以預留10個采樣周期中移動機器人前進距離的裕量,目的是保持軌跡參考點在移動機器人的前方引導它前進.如果ls選擇的過大,則在參考軌跡曲率較大的轉角處,移動機器人無法精確地跟蹤參考軌跡;Np的數值過大會增加模型預測控制算法的計算負擔,又因為在模型預測控制算法中,Np需要大于最長的控制時域的長度,即al的最大值16,所以這里選擇Np為20.在Q學習算法中,折扣因子γ的取值范圍是0到1,γ越大,未來的回報的權重越大.如果選擇的學習率α的值過大,會使Q學習算法不穩(wěn)定[22],所以這里選擇γ為0.9,α為0.1.
因為MAC層的重傳機制可以降低WNCS的丟包率,但是重傳次數過大會增大網絡的時延、負荷,所以在集合AR中選擇ar為6;物理控制器的命令序列長度過長會增大控制器的計算量,過短則難以起到預測的效果,所以在集合AL中選擇al為8.
下面將結合表2和圖5-7,按照MAC層丟包率增大的順序分析WNCS的仿真結果.
表2 MAC層丟包率、WNCS的丟包率、移動機器人與參考軌跡的距離均值的對應關系(al=8,ar=6)Table 2 The relationship between packet loss probability of MAC layer,packet loss probability of WNCS and average distance between the mobile robot and reference trajectory(al=8,ar=6)
圖5 移動機器人跟蹤正弦參考軌跡的仿真結果(al=8,ar=6,MAC層的丟包率設為70%)Fig.5 Simulation result that the mobile robot tracking sinusoidal reference trajectory(al=8,ar=6,and packet loss probability of the MAC layer is set as 70%)
圖6 移動機器人跟蹤正弦參考軌跡的仿真結果(al=8,ar=6,MAC層的丟包率設為80%)Fig.6 Simulation result that the mobile robot tracking sinusoidal reference trajectory(al=8,ar=6,and packet loss probability of the MAC layer is set as 80%)
圖7 移動機器人跟蹤正弦參考軌跡的仿真結果(al=8,ar=6,MAC層的丟包率設為90%)Fig.7 Simulation result that the mobile robot tracking sinusoidal reference trajectory(al=8,ar=6,and packet loss probability of the MAC layer is set as 90%)
從表2可以看出:在MAC層丟包率為70%時,MAC層的重傳機制可以把WNCS的丟包率降至12.59%;移動機器人與參考軌跡的距離均值為0.0226 m.
在圖5(a)中,移動機器人可以令人滿意地跟蹤給定的正弦參考軌跡.在圖5(b)中,傳感器到感知器的時延低于0.07 s.在圖5(c)中,移動機器人的橫坐標xp(t)和縱坐標yp(t)可以較好地跟蹤它們的參考值和,沒有出現由于時延和丟包使移動機器人停止前進的情況.在圖5(c)的第3個子圖中,在參考軌跡的轉角處,變化很快,移動機器人與世界坐標系x軸的夾角θp(t)跟蹤需要一定的時間.在圖5及之后的仿真圖中,在正弦參考軌跡曲率較大的轉角處,移動機器人與參考軌跡的距離有所增加.這是由第6.2節(jié)中參考信號產生器產生速度參考信號的機制造成的,即為了防止由于網絡的時延或丟包造成移動機器人的軌跡參考點位于其后方,使用移動機器人前方ls=0.05 m的軌跡參考點來引導移動機器人前進.而這0.05 m的裕量,導致了在參考軌跡轉角處,移動機器人與參考軌跡的距離的增加.
在MAC層的丟包率為80%時,由表2可知,固定為6的MAC層重傳次數上限雖然也可以降低WNCS的丟包率,但是WNCS的丟包率已經達到了46.14%,移動機器人與參考軌跡的距離均值也相應地增大到0.0392 m.從圖6(a)可以看出,移動機器人依然可以跟蹤參考軌跡.由圖6(b)可知,大約在1 s附近、2 s到4 s、9 s到11 s,無線網絡的時延增加.在圖6(c)中相應的時間段,xp(t),yp(t),θp(t)的數值保持不變.這說明因為無線網絡狀態(tài)變差,導致移動機器人得不到物理控制器的命令,使移動機器人停止了前進.由圖6的仿真結果可以看出,無線網絡MAC層丟包率增加到80%,導致WNCS控制移動機器人跟蹤參考軌跡的性能下降,但WNCS依然可以完成移動機器人的控制任務.
在無線網絡的MAC層丟包率為90%時,由表2可知,WNCS的丟包率達到了96.84%.這是由于大量的數據包的丟失使MAC層大量地重傳丟失的數據包,最終導致了網絡的擁塞.由圖7(a)可以看出,WNCS已經無法控制移動機器人跟蹤參考軌跡.在圖7(b)中,網絡的時延呈現出不可接受的線性增長.圖7(c)表明,移動機器人在大約0.5 s時,由于網絡的擁塞而停止了運動.所以,對于MAC層丟包率為90%的情形,MAC層重傳次數上限固定為6次、物理控制器命令序列長度固定為8的配置顯然是不合適的.
綜合分析表2和圖5-7的仿真結果,可以看出在無線網絡MAC層的丟包率為70%時,設置ar固定為6可以顯著地降低WNCS的丟包率.但是在無線網絡MAC層的丟包率為80%時,設置al為6會導致WNCS對丟失的數據包進行大量地重傳,這加重了無線網絡的負擔.長度固定為8的物理控制器命令序列不能有效地克服網絡的時延和丟包,導致移動機器人多次失去動力.MAC層丟包率為90%時,使用固定配置的WNCS產生了網絡擁塞.所以,使用固定的MAC層重傳次數上限和物理控制器命令序列長度具有局限性.
為了克服WNCS使用固定的MAC層重傳次數上限和固定的物理控制器命令序列長度的缺點,本文在WNCS中加入認知控制器來調節(jié)MAC層的重傳次數上限和物理控制器的命令序列長度.
本文依然按照MAC層丟包率增大的順序,結合圖8-10和表3對WNCS的仿真結果進行分析.首先,由表3 中的數據可以看出,在MAC 層的丟包率為70%,80%,90%情形下,WNCS沒有出現網絡擁塞的狀況.這說明認知控制器通過調節(jié)MAC層重傳次數上限和物理控制器命令序列長度避免了網絡的擁塞.
在MAC層的丟包率為70%時,表3中的WNCS的丟包率大于表2中的相應的丟包率.表3中的移動機器人與參考軌跡的距離均值要比表2中相應的距離均值小0.0085 m.對比圖8(a)和圖5(a)、圖8(c)和圖5(c)可以看出,兩種配置的WNCS控制移動機器人跟蹤正弦參考軌跡的控制效果相差很小.圖8(b)中傳感器到感知器的時延小于圖5(b)中的時延;圖8(d)是認知控制器調節(jié)MAC層重傳次數上限ar和物理控制器命令序列長度al的過程.從圖8(d)可以看出,在認知控制器的調節(jié)下,大部分時間al的值為4,ar的值為4,可見物理控制器的命令序列長度al為4足夠克服WNCS的70%的MAC層丟包率及對應的時延.
圖8 移動機器人跟蹤正弦參考軌跡的仿真結果(使用認知控制器調節(jié)ar和al,MAC層丟包率為70%)Fig.8 Simulation result that the mobile robot tracking sinusoidal reference trajectory(ar and al are adjusted by cognitive controller,and packet loss probability of the MAC layer is set as 70%)
在MAC 層的丟包率為80%時,表3 中WNCS 的丟包率為35.03%,而表2 中對應的WNCS的丟包率為46.14%.可見使用認知控制器調節(jié)MAC層的重傳次數上限和物理控制器的命令序列長度,可以使WNCS的丟包率降低11%左右.表3中的移動機器人與參考軌跡的距離均值比表2中相應的值小0.0255 m.圖9(a)和圖6(a)中,移動機器人都可以跟蹤正弦參考軌跡.對比圖9(b)和圖6(b)可以看出,圖9(b)的時延要明顯小于圖6(b)的時延.從圖9(c)可以看出,移動機器人沒有出現因為失去動力而停止前進的情況;而圖6(c)中,移動機器人出現了多次失去動力的情形.由圖9(d)可知,ar大部分時間為4,al大部分時間為16.圖9和圖6的仿真結果表明:對于高達80%的MAC層丟包率,MAC層重傳大量的數據包不但沒有顯著地減小WNCS的丟包率,還增加了網絡的時延.這是因為重傳大量的數據包會增加網絡的負擔.認知控制器選擇ar為4,al為16,一方面減小了數據包的重傳次數,這減小了網絡的負荷;另一方面增加了物理控制器的命令序列長度,這提高了WNCS對網絡時延和丟包的承受能力.由仿真結果可以看出,認知控制器通過調節(jié)MAC層的重傳次數上限和物理控制器的命令序列長度,改善了網絡的狀態(tài),進而減小了第5.2 節(jié)定義的信息間隙,提高了WNCS控制移動機器人跟蹤參考軌跡的性能.
圖9 移動機器人跟蹤正弦參考軌跡的仿真結果(使用認知控制器調節(jié)ar和al,MAC層丟包率為80%)Fig.9 Simulation result that the mobile robot tracking sinusoidal reference trajectory(ar and al are adjusted by cognitive controller,and packet loss probability of the MAC layer is set as 80%)
表3 MAC層的丟包率、WNCS的丟包率及移動機器人與參考軌跡的距離均值的對應關系(使用認知控制器)Table 3 The relationship between packet loss probability of MAC layer,packet loss probability of WNCS and average distance between the mobile robot and reference trajectory(using cognitive controller)
對于無線網絡更加嚴酷的90%的MAC層丟包率,由第7.1節(jié)可知:使用固定配置的WNCS的網絡發(fā)生了擁塞,WNCS無法控制移動機器人運動.表3中的WNCS的丟包率為60.19%,可見認知控制器的調節(jié)作用大幅降低了WNCS的丟包率.圖10表明,在WNCS中加入認知控制器可以避免這一問題.從圖10(a)和圖10(c)可以看出,控制系統(tǒng)依然可以控制移動機器人跟蹤參考軌跡.圖10(b)中的時延沒有出現線性增長.由圖10(d)可以看出,在WNCS運行過程中,ar的值大部分時間是4,al大部分時間為16.與MAC層丟包率為80%的情形相同,這一方面減小了網絡的負荷,另一方面提高了WNCS對時延和丟包的承受能力.圖10的仿真結果表明,在MAC層丟包率為90%的情形下,認知控制器調節(jié)MAC層重傳次數上限和物理控制器命令序列長度,改善了WNCS的無線網絡環(huán)境,減小了信息間隙,提高了WNCS對無線網絡環(huán)境的時延和丟包的承受能力.
圖10 移動機器人跟蹤正弦參考軌跡的仿真結果(使用認知控制器調節(jié)ar和al,MAC層丟包率為90%)Fig.10 Simulation result that the mobile robot tracking sinusoidal reference trajectory(ar and al are adjusted by cognitive controller,and packet loss probability of the MAC layer is set as 90%)
綜合第7.1節(jié)和第7.2節(jié)的仿真結果可以看出:在WNCS中加入認知控制器調節(jié)MAC層的重傳次數上限和物理控制器的命令序列長度,增強了WNCS對網絡時延和丟包的承受能力,降低了WNCS的丟包率和時延,進而改善了第5.2節(jié)定義的網絡狀態(tài),減小了信息間隙.這為WNCS控制移動機器人運動提供了較好的網絡環(huán)境,有利于提高WNCS控制移動機器人跟蹤參考軌跡的性能.
本文受啟發(fā)于Simon Haykin提出的認知控制思想,用70%,80%,90%的MAC層丟包率及相應的網絡時延來近似非結構化的無線網絡環(huán)境.按照Simon Haykin提出的認知控制系統(tǒng)框架,設計了包含認知控制器的WNCS.通過對比使用固定配置的WNCS 的仿真結果和加入認知控制器的WNCS的仿真結果,得出認知控制器通過調節(jié)MAC層的重傳次數上限和物理控制器的命令序列長度,增強了WNCS對無線網絡環(huán)境的時延和丟包的承受能力,降低了WNCS的丟包率和時延,改善了網絡的狀態(tài),減小了本文定義的信息間隙,提高了WNCS控制移動機器人跟蹤給定正弦參考軌跡的性能.
然而,網絡控制系統(tǒng)面臨的不僅僅是網絡環(huán)境的時延和丟包問題.如何應用認知控制思想來同時處理更多的網絡的不理想的特性,如量化誤差、時序錯亂、時延及丟包,是一個挑戰(zhàn)性的問題.