林俊亭,閔曉琴,王海斌,梁化典
(1.蘭州交通大學(xué)自動(dòng)化與電氣工程學(xué)院,蘭州 730070;2.中航電測(cè)儀器股份有限公司,西安 710119)
現(xiàn)有的列車運(yùn)行控制系統(tǒng)(簡(jiǎn)稱列控系統(tǒng))為列車正常運(yùn)行提供安全性保障,但由于列控系統(tǒng)在運(yùn)行過程中受到人為、環(huán)境和技術(shù)等多種因素的影響,使得列車在運(yùn)營(yíng)過程中的碰撞風(fēng)險(xiǎn)無法完全避免.對(duì)策論適用于分析對(duì)策對(duì)象在運(yùn)動(dòng)狀態(tài)下的矛盾與沖突問題,滿足軌道交通運(yùn)營(yíng)中列車與列車安全間隔控制及碰撞防護(hù)的需求,因此,可通過利用微分對(duì)策理論方法實(shí)現(xiàn)對(duì)列車運(yùn)行過程中的安全性分析,但微分對(duì)策問題具有明顯的非線性特征,且對(duì)策初值影響求解結(jié)果,目前常用的思路是利用數(shù)字迭代求解[1],這在一定程度上阻礙了微分對(duì)策方法的應(yīng)用.將神經(jīng)網(wǎng)絡(luò)(neural networks,NN)引入微分對(duì)策問題對(duì)于簡(jiǎn)化微分對(duì)策的計(jì)算過程極為有效,利用神經(jīng)網(wǎng)絡(luò)方法得出局中人各自的最優(yōu)途徑,從而合成系統(tǒng)最優(yōu)解.關(guān)于微分對(duì)策理論與自適應(yīng)神經(jīng)網(wǎng)絡(luò)的研究中,文獻(xiàn)[2]將運(yùn)行列車視為具有自主意識(shí)的“智能體”,利用定性微分對(duì)策方法實(shí)現(xiàn)列車碰撞防護(hù)方法的分析與計(jì)算,并提出列車運(yùn)行避碰策略;文獻(xiàn)[3]提出一種自適應(yīng)神經(jīng)網(wǎng)絡(luò)的控制方法,實(shí)現(xiàn)了對(duì)未知?jiǎng)恿W(xué)非線性系統(tǒng)的精確和魯棒控制;文獻(xiàn)[4]針對(duì)多目標(biāo)對(duì)策場(chǎng)景,提出了一種基于信息不完全狀態(tài)下的微分對(duì)策制導(dǎo)方法;文獻(xiàn)[5]所設(shè)計(jì)的基于神經(jīng)網(wǎng)絡(luò)算法的微分對(duì)策狀態(tài)觀測(cè)器,可評(píng)估不確定非線性微分對(duì)策系統(tǒng)模型;文獻(xiàn)[6]研究了具有不對(duì)稱信息和信號(hào)顯示的二人零和微分博弈值的存在性,并根據(jù)方向?qū)?shù)和微分對(duì)策得到了支付函數(shù)的表征;文獻(xiàn)[7]提出一種基于多組并行深度Q網(wǎng)絡(luò)的連續(xù)空間追逃博弈算法,以解決維數(shù)災(zāi)難不足以及離散動(dòng)作集自學(xué)習(xí)復(fù)雜問題.結(jié)合以上研究,本文將神經(jīng)網(wǎng)絡(luò)與微分對(duì)策理論相結(jié)合,解決應(yīng)用微分對(duì)策分析列車避碰時(shí)所面臨的雙邊極值求解難題,從而為微分對(duì)策在軌道交通領(lǐng)域中的列車避碰策略研究及應(yīng)用提供理論參考.
微分對(duì)策理論根據(jù)分類條件可以分為不同類型的對(duì)策方法,且隨著該理論的不斷成熟與發(fā)展,針對(duì)對(duì)策環(huán)境的不同,微分對(duì)策方法發(fā)展衍生出各自對(duì)應(yīng)的解析過程[8].本文考慮二人離散微分對(duì)策問題,其通用解法描述如下:
其中:x(k)表示系統(tǒng)在 k時(shí)刻的對(duì)策系統(tǒng)狀態(tài);u(k),v(k)表示二人微分對(duì)策系統(tǒng)中k時(shí)刻的對(duì)策雙方的控制量.此時(shí)對(duì)策雙方的對(duì)策函數(shù)可表示為
其中:k=0,1,…,N-1;λ為協(xié)態(tài)向量,滿足
終端條件為
此時(shí),對(duì)策雙方最優(yōu)策略滿足:
從上述的推導(dǎo)過程可以看出:在利用微分對(duì)策理論求解有關(guān)最優(yōu)解問題時(shí),由于局中人針對(duì)不同的對(duì)策環(huán)境均有各自的策略;因此,求解Hamiltonian函數(shù)的過程中邊值問題極為重要,且針對(duì)局中人不同的初始運(yùn)行條件有不同的計(jì)算方法和過程,求解過程較為復(fù)雜且繁瑣[9],故本文采用神經(jīng)網(wǎng)絡(luò)結(jié)合微分對(duì)策計(jì)算方法,解決上述遇到的問題.
目前常用的神經(jīng)網(wǎng)絡(luò)自適應(yīng)控制方法可分為模型參考自適應(yīng)控制和自校正控制[10].對(duì)于上述所提到的兩種控制方案,針對(duì)其結(jié)構(gòu)不同又可以分為直接型和間接型,結(jié)構(gòu)分別如圖1~4所示.其中:NNI表示網(wǎng)絡(luò)辨識(shí)器(neural network identifier),而NNC表示網(wǎng)絡(luò)控制器(neural network controller).
圖1 神經(jīng)網(wǎng)絡(luò)模型參考直接自適應(yīng)控制Fig.1 Neural network model reference direct adaptive control
本文所采用的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器是基于微分對(duì)策理論所得到的Hamiltonian函數(shù),圖5表示為自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器的一般性結(jié)構(gòu).由圖5可知,該控制器主要由3個(gè)神經(jīng)網(wǎng)絡(luò)以及對(duì)策系統(tǒng)方程構(gòu)成:神經(jīng)網(wǎng)絡(luò)的作用是求解微分對(duì)策計(jì)算過程中遇到的雙邊極值問題;對(duì)策系統(tǒng)表達(dá)式為微分對(duì)策理論對(duì)分析對(duì)象的初始狀態(tài)運(yùn)動(dòng)方程推理所得.3個(gè)神經(jīng)網(wǎng)絡(luò)模塊中,UNN(k)和 VNN(k)為系統(tǒng)控制網(wǎng)絡(luò),λNN(k+1)為系統(tǒng)協(xié)態(tài)神經(jīng)網(wǎng)絡(luò)[11].
圖2 神經(jīng)網(wǎng)絡(luò)模型參考間接自適應(yīng)控制Fig.2 Neural network model reference indirect adaptive control
圖3 神經(jīng)網(wǎng)絡(luò)直接自校正控制Fig.3 Neural network direct self-adjusting control
圖4 神經(jīng)網(wǎng)絡(luò)間接自校正控制Fig.4 Neural network indirect self-adjusting control
分析圖5所示的自適應(yīng)評(píng)判神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖可知:λNN(k+1)所代表的模塊為協(xié)態(tài)網(wǎng)絡(luò),該模塊通過完成對(duì)式(4)的學(xué)習(xí)從而求解協(xié)態(tài)向量λ;UNN(k)和VNN(k)為控制策略網(wǎng)絡(luò),求解控制變量u和v;λ(k+1)將 λNN(k+1)與UNN(k),VNN(k)互相連接起來,協(xié)態(tài)網(wǎng)絡(luò)的輸出可用于實(shí)現(xiàn)控制網(wǎng)絡(luò)的校正過程[12].
圖5 自適應(yīng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Self-adaption neural network structure
定義前行列車F和追蹤列車B分別以速度vf和vb在各自軌道運(yùn)行,假設(shè)追蹤列車B和前行列車F在某一時(shí)刻的運(yùn)動(dòng)位置關(guān)系圖如圖6所示,選取前行列車F的速度方向?yàn)閤軸正方向.
圖6 兩車的運(yùn)動(dòng)位置關(guān)系圖Fig.6 Relationship diagram of the movement position of the two trains
設(shè)兩車之間的相對(duì)坐標(biāo)軸分別為x軸和y軸,令af,ab分別為兩車的法向加速度,定義x=xf-xb和y=yf-yb為兩列車相對(duì)位移,θ和β分別為追蹤列車B和前行列車F速度與x坐標(biāo)軸正方向的夾角,此時(shí)β=af=0.本文各變量采用無量綱規(guī)范化形式:
則追蹤列車B和前行列車F之間的運(yùn)動(dòng)學(xué)方程可表示為:
將式(12)所表達(dá)的運(yùn)動(dòng)學(xué)方程離散化,可表示為:
其中:ts為采樣周期.雙方通過調(diào)整和選擇各自最優(yōu)
其中:γ為任意向量.此時(shí),定義Hamiltonian函數(shù)表達(dá)式為
可得:
在Simulink模塊中構(gòu)建神經(jīng)網(wǎng)絡(luò)模型時(shí),可以根據(jù)需求選擇具體庫中的模塊,組成神經(jīng)網(wǎng)絡(luò)模型并調(diào)整相關(guān)的參數(shù)[13].操作過程可描述為:在Simulink工具中,找到 Neural Network Blockset庫中的 netsum,tansig,purelin和dotprod等模塊,以及MathOperations庫中Sum模塊,Sinks庫中的Out1模塊,Sources庫中的In1模塊和Constant模塊,構(gòu)建一個(gè)4層神經(jīng)網(wǎng)絡(luò),如圖7所示,其中:常數(shù)1.140 0和1.520 0為網(wǎng)絡(luò)的閾值;其余常量模塊為層與層之間的連接權(quán)值[14].
本文選擇3種列車運(yùn)行情形進(jìn)行分析,分別為不考慮列車車身長(zhǎng)度影響的同軌道直線追蹤、考慮列車車身長(zhǎng)度為L(zhǎng)=0.12 km的兩列車直線追蹤以及非直線列車追蹤運(yùn)行情況.具體分析情況如下:
情形1:考慮同軌道直線追蹤問題,前行列車速度vf保持不變,追蹤列車速度為vb,兩車相距x0,按照實(shí)際情況分析.前行列車F和追蹤列車B在同一軌道直線運(yùn)行,如果vb>vf,假設(shè)軌道不限長(zhǎng)度,無論二者之間間隔多遠(yuǎn),此時(shí),經(jīng)過追逐時(shí)間t,追蹤列車B總能捕獲前行列車F,使得追尾發(fā)生.假設(shè)vb初始值為0,且最高速度為180 km/h,vf=90 km/h保持不變,此時(shí)根據(jù)微分對(duì)策理論分析,由于追蹤列車B的目的是調(diào)整自身策略,盡可能的使得碰撞發(fā)生,故追蹤列車B此時(shí)唯一的策略是增加自身列車速度,即為在速度持續(xù)增加的情況下追趕前行列車F,由于普速列車加速度不能過大,此時(shí)取追蹤列車B的加速度值為0.6 m/s2,取兩車之間的距離為x0=1 km.
為驗(yàn)證神經(jīng)網(wǎng)絡(luò)控制器輸出結(jié)果的正確性,對(duì)上述追尾事故進(jìn)行理論分析和數(shù)據(jù)計(jì)算.根據(jù)上述可知,碰撞發(fā)生過程分為2個(gè)階段:
1)追蹤列車B勻變速直線運(yùn)行,前行列車F勻速運(yùn)行.當(dāng)追蹤列車B速度達(dá)到180 km/h時(shí),所用時(shí)間t1=83.3 s,追蹤列車B和前行列車F運(yùn)行的距離Lf=Lb=2.083 km,但是x0=1 km,此時(shí),經(jīng)過時(shí)間t1后,兩車之間的距離為1 km,階段1完成;
2)追蹤列車B和前行列車F均勻速運(yùn)行.此時(shí)vb=180 km/h,vf=90 km/h,此時(shí),經(jīng)過時(shí)間 t2(t2=50 s)兩列車發(fā)生碰撞.
綜上所述,當(dāng)追蹤列車B和前行列車F保持直線追蹤時(shí),由于前行列車F始終保持勻速直線運(yùn)行,追蹤列車B通過加速逐漸縮短兩車之間的運(yùn)行距離,并最終使得追尾事故發(fā)生.仿真結(jié)果如圖8(a)所示,其中:虛線表示數(shù)據(jù)分析計(jì)算結(jié)果仿真圖;實(shí)線表示自適應(yīng)控制器仿真輸出結(jié)果.由圖8(a)可知:整個(gè)過程的數(shù)學(xué)推導(dǎo)過程所得到的結(jié)果和由自適應(yīng)控制器仿真所得到的結(jié)果曲線基本重合,可進(jìn)一步驗(yàn)證仿真結(jié)果的正確性.
情形2:考慮更為復(fù)雜的直線列車運(yùn)行狀況,對(duì)于列車避碰分析,也應(yīng)該考慮車身長(zhǎng)度問題,因?yàn)樵诹熊嚤芘龇治鲋袑⒘熊囈暈橐粋€(gè)單獨(dú)的質(zhì)點(diǎn)不夠全面和有效.令車身長(zhǎng)度L=0.12 km,即當(dāng)前行列車F的車尾位置與追蹤列車B車頭位置之間的距離等于或者小于車身長(zhǎng)度L時(shí),視為碰撞發(fā)生.此時(shí),設(shè)兩車速度初值為vf=vb=90 km/h,兩車初始位置距離x0=2 km,利用自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型求解列車運(yùn)行曲線,如圖8(b)所示.由圖8(b)可知:前行列車F和追蹤列車B將通過改變自身車速以達(dá)到微分對(duì)策理論中Hamiltonian函數(shù)中各自最優(yōu)解目的.當(dāng)列車運(yùn)行時(shí)長(zhǎng)為115.65 s時(shí),前行列車F的車尾與追蹤列車B的車頭之間的距離縮短至L,即表示碰撞發(fā)生.
情形3:針對(duì)非直線列車追蹤運(yùn)行情況,假如兩列車不在同一軌道追蹤運(yùn)行.令兩列車之間的初始距離為2 km,初始速度均為270 km/h,前行列車F勻速運(yùn)動(dòng),追蹤列車B自動(dòng)調(diào)整速度,兩車變?yōu)橥壍乐本€追蹤問題,則經(jīng)過時(shí)間t=106.67 s后碰撞發(fā)生.列車位置變化曲線如圖8(c)所示,圖中曲線為追蹤列車B的位置曲線圖,而根據(jù)圖6所表示的列車運(yùn)動(dòng)位置圖可知,前行列車F的運(yùn)行方向始終沿著x軸正方向,兩車的相遇點(diǎn)為追蹤列車B的運(yùn)行曲線與x軸相交點(diǎn),此時(shí)碰撞發(fā)生.
圖8 列車追蹤運(yùn)行仿真結(jié)果Fig.8 Sim ulation results of train tracking operation
通過對(duì)上述3種情況的仿真分析可知:對(duì)于一般情況下的列車運(yùn)行場(chǎng)景,利用自適應(yīng)神經(jīng)網(wǎng)絡(luò)方法所得到的運(yùn)動(dòng)學(xué)分析結(jié)果與理論計(jì)算相符,同時(shí)也可以在一定程度上簡(jiǎn)化計(jì)算過程.
基于微分對(duì)策理論研究列車之間的碰撞防護(hù)問題時(shí),由于模型各異會(huì)導(dǎo)致分析不同類型的對(duì)策問題時(shí)產(chǎn)生不同的對(duì)策函數(shù),造成直接求解對(duì)策函數(shù)的雙邊極值難度大.本文利用自適應(yīng)評(píng)判神經(jīng)網(wǎng)絡(luò)建立微分對(duì)策問題與神經(jīng)網(wǎng)絡(luò)之間的直接聯(lián)系,避免了直接求解復(fù)雜的雙邊極值問題.主要結(jié)論如下:
1)利用微分對(duì)策理論建立兩追蹤列車之間的追逃對(duì)策模型,將微分對(duì)策求解時(shí)遇到的雙邊極值問題轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)問題,自適應(yīng)神經(jīng)網(wǎng)絡(luò)能有效解決微分對(duì)策在分析列車避碰時(shí)的雙邊極值問題.
2)在Simulink中搭建了自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型,對(duì)3種列車運(yùn)行場(chǎng)景進(jìn)行實(shí)驗(yàn)驗(yàn)證.利用自適應(yīng)神經(jīng)網(wǎng)絡(luò)方法所得到的運(yùn)動(dòng)學(xué)分析結(jié)果與理論計(jì)算相符,且訓(xùn)練后神經(jīng)網(wǎng)絡(luò)雙邊最優(yōu)控制器對(duì)初始條件和測(cè)量噪聲具有較強(qiáng)魯棒性.
因此,利用自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器求解微分對(duì)策理論更為簡(jiǎn)潔和有效,也為后續(xù)微分對(duì)策分析更為復(fù)雜的列車運(yùn)行情況提供可借鑒的方法和思路,同時(shí)為不同情況下快速合理地分析列車碰撞防護(hù)提供了一定的理論支撐.