李仲興,沈安誠,江 洪
(1.江蘇大學汽車與交通學院,鎮(zhèn)江 212013; 2.江蘇大學機械工程學院,鎮(zhèn)江 212013)
20世紀80年代,電子技術被應用于汽車空氣懸架系統(tǒng),至此電控空氣懸架系統(tǒng)(electronic-controlled air suspension system)受到了廣泛的關注[1]。電控空氣懸架可以根據(jù)當前行駛工況再結合駕駛員意圖,實現(xiàn)車身高度的自適應調(diào)節(jié)[2]。當車輛以不同的車速行駛在不同等級的路面上時,通過調(diào)整車身高度來改善車輛行駛平順性、操縱穩(wěn)定性和燃油經(jīng)濟性[3]。橫向互聯(lián)空氣懸架作為空氣懸架的一種衍生結構,是將傳統(tǒng)空氣懸架中左右相鄰的空氣彈簧用氣動管路相連通。當車輛受到路面沖擊時,互聯(lián)空氣彈簧間發(fā)生氣體交換,可起到緩和路面沖擊、保持車身姿態(tài)的作用[4-6]。
作為分布式人工智能的重要分支,多智能體系統(tǒng)(multi-agents system,MAS)由于其自治性與學習性為建立電控空氣懸架控制系統(tǒng)提供了新的思路[7]。近年來,多智能體系統(tǒng)被應用于信息的采集與分享、交通信號管理、智能電網(wǎng)等多個領域[8-10]。多智能體系統(tǒng)中,各智能體之間如何彼此協(xié)調(diào),并行求解成為研究的重點和難點。博弈論被用于解決理性主體間的沖突與合作問題[11]。在多智能體系統(tǒng)中利用博弈理論,分析不同智能體的利益追求以及可能達到的利益均衡關系,實現(xiàn)各智能體間的相互協(xié)調(diào)與合作。
目前國內(nèi)外學者對車輛車身高度與互聯(lián)狀態(tài)的單獨特性研究較多,沒有考慮兩者之間的協(xié)同關系。對此本文中構建了一種電控空氣懸架多智能體博弈控制系統(tǒng),該系統(tǒng)由信息采集智能體、車身高度控制智能體、互聯(lián)狀態(tài)控制智能體和博弈智能體構成。能夠在不同行駛工況下進行自主學習,協(xié)調(diào)車輛行駛平順性與操縱穩(wěn)定性之間的矛盾,提升整車綜合性能。
參照試驗樣車,建立前后軸都使用非獨立懸架的整車模型,該模型具有車身側(cè)傾運動、車身俯仰運動、質(zhì)心處垂向運動和4個車輪處垂向運動共7個自由度,簡化后的整車物理模型如圖1所示。
圖1 簡化的非獨立懸架整車物理模型
其動力學方程為
式中:Mb為簧上質(zhì)量;Zcg為簧上質(zhì)量質(zhì)心處的垂向位移;θ、φ分別為車身側(cè)傾角和俯仰角;lf、lr分別為簧上質(zhì)量質(zhì)心到前后軸水平方向的距離;Ir、Ip分別為側(cè)傾運動時的轉(zhuǎn)動慣量與俯仰運動時的轉(zhuǎn)動慣量;F1、F2、F3、F4分別對應 4個懸架力。
模型中把空氣彈簧視為變質(zhì)量開口絕熱系統(tǒng),其內(nèi)部氣體運動方程為
式中:const為常數(shù);pi、p0為空氣彈簧瞬時氣壓與初始氣壓;Vi、V0為空氣彈簧瞬時體積與初始體積;mi、m0為空氣彈簧瞬時質(zhì)量與初始質(zhì)量;κ為等熵指數(shù)。
在互聯(lián)管路模型中,將互聯(lián)管路視為節(jié)流小孔,考慮其節(jié)流效應質(zhì)量流量為
式中:pup、pdn為上游與下游氣體的絕對壓力;At為有效流通面積;R為氣體常數(shù)。
考慮互聯(lián)管路的時滯效應,管路中不同位置處的質(zhì)量流量為
式中:L為互聯(lián)管路的長度;pdn、Tdn為互聯(lián)管路下游氣壓和溫度;RT為互聯(lián)管路阻力系數(shù);c為聲速。
為滿足后續(xù)研究需求,搭建適用于試驗樣車的整車信號采集系統(tǒng),驗證所建立仿真模型的準確性。由加速度采集模塊采集車輛4個空氣彈簧處簧上、簧下質(zhì)量的三軸加速度信息,由陀螺儀模塊采集前后軸中間位置處的側(cè)傾角信息,各模塊將采集到的信息發(fā)送至CAN總線上,再由CAN分析儀傳送到上位機中,并進行后續(xù)處理。試驗樣車與信息采集系統(tǒng)如圖2所示。
圖2 試驗樣車與信息采集系統(tǒng)
通過對比車輛經(jīng)過減速帶時簧上、簧下質(zhì)量垂向加速度來驗證車身、輪胎的垂向振動特性。通過對比車身側(cè)傾角速度自由衰減信號來驗證車身側(cè)傾運動特性。試驗與仿真對比結果如圖3和圖4所示。
圖3 前左簧上質(zhì)量以及簧下質(zhì)量垂向加速度對比
圖4 側(cè)傾角速度對比
從圖中可以看出,仿真和試驗中,車輛前左簧上質(zhì)量和簧下質(zhì)量的垂向加速度響應曲線的振動幅值變化趨勢較為一致。相比于試驗曲線,仿真曲線較為平滑,這是因為仿真模型忽略了實際懸架中存在的連接件、傳感器噪聲和發(fā)動機振動等因素的影響。試驗與仿真中的側(cè)傾角速度自由衰減曲線的幅值、周期基本一致,這說明模型與實車的側(cè)傾角振動頻率基本一致。建立的整車動力學模型可較為準確地反映試驗樣車的車身、車輪垂向運動狀態(tài)和車身側(cè)傾運動狀態(tài)。因此,可以此模型作為研究基礎,展開后續(xù)的研究工作。
電控空氣懸架多智能體博弈控制系統(tǒng)能夠感知車輛當前的行駛工況,控制車輛車身高度與互聯(lián)狀態(tài),保證車輛行駛平順性與操縱穩(wěn)定性,提升整車綜合性能。系統(tǒng)結構如圖5所示。
圖5 電控空氣懸架多智能體博弈控制系統(tǒng)結構圖
多智能體博弈控制系統(tǒng)包括信息采集智能體、車身高度控制智能體、互聯(lián)狀態(tài)控制智能體和博弈智能體。其結構自上而下分為信息發(fā)布層、數(shù)據(jù)處理層、最終決策層。信息發(fā)布層中的信息采集智能體從環(huán)境中感知當前車輛運行狀態(tài)和行駛工況,并結合下層智能體需求將采集到的信息經(jīng)過處理后發(fā)布到數(shù)據(jù)處理層。數(shù)據(jù)處理層中的車身高度控制智能體和互聯(lián)狀態(tài)控制智能體讀取發(fā)布的信息,計算符合當前工況的置回區(qū)間和目標車身高度,將其發(fā)送到最終決策層。最終決策層中的博弈智能體接收上層信息,計算預期回報進行博弈,得出最終決策。系統(tǒng)在車輛運行過程中,不斷學習,完善自身知識庫,逐漸將整車綜合性能提升至最優(yōu)。
信息采集智能體的主要作用是車輛運行狀態(tài)與行駛工況信息的采集與處理并將信息發(fā)送至數(shù)據(jù)處理層中。其功能相對簡單,因此采用反應型智能體模型,模型結構如圖6所示。
圖6 信息采集智能體模型
該智能體通過傳感器采集車輛車速信息v,簧下質(zhì)量加速度信息at、車身側(cè)傾角信息θ、車身側(cè)向加速度信息ays、車身前左簧上質(zhì)量三軸加速度信息axw、ayw、azw以及車身高度信息H,通過讀取系統(tǒng)內(nèi)部信息,采集當前滯回區(qū)間δ。
由簧下質(zhì)量加速度和車速計算出行駛路面的路面不平度 Gd(n0)[12]。參考 GB/T 4971—2009《汽車平順性試驗方法》,近似計算駕駛員位置處的總加權加速度均方根值aw。根據(jù)車身側(cè)傾角和車身側(cè)向加速度,計算側(cè)傾因子 R[13]。
綜合考慮系統(tǒng)計算量與后續(xù)智能體學習行為建模需求,將車速信息v、車身側(cè)向加速度信息ays進行離散化,將車速劃分為5個等級,以S1…Si…S5表示當前車速所處區(qū)間等級;將側(cè)向加速度分為4個等級,以G1…Gi…G4表示當前側(cè)向加速度所處區(qū)間等級。參考GB 7031—2005《機械振動道路路面譜測量數(shù)據(jù)報告》,將路面分為5個等級,其中以L1…Li…L5表示當前路面等級。將得到的 aw、R、Si、Gi、Li、H、δ發(fā)送至數(shù)據(jù)處理層。信息采集智能體對傳感器信息作了統(tǒng)一化處理,減輕了其余智能體的運算負擔,提升整體系統(tǒng)的運算效率。
車身高度控制智能體以目標車身高度為控制對象,以整車綜合性能最優(yōu)為控制目標,為博弈智能體提供輸入。該智能體需要具有自主學習能力和對動態(tài)環(huán)境的自適應能力,因此采用智能程度較高的混合式智能體結構 過程推理系統(tǒng)(procedural reasoning system,PRS),智能體模型結構如圖7所示。
圖7 車身高度控制智能體模型
(1)“信念”:信念表示智能體對環(huán)境和自身的認知。在車身高度控制智能體中,信念為接收信息、采集智能體傳輸?shù)男畔⒉⒋嫒胄拍罹仃嚒\嚿砀叨瓤刂浦悄荏w接收信息采集智能體傳輸?shù)男畔w、R、Si、Gi、Li、H。對車身高度信息 H進行分級處理,用Hi代表當前實際車身高度等級。以 Si、Gi、Li、Hi為環(huán)境狀態(tài)坐標,以時間段t為動態(tài)坐標建立信念矩陣RChaw和RChr,分別用來存儲t時間段內(nèi)行駛平順性評價指標aw的均值和操縱穩(wěn)定性評價指標R的均值。
(2)“愿望”:愿望是智能體希望自身達到或者保持的狀態(tài)。車身高度控制智能體的愿望為提升整車綜合性能至最優(yōu)。為達成這一愿望,建立愿望矩陣Zh,計算當前整車綜合性能評價指標JHt。以Si、Gi、Li、Hi為坐標,迭代生成 JHnew,更新愿望矩陣。具體公式如下。
式中:K為到目前為止的總決策次數(shù);k為目前決策項被選擇的次數(shù)。
為解決橫向互聯(lián)空氣懸架在急速轉(zhuǎn)彎時車身側(cè)傾加劇的問題,2017年琚龍玉提出了一種仿天棚互聯(lián)狀態(tài)控制策略[12]。利用簧下質(zhì)量側(cè)傾角θt和簧上質(zhì)量側(cè)傾角θ的差值表示車身所受總回復力矩方向,控制策略為
式中:max(RChaw(Si,Gi,Li,Hi))為矩陣 RChaw中 Si,Gi,Li,Hi坐標下所有樣本數(shù)據(jù)的最大值;ω為操穩(wěn)平順修正系數(shù),ω∈(0,1);ρ為更新權重系數(shù),ρ∈(0,1)。
(3)“意圖”:意圖是為達成愿望所需要執(zhí)行的動作,對于車身高度控制智能體而言,其意圖是將解釋器和規(guī)劃共同決策出的目標車身高度傳輸給博弈智能體。
(4)“規(guī)劃”:規(guī)劃是智能體為達成愿望所能采取的所有動作序列,在不同的信念下,規(guī)劃也不盡相同。在車身高度控制智能體中,把車身調(diào)節(jié)至不同的既定高度是該智能體的規(guī)劃。
(5)“解釋器”:解釋器連通智能體中其余模型,在規(guī)劃中找出適合當前信念并且能夠達成頂層愿望的動作發(fā)送給意圖。車身高度控制智能體中,解釋器利用強化學習方法對每個動作進行交替探索和利用,直至系統(tǒng)穩(wěn)定。由于備選動作個數(shù)較少,各動作間對整車性能造成的差異較小,因此采用較為保守、嘗試次數(shù)較多的信心上界算法(upper confidence bound,UCB)計算當前車身高度下的收益Qh。
式中:krollmax代表互聯(lián)狀態(tài)關閉;krollmin代表互聯(lián)狀態(tài)開啟。
為避免在高頻小幅激勵下,互聯(lián)狀態(tài)切換過于頻繁,設置滯回區(qū)間(δmin,δmax),利用互聯(lián)管路有效流通面積At代替互聯(lián)狀態(tài),控制策略變形為
在仿天棚互聯(lián)狀態(tài)控制策略中滯回區(qū)間的選擇影響著策略控制品質(zhì)?;ヂ?lián)狀態(tài)控制智能體利用混合式智能體PRS架構結合SoftMax強化學習算法計算出最適合當前工況下的滯回區(qū)間。其中5個關鍵模塊具體工作如下。
(1)“信念”:接收信息采集智能體傳輸?shù)腶w、R、Si、Gi、Li、δ信息,對 δ的上下界 δmin、δmax分別進行分級處理,以Kh和Kl分別表示δmin與δmax所處區(qū)間等級。以 Si、Gi、Li、Kh、Kl、t為坐標建立信念矩陣RCinaw和 RCinr存放 aw、R值。
(2)“愿望”:以整車綜合性能最優(yōu)為控制目標,計算當前綜合性能評價指標JInew,更新愿望矩陣Zin,計算公式如下。
式中:γ為操穩(wěn)平順修正系數(shù);ρ為更新權重系數(shù)。
(3)“規(guī)劃”:規(guī)劃中存放著15個智能體動作,不同的4個置回區(qū)間上界和下界排列組合,構成所有動作目標,將置回區(qū)間調(diào)整至理想目標。建立規(guī)劃庫HSin,存放不同狀態(tài)、不同滯回區(qū)間等級下的收益Qin。
(4)“解釋器”:由于備選規(guī)劃中存放的動作較多,為了與車高控制智能體的求解效率相匹配,選擇探索次數(shù)相對較少,收斂速度較快的SoftMax算法,計算當前滯回區(qū)間下的收益Qin。
式中:T為溫度系數(shù),T的大小決定每個動作被選中的概率的差別;HSin(Si,Gi,Li,k)表示規(guī)劃庫中 Si,Gi,Li,k坐標下的收益值。
(5)“意圖”:從規(guī)劃庫中選擇收益值最大的置回區(qū)間,發(fā)送給博弈智能體。
因為互聯(lián)狀態(tài)控制智能體與車身高度控制智能體均只考慮自身控制性能,輸出的目標車身高度和置回區(qū)間并不能相互契合保證整車的綜合性能最優(yōu),故以協(xié)調(diào)車身高度和置回區(qū)間為目標,從博弈論的觀點出發(fā),根據(jù)多人隨機博弈理論,提出一種多智能體博弈方法,均衡兩個智能體在聯(lián)盟中的回報,從而求解出全局納什均衡解。該智能體采用BDI架構,模型如圖8所示。
圖8 博弈智能體模型
(1)“信念庫”:將車身高度控制智能體得出的目標車身高度向兩邊等區(qū)域拓展,選取拓展后的兩個邊界值作為博弈中玩家1的兩個行為n1、n2。將互聯(lián)控制智能體得出的置回區(qū)間向下界進行單邊拓展,得出玩家2的兩個行為m1、m2。
(2)“愿望庫”:通過隨機博弈,協(xié)同控制車身高度與互聯(lián)狀態(tài),平衡簧上質(zhì)量振動和車身側(cè)傾。
(3)“意圖庫”:存放當前狀態(tài)下系統(tǒng)的納什均衡解。
(4)“推理器”:采用隨機博弈分支下的雙人雙矩陣博弈構造博弈推理器,通過Lemke-Howson算法求解雙人博弈的納什均衡解,以此解作為權重系數(shù)分配玩家的兩個行為,從而確定出最優(yōu)目標車身高度Hrequire和最優(yōu)置回區(qū)間δrequire。
構建玩家1回報矩陣A,設置玩家1的回報函數(shù)如下:
式中awij代表玩家1執(zhí)行動作i、玩家2執(zhí)行動作j時的加權加速度均方根值。
構建玩家2回報矩陣B,設置玩家2的回報函數(shù)如下:
式中θ為簧上質(zhì)量側(cè)傾角。
計算兩個玩家的預期回報,并根據(jù)式(13)求解當前工況下的納什均衡解。
式中:x0為玩家1的動作權重系數(shù);y0為玩家2的動作權重系數(shù);x為任意權重系數(shù)。
博弈智能體中,納什均衡的求解時間極大的影響著整個系統(tǒng)的收斂速度,利用Lemke-Howson算法,能夠較快的求解出多人隨機博弈中的納什均衡解,該方法應用于雙人雙矩陣博弈中,求解速度快,求解精度符合系統(tǒng)要求?;陔S機博弈Lemke-Howson算法的數(shù)學模型為
為驗證電控空氣懸架多智能體博弈控制系統(tǒng)中車身高度控制智能體和互聯(lián)狀態(tài)控制智能體學習行為的有效性,在“256×10-6m-3路面不平度系數(shù)、60 km·h-1車速”的工況下進行仿真。圖9為學習過程中車身高度控制智能體所有意圖的選擇次數(shù)統(tǒng)計。圖10為學習過程中互聯(lián)狀態(tài)控制智能體所有意圖的選擇次數(shù)統(tǒng)計。
圖9 車身高度控制智能體意圖選擇次數(shù)統(tǒng)計
由圖9中可以看出,車身高度智能體中7個意圖的執(zhí)行次數(shù)存在明顯的差異性,意圖1和意圖2的選擇次數(shù)較少,意圖3的選擇次數(shù)最多,意圖4到意圖7的選擇次數(shù)呈階梯式下降。這是由于當車身高度較低時,車身撞擊限位塊的概率增加,導致行駛平順性較差,當車身高度升高時,車身質(zhì)心上移,車輛操縱穩(wěn)定性有所降低,為保持平順性與操穩(wěn)性的均衡,選擇意圖3符合智能體的愿望需求,車身高度控制智能體的學習性能達到預期。由圖10可以看出,意圖13的選擇次數(shù)較多,其余意圖的選擇次數(shù)相近,這是由于在標準化的過程中,使用了Z-score的方法,該方法會放大最優(yōu)意圖與其余意圖之間的差距,使得最優(yōu)意圖尤為突出。
圖10 互聯(lián)狀態(tài)控制智能體意圖選擇次數(shù)統(tǒng)計
為進一步確定車身高度控制智能體與互聯(lián)狀態(tài)控制智能體學習結果的適用性,驗證博弈智能體所選納什均衡解的合理性,對車輛的行駛平順性和操縱穩(wěn)定性在此工況下與普通空氣懸架進行對比。為保證仿真曲線清晰,圖11展示前20 s的仿真情況。
圖11 行駛平順性與操縱穩(wěn)定性對比
從圖中可以看出,在多智能體博弈控制系統(tǒng)的控制下,車輛的加權加速度均方根值和側(cè)傾因子在數(shù)值上都有明顯的降低,說明多智能體博弈控制系統(tǒng)得出的最優(yōu)置回區(qū)間和最優(yōu)車身高度具有一定的適用性,對提升車輛整體性能有益。
為進一步驗證電控空氣懸架多智能體博弈控制系統(tǒng)的控制效果,在混合工況下進行仿真,比較傳統(tǒng)空氣懸架車輛和裝有多智能體博弈控制系統(tǒng)車輛的性能指標。圖12為混合工況的路面等級、車速和側(cè)向加速度隨時間的變化情況。圖13表示不同工況下的平均加權加速度均方根值和平均側(cè)傾因子。表1表示混合工況中直線行駛工況下兩種車輛性能對比。表2表示混合工況中轉(zhuǎn)彎工況下兩種車輛性能對比。表3表示混合工況下兩種車輛性能對比。
圖12 混合工況
圖13 不同工況下平均加權加速度均方根值和平均側(cè)傾因子
根據(jù)圖13可知,裝有電控空氣懸架多智能體博弈控制系統(tǒng)的車輛在不同車速下直線行駛時,車輛的加權加速度均方根值和側(cè)傾因子都低于普通空氣懸架,車輛的行駛平順性與操縱穩(wěn)定性都有所提高。在轉(zhuǎn)彎工況下,車輛犧牲了部分行駛平順性用來提高操縱穩(wěn)定性,這是由于互聯(lián)開啟會加劇車輛的側(cè)傾,車身更加頻繁地撞擊限位塊,若是通過提高車身高度來提升舒適性又會進一步加劇車身側(cè)傾,為保證車輛可控,需要增加互聯(lián)關閉時間并將車身高度適度降低,車輛平順性不可避免地有所下降。由表1~表3可以看出,在直線行駛工況下車輛行駛平順行改善率為7.77%,車輛操縱穩(wěn)定性改善率為17.87%。在轉(zhuǎn)彎工況下,犧牲2.36%的行駛平順性提升了6.67%的操縱穩(wěn)定性。從整體上講,該系統(tǒng)提升了車輛的綜合性能,在提升操縱穩(wěn)定性方面,效果較為突出。
表1 直線行駛工況下兩種車輛性能指標
表2 轉(zhuǎn)彎工況下兩種車輛性能指標
表3 混合工況下兩種車輛性能指標
基于多智能體模型,通過隨機博弈協(xié)同車輛互聯(lián)狀態(tài)和車身高度調(diào)節(jié),搭建電控空氣懸架多智能體博弈控制系統(tǒng)。該系統(tǒng)能夠感知車輛行駛環(huán)境,學習并完善自身知識庫,動態(tài)調(diào)整自身運行狀態(tài)。
通過單一工況驗證了系統(tǒng)學習行為的有效性和學習結果的適用性。通過混合工況仿真驗證系統(tǒng)的控制效果,與傳統(tǒng)的空氣懸架相比,車輛行駛平順性改善了2.7%,車輛的操縱穩(wěn)定性改善了12.27%。
當各智能體數(shù)據(jù)庫完善,系統(tǒng)輸出穩(wěn)定時,綜合考慮傳感器的采樣頻率和ECU的計算能力,系統(tǒng)能夠在0.8 s內(nèi)計算出最優(yōu)車身高度和滯回區(qū)間,有較好的實時性且具備應對突發(fā)事件的能力。
但在數(shù)據(jù)庫完善過程中,由于算法的探索行為會導致車輛綜合性能產(chǎn)生較大波動,下一步要深度挖掘各工況下智能體選擇行為的內(nèi)在聯(lián)系,設置選擇閾值,減少錯誤行為的選擇概率,使綜合性能平穩(wěn)提升。