殷國棟 朱 侗 任祖平 李廣民 金賢建
東南大學機械工程學院,南京,211189
四輪獨立驅動純電動汽車通過輪轂電機直接驅動車輪,大大增加了底盤的可利用空間,減少了差速器、變速器等機械傳動裝置,提高了傳動效率,并且可以通過對各個電機的單獨控制來實現(xiàn)各種主動控制策略,使汽車適應不同工況下的行駛環(huán)境[1],然而耦合強、不確定參數(shù)多和隨機工作環(huán)境下的動態(tài)非線性一直以來都是車輛系統(tǒng)動力學的研究難點。國內外眾多機構對汽車子系統(tǒng)之間的控制進行了研究。目前常見的控制方案以分層集成控制為主,這種方式在子系統(tǒng)數(shù)目較少時相對容易實現(xiàn),但是隨著子系統(tǒng)數(shù)目的增加,各基本控制單元功能沖突干涉逐漸明顯,不僅設計難度急劇增大,而且也使得系統(tǒng)缺乏柔性,不利于系統(tǒng)的擴展,此外,傳統(tǒng)汽車底盤控制系統(tǒng)并不完全適用于新型的四輪獨立驅動純電動汽車。在汽車控制功能不斷豐富,控制目標不斷增多,對環(huán)境動態(tài)適應性要求不斷嚴苛的現(xiàn)實情況下,合理統(tǒng)一的電動汽車底盤綜合控制系統(tǒng)的缺乏已經(jīng)限制了汽車智能化水平的提高。
本文提出基于多Agent的智能動態(tài)綜合控制系統(tǒng)框架,將每個車輛控制子系統(tǒng)從功能上進行劃定,優(yōu)化各個子系統(tǒng)的控制目標,以此建立總體的協(xié)調決策機制,滿足車輛在不同情況下多目標在線優(yōu)化調節(jié)的需求。
Agent個體能夠通過環(huán)境感知獲取外部環(huán)境信息,并及時作用于環(huán)境,以滿足其設計目標的計算實體或程序,并可以通過通信模塊與其他Agent進行信息交流,具有良好的反應性、自治性和靈活性[2]。多Agent系統(tǒng)指由多個Agent組成的系統(tǒng),是分布式人工智能的重要分支[3-4],能夠解決單個Agent由于能力或其他原因不能解決的問題,具有很高的智能性,在汽車領域得到了廣泛應用[5-6]。牛禮民等[7]利用分層遞階控制結合多Agent理論的方法,解決了半主動懸架和電動助力轉向的匹配和協(xié)調控制問題。由此可見,多Agent系統(tǒng)可解決四輪獨立驅動純電動汽車強非線性、系統(tǒng)耦合等問題,加之其良好的框架拓展能力,特別適用于四輪獨立驅動純電動汽車底盤這樣具有多層次需求的系統(tǒng)。
本文提出基于多Agent的四輪獨立驅動純電動汽車底盤智能動態(tài)綜合控制系統(tǒng),其框架見圖1。系統(tǒng)分為環(huán)境層、信息融合層、協(xié)調決策層、底層控制層和執(zhí)行層。在智能協(xié)調決策控制的基礎之上,盡可能全面地考慮系統(tǒng)各級控制目標,通過多Agent系統(tǒng)實現(xiàn)四輪獨立驅動電動汽車的綜合控制。本文構建的多Agent系統(tǒng)是一種以子Agent單元為基本節(jié)點的全局思維框架。這里需要說明的是,圖中環(huán)境層和信息融合層以及執(zhí)行層中四輪獨立驅動電動汽車模型因位置限制而在兩處分別表示,其實為同一模型。
圖1 控制系統(tǒng)框架示意圖Fig.1 Diagram of control system framework
Agent之間的交互和協(xié)調是多Agent系統(tǒng)解決問題的關鍵,而被控對象狀態(tài)參數(shù)的精確獲取是能夠實現(xiàn)底盤快速有效控制的前提,也是制定Agent之間協(xié)調控制規(guī)則的重要依據(jù)[8-9]。信息融合處理主要是對四輪獨立驅動電動汽車的各類傳感器測量信號進行處理,實現(xiàn)對車輛狀態(tài)參數(shù)的估計。汽車自身參數(shù)包括整車質量、質心位置與橫擺轉動慣量等,環(huán)境參數(shù)主要包括路面坡度和路面附著系數(shù)等。車輛狀態(tài)估計的對象主要包括車輛的質心側偏角、側向速度和縱向速度這類難以直接測量的變量。通過對狀態(tài)參數(shù)的估計,一方面能夠保證多Agent系統(tǒng)對某些狀態(tài)和參數(shù)的需求,另一方面,能準確獲取車輛的狀態(tài)參數(shù)信息,為車輛故障診斷和檢測系統(tǒng)的實時檢測與預警提供準確的信息[10]。
協(xié)調決策層是控制框架最重要的部分,包括決策推理Agent和協(xié)調控制Agent,旨在滿足不同情況下車輛底盤操縱穩(wěn)定性、行駛安全性和乘坐舒適性等多目標在線優(yōu)化調節(jié)的需求。
1.2.1 決策推理Agent
為了使車輛適應復雜的工況,Agent的智能性要不斷增強,這要求Agent必須具有學習能力。強化學習可使智能Agent具有在線學習的能力,通過與動態(tài)環(huán)境不斷交互進行學習來達到期望的目標[11]。基本原理為:如果Agent執(zhí)行某個行為策略得到環(huán)境正的獎賞,則Agent以后產(chǎn)生這個行為策略的趨勢就會加強。本文認為決策推理Agent可以采用強化學習的方法使底盤Agent進行學習,實現(xiàn)Agent的性能指標最優(yōu)。強化學習模型見圖2。
圖2 強化學習模型Fig.2 Model of reinforcement learning
強化學習問題可以采用馬爾可夫決策過程(Markov decision process,MDP)的 形 式[12]。MDP可由五元組定義:
〈S,A(s),p(s,a,s′),r(s,a),V|s,s′∈ S,a ∈ A(s)〉式中,S為全局狀態(tài)變量集,包含系統(tǒng)所有可能的狀態(tài);s′為下一時刻系統(tǒng)可能的狀態(tài);A(s)為狀態(tài)s下所有可能執(zhí)行動作的集合;p(s,a,s′)為在時刻t處于狀態(tài)s、采用動作a后在下一個時刻點t+1轉移到狀態(tài)s′的概率;r(s,a)為在時刻t處于狀態(tài)s、采用動作a后所獲得的回報;V為目標函數(shù)。
定義狀態(tài)-動作對的估計為Q,可得方程[13]:
式中,(s,a)為t時刻的狀態(tài)-行為對;η為折扣因子。
在p和r已知的情況下,可以得到最終的Q值。而Q學習算法作為強化學習的一種,無需知道環(huán)境模型,可直接根據(jù)Agent實際經(jīng)歷的狀態(tài)進行學習,只需要考慮當前的狀態(tài)和可選擇的動作,無需知道狀態(tài)轉移函數(shù),所以本文認為決策推理Agent可以采用Q學習算法。Q學習算法行為值函數(shù)迭代公式如下[14]:
式中,α為學習因子。
1.2.2 協(xié)調控制Agent
博弈論為多Agent系統(tǒng)的協(xié)調控制提供了良好的解決方法[15-16]。與靜態(tài)博弈不同,本文底盤多Agent系統(tǒng)是在連續(xù)且動態(tài)變化的環(huán)境中工作,博弈中局中人即各控制子Agent的行為策略本質上是控制行為。
微分博弈(對策)是一種連續(xù)時間域的動態(tài)博弈[11],是指在微分方程描述的運動系統(tǒng)中,各個Agent試圖最優(yōu)化各自的控制指標并持續(xù)進行博弈,最終到達利益均衡狀態(tài)。本文協(xié)調控制Agent采用微分博弈的方法,對底盤控制Agent之間存在耦合和相互影響的地方,針對不同工況下車輛底盤對于操縱穩(wěn)定性、行駛安全性和乘坐舒適性的多目標在線調節(jié)要求,進行動態(tài)協(xié)調控制。
本節(jié)對整個底盤的控制子系統(tǒng)進行功能劃定。由于輪胎復雜的非線性特征,底盤在縱向、橫向和垂向有著嚴重的耦合關系,見圖3[17]。按照不同的主要控制目標劃分,底盤主動控制子系統(tǒng)可分為縱向控制、橫向控制、垂向控制三大類,各自主要對應行駛安全性、操縱穩(wěn)定性和乘坐舒適性三大主要控制指標。
本文以縱向、橫向和垂向三大控制系統(tǒng)建立控制器Agent。縱向控制方面可拓展為防抱死控制Agent和驅動防滑Agent等;橫向控制方面可拓展為主動轉向Agent和直接橫擺力矩控制Agent等;垂向控制方面主要可擴展為主動懸架Agent和半主動懸架Agent[18]。以底盤能量管理為Agent,建立純電動汽車底盤能量最優(yōu)控制。
圖3 底層控制層示意圖Fig.3 Diagram of underlying control layer
如圖1所示,執(zhí)行層是系統(tǒng)框架的最底層,將車輪轉向角δ、制動力矩Tb、驅動力矩Td、懸架控制力F等信號,具體作用于電動汽車底盤各執(zhí)行機構,實現(xiàn)對車輛底盤的控制。
操縱穩(wěn)定性是汽車主動安全性能中極其重要的性能指標,對底盤控制的重要性不言而喻,一直是車輛領域重要的研究方向,也是本文框架橫向、縱向和垂向控制對應的極其重要的控制指標。直接橫擺力矩控制系統(tǒng)是應用最廣泛的汽車主動安全控制系統(tǒng)之一,也是本文框架底層控制層中不可或缺的重要組成部分,它可以在惡劣的行車環(huán)境中提高車輛的操縱穩(wěn)定性。
本文在搭建基于多Agent的底盤智能綜合控制系統(tǒng)框架的基礎上,設計搭建直接橫擺力矩控制(direct yaw-moment control,DYC)Agent的控制器模型,并在MATLAB/Simulink和Carsim聯(lián)合仿真環(huán)境中進行仿真試驗。以框架底層控制層橫向控制中能夠改善車輛操縱穩(wěn)定性的DYC Agent為例,進行以子Agent為基本節(jié)點的控制單元的搭建以及控制指標的優(yōu)化研究。
本文采用車輛線性二自由度模型作為參考模型,設計基于模糊控制的上層控制器和下層扭矩分配器。
根據(jù)上文闡述,DYC Agent主要研究車輛的操縱穩(wěn)定性,因此采用線性二自由度參考模型。
線性二自由度模型方程為
式中,m為汽車質量;vx為汽車縱向速度;vy為汽車側向速度;Cf、Cr分別為前軸、后軸等效側偏剛度;lf、lr分別為前軸距、后軸距;Iz為車輛繞z軸轉動慣量;δ為前輪轉角;β為質心側偏角;γ為橫擺角速度。
根據(jù)二自由度模型,車輛的理想橫擺角速度
式中,L為汽車軸距;Ks為穩(wěn)定性因數(shù)[19-20]。
為使車輛轉向瞬態(tài)響應較為柔和,對式(3)串聯(lián)低通濾波環(huán)節(jié),車輛的期望橫擺角速度
式中,τ0為一階慣性環(huán)節(jié)時間常數(shù),一般取經(jīng)驗值0.1。
橫擺角速度上限
式中,μ為路面附著系數(shù);?為經(jīng)驗常數(shù),一般取0.15;g為重力加速度。
一般情況下,質心側偏角都很小,為了簡化計算,本文取理想質心側偏角為0。
根據(jù)經(jīng)驗公式,質心側偏角的上限
上層控制器采用模糊控制的方法對附加橫擺力矩進行控制。輸入變量為橫擺角速度和質心側偏角的偏差量eγ、eβ,輸出變量為附加橫擺力矩Mz。采用NB(負大)、NM(負中)、NS(負?。?、ZE(零)、PS(正?。?、PM(正中)、PB(正大)7個語言變量描述輸入輸出量。輸入輸出量模糊論域均為[-1,1],輸入量對應語言變量為{NB、NS、ZE、PS、PB}5個等級;輸出量對應語言變量為{NB、NM、NS、ZE、PS、PM、PB}7個等級。輸入輸出量隸屬度函數(shù)采用三角形函數(shù)作為基本隸屬函數(shù),邊界采用梯形函數(shù),見圖4~圖6。
本文中模糊控制規(guī)則遵循以下原則[22]:如果eγ為正,那么當實際橫擺角速度γ和期望橫擺角速度γd都為正且 ||γ > ||γd時,產(chǎn)生與γd反向的Mz使γ減小,當γ和γd都為負且 ||γ < ||γd時,產(chǎn)生與γd同向的Mz使γ增大;如果eγ為負,那么當γ和γd都為正且 ||γ < ||γd時,產(chǎn)生與γd同向的Mz使γ增大,當γ和γd都為負且 ||γ > ||γd時,產(chǎn)生與γd反向的Mz使γ減小;γ與γd相差越大,產(chǎn)生的Mz越大,同時根據(jù)質心側偏角β的大小對Mz進行調整。具體的模糊控制規(guī)則見表1[23]。
輸入變量的實際偏差稱為物理論域。將清晰值eγ、eβ變換到模糊論域的變換系數(shù)稱之為量化因
圖4 eγ隸屬度函數(shù)Fig.4 Membership function ofeγ
圖5 eβ隸屬度函數(shù)Fig.5 Membership function ofeβ
圖6 Mz隸屬度函數(shù)Fig.6 Membership function ofMz
表1 模糊控制規(guī)則Tab.1 Fuzzy control rules
綜上所述,車輛目標橫擺角速度應修正為[21]子,其作用就是將輸入信號放大或縮小,使其適應模糊論域的要求[23]。設置量化因子后,若輸入變量的物理論域發(fā)生變化時,只需要調整量化因子就可以使輸入變量依然落在原先的模糊論域里。同樣經(jīng)過模糊推理以及清晰化的變量的取值范圍是由模糊論域確定的,將其變換到物理論域的變化系數(shù)稱之為比例因子。
量化因子和比例因子對系統(tǒng)有著重要的調節(jié)作用。在控制器參數(shù)設置相同的情況下,增大量化因子意味著輸入控制器的模糊量變大,會使系統(tǒng)上升過快,產(chǎn)生振蕩和超調。減小量化因子則會使系統(tǒng)上升變慢,降低控制精度,影響系統(tǒng)的穩(wěn)態(tài)性能。比例因子相當于控制系統(tǒng)的總放大倍數(shù),它的增大與減小也有著類似的作用,增大會加快系統(tǒng)的響應速度,過快會使系統(tǒng)產(chǎn)生振蕩,過小則會降低系統(tǒng)的控制精度。
本文采用上述模糊控制規(guī)則對eγ和eβ進行模糊推理,然后進行清晰化,得到模糊控制器的輸出Mz。下層扭矩分配器采用各軸垂向載荷之比作為比例系數(shù)來分配附加橫擺力矩。
為驗證DYC Agent控制器搭建的效果,利用MATLAB/Simulink和Carsim聯(lián)合仿真環(huán)境對搭建的DYC Agent進行仿真試驗。仿真過程中DYC Agent通過控制輪轂電機轉矩、施加附加橫擺力矩來改善車輛的橫向操縱穩(wěn)定性。Carsim中車輛的主要參數(shù)見表2。
表2 車輛主要參數(shù)Tab.2 Main parameters of vehicle
在前輪轉向角階躍輸入工況下對搭建的DYC Agent控制算法進行仿真實驗。仿真條件設置如下:駕駛員在0.3 s內迅速將轉向盤轉至80°后保持恒定,初始速度為80 km/h,駕駛員不踩加速踏板和制動踏板,路面附著系數(shù)μ=0.85。DYC Agent量化因子k1=50,比例因子k2=3 000,仿真結果見圖7。
由圖7a可以看出,無DYC Agent控制的車輛橫擺角速度存在明顯的超調,最大值超過了0.4 rad/s,而有DYC Agent控制的車輛能夠有效地跟蹤期望的橫擺角速度,整個過程幾乎沒有超調和振蕩,0.5 s時就進入了穩(wěn)態(tài),系統(tǒng)很快趨于穩(wěn)定。由圖7b可以看出,無DYC Agent控制的車輛質心側偏角最大值超過了0.06 rad,而有DYC Agent控制的車輛質心側偏角始終被限制在0.027 rad以內,最大值大大減小,車輛底盤穩(wěn)定性能更好。綜上所述,采用DYC Agent控制提高了車輛在前輪轉向角階躍輸入工況下的操縱穩(wěn)定性。
圖7 前輪轉向角階躍輸入工況仿真結果Fig.7 Simulation results of front wheel steering angle step input
本文提出基于多Agent的四輪獨立驅動純電動汽車底盤智能動態(tài)綜合控制系統(tǒng)框架,將框架分為環(huán)境層、信息融合層、協(xié)調決策層、底層控制層和執(zhí)行層進行描述,分析各個層次的功能和相互關系,以此建立總體的底盤控制機制,滿足車輛在不同情況下多目標在線優(yōu)化調節(jié)需求。搭建了底層控制層中直接橫擺力矩控制Agent,在MATLAB/Simulink和Carsim聯(lián)合仿真平臺進行仿真試驗。仿真結果表明搭建的控制器Agent能夠滿足預期的動力學控制目標,有效改善車輛的橫向操縱穩(wěn)定性能。
下一步工作將對決策推理Agent強化學習和Q學習方法、協(xié)調控制Agent微分博弈方法以及狀態(tài)參數(shù)估計方法等在完善理論基礎上進行仿真試驗,進一步驗證本文提出框架的正確性和可行性。