朱蘭馨 周長(zhǎng)登 崔佳倫
(1.昆明理工大學(xué),昆明 650500;2.中國(guó)船舶重工集團(tuán)公司第705研究所昆明分部,昆明 650101)
主題詞:分層優(yōu)化 徑向基神經(jīng)網(wǎng)絡(luò) 隨機(jī)動(dòng)態(tài)規(guī)劃 馬爾可夫鏈
智能網(wǎng)聯(lián)汽車隊(duì)列控制在確保安全行駛的前提下,可以有效保持隊(duì)列車輛間的距離,減少不必要的速度變化,從而增強(qiáng)道路通行能力、提高交通安全性、緩解環(huán)境污染[1]。近年來,大量學(xué)者針對(duì)汽車隊(duì)列控制問題展開了研究。李鵬飛等[2]搭建了模糊神經(jīng)網(wǎng)絡(luò)跟車控制器,使車速和車距控制更平滑。隨著研究的深入,在實(shí)現(xiàn)車速規(guī)劃的同時(shí)提升經(jīng)濟(jì)性成為研究重點(diǎn),Ma等[3]、孫濤等[4]基于模型預(yù)測(cè)控制(Model Predictive Control,MPC)實(shí)現(xiàn)了隊(duì)列車輛安全距離、加速度、燃油經(jīng)濟(jì)性的多目標(biāo)優(yōu)化。然而,上述研究對(duì)象均為單一能源車輛,針對(duì)混合動(dòng)力車輛隊(duì)列,如何在確保速度規(guī)劃的同時(shí)設(shè)計(jì)合理的能量管理系統(tǒng)(Energy Management System,EMS),是學(xué)術(shù)界的研究難題,分層控制框架獨(dú)特的分層架構(gòu)可以實(shí)現(xiàn)ACC與EMS之間信息的單向傳遞[5],有效解決了這一問題。HomChaudhuri 等[6]采用等效燃油消耗最小策略(Equivalent Consumption Minimization Strategy,ECMS)搭建下層EMS 控制器,基于上層提供的車速、需求功率實(shí)時(shí)調(diào)整發(fā)動(dòng)機(jī)及電機(jī)功率。為提升分層策略控制效果,需開發(fā)合適的EMS 下層控制器。
目前,EMS 可分為2 種類型:基于規(guī)則的方法[7]和基于優(yōu)化的方法[8]?;谝?guī)則的方法過于依賴工程經(jīng)驗(yàn)[9],然而汽車實(shí)際行駛工況多變,僅依賴專家工程經(jīng)驗(yàn)來設(shè)定混合動(dòng)力車輛的能量分配規(guī)則,很難確保車輛達(dá)到最優(yōu)的經(jīng)濟(jì)性?;趦?yōu)化的策略可以分為2個(gè)類別,即瞬時(shí)優(yōu)化[10]和全局優(yōu)化[11]。瞬時(shí)優(yōu)化的典型算法為ECMS、MPC[12],僅能保證車輛能耗局部最優(yōu)[13]。全局優(yōu)化可實(shí)現(xiàn)全局最優(yōu),典型的算法為動(dòng)態(tài)規(guī)劃(Dynamic Programming,DP),DP 需提前獲取工況信息,才能利用全局最優(yōu)化理論分配不同能源間的輸出功率[14]。隨機(jī)動(dòng)態(tài)規(guī)劃(Stochastic Dynamic Programming,SDP)在DP的基礎(chǔ)上結(jié)合了馬爾可夫決策過程,確保算法具備求解隨機(jī)過程問題的能力[15],因而SDP 更適用于PHEV 的EMS開發(fā)。
針對(duì)上述研究現(xiàn)狀,本文采用基于SDP的多能源功率分配方法搭建下層EMS 控制器,利用馬爾可夫決策過程提高其最優(yōu)性和實(shí)時(shí)性,上層設(shè)計(jì)基于RBFNN 與MPC 結(jié)合的速度優(yōu)化控制器,確保速度和距離跟蹤的及時(shí)性和平穩(wěn)性。下層EMS控制器根據(jù)上層控制器傳遞的車速、需求功率、荷電狀態(tài)等信息,利用SDP算法實(shí)現(xiàn)PHEV 的發(fā)動(dòng)機(jī)與動(dòng)力電池之間的最優(yōu)能量分配。最后,仿真驗(yàn)證所提出算法的有效性。
本文的研究對(duì)象為基于雙電機(jī)與發(fā)動(dòng)機(jī)3 個(gè)動(dòng)力源的混合動(dòng)力汽車。車輛動(dòng)力系統(tǒng)結(jié)構(gòu)如圖1所示,驅(qū)動(dòng)模式包括純電動(dòng)驅(qū)動(dòng)、發(fā)動(dòng)機(jī)驅(qū)動(dòng)、串并聯(lián)驅(qū)動(dòng)及能量回收模式。整車具體參數(shù)如表1所示。
圖1 動(dòng)力系統(tǒng)結(jié)構(gòu)
基于電機(jī)轉(zhuǎn)速和轉(zhuǎn)矩,電機(jī)效率表示為:
式中,w(m)、Te(m)分別為第m個(gè)電機(jī)的轉(zhuǎn)速、轉(zhuǎn)矩;η(m)為第m個(gè)電機(jī)的運(yùn)行效率;Te(m)max、Te(m)min分別為第m個(gè)電機(jī)輸出的最大、最小轉(zhuǎn)矩。
電機(jī)的效率MAP如圖2所示。
圖2 電機(jī)效率MAP
發(fā)動(dòng)機(jī)瞬時(shí)燃油消耗率mfuel可由發(fā)動(dòng)機(jī)扭矩Teng和轉(zhuǎn)速weng表示:
燃油消耗率MAP如圖3所示,發(fā)動(dòng)機(jī)最優(yōu)工作曲線如圖4所示,由圖4可知,weng與發(fā)動(dòng)機(jī)功率Peng存在對(duì)應(yīng)關(guān)系,Peng=g(weng)。故根據(jù)式(2),在已知weng的條件下,利用Teng與燃油消耗率MAP即可確定車輛燃油消耗率。
圖3 燃油消耗率MAP
圖4 最優(yōu)工作曲線
電池組采用一階RC等效電路模型模擬。電流ib和t時(shí)刻荷電狀態(tài)(State of Charge,SOC)S(t)可表示為:
式中,Pb為電池功率;Sinit為初始SOC;U為開路電壓;Rb為內(nèi)阻;Qb為電池容量。
利用電池放電試驗(yàn)可獲取單體電池U和Rb隨SOC的變化關(guān)系如圖5所示,基于t時(shí)刻的SOC,通過插值算法可得到t時(shí)刻的U和Rb。
圖5 單體電池U、Rb隨SOC的變化曲線
研究對(duì)象為3 輛參數(shù)相同的PHEV,其行駛場(chǎng)景為5輛車組成的隊(duì)列,研究對(duì)象位于隊(duì)列中心。行駛工況為坡度及附著系數(shù)均動(dòng)態(tài)變化的高速工況。隊(duì)列模型如圖6 所示,道路累計(jì)坡度如圖7 所示。圖6 中,隊(duì)列領(lǐng)先車輛0 在給定高速公路燃油經(jīng)濟(jì)性試驗(yàn)(Highway Fuel Economy Test,HWFET)工況的基礎(chǔ)上加入了速度干擾,車輛4 提高行駛速度,從而縮短整個(gè)隊(duì)列的間距。利用MPC 原理,基于前車的速度及整個(gè)隊(duì)列的長(zhǎng)度,以車輛間距離誤差、速度誤差為成本函數(shù),實(shí)時(shí)獲取車輛1~車輛3的速度,確保隊(duì)列的安全行駛。
圖6 隊(duì)列示意
圖7 道路累計(jì)坡度
假設(shè)車輛行駛于混凝土路面,考慮到路面存在泥濘或碎石等情況,該路面滾動(dòng)阻力系數(shù)φ的范圍為0.005~0.025[16]。設(shè)初始滾動(dòng)阻力系數(shù)為0.015,其改變量Δφ的定義規(guī)則為:
式中,mod為取余函數(shù)。
車輛0在t時(shí)刻的速度為:
式中,λ為0.8~1.2 范圍內(nèi)的隨機(jī)數(shù);vHWFET為標(biāo)準(zhǔn)高速工況車速。
編號(hào)為n的目標(biāo)車輛與其前車間動(dòng)態(tài)車距ddes(n)為:
式中,d0為默認(rèn)的安全距離,通常設(shè)置為5~15 m;vego(n)為隊(duì)列中相鄰車輛間后車n的車速,即目標(biāo)車輛的車速;Thead為時(shí)間常數(shù);dcut為后車加速行駛所縮短的隊(duì)列距離:
式中,v(4)為車輛4的車速。
隊(duì)列的狀態(tài)變量可以表示為:
式中,d(n)為車輛n與其前車間的距離;aego(n)為車輛n的加速度。
使用t時(shí)刻車輛n的狀態(tài)x(n)(t)來預(yù)測(cè)(t+1)時(shí)刻的狀態(tài)x(n)(t+1):
由當(dāng)前車輛的狀態(tài)x(n)(t)預(yù)測(cè)(t+k)時(shí)刻的狀態(tài)x(n)(t+k)為:
對(duì)于隊(duì)列里相鄰車輛,可根據(jù)狀態(tài)變量中的運(yùn)動(dòng)學(xué)參數(shù)設(shè)計(jì)MPC目標(biāo)函數(shù)。t時(shí)刻編號(hào)為n車輛的目標(biāo)函數(shù)J(n)(t)包括車輛間距和車速,計(jì)算公式為:
式中,Δd(n)(t)、Δv(n)(t)分別為t時(shí)刻編號(hào)為n的車輛與其前車間的距離誤差、速度誤差,系統(tǒng)需保證當(dāng)Δd(t)趨近于0 時(shí),Δv(t)和后車加速度為0;d(n)(t)為第n輛車在0~t時(shí)刻的行駛距離;ddes(n)(t)為t時(shí)刻編號(hào)為n的車輛與其前車間動(dòng)態(tài)車距;v(n)(t)為t時(shí)刻編號(hào)為n的車輛速度;qd、qv分別為距離誤差、車速誤差的權(quán)重。
隊(duì)列在運(yùn)行時(shí)還應(yīng)滿足如下限制:
式中,Δdmax、Δdmin分別為相鄰車輛間距離誤差的上限和下限;Δvmax、Δvmin分別為速度誤差的上限和下限;amax、amin分別為加速度的上限和下限;Δamax、Δamin分別為加速度變化的上限和下限;a(n)(t)為t時(shí)刻編號(hào)為n的車輛加速度。
RBFNN 是一種具有單隱層的3 層前向網(wǎng)絡(luò),分別為輸入層、隱層和輸出層。其學(xué)習(xí)方法與反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)類似,但其隱層的激活函數(shù)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)層不同,可實(shí)現(xiàn)輸入向量的線性化轉(zhuǎn)換。通過合理調(diào)節(jié)權(quán)重,確保RBFNN 可以任意精度逼近非線性函數(shù),從根本上解決了BPNN局部最優(yōu)問題。
本文所設(shè)定工況中車輛0 的速度、隊(duì)列距離、附著系數(shù)及坡度會(huì)實(shí)時(shí)改變,此時(shí)MPC 頻繁運(yùn)行調(diào)整后車加速度,確保隊(duì)列安全運(yùn)行,該做法會(huì)導(dǎo)致后車加速度波動(dòng)較大??紤]到基于MPC所搭建的速度控制器是一個(gè)復(fù)雜的變參數(shù)非線性系統(tǒng),而RBFNN 具有在無法獲取準(zhǔn)確數(shù)學(xué)模型的非線性系統(tǒng)中實(shí)現(xiàn)最優(yōu)控制的特性,為了減少波動(dòng),提高駕駛員的駕駛體驗(yàn),以車輛加速度為控制對(duì)象,建立了基于RBFNN 的速度控制器模型。首先選定目標(biāo)車輛車速vego、目標(biāo)車輛與其前車間速度誤差Δv、目標(biāo)車輛與其前車間距離差Δd作為RBFNN輸入,目標(biāo)車輛加速度aego作為RBFNN輸出。然后基于MPC 原理,利用式(5),經(jīng)過N次MPC 算法迭代,獲取1~N次迭代后的[vego{1,2,…,N}Δv{1,2,…,N}Δd{1,2,…,N}]數(shù)據(jù)集和[aego{1,2,…,N}]數(shù)據(jù)集,為獲取充足的訓(xùn)練數(shù)據(jù)集,每次迭代過程車速會(huì)調(diào)整為標(biāo)準(zhǔn)工況的0.8~1.2倍。最后通過訓(xùn)練輸入、輸出數(shù)據(jù)集,從而生成RBFNN 速度跟蹤控制器應(yīng)用于隊(duì)列中,確保車輛以更平穩(wěn)的加速度運(yùn)行。RBFNN結(jié)構(gòu)如圖8所示。該網(wǎng)絡(luò)含有3個(gè)隱層,并分別具有10 個(gè)神經(jīng)元。圖中p為輸入數(shù)量,p=3;e為神經(jīng)元數(shù)量;z為隱層數(shù)量;qe為第e個(gè)神經(jīng)元的權(quán)重。
圖8 RBFNN速度控制器結(jié)構(gòu)
馬爾可夫過程表示為:假設(shè)研究對(duì)象在ta時(shí)狀態(tài)為Sa,在tb時(shí)處于狀態(tài)Sb的可能性僅與ta時(shí)所處的狀態(tài)Sa有關(guān),即
在該過程中,研究對(duì)象從Sa至Sb的狀態(tài)轉(zhuǎn)移矩陣Pa,b為:
式中,D為狀態(tài)數(shù)量。
所選定工況速度及車輛需求功率如圖9所示。
圖9 工況車速及需求功率
將車速、需求功率離散化,可表示為:
式中,Nv、Nr分別為速度和需求功率離散的數(shù)量;preq為離散化的需求功率集合;v為離散化的車速集合。
基于最鄰近算法和最大似然估計(jì)可得車輛以某一速度vm行駛時(shí)需求功率從Sa至Sb的概率Pa,b(vm)為:
式中,Na,b(vm)為以vm行駛時(shí)preq從preq(a)轉(zhuǎn)換為preq(b)的次數(shù);Na(vm)為以vm行駛時(shí)preq為preq(a)的次數(shù)。
以vm=25 km/h 為例,狀態(tài)轉(zhuǎn)移概率分布如圖10 所示,由圖10可得,狀態(tài)轉(zhuǎn)移主要發(fā)生在鄰近狀態(tài)間。
圖10 狀態(tài)轉(zhuǎn)移概率
基于隨機(jī)動(dòng)態(tài)規(guī)劃所搭建的能量管理策略的控制變量為電池功率pbat,狀態(tài)變量為荷電狀態(tài)S、車速v、需求功率preq,成本函數(shù)為油耗,即
式中,Ttotal為工況總時(shí)長(zhǎng)。
求解SDP 問題時(shí),若狀態(tài)由a轉(zhuǎn)為b,基于Bellman原理,此時(shí)狀態(tài)轉(zhuǎn)移的值函數(shù)(代價(jià))為:
式中,Zk(b)為k次迭代時(shí),狀態(tài)b的值函數(shù);β∈(0,1)為保證成本函數(shù)收斂的收斂因子;μ表示所采取的動(dòng)作;Ja,b(μ)為基于動(dòng)作μ,狀態(tài)由a轉(zhuǎn)為b時(shí)的成本函數(shù)。
從第k次到第(k+1)次迭代過程中Bellman誤差為:
為了確保策略最優(yōu),Bellman誤差ε須滿足:
式中,?為最大允許誤差。
假設(shè)當(dāng)前迭代策略為Ck,此時(shí)需基于狀態(tài)-行動(dòng)[(S,v,preq),(pbat)]計(jì)算Q函數(shù)值:
基于Ck時(shí)所得Q值QCk更新策略Ck+1:
由式(20)可以得到每個(gè)狀態(tài)下的最優(yōu)值函數(shù),利用各狀態(tài)下的最優(yōu)值函數(shù),基于貪婪策略,將其組合為全局最優(yōu)策略,即
基于隨機(jī)動(dòng)態(tài)規(guī)劃所搭建的能量管理策略具體流程如表2所示。
表2 策略迭代流程
將基于規(guī)則的能量管理策略作為對(duì)比量,該策略根據(jù)發(fā)動(dòng)機(jī)的穩(wěn)態(tài)效率特性確定邏輯門限參數(shù)閾值,將車輛驅(qū)動(dòng)模式劃分為純電動(dòng)模式、發(fā)動(dòng)機(jī)模式、聯(lián)合驅(qū)動(dòng)模式。具體模式切換如圖11所示。當(dāng)發(fā)動(dòng)機(jī)需求轉(zhuǎn)速和需求轉(zhuǎn)矩較低時(shí),發(fā)動(dòng)機(jī)效率低,此時(shí)采用純電動(dòng)工作模式,已達(dá)到節(jié)能目的。當(dāng)需求轉(zhuǎn)速和需求轉(zhuǎn)矩提升,且處于發(fā)動(dòng)機(jī)最優(yōu)效率曲線內(nèi),采用發(fā)動(dòng)機(jī)工作模式。當(dāng)車速且需求轉(zhuǎn)矩均較大時(shí),為了確保動(dòng)力,采用聯(lián)合驅(qū)動(dòng)工作模式。
圖11 車輛驅(qū)動(dòng)模式切換
基于SDP 與RBFNN 結(jié)合的插電式混合動(dòng)力汽車隊(duì)列的分層優(yōu)化控制策略總體控制框架如圖12 所示。
圖12 總體控制框架
為了驗(yàn)證基于RBFNN所搭建的上層速度控制器的工況適應(yīng)性,隊(duì)列領(lǐng)先車輛0 在給定參考HWFET 工況的基礎(chǔ)上加入速度干擾,并完全遵循干擾后的HWFET駕駛循環(huán)的速度曲線行駛。車輛1~車輛4 將使用上層速度控制策略跟蹤車輛0,確保隊(duì)列安全行駛,車輛4在行駛時(shí)會(huì)提升車速,壓縮隊(duì)列距離。圖13a顯示了標(biāo)準(zhǔn)HWFET工況下車輛速度和加入速度干擾后車輛0的速度。以車輛2為例,運(yùn)行時(shí)由于坡度和滾動(dòng)阻力系數(shù)變化導(dǎo)致其加速度的改變量如圖13c所示。
圖13 隊(duì)列干擾
圖14a顯示了車輛隊(duì)列的跟隨性能,當(dāng)前車加速或減速時(shí),跟隨車輛表現(xiàn)出優(yōu)異的跟蹤能力,速度波動(dòng)小。由圖14b 可知,在指定工況場(chǎng)景中,車輛并未發(fā)生碰撞,且上層控制器可以通過及時(shí)調(diào)節(jié)車輛加速度,確保車輛間距的實(shí)時(shí)更改。
圖14 車速和距離對(duì)比
由于車距、坡度、附著系數(shù)不斷變化,速度控制器會(huì)頻繁工作來改變車輛1~車輛3 的加速度,導(dǎo)致車輛1~車輛3的跟蹤速度及加速度的波動(dòng)較大,此時(shí)乘坐體驗(yàn)不佳。故利用RBFNN 優(yōu)化基于MPC 所搭建的速度控制器,平滑加速度曲線。以車輛2 為例,優(yōu)化后車輛間距如圖15 所示,由圖15 可得,相較于MPC 搭建的上層控制器,RBFNN-MPC 策略在確保車輛安全距離的同時(shí),所得到的車輛加速度波動(dòng)小,間距曲線平穩(wěn),即此時(shí)車輛不會(huì)頻繁加減速,乘坐體驗(yàn)得到提升。
圖15 神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果對(duì)比
上層速度控制器在確保車輛間安全距離的同時(shí),將車輛速度、加速度信息傳遞至前文動(dòng)力系統(tǒng)模型中,從而獲取不同時(shí)刻車輛SOC和preq?;赟DP的能量管理策略將獲取的SOC、v、preq作為狀態(tài)變量,以油耗作為成本函數(shù),基于表2 中策略迭代步驟實(shí)時(shí)控制電池功率pbat。車輛基于SDP 訓(xùn)練所得策略運(yùn)行時(shí)單步運(yùn)行時(shí)間經(jīng)計(jì)算為0.029 316 77 s,滿足實(shí)時(shí)性的要求。
將基于電量消耗-電量維持(Charge Depleting/Charge Sustaining,CD/CS)策略、規(guī)則控制策略作為對(duì)比策略,基于3種策略的SOC對(duì)比結(jié)果如圖16所示。由圖16可知,基于CD/CS 策略,車輛均先依靠電池放電為車輛提供動(dòng)能,當(dāng)電池SOC 達(dá)到30%后,發(fā)動(dòng)機(jī)起動(dòng)并消耗燃油為電池充電。該過程相較于基于規(guī)則的控制策略、SDP策略,SOC下降速度最快,由此導(dǎo)致車輛后期運(yùn)行時(shí)會(huì)消耗大量燃油。規(guī)則控制策略與SDP策略相比,SOC下降速度在工況前中期大體一致,但由于SDP的本質(zhì)為全局最優(yōu)問題求解,故其SOC下降速度最慢。
圖16 基于3種策略的SOC對(duì)比結(jié)果
3 種不同策略的油耗和SOC 消耗對(duì)比結(jié)果如表3所示。發(fā)動(dòng)機(jī)工作率的對(duì)比結(jié)果如圖17 所示,由圖17 可得,基于規(guī)則控制策略的發(fā)動(dòng)機(jī)工作率略高于CD/CS 策略,SDP 策略最低。這是因?yàn)樵O(shè)定工況為高速工況,發(fā)動(dòng)機(jī)的需求轉(zhuǎn)矩、需求轉(zhuǎn)速相較于城區(qū)工況更大,鑒于規(guī)則策略的原理,此時(shí)車輛處于發(fā)動(dòng)機(jī)模式及聯(lián)合驅(qū)動(dòng)模式的次數(shù)會(huì)增加。CD/CS 策略中SOC 低于30%后,發(fā)動(dòng)機(jī)會(huì)頻繁起停為電池充電,從而驅(qū)動(dòng)車輛行駛。故整體而言,SDP 策略發(fā)動(dòng)機(jī)工作率最低。
表3 3種策略能耗對(duì)比
圖17 發(fā)動(dòng)機(jī)工作率對(duì)比
圖18 所示為3 輛車基于不同策略時(shí)發(fā)動(dòng)機(jī)工作點(diǎn)對(duì)比結(jié)果,由圖18可得,車輛以CD/CS策略運(yùn)行時(shí)發(fā)動(dòng)機(jī)工作點(diǎn)大部分處于25%以下的低效率區(qū)域,此時(shí)發(fā)動(dòng)機(jī)常以低轉(zhuǎn)速、低轉(zhuǎn)矩狀態(tài)運(yùn)行。當(dāng)車輛以規(guī)則控制策略和SDP 策略運(yùn)行時(shí),發(fā)動(dòng)機(jī)大部分工作于25%~30%的效率區(qū)域。SDP策略相較于規(guī)則控制策略,發(fā)動(dòng)機(jī)的工作點(diǎn)更靠近高效率區(qū)。
本文以插電式混合動(dòng)力汽車隊(duì)列模型為研究對(duì)象,提出了一種分層優(yōu)化控制策略。該策略上層搭建了基于RBFNN 的速度控制器,下層提出了基于SDP 的能量管理策略。仿真結(jié)果表明,在高速工況下,所提出的上層速度控制策略相較于MPC控制,加速度變化更平緩,乘坐舒適性好。下層提出的SDP 策略與CD/CS 策略及規(guī)則控制策略相比,隊(duì)列中車輛油耗及發(fā)動(dòng)機(jī)工作率均有所降低。綜上所述,所提出的基于RBFNN 與SDP 結(jié)合的插電式混合汽車隊(duì)列的分層優(yōu)化控制策略具有一定的有效性和可行性,可為后續(xù)研究提供參考。