齊春陽(yáng),宋傳學(xué),宋世欣,靳立強(qiáng),王 達(dá),肖 峰
(1.吉林大學(xué),汽車仿真與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)春 130022;2.吉林大學(xué)汽車工程學(xué)院,長(zhǎng)春 130022;3.吉林大學(xué)機(jī)械與航空航天工程學(xué)院,長(zhǎng)春 130022)
混合動(dòng)力汽車的主要目標(biāo)是提高動(dòng)力系統(tǒng)的效率和降低燃料消耗。在給定動(dòng)力系統(tǒng)配置的情況下,影響混合動(dòng)力汽車油耗的最重要因素是發(fā)動(dòng)機(jī)和電氣系統(tǒng)之間的功率分配比。能量管理策略(energy management strategy,EMS)是混合動(dòng)力汽車的關(guān)鍵技術(shù)之一,需要在滿足電力需求的約束下協(xié)調(diào)發(fā)動(dòng)機(jī)和電氣系統(tǒng)之間的功率分配。對(duì)于同一車型,同一行駛周期,不同能量管理策略對(duì)應(yīng)的油耗相差20%[1]。因此,研究混合動(dòng)力汽車的能量管理策略具有重要意義。在混合動(dòng)力汽車能量管理策略的研究過程中,研究者將大部分的控制策略主要分為3 類:(1)基于規(guī)則;(2)基于優(yōu)化;(3)基于學(xué)習(xí)。其中,基于規(guī)則又可以分為確定性規(guī)則和模糊性規(guī)則;基于優(yōu)化可以分為全局優(yōu)化和瞬時(shí)優(yōu)化?;谝?guī)則的能量管理策略需要制定控制規(guī)則來確定不同驅(qū)動(dòng)模式下的能源分布情況[2]?;谝?guī)則的方法優(yōu)點(diǎn)在于,規(guī)則制度很容易開發(fā),并且可以應(yīng)用在實(shí)施控制系統(tǒng)中。但是規(guī)則的開發(fā)非常需要經(jīng)驗(yàn)豐富的專家工程師的知識(shí)。與基于規(guī)則的能量管理策略相比,全局優(yōu)化算法調(diào)整的參數(shù)優(yōu)于確定性規(guī)則。近幾年,基于學(xué)習(xí)的方法越來越受到研究者們的關(guān)注。其中,強(qiáng)化學(xué)習(xí)方法能夠解決與實(shí)時(shí)優(yōu)化方法相關(guān)的任務(wù)得到了大家的青睞。強(qiáng)化學(xué)習(xí)智能體根據(jù)累計(jì)的獎(jiǎng)勵(lì)能夠在不同狀態(tài)下采取適應(yīng)的行動(dòng)。重慶理工大學(xué)的龐玉涵[3]提出了一種分層機(jī)構(gòu)的強(qiáng)化學(xué)習(xí)方法,為能量管理策略提供了新思路。北京理工大學(xué)的劉騰[4]從強(qiáng)化學(xué)習(xí)算法出發(fā),探索了以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的能量管理策略在最優(yōu)性、自適應(yīng)性和學(xué)習(xí)能力下的優(yōu)化,并將強(qiáng)化學(xué)習(xí)算法深入到實(shí)時(shí)優(yōu)化過程中,為實(shí)時(shí)性的強(qiáng)化學(xué)習(xí)算法提供了思路。重慶大學(xué)的唐小林等[5]提出一種基于深度值網(wǎng)絡(luò)算法的能量管理策略,實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)對(duì)發(fā)動(dòng)機(jī)與機(jī)械式無級(jí)變速器的多目標(biāo)協(xié)同控制。Li 等[6]提出了一種利用優(yōu)先級(jí)經(jīng)驗(yàn)重放機(jī)制改進(jìn)DQN(deep Qnetwork)模型。Chaoui 等[7]提出了一種基于強(qiáng)化學(xué)習(xí)的方法,用于平衡具有多個(gè)電池的電動(dòng)汽車電池的荷電狀態(tài),該方法可以延長(zhǎng)電池壽命并減少電池的頻繁維護(hù)。
另外,強(qiáng)化學(xué)習(xí)狀態(tài)之間有很強(qiáng)的相關(guān)性,會(huì)不同程度影響學(xué)習(xí)效果。Liu 等[8]將基于 GPS 得到的行程信息與強(qiáng)化學(xué)習(xí)算法結(jié)合,在狀態(tài)變量中加入剩余行駛里程,仿真結(jié)果顯示取得了良好的優(yōu)化效果。Liu 等[9]提出一種應(yīng)用數(shù)據(jù)來驅(qū)動(dòng)的算法,并且成功用于能量管理策略中,實(shí)現(xiàn)了良好的節(jié)油性能。在基于強(qiáng)化學(xué)習(xí)的能量管理策略中,強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)定的問題經(jīng)常會(huì)被忽略。獎(jiǎng)勵(lì)函數(shù)通常是主觀的和經(jīng)驗(yàn)的,它不容易客觀地描述專家的意圖,也不能保證給定的獎(jiǎng)勵(lì)函數(shù)會(huì)導(dǎo)致最優(yōu)的駕駛策略。在混合動(dòng)力能量管理控制策略問題中,獎(jiǎng)勵(lì)函數(shù)的不同直接會(huì)導(dǎo)致訓(xùn)練方向的改變。直觀地說,電池與發(fā)動(dòng)機(jī)的參數(shù)決定訓(xùn)練的方向是發(fā)動(dòng)機(jī)最優(yōu)油耗還是電池的最優(yōu)狀態(tài),獎(jiǎng)勵(lì)函數(shù)的設(shè)定摻雜了過多的人為因素。深度強(qiáng)化學(xué)習(xí)是智能體與環(huán)境的不斷交互學(xué)習(xí)的結(jié)果,通過不斷交互、不斷更新策略來最大化累計(jì)獎(jiǎng)勵(lì)值。獎(jiǎng)勵(lì)值作為智能體更新策略的關(guān)鍵,設(shè)計(jì)獎(jiǎng)勵(lì)值時(shí)更需要具有客觀理論依據(jù),獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)關(guān)乎到整個(gè)訓(xùn)練網(wǎng)絡(luò)的方向。針對(duì)以上問題,本文提出了一種逆強(qiáng)化學(xué)習(xí)方法,通過反向推導(dǎo)權(quán)重參數(shù)并校準(zhǔn)正向強(qiáng)化學(xué)習(xí)算法來優(yōu)化能量管理。逆強(qiáng)化學(xué)習(xí)算法的目標(biāo)是構(gòu)造一個(gè)關(guān)于狀態(tài)的獎(jiǎng)勵(lì)函數(shù)的特征向量,并通過收集合理的專家呈現(xiàn)軌跡來學(xué)習(xí)最優(yōu)獎(jiǎng)勵(lì)函數(shù)的權(quán)重向量。這種方法能夠描述專家策略,克服經(jīng)驗(yàn)設(shè)計(jì)的隨機(jī)性質(zhì)。
混合動(dòng)力汽車的結(jié)構(gòu)可以理解為能量通路與控制端口之間的連接關(guān)系,它也是一個(gè)較為復(fù)雜的系統(tǒng),而且具有很強(qiáng)的非線性特性?;旌蟿?dòng)力汽車的系統(tǒng)具有多變性,它是將多個(gè)非線性系統(tǒng)耦合而成的,建立非常精確的數(shù)學(xué)模型是極其困難的,所以更加需要統(tǒng)一的建模方法。在混合動(dòng)力汽車構(gòu)型研發(fā)中,較為基本的方法是基于模型的方法。本文中針對(duì)某款混聯(lián)混合動(dòng)力汽車展開研究,車型的結(jié)構(gòu)如圖1 所示。行星齒輪機(jī)構(gòu)與驅(qū)動(dòng)電機(jī)平行布置,行星齒輪機(jī)構(gòu)行星架通過減振器連接至發(fā)動(dòng)機(jī)端,太陽(yáng)輪連接到發(fā)電機(jī)MG1,齒圈通過齒輪連接到MG2和輸出軸。此外,發(fā)動(dòng)機(jī)與減振器之間有一個(gè)單向離合器,即便發(fā)動(dòng)機(jī)反轉(zhuǎn)時(shí)也能及時(shí)自鎖。當(dāng)進(jìn)行能量管理的模擬仿真時(shí),需要依托仿真軟件構(gòu)建整車的動(dòng)力學(xué)模型,還需要從整車各個(gè)部件的建模入手分別建模,主要包括電機(jī)模型、發(fā)動(dòng)機(jī)模型、電池模型、變速器模型、車輪模型、駕駛員模型等,相關(guān)部件的基本參數(shù)如表1所示。
表1 本文研究對(duì)象參數(shù)
圖1 本文車輛研究對(duì)象
在很多基于強(qiáng)化學(xué)習(xí)的能量管理策略當(dāng)中,獎(jiǎng)勵(lì)函數(shù)的優(yōu)化準(zhǔn)則為在SOC 值變化范圍相同下,燃油消耗盡可能的低,盡可能延長(zhǎng)電池壽命,發(fā)動(dòng)機(jī)工作在最優(yōu)燃油區(qū)間。對(duì)于強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)還存在實(shí)驗(yàn)性的調(diào)參,獎(jiǎng)勵(lì)函數(shù)的構(gòu)造通常具備主觀經(jīng)驗(yàn)性,不容易客觀地描述專家意圖,從而不能保證在給定獎(jiǎng)勵(lì)函數(shù)下智能體能學(xué)習(xí)出最優(yōu)的駕駛策略。以下,列舉了很多優(yōu)秀的強(qiáng)化學(xué)習(xí)能量管理策略方法中獎(jiǎng)勵(lì)函數(shù)的設(shè)定[10-23]。
式中:r表示各個(gè)文獻(xiàn)中的獎(jiǎng) 勵(lì)函數(shù)符號(hào);為在不同的文獻(xiàn)中所表示的燃油消耗率;ΔSOC表示電池SOC變化范圍;α表示發(fā)動(dòng)機(jī)燃油消耗的權(quán)重參數(shù);β和ε表示獎(jiǎng)勵(lì)函數(shù)中電池的權(quán)重參數(shù);fuel(t)表示t時(shí)刻的燃油消耗量;SOC(t)表示t時(shí)刻的SOC值;elec(t)表示t時(shí)刻的電能消耗量;SOCref表示電池初始SOC值;表示時(shí)刻τ時(shí)SOC值變化的平方;SOCmin表示最低的SOC值要求;SOCmax表示最高的SOC值要求。
一個(gè)合理的獎(jiǎng)勵(lì)函數(shù)不僅可以加速訓(xùn)練過程,同時(shí)可以使得策略優(yōu)化的過程更加穩(wěn)定。從上述的獎(jiǎng)勵(lì)函數(shù)表達(dá)式可以明確雖然能量管理強(qiáng)化學(xué)習(xí)方法的優(yōu)化方式不同,但是基本符合以下表達(dá)式:
式中參數(shù)α與β是維持燃油消耗率與SOC 維持關(guān)系的線性權(quán)重。指定這樣的加權(quán)函數(shù)優(yōu)點(diǎn)在于能夠直接使用具有標(biāo)準(zhǔn)化的強(qiáng)化學(xué)習(xí)算法,但是這也直接導(dǎo)致了在訓(xùn)練開始之前就需要確定權(quán)重,這對(duì)于能量管理問題是極其困難的。一方面,獎(jiǎng)勵(lì)函數(shù)需要偏重于SOC維持基本功能,經(jīng)常會(huì)表現(xiàn)的較為保守,不能充分利用電池緩沖。另一方面,受限于目標(biāo)任務(wù),多目標(biāo)任務(wù)的不同參數(shù)也無法確定。另外,在這些研究中,發(fā)動(dòng)機(jī)和電池之間權(quán)衡的主觀因素是不可避免的。強(qiáng)化學(xué)習(xí)是尋求累積獎(jiǎng)勵(lì)期望最大化的最優(yōu)策略,而這種獎(jiǎng)勵(lì)方程的設(shè)置通常是人為或環(huán)境提供的?;旌蟿?dòng)力汽車環(huán)境下的強(qiáng)化學(xué)習(xí)任務(wù)過于復(fù)雜,而人為設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)過于困難,且具有較高的主觀性和實(shí)效性。獎(jiǎng)勵(lì)函數(shù)設(shè)置的不同導(dǎo)致了最優(yōu)策略的不同。如果沒有適當(dāng)?shù)莫?jiǎng)勵(lì),強(qiáng)化學(xué)習(xí)算法很難收斂。接下來,詳細(xì)闡述本文提出的逆向強(qiáng)化學(xué)習(xí)參數(shù)確定方法。
一般來說,在正向強(qiáng)化學(xué)習(xí)中,以發(fā)動(dòng)機(jī)最佳工作點(diǎn)與電池最佳SOC變化之間的差異為優(yōu)化目標(biāo)來訓(xùn)練網(wǎng)絡(luò)。相反,本章提出一種逆向強(qiáng)化學(xué)習(xí)的方法,探索其最優(yōu)的參數(shù)匹配。與正向強(qiáng)化學(xué)習(xí)不同,在逆向強(qiáng)化學(xué)習(xí)中,需要利用發(fā)動(dòng)機(jī)和電池的最佳狀態(tài)來推導(dǎo)權(quán)重系數(shù)。首先將車輛作為強(qiáng)化學(xué)習(xí)環(huán)境,輸入為從原始的行駛循環(huán)變?yōu)榘l(fā)動(dòng)機(jī)最優(yōu)工作點(diǎn)和電池最優(yōu)工作狀態(tài)。隨后,將電池和發(fā)動(dòng)機(jī)作為強(qiáng)化學(xué)習(xí)的兩個(gè)智能體,通過反向強(qiáng)化學(xué)習(xí)得到兩個(gè)智能體的權(quán)系數(shù)來指導(dǎo)智能體的行為。在本文當(dāng)中,正向強(qiáng)化學(xué)習(xí)是作為逆向強(qiáng)化學(xué)習(xí)的一個(gè)驗(yàn)證過程。所以正向強(qiáng)化學(xué)習(xí)與逆向強(qiáng)化學(xué)習(xí)的狀態(tài)空間與動(dòng)作空間保持一致,這樣正向強(qiáng)化學(xué)習(xí)更容易驗(yàn)證本文的算法。狀態(tài)空間與動(dòng)作空間如下:
其中,狀態(tài)空間S由發(fā)動(dòng)機(jī)轉(zhuǎn)矩T、發(fā)動(dòng)機(jī)轉(zhuǎn)速n和電池SOC值組成,強(qiáng)化學(xué)習(xí)的動(dòng)作值A(chǔ)由發(fā)動(dòng)機(jī)需求功率Pre確定。
在本文中,逆向強(qiáng)化學(xué)習(xí)與正向強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)都應(yīng)符合如下公式:
其中,Enginerweight與Batteryreweight就是本文利用逆向強(qiáng)化學(xué)習(xí)方法客觀的確定其權(quán)重系數(shù)。
本文逆向強(qiáng)化學(xué)習(xí)的流程主要分為如下4 個(gè)部分:第1 部分表示發(fā)動(dòng)機(jī)和電池的最佳狀態(tài),對(duì)于發(fā)動(dòng)機(jī)而言是最佳工作點(diǎn),對(duì)于電池而言是保持電池SOC 值的合理穩(wěn)定,最大化電池壽命,并輸入到第2部分中循環(huán)訓(xùn)練得到參數(shù)權(quán)重系數(shù);第2 部分是逆向強(qiáng)化學(xué)習(xí)的算法框架,定義最大熵逆向強(qiáng)化學(xué)習(xí);第3 部分表示強(qiáng)化學(xué)習(xí)環(huán)境,將參數(shù)輸入到環(huán)境中;第4 部分是強(qiáng)化學(xué)習(xí)DQN 算法。第1、2 部分結(jié)構(gòu)如圖2(a)所示,圖2(b)顯示的是第3、4 部分的具體構(gòu)成。
綜上,該算法的具體流程如下:基于專家軌跡和強(qiáng)化學(xué)習(xí)基礎(chǔ),確定獎(jiǎng)勵(lì)函數(shù)為狀態(tài)和動(dòng)作的函數(shù)。然后,將新的權(quán)重系數(shù)輸入到獎(jiǎng)勵(lì)函數(shù)中,輸出到第3 部分進(jìn)行正向強(qiáng)化學(xué)習(xí)。在該逆向強(qiáng)化學(xué)習(xí)算法中,將發(fā)動(dòng)機(jī)和電池視作多智能體結(jié)構(gòu),以最佳狀態(tài)輸入到強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中。合理的獎(jiǎng)勵(lì)函數(shù)可以加快訓(xùn)練,獲得更加穩(wěn)定的策略優(yōu)化進(jìn)程,能量管理策略也會(huì)趨向于更穩(wěn)定的方向訓(xùn)練。在逆向強(qiáng)化學(xué)習(xí)中,可以把獎(jiǎng)勵(lì)函數(shù)看做是狀態(tài)值與權(quán)重系數(shù)相乘的結(jié)果,表達(dá)式如下:
式中:i表示分量數(shù);r(si,ai)表示(si,ai)狀態(tài)動(dòng)作的獎(jiǎng)勵(lì)值;fi表示獎(jiǎng)勵(lì)函數(shù)第i個(gè)特征分量;θi表示獎(jiǎng)勵(lì)函數(shù)權(quán)重向量第i個(gè)特征分量;d表示獎(jiǎng)勵(lì)函數(shù)中特征向量的個(gè)數(shù),在本研究中,采用雙智能體強(qiáng)化學(xué)習(xí)結(jié)構(gòu),電池和發(fā)動(dòng)機(jī)雙代理,所以d取值為2。
在強(qiáng)化學(xué)習(xí)能量管理策略中,專家策略很難用表達(dá)式表達(dá)。從發(fā)動(dòng)機(jī)出發(fā),專家策略是使得發(fā)動(dòng)機(jī)在最佳工作點(diǎn)附近工作;從電池出發(fā),專家策略是使得電池SOC變化在合理的范圍之內(nèi)。所以本節(jié)通過逆向強(qiáng)化學(xué)習(xí)的方式探索電池與發(fā)動(dòng)機(jī)之間的權(quán)重系數(shù)。逆向強(qiáng)化學(xué)習(xí)的方法為最大熵逆向強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)在面對(duì)環(huán)境中隨機(jī)因素時(shí),雙智能體會(huì)產(chǎn)生不同的專家軌跡。首先,定義一個(gè)最佳能量管理控制策略的軌跡ξ:
這條軌跡的獎(jiǎng)勵(lì)函數(shù)記為r(ξ):
在面對(duì)能量管理策略任務(wù)時(shí),環(huán)境是具有不確定性的隨機(jī)因素,所以肯定會(huì)存在多條專家軌跡,記為m,專家的特征期望為
在最大熵理論當(dāng)中,具備最大熵分布的模型是最優(yōu)模型,對(duì)于能量管理控制策略的問題,在已知發(fā)動(dòng)機(jī)最優(yōu)工作點(diǎn)和電池最優(yōu)SOC變化范圍的情況下,利用最大熵模型就可以得到獎(jiǎng)勵(lì)函數(shù)的參數(shù)值。最大熵優(yōu)化問題可以表示為
式中p(ξi|θ)表示在參數(shù)θ下,發(fā)生軌跡ξi的概率。最大熵逆強(qiáng)化學(xué)習(xí)的軌跡概率可以表示為
在最大熵逆向強(qiáng)化學(xué)習(xí)中,混合動(dòng)力能量管理的專家軌跡出現(xiàn)的概率越大,說明訓(xùn)練學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)越能反映出混合動(dòng)力汽車能量管理任務(wù)隱含的分布。初始化的優(yōu)化目標(biāo)為最大化專家軌跡的概率分布:
式中fueldemo為專家演示軌跡,也是混合動(dòng)力汽車最佳發(fā)動(dòng)機(jī)工作點(diǎn),通常將原始優(yōu)化問題轉(zhuǎn)化為最小化問題。優(yōu)化目標(biāo)變?yōu)樽钚』瘬p失函數(shù)J(θ)。
其中,優(yōu)化目標(biāo)為
式中:rθ(si,ai)表示當(dāng)前狀態(tài)動(dòng)作的獎(jiǎng)勵(lì)值;π(aj|sj)表示當(dāng)前狀態(tài)動(dòng)作對(duì)(si,ai)出現(xiàn)的概率。
由于匹配的函數(shù)采用的是能量管理策略抽樣軌跡擬合,因此可以用梯度法得到全局最優(yōu)解。關(guān)于優(yōu)化函數(shù)J(θ),用獎(jiǎng)勵(lì)函數(shù)的權(quán)重θr求導(dǎo):
最終,依據(jù)上式可以學(xué)習(xí)到獎(jiǎng)勵(lì)函數(shù)的全局最優(yōu)解。根據(jù)優(yōu)化后的θr參數(shù),可以推導(dǎo)出當(dāng)前的獎(jiǎng)勵(lì)函數(shù)rθ(si,ai),并將求解得到的獎(jiǎng)勵(lì)函數(shù)作為前向強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo),更新當(dāng)前策略,直到獎(jiǎng)勵(lì)函數(shù)更新小于給定的閾值。用最大熵逆強(qiáng)化學(xué)習(xí)獲得獎(jiǎng)勵(lì)函數(shù)權(quán)重的偽代碼如表2所示。
在圖3 中,藍(lán)線表示最佳發(fā)動(dòng)機(jī)運(yùn)行曲線。在求解獎(jiǎng)勵(lì)值權(quán)重的過程中,考慮到數(shù)據(jù)量過大,占用了較高的計(jì)算成本,所以將發(fā)動(dòng)機(jī)map 圖劃分為528 個(gè)區(qū)域,每個(gè)區(qū)域由一個(gè)10×10 矩陣組成。到達(dá)每個(gè)矩陣內(nèi)的工作點(diǎn)的獎(jiǎng)勵(lì)值的權(quán)重作為該矩陣的權(quán)重值。如果存在多個(gè)工作點(diǎn),則計(jì)算各工作點(diǎn)權(quán)值的平均值作為矩陣的獎(jiǎng)勵(lì)權(quán)值。由于其他區(qū)域的獎(jiǎng)勵(lì)值并不高,因而將獎(jiǎng)勵(lì)值的權(quán)重分別標(biāo)記在藍(lán)色最優(yōu)曲線上。通過逆強(qiáng)化學(xué)習(xí)算法得到了發(fā)動(dòng)機(jī)油耗的加權(quán)系數(shù)。圖4顯示了電池SOC變化時(shí)電池內(nèi)阻和電動(dòng)勢(shì)的變化。從圖4 中可以看出:電池SOC 在0.2-0.8之間工作,可獲得穩(wěn)定的電動(dòng)勢(shì);電池內(nèi)阻在0.3-0.7 范圍內(nèi)較低,這個(gè)范圍的效率較高,即SOC在0.3-0.7 范圍內(nèi)設(shè)置為電池的最佳狀態(tài)。經(jīng)過正則化后得到的權(quán)系數(shù)如圖5 所示。權(quán)重系數(shù)結(jié)果如式(31)所示。
圖5 正則化后的加權(quán)系數(shù)
從圖5可以看出:在R1-R16區(qū)間(R1-R16區(qū)間具體對(duì)應(yīng)轉(zhuǎn)速參見圖3)內(nèi),發(fā)動(dòng)機(jī)轉(zhuǎn)速n為1 000 r/min,發(fā)動(dòng)機(jī)代理的加權(quán)系數(shù)為0.45,電池代理的加權(quán)系數(shù)為0.55;在其他區(qū)間中,發(fā)動(dòng)機(jī)代理的加權(quán)系數(shù)為0.6,電池代理的加權(quán)系數(shù)為0.4。
式中:Enginerweight代表發(fā)動(dòng)機(jī)代理的加權(quán)系數(shù);Batteryreweight代表電池代理的加權(quán)系數(shù)。
利用上節(jié)中得到的獎(jiǎng)勵(lì)函數(shù)參數(shù)值,本節(jié)從油耗值、SOC 變化值以及動(dòng)力源轉(zhuǎn)矩變化3 種典型特征驗(yàn)證該權(quán)重值的優(yōu)越性。將車輛的初始狀態(tài)設(shè)置為:油箱處于最大儲(chǔ)油容量的狀態(tài)和初始SOC 值為0.65。本文的訓(xùn)練工況 是CLTC,IM240、FTP75、WVUINTER 和JN1015。圖6 顯示了新建的行駛工況,并將其作為本文的測(cè)試工況,表3 顯示了在終值SOC大致相同的情況下,5個(gè)典型駕駛周期和新建工況中強(qiáng)化學(xué)習(xí)算法和具有更新的權(quán)重系數(shù)的強(qiáng)化學(xué)習(xí)算法之間的比較。其中對(duì)比值表示逆向強(qiáng)化學(xué)習(xí)算法對(duì)應(yīng)強(qiáng)化學(xué)習(xí)基礎(chǔ)算法的油耗值減少率。
圖6 新建工況圖
為了更加直觀地顯示燃油消耗,圖7顯示出5種典型工況的發(fā)動(dòng)機(jī)油耗直方圖,并且使用逆向強(qiáng)化學(xué)習(xí)權(quán)重值作為訓(xùn)練方向,從結(jié)果看出油耗明顯低于其他兩種算法。Q 學(xué)習(xí)(Q-learning)算法是提出時(shí)間很早的一種異策略的時(shí)序差分學(xué)習(xí)方法;DQN則是利用神經(jīng)網(wǎng)絡(luò)對(duì) Q-learning 中的值函數(shù)進(jìn)行近似,并針對(duì)實(shí)際問題作出改進(jìn)的方法;而DDPG(deep deterministic policy gradient)則可以視為DQN(deep Q-network)對(duì)連續(xù)型動(dòng)作預(yù)測(cè)的一個(gè)擴(kuò)展。DQN 與DDPG 都是強(qiáng)化學(xué)習(xí)的經(jīng)典算法,本文以這兩個(gè)算法為基準(zhǔn)進(jìn)行對(duì)比。DQN-IRL(deep Qnetwork-inverse reinforcement learning)表示擁有逆向參數(shù)的DQN 算法,DDPG-IRL(deep deterministic policy gradient-inverse reinforcement learning)表示擁有逆向參數(shù)的DDPG算法。
圖7 發(fā)動(dòng)機(jī)油耗直方圖
圖8 顯示了5 種訓(xùn)練工況的獎(jiǎng)勵(lì)值變化,工況1到工況5 分別是CLTC、IM240、FTP75、WVUINTER、JN1015。從圖中可以看出各個(gè)算法都朝著最大獎(jiǎng)勵(lì)值的方向穩(wěn)步推進(jìn),最終達(dá)到平滑。另外,圖9 揭示了在測(cè)試工況下,DQN、DQN-IRL、DDPG、DDPGIRL的SOC值變化曲線,可以看出所有4種算法都處于較低的內(nèi)阻和較高的電池效率區(qū)間,從而也證實(shí)了強(qiáng)化學(xué)習(xí)算法在解決能量管理問題方面的優(yōu)越性。虛線代表IRL 算法,與另外兩種經(jīng)典算法對(duì)比,SOC值的波動(dòng)較小,在同等使用時(shí)間下,電池的使用壽命會(huì)更長(zhǎng)。
圖8 獎(jiǎng)勵(lì)價(jià)值趨勢(shì)圖
圖9 4種算法的SOC變化曲線
圖10 和圖11 分別顯示了以DQN 算法為例擁有逆向參數(shù)前后的發(fā)動(dòng)機(jī)轉(zhuǎn)矩、MG1 轉(zhuǎn)矩、MG2 轉(zhuǎn)矩變化,可見添加逆向強(qiáng)化學(xué)習(xí)參數(shù)后,發(fā)動(dòng)機(jī)起停次數(shù)減少,MG1與MG2轉(zhuǎn)矩變化平穩(wěn)。
圖10 DQN算法發(fā)動(dòng)機(jī)轉(zhuǎn)矩、MG1轉(zhuǎn)矩、MG2轉(zhuǎn)矩對(duì)比
圖11 DDPG算法下發(fā)動(dòng)機(jī)轉(zhuǎn)矩、MG1轉(zhuǎn)矩、MG2轉(zhuǎn)矩對(duì)比
為了評(píng)估本文所提出的能量管理策略的實(shí)際應(yīng)用潛力,實(shí)施并分析了硬件在環(huán)實(shí)驗(yàn)。如圖12 所示,實(shí)驗(yàn)系統(tǒng)由混合動(dòng)力模型、駕駛員操作系統(tǒng)、虛擬場(chǎng)景系統(tǒng)、傳感器系統(tǒng)、ubuntu RT 系統(tǒng)和車輛控制單元組成。虛擬場(chǎng)景系統(tǒng)為駕駛員提供了真實(shí)的駕駛環(huán)境,使其接近真實(shí)的駕駛體驗(yàn),還可以通過數(shù)據(jù)交互為駕駛員提供豐富的交通環(huán)境信息、道路信息和地理位置信息,以支持交通能量管理策略的研究和測(cè)試。在虛擬場(chǎng)景系統(tǒng)中,道路信息和地理位置信息是非常重要的。通過這些信息,駕駛員可以了解自己當(dāng)前所處的位置和行駛方向,以及周圍的道路狀況、車流量等信息。此外,交通環(huán)境信息也非常重要,例如交通信號(hào)燈、車輛速度、行駛方向等信息,這些信息可以為駕駛員提供實(shí)時(shí)的交通情況,幫助其做出正確的駕駛決策。數(shù)據(jù)交互也是虛擬場(chǎng)景系統(tǒng)的一個(gè)重要特點(diǎn)。通過數(shù)據(jù)交互,虛擬場(chǎng)景系統(tǒng)可以與其他系統(tǒng)進(jìn)行信息交換,例如車輛控制系統(tǒng)、交通信號(hào)控制系統(tǒng)等,以實(shí)現(xiàn)交通能量管理策略的研究和測(cè)試。同時(shí),數(shù)據(jù)交互還可以支持多車協(xié)同駕駛和交通模擬等功能,增強(qiáng)虛擬場(chǎng)景系統(tǒng)的實(shí)用性和可擴(kuò)展性。車輛控制系統(tǒng)的主要作用是實(shí)施所提出的策略并將控制參數(shù)輸出到執(zhí)行。駕駛員的操作信息全部反饋給轉(zhuǎn)向系統(tǒng),而車速狀態(tài)信息和機(jī)電系統(tǒng)的狀態(tài)由實(shí)時(shí)仿真系統(tǒng)提供。
圖12 硬件在環(huán)實(shí)驗(yàn)系統(tǒng)構(gòu)成
集成系統(tǒng)如圖13 所示。本文的硬件在環(huán)平臺(tái)是課題組自研的硬件設(shè)備,其中,下位機(jī)是ubuntu RT 系統(tǒng),上位機(jī)是自研的場(chǎng)景系統(tǒng)。ubuntu RT 系統(tǒng)采用的是amd Ryzen5 處理器,6700XT顯卡。在圖13 中,將數(shù)據(jù)檢測(cè)系統(tǒng)與駕駛員操作系統(tǒng)相結(jié)合,駕駛員操作系統(tǒng)顯示在駕駛員下方。基于現(xiàn)有配置和技術(shù)條件,利用CAN 通信技術(shù)實(shí)現(xiàn)數(shù)據(jù)交互,實(shí)時(shí)獲取轉(zhuǎn)向盤角度、加速度和制動(dòng)踏板數(shù)據(jù)。然后將數(shù)據(jù)輸入車輛控制單元(VCU)。
圖13 集成系統(tǒng)和駕駛員操作系統(tǒng)
為了進(jìn)一步驗(yàn)證本文逆向強(qiáng)化學(xué)習(xí)能量管理策略,本節(jié)在4.1 節(jié)構(gòu)建的硬件在環(huán)設(shè)備基礎(chǔ)之上進(jìn)行驗(yàn)證實(shí)驗(yàn)。圖14 表示在該硬件在環(huán)設(shè)備上運(yùn)行的一段實(shí)際工況,表4 顯示了原始的DQN/DDPG 算法與本文算法在HIL 硬件在環(huán)測(cè)試下的油耗對(duì)比結(jié)果,在初始SOC值與終止SOC值變化大致的前提下,可以看出具有本文權(quán)重值的強(qiáng)化學(xué)習(xí)算法油耗值較低。
表4 仿真數(shù)據(jù)與HIL數(shù)據(jù)在燃油消耗方面的對(duì)比
圖14 硬件在環(huán)場(chǎng)景中運(yùn)行的工況
圖15 和圖16 顯示了電池SOC 值在仿真測(cè)試與HIL 測(cè)試中的變化范圍,黑線表示在離線仿真情況下的電池SOC 變化,紅色線表示在HIL 下的電池SOC 值變化。從圖中可以看出在實(shí)時(shí)策略下,兩種策略都可以保持良好的電量范圍,電池的性能和狀態(tài)也在較佳的狀態(tài),電池性能正常,可以提高整體的生態(tài)駕駛策略的可靠性和穩(wěn)定性,確保系統(tǒng)順暢運(yùn)行。圖17 與圖18 分別顯示了DQN 算法和DDPG 算法與DQN-IRL 算法和DDPG-IRL 算法在該硬件在環(huán)環(huán)境下的發(fā)動(dòng)機(jī)轉(zhuǎn)矩、發(fā)電機(jī)MG1 轉(zhuǎn)矩、電動(dòng)機(jī)MG2 轉(zhuǎn)矩的變化對(duì)比圖。藍(lán)色線代表發(fā)動(dòng)機(jī)轉(zhuǎn)矩,橙色線代表MG1轉(zhuǎn)矩,灰色線代表MG2轉(zhuǎn)矩。從圖中可以看出,具有逆向強(qiáng)化學(xué)習(xí)參數(shù)的算法發(fā)動(dòng)機(jī)轉(zhuǎn)矩優(yōu)化明顯,減少了發(fā)動(dòng)機(jī)起停。
圖15 HIL下DQN算法的SOC值變化
圖16 HIL下DDPG算法的SOC值變化
圖17 HIL下DQN與DQN-IRL轉(zhuǎn)矩對(duì)比
圖18 HIL下DDPG與DDPG-IRL轉(zhuǎn)矩對(duì)比
本文對(duì)混合動(dòng)力汽車能量管理策略的獎(jiǎng)勵(lì)值函數(shù)展開研究。強(qiáng)化學(xué)習(xí)的智能體與環(huán)境交互的引導(dǎo)方向是由獎(jiǎng)勵(lì)函數(shù)決定的。然而,目前的獎(jiǎng)勵(lì)功能設(shè)計(jì)仍然存在缺陷。逆向強(qiáng)化學(xué)習(xí)是一種從演示中學(xué)習(xí)的特殊形式,它試圖從提供的例子中估計(jì)馬爾可夫決策過程的獎(jiǎng)勵(lì)函數(shù)。獎(jiǎng)勵(lì)函數(shù)通常被認(rèn)為是對(duì)任務(wù)最簡(jiǎn)潔的描述。在簡(jiǎn)單的應(yīng)用中,獎(jiǎng)勵(lì)函數(shù)可能是已知的,或從系統(tǒng)的性質(zhì)中很容易推導(dǎo)出來,并應(yīng)用到學(xué)習(xí)過程中。在大多數(shù)強(qiáng)化學(xué)習(xí)能量管理策略中,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)具有主觀性和經(jīng)驗(yàn)性,很難客觀地描述專家的意圖,發(fā)動(dòng)機(jī)和電池之間的權(quán)衡不可避免地存在主觀因素。但是,在給定的獎(jiǎng)勵(lì)函數(shù)下,該條件不能保證智能體學(xué)習(xí)到最優(yōu)駕駛策略。另外,混合動(dòng)力汽車環(huán)境下的強(qiáng)化學(xué)習(xí)任務(wù)過于復(fù)雜,而人為設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)過于困難且高度主觀和經(jīng)驗(yàn)。獎(jiǎng)勵(lì)函數(shù)設(shè)置的不同會(huì)導(dǎo)致最優(yōu)策略的不同。如果沒有適當(dāng)?shù)莫?jiǎng)勵(lì),強(qiáng)化學(xué)習(xí)算法很難收斂。針對(duì)這些問題,本文提出了一種基于逆向強(qiáng)化學(xué)習(xí)的能量管理策略,獲取專家軌跡下的獎(jiǎng)勵(lì)函數(shù)權(quán)值,并用于指導(dǎo)發(fā)動(dòng)機(jī)智能體和電池智能體的行為。該方法的主要過程是利用逆強(qiáng)化學(xué)習(xí)得到的權(quán)重系數(shù)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行修正,并根據(jù)最新的獎(jiǎng)勵(lì)函數(shù)輸入正向強(qiáng)化學(xué)習(xí)任務(wù)。最后,將修正后的權(quán)值重新輸入到正向強(qiáng)化學(xué)習(xí)訓(xùn)練中。從油耗值、SOC 變化曲線、獎(jiǎng)勵(lì)訓(xùn)練過程以及動(dòng)力源轉(zhuǎn)矩等方面,表明該算法具有一定的優(yōu)勢(shì)。本文的主要成果總結(jié)如下:
(1)從電池荷電狀態(tài)的變化值來看,荷電狀態(tài)的變化區(qū)間處于電池效率高、內(nèi)阻低的區(qū)域,燃油消耗處于較低水平;
(2)逆向強(qiáng)化學(xué)習(xí)獲取的獎(jiǎng)勵(lì)參數(shù)結(jié)果是分段式的;
(3)在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,獎(jiǎng)勵(lì)值穩(wěn)步向最大方向前進(jìn),最終達(dá)到平穩(wěn)狀態(tài),訓(xùn)練有效。