基于逆強(qiáng)化學(xué)習(xí)的混合動(dòng)力汽車能量管理策略研究*

2023-11-09 03:56:50齊春陽(yáng)宋傳學(xué)宋世欣靳立強(qiáng)

汽車工程 2023年10期

齊春陽(yáng)，宋傳學(xué)，宋世欣，靳立強(qiáng)，王達(dá)，肖峰

（1.吉林大學(xué)，汽車仿真與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室，長(zhǎng)春 130022；2.吉林大學(xué)汽車工程學(xué)院，長(zhǎng)春 130022；3.吉林大學(xué)機(jī)械與航空航天工程學(xué)院，長(zhǎng)春 130022）

前言

混合動(dòng)力汽車的主要目標(biāo)是提高動(dòng)力系統(tǒng)的效率和降低燃料消耗。在給定動(dòng)力系統(tǒng)配置的情況下，影響混合動(dòng)力汽車油耗的最重要因素是發(fā)動(dòng)機(jī)和電氣系統(tǒng)之間的功率分配比。能量管理策略（energy management strategy，EMS）是混合動(dòng)力汽車的關(guān)鍵技術(shù)之一，需要在滿足電力需求的約束下協(xié)調(diào)發(fā)動(dòng)機(jī)和電氣系統(tǒng)之間的功率分配。對(duì)于同一車型，同一行駛周期，不同能量管理策略對(duì)應(yīng)的油耗相差20%［1］。因此，研究混合動(dòng)力汽車的能量管理策略具有重要意義。在混合動(dòng)力汽車能量管理策略的研究過程中，研究者將大部分的控制策略主要分為3 類：（1）基于規(guī)則；（2）基于優(yōu)化；（3）基于學(xué)習(xí)。其中，基于規(guī)則又可以分為確定性規(guī)則和模糊性規(guī)則；基于優(yōu)化可以分為全局優(yōu)化和瞬時(shí)優(yōu)化?；谝?guī)則的能量管理策略需要制定控制規(guī)則來確定不同驅(qū)動(dòng)模式下的能源分布情況［2］?；谝?guī)則的方法優(yōu)點(diǎn)在于，規(guī)則制度很容易開發(fā)，并且可以應(yīng)用在實(shí)施控制系統(tǒng)中。但是規(guī)則的開發(fā)非常需要經(jīng)驗(yàn)豐富的專家工程師的知識(shí)。與基于規(guī)則的能量管理策略相比，全局優(yōu)化算法調(diào)整的參數(shù)優(yōu)于確定性規(guī)則。近幾年，基于學(xué)習(xí)的方法越來越受到研究者們的關(guān)注。其中，強(qiáng)化學(xué)習(xí)方法能夠解決與實(shí)時(shí)優(yōu)化方法相關(guān)的任務(wù)得到了大家的青睞。強(qiáng)化學(xué)習(xí)智能體根據(jù)累計(jì)的獎(jiǎng)勵(lì)能夠在不同狀態(tài)下采取適應(yīng)的行動(dòng)。重慶理工大學(xué)的龐玉涵［3］提出了一種分層機(jī)構(gòu)的強(qiáng)化學(xué)習(xí)方法，為能量管理策略提供了新思路。北京理工大學(xué)的劉騰［4］從強(qiáng)化學(xué)習(xí)算法出發(fā)，探索了以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的能量管理策略在最優(yōu)性、自適應(yīng)性和學(xué)習(xí)能力下的優(yōu)化，并將強(qiáng)化學(xué)習(xí)算法深入到實(shí)時(shí)優(yōu)化過程中，為實(shí)時(shí)性的強(qiáng)化學(xué)習(xí)算法提供了思路。重慶大學(xué)的唐小林等［5］提出一種基于深度值網(wǎng)絡(luò)算法的能量管理策略，實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)對(duì)發(fā)動(dòng)機(jī)與機(jī)械式無級(jí)變速器的多目標(biāo)協(xié)同控制。Li 等［6］提出了一種利用優(yōu)先級(jí)經(jīng)驗(yàn)重放機(jī)制改進(jìn)DQN（deep Qnetwork）模型。Chaoui 等［7］提出了一種基于強(qiáng)化學(xué)習(xí)的方法，用于平衡具有多個(gè)電池的電動(dòng)汽車電池的荷電狀態(tài)，該方法可以延長(zhǎng)電池壽命并減少電池的頻繁維護(hù)。

另外，強(qiáng)化學(xué)習(xí)狀態(tài)之間有很強(qiáng)的相關(guān)性，會(huì)不同程度影響學(xué)習(xí)效果。Liu 等［8］將基于 GPS 得到的行程信息與強(qiáng)化學(xué)習(xí)算法結(jié)合，在狀態(tài)變量中加入剩余行駛里程，仿真結(jié)果顯示取得了良好的優(yōu)化效果。Liu 等［9］提出一種應(yīng)用數(shù)據(jù)來驅(qū)動(dòng)的算法，并且成功用于能量管理策略中，實(shí)現(xiàn)了良好的節(jié)油性能。在基于強(qiáng)化學(xué)習(xí)的能量管理策略中，強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)定的問題經(jīng)常會(huì)被忽略。獎(jiǎng)勵(lì)函數(shù)通常是主觀的和經(jīng)驗(yàn)的，它不容易客觀地描述專家的意圖，也不能保證給定的獎(jiǎng)勵(lì)函數(shù)會(huì)導(dǎo)致最優(yōu)的駕駛策略。在混合動(dòng)力能量管理控制策略問題中，獎(jiǎng)勵(lì)函數(shù)的不同直接會(huì)導(dǎo)致訓(xùn)練方向的改變。直觀地說，電池與發(fā)動(dòng)機(jī)的參數(shù)決定訓(xùn)練的方向是發(fā)動(dòng)機(jī)最優(yōu)油耗還是電池的最優(yōu)狀態(tài)，獎(jiǎng)勵(lì)函數(shù)的設(shè)定摻雜了過多的人為因素。深度強(qiáng)化學(xué)習(xí)是智能體與環(huán)境的不斷交互學(xué)習(xí)的結(jié)果，通過不斷交互、不斷更新策略來最大化累計(jì)獎(jiǎng)勵(lì)值。獎(jiǎng)勵(lì)值作為智能體更新策略的關(guān)鍵，設(shè)計(jì)獎(jiǎng)勵(lì)值時(shí)更需要具有客觀理論依據(jù)，獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)關(guān)乎到整個(gè)訓(xùn)練網(wǎng)絡(luò)的方向。針對(duì)以上問題，本文提出了一種逆強(qiáng)化學(xué)習(xí)方法，通過反向推導(dǎo)權(quán)重參數(shù)并校準(zhǔn)正向強(qiáng)化學(xué)習(xí)算法來優(yōu)化能量管理。逆強(qiáng)化學(xué)習(xí)算法的目標(biāo)是構(gòu)造一個(gè)關(guān)于狀態(tài)的獎(jiǎng)勵(lì)函數(shù)的特征向量，并通過收集合理的專家呈現(xiàn)軌跡來學(xué)習(xí)最優(yōu)獎(jiǎng)勵(lì)函數(shù)的權(quán)重向量。這種方法能夠描述專家策略，克服經(jīng)驗(yàn)設(shè)計(jì)的隨機(jī)性質(zhì)。

1 混合動(dòng)力汽車系統(tǒng)方案

混合動(dòng)力汽車的結(jié)構(gòu)可以理解為能量通路與控制端口之間的連接關(guān)系，它也是一個(gè)較為復(fù)雜的系統(tǒng)，而且具有很強(qiáng)的非線性特性?；旌蟿?dòng)力汽車的系統(tǒng)具有多變性，它是將多個(gè)非線性系統(tǒng)耦合而成的，建立非常精確的數(shù)學(xué)模型是極其困難的，所以更加需要統(tǒng)一的建模方法。在混合動(dòng)力汽車構(gòu)型研發(fā)中，較為基本的方法是基于模型的方法。本文中針對(duì)某款混聯(lián)混合動(dòng)力汽車展開研究，車型的結(jié)構(gòu)如圖1 所示。行星齒輪機(jī)構(gòu)與驅(qū)動(dòng)電機(jī)平行布置，行星齒輪機(jī)構(gòu)行星架通過減振器連接至發(fā)動(dòng)機(jī)端，太陽(yáng)輪連接到發(fā)電機(jī)MG1，齒圈通過齒輪連接到MG2和輸出軸。此外，發(fā)動(dòng)機(jī)與減振器之間有一個(gè)單向離合器，即便發(fā)動(dòng)機(jī)反轉(zhuǎn)時(shí)也能及時(shí)自鎖。當(dāng)進(jìn)行能量管理的模擬仿真時(shí)，需要依托仿真軟件構(gòu)建整車的動(dòng)力學(xué)模型，還需要從整車各個(gè)部件的建模入手分別建模，主要包括電機(jī)模型、發(fā)動(dòng)機(jī)模型、電池模型、變速器模型、車輪模型、駕駛員模型等，相關(guān)部件的基本參數(shù)如表1所示。

表1 本文研究對(duì)象參數(shù)

圖1 本文車輛研究對(duì)象

2 逆向強(qiáng)化學(xué)習(xí)方法獎(jiǎng)勵(lì)函數(shù)參數(shù)匹配

2.1 基于強(qiáng)化學(xué)習(xí)方法的管理策略參數(shù)分析

在很多基于強(qiáng)化學(xué)習(xí)的能量管理策略當(dāng)中，獎(jiǎng)勵(lì)函數(shù)的優(yōu)化準(zhǔn)則為在SOC 值變化范圍相同下，燃油消耗盡可能的低，盡可能延長(zhǎng)電池壽命，發(fā)動(dòng)機(jī)工作在最優(yōu)燃油區(qū)間。對(duì)于強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)還存在實(shí)驗(yàn)性的調(diào)參，獎(jiǎng)勵(lì)函數(shù)的構(gòu)造通常具備主觀經(jīng)驗(yàn)性，不容易客觀地描述專家意圖，從而不能保證在給定獎(jiǎng)勵(lì)函數(shù)下智能體能學(xué)習(xí)出最優(yōu)的駕駛策略。以下，列舉了很多優(yōu)秀的強(qiáng)化學(xué)習(xí)能量管理策略方法中獎(jiǎng)勵(lì)函數(shù)的設(shè)定［10-23］。

式中：r表示各個(gè)文獻(xiàn)中的獎(jiǎng) 勵(lì)函數(shù)符號(hào)；為在不同的文獻(xiàn)中所表示的燃油消耗率；ΔSOC表示電池SOC變化范圍；α表示發(fā)動(dòng)機(jī)燃油消耗的權(quán)重參數(shù)；β和ε表示獎(jiǎng)勵(lì)函數(shù)中電池的權(quán)重參數(shù)；fuel(t)表示t時(shí)刻的燃油消耗量；SOC(t)表示t時(shí)刻的SOC值；elec(t)表示t時(shí)刻的電能消耗量；SOCref表示電池初始SOC值；表示時(shí)刻τ時(shí)SOC值變化的平方；SOCmin表示最低的SOC值要求；SOCmax表示最高的SOC值要求。

一個(gè)合理的獎(jiǎng)勵(lì)函數(shù)不僅可以加速訓(xùn)練過程，同時(shí)可以使得策略優(yōu)化的過程更加穩(wěn)定。從上述的獎(jiǎng)勵(lì)函數(shù)表達(dá)式可以明確雖然能量管理強(qiáng)化學(xué)習(xí)方法的優(yōu)化方式不同，但是基本符合以下表達(dá)式：

式中參數(shù)α與β是維持燃油消耗率與SOC 維持關(guān)系的線性權(quán)重。指定這樣的加權(quán)函數(shù)優(yōu)點(diǎn)在于能夠直接使用具有標(biāo)準(zhǔn)化的強(qiáng)化學(xué)習(xí)算法，但是這也直接導(dǎo)致了在訓(xùn)練開始之前就需要確定權(quán)重，這對(duì)于能量管理問題是極其困難的。一方面，獎(jiǎng)勵(lì)函數(shù)需要偏重于SOC維持基本功能，經(jīng)常會(huì)表現(xiàn)的較為保守，不能充分利用電池緩沖。另一方面，受限于目標(biāo)任務(wù)，多目標(biāo)任務(wù)的不同參數(shù)也無法確定。另外，在這些研究中，發(fā)動(dòng)機(jī)和電池之間權(quán)衡的主觀因素是不可避免的。強(qiáng)化學(xué)習(xí)是尋求累積獎(jiǎng)勵(lì)期望最大化的最優(yōu)策略，而這種獎(jiǎng)勵(lì)方程的設(shè)置通常是人為或環(huán)境提供的?；旌蟿?dòng)力汽車環(huán)境下的強(qiáng)化學(xué)習(xí)任務(wù)過于復(fù)雜，而人為設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)過于困難，且具有較高的主觀性和實(shí)效性。獎(jiǎng)勵(lì)函數(shù)設(shè)置的不同導(dǎo)致了最優(yōu)策略的不同。如果沒有適當(dāng)?shù)莫?jiǎng)勵(lì)，強(qiáng)化學(xué)習(xí)算法很難收斂。接下來，詳細(xì)闡述本文提出的逆向強(qiáng)化學(xué)習(xí)參數(shù)確定方法。

2.2 逆向強(qiáng)化學(xué)習(xí)能量管理策略任務(wù)

一般來說，在正向強(qiáng)化學(xué)習(xí)中，以發(fā)動(dòng)機(jī)最佳工作點(diǎn)與電池最佳SOC變化之間的差異為優(yōu)化目標(biāo)來訓(xùn)練網(wǎng)絡(luò)。相反，本章提出一種逆向強(qiáng)化學(xué)習(xí)的方法，探索其最優(yōu)的參數(shù)匹配。與正向強(qiáng)化學(xué)習(xí)不同，在逆向強(qiáng)化學(xué)習(xí)中，需要利用發(fā)動(dòng)機(jī)和電池的最佳狀態(tài)來推導(dǎo)權(quán)重系數(shù)。首先將車輛作為強(qiáng)化學(xué)習(xí)環(huán)境，輸入為從原始的行駛循環(huán)變?yōu)榘l(fā)動(dòng)機(jī)最優(yōu)工作點(diǎn)和電池最優(yōu)工作狀態(tài)。隨后，將電池和發(fā)動(dòng)機(jī)作為強(qiáng)化學(xué)習(xí)的兩個(gè)智能體，通過反向強(qiáng)化學(xué)習(xí)得到兩個(gè)智能體的權(quán)系數(shù)來指導(dǎo)智能體的行為。在本文當(dāng)中，正向強(qiáng)化學(xué)習(xí)是作為逆向強(qiáng)化學(xué)習(xí)的一個(gè)驗(yàn)證過程。所以正向強(qiáng)化學(xué)習(xí)與逆向強(qiáng)化學(xué)習(xí)的狀態(tài)空間與動(dòng)作空間保持一致，這樣正向強(qiáng)化學(xué)習(xí)更容易驗(yàn)證本文的算法。狀態(tài)空間與動(dòng)作空間如下：

其中，狀態(tài)空間S由發(fā)動(dòng)機(jī)轉(zhuǎn)矩T、發(fā)動(dòng)機(jī)轉(zhuǎn)速n和電池SOC值組成，強(qiáng)化學(xué)習(xí)的動(dòng)作值A(chǔ)由發(fā)動(dòng)機(jī)需求功率Pre確定。

在本文中，逆向強(qiáng)化學(xué)習(xí)與正向強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)都應(yīng)符合如下公式：

其中，Enginerweight與Batteryreweight就是本文利用逆向強(qiáng)化學(xué)習(xí)方法客觀的確定其權(quán)重系數(shù)。

本文逆向強(qiáng)化學(xué)習(xí)的流程主要分為如下4 個(gè)部分：第1 部分表示發(fā)動(dòng)機(jī)和電池的最佳狀態(tài)，對(duì)于發(fā)動(dòng)機(jī)而言是最佳工作點(diǎn)，對(duì)于電池而言是保持電池SOC 值的合理穩(wěn)定，最大化電池壽命，并輸入到第2部分中循環(huán)訓(xùn)練得到參數(shù)權(quán)重系數(shù)；第2 部分是逆向強(qiáng)化學(xué)習(xí)的算法框架，定義最大熵逆向強(qiáng)化學(xué)習(xí)；第3 部分表示強(qiáng)化學(xué)習(xí)環(huán)境，將參數(shù)輸入到環(huán)境中；第4 部分是強(qiáng)化學(xué)習(xí)DQN 算法。第1、2 部分結(jié)構(gòu)如圖2（a）所示，圖2（b）顯示的是第3、4 部分的具體構(gòu)成。

綜上，該算法的具體流程如下：基于專家軌跡和強(qiáng)化學(xué)習(xí)基礎(chǔ)，確定獎(jiǎng)勵(lì)函數(shù)為狀態(tài)和動(dòng)作的函數(shù)。然后，將新的權(quán)重系數(shù)輸入到獎(jiǎng)勵(lì)函數(shù)中，輸出到第3 部分進(jìn)行正向強(qiáng)化學(xué)習(xí)。在該逆向強(qiáng)化學(xué)習(xí)算法中，將發(fā)動(dòng)機(jī)和電池視作多智能體結(jié)構(gòu)，以最佳狀態(tài)輸入到強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中。合理的獎(jiǎng)勵(lì)函數(shù)可以加快訓(xùn)練，獲得更加穩(wěn)定的策略優(yōu)化進(jìn)程，能量管理策略也會(huì)趨向于更穩(wěn)定的方向訓(xùn)練。在逆向強(qiáng)化學(xué)習(xí)中，可以把獎(jiǎng)勵(lì)函數(shù)看做是狀態(tài)值與權(quán)重系數(shù)相乘的結(jié)果，表達(dá)式如下：

式中：i表示分量數(shù)；r(si，ai)表示(si，ai)狀態(tài)動(dòng)作的獎(jiǎng)勵(lì)值；fi表示獎(jiǎng)勵(lì)函數(shù)第i個(gè)特征分量；θi表示獎(jiǎng)勵(lì)函數(shù)權(quán)重向量第i個(gè)特征分量；d表示獎(jiǎng)勵(lì)函數(shù)中特征向量的個(gè)數(shù)，在本研究中，采用雙智能體強(qiáng)化學(xué)習(xí)結(jié)構(gòu)，電池和發(fā)動(dòng)機(jī)雙代理，所以d取值為2。

在強(qiáng)化學(xué)習(xí)能量管理策略中，專家策略很難用表達(dá)式表達(dá)。從發(fā)動(dòng)機(jī)出發(fā)，專家策略是使得發(fā)動(dòng)機(jī)在最佳工作點(diǎn)附近工作；從電池出發(fā)，專家策略是使得電池SOC變化在合理的范圍之內(nèi)。所以本節(jié)通過逆向強(qiáng)化學(xué)習(xí)的方式探索電池與發(fā)動(dòng)機(jī)之間的權(quán)重系數(shù)。逆向強(qiáng)化學(xué)習(xí)的方法為最大熵逆向強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)在面對(duì)環(huán)境中隨機(jī)因素時(shí)，雙智能體會(huì)產(chǎn)生不同的專家軌跡。首先，定義一個(gè)最佳能量管理控制策略的軌跡ξ：

這條軌跡的獎(jiǎng)勵(lì)函數(shù)記為r(ξ)：

在面對(duì)能量管理策略任務(wù)時(shí)，環(huán)境是具有不確定性的隨機(jī)因素，所以肯定會(huì)存在多條專家軌跡，記為m，專家的特征期望為

在最大熵理論當(dāng)中，具備最大熵分布的模型是最優(yōu)模型，對(duì)于能量管理控制策略的問題，在已知發(fā)動(dòng)機(jī)最優(yōu)工作點(diǎn)和電池最優(yōu)SOC變化范圍的情況下，利用最大熵模型就可以得到獎(jiǎng)勵(lì)函數(shù)的參數(shù)值。最大熵優(yōu)化問題可以表示為

式中p(ξi|θ)表示在參數(shù)θ下，發(fā)生軌跡ξi的概率。最大熵逆強(qiáng)化學(xué)習(xí)的軌跡概率可以表示為

在最大熵逆向強(qiáng)化學(xué)習(xí)中，混合動(dòng)力能量管理的專家軌跡出現(xiàn)的概率越大，說明訓(xùn)練學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)越能反映出混合動(dòng)力汽車能量管理任務(wù)隱含的分布。初始化的優(yōu)化目標(biāo)為最大化專家軌跡的概率分布：

式中fueldemo為專家演示軌跡，也是混合動(dòng)力汽車最佳發(fā)動(dòng)機(jī)工作點(diǎn)，通常將原始優(yōu)化問題轉(zhuǎn)化為最小化問題。優(yōu)化目標(biāo)變?yōu)樽钚』瘬p失函數(shù)J(θ)。

其中，優(yōu)化目標(biāo)為

式中：rθ(si，ai)表示當(dāng)前狀態(tài)動(dòng)作的獎(jiǎng)勵(lì)值；π(aj|sj)表示當(dāng)前狀態(tài)動(dòng)作對(duì)(si，ai)出現(xiàn)的概率。

由于匹配的函數(shù)采用的是能量管理策略抽樣軌跡擬合，因此可以用梯度法得到全局最優(yōu)解。關(guān)于優(yōu)化函數(shù)J(θ)，用獎(jiǎng)勵(lì)函數(shù)的權(quán)重θr求導(dǎo)：

最終，依據(jù)上式可以學(xué)習(xí)到獎(jiǎng)勵(lì)函數(shù)的全局最優(yōu)解。根據(jù)優(yōu)化后的θr參數(shù)，可以推導(dǎo)出當(dāng)前的獎(jiǎng)勵(lì)函數(shù)rθ(si，ai)，并將求解得到的獎(jiǎng)勵(lì)函數(shù)作為前向強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo)，更新當(dāng)前策略，直到獎(jiǎng)勵(lì)函數(shù)更新小于給定的閾值。用最大熵逆強(qiáng)化學(xué)習(xí)獲得獎(jiǎng)勵(lì)函數(shù)權(quán)重的偽代碼如表2所示。

3 逆向強(qiáng)化學(xué)習(xí)參數(shù)確定結(jié)果分析

3.1 逆向強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)權(quán)重確定

在圖3 中，藍(lán)線表示最佳發(fā)動(dòng)機(jī)運(yùn)行曲線。在求解獎(jiǎng)勵(lì)值權(quán)重的過程中，考慮到數(shù)據(jù)量過大，占用了較高的計(jì)算成本，所以將發(fā)動(dòng)機(jī)map 圖劃分為528 個(gè)區(qū)域，每個(gè)區(qū)域由一個(gè)10×10 矩陣組成。到達(dá)每個(gè)矩陣內(nèi)的工作點(diǎn)的獎(jiǎng)勵(lì)值的權(quán)重作為該矩陣的權(quán)重值。如果存在多個(gè)工作點(diǎn)，則計(jì)算各工作點(diǎn)權(quán)值的平均值作為矩陣的獎(jiǎng)勵(lì)權(quán)值。由于其他區(qū)域的獎(jiǎng)勵(lì)值并不高，因而將獎(jiǎng)勵(lì)值的權(quán)重分別標(biāo)記在藍(lán)色最優(yōu)曲線上。通過逆強(qiáng)化學(xué)習(xí)算法得到了發(fā)動(dòng)機(jī)油耗的加權(quán)系數(shù)。圖4顯示了電池SOC變化時(shí)電池內(nèi)阻和電動(dòng)勢(shì)的變化。從圖4 中可以看出：電池SOC 在0.2-0.8之間工作，可獲得穩(wěn)定的電動(dòng)勢(shì)；電池內(nèi)阻在0.3-0.7 范圍內(nèi)較低，這個(gè)范圍的效率較高，即SOC在0.3-0.7 范圍內(nèi)設(shè)置為電池的最佳狀態(tài)。經(jīng)過正則化后得到的權(quán)系數(shù)如圖5 所示。權(quán)重系數(shù)結(jié)果如式（31）所示。

圖5 正則化后的加權(quán)系數(shù)

從圖5可以看出：在R1-R16區(qū)間（R1-R16區(qū)間具體對(duì)應(yīng)轉(zhuǎn)速參見圖3）內(nèi)，發(fā)動(dòng)機(jī)轉(zhuǎn)速n為1 000 r/min，發(fā)動(dòng)機(jī)代理的加權(quán)系數(shù)為0.45，電池代理的加權(quán)系數(shù)為0.55；在其他區(qū)間中，發(fā)動(dòng)機(jī)代理的加權(quán)系數(shù)為0.6，電池代理的加權(quán)系數(shù)為0.4。

式中：Enginerweight代表發(fā)動(dòng)機(jī)代理的加權(quán)系數(shù)；Batteryreweight代表電池代理的加權(quán)系數(shù)。

3.2 正向強(qiáng)化學(xué)習(xí)

利用上節(jié)中得到的獎(jiǎng)勵(lì)函數(shù)參數(shù)值，本節(jié)從油耗值、SOC 變化值以及動(dòng)力源轉(zhuǎn)矩變化3 種典型特征驗(yàn)證該權(quán)重值的優(yōu)越性。將車輛的初始狀態(tài)設(shè)置為：油箱處于最大儲(chǔ)油容量的狀態(tài)和初始SOC 值為0.65。本文的訓(xùn)練工況是CLTC，IM240、FTP75、WVUINTER 和JN1015。圖6 顯示了新建的行駛工況，并將其作為本文的測(cè)試工況，表3 顯示了在終值SOC大致相同的情況下，5個(gè)典型駕駛周期和新建工況中強(qiáng)化學(xué)習(xí)算法和具有更新的權(quán)重系數(shù)的強(qiáng)化學(xué)習(xí)算法之間的比較。其中對(duì)比值表示逆向強(qiáng)化學(xué)習(xí)算法對(duì)應(yīng)強(qiáng)化學(xué)習(xí)基礎(chǔ)算法的油耗值減少率。

圖6 新建工況圖

為了更加直觀地顯示燃油消耗，圖7顯示出5種典型工況的發(fā)動(dòng)機(jī)油耗直方圖，并且使用逆向強(qiáng)化學(xué)習(xí)權(quán)重值作為訓(xùn)練方向，從結(jié)果看出油耗明顯低于其他兩種算法。Q 學(xué)習(xí)（Q-learning）算法是提出時(shí)間很早的一種異策略的時(shí)序差分學(xué)習(xí)方法；DQN則是利用神經(jīng)網(wǎng)絡(luò)對(duì) Q-learning 中的值函數(shù)進(jìn)行近似，并針對(duì)實(shí)際問題作出改進(jìn)的方法；而DDPG（deep deterministic policy gradient）則可以視為DQN（deep Q-network）對(duì)連續(xù)型動(dòng)作預(yù)測(cè)的一個(gè)擴(kuò)展。DQN 與DDPG 都是強(qiáng)化學(xué)習(xí)的經(jīng)典算法，本文以這兩個(gè)算法為基準(zhǔn)進(jìn)行對(duì)比。DQN-IRL（deep Qnetwork-inverse reinforcement learning）表示擁有逆向參數(shù)的DQN 算法，DDPG-IRL（deep deterministic policy gradient-inverse reinforcement learning）表示擁有逆向參數(shù)的DDPG算法。

圖7 發(fā)動(dòng)機(jī)油耗直方圖

圖8 顯示了5 種訓(xùn)練工況的獎(jiǎng)勵(lì)值變化，工況1到工況5 分別是CLTC、IM240、FTP75、WVUINTER、JN1015。從圖中可以看出各個(gè)算法都朝著最大獎(jiǎng)勵(lì)值的方向穩(wěn)步推進(jìn)，最終達(dá)到平滑。另外，圖9 揭示了在測(cè)試工況下，DQN、DQN-IRL、DDPG、DDPGIRL的SOC值變化曲線，可以看出所有4種算法都處于較低的內(nèi)阻和較高的電池效率區(qū)間，從而也證實(shí)了強(qiáng)化學(xué)習(xí)算法在解決能量管理問題方面的優(yōu)越性。虛線代表IRL 算法，與另外兩種經(jīng)典算法對(duì)比，SOC值的波動(dòng)較小，在同等使用時(shí)間下，電池的使用壽命會(huì)更長(zhǎng)。

圖8 獎(jiǎng)勵(lì)價(jià)值趨勢(shì)圖

圖9 4種算法的SOC變化曲線

圖10 和圖11 分別顯示了以DQN 算法為例擁有逆向參數(shù)前后的發(fā)動(dòng)機(jī)轉(zhuǎn)矩、MG1 轉(zhuǎn)矩、MG2 轉(zhuǎn)矩變化，可見添加逆向強(qiáng)化學(xué)習(xí)參數(shù)后，發(fā)動(dòng)機(jī)起停次數(shù)減少，MG1與MG2轉(zhuǎn)矩變化平穩(wěn)。

圖10 DQN算法發(fā)動(dòng)機(jī)轉(zhuǎn)矩、MG1轉(zhuǎn)矩、MG2轉(zhuǎn)矩對(duì)比

圖11 DDPG算法下發(fā)動(dòng)機(jī)轉(zhuǎn)矩、MG1轉(zhuǎn)矩、MG2轉(zhuǎn)矩對(duì)比

4 硬件在環(huán)實(shí)驗(yàn)驗(yàn)證

4.1 硬件在環(huán)實(shí)驗(yàn)臺(tái)搭建

為了評(píng)估本文所提出的能量管理策略的實(shí)際應(yīng)用潛力，實(shí)施并分析了硬件在環(huán)實(shí)驗(yàn)。如圖12 所示，實(shí)驗(yàn)系統(tǒng)由混合動(dòng)力模型、駕駛員操作系統(tǒng)、虛擬場(chǎng)景系統(tǒng)、傳感器系統(tǒng)、ubuntu RT 系統(tǒng)和車輛控制單元組成。虛擬場(chǎng)景系統(tǒng)為駕駛員提供了真實(shí)的駕駛環(huán)境，使其接近真實(shí)的駕駛體驗(yàn)，還可以通過數(shù)據(jù)交互為駕駛員提供豐富的交通環(huán)境信息、道路信息和地理位置信息，以支持交通能量管理策略的研究和測(cè)試。在虛擬場(chǎng)景系統(tǒng)中，道路信息和地理位置信息是非常重要的。通過這些信息，駕駛員可以了解自己當(dāng)前所處的位置和行駛方向，以及周圍的道路狀況、車流量等信息。此外，交通環(huán)境信息也非常重要，例如交通信號(hào)燈、車輛速度、行駛方向等信息，這些信息可以為駕駛員提供實(shí)時(shí)的交通情況，幫助其做出正確的駕駛決策。數(shù)據(jù)交互也是虛擬場(chǎng)景系統(tǒng)的一個(gè)重要特點(diǎn)。通過數(shù)據(jù)交互，虛擬場(chǎng)景系統(tǒng)可以與其他系統(tǒng)進(jìn)行信息交換，例如車輛控制系統(tǒng)、交通信號(hào)控制系統(tǒng)等，以實(shí)現(xiàn)交通能量管理策略的研究和測(cè)試。同時(shí)，數(shù)據(jù)交互還可以支持多車協(xié)同駕駛和交通模擬等功能，增強(qiáng)虛擬場(chǎng)景系統(tǒng)的實(shí)用性和可擴(kuò)展性。車輛控制系統(tǒng)的主要作用是實(shí)施所提出的策略并將控制參數(shù)輸出到執(zhí)行。駕駛員的操作信息全部反饋給轉(zhuǎn)向系統(tǒng)，而車速狀態(tài)信息和機(jī)電系統(tǒng)的狀態(tài)由實(shí)時(shí)仿真系統(tǒng)提供。

圖12 硬件在環(huán)實(shí)驗(yàn)系統(tǒng)構(gòu)成

集成系統(tǒng)如圖13 所示。本文的硬件在環(huán)平臺(tái)是課題組自研的硬件設(shè)備，其中，下位機(jī)是ubuntu RT 系統(tǒng)，上位機(jī)是自研的場(chǎng)景系統(tǒng)。ubuntu RT 系統(tǒng)采用的是amd Ryzen5 處理器，6700XT顯卡。在圖13 中，將數(shù)據(jù)檢測(cè)系統(tǒng)與駕駛員操作系統(tǒng)相結(jié)合，駕駛員操作系統(tǒng)顯示在駕駛員下方。基于現(xiàn)有配置和技術(shù)條件，利用CAN 通信技術(shù)實(shí)現(xiàn)數(shù)據(jù)交互，實(shí)時(shí)獲取轉(zhuǎn)向盤角度、加速度和制動(dòng)踏板數(shù)據(jù)。然后將數(shù)據(jù)輸入車輛控制單元（VCU）。

圖13 集成系統(tǒng)和駕駛員操作系統(tǒng)

4.2 硬件在環(huán)數(shù)據(jù)結(jié)果分析

為了進(jìn)一步驗(yàn)證本文逆向強(qiáng)化學(xué)習(xí)能量管理策略，本節(jié)在4.1 節(jié)構(gòu)建的硬件在環(huán)設(shè)備基礎(chǔ)之上進(jìn)行驗(yàn)證實(shí)驗(yàn)。圖14 表示在該硬件在環(huán)設(shè)備上運(yùn)行的一段實(shí)際工況，表4 顯示了原始的DQN/DDPG 算法與本文算法在HIL 硬件在環(huán)測(cè)試下的油耗對(duì)比結(jié)果，在初始SOC值與終止SOC值變化大致的前提下，可以看出具有本文權(quán)重值的強(qiáng)化學(xué)習(xí)算法油耗值較低。

表4 仿真數(shù)據(jù)與HIL數(shù)據(jù)在燃油消耗方面的對(duì)比

圖14 硬件在環(huán)場(chǎng)景中運(yùn)行的工況

圖15 和圖16 顯示了電池SOC 值在仿真測(cè)試與HIL 測(cè)試中的變化范圍，黑線表示在離線仿真情況下的電池SOC 變化，紅色線表示在HIL 下的電池SOC 值變化。從圖中可以看出在實(shí)時(shí)策略下，兩種策略都可以保持良好的電量范圍，電池的性能和狀態(tài)也在較佳的狀態(tài)，電池性能正常，可以提高整體的生態(tài)駕駛策略的可靠性和穩(wěn)定性，確保系統(tǒng)順暢運(yùn)行。圖17 與圖18 分別顯示了DQN 算法和DDPG 算法與DQN-IRL 算法和DDPG-IRL 算法在該硬件在環(huán)環(huán)境下的發(fā)動(dòng)機(jī)轉(zhuǎn)矩、發(fā)電機(jī)MG1 轉(zhuǎn)矩、電動(dòng)機(jī)MG2 轉(zhuǎn)矩的變化對(duì)比圖。藍(lán)色線代表發(fā)動(dòng)機(jī)轉(zhuǎn)矩，橙色線代表MG1轉(zhuǎn)矩，灰色線代表MG2轉(zhuǎn)矩。從圖中可以看出，具有逆向強(qiáng)化學(xué)習(xí)參數(shù)的算法發(fā)動(dòng)機(jī)轉(zhuǎn)矩優(yōu)化明顯，減少了發(fā)動(dòng)機(jī)起停。

圖15 HIL下DQN算法的SOC值變化

圖16 HIL下DDPG算法的SOC值變化

圖17 HIL下DQN與DQN-IRL轉(zhuǎn)矩對(duì)比

圖18 HIL下DDPG與DDPG-IRL轉(zhuǎn)矩對(duì)比

5 結(jié)論

本文對(duì)混合動(dòng)力汽車能量管理策略的獎(jiǎng)勵(lì)值函數(shù)展開研究。強(qiáng)化學(xué)習(xí)的智能體與環(huán)境交互的引導(dǎo)方向是由獎(jiǎng)勵(lì)函數(shù)決定的。然而，目前的獎(jiǎng)勵(lì)功能設(shè)計(jì)仍然存在缺陷。逆向強(qiáng)化學(xué)習(xí)是一種從演示中學(xué)習(xí)的特殊形式，它試圖從提供的例子中估計(jì)馬爾可夫決策過程的獎(jiǎng)勵(lì)函數(shù)。獎(jiǎng)勵(lì)函數(shù)通常被認(rèn)為是對(duì)任務(wù)最簡(jiǎn)潔的描述。在簡(jiǎn)單的應(yīng)用中，獎(jiǎng)勵(lì)函數(shù)可能是已知的，或從系統(tǒng)的性質(zhì)中很容易推導(dǎo)出來，并應(yīng)用到學(xué)習(xí)過程中。在大多數(shù)強(qiáng)化學(xué)習(xí)能量管理策略中，獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)具有主觀性和經(jīng)驗(yàn)性，很難客觀地描述專家的意圖，發(fā)動(dòng)機(jī)和電池之間的權(quán)衡不可避免地存在主觀因素。但是，在給定的獎(jiǎng)勵(lì)函數(shù)下，該條件不能保證智能體學(xué)習(xí)到最優(yōu)駕駛策略。另外，混合動(dòng)力汽車環(huán)境下的強(qiáng)化學(xué)習(xí)任務(wù)過于復(fù)雜，而人為設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)過于困難且高度主觀和經(jīng)驗(yàn)。獎(jiǎng)勵(lì)函數(shù)設(shè)置的不同會(huì)導(dǎo)致最優(yōu)策略的不同。如果沒有適當(dāng)?shù)莫?jiǎng)勵(lì)，強(qiáng)化學(xué)習(xí)算法很難收斂。針對(duì)這些問題，本文提出了一種基于逆向強(qiáng)化學(xué)習(xí)的能量管理策略，獲取專家軌跡下的獎(jiǎng)勵(lì)函數(shù)權(quán)值，并用于指導(dǎo)發(fā)動(dòng)機(jī)智能體和電池智能體的行為。該方法的主要過程是利用逆強(qiáng)化學(xué)習(xí)得到的權(quán)重系數(shù)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行修正，并根據(jù)最新的獎(jiǎng)勵(lì)函數(shù)輸入正向強(qiáng)化學(xué)習(xí)任務(wù)。最后，將修正后的權(quán)值重新輸入到正向強(qiáng)化學(xué)習(xí)訓(xùn)練中。從油耗值、SOC 變化曲線、獎(jiǎng)勵(lì)訓(xùn)練過程以及動(dòng)力源轉(zhuǎn)矩等方面，表明該算法具有一定的優(yōu)勢(shì)。本文的主要成果總結(jié)如下：

（1）從電池荷電狀態(tài)的變化值來看，荷電狀態(tài)的變化區(qū)間處于電池效率高、內(nèi)阻低的區(qū)域，燃油消耗處于較低水平；

（2）逆向強(qiáng)化學(xué)習(xí)獲取的獎(jiǎng)勵(lì)參數(shù)結(jié)果是分段式的；

（3）在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中，獎(jiǎng)勵(lì)值穩(wěn)步向最大方向前進(jìn)，最終達(dá)到平穩(wěn)狀態(tài)，訓(xùn)練有效。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放