陳澤宇 方志遠 楊瑞鑫 于全慶,3 康銘鑫
基于深度強化學習的混合動力汽車能量管理策略
陳澤宇1,2方志遠1楊瑞鑫2于全慶2,3康銘鑫1
(1. 東北大學機械工程與自動化學院 沈陽 110819 2. 北京理工大學機械與車輛學院 北京 100081 3. 哈爾濱工業(yè)大學(威海)汽車工程學院 威海 264209)
針對混合動力汽車能量管理策略在線運行時對工況適應性差的問題,提出一種具有深度強化學習能力的能量管理策略設(shè)計方法。該方法基于深度確定性策略梯度算法來確定發(fā)動機功率最佳變化率,進而建立車載能源功率分配策略。所建立的控制策略包含離線交互學習與在線更新學習雙層邏輯框架,根據(jù)車輛運行特性對控制參數(shù)進行動態(tài)更新,以提高在線運行時車輛的節(jié)能效果。為了驗證所提出的控制策略,以沈陽實車測試數(shù)據(jù)對算法有效性進行分析,并與粒子群優(yōu)化算法的控制效果進行對比。結(jié)果表明,所提出的深度強化學習能量管理策略可以實現(xiàn)優(yōu)于粒子群優(yōu)化策略的節(jié)能效果,尤其當車輛行駛特性發(fā)生突然變化時,深度強化學習控制策略具備更強的適應性。
混合動力汽車 電源系統(tǒng) 能量管理策略 深度強化學習 機器學習
混合動力汽車兼具純電動車的清潔性與燃油汽車的動力性特點,在當前新能源汽車的產(chǎn)業(yè)化發(fā)展中占據(jù)重要地位[1-6]。能量管理策略(Energy Management Strategy, EMS)直接影響車輛的動力性與經(jīng)濟性,是混合動力汽車的關(guān)鍵技術(shù)之一。因此設(shè)計合理有效的EMS對于提高混合動力汽車的性能至關(guān)重要。
早期研究主要集中在基于規(guī)則的EMS與基于優(yōu)化的EMS兩類。其中,基于規(guī)則的EMS依靠既定控制邏輯來進行控制模式的切換,最具代表性的是能量消耗維持策略(Charge Deplete - Charge Sustain, CD-CS)方法,該方法根據(jù)電池荷電狀態(tài)(State of Charge, SOC)來決策發(fā)動機的工作狀態(tài),在電池容量較高時優(yōu)先使用純電動模式,電池容量不足時開啟發(fā)動機予以補充[7-9]?;谝?guī)則的控制策略簡單、易于實現(xiàn),但是控制效果不具備最優(yōu)性。而基于優(yōu)化的EMS則是通過優(yōu)化控制率使車輛運行的能量消耗最小[10-11],例如文獻[12]提出了一種基于動態(tài)規(guī)劃(Dynamic Programming, DP)的混合動力系統(tǒng)EMS;文獻[13]則針對DP存在的插值泄露、維度災難等問題,改進了DP方法;文獻[14]提出了一種基于模糊控制與粒子群優(yōu)化(Particle Swarm Optimization, PSO)的混合動力汽車EMS;文獻[15]研究了基于遺傳算法(Genetic Algorithm, GA)的EMS;文獻[16]提出了一種基于龐特里亞金極小值原理算法的隨機模式預測控制EMS。上述基于優(yōu)化的方法可以實現(xiàn)全局最優(yōu)的控制效果,但是需要依賴已知行駛工況。文獻[17]提出了一種根據(jù)地理位置信息的可變等效因子瞬時油耗最小化策略,實現(xiàn)次優(yōu)的實時控制效果,不依賴于既定工況,但是其等效因子對控制效果影響顯著,如何在實車工況下確定最佳等效因子是難點問題。
近年來隨著機器學習技術(shù)的日益成熟[18-20],基于強化學習的EMS引起了廣泛關(guān)注[21]。強化學習是機器學習的一個分支,通過智能體與環(huán)境的交互學習來更新策略,對復雜多變工況具有極強的學習和適應能力[22-23]。文獻[24]提出了一種可以提高混合動力汽車燃油經(jīng)濟性的深度強化學習框架;文獻[25]提出了一種新穎的基于深度Q學習(Q-learning)算法的串聯(lián)式混合動力汽車EMS,通過構(gòu)造兩個相同結(jié)構(gòu)和權(quán)值的深度Q-learning網(wǎng)絡(luò)去逼近動作值函數(shù),提高了整個模型的魯棒性。文獻[26]提出了一種基于雙深度Q-learning的混合動力履帶車輛的EMS,可以實現(xiàn)接近于DP的燃油經(jīng)濟性,并且在不同的初始SOC下也可以保持很好的性能。文獻[27-28]使用仿真模擬實時行駛路線,展示了強化學習具備良好的可實現(xiàn)性,且可以達到與DP相近的控制效果。文獻[29]提出了一種基于策略網(wǎng)絡(luò)-評價網(wǎng)絡(luò)算法的混合動力汽車的EMS,并在不同工況下進行了驗證,可以實現(xiàn)較DP更低的油耗和計算成本。文獻[30-31]基于深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法分別提出了一種集成地形信息的混合動力公交車EMS和集成歷史累積行駛信息的串聯(lián)混合動力汽車EMS。
上述研究驗證了深度強化學習算法可以有效用于EMS設(shè)計,但已有研究缺乏對不確定性工況的充分考慮。行車過程中駕駛員的駕駛場景經(jīng)常發(fā)生變換,例如當車輛在不同道路、不同時段或不同城市運行時,EMS對工況變化的適應性十分重要。針對此,本文基于DDPG算法建立了一種具有在線更新學習機制的插電式混合動力汽車(Plug-in Hybrid Electric Vehicle, PHEV)深度強化學習EMS,并基于實車數(shù)據(jù)進行分析驗證。結(jié)果表明,所提出的控制策略具備對不確定性工況的良好適應性,且在行駛條件發(fā)生變化時具備在線學習能力,能夠顯著改善車輛全工況條件下的節(jié)能效果。
本文針對插電式混合動力汽車開展研究,其動力系統(tǒng)結(jié)構(gòu)如圖1所示,主要由發(fā)動機、發(fā)電機、電池組、電動機、變換器及機械傳動裝置(主減速器、差速器)組成。其中,電池組作為主要車載能量單元,可以為電動機提供電能,且能夠外接電網(wǎng)進行充電,發(fā)動機與發(fā)電機共同組成輔助能量源,電動機負責產(chǎn)生驅(qū)動車輛所需的機械能,當車輛制動時電動機則用作發(fā)電機,將車輛動能轉(zhuǎn)變?yōu)殡娔艽鎯υ陔姵亟M中,實現(xiàn)再生制動功能。該動力系統(tǒng)的主要部件及參數(shù)見表1。
圖1 PHEV動力系統(tǒng)結(jié)構(gòu)
表1 PHEV主要部件及參數(shù)
Tab.1 Main components and parameters of PHEV
根據(jù)車輛縱向動力學方程,建立動力系統(tǒng)的需求功率[32]為
式中,為整車質(zhì)量;為重力加速度;為滾動阻力系數(shù);為道路坡度(本文不考慮道路坡度的影響);d為風阻系數(shù);w為車輛迎風面積;a為空氣密度;為車輛行駛速度;cc為車輛加速度;為旋轉(zhuǎn)質(zhì)量轉(zhuǎn)換系數(shù)。車輛的電池組和發(fā)動機提供車輛行駛的需求功率,平衡方程為
式中,b為電池組功率;e為發(fā)動機功率;b、g、m和r分別為電池組、發(fā)電機、電動機和主減速器的工作效率。EMS通過調(diào)整電池組和發(fā)動機的動力分配,以達到不同的控制效果。
電動機作為主要執(zhí)行機構(gòu)負責提供車輛行駛的機械能,因此電動機的轉(zhuǎn)速與車速存在直接耦合關(guān)系,而電動機的需求功率即為車載電源系統(tǒng)的負載。采用準靜態(tài)模型對電動機驅(qū)動系統(tǒng)的動態(tài)特性進行建模,電動機效率如圖2所示,即電機轉(zhuǎn)速-轉(zhuǎn)矩平面上任意電機工作點所對應的效率值(輸出機械功率與輸入電功率之比)。圖中所示的等效率曲線對應效率值相同的工作點,從圖中可以看出電機大部分工作區(qū)域為效率大于80%的高效區(qū)間,電機輸出轉(zhuǎn)矩為目標轉(zhuǎn)矩的一階延遲,模型計算時根據(jù)電機需求力矩與轉(zhuǎn)速結(jié)合電機效率可得系統(tǒng)負載功率。
圖2 電動機效率
式中,為發(fā)動機瞬時燃油消耗率。經(jīng)計算,該擬合結(jié)果的方均根誤差為0.13g/s,可以滿足后續(xù)EMS的研究需要。
為了便于系統(tǒng)分析,忽略電池組內(nèi)部單體電池的不一致性,將動力電池視為一個整體系統(tǒng)進行建模,電池等效電路如圖4所示。其中,oc表示電池的開路電壓,j表示電池歐姆內(nèi)阻,p表示電池的極化內(nèi)阻,p表示電容,p為極化內(nèi)阻兩端的電壓,t為電池端電壓,L為電池輸出電流。
圖4 電池等效電路
基于上述模型,可得極化內(nèi)阻兩端的電壓變化量為
電池端電壓為
本文所提出的深度強化學習EMS原理如圖5所示。所研究的PHEV共有四種控制模式,分別為純電動模式、純發(fā)動機模式、混合驅(qū)動模式及再生制動模式??刂撇呗圆⒉辉O(shè)置其模式切換的邏輯門限,而是采用一個具有動態(tài)學習能力的智能體與實車行駛環(huán)境及系統(tǒng)狀態(tài)進行信息交互,實現(xiàn)使獎勵值函數(shù)最大化的決策動作,即最優(yōu)功率分配律。
圖5 基于深度強化學習的能量管理策略原理
由于發(fā)動機與驅(qū)動輪之間并無機械耦合,因此理論上發(fā)動機可以一直工作在最優(yōu)效率點,但是考慮到電池容量及功率的限制,發(fā)動機適當偏離最優(yōu)點以兼顧電池組工作狀態(tài),從而獲得整個系統(tǒng)的集成優(yōu)化是必要的。在解決混合動力汽車能量管理問題時,將系統(tǒng)模型和行駛工況視為環(huán)境,能量管理控制器視為智能體,則車輛行駛過程就是智能體與環(huán)境的不斷交互過程。深度強化學習算法融合了深度學習的感知能力和強化學習的決策能力,以實現(xiàn)累積獎勵值最大化為目標。在每一時刻,智能體采用深度學習的方法感知到環(huán)境中的狀態(tài)向量,然后基于目標網(wǎng)絡(luò)所產(chǎn)生的預期收益來評價當前狀態(tài)下的動作,將當前狀態(tài)映射為相應的動作并作用到環(huán)境中得到下一時刻的狀態(tài),不斷循環(huán)以上過程來改進策略,從而得到累積收益最大化的策略,進而得到控制算法的最優(yōu)化。
深度強化學習EMS構(gòu)架包括兩個層,即離線交互學習與在線更新學習,車輛的運行特性對控制策略有顯著影響,本文使用如圖6所示的七個典型城市工況統(tǒng)計得到的車速數(shù)據(jù),來刻畫車輛的運行特性,用于進行控制策略的離線交互學習。行駛總里程和平均速度分別為97.38km和55.47km/h,所建立的網(wǎng)絡(luò)可以直接用于在線運行。在線運行時根據(jù)車輛運行特性對控制策略進行更新學習,以進一步提高控制算法對實際環(huán)境下車輛運行特性的適應性。
圖6 車輛運行特性數(shù)據(jù)
對上述構(gòu)架進行進一步描述如下:智能體學習過程中通過在環(huán)境中的行為動作選擇來尋求最大獎勵,在每一時刻智能體感知到狀態(tài)s(s∈),={SOC,req, SOCref, ΔSOC,cc}為狀態(tài)空間,SOCref為參考SOC值,表達式為
式中,SOC0為初始SOC值;SOCend為里程終止時的預期SOC值;為汽車當前的行駛距離;為總的行駛里程。
ΔSOC為SOC變化量的預估值,為
智能體在到達最終狀態(tài)所獲得獎勵總和的期望值稱為狀態(tài)動作值函數(shù),即
式中,為當前時刻;為數(shù)學期望;為獎勵函數(shù),其表達式為
式中,為激活函數(shù);為燃油價格轉(zhuǎn)換系數(shù);fuel為燃油價格;ele為電價;和為權(quán)重因子。
進一步,采用DDPG算法構(gòu)建智能化EMS。該算法包含策略網(wǎng)絡(luò)與評價網(wǎng)絡(luò),其中策略網(wǎng)絡(luò)用來生成策略,評價網(wǎng)絡(luò)生成值來評價當前策略。經(jīng)驗回放池中儲存了每一次智能體與環(huán)境交互所產(chǎn)生的網(wǎng)絡(luò)參數(shù)(s,a,r,s+1),進行隨機批次抽樣學習。當前策略網(wǎng)絡(luò)根據(jù)當前時刻狀態(tài)s選擇當前時刻動作a,用于和環(huán)境交互產(chǎn)生下一時刻的狀態(tài)s+1和獎勵值r;目標策略網(wǎng)絡(luò)負責根據(jù)下一狀態(tài)s+1選擇下一動作a+1。由于目標網(wǎng)絡(luò)的權(quán)重周期性地從當前網(wǎng)絡(luò)進行更新,因此在訓練過程中值的目標值可以被暫時固定,使得學習更加穩(wěn)定。值的目標值為
當前評價網(wǎng)絡(luò)的目標是最小化損失函數(shù),網(wǎng)絡(luò)訓練時采用的損失函數(shù)定義為
式中,C為當前評價網(wǎng)絡(luò)產(chǎn)生的值;cc為當前評價網(wǎng)絡(luò)的權(quán)重。
當前策略網(wǎng)絡(luò)的目標是最大化期望收益,即
式中,C為當前策略網(wǎng)絡(luò)的策略函數(shù)。
當前策略網(wǎng)絡(luò)的權(quán)重ac梯度為
采用自適應矩估計優(yōu)化器[33]更新當前策略網(wǎng)絡(luò)的權(quán)重ac和當前評價網(wǎng)絡(luò)的權(quán)重cc,然后采用軟更新的方式分別更新兩個目標網(wǎng)絡(luò)的權(quán)重,即
式中,為軟更新參數(shù)。
對上述控制算法進行仿真分析,仿真過程中動力電池組的初始SOC設(shè)置為0.9。策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)各設(shè)置有兩個隱含層和一個輸出層,第一個隱含層設(shè)置有100個神經(jīng)元,第二個隱含層設(shè)置有50個神經(jīng)元。算法訓練過程中的每輪累計獎勵值和平均每輪累計獎勵值的變化結(jié)果如圖7所示,最大獎勵值所對應的功率分配率如圖8所示。
圖7 網(wǎng)絡(luò)訓練過程獎勵值
圖8 控制策略仿真結(jié)果
從深度強化學習算法所得到的功率分配決策可以看出,在整個全局工況中控制算法動態(tài)分配發(fā)動機與電池組功率以實現(xiàn)整體的節(jié)能效果最優(yōu),在控制過程中體現(xiàn)出了四種控制模式:①純發(fā)動機工作模式;②再生制動模式;③純電動模式;④混合驅(qū)動模式。這一控制結(jié)果與邏輯門限控制有相似效果,說明深度強化學習具備在執(zhí)行過程中確定最佳控制模式的學習能力,同時能夠根據(jù)全局能耗分布進行最優(yōu)分配律的決策。
接下來進一步對深度強化學習控制策略的最優(yōu)性及動態(tài)學習效果進行綜合評價,評價過程分為三個部分:首先,對離線初始訓練結(jié)果進行最優(yōu)性驗證,以評價所建立的深度強化學習算法在全局尋優(yōu)方面的訓練效果;其次,以沈陽城市工況實車運行數(shù)據(jù)對控制策略的在線應用進行驗證,評價離線訓練的控制算法在實際工況下的控制效果;最后,改變道路條件,對控制算法在線更新學習能力進行驗證,評價其在行駛環(huán)境發(fā)生變化的情況下對控制率的更新學習和動態(tài)調(diào)節(jié)能力。
為了驗證所提出的深度強化學習EMS的最優(yōu)性控制效果,在相同的行駛工況下采用CD-CS控制策略與基于PSO的最優(yōu)EMS進行仿真。CD-CS策略優(yōu)先采用純電動模式,發(fā)動機功率僅作為補充,電池SOC到達下限后切換為發(fā)動機為主的工作模式以維持電池電量;基于PSO算法的能量管理策略是一種全局優(yōu)化策略,其算法執(zhí)行步驟詳見文獻[14],此處不再贅述。電池組與發(fā)動機功率分配結(jié)果分別如圖9、圖10所示;圖11給出了三種控制策略的成本對比??梢钥闯觯珻D-CS控制策略由于在前期優(yōu)先使用電池功率,因此前半階段成本較低,但是全局的總成本最高;基于深度強化學習的控制策略與基于PSO優(yōu)化的控制策略的控制結(jié)果變化趨勢較為接近。三種控制策略所對應的油電成本及燃油成本對比結(jié)果見表2,可知PSO控制策略實現(xiàn)了最低的油電消耗,其油電成本比CD-CS控制策略降低了16.71%;所提出的深度強化學習EMS在初始離線訓練之后,雖然未能完全逼近理論上的最優(yōu)值,但可以實現(xiàn)次優(yōu)的控制效果,其油電成本較CD-CS控制策略降低了8.20%。上述結(jié)果證明了所提出的DDPG算法的有效性。
圖9 CD-CS控制策略結(jié)果
圖10 PSO控制策略優(yōu)化結(jié)果
圖11 三種控制策略優(yōu)化的油電成本對比
表2 不同控制策略的能耗成本對比結(jié)果
Tab.2 Comparison results of energy consumption costs of different control strategies
為了評價離線優(yōu)化之后的EMS在實車運行的在線控制效果,采用實車數(shù)據(jù)對所提出的EMS進行測試與評價,車輛行駛工況來自于遼寧省沈陽市主干道青年大街,所采集的數(shù)據(jù)總里程和平均速度分別為180.93km和19.51km/h,如圖12所示。通過實車數(shù)據(jù)對CD-CS控制策略、基于PSO的優(yōu)化控制策略、本文所提出的深度強化學習控制策略進行驗證,需要注意的是,這里使用的PSO控制策略和深化強化學習控制策略均是采用前述典型工況離線訓練。
圖12 沈陽城市道路實車數(shù)據(jù)
實車數(shù)據(jù)對應的功率分配結(jié)果如圖13所示,其中CD-CS控制策略與離線結(jié)果基本一致,即早期仍然主要使用電能,在行駛里程增加之后開始啟用發(fā)動機;PSO控制策略與深度強化學習控制策略則全程范圍內(nèi)對功率進行分配。結(jié)果可以看出,深度強化學習所得到的功率分配更為均勻,發(fā)動機大功率輸出的情況明顯較少。圖14所示為三種控制策略所得到的油電成本,其中CD-CS控制策略的節(jié)能效果最差;PSO控制策略雖然在離線時效果最佳,但是在線運行時的效果并不理想;深度強化學習控制策略實現(xiàn)了最低的能耗。不同控制策略優(yōu)化的能耗成本見表3。由表3可知,與CD-CS控制策略相比,PSO控制策略在實車工況下油電成本和油耗分別降低了3.99%和4.52%,而深度強化學習控制策略則分別降低了10.89%和12.12%,表明基于深度強化學習的EMS在面對不確定性行駛工況時可以實現(xiàn)很好的控制效果。
圖13 DDPG控制策略優(yōu)化結(jié)果
圖14 不同控制策略優(yōu)化的總成本隨時間變化的對比
表3 不同控制策略優(yōu)化的能耗成本
Tab.3 Energy consumption cost optimized by different control strategies
當駕駛環(huán)境發(fā)生較大改變時,在線學習與策略更新對于提高車輛實際控制效果至關(guān)重要。為了驗證所提出控制策略的在線學習效果,采用沈陽青年大街與二環(huán)路的實車數(shù)據(jù)進行分析[34],如圖15a所示,場景設(shè)計描述如下。
如圖15a所示,車輛由沈陽青年大街行駛到二環(huán)路,其中青年大街路況緩慢且起停頻繁,而二環(huán)路車速偏高且起停較少,行駛工況發(fā)生了明顯改變。車輛前期在青年大街運行時,控制策略已經(jīng)完成了該路況的學習,當車輛行駛在二環(huán)路時控制策略并非最優(yōu),需要進行在線更新學習。系統(tǒng)實時記錄車輛速度信息并與之前的速度工況特征進行對比,所采取的對比特征包括平均車速、速度標準差、起停頻率,并依據(jù)式(15)判斷行駛工況是否有了明顯改變,即
式中,vave,cur和vave,bef分別為當前窗格的平均速度和前一窗格的平均速度;vsd,cur和vsd,bef分別為當前窗格的速度標準差和前一窗格的速度標準差;Ncur和Nbef分別為當前窗格的起停次數(shù)和前一窗格的起停次數(shù);、和為設(shè)定的閾值。
當式(15)中至少兩個條件被滿足時進行算法的更新學習。在本例中,每隔5km進行一次工況變換識別,如果判定工況改變,則進一步使用30km的數(shù)據(jù)進行更新學習,如圖15a所示,其中,閾值設(shè)置為1=20、2=4、3=40。算法的更新學習需要一定的時間,以本文采用的處理器Intel(R) Core(TM) i7—8700 CPU@3.20GHz為例,模型更新訓練的時間為554s,控制策略僅在行駛工況發(fā)生較大改變的情況下才進行更新學習,在更新完成之前仍然采用之前的算法。隨著汽車智能化、車聯(lián)網(wǎng)及云端大數(shù)據(jù)技術(shù)的發(fā)展,深度強化學習策略完全具備實時應用的可行性和更加便利的在線更新能力。
將更新后的控制算法和沒有更新的情況進行對比分析??刂撇呗栽诰€更新后的功率分配結(jié)果及其與無在線更新機制的控制策略對比結(jié)果如圖15b、圖15c所示。算法經(jīng)過學習更新之后,發(fā)動機工作時間占比有所提高,以更好地適應新的行駛工況,而功率數(shù)值有輕微下降。為了更清晰地觀察改進效果,對更新之后的二環(huán)路工況(圖15a中③區(qū)域)的瞬時燃油消耗率進行了統(tǒng)計分析,結(jié)果如圖16所示??梢钥闯觯惴ǜ轮?,瞬時燃油消耗率更多地分布在低區(qū)間(<0.575 2),而更新前的瞬時燃油消耗率更多地分布在中(0.575 2~1.553 1)、高(>1.553 1)區(qū)間。瞬時油電成本的統(tǒng)計結(jié)果如圖17所示,可以看出,在控制策略進行更新學習之后,整個行駛路程分布上的瞬時油電成本有了明顯下降。油電成本與油耗對比的結(jié)果見表4,控制器更新后油電消耗成本進一步降低了3.64%,百公里油耗進一步降低了4.11%。上述分析結(jié)果表明,本文提出的深度強化學習控制策略在線運行時可實現(xiàn)較PSO算法更優(yōu)的結(jié)果,且通過更新學習可以進一步提高控制效果。
圖16 控制器更新前后燃油消耗率分布對比
圖17 控制器更新前后瞬時油電成本對比
表4 控制器更新前后能耗對比結(jié)果
本文基于DDPG深度強化學習算法,提出了一種具有在線學習能力的插電式混合動力汽車EMS設(shè)計方法,以發(fā)動機功率變化量為動作空間建立了自適應最優(yōu)功率分配律,進而建立了離線交互學習+在線更新學習的算法框架。所提出的深度強化學習EMS可以有效提高PHEV在線運行時的節(jié)能效果,且具備對行駛特性突變情況的適應性。以沈陽實車數(shù)據(jù)為例對所提出的控制策略進行了驗證與分析,結(jié)果表明,與PSO優(yōu)化控制策略相比,深度強化學習策略可以使在線運行時的車輛油電綜合成本降低6.9%;當車輛行駛路況發(fā)生明顯改變之后,所建立的深度強化學習EMS具有良好的路況適應性,與不具備在線學習能力的情況相比,可以使車輛油電綜合成本進一步降低3.64%。
[1] 安小宇, 李元豐, 孫建彬, 等. 基于模糊邏輯的電動汽車雙源混合儲能系統(tǒng)能量管理策略[J]. 電力系統(tǒng)保護與控制, 2021, 49(16): 135-142.
An Xiaoyu, Li Yuanfeng, Sun Jianbin, et al. Energy management strategy of a dual-source hybrid energy storage system for electric vehicles based on fuzzy logic[J]. Power System Protection and Control, 2021, 49(16): 135-142.
[2] 姚穎蓓, 陸建忠, 傅業(yè)盛, 等. 華東地區(qū)電動汽車發(fā)展趨勢及用電需求預測[J]. 電力系統(tǒng)保護與控制, 2021, 49(4): 141-145.
Yao Yingbei, Lu Jianzhong, Fu Yesheng, et al. Electric vehicle development trends and electricity demand forecast in East China[J]. Power System Protection and Control, 2021, 49(4): 141-145.
[3] 程杉, 楊堃, 魏昭彬, 等. 計及電價優(yōu)化和放電節(jié)制的電動汽車充電站有序充放電調(diào)度[J]. 電力系統(tǒng)保護與控制, 2021, 49(11): 1-8.
Cheng Shan, Yang Kun, Wei Zhaobin, et al. Orderly charging and discharging scheduling of an electric vehicle charging station considering price optimization and discharge behavior control[J]. Power System Protection and Control, 2021, 49(11): 1-8.
[4] 陳嘉鵬, 湯乃云, 王雪松. 基于電動汽車入網(wǎng)特性的電網(wǎng)經(jīng)濟調(diào)度研究[J]. 電氣技術(shù), 2019, 20(3): 24-30, 36.
Chen Jiapeng, Tang Naiyun, Wang Xuesong. Research on economic dispatch of power grid based on vehicle to grid characteristics of electric vehicle[J]. Electrical Engineering, 2019, 20(3): 24-30, 36.
[5] 郭國太. 電動汽車充電站負荷計算及影響因素[J]. 電氣技術(shù), 2019, 20(3): 93-97.
Guo Guotai. Load calculation and influence factors of electric vehicle charging station[J]. Electrical Engineering, 2019, 20(3): 93-97.
[6] 宋健, 李夢佳, 劉囡, 等. 基于聚類算法的電動汽車充放電分時電價優(yōu)化[J]. 電氣技術(shù), 2018, 19(8): 168-173.
Song Jian, Li Mengjia, Liu Nan, et al. The time-of-use price optimization of electric vehicle charging and discharging based on clustering algorithm[J]. Electrical Engineering, 2018, 19(8): 168-173.
[7] 周美蘭, 馮繼峰, 張宇, 等. 純電動客車復合儲能系統(tǒng)功率分配控制策略研究[J]. 電工技術(shù)學報, 2019, 34(23): 5001-5013.
Zhou Meilan, Feng Jifeng, Zhang Yu, et al. Research on power allocation control strategy for compound electric energy storage system of pure electric bus[J]. Transactions of China Electrotechnical Society, 2019, 34(23): 5001-5013.
[8] 石慶升, 張承慧, 崔納新. 新型雙能量源純電動汽車能量管理問題的優(yōu)化控制[J]. 電工技術(shù)學報, 2008, 23(8): 137-142.
Shi Qingsheng, Zhang Chenghui, Cui Naxin. Optimal control of energy management in novel electric vehicles with dual-source energy storage system[J]. Transactions of China Electrotechnical Society, 2008, 23(8): 137-142.
[9] 王琪, 孫玉坤, 羅印升. 混合動力電動汽車的復合電源功率分配控制策略[J]. 電工技術(shù)學報, 2017, 32(18): 143-151.
Wang Qi, Sun Yukun, Luo Yinsheng. A power distribution control strategy of hybrid energy storage system in hybrid electric vehicles[J]. Transactions of China Electrotechnical Society, 2017, 32(18): 143-151.
[10] 李家祥, 汪鳳翔, 柯棟梁, 等. 基于粒子群算法的永磁同步電機模型預測控制權(quán)重系數(shù)設(shè)計[J]. 電工技術(shù)學報, 2021, 36(1): 50-59, 76.
Li Jiaxiang, Wang Fengxiang, Ke Dongliang, et al. Weighting factors design of model predictive control for permanent magnet synchronous machine using particle swarm optimization[J]. Transactions of China Electrotechnical Society, 2021, 36(1): 50-59, 76.
[11] Wu Jiangling, Sun Xiaodong, Zhu Jianguo. Accurate torque modeling with PSO-based recursive robust LSSVR for a segmented-rotor switched reluctance motor[J]. CES Transactions on Electrical Machines and Systems, 2020, 4(2): 96-104.
[12] Liu Jichao, Chen Yangzhou, Li Wei, et al. Hybrid-trip-model-based energy management of a PHEV with computation-optimized dynamic programming[J]. IEEE Transactions on Vehicular Technology, 2018, 67(1): 338-353.
[13] Zhou Wei, Yang Lin, Cai Yishan, et al. Dynamic programming for new energy vehicles based on their work modes part Ⅰ: electric vehicles and hybrid electric vehicles[J]. Journal of Power Sources, 2018, 406: 151-166.
[14] Chen Zeyu, Xiong Rui, Cao Jiayi. Particle swarm optimization-based optimal power management of plug-in hybrid electric vehicles considering uncertain driving conditions[J]. Energy, 2016, 96: 197-208.
[15] Lü Xueqin, Wu Yinbo, Lian Jie, et al. Energy management of hybrid electric vehicles: a review of energy optimization of fuel cell hybrid power system based on genetic algorithm[J]. Energy Conversion and Management, 2020, 205: 112474.
[16] Xie Shaobo, Hu Xiaosong, Xin Zongke, et al. Pontryagin's minimum principle based model predictive control of energy management for a plug-in hybrid electric bus[J]. Applied Energy, 2019, 236: 893-905.
[17] Yang Ye, Zhang Youtong, Tian Jingyi, et al. Adaptive real-time optimal energy management strategy for extender range electric vehicle[J]. Energy, 2020, 197: 117237.
[18] 陳劍, 杜文娟, 王海風. 采用深度遷移學習定位含直驅(qū)風機次同步振蕩源機組的方法[J]. 電工技術(shù)學報, 2021, 36(1): 179-190.
Chen Jian, Du Wenjuan, Wang Haifeng. A method of locating the power system subsynchronous oscillation source unit with grid-connected PMSG using deep transfer learning[J]. Transactions of China Electrotechnical Society, 2021, 36(1): 179-190.
[19] 李超然, 肖飛, 樊亞翔, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的鋰離子電池SOH估算[J]. 電工技術(shù)學報, 2020, 35(19): 4106-4119.
Li Chaoran, Xiao Fei, Fan Yaxiang, et al. An approach to lithium-ion battery SOH estimation based on convolutional neural network[J]. Transactions of China Electrotechnical Society, 2020, 35(19): 4106-4119.
[20] 徐建軍, 黃立達, 閆麗梅, 等. 基于層次多任務(wù)深度學習的絕緣子自爆缺陷檢測[J]. 電工技術(shù)學報, 2021, 36(7): 1407-1415.
Xu Jianjun, Huang Lida, Yan Limei, et al. Insulator self-explosion defect detection based on hierarchical multi-task deep learning[J]. Transactions of China Electrotechnical Society, 2021, 36(7): 1407-1415.
[21] 張?zhí)? 趙奇, 陳中, 等. 基于深度強化學習的家庭能量管理分層優(yōu)化策略[J]. 電力系統(tǒng)自動化, 2021, 45(21): 149-158.
Zhang Tian, Zhao Qi, Chen Zhong, et al. Hierarchical optimization strategy for home energy management based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2021, 45(21): 149-158.
[22] 葉宇劍, 王卉宇, 湯奕, 等. 基于深度強化學習的居民實時自治最優(yōu)能量管理策略[J]. 電力系統(tǒng)自動化, 2022, 46(1): 110-119.
Ye Yujian, Wang Huiyu, Tang Yi, et al. Real-time autonomous optimal energy management strategy for residents based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2022, 46(1): 110-119.
[23] 趙冬梅, 陶然, 馬泰屹, 等. 基于多智能體深度確定策略梯度算法的有功-無功協(xié)調(diào)調(diào)度模型[J]. 電工技術(shù)學報, 2021, 36(9): 1914-1925.
Zhao Dongmei, Tao Ran, Ma Taiyi, et al. Active and reactive power coordinated dispatching based on multi-agent deep deterministic policy gradient algorithm[J]. Transactions of China Electrotechnical Society, 2021, 36(9): 1914-1925.
[24] Zhao Pu, Wang Yanzhi, Chang N, et al. A deep reinforcement learning framework for optimizing fuel economy of hybrid electric vehicles[C]//2018 23rd Asia and South Pacific Design Automation Conference (ASP-DAC), Jeju, Korea (South), 2018: 196-202.
[25] He Dingbo, Zou Yuan, Wu Jinlong, et al. Deep Q-learning based energy management strategy for a series hybrid electric tracked vehicle and its adaptability validation[C]//2019 IEEE Transportation Electrification Conference and Expo (ITEC), Detroit, MI, USA, 2019: 1-6.
[26] Han Xuefeng, He Hongwen, Wu Jingda, et al. Energy management based on reinforcement learning with double deep Q-learning for a hybrid electric tracked vehicle[J]. Applied Energy, 2019, 254: 113708.
[27] Zhu Zhaoxuan, Liu Yuxing, Canova M. Energy management of hybrid electric vehicles via deep Q-networks[C]//2020 American Control Conference (ACC), Denver, CO, USA, 2020: 3077-3082.
[28] Du Guodong, Zou Yuan, Zhang Xudong, et al. Deep reinforcement learning based energy management for a hybrid electric vehicle[J]. Energy, 2020, 201: 117591.
[29] Tan Huachun, Zhang Hailong, Peng Jiankun, et al. Energy management of hybrid electric bus based on deep reinforcement learning in continuous state and action space[J]. Energy Conversion and Management, 2019, 195: 548-560.
[30] Li Yuecheng, He Hongwen, Khajepour A, et al. Energy management for a power-split hybrid electric bus via deep reinforcement learning with terrain information[J]. Applied Energy, 2019, 255: 113762.
[31] Li Yuecheng, He Hongwen, Peng Jiankun, et al. Deep reinforcement learning-based energy management for a series hybrid electric vehicle enabled by history cumulative trip information[J]. IEEE Transactions on Vehicular Technology, 2019, 68(8): 7416-7430.
[32] Geng Wenran, Lou Diming, Wang Chen, et al. A cascaded energy management optimization method of multimode power-split hybrid electric vehicles[J]. Energy, 2020, 199: 117224.
[33] Fei Zhigen, Wu Zhiying, Xiao Yanqiu, et al. A new short-arc fitting method with high precision using Adam optimization algorithm[J]. Optik, 2020, 212: 164788.
[34] Chen Zeyu, Zhang Qing, Lu Jiahuan, et al. Optimization-based method to develop practical driving cycle for application in electric vehicle power management: a case study in Shenyang, China[J]. Energy, 2019, 186: 115766.
Energy Management Strategy for Hybrid Electric Vehicle Based on the Deep Reinforcement Learning Method
Chen Zeyu1,2Fang Zhiyuan1Yang Ruixin2Yu Quanqing2,3Kang Mingxin1
(1. School of Mechanical Engineering and Automation Northeastern University Shenyang 110819 China 2. School of Mechanical Engineering Beijing Institute of Technology Beijing 100081 China 3. School of Automotive Engineering Harbin Institute of Technology at Weihai Weihai 264209 China)
To resolve the problem of poor adaptability to varying driving cycles when energy management strategy for hybrid electric vehicles is running online, a design method of energy management strategy (EMS) with deep reinforcement learning ability is proposed. The presented method determines the optimal change rate of engine power based on the deep deterministic policy gradient algorithm and then establishes the power management strategy of the onboard energy system. The established control strategy includes a two-layer logical framework of offline interactive learning and online update learning. The control parameters are dynamically updated according to the vehicle operation characteristics to improve the vehicle energy-saving effect in online applications. To verify the proposed control strategy, the effectiveness of the algorithm is analyzed with the practical vehicle test data in Shenyang, and compared with the control effect of the particle swarm optimization algorithm. The results show that the proposed deep reinforcement learning EMS can achieve energy-saving effects better than particle swarm optimization-based strategy. Especially when the driving characteristics of vehicles change suddenly, deep reinforcement learning control strategy can achieve better adaptability.
Hybrid electric vehicle, power system, energy management strategy, deep reinforcement learning, machine learning
10.19595/j.cnki.1000-6753.tces.211342
U469
國家自然科學基金項目(51977029)、中央高?;究蒲袠I(yè)務(wù)專項資金資助項目(N2003002)、遼寧省科技計劃項目(2021JH6/10500135)和中國博士后科學基金資助項目(2021M690395)資助。
2021-08-25
2021-12-24
陳澤宇 男,1982年生,副教授,博士生導師,研究方向為新能源汽車與電驅(qū)動技術(shù)、車用電池安全與故障診斷技術(shù)和電池智能化管理系統(tǒng)等。E-mail:chenzy@mail.neu.edu.cn
楊瑞鑫 男,1988年生,博士,研究方向為新能源汽車動力電池管理。E-mail:yangruixin@bit.edu.cn(通信作者)
(編輯 李冰)