亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于并行深度強化學(xué)習(xí)的混合動力汽車能量管理策略優(yōu)化

        2020-11-02 06:16:12李家曦孫友長龐玉涵伍朝兵楊小青
        關(guān)鍵詞:控制策略深度動作

        李家曦,孫友長,龐玉涵,伍朝兵,楊小青,胡 博,2

        (1.重慶理工大學(xué) 車輛工程學(xué)院 汽車零部件先進(jìn)制造技術(shù)教育部重點實驗室,重慶 400054;2.寧波市鄞州德來特技術(shù)有限公司,浙江 寧波 315100)

        1 研究現(xiàn)狀

        混合動力汽車的能量管理策略決定了其在行駛過程中能否實現(xiàn)對能源的高效利用,以達(dá)到節(jié)能減排的目標(biāo)。能量管理策略主要是在發(fā)動機和電機的總功率滿足駕駛員的功率需求時,通過對兩者間的功率分配改善能源利用率,提高燃油經(jīng)濟(jì)性[1-2]。如圖1所示,目前主流的控制策略有兩類:基于規(guī)則或者基于優(yōu)化。基于規(guī)則的控制策略往往需要消耗大量調(diào)參資源并且適用范圍受到工況限制,早已有學(xué)者對其在混合動力汽車能量管理策略上的應(yīng)用進(jìn)行了研究[3-4]。而基于優(yōu)化的控制策略因為其適應(yīng)性好,調(diào)參相對簡單等特點,使得基于優(yōu)化的控制策略逐漸成為研究熱點。國內(nèi)外近年來對混合動力汽車能量管理策略的優(yōu)化算法研究案例也逐漸增多,如Serrao等對3種已知的優(yōu)化算法進(jìn)行了比較分析[5],包括動態(tài)規(guī)劃、龐特里亞金最小原理(pontryagin’s minimum principle,PMP)和等效能耗最小策略[5-7],討論了能量管理策略的實時和全局優(yōu)化方法。全局優(yōu)化中的代表算法動態(tài)規(guī)劃雖然能夠達(dá)到全局最優(yōu)的控制效果,但由于動態(tài)規(guī)劃需要事先獲得行駛工況信息導(dǎo)致其一般不能滿足實時控制要求。龐特里亞金最小原理由蘇聯(lián)學(xué)者龐特里亞金提出的極大值原理轉(zhuǎn)換得到[8]。多位學(xué)者嘗試引入龐特里亞金最小值原理來求解混合動力汽車在特定工況下的最優(yōu)控制問題[9-12],但是基于PMP的控制方法較為復(fù)雜且系統(tǒng)方程并非連續(xù),需要通過離散狀態(tài)解決,這一點并不符合大多數(shù)工程控制領(lǐng)域的連續(xù)動作控制[13]。而基于龐特里亞金最小原理發(fā)展出的等效能耗最小策略(equivalent consumption minimization strategy,ECMS)解決了PMP方法中系統(tǒng)方程不連續(xù)的問題[14]。本文重點討論ECMS方法在混合動力汽車能量管理控制策略領(lǐng)域的應(yīng)用發(fā)展。

        ECMS是一種由Paganelli等提出的實時優(yōu)化方法[15],通過將全局最優(yōu)問題轉(zhuǎn)為瞬時最優(yōu)問題,使得實時計算成為可能,并且消耗計算資源相對較少。通過ECMS中的等效因子將消耗的電能轉(zhuǎn)化為等效的燃油消耗,加以計算最小化瞬時能耗,因此等效因子的選擇也即ECMS方法的關(guān)鍵點[16-17]。Serrao等[18]通過將ECMS應(yīng)用于混合動力汽車能量管理策略,證明了合適的等效因子能夠使ECMS逼近全局最優(yōu)控制。而根據(jù)等效因子在行駛過程中是否固定,ECMS又分為nonadaptive-ECMS和adaptive-ECMS,固定等效因子的nonadaptive方式雖然有逼近全局最優(yōu)解的可能,但由于需要事先獲得行駛工況信息對等效因子值進(jìn)行調(diào)整,而不能滿足實際多變的行駛工況,這時能夠在行駛過程中對等效因子進(jìn)行調(diào)整的adaptive方式則更加符合實際車輛行駛的需求[19]。傳統(tǒng)的adaptive-ECMS方法往往是通過較為簡單的PID反饋控制器對等效因子進(jìn)行調(diào)整[20-21],這可能會使調(diào)整效果較為一般,從而無法在調(diào)參能力有限時達(dá)到更優(yōu)的控制目標(biāo)。而隨著近年來人工智能技術(shù)尤其是機器學(xué)習(xí)中強化學(xué)習(xí)(reinforcement learning,RL)的快速發(fā)展,結(jié)合強化學(xué)習(xí)的智能算法在工業(yè)控制問題的應(yīng)用研究取得了良好進(jìn)展[22-23]。本文將通過強化學(xué)習(xí)改進(jìn)A-ECMS方法,并對改進(jìn)后的算法性能進(jìn)行討論。

        最近幾年,將強化學(xué)習(xí)應(yīng)用于能量管理策略的研究引起國內(nèi)外學(xué)者的關(guān)注。強化學(xué)習(xí)是來源于機器學(xué)習(xí)的一個普遍且高效的技術(shù),適用于解決序貫決策問題[24]。2012年,Hsu等[25]使用Qlearning算法對混合動力自行車進(jìn)行功率管理,他們量化了安全性和舒適性指標(biāo),比如騎行質(zhì)量和電池的能源利用率。仿真結(jié)果表明:騎行質(zhì)量和能源利用率可分別提高24%和50%。Yue等[26]提出了一種基于TD(λ)-learning、無模型(modelfree)的在線策略來管理HEV中超級電容器和電池中的能量流。如圖2所示,Hu等[27]在ADVISOR上評估了他們基于深度Q網(wǎng)絡(luò)(deep Q network,DQN)的能量管理策略,并通過與基于規(guī)則的控制策略進(jìn)行比較,在當(dāng)前的駕駛情況下,通過值函數(shù)誤差選擇最優(yōu)匹配策略,證明了該策略可以滿足實時控制和在線學(xué)習(xí)目標(biāo)。Zhao等[28]應(yīng)用深度神經(jīng)網(wǎng)絡(luò)(DNN)來訓(xùn)練離線值函數(shù),并使用Q-learning算法實現(xiàn)在線控制,可以適應(yīng)不同的動力系統(tǒng)建模和駕駛情況。Liessner R等[29]構(gòu)建了基于DRL的能量管理策略,該策略考慮了不同司機的駕駛行為以提高燃油效率。而目前應(yīng)用強化學(xué)習(xí)在混合動力汽車能量管理控制策略方面的研究案例中,大部分還是通過離散動作的控制方法,這也導(dǎo)致控制效果與離散程度高度相關(guān),不滿足實際工程控制需求。為了解決此類需要執(zhí)行連續(xù)動作的控制問題,谷歌Deepmind近期提出了深度確定性策略梯度算法(deep deterministic policy gradient,DDPG),該算法結(jié)合深度Q網(wǎng)絡(luò)與評論家-批評家算法(actor-critic,AC),具有兩者各自的特點,能夠大幅提升算法收斂速度和控制效果。

        不同于其他基于強化學(xué)習(xí)的控制策略對能量管理進(jìn)行優(yōu)化,本文提出了一種結(jié)合DDPG與AECMS的控制方法。通過DDPG對A-ECMS中的等效因子s進(jìn)行控制以解決整車的SOC保持、油耗管理問題,同時在邊緣計算架構(gòu)下以并行的深度強化學(xué)習(xí)框架加快算法的收斂速度。本文其余結(jié)構(gòu)如下:第1節(jié)介紹了混合動力汽車模型以及ECMS方法,第2節(jié)說明了所使用的強化學(xué)習(xí)理論,在第3節(jié)解釋了設(shè)計的實驗仿真流程,第4節(jié)分析了實驗結(jié)果,第5節(jié)給出了結(jié)論。

        2 混合動力汽車模型及等效消耗最小策略

        2.1 混合動力汽車模型

        研究對象選擇一款P2構(gòu)型的混合動力汽車,電機置于變速箱的輸入端,在發(fā)動機與變速箱之間。車輛結(jié)構(gòu)圖如圖3所示。

        汽車運動模型:考慮汽車行駛時需要克服的路面滾動阻力Fr、空氣阻力FW,不考慮其他動力學(xué)因素。

        空氣阻力表示如下:

        A是迎風(fēng)面積;CD是空氣阻力系數(shù);ρα是空氣密度;v是車速。滾動阻力表示如下:k是車輛滑動阻力系數(shù);M是整備質(zhì)量;g是重力加速度。設(shè)驅(qū)動力Fx,汽車加速度表示如下:

        發(fā)動機模型:采用準(zhǔn)靜態(tài)模型進(jìn)行發(fā)動機建模。燃料消耗率定義為

        Ten是發(fā)動機輸出扭矩;nen是發(fā)動機轉(zhuǎn)速;燃油消耗率是兩者的函數(shù)。在時間T內(nèi)的總油耗可由燃油消耗率積分得到:

        電機模型:電動狀態(tài)時輸入電能,功率由定子端電壓和電流的乘積決定,輸出為機械能,功率由轉(zhuǎn)子端轉(zhuǎn)速和轉(zhuǎn)矩乘積決定,此時有功率損失,建模需查看效率表。發(fā)電狀態(tài)時能量流方向相反,輸入為電機轉(zhuǎn)矩和轉(zhuǎn)子轉(zhuǎn)速的機械功率。輸出為定子端電壓和電流乘積的電功率。本模型建模未考慮溫度等因素影響。

        電動狀態(tài)時,電機轉(zhuǎn)矩Tm與轉(zhuǎn)速ωn滿足(ηm是電機電動狀態(tài)的效率):

        發(fā)電狀態(tài)時,電機轉(zhuǎn)矩Tm與轉(zhuǎn)速ωn滿足(ηm是電機發(fā)電狀態(tài)的效率):

        電池模型:采用最大容量5.3 Ah的磷酸鐵鋰電池,選用內(nèi)阻模型建模。由于SOC與開路電壓關(guān)系特性曲線可由電池實驗獲得,則已知電池輸出功率時,可由SOC狀況求得電池電流,以此獲得此時電壓狀況,由電池功率平衡關(guān)系和電壓關(guān)系得:

        Ubat和Voc分別為電池輸出電壓和開路電壓,rint是電池內(nèi)阻;Pbat是電池輸出功率。SOC微分表達(dá)式為

        Qbor為電池額定容量。為保證部件的安全性和可靠性,需滿足式(11)約束(發(fā)動機與電機的輸出轉(zhuǎn)速、轉(zhuǎn)矩范圍,SOC變化范圍,電池電流、功率變化范圍):

        2.2 等效能耗最小策略ECMS

        ECMS基于這樣的理念:混合動力車行駛過程中,初始SOC狀態(tài)應(yīng)與行駛結(jié)束時的SOC保持相同,這個過程電池可以被看作是一個可逆的燃料箱,只作為能量緩沖器使用,所有能源消耗均來自發(fā)動機,目的是提高發(fā)動機工作效率。在電池放電階段使用的任何儲存電能必須在以后的階段通過發(fā)動機燃料或是通過再生制動進(jìn)行補充。ECMS通過將計算全局燃料消耗最小值轉(zhuǎn)化為計算瞬時燃料消耗最小值,并以此推導(dǎo)出電機與發(fā)動機的功率分配比。ECMS中的瞬時成本被定義為

        s(t)為等效因子EF,等效因子的作用是將電池功率轉(zhuǎn)化為等效燃油功率。

        在傳統(tǒng)的離線實驗中,等效因子是通過迭代搜索發(fā)現(xiàn)最優(yōu)值(通過打靶法求得),也即nonadaptive-ECMS方法。例如將每次迭代的等效因子值持續(xù)輸入訓(xùn)練環(huán)境中并觀察效果,以此獲得能達(dá)到全局最優(yōu)控制效果的最佳值。由于其值與某時刻所達(dá)到的SOC值存在明確關(guān)系,故通過迭代搜索是可行的。

        而在當(dāng)前基于ECMS方法的混合動力汽車能量管理策略中,等效因子的值往往是通過PID控制器調(diào)整,即將SOC與目標(biāo)SOC(即初始值)之差作為PID控制器的輸入,經(jīng)過計算得到輸出,即等效因子值,屬于一種常見的A-ECMS方法,如圖4。而基于PID的A-ECMS方法往不能達(dá)到較好的控制效果或是滿足在多個或未知工況下的行駛需求,本論文將通過深度強化學(xué)習(xí)對解決此問題進(jìn)行探索。

        3 強化學(xué)習(xí)理論

        3.1 強化學(xué)習(xí)

        強化學(xué)習(xí)是機器學(xué)習(xí)方法的一個分支,它通過智能體(Agent)與環(huán)境交互,即向環(huán)境輸入動作,并且從環(huán)境獲取反饋的方式來對自己的策略進(jìn)行調(diào)整。算法邏輯結(jié)構(gòu)如圖5所示,智能體根據(jù)環(huán)境當(dāng)前的狀況作出決策并采取動作,在下個時間段獲得環(huán)境新的狀況以及獎勵信息Reward,通過這個過程來學(xué)習(xí)并更新強化學(xué)習(xí)的控制器,目標(biāo)是通過試錯(Trial-and-error)的方式達(dá)到改進(jìn)系統(tǒng)性能的目的[30-31],使獎勵信息的累計值達(dá)到最大。

        3.2 深度強化學(xué)習(xí)

        深度強化學(xué)習(xí)由谷歌Deepmind在2015年首次提出并被應(yīng)用于解決圍棋任務(wù),取得了極好的效果且擊敗了圍棋界的頂級人類選手[32-33]。圖6是深度強化學(xué)習(xí)算法的邏輯圖,智能體通過神經(jīng)網(wǎng)絡(luò)代替強化學(xué)習(xí)中的Q表,將狀態(tài)輸入給神經(jīng)網(wǎng)絡(luò)預(yù)測其價值并輸出動作。

        3.3 深度確定性策略梯度算法(DDPG)

        DDPG是由谷歌Deepmind團(tuán)隊在2016年提出的[34],它成功實現(xiàn)了網(wǎng)絡(luò)直接輸出動作,從而使算法能夠在連續(xù)空間進(jìn)行控制,DDPG和Actor-Critic算法相同的是:DDPG同樣具有Actor和Critic 2個網(wǎng)絡(luò),通過Actor輸出動作,Critic基于Actor輸出的動作進(jìn)行評估,而Actor基于Critic產(chǎn)生的梯度進(jìn)行更新。DDPG算法和DQN相同之處是通過經(jīng)驗數(shù)據(jù)回放的方式更新網(wǎng)絡(luò),而Actorcritic是通過回合進(jìn)行更新,DDPG的Actor-critic網(wǎng)絡(luò)中同樣具有evaluate和target 2個網(wǎng)絡(luò),更新方式也與DQN相同,這一關(guān)系可由圖7表示。

        DDPG算法的邏輯結(jié)構(gòu)如下:

        DDPG Algorithm

        1:Randomly initialize critic network Q(s,a|θQ)and actor μ(s|θμ)with weightsθQandθμ

        2:Initialize target networkθ*andμ′with weightsθQ←θQ,θμ←θμ

        3:Initialize replay buffer R

        4:for episode=1,M do

        5:Initialize a random process N for action exploration

        6:Receive initial observation state

        7:for t=1,T do

        8:Select action at=μ(st|θμ)+Ntaccording to the currentpolicy and exploration noise

        9:Execute action atand observe reward rtand observe new state st+1

        10:Store transition(st,at,rt,st+1)in R

        11:Sample a random minibatch of N transitions(si,ai,ri,si+1)form R

        12:Set yi=ri+γQ′(st+1,μ′(si+1|θμ)|θQ)

        13:Update critic by minimizing the loss:

        14:Update the actor policy using the sampled policy gradient:

        15:Update the target networks:

        16:end for

        17:end for

        4 基于并行深度強化學(xué)習(xí)的實時能量管理策略

        Nonadaptive-ECMS通過離線調(diào)整選出固定的等效因子并應(yīng)用于整個工況,由文獻(xiàn)[35]得知,可獲得接近全局最優(yōu)解的控制效果,同時滿足SOC保持,缺點是消耗大量資源調(diào)參且對工況適應(yīng)性差,無法在工況變化時仍保持最優(yōu)控制,不滿足實際工業(yè)控制的需要。而本研究是通過DDPG算法獲得等效因子值,為驗證算法效果,將其與傳統(tǒng)基于PID反饋的A-ECMS方法進(jìn)行對比。DDPG中Actor網(wǎng)絡(luò)輸出動作,即等效因子動作執(zhí)行后,從環(huán)境獲得到達(dá)狀態(tài)和獎勵回報,與動作值以及上一步所處狀態(tài)組成一個四元組存入記憶池。通過將狀態(tài)及動作輸入Critic網(wǎng)絡(luò)來得到Critic估計的Q值,計算梯度并以策略梯度方法對Actor網(wǎng)絡(luò)更新。通過對Actor網(wǎng)絡(luò)輸入當(dāng)前時刻狀態(tài),得到Actor網(wǎng)絡(luò)對下一時刻狀態(tài)估計的動作,并將此動作輸入到Critic網(wǎng)絡(luò)中,得到V值與Q-target值并計算損失,通過Adam優(yōu)化器對Critic網(wǎng)絡(luò)更新,每隔一定時間對Target網(wǎng)絡(luò)進(jìn)行更新,以此循環(huán)直至算法收斂。本文提出的基于DDPG的控制器邏輯結(jié)構(gòu)見圖8。

        搭建基于深度確定性策略梯度算法框架,部分參數(shù)如表1。

        表1 DDPG超參數(shù)

        DDPG中神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)搭建如圖9,Actor和Critic均具有3個隱藏層,每層120個神經(jīng)元。

        狀態(tài)由電池SOC、剩余行駛里程、上一步的輸出動作組成,選擇SOC與上一步的輸出動作是為使DDPG智能體獲得所要控制的SOC與目標(biāo)值差距信息,以及自身上個動作導(dǎo)致的影響。而增加剩余里程作為狀態(tài)一部分的原因是受到智能網(wǎng)聯(lián)技術(shù)發(fā)展的啟發(fā),當(dāng)前智能網(wǎng)聯(lián)汽車中多數(shù)搭載有實時定位系統(tǒng),通過此項技術(shù)可以迅速得知汽車位置與終點間距離情況,而此信息有助于DDPG智能體學(xué)習(xí)如何SOC保持,例如在距離終點過遠(yuǎn)時可以允許SOC值在較大幅度內(nèi)變動,以使發(fā)動機工作在高效率點,而距離終點位置較近時,則可據(jù)此控制SOC快速回到初始值附件,以滿足SOC保持目標(biāo);獎勵回報函數(shù)構(gòu)成如下:

        通過高斯函數(shù)形式設(shè)置獎勵回報函數(shù),目的是能夠?qū)Ρ狙芯康?個關(guān)注點,即SOC和油耗進(jìn)行控制,做到SOC保持的同時減小油耗。et是電池SOC值相對初始值的偏差,而it是在控制周期10 s內(nèi)的油耗量,經(jīng)過調(diào)整設(shè)置et和it的系數(shù)分別為0.7與0.3。

        本文的并行部分通過邊緣計算的思想實現(xiàn),所提出的并行深度強化學(xué)習(xí)控制器框架如圖10所示,首先在云端建立全局網(wǎng)絡(luò),全局網(wǎng)絡(luò)同樣含有Actor與Critic框架,通過每個連入此網(wǎng)絡(luò)的邊緣設(shè)備(具有與云端完全相同的網(wǎng)絡(luò)結(jié)構(gòu))運行各自工況時經(jīng)歷的狀態(tài)等信息計算出更新全局網(wǎng)絡(luò)的梯度,將此梯度用于云端的網(wǎng)絡(luò)更新,同時將云端的最新網(wǎng)絡(luò)參數(shù)同步到邊緣設(shè)備中,此方法既能夠綜合多個邊緣設(shè)備的算力來提升云端網(wǎng)絡(luò)的收斂速度,也能以此來打破數(shù)據(jù)相關(guān)性。對于邊緣設(shè)備在接入云端時,即獲得由云端分配的適用于當(dāng)前工況的控制策略,能夠?qū)⒍鄶?shù)算力分配到邊緣設(shè)備端而不需對云端提出過高的算力及延遲要求。

        5 實驗結(jié)果

        本研究計算任務(wù)通過一臺安裝Windows10專業(yè)版操作系統(tǒng),具有64G RAM的高性能工作站完成,CPU:Intel Xeon Silver 4214(2顆,24核48線程),GPU:NVIDIA Quadro P2000。通 過 聯(lián) 合Python、Matlab/Simulink進(jìn)行仿真實驗,在Simulink搭建仿真模型后,通過Python端的matlab.engine庫調(diào)用Matlab中編寫的m文件以達(dá)到控制Simulink仿真模型運行的目的,將Simulink端仿真模型產(chǎn)生的數(shù)據(jù)通過to workspace模塊輸出到Matlab工作區(qū),再以m文件形式返回Python,以此循環(huán)完成仿真實驗。

        等效因子的實質(zhì)作用是在調(diào)整發(fā)動機與電機功率分配比,而電機與發(fā)動機的功率分配不同將導(dǎo)致SOC與燃油消耗率發(fā)生變化。本節(jié)中用于測試算法的FTP72工況信息如圖11所示。

        圖12 是基于深度強化學(xué)習(xí)的優(yōu)化策略學(xué)習(xí)曲線圖,在學(xué)習(xí)的前50回合,累積回報是在抖動的,而在50回合后,累積回報趨于收斂,此時算法已基本穩(wěn)定,不再進(jìn)行改變,策略基本訓(xùn)練完成。后期雖然Reward圖仍然有波動,原因是設(shè)置有極小的動作探索并且仍在根據(jù)參數(shù)調(diào)整網(wǎng)絡(luò),對策略穩(wěn)定性基本沒有影響。

        圖13 表示DDPG控制器在訓(xùn)練初期具有較大的探索率,這是因為神經(jīng)網(wǎng)絡(luò)初始化時輸出動作基本相同,直接執(zhí)行將使智能體的記憶庫中數(shù)據(jù)學(xué)習(xí)效果較差進(jìn)而影響算法初期的收斂速度,可以看到:探索值隨著時間越來越低并最終趨于0,這表示在后期智能體所執(zhí)行的動作基本由DDPG控制器所給出。

        圖14 是FTP72工況測試中電池SOC的變化情況,可以看出3種優(yōu)化策略均能夠?qū)㈦姵豐OC保持到較好水平。圖中3種算法控制下的SOC終止值不同,并且基于DDPG控制的SOC終止值相對其他2種略低,這是由于3種算法在行駛過程中對等效因子值的選取不同,使得電機輸出扭矩不同,進(jìn)而引起SOC變化的差異累積所致?;贒DPG與接近全局最優(yōu)控制效果的nonadaptive-ECMS方法則在行駛中使得SOC變化幅度更大,也就有更大余量能夠改善發(fā)動機工作情況,提高工作效率。計算等效油耗[36]后得知:基于DDPG控制的等效油耗值較基于PID控制的等效油耗值更低,滿足控制要求。

        從圖15~17可看出:基于DDPG的控制策略與基于PID的控制策略在控制過程中發(fā)動機與電機扭矩分配情況有明顯差別,DDPG的控制效果則在多數(shù)情況能夠接近nonadaptive-ECMS的控制動作,而電機扭矩不同就導(dǎo)致電池SOC變化會產(chǎn)生不同,發(fā)動機扭矩的差別就會導(dǎo)致燃油消耗量的差異。經(jīng)過計算轉(zhuǎn)化為等效油耗后,基于DDPG的控制策略油耗為百公里7.7 L,而基于PID的控制策略油耗為百公里8.3 L,DDPG相對PID方法油耗減少7.2%,表明了深度強化學(xué)習(xí)控制方法的有效性。

        并行框架中設(shè)置不同數(shù)量邊緣設(shè)備的累計回報如圖18所示,多個邊緣設(shè)備的深度強化學(xué)習(xí)智能體較單個邊緣設(shè)備能夠明顯較快地得到算法收斂,其中8個邊緣設(shè)備的加入使算法訓(xùn)練時間減少了約334%。

        6 結(jié)束語

        本文通過深度強化學(xué)習(xí)以及并行的深度強化學(xué)習(xí)控制A-ECMS中等效因子,理論分析的同時,在FTP72工況進(jìn)行了驗證并與傳統(tǒng)PID控制器進(jìn)行對比。實驗結(jié)果證明:結(jié)合DDPG與ECMS的控制方法能夠?qū)崿F(xiàn)SOC保持并且減少油耗的目標(biāo),而邊緣計算架構(gòu)下的并行深度強化學(xué)習(xí)方法能夠很大程度加快算法收斂速度。

        本文的研究結(jié)果對當(dāng)前混合動力汽車能量管理策略的發(fā)展有重要參考作用。未來將通過硬件在環(huán)及實車測試等對本文提出的控制算法進(jìn)一步驗證,并更加緊密地結(jié)合物聯(lián)網(wǎng)技術(shù),將交通信息、預(yù)測車速等數(shù)據(jù)導(dǎo)入算法框架,以提升算法的控制效果。

        猜你喜歡
        控制策略深度動作
        考慮虛擬慣性的VSC-MTDC改進(jìn)下垂控制策略
        能源工程(2020年6期)2021-01-26 00:55:22
        深度理解一元一次方程
        工程造價控制策略
        山東冶金(2019年3期)2019-07-10 00:54:04
        深度觀察
        深度觀察
        深度觀察
        現(xiàn)代企業(yè)會計的內(nèi)部控制策略探討
        動作描寫要具體
        畫動作
        動作描寫不可少
        精品久久久久久中文字幕| 久久国产在线精品观看| 成人片黄网站a毛片免费| 日韩高清在线观看永久| 日韩爱爱视频| 亚洲不卡毛片在线观看| 女优一区二区三区在线观看| 99热这里有精品| 精品国产福利在线观看网址2022| 国产亚洲亚洲精品视频| 亚洲一区二区三区精品| 久久国产精品99精品国产| 国产男女猛烈无遮挡免费视频| 91亚洲精品久久久蜜桃| 91精品国产乱码久久中文| 日韩精品内射视频免费观看| 亚洲色图在线观看视频| 国产在线观看不卡网址| 女同精品一区二区久久| 亚洲色精品aⅴ一区区三区 | 成人片99久久精品国产桃花岛| 国产成人av一区二区三| 色欲av永久无码精品无码蜜桃| 九九99久久精品国产| 国产av专区一区二区三区| 国产精品髙潮呻吟久久av| 玩弄人妻少妇精品视频| 中文字幕无码无码专区| 亚洲免费视频一区二区三区 | 无码h黄动漫在线播放网站| 麻豆AV无码久久精品蜜桃久久| 亚洲精品中文字幕导航| 曰欧一片内射vα在线影院| 97久久精品人人妻人人| 丰满人妻一区二区三区精品高清 | 99国产超薄丝袜足j在线观看| 超短裙老师在线观看一区| 亚洲精品无码不卡| 亚洲粉嫩高潮的18p| 久久精品国产久精国产69| 91三级在线观看免费|