亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學(xué)習(xí)的插電式柴電混合動力汽車多目標優(yōu)化控制策略

        2021-01-18 03:59:48隗寒冰賀少川
        關(guān)鍵詞:催化器油耗控制策略

        隗寒冰,賀少川

        (重慶交通大學(xué) 機電與車輛工程學(xué)院,重慶 400074)

        0 引 言

        氮氧化物(NOx)是車用柴油機排放的主要污染物[1],為滿足國家標準GB 17691—2018《重型柴油車污染物排放限值及測量方法(中國第六階段)》中規(guī)定的NOx排放低于0.4 g/km限制要求,選擇性催化還原(selective catalytic reduction,SCR)后處理技術(shù)被認為是進一步降低NOx排放的必要技術(shù)路線之一。插電式柴電混合動力汽車(plug-in hybrid electric vehicles,PHEV)工作模式切換過程中由于發(fā)動機頻繁啟停導(dǎo)致的發(fā)動機排氣溫度和進氣流速波動較大,從而導(dǎo)致SCR催化器效率降低和排放惡劣,冷啟動階段這種性能下降更為明顯。因此制定優(yōu)化的整車控制策略在保證燃油經(jīng)濟性的條件下有效降低NOx排放,實現(xiàn)發(fā)動機油耗及后處理系統(tǒng)綜合優(yōu)化控制具有十分重要的意義。

        整車控制策略作為插電式混合動力汽車關(guān)鍵技術(shù)之一,已經(jīng)得到了廣泛研究[2]。基于規(guī)則的控制策略因其算法簡單、實時性好的優(yōu)點在工程中被大量采用[3-4],然而策略制定需要大量實驗和專家經(jīng)驗,無法適應(yīng)工況變化,不能充分發(fā)揮插電式混合動力汽車的節(jié)能潛力。最優(yōu)控制策略利用優(yōu)化算法求解最小化目標函數(shù),可以實現(xiàn)整車能量最佳分配[5-7],此類策略計算資源占用大,執(zhí)行效率不高,實時應(yīng)用受到限制?;趯W(xué)習(xí)的控制策略利用歷史或?qū)崟r數(shù)據(jù)進行學(xué)習(xí)應(yīng)用,可以根據(jù)不同的行駛工況對控制策略參數(shù)進行自調(diào)整,優(yōu)化車輛運行以適應(yīng)不同的駕駛工況[8-9],但仍依賴專家經(jīng)驗和精確的系統(tǒng)模型。近年來,作為人工智能、機器學(xué)習(xí)和自動控制領(lǐng)域研究熱點之一的強化學(xué)習(xí)在混合動力控制策略中開始得到了應(yīng)用[10],如:T. LIU等[11]提出馬爾科夫概率轉(zhuǎn)移矩陣在線更新方法,并結(jié)合Q-learning算法應(yīng)用于混合動力汽車能量管理問題,其效果與動態(tài)規(guī)劃接近;Y. HU等[12]使用Q-learning算法在線優(yōu)化模糊控制器參數(shù),對不同駕駛工況都表現(xiàn)出較好的實時性與燃油經(jīng)濟性;針對Q-learning算法采用二維查值表存儲最優(yōu)值時,面臨高維度或連續(xù)狀態(tài)導(dǎo)致“維度災(zāi)難”,且訓(xùn)練難以收斂等問題,J. D. WU等[13]采用深度強化學(xué)習(xí)利用神經(jīng)網(wǎng)絡(luò)擬合最優(yōu)值函數(shù)。

        筆者提出基于深度強化學(xué)習(xí)的油耗與排放多目標綜合優(yōu)化控制策略,采用深度Q網(wǎng)絡(luò)(deep Q-learning network,DQN)算法通過學(xué)習(xí)和探索的方式獲得最優(yōu)控制策略,該策略以需求功率、蓄電池SOC和SCR溫度為狀態(tài)變量、以電機最優(yōu)輸出功率為輸出變量,能實現(xiàn)從運行工況到電機執(zhí)行端對端的學(xué)習(xí)與控制。最后將仿真測試結(jié)果與動態(tài)規(guī)劃(dynamic programming,DP)策略進行對比分析,證明所提出控制策略的有效性。

        1 插電式柴電混合動力系統(tǒng)建模

        以ISG型單軸并聯(lián)式插電式柴電混合動力汽車為研究對象,其整車動力系統(tǒng)結(jié)構(gòu)如圖1。動力系統(tǒng)主要由柴油機、動力電池、濕式離合器、ISG電機、換擋離合器、5檔AMT自動變速器等部分組成,后處理系統(tǒng)采用SCR。電機安裝采用P2構(gòu)型,實現(xiàn)制動能量回收和高效率聯(lián)合驅(qū)動等功能。整車通過CAN總線實現(xiàn)各控制器之間的數(shù)據(jù)通信與車輛狀態(tài)監(jiān)控,整車各部件相關(guān)參數(shù)如表1。

        表1 整車各部件性能參數(shù)Table 1 Performance parameters of the vehicle’s components

        圖1 PHEV整車動力系統(tǒng)Fig. 1 PHEV powertrain system

        1.1 整車縱向動力學(xué)模型

        忽略車輛橫向動力學(xué)影響,假設(shè)整車質(zhì)量集中作用在重心上,根據(jù)車輛行駛過程中受到的滾動阻力Ff、空氣阻力Fw、坡度阻力Fi和加速阻力Fj,其驅(qū)動力平衡方程為:

        (1)

        式中:M為汽車質(zhì)量;g為重力加速度;f為滾動阻力系數(shù);α為道路坡度;CD為空阻系數(shù);A為汽車迎風(fēng)面積;v為車速;δ為汽車旋轉(zhuǎn)質(zhì)量換算系數(shù)。

        不考慮坡度因素即α=0,在給定車速v下由車輛驅(qū)動力平衡方程計算出車輛需求功率和車輪轉(zhuǎn)速分別為:

        (2)

        (3)

        式中:r為車輪半徑。

        1.2 動力電池模型

        動力電池工作時內(nèi)部具有復(fù)雜的非線性變化過程,筆者忽略溫度對電池特性的影響,建立一階內(nèi)阻電池模型,如圖2。

        圖2 電池內(nèi)阻模型Fig. 2 Battery internal resistance model

        電池電流I如式(4):

        (4)

        電池SOC如式(5):

        (5)

        式中:V為電池端電壓;R為電池內(nèi)阻。

        1.3 發(fā)動機模型

        在混合動力系統(tǒng)控制策略研究中,發(fā)動機模型不考慮復(fù)雜的燃燒過程和動態(tài)響應(yīng)過程,只關(guān)心輸入輸出映射關(guān)系,能準確有效的反應(yīng)發(fā)動機穩(wěn)態(tài)特性即可。因此利用發(fā)動機油耗和排放臺架實驗得到發(fā)動機轉(zhuǎn)矩、轉(zhuǎn)速和燃油消耗量及NOx排放的關(guān)系,通過插值發(fā)動機臺架試驗穩(wěn)態(tài)數(shù)據(jù)建立發(fā)動機油耗和NOx排放數(shù)值模型如圖3、圖4,其表達式為:

        圖3 發(fā)動機燃油消耗Fig. 3 Fuel consumption for engine

        圖4 發(fā)動機NOx排放Fig. 4 NOx emission for engine

        (6)

        (7)

        式中:geng為發(fā)動機瞬時燃油消耗率;gNOx為發(fā)動機出口瞬時NOx排放率;Teng為發(fā)動機轉(zhuǎn)矩;ωeng為發(fā)動機轉(zhuǎn)速;mfuel為發(fā)動機燃油消耗質(zhì)量;mNOx為發(fā)動機出口NOx排放質(zhì)量。

        1.4 后處理系統(tǒng)模型

        SCR后處理系統(tǒng)常采用釩基或沸石基作為催化劑,在一定溫度條件下SCR噴射NH3與尾氣中的NOx發(fā)生催化還原反應(yīng)生成N2。SCR催化器轉(zhuǎn)化效率對溫度十分敏感,插電式混合動力汽車工作模式切過程中由于發(fā)動機頻繁啟停引起的發(fā)動機排氣溫度和進氣流速波動明顯,從而導(dǎo)致SCR催化器催化效率降低和排放惡劣[14]。

        遵循Eley-Rideal機理[15-16],假設(shè)SCR催化器中廢氣為不可壓縮等熵流動,只考慮催化器與廢氣的對流換熱以及與周圍環(huán)境的輻射散熱,建立SCR催化器反應(yīng)溫度模型為:

        (8)

        式中:TSCR為SCR催化器溫度;Mexh為發(fā)動機出口廢氣流速;CSCR為催化層比熱容;h為熱傳遞系數(shù);Tamb為發(fā)動機環(huán)境溫度;Teng為發(fā)動機出口溫度;Cexh為廢氣比熱容。

        2 基于DQN的多目標優(yōu)化控制策略

        2.1 強化學(xué)習(xí)基本原理

        強化學(xué)習(xí)基本思想是智能體通過與環(huán)境之間的相互作用進行不斷學(xué)習(xí),從而實現(xiàn)一系列最優(yōu)決策,以得到最大化累計獎勵[17],基本原理如圖5。

        圖5 強化學(xué)習(xí)示意Fig. 5 Schematic of reinforcement learning

        學(xué)習(xí)者和決策者為智能體,在每個時間步長t(t=0,1,2,3…),智能體觀測到環(huán)境的狀態(tài)為st(st∈S),根據(jù)觀測到的環(huán)境狀態(tài)和當前策略做出決策,然后選擇最優(yōu)動作at(at∈A)。環(huán)境接收動作后進入新的狀態(tài)st+1,并給出對應(yīng)的獎勵rt+1,智能體依據(jù)得到的獎勵大小,不斷學(xué)習(xí)改進其行為策略,以便獲取最大累積獎勵。整個過程為狀態(tài)到行動的轉(zhuǎn)換,如式(9):

        Ht=s0,a0,s1,a1,…,st-1,at-1,st

        (9)

        定義從t時刻開始的累計獎勵如式(10):

        R(st,at)+γR(st+1,at+1)+γ2R(st+2,at+2)+…

        (10)

        式(10)簡化如式(11):

        Rt+γRt+1+γ2Rt+2+…

        (11)

        式中:γ為獎勵衰減因子;Rt為獎勵回報函數(shù)。

        強化學(xué)習(xí)的目標是智能體通過完成一系列動作獲得最大化期望回報,定義如式(12):

        E[Rt+γRt+1+γ2Rt+2+…]

        (12)

        由于當前動作執(zhí)行時,未來動作和狀況不可知,因此引入狀態(tài)-動作值函數(shù)估計在已知當前狀態(tài)s下,按照某種策略ε行動產(chǎn)生的預(yù)計未來回報?;诓呗驭诺臓顟B(tài)-動作值函數(shù)定義為:

        Q(s,a)=Eε[Rt+γRt+1+γ2Rt+2+…|st=s,at=a]

        (13)

        簡化為:

        Q(s,a)=Eε[Rt+γQ(st+1,at+1)|st=s,at=a]

        (14)

        Q(s,a)表示每個狀態(tài)下的預(yù)計未來回報,基于狀態(tài)-動作值函數(shù)定義則將強化學(xué)習(xí)目標最大化期望回報轉(zhuǎn)化為最優(yōu)策略ε*,使每一個狀態(tài)的價值最大化:

        ε*=argmaxεQ(s,a),?s,a

        (15)

        2.2 基于強化學(xué)習(xí)的控制策略問題建模

        控制策略本質(zhì)是求解帶約束的優(yōu)化問題,即在滿足循環(huán)工況下駕駛員需求功率、動力總成各部件物理約束情況下,求出最優(yōu)策略使得整車油耗和排放的綜合指標最小化。

        基于2.1節(jié)強化學(xué)習(xí)理論基礎(chǔ),選取電機輸出功率Pm為控制變量,需求功率、電池SOC和SCR溫度為狀態(tài)變量,將目標函數(shù)定義為帶折扣的累計回報:

        (16)

        式中:γ為獎勵衰減因子,以保證性能指標函數(shù)的收斂,γ∈[0,1];R(t)為每個時間步長t內(nèi)由控制變量引起的獎勵回報函數(shù),由油耗、排放和SOC懲罰項的加權(quán)和組成,定義如式(17)~式(19):

        R(t)=ω1Rfuel(t)+ω2Remis(t)+ω3(SOC-0.4)

        (17)

        (18)

        (19)

        系統(tǒng)控制變量表示為:

        U(t)=Pmot(t)

        (20)

        系統(tǒng)狀態(tài)變量表示為:

        S(t)=[Preq(t),SOC(t),TSCR(t)]

        (21)

        系統(tǒng)滿足的物理約束條件為:

        式中:SOCmax和SOCmin為電池SOC限值;TSCR,max和TSCR,min為催化器溫度安全限值;Pmot,max和Pmot,min為ISG電機功率限值;Peng,max和Peng,min為發(fā)動機功率限值;Tmot,max和Tmot,min為ISG電機轉(zhuǎn)矩限值;Teng,max和Teng,min為發(fā)動機轉(zhuǎn)矩限值。

        系統(tǒng)邊界條件為:

        基于強化學(xué)習(xí)理論將整車油耗和排放量的綜合指標最小化問題轉(zhuǎn)化為尋找最優(yōu)控制策略ε*對應(yīng)的控制動作序列。因此定義最優(yōu)狀態(tài)-動作值函數(shù)Q*(s,a):

        Q*(s,a)=maxεE[Jt|st=s,at=a]

        (22)

        式中:ε是將狀態(tài)映射到動作的策略,可進一步簡化為:

        Q*(s,a)=maxεE[Rt+γQ*(st+1,at+1)|st=s,

        at=a]

        (23)

        最優(yōu)狀態(tài)-動作值函數(shù)Q*(s,a)對應(yīng)的控制量為最優(yōu)控制動作U*。由式(23)可以看出,最優(yōu)狀態(tài)-動作值函數(shù)遵循貝爾曼最優(yōu)性原理,因此可以采用動態(tài)規(guī)劃算法求解以上問題。

        2.3 基于DQN算法的控制策略問題求解

        實際車輛系統(tǒng)呈現(xiàn)高維連續(xù)特征,采用動態(tài)規(guī)劃求解需要進行離散化,當問題規(guī)模較大時動態(tài)規(guī)劃算法將帶來維度災(zāi)難。深度強化學(xué)習(xí)將深度學(xué)習(xí)和強化學(xué)習(xí)相結(jié)合形成深度Q-learning網(wǎng)絡(luò),深度學(xué)習(xí)提供學(xué)習(xí)機制,強化學(xué)習(xí)為深度學(xué)習(xí)提供學(xué)習(xí)目標,使得深度強化學(xué)習(xí)具備解決復(fù)雜控制問題的能力[19],因此可應(yīng)用于插電式混合動力汽車能量管理問題中。筆者提出的基于深度強化學(xué)習(xí)的插電式混合動力汽車多目標優(yōu)化控制策略原理如圖6。

        圖6 控制策略原理Fig. 6 Principle of control strategy

        基于深度強化學(xué)習(xí)的控制策略采用深度神經(jīng)網(wǎng)絡(luò)來擬合最優(yōu)狀態(tài)-動作值函數(shù)Q*(s,a),即:

        Q(s,a,ω)≈Q*(s,a)

        (24)

        式中:ω為神經(jīng)網(wǎng)絡(luò)的參數(shù)。

        為使DQN算法在訓(xùn)練過程中進行充分學(xué)習(xí)到更加優(yōu)化的策略,利用ε貪心算法以概率ε選取最優(yōu)Q值對應(yīng)的控制動作,以1-ε的概率隨機選取控制動作。然后采用經(jīng)驗回放方法將每個時間步長t內(nèi)智能體探索環(huán)境得到的經(jīng)驗數(shù)據(jù),即對應(yīng)的狀態(tài)-動作序列存儲到經(jīng)驗池Dt={e1,e2,…,et}中,如式(25)。最后從經(jīng)驗池中隨機抽取樣本訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),這樣不僅消除時間數(shù)據(jù)序列之間的相關(guān)性, 也使得網(wǎng)絡(luò)更新更有效率。

        et=(st,at,rt,st+1)

        (25)

        式中:st為當前狀態(tài);at為智能體根據(jù)當前狀態(tài)采取的動作;rt為執(zhí)行動作后的獎勵;st+1為下一時刻的狀態(tài)。

        DQN算法使用兩個結(jié)構(gòu)完全相同參數(shù)不同的神經(jīng)網(wǎng)絡(luò)進行策略的學(xué)習(xí)與改進,其中Qtarget網(wǎng)絡(luò)用于計算目標Q值,網(wǎng)絡(luò)參數(shù)不需要迭代更新;Qeval網(wǎng)絡(luò)用于估計當前狀態(tài)下最優(yōu)Q值并產(chǎn)生最優(yōu)的控制動作,且擁有最新的網(wǎng)絡(luò)參數(shù)。每隔一定步長,將Qeval網(wǎng)絡(luò)參數(shù)復(fù)制給Qtarget網(wǎng)絡(luò),即采用延時更新減少目標Q值和當前估計Q值的相關(guān)性,增加算法穩(wěn)定性。

        DQN算法通過最小化損失函數(shù)來進行迭代更新。損失函數(shù)定義為目標Q值與最優(yōu)估計Q值之差的平方:

        Q(st,at,ω)]2}

        (26)

        搭建的Q網(wǎng)絡(luò)采用5層全連接神經(jīng)網(wǎng)絡(luò)如圖7,其包含3個隱含層,神經(jīng)元個數(shù)分別為20、50、100,并使用ReLU(rectified linear unit)激活函數(shù);輸入層神經(jīng)元個數(shù)為3,主要取決于定義的狀態(tài)變量數(shù);輸出層使用線性激活函數(shù),每個輸出代表一個控制動作,共45個控制動作,使用梯度下降優(yōu)化函數(shù)來最小化損失函數(shù)。

        圖7 神經(jīng)網(wǎng)絡(luò)架構(gòu)Fig. 7 Neural network architecture

        基于DQN的多目標優(yōu)化控制策略算法流程如下:

        步驟1:初始化。經(jīng)驗池可存儲狀態(tài)-動作對數(shù)量N、Qeval網(wǎng)絡(luò)權(quán)重參數(shù)ω、Qtarget網(wǎng)絡(luò)權(quán)重參數(shù)ω-=ω。

        步驟2:For episode=1:M do

        步驟3:獲取初始狀態(tài)Preq(0),SOC(0),TSCR(0)。

        步驟4:Fort=1:T do

        步驟5:以概率ε選取最優(yōu)Q值對應(yīng)的控制動作at,否則隨機選取控制動作at。

        步驟6:執(zhí)行at得到立即獎勵rt,并觀測系統(tǒng)下一時刻狀態(tài)st+1。

        步驟7:將經(jīng)驗數(shù)據(jù)et=(st,at,rt,st+1)存儲到經(jīng)驗池D中。

        步驟8:從經(jīng)驗池中隨機抽取n個樣本(st,at,rt,st+1)。

        步驟9:if當前狀態(tài)為終止狀態(tài)si+1:

        yi=ri

        else:

        步驟10:梯度下降法更新Qeval網(wǎng)絡(luò)權(quán)重,損失函數(shù)為[yi-Q(si,ai;ω)]2。

        步驟11:隔C步將Qeval網(wǎng)絡(luò)參數(shù)復(fù)制給Qtarget網(wǎng)絡(luò)。

        步驟12:End for。

        步驟13:End for。

        為了加快網(wǎng)絡(luò)訓(xùn)練速度,將輸入數(shù)據(jù)進行歸一化處理,通過式(27)、式(28),將Preq和TSCR范圍壓縮到[0,1]:

        (27)

        (28)

        3 仿真分析

        筆者將DQN算法應(yīng)用于插電式柴電混合動力汽車的能量管理控制策略問題,進行油耗與排放多目標綜合優(yōu)化。為了驗證控制策略的有效性,選取NEDC工況對DQN算法進行離線訓(xùn)練和在線仿真測試,并將仿真結(jié)果與DP算法進行對比分析。動態(tài)規(guī)劃算法不依賴近似計算求極值,能夠得到全局最優(yōu)解,故被廣泛用于混合動力汽車控制策略算法評價。DQN算法的相關(guān)參數(shù)設(shè)置如表2。

        表2 DQN算法參數(shù)Table 2 DQN algorithm parameters

        圖8為DQN算法在離線訓(xùn)練過程中的平均損失曲線,在迭代開始時刻損失值快速下降,隨著訓(xùn)練不斷進行,平均損失逐漸減小,說明了算法能迅速收斂。圖9 為平均累積Q值變化曲線,其反應(yīng)了每個狀態(tài)下智能體獲得的累計折扣回報,能夠穩(wěn)定的反映算法性能[20]??梢钥闯鲭S著迭代次數(shù)的增加,網(wǎng)絡(luò)不斷調(diào)整對Q值的過高或過低估計,最終逐漸趨于穩(wěn)定并收斂。

        圖8 訓(xùn)練平均誤差損失Fig. 8 Average training error loss

        圖9 平均累積Q值Fig. 9 Average cumulative Q-value

        圖10為DQN和DP兩種控制策略對應(yīng)的SOC曲線變化情況,初值SOC均為0.8??梢妰煞N策略下SOC下降曲線軌跡基本一致,說明DQN能夠得到DP全局最優(yōu)解的近似解。前800 s為ECE工況車輛需求功率較低,電機主要提供輔助動力,SOC下降趨勢平緩,800 s后隨車輛需求功率變大,電機工作時間變長,SOC快速下降,工況結(jié)束時刻均維持在0.42左右。DP控制策略下SOC曲線偏低,主要由采用離散化的狀態(tài),每個工況點強迫SOC落在定義好的狀態(tài)網(wǎng)格上的誤差導(dǎo)致。

        圖10 DQN和DP控制策略的SOC曲線Fig. 10 SOC curve of DQN and DP control strategy

        圖11和圖12為電機功率分配和電機工作效率MAP圖。由于訓(xùn)練數(shù)據(jù)樣本本身存在不穩(wěn)定性,造成訓(xùn)練得到控制策略具有波動性,引起DQN控制策略下的電機功率輸出在部分地方出現(xiàn)較大的跳動。從電機工作效率MAP圖可以看出,DQN控制策略下對應(yīng)的電機工作點分布相對較為分散,但總體效率與DP控制策略基本相當,進一步說明DQN算法通過訓(xùn)練能夠獲得優(yōu)化的控制策略。

        圖11 電機功率分配Fig. 11 Motor power distribution

        圖12 電機工作點在效率MAP圖分布Fig. 12 Distribution of motor load in the efficiency MAP

        圖13和圖14為SCR催化器溫度變化曲線和轉(zhuǎn)化效率曲線。由圖13可知,SCR催化器溫度變化分為快速升溫和溫度保持兩個階段。在快速升溫階段,SCR催化器溫度快速升高以提高轉(zhuǎn)化效率,降低SCR催化器出口NOx排放量,DP控制策略下在221 s 內(nèi)達到起燃溫度,DQN控制策略下的起燃時間為248 s,起燃速度與DP控制策略接近;進入溫度保持階段,SCR催化器在最佳工作溫度350 ℃附近上下波動,此時轉(zhuǎn)化效率高達93%,在900 s時由于高需求功率導(dǎo)致SCR催化器溫度不斷升高,轉(zhuǎn)化效率下降13%,但在兩種策略控制作用下又逐漸回歸穩(wěn)定,在此階段DP和DQN控制策略下的SCR催化器溫度變化基本一致。

        圖13 SCR溫度變化對比Fig. 13 Comparison of SCR temperature variation

        圖14 SCR催化器轉(zhuǎn)化效率Fig. 14 Conversion efficiency of SCR catalytic converter

        圖15和圖16為兩種策略下的發(fā)動機工作點在油耗MAP圖和NOx排放MAP圖上的分布情況。為了平衡最優(yōu)燃油經(jīng)濟性與最低NOx排放之間的trade-off關(guān)系,以犧牲部分油耗為代價,減少發(fā)動機出口NOx排放量,因此兩種策略下發(fā)動機均未完全在最優(yōu)的經(jīng)濟區(qū)域內(nèi)工作。在此情況下,DP控制策略得到的燃油消耗量為2.331 L/100 km,DQN控制策略燃油消耗量為2.615 L/100 km,為對應(yīng)DP控制策略油耗的87.82%。在NOx排放方面,DP控制策略下的NOx排放量為0.181 g/km,DQN控制策略下的NOx排放量為0.2275 g/km,為對應(yīng) DP控制策略NOx排放量的74.31%。

        圖15 發(fā)動機工作點在油耗MAP圖分布Fig. 15 Distribution of engine load in the fuel consumption MAP

        圖16 發(fā)動機工作點在NOx排放MAP圖分布Fig. 16 Distribution of engine load in the NOx emission MAP

        DP控制策略和DQN控制策略對比結(jié)果如表3。由表3可以看出,筆者提出的基于深度強化學(xué)習(xí)的多目標優(yōu)化控制策略可以實現(xiàn)較好的控制效果,兩種控制策略下的SCR起燃時間只相差27 s。整車燃油經(jīng)濟性方面,DQN控制策略的油耗為2.623 L/100 km,為DP控制策略對應(yīng)油耗的89.82%;NOx排放方面,DQN控制策略下的SCR出口NOx排放量為0.2275 g/km,為DP控制策略對應(yīng)NOx排放的74.31%,結(jié)果證明了筆者所提控制策略的有效性。

        表3 兩種控制策略下仿真結(jié)果對比Table 3 Comparison of simulation results of two control strategies

        4 結(jié) 論

        1)為實現(xiàn)插電式柴電混合動力汽車油耗與排放的多目標綜合優(yōu)化,基于強化學(xué)習(xí)理論給出了多目標函數(shù)定義,并提出了基于DQN算法的多目標優(yōu)化控制策略;

        2)在NEDC工況下進行離線訓(xùn)練得到最優(yōu)的電機功率分配序列,實現(xiàn)了以需求功率、SOC和SCR溫度為狀態(tài)變量,以電機最優(yōu)功率為輸出變量的控制策略;

        3)仿真結(jié)果表明,基于深度強化學(xué)習(xí)的多目標優(yōu)化控制策略取得了較好效果,燃油消耗為2.623 L/100 km,SCR催化器出口NOx排放為0.227 5 g/km,與DP控制策略相比,分別下降10.12%和25.69%,具有實時在線應(yīng)用的潛力。

        猜你喜歡
        催化器油耗控制策略
        不談油耗 只講運動 試駕第十一代思域e:HEV
        車主之友(2022年5期)2022-11-23 07:22:20
        一種催化器儲氧量的測試及計算方法
        考慮虛擬慣性的VSC-MTDC改進下垂控制策略
        能源工程(2020年6期)2021-01-26 00:55:22
        基于發(fā)動機控制數(shù)據(jù)及催化器設(shè)計方案優(yōu)化降低汽車THC排放
        工程造價控制策略
        山東冶金(2019年3期)2019-07-10 00:54:04
        氧化型柴油催化器(DOC)與重型柴油機匹配應(yīng)用及性能研究
        現(xiàn)代企業(yè)會計的內(nèi)部控制策略探討
        降低內(nèi)燃裝卸機械油耗措施的探討
        雙管齊下 YarisL致享綜合油耗測試
        車迷(2017年12期)2018-01-18 02:16:10
        容錯逆變器直接轉(zhuǎn)矩控制策略
        中文字幕v亚洲日本| 久久久熟女一区二区三区 | 国产成人精品无码片区在线观看| 久久无码专区国产精品s| 亚洲人成网站在线播放观看| 91亚洲精品久久久蜜桃| 日本视频在线观看二区| 成年女人免费视频播放体验区 | 高清偷自拍亚洲精品三区| 免费人成再在线观看网站| 国产极品美女到高潮视频| 日本一区二区不卡在线| 在线看片免费人成视频电影| 国产精品亚洲一区二区无码 | 日韩人妻av不卡一区二区三区| 日本伊人精品一区二区三区| 内地老熟女老少配视频| 视频福利一区| 亚洲精品99久91在线| 人妻诱惑中文字幕在线视频 | 久久福利青草精品免费| 日本视频精品一区二区| 亚洲一区二区三区2021| 又大又粗又爽18禁免费看| aaa毛片视频免费观看| 久久综合这里只有精品| 欧美激情视频一区二区三区免费| 欧美两根一起进3p做受视频 | 日韩精品在线免费视频| 亚洲毛片αv无线播放一区| 九九99国产精品视频| 国产我不卡在线观看免费| 伊甸园亚洲av久久精品| 久久精品夜夜夜夜夜久久| aa视频在线观看播放免费| 青青草国产手机观看视频| 亚洲va无码手机在线电影| 国产欧美日韩在线观看一区二区三区| 亚洲无人区一码二码国产内射| 精品人妻一区二区三区四区在线| 中文亚洲av片在线观看不卡|