金 輝,張子豪
(北京理工大學(xué)機(jī)械與車(chē)輛學(xué)院,北京 100081)
隨著能源短缺和環(huán)境污染問(wèn)題的加劇,汽車(chē)行業(yè)的發(fā)展迎來(lái)重大挑戰(zhàn)。 據(jù)國(guó)際能源機(jī)構(gòu)(IEA)調(diào)查,2017 年我國(guó)燃料燃燒產(chǎn)生的 CO2占全世界28.3%,其中交通領(lǐng)域 CO2排放量全世界占比11%[1]。 燃油車(chē)輛因存在高油耗和高排放問(wèn)題,從2016 年開(kāi)始,陸續(xù)有8 個(gè)國(guó)家提出了燃油車(chē)禁售聲明[2],因此須發(fā)展更為清潔的新能源汽車(chē)。 純電動(dòng)汽車(chē)相比燃油汽車(chē)能量利用率更高,排放更少,但是現(xiàn)階段電池技術(shù)和充電設(shè)備等基礎(chǔ)設(shè)施的發(fā)展阻礙了電動(dòng)汽車(chē)的應(yīng)用[3],短時(shí)間內(nèi)其無(wú)法完全取代燃油汽車(chē)。 氫燃料電池汽車(chē)也是新能源汽車(chē)的一種,但現(xiàn)階段由于氫燃料電池成本高、安全性差、氫氣制取困難等問(wèn)題,短時(shí)間內(nèi)無(wú)法大規(guī)模投入使用[4]?;旌蟿?dòng)力汽車(chē)(HEV)是一種比較折衷的辦法,其具有發(fā)動(dòng)機(jī)和電動(dòng)機(jī)雙系統(tǒng)結(jié)構(gòu),有串聯(lián)、并聯(lián)和混聯(lián)[5]3 種動(dòng)力傳輸連接形式,擁有燃油汽車(chē)和電動(dòng)車(chē)兩者的優(yōu)勢(shì),是一種很好的過(guò)渡方法。 HEV 結(jié)構(gòu)比較復(fù)雜,需要能量管理策略(EMS)來(lái)實(shí)現(xiàn)較好的功率分配,以使發(fā)動(dòng)機(jī)和電動(dòng)機(jī)處于性能最優(yōu)的工作區(qū)間,在滿足動(dòng)力性需求的同時(shí)提高車(chē)輛的燃油經(jīng)濟(jì)性。 現(xiàn)有的能量管理策略可分為3 類(lèi):基于規(guī)則、基于優(yōu)化和基于人工智能的控制算法[6-9]。
基于規(guī)則的控制算法是根據(jù)專(zhuān)家經(jīng)驗(yàn)進(jìn)行設(shè)計(jì),無(wú)須提前了解行駛路線,具體包含確定規(guī)則和模糊規(guī)則算法,這種方法系統(tǒng)響應(yīng)速度快、控制簡(jiǎn)單,還具有高魯棒性和可靠性。 Lin 等[10]按照發(fā)動(dòng)機(jī)的穩(wěn)態(tài)效率圖來(lái)劃分并聯(lián)式混合動(dòng)力貨車(chē)的動(dòng)力分配,該策略將發(fā)動(dòng)機(jī)工作區(qū)間分為3 個(gè)區(qū)域,當(dāng)驅(qū)動(dòng)轉(zhuǎn)矩?cái)?shù)值處于某一區(qū)間時(shí)即以對(duì)應(yīng)的模型工作。 基于規(guī)則的控制算法計(jì)算量小,實(shí)時(shí)性好,但對(duì)多種行駛工況的適應(yīng)性較差,無(wú)法進(jìn)行在線調(diào)整,而且沒(méi)有最優(yōu)理論支撐,在應(yīng)用中難以實(shí)現(xiàn)最優(yōu)的節(jié)油效果。
基于優(yōu)化的控制策略中,一般將燃油經(jīng)濟(jì)性、動(dòng)力性等作為成本函數(shù),通過(guò)最小化成本函數(shù)來(lái)獲得最優(yōu)轉(zhuǎn)矩、傳動(dòng)比和功率分配,優(yōu)化方法包含全局優(yōu)化和實(shí)時(shí)優(yōu)化方法[5,11]。 全局優(yōu)化需要行駛周期和周?chē)h(huán)境的先驗(yàn)知識(shí),以此來(lái)獲得全局最優(yōu)解。 隨著高精度電子地圖和車(chē)聯(lián)網(wǎng)技術(shù)的發(fā)展,行駛時(shí)的道路和環(huán)境信息均可提前獲得,主要問(wèn)題是如何提高該方法的實(shí)時(shí)性。 全局最優(yōu)解可通過(guò)線性規(guī)劃、最優(yōu)控制、遺傳算法和動(dòng)態(tài)規(guī)劃(DP)等算法求解[12]。 以動(dòng)態(tài)規(guī)劃算法為例,動(dòng)態(tài)規(guī)劃算法由Bellman[13]在20 世紀(jì)50 年代提出,用于求解多階段過(guò)程的優(yōu)化決策問(wèn)題,是一種全局優(yōu)化算法,能較好地處理非線性問(wèn)題,現(xiàn)已在能量管理研究中獲得廣泛應(yīng)用。 基于DP 算法,徐萍萍等[14]進(jìn)行插電式混合動(dòng)力電動(dòng)汽車(chē)(PHEV)的全程能量管理策略研究,與傳統(tǒng)能量管理策略相比,其大大提高了車(chē)輛燃油經(jīng)濟(jì)性,減少了油量消耗。 動(dòng)態(tài)規(guī)劃雖然在多階段全局最優(yōu)化問(wèn)題上能獲得不錯(cuò)的效果,但是存在著“維的詛咒”,求解時(shí)間會(huì)隨著狀態(tài)變量和控制變量的增加而呈現(xiàn)指數(shù)型增長(zhǎng),運(yùn)算效率較低,實(shí)時(shí)性不好。
實(shí)時(shí)優(yōu)化算法的核心思想就是將全局最優(yōu)標(biāo)準(zhǔn)降為瞬時(shí)最優(yōu),設(shè)計(jì)一個(gè)只與當(dāng)前系統(tǒng)狀態(tài)有關(guān)的成本函數(shù),具體包括瞬時(shí)等效燃油最小消耗策略(ECMS)、魯棒控制和模型預(yù)測(cè)控制(MPC)等方法。張靜等[15]針對(duì)某款混合動(dòng)力卡車(chē),建立基于ECMS算法的門(mén)限值控制策略,保證算法實(shí)時(shí)性的同時(shí)也提高了燃油經(jīng)濟(jì)性。 實(shí)時(shí)優(yōu)化的方法在一定程度上提高了實(shí)時(shí)性,但基于瞬時(shí)最優(yōu)化的方法最終并不一定實(shí)現(xiàn)全局最優(yōu)。
人工智能算法是未來(lái)的一個(gè)發(fā)展方向,神經(jīng)網(wǎng)絡(luò)模擬人腦神經(jīng)元的活動(dòng),能以任意精度逼近非線性的復(fù)雜函數(shù),申彩英[16]和席利賀等[17]利用DP 算法獲得的最優(yōu)化結(jié)果訓(xùn)練BP 神經(jīng)網(wǎng)絡(luò),得到了具有實(shí)時(shí)控制能力的神經(jīng)網(wǎng)絡(luò)模型,該方法既能較好地實(shí)現(xiàn)全局最優(yōu)效果也提高了算法實(shí)時(shí)性。 強(qiáng)化學(xué)習(xí)[18]基于智能體(Agent)與環(huán)境的交互,通過(guò)預(yù)先設(shè)定的獎(jiǎng)勵(lì)/懲罰機(jī)制來(lái)選擇可選策略內(nèi)的最佳動(dòng)作。 自適應(yīng)動(dòng)態(tài)規(guī)劃算法(ADP)有效融合了神經(jīng)網(wǎng)絡(luò)、最優(yōu)控制和強(qiáng)化學(xué)習(xí)的特性,利用神經(jīng)網(wǎng)絡(luò)的函數(shù)泛化能力,來(lái)近似求解系統(tǒng)的成本函數(shù),從理論上解決了傳統(tǒng)動(dòng)態(tài)規(guī)劃在高復(fù)雜度非線性系統(tǒng)中的“維數(shù)災(zāi)”問(wèn)題,在HEV 的能量管理策略研究中獲得了廣泛應(yīng)用。
因?yàn)閼?yīng)用領(lǐng)域不同,ADP 算法有很多同義名稱(chēng),如近似動(dòng)態(tài)規(guī)劃、神經(jīng)動(dòng)態(tài)規(guī)劃和強(qiáng)化學(xué)習(xí)等[19],在2006 年美國(guó)科學(xué)基金會(huì)組織的“2006 NSF Workshop and Outreach Tutorials on Approximate Dynamic Programming”研討會(huì)上,建議將該方法統(tǒng)一稱(chēng)為 “Adaptive/Approximate dynamic programming”。ADP 算法目前在多領(lǐng)域內(nèi)實(shí)現(xiàn)了應(yīng)用,如微電網(wǎng)的動(dòng)態(tài)能量管理機(jī)制[20-23]、車(chē)輛的自適應(yīng)巡航控制[24]和微分對(duì)策問(wèn)題研究[25-27],一些研究者對(duì)ADP 算法在導(dǎo)彈制導(dǎo)律[28]、航空航天飛行器魯棒控制[29]、城市交通信號(hào)優(yōu)化控制方法[30]等方面的應(yīng)用進(jìn)行了總結(jié),在這些研究中,ADP 算法均取得了不錯(cuò)的效果。
為更好地促進(jìn)ADP 算法在混合動(dòng)力汽車(chē)能量管理研究的應(yīng)用,本文中介紹了ADP 的結(jié)構(gòu)發(fā)展和算法實(shí)現(xiàn)方式,分析了ADP 算法在能量管理策略研究中的應(yīng)用,最后針對(duì)現(xiàn)狀總結(jié)ADP 算法在該領(lǐng)域應(yīng)用的不足以及未來(lái)的發(fā)展趨勢(shì)。
ADP 算法由Werbos[31]率先提出,他提出了兩種結(jié)構(gòu):啟發(fā)式動(dòng)態(tài)規(guī)劃(HDP)和二次啟發(fā)式動(dòng)態(tài)規(guī)劃(DHP)。 HDP 的算法結(jié)構(gòu)如圖1 所示。
圖1 HDP 的結(jié)構(gòu)圖
HDP 的結(jié)構(gòu)包含3 層網(wǎng)絡(luò):執(zhí)行網(wǎng)、模型網(wǎng)和評(píng)價(jià)網(wǎng)。 執(zhí)行網(wǎng)用來(lái)映射狀態(tài)輸入與控制輸出的關(guān)系,模型網(wǎng)根據(jù)前一階段的狀態(tài)和輸入來(lái)估計(jì)出下一階段的狀態(tài),評(píng)價(jià)網(wǎng)用來(lái)近似系統(tǒng)的成本函數(shù)J(x(k))。 圖中實(shí)線和虛線分別代表信號(hào)和誤差傳遞的方向。 DHP 結(jié)構(gòu)的評(píng)價(jià)網(wǎng)的輸出為成本函數(shù)的梯度?J(x(k))/?x(k),其余部分與 HDP 相同。若評(píng)價(jià)網(wǎng)用來(lái)估計(jì)成本函數(shù)及其梯度,則這種方法稱(chēng)為全局二次啟發(fā)式動(dòng)態(tài)規(guī)劃(GDHP)。 這些方法都需要被控對(duì)象的模型網(wǎng),如果省略模型網(wǎng),對(duì)評(píng)價(jià)網(wǎng)的輸入不僅僅為系統(tǒng)狀態(tài)x(k),還包括執(zhí)行網(wǎng)絡(luò)的輸出u(k),則這3 種方法分別稱(chēng)為控制依賴(lài)啟發(fā)式動(dòng)態(tài)規(guī)劃(ADHDP)和控制依賴(lài)二次啟發(fā)式動(dòng)態(tài)規(guī)劃(ADDHP)、控制依賴(lài)全局二次啟發(fā)式動(dòng)態(tài)規(guī)劃(ADGDHP)。 綜合以上ADP 結(jié)構(gòu)的發(fā)展方向,其區(qū)別主要在于評(píng)價(jià)網(wǎng)的輸入、輸出信息和有無(wú)模型網(wǎng)。評(píng)價(jià)網(wǎng)的輸入信息和輸出信息代表了對(duì)系統(tǒng)信息的獲取情況,信息越豐富,成本函數(shù)的近似精度越高。但是過(guò)多的信息會(huì)導(dǎo)致計(jì)算量的大幅增加,而且無(wú)效數(shù)據(jù)的使用也會(huì)阻礙學(xué)習(xí)進(jìn)程。 因此根據(jù)具體問(wèn)題合理選擇ADP 結(jié)構(gòu),是該方法有效應(yīng)用的重要舉措。
He 等[32]提出了一種新型的3 層網(wǎng)絡(luò)結(jié)構(gòu)ADP算法,包含執(zhí)行網(wǎng)、評(píng)價(jià)網(wǎng)和參考網(wǎng),將參考網(wǎng)整合入執(zhí)行-評(píng)價(jià)體系中可自適應(yīng)地構(gòu)建一個(gè)內(nèi)部強(qiáng)化信號(hào)來(lái)促進(jìn)學(xué)習(xí)和優(yōu)化過(guò)程。 Padhi 等[33-34]提出了一種單網(wǎng)絡(luò)自適應(yīng)評(píng)價(jià)(SNAC)方法,該方法取消了執(zhí)行網(wǎng),只保留了評(píng)價(jià)網(wǎng)。 因此該方法可實(shí)現(xiàn)一個(gè)更簡(jiǎn)單的結(jié)構(gòu),只擁有雙模結(jié)構(gòu)一半的計(jì)算負(fù)擔(dān),可大大提升計(jì)算效率,另外由于取消了執(zhí)行網(wǎng),可消除執(zhí)行網(wǎng)的近似誤差。 這種方法的實(shí)現(xiàn)前提是最優(yōu)控制方程可通過(guò)狀態(tài)變量和協(xié)狀態(tài)變量明確表示,擁有二次型成本函數(shù)的仿射非線性控制系統(tǒng)滿足此要求,在航空航天、汽車(chē)和機(jī)器人等領(lǐng)域[35]的部分問(wèn)題中均可以使用此方法。
ADP 算法利用神經(jīng)網(wǎng)絡(luò)的函數(shù)泛化能力,通過(guò)迭代的方式來(lái)近似求解系統(tǒng)的成本函數(shù)或成本函數(shù)梯度,避免了直接求解哈密爾頓-雅克比-貝爾曼(HJB)方程,以此來(lái)解決動(dòng)態(tài)規(guī)劃中的“維數(shù)災(zāi)”問(wèn)題。
ADP 的迭代算法主要為策略迭代與值迭代算法,策略迭代包含策略評(píng)估和策略提高兩個(gè)過(guò)程,它需要從一個(gè)初始穩(wěn)定的控制策略開(kāi)始,利用值函數(shù)對(duì)現(xiàn)階段的控制動(dòng)作進(jìn)行價(jià)值評(píng)估,直至迭代到值函數(shù)收斂,再利用值函數(shù)更新控制策略,依據(jù)更新后的控制策略進(jìn)行下一階段的策略評(píng)估,當(dāng)值函數(shù)和控制策略都收斂時(shí),完成策略迭代過(guò)程。 值迭代算法不要求初始穩(wěn)定的控制策略,給定一個(gè)初始值函數(shù)之后,其選擇不同控制動(dòng)作下最大的期望值函數(shù)來(lái)進(jìn)行動(dòng)作更新,一直迭代直到值函數(shù)收斂,進(jìn)而得到最優(yōu)控制策略,劉毅等[36]對(duì)值迭代的收斂條件進(jìn)行了研究,指出成本函數(shù)初始化為半正定函數(shù)即可保證值迭代收斂到最優(yōu),并給出了證明。
策略迭代的一個(gè)缺點(diǎn)是它的每次迭代都涉及策略評(píng)估,而策略評(píng)估本身可能是一個(gè)冗長(zhǎng)的迭代計(jì)算,需要多次遍歷狀態(tài)集。 實(shí)際上,可以采用多種方法截?cái)嗖呗缘牟呗栽u(píng)估步驟,而不喪失策略迭代的收斂性保證,比如設(shè)定策略評(píng)估迭代次數(shù),一個(gè)重要的特殊情況是,僅在一次計(jì)算之后停止策略評(píng)估,即為值迭代算法。 值迭代在其每次迭代過(guò)程中有效地結(jié)合了一次策略評(píng)估迭代和一次策略提高迭代。 策略迭代基于初始穩(wěn)定控制策略,收斂性更好,但計(jì)算量較大,收斂速度慢。 當(dāng)系統(tǒng)狀態(tài)空間較大時(shí),值迭代往往不能收斂到最優(yōu)的值函數(shù)和控制策略。 因此,迭代方式的選擇還要根據(jù)具體問(wèn)題進(jìn)行確定。
ADP 算法按應(yīng)用方式可分為離線迭代算法和在線自適應(yīng)算法。 離線迭代算法需要預(yù)先訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行權(quán)值更新,訓(xùn)練好后直接應(yīng)用于被控對(duì)象。由于應(yīng)用時(shí)不可再對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行調(diào)整,所以當(dāng)系統(tǒng)模型狀態(tài)發(fā)生較大變化時(shí),離線迭代算法的控制效果降低,須對(duì)神經(jīng)網(wǎng)絡(luò)重新進(jìn)行訓(xùn)練,所以離線迭代算法適用于系統(tǒng)狀態(tài)和工作環(huán)境比較穩(wěn)定的控制對(duì)象。 在線自適應(yīng)算法通過(guò)在線訓(xùn)練神經(jīng)網(wǎng)絡(luò),可根據(jù)系統(tǒng)模型的變化,在線調(diào)整相應(yīng)的控制策略。但該方法需要占用系統(tǒng)較多的計(jì)算資源,為實(shí)現(xiàn)較好的實(shí)時(shí)性,需要合理設(shè)計(jì)ADP 算法并且硬件系統(tǒng)具有強(qiáng)大的計(jì)算能力。 在線算法的抗干擾能力較弱,若干擾過(guò)多可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)無(wú)法收斂,權(quán)值會(huì)處于持續(xù)更新?tīng)顟B(tài)。 盡管如此,在線自適應(yīng)算法在未來(lái)多領(lǐng)域中有著十分廣闊的應(yīng)用前景。
ADP 算法由于其有效融合了神經(jīng)網(wǎng)絡(luò)、最優(yōu)控制和強(qiáng)化學(xué)習(xí)的特性,利用神經(jīng)網(wǎng)絡(luò)的函數(shù)泛化能力和強(qiáng)化學(xué)習(xí)能力,能解決動(dòng)態(tài)規(guī)劃算法在HEV 能量管理優(yōu)化問(wèn)題中所面臨的“維數(shù)災(zāi)”問(wèn)題,相比基于規(guī)則的算法能對(duì)多種行駛工況有較好的適應(yīng)性,相比基于優(yōu)化的算法計(jì)算簡(jiǎn)單,有較好的實(shí)時(shí)性。
功率需求信息在能量管理策略設(shè)計(jì)中有著很重要的作用,在實(shí)際駕駛過(guò)程中,由于周?chē)h(huán)境的不確定性和駕駛員個(gè)人駕駛風(fēng)格的差異,未來(lái)的功率需求信息不可精確表達(dá),只能以近似或概率的方式進(jìn)行估計(jì)。 根據(jù)是否需要估計(jì)下一階段的功率需求信息將ADP 算法在能量管理策略中的應(yīng)用分為兩類(lèi)。
2.1.1 需要估計(jì)下一階段功率需求信息
依據(jù)評(píng)價(jià)網(wǎng)的誤差函數(shù)方程:
式中:ec(k)為k階段的誤差值;J(x(k))和J(x(k+1))分別為k階段和k+1 階段的成本函數(shù);r(x(k),u(k))為系統(tǒng)在k階段采取動(dòng)作u(k)后獲得的瞬時(shí)成本。
可知要計(jì)算在k階段的誤差值ec(k),須獲知系統(tǒng)在k+1 階段的狀態(tài)x(k+1)和成本函數(shù)J(x(k+1)),有以下兩種方式可用于獲取這些信息。
一是利用模型網(wǎng)根據(jù)前一階段的狀態(tài)和輸入來(lái)估計(jì)出下一階段的狀態(tài)。 劉洋[12]研究了基于HDP三網(wǎng)絡(luò)結(jié)構(gòu)的自適應(yīng)動(dòng)態(tài)規(guī)劃算法,通過(guò)模型網(wǎng)來(lái)獲得下一時(shí)刻的狀態(tài),使用反向傳播神經(jīng)網(wǎng)絡(luò)對(duì)評(píng)價(jià)網(wǎng)進(jìn)行預(yù)訓(xùn)練處理,最后的仿真結(jié)果表明該算法能夠維持SOC 的平穩(wěn)變化,并使其工作在高效區(qū)域的同時(shí)提高HEV 的燃油經(jīng)濟(jì)性。
二是根據(jù)馬爾科夫鏈模型從某些特定行駛工況如UDDS、ECE 和EUDC 等中獲得功率需求的轉(zhuǎn)移概率矩陣,以此求得下一階段的功率需求。 Li 等[37]利用這種方法獲得功率需求的轉(zhuǎn)移概率矩陣,以狀態(tài)向量機(jī)(SVM)作為函數(shù)逼進(jìn)器對(duì)動(dòng)態(tài)規(guī)劃的值函數(shù)進(jìn)行估計(jì),降低計(jì)算復(fù)雜度和存儲(chǔ)要求,能得到一個(gè)較好的次優(yōu)解。 部分研究并不以自適應(yīng)動(dòng)態(tài)規(guī)劃命名,如上文介紹的同義名稱(chēng),如強(qiáng)化學(xué)習(xí)和神經(jīng)動(dòng)態(tài)規(guī)劃等,這些方法的基本思想一致。 Liu 等[38]和Yin 等[39]根據(jù)馬爾科夫鏈模型從某些特定行駛工況如UDDS、ECE 和EUDC 等中獲得功率需求的轉(zhuǎn)移概率矩陣,利用Q 學(xué)習(xí)或策略迭代的方法,建立基于最小累計(jì)收益的能量管理策略的數(shù)學(xué)模型來(lái)獲得最優(yōu)控制策略,試驗(yàn)結(jié)果表明這些方法可有效縮短計(jì)算時(shí)間并提高燃油經(jīng)濟(jì)性。 從特定行駛工況中獲得的功率需求轉(zhuǎn)移概率矩陣不能覆蓋實(shí)際用車(chē)行駛時(shí)的全部工況, Zou 等[40]利用基于馬爾科夫鏈的實(shí)時(shí)功率需求遞歸算法來(lái)在線學(xué)習(xí)和更新轉(zhuǎn)移概率矩陣,并利用Kullback-Leibler (KL)發(fā)散率來(lái)確定轉(zhuǎn)移概率矩陣和最優(yōu)控制策略的更新時(shí)間,在線學(xué)習(xí)的方式提高了該算法對(duì)多種工況的適應(yīng)性。 為提高控制策略的收斂速度, Liu 等[41]和Du 等[42]利用快速Q(mào) 學(xué)習(xí)算法來(lái)獲取能量管理策略,快速Q(mào) 學(xué)習(xí)算法相比標(biāo)準(zhǔn)Q 學(xué)習(xí)算法有更快的收斂速度,可節(jié)省16%的計(jì)算時(shí)間。
2.1.2 不需要估計(jì)下一階段功率需求信息
控制依賴(lài)的自適應(yīng)動(dòng)態(tài)規(guī)劃方法省略了模型網(wǎng),無(wú)法預(yù)測(cè)下一階段的狀態(tài)x(k+1)和成本函數(shù)J(x(k+1))。 其利用前一階段x(k-1)的成本函數(shù)J(x(k-1)),將評(píng)價(jià)網(wǎng)的誤差函數(shù)方程更改為
這種方法可省略模型網(wǎng)的計(jì)算量和近似誤差,能有效提高計(jì)算效率,狀態(tài)的更新通過(guò)車(chē)輛與環(huán)境交互獲得。 Li 等[43]提出了一種基于神經(jīng)動(dòng)態(tài)規(guī)劃的EMS 設(shè)計(jì)方法,選擇3 層徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)作為評(píng)價(jià)網(wǎng)和執(zhí)行網(wǎng)的結(jié)構(gòu)來(lái)近似成本函數(shù)和最優(yōu)控制行為,利用時(shí)序差分(TD)方法來(lái)在線更新神經(jīng)網(wǎng)絡(luò)的權(quán)值。 為減少訓(xùn)練過(guò)程的計(jì)算復(fù)雜度,采取K-means 聚類(lèi)算法確定RBF 中心的位置。 該方法的主要優(yōu)點(diǎn)在于它不依賴(lài)于與未來(lái)駕駛條件相關(guān)的先驗(yàn)信息,并可根據(jù)運(yùn)行條件的大差異進(jìn)行自適應(yīng)調(diào)整。 為實(shí)現(xiàn)較好的燃油經(jīng)濟(jì)性,換擋操作的優(yōu)化必不可少,大部分研究者將發(fā)動(dòng)機(jī)轉(zhuǎn)矩/功率分配率和換擋指令組成控制集,作為評(píng)價(jià)網(wǎng)的輸入來(lái)最小化成本函數(shù)。 換擋控制包括升擋、保持不變和降擋3 種指令,在優(yōu)化時(shí)一般采用枚舉法[25,38-39],而且為避免換擋操作的頻繁發(fā)生,在成本函數(shù)中增設(shè)一個(gè)懲罰函數(shù)來(lái)抑制這種情況。 為了提高換擋指令的優(yōu)化效率, Li 等[44]利用DP 算法對(duì)多個(gè)行駛工況的換擋操作進(jìn)行全局優(yōu)化,然后利用這些數(shù)據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到一個(gè)基于神經(jīng)網(wǎng)絡(luò)的在線換擋控制器,模擬試驗(yàn)表明該控制器可實(shí)現(xiàn)與DP 算法較為一致的優(yōu)化結(jié)果。 通過(guò)將基于神經(jīng)網(wǎng)絡(luò)的換擋控制與基于ADHDP 算法的功率分配控制相結(jié)合,形成一種具有實(shí)時(shí)應(yīng)用可能性的自適應(yīng)能量管理策略,仿真結(jié)果表明該方法具有良好的魯棒性、自適應(yīng)性和逼近最優(yōu)性。 后來(lái)該團(tuán)隊(duì)提出了一種新型的執(zhí)行網(wǎng)-變速網(wǎng)-評(píng)價(jià)網(wǎng)結(jié)構(gòu)來(lái)實(shí)現(xiàn)對(duì)功率分布和換擋操作的在線同步控制[45],并在此基礎(chǔ)上提出了一種用于速度預(yù)測(cè)的多級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)比較發(fā)現(xiàn)增加速度預(yù)測(cè)結(jié)構(gòu)后可使發(fā)動(dòng)機(jī)工作在燃油消耗更低的區(qū)域,將速度預(yù)測(cè)和能量管理策略相結(jié)合可實(shí)現(xiàn)更好的燃油經(jīng)濟(jì)性。
實(shí)時(shí)性是能量管理策略應(yīng)用的一個(gè)重要指標(biāo),對(duì)于ADP 算法的實(shí)時(shí)性分析,Ahmed 等[7]將其與DP 算法、基于規(guī)則算法等進(jìn)行了定性比較,基于規(guī)則的算法由于結(jié)構(gòu)簡(jiǎn)單,擁有最優(yōu)的實(shí)時(shí)性。 ADP算法與DP 算法相比有較大提高。 蔡崗[46]對(duì)ADP算法的三模塊結(jié)構(gòu)與雙模塊結(jié)構(gòu)進(jìn)行了復(fù)雜度比較,假設(shè)每個(gè)網(wǎng)絡(luò)結(jié)構(gòu)相同,由于三模塊結(jié)構(gòu)比雙模塊結(jié)構(gòu)多了一個(gè)模型網(wǎng)絡(luò),導(dǎo)致其比后者的數(shù)據(jù)存儲(chǔ)要求和計(jì)算量均增加一半左右。 因此指出不依賴(lài)于模型網(wǎng)的雙模結(jié)構(gòu)——即控制依賴(lài)的AD 方法更有利于滿足實(shí)時(shí)性要求。 上文提到的單網(wǎng)絡(luò)自適應(yīng)評(píng)價(jià)方法[30-31]由于僅有評(píng)價(jià)網(wǎng)設(shè)計(jì),其計(jì)算負(fù)擔(dān)相對(duì)更少,實(shí)時(shí)性更好,但其應(yīng)用條件有相應(yīng)限制。
從以上分析可以看出,ADP 算法在混合動(dòng)力汽車(chē)的能量管理策略研究中有巨大的應(yīng)用前景,相比基于規(guī)則的算法它可以提高對(duì)多種行駛工況的適應(yīng)性,相比基于優(yōu)化的算法又可有效提升實(shí)時(shí)性,可在線使用。 ADP 算法在HEV 的能量管理策略中應(yīng)用時(shí),為兼具較好的準(zhǔn)確性和實(shí)時(shí)性,并且具有較好的收斂性和穩(wěn)定性,關(guān)鍵須合理選擇ADP 結(jié)構(gòu)與車(chē)輛輸入?yún)?shù)的數(shù)目,合理設(shè)計(jì)瞬時(shí)成本函數(shù)與誤差函數(shù)方程,利用已有的先驗(yàn)知識(shí)來(lái)指導(dǎo)各個(gè)模塊的設(shè)計(jì)將有助于提高收斂速度。 ADP 算法目前在能量管理策略的設(shè)計(jì)應(yīng)用中僅僅處于初始階段,還需進(jìn)一步完善。
ADP 算法有效結(jié)合了神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的特性,在能量管理策略研究中表現(xiàn)出了極大的優(yōu)良性,在未來(lái)的發(fā)展中有著重要作用。 下面對(duì)現(xiàn)階段的ADP 技術(shù)在HEV 的EMS 中應(yīng)用的不足與發(fā)展趨勢(shì)進(jìn)行總結(jié)。
(1) 選擇合理的函數(shù)逼近器。 ADP 算法中的結(jié)構(gòu)網(wǎng)通常由神經(jīng)網(wǎng)絡(luò)組成,利用神經(jīng)網(wǎng)絡(luò)的函數(shù)泛化能力對(duì)求解系統(tǒng)的成本函數(shù)進(jìn)行近似,但神經(jīng)網(wǎng)絡(luò)目前還沒(méi)有理論上的構(gòu)造方法,通常利用經(jīng)驗(yàn)和試錯(cuò)法來(lái)進(jìn)行設(shè)計(jì)。 一方面隨著神經(jīng)網(wǎng)絡(luò)的理論發(fā)展,這一現(xiàn)狀可以得到改善。 另一方面對(duì)某些特定問(wèn)題可尋找其他的函數(shù)逼近器,如支持向量機(jī)、線性基函數(shù)和分段線性函數(shù)等,根據(jù)具體問(wèn)題選擇合理的函數(shù)逼近方法。
(2) 多種控制方法結(jié)合使用。 將多種控制方法結(jié)合使用,可有效彌補(bǔ)單個(gè)方法的缺點(diǎn),比如利用DP 算法的全局最優(yōu)特性,利用DP 算法計(jì)算出來(lái)的結(jié)果進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練或模糊邏輯算法的規(guī)則設(shè)計(jì)。 或者利用遺傳算法、模擬退火等算法,對(duì)ADP算法中折扣因子的取值進(jìn)行自適應(yīng)取值,可有效提高收斂性。 根據(jù)每個(gè)方法的特性進(jìn)行優(yōu)化組合,取長(zhǎng)補(bǔ)短,有利于能量管理策略最優(yōu)性、實(shí)時(shí)性、魯棒性等多優(yōu)化目標(biāo)的實(shí)現(xiàn)。
(3) 多種信息融合使用。 將多種信息融合使用,如上文中介紹的將速度預(yù)測(cè)與能量管理策略相結(jié)合,可實(shí)現(xiàn)更好的燃油經(jīng)濟(jì)性。 目前高精度電子地圖的研究正在廣泛展開(kāi),未來(lái)可依據(jù)高精度電子地圖獲得全部行程的道路信息,再結(jié)合車(chē)聯(lián)網(wǎng)技術(shù),獲得行駛環(huán)境中的動(dòng)態(tài)信息,利用這些信息可有效減少一些不確定性,提高能量管理策略的優(yōu)化效果和實(shí)時(shí)性應(yīng)用。
(4) 缺少實(shí)車(chē)試驗(yàn)。 目前ADP 算法在能量管理策略中的應(yīng)用采取模擬仿真的方法進(jìn)行試驗(yàn)驗(yàn)證,缺少實(shí)車(chē)試驗(yàn)環(huán)節(jié),對(duì)ADP 算法的實(shí)際使用效果還沒(méi)有具體的體現(xiàn)。
(5) ADP 算法的實(shí)時(shí)性有待提高。 受限于當(dāng)前階段計(jì)算機(jī)的性能,ADP 算法在線應(yīng)用的實(shí)時(shí)性有待提高。 為提高實(shí)時(shí)性需從兩方面著手,一是提高硬件的計(jì)算能力,伴隨5G 技術(shù)的發(fā)展,未來(lái)可通過(guò)云計(jì)算來(lái)解決車(chē)載控制器性能不足的問(wèn)題,提高計(jì)算速度;二是對(duì)ADP 算法理論進(jìn)行完善和發(fā)展,設(shè)計(jì)出收斂速度快、穩(wěn)定性好的算法。
針對(duì)目前的能源緊缺和環(huán)境污染問(wèn)題,混合動(dòng)力汽車(chē)是從燃油車(chē)輛到純電動(dòng)汽車(chē)的一種良好過(guò)渡形式,通過(guò)能量管理策略的研究可使發(fā)動(dòng)機(jī)和電動(dòng)機(jī)處于性能最優(yōu)的工作區(qū)間。 與基于規(guī)則和優(yōu)化的算法相比,ADP 算法不僅能提高燃油經(jīng)濟(jì)性,還具有較好的實(shí)時(shí)性。 目前ADP 算法在能量管理策略的研究?jī)H僅處于初始階段,還需進(jìn)一步提高與完善,未來(lái)隨著高性能計(jì)算機(jī)研究、車(chē)聯(lián)網(wǎng)和5G 通信等多種技術(shù)的發(fā)展,ADP 算法的性能將會(huì)得到進(jìn)一步提高,有著巨大的應(yīng)用前景。