基于深度強化學(xué)習(xí)的電動汽車充電調(diào)度算法研究進展

2022-09-02 08:33:14張延宇饒新朋周書奎

電力系統(tǒng)保護與控制 2022年16期

張延宇，饒新朋，周書奎，周毅

張延宇1，饒新朋1，周書奎1，周毅2

(1.河南大學(xué)人工智能學(xué)院，河南鄭州 450046；2.河南省車聯(lián)網(wǎng)協(xié)同技術(shù)國際聯(lián)合實驗室(河南大學(xué))，河南鄭州 450046)

對電動汽車的充電過程進行優(yōu)化調(diào)度有利于電網(wǎng)安全穩(wěn)定運行，提升道路通行效率，提高可再生能源利用率，減少用戶充電時間和充電費用。深度強化學(xué)習(xí)可以有效解決電動汽車充電優(yōu)化調(diào)度面臨的隨機性和不確定性因素的影響。首先，概述了深度強化學(xué)習(xí)的工作原理，對比分析了不同種類強化學(xué)習(xí)的特點和應(yīng)用場合。然后，從靜態(tài)充電調(diào)度和動態(tài)充電調(diào)度兩方面綜述了基于深度強化學(xué)習(xí)的電動汽車充電調(diào)度算法研究成果，分析了現(xiàn)有研究的不足。最后，展望了該領(lǐng)域未來的研究方向。

智能電網(wǎng)；電動汽車；深度強化學(xué)習(xí)；充電調(diào)度

0 引言

近年來，為應(yīng)對氣候變化、推動綠色能源發(fā)展，且隨著技術(shù)的成熟，電動汽車(Electric Vehicle, EV)市場占有率迅速增長。2020年11月，國務(wù)院辦公廳正式發(fā)布《新能源汽車產(chǎn)業(yè)發(fā)展規(guī)劃(2021—2035年)》，提出以電動汽車為代表的新能源汽車應(yīng)融合互聯(lián)網(wǎng)、人工智能等變革性技術(shù)，從單純交通工具向移動智能終端、儲能單元轉(zhuǎn)變；加強新能源汽車與電網(wǎng)能量互動以及與可再生能源高效協(xié)同發(fā)展；推動新能源汽車與能源、信息產(chǎn)業(yè)的深度融合[1]。

盡管電動汽車優(yōu)點顯著，但大量電動汽車無序充電不僅影響電網(wǎng)的安全穩(wěn)定運行，還會影響道路通行效率，并最終損害電動汽車用戶的使用體驗[2]。因此，設(shè)計合理的充電調(diào)度策略，對電動汽車的充電過程進行協(xié)同控制十分必要。根據(jù)應(yīng)用場景的不同，充電調(diào)度可分為靜態(tài)充電調(diào)度和動態(tài)充電調(diào)度。靜態(tài)充電調(diào)度策略通過協(xié)調(diào)處于泊車狀態(tài)的電動汽車的充/放電行為，從而在滿足用戶出行需求的前提下，實現(xiàn)形式多樣的優(yōu)化目標(biāo)，比如最小化充電費用、最大化可再生能源利用率及最小化充電時間等。動態(tài)充電調(diào)度策略(充電導(dǎo)航)對行駛中有充電需求的電動汽車進行充電路徑規(guī)劃，將其誘導(dǎo)至合適的充電站進行充電，從而減少電動汽車總充電時間，緩解充電站電網(wǎng)負荷壓力[3]。通常情況下，充電過程中不同利益相關(guān)方的優(yōu)化調(diào)度目標(biāo)并不完全一致，需要綜合考慮。同時，優(yōu)化調(diào)度算法需要考慮眾多不確定性因素的影響，如動態(tài)電價、可再生能源出力的波動、用戶出行需求的不確定性及道路通行狀況等。因此，在高度不確定性的環(huán)境下實現(xiàn)電動汽車充電的優(yōu)化調(diào)度是一個十分有意義同時又充滿挑戰(zhàn)性的研究方向。

傳統(tǒng)的靜態(tài)調(diào)度策略主要有基于動態(tài)規(guī)劃的方法[4-5]、基于日前調(diào)度的方法[6-8]和基于模型的實時調(diào)度方法[9-11]。在具有不確定性的環(huán)境下，利用動態(tài)規(guī)劃方法難以獲得最優(yōu)充電策略。為此，研究人員提出了基于日前調(diào)度的方法，利用魯棒優(yōu)化或隨機優(yōu)化來最小化日前調(diào)度場景中不確定性因素對電動汽車優(yōu)化調(diào)度結(jié)果的影響，但迭代計算消耗資源嚴重，且難以滿足實時性要求。實時充電控制是保證電動汽車高效運行的關(guān)鍵，基于模型的實時調(diào)度策略為動態(tài)充電需求和分時電價下的電動汽車充電控制提供了實時框架，保證了用戶在實時場景下的充電需求。傳統(tǒng)的電動汽車動態(tài)充電優(yōu)化算法主要是基于Dijkstra等最短路徑算法[12-14]和仿生學(xué)算法[15-16]，并融合實時電網(wǎng)狀態(tài)和交通信息的電動汽車路徑規(guī)劃策略。然而，基于模型的調(diào)度方法需要具備建立模型的先驗知識，并且系統(tǒng)性能嚴重依賴于系統(tǒng)模型參數(shù)。上述分析表明，不確定性因素的處理是電動汽車充電調(diào)度中的難點之一。

深度強化學(xué)習(xí)(Deep Reinforcement Learning, DRL)在處理不確定性因素上具有獨特優(yōu)勢。近年來，基于DRL的電動汽車充電優(yōu)化調(diào)度算法得到了越來越多的關(guān)注。電動汽車充電優(yōu)化調(diào)度的本質(zhì)是在多種不確定因素影響下對電動汽車充/放電狀態(tài)的時序進行優(yōu)化，DRL是解決這類序列決策問題的有效方法。智能體通過周期性地觀察環(huán)境，做出動作，并獲得獎勵值，然后根據(jù)獎勵值自動調(diào)整策略以尋找最優(yōu)充電調(diào)度策略。

一些文獻對強化學(xué)習(xí)在電力系統(tǒng)中的應(yīng)用進行了初步的總結(jié)和歸納。文獻[17]將強化學(xué)習(xí)在電動汽車充電中的應(yīng)用研究分為住宅充電、集中式日前調(diào)度、分布式電動汽車充電協(xié)調(diào)和實時充電調(diào)度。文獻[18]則專注于電力系統(tǒng)能源管理、需求響應(yīng)、電力市場和運行控制4個方面。與這些研究不同，本文專注于基于DRL的電動汽車充電優(yōu)化調(diào)度算法，分別從DRL算法和電動汽車充電優(yōu)化調(diào)度場景兩個維度對現(xiàn)有研究成果進行分類研究，總結(jié)已經(jīng)取得的成果，分析存在的問題，探討該領(lǐng)域未來的研究方向。

1 ?深度強化學(xué)習(xí)

圖1 強化學(xué)習(xí)原理圖

深度強化學(xué)習(xí)采用神經(jīng)網(wǎng)絡(luò)來感知目標(biāo)觀測信息并提供當(dāng)前環(huán)境中的狀態(tài)信息，將當(dāng)前狀態(tài)映射為相應(yīng)的動作，然后基于預(yù)期回報評估值做出決策。按照算法學(xué)習(xí)結(jié)果的不同，深度強化學(xué)習(xí)可以分為基于價值的DRL算法和基于策略的DRL算法兩大類。前者通過狀態(tài)或動作的價值函數(shù)表示達到某種狀態(tài)或執(zhí)行某個動作后可以得到的回報，智能體傾向于選擇價值最大的狀態(tài)或動作，通過學(xué)習(xí)獲得最優(yōu)價值函數(shù)，再根據(jù)最優(yōu)價值函數(shù)來做決策，選出最好的動作；而后者不需要定義價值函數(shù)，它為動作定義了概率分布，智能體按照概率分布來選取要執(zhí)行的動作[19]，學(xué)習(xí)后得到最優(yōu)策略函數(shù)，然后直接用得到的策略函數(shù)計算所有動作的概率值，并隨機抽樣選出一個動作并執(zhí)行。這兩類算法對比如表1所示。

表1 基于價值的強化學(xué)習(xí)與基于策略的強化學(xué)習(xí)對比

深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)[22]是第一個深度強化學(xué)習(xí)算法，是一種典型的基于價值的DRL算法，得到了廣泛應(yīng)用。以此為基礎(chǔ)，人們深入研究了DQN，形成了一系列改進的DQN算法，如解決過估計問題的Double DQN[29]，帶有優(yōu)先經(jīng)驗回放、可高效學(xué)習(xí)的Prioritized Replay DQN[30]，將環(huán)境價值和動作價值解耦的Dueling DQN[31]等。

基于策略的DRL算法在處理具有連續(xù)動作空間的任務(wù)時，比基于價值的DRL算法更加高效。目前最流行的基于策略的DRL算法是深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)，該算法結(jié)合了DQN算法和演員-評論家(Actor-Critic, AC)算法的優(yōu)點，能夠高效地解決連續(xù)動作空間的任務(wù)，并成功應(yīng)用于電動汽車充電調(diào)度等領(lǐng)域。

2 ?DRL在電動汽車充電調(diào)度中的應(yīng)用

如前所述，根據(jù)電動汽車的行駛狀態(tài)，電動汽車充電調(diào)度可分為靜態(tài)充電調(diào)度和動態(tài)充電調(diào)度(充電導(dǎo)航)。兩種場景都可以使用基于價值和基于策略的深度強化學(xué)習(xí)調(diào)度方法。表2從算法、狀態(tài)、獎勵和約束條件4個方面對比分析了基于DRL的電動汽車充電調(diào)度算法。

2.1 在靜態(tài)充電調(diào)度中的應(yīng)用

2.1.1基于值函數(shù)的EV靜態(tài)充電調(diào)度算法

在靜態(tài)充電調(diào)度場景中，實現(xiàn)電動汽車用戶充電成本最小化是主要優(yōu)化目標(biāo)。由表2可知，在靜態(tài)充電調(diào)度中目前主要采用基于值函數(shù)的強化學(xué)習(xí)算法，如Q-learning算法、DQN算法及其各種改進DQN算法等。文獻[32]對充電功率和電價進行了離散化，采用Q-learning算法構(gòu)建一個Q表來近似最優(yōu)動作價值函數(shù)，以找到最優(yōu)充電計劃。文獻[33]利用基于集合狀態(tài)空間的Q學(xué)習(xí)獲得了調(diào)度策略；通過在真實電價數(shù)據(jù)上進行驗證，展示了該調(diào)度模式在節(jié)約成本方面的優(yōu)勢。文獻[34]采用實時在線強化學(xué)習(xí)算法Sarsa優(yōu)化充電調(diào)度過程和定價策略，使公共電動汽車充電站的系統(tǒng)目標(biāo)最大化。為了降低電動汽車電池充電的長期成本，文獻[35]提出了一種批量強化學(xué)習(xí)算法，從一批過渡樣本中學(xué)習(xí)降低充電成本的最優(yōu)充電策略，結(jié)果表明EV用戶可以節(jié)省10%～50%的充電成本。然而，上述強化學(xué)習(xí)方法只適應(yīng)于離散的動作空間，存在“維度爆炸”問題，不適合具有大量動作和狀態(tài)的應(yīng)用場景。

深度強化學(xué)習(xí)算法采用深度神經(jīng)網(wǎng)絡(luò)來近似Q表格，有效地解決了上述維度爆炸問題，在電動汽車充電調(diào)度中得到了廣泛應(yīng)用。文獻[36]將充電調(diào)度問題描述為一個轉(zhuǎn)移概率未知的馬爾可夫決策過程，提出了一種基于深度強化學(xué)習(xí)的無模型方法來確定該問題的最優(yōu)策略；采用一個長短時記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)提取電價特征，利用一個Q網(wǎng)絡(luò)逼近最優(yōu)動作價值函數(shù)，自適應(yīng)地學(xué)習(xí)轉(zhuǎn)移概率，不需要任何系統(tǒng)模型信息。

為確保電動汽車離開充電站時滿足所需電量，上述基于傳統(tǒng)DQN的方法嚴重依賴懲罰項的設(shè)計和懲罰系數(shù)的選擇，該過程相當(dāng)繁瑣，并且主觀性強。為了避免手動選擇獎懲系數(shù)引起的誤差，文獻[37]對DQN進行了改進，提出了安全深度強化學(xué)習(xí)(Safe Deep Reinforcement Learning, SDRL)，通過深度神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)電動汽車的原始狀態(tài)信息和電價信息，生成受約束的最優(yōu)充電/放電時間表，從而保證電動汽車離開充電站時滿足用戶電量需求，并最小化充電成本。與現(xiàn)有的DRL方法不同，文獻[37]所提出的方法可以直接處理約束，并且不需要為約束設(shè)計懲罰項和選擇懲罰系數(shù)。

上述所提強化學(xué)習(xí)方法基本能夠滿足實時在線應(yīng)用的要求，但控制動作僅考慮了電動汽車是否充電，有待綜合考慮配電網(wǎng)其他控制動作以及深度強化學(xué)習(xí)的回報激勵模型，從而進一步提高強化學(xué)習(xí)的實用價值。針對在用電高峰時段給電動汽車集群充電可能會使配電網(wǎng)中變壓器過載的問題，文獻[38]提出了一種多智能體自私協(xié)作架構(gòu)(Multi-Agent Selfish COllaborative architecture, MASCO)，它是一種多智能體多目標(biāo)強化學(xué)習(xí)體系結(jié)構(gòu)，能夠最小化充電成本和避免變壓器過負載。文獻[39]將無模型的深度Q學(xué)習(xí)與基于物理機理的電動汽車充放電特性模型深度融合，建立了以最小化功率波動和充電費用為目標(biāo)的實時調(diào)度模型；但設(shè)計的模型比較簡單，僅探討了微電網(wǎng)內(nèi)功率發(fā)生小范圍波動場景下的實時調(diào)度策略，且沒有慮及電網(wǎng)約束。考慮配電網(wǎng)中電動汽車的空間分布與網(wǎng)絡(luò)約束以及應(yīng)對大場景變化的實時調(diào)度策略將是靜態(tài)充電調(diào)度問題下一步研究的重點和方向。

表2 基于DRL的EV充電調(diào)度文獻

2.1.2基于策略梯度的EV靜態(tài)充電調(diào)度算法

對于具有連續(xù)動作空間的任務(wù)，例如電動汽車充電功率連續(xù)控制，DQN的性能受限，因其僅估計離散動作空間中的Q值。而基于AC架構(gòu)的策略梯度強化學(xué)習(xí)算法在解決連續(xù)動作問題方面表現(xiàn)出了更大的潛力，在電動汽車實時連續(xù)充/放電控制任務(wù)方面上表現(xiàn)出了更好的性能。

AC算法在電動汽車靜態(tài)充電調(diào)度中得到了廣泛應(yīng)用。為了減少車隊充電費用和削減充電峰值負荷，文獻[40]提出了一種基于AC學(xué)習(xí)的智能充電算法，并在此基礎(chǔ)上通過降低狀態(tài)維數(shù)提出了一個計算效率更高的CALC (Customized Actor-critic Learning Charging)算法。與文獻[40]不同，文獻[41]考慮了可再生能源的影響，提出了一種無模型的SAC+NMT (Soft-Actor-Critic+ Nodal Multi-Target)方法，通過充分利用波動的光伏輸出和電價來最小化充電成本。在充電調(diào)度過程中，用戶的動態(tài)行為也是一個值得關(guān)注的因素。為此，文獻[42]引入了集合焦慮的概念，用以描述駕駛員對電動汽車行駛里程和不確定事件的焦慮程度，并提出了一種基于連續(xù)SAC框架的強化學(xué)習(xí)充電控制方法，以平衡充電成本和司機的焦慮度。與這些基于單智能體AC算法的調(diào)度算法不同，文獻[43]提出了一種新的基于多智能體AC算法的調(diào)度算法，對配置有光伏系統(tǒng)和儲能系統(tǒng)的分布式充電站進行能量管理，實現(xiàn)多個充電站之間的協(xié)作運行；該方法能夠以分布式計算的方式獲得多個充電站的調(diào)度方案，同時能夠處理與儲能系統(tǒng)和電動汽車相關(guān)的動態(tài)數(shù)據(jù)，從而有效減少充電站的運行費用。

AC算法存在收斂速度較慢的缺點，為此，研究人員提出了融合AC與DQN優(yōu)勢的DDPG算法，該算法在電動汽車靜態(tài)充電調(diào)度中得到廣泛應(yīng)用。文獻[44]在AC的基礎(chǔ)上引入深度神經(jīng)網(wǎng)絡(luò)，提出了一種新的深度強化學(xué)習(xí)(DDPG)方法，解決了電動汽車充電問題，將深度確定性策略梯度與優(yōu)先經(jīng)驗重放(Prioritized Experience Replay)策略相結(jié)合，并將問題建立在多維連續(xù)狀態(tài)和動作空間中，實驗結(jié)果表明所提算法優(yōu)于深度Q學(xué)習(xí)方法。文獻[45]提出了一種配電網(wǎng)中的最優(yōu)電動汽車充電策略，在滿足物理約束的同時，使配電系統(tǒng)運營商的利潤最大化，并通過馬爾可夫決策過程模型來描述不確定性的時間序列，然后利用基于DDPG的強化學(xué)習(xí)技術(shù)來分析不確定性對充電策略的影響，并通過仿真的方法驗證了算法的有效性。文獻[46]將DDPG與改進的LSTM網(wǎng)絡(luò)相結(jié)合，采用改進的LSTM神經(jīng)網(wǎng)絡(luò)作為表示層，從電價信號中提取時間特征，利用具有連續(xù)動作空間的DDPG算法求解電動汽車最優(yōu)充電序列；該方法可以根據(jù)電價自動調(diào)整充電策略，降低電動汽車用戶的充電成本。文獻[47]提出了一種改進的CDDPG (Control Deep Deterministic Policy Gradient)算法來學(xué)習(xí)電動汽車的最優(yōu)充電控制策略，從而在滿足用戶對電池能量需求的前提下，最小化電動汽車用戶的充電費用。文獻[44-47]仿真結(jié)果均表明基于DDPG的方法在滿足用戶對電池能量需求和降低充電成本方面優(yōu)于傳統(tǒng)的基于DQN的方法。

針對強化學(xué)習(xí)方法動作空間離散、訓(xùn)練收斂困難、穩(wěn)定性差，并且充電調(diào)度算法未考慮充電樁效率隨充電功率變化的問題，文獻[48]利用雙延遲深度確定性策略梯度算法(Twin Delay Deep Deterministic policy gradient, TD3)對單輛電動汽車功率連續(xù)可調(diào)充電過程進行建模，控制充電功率，優(yōu)化電動汽車充電行為。相較于傳統(tǒng)的優(yōu)化控制方法，TD3在速度和靈活性上具有明顯優(yōu)勢。通過對訓(xùn)練得到的智能體進行分布式部署，該方法實現(xiàn)了對集群電動汽車充電行為的高速實時分布式優(yōu)化。

考慮到分時電價與電網(wǎng)實際峰值出現(xiàn)時段可能存在偏差，集群電動汽車的充放電仍然有可能造成電網(wǎng)“峰上加峰”情況。若供應(yīng)商能根據(jù)電網(wǎng)狀態(tài)，制定實時的功率調(diào)節(jié)信號進一步對智能體充電行為進行引導(dǎo)，將會有效解決這一問題。如何依據(jù)各電動汽車與電網(wǎng)的實時狀態(tài)信息為智能體制定有效的調(diào)節(jié)信號，有待進一步研究。

2.2 在動態(tài)充電調(diào)度中的應(yīng)用

電動汽車動態(tài)充電調(diào)度算法的優(yōu)化目標(biāo)多種多樣，比如最小化行駛路線距離、行駛時間、行駛能耗及充電費用，或者同時考慮這些因素的綜合目標(biāo)，深度強化學(xué)習(xí)在該領(lǐng)域的應(yīng)用也越來越廣泛。

2.2.1基于值函數(shù)的EV動態(tài)充電調(diào)度算法

Q-learning、DQN等基于值函數(shù)的深度強化學(xué)習(xí)算法在電動汽車動態(tài)充電調(diào)度中依舊得到了廣泛應(yīng)用。文獻[49]利用深度Q學(xué)習(xí)算法解決充電路徑規(guī)劃問題，以最小化電動汽車的總充電時間和最大限度地減少出發(fā)地到目的地的距離為目標(biāo)，在真實數(shù)據(jù)集上的實驗結(jié)果表明，該算法能顯著縮短電動汽車的充電時間和行駛總里程；文獻[50]提出了一種基于深度Q學(xué)習(xí)的電動汽車充電導(dǎo)航方法，旨在使電動汽車到達充電站的總行駛時間和充電成本最小化。文獻[51]考慮了充電許可和電價波動，利用基于深度Q學(xué)習(xí)的調(diào)度算法最大限度地減少電動汽車包含時間成本和充電費用的總開銷，但并未考慮實時交通的復(fù)雜性和充電站實時狀態(tài)的多變性。

智能電網(wǎng)和智能交通系統(tǒng)的協(xié)同運行為電動汽車用戶提供了豐富的電網(wǎng)和交通網(wǎng)數(shù)據(jù)，可用于電動汽車充電導(dǎo)航。針對不規(guī)律的電動汽車快速充電請求、高維且不規(guī)則的環(huán)境特征，文獻[52]提出了一種基于圖強化學(xué)習(xí)的快速充電站推薦方法，通過構(gòu)建逐輛推薦式的強化學(xué)習(xí)框架，結(jié)合圖卷積網(wǎng)絡(luò)和強化學(xué)習(xí)，實現(xiàn)了實時充電站推薦的深度強化學(xué)習(xí)范式，并通過大量仿真驗證了所提方法在城市路網(wǎng)中應(yīng)用的可行性。然而，現(xiàn)實世界的充電場景有著更加復(fù)雜的不確定性信息。為此，文獻[53]考慮了電動汽車動態(tài)駕駛行為和隨機充電行為的多數(shù)據(jù)融合特性以及多系統(tǒng)建模的復(fù)雜性，提出了一種基于數(shù)據(jù)驅(qū)動和深度Q學(xué)習(xí)的電動汽車充電導(dǎo)航策略，為車主推薦最優(yōu)充電站，并規(guī)劃最優(yōu)行駛路徑。上述研究表明，綜合考慮車-路-網(wǎng)的融合特性，充分利用電網(wǎng)和路網(wǎng)的運行數(shù)據(jù)，對大規(guī)模電動汽車的充電行為進行協(xié)同優(yōu)化，實現(xiàn)電網(wǎng)和路網(wǎng)的協(xié)同高效運行值得進一步研究。

2.2.2基于策略梯度的EV動態(tài)充電調(diào)度算法

多智能體強化學(xué)習(xí)算法在電動汽車動態(tài)充電調(diào)度領(lǐng)域逐漸受到重視。為了最小化充電等待時間、充電費用和充電失敗率，文獻[54]提出了一種多智能體時空強化學(xué)習(xí)(Multi-Agent Spatio-Temporal Reinforcement Learning)框架，開發(fā)了一個帶有集中注意力機制的Critic的多智能體AC框架，以協(xié)調(diào)推薦不同地理位置的充電站；與9種基線方法相比，所提算法獲得了最佳的綜合性能。與文獻[54]僅考慮充電站優(yōu)化不同，文獻[55]側(cè)重于車輛與充電站之間的合作與競爭，提出一種基于多智能體AC算法的分布式充電站車輛調(diào)度控制框架e-Divert，通過車輛與充電站之間的合作與競爭實現(xiàn)最大化能效、數(shù)據(jù)收集率、地理公平性，同時最小化能耗。

然而，與基于值函數(shù)的電動汽車動態(tài)充電調(diào)度算法相比，利用基于策略梯度的深度強化學(xué)習(xí)對電動汽車的動態(tài)充電過程進行優(yōu)化的研究還處于起步階段，相關(guān)研究成果還很少，有待進一步深入研究。

3 未來研究方向

目前深度強化學(xué)習(xí)在電動汽車充電調(diào)度中的應(yīng)用可以分為考慮新能源接入電網(wǎng)的充電樁級和充電站級充電調(diào)度、融合路網(wǎng)和配電網(wǎng)的綜合充電路徑規(guī)劃以及融合圖神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)二者優(yōu)勢的電動汽車充電引導(dǎo)算法。通過對現(xiàn)有成果的研究，未來可從以下3個方向深入研究。

1) 考慮新能源接入電網(wǎng)情況下針對充電樁級和充電站級的靜態(tài)充電調(diào)度問題。目前的研究大都圍繞分時電價進行調(diào)度，以實現(xiàn)電網(wǎng)負荷的“削峰填谷”，并降低運營商或用戶的用電成本。但是在新能源接入電網(wǎng)情況下考慮新能源利用率的研究還較少。如何解決出力的不確定性是新能源接入電網(wǎng)的關(guān)鍵問題，傳統(tǒng)基于模型的方法難以建立精確的系統(tǒng)模型，而強化學(xué)習(xí)在解決隨機不確定因素時具有一定的優(yōu)勢。然而，強化學(xué)習(xí)方法也具有一定的局限性，例如在考慮新能源利用率時很大程度上依賴于人為設(shè)計獎勵函數(shù)，如何優(yōu)化獎勵函數(shù)，能夠使算法收斂的同時并獲得預(yù)期效果尤為關(guān)鍵。目前深度學(xué)習(xí)方法(如循環(huán)神經(jīng)網(wǎng)絡(luò))已在新能源出力預(yù)測領(lǐng)域取得一定成果，如何提高實時預(yù)測精度并與強化學(xué)習(xí)相結(jié)合，從而更好地參與配電網(wǎng)的負荷調(diào)度，并滿足用戶需求是潛在的研究熱點。

2) 深度融合“車-路-網(wǎng)”信息的電動汽車綜合充電路徑規(guī)劃。隨著電動汽車的不斷普及，未來對深度融合“車-路-網(wǎng)”的多源、異構(gòu)信息，在高度隨機的環(huán)境下實現(xiàn)集群電動汽車充電路徑的優(yōu)化調(diào)度以降低用戶的充電費用，提高路網(wǎng)和電網(wǎng)的運行效率及安全性的研究具有重要意義。多智能體的優(yōu)勢就是合作、博弈，相較于單車調(diào)度具有很強的魯棒性和可靠性，并具有較高的問題求解效率。但目前多智能體強化學(xué)習(xí)算法在電動汽車充電調(diào)度中的研究還很少，隨著MADDPG、Q-MIX等多智能體深度強化學(xué)習(xí)算法應(yīng)用的不斷成熟，如何將其應(yīng)用于解決大規(guī)模電動汽車充電調(diào)度是未來的重要研究方向之一。

3) 基于圖強化學(xué)習(xí)的電動汽車充電引導(dǎo)算法。電網(wǎng)與交通網(wǎng)數(shù)據(jù)均呈現(xiàn)出典型的圖結(jié)構(gòu)，其拓撲中蘊含大量信息，圖神經(jīng)網(wǎng)絡(luò)在處理海量圖結(jié)構(gòu)數(shù)據(jù)和復(fù)雜關(guān)聯(lián)性問題時具有很大優(yōu)勢，能對不規(guī)則環(huán)境信息進行特征提取，學(xué)習(xí)圖內(nèi)包含的知識，對圖中各節(jié)點間的相關(guān)性具有強大的建模能力。電動汽車和充電站之間關(guān)系密切，電動汽車快速充電站的引導(dǎo)問題本質(zhì)就是一個推薦問題，正是圖神經(jīng)網(wǎng)絡(luò)的強項之一。未來可將圖神經(jīng)網(wǎng)絡(luò)與強化學(xué)習(xí)深度結(jié)合，圖神經(jīng)網(wǎng)絡(luò)用于提取交通網(wǎng)特征，強化學(xué)習(xí)進行充電調(diào)度決策，從而設(shè)計出一套高效的快速充電引導(dǎo)和控制策略，是提高用戶滿意度、確保耦合系統(tǒng)穩(wěn)定運行的重要前提。基于此，未來圖深度強化學(xué)習(xí)算法在電動汽車充電調(diào)度領(lǐng)域中的應(yīng)用值得研究人員進一步深入研究。

4 ?結(jié)論

本文概述了深度強化學(xué)習(xí)的基本工作原理，對比了不同深度強化學(xué)習(xí)的特點。從電動汽車靜態(tài)充電調(diào)度和動態(tài)充電調(diào)度兩個方面綜述了基于深度強化學(xué)習(xí)的充電調(diào)度算法，分析了研究現(xiàn)狀，探討了該領(lǐng)域未來值得進一步研究的方向?？傮w來說，當(dāng)前基于深度強化學(xué)習(xí)的電動汽車充電調(diào)度研究處于一個快速發(fā)展階段，值得研究人員進一步深入研究。

[1] 中華人民共和國工業(yè)和信息化部. 新能源汽車產(chǎn)業(yè)發(fā)展規(guī)劃(2021-2035)年[EB/OL]. [2020-12-20]. https:// www.miit.gov.cn/xwdt/szyw/art/2020/art_4390362916324 365a260ed97d7558f18.html.

Ministry of Industry and Information Technology of the People's Republic of China. New energy vehicle industry development plan (2021-2035) [EB/OL]. [2020-12-20]. https://www.miit.gov.cn/xwdt/szyw/art/2020/art_4390362916324365a260ed97d7558f18.html.

[2] 張聰, 許曉慧, 孫海順, 等. 基于自適應(yīng)遺傳算法的規(guī)?；妱悠囍悄艹潆姴呗匝芯縖J]. 電力系統(tǒng)保護與控制, 2014, 42(14): 19-24.

ZHANG Cong, XU Xiaohui, SUN Haishun, et al. Smart charging strategy of large-scale electric vehicles based on adaptive genetic algorithm[J]. Power System Protection and Control, 2014, 42(14): 19-24.

[3] 邢強, 陳中, 黃學(xué)良, 等. 基于數(shù)據(jù)驅(qū)動方式的電動汽車充電需求預(yù)測模型[J]. 中國電機工程學(xué)報, 2020, 40(12): 3796-3813.

XING Qiang, CHEN Zhong, HUANG Xueliang, et al. Electric vehicle charging demand forecasting model based on data-driven approach[J]. Proceedings of the CSEE, 2020, 40(12): 3796-3813.

[4] ZHANG L, LI Y. Optimal management for parking-lot electric vehicle charging by two-stage approximate dynamic programming[J]. IEEE Transactions on Smart Grid, 2017, 8(4): 1722-1730.

[5] WU J, GAO B, ZHENG Q, et al. Optimal equivalence factor calculation based on dynamic programming for hybrid electric vehicle[C] // 2017 IEEE Chinese Automation Congress (CAC), July 16-20, 2017, Chicago, IL, USA: 6640-6645.

[6] 閻懷東, 馬汝祥, 柳志航, 等. 計及需求響應(yīng)的電動汽車充電站多時間尺度隨機優(yōu)化調(diào)度[J]. 電力系統(tǒng)保護與控制, 2020, 48(11): 71-80.

YAN Huaidong, MA Ruxiang, LIU Zhihang, et al. Multi- time scale stochastic optimal dispatch of electric vehicle charging station considering demand response[J]. Power System Protection and Control, 2020, 48(11): 71-80.

[7] 王錫凡, 邵成成, 王秀麗, 等. 電動汽車充電負荷與調(diào)度控制策略綜述[J]. 中國電機工程學(xué)報, 2013, 33(1): 1-10.

WANG Xifan, SHAO Chengcheng, WANG Xiuli, et al. Survey of electric vehicle charging load and dispatch control strategies[J]. Proceedings of the CSEE, 2013, 33(1): 1-10.

[8] 陳奎, 馬子龍, 周思宇, 等. 電動汽車兩階段多目標(biāo)有序充電策略研究[J]. 電力系統(tǒng)保護與控制, 2020, 48(1): 65-72.

CHEN Kui, MA Zilong, ZHOU Siyu, et al. Charging control strategy for electric vehicles based on two-stage multi-target optimization[J]. Power System Protection and Control, 2020, 48(1): 65-72.

[9] 程杉, 楊堃, 魏昭彬, 等. 計及電價優(yōu)化和放電節(jié)制的電動汽車充電站有序充放電調(diào)度[J]. 電力系統(tǒng)保護與控制, 2021, 49(11): 1-8.

CHENG Shan, YANG Kun, WEI Zhaobin, et al. Orderly charging and discharging scheduling of an electric vehicle charging station considering price optimization and discharge behavior control[J]. Power System Protection and Control, 2021, 49(11): 1-8.

[10] ZHAO J, WAN C, XU Z, et al. Risk-based day-ahead scheduling of electric vehicle aggregator using information gap decision theory[J]. IEEE Transactions on Smart Grid, 2017, 8(4): 1609-1618.

[11] BINETTI G, DAVOUDI A, NASO D, et al. Scalable real-time electric vehicles charging with discrete charging rates[J]. IEEE Transactions on Smart Grid, 2015, 6(5): 2211-2220.

[12] 邢強, 陳中, 冷釗瑩, 等. 基于實時交通信息的電動汽車路徑規(guī)劃和充電導(dǎo)航策略[J]. 中國電機工程學(xué)報, 2020, 40(2): 534-550.

XING Qiang, CHEN Zhong, LENG Zhaoying, et al. Route planning and charging navigation strategy for electric vehicle based on real-time traffic information[J]. Proceedings of the CSEE, 2020, 40(2): 534-550.

[13] 李曉輝, 李磊, 劉偉東, 等. 基于動態(tài)交通信息的電動汽車充電負荷時空分布預(yù)測[J]. 電力系統(tǒng)保護與控制, 2020, 48(1): 117-125.

LI Xiaohui, LI Lei, LIU Weidong, et al. Spatial-temporal distribution prediction of charging load for electric vehicles based on dynamic traffic information[J]. Power System Protection and Control, 2020, 48(1): 117-125.

[14] 嚴弈遙, 羅禹貢, 朱陶, 等. 融合電網(wǎng)和交通網(wǎng)信息的電動車輛最優(yōu)充電路徑推薦策略[J]. 中國電機工程學(xué)報, 2015, 35(2): 310-318.

YAN Yiyao, LUO Yugong, ZHU Tao, et al. Optimal charging route recommendation method based on transportation and distribution information[J]. Proceedings of the CSEE, 2015, 35(2): 310-318.

[15] 王鑫, 周步祥, 唐浩. 考慮用戶因素的電動汽車有序充放電控制策略[J]. 電力系統(tǒng)保護與控制, 2018, 46(4): 129-137.

WANG Xin, ZHOU Buxiang, TANG Hao. A coordinated charging/discharging strategy for electric vehicles considering customers' factors[J]. Power System Protection and Control, 2018, 46(4): 129-137.

[16] 牛利勇, 張帝, 王曉峰, 等. 基于自適應(yīng)變異粒子群算法的電動出租車充電引導(dǎo)[J]. 電網(wǎng)技術(shù), 2015, 39(1): 63-68.

NIU Liyong, ZHANG Di, WANG Xiaofeng, et al. An adaptive particle mutation swarm optimization based electric taxi charging guidance[J]. Power System Technology, 2015, 39(1): 63-68.

[17] ABDULLAH H M, GASTLI A, BEN-BRAHIM L. Reinforcement learning based EV charging management systems-a review[J]. IEEE Access, 2021, 9: 41506-41531.

[18] ZHANG Z, ZHANG D, QIU R C. Deep reinforcement learning for power system applications: an overview[J]. CSEE Journal of Power and Energy Systems, 2020, 6(1): 213-225.

[19] 肖智清. 強化學(xué)習(xí)原理與Python實現(xiàn)[M]. 北京: 機械工業(yè)出版社, 2019.

[20] WATKINS C J C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(3-4): 279-292.

[21] SUTTON R S. Generalization in reinforcement learning: successful examples using sparse coarse coding[J]. Advances in Neural Information Processing Systems, 1996, 8: 1038-1044.

[22] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.

[23] KONDA V R, TSITSIKLIS J N. Actor-critic algorithms[J]. Advances in Neural Information Processing Systems, 2000, 12: 1008-1014.

[24] BABAEIZADEH M, FROSIO I, TYREE S, et al. GA3C: GPU-based A3C for deep reinforcement learning[J]. CoRR abs/1611.06256, 2016.

[25] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C] // International Conference on Machine Learning, June 21-26, 2014, Beijing, China: 387-395.

[26] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv: 1509.02971, 2015.

[27] FUJIMOTO S, HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C] // International Conference on Machine Learning, June 19-24, 2016, New York City, USA: 1587-1596.

[28] HAARNOJA T, ZHOU A, HARTIKAINEN K, et al. Soft actor-critic algorithms and applications[J]. arXiv preprint arXiv: 1812.05905, 2018.

[29] VAN H H, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C] // Proceedings of the AAAI Conference on Artificial Intelligence, February 12-17, 2016, Phoenix, USA: 2094-2100.

[30] SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay[J]. arXiv preprint arXiv:1511.05952, 2015.

[31] WANG Z, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning[C] // International conference on machine learning, June 19-24, 2016, New York City, USA: 1995-2003.

[32] WEN Z, O’NEILL D, MAEI H. Optimal demand response using device-based reinforcement learning[J]. IEEE Transactions on Smart Grid, 2015, 6(5): 2312-2324.

[33] WANG S, BI S, ZHANG Y A. Reinforcement learning for real-time pricing and scheduling control in EV charging stations[J]. IEEE Transactions on Industrial Informatics, 2021, 17(2): 849-859.

[34] VANDAEL S, CLAESSENS B, ERNST D, et al. Reinforcement learning of heuristic EV fleet charging in a day-ahead electricity market[J]. IEEE Transactions on Smart Grid, 2015, 6(4): 1795-1805.

[35] CHI? A, LUNDéN J, KOIVUNEN V. Reinforcement learning-based plug-in electric vehicle charging with forecasted price[J]. IEEE Transactions on Vehicular Technology, 2016, 66(5): 3674-3684.

[36] WAN Z, LI H, HE H, et al. Model-free real-time EV charging scheduling based on deep reinforcement learning[J]. IEEE Transactions on Smart Grid, 2019, 10(5): 5246-5257.

[37] LI H, WAN Z, HE H. Constrained EV charging scheduling based on safe deep reinforcement learning[J]. IEEE Transactions on Smart Grid, 2020, 11(3): 2427-2439.

[38] DA SILVA F L, NISHIDA C E H, ROIJERS D M, et al. Coordination of electric vehicle charging through multiagent reinforcement learning[J]. IEEE Transactions on Smart Grid, 2020, 11(3): 2347-2356.

[39] 李航, 李國杰, 汪可友. 基于深度強化學(xué)習(xí)的電動汽車實時調(diào)度策略[J]. 電力系統(tǒng)自動化, 2020, 44(22): 161-167.

LI Hang, LI Guojie, WANG Keyou. Electric vehicle real-time scheduling strategy based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2020, 44(22): 161-167.

[40] CAO Y, WANG H, LI D, et al. Smart online charging algorithm for electric vehicles via customized actor-critic learning[J]. IEEE Internet of Things Journal, 2022, 9(1): 684-694.

[41] JIN J, XU Y. Optimal policy characterization enhanced actor-critic approach for electric vehicle charging scheduling in a power distribution network[J]. IEEE Transactions on Smart Grid, 2021, 12(2): 1416-1428.

[42] YAN L, CHEN X, ZHOU J, et al. Deep reinforcement learning for continuous electric vehicles charging control with dynamic user behaviors[J]. IEEE Transactions on Smart Grid, 2021, 12(6): 5124-5134.

[43] SHIN M J, CHOI D H, KIM J. Cooperative management for PV/ESS-enabled electric vehicle charging stations: a multiagent deep reinforcement learning approach[J]. IEEE Transactions on Industrial Informatics, 2020, 16(5): 3493-3503.

[44] QIU D, YE Y, PAPADASKALOPOULOS D, et al. A deep reinforcement learning method for pricing electric vehicles with discrete charging levels[J]. IEEE Transactions on Industry Applications, 2020, 56(5): 5901-5912.

[45] DING T, ZENG Z, BAI J, et al. Optimal electric vehicle charging strategy with Markov decision process and reinforcement learning technique[J]. IEEE Transactions on Industry Applications, 2020, 56(5): 5811-5823.

[46] LI S, HU W, CAO D, et al. Electric vehicle charging management based on deep reinforcement learning[J]. Journal of Modern Power Systems and Clean Energy, 2022, 10(3): 719-730.

[47] ZHANG F, YANG Q, AN D. CDDPG: a deep reinforcement learning-based approach for electric vehicle charging control[J]. IEEE Internet of Things Journal, 2020, 8(5): 3075-3087.

[48] 趙星宇, 胡俊杰. 集群電動汽車充電行為的深度強化學(xué)習(xí)優(yōu)化方法[J]. 電網(wǎng)技術(shù), 2021, 45(6): 2319-2327.

ZHAO Xingyu, HU Junjie. Deep reinforcement learning based optimization method for charging of aggregated electric vehicles[J]. Power System Technology, 2021, 45(6): 2319-2327.

[49] ZHANG C, LIU Y, WU F, et al. Effective charging planning based on deep reinforcement learning for electric vehicles[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(1): 542-554.

[50] QIAN T, SHAO C, WANG X, et al. Deep reinforcement learning for EV charging navigation by coordinating smart grid and intelligent transportation system[J]. IEEE Transactions on Smart Grid, 2020, 11(2): 1714-1723.

[51] LIU J, GUO H, XIONG J, et al. Smart and resilient EV charging in SDN-enhanced vehicular edge computing networks[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(1): 217-228.

[52] 袁紅霞, 張俊, 許沛東, 等. 基于圖強化學(xué)習(xí)的電力交通耦合網(wǎng)絡(luò)快速充電需求引導(dǎo)研究[J]. 電網(wǎng)技術(shù), 2021, 45(3): 979-986.

YUAN Hongxia, ZHANG Jun, XU Peidong, et al. Fast charging demand guidance in coupled power- transportation networks based on graph reinforcement learning[J]. Power System Technology, 2021, 45(3): 979-986.

[53] CHEN L, YANG F, WU S, et al. Electric vehicle charging navigation strategy based on data driven and deep reinforcement learning[C] // Proceedings of the 5th International Conference on Control Engineering and Artificial Intelligence, January 14-16, 2021, Sanya, China: 16-23.

[54] ZHANG W, LIU H, WANG F, et al. Intelligent electric vehicle charging recommendation based on multi-agent reinforcement learning[J]. arXiv preprint arXiv: 2102.07359, 2021.

[55] LIU C H, DAI Z, ZHAO Y, et al. Distributed and energy- efficient mobile crowdsensing with charging stations by deep reinforcement learning[J]. IEEE Transactions on Mobile Computing, 2021, 20(1): 130-146.

Research progress of electric vehicle charging scheduling algorithms based on deep reinforcement learning

ZHANG Yanyu1, RAO Xinpeng1, ZHOU Shukui1, ZHOU Yi2

(1. College of Artificial Intelligence, Henan University, Zhengzhou 450046, China; 2. International Joint Laboratory of Collaborative Technology for Internet of Vehicles of Henan Province (Henan University), Zhengzhou 450046, China)

Optimal scheduling of the electric vehicle charging process is beneficial to the safe and stable operation of power grids. It improves road traffic efficiency, facilitates renewable energy utilization, and reduces the charging time and costs for users. Deep reinforcement learning can effectively solve the problems caused by different randomness and uncertainty in the optimal charging scheduling. This paper summarizes the working principle of deep reinforcement learning first, and makes the comparison of the characteristics and applications among different types of reinforcement learning. Then, the research results of deep reinforcement learning for EV charging scheduling are summarized in terms of both static and dynamic charging scheduling, and the shortcomings of existing research are analyzed. Finally, future research directions are discussed.

smart grid; electric vehicles; deep reinforcement learning; charging scheduling

10.19783/j.cnki.pspc.211454

This work is supported by the National Natural Science Foundation of China (No. 62176088).

國家自然科學(xué)基金項目資助(62176088)；河南省科技攻關(guān)項目資助(212102210412)

2021-10-28；

2022-03-12

張延宇(1980—)，男，通信作者，博士，副教授，碩士生導(dǎo)師，研究方向為車聯(lián)網(wǎng)、能源互聯(lián)網(wǎng)；E-mail: zyy@ henu.edu.cn

饒新朋(1997—)，男，碩士研究生，研究方向為電動汽車充電調(diào)度、深度強化學(xué)習(xí)；E-mail: xinpengrao@henu.edu.cn

周書奎(1996—)，男，碩士研究生，研究方向為機器學(xué)習(xí)、電動汽車充電調(diào)度。E-mail: 104754190912@henu.edu.cn

(編輯姜新麗)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度強化學(xué)習(xí)的電動汽車充電調(diào)度算法研究進展

0 引言

1 ?深度強化學(xué)習(xí)

2 ?DRL在電動汽車充電調(diào)度中的應(yīng)用

2.1 在靜態(tài)充電調(diào)度中的應(yīng)用

2.2 在動態(tài)充電調(diào)度中的應(yīng)用

3 未來研究方向

4 ?結(jié)論