沈國輝,趙榮生,董曉,邢強,陳中,袁浩,耿愛國,劉紀民
(1.南瑞集團有限公司,南京211106;2. 北京科東電力控制系統(tǒng)有限責任公司,北京100194;3. 國網電動汽車服務有限公司,北京 100053;4. 東南大學電氣工程學院,南京210096)
隨著“碳中和和碳達峰”能源變革的逐步推進,人們越來越關注環(huán)境的健康和可持續(xù)性發(fā)展[1 - 2]。電動汽車(electric vehicle, EV)依據其綠色、低碳、環(huán)保等優(yōu)點,將逐漸取代傳統(tǒng)內燃機汽車,成為智慧電網和綠色城市的重要組成部分[3 - 4]。然而隨著電動汽車用戶的激增,其動態(tài)行駛行為與隨機充電行為必然與城市電網和交通路網產生耦合交互[5 - 6]。因此,為了降低電動汽車車主出行成本以及提高交通電氣化網絡運行效率[7 - 8],融合“車-站-網”多交互信息與人工智能技術[4]制定電動汽車充電導航策略,將為充電設施規(guī)劃、配網經濟運行以及車網友好互動提供重要指導[9 - 10]。
目前,國內外已有許多學者提出了充電導航策略引導電動汽車進行有序充電。針對理論驅動建模策略,文獻[11]考慮實時電價信息對電動汽車充電行為決策的影響,通過微觀交通模型設計了充電導航系統(tǒng)。文獻[12]則基于充電需求信息與充電站(charging station, CS)能量信息,通過動態(tài)演化分析為車主規(guī)劃充電路徑與推薦充電站。文獻[13]則綜合分析了電網與交通信息的實時動態(tài)特征,建立了“車-網-路”融合的充電站推薦模型。進一步地,一些研究則從數據驅動層面提出充電引導方法,文獻[14]對網約車出行軌跡信息進行數據挖掘與融合建模,建立了電動汽車充電導航模型。文獻[15 - 16]設計問卷調查采集車主出行信息,通過行為偏好分析為車主制定最優(yōu)充電計劃。另外,這些工作將人工智能技術引入到電動汽車充電控制領域,文獻[17 - 18]從物理和電氣連接構建了電氣交通網耦合架構,利用深度強化學習(deep reinforcement learning, DRL)方法為車輛進行充電導航。文獻[19]運用DRL方法分析了不確定條件下電動汽車的充放電控制問題,采用能量邊界模型表征充放電行為。文獻[20]基于競爭深度Q網絡結構,提出了電動汽車充電控制方法,協(xié)同優(yōu)化充電資源和新能源發(fā)電資源。
雖然上述方法剖析了電動汽車充電導航和控制的本質,但依舊存在如下幾個問題:1)傳統(tǒng)建模思路缺乏采用真實交互信息刻畫電動汽車動態(tài)特征。2)基于數據驅動建模方法無法實現(xiàn)實時優(yōu)化調度且面臨海量數據的計算壓力。3)現(xiàn)有DRL引導策略在城市級運營數據的挖掘和算法綜合性能的評估方面仍有待完善。綜上,為了解決上述方法的不足,本文考慮電動汽車行駛與充電過程的信息交互特征與人工智能方法求解復雜問題的適應性[21 - 22],提出一種基于多信息交互與深度強化學習的電動汽車充電導航策略。首先,采用數據驅動方法對“電動汽車集群優(yōu)化儲能云平臺”的數據進行建模挖掘,得到電動汽車出行所需的行駛與充電信息、城市充電站信息以及動態(tài)交通路網信息。其次,運用DRL方法求解多目標優(yōu)化的電動汽車充電導航問題,將挖掘得到“車-站-網”實時信息作為深度Q網絡(deep Q-network, DQN)的狀態(tài)輸入,并通過DQN的動作執(zhí)行為車主推薦合適充電站與規(guī)劃充電路徑。最后,設計不同仿真實驗場景,驗證所提方法的實施效果。
本文依托“電動汽車集群優(yōu)化儲能云平臺”[23],該平臺可以實時監(jiān)控接入的電動汽車動態(tài)行駛信息與充電信息,并獲取管轄范圍內充電站的實時運行情況,數據平臺界面如圖1所示。
圖1 電動汽車集群優(yōu)化儲能云平臺
首先,本文選擇電動汽車相關的數據進行數理統(tǒng)計與建模挖掘,接入平臺電動汽車數據格式如表1所示。
表1 電動汽車數據格式
為了消除數據采集和通信產生的誤差以及提高后續(xù)數據建模的準確性,采取作者原有研究工作相同的數據預處理方法對數據進行數據清洗、坐標轉換、地圖匹配以及數據可視化顯示。限于篇幅,具體步驟可參考文獻[14]。
經去噪的數據被映射到采用WGS- 84坐標系編碼的地圖上,則每條電動汽車行駛與充電信息表示如式(1)所示。
Ωi={pi,1,pi,2,…,pi,m,…,pi,n}
(1)
式中:Ωi為第i輛電動汽車的行程軌跡數據集,i=1,2,…,Ne,Ne為電動汽車的數量。其中,pi,m=(xi,yi,tg,et,vt),xi,yi,tg,et,vt分別第i輛電動汽車在第m條行程軌跡的經度坐標、緯度坐標、即時時間戳、時刻t的即時荷電狀態(tài)(state of charge, SOC)以及時刻t的即時速度。
由于數據體量較為龐大,為了降低數據處理的維度,本文選擇南京市城市范圍為經度(東經):118.741 2 °—118.824 9 °,緯度(北緯):32.023 4 °—32.063 3 °范圍內接入的367輛電動汽車在3個月內產生的24 647條數據進行分析,圖2給出了采用Datamap軟件繪制的所選城區(qū)范圍內車輛起止位置分布圖。
圖2 電動汽車起止位置分布
其次,篩選出該區(qū)域范圍內接入平臺的運營充電站,充電站的數據格式如表2所示。該區(qū)域范圍內的充電站信息表示如式(2)所示。
表2 充電站數據格式
Ψk={Rk,1,Rk,2,…,Rk,r,…,Rk,s}
(2)
式中:Ψk為第k個城市充電站的數據集,k=1,2,…,Nc,Nc為充電站的數量。其中,Rk,r=(ta,ts,td,sc,ωt),ta,ts,td,sc,ωt分別為第r個訂單到站時間、開始時間、結束時間、充電電量以及充電費用,r=1,2,…,Ns,Ns為訂單的數量。
進一步,采用Datamap軟件對所選區(qū)域范圍內分布的14個充電站在某一時段的訂單數量進行統(tǒng)計,充電站的地理位置和訂單數量如圖3所示。其中顏色越深表示充電站的充電訂單數量越多。
圖3 各充電站某一時段訂單分布
最后,在電動汽車與充電站信息獲取基礎上,為了準確描述電動汽車路徑規(guī)劃與充電行駛行為,采用圖論分析[13]法對該區(qū)域范圍內的交通路網(traffic network, TN)進行建模。
(3)
式中:G為交通路網拓撲;V為交通路網節(jié)點集合;E為交通路網路段集合;T為時間序列集合;W為動態(tài)路段路阻集合,即表示城市路網動態(tài)交通信息;vi為第i個交通節(jié)點;vij為交通節(jié)點vi和vj之間的路段;s為時間序列的數量;wt,ij為t時刻路段vij的路阻。
進一步地,采取作者原有的研究方法[24],綜合考慮城市道路路阻可由路段阻抗Rvij(t)和節(jié)點阻抗Cvi(t)構成,因此,動態(tài)交通路網信息如式(4)所示。限于篇幅,具體推導過程和路網基本參數可參見文獻[19]。
(4)
式中:wij(t)為道路實時路阻;S為城市交通路況飽和度;R1vij(t)、R2vij(t)分別為00.6對應的節(jié)點阻抗。
針對電動汽車充電導航問題的多主體互動性質,本節(jié)分別考慮電動汽車車主、充電站以及交通路網多方利益作為綜合目標進行優(yōu)化分析。
(5)
約束條件:
(6)
(7)
(8)
(9)
(10)
(11)
式中:Ce為路程能耗花費;Cs為充電站充電費用;Tw為充電站等待時間;Tt為路程通行時間;π為單位時間成本費用;δij為路段決策變量,δij=1表示車輛選擇交通節(jié)點vi行駛到節(jié)點vj,δij=0表示該路段未被選擇;φk為充電站決策變量,φk=1表示充電站k分配給車主,否則為0;εm為單位里程耗電量[10];ωe為車輛平均充電電價;dij為車輛從節(jié)點vi到節(jié)點vj行駛里程;Ep為車輛電池容量;ee為車輛充電結束時的SOC值;ωt為充電站充電電價;tr,a、tr,s為第r個訂單到站時間和開始充電時間;tr,s-tr,a為第r個訂單充電等待的時間;Nk,s為充電等待的訂單數量;to,g為車輛起點的時間戳。
由上式可知,多目標的電動汽車充電導航是一個混合整數非線性問題。該問題的求解可以采用大M方法轉換成混合整數線性規(guī)劃問題,運用Gurobi、Cplex以及Lingo等求解器求解。但上述所提傳統(tǒng)方法均為離線運算且面對實際動態(tài)拓撲網絡運算耗時較長。
針對上述不足,本文引入DRL方法對電動汽車充電導航問題進行建模求解。強化學習是智能體對真實環(huán)境的探索與利用,通過反復的試錯得到高獎勵值,從而選擇執(zhí)行高回報值的動作。強化學習中每一個狀態(tài)的改變,都只與前一個狀態(tài)和智能體選擇的動作有關,而與前面的動作無關(即滿足馬爾科夫性),這種滿足馬爾科夫性的強化學習定義為馬爾科夫決策過程(Markov decision process, MDP)。
而電動汽車充電導航問題中電動汽車作為智能體通過感知動態(tài)交通路網環(huán)境,通過對充電狀態(tài)以及行駛狀態(tài)的獎勵值進行評價,依次選擇執(zhí)行動作直至結束。因此,上述過程符合馬爾科夫鏈的相關定義。進一步,為了解決智能體對整個動態(tài)交通路網的狀態(tài)感知與學習中存在的維數災難問題,采用深度神經網絡與強化學習方法相結合的深度Q網絡(DQN)方法[15]進行求解。因此,具體基于MDP過程的電動汽車充電導航建模過程如下。
2.2.1 狀態(tài)
考慮到電動汽車智能體的多信息交互特征,將電動汽車的行駛特性與充電特性作為狀態(tài)空間集合:
st={xi,yi,et,Ce,Cs,πTw,πTt}
(12)
2.2.2 動作
智能體根據系統(tǒng)狀態(tài)選擇所要執(zhí)行的動作,因此,將充電站分配作為智能體的動作空間,智能體根據所分配的充電站進行路徑規(guī)劃導航:
at=k,k∈Nc
(13)
2.2.3 獎勵值
根據電動汽車是否抵達充電站進行電能補給,將獎勵值分為行駛途中獎勵與到站后獎勵:
(14)
2.2.4 動作-值函數
電動汽車車主根據不同策略選擇執(zhí)行相應動作,因此動作-值函數Qψ(s,a)用來計算累積獎勵:
(15)
式中:γ為折扣因子,表示智能體對長期回報和短期回報的折衷權衡;Εψ為策略ψ的期望計算函數。
進一步,電動汽車充電導航的目的是在所有可行性策略中找到最優(yōu)策略ψ*求得最優(yōu)動作-值函數Q*(s,a), 使得獎勵值最大化:
(16)
針對最優(yōu)動作-值函數Q*(s,a)的求解,引入基于查表方式的Q-Learning方法[16],通過Bellman方程迭代更新動作值函數逼近最優(yōu)動作值函數,迭代過程和最優(yōu)動作表示如式(17)—(18)所示。
Q(s,a)=Q(s,a)+β(r+γ(s′,a′)-Q(s,a))
(17)
(18)
式中:β為學習率;s′、a′分別為下一個狀態(tài)的狀態(tài)和動作。
為了消除Q-Learning方法求解高維狀態(tài)空間和動作空間連續(xù)性的不足,DQN方法通過構建兩個網絡結構與輸出維度相同的深度神經網絡(deep neural networks, DNN),即估值網絡與目標網絡,利用神經網絡對動作-價值函數進行擬合,輸出每個動作的近似價值。圖4給出了DQN方法訓練過程示意圖,由圖4可知DQN具體訓練步驟如下。
圖4 DQN方法架構
1)采用DNN作為估值網絡進行Q值的估計:
Q(s,a)≈Q(s,a|θ)
(19)
式中θ為估值網絡參數。
2)構建相同DNN架構的目標網絡作為估值網絡的“標簽”指導估值網絡進行參數更新,且每訓練N步,將估值網絡的參數完全復制給目標網絡:
(20)
3)在Q值中使用均方差(mean square error, MSE)定義DQN的損失函數:
(21)
4)計算損失函數中關于參數θ的梯度:
(22)
5)最后,對式(22)使用隨機梯度下降方法[16]更新參數,完成整個算法的訓練任務。
本文所提的電動汽車充電導航框架如圖5所示。
圖5 電動汽車充電導航框架
首先,對“電動汽車集群優(yōu)化儲能云平臺”采集的數據進行數據預處理得到建模所需的電動汽車行駛、充電信息以及城市充電站信息;
其次,對上述所得的電動汽車、充電站以及動態(tài)城市路網信息進行數據挖掘與數據建模,采用起止矩陣(origin destination, OD)方法為電動汽車抽樣分配行駛特性與充電特性參數模擬車輛全天候出行軌跡[19],并將“車-站-網”多信息交互作為深度神經網絡的狀態(tài)輸入;
最后,運用DQN方法對電動汽車充電導航問題進行求解,將電動汽車的能耗與時間耗時指標作為獎勵值,通過動作-值函數的評估將最優(yōu)充電作為動作空間推薦給智能體執(zhí)行,并以分配的充電站為目標進行路徑規(guī)劃[10],完成整個充電導航任務。
本節(jié)設計不同的實驗場景驗證所提方法的實施效果,實驗參數設置如下:引入100輛電動私家車進行充電模擬,電池容量Ep設置為36 kWh,初始SOC服從正態(tài)N(0.8,0.1),充電結束時的SOC值ee服從N(0.85,0.3),單位時間成本費用π為6.15元[25],充電站充電電價ωt為2.5 元;DQN網參數絡θ包括6個輸入層、512個隱藏層以及3個輸出層,學習率β為0.99,訓練步數N為20,訓練回合為200次。在服務器配置CPU R93950X、GPU RTX2080TI、RAM 32GB以及仿真軟件MATLAB 2020b環(huán)境中進行實驗驗證。
首先,圖6給出了本文基于DQN方法充電導航策略訓練過程的每回合的獎勵值,訓練時長為3.58 h。由圖6可知,算法在整個200回合的訓練中,在初始階段智能體不斷從環(huán)境中進行試錯學習,該階段獎勵值求解過程存在較為明顯的振蕩現(xiàn)象,隨后在中期到最終后期階段求解過程逐漸趨于穩(wěn)定收斂。其中,在初始的前50回合中由于DQN采用ε-greedy策略在訓練初期ε設定值為0.90,以較大地概率鼓勵智能體對環(huán)境進行探索,因此獎勵值波動較為明顯,該階段平均獎勵均值為-125.38 元。在50—160回合階段,ε值下降到0.5,智能通過對環(huán)境的前期探索積累了一定的“經驗”,因此更好的利用環(huán)境狀態(tài)累計更多的獎勵值,該階段平均獎勵值為-50.23元。而在160—200回合,智能體對環(huán)境的探索可以學習到最優(yōu)策略,此時ε值下降到0.02,智能體能夠取得最高的獎勵值,平均為-31.55 元。
圖6 DQN算法訓練過程
其次,為了評估所提方法的泛化能力,將所選區(qū)域交通路況的飽和度S分別設定為暢通、緩行和嚴重擁堵狀態(tài),通過改變動態(tài)交通信息獲得不同的實驗樣本數據,驗證算法對不同信息環(huán)境下的適應能力,不同道路通行狀態(tài)下獎勵值如圖7所示。
圖7 不同道路通行狀態(tài)下的獎勵值
由圖7可知,整體上,在不同道路通行狀況下,DQN方法通過200次訓練均可以獲得穩(wěn)定收斂的獎勵值。而道路交通狀況為暢通條件下,城市道路通行路阻較小,路徑搜索與策略學習難度較低,因此算法訓練時長最少,為3.08 h。隨著道路交通狀況變得趨于飽和,增加了算法的搜索與學習負擔,因此,道路緩行狀況下耗時為3.88 h,嚴重擁堵條件下耗時為4.45 h。另外,道路為暢通條件時,車主路程耗時較小,最終收斂獎勵值約為-42.56 元,比緩行和嚴重擁堵條件下分別低15.56%和46.56%。
然后,在算法泛化能力驗證基礎上,本節(jié)設計算法魯棒性能的驗證實驗。具體實驗場景設置為:仿真回合設計為180次,每隔60次回合改變各充電站電價。其中充電站電價1為CS1~CS5的電價,充電站電價2為CS6~CS10的電價,充電站電價3為CS11~CS14的電價。不同充電站電價條件下的獎勵值如圖8所示。
圖8 不同充電站電價條件下的獎勵值
由圖8可知,整體上隨著仿真回合的增加,算法得到的獎勵值逐漸趨于穩(wěn)定,收斂在-47.56元附近。而仿真回合在第60次和120次時充電站電價發(fā)生驟變,相對應的獎勵值在第61次和第121次回合均發(fā)生驟降跌落,說明算法具有很好的實時跟蹤性能。另外,在第61次回合時,獎勵值跌落幅度為-103.32元,而第121次回合,跌落幅度為-78.55元。表明隨著訓練次數的增加,算法的實時跟蹤性能逐步提高。
最后,為了與本文所提電動汽車充電導航策略進行對比,引入距離最短(shortest length path, SLP)與時間最短(shortest time path, STP)兩種基本策略[13]為車主進行充電引導。其中,SLP和STP方法分別為車主以路程距離最短和路程耗時最少為目標進行導航,即基于DRL建模方法中僅將獎勵值更改為路程距離和路程耗時,其余條件不變。圖9給出了某一車輛在同一起訖點采用不同導航策略全天的行駛路徑。
圖9 不同導航策略的行駛路徑
由圖9可知,車主采用上述3種導航策略一共得到8條行駛路徑,其中3種方法共同搜索到第6條路徑,說明路徑6為距離最短路程。而本文方法和STP方法為動態(tài)導航策略,在規(guī)劃目標中均考慮了行程耗時的動態(tài)目標,可以根據不同時段行程時間動態(tài)調整搜索結果,因此搜索到多條行駛路徑,而SLP方法僅以行程距離最短為目標,為靜態(tài)導航策略,因此僅得到一條行駛路徑。
進一步,圖10給出了全部車輛分別采用3種策略在200次訓練的總時間成本(行程時間與等待時間總和)的平均累積值。
圖10 不同導航策略的總時間成本
此外,表3給出了不同導航策略的行駛與充電評價指標的具體值。結合圖10和表3可知,前40次回合訓練中,各方法處在探索初期,算法所利用的環(huán)境信息來制定尋優(yōu)策略有限。因此各方法的總的時間成本相近,隨著訓練回合的增加,算法探索-利用環(huán)境信息的能力逐漸成熟,因此,根據獎勵機制制定的差異,各導航方法所花費的總時間成本逐漸顯現(xiàn),SLP策略方法所花費的時間成本最多,平均比STP多32.45%,比本文策略多27.89%,其中在第142 回合時各策略的總時間成本差值最大。
表3 不同導航策略評價指標對比
針對具體評價指標,STP方法和SLP方法各自優(yōu)化目標為最少時間和最短路程,行程時間花費最少的為STP方法,行程距離最少的為SLP方法。另外,由于STP方法為了追求行程耗時較少,存在一定的繞路現(xiàn)象,車輛所行駛的路程最多,比本文方法超出29.33%,比SLP方法超出74.39%。充電費用與行程距離成正比,因此采取STP方法同樣讓車主花費更多的充電費用。雖然,本文方法在各單項指標(行程時間、行程距離以及充電費用)中并非最優(yōu)解,但本文方法綜合考慮了行程能耗與時間耗時為獎勵值讓智能體訓練學習執(zhí)行動作,因此在等待時間以及綜合評價指標上獲得了最優(yōu)值。
本文針對電動汽車行駛與充電過程中的多信息交互特性以及實際交通路網中充電調度的復雜性。對實際電動汽車監(jiān)控平臺數據進行建模挖掘,并綜合考慮電動汽車-充電站-交通路網的融合信息,建立了基于深度強化學習方法的電動汽車充電導航模型,通過多場景仿真實驗得到如下結論。
所提策略充分利用了現(xiàn)有電動汽車實際運營數據,通過建模挖掘得到電動汽車行駛與充電所需的全部參數信息。且采用實測數據驅動建模得到的“車-站-網”信息更能生動刻畫電網系統(tǒng)和交通系統(tǒng)的運行特征。
通過分析電動汽車充電導航過程的馬爾可夫鏈相關性,將交互信息作為深度網絡的狀態(tài)輸入空間,運用DQN算法求解該多目標規(guī)劃問題。通過算法的探索學習,訓練回合次數的合理設置可以提高算法的收斂程度。改變環(huán)境的數據與信息對算法的泛化能力與魯棒性影響較小。相較于單目標導航策略,本文的多信息交互的多目標導航策略可以使車主的綜合利益最優(yōu)。
盡管如此,限于篇幅本文沒有對電動汽車監(jiān)控平臺采集的全部數據進行挖掘。在下一步工作中,電動汽車全數據鏈的建模分析可以繼續(xù)研究完善。由于采用實際城市路網作為交通拓撲,可以通過改進DRL算法來提高對復雜網絡的計算效率。此外,基于所提的充電導航策略,可以進一步評估聚集充電對電網和交通網的影響。