亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        適用于大規(guī)模充電場站的深度強化學習有序充電策略

        2023-02-11 11:48:52王秀麗原晟淇帥軒越
        電力系統(tǒng)自動化 2023年2期
        關鍵詞:次序場站電動汽車

        陳 果,王秀麗,原晟淇,帥軒越,周 前

        (1. 西安交通大學電氣工程學院,陜西省 西安市 710049;2. 國網(wǎng)江蘇省電力有限公司電力科學研究院,江蘇省 南京市 210036)

        0 引言

        電動汽車(electric vehicle,EV)具有減少溫室氣體排放、降低化石能源依賴性的天然優(yōu)勢,有利于國家實現(xiàn)“雙碳”目標。同時,作為重要的需求響應資源,電動汽車還能為電力系統(tǒng)提供靈活性支撐[1]。如何對大規(guī)模電動汽車進行有序充電控制,是發(fā)揮其靈活性潛力的關鍵。

        近年來,國內(nèi)外學者對大規(guī)模電動汽車有序充電問題進行了大量的研究[2-6]。在現(xiàn)有研究中,廣泛使用的方法有交替方向乘子法[1]、拉格朗日松弛法[4]等分布式算法,以及整數(shù)規(guī)劃[2]、啟發(fā)式算法[3]、基于模型預測控制的方法[5-6]等。這些方法嘗試解決了各種場景下的電動汽車有序充電問題。例如,文獻[2]在考慮有序充電時還考慮了配電網(wǎng)的線路容量約束,通過求解兩個相繼的整數(shù)規(guī)劃問題實現(xiàn)特定負荷曲線。但是,這些方法在對電動汽車不確定性建模時,需要關于車輛隨機性的準確模型[2-4]或預測結果[5-6]。實際中,電動汽車不確定性與用戶行為特征息息相關,而后者是一個復雜問題[7],這就導致車輛隨機性的準確模型難以建立并且準確的預測結果難以獲得,使得上述研究的實用性受到影響。

        深度學習和強化學習的結合使得后者的能力得到極大擴展[8]。深度強化學習可以直接從環(huán)境中適應性地學習最佳策略,而無須顯式地對不確定性建模[9]?;谶@一優(yōu)勢,已有部分學者利用強化學習來研究電動汽車有序充電問題[10-12]。文獻[10]綜合考慮電價和用戶通勤行為的不確定性,通過深度強化學習得到電動汽車的最優(yōu)充放電策略。文獻[12]將電動汽車的有序充電問題和充電定價問題相結合,利用強化學習方法提高充電站收益。

        這些方法以單一車輛或電動汽車集群為研究對象,但都具有以下特點:1)狀態(tài)向量中包含所有電動汽車的特征信息[12-13];2)對每一輛電動汽車進行單獨訓練[14-15]。隨著電動汽車數(shù)量的增加,強化學習系統(tǒng)的狀態(tài)、動作空間以及訓練計算量會顯著增大,出現(xiàn)維數(shù)災(curse of dimensionality)問題。這將導致強化學習系統(tǒng)的收斂速度減慢,甚至無法收斂[16],無法支撐大型充電場站中規(guī)?;妱悠嚨挠行虺潆娍刂?。

        為此,文獻[17]采用固定維數(shù)的矩陣組成狀態(tài)向量,矩陣維數(shù)只與觀察的時間間隔有關,從而使得狀態(tài)向量維數(shù)不隨電動汽車數(shù)量增多而變大。文獻[18]將最優(yōu)策略特征化方法與深度強化學習相結合,在不損失解最優(yōu)性的同時,減少輸出層神經(jīng)元數(shù)量,提高收斂速率。但上述文獻仍存在一些不足,如文獻[17]對動作的設計會使其動作空間大小受到電動汽車數(shù)量的影響,動作空間過于龐大而難以學習。

        針對此問題,本文在深度強化學習的框架下,提出一種適用于大規(guī)模電動汽車有序充電控制的馬爾可夫決策過程(Markov decision process,MDP)模型。利用“分箱”方法和優(yōu)化充電次序策略,減少狀態(tài)空間和動作空間的維數(shù),降低學習的難度。最后,采 用 雙 深 度Q 網(wǎng) 絡(double deep Q network,DDQN)[19-20]的強化學習算法對充電場站內(nèi)大規(guī)模電動汽車的有序充電策略進行求解,并通過算例對其有效性進行驗證。

        1 電動汽車特征模型

        本文以大型停車場等大規(guī)模電動汽車充電站為研究對象,假設場站內(nèi)充電容量充足。場站為電動汽車提供充電服務時采用開-關策略(on-off strategy),即充電樁只會處于電動汽車的額定充電功率或零功率兩種狀態(tài)。開-關策略只需要控制充電設備的開與關,相較于對功率的連續(xù)控制,其控制系統(tǒng)相對簡單。同時,電動汽車在充電狀態(tài)時處于恒功率狀態(tài),這與目前主流的充電模式更為接近[21]。

        電動汽車到達充電場站后,當有空閑的充電樁時,可以立即與其連接。這時,充電決策智能體(下文簡稱智能體)會訪問電動汽車的部分特征信息,包括:第n輛電動汽車的電池容量、額定充電功率、到達充電場站時的荷電狀態(tài)(state of charge,SOC)、用戶離開充電場站時的預期電量,以及用戶預計離開場站的時間。同時,智能體會記錄電動汽車與充電樁連接的時刻。由此,智能體可以計算出每輛電動汽車所需的充電時間:

        智能體會在離散的時間節(jié)點上決策。對于在非決策時刻與充電樁連接的電動汽車,由于已經(jīng)錯過上一時刻的決策信號,可認為其在下一個決策時刻才與充電樁連接,并接受智能體調度,如圖1 所示。假設在決策時刻t,電動汽車所需的充電時間和在場站內(nèi)的剩余泊車時間分別為和,兩次決策之間的時間長度為Δt0,則以下兩式成立:

        圖1 電動汽車的特征說明Fig.1 Illustration of characteristics of EVs

        最大零功率充電時間的含義是:電動汽車在與充電樁連接后的泊車時段內(nèi),最多有個時段處于不充電狀態(tài)。

        智能體可以通過合理決策各電動汽車處于零功率狀態(tài)的時間來適應分時電價,達到最小化場站充電成本、提升運行效率的目標。

        2 適用于大規(guī)模電動汽車的MDP

        由于在上述場景下,充電場站未來的狀態(tài)演變與其狀態(tài)的歷史路徑無關,環(huán)境具有馬爾可夫性質,因此,上述智能體的決策過程可以表示為一個MDP。 MDP 模 型 可 用 一 個 五 元 元 組{S,A,P,R,γ}表示,其中元素依次為狀態(tài)集、動作集、環(huán)境的狀態(tài)轉移概率、獎勵集和獎勵折扣因子。智能體與環(huán)境交互產(chǎn)生學習數(shù)據(jù),并采用特定算法逐漸學習出最優(yōu)策略。

        由于電動汽車出行規(guī)律和充電需求不確定,本文將場站內(nèi)的電動汽車有序充電問題表示為一個帶有未知狀態(tài)轉移概率的馬爾可夫決策問題。

        2.1 狀態(tài)

        為了避免狀態(tài)維數(shù)隨著電動汽車規(guī)模增大而變大,本文采用“分箱”方法來控制狀態(tài)的維數(shù)。

        前文提到,電動汽車特征可用一個三維數(shù)組表示??紤]當前時刻t下充電場站內(nèi)的所有電動汽車,忽略它們的到達時間。對場站內(nèi)所有連接的電動汽車進行“分箱”處理,將具有相同特征()的電動汽車歸為一組,統(tǒng)計各個特征下的電動汽車數(shù)量。因此,每個時刻下,充電場站內(nèi)電動汽車的信息可以表示為一個記錄了各特征下電動汽車數(shù)量的兩維矩陣,如圖2 所示。圖2 中:表示時刻t下,充電場站內(nèi)需要充電時段數(shù)和剩余泊車時段數(shù)分別為i和j的電動汽車數(shù)量;cmax和dmax分別為電動汽車需要充電時段數(shù)和剩余泊車時段數(shù)的最大值。

        圖2 “分箱”處理后充電場站內(nèi)的電動汽車信息表示Fig.2 Information representation of EVs within charging stations after binning

        這個矩陣不僅能夠表示充電場站內(nèi)電動汽車的充電需求,而且由于“分箱”,電動汽車的規(guī)模只會改變矩陣內(nèi)元素值的大小,而不會影響矩陣的維數(shù)。因此,可以將矩陣內(nèi)的元素作為狀態(tài)的一部分,來表征場站當前的充電需求信息。值得注意的是,由于≤,矩陣的左上角元素全部為0。

        將該兩維特征矩陣中的元素和當前時刻t組合在一起,形成t時刻的狀態(tài)向量st:

        其中狀態(tài)向量的維數(shù)Sdim為:

        可以看到,所提MDP 的狀態(tài)空間大小只與cmax和dmax有關,而與電動汽車規(guī)模無關,這是“分箱”方法帶來的優(yōu)勢。由于電動汽車在充電場站的泊車時間和在開-關策略下需要充電的時間有限,兩者可以估計或者規(guī)定,所以狀態(tài)向量的維數(shù)只與決策的間隔時間Δt0有關。

        2.2 動作

        動作at表示在時刻t,智能體決定充電的電動汽車數(shù)量占當前時刻充電場站內(nèi)的電動汽車總量的比例。動作at滿足以下約束:

        動作at只給出了電動汽車的充電數(shù)量,無法指明具體為哪些電動汽車執(zhí)行充電動作。因此,需要確定一種充電次序策略來決定場站內(nèi)各個電動汽車的充電優(yōu)先級。下文提出一種基于最大零功率充電時間的優(yōu)化充電次序策略,并解釋其合理性。

        即在屬于該末尾優(yōu)先級下的電動汽車中隨機選擇Nlastt輛電動汽車進行充電。

        以圖3 中的電動汽車特征矩陣為例,充電次序如圖中的藍線所示。對為0 的電動汽車來說,其必須在離站前保持滿充狀態(tài),否則,其充電需求無法得到滿足;而對為1 的電動汽車來說,在離站前可以選擇一個時段不充電。同時,不充電行為會導致降為0,從而在之后的時間里該電動汽車必須保持滿充。由此可見,越小的電動汽車,其對充電的需求越迫切,越可能出現(xiàn)充電需求無法滿足的情況,因此,需要要求小的電動汽車優(yōu)先充電。而對于相同的電動汽車來說,它們承受的充電需求無法滿足的風險相當。但剩余泊車時段數(shù)小的電動汽車優(yōu)先充電可以提早解除其與充電樁的連接狀態(tài),緩解智能體與大規(guī)模電動汽車通信的壓力。

        圖3 充電次序優(yōu)化策略Fig.3 Optimization strategy for charging sequence

        結合動作at和充電次序優(yōu)化策略,智能體能夠確定具體為哪些電動汽車進行充電。

        2.3 狀態(tài)轉移

        智能體執(zhí)行動作at后,環(huán)境狀態(tài)會從st轉移到st+1,此轉移服從未知的條件分布=Pr(st+1|st,at)。根據(jù)給定的st和at,原先存在于充電場站內(nèi)的電動汽車有4 種狀態(tài)轉移方式,如附錄A圖A1 所示。包括:1)延遲充電;2)充電;3)充電完成,取消與充電樁的連接;4)延遲充電,導致電動汽車的充電需求無法滿足。而在這個決策時段內(nèi),其他電動汽車會到達充電場站并等待充電,這些到達的電動汽車數(shù)量和每輛車的充電需求是不確定的。在該不確定性下,環(huán)境的狀態(tài)轉移概率無法顯式地進行描述,但可以依據(jù)后文描述的深度強化學習方法對這一轉移概率進行學習。

        2.4 獎勵

        本文的決策目標是最小化充電場站內(nèi)電動汽車的充電成本,同時盡量滿足電動汽車的充電需求。因此,即時獎勵rt可以表示如下:

        式中:αt為t時段的電價;為此次決策中由于延遲充電導致用戶充電需求無法得到滿足的電動汽車數(shù)量;η為懲罰系數(shù)。

        由式(11)可知,即時獎勵包括兩部分:該時段的充電成本和無法滿足用戶充電需求的懲罰。由于在強化學習中一般為最大化獎勵,故這兩部分需加上負號。只有在at所決定的電動汽車充電數(shù)量小于=0 的電動汽車數(shù)量時才會出現(xiàn),因為優(yōu)化充電次序策略會優(yōu)先避免充電需求無法滿足的情況。可由下式表示:

        為了避免出現(xiàn)充電需求無法滿足的情況,懲罰系數(shù)設定為:

        式中:αmax為分時電價的最大值。該懲罰系數(shù)表示一輛車在最大的電價下,以最大功率Pmax持續(xù)充電cmax個時段的充電成本。在該懲罰系數(shù)下,一輛充電需求無法得到滿足的電動汽車所帶來的懲罰,比任何情況下一輛電動汽車的充電成本都要高。因此,智能體會優(yōu)先滿足電動汽車的充電需求。

        2.5 折扣因子與狀態(tài)-動作函數(shù)

        強化學習的目標是最大化整個決策周期內(nèi)的總獎勵,包含了當前時刻的即時獎勵與未來時刻的獎勵,折扣因子γ是將未來獎勵折算到當前時刻的折算系數(shù),表征了對即時獎勵和未來獎勵之間的權衡。γ過小,會導致智能體過于關注即時獎勵而顯得短見,一般將其設置為接近于1 的數(shù)。

        狀態(tài)-動作函數(shù)Qπ(s,a)表示在狀態(tài)s下執(zhí)行動作a,并在之后遵循策略π的累積折扣獎勵期望,該值表征了在策略π下和當前狀態(tài)s下執(zhí)行動作a的好壞,具體如式(12)所示。

        式中:Eπ[ ?]為期望函數(shù);rt為當前的即時獎勵;γkrt+k表示將未來k個決策時段后的獎勵折算到當前的獎勵值?;趦r值的強化學習算法的目的就是要在所有策略中找到最優(yōu)策略,使累積折扣獎勵期望最大。

        3 DDQN 的強化學習算法

        深度Q 網(wǎng)絡(deep Q network,DQN)是一種基于價值的強化學習方法,其在Q 學習的基礎上,利用神經(jīng)網(wǎng)絡代替Q 學習中的查找表,提高了對狀態(tài)-動作函數(shù)Q(s,a)的擬合能力。同時,使用了經(jīng)驗回放(experience replay)技術和固定目標值(fixed Qtarget)的方法來提高算法的穩(wěn)定性,在深度強化領域取得了很大的成功。但DQN 與Q 學習一樣,在最優(yōu)化max 操作時會保留高估誤差,并將其傳播到后續(xù)過程中,這就導致DQN 總傾向于高估Q(s,a)。DDQN 通過將目標值計算中的max 操作分解為基于訓練網(wǎng)絡的動作選擇和基于目標網(wǎng)絡的估值計算兩部分,大大減小了DQN 的高估誤差,使算法更加穩(wěn)定。DDQN 的訓練算法如圖4 所示。

        圖4 DDQN 的具體訓練算法Fig.4 Detailed training algorithm of DDQN

        首先,隨機初始化訓練網(wǎng)絡Q(θ)和目標網(wǎng)絡Qˉ(θˉ),兩者的初始化參數(shù)相同,即θ=θˉ,并設定訓練的回合數(shù)M和目標網(wǎng)絡參數(shù)更新頻率B。一個訓練回合開始時,首先生成初始狀態(tài)s0,然后訓練網(wǎng)絡依據(jù)ε-greedy 策略選擇動作。ε-greedy 策略可由下式表示:

        式中:ε為探索率;λ為0 與1 之間隨機生成的數(shù);A為動作集。

        選擇動作at后,可以結合優(yōu)化充電次序策略對場站內(nèi)的電動汽車進行充電,并觀察之后的即時獎勵rt、新狀態(tài)st+1和回合結束信號D,并將樣本(st,at,rt,st+1,D)存入回放緩存中。接著,從回放緩存中隨機抽取一個批次的樣本,按照下式對訓練網(wǎng)絡參數(shù)進行更新。

        式中:μ為學習率。

        式(16)計算了各個樣本對應的目標值qtargett??梢钥吹?,Qˉ(s,a)中的動作選擇是基于訓練網(wǎng)絡的,而非DQN 中是基于目標網(wǎng)絡的,這是DDQN 與DQN 的主要區(qū)別;式(17)對訓練網(wǎng)絡參數(shù)進行更新,當觀察到回合結束信號時,結束當前回合并進入下一回合,重復上述過程直到設定的訓練回合數(shù)。其中,需要每隔一段訓練步數(shù)B,將訓練網(wǎng)絡的參數(shù)復制給目標網(wǎng)絡。

        4 算例分析

        4.1 算例說明

        在本文算例中,分時電價和電動汽車的用戶行為均基于現(xiàn)實中的數(shù)據(jù)。其中,分時電價數(shù)據(jù)來自California ISO[22]。電動汽車的用戶行為數(shù)據(jù)包括電動汽車到達充電場站的時間、離開時間和充電需求數(shù)據(jù),由文獻[23]所提出的數(shù)據(jù)生成器生成。真實的用戶數(shù)據(jù)由于保密緣故難以獲得,該數(shù)據(jù)生成器使用了荷蘭ElaadNL 公司所收集的真實電動汽車數(shù)據(jù)進行訓練,可以保證生成數(shù)據(jù)足夠真實地反映現(xiàn)實情況。電價取自California ISO 的2021 年10 月12 日數(shù)據(jù)。電動汽車在場站內(nèi)的最長泊車時間dmax設置為12 h??紤]交流充電方式,按目前主流電動汽車的電池容量和額定充電功率進行估算,最大充電時間設置為cmax=7 h。決策的時間間隔相對電動汽車充電時間和泊車時間要有足夠的區(qū)分度,將其設置為1 h,即Δt0=1 h。電動汽車的規(guī)模設置為720 輛,即每天到達充電場站的電動汽車數(shù)量的期望值為720。充電場站的充電樁規(guī)模設置為200 個。

        由式(6)可以計算出狀態(tài)向量的維數(shù)為64。本文將動作劃分為 11 個離散值,即at=(0,0.1,0.2,…,1.0)。對充電場站來說,以連續(xù)3 日為一個訓練回合。訓練網(wǎng)絡和目標網(wǎng)絡都設置為兩個隱藏層,每層有256 個神經(jīng)元,激活函數(shù)為ReLU。折扣因子γ、學習率、批次大小、更新頻率B和訓練回合數(shù)M分別設定為0.95、0.001、64、2 和8 000。訓練 過 程 在PC 機 上 進 行,CPU 為i7-8700,主 頻 為3.2 GHz,程 序 使 用Python 編 寫 并 使 用Pytorch 進 行訓練。

        4.2 算例結果

        4.2.1 訓練過程

        按照上述參數(shù)設置神經(jīng)網(wǎng)絡,利用DDQN 的算法訓練8 000 個回合,每個回合的總獎勵隨回合數(shù)的變化曲線如圖5 所示。

        圖5 DDQN 訓練收斂圖Fig.5 Training convergence diagram of DDQN

        圖5 中:藍線為各個回合的總獎勵值;綠線為對獎勵進行平滑處理后的結果,從平滑獎勵曲線中可以看出訓練的收斂效果;紅線為ε-greedy 策略中的探索率ε,探索率表示了選取隨機動作的概率。從圖5 中可以看出,在前3 000 個回合中智能體被鼓勵進行探索,回合的獎勵值逐漸增大,之后探索率逐漸下降并穩(wěn)定在0.01 附近,回合的獎勵值也隨之逐漸穩(wěn)定。獎勵值的提高和最終穩(wěn)定說明,所提MDP在應用DDQN 算法時的訓練表現(xiàn)較好。

        4.2.2 模型測試效果

        1)在測試集上的表現(xiàn)

        為了評估所提方法的效果,從文獻[23]所提的數(shù)據(jù)生成器中另外生成100 個回合的數(shù)據(jù)作為測試集,將圖5 中訓練完成的模型參數(shù)保存并固定下來,構成所提強化學習方法的決策模型,采用測試集測試其決策能力。將所提DDQN 方法的決策模型與其他動作策略在測試集上的表現(xiàn)進行比較。進行比較的動作策略包括:

        (1)理論最優(yōu)解,即在知道整個回合電動汽車的不確定性信息的基礎上,通過整數(shù)規(guī)劃進行優(yōu)化計算得到最優(yōu)解。具體模型見附錄B。由于電動汽車具有不確定性,該理論最優(yōu)解在現(xiàn)實中無法達到。

        (2)滿充動作,即始終令at=1。

        (3)啟發(fā)式動作,即決策動作與電價成反比,當為最高電價時at=0,當為最低電價時at=1。

        (4)隨機動作,即每個時刻的決策動作服從0 到1 的均勻分布。

        以上動作策略在動作決策后都遵循優(yōu)化充電次序策略來執(zhí)行具體充電動作。所提DDQN 方法與上述方法在測試集上的回合累積獎勵和回合累積“違約”頻數(shù)分別如附錄C 圖C1、圖C2 所示。

        附錄C 圖C1 中的回合累積獎勵是將多個回合的獎勵值逐漸累加起來得到的,其中橫軸第m個回合對應的回合累積獎勵表示前m個回合的獎勵值之和。從圖中可以看出,理論最優(yōu)解對應的回合累積獎勵最大?;睾侠鄯e獎勵的相反數(shù)即為回合累積總成本,所提DDQN 方法的100 回合累積總成本約為最優(yōu)解的1.197 倍,相對滿充動作策略,回合累積總成本降低了約7.42%,相對啟發(fā)式動作和隨機動作,則分別降低了17.68%和36.10%。附錄C 圖C2統(tǒng)計了在不同策略下回合累積的數(shù)量(或回合累積“違約”頻數(shù))。理論最優(yōu)解和滿充動作都沒有出現(xiàn)電動汽車充電需求無法滿足的情況,啟發(fā)式動作的回合累積最大。而所提DDQN 方法的回合累積相對較小,相對于隨機動作和啟發(fā)式動作的100 回合累積數(shù)量分別降低了約47.82%和54.12%。

        從附錄C 表C1 可以看出,回合累積獎勵由累積充電成本和累積懲罰兩部分組成。所提DDQN 方法的累積懲罰占回合累積獎勵的比例僅為10.95%,小于啟發(fā)式動作和隨機動作,同時,其累積充電成本僅次于理論最優(yōu)解,而優(yōu)于其他策略。這說明所提DDQN 方法能在優(yōu)先避免“違約”情況的同時,有效減少充電成本,在減小充電成本和避免充電需求“違約”懲罰之間達到較好的平衡。

        2)動作分析

        為了進一步驗證所提DDQN 方法的有效性,選取測試集中的一個回合,分析所提方法在該回合內(nèi)的具體動作,同時,選取幾輛典型電動汽車觀察其具體充電過程。DDQN 動作與電價曲線的趨勢對比圖,以及與理論最優(yōu)解的動作對比圖分別見附錄C圖C3、圖C4。典型電動汽車的充電過程見附錄C圖C5。

        從附錄C 圖C3 中可以看出,在電價處于低水平時,DDQN 選擇的動作值較大,場站的充電負荷也相對較大;當電價升高后,DDQN 的動作值變小,傾向于延遲為電動汽車充電,場站的充電負荷減小。這樣,充電場站在充分利用電動汽車可延遲充電這一靈活特性的基礎上,實現(xiàn)了對電價信號的響應,發(fā)揮了電動汽車在需求響應中的作用。在附錄C 圖C4 中,理論最優(yōu)解的充電行為按照式(7)被對應到[0,1]的范圍內(nèi)。從圖中可以看出,DDQN 所決策的充電動作與理論最優(yōu)解曲線的波動趨勢相同,兩者的具體動作相似。這說明了所提DDQN 方法的有效性。從附錄C 圖C5 中可以看出,在智能體的決策調度下,電動汽車的充電需求能夠得到滿足,并且電動汽車在電價較低時充電,在電價較高時延遲充電,因而降低了充電成本。

        4.2.3 電動汽車規(guī)模的影響

        本文為解決維數(shù)災問題,使訓練難度與電動汽車規(guī)模無關,主要通過“分箱”方法限制狀態(tài)空間的大小。為了對比所提方法在不同電動汽車規(guī)模下的訓練難度,改變電動汽車規(guī)模,使每天到達充電場站的電動汽車數(shù)量期望分別為720、5 000 和10 000輛,并觀察不同規(guī)模下模型訓練的收斂情況,結果如表1 所示。

        表1 不同電動汽車規(guī)模下的訓練和測試時間Table 1 Training and testing time under different EV scales

        從表1 可以看出,不同電動汽車規(guī)模下,模型訓練的收斂時間均約為60 min,模型訓練難度和成本不會隨著電動汽車規(guī)模的增大而迅速增大。這說明本文所提的深度強化學習方法可以應對大規(guī)模電動汽車有序充電中的維數(shù)災問題,也驗證了“分箱”法在限制狀態(tài)空間大小上的有效性。訓練收斂時間隨著電動汽車規(guī)模的增大會略微增加,這是由深度強化學習算法以外的一些運算所帶來的,如對數(shù)據(jù)生成器生成的電動汽車原始數(shù)據(jù)的預處理。

        從結果可以看出,不同電動汽車規(guī)模下的模型測試時間均很短。這說明在訓練完成后,該模型具有對充電場站內(nèi)的電動汽車進行實時調度的能力。

        4.2.4 優(yōu)化充電次序策略的優(yōu)勢

        為驗證本文所提出的基于最大零功率充電時間的優(yōu)化充電次序策略的有效性,在同樣的MDP 結構下,將優(yōu)化充電次序策略替換成隨機充電次序策略,即智能體決策出動作at或充電數(shù)量后,隨機對當前場站內(nèi)的對應數(shù)量電動汽車進行充電。該包含隨機次序充電策略的MDP 同樣采用DDQN 的算法進行訓練,且超參數(shù)與本文所提方法全部相同。令兩者在同樣的測試集上進行決策,測試結果見附錄D圖D1、圖D2。

        從圖中可以看出,使用優(yōu)化充電次序策略的場站的充電成本相對于隨機充電次序策略的成本更低,而未滿足充電需求的電動汽車數(shù)量也更少。具體來說,所提優(yōu)化充電次序策略使得充電成本和Nviot數(shù)量分別減少了約23.34%和82.63%,這也說明了優(yōu)化充電次序策略的有效性和必要性。優(yōu)化充電次序策略的重要意義在于其使得充電需求更為迫切的電動汽車優(yōu)先充電,從而避免出現(xiàn)不必要的充電需求“違約”情況,即電動汽車的充電要求在離站時無法得到滿足的情況。

        5 結語

        基于深度強化學習的有序充電控制能有效處理電動汽車出行和充電需求的不確定性問題。針對其中的維數(shù)災問題,本文提出了限制狀態(tài)空間和動作空間大小的方法,進而建立了一種適合大規(guī)模電動汽車的MDP 模型。結合算例結果可以得到以下結論:

        1)利用“分箱”方法將充電場站內(nèi)所有電動汽車的充電需求信息壓縮為一個固定維數(shù)的矩陣,可有效控制狀態(tài)空間的大?。凰岢龅幕谧畲罅愎β食潆姇r間的充電次序優(yōu)化策略能有效控制動作空間的大小。

        2)結合“分箱”方法和充電次序優(yōu)化策略,可建立一種適用于大規(guī)模電動汽車有序充電問題的MDP 模型。算例結果表明,該MDP 對應的訓練成本和難度與電動汽車規(guī)模無關,并且訓練的收斂速度快、計算量小。

        3)DDQN 訓練得到的有序充電策略可以有效應對大規(guī)模電動汽車的不確定性,減少充電場站的充電成本。模型訓練完成后,可對充電場站內(nèi)的電動汽車進行實時調度,應用前景廣闊。

        本文考慮的分時電價為固定值,后續(xù)研究可將電價的歷史信息作為狀態(tài)輸入,從而進一步考慮電價的不確定性。

        附錄見本刊網(wǎng)絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡全文。

        猜你喜歡
        次序場站電動汽車
        《漢紀》對漢帝功業(yè)次序的重構及其意義
        天邁科技助力深圳東部公交場站標準化建設 打造場站新標桿
        重大事故后果模擬法在天然氣場站安全評價中的應用
        場站架空管道點蝕組合檢測技術及應用
        純電動汽車學習入門(二)——純電動汽車概述(下)
        電動汽車
        生日謎題
        現(xiàn)在可以入手的電動汽車
        海外星云(2016年17期)2016-12-01 04:18:42
        放假一年
        專注:電動汽車背后的技術創(chuàng)新
        欧美精品一区二区蜜臀亚洲| 亚洲无人区乱码中文字幕动画| 国内嫩模自拍诱惑免费视频| 国产啪亚洲国产精品无码| 少妇内射视频播放舔大片| 亚洲AV小说在线观看| 国产一区二区三区的区| 久久久中文久久久无码| 国产亚洲精品第一综合麻豆| 国产亚洲精品日韩香蕉网| 精品熟女视频一区二区三区国产| 国产精品99精品久久免费| 久久不见久久见免费视频7| 日韩免费高清视频网站| 今井夏帆在线中文字幕| 亚洲人成影院在线无码按摩店| 99久久免费看少妇高潮a片特黄| 国产美女被遭强高潮露开双腿| 亚州中文热码在线视频| 巨大巨粗巨长 黑人长吊| 国产喷水在线观看| 亚洲精品一区二区三区国产| 免费在线观看av不卡网站| 久久中文精品无码中文字幕下载| 亚洲中文字幕无码卡通动漫野外| av在线资源一区二区| 国产一精品一av一免费爽爽| 色妞色综合久久夜夜| 狠狠亚洲超碰狼人久久老人| 精品国产亚洲av高清大片| 狠狠做深爱婷婷久久综合一区| 亚洲午夜精品久久久久久抢 | 欲妇荡岳丰满少妇岳| 北岛玲精品一区二区三区| 亚洲人成网站色在线入口口| аⅴ资源天堂资源库在线| 亚洲另类激情专区小说婷婷久| 精品精品国产一区二区性色av| 亚洲乱码国产乱码精品精| 国产91成人精品亚洲精品| 熟女人妻一区二区中文字幕|