黃帥博,陳 蓓,高降宇
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
全球工業(yè)化的加速和人類物質(zhì)需求的提高,導(dǎo)致化石原料不斷減少及其帶來的環(huán)境問題日益凸顯。有數(shù)據(jù)顯示,2021 年全球能源的消耗量達(dá)到1.386 5×1010t 油當(dāng)量,與此同時(shí),化石燃料直接或間接地產(chǎn)生了3.368×1010t 的碳排放[1],且仍有增長(zhǎng)趨勢(shì)。作為典型工業(yè)化產(chǎn)物的汽車工業(yè),其發(fā)展迅速,私家車的數(shù)量顯著增加,對(duì)化石原料的消耗不可忽視。目前,我國(guó)汽車油耗占全國(guó)油耗總量的25%,對(duì)國(guó)外石油的依賴度已達(dá)到60%[2],長(zhǎng)年累月的汽車燃料消耗將進(jìn)一步加劇能源短缺問題。另一方面,傳統(tǒng)的燃料汽車在消耗不可再生能源的過程中,會(huì)不可避免地排放一定量的有害氣體,從而加劇環(huán)境惡化,不符合我國(guó)目前所倡導(dǎo)的碳達(dá)峰、碳中和新發(fā)展理念[3-4]。
新能源電動(dòng)汽車EV(Electric Vehicle)有望成為解決上述問題的有效措施之一。相較于傳統(tǒng)的燃料汽車,EV 的動(dòng)力主要來源于電能,其具有低/無污染、高能效等優(yōu)點(diǎn),因此EV 的大規(guī)模使用對(duì)于改善環(huán)境、增強(qiáng)對(duì)可再生能源的消納能力、提升電網(wǎng)的供電質(zhì)量有積極的促進(jìn)作用。其中,支持車網(wǎng)互動(dòng)V2G(Vehicle to Grid)技術(shù)[5-6]的EV 能夠作為柔性負(fù)荷,連接到電網(wǎng)中進(jìn)行充放電,此類新型負(fù)荷具有“時(shí)空”屬性[7],可以視作移動(dòng)儲(chǔ)能設(shè)備。但受個(gè)體用戶行為的影響,其充電位置和充電時(shí)間分散且無序。因此,EV 的充電管理面臨著諸多挑戰(zhàn):①隨著EV 數(shù)量的不斷增加,充電需求也增加,且充電負(fù)荷會(huì)與電網(wǎng)其他負(fù)荷的用電高峰重合,導(dǎo)致充電成本過高[8]和供需不平衡問題;②EV 用戶的停車和充電行為具有不確定性,EV 無序充電會(huì)導(dǎo)致電網(wǎng)電壓波動(dòng),易引起電網(wǎng)的穩(wěn)定性問題[9]。
針對(duì)上述問題,文獻(xiàn)[10]提出了一種實(shí)時(shí)二進(jìn)制優(yōu)化模型,將線性規(guī)劃方法和兩階段凸松弛方案相結(jié)合,實(shí)時(shí)計(jì)算接近最優(yōu)的EV 充電計(jì)劃。然而,此類方法依賴模型預(yù)測(cè)估計(jì)EV的充電需求、到達(dá)時(shí)刻、離開時(shí)刻,但是在實(shí)際中很難得到精確模型。為了減少模型的不精確性對(duì)性能的影響,同時(shí)考慮到現(xiàn)實(shí)中存在的不確定性,近年來以馬爾可夫決策過程MDP(Markov Decision Process)為嚴(yán)格數(shù)學(xué)基礎(chǔ)的強(qiáng)化學(xué)習(xí)方法被用于解決EV 充電相關(guān)的優(yōu)化調(diào)度問題,例如:文獻(xiàn)[11]建立了離線的換電站調(diào)度模型,并設(shè)計(jì)了一種帶基線的蒙特卡羅策略梯度強(qiáng)化學(xué)習(xí)算法求解近似最優(yōu)解;文獻(xiàn)[12]建立了基于博弈論的實(shí)時(shí)電力交互模型,并設(shè)計(jì)了一種遷移強(qiáng)化學(xué)習(xí)算法對(duì)模型進(jìn)行求解。
需要指出的是,上述研究工作采用的是基于數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法,所提模型的訓(xùn)練存在維數(shù)災(zāi)難或迭代次數(shù)過多的問題。為了解決隨機(jī)環(huán)境中高維狀態(tài)空間表征的問題,許多學(xué)者通過引入神經(jīng)網(wǎng)絡(luò)來提高強(qiáng)化學(xué)習(xí)模型對(duì)數(shù)據(jù)的擬合能力,例如:文獻(xiàn)[13]提出了經(jīng)驗(yàn)存儲(chǔ)的深度強(qiáng)化學(xué)習(xí)方法,用于克服風(fēng)電、光伏和負(fù)荷的不確定性變化,并以最大化微電網(wǎng)的經(jīng)濟(jì)利益和居民滿意度為目標(biāo),但未考慮EV接入微電網(wǎng)所帶來的影響;文獻(xiàn)[14]提出了一種基于最大熵值的深度強(qiáng)化學(xué)習(xí)的充換電負(fù)荷實(shí)時(shí)優(yōu)化調(diào)度策略,考慮了用戶因素、系統(tǒng)因素和市場(chǎng)因素,制定了不同的應(yīng)用場(chǎng)景,但未考慮大量電池老化帶來的經(jīng)濟(jì)成本問題。目前,關(guān)于電動(dòng)汽車充電站EVCS(Electric Vehicle Charging Station)參與“車-路-網(wǎng)”[15]的能量交互,并考慮其經(jīng)濟(jì)性和實(shí)用性的研究較少。而大規(guī)模的EVCS 作為EV 與電網(wǎng)的“中間商”,是實(shí)現(xiàn)EV 與未來能源互聯(lián)網(wǎng)深度融合的重要組成部分。
基于上述分析,本文從EVCS 的角度出發(fā),考慮分時(shí)電價(jià)和EV用戶行為的不確定性,將深度Q網(wǎng)絡(luò)DQN(Deep Q-Network)應(yīng)用于并網(wǎng)EVCS,進(jìn)行EV充放電行為的在線優(yōu)化調(diào)度,實(shí)現(xiàn)EVCS 日運(yùn)營(yíng)成本最小化。首先,建立了由充電成本、老化成本、懲罰成本組成的傳統(tǒng)成本模型,且考慮到傳統(tǒng)MDP 模型無法處理約束的缺點(diǎn)以及用戶的行為存在不確定性,構(gòu)建了一個(gè)新的有限回合MDP 模型,并基于傳統(tǒng)成本模型提出了MDP 的獎(jiǎng)懲回報(bào)函數(shù);然后,針對(duì)隨機(jī)環(huán)境下模型訓(xùn)練遇到的高維狀態(tài)空間問題,設(shè)計(jì)了相應(yīng)的狀態(tài)空間和動(dòng)作空間,并采用一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合強(qiáng)化學(xué)習(xí)的方法,通過從原始觀測(cè)數(shù)據(jù)中提取高質(zhì)量經(jīng)驗(yàn)來趨近最優(yōu)調(diào)度以達(dá)到優(yōu)化目標(biāo);最后,基于某典型的公共社區(qū)停車場(chǎng)數(shù)據(jù)進(jìn)行算例分析,驗(yàn)證本文所提基于MDP 模型的能量管理策略在解決EV 充放電調(diào)度問題方面的有效性和優(yōu)越性。
本文研究的EV充放電調(diào)度策略由并網(wǎng)的EVCS決策執(zhí)行,目的是通過區(qū)域內(nèi)EV與電網(wǎng)進(jìn)行電能交互,實(shí)現(xiàn)EVCS 日運(yùn)營(yíng)成本最小化。EVCS 的結(jié)構(gòu)示意圖如圖1 所示。EVCS 可視為并網(wǎng)的分布式儲(chǔ)能裝置,其中雙向直流充電樁用于V2G 服務(wù),雙向交直流轉(zhuǎn)換器在本地電網(wǎng)和EVCS 之間傳輸電力,以保持直流母線的穩(wěn)定性。EV 充電裝置和電網(wǎng)側(cè)的電力轉(zhuǎn)換器共享1 條直流母線,減少了基礎(chǔ)設(shè)施投資,提高了能源轉(zhuǎn)換效率。
圖1 EVCS的結(jié)構(gòu)示意圖Fig.1 Structure diagram of EVCS
EVCS 通過協(xié)調(diào)EV 用戶的充電需求、荷電狀態(tài)SOC(State Of Charge)、電網(wǎng)的分時(shí)電價(jià)進(jìn)行優(yōu)化調(diào)度,使系統(tǒng)日運(yùn)營(yíng)成本最小化。調(diào)度過程涉及電網(wǎng)運(yùn)營(yíng)商、EV 用戶、EVCS 運(yùn)營(yíng)商這3 個(gè)角色,其中:電網(wǎng)運(yùn)營(yíng)商負(fù)責(zé)維護(hù)電網(wǎng),并提供基礎(chǔ)電力服務(wù),且為了減輕電力需求負(fù)擔(dān)、降低輸電維護(hù)成本,電網(wǎng)運(yùn)營(yíng)商傾向于采用分時(shí)電價(jià),以鼓勵(lì)終端用戶參與需求側(cè)能源管理;EVCS運(yùn)營(yíng)商在運(yùn)營(yíng)過程中被認(rèn)為是電網(wǎng)的價(jià)格接受者,這意味著其不影響電力市場(chǎng)的清算價(jià)格,可以通過電價(jià)差、提供停車服務(wù)獲取利潤(rùn)。EVCS運(yùn)營(yíng)商考慮分時(shí)電價(jià)和EV用戶行為的不確定性,以日運(yùn)營(yíng)成本最小化和延緩電池老化為目標(biāo),制定EV的充放電優(yōu)化調(diào)度策略。
EVCS運(yùn)營(yíng)商通過優(yōu)化調(diào)度EV的充放電行為以達(dá)到日運(yùn)營(yíng)成本最小化的目標(biāo),目標(biāo)函數(shù)可以表示為:
2.1.2 EVCS懲罰成本
EVCS 懲罰成本主要是指在運(yùn)行過程中,若EV在離開EVCS 時(shí)電池電量沒有達(dá)到目標(biāo)電量,則EVCS 需向用戶支付的罰款。若EV 離開EVCS 時(shí)電池電量大于等于目標(biāo)電量,則不會(huì)產(chǎn)生罰款;若EV離開EVCS 時(shí)電池電量小于目標(biāo)電量,則未滿足的電量將以單價(jià)ape進(jìn)行罰款。則懲罰成本可表示為:
2.1.3 EV電池老化成本
長(zhǎng)時(shí)間充放電調(diào)度會(huì)導(dǎo)致EV電池逐漸老化,可用容量不斷衰減,性能下降。因此,EVCS 需要承擔(dān)一部分充放電導(dǎo)致的EV電池老化成本,其主要受充放電功率、功率波動(dòng)等不同因素影響,可表示為:
式中:C1,i、C2,i分別為EVi的自然充電損耗成本、充放電狀態(tài)切換造成的老化成本;Δt為EVCS 進(jìn)行優(yōu)化調(diào)度的時(shí)間步長(zhǎng);Pt,i為t時(shí)段EVi的充放電功率;δ為電池自然老化系數(shù),是很小的正數(shù);β為充放電狀態(tài)切換導(dǎo)致功率變化的老化系數(shù)。
電池?fù)p耗程度是老化成本的一個(gè)關(guān)鍵參數(shù),充電功率會(huì)導(dǎo)致電池自然老化,但其損耗較??;充放電狀態(tài)切換對(duì)電池造成的損耗較大,切換狀態(tài)相鄰時(shí)段的充放電功率波動(dòng)越大,則對(duì)電池造成的損耗越大。雖然電力電子元器件減少了部分損耗,但充放電過程對(duì)電池造成的損耗仍不可忽視。
2.1.4 確定性約束條件
EVCS在EV的可調(diào)度時(shí)段內(nèi)將其充電至目標(biāo)電量,在充電過程中需滿足如下確定性約束條件:
式中:Pmax為EV 的最大充放電功率,受充放電設(shè)備和電池容量限制,其值大于0 表示充電,值小于0 表示放電;Pgridt為t時(shí)段EVCS 與電網(wǎng)交互的充放電功率;zt為t時(shí)段EV 接入后的總負(fù)荷;Lbt為t時(shí)段電網(wǎng)的基礎(chǔ)負(fù)荷;LEVt為t時(shí)段EVCS 內(nèi)EV 的綜合負(fù)荷;J為t時(shí)段進(jìn)行實(shí)時(shí)充放電的EV數(shù)量。
2.1.5 不確定性約束條件
本文主要考慮了EV用戶行為的不確定性,包括EV 的到達(dá)時(shí)刻、離開時(shí)刻、初始SOC,通常將這些不確定性因素理想化為服從某種概率分布進(jìn)行數(shù)學(xué)建模。本文考慮EV充放電更為實(shí)際的情況,所提模型不依賴于概率分布,而是對(duì)用戶數(shù)據(jù)集進(jìn)行隨機(jī)采樣,并主動(dòng)學(xué)習(xí)得到每輛EV 的初始信息。則EV 需滿足的不確定性約束條件如下:
傳統(tǒng)成本模型存在如下問題:①式(7)、(8)、(12)、(13)假定了電池老化系數(shù)、到達(dá)EVCS 的時(shí)刻、離開EVCS 的時(shí)刻等參數(shù);②當(dāng)考慮耦合約束條件式(10)和式(11)時(shí),在轉(zhuǎn)移概率未知的情況下難以在有限的調(diào)度周期內(nèi)獲得最優(yōu)解。傳統(tǒng)MDP 需要根據(jù)約束假定轉(zhuǎn)移概率矩陣,往往無法應(yīng)對(duì)EV充放電調(diào)度任務(wù)的廣泛性和復(fù)雜性。為了解決上述問題,本文設(shè)計(jì)了有限回合MDP和相應(yīng)的狀態(tài)空間S、動(dòng)作空間A,并基于傳統(tǒng)成本模型設(shè)計(jì)決策過程中的獎(jiǎng)懲回報(bào)函數(shù)R,無需依賴具體的物理模型,可求解得到EV 的實(shí)時(shí)充放電策略和EVCS 的最優(yōu)日運(yùn)營(yíng)成本。
2.2.1 狀態(tài)空間
在單個(gè)時(shí)段t(t=1,2,…,T)內(nèi),EVCS 通過觀察環(huán)境的信息特征積累經(jīng)驗(yàn),基于此選擇充放電動(dòng)作以達(dá)到優(yōu)化目標(biāo)。本文中的EVCS 日運(yùn)營(yíng)成本取決于時(shí)間步長(zhǎng)Δt內(nèi)電價(jià)、充放電動(dòng)作和EV 到達(dá)/離開充電站時(shí)刻的變化,因此可以給出MDP 和智能體的序貫?zāi)P?,如附錄A圖A1所示。
針對(duì)后續(xù)求解過程中的狀態(tài)空間維數(shù)問題,設(shè)計(jì)一個(gè)有限的狀態(tài)空間St,如式(17)所示。
式中:Et,i、Eini、Eoffi為電池狀態(tài)位,Et,i為t時(shí)段EVi的電池電量;xt,i為充放電狀態(tài)位,表示t時(shí)段EVi的充放電狀態(tài);Oleave,t,i為停車狀態(tài)位,表示t時(shí)段EVi是否停留在EVCS,若停留則取值為0,若離開則取值為1;fprice為電網(wǎng)的分時(shí)電價(jià)。
MDP示意圖如附錄A圖A1所示,智能體為接入EVCS 的EV,當(dāng)EV 數(shù)量增多時(shí),系統(tǒng)會(huì)出現(xiàn)高維狀態(tài)空間,可根據(jù)智能體的數(shù)量進(jìn)行空間劃分,將其解耦[16]為多個(gè)單獨(dú)狀態(tài)子空間。因此,每個(gè)解耦子模型的狀態(tài)空間維數(shù)為24×8階,分別對(duì)應(yīng)24個(gè)決策節(jié)點(diǎn)(各調(diào)度時(shí)段的開始時(shí)刻)的EV狀態(tài)信息。
2.2.2 動(dòng)作空間
在每個(gè)決策節(jié)點(diǎn),智能體EV 有充電、放電和不充不放這3 種可能的動(dòng)作狀態(tài),因此解耦子模型的動(dòng)作空間為3 元組,在不解耦的情況下t時(shí)段的空間大小為3J。顯然,解耦模型顯著減小了優(yōu)化問題的規(guī)模,提高了搜索速度,增強(qiáng)了實(shí)用性。
在解耦子模型i(對(duì)應(yīng)于EVi)中,用xt,i表征智能體的充放電行為,具體取值為:
2.2.3 狀態(tài)轉(zhuǎn)移
在隨機(jī)環(huán)境中,定義狀態(tài)轉(zhuǎn)移函數(shù)為St+1=f(St,At),其中f為MDP 隨機(jī)轉(zhuǎn)移概率函數(shù),其過程較難預(yù)測(cè),類似為暗箱模型;下一個(gè)狀態(tài)St+1由當(dāng)前狀態(tài)St和當(dāng)前狀態(tài)下采取的動(dòng)作At決定,如式(20)所示。
本文所設(shè)計(jì)有限回合MDP 的狀態(tài)轉(zhuǎn)移的開始和結(jié)束由式(18)決定,充放電狀態(tài)轉(zhuǎn)移邏輯如附錄A 圖A2 所示。由于充放電狀態(tài)的轉(zhuǎn)移很難用準(zhǔn)確的概率分布數(shù)學(xué)模型進(jìn)行合理的描述,本文采用DQN 算法進(jìn)行求解,利用訓(xùn)練模型在經(jīng)驗(yàn)樣本中隱式地學(xué)習(xí)充放電狀態(tài)轉(zhuǎn)移的概率分布。
2.2.4 獎(jiǎng)懲回報(bào)函數(shù)
EVCS 日運(yùn)營(yíng)成本的傳統(tǒng)模型以EV 充電成本、EVCS懲罰成本、EV 電池老化成本為優(yōu)化目標(biāo),本節(jié)在此基礎(chǔ)上,設(shè)計(jì)了MDP 的獎(jiǎng)懲回報(bào)函數(shù)。模型最終尋優(yōu)決策使EVCS 日運(yùn)營(yíng)成本最小化,所得智能體EV 的策略由MDP 中的獎(jiǎng)懲回報(bào)函數(shù)進(jìn)行評(píng)價(jià),獎(jiǎng)懲回報(bào)與智能體在當(dāng)前狀態(tài)的動(dòng)作空間(搜索過程)中選擇的動(dòng)作是一一對(duì)應(yīng)的。因此,t時(shí)段解耦子模型i的獎(jiǎng)懲回報(bào)rt,i與當(dāng)前狀態(tài)的電量有關(guān),如式(21)所示。下一時(shí)段的電池電量Et+1,i與當(dāng)前狀態(tài)選擇的充放電行為有關(guān),如式(22)所示。
針對(duì)傳統(tǒng)MDP 面臨的維數(shù)災(zāi)難問題,即在環(huán)境交互過程中產(chǎn)生的狀態(tài)空間很大且連續(xù),無法用普通的查表法來求解每一個(gè)狀態(tài)-動(dòng)作價(jià)值Q的問題,本文采用DQN 算法,使用深度神經(jīng)網(wǎng)絡(luò)來表示狀態(tài)-動(dòng)作Q值函數(shù),通過與環(huán)境交互學(xué)習(xí)積累經(jīng)驗(yàn)以訓(xùn)練求解模型。
MDP 的常規(guī)求解方法包括數(shù)值迭代和策略迭代,實(shí)時(shí)動(dòng)態(tài)規(guī)劃算法[17]是改進(jìn)的啟發(fā)式搜索算法,但需要預(yù)先設(shè)定環(huán)境的動(dòng)力學(xué)模型。在本文研究中采用的DQN 算法無需具體的模型處理數(shù)據(jù)的不確定性。EV 的到達(dá)時(shí)刻、離開時(shí)刻、初始SOC 等信息是難以完美預(yù)測(cè)的,而本文所提方法不依賴于任何先驗(yàn)信息的假設(shè),隨機(jī)抽取EV 接入EVCS。MDP 模型能同時(shí)獲得到達(dá)時(shí)刻tarri、用戶設(shè)定的充電目標(biāo)電量EOFFi、離開時(shí)刻tdepi以及初始SOCesoc,i作為狀態(tài)空間S的初始狀態(tài)信息,并將到達(dá)時(shí)刻、離開時(shí)刻分別作為有限回合MDP 的開始和結(jié)束標(biāo)志開始訓(xùn)練模型,通過與環(huán)境交互生成經(jīng)驗(yàn)樣本(St,At,R,St+1,end)得到最優(yōu)策略。DQN算法結(jié)構(gòu)如附錄A圖A3所示。
DQN 算法無需先驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,而是通過智能體和環(huán)境交互記錄相關(guān)的數(shù)據(jù)(St,At,R,St+1,end)并將其存儲(chǔ)為經(jīng)驗(yàn)樣本池,利用深度神經(jīng)網(wǎng)絡(luò)來表示Q值函數(shù),且考慮到數(shù)據(jù)關(guān)聯(lián)會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)不穩(wěn)定,通過模型隨機(jī)更新經(jīng)驗(yàn)樣本池。智能體只需要知道當(dāng)前狀態(tài)和動(dòng)作列表,每個(gè)狀態(tài)-動(dòng)作組合都有一個(gè)與之相關(guān)的值,將其稱為狀態(tài)-動(dòng)作價(jià)值Q。Q值函數(shù)[18]可表示為:
式中:rt為當(dāng)前狀態(tài)st執(zhí)行動(dòng)作at的獎(jiǎng)懲回報(bào);γ∈(0,1)為當(dāng)前狀態(tài)預(yù)期未來獎(jiǎng)勵(lì)的衰減因子;策略π(s)為狀態(tài)到動(dòng)作的映射,表示當(dāng)前狀態(tài)st選擇的動(dòng)作at轉(zhuǎn)移到下一個(gè)狀態(tài)st+1;P(st+1|st)為當(dāng)前狀態(tài)st到下一狀態(tài)st+1的狀態(tài)轉(zhuǎn)移概率;Qπ(st+1)為執(zhí)行策略π(s)后下一狀態(tài)st+1的狀態(tài)-動(dòng)作價(jià)值。
由于MDP 模型中Q值、轉(zhuǎn)移概率矩陣是未知的,在訓(xùn)練過程中DQN引入了2個(gè)網(wǎng)絡(luò):①固定參數(shù)的目標(biāo)Q值網(wǎng)絡(luò),用于固定步長(zhǎng)更新參數(shù);②根據(jù)評(píng)價(jià)策略更新參數(shù)的動(dòng)作值函數(shù)逼近網(wǎng)絡(luò),在每一個(gè)時(shí)段內(nèi)進(jìn)行更新逼近,直至完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。更新策略如下:
式中:Qt(st,at)、Qt+1(st,at)分別為當(dāng)前時(shí)段、下一時(shí)段的狀態(tài)-動(dòng)作價(jià)值;α∈(0,1)為學(xué)習(xí)率。式(24)表示狀態(tài)-動(dòng)作組合(st,at)的下一個(gè)時(shí)段Q值為當(dāng)前時(shí)段的Q值加上學(xué)習(xí)率和下一次估計(jì)的誤差乘積。新的估計(jì)值是當(dāng)前時(shí)段的Q值與下一個(gè)狀態(tài)下可能的最大Q值之和。
在本文設(shè)計(jì)的有限回合MDP 模型中,如果這個(gè)回合有終止標(biāo)識(shí)符,則在這個(gè)過程中就不再有未來的狀態(tài)。因此,式(24)中含γ的項(xiàng)在更新過程中會(huì)衰減至0,算法的偽代碼見附錄A表A1。
本文以某典型公共社區(qū)停車場(chǎng)結(jié)合某屆“電工杯”的EV 用戶真實(shí)數(shù)據(jù)[19]為算例進(jìn)行仿真分析,部分?jǐn)?shù)據(jù)見附錄B 表B1。算例的仿真規(guī)模主要受J、N這2個(gè)參數(shù)影響,本文設(shè)定J的取值范圍為[0,40]輛,N=200輛,即每天接入EVCS的EV總數(shù)量為200輛,且各時(shí)段EVCS 內(nèi)的EV 數(shù)量不超過40 輛。每天隨機(jī)抽取EV 用戶數(shù)據(jù),通過仿真驗(yàn)證本文所提基于MDP 的EVCS 能量管理策略的可行性和有效性。其中EV離開充電站時(shí)的目標(biāo)電量EOFFi由用戶設(shè)置,EV電池的容量為20 kW·h,充放電功率為3 kW(充電時(shí)功率為正值,放電時(shí)功率為負(fù)值),充放電效率η=0.95。進(jìn)行調(diào)度決策的周期為24 h,時(shí)段間隔為1 h,期間功率不變,模型參數(shù)設(shè)置如附錄B 表B2 所示。
在EVCS 的運(yùn)行過程中,采用我國(guó)局部地區(qū)的分時(shí)電價(jià)作為購(gòu)電電價(jià),具體如附錄B 表B3 所示。且考慮到與電網(wǎng)交互功率會(huì)產(chǎn)生相關(guān)的維護(hù)費(fèi)用,則EVCS 實(shí)時(shí)地將售電電價(jià)asellt設(shè)定為購(gòu)電電價(jià)abuyt的95%,如式(25)所示。
采用第3 節(jié)所提方法訓(xùn)練MDP 模型,在運(yùn)行過程中以EV的到達(dá)時(shí)刻、離開時(shí)刻分別作為有限回合MDP 模型的開始和結(jié)束標(biāo)志。模型中S含有8 個(gè)變量,即輸入的初始狀態(tài)信息為8 維向量;神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用2層全連接層,每層的神經(jīng)元個(gè)數(shù)分別為38、16;輸出變量維數(shù)與動(dòng)作空間維數(shù)一致,為3。模型的學(xué)習(xí)率α=0.002,衰減因子γ=0.8;設(shè)置EVCS 未滿足充電需求的懲罰單價(jià)ape=1.2 元/(kW·h)。訓(xùn)練過程共進(jìn)行12000個(gè)回合,每個(gè)回合隨機(jī)得到EV 的到達(dá)時(shí)刻、離開時(shí)刻、初始SOC。
4.2.1 不同成本函數(shù)的優(yōu)化結(jié)果
為了驗(yàn)證所提EVCS 能量管理策略的可行性和有效性,基于真實(shí)的用戶數(shù)據(jù)進(jìn)行MDP 模型訓(xùn)練,并以日運(yùn)營(yíng)成本最小化為目標(biāo)進(jìn)行優(yōu)化調(diào)度,結(jié)果如圖2 所示。對(duì)模型訓(xùn)練12 000 個(gè)回合,行為策略選用ε-貪心探索,將前4 000 個(gè)回合作為經(jīng)驗(yàn)樣本池,此時(shí)ε=0.8,進(jìn)行數(shù)據(jù)初始化后隨機(jī)選擇動(dòng)作,該過程不學(xué)習(xí)動(dòng)作的選擇而僅積累經(jīng)驗(yàn);訓(xùn)練4000個(gè)回合之后,模型開始學(xué)習(xí)搜索最優(yōu)的動(dòng)作,ε在該過程中逐漸減少至0.000 1 并保持不變。ε的衰減過程表示智能體EV 從隨機(jī)選擇逐漸轉(zhuǎn)變?yōu)椤奥斆鳌钡剡x擇最優(yōu)動(dòng)作。
圖2 MDP模型的訓(xùn)練結(jié)果Fig.2 Training results of MDP model
從圖2 中的曲線可看出,局部區(qū)域存在波動(dòng),這是因?yàn)楦饔?xùn)練回合開始隨機(jī)抽取EV,且用戶的行為存在不確定性,即EV的離開會(huì)使電量和功率狀態(tài)突然發(fā)生改變,該回合的結(jié)束環(huán)境也需進(jìn)行初始化,導(dǎo)致各訓(xùn)練回合存在可控的狀態(tài)差異,使得獎(jiǎng)懲回報(bào)曲線產(chǎn)生了一定的波動(dòng)。
設(shè)置相同的超參數(shù),MDP 模型考慮EV 電池老化成本對(duì)求解過程產(chǎn)生的影響結(jié)果見附錄B 圖B1。由圖可看出:模型初期訓(xùn)練的過程大致相同,均在進(jìn)行隨機(jī)探索和經(jīng)驗(yàn)積累,是不斷試錯(cuò)的過程;訓(xùn)練4 000 個(gè)回合左右時(shí),考慮、不考慮EV 電池老化成本的方案基本尋得一致的收斂方向,由于EVCS 需要求解充放電切換造成的電池容量損耗,考慮老化成本會(huì)使模型的收斂速度更慢,且收斂過程波動(dòng)更大,同時(shí)前期的經(jīng)驗(yàn)存儲(chǔ)也更復(fù)雜,這增加了模型的訓(xùn)練難度;最終考慮、不考慮EV 電池老化成本的方案都能收斂,且考慮電池?fù)p耗確實(shí)增加了少量的成本,但延緩了電池老化,這更符合實(shí)際情況。
總體而言,在超參數(shù)相同的情況下,考慮、不考慮EV電池老化成本的方案都能穩(wěn)定收斂,雖然考慮老化成本的方案在模型訓(xùn)練前期的難度增大,但隨著訓(xùn)練回合的進(jìn)行,考慮老化成本帶來的影響逐漸減小,2 種方案基本在相同的訓(xùn)練時(shí)間內(nèi)穩(wěn)定收斂,進(jìn)行實(shí)時(shí)調(diào)度。
4.2.2 不同策略的成本結(jié)果
為了評(píng)估本文所提基于MDP 模型的能量管理策略(本文策略)的有效性,將其與隨機(jī)延遲充電RND(Randomly Delayed Charging)[20]策略進(jìn)行對(duì)比分析。2種策略下的日運(yùn)營(yíng)成本比較如圖3所示(左側(cè)、右側(cè)條形分別對(duì)應(yīng)本文策略、RND 策略)。由圖可知:相較于RND 策略,本文策略下EVCS 的日運(yùn)營(yíng)成本明顯減少,下降了33.6%左右;RND 策略未滿足用戶需求產(chǎn)生的EVCS 懲罰成本普遍高于本文策略,且第二天的懲罰成本最大;考慮了EV 電池老化成本的本文策略利用分時(shí)電價(jià)差,減少了部分充電成本,但也產(chǎn)生了少量的電池老化成本。
圖3 本文策略和RND策略下的日運(yùn)營(yíng)成本比較Fig.3 Comparison of daily operation cost between proposed strategy and RND strategy
2 種策略下EVCS 的具體成本(5 d)比較如表1所示。由表可知:相較于RND 策略,EVCS 在本文策略下運(yùn)營(yíng)5 d,考慮了EV 電池老化成本的總運(yùn)營(yíng)成本為8 661 元,減少了33.6%左右,其中充電成本在電價(jià)差的作用下為6 618 元,減少了16.6%左右,EV電池老化成本和EVCS 懲罰成本之和為2 043 元,減少了43.2%左右;EVCS 經(jīng)過5 d 的運(yùn)營(yíng),本文策略、RND策略下每輛EV的平均日運(yùn)營(yíng)成本分別為8.66、11.56元?;谇拔牡姆治?,本文策略通過獎(jiǎng)懲回報(bào)和優(yōu)化調(diào)度充放電行為以適應(yīng)不同的用戶需求,達(dá)到了日運(yùn)營(yíng)成本最優(yōu)。
表1 本文策略和RND策略下EVCS的成本比較(5 d)Table 1 Comparison of EVCS cost between proposed strategy and RND strategy(5 days) 單位:元
本文策略以EVCS 日運(yùn)營(yíng)成本最小化為目標(biāo)實(shí)時(shí)調(diào)度EV的充放電行為。為了更直觀地說明EV充放電狀態(tài)的變化,選取20 輛EV 的充放電過程進(jìn)行分析,并驗(yàn)證考慮電池老化成本的本文策略的有效性。
本文策略下20 輛EV 的SOC 變化曲線如圖4 所示。由圖可知:當(dāng)EV 到達(dá)EVCS 的時(shí)刻處于峰時(shí)段(10:00—14:00、17:00—20:00)內(nèi)時(shí),若EV 的初始SOC較高,則采取放電策略,若EV的初始SOC較低,則在滿足充電需求的前提下,采取不充不放策略;當(dāng)EV 到達(dá)EVCS 的時(shí)刻處于平時(shí)段(07:00—10:00、15:00—17:00)內(nèi)時(shí),不論EV 的初始SOC 是高還是低,都會(huì)采取充電策略。可見,在電網(wǎng)峰平谷分時(shí)電價(jià)的作用下,EVCS 傾向于在峰時(shí)段提供V2G 服務(wù),在其他時(shí)段為EV 充電,在降低了充電成本的同時(shí),減少了電網(wǎng)峰時(shí)段的用電壓力。
圖4 本文策略下20輛EV的SOC變化曲線Fig.4 SOC curves of twenty EVs under proposed strategy
此外,圖4 中EV 充電時(shí)SOC 呈上升趨勢(shì),放電時(shí)SOC 呈下降趨勢(shì),當(dāng)EV 的充放電狀態(tài)發(fā)生改變時(shí),SOC 會(huì)保持一段時(shí)間不變,這是因?yàn)楸疚牟呗跃C合考慮電池老化和用戶需求,延長(zhǎng)了充放電狀態(tài)的切換時(shí)間,減小了充放電功率的波動(dòng)。
為了驗(yàn)證考慮老化成本的本文策略的有效性,同樣選取圖4中對(duì)應(yīng)的20輛EV,比較考慮電池老化成本的基于MDP 模型的能量管理策略(本文策略)、不考慮電池老化成本的基于MDP 模型的能量管理策略(MDP 對(duì)比策略)、RND 策略下EV 的充放電功率和功率波動(dòng),結(jié)果如圖5所示。
圖5 不同的策略下20輛EV的充放電功率比較Fig.5 Comparison of charging and discharging power of twenty EVs among different strategies
由圖5 可知:RND 策略下EV 的充放電功率平緩,波動(dòng)很小,但由表1 可知該策略下的懲罰成本較高;MDP 對(duì)比策略能夠充分利用峰谷電價(jià)差,降低運(yùn)營(yíng)成本,但是沒有考慮電池?fù)p耗,導(dǎo)致在切換充放電狀態(tài)前、后的功率波動(dòng)較大(例如在時(shí)段10、14、18);本文策略能夠明顯減少充放電狀態(tài)切換前、后的功率波動(dòng),而功率波動(dòng)的減小有利于延長(zhǎng)電池的壽命,更符合實(shí)際應(yīng)用需求,且提高了EV 接入電網(wǎng)時(shí)的安全性和穩(wěn)定性。
總體而言,當(dāng)EVCS 面對(duì)相同的EV 用戶時(shí):由于用戶行為具有不確定性,RND 策略難以滿足部分用戶的充電需求,雖然充放電功率平緩,不產(chǎn)生電池老化成本,但增加了產(chǎn)生懲罰成本的可能性;本文策略針對(duì)充電成本,調(diào)度EV在峰時(shí)段放電,在平、谷時(shí)段充電,針對(duì)電池老化問題,延長(zhǎng)了充放電狀態(tài)切換時(shí)間,以減小相鄰時(shí)段的功率波動(dòng),且全程考慮了用戶的充電需求,使日運(yùn)營(yíng)成本比RND 策略降低了33.6%左右。
本文利用EV可作為移動(dòng)儲(chǔ)能設(shè)備的優(yōu)點(diǎn),考慮充電成本、電池老化成本和懲罰成本,降低EV 到達(dá)充電站時(shí)刻、離開充電站時(shí)刻等不確定性因素對(duì)優(yōu)化目標(biāo)的影響,將有限回合MDP 模型應(yīng)用于EVCS的能量管理策略。
為了延緩EV 電池老化,本文考慮了EVCS 切換充放電功率造成的電池?fù)p耗,適當(dāng)延長(zhǎng)切換時(shí)間并采用電力電子元器件進(jìn)行充放電控制,在一定程度上延緩了電池老化。另外,考慮用戶需求設(shè)置了相應(yīng)的懲罰成本,算例結(jié)果表明基于MDP 模型的能量管理策略能基本實(shí)時(shí)滿足EV用戶的充電需求,具有很強(qiáng)的實(shí)用性和擴(kuò)展性。未來將基于更多的EV 真實(shí)數(shù)據(jù)進(jìn)行研究,針對(duì)不同用戶的特征建立多時(shí)間尺度調(diào)度模型以進(jìn)一步完善調(diào)度策略,在增強(qiáng)魯棒性的同時(shí),更好地滿足用戶的需求。
附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。