亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的充光儲(chǔ)能源站調(diào)度策略

        2021-10-11 01:45:30孫廣明陳良亮王瑞升陳中邢強(qiáng)
        電力工程技術(shù) 2021年5期
        關(guān)鍵詞:調(diào)度能源狀態(tài)

        孫廣明,陳良亮,王瑞升,陳中,邢強(qiáng)

        (1.南瑞集團(tuán)(國(guó)網(wǎng)電力科學(xué)研究院)有限公司,江蘇 南京 211106;2.東南大學(xué)電氣工程學(xué)院,江蘇 南京 210096)

        0 引言

        面對(duì)日益嚴(yán)峻的能源危機(jī)與環(huán)境污染問題,電動(dòng)汽車(electric vehicle,EV)作為環(huán)境友好型交通工具迎來了發(fā)展機(jī)遇[1—2]。然而規(guī)模化EV的隨機(jī)充電行為會(huì)導(dǎo)致負(fù)荷峰值增加、電能質(zhì)量降低等問題,給配電網(wǎng)的安全與經(jīng)濟(jì)運(yùn)行帶來了挑戰(zhàn)[3—4]。同時(shí),面對(duì)規(guī)?;妱?dòng)汽車調(diào)度算力要求高、計(jì)算復(fù)雜的問題,傳統(tǒng)優(yōu)化模型無法滿足實(shí)時(shí)調(diào)度需求。因此,研究充光儲(chǔ)一體化能源站的區(qū)域電動(dòng)汽車優(yōu)化調(diào)度策略,已成為亟待解決的重要問題。

        目前,國(guó)內(nèi)外學(xué)者在針對(duì)光儲(chǔ)能源站的電動(dòng)汽車調(diào)度方面已取得一定成果??紤]光伏發(fā)電等可再生能源對(duì)優(yōu)化調(diào)度策略的影響,文獻(xiàn)[5]以能源站運(yùn)行成本為優(yōu)化目標(biāo),基于多模態(tài)近似動(dòng)態(tài)規(guī)劃進(jìn)行求解,在不同定價(jià)模型與光伏出力情況下均表現(xiàn)出較強(qiáng)魯棒性。文獻(xiàn)[6]以減少微電網(wǎng)與配電網(wǎng)交換功率以及微電網(wǎng)網(wǎng)絡(luò)損耗為優(yōu)化目標(biāo),采用序列二次規(guī)劃算法進(jìn)行求解。通過對(duì)EV進(jìn)行充放電調(diào)度使日負(fù)荷曲線跟蹤發(fā)電曲線,并網(wǎng)模式下的網(wǎng)絡(luò)損耗及離網(wǎng)模式下的所需儲(chǔ)能系統(tǒng)容量均得到降低。文獻(xiàn)[7]考慮能源站源荷互補(bǔ)特性,提出了一種考慮不確定性風(fēng)險(xiǎn)的能源站多時(shí)間尺度調(diào)度模型。文獻(xiàn)[8—9]考慮光伏出力預(yù)測(cè)誤差等不確定性,建立了以充光儲(chǔ)能源站日運(yùn)行成本最小為目標(biāo)的充電站日前優(yōu)化模型,并在此基礎(chǔ)上建立實(shí)時(shí)滾動(dòng)優(yōu)化模型。文獻(xiàn)[10]以大規(guī)模EV接入的配電網(wǎng)運(yùn)行成本最小和負(fù)荷曲線方差最小為目標(biāo)建立EV優(yōu)化調(diào)度模型,在保證系統(tǒng)運(yùn)行成本的同時(shí)有效降低了負(fù)荷峰谷差。

        上述研究均建立單/多目標(biāo)-多約束優(yōu)化模型解決EV調(diào)度問題,但應(yīng)用在實(shí)時(shí)調(diào)度方面均面臨著海量計(jì)算的壓力,無法滿足實(shí)時(shí)調(diào)度的需求。同時(shí),上述研究過度依賴模型,當(dāng)實(shí)際應(yīng)用中包含模型未考慮的不確定性因素時(shí),模型的優(yōu)化結(jié)果得不到保證,算法的魯棒性與泛化能力有待改進(jìn)。隨著機(jī)器學(xué)習(xí)算法的逐漸成熟,已有少量學(xué)者開展了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)應(yīng)用于EV充電調(diào)度的研究。文獻(xiàn)[11]提出一種基于競(jìng)爭(zhēng)深度Q網(wǎng)絡(luò)的充電控制方法,在含高滲透率分布式電源的系統(tǒng)中能夠兼顧配電網(wǎng)的安全運(yùn)行與用戶出行需求。文獻(xiàn)[12]考慮EV行駛距離限制,以最小化EV總充電時(shí)間為目標(biāo),建立DRL模型進(jìn)行訓(xùn)練求解。文獻(xiàn)[13]考慮用戶用電需求,將EV充放電能量邊界作為部分狀態(tài)空間,建立了以最小化功率波動(dòng)與充放電費(fèi)用為目標(biāo)的實(shí)時(shí)調(diào)度模型。文獻(xiàn)[14]考慮電價(jià)與用戶通勤行為的不確定性,從充電電價(jià)中提取特征訓(xùn)練Q網(wǎng)絡(luò),并采用Q值最大化原則執(zhí)行動(dòng)作。文獻(xiàn)[15]以最小化EV用戶行駛時(shí)間與充電成本為目標(biāo),利用最短路徑法提取當(dāng)前環(huán)境狀態(tài)訓(xùn)練智能體。

        雖然上述研究理解了DRL方法的本質(zhì),以用戶充放電時(shí)間或費(fèi)用作為目標(biāo),將車輛與充電站參數(shù)作為環(huán)境狀態(tài)進(jìn)行求解。然而,作為車輛行駛與充電行為的最終執(zhí)行者,EV車主對(duì)充電方案的感知效應(yīng)尤為重要,影響調(diào)度策略的可執(zhí)行性與適用性。為此,文中提出了一種考慮人類行為心理的能源站EV調(diào)度方法。基于后悔理論刻畫EV用戶心理狀態(tài),建立智能體“人-車-站”全狀態(tài)環(huán)境感知模型。同時(shí),引入時(shí)變?chǔ)?greedy策略作為智能體動(dòng)作選擇方法以提高算法收斂速度。最后結(jié)合南京市實(shí)際道路與能源站分布設(shè)計(jì)了多場(chǎng)景算例仿真,驗(yàn)證文中所提策略的有效性與實(shí)用性。

        1 EV調(diào)度問題構(gòu)建

        充光儲(chǔ)一體化能源站[16]結(jié)構(gòu)如圖1所示,按功能可分為:配電網(wǎng)系統(tǒng)、光伏發(fā)電系統(tǒng)、儲(chǔ)能系統(tǒng)、AC/DC模塊、DC/DC模塊、充電樁、通信管理機(jī)以及能量管理系統(tǒng)。

        圖1 充光儲(chǔ)能源站架構(gòu)Fig.1 PV-storage-charging integrated energy station

        光伏系統(tǒng)由多組太陽(yáng)能電池板串并聯(lián)組成,電池板接收太陽(yáng)能發(fā)電經(jīng)DC/DC變換器接入直流母線,電能主要用于EV充電。儲(chǔ)能系統(tǒng)由電池組構(gòu)成,通過雙向DC/DC變換器接入直流母線。當(dāng)光伏系統(tǒng)發(fā)電有剩余時(shí),其儲(chǔ)存電能;當(dāng)光伏發(fā)電不足時(shí),其釋放電能。AC/DC模塊為配電網(wǎng)系統(tǒng)與能源站的連接單元,當(dāng)能源站內(nèi)部電能不能滿足充電需求時(shí)由配電網(wǎng)經(jīng)AC/DC接入充電負(fù)荷。

        針對(duì)充光儲(chǔ)一體化能源站,考慮能源站光伏消納能力與EV用戶利益,可以建立EV充電調(diào)度模型如下:

        (1)

        (2)

        約束條件為:

        Smin≤S(t)≤Smax

        (3)

        (4)

        (5)

        (6)

        (7)

        (8)

        針對(duì)充光儲(chǔ)能源站的EV調(diào)度模型屬于多目標(biāo)多約束優(yōu)化問題,基于規(guī)劃的方法以及啟發(fā)式算法雖然可以進(jìn)行求解,但這些算法均為離線運(yùn)算且面對(duì)實(shí)際交通拓?fù)渚W(wǎng)絡(luò)運(yùn)算耗時(shí)較長(zhǎng)。同時(shí),不同日期下天氣條件、用戶充電需求等均存在較大差異,模型均需要重新求解,耗時(shí)較長(zhǎng)且難以實(shí)現(xiàn)在線實(shí)時(shí)調(diào)度。

        2 基于DRL的EV調(diào)度方法

        2.1 DRL基本原理

        DRL是一種結(jié)合深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力的人工智能算法。通過智能體不斷與環(huán)境進(jìn)行交互,并采取一定的動(dòng)作使得累計(jì)獎(jiǎng)勵(lì)最大化[17—18]。智能體本質(zhì)上是一個(gè)狀態(tài)空間到動(dòng)作空間的映射關(guān)系。強(qiáng)化學(xué)習(xí)算法以馬爾科夫過程(Markov decision process,MDP)為數(shù)學(xué)基礎(chǔ),即環(huán)境下一時(shí)刻狀態(tài)僅與當(dāng)前狀態(tài)有關(guān),與前序狀態(tài)無關(guān)。

        強(qiáng)化學(xué)習(xí)算法采用狀態(tài)-動(dòng)作值函數(shù)Qπ(s,a)來評(píng)價(jià)狀態(tài)s時(shí)采取動(dòng)作a的好壞,Q函數(shù)的貝爾曼方程可表示為:

        (9)

        式中:r(s,a,s′)為智能體采取動(dòng)作a,狀態(tài)s轉(zhuǎn)變?yōu)閟′對(duì)應(yīng)的即時(shí)獎(jiǎng)勵(lì);π為智能體在當(dāng)前狀態(tài)s下決定下一動(dòng)作a的策略函數(shù);E為數(shù)學(xué)期望;γ∈[0,1],為折扣率,γ接近于0時(shí),智能體更在意短期回報(bào),γ接近于1時(shí),智能體更在意長(zhǎng)期回報(bào)。

        在傳統(tǒng)Q學(xué)習(xí)過程中,狀態(tài)-動(dòng)作-Q值以表格的實(shí)行進(jìn)行記錄,智能體在狀態(tài)s下查找Q表并采取最大Q值對(duì)應(yīng)的動(dòng)作a*。然而,實(shí)際問題中狀態(tài)空間及動(dòng)作空間往往很大,Q學(xué)習(xí)方法難以實(shí)踐。在Q學(xué)習(xí)框架基礎(chǔ)上,深度Q網(wǎng)絡(luò)(deepQnetwork,DQN)以深度神經(jīng)網(wǎng)絡(luò)代替Q表進(jìn)行函數(shù)逼近[19],擬合狀態(tài)-動(dòng)作與Q值的映射關(guān)系,其貝爾曼迭代方程可表示為:

        (10)

        式中:α∈[0,1],為學(xué)習(xí)率;θ+為評(píng)價(jià)網(wǎng)絡(luò)參數(shù);θ-為目標(biāo)網(wǎng)絡(luò)參數(shù)。學(xué)習(xí)過程中,評(píng)價(jià)網(wǎng)絡(luò)每隔一定回合數(shù)將參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò),通過2個(gè)網(wǎng)絡(luò)的配合以提高算法穩(wěn)定性。

        2.2 人類行為決策理論

        EV用戶在充電過程中不僅僅追求預(yù)期效用的最大化,也會(huì)受限于認(rèn)知水平及主觀心理情緒等因素的影響,因此很難選擇出全局最優(yōu)或個(gè)人利益最大的充電選擇方案。事實(shí)上,個(gè)體往往尋求決策后的正面情緒,從而規(guī)避決策可能帶來的負(fù)面情緒。為此,文中引入后悔理論建立人類行為決策心理模型,刻畫用戶在EV充電調(diào)度過程中的心理狀態(tài),作為DRL智能體“人-車-站”環(huán)境狀態(tài)感知的一部分。

        后悔理論最早由Bell提出,其將后悔描述為一件給定事件的結(jié)果或狀態(tài)與他將要選擇的狀態(tài)進(jìn)行比較所產(chǎn)生的情緒[19]。依據(jù)人類在離散事件選擇中的后悔規(guī)避心理,當(dāng)所選方案優(yōu)于備選方案時(shí),決策者會(huì)感到欣喜,反之則會(huì)感到后悔。因此,決策者個(gè)體更傾向于選擇預(yù)期后悔最小的方案。后悔理論通過式(11)量化決策者在選擇過程中對(duì)所選方案與備選方案的感知效應(yīng)[20]:

        (11)

        式中:Ui為選擇方案i的隨機(jī)效用值;Fi為選擇方案i的可確定效用值;xj,k為隨機(jī)效應(yīng)誤差;Ns為總方案?jìng)€(gè)數(shù),即能源站個(gè)數(shù);Na為總屬性因素個(gè)數(shù);xj,k為j方案在屬性k上的取值;ξk為屬性k的估計(jì)參數(shù),反應(yīng)決策者對(duì)該屬性的偏重;σi為隨機(jī)效用值。當(dāng)σi服從獨(dú)立同分布式時(shí),決策者選擇方案i的概率可表述為:

        (12)

        可見,后悔理論的實(shí)質(zhì)是通過比較不同方案效用差xj,k-xi,k,模擬人類在多方案選擇中的思維過程,最終按照一定概率做出方案選擇。文中基于后悔理論將EV用戶參與調(diào)度總時(shí)間與總費(fèi)用作為2個(gè)屬性,將所有能源站作為方案集,通過計(jì)算用戶對(duì)各方案的效用值Ui作為智能體對(duì)環(huán)境狀態(tài)感知的一部分,其具體模型如式(13)所示。

        (13)

        式中:ξ1,ξ2分別為用戶對(duì)時(shí)間與費(fèi)用偏重;Tsche,i為用戶選擇能源站i的總時(shí)間,包括路程時(shí)間、等待時(shí)間與充電時(shí)間;Csche,i為用戶選擇能源站i的費(fèi)用,包括充電費(fèi)用與服務(wù)費(fèi)用,其計(jì)算公式詳見文獻(xiàn)[21]。

        2.3 DQN實(shí)現(xiàn)EV充電調(diào)度

        針對(duì)能源站的EV充電調(diào)度問題每一個(gè)時(shí)刻的狀態(tài)僅與前一時(shí)刻狀態(tài)及智能體動(dòng)作有關(guān),符合馬爾科夫決策過程,因此,文中采用DQN方法建立EV充電調(diào)度模型,利用智能體進(jìn)行“人-車-站”多主體狀態(tài)感知,通過不斷地探索與利用,建立狀態(tài)-動(dòng)作與Q值的映射關(guān)系,實(shí)現(xiàn)EV實(shí)時(shí)調(diào)度。模型中對(duì)狀態(tài)、動(dòng)作及獎(jiǎng)勵(lì)的定義如下。

        (1)狀態(tài)。為實(shí)現(xiàn)智能體對(duì)環(huán)境狀態(tài)的有效感知,文中定義環(huán)境狀態(tài)由EV“時(shí)-空-能量”狀態(tài)、能源站“充-光-儲(chǔ)”運(yùn)行狀態(tài)及用戶心理狀態(tài)構(gòu)成,因此可建立狀態(tài)st,如式(14)所示。

        st=(t,LEV,t,EEV,t,PEV,t,PPV,t+1,EB,t,UU,t)

        (14)

        式中:t為當(dāng)前時(shí)刻;LEV,t為當(dāng)前時(shí)刻EV位置;EEV,t為當(dāng)前時(shí)刻EV動(dòng)力電池SOC;PEV,t為當(dāng)前時(shí)刻各能源站EV的充電負(fù)荷;PPV,t+1為各能源站t+1時(shí)刻光伏出力預(yù)測(cè)值;EB,t為當(dāng)前時(shí)刻各能源站儲(chǔ)能系統(tǒng)SOC;UU,t為用戶對(duì)各備選能源站的感知效用值。

        (2)動(dòng)作。為實(shí)現(xiàn)EV的充電調(diào)度,將目標(biāo)能源站與導(dǎo)航路徑的選擇作為智能體的動(dòng)作,則t時(shí)刻智能體動(dòng)作at可表示為:

        at=(xES,t,xlink,t)xES,t∈D,xlink,t∈L

        (15)

        式中:xES,t為智能體選擇的能源站;xlink,t為智能體選擇的當(dāng)前道路;D為能源站位置集合;L為與當(dāng)前道路節(jié)點(diǎn)相連的節(jié)點(diǎn)集合。

        (3)獎(jiǎng)勵(lì)。由于調(diào)度過程涉及到途中導(dǎo)航與到站充電,因此可將智能體與環(huán)境交互所得的獎(jiǎng)勵(lì)分為途中獎(jiǎng)勵(lì)與到站獎(jiǎng)勵(lì)。其中,途中獎(jiǎng)勵(lì)主要考慮用戶方面路程花費(fèi)時(shí)間與動(dòng)力電池能量代價(jià),到站后獎(jiǎng)勵(lì)由光伏消納功率及用戶在站時(shí)間決定。

        (16)

        由于智能體在學(xué)習(xí)前期缺少歷史樣本,如果采用確定性的貪心策略進(jìn)行動(dòng)作選擇,容易造成局部收斂甚至不收斂。因此,文中引入時(shí)變?chǔ)?greedy策略,在前期的學(xué)習(xí)中增大智能體探索能力,在后期的學(xué)習(xí)中有效利用前期歷史樣本進(jìn)行決策,如式(17)所示。

        (17)

        式中:N為總訓(xùn)練回合數(shù);n為當(dāng)前訓(xùn)練回合數(shù);β為(0,1)隨機(jī)數(shù);ε為比例參數(shù);random為隨機(jī)函數(shù),即從A中隨機(jī)抽取動(dòng)作;arg max為求解函數(shù)值最大化,即返回使得Q值最大的動(dòng)作。因此,在訓(xùn)練前期智能體有更大概率是從動(dòng)作集合A中隨機(jī)選取動(dòng)作,而在訓(xùn)練中后期,則更有可能選取最優(yōu)動(dòng)作。同時(shí),時(shí)變?chǔ)?greedy策略逐步減小ε,可以提高算法的收斂速度。

        3 EV充電調(diào)度框架

        基于DRL的EV充電調(diào)度實(shí)現(xiàn)框架如圖2所示。該過程可分為以下3個(gè)步驟:

        圖2 優(yōu)化調(diào)度策略實(shí)現(xiàn)流程Fig.2 Flow chart of optimized scheduling strategy

        (1)智能體通過更新時(shí)間、EV位置及動(dòng)力電池SOC獲取車輛狀態(tài),更新各能源站運(yùn)行狀態(tài)并預(yù)測(cè)下一時(shí)刻光伏出力,通過后悔理論感知EV用戶的心理狀態(tài),得到當(dāng)前時(shí)刻環(huán)境狀態(tài)st。

        (2)智能體將感知到的環(huán)境狀態(tài)輸入深度神經(jīng)網(wǎng)絡(luò),得到各備選動(dòng)作的Q值,通過時(shí)變?chǔ)?greedy策略選擇動(dòng)作at。

        (3)智能體執(zhí)行所選動(dòng)作,重復(fù)上述步驟直至車輛抵達(dá)所選能源站。

        4 算例分析

        4.1 參數(shù)設(shè)置

        為驗(yàn)證文中所提策略的有效性與實(shí)用性,選取南京市部分區(qū)域,范圍為經(jīng)度(東經(jīng))118.735 152~118.784 076,緯度(北緯)32.059 057~32.092 003作為算例路網(wǎng)。同時(shí),選取該區(qū)域已經(jīng)投入運(yùn)營(yíng)的15 座能源站,假設(shè)該區(qū)域能源站均配置了光伏發(fā)電及儲(chǔ)能系統(tǒng),且站內(nèi)充電樁均為快充,具體配置詳見表1。

        表1 能源站基本參數(shù)表Table 1 Basic parameters of energy station

        根據(jù)文獻(xiàn)[22]EV出行規(guī)律,文中在該區(qū)域一天中引入1 000 輛EV,設(shè)EV動(dòng)力電池容量為40 kW·h,并設(shè)初始SOC服從對(duì)數(shù)均值為3.2,對(duì)數(shù)標(biāo)準(zhǔn)差為0.48的對(duì)數(shù)正態(tài)分布??紤]電池充放電深度對(duì)其壽命的影響,取EV結(jié)束充電時(shí)的終止SOC均為90%。

        4.2 智能體訓(xùn)練過程

        設(shè)置DQN算法中智能體學(xué)習(xí)率α=0.85,獎(jiǎng)勵(lì)折扣率γ=0.85,ε-greedy策略中ε初值為0.5,每回合遞減7.5×10-4直至為0,Q網(wǎng)絡(luò)采用150×120全連接神經(jīng)網(wǎng)絡(luò)。總訓(xùn)練回合數(shù)設(shè)置為4 000 次,可得訓(xùn)練過程中智能體訓(xùn)練過程中平均獎(jiǎng)勵(lì)值如圖3所示。

        圖3 訓(xùn)練過程獎(jiǎng)勵(lì)值Fig.3 Reward value of training process

        由圖3可知,在訓(xùn)練前期智能體每回合獎(jiǎng)勵(lì)呈現(xiàn)一個(gè)明顯的上升階段,并在500 回合左右實(shí)現(xiàn)收斂,獎(jiǎng)勵(lì)值穩(wěn)定于10.44。這是因?yàn)棣?greedy策略的存在,使得智能體在前期能夠不斷探索環(huán)境,而當(dāng)n=500時(shí),(N-n)ε/N=0.11,表明500 回合之后智能體更大概率是根據(jù)當(dāng)前學(xué)習(xí)到的歷史經(jīng)驗(yàn)進(jìn)行動(dòng)作選擇。由于每一回合中EV初始時(shí)空分布存在差異,且光伏出力存在一定波動(dòng),所以智能體所得獎(jiǎng)勵(lì)存在一定波動(dòng),但訓(xùn)練后期平均獎(jiǎng)勵(lì)明顯高于訓(xùn)練前期,表明智能體已擬合狀態(tài)-動(dòng)作與Q值的映射關(guān)系,并能夠進(jìn)行最優(yōu)動(dòng)作的選取。

        4.3 泛化能力分析

        為分析所提DRL算法泛化能力,考慮能源站日常運(yùn)行狀態(tài),設(shè)置晴天、突變天氣及陰雨天光伏出力如圖4所示,其中紅色寬帶為光伏出力概率區(qū)間。設(shè)置訓(xùn)練1~1 000 回合對(duì)應(yīng)晴天,1 001~2 000 回合對(duì)應(yīng)突變天氣,2 001~3 000 回合對(duì)應(yīng)陰雨天氣,可得訓(xùn)練獎(jiǎng)勵(lì)如圖4所示。

        圖4 考慮泛化能力的訓(xùn)練獎(jiǎng)勵(lì)Fig.4 Training reward considering generalization ability

        由圖4可知,不同天氣類型對(duì)智能體所獲得獎(jiǎng)勵(lì)值有較大影響,3種天氣下智能體平均獎(jiǎng)勵(lì)分別為9.95,9.38,7.23,特別地,陰雨天氣獎(jiǎng)勵(lì)值較晴天降低27.34%。這是由于智能體的到站獎(jiǎng)勵(lì)與區(qū)域內(nèi)能源站平均光伏消納功率有較大關(guān)系,雖然陰雨天氣智能體所得獎(jiǎng)勵(lì)較晴天更低,但此時(shí)智能體已經(jīng)實(shí)現(xiàn)了最優(yōu)策略的學(xué)習(xí)。同時(shí),觀察算法收斂速度可見,所提DQN方法在前2種場(chǎng)景下分別在400與200回合達(dá)到穩(wěn)定,而在第3種場(chǎng)景下訓(xùn)練約80回合即實(shí)現(xiàn)收斂,表明智能體能夠有效利用前期累積的經(jīng)驗(yàn),當(dāng)環(huán)境狀態(tài)發(fā)生較大改變時(shí),其能夠調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)以快速適應(yīng)當(dāng)前環(huán)境狀態(tài)。

        進(jìn)一步,在上述3種場(chǎng)景下,EV分別采取無序充電及文中所提DQN方法所得光伏消納率如表2所示。

        表2 不同場(chǎng)景光伏消納率Table 2 Objective value of different scheduling scale %

        從表2可見,在場(chǎng)景1中,無序充電情況下各能源站平均光伏消納率僅為75.31%,而文中DQN方法只涉及EV用戶對(duì)能源站的選擇及導(dǎo)航問題,在時(shí)間維度不存在調(diào)度關(guān)系,因此基于DQN方法的光伏消納率也僅提高了6.02%。3種不同場(chǎng)景下文中所提方法平均提高光伏消納率7.94%,其中場(chǎng)景3效果最為明顯,提高11.73%??梢?,所提方法能夠適應(yīng)不同場(chǎng)景下的能源站運(yùn)行狀態(tài),有效提高光伏消納水平。

        4.4 算法實(shí)時(shí)性分析

        進(jìn)一步地,為了分析所提DQN方法的計(jì)算效率以及實(shí)時(shí)性,文中將常規(guī)的規(guī)劃方法和啟發(fā)式算法與DQN算法進(jìn)行比較。文中所提EV調(diào)度問題可以采用商業(yè)Cplex求解器以及粒子群優(yōu)化算法(particle swarm optimization,PSO)進(jìn)行求解。為體現(xiàn)算法在實(shí)際應(yīng)用中是實(shí)時(shí)性,不同求解方法的單輛EV平均計(jì)算耗時(shí)如表3所示。

        表3 不同算法計(jì)算耗時(shí)對(duì)比Table 3 Comparison of computation time of different algorithms s

        由表3可知,訓(xùn)練好的DQN模型在計(jì)算速度上具有較大優(yōu)勢(shì)。PSO通過粒子群逐步迭代尋優(yōu),計(jì)算結(jié)果可能收斂于局部最優(yōu)。同時(shí),每次求解重復(fù)迭代直至收斂的過程,使得PSO的決策時(shí)間較長(zhǎng)。當(dāng)環(huán)境狀態(tài)發(fā)生改變時(shí),傳統(tǒng)的優(yōu)化算法均需要重新進(jìn)行優(yōu)化求解,而DQN模型只需將當(dāng)前時(shí)刻的環(huán)境狀態(tài)作為輸入,通過訓(xùn)練好的網(wǎng)絡(luò)即可得到EV的動(dòng)作輸出,能夠在毫秒級(jí)完成調(diào)度策略的制定,滿足實(shí)時(shí)調(diào)度的需求。

        4.5 非理性人心理分析

        上述智能體訓(xùn)練過程中,后悔理論中EV用戶對(duì)時(shí)間成本與費(fèi)用成本的感知系數(shù)均為0.5。為探究人類非理性狀態(tài)感知對(duì)智能體決策的影響,分別定義2種非理性人:非理性人1更在意費(fèi)用成本(ξ1=0.2,ξ2=0.8);非理性人2更在意時(shí)間成本(ξ1=0.8,ξ2=0.2),分別與最短路徑法導(dǎo)航結(jié)果相比較,圖5給出了不同非理性人在同一起訖點(diǎn)時(shí)模型所推薦的導(dǎo)航路徑。

        由圖5可知,針對(duì)2種非理性人,智能體共選取出7 條路線,其中均包含了最短路徑。對(duì)于非理性人1,智能體共推薦出行駛路線5 條,平均路程4.37 km,平均行駛時(shí)間8.54 min。對(duì)于非理性人2,智能體共推薦路線7 條,平均路程4.62 km,較前者增長(zhǎng)5.72%,平均行駛時(shí)間8.61 min,較前者增加0.82%。通過對(duì)比可知,若用戶表現(xiàn)出更在意時(shí)間成本,智能體則會(huì)更傾向于具有探索精神,以極小的時(shí)間代價(jià),進(jìn)而探索可能的最佳路線??梢姡捎诓煌袨槿嗽诤蠡诶碚撝袑?duì)各因素感知權(quán)重不同,智能體能夠通過狀態(tài)感知獲取st,并在訓(xùn)練過程中不斷學(xué)習(xí)與調(diào)整Q網(wǎng)絡(luò)參數(shù)與映射關(guān)系,實(shí)現(xiàn)考慮用戶異質(zhì)性的EV充電導(dǎo)航與調(diào)度。

        圖5 不同情況下導(dǎo)航路徑Fig.5 Navigation path in different situations

        最后,為探究不同非理性人心理狀態(tài)對(duì)智能體調(diào)度策略的影響,分別設(shè)用戶的費(fèi)用感知偏重ξ2=0.1,0.2,…,0.9(時(shí)間感知偏重ξ1=0.9,0.8,…,0.1),可得基于DRL方法的用戶平均時(shí)間與費(fèi)用變化曲線如圖6所示。

        圖6 不同感知偏重對(duì)用戶影響Fig.6 The impact of different perception bias on users

        由圖6可知,隨著用戶費(fèi)用感知系數(shù)的增大,用戶平均費(fèi)用逐漸減小,平均用時(shí)逐漸增大。特別地,當(dāng)ξ2=0.1,即用戶特別在意時(shí)間成本時(shí),此時(shí)平均耗時(shí)35.44 min,平均費(fèi)用50.06 元;當(dāng)ξ2=0.9,即用戶特別在意費(fèi)用時(shí),平均耗時(shí)45.01 min,較前者增加了27%,而平均費(fèi)用44.16 元,較前者降低了11.79%。由時(shí)間與費(fèi)用變化趨勢(shì)可以看出,不同特質(zhì)車主對(duì)于充電所用時(shí)間與費(fèi)用的預(yù)期存在一定差異,當(dāng)費(fèi)用感知系數(shù)每增加0.1時(shí),用戶費(fèi)用平均降低1.55%,而時(shí)間感知系數(shù)每增加0.1時(shí),用戶時(shí)間平均降低2.93%??梢姡珽V用戶對(duì)于充電過程所用時(shí)間感知更為敏感。

        5 結(jié)論

        針對(duì)能源站EV充電導(dǎo)航與調(diào)度問題,提出基于DRL方法的調(diào)度策略。算例從多角度分析了優(yōu)化調(diào)度策略,得到如下結(jié)論:(1)DQN方法中智能體對(duì)EV狀態(tài)、能源站運(yùn)行狀態(tài)以及用戶心理狀態(tài)進(jìn)行全狀態(tài)感知,通過學(xué)習(xí)狀態(tài)-動(dòng)作與Q值的映射關(guān)系能夠有效進(jìn)行充電調(diào)度。(2)在晴天與陰雨天等能源站常見運(yùn)行場(chǎng)景下,所提方法均能夠兼顧用戶心理感知進(jìn)行調(diào)度,同時(shí)有效提高了能源站光伏利用率,具有較強(qiáng)的實(shí)用性與泛化能力。(3)不同行為人對(duì)時(shí)間與費(fèi)用的感知效用會(huì)影響智能體狀態(tài)感知與策略參數(shù),進(jìn)而影響所提方法對(duì)其的導(dǎo)航與調(diào)度策略。

        盡管如此,限于篇幅文中并未分析DQN算法參數(shù)對(duì)調(diào)度策略的影響,在下一步的工作中DQN算法參數(shù)的選擇可以繼續(xù)完善。此外,基于用戶感知異質(zhì)性的研究,可以進(jìn)一步改進(jìn)所提策略。

        猜你喜歡
        調(diào)度能源狀態(tài)
        第六章意外的收獲
        《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊(cè)》正式出版
        一種基于負(fù)載均衡的Kubernetes調(diào)度改進(jìn)算法
        狀態(tài)聯(lián)想
        虛擬機(jī)實(shí)時(shí)遷移調(diào)度算法
        用完就沒有的能源
        ————不可再生能源
        家教世界(2019年4期)2019-02-26 13:44:20
        生命的另一種狀態(tài)
        福能源 緩慢直銷路
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅(jiān)持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        国产丝袜长腿美臀在线观看| 亚洲小说区图片区色综合网| 97se亚洲国产综合自在线观看| 人人爽久久涩噜噜噜av| 又爽又黄无遮挡高潮视频网站| 国产一起色一起爱| 国产午夜精品综合久久久| 亚洲综合一区中文字幕| 日韩aⅴ人妻无码一区二区| 亚洲另类精品无码专区| 国产自产av一区二区三区性色| av免费观看在线网站| 富婆猛男一区二区三区| 免费人成网站在线观看欧美| 国产黄a三级三级三级av在线看| 欧美黑人xxxx性高清版| 女人天堂av免费在线| 天堂网站一区二区三区| 国产午夜福利100集发布| 亚洲视频天堂| 亚洲av第一区综合激情久久久| 国产一区二区三区色哟哟| 亚洲中文字幕无码不卡电影| 国产山东熟女48嗷嗷叫| 久久久亚洲精品蜜桃臀| 日本在线一区二区免费| 国产 高潮 抽搐 正在播放| 色哟哟网站在线观看| 粉嫩极品国产在线观看| 亚洲成av人片在久久性色av| 一本色道久久婷婷日韩| 少妇丰满大乳被男人揉捏视频| 78成人精品电影在线播放| 亚洲伊人成综合人影院| 成人大片免费观看视频| 日韩毛片无码永久免费看| 亚洲成在人线久久综合| 天堂视频一区二区免费在线观看| 开心久久综合婷婷九月| 国产午夜精品一区二区三区| 热久久久久久久|