董 硯 盧 禹 雷兆明 康學斌
(河北工業(yè)大學電氣工程學院 天津 300130)
人們已經(jīng)愈發(fā)重視能源危機和環(huán)境問題,清潔的可再生能源作為可持續(xù)發(fā)展的重要組成,對傳統(tǒng)的化石燃料的替代作用也日益凸顯。我國風能和太陽能分布廣泛、資源豐富并且在時空上有天然的互補性,越來越受到人們重視[1]。隨著我國大力推進綠色低碳能源,以風能、太陽能為代表的新能源將繼續(xù)保持快速發(fā)展[2]。
風能和太陽能的間歇性和波動性使得對其消納變得困難,所以常結(jié)合儲能裝置形成微電網(wǎng)[3]。文獻[4]采用混合儲能系統(tǒng)降低可再生能源輸出功率的波動程度,提高了輸出功率的質(zhì)量,使風電更容易被消納。文獻[5]通過對儲能電池的控制解決風電場短期計劃出力的跟蹤問題,能夠促進風電消納。文獻[6]采用一種煤風氫能源網(wǎng)結(jié)構(gòu),通過制氫的方式消納風電。文獻[7]利用抽水蓄能電站來抑制可再生能源發(fā)電的波動,最大化可再生能源的消納。文獻[8]對微電網(wǎng)源荷儲協(xié)調(diào)優(yōu)化調(diào)度進行研究,改善了源荷兩側(cè)的匹配度并能提高系統(tǒng)的風光消納量。
上述文獻中都通過各種方式促進可再生能源的消納,其中平抑波動和追蹤計劃出力曲線研究較多,制氫與儲能結(jié)合的調(diào)度研究較少。制氫已成為當下熱點,但研究重點放在系統(tǒng)的整體性能上,并未對制氫環(huán)節(jié)進行擴展。因此,本文研究含有多臺制氫機組的風光儲制氫系統(tǒng),采用改進時序差分算法和多目標粒子群優(yōu)化算法分別對多臺制氫機組和儲能電池調(diào)度來追求經(jīng)濟效益,其中儲能電池的調(diào)度為輔助作用,用來使風光出力曲線匹配制氫出力曲線,并通過算例分析測試算法性能。
本文在給定風電、光伏功率下,對儲能電池和多臺制氫機組進行調(diào)度。制氫機組的功率-效率曲線[9-11]是調(diào)度的基礎(見圖1)。制氫機組效率隨著輸入功率增加而變小,在調(diào)度多臺制氫機組時平均分配功率會使整體效率最大,因此對多臺制氫機組的調(diào)度為機組的運行-待機間的切換調(diào)度,即運-待調(diào)度。
圖1 PEM 制氫機組功率-效率曲線
1.1.1 多臺制氫機組調(diào)度目標函數(shù)
多臺制氫機組調(diào)度的目標是經(jīng)濟效益最高。
其中,T 為總時段數(shù);Nt為t 時段機組運行個數(shù);Put為t 時段風光出力功率;F 為收益函數(shù),F(Put/Nt)=cΔtFH2(Put/Nt);c 為氫氣售價;Δt 為時間間隔;FH2為氫氣產(chǎn)量函數(shù);α 為機組使用代價,為負值。
1.1.2 儲能電池調(diào)度目標函數(shù)
儲能電池調(diào)度為多目標優(yōu)化調(diào)度,目標分別是制氫機組出力曲線與儲能電池調(diào)節(jié)后風光出力曲線最大可能的匹配和儲能電池參與下經(jīng)濟效益最高。
其中,Pbt為t 時段儲能電池功率,電池放電為正值,充電為負值;Pet為t 時段多臺制氫機組所耗功率,當Put+Pbt在其出力范圍內(nèi)時取Put+Pbt值,否則取邊界值;函數(shù)中(Put+Pbt)/Nt值超出制氫機組出力上限時取上限值,低于下限時該時段收益為F(Pmin)(Put+Pbt)/Pmin+αNt。
1.2.1 功率平衡約束與制氫機組運行約束
功率平衡約束為
制氫機組出力上下限約束為
制氫機組運-待時間約束為
其中,To,min和Ts,min分別是最小運-待時間,To和Ts分別是機組運行和待機時間。
1.2.2 儲能電池運行約束
儲能電池充放電功率約束[12]為
其中,Pbmin為最大充電功率,為負值;Pbmax為最大放電功率,為正值。
儲能電池荷電狀態(tài)約束[12]為
其中,Emin為電池最小剩余電量,Emax為電池最大剩余電量,Et為第t 個時段末電池的剩余電量。各時段剩余電量的遞推關系如下所示。
其中,ρ 為蓄電池的自持放電率;ΔEt為第t 個時段的電量變化,正值表示放電,負值表示充電;ηc和ηd分別為外部電網(wǎng)對電池的充電效率和電池內(nèi)部的放電效率;Δt 為時間間隔。
儲能電池剩余電量約束為
其中,E0為初始剩余電量,ET為最終剩余電量。儲能電池需要連續(xù)使用,因此最終剩余電量與初始剩余電量差距應盡可能得小,此處設置罰函數(shù)處理為λ(ET-E0)2,其中λ 為懲罰因子,為負值。
調(diào)度目標為儲能電池和多臺制氫機組,其中對多臺制氫機組的調(diào)度是離散解區(qū)間的調(diào)度問題,采用改進時序差分算法。儲能電池的調(diào)度是連續(xù)解區(qū)間的調(diào)度問題,采用多目標粒子群優(yōu)化算法。
時序差分算法(temporal-difference algorithm,TDA)是強化學習中最為核心的算法,是蒙特卡洛思想和動態(tài)規(guī)劃(dynamic programing,DP)思想的結(jié)合。與蒙特卡洛方法類似,TDA 不需要環(huán)境動態(tài)模型,可以直接從原始經(jīng)驗中學習。與DP 一樣,TDA根據(jù)其他學習估計更新估計,而無需等待最終結(jié)果[13]。改進時序差分算法(improved temporal-difference algorithm,ITDA)將蒙特卡羅思想融入動態(tài)規(guī)劃,用樣本表征環(huán)境。
2.1.1 狀態(tài)空間
將各制氫機組每個時段的不同運-待安排設定為環(huán)境的一個狀態(tài),表示為Stn,每個時段的任一狀態(tài)的任一動作都只指向下一個時段的各個狀態(tài)(見圖2)。
圖2 狀態(tài)空間
2.1.2 樣本采集
按時段隨機生成方案,同時考慮制氫機組運-待約束和出力約束,將不滿足約束的方案剔除并重新生成。第1 個時段運-待方案生成后,考慮歷史運-待情況下,再生成第2 個時段。以此類推,得到方案樣本。其中若某一時段重復一定次數(shù)仍不能得到方案,則重新生成。將方案樣本帶入目標函數(shù)求出各個狀態(tài)的獎勵R 并記錄,重復上述過程得到改進時序差分算法的樣本集。
2.1.3 重要性采樣率
改進時序差分算法用樣本表征環(huán)境,環(huán)境的發(fā)生概率由樣本表現(xiàn),所以隨著策略更新需要重復采樣,這加大了算法的復雜性,因此引入重要性采樣率來避免這個問題,僅使用同一樣本集即可完成算法。重要性采樣率為
其中,π(a| s) 為目標策略,b(a | s) 為行為策略。目標策略采用ε-greedy 策略求得,行為策略為均等概率選擇動作。ε-greedy 策略即大多數(shù)時間選擇有最大動作價值的動作,但是有ε 的概率選擇隨機的動作。對所有非貪心的動作,選擇它的概率是ε/A(s),其中A(s) 是動作總數(shù),對于貪心的動作,選擇它的概率是1 -ε+ε/A(s)。
2.1.4 價值函數(shù)更新
隨著重要性采樣率的引入,狀態(tài)價值函數(shù)V(s)更新式有所改變,如下所示:
其中,α1為狀態(tài)步長因子;γ 為衰減因子;ρ 為重要性采樣率;R 為獎勵,其值為該時段的收益;β 為原式中步長因子α1的替代,用于適應ρ 驅(qū)動下狀態(tài)價值函數(shù)額更新,當ρ 為1 時,β=α1。
動作價值函數(shù)Q(s,a) 更新如下:
其中,α2為動作步長因子,V(s) 為狀態(tài)價值函數(shù)。
多目標粒子群優(yōu)化(multi-objective particle swarm optimization,MOPSO)算法[14]是在粒子群優(yōu)化(particle swarm optimization,PSO)算法[15]基礎上建立的,于2004 年被提出。其保留了PSO 使用簡單的速度-位置模型實現(xiàn)對整個解空間尋優(yōu)的方式,對個體極值和全局極值的選取做了如下變動:(1)對于個體極值,MOPSO 算法在不能嚴格對比出哪個更好的情況下隨機選擇其中的一個;(2)對于全局極值,MOPSO 算法在外部存檔中根據(jù)擁擠程度選擇,擁擠程度越小,選擇概率越大。
2.2.1 速度-位置更新公式
粒子的速度和位置按式(15)進行更新。
其中,ω 為慣性權(quán)重,c1和c2為學習因子,r1和r2為[0,1]之間的隨機數(shù),vi和xi為第i 個粒子的速度和位置,pi為第i 個粒子的個體極值,pg為全局極值,d 為維數(shù)。
較大的慣性權(quán)重有利于全局尋優(yōu),較小的則有利于局部尋優(yōu)。為了使算法在開始時具有較好的全局搜索能力,在迭代后期具有較好的收斂效果,采用變動慣性權(quán)重ω,其更新公式為
其中,ωs為初始慣性權(quán)重,ωe為終止慣性權(quán)重,t 為當前迭代次數(shù),tmax為最大迭代次數(shù)。
2.2.2 粒子的設定與更新及種群初始化
粒子的設定將調(diào)度時段數(shù)設定為粒子的維度,將各個時段的儲能電池出力情況值設定為對應維度的值。
粒子的更新每次迭代更新粒子的速度和位置,如果速度超出限制則取邊界值,同時位置超出限制則重新生成。重復一定次數(shù)后依然沒有可行解則采用原值。
種群初始化每個時段的充放電功率都會影響以后時段的充放電,首先從第1 個時段開始,根據(jù)初始電量和儲能電池出力約束確定第1 個時段儲能的充放電功率范圍。然后從這個范圍內(nèi)隨機取一個值作為本段的充放電功率,求出本段末的剩余電量作為下一時段的初始電量。第2 個時段同第1 時段一樣,以此類推產(chǎn)生一個粒子。用同樣的方式產(chǎn)生種群。
結(jié)合改進時序差分算法和多目標粒子群優(yōu)化算法得到具體的算法流程如圖3 所示。
圖3 算法流程圖
本文研究內(nèi)容為實際工程研究項目的預研任務,根據(jù)實際項目的設備參數(shù)建立了含有5 臺制氫機組的風光儲制氫模型,進行仿真實驗驗證調(diào)度算法。由于工程項目還在建設中,對實體機組的調(diào)度需要待工程建設完成后驗證。其中風電裝機容量為4 MW,光伏裝機容量為2 MW;儲能電池最大充放電功率為0.6 MW,最大電量為2 MW·h,最小電量為0.2 MW·h,初始電量為1.2 MW·h,充放電效率均為0.87,放電率為0.005[12];制氫機組最大出力功率和最小出力功率分別為2 MW 和0.8 MW,最小運-待時間均為2 h,使用代價為40 元/h;氫氣售價為40 元/kg[6]。風光預測出力曲線如圖4 所示。
圖4 風光預測出力曲線
將風光預測出力曲線分成24 時段對多臺制氫機組進行調(diào)度,每個時段值為該時段平均值。改進時序差分算法參數(shù)為步長因子α1為0.01,步長因子α2為0.2,衰減因子γ 為0.9,ε-greedy 策略中ε 為0.1,樣本數(shù)為2 萬個。與分布估計算法(estimation of distribution algorithm,EDA)進行對比,分布估計算法有隨機性,所以運行50 次結(jié)果取平均值。本文方法在樣本集確定后結(jié)果將不會改變,所以在10 個樣本集下運行結(jié)果取平均值,如圖5 所示??梢钥闯?2 種算法下收益隨著迭代次數(shù)的增加而增加。改進時序差分算法(ITDA)僅需5 次迭代便可收斂,而EDA 算法需要16 次才能收斂,并且改進時序差分算法的最終收斂值也要高于EDA 算法,改進時序差分算法有更好的收斂性和收斂值。
圖5 改進時序差分算法與分布估計算法收斂曲線
多臺制氫機組的調(diào)度是在24 個時段下,并且每個時段為該段平均值,將得到的方案作用于96 個時段下可能出現(xiàn)某些時段匹配不好的情況,如圖6 所示。調(diào)度儲能電池可以優(yōu)化這個問題。
圖6 風光出力與制氫出力曲線
MOPSO 算法參數(shù)為種群規(guī)模為40,迭代次數(shù)為500,粒子的速度范圍為[-0.06,0.06],初始慣性權(quán)重ωs為0.8,終止慣性權(quán)重ωe為0.5,學習因子c1和c2均為2。算法運算效果如圖7 所示??梢钥闯?隨著迭代次數(shù)增加,收益整體呈上升趨勢,匹配誤差呈下降趨勢。圖中收益值并未加入罰函數(shù),在算法運算的時候,為了使儲能電池最后剩余電量趨近于初始電量,在目標函數(shù)上引入罰函數(shù),匹配結(jié)果如圖8 所示??梢钥闯?儲能電池優(yōu)化后2 條曲線匹配程度遠優(yōu)于圖6,但是在30 時段附近仍有較大出入,這是因為儲能電池的出力限制導致的。
圖7 多目標粒子群優(yōu)化算法收斂曲線
圖8 風光儲出力與制氫出力曲線
儲能電池的調(diào)度同時考慮了連續(xù)使用性,其各時段剩余電量如圖9 所示。可以看出,儲能電池各時段剩余電量均滿足荷電狀態(tài)約束,最終剩余電量也十分接近初始電量,有很好的連續(xù)使用性。
圖9 儲能剩余電量
本文研究調(diào)度多臺制氫機組和儲能電池來消納風電和光伏。需要面對風電和光伏的間歇性和波動性以及制氫設備和儲能電池的出力限制和使用限制。采用文中所述改進時序差分算法對多臺制氫機組調(diào)度具備更好的算法收斂性和收斂值,更具有經(jīng)濟性。但隨著時段數(shù)的擴大,制氫設備出力難以很好地匹配風光出力,儲能電池的加入并通過多目標粒子群算法調(diào)度在處理這個問題上取得了很好的效果。
能動地調(diào)度多臺制氫機組可以調(diào)節(jié)制氫效率,擴大出力區(qū)間,更具備經(jīng)濟性和消納性。儲能電池的參與也能進一步提高系統(tǒng)的消納能力。本文所述風光儲制氫系統(tǒng)可以兼顧經(jīng)濟性和消納性,能夠適應風能和太陽能的間歇性和波動性,為風電和光伏消納方案的制定提供了新的思路。