史建勛,張沖標(biāo),吳 晗,宣紹琪,高麗青,沈 珺
(1.國(guó)網(wǎng)浙江嘉善縣供電有限公司,嘉興 314100;2.南京理工大學(xué)自動(dòng)化學(xué)院,南京 210094)
隨著工業(yè)化進(jìn)程的向前,國(guó)內(nèi)外電力建設(shè)的發(fā)展日漸強(qiáng)盛,大規(guī)模風(fēng)能、光能等新能源以分布式電源的形式并網(wǎng),使得電網(wǎng)更加復(fù)雜化、先進(jìn)化,同時(shí),電網(wǎng)的安全穩(wěn)定運(yùn)行面臨著更嚴(yán)峻的考驗(yàn),以光伏PV(photovoltaic)發(fā)電為代表的新能源分布式發(fā)電DG(distributed generation)技術(shù)的有力推廣正在快速推進(jìn)微電網(wǎng)發(fā)展成未來(lái)能源互聯(lián)網(wǎng)的重心[1]。微電網(wǎng)能對(duì)分布式電源有效控制和靈活管理[2],是現(xiàn)代智能電網(wǎng)的關(guān)鍵組成部分。
微電網(wǎng)有脫網(wǎng)工作和并網(wǎng)工作兩種模式[3]。微網(wǎng)在并網(wǎng)運(yùn)行狀態(tài)時(shí),頻率和電壓由主網(wǎng)決定,容易實(shí)現(xiàn)功率均分。當(dāng)微網(wǎng)脫離主網(wǎng)獨(dú)立運(yùn)行時(shí),并聯(lián)運(yùn)行的DG為了有效、合理分配功率,一般都采用下垂特性控制[4-6]。系統(tǒng)線阻不一致時(shí),會(huì)引起傳統(tǒng)簡(jiǎn)單下垂控制下DG輸出的無(wú)功功率有偏差。偏差過(guò)大時(shí)會(huì)產(chǎn)生微網(wǎng)內(nèi)無(wú)功環(huán)流,甚至致使系統(tǒng)運(yùn)行失穩(wěn)。微網(wǎng)中受接入高比例光伏后的影響方面不僅涉及到并網(wǎng)節(jié)點(diǎn)處電壓波動(dòng),還涉及到輸送功率的波動(dòng),往往會(huì)使得負(fù)荷電壓也產(chǎn)生變化。用戶光伏通常分散接入微電網(wǎng)的各節(jié)點(diǎn),其并網(wǎng)功率若不能完全被本地負(fù)荷利用將會(huì)導(dǎo)致反向潮流和電壓升高[7-8]。越高比率的戶用光伏接入微網(wǎng)中,系統(tǒng)內(nèi)的反向潮流就越明顯,則節(jié)點(diǎn)電壓升高甚至越限,微電網(wǎng)系統(tǒng)損耗顯著增加[9]。因此,必須實(shí)現(xiàn)精確的無(wú)功功率均分,抑制無(wú)功環(huán)流,從而維持孤島交流微電網(wǎng)穩(wěn)定運(yùn)行。
通過(guò)調(diào)節(jié)微電網(wǎng)中各分布式電源無(wú)功功率平均分配來(lái)抑制系統(tǒng)無(wú)功環(huán)流和提高電壓質(zhì)量是保障電網(wǎng)安穩(wěn)運(yùn)行的決定性舉措之一。深遠(yuǎn)探究無(wú)功均分技術(shù)是促進(jìn)孤島交流微電網(wǎng)發(fā)展不可或缺的使命,能帶來(lái)不可小覷的經(jīng)濟(jì)效益和社會(huì)效益。為了克服傳統(tǒng)下垂控制下無(wú)功分配不均的弊端,文獻(xiàn)[10]對(duì)逆變器下垂系數(shù)進(jìn)行自適應(yīng)修正,傳送基準(zhǔn)逆變器的輸出功率到別的逆變器進(jìn)行輸出有功、無(wú)功功率的作差,進(jìn)而改變各自對(duì)應(yīng)的下垂系數(shù),最終實(shí)現(xiàn)DG輸出功率平均分配。但是該方案必需DG 間連接信息進(jìn)行調(diào)節(jié)下垂系數(shù),并要求有一定的通信帶寬;文獻(xiàn)[11]介紹了一種考慮復(fù)阻抗影響的下垂控制方案,具有高效的動(dòng)態(tài)性能,最終實(shí)現(xiàn)了高精度的功率均分,但是增加DG 輸出阻抗后會(huì)造成較大的電壓偏差;文獻(xiàn)[12]提出了一種基于本地信息精確辨識(shí)線阻實(shí)際值的線路觀測(cè)器,利用該辨識(shí)值補(bǔ)償線路電壓降,實(shí)現(xiàn)DG 輸出無(wú)功均分。但是該方法不能應(yīng)用在網(wǎng)狀、多維度等復(fù)雜微電網(wǎng)結(jié)構(gòu)中。
強(qiáng)化學(xué)習(xí)算法是一種人工智能算法,不依賴(lài)具體的數(shù)學(xué)模型、全局搜索能力強(qiáng)、應(yīng)用簡(jiǎn)單,適用于解決非線性、離散、大規(guī)模的問(wèn)題,廣泛應(yīng)用于電力系統(tǒng)優(yōu)化等多領(lǐng)域。Q學(xué)習(xí)是目前應(yīng)用最為廣泛的強(qiáng)化學(xué)習(xí)算法,具有所需參數(shù)少、可以采用離線實(shí)現(xiàn)方式、收斂到最優(yōu)策略等優(yōu)點(diǎn)。由此,為了改進(jìn)無(wú)功分配不均并控制電壓在合理范圍內(nèi),本文提出一種高比例光伏微網(wǎng)無(wú)功均分控制中的Q學(xué)習(xí)方法,借助其漸進(jìn)學(xué)習(xí)尋優(yōu)特性,對(duì)孤島工作的微電網(wǎng)無(wú)功電壓控制過(guò)程進(jìn)行優(yōu)化,獲取系統(tǒng)最佳控制策略,實(shí)現(xiàn)對(duì)高比例光伏孤島微電網(wǎng)的無(wú)功均分,并保證算法具有一定的魯棒性。
如圖1 所示,含高比例光伏孤島運(yùn)行的微網(wǎng)結(jié)構(gòu)中包含了分布式光伏、負(fù)荷以及儲(chǔ)能單元。
圖1 的簡(jiǎn)化形式等效為如圖2 所示的系統(tǒng)結(jié)構(gòu)[13]。
圖1 微電網(wǎng)的結(jié)構(gòu)Fig.1 Structure of microgrid
圖2 中的分布式電源逆變器的接入點(diǎn)連接LC濾波器,忽略線阻可近似視作感性的線路參數(shù)。第i個(gè)PV向公共母線輸送功率為
圖2 微電網(wǎng)的等效結(jié)構(gòu)Fig.2 Equivalent structure of microgrid
式中:UPCC為在各PV并聯(lián)公共連接點(diǎn)PCC(point of common coupling)量測(cè)到的電壓幅值;Ui為PVi輸出的電壓幅值;δi為PVi輸出電壓的相角與PCC電壓相角的差;Xi為PVi到PCC等效的電抗。
PVi的下垂控制方程為
式中:U為參考電壓;fi為PVi輸出頻率;f為系統(tǒng)參考頻率;kp和kq為相應(yīng)下垂系數(shù)。
根據(jù)圖2可得
式中,ΔUi近似視作PVi所在饋線的電壓降落,忽略線阻Ri可表示為
圖3 饋線阻抗不等時(shí)兩臺(tái)DG 無(wú)功分配Fig.3 Reactive power sharing of two DGs with unequal feeder reactance
強(qiáng)化學(xué)習(xí)的兩大主體是智能體與環(huán)境,智能體一直探索所有可能的動(dòng)作,每次動(dòng)作后給環(huán)境一定獎(jiǎng)勵(lì)值作為動(dòng)作的反饋,依據(jù)某種動(dòng)作選擇策略在彼此的交互過(guò)程中漸趨得到最優(yōu)控制方案。智能體動(dòng)作選擇依據(jù)是最大化其累計(jì)期望獎(jiǎng)勵(lì)值?;灸P腿鐖D4所示。
圖4 強(qiáng)化學(xué)習(xí)基本模型Fig.4 Basic model of reinforcement learning
Q學(xué)習(xí)是由Watkins提出的一種與模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí)算法,是一種基于值函數(shù)迭代的在線學(xué)習(xí)和動(dòng)態(tài)最優(yōu)技術(shù)。比強(qiáng)化學(xué)習(xí)中的Sarsa、Sarsa(λ)、深度Q學(xué)習(xí)DQN[13](deepQ-learning)等算法,Q學(xué)習(xí)算法具有所需參數(shù)少、架構(gòu)簡(jiǎn)單、預(yù)學(xué)習(xí)簡(jiǎn)單等突出優(yōu)勢(shì)。Q學(xué)習(xí)法作用于狀態(tài)-動(dòng)作對(duì)對(duì)應(yīng)的值函數(shù)Q(s,a),該值函數(shù)的含義是在狀態(tài)s時(shí)采用動(dòng)作a后所得累計(jì)獎(jiǎng)勵(lì),表示為
式中:s為當(dāng)前時(shí)刻狀態(tài);s′為動(dòng)作后的新?tīng)顟B(tài);a、a′為各自狀態(tài)中采取的動(dòng)作;γ為折扣率,γ∈[0,1],當(dāng)γ=0 時(shí),系統(tǒng)只考慮立即獎(jiǎng)勵(lì);當(dāng)γ=1 時(shí),長(zhǎng)期獎(jiǎng)勵(lì)和立即獎(jiǎng)勵(lì)地位一樣。可以通過(guò)在線學(xué)習(xí)獲得上述的Q值。
進(jìn)入新?tīng)顟B(tài)后,得到獎(jiǎng)勵(lì)值反饋并更新Q值。其更新公式為
式中:Qi為第i次迭代的Q值;α為學(xué)習(xí)因子,0<α<1。α較大,算法的收斂速度快,而α值較小,則能保證算法有一定的搜索空間,提升了算法收斂穩(wěn)定性。
在Q學(xué)習(xí)過(guò)程中,Q值不斷進(jìn)行更新一直到穩(wěn)定收斂為最大Q*(s,a)為止。對(duì)于每個(gè)系統(tǒng)狀態(tài)一般使用貪婪選擇策略進(jìn)行最優(yōu)動(dòng)作a*,即有
光伏逆變器的無(wú)功控制是一種有效的電壓調(diào)節(jié)手段,相比控制光伏有功、分布式儲(chǔ)能有功以及分接頭設(shè)備等,該方案控制經(jīng)濟(jì)性最優(yōu)。
微網(wǎng)中各分布式光伏發(fā)出的無(wú)功功率視作環(huán)境狀態(tài)。無(wú)功偏差ΔQreac可以劃分為一系列的離散區(qū)間,如{ΔQ1,ΔQ2,…,ΔQm},其對(duì)應(yīng)的狀態(tài)集S為{s1,s1,…,sm}。每個(gè)DG的狀態(tài)集表示為
式中:Qi,reac為PVi的無(wú)功輸出;Qavg為微電網(wǎng)穩(wěn)定運(yùn)行時(shí)平均無(wú)功;Qload為系統(tǒng)無(wú)功負(fù)荷;N為分布式電源總數(shù)。顯然,集合S設(shè)置元素越多,微網(wǎng)運(yùn)行狀態(tài)就劃分的越細(xì)密越精度高;然而集合中元素?cái)?shù)過(guò)多,會(huì)大大拉長(zhǎng)學(xué)習(xí)周期,進(jìn)而影響在線分析控制。
當(dāng)交流微電網(wǎng)脫離主網(wǎng),穩(wěn)態(tài)工作狀況下的頻率是一個(gè)全局量,并聯(lián)運(yùn)行的分布式光伏有功功率輸出依據(jù)下垂系數(shù)精確分配,即有功與等效阻抗無(wú)關(guān)??紤]到輸出電壓是局部變量,各PV 間的無(wú)功偏差則由PV 輸出電壓幅值差、線阻差以及微電網(wǎng)結(jié)構(gòu)等因素決定。本文中無(wú)功電壓下垂控制動(dòng)作集A含義是:使微網(wǎng)當(dāng)下時(shí)刻的某狀態(tài)s過(guò)轉(zhuǎn)變到更佳狀態(tài)s′的動(dòng)作策略的集合。故每個(gè)PV的動(dòng)作集定義為
式中:ajj=kqQjj,jj∈{1,2,…,L};L為動(dòng)作數(shù)目。
動(dòng)作執(zhí)行后的立即獎(jiǎng)勵(lì)值會(huì)直接影響Q值,而Q值大小可以直接體現(xiàn)所選動(dòng)作執(zhí)行效果的好壞。對(duì)于考慮電壓不越限的無(wú)功均分問(wèn)題,執(zhí)行基于Q算法所選動(dòng)作后,會(huì)產(chǎn)生兩種差異顯著的結(jié)果:一是系統(tǒng)仍存在未實(shí)現(xiàn)無(wú)功均分,說(shuō)明Q學(xué)習(xí)還未完成,為此,將總無(wú)功偏差ΔQtotal對(duì)應(yīng)的獎(jiǎng)勵(lì)值ri設(shè)置為負(fù)值,即進(jìn)行懲罰。二是系統(tǒng)實(shí)現(xiàn)無(wú)功均分,對(duì)此,將ΔQtotal對(duì)應(yīng)的獎(jiǎng)勵(lì)值置0。
使用ΔQtotal定義獎(jiǎng)勵(lì)值,則有
傳統(tǒng)下垂控制下微電網(wǎng)無(wú)功不均分,就需要本地?zé)o功電壓控制器下垂算法進(jìn)行改進(jìn)。微網(wǎng)進(jìn)入新的穩(wěn)態(tài)后,系統(tǒng)內(nèi)無(wú)功偏差將減小。為使Q值較快收斂,保證較快速地跟蹤微網(wǎng)實(shí)時(shí)狀態(tài),本文將式(2)中α設(shè)為0.9。又考慮到系統(tǒng)狀態(tài)在迭代過(guò)程時(shí)前后兩次狀態(tài)交互影響小,令γ=0.1。無(wú)功均分流程如圖5所示。
圖5 基于Q 學(xué)習(xí)的無(wú)功均分控制過(guò)程Fig.5 Reactive power sharing control process based on Q-learning
智能體一直監(jiān)測(cè)微網(wǎng)狀態(tài),當(dāng)無(wú)功功率不均分,智能體則根據(jù)當(dāng)前策略選出最優(yōu)動(dòng)作作用于所轄微網(wǎng)進(jìn)行控制,再根據(jù)Q值最大時(shí)對(duì)應(yīng)的動(dòng)作轉(zhuǎn)變到新?tīng)顟B(tài),并更新策略和下一步的動(dòng)作。該Q學(xué)習(xí)過(guò)程如此反復(fù),直到所轄區(qū)域內(nèi)實(shí)現(xiàn)基于高比例光伏微網(wǎng)無(wú)功電壓下垂控制下的無(wú)功均分效果的最佳化為止。
以圖6 所示的微電網(wǎng)為例,驗(yàn)證所提方案的有效性和正確性。微電網(wǎng)電壓等級(jí)為311 V。6 個(gè)光伏的有功、無(wú)功容量相同。在節(jié)點(diǎn)1、2、4、5處分別連接了戶用光伏發(fā)電,出力均為kW 級(jí)。其余各節(jié)點(diǎn)為負(fù)荷節(jié)點(diǎn)。圖6 中各光伏連接至母線的線路阻抗不完全相同,系統(tǒng)仿真參數(shù)見(jiàn)表1。其中,各PV逆變器的電壓-無(wú)功下垂系數(shù)都是1×10-6。
圖6 含高比例光伏的微電網(wǎng)Fig.6 Microgrid with high-proportion photovoltaic
表1 系統(tǒng)仿真參數(shù)Tab.1 Simulation parameters of system
在場(chǎng)景1 中,在0~0.3 s 時(shí)間t內(nèi)6 個(gè)PV 工作在傳統(tǒng)下垂模式下正常運(yùn)行,穩(wěn)態(tài)時(shí),PV1~PV6輸出的無(wú)功功率分別為2 238、3 394、4 068、2 211、3 918、3 918 var。顯然,無(wú)功不均分產(chǎn)生無(wú)功偏差,而有功功率自行均分。
6 個(gè)PV 的出力分配仿真結(jié)果如圖7 所示。在t=0.3 s,采用本文的無(wú)功均分控制策略,各PV無(wú)功偏差逐漸減??;在t=0.6 s 輸出無(wú)功基本相等都為3 350 var,實(shí)現(xiàn)無(wú)功均分。在Q學(xué)習(xí)策略下,每個(gè)PV選擇最大Q(s,a)值對(duì)應(yīng)的最優(yōu)電壓變化量進(jìn)行動(dòng)作,并反饋到其下垂控制單元里,從而使無(wú)功輸出一致,減小了系統(tǒng)內(nèi)的環(huán)流,保證了微網(wǎng)運(yùn)行的穩(wěn)定性。
圖7 場(chǎng)景1 仿真結(jié)果Fig.7 Simulation results under scenario 1
系統(tǒng)中負(fù)荷1 和2正常工作,在t=3 s 時(shí),給系統(tǒng)增加負(fù)荷Load3= 10 kW+j5 kvar,并采用本文的無(wú)功均分控制策略,仿真結(jié)果如圖8 所示??芍?,在t=5 s時(shí)系統(tǒng)狀態(tài)又一次穩(wěn)定,再次實(shí)現(xiàn)無(wú)功均分為4 192 var。在Q學(xué)習(xí)策略下,各PV將最大Q值對(duì)應(yīng)最優(yōu)電壓變化量反饋到其下垂控制單元里控制電壓幅值,再通過(guò)無(wú)功均分策略環(huán)節(jié)使無(wú)功輸出達(dá)到一致,減少系統(tǒng)環(huán)流,保證了系統(tǒng)運(yùn)行的穩(wěn)定性。而有功功率出力在3 s時(shí)受到擾動(dòng)后很快自行均分,并不受擾動(dòng)影響。
圖8 場(chǎng)景2 仿真結(jié)果Fig.8 Simulation results under scenario 2
場(chǎng)景2 驗(yàn)證了所提方法能提高微網(wǎng)運(yùn)行場(chǎng)景變化下的適應(yīng)性。如果Q學(xué)習(xí)采集到的狀態(tài)值即無(wú)功偏差量越多,Q表能訓(xùn)練得更完善,從而能更好更快地實(shí)現(xiàn)對(duì)微網(wǎng)的無(wú)功均分控制。
本文提出了一種高比例光伏微網(wǎng)無(wú)功均分控制中的Q學(xué)習(xí)方法,利用強(qiáng)化學(xué)習(xí)的在線學(xué)習(xí)優(yōu)點(diǎn)和良好的收斂特性,以系統(tǒng)總無(wú)功偏差設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)作為電壓幅值和無(wú)功功率之間的反饋量,根據(jù)最大Q值對(duì)應(yīng)的動(dòng)作控制輸出電壓的變化,進(jìn)而控制無(wú)功功率,最終實(shí)現(xiàn)無(wú)功均分。該策略減少了系統(tǒng)無(wú)功環(huán)流,提高了系統(tǒng)運(yùn)行的穩(wěn)定性,并具有一定的控制魯棒性。最后通過(guò)對(duì)含高比例光伏微網(wǎng)系統(tǒng)的仿真,驗(yàn)證了方法的有效性。