馮 斌,胡軼婕,黃 剛,姜 威,徐華廷,郭創(chuàng)新
(1.浙江大學(xué)電氣工程學(xué)院,浙江省 杭州市 310027;2.之江實驗室,浙江省 杭州市 311121)
新型電力系統(tǒng)是以確保能源電力安全為基本前提,以綠電消費為主要目標(biāo),以堅強智能電網(wǎng)為樞紐平臺,以源網(wǎng)荷儲互動及多能互補為支撐,具有綠色低碳、安全可控、智慧靈活、開放互動、數(shù)字賦能、經(jīng)濟高效基本特征的電力系統(tǒng)[1]。隨著“碳達峰·碳中和”目標(biāo)的提出,新能源在電力能源供給中的占比逐漸增加,將形成新能源占比逐漸提高的新型電力系統(tǒng)[2]。未來,電力占終端能源形式的比例需提高至80%[3],非化石能源在生產(chǎn)側(cè)的占比要達到80%,光伏、風(fēng)電等清潔能源裝機容量勢必逐年增長。新能源的廣泛接入與迅速發(fā)展使得新型電力系統(tǒng)的隨機性、不確定性顯著增加,這給傳統(tǒng)的調(diào)度優(yōu)化方法帶來了極大的挑戰(zhàn)。
強化學(xué)習(xí)(reinforcement learning,RL)擁有強大的自主搜索和學(xué)習(xí)能力,與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并稱現(xiàn)今3 種機器學(xué)習(xí)范式[4],其側(cè)重于學(xué)習(xí)實現(xiàn)目標(biāo)的最優(yōu)策略。而深度學(xué)習(xí)(deep learning,DL)[5]通過多層的網(wǎng)絡(luò)結(jié)構(gòu),可以對高維數(shù)據(jù)特征進行抽取,更側(cè)重于對事物的特征提取與感知理解。結(jié)合RL 與DL 的深度強化學(xué)習(xí)(deep reinforcement learning,DRL)在適應(yīng)復(fù)雜狀態(tài)環(huán)境的同時,能夠無需依賴于預(yù)測數(shù)據(jù)即可實現(xiàn)在線實時的調(diào)度控制,目前已經(jīng)在游戲[6]、圍棋[7]、機器人控制[8]、城市智慧交通[9]、ChatGPT 智能對話等領(lǐng)域得到了廣泛應(yīng)用,在很多場景下甚至能夠超越人類表現(xiàn)。
DRL 起源于動態(tài)規(guī)劃,其實質(zhì)是解決一個動態(tài)優(yōu)化問題,理論源于動態(tài)規(guī)劃與馬爾可夫決策過程(Markov decision process,MDP),相較于啟發(fā)式搜索算法更具備理論基礎(chǔ)。DRL 作為一種數(shù)據(jù)驅(qū)動方法,能夠從歷史經(jīng)驗中學(xué)習(xí)決策調(diào)度方法,針對非線性、非凸問題具有很好的自適應(yīng)學(xué)習(xí)決策能力。目前,大多通過無模型的算法處理,避免了對不確定實時變化的物理模型進行建模,適用于復(fù)雜多變的場景。相較于其他傳統(tǒng)優(yōu)化方法,DRL 對同一問題模型的不同數(shù)據(jù)具有更好的泛化能力,以及在相似問題之間具有更好的遷移性,并已在電網(wǎng)頻率控制[10]、電壓控制[11]等領(lǐng)域得到應(yīng)用。
本文從DRL 原理出發(fā),對DRL 算法在新型電力系統(tǒng)調(diào)度中的應(yīng)用現(xiàn)狀進行了總結(jié)。
隨著新能源接入比例的提高、電網(wǎng)規(guī)模的不斷擴大,為提高系統(tǒng)整體運行的經(jīng)濟性與可靠性,應(yīng)協(xié)調(diào)調(diào)度電網(wǎng)的發(fā)電資源與用電資源。新型電力系統(tǒng)中的調(diào)度問題是為了解決電力系統(tǒng)供需平衡的高維、不確定性強的優(yōu)化問題。其中,電力系統(tǒng)經(jīng)濟調(diào)度(economic dispatch,ED)、最優(yōu)潮流(optimal power flow,OPF)和機組組合(unit commitment,UC)問題是電力系統(tǒng)運行中的3 個關(guān)鍵問題。
1)經(jīng)濟調(diào)度問題是以最小化電力系統(tǒng)的總運營成本為目標(biāo)、滿足電力需求和各種運行約束的優(yōu)化問題。傳統(tǒng)的經(jīng)濟調(diào)度問題是在滿足功率平衡和機組功率邊界的前提下,確定各火電發(fā)電機組的有功出力,使得總?cè)剂虾牧浚òl(fā)電成本)最小。隨著新能源出力不確定性的增加,系統(tǒng)的約束條件更加復(fù)雜、不確定性更強。
2)最優(yōu)潮流問題[12]是指在滿足電力系統(tǒng)潮流等式約束,以及節(jié)點電壓、線路潮流、發(fā)電機爬坡等不等式約束的情況下,在主網(wǎng)中實現(xiàn)發(fā)電成本最小或在配電網(wǎng)中實現(xiàn)網(wǎng)損最小的優(yōu)化問題。最優(yōu)潮流與經(jīng)濟調(diào)度問題的區(qū)別主要在于是否考慮電力系統(tǒng)潮流等式約束。新型電力系統(tǒng)所含風(fēng)電、光伏等間歇性新能源使得電力系統(tǒng)最優(yōu)潮流問題,尤其是交流最優(yōu)潮流問題[13]的求解更加復(fù)雜。
3)機組組合問題是在滿足系統(tǒng)負荷需求和其他約束條件時實現(xiàn)系統(tǒng)運行成本最小的機組啟停計劃優(yōu)化問題。隨著大量新能源接入,機組組合方案繁多,不確定性增加,求解更加困難。
傳統(tǒng)的優(yōu)化調(diào)度方法往往需要對系統(tǒng)做出一系列假設(shè),同時也難以應(yīng)對系統(tǒng)動態(tài)變化的挑戰(zhàn)。隨機優(yōu)化、魯棒優(yōu)化、分布式魯棒優(yōu)化、啟發(fā)式優(yōu)化算法等傳統(tǒng)優(yōu)化算法被用于解決新型電力系統(tǒng)的不確定性問題,但它們都依賴于精準的預(yù)測,難以應(yīng)對新能源出力與負荷需求多變的場景。隨機優(yōu)化常通過采樣、機會約束生成等方式將不確定性問題轉(zhuǎn)化為確定性問題,但是算法復(fù)雜度隨著場景的增加而增加;魯棒優(yōu)化通過給出不確定集的方式解決不確定性問題,但是通常其給出的優(yōu)化結(jié)果僅面向最惡劣的場景,過于保守;啟發(fā)式優(yōu)化算法,如遺傳算法、粒子群算法等,容易陷入局部最優(yōu),而且動作復(fù)雜度的增加給啟發(fā)式的優(yōu)化算法帶來嚴重的維數(shù)災(zāi)問題,難以穩(wěn)定收斂。
DRL 因其實時決策、不斷反饋修正的特性,能夠更好地應(yīng)對新型電力系統(tǒng)新能源的不確定性,可為新型電力系統(tǒng)調(diào)度問題提供新的解決途徑。
RL 借鑒了行為主義心理學(xué),是一類特殊的機器學(xué)習(xí)算法。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的回歸分類目標(biāo)不同的是,RL 是一種最大化未來獎勵的決策學(xué)習(xí)模型,通過與環(huán)境交互建立的MDP[14]解決復(fù)雜的序列決策問題。RL 中常見的概念包括智能體、環(huán)境、狀態(tài)(state,S)、動作(action,A)、獎勵(reward,R)。如圖1 所示,智能體處在環(huán)境中,執(zhí)行動作后獲得一定的獎勵,而環(huán)境由于智能體執(zhí)行的動作發(fā)生狀態(tài)的變化。依據(jù)每一步獲得的獎勵,通過特定的算法最大化未來的累計獎勵是RL 算法的核心。詳細RL 原理見附錄A。
圖1 智能體與環(huán)境的交互過程Fig.1 Interaction process between agent and environment
在傳統(tǒng)的RL[15]中,一般可以通過迭代求解貝爾曼最優(yōu)方程獲得最優(yōu)動作價值函數(shù)與狀態(tài)價值函數(shù),進而指導(dǎo)智能體做出選擇。但是在實際場景下,存在著迭代效率低、計算代價大等問題。為此,通常采用參數(shù)化的神經(jīng)網(wǎng)絡(luò)來近似估計最優(yōu)動作價值函數(shù)和狀態(tài)價值函數(shù),這也就形成了DRL。
依據(jù)是否有模型,將DRL 算法分為基于模型的DRL 和無模型的DRL。其中,基于模型的DRL 是指智能體可以學(xué)習(xí)到環(huán)境動態(tài)變化的參數(shù)。在無模型的DRL 中,依據(jù)智能體的動作選擇方式,又可分為基于價值、基于策略、執(zhí)行者-評論者的算法,其中,執(zhí)行者-評論者算法也可以看做是結(jié)合了基于價值與基于策略的算法。
2.2.1 基于模型的DRL 算法
基于模型的DRL 算法需要對環(huán)境進行建模,然后,基于模型給出策略選擇或者動作規(guī)劃,因而其采樣效率較高。該環(huán)境通常指狀態(tài)轉(zhuǎn)移模型,即真實環(huán)境的動態(tài)變化模型。
結(jié)合無模型微調(diào)的基于模型的RL[16](modelbased RL with model-free fine-tuning,MBMF)是一種基于學(xué)習(xí)到的環(huán)境進行模型預(yù)測控制的算法。MBMF 首先基于數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)動態(tài)模型去學(xué)習(xí)環(huán)境;然后,針對該動態(tài)模型執(zhí)行模型預(yù)測控制,并將控制器產(chǎn)生的運行結(jié)果進一步添加到神經(jīng)網(wǎng)絡(luò)動態(tài)模型中進行訓(xùn)練。重復(fù)整個迭代訓(xùn)練過程,直至MBMF 達到所需的性能表現(xiàn)。
AlphaZero[17]是一種利用已有環(huán)境的基于模型的DRL 算法。它是AlphaGo[7]的改進,可實現(xiàn)從圍棋到各類棋類游戲的智能博弈,通過自主學(xué)習(xí)環(huán)境規(guī)劃搜索策略。AlphaZero 與MuZero[18]通過蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)[19]對所學(xué)習(xí)得到的策略函數(shù)進行搜索,實現(xiàn)了動作的多樣性探索。
2.2.2 基于價值的DRL 算法
基于價值的DRL 算法是通過迭代或者訓(xùn)練得到最優(yōu)動作價值函數(shù),智能體依據(jù)最優(yōu)動作價值函數(shù)選擇獲得最大的最優(yōu)動作價值函數(shù)所對應(yīng)的動作,從而實現(xiàn)了策略選擇。常見的基于價值的DRL算法包括深度Q 學(xué)習(xí)(deep Q-learning,DQN)[6,20]及其改進算法、優(yōu)先經(jīng)驗回放[21]、Double Qlearning[22]、Dueling DQN[23]和值分布RL 算法中的C51[24]以及Rainbow DQN[25]等。
最早提出的RL 算法是基于價值的Q 學(xué)習(xí)[15]與狀態(tài)-動作-獎勵-狀態(tài)-動作(state-action-rewardstate-action,SARSA)[26]算法,它們是通過采用最優(yōu)貝爾曼方程更新Q 值表的方式,迭代得到最優(yōu)動作價值。
隨后,文獻[6,20]將卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)與傳統(tǒng)RL 算法中的Q 學(xué)習(xí)算法結(jié)合,提出了DQN 模型。為避免蒙特卡洛更新帶來的巨大方差問題,DQN 采用時間差分算法更新最優(yōu)動作價值函數(shù),更新目標(biāo)如式(1)所示。
式中:yt為t時刻由時間差分算法得到的目標(biāo)動作價值;rt為動作得到的獎勵;γ∈[0,1]為獎勵衰減因子;Q(st+1,at;wt)為動作價值的神經(jīng)網(wǎng)絡(luò)函數(shù);st+1為t+1 時刻的狀態(tài);at為t時刻的動作;wt為t+1 時刻神經(jīng)網(wǎng)絡(luò)參數(shù)。
隨后,為解決DQN 過高估計最優(yōu)動作價值函數(shù)的問題,在Double DQN[22]中引入目標(biāo)網(wǎng)絡(luò),在Dueling DQN[23]中采用競爭架構(gòu)分別估計優(yōu)勢函數(shù)和狀態(tài)價值函數(shù)。采用差異化的優(yōu)先經(jīng)驗回放[21]提高訓(xùn)練效率,添加高斯噪聲以提高動作的探索能力[27]。為充分利用動作價值函數(shù)的分布信息,進一步提出了分布式價值的C51 算法[24]以及學(xué)習(xí)分布分位數(shù)值的分位數(shù)回歸深度Q 學(xué)習(xí)(quantile regression DQN,QR-DQN)算法[28],以及結(jié)合上述所有改進的Rainbow DQN[25]算法。
雖然Rainbow DQN 算法在離散動作空間的游戲策略問題上取得了不錯的效果,但是只能針對離散動作空間進行建模。對于實際問題中常見的連續(xù)動作空間則需要進行離散化處理,可能會造成一定動作空間的損失和維數(shù)增多的問題。
2.2.3 基于策略的DRL 算法
基于策略的DRL 算法也可稱作是基于策略梯度的DRL,相較于基于價值的DRL,其策略函數(shù)可以直接映射到連續(xù)動作空間,對于連續(xù)控制問題具有更好的效果。
基于策略的DRL 是通過最大化獎勵較高動作的出現(xiàn)概率,實現(xiàn)未來期望獎勵的最大化。這是一種端到端的學(xué)習(xí)方式,直接優(yōu)化策略的期望獎勵。常見的基于策略的RL 算法有:經(jīng)典的策略梯度RL算法[29]、置信域策略優(yōu)化(trust region policy optimization,TRPO)[30]算法、近端策略優(yōu)化(proximal policy optimization,PPO)[31]算法等。
在基于策略的DRL 中,采用參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)來代替策略函數(shù)。策略梯度表示形式如式(2)所示。
式中:g為策略梯度值;R為獎勵;b為不依賴于動作的基線;st為t時刻的狀態(tài);T為該情節(jié)所經(jīng)歷的時間步;π(at∣st;θ) 為策略函數(shù)。 梯度項logπ(at∣st;θ)為希望將情節(jié)獲得的獎勵向上提高的梯度。
參數(shù)更新時將在現(xiàn)有參數(shù)θ上加上αg,實現(xiàn)梯度上升,其中,α為學(xué)習(xí)率。上述訓(xùn)練過程將最大化較高獎勵動作的出現(xiàn)概率。
RL 算法[29]使用蒙特卡洛方法更新策略梯度,具有較好的穩(wěn)定性,但是采樣效率較低,會帶來較大的估計方差。為此在策略學(xué)習(xí)中減去基線,可有效減少方差。由于基于策略的RL 對步長十分敏感,上述方法難以直接選擇合適的步長,如果新舊策略差異過大則不利于學(xué)習(xí)。TRPO[30]通過約束限制新舊策略動作的KL(Kullback-Leibler)散度,避免了策略發(fā)生過大參數(shù)更新步的情況,解決了策略梯度更新步長的問題。而PPO[31]則通過模型自適應(yīng)地調(diào)整新舊策略動作的KL 散度,以保證策略梯度的穩(wěn)定更新。但是TRPO 和PPO 都是采用同步更新策略的算法,其每次更新都需要采樣大量樣本,算法復(fù)雜度高、訓(xùn)練效率低,并且其應(yīng)用也需要大量算力支撐。
2.2.4 執(zhí)行者-評論者DRL 算法
執(zhí)行者-評論者DRL 算法中的執(zhí)行者算法類似于基于策略的DRL 算法,評論者算法類似于基于價值的DRL 算法。因此,執(zhí)行者-評論者DRL 算法同時學(xué)習(xí)策略和價值函數(shù),其框架圖如圖2 所示。執(zhí)行者-評論者也可以被認為是一種基于策略的DRL 算法,特殊之處在于它使用了狀態(tài)價值函數(shù)作為式(2)的基線b,減小了方差,即Aπ(st,at)=Qπ(st,at)-Vπ(st),其中,Qπ(st,at)為動作價值,Vπ(st)為狀態(tài)價值。Aπ(st,at)也被稱為優(yōu)勢函數(shù),若優(yōu)勢函數(shù)大于0,則表示該動作優(yōu)于平均值,是合理的選擇。
圖2 執(zhí)行者-評論者DRL 算法框架Fig.2 Framework of actor-critic DRL algorithm
它既結(jié)合了基于價值和基于策略DRL 算法的優(yōu)點,也在一定程度上繼承了二者的缺點。常見的執(zhí)行者-評論者DRL 算法包括確定性策略梯度(deterministic policy gradient,DPG)算法[32]、深度確定性策略梯度(deep deterministic policy gradient,DDPG)[33]算法、柔性執(zhí)行者-評論者(soft actorcritic,SAC)[34]算法、異步優(yōu)勢執(zhí)行者-評論者(asynchronous advantage actor-critic,A3C)[35]算法、雙延遲確定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法[36]等。
DPG 每次確定性地探索一個動作,降低了采樣需求,能夠處理動作空間較大的問題,但為保證未知動作的探索能力,必須采用異步策略更新方法。DDPG 在DPG 的基礎(chǔ)上借鑒了DQN 在Q 學(xué)習(xí)基礎(chǔ)上改進的思想,利用深度神經(jīng)網(wǎng)絡(luò)擬合DDPG 中的Q 函數(shù),采用異步的Critic 估計策略梯度,使訓(xùn)練更加穩(wěn)定簡單。TD3 在DDPG 的基礎(chǔ)上引入了性能更優(yōu)的Double DQN,并通過取2 個Critic 之間的最小值避免過擬合,解決了過高估計以及方差過大的問題。過高的估計會使得更新方向與理想情況有偏差,而方差過大會使得訓(xùn)練不穩(wěn)定。SAC 建立在非策略最大熵RL 框架[37]上,在實現(xiàn)策略預(yù)期回報最大化的同時也具有最大熵,可提升算法的探索能力。
上述異步策略更新算法可以在策略更新時重復(fù)利用過去的樣本,對樣本利用效率高。目前,常見的異步策略更新的DRL 算法,均是以DPG 為基礎(chǔ)的確定性策略算法,如DDPG、TD3 等。但是,基于確定性策略的算法對超參數(shù)敏感,收斂難度較大。A3C 中有多個智能體在中央處理器(central processing unit,CPU)多線程上異步執(zhí)行,使得樣本間的相關(guān)性很低。因此,A3C 中也沒有采用經(jīng)驗回放的機制,而是直接采用同步策略更新機制。
2.2.5 多智能體與分層DRL 算法
在DRL 的基礎(chǔ)上,結(jié)合多智能體、分層級等理論,提出了一些適用于更加復(fù)雜場景的DRL 算法。
1)多智能體DRL 算法
考慮到現(xiàn)實復(fù)雜的實際環(huán)境中,往往不止一個動作發(fā)出者,即有許多智能體通過共同交互信息實現(xiàn)合作或競爭,其主要目標(biāo)是實現(xiàn)共同獎勵的最大化與多智能體之間的均衡。早期的多智能體RL,考慮多智能體之間的互相博弈提出了Nash-Q 學(xué)習(xí)算法[38],這類算法需要大量的存儲空間存儲Q 值,適用于規(guī)模較小的問題。
近年來,隨著DDPG、A3C 等算法擁有更優(yōu)的性能表現(xiàn),目前,多智能體DRL 大多基于執(zhí)行者-評論者算法框架,其中,最具有代表性的是多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)[39]和反事實基線的多智能體執(zhí)行者-評論者[40]。它們均采用集中式訓(xùn)練、分布式執(zhí)行的算法模式,利用所有狀態(tài)信息集中訓(xùn)練出評論者,每個智能體僅采用自身觀測到的信息,執(zhí)行各自的動作。在智能體動作執(zhí)行期間,解決了多智能體間信息及時共享的問題。在新型電力系統(tǒng)調(diào)度問題中,常見的多區(qū)域電網(wǎng)、微電網(wǎng)(microgrid,MG)、綜合能源系統(tǒng)都可以采用多智能體DRL 算法進行求解。
此外,在基于價值分解的多智能體DRL 算法中,多個智能體通過簡單加和局部價值函數(shù)[41]或采用非線性混合網(wǎng)絡(luò)[42]聯(lián)合價值函數(shù),將各主體觀測到的局部價值函數(shù)合并為聯(lián)合價值函數(shù)。因此,此類算法大多用于共同合作問題。
2)分層DRL 算法
一個復(fù)雜問題往往會有龐大的狀態(tài)空間與動作空間,導(dǎo)致實際獎勵是非常稀疏的,而分層DRL 算法的提出將改善獎勵反饋稀疏的問題。分層DRL[43]可以在一些復(fù)雜的DRL 任務(wù)環(huán)境下,將最終任務(wù)轉(zhuǎn)變?yōu)槎鄠€子任務(wù)的形式,實現(xiàn)DRL 任務(wù)的分解。通過各子主體策略來形成有效的全局策略。
經(jīng)典分層強化學(xué)習(xí)方法是將復(fù)雜問題建模為半馬爾可夫過程,底層策略建模為MDP 問題。經(jīng)典的分層強化學(xué)習(xí)算法包括Option[44]、分層抽象機(hierarchies of abstract machines,HAMs)[45]、
MAXQ[46]算法等。當(dāng)今,結(jié)合深度學(xué)習(xí)的分層DRL算法采用2 層結(jié)構(gòu):上層結(jié)構(gòu)每隔一段時間進行調(diào)用,根據(jù)調(diào)用時觀測到的狀態(tài),給出下層子任務(wù);下層結(jié)構(gòu)作為底層結(jié)構(gòu),根據(jù)當(dāng)前目標(biāo)狀態(tài)和子任務(wù)產(chǎn)生動作。例如,分層DQN[47]的雙層均采用DQN網(wǎng)絡(luò),上層制定一個下層能夠?qū)崿F(xiàn)的小目標(biāo)并由下層網(wǎng)絡(luò)實現(xiàn),待小目標(biāo)實現(xiàn)后或達到指定時間后,重復(fù)指定新的小目標(biāo);子策略共享分層DRL 算法[48]將子策略參數(shù)共享,以提升子任務(wù)的訓(xùn)練效率。文獻[49]將分層DRL 算法應(yīng)用于多微電網(wǎng)經(jīng)濟調(diào)度模型,實現(xiàn)了長短期利益結(jié)合的分布式經(jīng)濟調(diào)度。
將DRL 應(yīng)用于新型電力系統(tǒng)調(diào)度問題時,需要定義DRL 中的智能體、環(huán)境、狀態(tài)、動作以及獎勵。智能體指動作的發(fā)出者,也可認為是系統(tǒng)運行人員;環(huán)境指電力系統(tǒng);狀態(tài)指環(huán)境中各個設(shè)備當(dāng)前的運行狀態(tài),如發(fā)電機上一時刻出力、電熱功率需求、風(fēng)光實時功率、目前所處的時段等;動作指系統(tǒng)中可以人為控制調(diào)節(jié)的變量,如發(fā)電機出力、儲能等;獎勵通常是需要實現(xiàn)的目標(biāo),如最小化系統(tǒng)運行成本、最大化新能源消納、最小化電壓頻率偏差等。關(guān)于DRL 應(yīng)用于新型電力系統(tǒng)調(diào)度的文獻詳見附錄B。
在經(jīng)濟調(diào)度問題中需要決策的變量均為連續(xù)變量。因此,常采用DDPG、A3C、PPO 等具有連續(xù)動作空間的DRL 算法。
1)大電網(wǎng)
針對含有風(fēng)光儲的大電網(wǎng)經(jīng)濟調(diào)度問題,文獻[50]在考慮備用的情況下,采用DDPG 應(yīng)對風(fēng)光荷不確定性以實現(xiàn)系統(tǒng)的動態(tài)經(jīng)濟調(diào)度,但DDPG 不能夠?qū)崿F(xiàn)異步采樣。文獻[51]依據(jù)電網(wǎng)調(diào)度運行指令下發(fā)的實際特點,考慮聯(lián)絡(luò)線功率、風(fēng)電場出力,采用A3C 算法實現(xiàn)多場景并行學(xué)習(xí)的智能經(jīng)濟調(diào)度。
當(dāng)涉及多區(qū)域電網(wǎng)經(jīng)濟調(diào)度問題時,由于模型復(fù)雜,涉及動作空間大,常采用多智能體的算法降低動作空間復(fù)雜度。文獻[52]提出的基于通信網(wǎng)絡(luò)架構(gòu)(CommNet)的分布式多智能體DRL 算法,在訓(xùn)練過程中可使各區(qū)域智能體間無須共享光伏、負荷預(yù)測數(shù)據(jù)和設(shè)備參數(shù)等信息。為避免有效決策信息的損失,文獻[53-54]沒有利用預(yù)測信息,直接采用端到端決策來進一步提升調(diào)度的經(jīng)濟性。
2)微電網(wǎng)
針對含有風(fēng)光儲的微電網(wǎng)經(jīng)濟調(diào)度問題,文獻[55-59]的動作對象均為儲能充放電,實現(xiàn)的目標(biāo)分別為光儲充電站收益最大化、微電網(wǎng)經(jīng)濟穩(wěn)定運行、負荷需求與發(fā)電功率的精準匹配、最小化運行成本(并網(wǎng))和盡量滿足負荷需求(孤島)。文獻[59-60]都考慮能源出力的隨機性,構(gòu)建了運行期望最小化獎勵函數(shù)。考慮到多微電網(wǎng)的動作空間維度以及學(xué)習(xí)復(fù)雜度,需要采用分層分布式的方式實現(xiàn)在線經(jīng)濟調(diào)度[49]。
3)虛擬電廠
針對含有風(fēng)光儲的虛擬電廠(virtual power plant,VPP)經(jīng)濟調(diào)度問題,文獻[61]將工業(yè)用戶中的可控負荷作為一種調(diào)度資源,考慮了光伏、風(fēng)電、微型燃氣輪機的環(huán)保與經(jīng)濟成本,基于A3C 算法的三層邊緣計算框架實現(xiàn)經(jīng)濟運行策略的高效求解。文獻[62]考慮了儲能系統(tǒng),基于對抗生成網(wǎng)絡(luò)生成的場景數(shù)據(jù)集以及DDPG 算法實現(xiàn)虛擬電廠的魯棒經(jīng)濟調(diào)度。但上述文獻并未考慮響應(yīng)信號在虛擬電廠內(nèi)部的分解,文獻[63]則考慮了上級總的響應(yīng)信號分解問題,并采用銳度感知最小化算法[64],提升了算法對環(huán)境和獎勵的魯棒性。
4)綜合能源系統(tǒng)
在含有熱、電、天然氣等綜合能源系統(tǒng)(integrated energy system,IES)經(jīng)濟調(diào)度問題中,文獻[65]采用DDPG 算法使綜合能源系統(tǒng)中的熱電聯(lián)供機組的電功率、燃氣鍋爐輸出的熱功率、儲能的充放電功率的經(jīng)濟調(diào)度動作空間處于連續(xù)狀態(tài)。由于DDPG 對超參數(shù)敏感且動作空間探索不足,采樣效率較低,文獻[66]采用SAC 算法,解決了電-氣綜合能源系統(tǒng)中天然氣系統(tǒng)利用傳統(tǒng)優(yōu)化方法難以凸化和收斂的問題,可有效應(yīng)對源荷不確定性,并實現(xiàn)RL 智能體模型秒級優(yōu)化調(diào)度決策。
考慮到DRL 算法對復(fù)雜動作空間探索難度大,文獻[67]采用雙層RL 模型,上層采用RL 算法實現(xiàn)電池出力調(diào)度,下層采用混合整數(shù)線性規(guī)劃求解綜合能源系統(tǒng)經(jīng)濟調(diào)度問題,避免了約束作為懲罰項帶來的DRL 算法復(fù)雜度增加問題,提升了模型計算效率。
然而上述方法在保證約束的安全性上仍有一些欠缺,需要采用一些保障安全的算法。文獻[68]采用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建新能源預(yù)測模型[69],并引入了安全引導(dǎo)函數(shù)來保障策略的安全性,實現(xiàn)了綜合能源系統(tǒng)的安全低碳經(jīng)濟運行。
相較于大電網(wǎng)、微電網(wǎng)、虛擬電廠,綜合能源系統(tǒng)可以實現(xiàn)多能源利用互補。例如,通過熱電聯(lián)供機組實現(xiàn)電力和熱量的同時生產(chǎn);通過燃氣鍋爐輸出熱功率;通過電轉(zhuǎn)氣單元將電力轉(zhuǎn)換為氣體。隨著需要控制的設(shè)備種類及參數(shù)增多,動作空間也將增加,會導(dǎo)致神經(jīng)網(wǎng)絡(luò)的訓(xùn)練收斂速度下降,甚至造成維數(shù)災(zāi)難。多智能體DRL 作為一種有效處理多智能體參與的決策方法,也逐漸在大規(guī)模綜合能源系統(tǒng)的經(jīng)濟調(diào)度問題中得到應(yīng)用。文獻[70]將綜合能源系統(tǒng)中的多個利益主體建模為多智能體,文獻[71-72]將多綜合能源區(qū)域(園區(qū))建模為多個主體,而文獻[73]將電力系統(tǒng)和熱力系統(tǒng)分別建模為2 個主體。它們均取得了比單一智能體DRL 算法更優(yōu)的收斂速度和經(jīng)濟效益。同時,通過集中訓(xùn)練分散執(zhí)行的算法流程,可以解決各利益主體之間數(shù)據(jù)共享的問題。
文獻[74]將傳統(tǒng)Q 學(xué)習(xí)算法應(yīng)用于電力系統(tǒng)最優(yōu)潮流計算領(lǐng)域,實現(xiàn)電力系統(tǒng)有功、無功、多目標(biāo)的最優(yōu)潮流計算。
但是,傳統(tǒng)的Q 學(xué)習(xí)采用離散動作,會損失一部分動作空間,為此需要采用基于策略或者執(zhí)行者-評論者的DRL 算法。文獻[75]基于CloudPSS 仿真云平臺,驗證了基于DDPG 的最優(yōu)潮流計算的可行性;由于DDPG 中的評論者網(wǎng)絡(luò)難訓(xùn)練、不穩(wěn)定,文獻[76]雖然基于DDPG 算法構(gòu)建了執(zhí)行者網(wǎng)絡(luò),但沒有使用評論者網(wǎng)絡(luò),而是基于拉格朗日數(shù)學(xué)解析推導(dǎo)得到了確定性梯度。由于PPO 相比于DDPG具有更高的采樣效率、更穩(wěn)定的學(xué)習(xí)策略,以及更容易調(diào)節(jié)的超參數(shù),文獻[77-78]采用基于模仿學(xué)習(xí)的PPO 算法求解交流最優(yōu)潮流問題。
前述的最優(yōu)潮流問題是針對主網(wǎng)的,而配電網(wǎng)由于沒有大型發(fā)電機組,其研究對象是在滿足潮流約束的同時,通過潮流合理分配使得網(wǎng)損最小。文獻[79]基于PPO 算法控制儲能有功功率、無功功率以及風(fēng)電的無功功率,實現(xiàn)了在不違反電壓和電池儲能容量約束的情況下配電網(wǎng)網(wǎng)損的最小化。文獻[80]采用完全分布式的PPO 算法,實現(xiàn)了不平衡配電網(wǎng)的光伏有功功率最大化輸出與電壓穩(wěn)定。
針對互聯(lián)的微電網(wǎng),由于其動作空間大,傳統(tǒng)單一智能體算法難以滿足計算需求,需要建模為多智能體DRL 問題求解。文獻[81]依據(jù)智能體的連續(xù)離散動作空間,設(shè)置了雙層DRL,并將潮流等式約束設(shè)置在環(huán)境中;文獻[82]將潮流等安全約束構(gòu)建成梯度信息,保證最優(yōu)控制策略產(chǎn)生安全可行的決策方案。
由于并不是所有場景下的調(diào)度問題都是非凸的,可以將凸的子問題抽離出來,構(gòu)建優(yōu)化問題與DRL 結(jié)合的雙層求解結(jié)構(gòu)。文獻[83]將居民微電網(wǎng)的最優(yōu)運行成本問題建模成混合整數(shù)二階錐的優(yōu)化問題,并將其轉(zhuǎn)化為MDP 主問題與最優(yōu)潮流二階錐優(yōu)化子問題,主問題采用MuZero[18]算法得到較優(yōu)的在線優(yōu)化結(jié)果。文獻[84]針對互聯(lián)微電網(wǎng)在信息不全情況下的潮流能量管理問題,考慮在配電網(wǎng)層面只能獲取公共連接點(point of common coupling,PCC)處的功率信息,設(shè)計了雙層算法。在上層基于改進的Q 學(xué)習(xí)實現(xiàn)互聯(lián)微電網(wǎng)購售電成本最優(yōu),在下層針對單個微電網(wǎng)實現(xiàn)最優(yōu)潮流。文獻[81]雖然也采用了雙層DRL,但實際上是將離散動作空間和連續(xù)動作空間作為前后2 層DRL 的決策空間。
安全約束最優(yōu)潮流[85]增加了可靠性約束來確保電力系統(tǒng)能夠承受一定預(yù)想故障的沖擊。由于安全約束最優(yōu)潮流需要搜索預(yù)想故障集,如果采用基于優(yōu)化的交流最優(yōu)潮流,其計算量也非常大;而DRL 方法的提出,將有助于在交流最優(yōu)潮流的基礎(chǔ)上實現(xiàn)安全約束最優(yōu)潮流。文獻[86]以最小化約束越限為獎勵,以提升系統(tǒng)在各種隨機場景下的N-1安全性為核心,采用A3C 算法結(jié)合電力領(lǐng)域知識在減小負荷削減量的同時降低了系統(tǒng)運行成本。
DRL 算法能夠在一定程度上解決電力系統(tǒng)交流最優(yōu)潮流的精確求解問題,尤其是在非凸約束增多時,優(yōu)化求解復(fù)雜度會急劇提升。而DRL 在處理類似問題時可以進行精確建模,而不必為實現(xiàn)凸優(yōu)化而損失模型精度,甚至可以得到比凸松弛后的交流最優(yōu)潮流優(yōu)化問題更經(jīng)濟的解。此外,DRL 算法在需要大規(guī)模搜索時也有一定優(yōu)勢。
由于最優(yōu)潮流問題需要考慮潮流等式約束,因而相較于經(jīng)濟調(diào)度問題,其動作空間受到一定的限制,這也是當(dāng)前基于DRL 算法求解最優(yōu)潮流的難點。這需要保證在潮流等式約束被滿足的同時,處理新能源出力的不確定性并尋求最優(yōu)發(fā)電調(diào)度計劃?,F(xiàn)階段文獻主要將潮流等式約束放在環(huán)境中處理,較少文獻將潮流等式約束融合至策略產(chǎn)生的約束中,形成安全的策略[82]。
文獻[87]采用RL 算法求解機組組合問題,而文獻[88]采用分布式Q 學(xué)習(xí)算法,因僅涉及局部通信,提高了求解的魯棒性。但是,Q 學(xué)習(xí)算法的動作空間受Q 表格的限制,難以處理高維動作狀態(tài)。為此,文獻[89]采用深度神經(jīng)網(wǎng)絡(luò)逼近Q 函數(shù)的DQN算法實現(xiàn)高維機組組合動作空間的探索。為應(yīng)對新能源出力的不確定性,文獻[90]針對隨機波動的光伏出力,采用全連接神經(jīng)網(wǎng)絡(luò)擬合Q 值求解考慮光伏出力的機組組合問題。
由于機組組合的動作空間隨著機組數(shù)量而急劇增長,在現(xiàn)有文獻中,Q 學(xué)習(xí)算法最多僅能應(yīng)用于含12 臺機組的算例。為進一步克服機組動作空間隨機組數(shù)量呈幾何增長的問題,文獻[91]采用引導(dǎo)樹搜索方法實現(xiàn)了對動作空間的快速高效搜索,可求解30 臺機組組合問題,相比于混合整數(shù)線性規(guī)劃算法,可減少機組的頻繁動作,并在降低系統(tǒng)運行成本的同時減少了負荷損失概率。
通常在機組組合問題中,除決策機組啟停的離散量外,還需要同時給出機組出力的連續(xù)決策變量。文獻[89,91]采用Lambda 迭代法進行求解;文獻[88]將機組組合和經(jīng)濟調(diào)度問題建模為一個問題,將連續(xù)機組出力作為動作對象,動作空間則滿足機組啟停等約束。文獻[92]采用SAC 確定機組啟停計劃,然后通過Cplex 求解器求解單時段優(yōu)化問題得到機組出力。而文獻[87,90]并未提及機組出力的決策過程。
在機組組合問題中,機組啟停動作空間是一個離散的動作空間。采用諸如DQN、PPO 等一般的DRL 算法難以有效應(yīng)對機組數(shù)增加而帶來動作空間維度呈指數(shù)增長的問題。因而,基于一般的DRL算法僅能夠解決機組數(shù)較少的機組組合問題,并且較少涉及新能源接入。但一般的DRL 算法對環(huán)境的探索能力有限,需要結(jié)合樹搜索算法或者智能體提前預(yù)知一定的環(huán)境模型信息,進而提升或引導(dǎo)智能體對高維動作空間的探索效率。
機組組合問題作為一個長時間序列決策問題,即使采用先進的DRL 技術(shù)也難以實現(xiàn)較好的決策,目前在仿真算例中仍存在較多的問題亟待解決。其中,一個較為關(guān)鍵的問題是用電計劃無法完全被滿足。在理論研究中,常將用電計劃滿足程度表述為失負荷風(fēng)險。由于機組組合的動作空間極大,在機組數(shù)量較多、測試時間較長的情況下,失負荷通常是不可避免的。因此,后續(xù)的研究重點是改進動作空間的建模形式或采用學(xué)習(xí)能力更強的算法等以確保用電計劃完全滿足。
由于電網(wǎng)對于安全性和供電可靠性要求較高,實際落地應(yīng)用不可能一蹴而就??紤]到?jīng)Q策的穩(wěn)定性、安全性以及誤決策的危害,可以先在配電網(wǎng)或用戶側(cè)進行一些嘗試,然后,再從小區(qū)域低電壓等級慢慢推廣到大區(qū)域高電壓等級。在配電網(wǎng)側(cè),由于涉及的設(shè)備種類多樣、波動性較大,對于算法的實時性要求高,可以采用DRL 算法進行實時經(jīng)濟調(diào)度、設(shè)備出力控制、電壓控制等,以實現(xiàn)配電網(wǎng)眾多設(shè)備的安全實時經(jīng)濟運行。在用戶側(cè),可以實時獲取價格信號和屋頂光伏等新能源出力信息,采用DRL 算法實時控制需求響應(yīng)、家用電器、溫控負荷等。文獻[93]將RL 算法應(yīng)用于美國科羅拉多州一個包含27個家庭的微電網(wǎng)中, 應(yīng)用結(jié)果表明,采用RL 算法可大幅度降低用戶用電成本,實現(xiàn)秒級別的優(yōu)化控制。文獻[94]采用擬合Q 迭代算法實現(xiàn)電熱水器的控制。該項目是住宅需求響應(yīng)試點項目的一部分,其中,10 臺電熱水器用于直接負荷控制,每臺電熱水器配備了8 個溫度傳感器和1 個可控功率加熱裝置。在試點項目中,相比于恒溫控制器,采用RL算法可使電熱水器的總能耗成本降低15%。2021年5—6 月,上海某寫字樓中央冷水機組采用RL 算法控制冷卻機組和冷卻水泵來重設(shè)定點溫度[95],實現(xiàn)了近似專家系統(tǒng)的控制效果,并驗證了RL 決策系統(tǒng)的魯棒性、穩(wěn)定性和學(xué)習(xí)速度。
在大電網(wǎng)側(cè),隨著新能源廣泛接入,源荷波動愈加劇烈,系統(tǒng)對于日內(nèi)實時優(yōu)化的需求上升??梢韵炔扇?shù)據(jù)接入、輔助決策方式進行試點運行。如果在試點過程中出現(xiàn)錯誤,則需要對算法進一步校驗,必要時可以增加一些人工調(diào)度經(jīng)驗規(guī)則,采用數(shù)據(jù)知識混合驅(qū)動的方法保證決策的正確性。常見的實時調(diào)度場景包括日前和日內(nèi)的實時計劃動態(tài)快速調(diào)整、電力市場實時的報價出清策略等。文獻[96]所研發(fā)的電網(wǎng)腦于2019 年11 月部署在中國江蘇電網(wǎng)調(diào)控中心安全Ⅰ區(qū)。電網(wǎng)腦能在滿足調(diào)控需求的前提下,在20 ms 內(nèi)對電壓、潮流越界等問題提供解決方案,快速消除風(fēng)險,同時降低約3.5%的網(wǎng)損。該成果可用于輔助調(diào)度員對電壓與聯(lián)絡(luò)線潮流進行控制,進一步可作為全自動化調(diào)度的基礎(chǔ)技術(shù)手段。
在海量數(shù)據(jù)場景下,DRL 作為一種數(shù)據(jù)驅(qū)動的決策方案,能夠在保證目標(biāo)最優(yōu)性的同時更快速地求解目標(biāo)函數(shù),獲得比傳統(tǒng)方法更高效經(jīng)濟的策略[86,91]。例如,在風(fēng)險評估中,DRL 可以快速搜索高風(fēng)險級聯(lián)故障[97-98],也可以將DRL 與電力系統(tǒng)運籌優(yōu)化方法深度結(jié)合,通過DRL 加速優(yōu)化計算或者實現(xiàn)精確建模與求解。
DRL 算法能夠?qū)χ悄荏w進行針對性訓(xùn)練,并能夠根據(jù)場景的變化快速求得最優(yōu)管理策略,滿足電網(wǎng)運行的實時性要求。但DRL 作為一種基于深度神經(jīng)網(wǎng)絡(luò)的算法,需要大量學(xué)習(xí)仿真數(shù)據(jù),并且所得到的結(jié)果較難解釋。電力系統(tǒng)調(diào)度是電力系統(tǒng)的核心環(huán)節(jié),一般不允許出現(xiàn)差錯。若DRL 在電力系統(tǒng)調(diào)度中獲得應(yīng)用,還需要在以下方面做進一步深入的研究。
1)建立真實的電網(wǎng)仿真環(huán)境
DRL 需要大量學(xué)習(xí)仿真數(shù)據(jù)。在電力系統(tǒng)中,通常需要單獨搭建適配于電力系統(tǒng)的環(huán)境,智能體在與環(huán)境交互的過程中,產(chǎn)生大量情節(jié),這也就是DRL 需要學(xué)習(xí)的仿真數(shù)據(jù)。DRL 的目標(biāo)是最大化獎勵,因此,可以通過獎勵的設(shè)置對違反的約束給予懲罰,將需要實現(xiàn)的經(jīng)濟性、安全性目標(biāo)設(shè)置在獎勵中??紤]到DRL 的訓(xùn)練需要搭建類似于Gym[99]的電網(wǎng)環(huán)境,當(dāng)前已有不少開源工作者構(gòu)建了類似的開源環(huán)境庫,例如,Gym-ANM[100]、PowerGym[101]、Grid2op[102]等。未來,需要基于數(shù)字孿生,搭建電網(wǎng)仿真系統(tǒng),加強數(shù)字資源的積累,為應(yīng)用提供基礎(chǔ)。
2)算法性能的提升
隨著建模對象和環(huán)境逐漸復(fù)雜,在大規(guī)模復(fù)雜環(huán)境下DRL 收斂求解時間也會隨之增加。如果在實際中求解一個大規(guī)模復(fù)雜新型電力系統(tǒng)調(diào)度問題時,必然會遇到維度災(zāi)難問題。當(dāng)動作空間維數(shù)過大時,可搜索的動作空間將很大,進而影響DRL 收斂速度和動作的準確性。此外,如果是類似機組組合問題的0-1 離散變量過多,也會加劇DRL 訓(xùn)練的難度。隨著DRL 理論的不斷發(fā)展,未來可以考慮引入模仿學(xué)習(xí)、元學(xué)習(xí)的思想[103],以便縮短復(fù)雜環(huán)境下智能體的培訓(xùn)時間,提高性能。
在與環(huán)境交互計算方面,當(dāng)前智能體與環(huán)境的模擬交互過程以及數(shù)據(jù)的傳輸通信仍然是通過CPU 完成的。如果能夠開發(fā)類似于Isaac Gym 的圖形處理器(graphics processing unit,GPU)環(huán)境,環(huán)境的模擬和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練都將置于GPU 內(nèi),使得數(shù)據(jù)直接從內(nèi)存?zhèn)鬟f到GPU 的訓(xùn)練框架中(如PyTorch),不受CPU 數(shù)據(jù)傳輸限制,則將大大加快目前的訓(xùn)練速度,進一步提高DRL 求解大規(guī)模復(fù)雜問題的性能。
3)安全性研究
由于DRL 方法輸出的決策存在不確定性,其安全性不如傳統(tǒng)優(yōu)化算法,可能會給出不符合電網(wǎng)安全運行的結(jié)果,這時便需要算法有能力給出規(guī)避機制,實現(xiàn)電力系統(tǒng)的安全穩(wěn)定運行。對于新能源全部消納的要求,可以允許存在一定的棄風(fēng)棄光,但在有嚴格物理安全約束要求時,如果DRL 不能夠完全確保得出的決策滿足安全約束,將會導(dǎo)致系統(tǒng)安全問題。當(dāng)前許多研究基于DRL 的調(diào)度文獻未涉及系統(tǒng)安全約束的問題,即使是涉及系統(tǒng)安全性的文獻,也基本是將約束建模成獎勵函數(shù)懲罰項的形式,極少從數(shù)學(xué)理論上證明DRL 算法可滿足安全約束條件。也有將約束在建模過程中直接融合在MDP過程中,形成安全可靠的DRL 算法。進一步,也可嘗試采用安全RL 算法[104]保證策略操作的安全性。
4)可解釋性研究
傳統(tǒng)基于價值或基于策略的DRL 算法,具備強邏輯性和可解釋性。但神經(jīng)網(wǎng)絡(luò)模型也被稱為黑盒子模型,缺乏一定的解釋性。而DRL 是在RL 的基礎(chǔ)上,引入了神經(jīng)網(wǎng)絡(luò)來擬合價值函數(shù)或(和)策略函數(shù),對復(fù)雜問題的建模具有更好的實驗效果。但是,神經(jīng)網(wǎng)絡(luò)的引入不利于其可解釋性,難以在實際應(yīng)用中從原理上說服調(diào)度人員依據(jù)DRL 算法給出的決策進行操作。未來,可結(jié)合可解釋性機器學(xué)習(xí)給出可解釋性的策略動作,提升DRL 的可解釋性,讓調(diào)度人員更易于接受人工智能算法的決策結(jié)果。
5)遷移性和魯棒性研究
目前,研究性論文中智能體所處的環(huán)境都是電力系統(tǒng)仿真模擬環(huán)境,數(shù)據(jù)均為理想化的數(shù)據(jù),不存在數(shù)據(jù)干擾的情況。而在實際運行的電力系統(tǒng)環(huán)境下,如何保證DRL 算法的正確性、保證模型的魯棒性是值得考慮的問題。文獻[63]通過使用銳度感知最小化[64]實現(xiàn)了噪聲的魯棒性,此外,在DRL 算法領(lǐng)域也出現(xiàn)了魯棒DRL 算法[105],這也是未來可以嘗試的解決方法。
本文介紹了新型電力系統(tǒng)調(diào)度問題,闡述了基于模型、基于價值、基于策略和執(zhí)行者-評論者的DRL 算法原理,以及在調(diào)度中可嘗試應(yīng)用的DRL算法。在經(jīng)濟調(diào)度問題中,分別從大電網(wǎng)、微電網(wǎng)、虛擬電廠、綜合能源系統(tǒng)角度總結(jié)了DRL 應(yīng)用的結(jié)果;在最優(yōu)潮流問題中,以交流最優(yōu)潮流模型為基礎(chǔ),總結(jié)了主網(wǎng)、配電網(wǎng)、微電網(wǎng)以及安全約束最優(yōu)潮流問題的DRL 解決方案;在機組組合問題中,總結(jié)了火電發(fā)電機組的機組組合和考慮新能源的機組組合問題。最后,分析了當(dāng)前應(yīng)用前景,并論述了未來研究方向。
本文受國家自然科學(xué)基金項目(52007173,U19B2042)資助,謹此致謝!
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。