摘 要:高壓電房環(huán)境復(fù)雜,存在高電壓和狹窄空間等危險(xiǎn)因素,傳統(tǒng)的人工應(yīng)急處理面臨安全風(fēng)險(xiǎn)和效率低下的問(wèn)題。通過(guò)選擇深度Q網(wǎng)絡(luò),應(yīng)急搶險(xiǎn)機(jī)器人通過(guò)與環(huán)境的交互,積累經(jīng)驗(yàn),并通過(guò)獎(jiǎng)勵(lì)機(jī)制優(yōu)化其策略,逐步學(xué)習(xí)到最佳的行動(dòng)路徑和應(yīng)急響應(yīng)措施,從而實(shí)現(xiàn)快速、精準(zhǔn)的故障識(shí)別和處理。通過(guò)模擬試驗(yàn)驗(yàn)證了基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃策略在實(shí)際搶險(xiǎn)場(chǎng)景中的有效性,結(jié)果表明方法顯著提高了機(jī)器人在應(yīng)急響應(yīng)中的安全性和效率,為未來(lái)高壓電房的智能化管理提供了新的思路和方法。
關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);高壓電房;應(yīng)急搶險(xiǎn)機(jī)器人;路徑規(guī)劃
中圖分類號(hào):TP 242" " 文獻(xiàn)標(biāo)志碼:A
高壓站房?jī)?nèi)電氣設(shè)備眾多且長(zhǎng)期運(yùn)行,增加了發(fā)生著火事故的風(fēng)險(xiǎn)。當(dāng)發(fā)生此類事故時(shí),由于高壓電房的復(fù)雜環(huán)境,常常面臨高電壓、狹窄空間和各種障礙物多等情況,人工操作的風(fēng)險(xiǎn)極高。處理不當(dāng)可能導(dǎo)致嚴(yán)重的財(cái)產(chǎn)損失、人員傷亡。國(guó)內(nèi)外眾多研究人員針對(duì)這些問(wèn)題開展了一系列的工作,陳人楷等[1]設(shè)計(jì)了一種基于深度強(qiáng)化學(xué)習(xí)的電力巡檢機(jī)器人自動(dòng)化監(jiān)測(cè)系統(tǒng)。金涌濤等[2]提出了一種基于改進(jìn)YOLOv7-tiny的變電站機(jī)器人設(shè)備巡檢中目標(biāo)動(dòng)態(tài)捕捉識(shí)別方法??讜员鳾3]研究了基于電力大數(shù)據(jù)的變電站設(shè)備智能控制系統(tǒng)。本文擬應(yīng)用深度強(qiáng)化學(xué)習(xí)技術(shù),通過(guò)與環(huán)境的交互,積累經(jīng)驗(yàn)并優(yōu)化決策策略,使機(jī)器人逐步學(xué)習(xí)最佳的行動(dòng)路徑和應(yīng)急響應(yīng)措施,實(shí)現(xiàn)快速、精準(zhǔn)的故障識(shí)別與處理。
1 深度強(qiáng)化學(xué)習(xí)概要
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是一個(gè)結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的強(qiáng)大方法,旨在使智能體能夠在復(fù)雜動(dòng)態(tài)環(huán)境中自主學(xué)習(xí)并制定最優(yōu)策略。
深度學(xué)習(xí)基于多層神經(jīng)網(wǎng)絡(luò),通過(guò)多層網(wǎng)絡(luò)進(jìn)行特征提取和模式識(shí)別。它能自動(dòng)從原始數(shù)據(jù)中自動(dòng)提取高級(jí)特征,已廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等領(lǐng)域。強(qiáng)化學(xué)習(xí)則通過(guò)智能體與環(huán)境交互學(xué)習(xí)最佳策略,并通過(guò)獎(jiǎng)勵(lì)信號(hào)評(píng)估行為優(yōu)劣,目標(biāo)是最大化累積獎(jiǎng)勵(lì)。深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)的特征提取與強(qiáng)化學(xué)習(xí)的決策能力,使智能體能在復(fù)雜、高維的狀態(tài)空間中有效學(xué)習(xí)。
深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的特征提取能力與強(qiáng)化學(xué)習(xí)的決策能力結(jié)合,使智能體能夠在復(fù)雜、高維的狀態(tài)空間中有效學(xué)習(xí)。例如,深度Q網(wǎng)絡(luò)(DQN)結(jié)合了深度學(xué)習(xí)和Q學(xué)習(xí)算法,通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)狀態(tài)進(jìn)行編碼,近似Q值函數(shù),使智能體能夠在視覺(jué)輸入中直接學(xué)習(xí)到最佳行動(dòng)策略。
2 深度Q網(wǎng)絡(luò)介紹
深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)是一種結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的算法,旨在解決高維狀態(tài)空間下的強(qiáng)化學(xué)習(xí)問(wèn)題。DQN的核心思想是使用深度神經(jīng)網(wǎng)絡(luò)來(lái)近似Q值函數(shù),從而允許智能體在復(fù)雜環(huán)境中學(xué)習(xí)最佳策略。
2.1 Q學(xué)習(xí)原理
Q學(xué)習(xí)是一種無(wú)模型的強(qiáng)化學(xué)習(xí)方法,通過(guò)智能體在沒(méi)有環(huán)境模型的情況下學(xué)習(xí)如何最大化累積獎(jiǎng)勵(lì)。智能體通過(guò)維護(hù)一個(gè)Q表(Q-table)來(lái)記錄每個(gè)狀態(tài)-動(dòng)作對(duì)的預(yù)期累積回報(bào),即Q(s,a)。Q(s,a)表示在狀態(tài)s下采取動(dòng)作a后的預(yù)期累積回報(bào)。Q值的更新遵循貝爾曼方程,如公式(1)所示。
(1)
式中:α為學(xué)習(xí)率,決定了新舊信息的混合程度;r為即時(shí)獎(jiǎng)勵(lì);γ為折扣因子,用于平衡即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì);s'為智能體在執(zhí)行動(dòng)作a后到達(dá)的新狀態(tài);為在新狀態(tài)s'下,未來(lái)可能采取的動(dòng)作所能獲得的最大Q值。
2.2 DQN的基本原理
為了克服Q學(xué)習(xí)在高維環(huán)境中的限制,DQN使用深度神經(jīng)網(wǎng)絡(luò)來(lái)近似Q值函數(shù)。深度Q網(wǎng)絡(luò)以當(dāng)前狀態(tài)s作為輸入,輸出對(duì)應(yīng)各個(gè)動(dòng)作a的Q值。通過(guò)深度神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)狀態(tài)-動(dòng)作值的映射,從而避免維護(hù)智能體中龐大的Q值表。
DQN的模型如圖1所示。在DQN中,深度神經(jīng)網(wǎng)絡(luò)用于近似Q值函數(shù)Q(s,a;θ),其中,θ為神經(jīng)網(wǎng)絡(luò)的參數(shù)。該網(wǎng)絡(luò)接受當(dāng)前狀態(tài)s作為輸入,輸出對(duì)應(yīng)的每個(gè)可能動(dòng)作的Q值。
DQN采用了2個(gè)網(wǎng)絡(luò)結(jié)構(gòu):一個(gè)是主網(wǎng)絡(luò),另一個(gè)是目標(biāo)網(wǎng)絡(luò)。主網(wǎng)絡(luò)負(fù)責(zé)實(shí)時(shí)更新Q值,目標(biāo)網(wǎng)絡(luò)則用于計(jì)算目標(biāo)Q值。為了保持學(xué)習(xí)過(guò)程的穩(wěn)定性,目標(biāo)網(wǎng)絡(luò)的參數(shù)會(huì)定期進(jìn)行更新。
為了消除數(shù)據(jù)樣本之間的相關(guān)性,DQN引入了經(jīng)驗(yàn)回放機(jī)制。該機(jī)制的核心是一個(gè)名為回放緩沖區(qū)的數(shù)據(jù)結(jié)構(gòu)。智能體在與環(huán)境交互過(guò)程中會(huì)將每次的經(jīng)歷存儲(chǔ)到這個(gè)緩沖區(qū)中。每次訓(xùn)練時(shí),會(huì)從緩沖區(qū)中隨機(jī)選擇一批樣本用于訓(xùn)練。這種方法有助于減少樣本間的時(shí)間相關(guān)性,并提高樣本的使用效率,顯著提高了DQN在復(fù)雜環(huán)境中的表現(xiàn)[4]。
DQN的Q值更新過(guò)程基于貝爾曼方程。目標(biāo)Q值y如公式(2)所示。
(2)
式中:θ-為目標(biāo)網(wǎng)絡(luò)的參數(shù)。
目標(biāo)網(wǎng)絡(luò)的參數(shù)會(huì)在固定的步數(shù)后從主網(wǎng)絡(luò)進(jìn)行同步更新,以此降低訓(xùn)練過(guò)程中的不穩(wěn)定性。
主網(wǎng)絡(luò)的參數(shù)通過(guò)最小化均方誤差(Mean Squared Error,MSE)損失函數(shù)進(jìn)行更新,如公式(3)所示。
L(θ)=E(s,a,r,s')~D[(y-Qmain(s,a;w))2] (3)
式中:D為經(jīng)驗(yàn)回放緩沖區(qū)中的樣本集合;θ為主網(wǎng)絡(luò)的參數(shù)。
3 基于DQN的應(yīng)急搶險(xiǎn)機(jī)器人路徑規(guī)劃
3.1 應(yīng)急搶險(xiǎn)機(jī)器人路徑規(guī)劃DQN模型
應(yīng)急搶險(xiǎn)機(jī)器人從未知環(huán)境中獲取當(dāng)前狀態(tài)st后,根據(jù)貪婪策略ε-greedy選擇一個(gè)動(dòng)作at來(lái)執(zhí)行運(yùn)動(dòng)。機(jī)器人以一定概率選擇當(dāng)前狀態(tài)下Q值最高的動(dòng)作at。同時(shí),機(jī)器人以ε概率隨機(jī)選擇一個(gè)動(dòng)作at,防止因受到噪聲和不確定性的影響陷入局部最優(yōu)解。對(duì)應(yīng)最大Q值的動(dòng)作at如公式(4)所示。
at=argmaxaQ(st,a;w) (4)
式中:st為當(dāng)前時(shí)刻的狀態(tài)值;at為當(dāng)前狀態(tài)對(duì)應(yīng)最大Q值的動(dòng)作;w為當(dāng)前網(wǎng)絡(luò)參數(shù)。
DQN學(xué)習(xí)流程如圖2所示。機(jī)器人通過(guò)與環(huán)境交互,并根據(jù)所獲得的反饋信息不斷學(xué)習(xí)和改進(jìn)[5]。當(dāng)機(jī)器人執(zhí)行動(dòng)作at后,環(huán)境會(huì)返回獎(jiǎng)勵(lì)值rt以及下一時(shí)刻的狀態(tài)st+1。這些信息(st,at,γt,st+1)會(huì)被記錄并存儲(chǔ)在經(jīng)驗(yàn)池中,供后續(xù)訓(xùn)練使用。當(dāng)前值網(wǎng)絡(luò)用于計(jì)算在當(dāng)前狀態(tài)下執(zhí)行動(dòng)作at的Q值Q(si,ai;w),而目標(biāo)值網(wǎng)絡(luò)則計(jì)算下一狀態(tài)st+1中執(zhí)行所有可能動(dòng)作的Q值Q(si+1,ai;w')。接著,使用獎(jiǎng)勵(lì)的折扣因子γ來(lái)計(jì)算目標(biāo)值yi,如公式(5)所示(第一種情況表示機(jī)器人在狀態(tài)st+1下達(dá)成目標(biāo),第二種情況表示機(jī)器人未能達(dá)成目標(biāo)。)。
(5)
式中:γ為獎(jiǎng)勵(lì)值的折扣因子。
3.2 ε-greedy貪婪策略
為了使獎(jiǎng)勵(lì)值rt最大化,研究者利用行動(dòng)價(jià)值函數(shù)Qπ(st,at)(如公式(6)所示)來(lái)估計(jì)在狀態(tài)st中采取行動(dòng)后執(zhí)行策略π的獎(jiǎng)勵(lì)。最優(yōu)動(dòng)作值函數(shù)Q*(st,at)(如公式(7)所示)是通過(guò)最大化消除策略π得到的,消除策略π表示在狀態(tài)st中采取行動(dòng)后執(zhí)行最優(yōu)策略的最大獎(jiǎng)勵(lì)。函數(shù)Q*估計(jì)了當(dāng)前狀態(tài)下每個(gè)動(dòng)作的最大期望累積獎(jiǎng)勵(lì),指導(dǎo)機(jī)器人選擇具有最高期望獎(jiǎng)勵(lì)的動(dòng)作。因此,基于值的DQN算法采用了一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近最優(yōu)的動(dòng)作-值函數(shù)。
Qπ(st,at)=E[rt|St=st,At=at] (6)
(7)
通過(guò)采用貪婪策略,該模型很容易陷入局部最優(yōu)解,因此,建議鼓勵(lì)該模型在訓(xùn)練開始時(shí)進(jìn)行更多的探索。在訓(xùn)練過(guò)程中,機(jī)器人執(zhí)行模型給出的動(dòng)作的可能性為Epsilon,而采取隨機(jī)動(dòng)作的概率為1-Epsilon,如公式(8)所示。在初始階段,由于值較小,因此機(jī)器人處于隨機(jī)探索狀態(tài)。該方法可以加速模型的收斂性,減少陷入局部最優(yōu)的風(fēng)險(xiǎn)。
(8)
3.3 DQN訓(xùn)練流程
智能體與環(huán)境交互:智能體在環(huán)境中執(zhí)行動(dòng)作,獲取狀態(tài)s、動(dòng)作a、獎(jiǎng)勵(lì)r以及下一狀態(tài)s',并將這些經(jīng)歷存儲(chǔ)到經(jīng)驗(yàn)回放緩沖區(qū)中。
經(jīng)驗(yàn)回放抽樣:從經(jīng)驗(yàn)回放緩沖區(qū)中隨機(jī)抽取一批樣本(s,a,r,s')。
計(jì)算目標(biāo)Q值:使用目標(biāo)網(wǎng)絡(luò)計(jì)算目標(biāo)Q值y。
更新主網(wǎng)絡(luò):通過(guò)最小化損失函數(shù)L(θ)來(lái)更新主網(wǎng)絡(luò)的參數(shù)。
目標(biāo)網(wǎng)絡(luò)更新:每隔一段時(shí)間,將主網(wǎng)絡(luò)的參數(shù)θ復(fù)制到目標(biāo)網(wǎng)絡(luò)θ-中,使目標(biāo)網(wǎng)絡(luò)的參數(shù)得到同步更新。
3.4 雙DQN算法
本文引用雙DQN算法[6]來(lái)減輕過(guò)高估計(jì)問(wèn)題。傳統(tǒng)的DQN算法使用單神經(jīng)網(wǎng)絡(luò)來(lái)同時(shí)估計(jì)當(dāng)前狀態(tài)下各個(gè)動(dòng)作的價(jià)值。雙DQN算法引入了2個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò):評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。評(píng)估網(wǎng)絡(luò)負(fù)責(zé)根據(jù)當(dāng)前狀態(tài)估計(jì)所有可能動(dòng)作的Q值;目標(biāo)網(wǎng)絡(luò)用于計(jì)算訓(xùn)練過(guò)程中指導(dǎo)評(píng)估網(wǎng)絡(luò)更新的Q值。目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)與評(píng)估網(wǎng)絡(luò)相同,但其參數(shù)是定期從評(píng)估網(wǎng)絡(luò)中復(fù)制過(guò)來(lái)的。目標(biāo)網(wǎng)絡(luò)的參數(shù)是通過(guò)固定間隔從評(píng)估網(wǎng)絡(luò)中復(fù)制得來(lái)的,這樣可以減少價(jià)值函數(shù)的波動(dòng)性,緩解過(guò)估計(jì)問(wèn)題。雙DQN中使用的Q學(xué)習(xí)目標(biāo)如公式(9)所示。
(9)
在雙DQN算法中,只使用當(dāng)前網(wǎng)絡(luò)參數(shù),忽略了上一代網(wǎng)絡(luò)參數(shù)的重要性。本文改進(jìn)的雙DQN算法可以充分利用上一代的網(wǎng)絡(luò)參數(shù),隨著迭代次數(shù)增加,機(jī)器人可以獲得足夠的環(huán)境先驗(yàn)知識(shí)積累,消除高估對(duì)動(dòng)作選擇的影響,增加了重要經(jīng)驗(yàn)的回放概率,使樣本學(xué)習(xí)更有效。代理使用ε-greedy貪婪策略選擇行動(dòng)。當(dāng)開始時(shí),代理不熟悉環(huán)境,并隨機(jī)采取行動(dòng)。隨著經(jīng)驗(yàn)增加,為了選擇預(yù)期回報(bào)值最大的行動(dòng),應(yīng)降低采取隨機(jī)行動(dòng)的概率,并首選貪婪策略。貪婪策略的使用還可以防止代理陷入局部最優(yōu)。
3.5 優(yōu)先經(jīng)驗(yàn)回放機(jī)制
在傳統(tǒng)的訓(xùn)練方法中,訓(xùn)練樣本存儲(chǔ)在存儲(chǔ)單元中,并隨機(jī)選擇進(jìn)行訓(xùn)練,這可能導(dǎo)致有價(jià)值樣本學(xué)習(xí)不足,而無(wú)意義樣本被重復(fù)學(xué)習(xí),影響收斂速度和學(xué)習(xí)效率。因此,采用基于優(yōu)先經(jīng)驗(yàn)回放機(jī)制的DQN方法,充分利用有價(jià)值的傳輸樣本,使機(jī)器人能從大量數(shù)據(jù)中高效學(xué)習(xí),從而提高學(xué)習(xí)效率。在訓(xùn)練過(guò)程中,機(jī)器人-環(huán)境交互數(shù)據(jù)存儲(chǔ)在體驗(yàn)重放隊(duì)列中,后續(xù)從隊(duì)列中提取數(shù)據(jù)輸入模型,顯著提高數(shù)據(jù)利用率。優(yōu)先經(jīng)驗(yàn)回放機(jī)制通過(guò)標(biāo)記緩存單元優(yōu)先級(jí),從而顯著提高了數(shù)據(jù)的利用率。
由于每個(gè)交互式數(shù)據(jù)對(duì)模型增強(qiáng)的影響都不同,為了提高數(shù)據(jù)利用的效率,有必要對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。這意味應(yīng)該通過(guò)選擇性地采樣具有高TD誤差(Temporal Difference Error,時(shí)序差分誤差)的數(shù)據(jù)來(lái)提高模型性能。為了實(shí)現(xiàn)這一點(diǎn),使用公式(10)和公式(11)來(lái)計(jì)算每個(gè)數(shù)據(jù)的優(yōu)先級(jí)和采樣率,其中δi為數(shù)據(jù)的TD誤差值;為了防止采樣率過(guò)小,添加了ε。α是調(diào)節(jié)優(yōu)先級(jí)對(duì)采用概率的影響的指標(biāo),當(dāng)α=0時(shí),它是傳統(tǒng)的統(tǒng)一抽樣,如果α=1,那么恰好是基于優(yōu)先級(jí)的抽樣方法。
pi=|δi|+ε (10)
(11)
4 試驗(yàn)結(jié)果與分析
使用Python 3.6和PyTorch工具搭建仿真平臺(tái)以進(jìn)行試驗(yàn)。本文提出的雙DQN算法的超參數(shù)配置見表1。為確保試驗(yàn)的一致性,原始DQN算法的超參數(shù)設(shè)置與改進(jìn)算法保持相同。
使用傳統(tǒng)DQN路徑規(guī)劃算法和改進(jìn)算法得到的路徑結(jié)果見表2。當(dāng)執(zhí)行路徑規(guī)劃任務(wù)時(shí),雖然2種算法都能成功引導(dǎo)機(jī)器人到達(dá)目標(biāo)位置,但在路徑效率和行進(jìn)路線的復(fù)雜度上有所不同。具體來(lái)說(shuō),傳統(tǒng)DQN算法的路徑平均長(zhǎng)度為35.5m,而改進(jìn)算法將路徑長(zhǎng)度縮短至28.6m,相比之下節(jié)省了19.4%。此外,傳統(tǒng)算法規(guī)劃的路徑中有多達(dá)17個(gè)拐點(diǎn),而改進(jìn)算法減少到僅8個(gè)。這表明改進(jìn)算法不僅提高了路徑的直線性,還可能降低機(jī)器人在實(shí)際導(dǎo)航中的能量消耗和時(shí)間成本,具有更高的導(dǎo)航效率和路徑優(yōu)化能力。
5 結(jié)語(yǔ)
本文提出了一種基于雙DQN算法的應(yīng)急搶險(xiǎn)機(jī)器人路徑規(guī)劃方法,用于解決高壓站房?jī)?nèi)電氣設(shè)備眾多、環(huán)境復(fù)雜的搶險(xiǎn)問(wèn)題。通過(guò)深度強(qiáng)化學(xué)習(xí),機(jī)器人能夠在與環(huán)境的交互中學(xué)習(xí)最優(yōu)策略,快速響應(yīng)故障并減少人工干預(yù)的風(fēng)險(xiǎn)。本文采用雙DQN算法通過(guò)引入目標(biāo)網(wǎng)絡(luò)來(lái)減輕傳統(tǒng)DQN的過(guò)估計(jì)問(wèn)題,并結(jié)合優(yōu)先經(jīng)驗(yàn)回放機(jī)制,進(jìn)一步提高了模型的學(xué)習(xí)效率。試驗(yàn)結(jié)果顯示,改進(jìn)后的算法在路徑規(guī)劃上優(yōu)于傳統(tǒng)DQN,能有效縮短路徑長(zhǎng)度并減少拐點(diǎn)數(shù)量,從而提高導(dǎo)航效率。
參考文獻(xiàn)
[1]陳人楷,方曉明,李仕彥.基于深度強(qiáng)化學(xué)習(xí)的電力巡檢機(jī)器人網(wǎng)絡(luò)自動(dòng)化監(jiān)測(cè)系統(tǒng)[J].自動(dòng)化與儀表,2024,39(9):70-73,83.
[2]金涌濤,張?zhí)癫?,季宇豪,?變電站機(jī)器人巡檢中設(shè)備目標(biāo)動(dòng)態(tài)捕捉識(shí)別技術(shù)研究[J].機(jī)械設(shè)計(jì),2024,41(增刊1):159-164.
[3]孔曉兵.基于電力大數(shù)據(jù)的變電站設(shè)備智能控制技術(shù)研究[J].電氣技術(shù)與經(jīng)濟(jì),2024(8):33-36.
[4]姬光楠.基于深度學(xué)習(xí)算法的電氣控制系統(tǒng)故障診斷與預(yù)測(cè)研究[J].電氣技術(shù)與經(jīng)濟(jì),2024(9):47-49.
[5]鄧國(guó)泉.基于深度學(xué)習(xí)的工業(yè)電氣自動(dòng)化系統(tǒng)故障診斷與智能優(yōu)化控制[J].電氣技術(shù)與經(jīng)濟(jì),2024(8):60-62.
[6]陳寶華.基于邊緣計(jì)算的配電網(wǎng)供電恢復(fù)智能決策方法研究[J].電氣技術(shù)與經(jīng)濟(jì),2024(9):8-10.