亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的搶險(xiǎn)機(jī)器人路徑規(guī)劃

        2025-04-26 00:00:00李賀李論畢其功陳浩楠張文杰
        關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)路徑規(guī)劃

        摘 要:高壓電房環(huán)境復(fù)雜,存在高電壓和狹窄空間等危險(xiǎn)因素,傳統(tǒng)的人工應(yīng)急處理面臨安全風(fēng)險(xiǎn)和效率低下的問(wèn)題。通過(guò)選擇深度Q網(wǎng)絡(luò),應(yīng)急搶險(xiǎn)機(jī)器人通過(guò)與環(huán)境的交互,積累經(jīng)驗(yàn),并通過(guò)獎(jiǎng)勵(lì)機(jī)制優(yōu)化其策略,逐步學(xué)習(xí)到最佳的行動(dòng)路徑和應(yīng)急響應(yīng)措施,從而實(shí)現(xiàn)快速、精準(zhǔn)的故障識(shí)別和處理。通過(guò)模擬試驗(yàn)驗(yàn)證了基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃策略在實(shí)際搶險(xiǎn)場(chǎng)景中的有效性,結(jié)果表明方法顯著提高了機(jī)器人在應(yīng)急響應(yīng)中的安全性和效率,為未來(lái)高壓電房的智能化管理提供了新的思路和方法。

        關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);高壓電房;應(yīng)急搶險(xiǎn)機(jī)器人;路徑規(guī)劃

        中圖分類號(hào):TP 242" " 文獻(xiàn)標(biāo)志碼:A

        高壓站房?jī)?nèi)電氣設(shè)備眾多且長(zhǎng)期運(yùn)行,增加了發(fā)生著火事故的風(fēng)險(xiǎn)。當(dāng)發(fā)生此類事故時(shí),由于高壓電房的復(fù)雜環(huán)境,常常面臨高電壓、狹窄空間和各種障礙物多等情況,人工操作的風(fēng)險(xiǎn)極高。處理不當(dāng)可能導(dǎo)致嚴(yán)重的財(cái)產(chǎn)損失、人員傷亡。國(guó)內(nèi)外眾多研究人員針對(duì)這些問(wèn)題開展了一系列的工作,陳人楷等[1]設(shè)計(jì)了一種基于深度強(qiáng)化學(xué)習(xí)的電力巡檢機(jī)器人自動(dòng)化監(jiān)測(cè)系統(tǒng)。金涌濤等[2]提出了一種基于改進(jìn)YOLOv7-tiny的變電站機(jī)器人設(shè)備巡檢中目標(biāo)動(dòng)態(tài)捕捉識(shí)別方法??讜员鳾3]研究了基于電力大數(shù)據(jù)的變電站設(shè)備智能控制系統(tǒng)。本文擬應(yīng)用深度強(qiáng)化學(xué)習(xí)技術(shù),通過(guò)與環(huán)境的交互,積累經(jīng)驗(yàn)并優(yōu)化決策策略,使機(jī)器人逐步學(xué)習(xí)最佳的行動(dòng)路徑和應(yīng)急響應(yīng)措施,實(shí)現(xiàn)快速、精準(zhǔn)的故障識(shí)別與處理。

        1 深度強(qiáng)化學(xué)習(xí)概要

        深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是一個(gè)結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的強(qiáng)大方法,旨在使智能體能夠在復(fù)雜動(dòng)態(tài)環(huán)境中自主學(xué)習(xí)并制定最優(yōu)策略。

        深度學(xué)習(xí)基于多層神經(jīng)網(wǎng)絡(luò),通過(guò)多層網(wǎng)絡(luò)進(jìn)行特征提取和模式識(shí)別。它能自動(dòng)從原始數(shù)據(jù)中自動(dòng)提取高級(jí)特征,已廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等領(lǐng)域。強(qiáng)化學(xué)習(xí)則通過(guò)智能體與環(huán)境交互學(xué)習(xí)最佳策略,并通過(guò)獎(jiǎng)勵(lì)信號(hào)評(píng)估行為優(yōu)劣,目標(biāo)是最大化累積獎(jiǎng)勵(lì)。深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)的特征提取與強(qiáng)化學(xué)習(xí)的決策能力,使智能體能在復(fù)雜、高維的狀態(tài)空間中有效學(xué)習(xí)。

        深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的特征提取能力與強(qiáng)化學(xué)習(xí)的決策能力結(jié)合,使智能體能夠在復(fù)雜、高維的狀態(tài)空間中有效學(xué)習(xí)。例如,深度Q網(wǎng)絡(luò)(DQN)結(jié)合了深度學(xué)習(xí)和Q學(xué)習(xí)算法,通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)狀態(tài)進(jìn)行編碼,近似Q值函數(shù),使智能體能夠在視覺(jué)輸入中直接學(xué)習(xí)到最佳行動(dòng)策略。

        2 深度Q網(wǎng)絡(luò)介紹

        深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)是一種結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的算法,旨在解決高維狀態(tài)空間下的強(qiáng)化學(xué)習(xí)問(wèn)題。DQN的核心思想是使用深度神經(jīng)網(wǎng)絡(luò)來(lái)近似Q值函數(shù),從而允許智能體在復(fù)雜環(huán)境中學(xué)習(xí)最佳策略。

        2.1 Q學(xué)習(xí)原理

        Q學(xué)習(xí)是一種無(wú)模型的強(qiáng)化學(xué)習(xí)方法,通過(guò)智能體在沒(méi)有環(huán)境模型的情況下學(xué)習(xí)如何最大化累積獎(jiǎng)勵(lì)。智能體通過(guò)維護(hù)一個(gè)Q表(Q-table)來(lái)記錄每個(gè)狀態(tài)-動(dòng)作對(duì)的預(yù)期累積回報(bào),即Q(s,a)。Q(s,a)表示在狀態(tài)s下采取動(dòng)作a后的預(yù)期累積回報(bào)。Q值的更新遵循貝爾曼方程,如公式(1)所示。

        (1)

        式中:α為學(xué)習(xí)率,決定了新舊信息的混合程度;r為即時(shí)獎(jiǎng)勵(lì);γ為折扣因子,用于平衡即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì);s'為智能體在執(zhí)行動(dòng)作a后到達(dá)的新狀態(tài);為在新狀態(tài)s'下,未來(lái)可能采取的動(dòng)作所能獲得的最大Q值。

        2.2 DQN的基本原理

        為了克服Q學(xué)習(xí)在高維環(huán)境中的限制,DQN使用深度神經(jīng)網(wǎng)絡(luò)來(lái)近似Q值函數(shù)。深度Q網(wǎng)絡(luò)以當(dāng)前狀態(tài)s作為輸入,輸出對(duì)應(yīng)各個(gè)動(dòng)作a的Q值。通過(guò)深度神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)狀態(tài)-動(dòng)作值的映射,從而避免維護(hù)智能體中龐大的Q值表。

        DQN的模型如圖1所示。在DQN中,深度神經(jīng)網(wǎng)絡(luò)用于近似Q值函數(shù)Q(s,a;θ),其中,θ為神經(jīng)網(wǎng)絡(luò)的參數(shù)。該網(wǎng)絡(luò)接受當(dāng)前狀態(tài)s作為輸入,輸出對(duì)應(yīng)的每個(gè)可能動(dòng)作的Q值。

        DQN采用了2個(gè)網(wǎng)絡(luò)結(jié)構(gòu):一個(gè)是主網(wǎng)絡(luò),另一個(gè)是目標(biāo)網(wǎng)絡(luò)。主網(wǎng)絡(luò)負(fù)責(zé)實(shí)時(shí)更新Q值,目標(biāo)網(wǎng)絡(luò)則用于計(jì)算目標(biāo)Q值。為了保持學(xué)習(xí)過(guò)程的穩(wěn)定性,目標(biāo)網(wǎng)絡(luò)的參數(shù)會(huì)定期進(jìn)行更新。

        為了消除數(shù)據(jù)樣本之間的相關(guān)性,DQN引入了經(jīng)驗(yàn)回放機(jī)制。該機(jī)制的核心是一個(gè)名為回放緩沖區(qū)的數(shù)據(jù)結(jié)構(gòu)。智能體在與環(huán)境交互過(guò)程中會(huì)將每次的經(jīng)歷存儲(chǔ)到這個(gè)緩沖區(qū)中。每次訓(xùn)練時(shí),會(huì)從緩沖區(qū)中隨機(jī)選擇一批樣本用于訓(xùn)練。這種方法有助于減少樣本間的時(shí)間相關(guān)性,并提高樣本的使用效率,顯著提高了DQN在復(fù)雜環(huán)境中的表現(xiàn)[4]。

        DQN的Q值更新過(guò)程基于貝爾曼方程。目標(biāo)Q值y如公式(2)所示。

        (2)

        式中:θ-為目標(biāo)網(wǎng)絡(luò)的參數(shù)。

        目標(biāo)網(wǎng)絡(luò)的參數(shù)會(huì)在固定的步數(shù)后從主網(wǎng)絡(luò)進(jìn)行同步更新,以此降低訓(xùn)練過(guò)程中的不穩(wěn)定性。

        主網(wǎng)絡(luò)的參數(shù)通過(guò)最小化均方誤差(Mean Squared Error,MSE)損失函數(shù)進(jìn)行更新,如公式(3)所示。

        L(θ)=E(s,a,r,s')~D[(y-Qmain(s,a;w))2] (3)

        式中:D為經(jīng)驗(yàn)回放緩沖區(qū)中的樣本集合;θ為主網(wǎng)絡(luò)的參數(shù)。

        3 基于DQN的應(yīng)急搶險(xiǎn)機(jī)器人路徑規(guī)劃

        3.1 應(yīng)急搶險(xiǎn)機(jī)器人路徑規(guī)劃DQN模型

        應(yīng)急搶險(xiǎn)機(jī)器人從未知環(huán)境中獲取當(dāng)前狀態(tài)st后,根據(jù)貪婪策略ε-greedy選擇一個(gè)動(dòng)作at來(lái)執(zhí)行運(yùn)動(dòng)。機(jī)器人以一定概率選擇當(dāng)前狀態(tài)下Q值最高的動(dòng)作at。同時(shí),機(jī)器人以ε概率隨機(jī)選擇一個(gè)動(dòng)作at,防止因受到噪聲和不確定性的影響陷入局部最優(yōu)解。對(duì)應(yīng)最大Q值的動(dòng)作at如公式(4)所示。

        at=argmaxaQ(st,a;w) (4)

        式中:st為當(dāng)前時(shí)刻的狀態(tài)值;at為當(dāng)前狀態(tài)對(duì)應(yīng)最大Q值的動(dòng)作;w為當(dāng)前網(wǎng)絡(luò)參數(shù)。

        DQN學(xué)習(xí)流程如圖2所示。機(jī)器人通過(guò)與環(huán)境交互,并根據(jù)所獲得的反饋信息不斷學(xué)習(xí)和改進(jìn)[5]。當(dāng)機(jī)器人執(zhí)行動(dòng)作at后,環(huán)境會(huì)返回獎(jiǎng)勵(lì)值rt以及下一時(shí)刻的狀態(tài)st+1。這些信息(st,at,γt,st+1)會(huì)被記錄并存儲(chǔ)在經(jīng)驗(yàn)池中,供后續(xù)訓(xùn)練使用。當(dāng)前值網(wǎng)絡(luò)用于計(jì)算在當(dāng)前狀態(tài)下執(zhí)行動(dòng)作at的Q值Q(si,ai;w),而目標(biāo)值網(wǎng)絡(luò)則計(jì)算下一狀態(tài)st+1中執(zhí)行所有可能動(dòng)作的Q值Q(si+1,ai;w')。接著,使用獎(jiǎng)勵(lì)的折扣因子γ來(lái)計(jì)算目標(biāo)值yi,如公式(5)所示(第一種情況表示機(jī)器人在狀態(tài)st+1下達(dá)成目標(biāo),第二種情況表示機(jī)器人未能達(dá)成目標(biāo)。)。

        (5)

        式中:γ為獎(jiǎng)勵(lì)值的折扣因子。

        3.2 ε-greedy貪婪策略

        為了使獎(jiǎng)勵(lì)值rt最大化,研究者利用行動(dòng)價(jià)值函數(shù)Qπ(st,at)(如公式(6)所示)來(lái)估計(jì)在狀態(tài)st中采取行動(dòng)后執(zhí)行策略π的獎(jiǎng)勵(lì)。最優(yōu)動(dòng)作值函數(shù)Q*(st,at)(如公式(7)所示)是通過(guò)最大化消除策略π得到的,消除策略π表示在狀態(tài)st中采取行動(dòng)后執(zhí)行最優(yōu)策略的最大獎(jiǎng)勵(lì)。函數(shù)Q*估計(jì)了當(dāng)前狀態(tài)下每個(gè)動(dòng)作的最大期望累積獎(jiǎng)勵(lì),指導(dǎo)機(jī)器人選擇具有最高期望獎(jiǎng)勵(lì)的動(dòng)作。因此,基于值的DQN算法采用了一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近最優(yōu)的動(dòng)作-值函數(shù)。

        Qπ(st,at)=E[rt|St=st,At=at] (6)

        (7)

        通過(guò)采用貪婪策略,該模型很容易陷入局部最優(yōu)解,因此,建議鼓勵(lì)該模型在訓(xùn)練開始時(shí)進(jìn)行更多的探索。在訓(xùn)練過(guò)程中,機(jī)器人執(zhí)行模型給出的動(dòng)作的可能性為Epsilon,而采取隨機(jī)動(dòng)作的概率為1-Epsilon,如公式(8)所示。在初始階段,由于值較小,因此機(jī)器人處于隨機(jī)探索狀態(tài)。該方法可以加速模型的收斂性,減少陷入局部最優(yōu)的風(fēng)險(xiǎn)。

        (8)

        3.3 DQN訓(xùn)練流程

        智能體與環(huán)境交互:智能體在環(huán)境中執(zhí)行動(dòng)作,獲取狀態(tài)s、動(dòng)作a、獎(jiǎng)勵(lì)r以及下一狀態(tài)s',并將這些經(jīng)歷存儲(chǔ)到經(jīng)驗(yàn)回放緩沖區(qū)中。

        經(jīng)驗(yàn)回放抽樣:從經(jīng)驗(yàn)回放緩沖區(qū)中隨機(jī)抽取一批樣本(s,a,r,s')。

        計(jì)算目標(biāo)Q值:使用目標(biāo)網(wǎng)絡(luò)計(jì)算目標(biāo)Q值y。

        更新主網(wǎng)絡(luò):通過(guò)最小化損失函數(shù)L(θ)來(lái)更新主網(wǎng)絡(luò)的參數(shù)。

        目標(biāo)網(wǎng)絡(luò)更新:每隔一段時(shí)間,將主網(wǎng)絡(luò)的參數(shù)θ復(fù)制到目標(biāo)網(wǎng)絡(luò)θ-中,使目標(biāo)網(wǎng)絡(luò)的參數(shù)得到同步更新。

        3.4 雙DQN算法

        本文引用雙DQN算法[6]來(lái)減輕過(guò)高估計(jì)問(wèn)題。傳統(tǒng)的DQN算法使用單神經(jīng)網(wǎng)絡(luò)來(lái)同時(shí)估計(jì)當(dāng)前狀態(tài)下各個(gè)動(dòng)作的價(jià)值。雙DQN算法引入了2個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò):評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。評(píng)估網(wǎng)絡(luò)負(fù)責(zé)根據(jù)當(dāng)前狀態(tài)估計(jì)所有可能動(dòng)作的Q值;目標(biāo)網(wǎng)絡(luò)用于計(jì)算訓(xùn)練過(guò)程中指導(dǎo)評(píng)估網(wǎng)絡(luò)更新的Q值。目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)與評(píng)估網(wǎng)絡(luò)相同,但其參數(shù)是定期從評(píng)估網(wǎng)絡(luò)中復(fù)制過(guò)來(lái)的。目標(biāo)網(wǎng)絡(luò)的參數(shù)是通過(guò)固定間隔從評(píng)估網(wǎng)絡(luò)中復(fù)制得來(lái)的,這樣可以減少價(jià)值函數(shù)的波動(dòng)性,緩解過(guò)估計(jì)問(wèn)題。雙DQN中使用的Q學(xué)習(xí)目標(biāo)如公式(9)所示。

        (9)

        在雙DQN算法中,只使用當(dāng)前網(wǎng)絡(luò)參數(shù),忽略了上一代網(wǎng)絡(luò)參數(shù)的重要性。本文改進(jìn)的雙DQN算法可以充分利用上一代的網(wǎng)絡(luò)參數(shù),隨著迭代次數(shù)增加,機(jī)器人可以獲得足夠的環(huán)境先驗(yàn)知識(shí)積累,消除高估對(duì)動(dòng)作選擇的影響,增加了重要經(jīng)驗(yàn)的回放概率,使樣本學(xué)習(xí)更有效。代理使用ε-greedy貪婪策略選擇行動(dòng)。當(dāng)開始時(shí),代理不熟悉環(huán)境,并隨機(jī)采取行動(dòng)。隨著經(jīng)驗(yàn)增加,為了選擇預(yù)期回報(bào)值最大的行動(dòng),應(yīng)降低采取隨機(jī)行動(dòng)的概率,并首選貪婪策略。貪婪策略的使用還可以防止代理陷入局部最優(yōu)。

        3.5 優(yōu)先經(jīng)驗(yàn)回放機(jī)制

        在傳統(tǒng)的訓(xùn)練方法中,訓(xùn)練樣本存儲(chǔ)在存儲(chǔ)單元中,并隨機(jī)選擇進(jìn)行訓(xùn)練,這可能導(dǎo)致有價(jià)值樣本學(xué)習(xí)不足,而無(wú)意義樣本被重復(fù)學(xué)習(xí),影響收斂速度和學(xué)習(xí)效率。因此,采用基于優(yōu)先經(jīng)驗(yàn)回放機(jī)制的DQN方法,充分利用有價(jià)值的傳輸樣本,使機(jī)器人能從大量數(shù)據(jù)中高效學(xué)習(xí),從而提高學(xué)習(xí)效率。在訓(xùn)練過(guò)程中,機(jī)器人-環(huán)境交互數(shù)據(jù)存儲(chǔ)在體驗(yàn)重放隊(duì)列中,后續(xù)從隊(duì)列中提取數(shù)據(jù)輸入模型,顯著提高數(shù)據(jù)利用率。優(yōu)先經(jīng)驗(yàn)回放機(jī)制通過(guò)標(biāo)記緩存單元優(yōu)先級(jí),從而顯著提高了數(shù)據(jù)的利用率。

        由于每個(gè)交互式數(shù)據(jù)對(duì)模型增強(qiáng)的影響都不同,為了提高數(shù)據(jù)利用的效率,有必要對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。這意味應(yīng)該通過(guò)選擇性地采樣具有高TD誤差(Temporal Difference Error,時(shí)序差分誤差)的數(shù)據(jù)來(lái)提高模型性能。為了實(shí)現(xiàn)這一點(diǎn),使用公式(10)和公式(11)來(lái)計(jì)算每個(gè)數(shù)據(jù)的優(yōu)先級(jí)和采樣率,其中δi為數(shù)據(jù)的TD誤差值;為了防止采樣率過(guò)小,添加了ε。α是調(diào)節(jié)優(yōu)先級(jí)對(duì)采用概率的影響的指標(biāo),當(dāng)α=0時(shí),它是傳統(tǒng)的統(tǒng)一抽樣,如果α=1,那么恰好是基于優(yōu)先級(jí)的抽樣方法。

        pi=|δi|+ε (10)

        (11)

        4 試驗(yàn)結(jié)果與分析

        使用Python 3.6和PyTorch工具搭建仿真平臺(tái)以進(jìn)行試驗(yàn)。本文提出的雙DQN算法的超參數(shù)配置見表1。為確保試驗(yàn)的一致性,原始DQN算法的超參數(shù)設(shè)置與改進(jìn)算法保持相同。

        使用傳統(tǒng)DQN路徑規(guī)劃算法和改進(jìn)算法得到的路徑結(jié)果見表2。當(dāng)執(zhí)行路徑規(guī)劃任務(wù)時(shí),雖然2種算法都能成功引導(dǎo)機(jī)器人到達(dá)目標(biāo)位置,但在路徑效率和行進(jìn)路線的復(fù)雜度上有所不同。具體來(lái)說(shuō),傳統(tǒng)DQN算法的路徑平均長(zhǎng)度為35.5m,而改進(jìn)算法將路徑長(zhǎng)度縮短至28.6m,相比之下節(jié)省了19.4%。此外,傳統(tǒng)算法規(guī)劃的路徑中有多達(dá)17個(gè)拐點(diǎn),而改進(jìn)算法減少到僅8個(gè)。這表明改進(jìn)算法不僅提高了路徑的直線性,還可能降低機(jī)器人在實(shí)際導(dǎo)航中的能量消耗和時(shí)間成本,具有更高的導(dǎo)航效率和路徑優(yōu)化能力。

        5 結(jié)語(yǔ)

        本文提出了一種基于雙DQN算法的應(yīng)急搶險(xiǎn)機(jī)器人路徑規(guī)劃方法,用于解決高壓站房?jī)?nèi)電氣設(shè)備眾多、環(huán)境復(fù)雜的搶險(xiǎn)問(wèn)題。通過(guò)深度強(qiáng)化學(xué)習(xí),機(jī)器人能夠在與環(huán)境的交互中學(xué)習(xí)最優(yōu)策略,快速響應(yīng)故障并減少人工干預(yù)的風(fēng)險(xiǎn)。本文采用雙DQN算法通過(guò)引入目標(biāo)網(wǎng)絡(luò)來(lái)減輕傳統(tǒng)DQN的過(guò)估計(jì)問(wèn)題,并結(jié)合優(yōu)先經(jīng)驗(yàn)回放機(jī)制,進(jìn)一步提高了模型的學(xué)習(xí)效率。試驗(yàn)結(jié)果顯示,改進(jìn)后的算法在路徑規(guī)劃上優(yōu)于傳統(tǒng)DQN,能有效縮短路徑長(zhǎng)度并減少拐點(diǎn)數(shù)量,從而提高導(dǎo)航效率。

        參考文獻(xiàn)

        [1]陳人楷,方曉明,李仕彥.基于深度強(qiáng)化學(xué)習(xí)的電力巡檢機(jī)器人網(wǎng)絡(luò)自動(dòng)化監(jiān)測(cè)系統(tǒng)[J].自動(dòng)化與儀表,2024,39(9):70-73,83.

        [2]金涌濤,張?zhí)癫?,季宇豪,?變電站機(jī)器人巡檢中設(shè)備目標(biāo)動(dòng)態(tài)捕捉識(shí)別技術(shù)研究[J].機(jī)械設(shè)計(jì),2024,41(增刊1):159-164.

        [3]孔曉兵.基于電力大數(shù)據(jù)的變電站設(shè)備智能控制技術(shù)研究[J].電氣技術(shù)與經(jīng)濟(jì),2024(8):33-36.

        [4]姬光楠.基于深度學(xué)習(xí)算法的電氣控制系統(tǒng)故障診斷與預(yù)測(cè)研究[J].電氣技術(shù)與經(jīng)濟(jì),2024(9):47-49.

        [5]鄧國(guó)泉.基于深度學(xué)習(xí)的工業(yè)電氣自動(dòng)化系統(tǒng)故障診斷與智能優(yōu)化控制[J].電氣技術(shù)與經(jīng)濟(jì),2024(8):60-62.

        [6]陳寶華.基于邊緣計(jì)算的配電網(wǎng)供電恢復(fù)智能決策方法研究[J].電氣技術(shù)與經(jīng)濟(jì),2024(9):8-10.

        猜你喜歡
        深度強(qiáng)化學(xué)習(xí)路徑規(guī)劃
        基于策略梯度算法的工作量證明中挖礦困境研究
        基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
        關(guān)于人工智能阿法元綜述
        商情(2019年14期)2019-06-15 10:20:13
        深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
        關(guān)于人工智能阿法元綜述
        西部論叢(2019年9期)2019-03-20 05:18:04
        基于深度強(qiáng)化學(xué)習(xí)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問(wèn)題研究
        公鐵聯(lián)程運(yùn)輸和售票模式的研究和應(yīng)用
        基于數(shù)學(xué)運(yùn)算的機(jī)器魚比賽進(jìn)攻策略
        清掃機(jī)器人的新型田埂式路徑規(guī)劃方法
        自適應(yīng)的智能搬運(yùn)路徑規(guī)劃算法
        科技視界(2016年26期)2016-12-17 15:53:57
        www国产亚洲精品久久网站| 亚洲免费女女在线视频网站| 老鸭窝视频在线观看| 无码国产伦一区二区三区视频| 天天天综合网| 亚洲精品国产熟女久久| 精品国产一区二区三区性色| 国产精品毛片一区二区三区 | 最新国产一区二区精品久久| 日本精品久久性大片日本| 日韩女同在线免费观看| 日韩精品成人无码专区免费| 成人免费ā片在线观看| 狠狠亚洲婷婷综合久久久| 风流熟女一区二区三区| av永久天堂一区二区三区| 亚洲av成本人无码网站| 自拍视频国产在线观看| 激情五月我也去也色婷婷| 无码人妻精品一区二区| 97视频在线播放| 天堂av一区二区在线| 国产麻花豆剧传媒精品mv在线| 国产男女猛烈视频在线观看| 日韩精品一区二区三区四区 | 美丽的小蜜桃在线观看| 帮老师解开蕾丝奶罩吸乳视频| 亚洲成人777| 亚洲精品在线观看自拍| 国产在线无码精品无码| 日产精品久久久久久久性色| 精品一区二区三区在线视频观看| 国产av天堂一区二区二区| 久久精品国产精品青草 | 亚洲男人天堂av在线| 国产成人精品一区二区三区av| 一本精品99久久精品77| 99国产精品99久久久久久| 美女被插到高潮嗷嗷叫| 爽爽影院免费观看| 精品无码国产自产野外拍在线|