亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度強(qiáng)化學(xué)習(xí)技術(shù)的變電站巡檢機(jī)器人的路徑規(guī)劃研究

2021-06-26 00:49:54蔡志全韓永成

冶金動(dòng)力 2021年3期

張晶，蔡志全，韓永成，高丹

（唐山工業(yè)職業(yè)技術(shù)學(xué)院，河北唐山 063202）

引言

隨著變電站巡檢機(jī)器人的技術(shù)的發(fā)展與進(jìn)步，變電站運(yùn)維業(yè)務(wù)由傳統(tǒng)的人工逐漸向智能、自主的巡檢機(jī)器人過渡?，F(xiàn)有變電站巡檢機(jī)器人一般情況下能夠完成變電站巡檢任務(wù)，但是存在路徑規(guī)劃精準(zhǔn)度低、用時(shí)長(zhǎng)等缺點(diǎn)。尤其是在現(xiàn)場(chǎng)環(huán)境發(fā)生變化、巡檢過程中存在障礙物時(shí)，機(jī)器人無法及時(shí)快速調(diào)整巡檢路線以順利完成巡檢任務(wù)。因此，對(duì)變電站巡檢機(jī)器人的路徑規(guī)劃進(jìn)行研究，對(duì)巡檢任務(wù)的完成乃至智能變電站的發(fā)展都有著至關(guān)重要的作用。要讓機(jī)器人能夠更好地發(fā)揮自主能動(dòng)性，在外界干擾情況下仍能順利完成巡檢任務(wù)，機(jī)器人必須具備在有障礙的環(huán)境下的自動(dòng)規(guī)避障礙并繼續(xù)執(zhí)行任務(wù)的能力。

1 變電站巡檢機(jī)器人的路徑規(guī)劃常用方法

變電站智能巡檢機(jī)器人的技術(shù)核心是路徑規(guī)劃，即根據(jù)變電站內(nèi)的地圖信息和具體任務(wù)規(guī)劃一條從起始位置到目標(biāo)位置的最優(yōu)路徑。路徑規(guī)劃主要研究的問題有：

（1）主路徑問題，即由巡檢的起始點(diǎn)到目標(biāo)點(diǎn)之間的路徑。由于變電站內(nèi)部分電力設(shè)備位置為靜態(tài)固定，機(jī)器人的起始點(diǎn)、目標(biāo)點(diǎn)以及聯(lián)通路徑相對(duì)固定，對(duì)變電站內(nèi)部環(huán)境進(jìn)行全局路徑規(guī)劃。

（2）巡檢機(jī)器人的避障問題。當(dāng)機(jī)器人進(jìn)行巡檢任務(wù)時(shí)，應(yīng)能發(fā)現(xiàn)靜止或者動(dòng)態(tài)的障礙物，并能將其繞開重新返回原始路徑或根據(jù)情況重新規(guī)劃路徑。

（3）最優(yōu)路徑問題。機(jī)器人執(zhí)行巡檢任務(wù)時(shí)路徑相對(duì)固定，最優(yōu)路徑問題主要集中在機(jī)器人遇礙時(shí)，即如何進(jìn)行避障和糾偏使得巡檢耗時(shí)最少、路徑最優(yōu)[1]。

目前國(guó)內(nèi)外對(duì)路徑規(guī)劃已進(jìn)行了大量的研究，路徑規(guī)劃的方法有很多種，主要分為經(jīng)典法、啟發(fā)式搜索法和人工智能算法。在已知環(huán)境條件下，利用這些方法對(duì)機(jī)器人的全局和局部路徑規(guī)劃尋找最優(yōu)路徑。其中經(jīng)典法分為：人工勢(shì)場(chǎng)法、柵格法、BUG 算法、路線圖等，啟發(fā)式搜索分為：A*、D*、RRT算法等[2]。人工智能算法是基于人類學(xué)習(xí)特點(diǎn)而延伸出的仿生智能算法，將算法與經(jīng)典算法融合衍生的算法主要有：神經(jīng)網(wǎng)絡(luò)、模糊邏輯、深度學(xué)習(xí)等。

由Khatib提出的人工勢(shì)能法開啟了科學(xué)家對(duì)路徑規(guī)劃問題研究的熱潮。圖1為人工勢(shì)能的算法模型，根據(jù)APF 的方法，假設(shè)在變電站構(gòu)建空間內(nèi)障礙物產(chǎn)生排斥力，目標(biāo)點(diǎn)則產(chǎn)生吸引力。當(dāng)巡檢移動(dòng)機(jī)器人被放置在模型空間中，它會(huì)朝著具有吸引力的目標(biāo)點(diǎn)移動(dòng)，并有效地避開了中間有排斥力的障礙物[2]。但是模型空間中當(dāng)排斥力與吸引力相同或者目標(biāo)點(diǎn)周圍的排斥力過大時(shí)，機(jī)器人就會(huì)在當(dāng)前位置停止，這是該算法的不足之處。此外變電站電力設(shè)備較多，使得環(huán)境中電磁干擾相對(duì)較大，勢(shì)能變化具有不確定性，會(huì)影響機(jī)器人路徑規(guī)劃的精度。

圖1 APF模型示意圖

啟發(fā)式搜索法也是一種經(jīng)典的路徑規(guī)劃算法,其中A*搜索算法是最經(jīng)典的方法之一，它由Dijikstra 算法擴(kuò)展而來，并利用等代價(jià)搜索和啟發(fā)式搜索來有效地計(jì)算最佳優(yōu)先搜索方式，極大的節(jié)約了計(jì)算時(shí)間[3]。但在變電站內(nèi)環(huán)境過大時(shí)，算法所需的內(nèi)存就會(huì)非常的大。后續(xù)Anthony Stenz 對(duì)A*算法進(jìn)行了改進(jìn)形成了著名的D*算法，該算法能夠更新未知環(huán)境的地圖信息，并且在遇到新的障礙物時(shí)對(duì)路徑進(jìn)行重新規(guī)劃，即可以實(shí)現(xiàn)機(jī)器人在部分或者全部未知的動(dòng)態(tài)環(huán)境中進(jìn)行路徑規(guī)劃。2016 年，史久根等人提出的改進(jìn)D*路徑規(guī)劃算法，該算法是在基CA 模型的基礎(chǔ)上對(duì)D*算法進(jìn)行改進(jìn)，與D*算法相比，有效降低機(jī)器人角度變化的最小增量，并且縮短了運(yùn)行時(shí)間[7]，仿真結(jié)果如圖2 所示。

圖2 基于CA 模型改進(jìn)的D＊算法

路徑規(guī)劃的經(jīng)典算法解決了基本問題，但是仍存在路徑耗時(shí)長(zhǎng)、無法自主避障、巡檢路徑準(zhǔn)確性差等問題，尤其在未知環(huán)境條件下或者遇到障礙物時(shí)無法進(jìn)行自主路徑規(guī)劃。隨著人工智能技術(shù)和計(jì)算機(jī)技術(shù)的不斷發(fā)展，基于人類學(xué)習(xí)行為的智能算法也進(jìn)入了科學(xué)家的研究范疇，科學(xué)家們嘗試將經(jīng)典與智能算法結(jié)合，這種算法的融合對(duì)路徑規(guī)劃的耗時(shí)和精度上都有所提升。

近些年，深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning，DRL)得到了很多學(xué)者的關(guān)注。2013 年，英國(guó)科研團(tuán)隊(duì)Deep Mind 提出了首個(gè)深度強(qiáng)化學(xué)習(xí)模型——深度Q 網(wǎng)絡(luò)(Deep Q Network，簡(jiǎn)稱DQN)[4]，經(jīng)過對(duì)該網(wǎng)絡(luò)的訓(xùn)練，在Atari競(jìng)技游戲中打敗了人類選手。除了游戲領(lǐng)域外，學(xué)者們利用基本的深度強(qiáng)化網(wǎng)絡(luò)與其它算法結(jié)合，引出了新的概念和方法，并將其應(yīng)用于工程領(lǐng)域，取得了很多成果。Finn等結(jié)合采用深度強(qiáng)化學(xué)習(xí)應(yīng)于機(jī)器人抓取動(dòng)作的預(yù)測(cè)，在研究訓(xùn)練機(jī)器人抓取策略的同時(shí)實(shí)現(xiàn)圖像預(yù)測(cè)算法的自監(jiān)督訓(xùn)練。此外深度強(qiáng)化學(xué)習(xí)在路徑規(guī)劃、自然語(yǔ)言處理、無人駕駛、軋鋼故障檢測(cè)等領(lǐng)域也有應(yīng)用。

深度強(qiáng)化學(xué)習(xí)被認(rèn)為是實(shí)現(xiàn)具備完全自主能力的人工智能的重要理論支撐。深度強(qiáng)化學(xué)習(xí)具有自監(jiān)督學(xué)習(xí)能力，可在復(fù)雜的環(huán)境中自主與周圍環(huán)境進(jìn)行交互。同時(shí)對(duì)決策和狀態(tài)也有強(qiáng)大的表現(xiàn)能力，可以在復(fù)雜的情況下作出決策。深度強(qiáng)化學(xué)習(xí)在路徑規(guī)劃方面最主要的優(yōu)勢(shì)在于其不依賴人工標(biāo)記軌跡，只需設(shè)置規(guī)劃原則如運(yùn)行路徑最短、無障礙物碰撞和目標(biāo)點(diǎn)等，然后在虛擬試驗(yàn)平臺(tái)或者現(xiàn)實(shí)環(huán)境中訓(xùn)練神經(jīng)網(wǎng)絡(luò)即可。但是深度強(qiáng)化學(xué)習(xí)在路徑規(guī)劃上仍也存在很多不足之處，如路徑規(guī)劃時(shí)效性差、遇障礙多次轉(zhuǎn)向等問題。本文為了提升路徑規(guī)劃的時(shí)效和準(zhǔn)確性，基于DQN 算法提出了一種改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)GNN 與Q 網(wǎng)絡(luò)相結(jié)合的深度強(qiáng)化學(xué)習(xí)算法，并對(duì)該算法模型進(jìn)行了仿真，結(jié)果表明該算法能有效地降低巡檢機(jī)器人路徑規(guī)劃時(shí)間，路徑規(guī)劃精準(zhǔn)度達(dá)到98.3%。

2 強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)方法中一種經(jīng)典有效的算法為QLearning 算法,因該算法具有簡(jiǎn)單實(shí)用的特點(diǎn)，被廣泛應(yīng)用于機(jī)器人路徑規(guī)劃導(dǎo)航中。其基本形式如式（1）。

式中：s——狀態(tài)；

a——狀態(tài)s中選擇的行為；

α——學(xué)習(xí)系數(shù)；

r——行動(dòng)得到的獎(jiǎng)賞；

γ——比例系數(shù)；

maxQ（s′,a′）——在下一個(gè)狀態(tài)中行動(dòng)所取得的Q值最大值。

具體步驟：

初始化Q()

s,a為任意值；

初始化s為任意值；

根據(jù)貪婪策略執(zhí)行某一行為a，并轉(zhuǎn)移到新狀態(tài)s′；

根據(jù)更新規(guī)則更新上一狀態(tài)的Q值；

直到完成特定步數(shù)或者s達(dá)到終止?fàn)顟B(tài)。

強(qiáng)化學(xué)習(xí)算法流程見圖3。

圖3 強(qiáng)化學(xué)習(xí)算法流程

3 深度強(qiáng)化學(xué)習(xí)算法

在基于學(xué)習(xí)的方法中，可以利用深度學(xué)習(xí)在處理高維信息和強(qiáng)化學(xué)習(xí)處理復(fù)雜環(huán)境中連續(xù)決策的優(yōu)點(diǎn)，組成深度強(qiáng)化學(xué)習(xí)。利用雙目視覺攝像機(jī)采集環(huán)境信息，建立立體的檢測(cè)模型，并采用深度學(xué)習(xí)算法感知環(huán)境，以得到具體的狀態(tài)特征信息。利用強(qiáng)化學(xué)習(xí)進(jìn)行預(yù)期回報(bào)評(píng)判，然后通過動(dòng)作策略將當(dāng)前的狀態(tài)映射到機(jī)器人的具體動(dòng)作輸出。機(jī)器人在得到動(dòng)作策略信號(hào)后進(jìn)行動(dòng)作，之后雙目視覺采集到新的特征信息，以此不斷循環(huán)，最終實(shí)現(xiàn)路徑的最優(yōu)化。深度強(qiáng)化學(xué)習(xí)算法是一種獨(dú)立于人為標(biāo)記的算法，該算法與環(huán)境進(jìn)行試錯(cuò)交互，并且將巡檢機(jī)器人的狀態(tài)參數(shù)作為初始輸入，以動(dòng)作值函數(shù)的估計(jì)值輸出作為自驅(qū)動(dòng)，從而提升路徑規(guī)劃的快速精準(zhǔn)性。深度強(qiáng)化學(xué)習(xí)框架見圖4。

圖4 深度強(qiáng)化學(xué)習(xí)框架

由于巡檢過程中采集到的數(shù)據(jù)信息量大，本文設(shè)計(jì)的路徑規(guī)劃算法基于DQN 算法，將改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)GNN 與Q 網(wǎng)絡(luò)相結(jié)合。卷積神經(jīng)網(wǎng)絡(luò)是一種與人視覺神經(jīng)網(wǎng)絡(luò)非常類似的算法，當(dāng)神經(jīng)元層數(shù)達(dá)到一定數(shù)量的情況下就能給提取到巡檢現(xiàn)場(chǎng)的豐富信息。考慮到卷積神經(jīng)網(wǎng)絡(luò)計(jì)算耗時(shí)長(zhǎng)的問題，對(duì)卷積神經(jīng)網(wǎng)絡(luò)加以改進(jìn)，卷積層批量歸一化處理，以減少模型收斂時(shí)間，加快處理速度，同時(shí)連接層逐層縮小，以降低圖像匹配時(shí)間。改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)算法流程圖見圖5。

圖5 改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)算法流程圖

4 仿真研究分析

變電站的設(shè)備實(shí)際布局與地理環(huán)境等是固定的，在進(jìn)行分析過程中為了便于建立模型，同時(shí)也為了方便數(shù)據(jù)處理，只需將主要的環(huán)境和設(shè)備進(jìn)行識(shí)別建模，可以對(duì)變電站進(jìn)行平面分析，建立柵格進(jìn)行研究。改進(jìn)DQN 的路徑規(guī)劃算法流程圖見圖6。

圖6 改進(jìn)DQN的路徑規(guī)劃算法流程圖

圖7 是在10×10 柵格環(huán)境下分別采用普通DQN算法和本文所設(shè)計(jì)的改進(jìn)型DQN 算法做對(duì)比。在仿真分析過程中，黑色區(qū)域?yàn)闄C(jī)器人巡視過程中的障礙物及其自身膨脹處理后的障礙區(qū)，普通DQN 算法和改進(jìn)型DQN算法的迭代次數(shù)都設(shè)置為100次。

圖7 兩種算法巡檢機(jī)器人路徑規(guī)劃仿真結(jié)果比較

通過圖7（a）所示經(jīng)過迭代學(xué)習(xí)最終得到的最優(yōu)路線基本相同，但是通過圖7（b）圖所示的兩種方法的收斂速度可以看出本文設(shè)計(jì)改進(jìn)型深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)速度更快，穩(wěn)定性更好。綜上，本文提出的改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)GNN 與Q 網(wǎng)絡(luò)相結(jié)合的深度強(qiáng)化學(xué)習(xí)算法能給更快的進(jìn)行巡路徑規(guī)劃，有效提高巡檢機(jī)器人路徑規(guī)劃的效率。

5 結(jié)論

結(jié)合變電站巡檢機(jī)器人路徑規(guī)劃問題特點(diǎn)，介紹了強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)，并將兩種算法進(jìn)行了融合，研究了深度強(qiáng)化學(xué)習(xí)。針對(duì)DQN 算法提出了一種改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)GNN 與Q 網(wǎng)絡(luò)相結(jié)合的深度強(qiáng)化學(xué)習(xí)算法[5]。通過對(duì)改進(jìn)的DQN 算法進(jìn)行仿真，試驗(yàn)結(jié)果表明在同樣的環(huán)境下進(jìn)行路徑規(guī)劃訓(xùn)練，改進(jìn)型算法能夠在較小的迭代次數(shù)下完成最優(yōu)路徑的規(guī)劃，表明該算法的收斂速度更快，更有效地節(jié)約巡檢用時(shí)。