張 晶,蔡志全,韓永成,高 丹
(唐山工業(yè)職業(yè)技術學院,河北唐山 063202)
隨著變電站巡檢機器人的技術的發(fā)展與進步,變電站運維業(yè)務由傳統(tǒng)的人工逐漸向智能、自主的巡檢機器人過渡。現有變電站巡檢機器人一般情況下能夠完成變電站巡檢任務,但是存在路徑規(guī)劃精準度低、用時長等缺點。尤其是在現場環(huán)境發(fā)生變化、巡檢過程中存在障礙物時,機器人無法及時快速調整巡檢路線以順利完成巡檢任務。因此,對變電站巡檢機器人的路徑規(guī)劃進行研究,對巡檢任務的完成乃至智能變電站的發(fā)展都有著至關重要的作用。要讓機器人能夠更好地發(fā)揮自主能動性,在外界干擾情況下仍能順利完成巡檢任務,機器人必須具備在有障礙的環(huán)境下的自動規(guī)避障礙并繼續(xù)執(zhí)行任務的能力。
變電站智能巡檢機器人的技術核心是路徑規(guī)劃,即根據變電站內的地圖信息和具體任務規(guī)劃一條從起始位置到目標位置的最優(yōu)路徑。路徑規(guī)劃主要研究的問題有:
(1)主路徑問題,即由巡檢的起始點到目標點之間的路徑。由于變電站內部分電力設備位置為靜態(tài)固定,機器人的起始點、目標點以及聯(lián)通路徑相對固定,對變電站內部環(huán)境進行全局路徑規(guī)劃。
(2)巡檢機器人的避障問題。當機器人進行巡檢任務時,應能發(fā)現靜止或者動態(tài)的障礙物,并能將其繞開重新返回原始路徑或根據情況重新規(guī)劃路徑。
(3)最優(yōu)路徑問題。機器人執(zhí)行巡檢任務時路徑相對固定,最優(yōu)路徑問題主要集中在機器人遇礙時,即如何進行避障和糾偏使得巡檢耗時最少、路徑最優(yōu)[1]。
目前國內外對路徑規(guī)劃已進行了大量的研究,路徑規(guī)劃的方法有很多種,主要分為經典法、啟發(fā)式搜索法和人工智能算法。在已知環(huán)境條件下,利用這些方法對機器人的全局和局部路徑規(guī)劃尋找最優(yōu)路徑。其中經典法分為:人工勢場法、柵格法、BUG 算法、路線圖等,啟發(fā)式搜索分為:A*、D*、RRT算法等[2]。人工智能算法是基于人類學習特點而延伸出的仿生智能算法,將算法與經典算法融合衍生的算法主要有:神經網絡、模糊邏輯、深度學習等。
由Khatib提出的人工勢能法開啟了科學家對路徑規(guī)劃問題研究的熱潮。圖1為人工勢能的算法模型,根據APF 的方法,假設在變電站構建空間內障礙物產生排斥力,目標點則產生吸引力。當巡檢移動機器人被放置在模型空間中,它會朝著具有吸引力的目標點移動,并有效地避開了中間有排斥力的障礙物[2]。但是模型空間中當排斥力與吸引力相同或者目標點周圍的排斥力過大時,機器人就會在當前位置停止,這是該算法的不足之處。此外變電站電力設備較多,使得環(huán)境中電磁干擾相對較大,勢能變化具有不確定性,會影響機器人路徑規(guī)劃的精度。
圖1 APF模型示意圖
啟發(fā)式搜索法也是一種經典的路徑規(guī)劃算法,其中A*搜索算法是最經典的方法之一,它由Dijikstra 算法擴展而來,并利用等代價搜索和啟發(fā)式搜索來有效地計算最佳優(yōu)先搜索方式,極大的節(jié)約了計算時間[3]。但在變電站內環(huán)境過大時,算法所需的內存就會非常的大。后續(xù)Anthony Stenz 對A*算法進行了改進形成了著名的D*算法,該算法能夠更新未知環(huán)境的地圖信息,并且在遇到新的障礙物時對路徑進行重新規(guī)劃,即可以實現機器人在部分或者全部未知的動態(tài)環(huán)境中進行路徑規(guī)劃。2016 年,史久根等人提出的改進D*路徑規(guī)劃算法,該算法是在基CA 模型的基礎上對D*算法進行改進,與D*算法相比,有效降低機器人角度變化的最小增量,并且縮短了運行時間[7],仿真結果如圖2 所示。
圖2 基于CA 模型改進的D*算法
路徑規(guī)劃的經典算法解決了基本問題,但是仍存在路徑耗時長、無法自主避障、巡檢路徑準確性差等問題,尤其在未知環(huán)境條件下或者遇到障礙物時無法進行自主路徑規(guī)劃。隨著人工智能技術和計算機技術的不斷發(fā)展,基于人類學習行為的智能算法也進入了科學家的研究范疇,科學家們嘗試將經典與智能算法結合,這種算法的融合對路徑規(guī)劃的耗時和精度上都有所提升。
近些年,深度強化學習(Deep Reinforcement Learning,DRL)得到了很多學者的關注。2013 年,英國科研團隊Deep Mind 提出了首個深度強化學習模型——深度Q 網絡(Deep Q Network,簡稱DQN)[4],經過對該網絡的訓練,在Atari競技游戲中打敗了人類選手。除了游戲領域外,學者們利用基本的深度強化網絡與其它算法結合,引出了新的概念和方法,并將其應用于工程領域,取得了很多成果。Finn等結合采用深度強化學習應于機器人抓取動作的預測,在研究訓練機器人抓取策略的同時實現圖像預測算法的自監(jiān)督訓練。此外深度強化學習在路徑規(guī)劃、自然語言處理、無人駕駛、軋鋼故障檢測等領域也有應用。
深度強化學習被認為是實現具備完全自主能力的人工智能的重要理論支撐。深度強化學習具有自監(jiān)督學習能力,可在復雜的環(huán)境中自主與周圍環(huán)境進行交互。同時對決策和狀態(tài)也有強大的表現能力,可以在復雜的情況下作出決策。深度強化學習在路徑規(guī)劃方面最主要的優(yōu)勢在于其不依賴人工標記軌跡,只需設置規(guī)劃原則如運行路徑最短、無障礙物碰撞和目標點等,然后在虛擬試驗平臺或者現實環(huán)境中訓練神經網絡即可。但是深度強化學習在路徑規(guī)劃上仍也存在很多不足之處,如路徑規(guī)劃時效性差、遇障礙多次轉向等問題。本文為了提升路徑規(guī)劃的時效和準確性,基于DQN 算法提出了一種改進型卷積神經網絡GNN 與Q 網絡相結合的深度強化學習算法,并對該算法模型進行了仿真,結果表明該算法能有效地降低巡檢機器人路徑規(guī)劃時間,路徑規(guī)劃精準度達到98.3%。
強化學習方法中一種經典有效的算法為QLearning 算法,因該算法具有簡單實用的特點,被廣泛應用于機器人路徑規(guī)劃導航中。其基本形式如式(1)。
式中:s——狀態(tài);
a——狀態(tài)s中選擇的行為;
α——學習系數;
r——行動得到的獎賞;
γ——比例系數;
maxQ(s′,a′)——在下一個狀態(tài)中行動所取得的Q值最大值。
具體步驟:
初始化Q()
s,a為任意值;
初始化s為任意值;
根據貪婪策略執(zhí)行某一行為a,并轉移到新狀態(tài)s′;
根據更新規(guī)則更新上一狀態(tài)的Q值;
直到完成特定步數或者s達到終止狀態(tài)。
強化學習算法流程見圖3。
圖3 強化學習算法流程
在基于學習的方法中,可以利用深度學習在處理高維信息和強化學習處理復雜環(huán)境中連續(xù)決策的優(yōu)點,組成深度強化學習。利用雙目視覺攝像機采集環(huán)境信息,建立立體的檢測模型,并采用深度學習算法感知環(huán)境,以得到具體的狀態(tài)特征信息。利用強化學習進行預期回報評判,然后通過動作策略將當前的狀態(tài)映射到機器人的具體動作輸出。機器人在得到動作策略信號后進行動作,之后雙目視覺采集到新的特征信息,以此不斷循環(huán),最終實現路徑的最優(yōu)化。深度強化學習算法是一種獨立于人為標記的算法,該算法與環(huán)境進行試錯交互,并且將巡檢機器人的狀態(tài)參數作為初始輸入,以動作值函數的估計值輸出作為自驅動,從而提升路徑規(guī)劃的快速精準性。深度強化學習框架見圖4。
圖4 深度強化學習框架
由于巡檢過程中采集到的數據信息量大,本文設計的路徑規(guī)劃算法基于DQN 算法,將改進卷積神經網絡GNN 與Q 網絡相結合。卷積神經網絡是一種與人視覺神經網絡非常類似的算法,當神經元層數達到一定數量的情況下就能給提取到巡檢現場的豐富信息??紤]到卷積神經網絡計算耗時長的問題,對卷積神經網絡加以改進,卷積層批量歸一化處理,以減少模型收斂時間,加快處理速度,同時連接層逐層縮小,以降低圖像匹配時間。改進卷積神經網絡算法流程圖見圖5。
圖5 改進卷積神經網絡算法流程圖
變電站的設備實際布局與地理環(huán)境等是固定的,在進行分析過程中為了便于建立模型,同時也為了方便數據處理,只需將主要的環(huán)境和設備進行識別建模,可以對變電站進行平面分析,建立柵格進行研究。改進DQN 的路徑規(guī)劃算法流程圖見圖6。
圖6 改進DQN的路徑規(guī)劃算法流程圖
圖7 是在10×10 柵格環(huán)境下分別采用普通DQN算法和本文所設計的改進型DQN 算法做對比。在仿真分析過程中,黑色區(qū)域為機器人巡視過程中的障礙物及其自身膨脹處理后的障礙區(qū),普通DQN 算法和改進型DQN算法的迭代次數都設置為100次。
圖7 兩種算法巡檢機器人路徑規(guī)劃仿真結果比較
通過圖7(a)所示經過迭代學習最終得到的最優(yōu)路線基本相同,但是通過圖7(b)圖所示的兩種方法的收斂速度可以看出本文設計改進型深度強化學習的學習速度更快,穩(wěn)定性更好。綜上,本文提出的改進型卷積神經網絡GNN 與Q 網絡相結合的深度強化學習算法能給更快的進行巡路徑規(guī)劃,有效提高巡檢機器人路徑規(guī)劃的效率。
結合變電站巡檢機器人路徑規(guī)劃問題特點,介紹了強化學習與深度學習,并將兩種算法進行了融合,研究了深度強化學習。針對DQN 算法提出了一種改進型卷積神經網絡GNN 與Q 網絡相結合的深度強化學習算法[5]。通過對改進的DQN 算法進行仿真,試驗結果表明在同樣的環(huán)境下進行路徑規(guī)劃訓練,改進型算法能夠在較小的迭代次數下完成最優(yōu)路徑的規(guī)劃,表明該算法的收斂速度更快,更有效地節(jié)約巡檢用時。