亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于DQN和K-means聚類算法的天然氣站場儀表智能識別研究

2023-06-02 06:33:24黃知坤張香怡劉凱書顧繼俊

計算機測量與控制 2023年5期

關(guān)鍵詞：模型

黃知坤，文煒，劉明，張香怡，劉凱書，黃騰，顧繼俊

(1.國家管網(wǎng)集團川氣東送天然氣管道有限公司，武漢 430074；2.中國石油大學(xué)(北京)機械與儲運工程學(xué)院，北京 102200)

0 引言

隨著國內(nèi)輸油氣管道與沿途站場規(guī)模的不斷增長，利用機器人替代人工巡檢成為當下研究重點。四足機器人具備高機動性與良好的越障能力，在油氣站場巡檢方面具有良好的應(yīng)用前景。需要機器人根據(jù)現(xiàn)場環(huán)境變化與巡檢指令進行自主多自由度組合控制，因此需要為機器人設(shè)計出頂層決策控制系統(tǒng)替代人工控制。

指針式儀表由于造價較低，結(jié)構(gòu)簡單，使用方便，結(jié)實耐用等原因[1]，大量存在于工業(yè)環(huán)境、生活環(huán)境、農(nóng)業(yè)生產(chǎn)、醫(yī)療設(shè)備、國家航空等領(lǐng)域，在這些行業(yè)發(fā)揮著至關(guān)重要且基礎(chǔ)的作用。是實時檢測環(huán)境、檢測數(shù)據(jù)、收集數(shù)據(jù)的一種好工具，具有非常廣泛的應(yīng)用場景。

目前，機器學(xué)習(xí)(ML)技術(shù)在大數(shù)據(jù)分析、圖像識別、自動駕駛等人工智能領(lǐng)域表現(xiàn)出卓越的性能，使四足機器人的自主決策成為可能。深度強化學(xué)習(xí)(DRL)作為機器學(xué)習(xí)的重要分支，它既具備深度學(xué)習(xí)(DL)對復(fù)雜環(huán)境狀態(tài)的擬合與刻畫能力，又能夠像強化學(xué)習(xí)(RL)一樣對智能體施加動作決策，在一些控制領(lǐng)域其表現(xiàn)已經(jīng)高于人類水平[2-4]。儀表讀數(shù)識別算法得到了一定的發(fā)展，大多將機器視覺和人工智能結(jié)合起來，但是依舊有很多問題都沒有被解決，因此導(dǎo)致了沒有一套成熟的算法可以大規(guī)模的推廣應(yīng)用，只能在某些小規(guī)模、定制化的場景下使用，魯棒性和普適性都不高。再者，油氣田站場等室外環(huán)境的儀表自動讀數(shù)會受光照條件、天氣狀況的影響，容易造成讀數(shù)失敗[5]。因此，需要研發(fā)出更加具有普適性的讀表算法來解決這些問題。

本文針對天然氣站場指針式儀表智能識別追蹤，包括以下幾個部分：儀表目標追蹤、儀表定位、儀表配準、示數(shù)識別，流程見圖1所示。

圖1 儀表追蹤及讀數(shù)方法研究內(nèi)容

本文在目標追蹤方面，將采用DQN實現(xiàn)四足機器人在油氣站場巡檢進行儀表目標追蹤仿真過程，通過基于坐標引導(dǎo)的目標追蹤任務(wù)和基于視覺引導(dǎo)的目標追蹤任務(wù)兩種子任務(wù)，驗證DQN在四足機器人運動控制上的性能表現(xiàn)，以達到儀表目標追蹤的結(jié)果。在儀表智能檢測方面，采用基于改進的YOLOv5算法，在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，自制儀表樣本數(shù)據(jù)集并訓(xùn)練模型文件、優(yōu)化權(quán)重文件；再通過YOLOv5算法識別四足機器人定點采集的圖像中的儀表，并標出儀表位置。在角度調(diào)整方面，采用了基于改進的SIFT的圖像配準算法，得到高質(zhì)量的利于儀表示數(shù)讀取的圖像。在儀表示數(shù)讀取方面，利用K_means聚類的二值化算法得到指針信息突出的表盤，并通過角度與儀表盤示數(shù)的關(guān)系，得到儀表示數(shù)。

1 基于深度強化學(xué)習(xí)的機器人單任務(wù)運動控制

為解決巡檢過程中儀表目標實時追蹤，本文提出了基于DQN模型的目標追蹤算法，可實現(xiàn)定位系統(tǒng)、機器人視覺與運動控制融為一體。首先通過將儀表目標追蹤任務(wù)分為基于坐標引導(dǎo)的目標追蹤和基于視覺引導(dǎo)的目標追蹤兩個子任務(wù)，其次在第一個子任務(wù)中，通過四足機器人本身、傳感器儀表目標的定位及DQN模型，實現(xiàn)目標的粗追蹤。受定位傳感器測量精度影響，子任務(wù)一難以達到規(guī)定精度，因此在第二個子任務(wù)中，設(shè)定機器人足端保持靜止，通過視覺引導(dǎo)，控制機身做上下俯仰和左右扭轉(zhuǎn)做高精度目標追蹤。

1.1 基于坐標引導(dǎo)的目標追蹤任務(wù)

四足機器人頭部安裝深度相機，可控制自身旋轉(zhuǎn)速度使位于正前方4米處的管道儀表進入視野，如圖2所示。任務(wù)中，仿真環(huán)境反饋機器人機身和目標儀表的三維坐標，與機器人機身歐拉角，同類型參數(shù)在現(xiàn)實環(huán)境可通過UWB定位系統(tǒng)和IMU測得。

1.1.1 模型搭建

該任務(wù)的環(huán)境參量為機器人與儀表空間坐標、機器人機身傾角，動作參量為兩個正負相反數(shù)值相同的角加速度，此外，累加每輪動作執(zhí)行的角加速度可間接得到機器人角速度作為環(huán)境參量的補充。由此可見，環(huán)境空間參量均為連續(xù)變量，即環(huán)境空間連續(xù)，而動作空間為離散參量，可以根據(jù)狀態(tài)查表方式選擇當前狀態(tài)下價值最高的動作，傳統(tǒng)Q學(xué)習(xí)算法無法解決連續(xù)狀態(tài)空間問題，因此針對該任務(wù)選擇DQN算法作為訓(xùn)練模型。訓(xùn)練模型如圖3所示

圖3 DQN算法模型

深度Q網(wǎng)絡(luò)(DQN)是在Q學(xué)習(xí)算法基礎(chǔ)上增加神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法，利用神經(jīng)網(wǎng)絡(luò)可以較好地處理連續(xù)狀態(tài)空間問題。圖中，環(huán)境對應(yīng)仿真環(huán)境，經(jīng)驗池用以存儲訓(xùn)練過程中采集的狀態(tài)、動作、獎勵和更新后的狀態(tài)，目標網(wǎng)絡(luò)與在線網(wǎng)絡(luò)組成DQN模型中的深度神經(jīng)網(wǎng)絡(luò)部分，損失函數(shù)用以計算實際價值與預(yù)測價值的誤差并更新神經(jīng)網(wǎng)絡(luò)參數(shù)。至于參數(shù)，s與s，為機器人狀態(tài)向量，a為機器人所執(zhí)行動作，r為狀態(tài)s時刻機器人采取動作a所獲得的實際回報，Q(s，a；θ)表示參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)預(yù)測動作a的價值。

狀態(tài)向量s包含9個元素，其形式如下：

(1)

式(1)中前3個元素為機器人機身坐標，中間3個元素為目標儀表坐標，最后3個元素分別表示機器人在Pitch軸和Roll軸傾角以及機器人圍繞水平面旋轉(zhuǎn)的目標速度，最后一組元素描述機器人機身穩(wěn)定性，由于機身旋轉(zhuǎn)速度過快會造成摔倒，故將累加產(chǎn)生的目標速度也作為狀態(tài)參量。同時由于目標位置固定，為防止訓(xùn)練過程動作的選取依賴世界坐標系，故Yaw軸轉(zhuǎn)角不計入狀態(tài)參量。

1.1.2 訓(xùn)練測試與結(jié)果分析

任務(wù)訓(xùn)練在Pybullet仿真環(huán)境進行，將DQN訓(xùn)練程序與機器人控制程序分為兩個線程進行。線程將每次任務(wù)訓(xùn)練從開始至結(jié)束定義為一回合，期間累加選擇動作的次數(shù)作為機器人運動時間衡量，每輪回合結(jié)束分為3種情況：

1)機器人通過運動滿足完成條件，任務(wù)成功；

2)機器人運動中途摔倒，任務(wù)失敗；

3)機器人運動次數(shù)超過上限將視為超時。

另外，訓(xùn)練次數(shù)等于DQN模型更新次數(shù)，當訓(xùn)練次數(shù)超過規(guī)定上限立即保存參數(shù)模型結(jié)束訓(xùn)練。任務(wù)執(zhí)行過程回放如圖4所示。

圖4 DQN任務(wù)執(zhí)行過程回放

DQN模型初始化參數(shù)設(shè)置如下：最大訓(xùn)練次數(shù)10 000，學(xué)習(xí)率0.01，折扣因子0.9，貪心因子0.9，神經(jīng)網(wǎng)絡(luò)復(fù)制間隔500周期。同時，每隔1 000次訓(xùn)練記錄模型損失并保存保存該時刻模型參數(shù)，結(jié)果如圖5所示?？梢婋S著訓(xùn)練進行模型損失曲折下降，損失逐漸收斂趨勢，訓(xùn)練前期模型損失下降較快，當訓(xùn)練至第6 000輪時模型損失達到最小，而后損失稍有上升并小幅波動。

圖5 損失函數(shù)曲線圖

1.2 基于視覺引導(dǎo)的目標追蹤任務(wù)

第二個子任務(wù)主要在第一個子任務(wù)基礎(chǔ)上進行，設(shè)定機器人通過自身旋轉(zhuǎn)運動已經(jīng)將儀表納入攝像機視野，同時機器人與目標儀表的距離也進入了攝像頭的視距范圍，此時需要將儀表.影響移動至攝像機畫面中央(圖6)，以便后續(xù)讀取儀表示數(shù)。

圖6 任務(wù)仿真環(huán)境

本任務(wù)的環(huán)境狀態(tài)s將不再包括位置坐標，取而代之的是機載相機的視覺畫面，這要求機器人能夠“看懂”畫面內(nèi)容并引導(dǎo)自身朝向目標方向調(diào)整姿態(tài)。同時，為防止目標位姿超出機器人活動空間，也需將目標位姿作為極限位置參考加入環(huán)境觀測量。機器人方面，實現(xiàn)機器人在全運動空間內(nèi)的位姿調(diào)整。

對于模型的搭建大體上與前節(jié)任務(wù)相同，根據(jù)任務(wù)內(nèi)容變化做如下調(diào)整：環(huán)境狀態(tài)定義如下：

s=[Mphoto，θt_p，θt_y]

(2)

式(2)中Mphoto為攝像機單幀圖片矩陣，原圖為640×480的三通道彩色圖片，為降低神經(jīng)網(wǎng)絡(luò)權(quán)重數(shù)量提高訓(xùn)練速度同時便于經(jīng)驗存儲，將原圖轉(zhuǎn)換為單通道灰度圖片，并將原二維像素矩陣壓縮重構(gòu)至長度為48×64的一維向量。θt_p和θt_y是機器人在Pitch和Yaw旋轉(zhuǎn)軸上的目標角度。

本任務(wù)的狀態(tài)觀測量為二維矩陣與一維向量的組合形式，考慮到需處理圖片數(shù)據(jù)，網(wǎng)絡(luò)模型主體應(yīng)包含卷積神經(jīng)網(wǎng)絡(luò)(CNN)，同時需對網(wǎng)絡(luò)模型進行調(diào)整以兼容一維狀態(tài)參數(shù)。受InceptionV3模型啟發(fā)，建立并聯(lián)式強化學(xué)習(xí)在線/目標網(wǎng)絡(luò)模型如圖7所示。

圖7 改進后DQN的深度網(wǎng)絡(luò)部分模型

該模型首先對輸入的灰度圖像做卷積、池化處理減少網(wǎng)絡(luò)節(jié)點數(shù)量，而后設(shè)置四層全連接神經(jīng)網(wǎng)絡(luò)，將卷積處理產(chǎn)生的一維圖像參數(shù)與一維位置參數(shù)拼接合并作為全連接網(wǎng)絡(luò)的輸入層，最終通過正向傳播輸出4種動作的概率分布。在全連接層部分，隱藏層之間采用Relu函數(shù)做非線性激活，隱藏層至輸出層采用Softmax函數(shù)激活確保所有輸出動作概率和為1。

1.2.1 訓(xùn)練測試與結(jié)果分析

DQN模型初始化參數(shù)設(shè)置如下：最大訓(xùn)練次數(shù)10 000，學(xué)習(xí)率0.06，折扣因子0.9，貪心因子0.9，神經(jīng)網(wǎng)絡(luò)復(fù)制間隔50周期。每回合訓(xùn)練開始時，機器人Yaw軸角度隨機設(shè)置在正負30°的區(qū)間內(nèi)，保證表盤完整出現(xiàn)在相機視野中。同時，每隔1 000次訓(xùn)練記錄模型損失并保存保存該時刻模型參數(shù)，結(jié)果如圖8所示。與任務(wù)一的訓(xùn)練結(jié)果相似，前1 000輪訓(xùn)練過程模型快速收斂，之后模型損失趨于穩(wěn)定并伴隨小幅波動，當訓(xùn)練結(jié)束即訓(xùn)練至第10 000輪時，模型損失降至最低。任務(wù)執(zhí)行過程回放如圖9所示。

圖8 損失函數(shù)曲線圖

圖9 任務(wù)執(zhí)行過程回放

通過兩個子任務(wù)證明，采用DQN算法能夠?qū)C器人視覺與運動控制融為一體，機器人能夠根據(jù)任務(wù)獎勵條件對輸入圖片進行自主分析處理，形成穩(wěn)定的動作策略，人員通過調(diào)整獎勵條件即可指導(dǎo)機器人學(xué)習(xí)，無需涉足圖片分析過程，便可達到對儀表的目標追蹤。

2 指針儀表定位及配準

本文采用卷積神經(jīng)網(wǎng)絡(luò)算法作為儀表定位的基礎(chǔ)，由于基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)是大量的數(shù)據(jù)。本文利用COCO數(shù)據(jù)集進行數(shù)據(jù)處理，該數(shù)據(jù)集包含了生活當中常用的大部分物體的樣本集以及對應(yīng)的標注集。根據(jù)2018年的數(shù)據(jù)[6]，目前公開的數(shù)據(jù)當中并不能夠找到有關(guān)儀表的訓(xùn)練樣本集，因此，從天然氣站場實地拍攝了大量的儀表圖像作為基礎(chǔ)，并完成圖像的標注和反復(fù)迭代的訓(xùn)練任務(wù)，生成識別所需要的數(shù)據(jù)樣本集。

在樣本數(shù)據(jù)集的基礎(chǔ)上，使用YOLOv5算法進行儀表識別，識別效果見圖10。

圖10 儀表識別效果圖

由圖10可以看出，識別效果較好，儀表識別出來的置信度較高。

攝像頭在固定位置檢測到儀表模塊后，需要將檢測到的儀表模塊修正為模板視角。只有經(jīng)過修正的圖像才能夠繼續(xù)進行下一步示數(shù)的讀取，否則很容易因為圖像拍攝角度等原因造成采集到的儀表存在傾斜問題，造成讀數(shù)存在誤差。因此本文針對儀表傾斜問題使用改進的SIFT算法進行儀表圖像的修正運算。修正步驟如圖11所示。

圖11 儀表配準步驟

3 指針儀表示數(shù)識別

由于指針式儀表都需要讀取指針，對于直線檢測的研究從未間斷。目前識別指針的方法主要有Hough算法[7]及其改進算法、Bresenham[8]算法、最小二乘法等。Hough變換可以讀到邊界，但是儀表識別過程中線條并不單一，難以分類，且并不能夠讀到儀表指針的長度。Bresenham算法和最小二乘法都無法過濾噪聲，在考慮光照環(huán)境和外界天氣條件時，處理結(jié)果并不理想。

本文提出了一種新的儀表示數(shù)讀數(shù)方法，該方法對計算機的要求較低，不需要深度學(xué)習(xí)網(wǎng)絡(luò)，只需要簡單的算法就可以進行儀表的識別，識別流程見圖12。

圖12 儀表示數(shù)識別流程圖

針對修正后的圖像，需要對表盤進行處理后再讀取指針，由于天然氣站場環(huán)境復(fù)雜，背景雜亂，直接對圖像進行簡單的二值化處理后進行讀數(shù)會加大計算的難度。本文通過K-means聚類并保留內(nèi)切圓的方法對圖像進行二值化處理，得到表盤清晰的圖像后，用虛擬直線擬合法添加一根過中點的直線，旋轉(zhuǎn)360度得到與指針重合度最高的角度，從而得到指針的角度，最終得到指針指向的刻度。

3.1 圖像二值化

圖像二值化是指給彩色的圖像設(shè)置閾值，大于閾值的所有像素點的灰度值都設(shè)置為255(白色)，小于閾值的所有像素點的灰度值都設(shè)置為0(黑色)，將整個圖像變?yōu)楹诎讏D像[9]。可以使圖像的數(shù)據(jù)量大幅度減少，減少運算的負擔。

為了突出儀表中的主要因素，例如：刻度、數(shù)字、圓心、表盤等。本文針對機器人識別的兩幅儀表圖像做二值化處理，中值分別取80和127。針對圖13中的1圖和2圖分別作不同參數(shù)的二值化處理，見圖13。

圖13 不同中值的二值化效果

中值80是指將灰度值大于80的部分設(shè)定為白色，灰度值小于80的部分設(shè)定為黑色；中值127是指將灰度值大于127的部分設(shè)定為白色，灰度值小于127的部分設(shè)定為黑色[10]；將圖像調(diào)整為只有黑白的效果。

針對光線較強的1圖，中值為80時表盤信息較弱，有可能丟失重要信息；中值為127時，表盤信息較為清晰，可用作后續(xù)處理。

針對光線較暗的2圖，中值為80時表盤清晰，可以用作后續(xù)處理，但是中值為127時，表盤黑色部分較多，有可能丟失重要信息。

若在程序中人為的設(shè)定中值，在不同的光線條件下，處理效果不同，可能會導(dǎo)致結(jié)果的偏差。

3.2 K-means聚類二值化

分為了使圖像二值化的更加智能，使其無論在怎樣的背景下都能有好的處理效果，本文采用K-means聚類二值化來處理圖像。

K-means算法是一種基于距離的聚類方法，評價不同像素點的相似性的評價指標是距離。距離越近的對象，說明其相似度越大[11-14]。各個像素點數(shù)據(jù)事先并沒有類別之分，該方法的核心思想是通過迭代尋找m個類簇，得到這m個類簇的灰度值的均值來代表各自的樣本，使得各個樣本的誤差和達到最小。也就是各聚類點的灰度值本身要盡可能的緊湊，而各聚類之間要盡可能的遠離[15-18]。

該算法的基礎(chǔ)是每個類別的每一個參數(shù)與該類別的均值做差的平方和加上其他所有類的平方和的總和要達到最小。即最小誤差平方和準則。

(3)

式中，μc(i)表示第i個聚類的均值。

各類別的樣本越相似，與該類別的均值間的誤差平方和越小。當平方和達到最小時，就認為聚類為最優(yōu)解。

算法流程圖如圖14所示。

圖14 K-means二值化算法流程圖

由于圖像是由RGB三個通道的圖像組成，所以圖像被分為兩個類簇后，得到的聚類中心為2×3的矩陣。第一類簇偏向白色；第二類簇偏向黑色。

聚類方法[19-20]使得圖像迭代多次后自動篩選出白色的類簇和黑色的類簇，如圖15所示。

圖15 k-means二值化效果圖

不論是圖15中的1圖還是2圖，圖像的二值化效果都不錯，可以大大提高儀表識別的精度，降低圖像數(shù)據(jù)量，提高識別速度。

由于重要的信息如均在表盤上，為了進一步簡化數(shù)據(jù)量，采用內(nèi)切圓算法，將表盤以外的所有像素點清除，流程圖如圖16所示。

圖16 內(nèi)切圓算法流程圖

要得到圖像的內(nèi)切圓，首先需要將圖像較短的一條邊記為d，再遍歷圖像中所有的像素點與圖像中點的距離r，比較d/2與r的長度，如果r較大，說明該像素點處在表盤之外，置為白色即可；如果r較小，說明該像素點處在表盤之內(nèi)，則不必更改該像素點灰度值。該算法得到的圖像數(shù)據(jù)量小，且重要信息都得到了有效的保留，去除背景信息，使其應(yīng)對復(fù)雜背景也擁有一定的魯棒性，為后續(xù)的處理提供了重要保障。

經(jīng)過內(nèi)切圓算法處理的效果如圖17所示。

圖17 內(nèi)切圓儀表效果圖

內(nèi)切圓算法使得圖像重要信息得到保留的基礎(chǔ)上，降低了數(shù)據(jù)量。

3.3 虛擬直線擬合法

在識別儀表的過程中，最重要的一步是要識別指針的角度，在通過角度換算得到儀表的示數(shù)。

本文采用旋轉(zhuǎn)的虛擬直線擬合法，添加一條直線從圖像中點指向表盤刻度，直線從右邊的0度位置順時針繞著圖像中點旋轉(zhuǎn)，見下圖。

圖18中的紅色直線為虛擬直線，該直線通過表盤中點，長度設(shè)為表盤半徑的十分之九，由零度位置旋轉(zhuǎn)360度。

圖18 虛擬直線旋轉(zhuǎn)360度

圖19為直線零度位置示意圖，紅色直線旋轉(zhuǎn)過程中精確計算直線與表盤指針的重合度，圖20反映了紅線在旋轉(zhuǎn)過程中與圖18的表盤中的黑色像素點重合的數(shù)量。重合度最高的點所對應(yīng)的角度數(shù)就是表盤指針的角度。

圖19 度數(shù)示意圖

圖20 直線與表盤黑色像素點重合數(shù)量

通過觀察上圖可以發(fā)現(xiàn)重合度在270°左右達到最高點，93°左右是次高點，符合儀表狀態(tài)，最高點是指針指向的度數(shù)，次高點是指針后端指向的度數(shù)。此時程序認為270°即為儀表指向的角度。

3.4 計算刻度值

取得儀表指針指向的角度并不能夠知道儀表指針的刻度值，需要進行相應(yīng)的計算。本文選擇將度數(shù)與特殊刻度值一一對應(yīng)，選定的刻度值有：0、1、2、3、4、5、6、7、8、9、10。選定圓心坐標為(121，116)，半徑為99，同時需要得到0刻度對應(yīng)的角度以及最大刻度對應(yīng)的角度。

本文所用案例的0刻度對應(yīng)的角度為135度，10刻度對應(yīng)的角度為45度，0～10之間刻度均勻分布，可計算每一個刻度之間相隔度數(shù)°。0刻度和10刻度之間間隔90°，剩余度數(shù)為360°-90°=270°，那么每一個刻度之間的間隔度數(shù)為270°/10=27°。根據(jù)對應(yīng)的角度，計算出X、Y坐標，對應(yīng)的坐標計算結(jié)果如下表，刻度值用k表示，對應(yīng)角度用v表示。由于9刻度和10刻度對應(yīng)的角度跨過了0度線，所以需在在對應(yīng)度數(shù)的基礎(chǔ)上減去360度。具體對應(yīng)關(guān)系見表1。

表1 刻度與角度對應(yīng)關(guān)系

開始計算3.3節(jié)傳回的儀表指向的角度r所對應(yīng)的刻度值。

1)先計算傳回的角度r對應(yīng)刻度值的整數(shù)部分，定義整數(shù)部分為變量m。

刻度k[]與v[]存在一一對應(yīng)的關(guān)系，定義函數(shù)result[k]=v。通過將r與上表中的對應(yīng)角度v依次做對比，若r>v，則將m置為v對應(yīng)的刻度值k，繼續(xù)下一行比較，直到r<=v，跳出循環(huán)。此時的m為實際刻度的整數(shù)部分。

2)計算傳回的角度r對應(yīng)刻度值的小數(shù)部分，定義小數(shù)部分為變量t，小數(shù)部分所占角度為d，見圖21。

圖21 小數(shù)部分刻度關(guān)系圖示

可知，儀表盤中相鄰兩個數(shù)之間所占得小格子為10個，要得到小數(shù)部分，必須知道小數(shù)部分占了幾個格子。

t=0.1×d/(D÷10)

(4)

D÷10為每個格子所占得角度，d/(D÷10)計算結(jié)果為小數(shù)部分占幾個小格，一個小格為0.1。上式可以簡化為

t=d/D

(5)

儀表的刻度總數(shù)P可用下式表示：

P=m+t

(6)

4 實驗

4.1 實驗硬件

本文使用的四足機器人巡檢平臺如圖22所示，機器人機身內(nèi)置1臺慣性測量單元，頭部面板處安裝2臺Intel Realsense深度攝像機，用于充當機器人的眼睛采集圖像，在本文中重點采集待檢測儀表的圖像。

圖22 巡檢機器人巡檢平臺

圖23 UWB定位系統(tǒng)

在室外的天然氣站場真實環(huán)境，依靠UWB定位系統(tǒng)，提供給子任務(wù)一所需要的機器人及儀表所處的全局坐標，傳感器精度可達到厘米級，誤差小。

在室外的天然氣站場，巡檢機器人到達巡檢的指定位置后，拍攝視野中的圖像，并傳到機器人的主控端進行識別。該巡檢機器人上安裝的攝像機為Intel Realsense深度相機，里面包含的攝像機參數(shù)如表2所示。

表2 攝像機參數(shù)

本次儀表檢測的四足機器人環(huán)境為：Ubuntu操作系統(tǒng)，Python語言，OpenCV開源庫。在Anaconda平臺上開展深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練，安裝了CUDA運算平臺，以Tensorflow作為深度學(xué)習(xí)算法框架。訓(xùn)練算法的實驗硬件平臺為：Intel(R)Core(TM)i7-9700 CPU @ 3.00 GH，8核16 G 內(nèi)存，NVIDIA GeForce GTX 2070 GPU，4 G獨立顯存。

4.2 實驗效果

本文按照子任務(wù)一和子任務(wù)二進行聯(lián)合訓(xùn)練測試，運動過程如圖所示，對四足機器人運動過程中訓(xùn)練輪數(shù)及平均執(zhí)行動作數(shù)進行分析，結(jié)果見圖24～25。

圖24 任務(wù)完成率

圖25 平均動作次數(shù)

由圖可知，前2 000輪訓(xùn)練內(nèi)，機器人尚未完全“理解”任務(wù)規(guī)則，大部分回合因機身目標姿態(tài)超出運動空間而失敗，僅有的成功是由于初始化時儀表恰處于畫面中心位置，因此該階段數(shù)據(jù)不具有參考性。隨后的訓(xùn)練中機器人表現(xiàn)逐漸穩(wěn)定，從第3 000輪至第7 000輪訓(xùn)練機器人基本能以百分之百的成功率將相機鏡頭對準儀表，并且平均執(zhí)行動作數(shù)在25步到30步之間。

本文按照虛擬直線擬合法進行測試，在圖像的左上角輸出讀到的指針參數(shù)，見圖26。

圖26 識別效果

由圖26可以看出，在不同環(huán)境背景下，儀表識別的結(jié)果都與儀表實際的示數(shù)相近，本文使用了20張不同環(huán)境下的不同儀表圖像進行儀表識別算法，識別結(jié)果如表3所示。

表3 儀表識別結(jié)果

絕對誤差表達式見下式：

ε=x-a

(7)

相對誤差表達式為下式：

(8)

由表3可以看出，本文論述的指針式儀表讀數(shù)方法識別的指針讀數(shù)絕對誤差都在0.12 V以下，相對誤差都在2.6%以下，該參數(shù)比較依賴真實數(shù)值a的大小，若真實電壓值較小，那么相對誤差很容易大。整體來看，儀表示數(shù)的讀取準確率較高，能夠正確的讀取示數(shù)服務(wù)于站場的巡檢工作。

5 結(jié)束語

本文提出了一種基于四足機器人作為載體運動控制，并通過深度強化學(xué)習(xí)(DQN)進行目標追蹤任務(wù)和圖像處理來讀取儀表示數(shù)的新方法。首先通過改進的DQN算法的深度網(wǎng)絡(luò)模型，根據(jù)仿真的環(huán)境中機器人學(xué)習(xí)效果，設(shè)計并調(diào)整動作獎勵函數(shù)，設(shè)計機器人頂層決策控制系統(tǒng)。實現(xiàn)一維與二維狀態(tài)參數(shù)輸入下的儀表目標追蹤任務(wù)。其次在儀表定位和儀表配準的基礎(chǔ)上，通過K-means聚類二值化處理得到刻度分明的表盤；將圖像進行內(nèi)切圓處理，清除表盤以外的背景信息，降低圖像數(shù)據(jù)量的同時保證圖像質(zhì)量，再在圖像中間添加一根指針進行旋轉(zhuǎn)，旋轉(zhuǎn)過程中精確計算指針與表盤重合度最高的角度來得到對應(yīng)刻度。

本文算法可實現(xiàn)運動過程中儀表目標的精準追蹤和降低計算時間，并大大提高了儀表追蹤與識別的精度和效率，為天然氣站場的儀表安全監(jiān)控提供了有效保障。