亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLO-tiny-RFB模型的電站旋鈕開關(guān)狀態(tài)識別

        2020-12-31 02:24:48史夢安陸振宇
        計(jì)算機(jī)應(yīng)用 2020年12期
        關(guān)鍵詞:旋鈕儀器機(jī)器人

        史夢安,陸振宇

        (1.蘇州大學(xué)應(yīng)用技術(shù)學(xué)院,江蘇蘇州 215325;2.南京信息工程大學(xué)人工智能學(xué)院,南京 210044;3.江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心(南京信息工程大學(xué)),南京 210044)

        (?通信作者電子郵箱mashi@suda.edu.cn)

        0 引言

        在我國龐大的電力系統(tǒng)當(dāng)中,存在大量的儀器設(shè)備需要人員進(jìn)行定期的巡檢維護(hù)。但電站地處偏遠(yuǎn),因而可能長期處于無人值守的狀態(tài)。如果能夠借助于自動巡檢機(jī)器人和計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)儀器的實(shí)時(shí)檢測,那么電力系統(tǒng)就能夠減少人力成本的投入,提升管理效率。

        機(jī)器人操作系統(tǒng)(Robot Operating System,ROS)是開源的,被很多機(jī)器人項(xiàng)目所采用,其模塊式的設(shè)計(jì)使得用戶能夠根據(jù)自身的需求定制該系統(tǒng)。遵照ROS 定義的標(biāo)準(zhǔn)信息表達(dá)和通信機(jī)制,開發(fā)者的功能模塊能夠輕松地和ROS 進(jìn)行無縫對接。由于ROS 能夠在C++和Python 環(huán)境中運(yùn)行,因此將深度學(xué)習(xí)模型融合到機(jī)器人系統(tǒng)當(dāng)中也非常方便。

        近十年,深度學(xué)習(xí)在圖像處理的多個(gè)領(lǐng)域,如圖像分類、語義分割、目標(biāo)識別等領(lǐng)域都取得了重大的突破。每一年都會有新的網(wǎng)絡(luò)結(jié)構(gòu)在ImageNet、Pascal VOC、MS COCO 等大型數(shù)據(jù)集上取得突破。觀察這些模型的發(fā)展過程,可以發(fā)現(xiàn)模型的表現(xiàn)與模型的深度有著很大的關(guān)聯(lián)。從2012 年提出的VGG16[1]到2016 年的ResNet(Residual Network)[2],網(wǎng)絡(luò)模型的深度從當(dāng)初的十幾層擴(kuò)展到了一百多層。模型準(zhǔn)確率提升和深度的拓展也意味著模型參數(shù)量的增加。對于移動設(shè)備而言,這些網(wǎng)絡(luò)的結(jié)構(gòu)過于龐大,移動設(shè)備無法滿足其計(jì)算要求。因而,為了能夠在移動設(shè)備上使用神經(jīng)網(wǎng)絡(luò)這一強(qiáng)大的技術(shù),就需要在模型的結(jié)構(gòu)上做出優(yōu)化裁剪。為尋找到計(jì)算量和準(zhǔn)確率之間的平衡點(diǎn),很多研究者對較深的網(wǎng)絡(luò)模型在深度和寬度上進(jìn)行裁剪來達(dá)到減少計(jì)算量的目的。如YOLO(You Only Look Once)系列[3-5]的輕量版本YOLO-tiny。而有些研究者則是對輕量級的模型加以特殊的結(jié)構(gòu)設(shè)計(jì),如MobileNet[6-7]、ShuffleNet[8]、RFB(Respective Field Block)[9]等,通過注入更多的先驗(yàn)知識,使得輕量級模型也能取得較好的識別準(zhǔn)確率。其中RFB 模塊的設(shè)計(jì),融合了人眼感受野和視網(wǎng)膜折射率的關(guān)系函數(shù)這一先驗(yàn)知識。RFB通過網(wǎng)絡(luò)結(jié)構(gòu)模擬人眼的觀察事物的特征,提升模型的準(zhǔn)確率。

        由于RFB 的結(jié)構(gòu)輕便、計(jì)算量小,能夠很方便地結(jié)合在其他識別模型的頂層,因而本文提出了一種基于輕量級神經(jīng)網(wǎng)絡(luò)YOLO-tiny 和RFB 模塊的儀器狀態(tài)識別模塊,希望結(jié)合兩者,在小幅增加模型計(jì)算量的同時(shí)大幅提升模型的識別準(zhǔn)確率。對于細(xì)粒度的旋鈕狀態(tài)分類,本文采用了MobileNet 為基礎(chǔ)模型實(shí)現(xiàn)旋鈕8 個(gè)狀態(tài)的判斷。針對旋鈕狀態(tài)分布的極度不均衡,本文還通過翻轉(zhuǎn)等數(shù)據(jù)增廣方式平衡各類別以抵消數(shù)據(jù)分布不均的影響。由于是電站巡檢任務(wù),不同時(shí)刻統(tǒng)一表計(jì)的狀態(tài)追蹤非常重要。所提出的模塊還采用數(shù)據(jù)跨時(shí)間關(guān)聯(lián)機(jī)制,將不同時(shí)間點(diǎn)的數(shù)據(jù)聯(lián)合在一起。

        本文的主要工作如下:

        1)對YOLO-tiny 進(jìn)行結(jié)構(gòu)調(diào)整,融合YOLO-tiny 和RFB 提出了YOLO-tiny-RFB 模型。在保證模型輕量化的同時(shí),大幅提升目標(biāo)檢測的準(zhǔn)確率。

        2)設(shè)計(jì)了基于ROS 的儀器狀態(tài)識別系統(tǒng),將目標(biāo)檢測模型與分類模型嵌入到機(jī)器人操作系統(tǒng)(ROS)當(dāng)中。作為機(jī)器人的儀器狀態(tài)識別模塊,其賦予機(jī)器人定點(diǎn)儀器的識別能力。

        3)由于機(jī)器人巡檢過程中會對同一巡檢點(diǎn)進(jìn)行多次監(jiān)測,本文還提出了跨時(shí)間的目標(biāo)檢測數(shù)據(jù)關(guān)聯(lián)機(jī)制。該機(jī)制能使同一監(jiān)測點(diǎn)下不同時(shí)間點(diǎn)的識別結(jié)果有效地整合,從而賦予機(jī)器人儀器狀態(tài)追蹤的能力。

        1 相關(guān)工作

        1.1 機(jī)器人操作系統(tǒng)

        ROS是一個(gè)開源的、專為機(jī)器人開發(fā)、模塊化的分布式操作系統(tǒng)。其中模塊化的好處在于用戶可以自由地選擇裝載工具庫,亦或是手動實(shí)現(xiàn)功能。ROS 定義了一系列標(biāo)準(zhǔn)的機(jī)器人數(shù)據(jù)表述,如機(jī)器人的幾何關(guān)系轉(zhuǎn)換、位姿表示、傳感器數(shù)據(jù)表示、里程計(jì)等定位信息的表示。只要開發(fā)者通過標(biāo)準(zhǔn)的信息表述進(jìn)行功能開發(fā),就能與ROS生態(tài)進(jìn)行無縫的對接。

        ROS 底層提供了信息傳遞的接口,該接口會提供進(jìn)程間的通信功能。通信功能包括:1)發(fā)布或訂閱匿名消息;2)記錄或回溯信息;3)請求響應(yīng)、遠(yuǎn)程調(diào)用;4)分布式參數(shù)系統(tǒng)。

        除了進(jìn)程間的通信功能,ROS 系統(tǒng)還提供了基礎(chǔ)的機(jī)器人工具庫,其包含有導(dǎo)航定位、機(jī)器人姿勢調(diào)整、機(jī)器人硬件信息診斷等。這些基礎(chǔ)功能使一個(gè)機(jī)器人快速地運(yùn)作起來。

        1.2 目標(biāo)監(jiān)測模型

        基于深度學(xué)習(xí)的目標(biāo)檢測方法在實(shí)際中已經(jīng)有了相當(dāng)廣泛的應(yīng)用,在行人[10]、車輛[11]、船舶[12]等各類目標(biāo)的監(jiān)測任務(wù)當(dāng)中都有著良好的效果?;谏疃葘W(xué)習(xí)的目標(biāo)檢測主要可以分成兩大類:1)多階段處理實(shí)現(xiàn)目標(biāo)檢測;2)單模型實(shí)現(xiàn)目標(biāo)檢測。

        多階段的目標(biāo)檢測算法有RCNN(Regions with Convolutional Neural Network features)[13]。首先通過Selective Search[14]算法,在輸入圖像內(nèi)尋找所有可能包含物體的候選框。隨后,利用卷積神經(jīng)網(wǎng)絡(luò)對各候選框內(nèi)的物體進(jìn)行特征提取。最后,基于各候選框內(nèi)物體特征,使用分類器支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行框內(nèi)物體類別的判斷。另外,該階段還會使用一個(gè)回歸模型對候選框的大小進(jìn)行調(diào)節(jié)。可以發(fā)現(xiàn),RCNN 實(shí)現(xiàn)目標(biāo)檢測主要分為3 個(gè)階段,其識別過程包含多個(gè)模型的協(xié)作。因而RCNN 不管是模型的訓(xùn)練過程還是預(yù)測過程,都較為復(fù)雜。Fast RCNN[15]則將分類模型和回歸模型直接整合到了卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中,大大地提升了模型的預(yù)測速度和檢測精度。Faster RCNN[16]則更進(jìn)一步,提出了Region Proposal Network,以此來替換Selective Search 等檢測算法產(chǎn)生候選框,F(xiàn)aster RCNN 相較于Fast RCNN 在預(yù)測速度和精確度上進(jìn)一步提升。

        單模型實(shí)現(xiàn)目標(biāo)檢測的模型有SSD(Single Shot multibox Detector)[17]、YOLO等。相較于多階段處理利用單獨(dú)的模型尋找候選框,YOLO 和SSD 都是端到端模型,即將一幅圖像輸入到模型,模型會直接輸出在圖像內(nèi)識別到的物體的位置和該位置的物體類別。該類方法通過在特征圖上設(shè)置“錨”點(diǎn),避免了使用單獨(dú)的模型或算法產(chǎn)生候選框的過程。“錨”即一系列設(shè)定好大小和長寬比的候選框。對于卷積神經(jīng)網(wǎng)絡(luò)輸出的特征圖,模型會在特征圖的每一個(gè)像素位置都預(yù)設(shè)N個(gè)設(shè)定好的候選框(“錨”)。模型會根據(jù)輸入圖像的特征,對該特征點(diǎn)處是否包含物體進(jìn)行判斷,并對包含物體的“錨”的大小進(jìn)行調(diào)整。

        端到端的模型依靠單一模型實(shí)現(xiàn)目標(biāo)檢測,因而在計(jì)算復(fù)雜度上具有一定優(yōu)勢,因此本文采用端到端的目標(biāo)檢測模型完成嵌入式設(shè)備中的目標(biāo)檢測任務(wù)。

        2 系統(tǒng)結(jié)構(gòu)

        本文所提出的儀器狀態(tài)識別模塊結(jié)構(gòu)如圖1 所示。該模塊能夠?qū)x器狀態(tài)進(jìn)行實(shí)時(shí)檢測,并整合同一檢測點(diǎn)K在不同時(shí)間點(diǎn)的識別結(jié)果。本章首先將對數(shù)據(jù)關(guān)聯(lián)機(jī)制作一個(gè)詳細(xì)地介紹,隨后對提出的目標(biāo)檢測模型YOLO-tiny-RFB 的結(jié)構(gòu)進(jìn)行解釋。

        2.1 識別模塊的數(shù)據(jù)關(guān)聯(lián)機(jī)制

        巡檢機(jī)器人在日常巡檢中的某一段時(shí)間內(nèi)的執(zhí)行流程如下:某一時(shí)刻t,機(jī)器人執(zhí)行巡檢任務(wù)依靠定位系統(tǒng)來到檢測點(diǎn)K前。機(jī)器人調(diào)用云臺相機(jī)對儀器柜內(nèi)的儀器進(jìn)行拍攝,得到圖像Gt。隨后,通過調(diào)用目標(biāo)識別模型完成Gt內(nèi)儀器狀態(tài)的識別,結(jié)果記作rt。下一時(shí)刻t+1,機(jī)器人執(zhí)行下一次巡檢任務(wù),再次來到檢測點(diǎn)K前,拍照后得到儀器圖像。同樣調(diào)用目標(biāo)識別模型完成Gt+1內(nèi)儀器狀態(tài)的識別,結(jié)果記作rt+1。

        圖1 儀器狀態(tài)識別模塊結(jié)構(gòu)Fig.1 Structure of instrument status recognition module

        雖然是同一檢測點(diǎn)K,但由于機(jī)器人的定位并非百分之百精準(zhǔn),對于同一個(gè)面板,各時(shí)間點(diǎn)間拍攝到的圖像會存在位移和角度偏差。如圖像Gt和Gt+1,雖然拍攝的都是相同的一組儀器,但是各儀器在兩張圖像內(nèi)的位置會存在偏差。因此識別結(jié)果rt和rt+1內(nèi)所包含的相同儀器的坐標(biāo)并不一致,就無法直接對儀器狀態(tài)的識別結(jié)果進(jìn)行整合。將rt和rt+1內(nèi)的識別結(jié)果關(guān)聯(lián)起來,對于儀器狀態(tài)的全局檢測非常重要。

        為實(shí)現(xiàn)跨時(shí)間的監(jiān)測數(shù)據(jù)關(guān)聯(lián),首先,拍攝監(jiān)測點(diǎn)K處的開關(guān)柜的標(biāo)準(zhǔn)圖像Gs并標(biāo)注標(biāo)準(zhǔn)圖像Gs中的儀器位置;隨后,以標(biāo)準(zhǔn)圖像Gs為“錨點(diǎn)”,讓相同場景下,不同時(shí)間點(diǎn)拍攝的圖像Gt都和標(biāo)準(zhǔn)圖像Gs進(jìn)行圖像配準(zhǔn);接著,對配準(zhǔn)后的圖像進(jìn)行目標(biāo)識別;最后,讓識別結(jié)果和標(biāo)注標(biāo)準(zhǔn)的儀器位置進(jìn)行相似度的計(jì)算,使得識別結(jié)果都和標(biāo)準(zhǔn)圖像中的儀器關(guān)聯(lián)起來,從而對各時(shí)間點(diǎn)的數(shù)據(jù)完成整合。其過程如圖2所示。

        圖2 跨時(shí)間檢測數(shù)據(jù)關(guān)聯(lián)流程Fig.2 Flowchart of detecting data association across time

        識別前,為儀器面板K拍攝一幅標(biāo)準(zhǔn)的儀器面板圖Gs,并對Gs上所有的儀器位置進(jìn)行標(biāo)注,標(biāo)注數(shù)據(jù)用矩陣A表示。A包含Gs上各儀器Ij的坐標(biāo),用(xj1,yj1,xj1,yj2)四個(gè)值表示。(xj1,yj1)為包含儀器的矩形框的左上角像素坐標(biāo),(xj2,yj2)為矩形框的右下角像素坐標(biāo)。標(biāo)準(zhǔn)圖像Gs和標(biāo)注信息A將分別存儲在圖像數(shù)據(jù)庫和儀器面板數(shù)據(jù)庫當(dāng)中。

        2.1.1 特征點(diǎn)提取

        當(dāng)前機(jī)器人巡檢拍攝的圖像記作Gs,將Gt和Gs進(jìn)行圖像配準(zhǔn)。首先,要在兩幅圖像中尋找相似的特征點(diǎn)。本文通過ORB(Oriented FAST and Rotated BRIEF)圖像特征檢測算法在兩幅圖像Gt和Gs中尋找特征點(diǎn)坐標(biāo)向量,以及特征點(diǎn)的描述特征。

        ORB 算法通過FAST(Features from Accelerated Segment Test)算法來尋找具有旋轉(zhuǎn)不變性的特征點(diǎn)。FAST算法假設(shè),當(dāng)一個(gè)像素與其周圍大部分的像素差別較大時(shí),它應(yīng)該是一個(gè)特征點(diǎn)。算法會比較中心像素與周邊像素的灰度值,當(dāng)大部分周邊像素的灰度值和中心像素灰度值之差大于某一閾值時(shí),該中心點(diǎn)就是一個(gè)候選特征點(diǎn)。由于只進(jìn)行像素值的比較,F(xiàn)AST算法的計(jì)算效率很高。

        隨后,ORB 用 BRIEF(Binary Robust Independent Elementary Features)描述子對特征點(diǎn)的周邊像素進(jìn)行特征描述,從而得到各特征點(diǎn)的特征。BRIEF 是一種二進(jìn)制描述子,即它的描述特征的向量由許多個(gè)0 和1 組成,這里的0 和1 編碼了特征點(diǎn)附近兩個(gè)像素點(diǎn)(例如說q1和q2)的大小關(guān)系:如果q1的像素值比q2大,則此維度的特征取1;反之就取0。如果選取了特征點(diǎn)附近128個(gè)q1、q2對,最后就得到128維由0、1組成的特征向量。

        最后,根據(jù)特征,計(jì)算Gt和Gs各特征點(diǎn)間的距離。根據(jù)距離排序,設(shè)定閾值篩選出一定數(shù)量的相似點(diǎn)對()。

        2.1.2 單應(yīng)矩陣推斷及數(shù)據(jù)聯(lián)合

        根據(jù)多個(gè)特征點(diǎn)對()求解單應(yīng)矩陣H。H為一個(gè)3×3的矩陣,表示了兩幅圖像間各像素坐標(biāo)的轉(zhuǎn)換關(guān)系。由于H具有8 個(gè)自由度,所以至少需要在配準(zhǔn)的兩幅圖像之間找到4對特征點(diǎn),才能求解出單應(yīng)矩陣H。單應(yīng)矩陣H的求解過程如下:

        將式(2)寫成聯(lián)立的方程組,可得:

        由于式(3)中的第3項(xiàng)等于1,將其代入前兩項(xiàng),得:

        進(jìn)而,整理式(4),再次整理成矩陣形式,得式(5):

        其中:

        式(4)中為一個(gè)2×9 矩陣。每一對點(diǎn)都對應(yīng)一個(gè)矩陣Ai。將四對點(diǎn)的矩陣進(jìn)行堆疊,即會得到8×9 的矩陣。對A進(jìn)行奇異值分解(Singular Value Decomposition,SVD),即可求得H。

        利用H對Gt進(jìn)行轉(zhuǎn)換,可將Gt轉(zhuǎn)換到Gs的“視角”。完成圖像的轉(zhuǎn)換也分為兩個(gè)步驟:1)通過H將Gt的各像素坐標(biāo)轉(zhuǎn)換為,計(jì)算過程中,需先將轉(zhuǎn)換為齊次坐標(biāo)的形式;2)利用插值算法如近鄰插值法,計(jì)算變化后的坐標(biāo)處的像素值。最后得到配準(zhǔn)之后的圖像。

        2.2 儀器識別模型

        目標(biāo)檢測模型的結(jié)構(gòu)如圖3 所示。左側(cè)的虛線框架內(nèi)為YOLO-tiny 模型的下采樣結(jié)構(gòu)。本文提出的模型采用了與YOLO-tiny 相同的下采樣結(jié)構(gòu)。實(shí)驗(yàn)時(shí)對下采樣結(jié)構(gòu)的參數(shù)進(jìn)行“凍結(jié)”,即該部分參數(shù)不會進(jìn)行梯度的更新。該部分的參數(shù)為YOLO-tiny 在COCO 數(shù)據(jù)集上的預(yù)訓(xùn)練的參數(shù)。采用這種方式:一是為了防止模型的過擬合;二是提升模型的識別準(zhǔn)確率。

        下采樣過程的每一個(gè)模塊的結(jié)構(gòu)均類似,下采樣過程由3×3 的卷積核、Batch Normalization 層、非線性變換Leakey RELU(Leakey REctified Linear Unit)(未在圖3中畫出)和Maxpooling 層構(gòu)成。需要注意的是,本實(shí)驗(yàn)去除了YOLO-tiny 模型下采樣的倒數(shù)第二個(gè)模塊中,步長為1的Max-pooling層。

        圖3 右側(cè)為模型的上采樣過程。由于在進(jìn)行目標(biāo)識別時(shí),圖像中的物體尺度變化較大。因此,在上采樣過程中,模型采用了多尺度特征融合的方式。即在不同尺度的特征圖進(jìn)行上采樣操作之后,與來自下采樣過程的同樣大小的特征圖在通道維度上進(jìn)行疊加。這種跨連接方式在U-net[18]上已經(jīng)得到證明,它可以減少模型對于訓(xùn)練數(shù)據(jù)數(shù)量的要求。在YOLO-tiny 模型中,網(wǎng)絡(luò)只對兩個(gè)尺度的特征圖進(jìn)行特征融合,而本文提出的模型則增加了一個(gè)尺度,即在三個(gè)特征尺度上進(jìn)行目標(biāo)檢測。特征圖的上采樣方法采用的是近鄰插值法,上采樣方法會將特征圖插值到原來的兩倍。

        RFB 模塊的結(jié)構(gòu)如圖4 所示。由于生物學(xué)的研究表明,人眼的感受野是關(guān)于視網(wǎng)膜折射率的函數(shù)。它由多個(gè)分支構(gòu)成,與Inception[19]的結(jié)構(gòu)類似。RFB 模塊通過各分支的前端卷積核模擬不同大小的人眼感受野;利用后端的空洞卷積[20]模擬人眼的感受野和視網(wǎng)膜的折射率的關(guān)系,從而實(shí)現(xiàn)模擬人眼提取事物特征的過程。在RFB 模塊的最右側(cè)還引入了ResNet 的跨連接結(jié)構(gòu)。由于RFB 模塊結(jié)構(gòu)參數(shù)量較少,且和其他模型的結(jié)合方式簡便,可直接銜接其他識別模型的頂端。因此本文引入RFB 到Y(jié)OLO-tiny 模型當(dāng)中,提出YOLO-tiny-RFB。

        圖3 YOLO-tiny-RFB模型結(jié)構(gòu)Fig.3 Structure of YOLO-tiny-RFB model

        圖4 RFB結(jié)構(gòu)Fig.4 Structure of RFB

        本文所提出的模型YOLO-tiny-RFB 與YOLO-tiny 有兩處不同:

        1)由于電站的儀器在尺度上的變化較大,YOLO-tiny-RFB會在三個(gè)不同的尺度上進(jìn)行特征融合,YOLO-tiny則是僅僅在兩個(gè)特征尺度上進(jìn)行特征的融合。圖3 右上角的虛線框中的結(jié)構(gòu)即為新增的特征尺度提取模塊。模型還去除了YOLOtiny 在下采樣過程中的最后一個(gè)步長為1 的池化層。由于該步長為1的池化層對YOLO-tiny并未起到減小計(jì)算量的作用,而Max-pooling 會破壞圖像的細(xì)粒度特征,因此本實(shí)驗(yàn)去除了該層。

        2)在進(jìn)行跨連接和特征融合之后,YOLO-tiny通過相同的1×1 卷積核對兩個(gè)尺度的特征圖進(jìn)行特征提取并直接輸入給YOLO Layer。而YOLO-tiny-RFB 則在特征輸入YOLO Layer 之前,引入了RFB 模塊,以不同大小的卷積核對特征圖進(jìn)行提取,幫助YOLO Layer 對相似的物體進(jìn)行更好的類別判斷。圖3中的右下虛線框內(nèi)為模型新增的RFB結(jié)構(gòu)。

        2.3 旋鈕開關(guān)識別模型

        對于旋鈕的8 個(gè)子狀態(tài)的判斷,本文使用了MobileNetV2,其結(jié)構(gòu)如表1所示。為了提升模型的表現(xiàn),實(shí)驗(yàn)使用了MobileNetV2在ImageNet上的預(yù)訓(xùn)練參數(shù),隨后在旋鈕狀態(tài)分類任務(wù)上繼續(xù)訓(xùn)練。

        表1 MobileNetV2結(jié)構(gòu)Tab.1 Structure of MobileNetV2

        MobileNetV2的主要結(jié)構(gòu)由多個(gè)Bottleneck Residual Block組成,其同樣引入了殘差的概念。但與ResNet 中的殘差塊的不同之處在于,Bottleneck Residual Block 引入了拓展因子(expansion factor)t,通過改變t的值可以控制模塊中的通道數(shù),進(jìn)行模型的裁切。表1 中,c表示模塊的輸出通道,n表示模塊的重復(fù)次數(shù),s則表示模塊的步長。

        3 實(shí)驗(yàn)設(shè)置

        本章將會對實(shí)驗(yàn)數(shù)據(jù)的采集過程中,各物體類別的具體分布、保持各類平衡的方法以及數(shù)據(jù)的增廣方式做一個(gè)詳細(xì)的介紹。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文用于模型訓(xùn)練的儀器圖片均采自于高壓變電站,儀器柜的圖像如圖5所示。

        圖5 儀器柜圖像Fig.5 Image of instrument cabinet

        數(shù)據(jù)集中各類儀器類型及出現(xiàn)的次數(shù)如表2 所示。本文一共采集了1 300張高壓屏柜的儀器面板圖。在一幅圖片中,如果出現(xiàn)了某種類型的儀器,則其數(shù)量計(jì)數(shù)增加1,多次出現(xiàn)會進(jìn)行多次計(jì)數(shù)。表2 中的統(tǒng)計(jì)結(jié)果表明數(shù)據(jù)集中各類的分布較為均衡。本文也考慮到了保持類內(nèi)各儀器狀態(tài)分布相對平衡的重要性,采集時(shí)也盡量使各類內(nèi)狀態(tài)保持平衡,避免模型在訓(xùn)練過程中傾向于某一大類。

        在進(jìn)行數(shù)據(jù)類別標(biāo)注時(shí),本文將同一類型儀器的不同狀態(tài)視作不同類別。如斷路器有“開”和“關(guān)”兩種狀態(tài),在標(biāo)注時(shí)會以不同的標(biāo)簽來表示。類似的壓板儀器、指示燈、指針表計(jì)、按鈕的各自的子狀態(tài)都視作一個(gè)單獨(dú)的類別。這么做的目的是讓目標(biāo)檢測模型在實(shí)現(xiàn)儀器類型判斷的同時(shí)也進(jìn)行儀器狀態(tài)的判斷。

        表2 數(shù)據(jù)集中的儀器類型及分布Tab.2 Categories and distribution of instruments in dataset

        唯一例外的是旋鈕開關(guān),旋鈕開關(guān)包含8 個(gè)子狀態(tài),即可能會被置于8個(gè)不同的方向(左、右、上、下、左上、左下、右上、右下)。其子狀態(tài)數(shù)量較多,但各子狀態(tài)的圖片卻較少。因此在實(shí)驗(yàn)時(shí),會首先將所有旋鈕開關(guān)視作一類,不論其處于什么狀態(tài)。對于旋鈕開關(guān)的子狀態(tài)的進(jìn)一步判斷,本文則通過訓(xùn)練一個(gè)輕量級分類模型來完成。

        從表3 可以發(fā)現(xiàn),在采集到的旋鈕開關(guān)圖片中,旋鈕開關(guān)的子狀態(tài)主要集中在左上、上、右上3 個(gè)方向,各狀態(tài)下旋鈕的具體形態(tài)可以參考圖6,而其他的子狀態(tài)出現(xiàn)的情況較少。為保持各類均衡,防止分類模型判斷偏向于某一方向的判斷,本文通過翻轉(zhuǎn)旋鈕開關(guān)圖像的方式來平衡各類數(shù)據(jù)。例如,旋鈕開關(guān)置于“下”狀態(tài)的圖像可以通過垂直翻轉(zhuǎn)置于“上”狀態(tài)的旋鈕圖像得到。類似地,出現(xiàn)次數(shù)較少的旋鈕狀態(tài),也均可通過水平或垂直翻轉(zhuǎn)出現(xiàn)次數(shù)較多的旋鈕狀態(tài)圖像來填充。從而,使得各子狀態(tài)下的旋鈕數(shù)量達(dá)到均衡,均衡后的數(shù)量如表3所示。

        表3 旋鈕開關(guān)各狀態(tài)的數(shù)量分布Tab.3 Quantity distribution of different statuses of rotary switches

        3.2 數(shù)據(jù)增廣和遷移學(xué)習(xí)

        雖然本文采用的均是較為輕量級的模型,但模型參數(shù)總量依舊遠(yuǎn)多于實(shí)驗(yàn)樣本的數(shù)量。因而,在實(shí)驗(yàn)中引入數(shù)據(jù)增廣防止模型的過擬合是有必要的。本文采用的數(shù)據(jù)增廣方式有兩種:1)隨機(jī)地左右翻轉(zhuǎn)圖像;2)隨機(jī)改變圖像的對比度和光照強(qiáng)度。采用左右翻轉(zhuǎn)圖像的數(shù)據(jù)增廣方式,是因?yàn)楦黝悆x器基本都呈現(xiàn)左右對稱,且左右翻轉(zhuǎn)也不會改變儀器的狀態(tài)。而隨機(jī)改變圖像的對比度和光照強(qiáng)度則是為了讓機(jī)器人適應(yīng)在電場中的工作環(huán)境,使模型在各種的照度下都能有好的識別結(jié)果。

        遷移學(xué)習(xí)[21]是目前眾多基于深度學(xué)習(xí)的項(xiàng)目采用的提升模型準(zhǔn)確率的方式。遷移學(xué)習(xí)旨在通過利用類似領(lǐng)域的數(shù)據(jù)集讓模型學(xué)習(xí)到泛化的特征,從而減少當(dāng)前任務(wù)的數(shù)據(jù)量需求。因?yàn)?,在眾多的?shí)際應(yīng)用中,數(shù)據(jù)集的采集和標(biāo)注是相當(dāng)昂貴費(fèi)時(shí)的過程,即使花費(fèi)時(shí)間精力,采集到的數(shù)據(jù)數(shù)量對于深度學(xué)習(xí)而言也遠(yuǎn)遠(yuǎn)不夠。較少的數(shù)據(jù)集也往往會導(dǎo)致模型的過擬合。

        因而,為了在相對較小的數(shù)據(jù)上取得好的識別結(jié)果,首先讓模型在大型的數(shù)據(jù)集,如ImageNet 上進(jìn)行訓(xùn)練;隨后,保留并固定模型前部的模型參數(shù)用以提取模型的特征,只對模型后部的網(wǎng)絡(luò)參數(shù)進(jìn)行迭代更新,可以使得模型在少量數(shù)據(jù)上也取得較好的效果。本文以YOLO-tiny 在COCO 數(shù)據(jù)集上訓(xùn)練的目標(biāo)檢測模型的參數(shù)為基礎(chǔ),在儀器識別的任務(wù)上進(jìn)行參數(shù)微調(diào)(Fine tuning)。因?yàn)橥瑸槟繕?biāo)識別任務(wù),在COCO 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練能夠使本文的識別模型學(xué)習(xí)到泛化的圖像特征提取,從而提升模型的識別精度。

        圖6 旋鈕開關(guān)的8種置位方向Fig.6 Eight setting directions of rotary switch

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 實(shí)驗(yàn)設(shè)置

        模型訓(xùn)練所采用的設(shè)備為RTX2080TI,CPU i7-9700K,內(nèi)存16 GB,系統(tǒng)Ubuntu16.04,編程語言Python3.7,深度學(xué)習(xí)框架Pytorch1.3。對于目標(biāo)檢測模型的訓(xùn)練,實(shí)驗(yàn)對各模型分別進(jìn)行了2×105次迭代,模型選取的學(xué)習(xí)率lr=3×10-4,正則化項(xiàng)的參數(shù)λ=1×10-5。為實(shí)現(xiàn)數(shù)據(jù)增廣,對于每一幅輸入圖像,程序有30%的概率會對其進(jìn)行翻轉(zhuǎn),有50%的概率會對其進(jìn)行亮度和對比度的變換。對于旋鈕開關(guān)狀態(tài)的識別,實(shí)驗(yàn)采用了MobileNetV2,模型選取的學(xué)習(xí)率lr=1×10-3,正則化項(xiàng)的參數(shù)λ=1×10-5,一共迭代了5×104次。所采用的數(shù)據(jù)增廣方式為50%概率對圖像亮度和對比度進(jìn)行變換。

        訓(xùn)練集、驗(yàn)證集及測試集按照7∶1∶2 的比例在各類別內(nèi)進(jìn)行隨機(jī)分割,從而保證各類數(shù)據(jù)在訓(xùn)練集、驗(yàn)證集及測試集中均保持相對均衡。

        由于YOLO-tiny-RFB 模型除了引入RFB 模塊,比YOLOtiny 還多了一個(gè)尺度的特征圖。因此,為了驗(yàn)證加入RFB 模塊對于模型表現(xiàn)的提升是確實(shí)有效的,而不是僅僅依賴于多引入的特征尺度。實(shí)驗(yàn)去除了圖3 結(jié)構(gòu)中的Respective Field Block 模塊,保留其他的修改,即僅僅去除圖3 中右下虛線框當(dāng)中的結(jié)構(gòu),并將該模型記作YOLO-tiny-modified。以YOLOtiny-modified作為一個(gè)參照模型。

        實(shí)驗(yàn)使用了平均精度(Average Precision,AP)和平均精度均值(mean Average Precision,mAP)來評估各模型的目標(biāo)識別表現(xiàn),使用Precision 和Recall 來評估旋鈕狀態(tài)分類模型的表現(xiàn)。

        4.2 目標(biāo)識別模型對比

        目標(biāo)識別模型的實(shí)驗(yàn)結(jié)果如表4 和表5 所示。從表4 中可以發(fā)現(xiàn),YOLO-tiny-modified 和YOLO-tiny-RFB 分別在4 個(gè)類(旋鈕、斷路器-開、指示燈-關(guān)、壓板-開)和5個(gè)類別(斷路器-關(guān)、指示燈-開、壓板-關(guān)、壓板-閑置、按鈕)上取得了最好的識別結(jié)果。在這九種類別的識別中,YOLO-tiny-modified和YOLO-tiny-RFB 的表現(xiàn)均遠(yuǎn)優(yōu)于YOLO-tiny。對于電壓、電流表類的表計(jì)識別,YOLO-tiny 的表現(xiàn)最好,不過3 種模型識別準(zhǔn)確度的差距并不明顯。

        表5 表明,在所有類別的識別表現(xiàn)上,YOLO-tiny-RFB 是最好的,其mAP 為0.824。YOLO-tiny-modified 在參數(shù)量較YOLO-tiny 增加0.37×106的情況下,mAP 提升了0.107。YOLO-tiny-RFB 相較YOLO-tiny 增加了1.38×106的參數(shù)量,mAP 提升了0.125。YOLO-tiny-modified 只增加了4.5%的參數(shù),就獲得了最有效的性能提升,表明多特征尺度的輸入以及取消步長為1 的池化層,使得模型擁有了更加豐富和準(zhǔn)確的特征用作類別判斷。對于按鈕識別的表現(xiàn),YOLO-tiny-RFB則明顯較YOLO-tiny-modified 和YOLO-tiny 要好得多,可見,RFB 模塊的加入進(jìn)一步提升了模型對于相似物體的判別能力。YOLO-tiny-RFB模型的識別結(jié)果如圖7所示。

        4.3 旋鈕開關(guān)識別結(jié)果

        MobileNetV2 模型的旋鈕狀態(tài)識別結(jié)果如表6 所示。MobileNetV2 模型旋鈕開關(guān)識別的平均準(zhǔn)確率為0.907,基本能夠?qū)πo的狀態(tài)進(jìn)行準(zhǔn)確的分類。通過觀察各類的Recall和Precision,可以發(fā)現(xiàn)MobileNetV2 模型對于“上”“下”“右”“右上”的狀態(tài)判斷要比其他類別準(zhǔn)確,兩項(xiàng)指標(biāo)均高于或接近0.9。

        表3 中旋鈕各狀態(tài)的原始分布中,“上”“下”“右上”在未進(jìn)行過人工增廣的原數(shù)據(jù)集占有的比重很大?!吧稀薄跋隆薄坝疑稀痹谶M(jìn)行訓(xùn)練時(shí),包含的人工數(shù)據(jù)是較少的。因而MobileNetV2 模型能夠從真實(shí)的數(shù)據(jù)中學(xué)習(xí)到該狀態(tài)下的旋鈕特征。而其他狀態(tài)的旋鈕則幾乎都是通過這幾個(gè)狀態(tài)旋轉(zhuǎn)變換得到的。相比之下,MobileNetV2 模型對于“左”“左上”“右下”等狀態(tài)的判斷要稍差一些,Recall 和Precision 均低于0.9。

        圖7 YOLO-tiny-RFB的儀器識別結(jié)果Fig.7 Instrument recognition results of YOLO-tiny-RFB

        表6 MobileNetV2模型的旋鈕開關(guān)狀態(tài)分類結(jié)果Tab.6 Status classification results of rotary switch based on MobileNetV2 model

        4.4 結(jié)果討論

        通過表4 和表5 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),YOLO-tinymodified 相較于YOLO-tiny 的參數(shù)量提升了4.5%,mAP 取得了15.3%的性能增幅;相對的,YOLO-tiny-RFB 相較于YOLOtiny,在參數(shù)量增加了16.7%的的情況下,mAP 獲得了17.9%的表現(xiàn)增幅。雖然YOLO-tiny-RFB 看起來收益較小,但是YOLO-tiny-RFB 卻在較為困難的按鈕識別中遠(yuǎn)優(yōu)于其他模型。RFB 模塊的加入使YOLO-tiny 能夠捕捉到更多的細(xì)節(jié),對于較為細(xì)粒度的特征更加地敏感。從結(jié)果上綜合來看,YOLO-tiny-RFB比另外兩種模型表現(xiàn)更好。

        三種模型對于按鈕的狀態(tài)判斷都較差,因此本文進(jìn)一步分析測試集中數(shù)據(jù)集的相關(guān)特點(diǎn)以尋找原因。本文發(fā)現(xiàn),按鈕和指示燈在外觀上是非常相似的,其特征如圖8 所示。它們外觀上的區(qū)別在于:指示燈在熄滅時(shí),其外圍為黑色;按鈕的外圍為一層銀色的外包。當(dāng)指示燈亮起時(shí),指示燈和按鈕則比較容易區(qū)分。兩者的相似性是三種模型在區(qū)分按鈕和指示燈時(shí)表現(xiàn)不佳的原因。模型無法準(zhǔn)確判斷兩者之間的特征差別。

        對旋鈕狀態(tài)判斷模型進(jìn)行進(jìn)一步的分析,觀察測試集中分類錯(cuò)誤的圖像,發(fā)現(xiàn)模型對于圖像的細(xì)粒度特征有所忽視。另外圖像的拍攝角度也對模型的判斷有較大的影響。圖9(a)、(b)兩幅圖像均偏離正視視角,開關(guān)具有一定形變,此時(shí)本文模型無法準(zhǔn)確判斷旋鈕的正確方向。圖9(c)、(d)兩幅圖像中,模型對開關(guān)狀態(tài)做出了相反的判斷。作為人類,可以通過“手把”上的顏色準(zhǔn)確地判斷出旋鈕分別是朝向“左上”和“左下”的狀態(tài);但模型沒有捕捉到這一特征,作出了相反的判斷。

        圖8 按鈕和指示燈的外觀特征對比Fig.8 Appearance feature comparison of button and light

        圖9 旋鈕狀態(tài)分類錯(cuò)誤數(shù)據(jù)Fig.9 Rotary switch status misclassification data

        5 結(jié)語

        針對算力資源有限情況下的多類別小型物體狀態(tài)識別,本文通過在輕量級模型YOLO-tiny 中引入RFB 結(jié)構(gòu),以此提出了YOLO-tiny-RFB 模型。該模型在小幅度提升模型參數(shù)量的情況下,大幅提升了在自建的儀器識別數(shù)據(jù)集上的精度。本文提出的YOLO-tiny-RFB 較YOLO-tiny 增加了1.38×106的參數(shù)量,mAP提升了17.9%。通過數(shù)據(jù)的增廣,本文也較好地完成了在極度不均衡數(shù)據(jù)集上的分類任務(wù),對于旋鈕狀態(tài)的判斷,本文模型的平均準(zhǔn)確率可達(dá)90.7%。另外,本文還考慮到儀器巡檢場景中,同一儀器在不同時(shí)間段的狀態(tài)會被多次監(jiān)測,因而設(shè)計(jì)了儀器狀態(tài)數(shù)據(jù)的跨時(shí)間聯(lián)合機(jī)制。該機(jī)制確保同一儀器在不同時(shí)刻下的狀態(tài)能夠得到準(zhǔn)確追蹤。

        在隨后的工作中,一方面工作的重點(diǎn)將繼續(xù)著力于控制模型的參數(shù)總量,例如加入圖像通道的注意力機(jī)制[22]。因?yàn)榫W(wǎng)絡(luò)捕獲到的特征眾多,但對于識別任務(wù),并不是所有的特征均通道對于最終的識別結(jié)果都是有效或貢獻(xiàn)相同的,讓模型自動去學(xué)習(xí)各通道之間的權(quán)重關(guān)系,或許是更好的選擇;亦或是引入MobileNetV2 的擴(kuò)張系數(shù)(expansion factor),更好地控制模型的寬度。另一方面,會繼續(xù)提升模型對于細(xì)粒度特征的敏感度,加入新的數(shù)據(jù)增廣方式,如仿射變換、隨機(jī)圖像切割、隨機(jī)圖像噪聲等[23],提升模型的泛化能力。

        猜你喜歡
        旋鈕儀器機(jī)器人
        《現(xiàn)代儀器與醫(yī)療》2022年征訂回執(zhí)
        《現(xiàn)代儀器與醫(yī)療》2022年征訂回執(zhí)
        基于LDC1314芯片的電感式旋鈕控制系統(tǒng)設(shè)計(jì)
        日用電器(2021年8期)2021-09-13 03:17:38
        家用燃?xì)庠罹咝o溫升影響因素的研究
        日用電器(2021年7期)2021-08-17 02:49:28
        我國古代的天文儀器
        機(jī)器人來幫你
        認(rèn)識機(jī)器人
        機(jī)器人來啦
        金鐘碳素三腳架PRO GEO V640/V630
        大眾攝影(2015年7期)2015-07-01 18:04:25
        認(rèn)識機(jī)器人
        一边摸一边抽搐一进一出视频| 亚洲女同一区二区久久| 久久久国产精品首页免费| 亚洲在线视频免费视频| 国产精品无码一本二本三本色| 国产精品毛片无遮挡高清| 亚洲精品一区二区三区av| 97超碰精品成人国产| 一本色道久久综合无码人妻| 亚洲成人中文| 日本中出熟女一区二区| 日本人妻免费在线播放| 国产精品51麻豆cm传媒| 国产偷v国产偷v亚洲偷v| 精品少妇白浆一二三区| av大全亚洲一区二区三区 | 无码国产午夜福利片在线观看| 中文字幕一区二区三区人妻精品| 欧美一片二片午夜福利在线快| 人妻夜夜爽天天爽三区| 亚洲av天堂在线视频| 天天夜碰日日摸日日澡| 亚洲中文欧美日韩在线人| 一区=区三区国产视频| 国语自产视频在线| 依依成人精品视频在线观看| 精品一区二区三区影片| 日本视频在线观看一区二区| 伊人久久大香线蕉综合影院首页 | 91高清国产经典在线观看| 用力草我小逼视频在线播放| 熟妇高潮一区二区三区在线观看| 国产呦系列呦交| 亚洲欧美日韩中文综合在线不卡| 在线观看国产一区二区av| 国产二级一片内射视频播放| 在线播放a欧美专区一区| 国产精品高清亚洲精品| 国产大屁股喷水视频在线观看| 男人边吃奶边做好爽免费视频| 国产女主播强伦视频网站|