李 特, 裴澤霖, 劉行健, 劉海波
(大連理工大學(xué) 高性能精密制造全國(guó)重點(diǎn)實(shí)驗(yàn)室, 遼寧 大連 116000)
在航空、航天等高端裝備的制造及服役過(guò)程中,安全檢測(cè)、故障檢修是十分重要的工序,關(guān)系到服役可靠性。例如:長(zhǎng)期服役裝備油箱中進(jìn)入的多余物,松動(dòng)掉落的螺栓等,早期發(fā)現(xiàn)這些故障是保障裝備可靠服役的安全屏障。然而,隨著高端裝備性能要求越來(lái)越高,高度集成化的裝備結(jié)構(gòu)不斷趨于整體化、復(fù)雜化,檢測(cè)維護(hù)作業(yè)往往在光線十分昏暗、狹小的空間內(nèi)進(jìn)行,檢測(cè)人員操作難度大、勞動(dòng)負(fù)荷大。為此,研究低照度復(fù)雜空間目標(biāo)物智能識(shí)別技術(shù)十分必要。
近年來(lái),低照度圖像增強(qiáng)和目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)問(wèn)題成為了研究熱點(diǎn)。在低照度圖像增強(qiáng)方法方面,分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和零次學(xué)習(xí)等方式,主要有基于Retinex理論和無(wú)參考損失理論兩類方法。在目標(biāo)檢測(cè)模型方面,主要分為兩類:第一類是兩階段的目標(biāo)檢測(cè)方法,如Faster-RCNN[1],第一步先從圖像中生成候選區(qū)域框,再?gòu)暮蜻x區(qū)域框中生成最終的物體邊框。雖然準(zhǔn)確率高,但是其冗余計(jì)算量很大,因此網(wǎng)絡(luò)的檢測(cè)速度很慢;第二類是單階段目標(biāo)檢測(cè)方法,如SSD[2]和YOLO[3],一般速度較快、具有實(shí)時(shí)檢測(cè)能力。王超等[4]通過(guò)Retinex方法對(duì)井下黑暗圖像進(jìn)行增強(qiáng),基于RetinaNet改進(jìn)基礎(chǔ)網(wǎng)絡(luò),提高細(xì)節(jié)特征提取效果,對(duì)煤礦輸送帶的異物進(jìn)行檢測(cè)。王秋茹[5]提出了基于YOLOv4改進(jìn)的機(jī)場(chǎng)小目標(biāo)異物檢測(cè)方法。史凌凱等[6]基于Laplace算子對(duì)井下低照度、高粉塵環(huán)境下采集的圖像進(jìn)行預(yù)處理,然后改進(jìn)Mask R-CNN對(duì)刮板輸送機(jī)鐵質(zhì)異物進(jìn)行檢測(cè)。俞軍燕等[7]提出了一種基于MobileNet CNN改進(jìn)的單幀圖像軌道異物檢測(cè)方法。何自芬等[8]針對(duì)飛機(jī)在夜間起降時(shí)機(jī)場(chǎng)跑道上侵入的異物嚴(yán)重威脅航空運(yùn)輸安全的問(wèn)題,提出了一種融合自注意力的CSPTNet夜間機(jī)場(chǎng)跑道異物檢測(cè)方法。郝帥等[9]通過(guò)分析輸送帶中異物目標(biāo)圖像受煤塵干擾、輸送帶高速運(yùn)動(dòng)以及光照不均的影響,其造成傳統(tǒng)圖像檢測(cè)算法難以準(zhǔn)確檢測(cè),提出了一種融合卷積塊注意力模型的YOLOv5目標(biāo)檢測(cè)算法。
筆者針對(duì)高端裝備制造過(guò)程中,在管道、箱體等低照度復(fù)雜空間中發(fā)現(xiàn)的斷屑、螺母、墊片等目標(biāo)物智能識(shí)別方法開(kāi)展研究,考慮到復(fù)雜空間的極端環(huán)境導(dǎo)致圖像信息的提取和感知十分困難,采用基于VGG自然特征保持損失進(jìn)行不同尺度大小特征的保留,解決圖像語(yǔ)義信息少的問(wèn)題;一般方法增強(qiáng)極端黑暗圖像由于缺少通道維度的限制,色偏和噪聲問(wèn)題嚴(yán)重,采用通道平滑損失分別在RGB三通道限制極端像素值的出現(xiàn),從而平滑整張圖像的顏色,消除噪聲;由于大量獲取高質(zhì)量增強(qiáng)圖像進(jìn)行目標(biāo)物檢測(cè)數(shù)據(jù)集的訓(xùn)練和標(biāo)注費(fèi)時(shí)費(fèi)力,采用基于小樣本遷移學(xué)習(xí)的方法快速進(jìn)行目標(biāo)物檢測(cè)模型的開(kāi)發(fā)。
為解決箱體、管道空間中的目標(biāo)物識(shí)別問(wèn)題,文中結(jié)合改進(jìn)的低照度圖像增強(qiáng)算法和基于小樣本遷移學(xué)習(xí)理論訓(xùn)練自定義目標(biāo)物檢測(cè)數(shù)據(jù)集,提出了一種面向復(fù)雜黑暗空間的自動(dòng)化目標(biāo)物檢測(cè)方法,算法的流程如圖1所示。
圖1 自動(dòng)化目標(biāo)物檢測(cè)算法總體框架Fig. 1 Overall framework of automatic target detection algorithm
由圖1可見(jiàn),檢測(cè)算法包括低照度圖像增強(qiáng)和目標(biāo)物檢測(cè)兩個(gè)部分:一是視覺(jué)傳感器采集的輸入圖像通過(guò)改進(jìn)的低照度圖像增強(qiáng)網(wǎng)絡(luò)獲得增強(qiáng)圖像;二是改進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)推理計(jì)算增強(qiáng)圖像的目標(biāo)物類別和目標(biāo)框位置,實(shí)現(xiàn)目標(biāo)物的自動(dòng)化檢測(cè)。
基于監(jiān)督學(xué)習(xí)的低照度圖像增強(qiáng)方法往往需要獲取成對(duì)的圖像進(jìn)行訓(xùn)練,有時(shí)由于空間環(huán)境特征限制,成對(duì)數(shù)據(jù)集獲取較為困難。ZeroDCE[10]基于深度曲線估計(jì)的零次學(xué)習(xí)低照度圖像增強(qiáng)方法,不需要費(fèi)力地獲取成對(duì)圖像,僅僅需要一個(gè)大動(dòng)態(tài)范圍的數(shù)據(jù)集,通過(guò)全卷積神經(jīng)網(wǎng)絡(luò)估計(jì)每個(gè)像素點(diǎn)的亮度增強(qiáng)S曲線來(lái)恢復(fù)一張低照度圖像。由于不存在配對(duì)的圖像進(jìn)行監(jiān)督學(xué)習(xí),因此需要通過(guò)無(wú)參考損失函數(shù)(空間一致性損失、曝光控制損失、顏色一致性損失和照度平滑損失)進(jìn)行圖像噪聲、色偏和高低層級(jí)語(yǔ)義特征的約束。但是這些無(wú)參考損失函數(shù),在增強(qiáng)復(fù)雜空間低照度圖像時(shí),無(wú)法完全恢復(fù)圖像的細(xì)節(jié)和照度,會(huì)出現(xiàn)人工偽影與色偏,這是由復(fù)雜空間環(huán)境的特征較少,噪聲較大和光照不均所致。
改進(jìn)的低照度圖像增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。網(wǎng)絡(luò)主干采用6個(gè)連續(xù)的3×3×32的卷積核提取特征,網(wǎng)絡(luò)的非線性能力通過(guò)ReLU和Tanh激活函數(shù)得到增強(qiáng),拼接操作融合通道維度特征,防止特征退化。
圖2 改進(jìn)的低照度圖像增強(qiáng)網(wǎng)絡(luò)Fig. 2 Improved low-light image enhancement network
文中對(duì)ZeroDCE[10]進(jìn)行改進(jìn),將基于VGG的特征保持損失函數(shù)和顏色通道平滑噪聲損失函數(shù)添加到低照度圖像增強(qiáng)網(wǎng)絡(luò)中,恢復(fù)圖像的照度和細(xì)節(jié)特征,對(duì)色偏、噪聲和光照不均進(jìn)行控制,防止出現(xiàn)人工偽影。計(jì)算公式分別為
(1)
式中:Lfea——自然特征保持損失函數(shù);
αi——VGG16特征提取網(wǎng)絡(luò);
y——ImageNet數(shù)據(jù)集的圖像;
Ci——第i個(gè)像素的通道維度;
Hi——第i個(gè)像素的高維度;
Wi——第i個(gè)像素的寬維度。
(2)
式中:Lcha——顏色通道平滑損失函數(shù);
R——紅色顏色通道;
G——綠色顏色通道;
B——藍(lán)色顏色通道;
Om——增強(qiáng)圖像在m通道的像素特征圖;
In——Om的像素均值。
通過(guò)(Om-In)2約束輸出特征圖與每個(gè)特征圖像素均值的距離,在通道維度控制色偏和噪聲。
使用檢測(cè)算法進(jìn)行目標(biāo)物檢測(cè)模型的開(kāi)發(fā),若從頭開(kāi)始訓(xùn)練,需要收集大量的圖像,對(duì)其標(biāo)注工作耗費(fèi)時(shí)間較大,有時(shí)由于光照原因,收集大量令人滿意的增強(qiáng)圖像甚至是不現(xiàn)實(shí)的,因此,文中基于小樣本遷移學(xué)習(xí)理論快速地訓(xùn)練自定義YOLOv5目標(biāo)物檢測(cè)數(shù)據(jù)集。
YOLOv5是在前幾代YOLO版本基礎(chǔ)上迭代的實(shí)時(shí)性非常好的目標(biāo)檢測(cè)算法,其結(jié)構(gòu)可以分為三個(gè)部分,分別是主干特征提取網(wǎng)絡(luò)CSPDdarknet,進(jìn)行加強(qiáng)特征提取的拼接操作和CSPLayer,以及YOLOHead用來(lái)推理分類預(yù)測(cè)結(jié)果和回歸預(yù)測(cè)結(jié)果。
遷移學(xué)習(xí)是一種節(jié)省時(shí)間資源和計(jì)算資源的訓(xùn)練方法,可以廣泛用于工業(yè)缺陷檢測(cè)和零件識(shí)別的訓(xùn)練中。數(shù)學(xué)定義如下所示:源域?yàn)镈S={XS,fS(X)},學(xué)習(xí)任務(wù)為TS。目標(biāo)域?yàn)镈T={XT,fT(X)},學(xué)習(xí)任務(wù)為TT。遷移學(xué)習(xí)的目標(biāo)是,通過(guò)使用DS和TS中的知識(shí),來(lái)提升DT中目標(biāo)預(yù)測(cè)函數(shù)fT(X)的學(xué)習(xí)能力,其中,DS≠DT或者TS≠TT。由于目標(biāo)物的邊緣、輪廓等這些泛化特征在ImageNet數(shù)據(jù)集中也存在,因此,文中改進(jìn)的目標(biāo)物檢測(cè)方法將在ImageNet數(shù)據(jù)集中訓(xùn)練的YOLOv5x模型作為目標(biāo)物檢測(cè)模型開(kāi)發(fā)的初始點(diǎn),如圖 3所示。
在圖3中,源域的ImageNet數(shù)據(jù)量非常大,目標(biāo)域的目標(biāo)物數(shù)據(jù)量比較小,通過(guò)遷移學(xué)習(xí),可以保證源域的大部分自然泛化特征已經(jīng)被融合到訓(xùn)練的模型中。具體步驟為,先凍結(jié)backbone全部的十層特征層,然后在目標(biāo)物數(shù)據(jù)集的輸入-輸出對(duì)上微調(diào)YOLOv5 head的14層權(quán)重,以適應(yīng)目標(biāo)物檢測(cè)任務(wù)?;谛颖具w移學(xué)習(xí)理論的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu),如圖4所示。
圖3 遷移學(xué)習(xí)訓(xùn)練目標(biāo)物檢測(cè)數(shù)據(jù)集Fig. 3 Transfer learning training object detection datasets
圖4 改進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)Fig. 4 Improved object detection network
文中采用蛇形臂機(jī)器人視覺(jué)檢測(cè)平臺(tái),如圖 5所示。
由圖5可見(jiàn),其主要包括5個(gè)部分:驅(qū)動(dòng)模塊、移動(dòng)滑臺(tái)、蛇形臂本體、視覺(jué)傳感器和模擬的管道黑暗空間。驅(qū)動(dòng)模塊通過(guò)電機(jī)驅(qū)動(dòng)蛇形臂本體產(chǎn)生俯仰、偏航動(dòng)作,移動(dòng)滑臺(tái)提供橫向進(jìn)給運(yùn)動(dòng)的自由度,使蛇形臂末端能夠探入管道空間,視覺(jué)傳感器部分通過(guò)調(diào)整環(huán)形光源的亮度使其捕捉圖像不含有過(guò)曝部分,然后通過(guò)調(diào)整相機(jī)的工作距離來(lái)拍攝對(duì)焦良好的低照度圖像。
圖5 蛇形臂機(jī)器人視覺(jué)檢測(cè)平臺(tái)Fig. 5 Vision detection platform of a snake-arm robot
訓(xùn)練低照度圖像增強(qiáng)網(wǎng)絡(luò)時(shí)采用的是PyTorch框架,工作站配置的CPU型號(hào)是Xeon(R),GPU是4塊12G的TITAN Xp。訓(xùn)練目標(biāo)物檢測(cè)數(shù)據(jù)集時(shí)采用的也是PyTorch框架,工作站配置是Xeon(R)Gold 6226R型號(hào)的CPU和4塊24G的3090GPU。視覺(jué)模塊采用的設(shè)備為 GEV廠商的MV-CA013-20GC型號(hào)的視覺(jué)傳感器,型號(hào)是JS-24V50W-1T的單通道光源控制器。
目標(biāo)物圖像增強(qiáng)數(shù)據(jù)集4 590張劃分為訓(xùn)練集4 055張和測(cè)試集535張,來(lái)源為ZeroDCE[10]高動(dòng)態(tài)范圍數(shù)據(jù)集、EnlightenGAN[11]明暗配對(duì)數(shù)據(jù)集以及用來(lái)擴(kuò)充上述數(shù)據(jù)集動(dòng)態(tài)范圍在模擬管道黑暗空間場(chǎng)景拍攝的低照度圖像。
對(duì)目標(biāo)物圖像增強(qiáng)數(shù)據(jù)集中測(cè)試集的535張圖像進(jìn)行增強(qiáng)測(cè)試,將其作為目標(biāo)物檢測(cè)的數(shù)據(jù)集,其中,344張為訓(xùn)練集,86張為驗(yàn)證集,105張為測(cè)試集。使用roboflow標(biāo)注軟件對(duì)430張含有螺栓(bolt)、斷屑(chip_breaking)、鉆頭(drill)、墊片(gasket)、釘子(nail)、螺母(nut)、螺釘(screw)的圖像進(jìn)行標(biāo)注,生成訓(xùn)練集和驗(yàn)證集所對(duì)應(yīng)的圖像和標(biāo)簽文件。
盲/無(wú)參考圖像空間質(zhì)量評(píng)估器(BRISQUE)、自然圖像質(zhì)量評(píng)估器(NIQE)和基于感知的圖像質(zhì)量評(píng)估器(PIQE)通常被用于評(píng)估基于零次學(xué)習(xí)增強(qiáng)圖像的質(zhì)量,低分?jǐn)?shù)表示感知質(zhì)量高,高分?jǐn)?shù)表示感知質(zhì)量低。
目標(biāo)檢測(cè)實(shí)驗(yàn)中運(yùn)用mAP 0.5作為評(píng)價(jià)指標(biāo),0.5為預(yù)測(cè)框與真實(shí)框交并比αmAP的閾值,mAP為多類檢測(cè)模型中所有類別平均準(zhǔn)確率的平均值,αmAP的值越大、越接近1,表示模型識(shí)別定位的準(zhǔn)確率越高,其計(jì)算公式為
(3)
式中:αmAP——目標(biāo)檢測(cè)任務(wù)中所有類別平均準(zhǔn)確率的平均值;
C——目標(biāo)檢測(cè)中目標(biāo)類別的數(shù)量;
Pek——各類檢測(cè)目標(biāo)的平均準(zhǔn)確率。
Pek的值由P-R曲線圍成的面積計(jì)算而得,P-R曲線是指精確率P和召回率R的代數(shù)關(guān)系曲線。精確率P為檢測(cè)模型預(yù)測(cè)正確的部分占所有預(yù)測(cè)結(jié)果為正樣本的比例。召回率R是檢測(cè)模型預(yù)測(cè)正確的部分占所有正樣本中的比例。精確率和召回率的計(jì)算公式為
(4)
(5)
式中:TP——網(wǎng)絡(luò)模型正確檢測(cè)的樣本數(shù)量;
FP——網(wǎng)絡(luò)模型誤檢的樣本數(shù)量;
FN——網(wǎng)絡(luò)模型漏檢的樣本數(shù)量。
2.4.1 圖像視覺(jué)質(zhì)量比較
為驗(yàn)證改進(jìn)的低照度增強(qiáng)模型性能,將其與輸入、LightenNet[12]方法、RetinexNet方法、ZeroDCE[10]方法、無(wú)特征保持損失、無(wú)通道平滑損失和無(wú)兩種損失進(jìn)行對(duì)比,圖像的視覺(jué)質(zhì)量如圖6所示。
低照度公開(kāi)數(shù)據(jù)集DICM數(shù)據(jù)集的圖像質(zhì)量對(duì)比,如圖7所示。
圖7 DICM數(shù)據(jù)集圖像視覺(jué)質(zhì)量對(duì)比Fig. 7 Comparison of visual quality of images in DICM Dataset
由圖6可見(jiàn),管道黑暗空間中經(jīng)過(guò)略微補(bǔ)光后的輸入圖像是極其黑暗的,僅能看到圖像中有目標(biāo)物,但不能看清細(xì)節(jié)。LightenNet[12]無(wú)法有效地增強(qiáng)圖像,RetinexNet產(chǎn)生了嚴(yán)重的綠色色偏、ZeroDCE[10]增強(qiáng)的圖像存在人工偽影,且照度不足。無(wú)特征保持損失的增強(qiáng)圖像存在輕微的噪聲及人工偽影,無(wú)通道平滑損失的增強(qiáng)圖像存在嚴(yán)重的噪聲及紫色色偏,無(wú)兩種損失的圖像同樣存在噪聲、色偏和人工偽影,不能恢復(fù)圖像的細(xì)節(jié)特征,改進(jìn)的方法取得了最好的圖像視覺(jué)質(zhì)量。由圖7可見(jiàn),將上述增強(qiáng)方法應(yīng)用于低照度公開(kāi)圖像數(shù)據(jù)集,產(chǎn)生的增強(qiáng)結(jié)果與圖6相似,同樣是改進(jìn)的方法,提升了圖像的整體質(zhì)量。
2.4.2 無(wú)參考質(zhì)量分?jǐn)?shù)
各增強(qiáng)方法無(wú)參考圖像質(zhì)量分?jǐn)?shù)和各損失函數(shù)無(wú)參考圖像質(zhì)量分?jǐn)?shù)對(duì)比,如表1和2所示。
表1 各增強(qiáng)方法無(wú)參考圖像質(zhì)量分?jǐn)?shù)對(duì)比Table 1 Comparison of non-reference image quality scores for each enhancement method
由表1可見(jiàn),改進(jìn)的方法取得了最好的分?jǐn)?shù)6.606,且遠(yuǎn)遠(yuǎn)超過(guò)其他分?jǐn)?shù),但是在BRISQUE和NIQE中,RetinexNet和ZeroDCE[10]分別取得了最好的分?jǐn)?shù),略微超過(guò)改進(jìn)的方法。
由表2可見(jiàn),雖然改進(jìn)的方法沒(méi)有取得最好的分?jǐn)?shù),但是與其他的分?jǐn)?shù)很接近。原因是目前的無(wú)參考評(píng)價(jià)質(zhì)量分?jǐn)?shù)并不能在每個(gè)領(lǐng)域的圖像中廣泛適用,這些評(píng)價(jià)指標(biāo)是基于一個(gè)公開(kāi)的圖像數(shù)據(jù)集質(zhì)量的好壞來(lái)作為判斷標(biāo)準(zhǔn)的。在RetinexNet和無(wú)通道平滑損失增強(qiáng)的圖像中,很明顯存在嚴(yán)重的噪聲和色偏,卻在NIQE和BRISQUE中取得了較好的分?jǐn)?shù),因此需要尋找更好的圖像質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),如綜合評(píng)價(jià)噪聲和色偏的指標(biāo)。
表2 各損失函數(shù)無(wú)參考圖像質(zhì)量分?jǐn)?shù)對(duì)比Table 2 Comparison of non-reference image quality scores for each loss function
2.4.3 目標(biāo)物檢測(cè)
在圖像預(yù)處理階段,先將圖像調(diào)整到640×640的尺寸,然后設(shè)置訓(xùn)練參數(shù),學(xué)習(xí)率設(shè)置為cos曲線形式,共迭代300個(gè)epoch。訓(xùn)練過(guò)程如圖8所示。用時(shí)0.423 h,訓(xùn)練模型總共86 258 188個(gè)參數(shù),86 258 188個(gè)梯度,204.8 GFLOPs。
圖8 目標(biāo)物檢測(cè)網(wǎng)絡(luò)訓(xùn)練過(guò)程中損失函數(shù)的迭代曲線Fig. 8 Iteration curve of loss function during object detection network training
在圖8中,改進(jìn)的基于小樣本遷移學(xué)習(xí)理論的目標(biāo)物檢測(cè)算法在訓(xùn)練接近50次迭代時(shí)基本收斂。表明改進(jìn)的方法在較少的迭代次數(shù)和較短的時(shí)間內(nèi)就能快速收斂,得到令人滿意的結(jié)果。在驗(yàn)證集上進(jìn)行的指標(biāo)測(cè)試結(jié)果,如表3所示。
表3 驗(yàn)證集指標(biāo)Table 3 Indicators of validation datasets
由表3可知,改進(jìn)的方法全部圖像和每類目標(biāo)物圖像的 0.5均接近于1,表明模型的識(shí)別準(zhǔn)確率很高。在進(jìn)行測(cè)試集檢測(cè)時(shí),預(yù)處理時(shí)間0.3 ms,推理時(shí)間8.5 ms,非極大值抑制1.6 ms,滿足實(shí)時(shí)性檢測(cè)的需求,可以用于高端裝備復(fù)雜空間低照度場(chǎng)景的部署。管道中目標(biāo)物的實(shí)際檢測(cè)結(jié)果,如圖9所示。
圖9 異物檢測(cè)結(jié)果Fig. 9 Results of foreign object detection
(1)針對(duì)高端裝備的箱體、管道等低照度復(fù)雜空間中存在的目標(biāo)物,提出了一種先增強(qiáng)后識(shí)別的自動(dòng)化檢測(cè)方法,為安全檢測(cè)、故障檢修提供了有效手段。
(2)文中使用了基于VGG特征保持損失函數(shù)和顏色通道平滑噪聲損失函數(shù),解決了低照度復(fù)雜空間因光照不均而導(dǎo)致的圖像在增強(qiáng)過(guò)程中產(chǎn)生的高低層級(jí)語(yǔ)義信息退化、色偏和噪聲問(wèn)題。
(3)由于低照度復(fù)雜空間個(gè)性化較強(qiáng),樣本獲取困難,提出了基于小樣本理論的遷移學(xué)習(xí)方法。采用344張圖像作為目標(biāo)物檢測(cè)訓(xùn)練數(shù)據(jù)集,在驗(yàn)證集上達(dá)到了97.4%,節(jié)省了大量收集和標(biāo)注圖像的時(shí)間,提高了效率。