張明臻
(伯明翰大學(xué) 電子電氣和系統(tǒng)工程系,英格蘭 伯明翰 B152TT)
由煤礦井下工作人員違規(guī)操作和疲勞駕駛所導(dǎo)致的事故時(shí)有發(fā)生。為了保障井下作業(yè)人員安全,支持智慧礦山建設(shè),研究礦用車(chē)輛無(wú)人駕駛技術(shù)迫在眉睫。行人檢測(cè)是實(shí)現(xiàn)礦用車(chē)輛無(wú)人化的一項(xiàng)關(guān)鍵技術(shù),許多專家學(xué)者進(jìn)行了研究,并取得了一定成果。張小艷等[1]基于混合高斯模型,采用暗通道算法對(duì)檢測(cè)圖像進(jìn)行預(yù)處理,有效提高了井下目標(biāo)檢測(cè)速度。董昕宇等[2]采用深度可分離卷積和倒置殘差模塊構(gòu)建輕量級(jí)特征提取網(wǎng)絡(luò),實(shí)現(xiàn)了特定環(huán)境下的實(shí)時(shí)目標(biāo)檢測(cè)。謝林江等[3]提出在檢測(cè)模型中加入選擇性注意力層,極大提高了目標(biāo)檢測(cè)精度。劉備戰(zhàn)等[4]提出一種Dense-ResNet 網(wǎng)絡(luò)結(jié)構(gòu),能夠提取更加深層的圖像特征,提高了小目標(biāo)檢測(cè)精度。但上述方法忽略了井下弱光環(huán)境對(duì)目標(biāo)檢測(cè)精度的影響。針對(duì)該問(wèn)題,本文提出一種基于Dense-YOLO 網(wǎng)絡(luò)的井下行人檢測(cè)模型。首先對(duì)弱光圖像進(jìn)行增強(qiáng)和去噪處理,然后將含有殘差塊的Dense模塊添加到Y(jié)OLOv3 中,構(gòu)建基于Dense-YOLO 網(wǎng)絡(luò)的井下行人檢測(cè)模型,最后將增強(qiáng)后的圖像輸入檢測(cè)模型進(jìn)行識(shí)別。
根據(jù)Retinex 理論[5]將源圖像分解為光照?qǐng)D和反射圖2 個(gè)部分,光照?qǐng)D主要包含圖像的色彩信息,反射圖主要包含圖像的紋理信息。對(duì)于光照?qǐng)D,采用Gamma 變換提升全局照明度,采用加權(quán)對(duì)數(shù)變換提升局部照明度,采用限制對(duì)比度的自適應(yīng)直方圖均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE)提升局部對(duì)比度。將增強(qiáng)后的圖像按照自適應(yīng)權(quán)值進(jìn)行融合。對(duì)于反射圖,采用雙邊濾波算法增強(qiáng)圖像紋理。將增強(qiáng)后的光照?qǐng)D和反射圖融合,并采用ROF 去噪模型對(duì)融合后的圖像進(jìn)行全局去噪,得到最終的增強(qiáng)圖像。弱光圖像增強(qiáng)方法如圖1 所示。
圖1 弱光圖像增強(qiáng)方法Fig.1 Low light image enhancement method
由于處理反射圖的雙邊濾波器和ROF 去噪模型可以在軟件庫(kù)OpenCV 中直接調(diào)用,本文重點(diǎn)分析光照?qǐng)D增強(qiáng)方法。
源圖像S的數(shù)學(xué)模型為
式中:(x,y) 為像素點(diǎn)坐標(biāo);R(x,y) 為反射圖;X(x,y)為光照?qǐng)D;N為噪聲項(xiàng)。
采用暗通道先驗(yàn)[6]估計(jì)光照?qǐng)D。對(duì)于一張給定的弱光圖像,其暗通道先驗(yàn)計(jì)算公式為
式中:Ddark(x)為 以x為中心的一個(gè)圖像塊 Ω(x)的暗通道值;Dc為 輸入RGB 圖像中通道c的值,c∈[R,G,B]。
對(duì)暗通道先驗(yàn)執(zhí)行形態(tài)學(xué)閉操作,可計(jì)算出源圖像的光照?qǐng)DX[7]。
1.2.1 增強(qiáng)變換
(1)Gamma 變換。Gamma 變換通過(guò)指數(shù)變換方式對(duì)輸入圖像進(jìn)行增強(qiáng),其計(jì)算公式為
式中:O(x,y)和K(x,y)分別為輸出圖像和輸入圖像;G和 γ分別為Gamma 變換系數(shù)和指數(shù)系數(shù)。
當(dāng)指數(shù)系數(shù)小于1 時(shí),圖像的全局亮度會(huì)得到提升,反之全局亮度降低。
(2)加權(quán)對(duì)數(shù)變換。普通對(duì)數(shù)變換在大多數(shù)圖像上表現(xiàn)良好,但經(jīng)過(guò)直方圖規(guī)范化后會(huì)出現(xiàn)圖像增強(qiáng)亮度相似現(xiàn)象[8]。加權(quán)對(duì)數(shù)變換在普通對(duì)數(shù)變換基礎(chǔ)上增加了一個(gè)掩碼因子δ(當(dāng)x=y時(shí)為1,否則為0),解決了增強(qiáng)亮度相似問(wèn)題。因此,本文采用加權(quán)對(duì)數(shù)變換來(lái)增強(qiáng)局部亮度,計(jì)算公式為
式中:B為圖像經(jīng)過(guò)加權(quán)對(duì)數(shù)變換后對(duì)應(yīng)像素(x,y)的值;m,n為 光照?qǐng)D的長(zhǎng)和寬;e為加權(quán)對(duì)數(shù)變換系數(shù);ε為修正系數(shù),通常取1;?為三階拉普拉斯算子;τ為亮度等級(jí),τ ∈[1,256]。
通過(guò)拉普拉斯算子計(jì)算光照?qǐng)D中給定像素(x,y)與周?chē)渌? 個(gè)像素的卷積,得到局部亮度水平。
(3)CLAHE。自適應(yīng)直方圖均衡(Adaptive Histogram Equalization,AHE)通過(guò)計(jì)算每個(gè)圖像塊的直方圖來(lái)重新均衡圖像的全局亮度分布,但在增強(qiáng)對(duì)比度的同時(shí),放大了圖像噪聲。為了抑制噪聲,本文采用CLAHE 提升局部對(duì)比度。
1.2.2 加權(quán)融合
為了有效融合3 種增強(qiáng)變換的結(jié)果(分別記為IG,IL,IC),設(shè)計(jì)了亮度權(quán)值Wk,l和色彩權(quán)值Wk,s。亮度權(quán)值用于平衡增強(qiáng)圖像的全局亮度,其值越大,表明該像素的曝光效果越好。亮度權(quán)值計(jì)算公式為
式中:Ik為增強(qiáng)變換后的圖像,Ik∈{IG,IL,IC};μ,σ2分別為變換后光照?qǐng)D的均值和方差。
色彩權(quán)值計(jì)算公式為
式中:a和b分別為顏色保存幅值和偏移角度;H(x,y)和T(x,y)分別為源圖像在HSV 色彩空間中的色彩和透度分量。
結(jié)合式(5)和式(6)可得最后的融合圖像Zf:
將增強(qiáng)后的光照?qǐng)DZf和經(jīng)過(guò)雙邊濾波處理的反射圖逐點(diǎn)相乘,重構(gòu)出RGB 圖。由于增強(qiáng)后的圖像包含全局高斯噪聲,所以采用ROF 去噪模型對(duì)圖像進(jìn)行全局去噪,圖像增強(qiáng)效果如圖2 所示??梢钥闯?,圖像增強(qiáng)后能夠清晰地顯示出圖像中的工人。
圖2 弱光圖像和增強(qiáng)圖像Fig.2 Low light image and enhanced image
與YOLO 網(wǎng)絡(luò)[9]相比,YOLOv3 采用了多尺度檢測(cè)的網(wǎng)絡(luò)結(jié)構(gòu)DarkNet-53,可輸出3 種不同尺度的特征,分別為13×13×1 024,26×26×512,52×52×256。小尺寸的特征感受視野大,有利于大目標(biāo)檢測(cè),大尺寸的特征有利于小目標(biāo)檢測(cè)[10]。
為了提高網(wǎng)絡(luò)的特征提取能力,本文將含有殘差塊的Dense 模塊[11]添加到Y(jié)OLOv3 中,構(gòu)建基于Dense-YOLO 網(wǎng)絡(luò)的井下行人檢測(cè)模型,如圖3 所示。殘差塊的加入有利于避免在網(wǎng)絡(luò)訓(xùn)練過(guò)程中出現(xiàn)梯度消失和梯度爆炸等問(wèn)題。Dense-YOLO 網(wǎng)絡(luò)主要包含Dense 模塊、特征金字塔和分類(lèi)定位模塊3 個(gè)部分。Dense 模塊用于提取圖像中的深度信息,將特征大小重塑為13×13×1 024,26×26×512 和52×52×256,然后在3 種尺度特征上進(jìn)行分類(lèi)和定位檢測(cè)。
圖3 基于Dense-YOLO 網(wǎng)絡(luò)的井下行人檢測(cè)模型Fig.3 Underground pedestrian detection model based on Dense-YOLO network
Dense-YOLO 網(wǎng)絡(luò)訓(xùn)練時(shí)的損失函數(shù)采用多任務(wù)損失函數(shù)L:
式中:αcoord和 αobj分別為定位和分類(lèi)平衡因子,分別取5 和0.5;Lsize,Lpos,Lcof和Lc分別為定位框的大小損失、定位框的位置損失、預(yù)測(cè)置信度損失和分類(lèi)損失。
式中:M為網(wǎng)格數(shù)量;A為定位框數(shù)量;為目標(biāo)落入第i個(gè)網(wǎng)格第j個(gè)預(yù)測(cè)框的系數(shù);(xi,yi)和分 別為預(yù)測(cè)框和真 實(shí)框的中心點(diǎn)坐標(biāo);wi,hi和,分別為預(yù)測(cè)框和真實(shí)框的寬和高;Ci,分別為第i個(gè)網(wǎng)格中檢測(cè)到目標(biāo)的置信度和人工標(biāo)注真實(shí)目標(biāo)的置信度;l為真實(shí)樣本數(shù)據(jù),l=±1;p為l=1 的概率,p∈[0,1]。
選用邊緣計(jì)算機(jī)NVIDIA AGX Xavier 作為Dense-YOLO 網(wǎng)絡(luò)的搭載平臺(tái)。YOLOv3 網(wǎng)絡(luò)使用之前在COCO 數(shù)據(jù)集[12]上進(jìn)行預(yù)訓(xùn)練。調(diào)參時(shí)采用Adam 優(yōu)化器,設(shè)置動(dòng)量參數(shù)為0.9,學(xué)習(xí)率為0.001,批處理大小為16,迭代次數(shù)為1 000。預(yù)訓(xùn)練參數(shù)凍結(jié),即保持不變。
RetinaNet 是一種單階段的目標(biāo)檢測(cè)模型,因兼具速度與精度兩方面的優(yōu)勢(shì)而備受關(guān)注。為了驗(yàn)證弱光環(huán)境下基于Dense-YOLO 網(wǎng)絡(luò)的井下行人檢測(cè)模型的效果,選用RetinaNet 網(wǎng)絡(luò)進(jìn)行對(duì)比,結(jié)果如圖4 所示??梢钥闯觯珼ense-YOLO 網(wǎng)絡(luò)能夠檢測(cè)出所有目標(biāo),有效抑制了漏檢現(xiàn)象,而RetinaNet 網(wǎng)絡(luò)的檢測(cè)結(jié)果中存在漏檢現(xiàn)象。
圖4 弱光環(huán)境下行人檢測(cè)結(jié)果對(duì)比Fig.4 Comparison of pedestrian detection results in low light environments
RetinaNet 網(wǎng)絡(luò)和Dense-YOLO 網(wǎng)絡(luò)的具體檢測(cè)數(shù)據(jù)見(jiàn)表1??梢钥闯?,對(duì)于增強(qiáng)圖像,Dense-YOLO網(wǎng)絡(luò)的漏檢率為4.55%,相較于RetinaNet 網(wǎng)絡(luò)減小了14.91%,但是平均精度均值(mean Average Precision,mAP)稍低于RetinaNet 網(wǎng)絡(luò),比其減小了4.84%;在運(yùn)行時(shí)間上,2 種網(wǎng)絡(luò)差別不大。
表1 RetinaNet 網(wǎng)絡(luò)和Dense-YOLO 網(wǎng)絡(luò)檢測(cè)結(jié)果Table 1 Detection results of RetinaNet network and Dense-YOLO network
(1)將弱光圖像分解為光照?qǐng)D和反射圖。對(duì)于光照?qǐng)D,采用Gamma 變換、加權(quán)對(duì)數(shù)變換、CLAHE進(jìn)行增強(qiáng)處理,對(duì)增強(qiáng)后的圖像進(jìn)行加權(quán)融合;對(duì)于反射圖,采用雙邊濾波算法增強(qiáng)圖像紋理;將增強(qiáng)后的光照?qǐng)D和反射圖融合,并采用ROF 去噪模型對(duì)融合后的圖像進(jìn)行全局去噪,得到最終的增強(qiáng)圖像。
(2)將含有殘差塊的Dense 模塊添加到Y(jié)OLOv3中,構(gòu)建基于Dense-YOLO 網(wǎng)絡(luò)的井下行人檢測(cè)模型。
(3)實(shí)驗(yàn)結(jié)果表明:對(duì)弱光圖像進(jìn)行增強(qiáng)處理能夠有效提高圖像可見(jiàn)度和行人檢測(cè)效果;Dense-YOLO網(wǎng)絡(luò)對(duì)增強(qiáng)圖像的漏檢率為4.55%,相較于RetinaNet網(wǎng)絡(luò)降低了14.91%,基于Dense-YOLO 網(wǎng)絡(luò)的井下行人檢測(cè)模型有效降低了行人檢測(cè)漏檢率。