李政謙 劉 暉
(北京華電天仁電力控制技術(shù)有限公司 北京 100039)
佩戴安全帽是一項(xiàng)防止腦部損傷的措施。研究表明,在建筑工地及巡檢現(xiàn)場(chǎng)中,有接近90%的腦損傷是因?yàn)闆]有正確地佩戴安全帽引起[1],有必要對(duì)相關(guān)人員的安全帽佩戴進(jìn)行檢測(cè),降低相關(guān)事故發(fā)生率。
早期,施工及巡檢現(xiàn)場(chǎng)通常會(huì)有專責(zé)的安全監(jiān)督人員對(duì)工人們的安全帽佩戴情況進(jìn)行檢測(cè),但這種方式難以全方位監(jiān)督,無法保證監(jiān)督的有效性。因此,相關(guān)單位為了能夠?qū)崟r(shí)監(jiān)督施工及巡檢現(xiàn)場(chǎng)并降低監(jiān)督成本,存在安全帽佩戴檢測(cè)的實(shí)際需求。
一般的目標(biāo)檢測(cè)方法僅需在圖片上判斷是否存在檢測(cè)目標(biāo),并獲得目標(biāo)數(shù)量,標(biāo)記目標(biāo)位置。對(duì)于安全帽佩戴檢測(cè)算法,在此基礎(chǔ)上還要求針對(duì)動(dòng)態(tài)視頻實(shí)時(shí)識(shí)別、深度優(yōu)化,達(dá)到較高的識(shí)別跟蹤精度;對(duì)光線、陰天等不同環(huán)境適應(yīng)性強(qiáng),且不受人員眼鏡、胡須、發(fā)型、表情等遮擋影響;也不受到人員正面、背面、側(cè)面、跑動(dòng)、低頭等不同姿態(tài)影響。近年來,研究人員在基于傳感器與基于圖像處理等兩種檢測(cè)方式上對(duì)安全帽佩戴檢測(cè)做了很多具有創(chuàng)新性的研究工作。
基于傳感器的識(shí)別主要通過定位技術(shù)來采集人、材、機(jī)的位置信息,提供給安全識(shí)別系統(tǒng)進(jìn)行綜合風(fēng)險(xiǎn)評(píng)價(jià)[2-5]。由于定位精度不高以及大量的設(shè)備投入并且存在一定程度的健康隱患,傳感器識(shí)別技術(shù)在實(shí)際現(xiàn)場(chǎng)中很難進(jìn)行推廣。
研究人員也嘗試通過圖形處理進(jìn)行安全帽檢測(cè),主要分為對(duì)安全帽的形狀特征[6]、顏色特征[7-9]、邊緣特征[10]、特征表示和分類器相結(jié)合[11]等四類進(jìn)行檢測(cè)。但基于圖像處理的安全帽檢測(cè)需要手動(dòng)構(gòu)建大量的特征,檢測(cè)速度慢、準(zhǔn)確率低等問題使得其不適用于復(fù)雜性較高的施工及巡檢現(xiàn)場(chǎng)。
由于傳統(tǒng)目標(biāo)檢測(cè)算法存在以上缺點(diǎn),無法達(dá)到安全帽佩戴檢測(cè)實(shí)際需求,基于深度學(xué)習(xí)的檢測(cè)算法依靠其網(wǎng)絡(luò)簡(jiǎn)單、檢測(cè)速度快準(zhǔn)確性高等特點(diǎn)超過傳統(tǒng)檢測(cè)算法,成為當(dāng)前安全帽佩戴檢測(cè)方面的主流算法。
(1) 檢測(cè)速度fps(Frames per second):每秒能夠檢測(cè)的圖片數(shù)量。
(2) 交并比IOU(Intersection over Union):預(yù)測(cè)邊框與實(shí)際邊框的交集和并集的比值。
(1)
式中:Bp為預(yù)測(cè)邊框;Bg為實(shí)際邊框。
(3) 準(zhǔn)確率P(Precision):
(2)
式中:TP是預(yù)測(cè)正確的正樣本的數(shù)量;FP是將負(fù)樣本預(yù)測(cè)成正樣本的數(shù)量。
(4) 召回率R(Recall):
(3)
式中:FN是將正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量。
(5) 平均準(zhǔn)確率AP(average precision):
(4)
式中:t是在不同IOU下曲線的召回率,比如當(dāng)t=0.7時(shí),只有IOU≥0.7才被認(rèn)為是正樣本。
(6) 平均準(zhǔn)確率均值mAP(mean average precision):
(5)
式中:N為種類數(shù)量。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法可分為基于分類的目標(biāo)檢測(cè)算法和基于回歸的目標(biāo)檢測(cè)算法。基于分類的目標(biāo)檢測(cè)算法也稱為兩階段目標(biāo)檢測(cè)(two-stage),首先針對(duì)圖像中目標(biāo)物體位置,預(yù)先提出候選區(qū)域,然后微調(diào)候選區(qū)并輸出檢測(cè)結(jié)果。
文獻(xiàn)[13]提出的R-CNN(Regions with CNN features)是將卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于目標(biāo)檢測(cè)的開端,如圖1所示,其首先是利用選擇性搜索(Selective Search)[14]生成2 000個(gè)候選區(qū)域并轉(zhuǎn)換成指定大小,然后送入CNN模型中得到一個(gè)特征向量,最后使用SVM進(jìn)行分類并得到目標(biāo)區(qū)域。
圖1 R-CNN流程圖
其在PASCAL VOC 2010數(shù)據(jù)集上準(zhǔn)確率達(dá)到了53.7%,與之前各算法相比獲得了巨大的提升,但仍然存在著計(jì)算時(shí)間長(zhǎng)、無效計(jì)算多、占用空間大等缺點(diǎn)。隨后文獻(xiàn)[15]提出了空間金字塔池化層(Spatial Pyramid Pooling,SPP)解決R-CNN中重復(fù)卷積的問題。同年Girshick提出的Fast R-CNN[16]修正了R-CNN和SPP-net的缺點(diǎn),比如減少了訓(xùn)練步驟且不再將特征保存在磁盤,提高了速度和準(zhǔn)確性。但Fast R-CNN在提取區(qū)域候選框時(shí)仍使用Selective Search算法,檢測(cè)速度仍然較慢。因此,以上算法對(duì)安全帽等小目標(biāo)的識(shí)別準(zhǔn)確率及檢測(cè)速度并不能很好地滿足工程使用,直到文獻(xiàn)[17]提出了Faster R-CNN,研究人員開始大量使用并改進(jìn)該方法應(yīng)用于安全帽檢測(cè)領(lǐng)域。
Faster R-CNN算法用候選區(qū)域生成網(wǎng)絡(luò)(RPN)代替了選擇性搜索算法,提高了算法的檢測(cè)速度和準(zhǔn)確率。Faster R-CNN流程如圖2所示,首先,提取照片的特征。然后使用CNN方法對(duì)整幅圖像進(jìn)行處理,利用幾個(gè)卷積層和最大池化層生成卷積特征圖。特征圖被后續(xù)RPN層和全連接層共享。然后使用區(qū)域生成網(wǎng)絡(luò)(RPN)生成候選區(qū)域。之后進(jìn)入ROI池化層,收集輸入的特征圖和候選區(qū)域并池化為固定大小,送入全連接層。最后是Fast R-CNN檢測(cè)器,它利用候選區(qū)域和相應(yīng)的被提取的特征對(duì)候選區(qū)域是否是戴安全帽的工人進(jìn)行分類。
圖2 Faster R-CNN流程圖
Faster R-CNN能夠很好地處理復(fù)雜環(huán)境,可以自動(dòng)學(xué)習(xí)特征,無須手動(dòng)建立各種人體姿態(tài)模型,相比上文模型其擁有更高的準(zhǔn)確率和檢測(cè)速度,滿足了各種建筑工地的實(shí)際安全監(jiān)控要求。
在安全帽檢測(cè)領(lǐng)域研究中,文獻(xiàn)[18]使用Faster R-CNN+ZFNet的組合搭建了安全帽檢測(cè)系統(tǒng),該系統(tǒng)能夠?qū)崟r(shí)識(shí)別監(jiān)控視頻中的人員和頭盔,mAP高達(dá)90.3%,每幅圖像的檢測(cè)時(shí)間高達(dá)27幀/秒。Fang等[19]提出了一種基于快速R-CNN的遠(yuǎn)場(chǎng)監(jiān)控檢測(cè)方法,從25個(gè)不同建筑工地的遠(yuǎn)場(chǎng)監(jiān)控視頻中隨機(jī)選擇了超過10萬幅建筑工人圖像幀,實(shí)驗(yàn)結(jié)果表明,該方法檢測(cè)精度高,能有效地檢測(cè)不同施工現(xiàn)場(chǎng)條件下施工人員的安全帽佩戴情況,有利于改進(jìn)安全檢查和監(jiān)督。王悅[20]改進(jìn)Faster R-CNN的算法訓(xùn)練過程同時(shí)對(duì)YOLO、SSD相關(guān)深度學(xué)習(xí)檢測(cè)算法進(jìn)行測(cè)試對(duì)比,獲得了更高的準(zhǔn)確率。王忠玉[21]通過分層預(yù)測(cè)特征金字塔的多層特征改進(jìn)了Faster R-CNN,設(shè)計(jì)了一種安全帽佩戴檢測(cè)算法(FMP-net),其效果優(yōu)于Faster R-CNN和SSD等算法。2019年,文獻(xiàn)[22]使用了EspiNet V2模型,改進(jìn)了Faster R-CNN的CNN部分,獲得了一個(gè)6層(4卷積)的簡(jiǎn)單CNN網(wǎng)絡(luò),減少了一定的參數(shù)量。該模型能夠從低角度和移動(dòng)攝像機(jī)拍攝且存在一定遮擋的情況下獲得88.8%的mAP。徐守坤等[23]通過在Faster R-CNN增加錨點(diǎn)以及使用多尺度訓(xùn)練來增強(qiáng)不同尺寸目標(biāo)在檢測(cè)送的魯棒性,同時(shí)增加在線困難樣本挖掘策略用以防止正負(fù)樣本不均衡問題,最后采用多部件結(jié)合方法剔除誤檢目標(biāo)。Wang等[24]研究了建筑工地在有遮擋、重疊以及工人衣著反光等情況,使用改進(jìn)后的Faster R-CNN對(duì)目標(biāo)進(jìn)行檢測(cè),獲得了較高的檢測(cè)精度。
由于Faster R-CNN仍然存在檢測(cè)速度較慢的情況,Dai等[25]在此基礎(chǔ)上設(shè)計(jì)出了R-FCN,基于區(qū)域的全卷積網(wǎng)絡(luò)(region-based fully convolutional network,R-FCN)是一種利用全卷積網(wǎng)絡(luò)進(jìn)行目標(biāo)分類識(shí)別的網(wǎng)絡(luò),它適用于復(fù)雜背景中廣泛存在的小目標(biāo)的識(shí)別。其流程圖如圖3所示。
圖3 R-FCN流程圖
首先輸入圖像經(jīng)過一個(gè)全卷積網(wǎng)絡(luò)(ResNet),然后一方面在最后一個(gè)卷積層后面添加特殊的卷積層生成位置敏感得分圖(position-sensitive score map),另一方面全卷積網(wǎng)絡(luò)的某個(gè)卷積層輸出作為RPN網(wǎng)絡(luò)的輸入,RPN網(wǎng)絡(luò)最后生成ROI。最后的ROI池化層將前面的得分圖和ROI作為輸入,并輸出類別信息。R-FCN在整幅圖像上共享計(jì)算,減少了參數(shù)冗余,并利用位置敏感得分圖,解決了圖像分類平移不變性和目標(biāo)檢測(cè)平移變化之間的矛盾,在ImageNet上取得了較好的識(shí)別分類結(jié)果。
在安全帽檢測(cè)領(lǐng)域研究中,文獻(xiàn)[26]使用基于區(qū)域的全卷積網(wǎng)絡(luò)(R-FCN)進(jìn)行深度學(xué)習(xí),R-FCN是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和轉(zhuǎn)移學(xué)習(xí)技術(shù)的對(duì)象檢測(cè)算法之一。對(duì)來自ImageNet的1 089幅人體和安全帽圖像進(jìn)行學(xué)習(xí),測(cè)量人體和安全帽的mAP分別為0.86和0.83。Wang等[27]提出了一種基于區(qū)域全卷積網(wǎng)絡(luò)(R-FCN)的多類檢測(cè)器來實(shí)現(xiàn)對(duì)多目標(biāo)的檢測(cè)和定位。然后根據(jù)檢測(cè)結(jié)果對(duì)工人或設(shè)備進(jìn)行二次分析,識(shí)別出違規(guī)類型和缺陷類型。
盡管經(jīng)過多次改良,兩階段檢測(cè)算法大幅提高了檢測(cè)準(zhǔn)確率與速度,但由于兩階段檢測(cè)存在提取候選區(qū)域的過程,檢測(cè)速度難以滿足部分現(xiàn)場(chǎng)需求,因此研究人員開發(fā)出單階段(one-stage)算法,將整個(gè)檢測(cè)過程簡(jiǎn)化為一次端對(duì)端的檢測(cè)。
文獻(xiàn)[28]提出YOLO(You Only Look Once)算法,使用回歸的思想來處理物體檢測(cè)(object detection)問題,用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入的圖片進(jìn)行卷積運(yùn)算,進(jìn)而降低圖片數(shù)據(jù)的維度,進(jìn)行特征提取,能夠直接預(yù)測(cè)邊界框(bounding box)的位置以及類別。結(jié)構(gòu)上將多步檢測(cè)優(yōu)化為統(tǒng)一檢測(cè),提高了模型的運(yùn)行速度,既可以直接學(xué)習(xí)圖像的全局信息,也可以端對(duì)端訓(xùn)練。圖4所示為YOLO的流程圖。
圖4 YOLO流程圖
但YOLO存在兩點(diǎn)不足之處,一是定位不準(zhǔn)確,二是和基于分類的檢測(cè)方法相比召回率較低。
在安全帽檢測(cè)領(lǐng)域研究中,劉君等[29]設(shè)計(jì)了一種改進(jìn)的YOLO網(wǎng)絡(luò)結(jié)構(gòu),將RPN檢測(cè)算法融入到Y(jié)OLO算法中,并借鑒R-FCN算法,去掉一個(gè)全連接層,在卷積層上進(jìn)行滑動(dòng)窗口操作,采用先池化再卷積的方法,以減少圖片特征丟失。該模型在準(zhǔn)確率與檢測(cè)速度上都取得滿意的結(jié)果。Hung等[30]提出了一種基于YOLO算法的實(shí)時(shí)防護(hù)裝備圖像檢測(cè)方法,并為此建立一個(gè)建筑工地6種常見防護(hù)設(shè)備的圖像數(shù)據(jù)庫。實(shí)驗(yàn)表明該模型在準(zhǔn)確率上較好的檢測(cè)結(jié)果,未來將在檢測(cè)速度上加以優(yōu)化。
2016年Redmon等[31]引入了一個(gè)先進(jìn)的實(shí)時(shí)目標(biāo)檢測(cè)系統(tǒng)YOLOv2,其網(wǎng)絡(luò)結(jié)構(gòu)參照SSD和YOLO的網(wǎng)絡(luò)結(jié)構(gòu),為了解決YOLO在物體定位方面不夠準(zhǔn)確,并且召回率較低等缺點(diǎn),YOLOv2增加了批量正則化(Batch Normalization),使用了K-means聚類產(chǎn)生的錨點(diǎn)代替Faster R-CNN和SSD手工設(shè)計(jì)的錨點(diǎn)、高分辨率分類器(High Resolution Classifier)并使用Darknet-19為基礎(chǔ)模型進(jìn)行特征提取。YOLOv2網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 YOLOv2流程圖
在安全帽檢測(cè)領(lǐng)域研究中,2018年方明等[32]通過在以YOLOv2為基礎(chǔ)的模型中加入密集塊,實(shí)現(xiàn)了多層特征的融合以及淺層低語義信息與深層高語義信息的兼顧,提高了網(wǎng)絡(luò)對(duì)于小目標(biāo)檢測(cè)的敏感性,利用Mobilenet中的輕量化網(wǎng)絡(luò)結(jié)構(gòu)對(duì)網(wǎng)絡(luò)進(jìn)行壓縮,使模型的大小縮減為原來的十分之一,增加了模型的可用性。結(jié)果顯示:該模型的檢測(cè)準(zhǔn)確率為87.42%,稍遜色于YOLOv3,但是其檢測(cè)速度提升顯著達(dá)到148幀/s。文獻(xiàn)[33]通過改進(jìn)YOLOv2的網(wǎng)絡(luò)結(jié)構(gòu)來提高檢測(cè)速度,并使用強(qiáng)化連接來降低計(jì)算復(fù)雜度,使多層功能重用和融合。利用Tiny-YOLO-Density實(shí)現(xiàn)了電力施工現(xiàn)場(chǎng)違法行為監(jiān)測(cè)系統(tǒng)[34]。
在YOLOv2基礎(chǔ)上,2018年Redmon等[35]提出了YOLOv3算法,采用殘差網(wǎng)絡(luò)模型Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)代替了YOLOv2的Darknet-19,通過53個(gè)卷積層和5個(gè)最大池化層來提取特征,使用批量歸一化和dropout去除操作來防止過擬合,損失函數(shù)使用logistic代替了softmax等等。YOLOv3預(yù)檢測(cè)系統(tǒng)采用了多尺度訓(xùn)練,使用分類器多次執(zhí)行檢測(cè)任務(wù),將模型應(yīng)用于圖像的多個(gè)位置和比例,例如輸入為416×416像素時(shí)會(huì)融合13×13、26×26、52×52像素三個(gè)特征層。因此YOLOv3適用于小目標(biāo)檢測(cè),其結(jié)構(gòu)圖如圖6所示。
圖6 YOLOv3流程圖
在安全帽檢測(cè)領(lǐng)域研究中,王秋余[36]提出基于YOLO的半監(jiān)督學(xué)習(xí)安全帽佩戴識(shí)別算法,實(shí)現(xiàn)了在保持準(zhǔn)確率不變的情況對(duì)樣本標(biāo)注與收集工作的簡(jiǎn)化,并提高了小目標(biāo)的準(zhǔn)確率與模型的泛化能力,適用于施工現(xiàn)場(chǎng)工程需求的實(shí)時(shí)識(shí)別。該模型在一般場(chǎng)景條件視頻流的建筑工人與安全帽檢測(cè)準(zhǔn)確率在85.7%至93.7%之間。文獻(xiàn)[37]使用虛擬世界圖像集對(duì)YOLOv3進(jìn)行訓(xùn)練,所獲得的性能比僅使用少量真實(shí)圖像對(duì)現(xiàn)有網(wǎng)絡(luò)進(jìn)行微調(diào)以適應(yīng)當(dāng)前場(chǎng)景要高得多。文獻(xiàn)[38]研究了YOLO相關(guān)算法,建立基于YOLOv3的最優(yōu)模型,將深度殘差網(wǎng)絡(luò)技術(shù)與基于YOLOv3檢測(cè)算法的多尺度卷積特征相結(jié)合,結(jié)合多尺度檢測(cè)訓(xùn)練,調(diào)整訓(xùn)練過程中的損失函數(shù)。實(shí)驗(yàn)結(jié)果表明,在滿足檢測(cè)速度的前提下,提高了安全帽佩戴檢測(cè)精度。施輝等[39]基于圖像金字塔結(jié)構(gòu)改進(jìn)原模型,融合連接不同層次的特征圖,得到3組預(yù)測(cè)特征圖進(jìn)行預(yù)測(cè)。在安全帽佩戴檢測(cè)任務(wù)中,檢測(cè)準(zhǔn)確率達(dá)到了92.13%,檢測(cè)速率提高到62幀/s,均高于原模型,準(zhǔn)確率相對(duì)Faster R-CNN較差,但檢測(cè)速度大幅提升。林俊等[40]針對(duì)未佩戴安全帽單類檢測(cè)問題,修改了分類器,將輸出修改為18維度的張量?;赮OLOv3在ImageNet上的預(yù)訓(xùn)練模型,平均檢測(cè)速度達(dá)到了35幀/s,但在重疊目標(biāo)上會(huì)出現(xiàn)漏檢現(xiàn)象。楊莉瓊等[41]提出一種將YOLOv3與HOG、SVM相結(jié)合的安全帽檢測(cè)方法,該方法對(duì)建筑工地上的識(shí)別有較高的準(zhǔn)確率。文獻(xiàn)[42]在目標(biāo)維度聚類、多尺度檢測(cè)、密集連接三個(gè)方面優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)并提出基于OpenPose算法施工人員姿態(tài)估計(jì)輔助的安全帽佩戴檢測(cè)方法,在干擾測(cè)試集中仍取得90.2%的準(zhǔn)確率和86.8%的召回率。但人體姿態(tài)估計(jì)模型檢測(cè)時(shí)間相對(duì)較長(zhǎng)是作者之后需要解決的問題。文獻(xiàn)[43]以YOLOv3全回歸深度神經(jīng)網(wǎng)絡(luò)架構(gòu)為基礎(chǔ),利用Densenet在模型參數(shù)和技術(shù)成本上的優(yōu)勢(shì),代替YOLOv3網(wǎng)絡(luò)的主干進(jìn)行特征提取,形成YOLO-Densebackbone卷積神經(jīng)網(wǎng)絡(luò),改進(jìn)的算法檢測(cè)準(zhǔn)確率相對(duì)于原算法提高了2.44%。文獻(xiàn)[44]使用Kalman濾波和Hungarian匹配算法跟蹤人員軌跡,配合YOLOv3實(shí)現(xiàn)安全帽檢測(cè),獲得了18幀/s的檢測(cè)速度和89%的準(zhǔn)確率。文獻(xiàn)[45]提出了一種基于YOLOv3模型的新型自動(dòng)實(shí)時(shí)檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)崟r(shí)檢測(cè)未正確佩戴頭盔行為,且漏檢率低。
由于YOLO在定位精度上存在不足,提出SSD(Single Shot MultiBoxDetector)算法[46],采用VGG16作為基礎(chǔ)模型,增加了卷積層來獲取更多的特征圖,在此基礎(chǔ)上提出了特征金字塔結(jié)構(gòu),算法流程如圖7所示,輸入的圖片經(jīng)過CNN提取特征,抽取特征圖后生成錨框(default box),將生成的所有錨框都集合起來,置入到極大值抑制中,最后輸出結(jié)果。
圖7 SSD流程圖
在安全帽檢測(cè)領(lǐng)域研究中,文獻(xiàn)[47]采用谷歌發(fā)布的Inception模塊來替代原SSD中額外的VGG16層,同時(shí)改進(jìn)了SSD的輸出層,提高了SSD對(duì)視頻幀中小目標(biāo)的識(shí)別性能。文獻(xiàn)[48]分別訓(xùn)練了基于SSD的檢測(cè)模型,首先通過人臉識(shí)別檢測(cè)出現(xiàn)的人,再對(duì)行人區(qū)域進(jìn)行安全帽檢測(cè)。這種檢測(cè)方法在檢測(cè)準(zhǔn)確率與速度上都有很好的效果,使系統(tǒng)更具可靠性和實(shí)時(shí)性。李小偉[49]將SSD算法和Mobilenet網(wǎng)絡(luò)融合來獲得更加高效的目標(biāo)檢測(cè)網(wǎng)絡(luò),取得了mAP為89.4%的成績(jī)。文獻(xiàn)[50]為了更好地檢測(cè)小尺度的安全帽,將提出的逆向顯著檢測(cè)(RPA)集成到SSD框架中,將上下文信息有選擇地傳播回底層。實(shí)驗(yàn)結(jié)果表明,該模型在不同的輸入條件下均能獲得良好的性能。文獻(xiàn)[51]提出了改進(jìn)的Mobilenet-SSD模型作為目標(biāo)檢測(cè)模型,并對(duì)訓(xùn)練后的模型進(jìn)行了評(píng)價(jià),保證了模型的泛化。文獻(xiàn)[52]提出了一種有效的安全帽佩戴檢測(cè)系統(tǒng)。該系統(tǒng)基于SSD和一種新型的安全帽精密檢測(cè)模塊,并建立了一個(gè)適用于電站場(chǎng)景下的安全帽磨損檢測(cè)的圖像數(shù)據(jù)集。結(jié)果表明,該系統(tǒng)在檢測(cè)安全帽方面明顯優(yōu)于原始的SSD檢測(cè)器。并且檢測(cè)速度能達(dá)到21幀/s。
文獻(xiàn)[53]深入研究了現(xiàn)有的基于RCNN的兩階段檢測(cè)器與YOLO、SDD等單階段檢測(cè)器,發(fā)現(xiàn)類別不平衡是影響檢測(cè)效果的深層原因。對(duì)于單階段檢測(cè)器,這會(huì)導(dǎo)致分類器容易把生成的所有bbox歸類為背景,而原有的損失函數(shù)交叉熵?fù)p失(CE)容易導(dǎo)致分類器訓(xùn)練失敗,檢測(cè)準(zhǔn)確率較差。而兩階段檢測(cè)器檢測(cè)效果更好則是因?yàn)镽PN的錨點(diǎn)會(huì)進(jìn)行二分類,相對(duì)提高了準(zhǔn)確率,進(jìn)而提高了檢測(cè)精度??梢詫⒃扔?xùn)練回歸任務(wù)慣用的交叉熵誤差:
CE(pt)=-αtlog(pt)
(6)
改為FL(focal loss)來解決類別不平衡的問題。其中:
FL(pt)=-αt(1-pt)γlog(pt)
(7)
相比于原交叉熵誤差增加了權(quán)重系數(shù),使得類別少的檢測(cè)部分權(quán)重大幅提升,進(jìn)而提高了檢測(cè)精度。
RetinaNet本質(zhì)上是Resnet+FPN[54]+兩個(gè)FCN[55]子網(wǎng)絡(luò)。RetinaNet的流程圖如圖8所示。主干網(wǎng)絡(luò)作者使用ResNet-50與ResNet-101。同時(shí)使用FPN來強(qiáng)化ResNet中的多尺度特征,獲得具有較強(qiáng)尺度和信息的特征圖。最后在特征圖集合上,分別使用了兩個(gè)FCN子網(wǎng)絡(luò)來完成目標(biāo)框類別分類與位置回歸任務(wù)。
圖8 Retinanet流程圖
在安全帽檢測(cè)領(lǐng)域研究中,文獻(xiàn)[56]使用RetinaNet作為檢測(cè)算法,對(duì)快速移動(dòng)物體的安全帽佩戴情況進(jìn)行檢測(cè),在測(cè)試集上實(shí)現(xiàn)了72.3%的mAP,處理速度為14幀/s。
隨著近年來隨著深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測(cè)算法逐漸應(yīng)用到實(shí)際工程,安全帽識(shí)別的準(zhǔn)確率與檢測(cè)速度也有一定提升。所介紹的各檢測(cè)模型在VOC2007及COCO數(shù)據(jù)集上的檢測(cè)性能如表1所示??傮w來看,在現(xiàn)有的應(yīng)用于安全帽檢測(cè)的模型中,Retinanet的mAP最高,Tiny YOLO的檢測(cè)速度最快,而YOLOv3兼顧了檢測(cè)準(zhǔn)確率與速度,綜合性能較高。本節(jié)總結(jié)了一些亟待解決的問題并討論了未來安全帽檢測(cè)算法可能的研究方向。
表1 各目標(biāo)檢測(cè)算法的檢測(cè)性能
(1) 當(dāng)前檢測(cè)算法多數(shù)基于有監(jiān)督學(xué)習(xí),大量使用手動(dòng)標(biāo)記的特征,耗時(shí)耗力。且過于依賴訓(xùn)練數(shù)據(jù),使用現(xiàn)場(chǎng)安全帽佩戴檢測(cè)訓(xùn)練集訓(xùn)練出來的算法只針對(duì)單一場(chǎng)景,泛化能力較弱。
(2) 準(zhǔn)確率與檢測(cè)速度不能同時(shí)滿足使用條件,檢測(cè)精度高的模型檢測(cè)速度慢,如Retinanet,而檢測(cè)速度快的模型檢測(cè)精度低,如Tiny YOLO,無法既快又準(zhǔn)地滿足工程需求。
(3) 由于安全帽佩戴檢測(cè)需要對(duì)光線、陰天等不同環(huán)境適應(yīng)性強(qiáng),且不受人員遮擋及姿態(tài)影響,但當(dāng)前的檢測(cè)模型對(duì)小目標(biāo)、有重疊干擾等復(fù)雜場(chǎng)景的識(shí)別準(zhǔn)確率不夠,這導(dǎo)致在實(shí)際工程應(yīng)用上,安全帽佩戴檢測(cè)效果并不盡如人意。
(4) 深度學(xué)習(xí)憑借其深層網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)W習(xí)到復(fù)雜的特征,但如何準(zhǔn)確定位目標(biāo)位置仍是難點(diǎn),目前普遍采用的矩形框表示方法會(huì)包含一定量的背景區(qū)域,對(duì)施工現(xiàn)場(chǎng)等復(fù)雜場(chǎng)景并不完全適用。
(1) 無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。手動(dòng)繪制大量的邊界框非常耗時(shí),為了減輕這一負(fù)擔(dān),可以集成無監(jiān)督對(duì)象發(fā)現(xiàn)[57]、多實(shí)例學(xué)習(xí)[58]和深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[59],充分利用圖像級(jí)監(jiān)督,將對(duì)象類別標(biāo)簽分配到相應(yīng)的對(duì)象區(qū)域,細(xì)化對(duì)象邊界。此外,弱注釋[60]也有助于通過適當(dāng)?shù)淖⑨屌?shí)現(xiàn)高質(zhì)量的檢測(cè)器。
(2) 深度學(xué)習(xí)和在線學(xué)習(xí)的融合。安全帽檢測(cè)由于數(shù)據(jù)集不斷增長(zhǎng),其實(shí)質(zhì)上是一個(gè)在線學(xué)習(xí)問題。訓(xùn)練時(shí)如何避免陷入局部極小值、梯度消失等問題仍值得研究。
(3) 3D對(duì)象檢測(cè)。隨著三維傳感器(激光雷達(dá))的應(yīng)用,可以利用額外的深度信息更好地理解二維圖像,并將圖像級(jí)知識(shí)擴(kuò)展到現(xiàn)實(shí)世界。多視圖表示[61]和三維候選網(wǎng)絡(luò)[62]能獲得更好的邊界結(jié)果。文獻(xiàn)[63]構(gòu)建了一種新的3D目標(biāo)檢測(cè)算法(DSGN),檢測(cè)精度要高于其他模型10%以上。
(4) 記憶時(shí)間信息。跨幀的時(shí)間信息對(duì)于分析不同對(duì)象的行為起著重要的作用,使模型不僅包含當(dāng)前時(shí)間步長(zhǎng)輸入信息(幀),還包含以前時(shí)間步長(zhǎng)(幀)的激活值??梢允褂脮r(shí)空管[64]、光流法[65]和LSTM[66],從根本上對(duì)連續(xù)幀之間的對(duì)象關(guān)聯(lián)進(jìn)行建模。
本文對(duì)基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法在安全帽佩戴檢測(cè)領(lǐng)域的研究情況進(jìn)行了詳細(xì)的綜述,首先介紹了傳統(tǒng)的基于傳感器及基于圖像處理的安全帽檢測(cè)方法近年來發(fā)展情況,之后介紹了兩階段檢測(cè)(R-CNN、faster R-CNN、R-FCN)以及單階段檢測(cè)(YOLO、YOLOv2、YOLOv3、SSD、Retinanet)的算法流程和研究發(fā)展情況,最后對(duì)現(xiàn)階段檢測(cè)算法亟待解決的問題加以總結(jié),并提出了幾個(gè)未來有希望發(fā)展的方向。這篇綜述對(duì)深度學(xué)習(xí)在安全帽檢測(cè)領(lǐng)域的應(yīng)用和發(fā)展具有一定意義。