郭師虹,井錦瑞,張瀟丹,秦曉暉
(西安建筑科技大學 土木工程學院,陜西 西安 710055)
建筑施工中,往往存在不同類型的施工和作業(yè)風險,時刻威脅著施工人員的人身安全。例如,高處墜落、物體打擊、坍塌、起重傷害、其他傷害等。其中,2014—2018年間,高處墜落事故占建筑施工事故總數的51.52%;物體打擊事故占建筑施工事故總數的13.89%[1]。因此,建筑施工人員必須正確使用個人防護用品,尤其是佩戴安全帽。安全帽可以保護頭部免受高處墜物對頭部的沖擊力,減輕頭部在重壓下受到的損傷,從而保護工作人員在危機時刻的生命安全[2]。目前對安全帽佩戴的檢測仍然主要依靠施工現(xiàn)場管理人員的檢查,繁瑣且耗時。針對這一情況,迫切需要更加經濟有效的方式使該過程自動化,進一步減輕施工受傷和死亡的風險,進而提供一個更安全的工作環(huán)境。
在建筑領域,利用機器學習和多信息融合技術可以實現(xiàn)施工過程的自動化[3]。其中,機器視覺技術被證明可以快速、方便地從建筑工地采集相關數據,如檢測、定位和跟蹤施工人員和設備,但相關研究仍處于起步階段。在現(xiàn)有的施工安全檢測系統(tǒng)中,仍存在較多不足,可分為2類,一類是識別速度慢且錯誤率偏高;另一類則是沒有考慮到不同外界因素對系統(tǒng)造成的影響,例如方向、顏色、背景對比度、圖像分辨率和現(xiàn)場照明強度等因素[4]。
為了解決上述問題,本文提出1種輕量化的安全帽佩戴檢測系統(tǒng),該系統(tǒng)可以在移動設備端進行部署,如筆記本電腦,可大大降低系統(tǒng)實現(xiàn)條件,有利于現(xiàn)場的實時監(jiān)控,既可節(jié)省人工成本,又可提高現(xiàn)場安全性。
目前對于安全帽佩戴檢測的研究可分為基于傳感器的檢測方法、基于傳統(tǒng)圖像處理的識別方法和基于計算機視覺的檢測方法。
基于傳感器的檢測方法主要依靠定位技術來定位工人和安全帽。Kelm等[5]設計了1種移動射頻識別門戶,安裝于建筑工地入口,用于檢查施工人員的個人防護用品(PEE)是否符合規(guī)定。Barro-Torres等[6]介紹了1種信息物理系統(tǒng)(CPS),用來實時監(jiān)控施工人員是否穿戴個人防護用品,施工人員佩戴的傳感器不是位于施工現(xiàn)場的入口,而是集成在工人的衣服中進行持續(xù)監(jiān)控。Dong等[7]使用具有虛擬建筑技術的定位系統(tǒng)來跟蹤工人,判斷工人的當前狀態(tài)是否應該佩戴安全帽并發(fā)送警告。壓力傳感器放置在安全帽中,通過收集和存儲壓力信息來判斷安全帽是否佩戴,然后通過藍牙傳輸進行監(jiān)視和響應。此外,藍牙設備使用一段時間后需要充電,這增加了大量的后期工作,不利于該技術的長期使用。
通常,現(xiàn)有的基于傳感器的檢測和跟蹤技術受限于每個建筑工人,工人必須穿著物理標簽或傳感器,并且需要對硬件設備進行大量的前期投資,包括物理標簽或傳感器。同時,許多工人出于健康和隱私方面的考慮,不愿佩戴此類跟蹤設備。
蔡利梅等利用安全帽的外部形象特性信息建立安全帽模型,用于解決復雜環(huán)境下礦井視頻的安全帽識別[8],但需要采集具有準確外部特征才能匹配。劉曉慧、葉西寧采用膚色檢測的方法定位到人臉區(qū)域,并以此獲得臉部以上的區(qū)域圖像,并將神經網絡和支持向量機(SVM)2種分類模型進行比較,證明SVM對安全帽的識別效果更好[9]。馮國臣等提出利用混合高斯模型進行前景檢測,通過對連通域的處理判斷其是否屬于人體,最后定位人體頭部區(qū)域實現(xiàn)安全帽的自動識別[10],但是其方法對不同工人姿態(tài)的魯棒性較差。上述的這些方法需要施工工人在工作過程中面對監(jiān)控攝像頭采集正臉區(qū)域時才能識別面部特征。而在建筑施工過程中,工人因工種不同,姿態(tài)也有所不同,不能時刻保證正臉朝向監(jiān)控攝像頭。
通過對國內外基于傳統(tǒng)圖像處理的安全帽識別研究進行總結概括,目前已有研究的識別方法不適用于具有獨特性、動態(tài)性、雜亂的建筑施工現(xiàn)場環(huán)境,在實際施工現(xiàn)場表現(xiàn)較差。此外,需構建大量的樣本特征庫,耗時長且效率低。
近幾年,將計算機視覺方法應用于施工安全檢測已成為趨勢。楊莉瓊等利用YOLOv3算法對圖像中人臉的區(qū)域進行定位,然后根據人臉與安全帽的關系估算出安全帽的潛在區(qū)域,再利用HOG進行特征提取,利用SVM分類器來判斷是否佩戴安全帽[11]。趙平等提出1種基于YOLO-BP神經網絡的古建筑修繕階段火災監(jiān)測方法[12],使用YOLO算法檢測火源和可燃物,BP神經網絡的應用增強了系統(tǒng)的自學習能力,提高了系統(tǒng)的檢測精度。李華等使用Faster RCNN算法進行改進,增加錨點來改善系統(tǒng)對于小目標的檢測能力[13],使系統(tǒng)在遠距離檢測場景下對小目標的檢測能力擁有更好的表現(xiàn)。
與其他算法相比,YOLOv4[14]在檢測速度和精度上的表現(xiàn)更適合在實際部署中使用。谷歌提出的MobileNet輕量化網絡結構,推動系統(tǒng)向移動端部署,如手機或筆記本電腦。因此,本文將MobileNetV3網絡與YOLOv4網絡進行結合,提出改進的YOLOv4輕量級模型用于建筑工人安全帽佩戴的檢測,使沒有很好計算能力的設備也可以擁有較高的檢測速度和識別精度,進而滿足施工現(xiàn)場的要求。
2020年Rachel Huang等提出了YOLO-LITE模型[15],這是1個實時的物體檢測模型,旨在創(chuàng)建1個更小、更快、更高效的模型,可以在便攜式設備上(筆記本電腦或手機)擁有更好的性能。
本文基于這一思想,采用谷歌提出的MobileNet模型來代替YOLOv4的主干特征提取網絡,并且為了進一步減少模型的參數量提高檢測速度,使用深度可分離卷積代替YOLOv4中用的普通卷積。
本文基于Tensorflow框架對施工人員佩戴安全帽行為進行檢測,采集的8 000張圖像的數據集可以使模型在訓練時避免過擬合情況發(fā)生,并且提高模型的識別精度。對于采集到的數據集,使用LabelImg軟件對圖片進行標注,標注出目標在圖片中所在位置及類別。
在模型訓練時,首先需要將圖片進行預處理,并且提取預處理后圖片中標記目標的所在區(qū)域,輸入到改進的YOLOv4網絡中進行特征提取,最后輸出模型權重文件用于佩戴安全帽的實時檢測。
在進行實時檢測時,首先調用監(jiān)控攝像頭視頻,將視頻流以截取圖像幀的形式輸入到構建好的網絡中進行識別,識別具有特定特征值的區(qū)域,并用方框標記出識別到的特征值區(qū)域,最后將輸出的圖像幀轉化為視頻流,達到實時檢測的效果。模型訓練及檢測流程見圖1。
圖1 佩戴安全帽行為檢測流程Fig.1 Detection procedure for behavior of wearing safety helmet
若想提高模型的識別精度,需加深模型網絡的結構深度,采集更為精確的特征圖譜,但這樣會對模型的識別速度產生影響;反之,若提高模型的識別速度,需簡化模型的結構,提高速度,但會對識別精度產生影響。為找到這一矛盾的折中點,本文借鑒YOLO-LITE中提出的思想,將YOLOv4的主干特征提取部分的CSPdarknet53網絡替換為MobileNetV3網絡,在簡化網絡模型結構、降低參數量的同時,也保證一定的識別精度,使模型又快又準。
MobileNetV3結合了前2代V1和V2的優(yōu)點,將MobileNetV1的深度可分離卷積層和MobileNetV2的線性瓶頸逆殘差結構(the inverted residual with linear bottleneck)進行結合,并且加入了輕量級的注意力模型,調整每個通道的權重。將深度可分離卷積層作為傳統(tǒng)卷積層的有效替代,可以把空間濾波與特征生成機制分離開來,有效地分解傳統(tǒng)卷積,降低計算量。
在簡化模型結構的同時,為了更進一步提升模型的識別精度,在訓練模型時依然選擇YOLOv4提出的Mosaic數據增強方法,每次提取4張圖片,分別對4張圖片進行翻轉、縮放、色域變化等,并且按照4個方向位置進行組合生成新的訓練圖片。這種數據增強方法的一個巨大優(yōu)點是豐富檢測物體的背景,提高模型的魯棒性。Mosaic數據增強后的圖片如圖2所示。
圖2 Mosaic數據增強后的圖片F(xiàn)ig.2 Images after Mosaic data enhancement
采用CIoU損失函數。CIoU考慮到了3個幾何因素:1)重疊面積;2)中心點距離;3)長寬比。CIoU損失函數公式定義如式(1)所示:
(1)
式中:IoU為交并比,用來反映預測檢測框與真實檢測框的檢測效果;b,bgt分別代表了預測框和真實框的中心點;ρ代表計算2個中心點間的歐式距離;c代表能夠同時包含預測框和真實框的最小閉包區(qū)域的對角線距離;α為權重參數;v是用來衡量長寬比的相似性的參數。α和v表達式如式(2)~(3)所示:
(2)
(3)
式中:ωgt和hgt分別表示真實框的寬和高;ω和h分別表示預測框的寬和高。
本文構建的改進的YOLOv4整體結構如圖3所示。
圖3 YOLOv4—MobileNetV3網絡結構Fig.3 YOLOv4-MobileNetV3 network structure
為了評估模型的性能,本文從準確性、速度和魯棒性3個方面進行評估。
1)準確性:模型的準確性也可稱為識別精度,主要對輸入圖像中施工工人是否佩戴安全帽進行準確的判定。這里我們采用精確度(Precision)和召回率(Recall)來對模型的識別精度進行評估。為了闡明精確度的含義,首先介紹TP(True Positive)、FP(False Positive)和FN(False Negative)的定義。TP代表預測結果正確;FP代表錯將其他類分為本類;FN代表將本類錯分為其他類。
精確度可以理解為在所有預測結果是正樣本中,實際也是正樣本的比例,如式(4)所示:
(4)
召回率可以理解為在所有實際是正樣本結果中,預測也是正樣本結果的比例,如式(5)所示:
(5)
由于精確度未考慮分類器將正樣本分為負樣本的情況,召回率未考慮分類器將負樣本分為正樣本的情況,考慮到這個局限性。在得到其中1個標簽的Precision-Recall曲線的基礎上,計算每個Recall值相對應的Precision值的平均,得到該標簽的AP(Average Precision)值。
獲取全部標簽的AP值后,計算全部標簽的平均AP值,得到mAP(Mean Average Precision)。如式(6)所示:
(6)
式中:k為標簽的總數。
2)速度:速度是指將1幅圖片輸入到網絡中進行運算,得到預測結果所用的時間。在進行視頻驗證時,用每秒傳輸幀數(FPS)來體現(xiàn)模型的速度。
3)魯棒性:對于本文提出模型的魯棒性研究,主要考慮模型對于外界干擾因素的容忍度。在驗證時,將采集到的驗證集分為室內和室外2類情況,其次在驗證室外情況時,又根據不同的環(huán)境、光照條件將室外驗證集按不同天氣、不同光照程度進行詳細的劃分,分別進行驗證。
為驗證本文提出的輕量級YOLOv4模型可在移動端設備擁有較好的性能表現(xiàn),訓練模型和模型測試階段均在筆記本電腦上進行,硬件條件為:Intel(R)Core(TM) i5-8300 @2.30GHz,8G運行內存,NVIDIAGeForce GTX 1050。
通過網絡下載和現(xiàn)場拍攝,采集8 000張圖片作為模型訓練的數據集,使用LabelImg對圖片進行標注,標注出目標在圖片中所在位置及類別。對于佩戴安全帽的正樣本標記為:helmet,對于未佩戴安全帽的負樣本標記為:person。標記結果如表1所示。在訓練時,將數據集90%用于訓練,10%用作驗證。
表1 模型訓練數據集標記結果Table 1 The label results of the training data set
為了評價該安全帽佩戴識別系統(tǒng)性能,選取洛陽市地鐵系統(tǒng)建設項目的某段實際施工現(xiàn)場作為案例研究,該項目的現(xiàn)場人員構成復雜且數量較多,分別歸屬于不同的參與方,管理難度較大。本文從5個不同建筑工地采集到600張施工人員圖像和60條施工視頻作為驗證集,對改進的YOLOv4的性能進行評估。根據建筑工地不同的視覺條件對圖像進行分類,驗證該算法在不同外界環(huán)境下的性能。
模型在數據集上進行訓練時,將數據集的90%用于模型訓練,10%用于模型驗證。經過驗證,該模型的mAP達到83.96%,如表2所示。
表2 改進的YOLOv4模型驗證結果Table 2 Verification results of improved YOLOv4 model
為了體現(xiàn)該模型在識別速度和識別精度上的提升,本文還采用目前主流的算法框架,如:YOLOv4、YOLOv4-tiny和Faster RCNN,分別在制作的數據集上進行訓練,然后從FPS、mAP值、精確度和召回率進行對比,如表3所示。改進的YOLOv4模型與原YOLOv4模型相比,速度提高了3.4倍,mAP值僅降低了5.38%,符合提高模型識別速度的同時保證良好的識別精度的條件。與同為輕量級網絡的YOLOv4-tiny相比,F(xiàn)PS雖然不及,但mAP值提高了28%。Faster RCNN在移動設備端的FPS僅為2幀/s,不具備實時監(jiān)控的條件,因此不再進行模型性能驗證。
表3 不同模型的對比Table 3 Comparison of different models
根據模型對比結果可以看出,改進后的YOLOv4同時擁有較好的識別精度和速度,滿足本文提出的又快又準的想法。與其他識別精度相近的模型相比,速度有很大的優(yōu)勢;與速度相近的模型相比,識別精度有很大的優(yōu)勢。
在驗證時,從施工現(xiàn)場通過現(xiàn)場采集的方式,采集圖片和現(xiàn)場視頻來對模型進行評估??紤]到不同的外界因素會對模型的識別結果產生不同程度的影響,按室內和室外將采集到的圖片和視頻進行分類,并將室外的驗證集按不同時間段和不同天氣進行分類,分別進行評估驗證。
3.3.1 室內驗證
室內通常擁有較好的視覺條件,照明強度也能夠保持一個比較平穩(wěn)的水平,這為目標識別創(chuàng)造了比較理想的環(huán)境。本文在洛陽地鐵站內進行現(xiàn)場圖像采集,地鐵站內照明強度適中,外界干擾因素少,有助于該模型的運行。經過驗證,該模型的識別正確率高達98.69%,錯誤率為1.32%,漏檢率為11.63%,檢測結果如圖4所示。
圖4 室內圖像幀識別示例Fig.4 Example of indoor image frame recognition
3.3.2 室外驗證
對室外施工環(huán)境的適用程度是驗證該模型的主要因素,在現(xiàn)場驗證時,需著重考慮不同室外環(huán)境對該模型產生的影響。根據不同的施工視覺條件,在驗證時,將驗證集根據不同的時間段和不同的天氣進行劃分,進行分別驗證,實驗結果如表4所示。
表4 不同情況下的檢測結果Table 4 Detection results under different conditions
1)時間段的影響
施工現(xiàn)場的工作時間為早上8點到下午6點。由圖5可以看出,下午4點到下午6點的光照強度較弱,白天光照強度最強,上午10點下午4點為峰值,下午4點以后光照逐漸減弱。將圖像幀分為5類,如圖5,以2 h為1個時間段,共5個時間段進行驗證,以測試光照對識別正確率、錯誤率以及漏檢率的影響,檢測結果如表4所示。由表4可知,本文模型對于不同時間段的檢測均保持在很高的正確率,能夠在不同的時間段擁有較高的檢測性能。
圖5 不同時間段下圖像幀識別示例Fig.5 Examples of image frame recognition in different time periods
2)天氣的影響
建筑工地主要暴露在室外環(huán)境中,受到自然條件的影響顯著。因此,天氣的變化會影響監(jiān)控視頻的質量。如圖6所示,本文考慮3種常見的天氣類型,圖6(a)為晴天;圖6(b)為霧天;圖6(c)為多云,驗證結果如表4所示。下雨和嚴重的霧霾不包括在內,因為此類天氣往往會導致工作暫停。根據驗證結果,本文模型對于不同天氣的識別正確率均在91%以上,識別錯誤率保持在很低的數值,可以應用在常見的天氣環(huán)境中。
圖6 不同天氣下圖像幀識別示例Fig.6 Examples of image frame recognition in different weather conditions
1)將改進的YOLOv4與YOLOv4、YOLOv4-tiny和Faster RCNN相比,改進的YOLOv4的mAP較YOLOv4降低了5%,但是識別速度提高了3.4倍。與同為輕量級模型的YOLOv4-tiny相比,mAP提高了28%。這一改進在提高檢測速度的同時,也保證了較好的識別精度,且可以在移動設備端擁有良好的性能,大大降低現(xiàn)場部署的條件,降低計算成本,有利于現(xiàn)場實時監(jiān)控,改善現(xiàn)場施工人員的安全管理環(huán)境,促進自動檢測系統(tǒng)的推廣應用。
2)從室內和室外分別對檢測效果進行驗證,又進一步將室外環(huán)境按照不同光照條件因素分為不同時間段和不同天氣分別進行驗證。結果表明,本文模型對于不同的施工環(huán)境均擁有很高的識別正確率,對施工人員是否佩戴安全帽取得良好的識別效果,且可以保持較高的運行速度。
3)下一步研究將致力于將本文提出的安全帽檢測過程集成到一個完整的安全檢查框架中,使該框架能夠在檢測到危險行為時,迅速、有效且合理地向監(jiān)控端發(fā)出安全警告,提高現(xiàn)場施工安全。