摘 要:采用人工智能技術(shù)對采掘工作面工人工作行為進行實時識別,確保采掘過程安全,并減少因不安全行為導致的事故,對保障安全采掘生產(chǎn)具有重大意義。本文提出了一種基于改進YoloV5和SlowFast的采掘工作人員不安全行為檢測算法。針對井下黑暗、灰霾的情況,通過融合CLAHE(對比度限制自適應直方圖均衡化)和雙邊濾波方法,對導入視頻進行光照增強和去噪處理。對YoloV5目標檢測模型的骨干和頭部網(wǎng)絡(luò)進行輕量化改進,以提高模型推理速度,并融合Detectron2算法對工作環(huán)境進行語義分割,實現(xiàn)對工作人員的跟蹤鎖定與精確識別,降低了環(huán)境干擾。通過改進的SlowFast網(wǎng)絡(luò)分析人體骨骼關(guān)鍵點的動態(tài)變化,實現(xiàn)對不安全行為的有效識別。實驗結(jié)果表明:該算法對攀爬、躺倒、玩手機、無人監(jiān)管4種不安全行為的識別平均準確率達到92.3%,為采掘工作安全管理提供了有力的技術(shù)支持。
關(guān)鍵詞:計算機視覺;采掘安全;目標檢測;姿態(tài)估計;行為識別
中圖分類號:TD76"""""" 文獻標識碼:A""""""" 文章編號:2095-9699(2024)06-0032-08
當前,礦山采掘工作的智能化和無人化水平仍較低,導致人員傷亡事故時有發(fā)生[1]。盡管采掘技術(shù)和安全保護措施都在不斷提升,采掘工作人員的不安全行為仍然是引發(fā)事故的重要原因之一[2-3]。在較惡劣的礦井采掘工作環(huán)境下,仍然未對采掘工人不安全行為進行有效的預警、監(jiān)測和分析,給事故發(fā)生埋下了安全隱患。
隨著科技的不斷發(fā)展,降低煤礦生產(chǎn)安全隱患,推進智慧礦山建設(shè)已經(jīng)迫在眉睫。在此背景下,人工智能技術(shù)在礦井人員行為識別中得到逐步應用[4-5]。通過對3D-Attention行為識別算法的改進,李占利等[6]完成了對煤礦井下工人的跑、跳等不安全行為的識別,但其檢測行為較為簡單且單一。劉浩等
[7]采用OpenPose神經(jīng)網(wǎng)絡(luò)提取人體骨骼關(guān)鍵點,并將提取的骨骼信息輸入時空圖卷積網(wǎng)絡(luò)(ST-GCN)以實現(xiàn)行為識別,從而檢測出多種井下工人的不安全行為,然而在不安全行為的分類和說明上存在不足。溫廷新等[8]提出基于遷移學習和深度殘差網(wǎng)絡(luò)的圖像識別方法用于煤礦工人不安全行為的分類和識別,但對復雜動作的識別率較低。
綜上所述可知,圖像特征的行為識別方法在礦山采掘場景中得到了應用,但仍面臨以下挑戰(zhàn):①環(huán)境因素:礦山場景復雜多變,塵埃與黑暗等因素對不安全行為識別造成干擾;②算法限制:常見算法實時性低,檢測精度不夠,無法及時準確識別和預警不安全行為[9-10]。
針對上述問題,本文基于YoloV5[11]和SlowFast網(wǎng)絡(luò)對采掘工作人員不安全行為檢測算法進行了改進,綜合考慮了工作人員的姿態(tài)與時序特征。首先,對輸入的視頻進行光照增強和去噪處理,以緩解塵埃和光照帶來的問題;接著,改進YoloV5的骨干和頭部網(wǎng)絡(luò)以實現(xiàn)輕量化,從而提高模型推理速度和實時性;然后,融合Detectron2[12]算法對工作環(huán)境進行語義分割,確保對采掘工作人員的精確跟蹤和人體骨架特征的識別,以降低環(huán)境干擾;最后,改進SlowFast網(wǎng)絡(luò)分析人體骨骼關(guān)鍵點的動態(tài)變化,實現(xiàn)對采掘工作人員不安全行為的有效識別,并進行實驗研究。
1 采掘工作人員不安全行為識別框架
在采掘工作期間,工作人員經(jīng)常出現(xiàn)攀爬、躺倒、玩手機和無人監(jiān)管等不安全行為[1-3]。這些行為給采掘工作帶來了較大的安全隱患,容易引發(fā)礦業(yè)安全與環(huán)保問題。因此,本文主要針對這四種不安全行為進行識別和分析。
圖1為采掘工作人員不安全行為識別流程圖。首先,通過攝像頭實時攝錄采掘工作人員工作環(huán)境,并對視頻進行光照增加和降噪處理,以獲得清晰的視頻數(shù)據(jù);接下來,利用YoloV5算法進行對象識別,包括識別采掘工作人員、工作環(huán)境及其狀態(tài);在YoloV5算法檢測的基礎(chǔ)上,再利用Detectron2算法提升檢測精度,以應對惡劣環(huán)境的挑戰(zhàn),Detectron2還用于對每個人體目標進行姿態(tài)估計,精確定位每個人的人體骨骼關(guān)鍵節(jié)點,確保這些信息滿足行為識別網(wǎng)絡(luò)的質(zhì)量要求;最后,應用SlowFast行為識別算法,對采掘工作人員動作進行識別,并將其分類判別,當檢測到不安全行為時,系統(tǒng)將發(fā)出警告提醒,以減少安全事故的發(fā)生。
2 采掘工作人員不安全行為識別方法
2.1 利用CLAHE和雙邊濾波改善圖像質(zhì)量
對比度限制自適應直方圖均衡化(Contrast Limited Adaptive Histogram Equalization,CLAHE)[13]和雙邊濾波(Bilateral Filtering)[14]是兩種用于改善圖像質(zhì)量的技術(shù),各有其獨特的特點。CLAHE通過對比度受限的自適應直方圖均衡化來增強圖像的局部對比度。CLAHE將圖像劃分為多個小塊(tiles),并在每個小塊內(nèi)應用直方圖均衡化,同時對直方圖的峰值進行裁剪(clip limit),從而避免過度增強噪聲。然后,采用雙線性插值方法平滑小塊之間的邊界,確保圖像的整體一致性。這種方法能夠有效提升圖像細節(jié)和視覺效果,使得圖像在亮度和對比度上更加均衡。
雙邊濾波不僅考慮像素之間的空間距離,還考慮像素值的差異,從而解決高斯濾波造成的邊緣模糊問題。通過這種雙重加權(quán)的方式,使雙邊濾波在去除噪聲的同時,保留了圖像細節(jié)和邊緣信息。它對相似顏色的像素進行加權(quán)平均,減少噪聲,且不會模糊圖像中的重要結(jié)構(gòu)。
通過將CLAHE和雙邊濾波結(jié)合使用,可以充分發(fā)揮兩者的優(yōu)勢,實現(xiàn)圖像的光照增強和降噪。首先,通過CLAHE對圖像進行處理,增強局部對比度,使得圖像在亮度和細節(jié)上更加清晰,該方法能夠顯著改善圖像的視覺效果,尤其是在光照條件不理想的情況下;然后,應用雙邊濾波對增強后的圖像進行降噪處理,這樣可以有效去除由于CLAHE增強過程可能帶來的噪聲,同時保留圖像的邊緣細節(jié),顯著降低黑暗、塵埃等環(huán)境因素對人員不安全行為檢測的影響。
2.2 基于YoloV5和Detectron2融合的實時檢測模型
通過融合YoloV5的快速檢測和Detectron2的精細分割,可以在評估過程中獲得更全面的性能指標,適用于需要高精度的應用場景。圖2展示了YoloV5與Detectron2融合后的對象檢測模型架構(gòu)。
上半部分為YoloV5模型架構(gòu),其包括三個主要部分:首先,骨干網(wǎng)絡(luò)(Backbone)負責從輸入圖像中提取特征,它通常由多個卷積層(Conv)和殘差塊(C3)組成,這些層和塊能夠逐層提取并融合圖像中的特征信息;其次,頸部網(wǎng)絡(luò)(Neck)采用特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu),通過上采樣(upsample)和連接操作將來自不同層次的特征圖組合在一起,這樣可以形成具有豐富語義信息的特征圖,從而增強模型對多尺度對象的檢測能力;最后,檢測頭(Head)部分由一系列卷積層和特征融合操作組成,最終輸出三個不同尺度(80×80,40×40,20×20)的特征圖,這些特征圖用于預測不同大小對象的邊界框和類別信息。此外,在檢測過程中引入了空間金字塔池化(SPPF)模塊,通過多尺度池化操作進一步增強對多尺度對象的檢測能力。
下半部分為Detectron2的模型架構(gòu),其是一個模塊化系統(tǒng),包括多個關(guān)鍵組件:首先是特征提取的主干(Backbone),負責從輸入圖像中提取高層次特征并輸出特征P2、P3、P4、P5、P6;然后是用于生成候選區(qū)域的RPN(Region Proposal Network),它在主干Backbone的特征圖上滑動窗口,通過分類和回歸預測每個窗口是否包含物體及其邊界框;隨后是處理候選區(qū)域的ROIHeads。ROIHeads包含多個分支:BoxHead(邊界框回歸和分類),負責對每個ROI進行分類,并精確調(diào)整邊界框位置,其中分類(class)指預測每個ROI所包含的對象類別,邊界框回歸(bbox)指對每個ROI進行邊界框位置回歸,精細調(diào)整其邊界框坐標;MaskHead(實例分割)用于實例分割任務,它對每個ROI 生成像素級的分割掩碼;分割掩碼預測(Mask)指對于每個ROI,生成分割掩碼,表示對象在該區(qū)域內(nèi)的像素位置。KeypointHead(關(guān)鍵點檢測)用于關(guān)鍵點檢測任務,對每個ROI 生成關(guān)鍵點的坐標;關(guān)鍵點預測(Keypoint)指對每個ROI預測多個關(guān)鍵點的位置,通常用于姿態(tài)估計等任務。
2.3 人體骨骼關(guān)鍵點提取
人體骨骼關(guān)鍵點檢測是通過人體姿態(tài)估計算法,從輸入圖像中提取骨骼關(guān)鍵點的坐標位置信息來實現(xiàn)的。如圖3所示,COCO(Common Objects in Context)數(shù)據(jù)集定義的人體的17個骨骼關(guān)鍵點及其對應位置名稱。人體姿態(tài)估計算法主要分為兩種,即自底向上和自頂向下,其各有優(yōu)缺點。自底向上方法直接檢測圖像中的所有骨骼關(guān)鍵點,通過聚類將同一人體的骨骼關(guān)鍵點關(guān)聯(lián)起來,生成每個人體目標的骨架,由于無需先檢測人體目標,因此檢測速度較快,但準確性不如自頂向下方法。自頂向下方法首先檢測圖像中的人體目標,確定每個人的位置,然后再進行姿態(tài)估計,以定位其骨骼關(guān)鍵點位置,故該方法檢測速度會受到一定影響,但具有較高的檢測準確性。為了達到更高的準確性,本文采用自頂向下的姿態(tài)估計算法,首先通過YoloV5算法檢測采掘工作面環(huán)境和目標,然后通過Detectron2算法加強檢測結(jié)果,并精確定位每個人的位置坐標,接著對每個人體目標進行姿態(tài)估計,準確定位其骨骼關(guān)鍵點位置,從而提高人體骨骼關(guān)鍵點檢測的精度,更好地滿足行為識別網(wǎng)絡(luò)對人體骨骼關(guān)鍵點質(zhì)量的要求。
2.4 利用SlowFast模型進行行為識別分類
圖4所示,為改進后SlowFast模型架構(gòu)圖,SlowFast網(wǎng)絡(luò)主要由兩個相對獨立的網(wǎng)絡(luò)分支組成:低幀速率和低時間分辨率運行的慢路徑(Slow Path)和高幀速率和高時間分辨率運行的快速路徑(Fast Path)。這兩個路徑分別處理視頻的不同時間尺度,從而有效地捕捉視頻中的慢速和快速變化。
Slow Path處理的是低幀率的視頻輸入,它的主要目的是捕捉視頻中的慢速動態(tài)變化,因此它使用較高的空間分辨率和較深的網(wǎng)絡(luò)層,以確保能夠提取到豐富的空間和時間特征。輸出生成高層次的特征表示,用于進一步的動作識別。
Fast Path處理的是高幀率的視頻輸入。它的主要目的是捕捉視頻中的快速動態(tài)變化,因此它使用較低的空間分辨率和較淺的網(wǎng)絡(luò)層,以快速處理高幀率數(shù)據(jù),輸出生成時間分辨率較高的特征表示,捕捉快速運動信息??焖俾窂降臅r間分辨率是α(α通常是8)倍慢路徑,但通道數(shù)是β(β通常是1/16)慢路徑,最后將兩條路徑橫向連接,實現(xiàn)快慢路徑的融合,以整合不同時間尺度的信息。
以站立行為為例,用SlowFast模型完成行為檢測的過程如下:導入實時站立行為視頻數(shù)據(jù),首先對輸入視頻進行幀抽取,從視頻片段中按一定的間隔抽取幀,然后按要求分別導入至慢路徑和快路徑中,通過這兩種路徑提取視頻特征信息,接著再將不同特征信息進行融合,根據(jù)提取的特征進行動作分類,輸出預測結(jié)果,最后將輸出的動作結(jié)果可視化,顯示在視頻上。
3 實驗結(jié)果與分析
3.1 圖像處理結(jié)果分析
PSNR(Peak Signal-to-Noise Ratio)為峰值信噪比,是衡量圖像重建質(zhì)量的指標,表示原始圖像與壓縮或處理后圖像之間的信噪比。SSIM(Structural Similarity Index)為結(jié)構(gòu)相似性指數(shù),是衡量兩幅圖像相似度的指標,旨在更好地模擬人眼對圖像質(zhì)量的感知。兩者數(shù)值越高表示圖像重建質(zhì)量越好。由表1可以看出,經(jīng)不同圖像處理技術(shù)后,得到不同的圖像影響數(shù)據(jù)。其中,雙邊濾波和CLAHE技術(shù)的結(jié)合顯著提升了圖像質(zhì)量,PSNR達到45.87 dB,SSIM達到0.988 3。
3.2 人員檢測模型性能分析
為了有效評估模型性能,采用常見評價指標mAP(mean Average Precision)對模型進行評估,具體計算方式如公式1,其中,m是類別數(shù),APi是第i個類別的平均精度。其中mAP@0.5表示IOU(Intersection over Union,交并比)設(shè)為0.5時,計算每一類所有照片的精度,然后求平均,而mAP@0.5:0.95表示在不同IOU閾值(從0.5到0.95,步長0.05)上的平均精度。其數(shù)值越高,則表明模型越好。
mAP=∑Mi=1APiM(1)
為了驗證改進的YoloV5-Detectron2模型融合的優(yōu)勢,筆者基于公開數(shù)據(jù)集COCO進行對比實驗,并與原YoloV5模型進行比較。如圖5所示,前20次迭代呈震蕩態(tài)勢,但經(jīng)過20次迭代后,模型精確率穩(wěn)步上升。YoloV5-Detectron2模型的mAP@0.5最終穩(wěn)定在0.615附近,且mAP@0.5:mAP@0.95最終穩(wěn)定在0.390附近。與原YoloV5模型對比,經(jīng)融合改進后,該模型在性能上顯著優(yōu)于原YoloV5,并且提升幅度較大。
3.3 人員檢測模型消融實驗分析
為評估該YoloV5-Detectron2模型融合后的性能,對該模型進行消融實驗,數(shù)據(jù)如表2所示。結(jié)果表明,融合后的模型得到了顯著優(yōu)化,mAP@0.5有所提高,同時推理速度有所提升,兼具了兩種算法的優(yōu)點。
3.4 不安全行為檢測模型性能分析
使用公開行為識別數(shù)據(jù)集Kinetics-600對改進后的SlowFast模型進行了評估。Kinetics-600數(shù)據(jù)集是一個大規(guī)模且高質(zhì)量的行為識別數(shù)據(jù)集,其涵蓋了600個人類動作類別,每個動作類別至少有600個視頻片段,單個視頻片段持續(xù)時間約為10 s,并標有單個動作類別標簽,總計達480 000個視頻片段,專門用于視頻中人體動作識別。本文采用的不安全行為檢測模型性能測試結(jié)果如表3所示。結(jié)果表明,該不安全行為檢測模型的精確率達92.3%,處于較高水平。
4 實際應用場景實例
為驗證檢測效果,本研究選取懸臂式掘進機工作面為實驗背景,對工人行為進行識別和檢測,具體檢測行為如表4所示,其中,站立和行走為安全行為,攀爬、躺倒、玩手機及無人監(jiān)管為不安全行為。
按照表4中所列行為類別順序,分別驗證其在正常光照條件和黑暗條件下的檢測情況,工人不安全行為檢測效果如圖6所示。結(jié)果表明,該算法能在正常光照條件下,準確識別工人行為,即使在黑暗條件下,檢測精度稍有下降,但仍能對工人行為進行識別,完成既定任務。
5 總結(jié)
(1)通過融合CLAHE和雙邊濾波兩種圖像處理技術(shù),顯著改善了視頻圖像的視覺效果,使其在黑暗和塵埃環(huán)境下的檢測能力得到提升。
(2)對YoloV5算法進行改進,并融合了Detectron2算法,提高了人體關(guān)鍵節(jié)點檢測的精度,在原有基礎(chǔ)上提升了3個百分點。
(3)在正常光照條件和黑暗條件下的行為識別實驗結(jié)果表明,基于YoloV5和SlowFast融合后的檢測算法可對攀爬、躺倒、玩手機和無人監(jiān)管四種不安全行為進行識別,平均識別精確率達92.3%。
參考文獻:
[1]黃輝,張雪. 煤礦員工不安全行為研究綜述[J]. 煤炭工程,2018,50(6):123-127.
[2]丁恩杰,俞嘯,夏冰,等.礦山信息化發(fā)展及以數(shù)字孿生為核心的智慧礦山關(guān)鍵技術(shù)[J]. 煤炭學報,2022,47(1):564-578.
[3]李國清,王浩,侯杰,等.地下金屬礦山智能化技術(shù)進展[J].金屬礦山,2021(11):1-12.
[4]吳愛祥,王勇,張敏哲,等.金屬礦山地下開采關(guān)鍵技術(shù)新進展與展望[J].金屬礦山,2021(1):1-13.
[5]沈銘華,馬昆,楊洋,等. AI智能視頻識別技術(shù)在煤礦智慧礦山中的應用[J]. 煤炭工程,2023,55(4):92-97.
[6]李占利,權(quán)錦成,靳紅梅. 基于3D-Attention與多尺度的礦井人員行為識別算法[J]. 國外電子測量技術(shù),2023,42(7):95-104.
[7]劉浩,劉海濱,孫宇,等. 煤礦井下員工不安全行為智能識別系統(tǒng)[J]. 煤炭學報,2021,46(增刊2):1159-1169.
[8]溫廷新,王貴通,孔祥博,等. 基于遷移學習與殘差網(wǎng)絡(luò)的礦工不安全行為識別[J]. 中國安全科學學報,2020,30(3):41-46.
[9]王宇,于春華,陳曉青,等.基于多模態(tài)特征融合的井下人員不安全行為識別[J].工礦自動化,2023,49(11):138-144.
[10]韓康,李敬兆,陶榮穎.基于改進YOLOv7和ByteTrack的煤礦關(guān)鍵崗位人員不安全行為識別[J].工礦自動化,2024,50(3):82-91.
[11]Qiu S, Li Y, Zhao H, et al. Foxtail Millet Ear Detection Method Based on Attention Mechanism and Improved YOLOv5[J]. Sensors, 2022, 22(21): 8206-8206.
[12]Singh R, Shetty S, Patil G, et al. Helmet Detection Using Detectron2 and EfficientDet[C] //2021 12th International Conference on Computing Communication and Networking Technologies (ICCCNT). 2021: 1-5.
[13]Chakraverti S, Agarwal P, Pattanayak HS, et al. De-noising the image using DBST-LCM-CLAHE: A deep learning approach[J]. Multimedia Tools and Applications, 2024, 83(4): 11017-11042.
[14]Lv H, Shan P, Shi H, et al. An adaptive bilateral filtering method based on improved convolution kernel used for infrared image enhancement[J]. Signal, Image and Video Processing, 2022, 16(8): 2231-2237.
責任編輯:肖祖銘
Design and Integration of Algorithm for Detecting Unsafe Behaviors of Mining Workers
XU Jichan1,2, LI Jiayuan2
(1Cooperative Innovation Center for Intelligent Mining Technology and Equipment, Anhui University of Science and Technology, Huainan 232001, China;
2School of Mechatronic Engineering, Anhui University of Science and Technology, Huainan 232001, China)
Abstract:Using artificial intelligence technology to identify workers' unsafe behaviors in mining workfaces in real-time can ensure the safety of mining operations and reduce safety accidents caused by workers' unsafe behaviors. It has great significance for ensuring safe mining production. This paper proposes an unsafe behavior detection algorithm for mining workers based on the improved YoloV5 and SlowFast. To deal with the dark and hazy conditions in underground mines, the proposed algorithm fuses the CLAHE and bilateral filtering methods to enhance the lighting and noise reduction of the input video. The YoloV5 object detection model skeleton and head network are lightweight optimized, improving the model inference speed. The Detectron2 algorithm is fused to perform semantic segmentation of the work environment, achieving tracking and locking of workers, and accurately identifying the human skeleton features, reducing environmental interference. Through the improved SlowFast network, the dynamic changes of the key points of human skeleton are analyzed to realize the effective identification of unsafe behaviors. The experimental results show that the algorithm has an average accuracy of 92.3% for the identification of four unsafe behaviors of climbing, lying down, playing with mobile phones and unsupervised, which provides strong technical support for the safety management of mining operation.
Keywords: computer vision; mining safety; target detection; attitude estimation; behavior recognition
基金項目:安徽理工大學礦山智能技術(shù)與裝備省部共建協(xié)同創(chuàng)新中心開放基金項目( CICJMITE202205)
作者簡介:許吉禪(1988—),男,安徽岳西人,副教授,博士,主要從事機電一體化系統(tǒng)設(shè)計研究。