摘" 要:以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法可以更加精準(zhǔn)有效地提取人體行為特征,因此將深度學(xué)習(xí)用于人體行為識別與預(yù)測成為研究熱點。文章在經(jīng)典HRnet網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上通過改進L-Swish激活函數(shù)和引入Squeeze-and-Excitation模塊,提出一種新型網(wǎng)絡(luò)模型L-HRnet,用于判斷施工人員高空作業(yè)時的行為動作是否存在危險性。在公開數(shù)據(jù)集HMDB51上進行行為分類與識別實驗,結(jié)果表明,改進后網(wǎng)絡(luò)結(jié)構(gòu)L-HRnet的識別準(zhǔn)確率明顯優(yōu)于HRnet,有效提升了高空作業(yè)人員的防護水平。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);高空墜落;動作識別
中圖分類號:TP391.4" " 文獻標(biāo)識碼:A" 文章編號:2096-4706(2024)10-0017-04
A Method for Identifying High-altitude Falling Hazard Behavior Based on Deep Learning
NIE Cheng, YE Xiang, FANG Baili, SUN Jiaxing, ZHANG Tao
(Guangzhou Power Supply Bureau of Guangdong Power Grid Co., Ltd., Guangzhou" 510180, China)
Abstract: Deep Learning algorithms represented by Convolutional Neural Networks can extract human behavior features more accurately and effectively, applying Deep Learning to human behavior recognition and prediction has become a research hotspot. On the basis of the classic HRnet network structure, this paper proposes a new network model L-HRnet by improving the L-Swish activation function and introducing the Squeeze-and-Excitation module, which is used to determine whether the behavioral actions of construction worker during high-altitude operations are dangerous. Behavioral classification and recognition experiments are conducted on the public dataset HMDB51, and the results show that the improved network structure L-HRnet had significantly better recognition accuracy than HRnet, effectively improving the protection level of high-altitude workers.
Keywords: neural network; Deep Learning; high-altitude falling; action recognition
0" 引" 言
近年來,隨著我國經(jīng)濟的不斷發(fā)展,電力、建筑等基礎(chǔ)行業(yè)也迎來快速發(fā)展的新階段,但是高空作業(yè)安全事故發(fā)生率也是一路上揚。研究表明,高空作業(yè)時安全事故的發(fā)生主要取決于兩大因素:一是主觀因素[1-3],表現(xiàn)為工作人員的危險作業(yè)行為,比如疲勞作業(yè)、施工動作不規(guī)范、不佩戴安全帶等;二是客觀因素,取決于施工環(huán)境存在安全隱患,如腳手架桿松動、安全繩脫落等。
現(xiàn)有高空墜落的防范措施主要有墜落事件發(fā)生后的物理防護措施,比如:佩戴安全繩,使用腳手架、安全網(wǎng)、擋腳板等[4]。這些措施只能在危險發(fā)生后給予作業(yè)人員一定程度的保護,在危險預(yù)防方面無法發(fā)揮作用。為此,本文提出一種基于深度學(xué)習(xí)的高空作業(yè)人員動作識別方法,用于在判斷出作業(yè)人員存在危險動作時發(fā)出預(yù)警信號,預(yù)防危險的發(fā)生。本文方法作為高空作業(yè)人員安全防護措施的一種補充手段,一定程度上提高了工作人員的安全系數(shù)。
隨著深度學(xué)習(xí)的興起,神經(jīng)網(wǎng)絡(luò)[5]在特征提取、模式識別等方面表現(xiàn)出良好的性能。利用神經(jīng)網(wǎng)絡(luò)對人員行為特征進行檢測已被證實具有較高的可行性。人體行為檢測模型在2015年之前主要通過回歸方法[6]得到骨骼關(guān)鍵點坐標(biāo),但實驗效果不夠理想。主要原因有兩點:一是人體行為具有多變靈活性,二是回歸模型的遷移性較差,難以應(yīng)用于未被訓(xùn)練過的人體行為數(shù)據(jù)識別。因此,目前普遍采用的過渡處理方法是將人體行為識別看作檢測問題,從而獲得人體行為檢測熱點圖。2016年,Wei等人提出一種用于人體姿勢估計的深度學(xué)習(xí)模型—CPM [7],該模型的核心思想是通過多層次的CNN架構(gòu)逐步細化姿勢估計,每一層都專注于預(yù)測一組關(guān)鍵關(guān)節(jié)點的位置。通過在多個尺度上對圖像進行處理,捕捉不同尺度下的姿勢信息,從而提高預(yù)測準(zhǔn)確性。雖然CPM模型能有效解決遮擋問題,但卻為了降低計算復(fù)雜度而損失了圖片精度,高分辨率特征有所弱化。為了解決圖片分辨率低的問題,Sun等人[8]提出一種高分辨率網(wǎng)絡(luò)—HRnet,該網(wǎng)絡(luò)能夠在數(shù)據(jù)流通的整個網(wǎng)絡(luò)鏈路中保持高分辨率,極大地提高了圖像識別的準(zhǔn)確度,但同時也帶來了參數(shù)量增大、運行速度降低的問題。
為了解決上述問題,本文在HRnet神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過引入Squeeze-and-Excitation模塊,使用改進后的激活函數(shù)L-Swish等策略,提出一種改進的網(wǎng)絡(luò)結(jié)構(gòu)L-HRnet,并將其應(yīng)用于高空作業(yè)人員危險行為識別之中,用以判斷作業(yè)人員是否存在危險行為,進而發(fā)出預(yù)警信號預(yù)防危險的發(fā)生。
1" 網(wǎng)絡(luò)架構(gòu)改進
本文提出的網(wǎng)絡(luò)模型在HRnet網(wǎng)絡(luò)模型結(jié)構(gòu)的基礎(chǔ)上做了進一步的改進。HRnet模型作為一種面向高分辨率人體姿勢估計任務(wù)的網(wǎng)絡(luò)架構(gòu),通過使用一種稱為“分階段融合”的策略,確保不同分支之間的信息共享和融合[9],不僅保留了高分辨率特征,還通過多分支的設(shè)計來融合不同尺度的信息,能夠在不損失細節(jié)的情況下提高姿勢估計的準(zhǔn)確性。本文提出的改進模型,在保持該模型精度的前提下采用深度可分離卷積[10],引入Squeeze-and-Excitation(SE)模塊[11],極大地減少了網(wǎng)絡(luò)參數(shù)量進而縮小模型體積,提高了運行速度。同時使用改進后的L-Swish激活函數(shù)來進一步提升模型精度。
1.1" Squeeze-and-Excitation模塊引入
SE模塊可根據(jù)目標(biāo)損失函數(shù)loss去學(xué)習(xí)、構(gòu)建特征權(quán)重,最終使特征圖的有效性與權(quán)重值呈正相關(guān)。這種訓(xùn)練方式進一步提高了模型的精度。
如圖1所示,F(xiàn)tr為傳統(tǒng)的卷積結(jié)構(gòu),X和U分別為Ftr的輸入(C′×H′×W′)和輸出(C×H×W)。與一般卷積神經(jīng)網(wǎng)絡(luò)不同的是,SE模塊是通過Squeeze(擠壓)、Excitation(激勵)與Scale(重標(biāo)定)等步驟來重新標(biāo)定原先獲得的特征,具體如下所述:
1)Squeeze。對應(yīng)圖1中的Fsq(·)操作。這一步驟中SE模塊執(zhí)行全局池化(通常是全局平均池化),以對特征圖每個通道的信息進行壓縮。這使得特征圖的尺寸從(H、W、C)縮減為(1、1、C),其中H和W分別為特征圖的高度和寬度,C為通道數(shù)量。這一步旨在獲取每個通道的全局信息,以便為稍后的調(diào)整做好準(zhǔn)備。
2)Excitation。對應(yīng)圖1中的Fex(·,W)。在此步驟中,SE模塊通過一系列的全連接層(通常包括一個隱藏層和一個激活函數(shù)(如ReLU))來學(xué)習(xí)每個通道的權(quán)重或重要性。這些權(quán)重表示每個通道對于特定任務(wù)的貢獻程度。Excitation操作將生成的權(quán)重向量應(yīng)用于原始特征圖,以調(diào)整每個通道的響應(yīng)。
3)Scale。對應(yīng)圖1中的Fscale。通過逐通道的縮放操作來重新加權(quán)特征圖。具體來說,它將每個通道的權(quán)重乘以原始特征圖中的對應(yīng)通道。這會使具有更高權(quán)重的通道對后續(xù)網(wǎng)絡(luò)層的輸出產(chǎn)生更大的影響,從而更好地捕捉特定任務(wù)所需的信息。
SE模塊允許網(wǎng)絡(luò)動態(tài)學(xué)習(xí)每個通道的權(quán)重,以適應(yīng)特定任務(wù)的需求,從而提高網(wǎng)絡(luò)的性能。這種注意力機制的有效性在各種計算機視覺任務(wù)(包括圖像分類、對象檢測和語義分割)中得以證明。SE模塊通常嵌入到深度卷積神經(jīng)網(wǎng)絡(luò)的不同層中,以增強網(wǎng)絡(luò)的表示能力。
1.2" SE模塊算法
如圖1所示,首先Ftr是轉(zhuǎn)換操作,輸入輸出的定義如下:
那么,F(xiàn)tr的表達式如式(1)所示:
Ftr操作得到的U就是圖1中左邊第二個三維矩陣,也叫張量Tensor,或者叫C個大小為H×W的特征圖,而uC表示U中第C個二維矩陣,下標(biāo)C表示通道。
然后將結(jié)果輸入Squeeze,實質(zhì)上就是執(zhí)行全局平均池化操作:
通過此操作可將輸入C×H×W轉(zhuǎn)換成多個尺寸為1×1×C的輸出,也就是得到了該層的C個全局特征圖信息。
最后通過式(3)實現(xiàn)Excitation操作:
從上述計算式可以看出,Excitation操作其實是由兩個全連接組成的。第一個全連接就是將上一步的Squeeze輸出z乘上權(quán)重W1,其中權(quán)重W1的維度是C/(r×C)。參數(shù)r的目的是減少通道個數(shù)從而降低計算量。又因為z的維度是1×1×C,所以W1z的結(jié)果為1×1×C/r;然后再經(jīng)過一個ReLU層,輸出的維度保持不變。
第二個全連接則是第一個全連接的輸出結(jié)果和權(quán)重W2相乘,W2的維度為C×C/r,所以輸出結(jié)果的維度為1×1×C;最后再經(jīng)過Sigmoid函數(shù)得到s。s的維度為1×1×C,C為通道數(shù)目,用來刻畫向量U中C個特征圖的權(quán)重。而且這個權(quán)重是通過前面這些全連接層和非線性層學(xué)習(xí)得到的,因此可以進行端到端訓(xùn)練。
這兩個全連接層的作用就是融合各通道的特征圖信息,因為前面的Squeeze都是在某個通道的特征圖里面操作的。最后,通過計算式(4)對初始向量U進行通道乘法操作,即圖1中的Fscale過程:
其中,uc為二維矩陣,sc為權(quán)重值。本文將SE模塊引入HRnet網(wǎng)絡(luò),以進一步提升算法的精度。
1.3" 激活函數(shù)設(shè)計
雖然ReLU激活函數(shù)具有收斂速度快的優(yōu)點,但是其強制的稀疏處理會減少模型的有效容量(特征屏蔽太多,導(dǎo)致模型無法學(xué)習(xí)到有效特征)[12]。使用ReLU作為激活函數(shù)極易出現(xiàn)梯度消失、梯度爆炸或輸出不是零中心化的問題,不利于網(wǎng)絡(luò)模型的訓(xùn)練學(xué)習(xí)。實驗表明,Swish [13]激活函數(shù)是一種比ReLU更優(yōu)的非線性激活函數(shù),避免了ReLU函數(shù)x小于0時梯度為0的情況,如計算式(5)所示:
其中,β為常數(shù)或可訓(xùn)練的參數(shù),Swish具有無上界有下屆、平滑、非單調(diào)的特性。但是相比于ReLU,因為它含有Sigmoid函數(shù),計算更為復(fù)雜。為進一步提高模型運算精度,降低它的計算開銷,使用分段函數(shù)L-Sigmoid(如計算式(6)所示)模擬Sigmoid函數(shù),對比效果圖如圖2所示。
其中α = 0.01,改進后Swish函數(shù)如計算式(7)所示:
圖2為Sigmoid與L-Sigmoid兩種激活函數(shù)的對比圖。
圖3為Swish與L-Swish兩種激活函數(shù)的對比圖。
考慮到應(yīng)用非線性激活函數(shù)的成本問題,在模型設(shè)計中,本文將L-Swish應(yīng)用于并行低分辨率子網(wǎng)絡(luò)中。
2" 改進后的L-HRnet
本文提出的網(wǎng)絡(luò)結(jié)構(gòu)L-HRnet是在原網(wǎng)絡(luò)結(jié)構(gòu)HRnet的Bottleneck部分引入SE模塊,并在原網(wǎng)絡(luò)最后的分支融合階段使用改進后的L-Swish激活函數(shù)。圖4為改進后的L-HRnet網(wǎng)絡(luò)結(jié)構(gòu)圖
為了充分了解所提模型的性能,本文采用HMDB51 [14]數(shù)據(jù)集訓(xùn)練L-HRnet模型,將HMDB51中51類動作統(tǒng)一分為危險動作與安全動作兩類,輸入圖片尺寸為256×256×3,然后以高分辨率子網(wǎng)為第一階段,逐步增加高分辨率到低分辨率的子網(wǎng),形成新的階段,并將多分辨率子網(wǎng)并行連接,引入跨并行子網(wǎng)的交換單元,使每個子網(wǎng)能夠重復(fù)接收來自其他并行子網(wǎng)的信息,最后通過Softmax分類器將圖片分為兩類輸出人體動作。
3" 實驗結(jié)果與分析
本實驗采用PyTorch,Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20 GHz架構(gòu),GPU采用Nvidia Titan X Pascal。在公開數(shù)據(jù)集上使用L-HRnet網(wǎng)絡(luò)模型進行人體動作關(guān)鍵點檢測,檢測結(jié)果如圖5所示。實驗結(jié)果驗證了L-HRnet模型在人體動作關(guān)鍵點檢測方面的精確性。
為了對本文所改進網(wǎng)絡(luò)進行有效驗證,在HMDB51數(shù)據(jù)集上分別用HRnet網(wǎng)絡(luò)模型和改進后的L-HRnet網(wǎng)絡(luò)模型進行人體動作識別分類測試實驗。分別對兩種網(wǎng)絡(luò)模型的識別準(zhǔn)確率、運算速度、參數(shù)量進行測試比較,測試結(jié)果如表1所示,實驗結(jié)果表明,改進后L-HRnet網(wǎng)絡(luò)模型的參數(shù)量更小,運算速度更快,實現(xiàn)了輕量化的目標(biāo),同時識別準(zhǔn)確率也略有提升。
4" 結(jié)" 論
本文在人體動作識別任務(wù)方面,在HRnet的基礎(chǔ)上提出了改進的深度卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)L-HRnet,并利用改進后的網(wǎng)絡(luò)模型在HMDB51數(shù)據(jù)集上進行測試,取得了95.6%的識別準(zhǔn)確率。目前深度卷積神經(jīng)網(wǎng)絡(luò)算法已成功應(yīng)用于圖像識別、圖片分割等領(lǐng)域,但若要部署在建筑行業(yè),需要首先解決實驗所需建筑工人危險動作數(shù)據(jù)集的采集、攝像頭的部署,以及模型運行計算資源的消耗問題,執(zhí)行起來有一定的困難。在建筑行業(yè)的應(yīng)用場景中,對模型的精度和實時性要求較高,雖然本文所提方案在運算速度和精度上有所改善,但距離實際應(yīng)用還有一段距離。故今后將在模壓縮方面做進一步的深入研究。
參考文獻:
[1] 王文翔.建筑施工安全管理中高處墜落的原因及預(yù)防措施 [J].散裝水泥,2021(3):41-43+46.
[2] 仇昕.建筑安全事故發(fā)生原因分析及控制措施 [J].建筑與預(yù)算,2022(5):37-39.
[3] 劉昊東.建筑工程安全事故成因分析與預(yù)測 [J].四川建材,2023,49(5):241-243.
[4] 周元昊.高處墜落事故的原因和預(yù)防對策 [J].建筑施工,2023,45(2):431-433.
[5] KRICHEN M. Convolutional Neural Networks: A survey [J/OL].Computers,2023,12(8)[2023-09-15].https://doi.org/10.3390/computers12080151.
[6] 方升,梁飛豹,劉勇進.統(tǒng)計回歸模型及其優(yōu)化算法綜述 [J].福州大學(xué)學(xué)報:自然科學(xué)版,2021,49(5):638-654.
[7] WEI S E,RAMAKRISHNA V,KANADE T,et al. Convolutional Pose Machines [C]//.2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:4724-4732.
[8] SUN K,XIAO B,LIU D,et al. Deep High-Resolution Representation Learning for Human Pose Estimation [J/OL].arXiv:1902.09212v1 [cs.CV].[2023-09-10].https://arxiv.org/abs/1902.09212.
[9] 石洋宇,左景,謝承杰,等.多尺度融合與FMB改進的YOLOv8異常行為檢測方法 [J].計算機工程與應(yīng)用,2024,60(9):101-110.
[10] ZHANG T,LI S,F(xiàn)ENG G Q,et al. Local Channel Transformation for Efficient Convolutional Neural Network [J].Signal, Image and Video Processing,2022,17(1):129-137.
[11] ZHANG Y P,WU G C. Temporal Squeeze-and-Excitation Networks for Skeleton-Based Action Recognition [C]//2023 5th International Conference on Industrial Artificial Intelligence (IAI). Shenyang:IEEE,2023:1-6.
[12] VARGAS V M,GUTIéRREZ P A,BARBERO-GóMEZ J,et al. Activation Functions for Convolutional Neural Networks: Proposals and Experimental Study [J].IEEE Transactions on Neural Networks and Learning Systems,34(3):1478-1488.
[13] 米碩,田豐收,孫瑞彬,等.Swish激活函數(shù)在中小規(guī)模數(shù)據(jù)集上的性能表現(xiàn) [J].科技創(chuàng)新與應(yīng)用,2018(1):4-5.
[14] KUEHNE H,JHUANG H,GARROTE E,et al. HMDB: A Large Video Database for Human Motion Recognition [J].2011 International Conference on Computer Vision. Barcelona:2011:2556-2563.
作者簡介:聶程(1995—),男,漢族,江西宜春人,運維工程師,工學(xué)碩士,主要研究方向:輸電線路運行與維護;葉翔(1984—),男,漢族,江西上饒人,工程師,工學(xué)碩士,主要研究方向:輸電線路運維、安全管理;方百里(1992—),男,漢族,廣東揭陽人,工程師,工學(xué)學(xué)士,主要研究方向:輸電線路安全管理;孫嘉興(1986—),男,漢族,遼寧丹東人,工程師,工學(xué)碩士,主要研究方向:輸電線路安全管理;張?zhí)希?984—),男,漢族,江蘇南通人,運維工程師,工學(xué)學(xué)士,主要研究方向:輸電生產(chǎn)運維技術(shù)。