亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)目標(biāo)檢測(cè)算法在變電站內(nèi)安全管控的應(yīng)用

2022-12-22 11:48:04吳宏毅雷景生陳林鋒楊勝英

計(jì)算機(jī)工程與應(yīng)用 2022年24期

吳宏毅，雷景生，陳林鋒，楊勝英

浙江科技學(xué)院信息與電子工程學(xué)院，杭州 310000

電力系統(tǒng)的安全、平穩(wěn)運(yùn)行，關(guān)系到國(guó)家安全和經(jīng)濟(jì)的發(fā)展，變電站作為電力系統(tǒng)的重要一環(huán)，有必要確保變電站長(zhǎng)期安全可靠地運(yùn)行。然而在變電站實(shí)際生產(chǎn)作業(yè)，人員巡檢維護(hù)過(guò)程中，因?yàn)樽鳂I(yè)人員安全意識(shí)缺乏，忽視電力系統(tǒng)規(guī)章制度，出現(xiàn)各種各樣的違章作業(yè)行為。在變電站作業(yè)場(chǎng)景中未規(guī)范佩戴安全帽和未穿著工作服是普遍的違章行為，對(duì)作業(yè)人員和電力設(shè)備都會(huì)造成極大的安全隱患。

隨著人工智能的發(fā)展，運(yùn)用深度學(xué)習(xí)方法和計(jì)算機(jī)視覺(jué)技術(shù)自動(dòng)檢測(cè)變電站作業(yè)人員是否佩戴安全帽并提供反饋，對(duì)安全生產(chǎn)至關(guān)重要[1]。近年來(lái)，安全帽佩戴檢測(cè)取得了一定發(fā)展。在傳統(tǒng)領(lǐng)域，F(xiàn)eng等[2]在圖像預(yù)處理的基礎(chǔ)上，利用高斯混合模型分離圖像前景和背景，通過(guò)連通域檢測(cè)進(jìn)行人體的判別，對(duì)人體的頭部進(jìn)行定位并判斷安全帽的佩戴情況。該方法實(shí)現(xiàn)了安全帽的自動(dòng)檢測(cè)，但算法的操作復(fù)雜且對(duì)復(fù)雜的場(chǎng)景下檢測(cè)的準(zhǔn)確率不高。Dahiya等[3]首先采用背景減法和目標(biāo)分割檢測(cè)出騎車的人，之后結(jié)合方向梯度直方圖（his‐tograms of oriented gradients，HOG）、尺度不變特征變換（scale invariant feature transform，SIFT）和局部二值制模式（local binary patterns，LBP），訓(xùn)練一個(gè)二分類的分類器用以判斷安全帽的佩戴情況。該方法雖然檢測(cè)準(zhǔn)確率較高，且檢測(cè)速度快，但若檢測(cè)場(chǎng)景發(fā)生變化，則需要重新設(shè)計(jì)模型框架。

目前，基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法發(fā)展迅速，現(xiàn)有的目標(biāo)檢測(cè)算法主要分有兩種，分別是基于區(qū)域建議網(wǎng)絡(luò)的two-stage方法和無(wú)區(qū)域建議網(wǎng)絡(luò)的one-stage方法。2015年Girshick等[4-6]分別提出了Fast R-CNN和Faster R-CNN，其中Faster R-CNN改進(jìn)了R-CNN的暴力檢測(cè)提出了區(qū)域候選網(wǎng)絡(luò)（RPN）達(dá)到了較好的檢測(cè)效果，但基于候選區(qū)域方法的計(jì)算復(fù)雜度高，故該方法的檢測(cè)幀率只能達(dá)到5 FPS。He等[7]提出了Mask R-CNN，通過(guò)并行預(yù)測(cè)框和掩碼，得到檢測(cè)的最新結(jié)果。在one-stage目標(biāo)檢測(cè)算法中Redmon等[8-10]提出YO‐LOv1-v3，Liu等[11]提出了SSD多尺度檢測(cè)算法，取得了一定的效果，算法的基本思想是使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)不用的目標(biāo)的類別和位置，這種方法計(jì)算量少，檢測(cè)速度快，在視頻檢測(cè)上達(dá)到了45 FPS。對(duì)比one-stage和two-stage目標(biāo)檢測(cè)算法可以發(fā)現(xiàn)one-stage的目標(biāo)檢測(cè)算法在檢測(cè)速度上要明顯優(yōu)于two-stage的算法，但在小目標(biāo)的檢測(cè)精度上要略遜于two-stage。因此，在安全帽檢測(cè)領(lǐng)域人們?cè)谒俣群途确矫鏅?quán)衡考慮下采用one-stage的目標(biāo)檢測(cè)算法。Wang等[12]提出了一種安全帽佩戴的實(shí)時(shí)檢測(cè)方法（命名為CSYOLOv3），但其在速度及精度上表現(xiàn)并不優(yōu)秀。Li等[13]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的工程管理中深度學(xué)習(xí)的安全帽檢測(cè)方法，該方法在圖像不清晰，如安全帽太小、太模糊時(shí)，檢測(cè)性能較差。

綜上，傳統(tǒng)安全帽檢測(cè)算法優(yōu)勢(shì)在于參數(shù)量小，計(jì)算速度快，但實(shí)現(xiàn)主要基于復(fù)雜的模型設(shè)計(jì)，需要大量人工設(shè)計(jì)特征，對(duì)實(shí)際光照條件，圖像質(zhì)量的要求較高。因此傳統(tǒng)的安全帽檢測(cè)方法，特征提取不具備魯棒性，泛化能力較差?；谏疃葘W(xué)習(xí)的安全帽檢測(cè)算法，雖然在一定程度上增強(qiáng)了模型的泛化能力，當(dāng)目前安全帽檢測(cè)模型都只將安全帽檢測(cè)任務(wù)分為兩個(gè)類別：佩戴和未佩戴安全帽兩個(gè)類別。在實(shí)際變電站巡檢場(chǎng)景安全規(guī)范中工作人員不僅需要佩戴安全帽，還要穿著長(zhǎng)袖工作服。因此，上述論著并不完全適用變電站工作場(chǎng)景。

針對(duì)變電站特定場(chǎng)景，制作了安全帽工作服數(shù)據(jù)集，解決了在變電站場(chǎng)景中只能針對(duì)人員安全帽進(jìn)行檢測(cè)的檢測(cè)內(nèi)容不完善的問(wèn)題。同時(shí)，雖然通用的目標(biāo)檢測(cè)算法在公共數(shù)據(jù)集上表現(xiàn)良好，然而在復(fù)雜的變電站場(chǎng)景下，如變電站中大多數(shù)監(jiān)控場(chǎng)景是廣域監(jiān)視，拍攝到需要檢測(cè)的目標(biāo)物體，易出現(xiàn)密集且尺度小、分辨率較低、像素模糊等情況，容易導(dǎo)致漏檢現(xiàn)象。另外，變電站內(nèi)設(shè)備繁多，部署大型算力服務(wù)器設(shè)備成本較高，而一般目標(biāo)檢測(cè)算法的計(jì)算量龐大需要大型設(shè)備支持，使其很難在移動(dòng)設(shè)備上部署。能在移動(dòng)設(shè)備上運(yùn)行輕量級(jí)的檢測(cè)網(wǎng)絡(luò)能有效降低使用成本。因此，本文提出了TinyDet針對(duì)變電站特定場(chǎng)景的自建數(shù)據(jù)集平衡了檢測(cè)的精度和算法復(fù)雜度。為了降低參數(shù)數(shù)量和運(yùn)算量的同時(shí)提高檢測(cè)效率，構(gòu)建了輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)back‐bone并同時(shí)使用Transformer[14]作為模型的頸部?；赮OLOv3的YOLOv3-tiny是一種應(yīng)用嵌入式平臺(tái)的輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)，但其檢測(cè)精度較低。在目前較強(qiáng)單階段的目標(biāo)檢測(cè)，如FCOS[15]、ATSS[16]等，模型一般會(huì)包括三個(gè)預(yù)測(cè)輸出，目標(biāo)的分類表示，檢測(cè)框表示和檢測(cè)框的質(zhì)量估計(jì)。在上述模型的訓(xùn)練過(guò)程中，分類和檢測(cè)框的質(zhì)量估計(jì)是分開(kāi)訓(xùn)練的，在測(cè)試階段卻是相乘在一起作為非極大值抑制（non-maximum suppression，NMS）的排序依據(jù)，這種操作顯然是沒(méi)有端到端，存在一定的間隙[17]。影響了模型訓(xùn)練效果，導(dǎo)致了數(shù)據(jù)擬合效果差。因此，使用了質(zhì)量焦點(diǎn)損失函數(shù)（quality focal loss，QFL）作為檢測(cè)模型的預(yù)測(cè)頭部，解決目標(biāo)檢測(cè)模型中預(yù)測(cè)的分類分?jǐn)?shù)和IOU分?jǐn)?shù)在訓(xùn)練和測(cè)試中不一致的問(wèn)題，進(jìn)一步提升模型的檢測(cè)精度。根據(jù)以上幾點(diǎn)工作，設(shè)計(jì)出輕量級(jí)的目標(biāo)檢測(cè)模型在變電站人員安全管控場(chǎng)景得到了較好的檢測(cè)效果。

1 輕量級(jí)目標(biāo)檢測(cè)算法

本文采用Anchors-free的目標(biāo)檢測(cè)算法策略，如圖1所示，使用輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)ShuffleNetv2[18]提取圖像特征信息，配合Transformer的編碼器進(jìn)一步提取圖像高級(jí)語(yǔ)義信息。將QFL作為預(yù)測(cè)頭部解決訓(xùn)練與測(cè)試時(shí)推理不一致給模型訓(xùn)練結(jié)果帶來(lái)的影響。

1.1 輕量級(jí)特征提取網(wǎng)絡(luò)

對(duì)于圖像特征提取任務(wù)，選擇ShuffleNetv2，因?yàn)槠湓谒俣群途戎g進(jìn)行了權(quán)衡。選擇ShuffleNetv2的通道乘數(shù)為×1，如表1的輸出通道欄所示。選擇此通道乘數(shù)是基于其在ImageNet數(shù)據(jù)集[19]上的精度和速度結(jié)果達(dá)到較好的平衡。但是，也可以選擇較低的輸出通道乘數(shù)作為超參數(shù)的值，以通過(guò)犧牲精度的方式來(lái)實(shí)現(xiàn)更快的推理時(shí)間。反之，通過(guò)提高通道乘數(shù)增加參數(shù)量來(lái)提高精度，便會(huì)相應(yīng)地消耗更多的時(shí)間推理。

表1 輕量級(jí)特征提取網(wǎng)絡(luò)主干結(jié)構(gòu)Table 1 Lightweight feature extraction backbone network

圖1輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Lightweight object detection network architecture

圖2 中詳細(xì)顯示了特征提取網(wǎng)絡(luò)結(jié)構(gòu)的模塊單元。每一級(jí)由一個(gè)空間下采樣單元和若干個(gè)基本單元組成。如圖2（a）所示為網(wǎng)絡(luò)基本單元，使用“Channel Split”“Channel Shuffle”“Concat”來(lái)實(shí)現(xiàn)不同通道間的信息交換。而空間下采樣單元?jiǎng)t是通過(guò)調(diào)節(jié)卷積核的步長(zhǎng)來(lái)實(shí)現(xiàn)特征圖尺度的變化，當(dāng)步長(zhǎng)設(shè)置為2，輸入下采樣單元的特征圖尺度減少為原來(lái)的一半。

圖2 輕量級(jí)特征提取網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)Fig.2 Lightweight feature extraction network infrastructure

采用長(zhǎng)寬為320×320的RGB圖像作為模型的輸入特征，通過(guò)輕量級(jí)特征提取網(wǎng)絡(luò)ShuffleNetv2將輸入特征采樣至原始圖像尺寸的1/32，以便于提取圖像中的高級(jí)語(yǔ)義信息。同時(shí)，也將表1中所展示的Stage2、Stage3、Stage4中三階段不同尺度的輸出特征圖作為頸部結(jié)構(gòu)Transformer的輸入。以實(shí)現(xiàn)對(duì)不同尺度目標(biāo)的特征信息的保留，提升模型的精度。

1.2 Transformer編碼

輸入圖像ximg∈3為RGB色彩通道，H、W為圖像的高、寬）經(jīng)過(guò)輕量級(jí)特征提取網(wǎng)絡(luò)Shuffle‐Netv2，生成三個(gè)階段低分辨率特征圖。將三個(gè)階段不同尺度的特征圖按通道維度合并成特征圖f∈C=812,H0=H/16,W0=W/16)。將特征圖經(jīng)過(guò)1×1卷積將高水平特征圖f的通道維度降低成128維，生成的特征圖z0∈Transformer的編碼階段需要序列作為輸入，因此特征圖z0的空間維度壓縮成一個(gè)維度，即結(jié)果為d×H0W0。每個(gè)編碼層都有一個(gè)標(biāo)準(zhǔn)的體系結(jié)構(gòu)，并由多頭自注意力模塊和前饋網(wǎng)絡(luò)（FFN）組成。

由于圖像數(shù)據(jù)的像素值之間是有位置信息的，將特征圖的空間維度壓縮成一個(gè)維度便會(huì)丟失圖像本有的位置信息。因此，為了保留位置信息則需要加上位置編碼。因?yàn)閳D像是2-D特征，所以位置編碼需要考慮圖像寬和高兩個(gè)方向上的編碼才更符合圖像的特點(diǎn)。位置編碼的輸出張量與Transformer結(jié)構(gòu)輸入序列維度一致，即d×H0W0。其中d代表位置編碼的長(zhǎng)度，前d/2維代表H0方向上的編碼，后d/2維代表W1方向上的編碼。將此位置編碼與序列化的特征圖z0相加后輸入編碼器。

由圖3所示，圖像特征序列分別以fq、fk、fv矩陣形式輸入編碼器，其中fq、fk需要加上位置編碼，然后進(jìn)入多頭自注意力機(jī)制（multi-head self-attention）。d維特征M個(gè)頭部的多頭注意力機(jī)制的一般簡(jiǎn)化形式如下：

圖3 Transformer編碼器結(jié)構(gòu)圖Fig.3 Transformer encoderarchitecture

其中，fq為長(zhǎng)度HW的查詢序列，fk、fv分別為長(zhǎng)度HW的鍵值序列，都有相同的d維特征；T是計(jì)算所謂查詢、鍵和值嵌入的權(quán)重張量，L則是個(gè)映射矩陣。輸出的特征大小與查詢序列一致。

多頭注意力機(jī)制就是直接將M個(gè)頭部的輸出合并，然后乘上映射矩陣L得到最終輸出。其中通常會(huì)采用殘差連接，dropout和layer normalization的方式。總的表示形式如下：

原始的Transformer是交替使用所謂的FFN層和多頭注意力，F(xiàn)FN實(shí)際上就是多層的1×1卷積操作。在本文的例子中M個(gè)頭部就有M×d的輸入和輸出通道。為模型的輕量化考慮使用具有LeakyReLU激活和兩層1×1卷積操作來(lái)完成FFN的功能。

1.3 質(zhì)量焦點(diǎn)損失

最初焦點(diǎn)損失（fcoal loss，F(xiàn)L）[20]的提出是為了解決在單階段目標(biāo)檢測(cè)中正負(fù)類別樣本不平衡的問(wèn)題，F(xiàn)L的公式表示如下：

其中，y∈{1,0}表示標(biāo)簽類別，p∈[ 0,1]表示估計(jì)為類別y=1的概率。γ表示可調(diào)聚焦參數(shù)。具體來(lái)說(shuō)，F(xiàn)L是由標(biāo)準(zhǔn)交叉熵部分-lg(pt)和動(dòng)態(tài)縮放因子部分(1-pt)γ組成。其中縮放因子(1-pt)γ在訓(xùn)練期間將降低數(shù)量多的簡(jiǎn)單類別的損失權(quán)重，使模型更加關(guān)注困難樣本。

為了解決上述模型訓(xùn)練測(cè)試不一致問(wèn)題，如圖4中所示，將模型的分類預(yù)測(cè)分?jǐn)?shù)和檢測(cè)框的質(zhì)量預(yù)測(cè)分?jǐn)?shù)聯(lián)合起來(lái)，也就是將相應(yīng)類別上的one-hot編碼平滑成質(zhì)量預(yù)測(cè)分?jǐn)?shù)，即相應(yīng)類別上的預(yù)測(cè)值為y∈[0,1]。具體來(lái)說(shuō)，y=0表示質(zhì)量預(yù)測(cè)分?jǐn)?shù)為0的負(fù)樣本，0

圖4 模型預(yù)測(cè)分支表示形式Fig.4 Branch representation of model prediction

由于提出的分類預(yù)測(cè)分?jǐn)?shù)和質(zhì)量預(yù)測(cè)分?jǐn)?shù)聯(lián)合表示需要對(duì)整個(gè)模型進(jìn)行密集監(jiān)督，并且仍然存在類別不平衡問(wèn)題，因此還需要繼承FL思想。但原始的FL只支持兩個(gè)離散標(biāo)簽，但是本文的聯(lián)合標(biāo)簽包含小數(shù)。因此基于FL改進(jìn)了兩個(gè)部分以保證聯(lián)合表示的情況下可以實(shí)現(xiàn)成功訓(xùn)練：

（1）將交叉熵?fù)p失-lg(pt)擴(kuò)展成完整表示-((1-y)lg(1-σ)+y lg(σ))。

（2）將FL中的調(diào)節(jié)因子(1-pt)γ擴(kuò)展成估計(jì)值σ和標(biāo)簽值y之間的絕對(duì)距離，即 ||y-σβ(β≥0)。

將上述兩個(gè)部分結(jié)合起來(lái)成為完整的損失目標(biāo)函數(shù)，表示如下：

其中，σ=y為loss的全局最優(yōu)解。與FL相似，loss中的|y-σ|β也具有調(diào)節(jié)因子的作用：當(dāng)實(shí)例的質(zhì)量預(yù)測(cè)分?jǐn)?shù)不準(zhǔn)確且偏離標(biāo)簽y時(shí)，調(diào)節(jié)因子的值較大，因此更關(guān)注學(xué)習(xí)困難實(shí)例。當(dāng)質(zhì)量預(yù)測(cè)分?jǐn)?shù)變準(zhǔn)確時(shí)，即σ→y時(shí)因子值趨向于0，對(duì)容易預(yù)測(cè)的類別進(jìn)行降權(quán)。其中參數(shù)β平滑地控制降權(quán)速率。

2 實(shí)驗(yàn)

本文的實(shí)驗(yàn)環(huán)境配置：GPU采用NVIDIA TITAN XP，CPU采用Intel i5-7500，內(nèi)存16 GB，操作系統(tǒng)為Ubuntu16.04。實(shí)驗(yàn)基于Pytorch深度學(xué)習(xí)框架、CUDA 10.1和OpenCV等進(jìn)行相關(guān)代碼和參數(shù)的訓(xùn)練。

2.1 數(shù)據(jù)集構(gòu)建

通過(guò)截取在變電站大門、配電室、變電站集控室、變電站電力設(shè)備等區(qū)域監(jiān)控?cái)z像頭的視頻圖像，得到變電站場(chǎng)景下人員工作服安全帽數(shù)據(jù)集共5 200張，包括變電站室內(nèi)室外不同場(chǎng)景以及不同光照條件、攝像頭角度下的圖片。如圖5所示，采集變電站內(nèi)監(jiān)控視頻圖像數(shù)據(jù)。其中4 000張用來(lái)訓(xùn)練人員工作服安全帽檢測(cè)模型，1 200張用于模型的測(cè)試。采用LabelImg標(biāo)注工具對(duì)收集的數(shù)據(jù)集進(jìn)行標(biāo)注，其中每個(gè)bounding box的標(biāo)簽：hat表示為佩戴安全帽，head表示未佩戴安全帽，person表示為變電站的作業(yè)人員，jacket表示穿著工作服，other-jacket表示未穿著工作服，pants表示穿著工作褲，other-pants表示未穿著工作褲。

圖5 變電站工作服安全帽數(shù)據(jù)集Fig.5 Transformer substation workwear and helmet dataset

通過(guò)對(duì)檢測(cè)類別的細(xì)化標(biāo)注，以便于訓(xùn)練模型達(dá)到更加適配變電站檢測(cè)場(chǎng)景的要求。最終轉(zhuǎn)換為PASCAL VOC格式的XML文件。

2.2 評(píng)價(jià)指標(biāo)

本文使用精確度（precision rate）、召回率（recall rate）、誤檢率（false positive rate）、漏檢率（miss rate）、交并比（IoU）和平均精度（mAP）來(lái)衡量提出的方法在自制的數(shù)據(jù)集上的有效性，計(jì)算公式如下：

其中，TP表示模型預(yù)測(cè)為正值的正樣本；FP表示模型預(yù)測(cè)為負(fù)值的正樣本；FN表示模型預(yù)測(cè)為負(fù)值的負(fù)樣本；TN表示被模型預(yù)測(cè)為正值的負(fù)樣本；partAcreage是模型預(yù)測(cè)出的檢測(cè)框區(qū)域；overallAcreage是數(shù)據(jù)標(biāo)注的目標(biāo)檢測(cè)框區(qū)域。

2.3 模型訓(xùn)練細(xì)節(jié)

使用ShuffleNet v2作為模型backbone，加載官方提供的在ImageNet上訓(xùn)練好的權(quán)重參數(shù)進(jìn)行初始化網(wǎng)絡(luò)。使用隨機(jī)梯度下降（SGD）優(yōu)化算法訓(xùn)練網(wǎng)絡(luò)60 000次，初始化學(xué)習(xí)率為0.01，訓(xùn)練批次為16幅圖像，圖像輸入為320×320。在迭代次數(shù)為30 000和50 000時(shí)，學(xué)習(xí)率分別降低10倍。權(quán)重衰減和動(dòng)量分別設(shè)置為0.000 1和0.9。為了使Transformer編碼器的自注意力來(lái)學(xué)習(xí)圖像全局信息，在訓(xùn)練期間使用了隨機(jī)裁剪數(shù)據(jù)增強(qiáng)。也就是輸入圖像以0.5的概率被裁剪成隨機(jī)的矩陣塊，然后將該矩陣的尺寸大小調(diào)整成輸入圖像大小。訓(xùn)練使用dropout比率為0.1。

2.4 消融實(shí)驗(yàn)與分析

為了評(píng)估本文設(shè)計(jì)的模型結(jié)構(gòu)在目標(biāo)檢測(cè)任務(wù)中的性能表現(xiàn)，在自制的工作服安全帽數(shù)據(jù)集實(shí)驗(yàn)測(cè)試了效果。

通過(guò)對(duì)比不同的特征提取器在數(shù)據(jù)集中的精度和速度的表現(xiàn)，證明使用ShuffleNet v2作為該場(chǎng)景下模型的特征提取器是有效的。只將模型的主干網(wǎng)絡(luò)進(jìn)行替換，同時(shí)遵循相同的訓(xùn)練和測(cè)試方案。替換成最近提出的輕量級(jí)網(wǎng)絡(luò)Xception[21]、MobileNetv1、MobileNetv2[22]和ShuffleNetv1[23]等，通過(guò)在本文工作服安全帽數(shù)據(jù)集上測(cè)試，采用COCO評(píng)價(jià)指標(biāo)評(píng)價(jià)，得到結(jié)果如表2。

表2 不同主干網(wǎng)絡(luò)評(píng)估指標(biāo)對(duì)比Table 2 Comparison of different backbone network evaluation indexes

如表2所示，在只替換模型主干網(wǎng)絡(luò)的情況下，使用ShuffleNetv2作為本文目標(biāo)檢測(cè)模型的主干特征提取網(wǎng)絡(luò)，在工作服安全帽數(shù)據(jù)集上精度和模型計(jì)算量達(dá)到最優(yōu)的效果，滿足模型輕量化和模型檢測(cè)精度的平衡?？梢杂^察在使用MobileNetv2與ShuffleNetv1作為模型的主干特征提取網(wǎng)絡(luò)時(shí)，模型的檢測(cè)精度與采用Shuf‐fleNetv2相近，但模型參數(shù)量卻較大。在ShuffleNetv2中每個(gè)基本單元開(kāi)始前都采用了“Channel Split”，將輸入特征通道c分離成c-c'和c'，其中一個(gè)分支直接保留通道信息，另一分支經(jīng)過(guò)三個(gè)輸入和輸出通道相同的卷積操作其中只使用一個(gè)分組卷積操作。將特征通道分割兩個(gè)部分有利于網(wǎng)絡(luò)的并行提升運(yùn)行速度，使用輸入與輸出通道相同的卷積和減少使用分組卷積有利于減少模型參數(shù)量。最后通過(guò)“Channel Shuffle”實(shí)現(xiàn)通道之間的特征交互，達(dá)到提高模型精度的目的。因此使用ShuffleNetv2作為輕量級(jí)目標(biāo)檢測(cè)模型的主干特征提取網(wǎng)絡(luò)是較優(yōu)的選擇。

將Transformer注意力頸部（TAN）與最先進(jìn)的多尺度特征融合模塊進(jìn)行比較，包括feature pyramid net‐work（FPN）[24]，PANet[25]中的bottom-up path aggregat（BPA），和bi-direction feature interaction（BFI）[26]。在保持該基準(zhǔn)模型其他模塊不變的情況下，將目標(biāo)檢測(cè)模型的多尺度特征融合模型分別替換為上述模塊，在自制工作安全帽數(shù)據(jù)集上評(píng)估效果。使用標(biāo)準(zhǔn)平均精度mAP、AP50、AP75、APS、APM、APL來(lái)評(píng)估對(duì)比模型的性能，結(jié)果如表3所示。

表3 不同多尺度特征融合方法對(duì)比Table 3 Comparison of different multi-scale feature fusion methods 單位：%

如表3所示，在使用TAN作為目標(biāo)檢測(cè)模型的特征融合模塊，比使用傳統(tǒng)的特征金字塔（FPN）的平均精度提升了1.4個(gè)百分點(diǎn)。Transformer注意力頸部先將不同尺度的特征圖信息進(jìn)行聚合，同時(shí)通過(guò)多頭注意力機(jī)制充分利用跨空間和尺度的特征相互作用，增強(qiáng)對(duì)檢測(cè)目標(biāo)的注意力。TAN整體對(duì)大目標(biāo)的檢測(cè)效果較好?？梢杂^察到表3中各模型針對(duì)面積小于322的小目標(biāo)檢測(cè)效果不佳，其中32是為圖像的像素?cái)?shù)量。一部分原因是因?yàn)樵谧灾频墓ぷ鞣踩睌?shù)據(jù)集中面積小于322的小目標(biāo)所標(biāo)注的訓(xùn)練樣本不足，所占比例太少，因此模型對(duì)此類目標(biāo)擬合效果較差。但使用TAN模塊還是能小范圍地提升對(duì)小目標(biāo)的檢測(cè)精度。

為了評(píng)估質(zhì)量焦點(diǎn)損失（quality focal loss，QFL）的使用是否在工作服安全帽檢測(cè)任務(wù)上有效。將分類預(yù)測(cè)分?jǐn)?shù)和檢測(cè)框的質(zhì)量預(yù)測(cè)分?jǐn)?shù)聯(lián)合表示與單獨(dú)分支或隱式分支對(duì)應(yīng)部分進(jìn)行比較。實(shí)驗(yàn)中采用了兩種表示檢測(cè)框定位質(zhì)量的代替方法：IoU[27]和centerness[15]。從4個(gè)對(duì)比維度，在構(gòu)建目標(biāo)檢測(cè)模型中進(jìn)行實(shí)驗(yàn)，自制的工作服安全帽數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果如表4所示。

表4 不同目標(biāo)檢測(cè)模型預(yù)測(cè)頭部對(duì)比Table 4 Comparison of different target detection models for predicting head 單位：%

根據(jù)表4中的結(jié)果所示，使用分類預(yù)測(cè)分?jǐn)?shù)和檢測(cè)框的質(zhì)量預(yù)測(cè)分?jǐn)?shù)聯(lián)合表示的損失函數(shù)QFL，相比其他所有對(duì)應(yīng)項(xiàng)可以獲得更好的性能。同時(shí)，使用IoU做為檢測(cè)框定位質(zhì)量的衡量標(biāo)準(zhǔn)的效果要優(yōu)于使用中心點(diǎn)做為檢測(cè)框定位質(zhì)量的衡量標(biāo)準(zhǔn)。其中表5所示，表明β=2是損失函數(shù)最優(yōu)的調(diào)節(jié)參數(shù)。通過(guò)將模型的預(yù)測(cè)分類分?jǐn)?shù)和IoU分?jǐn)?shù)分支與本文的聯(lián)合表示分支進(jìn)行對(duì)比。表明使用QFL訓(xùn)練的聯(lián)合表示由于其可靠的定位質(zhì)量估計(jì)而更有利于檢測(cè)，并且在分類分?jǐn)?shù)和檢測(cè)框質(zhì)量分?jǐn)?shù)之間表現(xiàn)出強(qiáng)相關(guān)性。因?yàn)楸疚哪Ｐ皖A(yù)測(cè)的分類分?jǐn)?shù)與檢測(cè)框質(zhì)量分?jǐn)?shù)相等。

表5 調(diào)節(jié)因子超參數(shù)對(duì)比Table 5 Comparison of hyperparameters of regulating factors 單位：%

最后將本文的模型與現(xiàn)有表現(xiàn)性能最好的幾個(gè)輕量級(jí)目標(biāo)檢測(cè)模型在自制的工作服安全帽檢測(cè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。分別在精確度、模型的輸入尺寸和FPS三個(gè)維度對(duì)比，如表6所示。

表6 不同輕量級(jí)目標(biāo)檢測(cè)模型對(duì)比Table 6 Comparison of different lightweight object detection models

通過(guò)在自制的工作服安全帽數(shù)據(jù)集上對(duì)比效果發(fā)現(xiàn)，本文設(shè)計(jì)的模型在320×320尺寸的輸入圖像達(dá)到的mAP為44.6%以及117 FPS，在輸入圖像為416×416達(dá)到的mAP為45.1%和93 FPS，綜合考慮，本文的模型結(jié)構(gòu)可以達(dá)到目標(biāo)檢測(cè)的速度與精度上的更好平衡。將本文的檢測(cè)模型在變電站場(chǎng)景內(nèi)對(duì)人員安全措施佩戴情況進(jìn)行識(shí)別，如圖6所示，輕量級(jí)目標(biāo)檢測(cè)模型可以準(zhǔn)確將人員的工作服穿著以及安全帽佩戴情況準(zhǔn)確地檢測(cè)出，但也有對(duì)遠(yuǎn)距離小目標(biāo)存在漏檢的不足。

圖6 變電站實(shí)地場(chǎng)景檢測(cè)效果Fig.6 Substation field scene detection effect

3 結(jié)束語(yǔ)

本文通過(guò)將輕量級(jí)特征提取網(wǎng)絡(luò)ShuffleNetv2、Transformer注意力特融合模塊和質(zhì)量焦點(diǎn)損失函數(shù)（QFL）相結(jié)合，構(gòu)成一種輕量級(jí)的目標(biāo)檢測(cè)網(wǎng)絡(luò)，運(yùn)用在變電站場(chǎng)景中巡檢人員工作服安全帽佩戴情況。通過(guò)使用Transformer注意力特融合模塊在降低模型復(fù)雜度的情況下，融合多尺度特征信息，提取目標(biāo)注意力，保證精度的提升，使用QFL在不改變模型參數(shù)量的情況下，解決單階段檢測(cè)模型訓(xùn)練與測(cè)試中不一致問(wèn)題，改善了訓(xùn)練效果，提升了模型精度。同時(shí)制作了工作服安全帽相關(guān)數(shù)據(jù)集，將提出的模型在該數(shù)據(jù)集上實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，提出的輕量級(jí)目標(biāo)檢測(cè)模型，在自制的工作服安全帽佩戴數(shù)據(jù)集中mAP值都得到提升且較為穩(wěn)定，F(xiàn)PS值可以達(dá)到117。該算法訓(xùn)練出的模型在變電站人員安全措施佩戴檢測(cè)上更具有使用價(jià)值。未來(lái)將繼續(xù)研究網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整，使模型的精度進(jìn)一步提高。