亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合頻域注意力機(jī)制和解耦頭的YOLOv5帶鋼表面缺陷檢測

        2023-02-03 03:02:24孫澤強(qiáng)陳炳才崔曉博陸雅諾
        計(jì)算機(jī)應(yīng)用 2023年1期
        關(guān)鍵詞:特征檢測

        孫澤強(qiáng),陳炳才,2*,崔曉博,王 磊,陸雅諾

        (1.新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,烏魯木齊 830054;2.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

        0 引言

        目標(biāo)檢測作為計(jì)算機(jī)視覺中最基本、最具挑戰(zhàn)性的任務(wù)之一,旨在找出圖像中特定的目標(biāo),并對(duì)目標(biāo)進(jìn)行定位和分類,在工業(yè)質(zhì)檢、視頻監(jiān)控、無人駕駛等眾多領(lǐng)域應(yīng)用廣泛[1]。帶鋼產(chǎn)品是廣泛應(yīng)用于我國國民經(jīng)濟(jì)與鋼鐵工業(yè)的重要產(chǎn)品,衡量材料效率的主要判定依據(jù)是材料的性能、幾何尺寸和表面質(zhì)量。目前冷軋帶鋼產(chǎn)品在材料與尺寸方面已經(jīng)基本能夠滿足要求,但表面質(zhì)量問題往往成為主要的影響因素[2]。近些年來,各種基礎(chǔ)設(shè)施建設(shè)對(duì)于帶鋼的精度需求越來越高,帶鋼受到結(jié)構(gòu)和制作工藝影響可能會(huì)出現(xiàn)多種表面缺陷,如:夾雜、斑塊、麻點(diǎn)、壓入氧化皮和劃痕等,這些缺陷輕則減少帶鋼的使用壽命和用途,重則可能會(huì)影響建筑物的建設(shè)安全導(dǎo)致建筑事故。因此本文希望通過計(jì)算機(jī)視覺目標(biāo)檢測的方法快速有效地檢測出帶鋼表面的缺陷,進(jìn)而能分離出有問題的產(chǎn)品。

        目前的目標(biāo)檢測算法主要分為兩類[3]:第一類是以RCNN(Regions with Convolutional Neural Network features)為代表的兩階段目標(biāo)檢測算法,例如R-CNN 算法[4]、Fast R-CNN算法[5]、Faster R-CNN 算法[6]、Mask R-CNN 算法[7]。兩階段目標(biāo)檢測算法需要先提取目標(biāo)候選框,也就是目標(biāo)位置,然后再對(duì)候選框做分類與回歸。另一類是以YOLO(You Look Only Once)算法為代表的一階段目標(biāo)檢測算法,例如OverFeat 算法[8]、YOLO 算法[9]、YOLOv2 算法[10]、YOLOv3 算法[11]和SSD(Single Shot multibox Detector)算法[12]。一階段算法不需要預(yù)測區(qū)域建議框的網(wǎng)絡(luò)(Region Proposal Network,RPN),直接輸入整張圖,直接在最后的檢測頭上預(yù)測邊界框的類別和位置,所以檢測速度較快,但是檢測精度相對(duì)較低。

        卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的引入使缺陷檢測實(shí)現(xiàn)了高準(zhǔn)確度和高效率,逐漸成為缺陷檢測的主要研究方向。文獻(xiàn)[13]在ResNet 中加入了軟注意力機(jī)制,達(dá)到了很高的圖像分類精度。而在目標(biāo)檢測方面,文獻(xiàn)[14]采用了改進(jìn)后的Mask R-CNN 算法對(duì)帶鋼表面進(jìn)行檢測,并使用K-meansⅡ聚類算法改進(jìn)RPN 的錨框生成方法,使精度有很大的提升,但是在速度上仍有很大的欠缺,每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)為5.9。文獻(xiàn)[15]調(diào)整YOLOv3 網(wǎng)絡(luò)結(jié)構(gòu)并新增一層大尺度檢測層,使小目標(biāo)的帶鋼缺陷檢測更準(zhǔn)確。文獻(xiàn)[16]中對(duì)YOLOv5 算法運(yùn)用雙向特征金字塔進(jìn)行多尺度特征融合,采用指數(shù)線性單元函數(shù)作為激活函數(shù),能加快網(wǎng)絡(luò)訓(xùn)練收斂速度,提升算法魯棒性。文獻(xiàn)[17]在骨干網(wǎng)絡(luò)中增加了一種多尺度殘差增強(qiáng)模塊,并且設(shè)計(jì)了一種注意力門控結(jié)構(gòu)嵌入模型,進(jìn)一步提高了YOLO 框架的性能。

        為進(jìn)一步提高缺陷檢測的準(zhǔn)確率,本文采用YOLOv5 算法,并在此基礎(chǔ)上進(jìn)行改進(jìn)。首先將YOLOv5 的錨框聚類算法由原來的K-means 算法改進(jìn)為模糊C 均值(Fuzzy C-Means,F(xiàn)CM)算法,根據(jù)優(yōu)化目標(biāo)函數(shù)得到每個(gè)真實(shí)框?qū)λ垲惖腻^框(anchor)的隸屬度,從而確定這些真實(shí)框的類別以達(dá)到聚類anchor 的目的;然后改進(jìn)YOLOv5 原有的網(wǎng)絡(luò)結(jié)構(gòu),加入三層頻域通道注意力FcaNet(Frequency channel attention Network)[18]和更換解耦頭,提高對(duì)帶鋼表面缺陷檢測的準(zhǔn)確率;最后在劃分好的測試集NEU-DET 上進(jìn)行驗(yàn)證,得到更好的實(shí)驗(yàn)結(jié)果。

        1 YOLOv5目標(biāo)檢測算法

        1.1 網(wǎng)絡(luò)結(jié)構(gòu)

        YOLO 算法是一種單階段目標(biāo)檢測算法,檢測速度相較于R-CNN 算法更快。YOLO 算法的核心思想是將目標(biāo)檢測問題變成一個(gè)回歸問題,在經(jīng)過特征提取以及特征融合后直接回歸出目標(biāo)的位置以及所屬的類別,使得計(jì)算資源和檢測時(shí)間成本大幅降低。YOLO 系列算法經(jīng)過不斷的創(chuàng)新和改進(jìn),自YOLOv1 算法提出后,YOLOv2 算法加入K-means 聚類錨框,大大提高了檢測的召回率;YOLOv3 算法首次采用Darknet53 的骨干網(wǎng)絡(luò),達(dá)到了更好的檢測精度;YOLOv4 算法 將Backbone 改進(jìn)為CSPDarknet53(Cross Stage Partial Darknet53)結(jié)構(gòu),并且采用PANet(Path Aggregation Network)特征融合的方法;YOLOv5 在YOLOv4 的基礎(chǔ)上加入了一些改進(jìn)的trick,根據(jù)網(wǎng)絡(luò)深度和寬度大小的不同,依次有YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x 版本,版本越高,檢測精度越高,速度越慢。

        YOLOv5 網(wǎng)絡(luò)架構(gòu)主要分為輸入端、Backbone 骨干網(wǎng)絡(luò)、Neck 特征融合和YOLO 檢測頭,YOLOv5 的輸入端采用Mosaic 數(shù)據(jù)增強(qiáng),它的基本操作是將隨機(jī)選取的4 張圖片進(jìn)行隨機(jī)裁剪,然后將其拼接成指定分辨率的圖像,以達(dá)到數(shù)據(jù)增強(qiáng)的目的;同時(shí),在圖像批量輸入網(wǎng)絡(luò)前,將數(shù)據(jù)集中的真實(shí)框進(jìn)行聚類,YOLOv5 算法采用K-means 聚類錨框,之后計(jì)算錨框和真實(shí)框的差距,進(jìn)行反向傳播。

        Backbone 骨干網(wǎng)絡(luò)首先采用Focus 切片操作,將3 通道的圖片切片變成12 通道,接著經(jīng)過一層帶有32 個(gè)卷積核的卷積層,變成32 通道,F(xiàn)ocus 切片示意圖如圖1 所示;然后進(jìn)入CSPDarknet53 骨干網(wǎng)絡(luò),借鑒了跨階段局部網(wǎng)絡(luò)CSPNet(Cross Stage Partial Network)[19],其在ResNetXt 中證明了基數(shù)相較于網(wǎng)絡(luò)寬度和深度更加有效,可以顯著減少參數(shù)和計(jì)算量,并提升速度。

        圖1 Focus切片示意圖Fig.1 Schematic diagram of Focus section

        Neck 由特征金字塔(Feature Pyramid Network,F(xiàn)PN)[20]和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)[21]組成。FPN將Backbone 提取的深層特征上采樣與淺層信息逐元素相加,從而構(gòu)建尺寸不同的特征金字塔結(jié)構(gòu),同時(shí)還利用了低層特征高分辨率和高層特征高語義信息。PAN 在FPN 增強(qiáng)語義信息的同時(shí),又添加了一條自底向上的金字塔結(jié)構(gòu),以獲取更多的位置信息,PAN 與FPN 結(jié)合就可以獲取豐富的特征信息。YOLOv5 特征融合部分如圖2 所示。

        Head 是YOLOv5 的網(wǎng)絡(luò)檢測頭部分,如圖2 所示,在特征融合部分之后產(chǎn)生三個(gè)檢測層,輸入分辨率為640×640 的圖像,產(chǎn)生20×20,40×40 和80×80 的預(yù)測結(jié)果,即分別負(fù)責(zé)預(yù)測大、中、小目標(biāo),同時(shí)每個(gè)檢測層上有3 個(gè)錨框進(jìn)行檢測,檢測結(jié)果包括目標(biāo)的定位信息(x,y,w,h)、對(duì)象信息(obj)和類別信息(cls)。

        圖2 YOLOv5特征融合示意圖Fig.2 YOLOv5 feature fusion diagram

        1.2 檢測原理

        YOLOv5 算法采用PAN 的特征融合方式,提取多個(gè)不同尺度的檢測特征,提高了算法對(duì)不同大小目標(biāo)的檢測能力,如圖3 所示,將最終輸出的特征分成S×S的網(wǎng)格,虛線框代表需要調(diào)整的anchor,anchor 的寬度和高度分別是pw和ph,預(yù)測相對(duì)錨框的偏移量是tw和th,由式(1)可以得到預(yù)測框bw、bh、bx和by。

        圖3 預(yù)測框Fig.3 Prediction box

        1.3 損失函數(shù)

        YOLOv5 算法的損失函數(shù)包含置信度損失lobj、分類損失lcls以及目標(biāo)框定位損失lbox,如式(2)所示:

        置信度損失lobj的計(jì)算如式(3)所示:

        其中:K表示圖像的劃分網(wǎng)格系數(shù);M表示表示每個(gè)網(wǎng)格所預(yù)測的預(yù)測框的個(gè)數(shù);Ci為標(biāo)簽值;為預(yù)測值;λnoobj為懲罰權(quán)重系數(shù)。

        目標(biāo)分類損失lcls的計(jì)算如式(4)所示:

        目標(biāo)定位損失lbox采用完全交并比(Complete-IoU,CIoU)損失,如式(5)~(7)所示,CIOU 損失考慮到了3 個(gè)幾何因素,即預(yù)測框和真實(shí)框之間的重疊面積、預(yù)測框和真實(shí)框的中心點(diǎn)距離和長寬比。

        其中:b是預(yù)測框的中心點(diǎn);bgt是真實(shí)框的中心點(diǎn);ρ表示歐氏距離;c表示預(yù)測框和真實(shí)框所構(gòu)成的外接矩形對(duì)角線長度;α表示權(quán)重系數(shù);交并比IoU(Intersection over Union)為預(yù)測框與真實(shí)框的交集和并集的比值;v表示預(yù)測框和真實(shí)框之間的長寬比差異,如果一致,則v=0,且差距越大,v也越大。

        2 YOLOv5算法改進(jìn)

        2.1 Fuzzy C-means聚類anchor算法

        原始YOLOv5 算法采用K-means 算法聚類anchor,數(shù)據(jù)集中有很多目標(biāo)的標(biāo)注框,將這些標(biāo)注框的寬和高進(jìn)行聚類,就會(huì)形成大小不同的先驗(yàn)框,YOLOv5 在特征融合后產(chǎn)生3 個(gè)檢測層,分別對(duì)應(yīng)大、中、小尺度的Feature map,負(fù)責(zé)檢測大、中、小目標(biāo),最后采用交并比(IoU)評(píng)價(jià)聚類結(jié)果。

        由于K-means 聚類算法是一種硬聚類、基于劃分的聚類算法,一般樣本點(diǎn)之間的相似度是基于歐氏距離來衡量,樣本點(diǎn)之間的歐氏距離越小,相似度就越大,是一種硬劃分,將每個(gè)待聚類的對(duì)象嚴(yán)格地劃分到某類,具有“非此即彼”的性質(zhì)。文獻(xiàn)[22]提出超像素的快速FCM 聚類算法應(yīng)用于彩色圖像分割,使得聚類算法更快更穩(wěn)定。該算法通過優(yōu)化目標(biāo)函數(shù)得到每個(gè)樣本點(diǎn)對(duì)聚類中心點(diǎn)的隸屬度,隸屬度越大樣本所屬該類的可能性越大。最終的聚類損失函數(shù)可以表示為式(8),其中m>1,用于控制聚類結(jié)果的模糊程度,一般取值為2。

        FCM 聚類算法就是不斷迭代計(jì)算隸屬度uij和簇中心cj,直到達(dá)到最優(yōu)。隸屬度uij和簇中心cj如式(9)所示:

        迭代更新的終止條件如式(10)所示:

        其中:k是迭代的步數(shù);ε是誤差閾值,當(dāng)?shù)诫`屬度不再發(fā)生較大變化的時(shí)候,說明已經(jīng)達(dá)到了最優(yōu)的狀態(tài)。

        2.2 引入FcaNet注意力機(jī)制

        在計(jì)算機(jī)視覺信息處理過程中引入注意力機(jī)制,不僅可以將有限的計(jì)算資源分配給重要的目標(biāo),而且能夠產(chǎn)生符合人類視覺認(rèn)知要求的結(jié)果[23]。文獻(xiàn)[24]在U-Net 中采用四重注意力,使用四個(gè)分支捕獲通道和空間位置之間的內(nèi)部和跨維度交互。通道注意力能給模型精度帶來較明顯的提升,如SENet(Squeeze-and-Excitation Network)[25],但由于計(jì)算開銷有限,通道注意方法的核心步驟是對(duì)每個(gè)通道計(jì)算一個(gè)標(biāo)量,同時(shí)采用全局平均池化(Global Average Pooling,GAP),因其簡單性和高效性而成為深度學(xué)習(xí)領(lǐng)域的標(biāo)準(zhǔn)選擇。

        在 ICCV(IEEE International Conference on Computer Vision)2021 中收錄的FcaNet[18]中,采用的是頻域通道注意力的思想,它從不同的角度出發(fā),將通道表示問題視為一個(gè)使用頻率分析的壓縮過程,而不僅僅只是一個(gè)標(biāo)量,在頻率分析的基礎(chǔ)上,從數(shù)學(xué)角度證明了傳統(tǒng)的全局平均池化(GAP)其實(shí)是頻域特征分解的一種特例。因此,F(xiàn)caNet 把通道的標(biāo)量表示看作是一個(gè)壓縮問題,即通道的信息要用標(biāo)量進(jìn)行壓縮編碼,同時(shí)盡量保持整個(gè)通道的表示能力。

        2.2.1 離散余弦變換

        離散余弦變換(Discrete Cosine Transform,DCT)具有較強(qiáng)的能量壓縮特性,可以實(shí)現(xiàn)高質(zhì)量的數(shù)據(jù)壓縮比,通常典型的二維DCT[26]的基函數(shù)是式(11):

        二維DCT 可以寫成式(12):

        其中:i∈{ 0,1,…,H-1} ;j∈{0,1,…,W-1};f2D∈ RH×W為二維DCT 頻譜;x2D∈ RH×W為輸入;H為x2D的高度;W是x2D的寬度。

        2.2.2 多譜通道注意力模塊

        在FcaNet 中給出了一個(gè)定理并進(jìn)行了數(shù)學(xué)證明,定理如下:全局平均池化GAP 是二維DCT 的一種特殊情況,其結(jié)果與二維DCT 的最低頻率分量成正比?;谏厦娴亩ɡ砜梢钥闯?,在通道注意機(jī)力SENet 中使用GAP 意味著只保留了最低頻率的信息,而來自其他頻率的分量將會(huì)被丟棄,而其他頻率也可能包含一些有用的特征,如圖4 所示。

        圖4 SENet通道注意力Fig.4 SENet channel attention

        多譜通道注意力如圖5 所示,首先,沿著通道維度將輸入特征X分成許多部分,表示[X0,X1,…,Xn-1],其 中:Xi∈RC′×H×W,i∈{0,1,…,n-1},C′=C/n,C可被n整除。對(duì)每個(gè)部分分配相應(yīng)的二維DCT 頻率分量,由分配的DCT 頻率分量得到每個(gè)部分的Freq向量,如式(13):

        圖5 多譜通道注意力Fig.5 Multi-spectral channel attention module

        其中:i∈{ 0,1,…,n-1} ;[ui,vi]是與Xi相對(duì)應(yīng)的頻率分量的二維指數(shù),經(jīng)過壓縮后,F(xiàn)reqi變?yōu)镃′維的向量,整個(gè)壓縮后的向量可以通過拼接獲得式(14),其中Freq∈ RC是獲取到的多譜向量。

        綜上,整個(gè)多譜通道注意力框架可以被寫成如式(15),由式(14)、(15)可以看出,本文算法將原來的全局平均池化GAP 方法推廣到一個(gè)具有多個(gè)頻率分量的框架,這樣可以有效地豐富壓縮后的信道信息,便于表示。

        2.3 引入Decoupled Head解耦檢測頭

        YOLOX[27]使用了解耦頭的方法,能加快收斂速度,提升檢測精度。在目標(biāo)檢測中,分類和回歸任務(wù)之間的沖突眾所周知[28],因此用于分類和定位任務(wù)的解耦頭在大多數(shù)一階段和二階段目標(biāo)檢測算法中應(yīng)用廣泛,然而,原始YOLOv5 算法依舊使用耦合頭,即分類和回歸任務(wù)不分離,如圖3 所示,特征融合后直接經(jīng)過一層卷積得到最終檢測頭,檢測頭耦合了分類、定位和置信度的檢測。而解耦頭如圖6 所示,,其中nanchor為anchor個(gè)數(shù),經(jīng)過1×1卷積后,通道維數(shù)減小至256;經(jīng)過兩個(gè)平行的3×3卷積層,其中一個(gè)用于分類任務(wù),另一個(gè)用于定位和置信度任務(wù);再經(jīng)過兩個(gè)分別用于定位和置信度檢測的平行的1×1 卷積,經(jīng)過上述操作,分類、定位和置信度檢測使用不同的檢測層,與YOLOX 算法不同,本文并沒有采用基于anchor-free 的檢測機(jī)制,還是采用基于anchor 的檢測,所以最后產(chǎn)生的檢測結(jié)果有9個(gè)anchor,最終的實(shí)驗(yàn)也表明基于anchor的YOLOv5算法比YOLOX的檢測精度更高。

        圖6 解耦頭示意圖Fig.6 Schematic diagram of decoupled head

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文采用的東北大學(xué)發(fā)布的NEU-DET 數(shù)據(jù)集是熱軋帶鋼表面缺陷的經(jīng)典數(shù)據(jù)集,收集了6 種常見的表面缺陷,包括夾雜(Inclusion,In)、劃痕(Scratches,Sc)、壓入氧化皮(Rolled-in Scale,Rs)、裂紋(Crazing,Cr)、麻點(diǎn)(Pitted Surface,Ps)和斑塊(Patches,Pa),每種缺陷300 張,圖像尺寸為200×200。由于裂紋類圖像缺陷不明顯,模糊圖像不利于檢測任務(wù),刪去這類圖像缺陷,因此數(shù)據(jù)集有1 500 張缺陷圖像,將缺陷圖像按照8∶2 的比例隨機(jī)劃分成訓(xùn)練集和測試集,因此訓(xùn)練集有1 200 張,測試集有300 張,各類帶鋼缺陷如圖7所示。

        圖7 各類帶鋼缺陷Fig.7 Schematic diagram of strip defects

        3.2 生成anchor實(shí)驗(yàn)

        原始的YOLOv5 算法的anchor 框是在COCO(COmmon objects in COntext)數(shù)據(jù)集上聚類得到的,由于COCO 數(shù)據(jù)集和帶鋼表面缺陷數(shù)據(jù)集的真實(shí)框不同,因此需要重新聚類,在YOLOv5 算法中,需要生成9 組不同的anchor,所以設(shè)置生成的聚類中心數(shù)為9,通過K-means 算法和FCM 算法生成9個(gè)anchor,最后得到每個(gè)樣本點(diǎn)和聚類中心交并比的最大值的平均,作為評(píng)價(jià)最終聚類結(jié)果的標(biāo)準(zhǔn),計(jì)算公式如式(16)所示:

        其中:box為預(yù)測框;cen為標(biāo)記框。

        通過FCM 算法生成anchor 框,代替原來K-means 聚類算法,最終FCM 生成的9 個(gè)anchor 分別為[73,121,104,248,183,160],[287,267,597,89,155,410],[103,608,289,593,593,612],按照式(16)計(jì)算得到的準(zhǔn)確率為68.15%,而通過K-means 算法聚類得到的準(zhǔn)確率為66.56%,所以FCM 的聚類結(jié)果更好,兩種算法聚類后的散點(diǎn)圖對(duì)比如圖8 所示,其中星號(hào)代表該類的聚類中心。

        圖8 K-means和FCM算法聚類后散點(diǎn)圖對(duì)比Fig.8 Comparison of scatter plots after clustering between K-means and FCM algorithms

        3.3 實(shí)驗(yàn)結(jié)果分析

        本文實(shí)驗(yàn)是在ubuntu16.04.10 版本的操作系統(tǒng)下完成的,采用的硬件配置為:Intel Xeon CPU E5-2680 v4 @2.40GH,NVIDIA GeForce RTX3080;軟件環(huán)境為CUDA10.2和CUDNN9.1;開發(fā)框架為PyTorch;編程語言為Python;預(yù)訓(xùn)練模型“yolov5-x.pt”,batch size 為8,一共訓(xùn)練100 個(gè)epochs。

        目標(biāo)檢測領(lǐng)域通常使用召回率(Recall)、精準(zhǔn)率(Precision)和平均精度均值(mean Average Precision,mAP)對(duì)算法性能進(jìn)行評(píng)價(jià)。精準(zhǔn)率用于描述檢測為正樣本的數(shù)量占所有的樣本的比例;召回率用于描述檢測為正樣本的數(shù)量占標(biāo)記為正樣本的數(shù)量的比例。計(jì)算公式如(17)所示:

        其中:TP(True Positive)表示標(biāo)記為正樣本檢測也為正樣本的數(shù)量;FP(False Positive)表示標(biāo)記為假樣本但檢測為正樣本的數(shù)量,即檢測錯(cuò)誤的數(shù)量;FN(False Negative)表示將樣本正類預(yù)測為負(fù)類的個(gè)數(shù),即遺漏檢測的個(gè)數(shù)。本文采用mAP 作為評(píng)價(jià)指標(biāo),平均精度(Average Precision,AP)為PR曲線下的面積,mAP 衡量全部類別下的AP 的均值,N為類別數(shù),計(jì)算公式如(19)所示:

        IFPS用來衡量網(wǎng)絡(luò)的檢測速度,計(jì)算公式如式(20)所示:

        其中:NumFigure表示檢測的圖像數(shù)量;TotalTime表示檢測所用的總時(shí)長。

        為驗(yàn)證本文算法的有效性,設(shè)計(jì)三組實(shí)驗(yàn),對(duì)FCM 算法和解耦頭進(jìn)行分析。實(shí)驗(yàn)結(jié)果如表1 所示,三個(gè)實(shí)驗(yàn)均基于YOLOv5 算法進(jìn)行改進(jìn),實(shí)驗(yàn)1 不采用任何改進(jìn)策略,使用Kmeans 算法聚類先驗(yàn)框;實(shí)驗(yàn)2 使用FCM 算法進(jìn)行先驗(yàn)框的聚類,最終的mAP 值提升了1.6 個(gè)百分點(diǎn),檢測速度相差無幾,因?yàn)榫W(wǎng)絡(luò)結(jié)構(gòu)沒有變化,只是改變先驗(yàn)框的聚類方式,模糊聚類算法并不會(huì)嵌入網(wǎng)絡(luò)將聚類得好的先驗(yàn)框加入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,因此不會(huì)增加額外的參數(shù)量;實(shí)驗(yàn)3 是在實(shí)驗(yàn)2 的基礎(chǔ)上將檢測頭替換為解耦頭,將分類任務(wù)和定位任務(wù)解耦合之后,由于增加額外的卷積層,mAP 值又提升了1.0 個(gè)百分點(diǎn),但是FPS 下降5.14 個(gè)百分點(diǎn)。

        表1 不同改進(jìn)算法的對(duì)比實(shí)驗(yàn)結(jié)果Tab.1 Comparative experimental results of different improved algotithms

        表2 是在前兩個(gè)改進(jìn)點(diǎn)的基礎(chǔ)上加入不同的注意力機(jī)制進(jìn)行對(duì)比的結(jié)果,圖9 是加入不同注意力機(jī)制使用Grad_cam 在缺陷圖片上的熱力圖展示結(jié)果。如表2 所示,加入SE(Squeeze-and-excitation)、BAM(Bottleneck Attention Module)[29]、CBAM(Convolutional Block Attention Module)[30]、CCA(Criss-Cross Attention)[31]、CA(Coordinate Attention)[32]后mAP 均有一定下降;而加入Non-Local[33]、DA(Dual Attention)[34]、FcaNet 后mAP 提高較明顯,相較于改進(jìn)2,分別提高1.2、1.3 和3.0 個(gè)百分點(diǎn),檢測速度除Non-Local 提升明顯外,DA 和FcaNet 基本不變。DA 是從空間和通道兩個(gè)分支并行地構(gòu)建特征圖的相關(guān)性矩陣;FcaNet 采用頻域通道注意力,將通道看作頻率壓縮的過程,兩者都達(dá)到了不錯(cuò)的檢測精度。對(duì)增加注意力機(jī)制后的額外參數(shù)量進(jìn)行分析,加入BAM 的額外參數(shù)量最少,但是mAP 只有81.4%;加入FcaNet相對(duì)其他注意力模塊所增加的額外參數(shù)量較少,而mAP 提升較明顯,達(dá)到85.5%。從熱力圖對(duì)比結(jié)果看出,對(duì)于“劃痕”缺陷,加入FcaNet 后,對(duì)缺陷的檢測效果更好,誤檢的目標(biāo)更少,在可視化的角度證明了FcaNet 在缺陷檢測上效果更優(yōu)。

        圖9 加入不同注意力模塊熱力圖對(duì)比結(jié)果Fig.9 Heat map comparison results after adding different attention modules

        表2 加入不同注意力模塊對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Comparison experimental results by adding different attention modules

        表3 是不同算法在NEUDET 數(shù)據(jù)集上的對(duì)比結(jié)果,其中文獻(xiàn)[14]采用改進(jìn)的Mask R-CNN 兩階段算法,檢測精度達(dá)到96%,但是檢測速度只有5.90 FPS,雖然檢測精度很高,但是難以滿足檢測的實(shí)時(shí)性要求;文獻(xiàn)[15]采用改進(jìn)的YOLOv3 算法,對(duì)于5 類缺陷的檢測精度達(dá)到82.2%,還可以進(jìn)一步提升;Faster R-CNN 算法和SSD 算法的特征提取網(wǎng)絡(luò)均為Resnet50,是目前檢測性能較好的Backbone。對(duì)比不同的算法檢測結(jié)果可以發(fā)現(xiàn):1)相較于原始的YOLOv5 算法,改進(jìn)的YOLOv5 算法在各類缺陷的檢測精度上均有明顯提升,尤其是針對(duì)檢測效果不佳的壓入氧化皮缺陷,達(dá)到了72.7%,整體mAP 相較于原始YOLOv5 提升了4.2 個(gè)百分點(diǎn),檢測速度下降不多。2)改進(jìn)后的YOLOv5 算法的檢測速度低于文獻(xiàn)[15]算法、原始YOLOv3 和SSD,而檢測精度更高。主要因?yàn)閷?shí)驗(yàn)使用的YOLOv5-x 版本,是YOLOv5 所有版本中網(wǎng)絡(luò)深度和寬度最大的結(jié)構(gòu),因此在檢測速度上未能勝過SSD 和YOLOv3 算法。YOLOv5 也使用解耦頭來進(jìn)行檢測,但是采用的是anchor-free 的檢測方法,所以在帶鋼表面缺陷檢測效果并不佳。

        表3 不同算法檢測性能的對(duì)比結(jié)果Tab.3 Comparison results of detection performance of different algorithms

        4 結(jié)語

        本文針對(duì)帶鋼表面缺陷數(shù)據(jù)集中的五類不同的缺陷進(jìn)行高精度檢測的問題,提出一種改進(jìn)的YOLOv5 算法,首先使用FCM 算法代替K-means 算法對(duì)先驗(yàn)框進(jìn)行聚類,接著采用解耦的檢測頭,從而分離分類和定位任務(wù),不同的任務(wù)使用不同的卷積層,最后加入了FcaNet 通道注意力模塊,使用多譜通道注意力機(jī)制提取到更有效的特征信息,最后實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)方法能夠準(zhǔn)確、快速地檢測出不同缺陷的帶鋼圖像。本文方法在Nvidia RTX 3080 測試條件下mAP 達(dá)到0.855,速度為27.71 FPS,實(shí)現(xiàn)了高精度的檢測,檢測精度高于通用目標(biāo)檢測模型,檢測速度還有待提升,該方法為帶鋼的缺陷檢測提供了有益的幫助。下一步將在嵌入式設(shè)備上進(jìn)行模型的性能改進(jìn),進(jìn)一步縮小網(wǎng)絡(luò)結(jié)構(gòu),以便在移動(dòng)端實(shí)時(shí)地檢測帶鋼缺陷。

        猜你喜歡
        特征檢測
        抓住特征巧觀察
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        “幾何圖形”檢測題
        “角”檢測題
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        女人喷潮完整视频| 精品久久久久久午夜| 中文AV怡红院| 亚洲国产都市一区二区| 国产毛女同一区二区三区| 成 人色 网 站 欧美大片在线观看| 国内免费高清在线观看| 亚洲熟女乱色一区二区三区| 亚洲依依成人综合在线网址| 亚洲自拍愉拍| 日本国产在线一区二区| 亚洲发给我的在线视频| 日本护士口爆吞精视频| 一本加勒比hezyo无码专区| 国产裸拍裸体视频在线观看| 久久免费大片| 亚洲熟妇av日韩熟妇av| 天堂影院久久精品国产午夜18禁| 国模91九色精品二三四| 国产日产精品_国产精品毛片| 色一情一乱一伦一区二区三区日本| 亚洲欧洲日产国码无码久久99| 国产V日韩V亚洲欧美久久| 亚洲成a人片77777kkkkk| 放荡成熟人妻中文字幕| 大地资源高清在线视频播放| 精品少妇人妻av无码久久| 国产精品爆乳在线播放| 看全色黄大色大片免费久久久| 精品黄色国产一区二区| 免费久久久一本精品久久区| 免费人妻无码不卡中文字幕18禁| 综合网在线视频| 日本视频一区二区三区三州| 日本一二三区免费在线| 一本一道久久综合久久| 国产午夜无码视频免费网站| av黄片免费在线观看| 日本免费久久高清视频| 亚洲人成自拍网站在线观看| 国产肉体ⅹxxx137大胆|