李 剛,邵 瑞,周鳴樂,李 敏,萬洪林
(1.齊魯工業(yè)大學(山東省科學院)山東省計算中心(國家超級計算濟南中心),濟南 250014;2.山東省基礎科學研究中心(計算機科學)山東省計算機網絡重點實驗室,濟南 250014;3.山東師范大學 物理與電子科學學院,濟南 250358)
工業(yè)領域的表面缺陷檢測對提高工業(yè)產品(如印制電路板、帶鋼等)質量、維護生產安全具有重要意義。由于工業(yè)產品表面缺陷復雜多樣、形狀各異、缺陷檢測場景和硬件配置不同,因此對工業(yè)產品表面缺陷檢測提出較高要求。
目前將深度學習技術應用到工業(yè)領域的檢測與分割任務中成為一項主流。文獻[1]構建一種二階段的工業(yè)目標檢測網絡。文獻[2]關注全局上下文語義信息,用于帶鋼的表面缺陷檢測。文獻[3-4]設計基于深度學習的表面缺陷檢測方法。通用的目標檢測器分為一階段、二階段和無錨3 類。文獻[5-6]提出一階段的通用目標檢測器。文獻[7-8]對一階段目標檢測器進行優(yōu)化。文獻[9-10]提出二階段的通用目標檢測器。文獻[11]提出無錨的通用目標檢測器。上述通用的目標檢測器主要在自然場景下進行訓練,往往不能直接移植到工業(yè)場景中。在工業(yè)表面缺陷檢測方面,文獻[12]對軌道缺陷進行無監(jiān)督檢測,文獻[13]搭建的網絡充分利用金字塔池化模塊、多信息集成的上下文信息以及利用注意力機制優(yōu)化提取豐富的軌道缺陷檢測信息,取得較優(yōu)的檢測效果。文獻[14]提出利用三重圖推理網絡進行金屬表面缺陷分割任務。文獻[15]基于YOLOv3 構建一種輕量級網絡,提升絕緣子的定位及缺陷檢測效果。文獻[16]利用卷積神經網絡(Convolutional Neural Network,CNN)對晶圓缺陷進行分類,并通過改進的Faster R-CNN 進行缺陷檢測。研究人員提出可任意插入使用的注意力方法。文獻[17]提出經典的SENet,它可以被任意地插入到分類網絡中,從而在增強分類網絡特征提取效果的同時不增加過多參數(shù)量。文獻[18]提出通道和空間注意力機制(CBAM),同時關注通道和空間上不同維度的特征信息,現(xiàn)在已被廣泛應用到各種分類或檢測網絡中,取得較優(yōu)的應用效果。文獻[19]提出坐標注意力,它可以被任意地插入到分類或檢測模型中,不僅能捕獲跨通道信息,還能捕獲方向感知和位置感知信息,有助于模型更加精準地定位和識別感興趣目標。文獻[20]提出GAM Attention,能夠在減少信息彌散的情況下放大跨維度的特征交互。
上述工業(yè)領域的缺陷檢測方法都具有較優(yōu)的檢測性能且滿足輕量化的需求,但難以滿足在低性能GPU 上的精度需求。此外,上述檢測方法都是根據(jù)單一工業(yè)缺陷數(shù)據(jù)進行檢測,并沒有對模型滿足工業(yè)領域不同檢測任務的需求進行研究。本文針對工業(yè)場景下對于缺陷檢測精度和速度的雙重要求,提出一種輕量級目標檢測網絡。該網絡分為主干網絡、多尺度特征聚合網絡、殘差增強網絡和注意力增強網絡4 個部分。本文網絡不再采用以高參數(shù)量、高訓練成本為代價換取檢測精度的Transformer[21],而是考 慮了工 業(yè)檢測場景,將輕量且即插即用的注意力機制融入到檢測器中,同時將不同深淺語義的信息在多尺度特征聚合網絡中進行特征融合。最后,為了加強深層語義特征的表示能力,將全局特征與局部特征進行信息交互。
本文提出的工業(yè)領域表面缺陷檢測網絡分為主干網絡、多尺度特征聚合網絡、殘差增強網絡和注意力增強網絡4 個部分,其結構如圖1 所示。主要創(chuàng)新點包括:1)使用輕量化的殘差結構作為主干網絡,并采用注意力機制對殘差塊進行特征提取的增強;2)使用特征金字塔網絡聚合多尺度特征圖,使得模型的特征具有多尺度語義信息;3)設計基于殘差模塊和注意力增強模塊的融合網絡,并對特征提取進行加強,從而達到更優(yōu)的表面缺陷檢測效果。
圖1 工業(yè)產品表面缺陷檢測網絡結構Fig.1 Structure of industrial product surface defect detection network
本文將主干網絡設計為5 個特征提取部分,使用步長為2 的3×3 卷積進行降采樣。令輸入單個特征提取部分的特征圖表示為F,在經過單個特征提取部分后生成的特征圖表示為F'。F'的生成過程如下:
其中:S為SiLU 激活函數(shù);B為批標準化;Conv23表示步長為2 的3×3 卷 積;Conv11表示步長為1 的1×1 卷積;Conv13表示步長為1的3×3卷積;CCL為空間注意力層;CCDL為坐標注意力層。CCL可以看成1 個輕量計算單元,用于實現(xiàn)通道注意力。通道注意力表達式如下:
其中:MaxPool 為全局最大池化;AvgPool 為全局平均池化;Concat 為以通道維度進行特征圖拼接操作。MMLP表達式如下:
其中:W0為通道數(shù)2C/r,r為縮減率;W1為通道數(shù)C。最后,將MC和輸入特征圖F做乘法操作,得到最終生成的特征。
此外,本文為每個特征提取部分引入坐標注意力層(CDL)來進一步提高網絡的特征表示能力。在結構方面,CDL 由坐標注意力組成,將通道注意力分解為2 個一維特征編碼過程,分別沿2 個空間方向聚合特征。坐標注意力的表達式如下:
其中:W1表示通道數(shù)為C的1×1 卷積;h_att 為在高度方向上的注意力;w_att 為在寬度方向上的注意力。h_att 和w_att 表達式如下:
其中:SSplit為拆分操作;AvgPoolh為沿高度方向進行壓縮的全局平均池化;AvgPoolw為沿寬度方向進行壓縮的全局平均池化。它們將特征圖F壓縮為F∈RC×1×W和F∈RC×H×1大小。MMLP表達式如下:
其中:W0表示通道數(shù)為C/r的1×1 卷積,r為縮減率;BN 為批標準化。將Mh和Mw與輸入特征圖F同時做乘法操作得到最終生成的特征。
本文所提的主干網絡服務于工業(yè)表面缺陷檢測網絡,僅由5個特征提取部分組成,無須構建全連接層。本文所提主干網絡的單個特征提取部分結構如圖2所示。
圖2 單個特征提取部分的結構Fig.2 Structure of the individual feature extraction section
本文提出的多尺度特征聚合網絡使用3個特征聚合組,其結構如圖3所示。第1個特征聚合組直接使用主干網絡的特征,后2個聚合則與FPN等不同,它們不是聚合來自上一層的特征聚合組,而是聚合來自更深層次的語義特征,即經過殘差注意力和注意力增強提取后的信息。
圖3 多尺度特征聚合網絡結構Fig.3 Structure of multi-scale feature aggregation network
對于輸入圖像F,將主干網絡最后3 個特征提取部分的輸出特征表示為:
將多尺度特征聚合網絡的輸出、殘差增強網絡和注意力增強網絡的輸出分別表示為:
多尺度特征聚合網絡中M5 的表達式如下:
其中:Conv1 為1×1 卷積;Conv3 為3×3 卷積;Pool 為SPPF 模塊;B5 表示來自主干網絡中特征提取部分5的輸出。
多尺度特征聚合網絡中M4 的表達式如下:
其中:B4 表示來自主干網絡中特征提取部分4 的輸出;A5 表示來自注意力增強網絡中注意力模塊1 的輸出;up 為上采樣操作。
多尺度特征聚合網絡M3 的表達式如下:
其中:B3表示來自主干網絡中特征提取部分3的輸出;A4表示來自注意力增強網絡中注意力模塊2的輸出。
本文在多尺度特征聚合網絡后接入殘差增強網絡,使得多尺度特征聚合網絡能夠聚合更深層次語義的特征信息。該網絡由3 個殘差模塊組成,單個殘差模塊結構如圖4 所示。
圖4 單個殘差模塊結構Fig.4 Structure of a single residual module
與主干網絡不同,殘差增強網絡中的每個殘差模塊不需要降采樣,只采用2 個卷積組,分別是1×1和3×3。每個殘差模塊都設計相同的注意力殘差邊,用于實現(xiàn)注意力的空間關注。令輸入單個殘差模塊的特征圖表示為F,單個殘差模塊的表達式如下:
其 中:ConvBlock3×3和ConvBlock1×1分別為3×3 卷 積組和1×1 卷積組;RResAttention表示將輸入的特征圖F∈RC×H×W分別經過全局最大池化和全局平均池化,得到2 個F1∈R1×H×W大小的特征圖。之后,將這2 個特征圖進行相加操作,經過1 個3×3 卷積生成具有信息關注能力的殘差邊,其表達式如下:
其 中:Conv3×3表示步長為1、填充為1 的3×3 卷 積;MaxPool 為全局最大池化;AvgPool 為全局平均池化。
每到秋糧上市的季節(jié),一些心懷鬼胎的騙子和商販也開始活躍起來。由于稱糧設備的更新?lián)Q代,現(xiàn)在,坑農騙局也有了新的花樣。地磅被遙控、炮車被改裝、水分測試儀造假等。面對這些稱糧時的高技術騙局,該怎么辦呢?
本文為充分利用更深層次的語義信息,從而提升輕量級工業(yè)表面缺陷檢測網絡的特征提取能力,設計注意力增強網絡。該網絡非常簡便,可以即插即用。注意力增強網絡包括全局語義信息和局部語義信息2 部分。注意力增強網絡將兩者進行融合,由3 個注意力增強模塊組成,其單個注意力增強模塊結構如圖5 所示。
圖5 單個注意力增強模塊結構Fig.5 Structure of single attention enhancement module
單個注意力增強模塊的表達式如下:
MMLP3表達式如下:
其中:Conv1C表示通道數(shù)為C的1×1 卷積;Conv1C/r表示通道數(shù)為C/r的1×1 卷積;r為縮減率。MMLP2表達式如下:
本文提出的損失函數(shù)分為邊界框回歸損失、置信度損失和分類損失,采用GIoU 計算邊界框回歸損失,其表達式如下:
其中:IIoU表示交并比;A和B分別表示預測框和真實框;C表示包圍A和B的最小包圍框。
本文采用二元交叉熵損失函數(shù)計算置信度損失和分類損失,表達式如下:
其中:N為總量;x為樣本;y為標簽。
其中:r為常數(shù),當其為0 時,F(xiàn)ocal Loss 與BCELogits Loss 一致。t可表示為:
本文的 實驗數(shù) 據(jù)集包 括NRSD-MN[22]、NEUDET[23]和PCBData[24]。NRSD-MN 數(shù)據(jù)集包含4 101 張軌道表面缺陷圖像,其中包括3 936 張人造軌道表面缺陷圖像和165 張自然軌道表面缺陷圖像。本文選擇4 101 張圖像作為訓練集和測試集,并與最先進的算法進行比較,以2 971 張圖像作為訓練集,1 130 張圖像作為測試集。NEU-DET 數(shù)據(jù)集是1 個缺陷分類數(shù)據(jù)集。熱軋鋼板的缺陷包括裂紋、夾雜、斑塊、麻點表面、軋入氧化皮和劃痕6 種類型。NEU-DET 數(shù)據(jù)集在每種缺陷類型上均有300 張圖像,共有1 800 張圖像。本文選取1 260 張圖片作為訓練集,540 張作為測試集。PCBData 數(shù)據(jù)集包含1 500 張PCB 圖像,涵蓋6 種類型的PCB 缺陷,每張圖像分辨率為640×640 像素。本文選取其中1 230 張圖像作為訓練集,270 張圖像作為測試集。
本文實驗均是在Windows 10操作系統(tǒng)、PyTorch 1.11的環(huán)境 下實現(xiàn)。在NRSD-MN、NEU-DET 和PCBData 數(shù)據(jù)集上的全部對比實驗選用2 種硬件配置:高性能硬件配置為CPU Intel?CoreTMi9-10900K,內存64 GB,GPU NVIDIA GeForce RTX 3080;低性能硬件 配置為CPU Intel?CoreTMi7-11800H,內 存16 GB,NVIDIA GeForce RTX 3060 Laptop GPU,CUDA 核心僅為高性能硬件配置的1/3。超參數(shù)設置:訓練圖像大小為640×640 像素,batch_size 大小為8,所有模型均訓練300 個epoch 以及均不使用預訓練權重,初始學習率設置為0.01,優(yōu)化器采用SGD。
本文對模型性能優(yōu)劣的評價指標為精準度(P)、召回率(R)、F1 值(F1)、mAP@0.5(mAP@0.5 表 示IoU 閾值在0.5 上的mAP)、GFLOPS。精準度和召回率的表達式如下:
本文評估該模型在工業(yè)表面缺陷數(shù)據(jù)集NRSDMN、NEU-DET 和PCBData 上的缺陷檢測性能,并與其他目標檢測模型進行比較。表1~表3 所示為不同模型在高性能硬件配置(GPU NVIDIA GeForce RTX 3080)下的實驗結果,加粗表示最優(yōu)數(shù)據(jù)。
表1 高性能配置下不同模型在NRSD-MN 數(shù)據(jù)集上的實驗結果Table 1 Experimental results among different models on the NRSD-MN dataset under high performance configuration
表4~表6 所示為不同模型在低性能硬件配置(NVIDIA GeForce RTX 3060 Laptop GPU)下的實驗結果。
從高性能配置實驗環(huán)境下本文模型在NRSD-MN數(shù)據(jù)集上的實驗結果可以看出:本文模型的參數(shù)量是YOLOv7-tiny[25]的38%,但是在F1和mAP@0.5 這2 個評價指標上分別提高4.13 和2.21 個百分點,相比高于本文模型4倍參數(shù)量的YOLOv3-tiny,在2個指標上分別提高4.52 和3.50 個百分點。此外,本文復現(xiàn)了文獻[26]的研究成果,為保證參數(shù)量相當,本文將其研究成果采用低參數(shù)量的YOLOv5s進行復現(xiàn)。
從表1 可以看出,本文模型在P、R、F1、mAP@0.5、GFLOPS 這5 個指標上均優(yōu)于YOLOv3-tiny、YOLOv4-tiny、YOLOv5s、YOLOv7-tiny 和FDDM-s。同時,本文模型在NEU-DET 和PCBData數(shù)據(jù)集上具有較優(yōu)的泛化能力(如表2和表3所示),說明本文模型適用于工業(yè)領域的輕量級工業(yè)表面缺陷檢測。從表4~表6可以看出,本文模型在參數(shù)量和GFLOPS 最低的基礎上取得較優(yōu)的mAP@0.5結果。
表2 高性能配置下不同模型在NEU-DET 數(shù)據(jù)集上的實驗結果Table 2 Experimental results among different models on the NEU-DET dataset under high performance configuration
表3 高性能配置下不同模型在PCBData 數(shù)據(jù)集上的實驗結果Table 3 Experimental results among different models on the PCBData dataset under high performance configuration
表4 低性能配置下不同模型在NRSD-MN數(shù)據(jù)集上的實驗結果Table 4 Experimental results among different models on the NRSD-MN dataset under low performance configuration
表5 低性能配置下不同模型在NEU-DET數(shù)據(jù)集上的實驗結果Table 5 Experimental results among different models on the NEU-DET dataset under low performance configuration
表6 低性能配置下不同模型在PCBData數(shù)據(jù)集上的實驗結果Table 6 Experimental results among different models on the PCBData dataset under low performance configuration
YOLOv5s 和本文模型在不同數(shù)據(jù)集上的檢測結果分別如圖6~圖8 所示。從圖6~圖8 可以看出,YOLOv5s 有漏檢和誤檢現(xiàn)象,本文所提模型的檢測效果優(yōu)于YOLOv5s。
圖6 不同模型在NRSD-MN 數(shù)據(jù)集上的檢測結果對比Fig.6 Comparison of detection results among different models on the NRSD-MN dataset
圖7 不同模型在NEU-DET 數(shù)據(jù)集上的檢測結果對比Fig.7 Comparison of detection results among different models on the NEU-DET dataset
在消融實驗中,本文將主干網絡(不添加注意力)簡稱為R,將主干網絡(包含CL 和CDL 結構)簡稱為R+CC,將多尺度特征聚合網絡簡稱為MF,將殘差增強網絡簡稱為RA,將注意力增強網絡簡稱為CN。
本文在3 個數(shù)據(jù)集上均進行消融實驗,結果如表7~表9 所示。從表7 可以看出,以R+CC+MF+RA+CN(本文模型)為基線,在減少主干網絡中的注意力機 制CC 后,R+MF+RA+CN 網絡的F1、mAP@0.5 分別減少1.09 和0.6 個百分點。在去除注意力增強網絡CN 后,R+MF+RA 網絡與R+MF+RA+CN 網絡相比在F1、mAP@0.5 指標上分別減少1.75 和1.6 個百分點。在繼續(xù)減少殘差增強網絡RA 后,R+MF 網絡與R+MF+RA 網絡相比在F1、mAP@0.5 指標上分別減少2.25 和1.2 個百分點,充分證明本文所提主干網絡中注意力機制、注意力增強網絡和殘差增強網絡有助于改進本文模型性能。從表8 和表9 可以看出,本文模型分別在NEU-DET 和PCBData 數(shù)據(jù)集上的消融實驗結果也很好地證明這一點。
表8 在NEU-DET 數(shù)據(jù)集上的消融實驗結果Table 8 Results of ablation experiments on the NEU-DET dataset %
表9 在PCBData 數(shù)據(jù)集上的消融實驗結果Table 9 Results of ablation experiments on the PCBData dataset %
針對工業(yè)產品表面缺陷,本文提出一種基于全過程注意力增強的網絡結構。將輕量化的殘差結構作為主干網絡,采用注意力機制對殘差塊進行特征提取的增強,構建特征提取能力強的提取模塊,并對提取模塊結構進行堆疊形成主干網絡。同時,使用特征金字塔網絡聚合多尺度、多深淺語義的特征圖,使得模型的特征具有多尺度信息。在此基礎上,通過對殘差模塊和注意力增強模塊進行組合,增強對多尺度特征聚合網絡輸出的特征圖特征的提取,從而達到更優(yōu)的表面缺陷檢測目的。在數(shù)據(jù)集上驗證本文模型及每個模塊的有效性,實驗結果表明,本文模型具有較優(yōu)的檢測性能。下一步將面向工業(yè)產品中的微小缺陷和偽裝目標檢測,設計輕量級優(yōu)化方法,實現(xiàn)可滿足實時性和準確性要求的輕量級微小缺陷檢測網絡。