王穎,高勝
(東北石油大學,大慶,163318)
焊縫熔透狀態(tài)是表征焊接質量、影響焊接產品使用性能最重要的指標之一,然而由于焊接過程的瞬時性和復雜性,使得利用正面熔池信息實時準確獲得焊縫熔透狀態(tài)成為焊接過程監(jiān)測和質量控制的關鍵瓶頸[1-2].已有的關于焊縫熔透狀態(tài)識別的研究主要采用機器學習的方法,通過人為設計特征,建立其與熔透狀態(tài)之間的非線性映射關系;然而人為設計的特征具有較強的主觀性,嚴重影響識別精度和速度.隨著深度學習的不斷發(fā)展,其通過自動提取所需的特征進行預測,提高了識別的自動化程度和準確率,有效解決了傳統(tǒng)方法所面臨的問題[3-4].因此,近些年有許多學者將深度學習應用到熔池變化的在線監(jiān)測中,其中基于視覺信號的研究和應用最為廣泛[5-8].文獻[9]利用短時傅里葉變換獲得電弧聲的時頻頻譜圖像,建立卷積神經網絡識別焊縫的熔透狀態(tài);文獻[10]以感興趣區(qū)域的溫度場圖像為輸入,基于深度殘差網絡建立了焊縫熔透預測模型;文獻[11]以采集的二維熔池圖像作為輸入,建立了CNN 熔透狀態(tài)預測模型;文獻[12]以匙孔圖像作為輸入,建立LeNet-5 網絡模型對熔透狀態(tài)進行識別;文獻[13]以正面熔池圖像作為輸入,搭建CNN 模型預測燒穿,并建立回歸模型對穿透深度進行估計;文獻[14]利用HDR焊接攝像機獲得熔池/匙孔圖像,使用圖像增強方法提高訓練數(shù)據集的多樣性,并建立Resnet 網絡對焊接狀態(tài)進行識別;文獻[15]以熔池/匙孔圖像序列作為底層輸入,利用CNN 提取圖像序列中每一幀圖像的空域特征,同時建立BiLSTM 網絡挖掘時域內的上下文信息,最后利用獲得的時空特征映射到具體的熔透狀態(tài)上.基于深度學習的方法大大提升了識別的準確率,為了進一步提升預測的實時性,文獻[16]以SSD 作為主干網絡,利用視覺傳感信號作為輸入,將特征提取網絡VGG 替換為輕量網絡Mobilenet,熔池的定位與識別速度得到了提升;文獻[17]基于MobileNetV2 構建了遷移學習模型,將ImageNet數(shù)據集進行預訓練獲得的參數(shù)遷移到自建的GTAW 熔池圖像數(shù)據預測中,訓練速度得到了大幅提升;文獻[18]利用從振蕩焊接熔池表面反射的點結構激光圖像進行焊縫熔深預測,在不對圖像做任何預處理的情況下,利用提出的小批量梯度下降法進行訓練,獲得了較快的訓練速度和較高的準確率.
Google 提出的Vision Transformer[19-20](ViT)在圖像識別領域也取得了突破性進展,其將圖像分割成固定大小的像素塊輸入到編碼器,編碼器由多頭自我注意力機制(multi-head self-attention mechanism,MSA)和多層感知模塊(multi-layer perceptron,MLP)組成,利用最后一個編碼器層的分類標記作為全局特征表示,獲得最終的分類結果.ViT 在圖像識別領域取得了與卷積網絡相當?shù)男阅?,但需要更大量的訓練?shù)據或額外的監(jiān)督.為了克服這個限制,提出了CeiT 網絡[21],它集合了CNN 在提取低級特征、增強局部性方面,以及ViT 在建立遠程依賴關系方面的優(yōu)勢,在數(shù)據量、準確率及收斂速度方面進行了均衡.但為了進一步滿足焊接過程的實時性和準確性要求,對CeiT 網絡進行了改進.首先通過聚焦(Focus)模塊、通道分組、通道混洗、多尺度特征融合構建了一種FMCbneck 模塊,使得模型能夠獲得更多的熔池空間位置信息;其次將FMCbneck 模塊嵌入MobileNetV3(Large)網絡中,并調整其結構代替Image-to-Tokens 模塊進行熔池圖像淺層特征提取,在保證較高檢測精度的條件下,極大的降低了模型參數(shù)量,提高了模型的檢測速度;設計了DGCA 模塊并將其應用到LeFF中,有效增強了特征間的遠程依賴關系、豐富了類標記中所包含的分類信息,并通過將LeFF 模塊中的底層特征和高層語義特征進行融合,提高了模型對熔池特征的表示能力、進一步提升了檢測效果;最后與不同的網絡模型進行對比,證明了所提模型在保持較低參數(shù)量的同時擁有著更高的精確度.
CeiT 網絡結構如圖1 所示,其在ViT的基礎上設計了Image-to-Tokens(I2T)模塊、LeFF 模塊和LCA 模塊.
圖1 CeiT 網絡結構Fig.1 CeiT network structure
I2T 模塊由一個卷積層和一個最大池化層組成,用于提取熔池圖像的底層特征,即
式中:X為I2T 模塊的輸入特征.
將提取的熔池底層特征X′分割(Split)成特征小塊,并通過flatten 操作將特征小塊轉換成一維向量,同時添加一個可學習的類別塊,這個類別塊用于與所有的特征小塊進行交互,最終從類別塊中學習到用于分類的特征.特征序列加入位置編碼送入Encoder block中,重復堆疊L次.在Encoder block中除了包含MSA 模塊、Layer Normalization 模塊(Layer Norm)、Add(殘差塊)外,還設計了局部增強前饋模塊(LeFF),目的是通過使用深度卷積增加相鄰特征小塊在空間維度上的相關性.抽取Encoder block 所得交互特征中的L個類別塊送入LCA 模塊(layer-wise class token attention),目的是為了關注不同層的類標記信息,將注意力放在不同層的特征快上,最后獲得輸出信息.
為充分利用熔池圖像中的淺層特征、減少冗余操作、提高焊接檢測的實時性與部署便捷性,使用MobileNetV3(Large)作為Image-to-Tokens 模塊的特征提取網絡.MobileNetV3[22]網絡的逆殘差結構、深度可分離卷積、SE(squeeze and excitation)通道注意力機制和h-swish 激活函數(shù),使得模型能夠很好地獲得熔池圖像中的重要特征信息,并且避免訓練時出現(xiàn)梯度消失及計算量過大的問題.然而輕量化的網絡結構也會帶來檢測精度上的損失,為此對MobileNetV3的bneck 結構進行改進,改進的bneck 模塊結構(FMCbneck)如圖2 所示.
圖2 改進前后的bneck 結構Fig.2 Improved bneck structure before and after.(a)bneck original structure; (b) FMCbneck structure
(1)由于熔池圖像像素低、攜帶的信息少,并且在下采樣過程中特征信息會部分丟失,使得在處理過程中容易導致圖像失真.為解決這一問題,在bneck 輸入端引入了聚焦模塊(Focus 模塊),F(xiàn)ocus模塊通過間隔采樣對圖片進行切片操作,目的在于將高分辨率特征圖拆分成多個低分辨率的特征圖,且沒有信息丟失,F(xiàn)ocus 切片采樣原理如圖3 所示.
圖3 Focus 切片采樣原理Fig.3 Focus slice sampling principle
(2)為了融合不同尺度的缺陷特征,提升模型的泛化能力、抑制過擬合、擴大特征感受野,并且不會大幅度增加模型的復雜度,在原bneck 基礎上增加2 個分支,分別為Maxpooling 和1 × 1的普通卷積.
(3)為了進一步降低計算量,增加特征信息間的交流和特征的表達能力,對Focus 切片后的特征通道進行了分組操作(channel split),并在多尺度特征融合后進行了通道混洗操作(channel shuffle).
除了對MobileNetV3的bneck 結構進行了改進,還對其中的SE 模塊以及5 × 5 卷積核的位置進行了調整.通過消融試驗發(fā)現(xiàn)SE 模塊在越靠后的位置對模型精度的提升越大,5 × 5 卷積核在網絡的中后部對模型性能的提升作用更明顯,并且在步長為1 時采用FMCbneck 結構,步長為2 時采用原bneck 結構,模型效果更好.所采用的MobileNetV3網絡參數(shù)如表1 所示.表1 中exp 表示FMCbneck和bneck 中第一層1 × 1 卷積升高的維度;#out 表示FMCbneck 和bneck 輸出的通道數(shù);SE 表示是否使用SE 模塊.
表1 MobileNetV3 網絡參數(shù)Table 1 MobileNetV3 network parameters
CeiT 網絡的LeFF 模塊結構如圖4 所示,輸出的類標記將作為LCA 模塊的輸入參與分類.為了豐富類標記中所包含的分類信息、提高模型對熔池特征的表示能力、增強特征間的遠程依賴關系,改進后的LeFF 結構如圖5 所示.
圖4 原始LeFF 結構圖Fig.4 Original LeFF structure diagram
圖5 改進的LeFF 結構圖Fig.5 Improved LeFF structure diagram
將Depth-wise Convolotion(DWConv)操作替換成DGCA 模塊,對特征圖進行增強且保持較少的計算量.DGCA 模塊結構如圖6 所示,其在DWConv操作前后引入Ghost Module、建立殘差機制、添加Coordinate Attention(CA)注意力模塊.
圖6 DGCA 模塊Fig.6 DGCA Module
CA 注意力模塊分別沿兩個方向聚合特征,一個方向捕捉長期依賴,另一個方向保留精確的位置信息,起到了聚焦顯著目標區(qū)域,抑制飛濺、弧光等背景噪聲的作用,其結構如圖7 所示.
圖7 CA 注意力模塊結構圖Fig.7 CA attention module structure diagram
對輸入尺寸為W×H×C的特征圖(W,H,C分別表示特征圖的寬、高和通道數(shù))使用(1,W)和(H,1)進行平均池化編碼,分別得到了水平方向感知特征圖C×H×1和垂直方向感知特征圖C×1×W,計算原理為
將垂直方向和水平方向感知特征圖在空間維度進行拼接,得到特征圖C×1×(W+H).利用1 ×1 卷積變換對其進行降維至C/r,r用于控制縮減率,再進行歸一化和非線性變換操作.然后沿著空間維數(shù)將其分解為兩個單獨的張量C/r×H×1和C/r×1×W,再利用1 × 1 卷積變換分別對其升維至C,并經過sigmoid 激活函數(shù)將其作用于原特征圖上,最終輸出yc(i,j)為
采用的焊接方法為GTAW 脈沖焊,保護氣體為氬氣,焊接材料為厚度3.175 mm的304 不銹鋼,攝像頭采集頻率為1 000 Hz,曝光時間為20 μs,硬件設備如圖8 所示.將工業(yè)相機和數(shù)據采集卡采集到的熔池正面圖片和相應的電流、電壓信號傳輸?shù)接嬎銠C,計算機對接收到的數(shù)據處理之后可通過調節(jié)電流電壓控制器和伺服電機控制器控制焊接過程中的電流電壓以及焊接速度,從而得到不同狀態(tài)下的熔池數(shù)據.
圖8 圖像采集平臺Fig.8 Image acquisition platform
焊接電流控制在140~ 200 A,變化步長為20 A;焊接速度控制在20~ 40 cm/min,變化步長為10 cm/min;通過調節(jié)焊接電流與焊接速度,獲得未熔透(圖9(a))、熔透(圖9(b))、燒穿(圖9(c))三種狀態(tài)下的熔池圖片,去掉起弧和收弧時不穩(wěn)定狀態(tài)下采集的圖像,最終采集得到1 475 張未熔透照片、7 567 張正常熔透照片和725 張燒穿照片,其中未熔透樣本標記為0,正常熔透樣本標記為1,燒穿樣本標記為2.
圖9 三種焊接熔池Fig.9 Three types of welding pools.(a) not melted through; (b) melt through; (c) burn through
熔池圖像的預處理是通過提取ROI、3 次樣條插值和歸一化進行的.視覺系統(tǒng)采集到的原始圖像尺寸為1 280 × 700,直接對原始圖像進行訓練不僅干擾信息多而且計算量大,會嚴重影響訓練速度,因此選擇從原始圖像中裁剪感興趣的區(qū)域,去掉無關信息.由于在采集的圖像中熔池的位置幾乎保持在固定的區(qū)域,因此選擇ROI 自動提取算法.未熔透和熔透兩類圖像設定的左上角坐標為(200,50),燒穿圖像設定的左上角坐標為(390,150),窗口大小為700 × 350,提取ROI的結果如圖10 所示.
圖10 ROI 提取結果Fig.10 ROI extraction results.(a) original image; (b)image after ROI extraction
采用3 次樣條插值方法將ROI 圖像調整為224 × 224,再將圖像中的每個像素值除以255 歸一化為[0-1].復制灰度圖像矩陣,使其變?yōu)?24 ×224 × 3.
在深度學習中,樣本數(shù)據集大小和數(shù)據質量會直接影響模型的泛化能力和魯棒性.在實際焊接過程中,雖然數(shù)據量在不斷增大,但大多數(shù)數(shù)據為正常數(shù)據,未熔透和燒穿的樣本很少.因此,在保證圖像自然特征表達情況下,將對未熔透和燒穿的樣本進行數(shù)據增強,以彌補樣本數(shù)量不均衡問題.增強方法為改變圖像的對比度和亮度、水平翻轉、椒鹽噪聲、高斯噪聲等,其中燒穿的樣本還采用了多種方式疊加的方法進行數(shù)據增強,處理效果如圖11所示.最終未熔透樣本擴充至7 375 張、燒穿樣本擴充至6 579張,按照8∶1∶1的比例隨機劃分為訓練集、驗證集和測試集,各數(shù)據集所含圖片數(shù)量如表2 所示.
表2 擴充后各數(shù)據集數(shù)量(張)Table 2 Number of each data set after expansion
圖11 樣本數(shù)據增強效果Fig.11 Sample data enhancement effect.(a) fusion state; (b) burn-through condition
CPU 型號為Intel Core i9 13900K,GPU 為16G顯存的NVIDIA RTX 4080,操作系統(tǒng)為Ubuntu 16.04 LST 64位,深度學習框架為Pytorch 1.8,TorchVision 0.8,CUDA 版本為 10.1.批次大小設置為128,訓練輪次為100,優(yōu)化器使用Adam(Adaptive momentum),學習率衰減策略為
式中:lt為學習率;b為預熱初始值;R2為全局預熱周期;R為訓練總輪數(shù);r為當前輪數(shù).
損失函數(shù)由兩部分組成:分類損失函數(shù)和中心損失函數(shù).
(1)分類損失函數(shù)L1.采用交叉熵損失函數(shù)來計算預測值和真實值的誤差,計算式為
式中:N為樣本數(shù);M為類別數(shù)目(M=3);yic的取值為0 或1(如果樣本i的類別為c取1,否則取0);pic為樣本i屬于類別c的預測概率.
(2)中心損失函數(shù)L2.為了增大不同熔透類別間距離、減小同一類別內距離,采用中心損失函數(shù)增強同類樣本相似性,計算式為
式中:wyi為第yi類訓練樣本特征的中心位置;xi為樣本i進入全連接層之前的特征.
(3)總體損失函數(shù)L總體損失函數(shù)為
式中:λ和(1-λ)分別表示各自的權重,λ的初始值為0.5,在訓練過程中不斷對兩個超參數(shù)進行更新.
精確率(Precision)、召回率(Recall)和F1 分數(shù)(F1-Score)、準確率(Accuracy)作為模型的評價指標,模型訓練時間和模型內存占用量作為模型計算復雜度的評價指標,識別單個樣本平均時間作為模型檢測速度的評價指標.
Pprecision表示預測為正的樣本實際為正樣本的比例,精確率越高則模型對負樣本區(qū)分能力越強,計算式為
Rrecall表示所有正樣本中被預測為正樣本的比例,召回率越高則模型對正樣本的區(qū)分能力越強,計算式為
FF1-score是Pprecision和Rrecall的調和平均值,計算式為
Aaccuracy表示預測正確的樣本占總樣本的比例,計算式為
式中:TP表示實際正類預測為正類的數(shù)量;TN表示實際負類預測為負類的數(shù)量;FP表示實際負類預測為正類的數(shù)量;FN表示實際正類預測為負類的數(shù)量.
利用改進后的CeiT 模型對數(shù)據增強效果進行對比試驗,表3 為未使用數(shù)據增強的試驗結果,表4 為使用數(shù)據增強的試驗結果.數(shù)據增強前未熔透照片1 475 張、正常熔透照片7 567 張、燒穿照片725 張.數(shù)據增強后未熔透樣本7 375 張、正常熔透樣本7 567 張、燒穿樣本6 579 張.
表3 未數(shù)據增強試驗結果Table 3 No data enhancement test results
表4 數(shù)據增強試驗結果Table 4 Data enhancement test results
通過試驗結果可以看出使用數(shù)據增強三種類別的識別效果均得到了提升,尤其是未熔透和燒穿.數(shù)據樣本不均衡時,未熔透樣本會有大部分誤判為正常熔透,燒穿樣本誤判為未熔透.由此可見數(shù)據增強緩解了由于數(shù)據量不足造成的模型過擬合和泛化能力不足等問題.
學習率是深度學習中非常重要的超參數(shù)之一,為了選擇合適的學習率,在控制其他條件相同的情況下,分別設置學習率為0.01,0.001 和0.000 1 進行分析,圖12 為試驗驗證集結果.比較圖12(a)中曲線,學習率為0.001的損失值較低.對比圖12(b)中曲線,訓練初期學習率為0.01 與0.001 準確率波動較大,訓練40 輪時,學習率0.000 1的準確率隨著訓練輪數(shù)的增加變化穩(wěn)定,而其他兩種的準確率還有一定波動.綜合對比驗證集上損失值和準確率的變化情況,可以看出當學習率為0.000 1時,泛化能力最佳,可以獲得較好的結果.
圖12 學習率對比結果Fig.12 Learning rate comparison results.(a) validation set loss value curve; (b) validation set accuracy curve
為了證明對CeiT 模型一系列改進在提升模型整體性能方面的有效性,在訓練集上進行了消融試驗.方案如表5 所示,其中“I2T 模塊改進”對應1.2 節(jié)Image-to-Tokens 模塊輕量化改進,“LeFF 模塊改進”對應1.3 節(jié);“M3”表示利用MobileNetV3進行底層熔池特征提??;“BNSA”表示MobileNetV3的bneck 模塊改進和結構調整;“DG”表示使用DGCA 模塊替換DWConv 操作;“FI”表示將LeFF模塊中空間復原前與復原后的特征圖進行融合;“C0”表示未熔透樣本對應的識別結果;“C1”表示正常熔透樣本對應的識別結果;“C2”表示燒穿樣本對應的識別結果;“—”表示在改進CeiT 時不使用該策略;“Π”表示在改進CeiT 時使用該策略.
表5 消融試驗結果Table 5 Ablation test results
由表5 試驗結果可知,方案2 利用輕量化網絡MobileNetV3 進行熔池底層特征提取訓練時間降低了20.79%,準確率降低了3.44%,說明輕量型網絡能夠有效降低模型的計算量,但會損失一定的檢測精度;方案3 在方案2的基礎上對MobileNetV3的bneck 模塊進行了改進,并對其結構進行了調整,與方案2 相比訓練時間略有增加,但準確率提高了10.24%,與方案1 相比訓練時間提升12.04%,準確率提升了6.62%,說明對Image-to-Tokens 模塊的輕量化改進有效的提高了模型的綜合能力;與方案1 相比方案4 中Ghost Module、殘差機制、CA注意力模塊的引入有效的提升了模型的識別精度,但訓練時間增加了21.38%;方案5 在方案4的基礎上融合了底層特征與高層語義特征,識別準確率得到了進一步提升.對比方案1、方案3 和方案5,對Image-to-Tokens 模塊和LeFF 模塊的改進均提升了模型的準確率,但方案3 有效降低了訓練時間,方案5 增加了訓練時間.方案6 為提出的改進后模型,即同時使用方案3 和方案5 進行改進,與方案1 相比模型的識別準確率提升了9.74%,訓練時間也縮小了0.31 h.
組合改進策略的模型迭代曲線,如圖13 所示.可以看出,所提模型的損失值更小、收斂速度更快、在驗證集上的識別準確率更高、泛化能力更強,進一步驗證了對CeiT 模型一系列改進的有效性.
圖13 組合改進策略的模型迭代曲線Fig.13 Model iteration curves for combined improvement strategies.(a) Iteration curves of loss values on the training set for different improvement schemes; (b) Iteration curves of the accuracy of different improvement schemes on the validation set
為了綜合評估所提網絡的有效性,將其與改進前的CeiT 網絡、DeiT 網絡、MobileNetV3、ResNet 50 和ShuffleNetV2 模型進行對比試驗.利用測試集上獲得的精確率、召回率、F1 分數(shù)和準確率評估識別效果,使用訓練時間和模型內存占用量評估模型的復雜度,使用識別單個樣本平均時間評估模型的檢測速度.迭代過程中各模型在驗證集上的準確率變化如圖14 所示.從圖14 中可以看出,所提模型與其他模型相比在驗證集上有最高的識別準確率,而DeiT的表現(xiàn)最差.訓練好的各個模型在測試集上的識別效果如表6 所示.由表6 數(shù)據可知,改進的CeiT 模型和ResNet50均獲得了較高的檢測精度,但非輕量化的ResNet50 在訓練時間、模型內存占用量和識別單個樣本平均使用時間要高出很多,無法滿足焊接實時性要求.輕量化網絡ShuffleNetV2和MobileNetV3 訓練時間相當,但MobileNetV3的檢測精度比ShuffleNetV2低,說明在熔池數(shù)據集上ShuffleNetV2 表現(xiàn)更好.DeiT 網絡的檢測精度最差,原因是其需要海量數(shù)據作為支撐,試驗數(shù)據量遠達不到要求,但其訓練時間、模型內存占用量和識別單個樣本平均時間比CeiT 要少.改進的CeiT 網絡與原CeiT 模型相比準確率提高了8.66%,計算復雜度和檢測速度都有了大幅提升.試驗結果表明,所提模型對焊接熔透狀態(tài)的識別取得了最好的效果.
表6 不同模型試驗結果Table 6 Test results of different models
圖14 各對比模型在驗證集上準確率的迭代曲線Fig.14 Iteration curves of the accuracy of each comparison model on the validation set
(1)使用MobileNetV3 作為Image-to-Tokens 模塊的特征提取網絡,能夠縮減網絡模型的參數(shù)量和計算量,有效提升實時檢測性能.
(2)通過Ghost Module、殘差機制、注意力模塊對LeFF 模塊的改進增強了特征間的遠程依賴關系、提升了多尺度特征表達能力、豐富了局部和細節(jié)特征信息.
(3)所提出的模型在試驗數(shù)據集上與改進前的CeiT 網絡、DeiT 網絡、MobileNetV3、ResNet 50 和ShuffleNetV2 模型進行對比,結果表明所提模型獲得了最高的準確率,且檢測速度可以滿足焊接實時性的要求,展現(xiàn)了較好的有效性和魯棒性,為焊接熔透狀態(tài)實時預測提供了新的方法.