肖思哲,劉振國(guó),閆志鴻,李敏,黃及遠(yuǎn)
(1.北京機(jī)械工業(yè)自動(dòng)化研究所,北京, 100120;2.北京工業(yè)大學(xué) 材料與制造學(xué)部,北京, 100124)
在新能源汽車動(dòng)力電池模組制造過(guò)程中,一般采用大功率激光振鏡焊接工藝,實(shí)現(xiàn)電池模組匯流排(Busbar)焊接成組.在焊接過(guò)程中,因焊接工藝參數(shù)波動(dòng)、鋁極柱表面氧化、氣體保護(hù)不充分、Busbar 壓合間隙過(guò)大等原因,導(dǎo)致產(chǎn)生虛焊、氣孔、夾渣、斷焊、發(fā)黑等焊接缺陷,這些缺陷對(duì)電池的安全性造成了嚴(yán)重影響,極易引發(fā)電池包(Pack)起火.針對(duì)上述焊接缺陷,如何從工藝源頭上實(shí)現(xiàn)“早診斷、早發(fā)現(xiàn)、早處理”成為當(dāng)前亟需解決的質(zhì)量問(wèn)題.近年來(lái),基于計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的缺陷檢測(cè)方法得到了廣泛關(guān)注,目前,深度學(xué)習(xí)技術(shù)取得了快速的發(fā)展,該技術(shù)也開(kāi)始被應(yīng)用到了焊接缺陷的檢測(cè)中.深度學(xué)習(xí)預(yù)測(cè)的準(zhǔn)確性強(qiáng)烈地依賴于大數(shù)據(jù),然而平衡的焊接缺陷大數(shù)據(jù)卻較難獲取.對(duì)于廣大研究人員來(lái)說(shuō),缺少數(shù)據(jù)集是一個(gè)共性問(wèn)題.在焊縫缺陷領(lǐng)域使用較廣泛的是由Mery D 等人[1]提出的GDXray-weld 數(shù)據(jù)集,但該數(shù)據(jù)集主要收集了焊縫內(nèi)部缺陷,且數(shù)量并不多.而對(duì)于焊接表面缺陷,尚無(wú)權(quán)威的公開(kāi)數(shù)據(jù)集發(fā)布.在實(shí)際生產(chǎn)場(chǎng)景中,收集獲取種類齊全的數(shù)據(jù)集,存在諸多不便,且費(fèi)時(shí)耗力.基于小樣本且不均衡數(shù)據(jù)集的缺陷檢測(cè)成為現(xiàn)在研究的難點(diǎn)和熱點(diǎn).
為此,研究人員提出了一系列解決方法,主要有3 種.第一,采用傳統(tǒng)圖像增強(qiáng)手段,通過(guò)對(duì)圖像進(jìn)行翻轉(zhuǎn)、折疊、仿射變換、對(duì)比度調(diào)整等方法盡可能地?cái)U(kuò)充有限的數(shù)據(jù)集.第二,由Zhang 等人[2]提出的mixup 算法,通過(guò)對(duì)不同圖片像素和標(biāo)簽進(jìn)行一定比例的混合提升數(shù)據(jù)集的特征多樣性.第三,生成對(duì)抗網(wǎng)絡(luò)[3]可以在原有特征的基礎(chǔ)上生成新的特征,從而有效地?cái)U(kuò)展特征空間的多樣性,所以也被用來(lái)擴(kuò)展數(shù)據(jù)集.黃旭豐[4]利用DeliGAN[5]對(duì)GDXray-weld 數(shù)據(jù)集進(jìn)行增廣,生成了32 × 32像素的焊接缺陷圖片.谷靜等人[6]利用DCGAN[7]對(duì)某車間內(nèi)部的焊接缺陷進(jìn)行數(shù)據(jù)增強(qiáng),得到了64 ×64 的缺陷圖片.從上述研究來(lái)看,由于受焊接缺陷特征復(fù)雜度較低以及小樣本的限制,傳統(tǒng)圖像增強(qiáng)以及mixup 等方案起不到很好的效果.而使用生成對(duì)抗網(wǎng)絡(luò)擴(kuò)展數(shù)據(jù)集的方法,也由于數(shù)據(jù)集的限制,存在模型不穩(wěn)定、生成圖像質(zhì)量不高等問(wèn)題.
針對(duì)以上問(wèn)題,結(jié)合焊接缺陷特征復(fù)雜度以及樣本數(shù)量的限制,文中基于由Karras 等人[8]提出的針對(duì)有限數(shù)據(jù)集的stylegan2-ada,引入優(yōu)化后的mixup 結(jié)構(gòu)—OCM(one class mixup),提出了OCMstylegan2-ada 算法.該算法進(jìn)一步減小數(shù)據(jù)集規(guī)模,增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)魯棒性,提升生成圖片質(zhì)量.OCM-stylegan2-ada 只輸入單類圖片,保證生成圖像的特征分布最大限度地符合該類已有數(shù)據(jù)集圖像特征分布.
最后,通過(guò)對(duì)比原始數(shù)據(jù)集、mixup數(shù)據(jù)集、stylegan2-ada數(shù)據(jù)集、OCM-stylegan2-ada數(shù)據(jù)集在MobileNetV3 上的表現(xiàn),研究不同方法對(duì)小樣本、不均衡焊接缺陷數(shù)據(jù)集改善情況.
生成對(duì)抗網(wǎng)絡(luò)[7]主要由生成器和判別器組成,是根據(jù)零和博弈思想,由生成器和判別器不停博弈最終達(dá)到納什均衡的一種生成模型.生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)為
式中:G代表生成器;D代表判別器.生成器對(duì)輸入圖片加入隨機(jī)噪聲并交由判別器判斷,再由判別器反饋給生成器,并且將生成圖片逐漸優(yōu)化為接近真實(shí)訓(xùn)練集分布的圖片.生成器和判別器一起迭代直至判別器無(wú)法判斷所生成圖片的真假時(shí),生成對(duì)抗網(wǎng)絡(luò)達(dá)到最優(yōu).
由NVIDIA 公司提出的stylegan[9]、stylegan2[10]在其自建的高清人臉數(shù)據(jù)集上取得了很好的生成效果.這很大一部分原因可歸功于大樣本、高質(zhì)量的數(shù)據(jù)集,但是這種高質(zhì)量數(shù)據(jù)集獲取難度很高.針對(duì)這種情況,Karras 等人[8]在stylegan2 的基礎(chǔ)上進(jìn)行了優(yōu)化調(diào)整.
如圖1 所示,stylegan2-ada 在bCR(balanced consistency regularization)的基礎(chǔ)上去掉了一致性正則項(xiàng),同時(shí)在生成器和判別器之前都增加了數(shù)據(jù)增強(qiáng)模塊(Aug).而該模型可以通過(guò)ada(adaptive discriminator augmentation)方法自主選定圖像增強(qiáng)的概率P,選定的概率P可以調(diào)整圖像旋轉(zhuǎn)角度、特定范圍內(nèi)調(diào)整色差,且人臉特征復(fù)雜度較高,所以簡(jiǎn)單的數(shù)據(jù)增強(qiáng)模塊是有效的,在一定程度上提高了生成圖像的質(zhì)量.
圖1 Stylegan2-ada 與OCM-stylegan2-ada 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比Fig.1 Comparison of Stylegan2-ada and OCM-stylegan2-ada network structures.(a) Stylegan2-ada; (b) OCMstylegan2-ada
但是,當(dāng)數(shù)據(jù)集規(guī)模進(jìn)一步變小、應(yīng)用場(chǎng)景轉(zhuǎn)為低特征復(fù)雜度的工業(yè)場(chǎng)景時(shí),Aug 模塊增強(qiáng)作用并不明顯,這就要求模型在有限范圍內(nèi)對(duì)數(shù)據(jù)特征做出幅度更大的調(diào)整.
經(jīng)過(guò)試驗(yàn)驗(yàn)證,mixup 可以很好的擴(kuò)展圖像特征、增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)的魯棒性.類間風(fēng)格混合的圖片和標(biāo)簽可表示為
式中:x 代表圖像、y 代表對(duì)應(yīng)圖像的標(biāo)簽.
但是針對(duì)現(xiàn)有的小樣本場(chǎng)景,類間混合會(huì)導(dǎo)致生成的缺陷同時(shí)帶有多個(gè)缺陷特征情況,進(jìn)而對(duì)生成圖像的質(zhì)量、以及分類模型的性能造成影響.同時(shí),將所有類別的圖片輸入到生成對(duì)抗網(wǎng)絡(luò)時(shí),不僅生成的圖片種類不確定,數(shù)據(jù)集的不均衡性也很難改善.
針對(duì)以上問(wèn)題,文中優(yōu)化了stylegan2-ada 的整體結(jié)構(gòu),如圖1b 所示,設(shè)計(jì)了一個(gè)新的OCM(One class mixup)模塊,將其作為Aug 的前置模塊加入到模型中.將mixup 類間風(fēng)格混合修改為類內(nèi)風(fēng)格混合,同時(shí)去掉了標(biāo)簽的混合.考慮到焊接缺陷數(shù)據(jù)集的使用場(chǎng)景和特征復(fù)雜度,程序內(nèi)部新設(shè)定了R(mixture rate),S(mixture scale)兩個(gè)參數(shù)來(lái)補(bǔ)充Aug 中數(shù)據(jù)增強(qiáng)概率p對(duì)整體的作用.其中R即為式(2),式(3)中的p值,一般設(shè)定為0.8;S取值范圍為0.5 到1,與輸入數(shù)據(jù)集的大小成反比,即輸入數(shù)據(jù)集規(guī)模越小S的值越大,即
OCM 模塊還調(diào)整了輸入模型中的初始隨機(jī)噪聲.即
式中:R為OCM 的數(shù)據(jù)增強(qiáng)概率,P為隨機(jī)噪聲,P*為輸入模型的初始噪聲.OCM 模塊將類內(nèi)混合的一部分(1?R)xj和隨機(jī)噪聲P相疊加作為初始的噪聲輸入到模型中,不僅減少了訓(xùn)練時(shí)間,還使加入噪聲的分布更加接近數(shù)據(jù)集的分布.
激光焊接缺陷數(shù)據(jù)集取自國(guó)內(nèi)某新能源汽車動(dòng)力電池企業(yè),共有700 張256 × 256 像素缺陷圖片.圖2a 為正常焊縫(normal),圖2b 為孔洞(porosity),圖2c 為未焊透(lack of penetration),圖2d 為發(fā)黑(black).其中圖2d 因焊接保護(hù)氣不足而產(chǎn)生,發(fā)生概率約為其它缺陷的一半,且此缺陷和孔洞特征較為相似常發(fā)生缺陷類型誤檢.為此,試驗(yàn)部分重點(diǎn)選取發(fā)黑缺陷進(jìn)行生成、分析與驗(yàn)證.
圖2 激光焊接缺陷Fig.2 Laser welding defects.(a) normal; (b) porosity;(c) lack of penetration; (d) black
圖3 為不同算法生成發(fā)黑缺陷圖片的對(duì)比.圖3a 是從數(shù)據(jù)集中選取的原始圖片;圖3b 是利用mixup 算法將發(fā)黑和其它缺陷隨機(jī)混合后的圖像;圖3c 是stylegan2-ada 生成的圖像;圖3d,3e,3f 均為OCM-stylegan2-ada 生成的圖像.
圖3 不同算法生成圖片對(duì)比Fig.3 Different algorithms generated image comparisons.(a) Original image; (b) Mixup; (c) Stylegan2-ada; (d) OCM-stylegan2-ada; (e) OCM-stylegan2-ada; (f) OCM-stylegan2-ada
從上述圖片可見(jiàn),stylegan2-ada 生成的圖像存在失真的情況.而OCM-stylegan2-ada 生成的圖像則在保留焊縫特征基本不變的情況下,對(duì)缺陷進(jìn)行了微調(diào).在實(shí)際生成效果更接近真實(shí)缺陷的同時(shí),對(duì)該類缺陷進(jìn)一步增廣.
對(duì)OCM-stylegan2-ada 的驗(yàn)證分為兩個(gè)部分.第一部分為OCM 結(jié)構(gòu)對(duì)模型收斂速度以及魯棒性的驗(yàn)證;第二部分為OCM-stylegan2-ada 生成的數(shù)據(jù)集對(duì)分類模型性能的提升.
3.1.1 生成對(duì)抗網(wǎng)絡(luò)收斂效果
為了更加直觀地觀察OCM 結(jié)構(gòu)對(duì)模型收斂效果的影響,采用FID(Frechet Inception Distance)作為評(píng)價(jià)指標(biāo)[11].它是近年來(lái)評(píng)價(jià)生成對(duì)抗模型最常用的指標(biāo)之一.它是一種計(jì)算真實(shí)圖像和生成圖像的特征向量之間距離的度量.具體為
式中有下標(biāo)的參數(shù)代表生成圖像,無(wú)下標(biāo)的參數(shù)代表真實(shí)圖像,m為特征均值,C為協(xié)方差矩陣.
3.1.2 分類模型性能
數(shù)據(jù)集主要服務(wù)于焊接缺陷分類任務(wù),所以評(píng)價(jià)生成圖像質(zhì)量最好的方法就是驗(yàn)證其對(duì)于分類模型性能的提升.試驗(yàn)選用Howard 等人[12]提出的MobileNetV3 作為驗(yàn)證網(wǎng)絡(luò),延續(xù)了MobileNetV1[13]的深度可分離卷積和MobilenetV2[14]的具有線性瓶頸的逆殘差結(jié)構(gòu),加入了MnasNet 的基于squeeze and excitation 結(jié)構(gòu),還將原有的swish 激活函數(shù)修改為h-swish,從而減少了計(jì)算量.
對(duì)于分類模型來(lái)說(shuō),其性能的評(píng)價(jià)指標(biāo)一般采用混淆矩陣的4 個(gè)值衡量,分別為TP(true positive),F(xiàn)P(false positive),F(xiàn)N(false negative),TN(true negative).根據(jù)這4 個(gè)值就可以計(jì)算出評(píng)價(jià)分類模型的指標(biāo),試驗(yàn)選用準(zhǔn)確率和ROC (receiver operating characteristic)曲線兩種方式評(píng)價(jià)模型性能.
準(zhǔn)確率指分類正確的樣本數(shù)和分類總數(shù)之比,是最常用的評(píng)價(jià)指標(biāo),可以總體上衡量分類模型的性能,計(jì)算公式為
ROC 指接收者操作特征(receiver operating characteristic),ROC的橫軸為FPR(false positive rate)即
FPR 指實(shí)例中的負(fù)例占所有負(fù)例的比例.ROC 的縱軸為TPR(true positive rate)與召回率(recall)的計(jì)算公式一致.即
ROC 曲線如圖4 所示,AUC 是ROC 曲線下的面積,其數(shù)值和分類器性能成正比,可以作為直觀的分類器評(píng)價(jià)指標(biāo),AUC 最大值為1,最小值為0.當(dāng)AUC 等于0.5時(shí),則可以認(rèn)為該模型訓(xùn)練無(wú)效,相當(dāng)于一個(gè)隨機(jī)事件.
圖4 ROC 曲線示意圖Fig.4 ROC curve diagram
3.2.1 測(cè)試集設(shè)置
為了保證驗(yàn)證結(jié)果的準(zhǔn)確性,測(cè)試集需要保證以下3 點(diǎn):
(1)測(cè)試集不能和生成對(duì)抗網(wǎng)絡(luò)的輸入圖片有交叉;
(2)測(cè)試集的圖片必須是真實(shí)圖片而不能是生成的圖片;
(3)測(cè)試集中缺陷種類的分布要和真實(shí)分布一致.
3.2.2 試驗(yàn)數(shù)據(jù)
試驗(yàn)分別采用原始數(shù)據(jù)集、mixup 數(shù)據(jù)集、stylegan2-ada 數(shù)據(jù)集、OCM0-stylegan2-ada 數(shù)據(jù)集、OCM1-stylegan2-ada 數(shù)據(jù)集進(jìn)行對(duì)比驗(yàn)證.其中OCM0 輸入模型的噪聲為隨機(jī)噪聲,OCM1 采用式(5)作為輸入模型的初始噪聲.
如圖5 所示,stylegan2-ada 訓(xùn)練過(guò)程不穩(wěn)定,在第300 個(gè)迭代點(diǎn)之后發(fā)散.OCM-stylegan-ada 在訓(xùn)練后期逐漸達(dá)到收斂.且當(dāng)OCM 結(jié)構(gòu)采用了式(5)作為初始隨機(jī)輸入噪聲時(shí),收斂更快.
圖5 不同生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練對(duì)比Fig.5 Different GANs training comparisons
因受數(shù)據(jù)集規(guī)模限制,試驗(yàn)對(duì)每個(gè)數(shù)據(jù)集均訓(xùn)練100 個(gè)周期迭代輪次.
圖6 是MobileNetV3 在不同數(shù)據(jù)集上訓(xùn)練時(shí)的準(zhǔn)確率圖,可以發(fā)現(xiàn)使用生成對(duì)抗網(wǎng)絡(luò)增強(qiáng)后的數(shù)據(jù)集能夠更快地收斂,而且在訓(xùn)練過(guò)程中模型也更加穩(wěn)定.
圖6 訓(xùn)練時(shí)識(shí)別發(fā)黑的準(zhǔn)確率Fig.6 Accuracy in spotting black during training
表1 是訓(xùn)練好的模型在測(cè)試集上的準(zhǔn)確率,可以發(fā)現(xiàn)原始數(shù)據(jù)集整體的準(zhǔn)確率為66.1%,由于發(fā)黑和孔洞十分相似,且數(shù)據(jù)集不均衡,所以二者經(jīng)常相互誤檢導(dǎo)致準(zhǔn)確率都不高.經(jīng)過(guò)Mixup 之后的數(shù)據(jù)集整體準(zhǔn)確率有所提高,但是未焊透識(shí)別準(zhǔn)確率有所降低.由于Mixup 為類間風(fēng)格混合,故導(dǎo)致了在某種情況下,兩種不同缺陷的特征重疊在一起.而分類網(wǎng)絡(luò)最終輸出是唯一的,降低了網(wǎng)絡(luò)的性能.
表1 中stylegan2-ada 生成的數(shù)據(jù)集雖然相比原始數(shù)據(jù)集性能有所提升,但是由于其結(jié)構(gòu)不太適合小樣本情況下生成焊接缺陷,所以生成圖片存在失真的情況,這就導(dǎo)致孔洞這一類缺陷很難識(shí)別出來(lái).而經(jīng)過(guò)OCM-stylegan2-ada 所生成的數(shù)據(jù)集訓(xùn)練的模型,在測(cè)試集上的表現(xiàn)要優(yōu)于前3 個(gè)數(shù)據(jù)集.該模型對(duì)于生成焊接缺陷圖片效果較好,如圖4所示,證明OCM 結(jié)構(gòu)可以有效地提高生成圖片的質(zhì)量,解決小樣本和不均衡數(shù)據(jù)集帶來(lái)的問(wèn)題.
為了使試驗(yàn)結(jié)果更加可靠試驗(yàn)還使用了AUC 值來(lái)測(cè)試模型的性能.由于AUC 值同時(shí)考慮了正負(fù)兩類的情況,所以即使在數(shù)據(jù)不均衡時(shí)也可以直觀地顯示模型的性能.如表2 所示,AUC 值反應(yīng)的模型性能和表1 所反映的情況基本一致,OCM-stylegan2-ada 生成的數(shù)據(jù)集可以有效改善不均衡數(shù)據(jù)集,提升分類模型性能.
表1 不同數(shù)據(jù)集的測(cè)試準(zhǔn)確率Table 1 Test accuracy of different datasets
表2 不同數(shù)據(jù)集的AUC 值Table 2 AUC values of different datasets
表1、表2 中OCM0 和OCM1 兩類數(shù)據(jù)集在分類模型上的表現(xiàn)相差不大,這是由于改變初始隨機(jī)噪聲雖然會(huì)加快生成對(duì)抗網(wǎng)絡(luò)的收斂速度,但是對(duì)于生成圖像的質(zhì)量并沒(méi)有太大的影響,如圖7 所示.
圖7 OCM0 和OCM1 生成圖片對(duì)比Fig.7 OCM0 and OCM1 generated image comparisons(a) OCM0-stylegan2-ada; (b) OCM1-stylegan2-ada
(1)試驗(yàn)提出的OCM 模塊可以顯著提升生成對(duì)抗網(wǎng)絡(luò)的性能,可使生成對(duì)抗網(wǎng)絡(luò)更加穩(wěn)定,生成圖像質(zhì)量更高.OCM 嵌入到生成對(duì)抗網(wǎng)絡(luò)中,可使模型更好地適應(yīng)數(shù)據(jù)集缺少的情況,從而使生成的圖像特征分布更加均勻和真實(shí).
(2) OCM 結(jié)構(gòu)還可以將初始隨機(jī)噪聲和一定比例的特定缺陷特征重新組合成輸入生成對(duì)抗網(wǎng)絡(luò)的初始噪聲.這樣做雖然無(wú)法生成更真實(shí)的數(shù)據(jù)集,但是有助于加速模型收斂.
(3)在焊接缺陷圖像領(lǐng)域,焊縫和缺陷的關(guān)系就是整體和部分、粗粒度和細(xì)粒度之間關(guān)系.本文改進(jìn)的GAN 模型可以保證圖像在粗粒度(焊縫形狀)不變的基礎(chǔ)上,對(duì)細(xì)粒度(缺陷細(xì)節(jié))進(jìn)行修改,符合優(yōu)化不均衡數(shù)據(jù)集的要求.