劉桂雄,黃堅(jiān)
基于標(biāo)簽預(yù)留Softmax算法的機(jī)器視覺(jué)檢測(cè)鑒別語(yǔ)義分割遷移學(xué)習(xí)技術(shù)
劉桂雄*,黃堅(jiān)
(華南理工大學(xué) 機(jī)械與汽車工程學(xué)院,廣東 廣州 510640)
面向機(jī)器視覺(jué)檢測(cè)鑒別的語(yǔ)義分割卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)模型能識(shí)別、測(cè)量被測(cè)對(duì)象的零部件、尺寸等特征,針對(duì)機(jī)器視覺(jué)檢測(cè)鑒別增加識(shí)別零部件或關(guān)鍵部位的需求,以及進(jìn)一步遷移學(xué)習(xí)會(huì)損失CNN模型部分權(quán)值的問(wèn)題,提出一種基于標(biāo)簽預(yù)留Softmax算法的語(yǔ)義分割遷移學(xué)習(xí)技術(shù)。研究了機(jī)器視覺(jué)檢測(cè)鑒別語(yǔ)義分割遷移學(xué)習(xí)建模方法,分析指出可嘗試選定模型所有權(quán)值的微調(diào)遷移學(xué)習(xí),有助于減小模型初始損失;提出了基于標(biāo)簽預(yù)留Softmax算法的微調(diào)遷移學(xué)習(xí)方法,可實(shí)現(xiàn)檢測(cè)對(duì)象略有不同的模型所有權(quán)值微調(diào)遷移學(xué)習(xí)。在自建數(shù)據(jù)集上的實(shí)驗(yàn)表明,標(biāo)簽預(yù)留微調(diào)遷移學(xué)習(xí)技術(shù)訓(xùn)練模型達(dá)到機(jī)器視覺(jué)檢測(cè)鑒別要求的時(shí)間由42.8 min減少到30.1 min,算法有效、效果明顯;應(yīng)用實(shí)驗(yàn)表明,遷移學(xué)習(xí)技術(shù)可實(shí)現(xiàn)標(biāo)準(zhǔn)件安裝、漏裝、誤裝情況檢測(cè)與裝配質(zhì)量鑒別的半監(jiān)督學(xué)習(xí),新機(jī)箱遷移學(xué)習(xí)的訓(xùn)練時(shí)間不超過(guò)20.2 min,檢測(cè)準(zhǔn)確率達(dá)到100%,能滿足機(jī)箱標(biāo)準(zhǔn)件裝配質(zhì)量檢測(cè)鑒別的需求。
機(jī)器視覺(jué);語(yǔ)義分割;遷移學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);微調(diào)
語(yǔ)義分割機(jī)器視覺(jué)檢測(cè)鑒別方法綜合采用視覺(jué)傳感成像技術(shù)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)語(yǔ)義分割算法模型,識(shí)別和測(cè)量被測(cè)對(duì)象的形狀、尺寸等特征[1-2],按照設(shè)計(jì)文件和質(zhì)量標(biāo)準(zhǔn)評(píng)價(jià)被測(cè)對(duì)象的優(yōu)劣[3]。它與計(jì)算機(jī)視覺(jué)數(shù)據(jù)集的任務(wù)有所不同,需遷移學(xué)習(xí)提高模型準(zhǔn)確率[4]。CNN語(yǔ)義分割模型遷移學(xué)習(xí)把在計(jì)算機(jī)視覺(jué)數(shù)據(jù)集源任務(wù)source上訓(xùn)練的模型,作為在機(jī)器視覺(jué)檢測(cè)鑒別的目標(biāo)任務(wù)target上創(chuàng)建模型的起點(diǎn)[5]。研究表明,CNN模型非常適合于遷移學(xué)習(xí)[6],使用如ImageNet[7]、COCO[8]等大型圖像數(shù)據(jù)集的預(yù)訓(xùn)練模型,能很好地遷移到目標(biāo)任務(wù)中,并有利于提高模型性能[9],主要的遷移學(xué)習(xí)方法有微調(diào)、微調(diào)-凍結(jié)等。微調(diào)策略復(fù)制源模型上除輸出層外模型的結(jié)構(gòu)及參數(shù),向目標(biāo)模型添加輸出層,輸出數(shù)量為目標(biāo)數(shù)據(jù)集中的類別數(shù),并進(jìn)行輸出層參數(shù)的隨機(jī)初始化,在目標(biāo)數(shù)據(jù)集上訓(xùn)練目標(biāo)模型。2019年,浙江大學(xué)研究了一種集成遷移學(xué)習(xí)的軸件表面缺陷檢測(cè)方法,將源網(wǎng)絡(luò)權(quán)值遷移至CNN模型中,建立軸件表面缺陷檢測(cè)模型,在軸件生產(chǎn)現(xiàn)場(chǎng)實(shí)時(shí)檢測(cè)中具有較高的準(zhǔn)確度和魯棒性,缺陷正確檢出率達(dá)97%以上[10]。Fang等研發(fā)的微型工件表面缺陷檢測(cè)系統(tǒng)由光纖定位器、遠(yuǎn)心透鏡系統(tǒng)、矩陣立體光、旋轉(zhuǎn)平臺(tái)與Mask R-CNN模型構(gòu)成,在生產(chǎn)線上不斷連續(xù)微調(diào)遷移學(xué)習(xí)[11]。Xi等研究了一種基于Mask R-CNN齒輪點(diǎn)蝕遷移學(xué)習(xí)方法,在1 500個(gè)齒輪點(diǎn)蝕樣本下進(jìn)行微調(diào)Mask R-CNN模型,實(shí)現(xiàn)多層次點(diǎn)蝕,在不同光照、角度情況下能夠準(zhǔn)確識(shí)別點(diǎn)蝕缺陷[12]。但在識(shí)別對(duì)象發(fā)現(xiàn)變化時(shí)(如增加識(shí)別零部件或關(guān)鍵部位),微調(diào)又需要重新訓(xùn)練輸出層。微調(diào)-凍結(jié)等方法則將微調(diào)訓(xùn)練后的模型,作為特征提取器應(yīng)用到其他場(chǎng)景。王建林等提出了應(yīng)用YOLOv2模型的多類型合作目標(biāo)檢測(cè)方法,采用COCO數(shù)據(jù)集預(yù)訓(xùn)練YOLOv2模型在增強(qiáng)目標(biāo)圖像樣本數(shù)據(jù)集進(jìn)行微調(diào)遷移學(xué)習(xí),并作為特征提取器實(shí)現(xiàn)了三維精密測(cè)量中多類型合作目標(biāo)的檢測(cè)[13]。陳筱等提出了改進(jìn)EfficientNet-B0和EfficientNet-B7模型的遷移學(xué)習(xí)方法,該方法先對(duì)模型進(jìn)行微調(diào),然后作為特征提取器提取眼底圖像實(shí)現(xiàn)特征分類,可輔助診斷[14]。通過(guò)改進(jìn)CNN語(yǔ)義分割模型結(jié)構(gòu),使識(shí)別對(duì)象發(fā)現(xiàn)變化時(shí)模型輸出層權(quán)值也可遷移,不需要隨機(jī)初始化,有助于縮短訓(xùn)練時(shí)間。
本文首先開(kāi)展機(jī)器視覺(jué)檢測(cè)鑒別語(yǔ)義分割遷移學(xué)習(xí)建模研究,分析遷移不同模型參數(shù)構(gòu)成對(duì)損失及準(zhǔn)確率的影響,通過(guò)機(jī)器視覺(jué)檢測(cè)鑒別改進(jìn)語(yǔ)義分割模型結(jié)構(gòu),使模型遷移不再需要調(diào)整,連同Softmax算法權(quán)值均可遷移。
機(jī)器視覺(jué)檢測(cè)鑒別語(yǔ)義分割遷移學(xué)習(xí)目標(biāo)是在平均精度IoU、模型損失CE滿足機(jī)器視覺(jué)檢測(cè)鑒別要求的前提下,降低訓(xùn)練時(shí)間train。設(shè)語(yǔ)義分割網(wǎng)絡(luò)模型CNN在目標(biāo)數(shù)據(jù)集target上進(jìn)行Fine-tuning遷移學(xué)習(xí)的模型初始權(quán)值CNN,在推薦學(xué)習(xí)率配置下通過(guò)train次迭代后,IoU,CE,train分別表示為IoU(train,CNN),CE(train,CNN),train(train,CNN),有:
CNN優(yōu)化是先選定遷移學(xué)習(xí)的模型初始權(quán)值CNN(包括主干網(wǎng)絡(luò)權(quán)值main、密集預(yù)測(cè)網(wǎng)絡(luò)權(quán)值seg和Softmax層權(quán)值cla)構(gòu)成形式,在目標(biāo)數(shù)據(jù)集target下訓(xùn)練網(wǎng)絡(luò),比較不同train下的train和CE,選定出CNN的相對(duì)較佳值。
表1預(yù)訓(xùn)練Mask R-CNN模型Fine-tuning遷移學(xué)習(xí)初始權(quán)值CNN的train和CE
Tab.1 Ttrain and LCE of pre-trained Mask R-CNN model fine-tuning transfer learning initial various weights WCNN
本文在面向語(yǔ)義分割機(jī)器視覺(jué)檢測(cè)鑒別中,target與source的分割任務(wù)相同,識(shí)別對(duì)象略有不同(這里學(xué)習(xí)樣本就是識(shí)別目標(biāo)),可嘗試選定CNN=main∪seg∪cla權(quán)值遷移學(xué)習(xí),不是進(jìn)行分類器Softmax替換,而是進(jìn)行分類器Softmax改進(jìn),使模型在目標(biāo)任務(wù)上的初始損失(train=0時(shí)CE)較小,縮短train。
圖1 基于標(biāo)簽預(yù)留改進(jìn)Softmax算法的Fine-tuning遷移學(xué)習(xí)方法原理
圖2 標(biāo)簽預(yù)留改進(jìn)Softmax算法模型
表2標(biāo)簽預(yù)留改進(jìn)Softmax與典型Softmax算法的參數(shù)比較
Tab.2Parameter comparison of label-reserved and general Softmax algorithms
標(biāo)簽預(yù)留Softmax算法只需修改語(yǔ)義分割模型的頭部網(wǎng)絡(luò)結(jié)構(gòu)(見(jiàn)圖3)。該結(jié)構(gòu)可用于采用ResNet-FPN作為骨干網(wǎng)絡(luò)的Mask R-CNN模型[17]。圖中箭頭表示卷積層、反卷積層或全連接層,具體類型可從輸入輸出特征維度推斷(卷積層保留空間維度、反卷積層增加空間維度、全連接層處理一維數(shù)組)。標(biāo)簽預(yù)留Mask R-CNN模型頭部結(jié)構(gòu)改變了輸出層卷積層的通道數(shù),其中分類輸出通道數(shù)為source+reserved+1,邊界框回歸的輸出通道數(shù)為(source+reserved)×4;掩膜分割輸出特征圖尺寸為28×28,通道數(shù)為(source+reserved)。
圖3 標(biāo)簽預(yù)留Mask R-CNN模型的頭部結(jié)構(gòu)
Fig.3 Head architecture of label-reserved Mask R-CNN
在滿足reserved≥extra>0下,基于標(biāo)簽預(yù)留Softmax算法的Fine-tuning遷移學(xué)習(xí)算法為:
式中e2.718 28。
實(shí)驗(yàn)上位機(jī)的主要硬件為lntel i7-7820X CPU,NVIDIA GeForce GTX 1080Ti GPU,SSD硬盤;軟件環(huán)境為Ubuntu18.04,Python3.6,Pytorch 1.6與Detectron2 0.4.0。選取機(jī)箱裝配數(shù)據(jù)集[19]進(jìn)行語(yǔ)義分割Fine-tuning遷移學(xué)習(xí)實(shí)驗(yàn)。機(jī)箱裝配數(shù)據(jù)集的圖像尺寸為910×454~4 046×1 908 pixel,包含不可擴(kuò)展機(jī)箱、可擴(kuò)展機(jī)箱等子集。實(shí)驗(yàn)選取不可擴(kuò)展機(jī)箱作為源數(shù)據(jù)集source,具有多款不可擴(kuò)展機(jī)箱圖像200個(gè),標(biāo)注了USB3.0,RJ45,CFast,DP,HDMI,COM等14種機(jī)箱標(biāo)準(zhǔn)件(source=14)。可擴(kuò)展機(jī)箱作為目標(biāo)數(shù)據(jù)集target,具有多款可擴(kuò)展機(jī)箱圖像200個(gè),標(biāo)注了19種機(jī)箱標(biāo)準(zhǔn)件(target=19),target比source多的標(biāo)準(zhǔn)件主要包括PCI-E擋板、PCI-E板卡、PCI-E固定槽、PCI-E固定螺紋和SATA托盤等5種。
表3不同遷移學(xué)習(xí)方法的訓(xùn)練時(shí)間
Tab.3 Training time ofdifferent transfer learning methods
將本文方法應(yīng)用于MVAQ2型制造過(guò)程質(zhì)量視覺(jué)檢測(cè)系統(tǒng)中,實(shí)現(xiàn)機(jī)箱標(biāo)準(zhǔn)件裝配質(zhì)量檢測(cè)的無(wú)監(jiān)督自動(dòng)深度學(xué)習(xí),代替原本由領(lǐng)域?qū)<胰斯げ拍芡瓿傻墓ぷ鳎òC(jī)箱標(biāo)準(zhǔn)件特征提取與模式識(shí)別、裝配質(zhì)量檢測(cè)模板構(gòu)建等)。研發(fā)人員只需要選定標(biāo)準(zhǔn)件圖像,系統(tǒng)將自動(dòng)學(xué)習(xí)標(biāo)準(zhǔn)件安裝、漏裝、誤裝等情況,并推廣到標(biāo)準(zhǔn)件裝配質(zhì)量視覺(jué)檢測(cè)鑒別系統(tǒng)中。
圖6 MVAQ2機(jī)箱標(biāo)準(zhǔn)件裝配質(zhì)量檢測(cè)鑒別軟件基本功能框圖
圖6為MVAQ2機(jī)箱標(biāo)準(zhǔn)件裝配質(zhì)量檢測(cè)鑒別軟件基本功能,圖中深色底色表示裝置軟件中應(yīng)用本文遷移學(xué)習(xí)方法的相關(guān)流程及功能。軟件應(yīng)用基于標(biāo)簽預(yù)留Softmax算法的Fine-tuning遷移學(xué)習(xí)方法,具有機(jī)箱標(biāo)準(zhǔn)件裝配質(zhì)量檢測(cè)鑒別學(xué)習(xí)功能,能訓(xùn)練Mask R-CNN語(yǔ)義分割模型學(xué)習(xí)機(jī)箱基準(zhǔn)、標(biāo)準(zhǔn)件,實(shí)現(xiàn)機(jī)箱各面板的基準(zhǔn)、標(biāo)準(zhǔn)件的在線識(shí)別與定位,并依據(jù)裝配技術(shù)要求鑒別每個(gè)裝配位置的工作情況,判斷機(jī)箱裝配質(zhì)量是否合格。
圖7為MVAQ2機(jī)箱標(biāo)準(zhǔn)件裝配質(zhì)量檢測(cè)鑒別系統(tǒng)實(shí)物圖。裝置主要由核心計(jì)算機(jī)、相機(jī)、光源、運(yùn)動(dòng)控制和用戶交互等核心模塊構(gòu)成。其中,光源模塊具有白光漫反射照明,相機(jī)模塊具有機(jī)箱三平面移動(dòng)成像功能,核心計(jì)算機(jī)上搭載異構(gòu)多處理器,提供深度學(xué)習(xí)計(jì)算能力。
圖7 MVAQ2機(jī)箱標(biāo)準(zhǔn)件裝配質(zhì)量檢測(cè)鑒別裝置
圖8 MVAQ2裝置新機(jī)箱學(xué)習(xí)流程
按照?qǐng)D8流程,設(shè)備開(kāi)發(fā)人員標(biāo)注標(biāo)準(zhǔn)件(如DVI、RJ45、RS232、DP等)合格情況圖像,系統(tǒng)學(xué)習(xí)單個(gè)機(jī)箱標(biāo)準(zhǔn)件安裝、漏裝、誤裝情況,直到檢測(cè)準(zhǔn)確率達(dá)到100%時(shí)的人工智能學(xué)習(xí)時(shí)間不超過(guò)20.2 min。
[1] 盧榮勝,吳昂,張騰達(dá),等. 自動(dòng)光學(xué)(視覺(jué))檢測(cè)技術(shù)及其在缺陷檢測(cè)中的應(yīng)用綜述[J]. 光學(xué)學(xué)報(bào), 2018, 38(8): 23-58.
LU R SH, WU A, ZHANG T D,. Review on automated optical (visual) inspection and its applications in defect detection[J]., 2018, 38(8): 23-58. (in Chinese)
[2] 范麗麗,趙宏偉,趙浩宇,等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)研究綜述[J]. 光學(xué)精密工程, 2020, 28(5): 1152-1164.
FAN L L, ZHAO H W, ZHAO H Y,. Survey of target detection based on deep convolutional neural networks[J]., 2020, 28(5): 1152-1164. (in Chinese)
[3] 黃堅(jiān),劉桂雄. 面向機(jī)器視覺(jué)檢測(cè)的CNN語(yǔ)義分割方法進(jìn)展[J]. 激光雜志, 2019, 40(5): 10-16.
HUANG J, LIU G X. The development of CNN-based semantic segmentation method for machine vision detection[J]., 2019, 40(5): 10-16. (in Chinese)
[4] SHI Q, ZHANG Y P, LIU X P,. Regularised transfer learning for hyperspectral image classification[J]., 2019, 13(2): 188-193.
[5] 劉桂雄,黃堅(jiān),劉思洋,等. 面向語(yǔ)義分割機(jī)器視覺(jué)的AutoML方法[J]. 激光雜志, 2019,40(6): 1-9.
LIU G X, HUANG J, LIU S Y,. AutoML method for semantic segmentation of machine vision[J]., 2019, 40(6): 1-9. (in Chinese)
[6] YOSINSKI J, CLUNE J, BENGIO Y,. How transferable are features in deep neural networks?[J/OL].,2014,27. https://arxiv.org/abs/1411.1792v1.
[7] RUSSAKOVSKY O, DENG J, SU H,. ImageNet large scale visual recognition challenge[J]., 2015, 115(3): 211-252.
[8] LIN T Y, MAIRE M, BELONGIE S,. Microsoft COCO: common objects in context[C].2014, 2014: 740-755.
[9] 張雪松,莊嚴(yán),閆飛,等. 基于遷移學(xué)習(xí)的類別級(jí)物體識(shí)別與檢測(cè)研究與進(jìn)展[J]. 自動(dòng)化學(xué)報(bào), 2019, 45(7): 1224-1243.
ZHANG X S, ZHUANG Y, YAN F,. Status and development of transfer learning based category-level object recognition and detection[J]., 2019, 45(7): 1224-1243. (in Chinese)
[10] 馮毅雄,趙彬,鄭浩,等. 集成遷移學(xué)習(xí)的軸件表面缺陷實(shí)時(shí)檢測(cè)[J]. 計(jì)算機(jī)集成制造系統(tǒng), 2019, 25(12): 3199-3208.
FENG Y X, ZHAO B, ZHENG H,. Real-time detection of shaft surface defects based on integrated transfer learning[J]., 2019, 25(12): 3199-3208. (in Chinese)
[11] FANG X, JIE W, FENG T. An industrial micro-defect diagnosis system via intelligent segmentation region[J]., 2019, 19(11): 2636.
[12] XI D J, QIN Y, WANG Y Y. Vision measurement of gear pitting under different scenes by deep mask R-CNN[J]., 2020, 20(15): 4298.
[13] 王建林,付雪松,黃展超,等. 改進(jìn)YOLOv2卷積神經(jīng)網(wǎng)絡(luò)的多類型合作目標(biāo)檢測(cè)[J]. 光學(xué)精密工程, 2020, 28(1): 251-260.
WANG J L, FU X S, HUANG ZH CH,. Multi-type cooperative targets detection using improved YOLOv2 convolutional neural network[J]., 2020, 28(1): 251-260. (in Chinese)
[14] 陳筱,朱向冰,吳昌凡,等. 基于遷移學(xué)習(xí)與特征融合的眼底圖像分類[J]. 光學(xué)精密工程, 2021, 29(2): 388-399.
CHEN X, ZHU X B, WU CH F,. Research on fundus image classification based on transfer learning and feature fusion[J]., 2021, 29(2): 388-399. (in Chinese)
[15] HOIEM D, CHODPATHUMWAN Y, DAI Q Y. Diagnosing error in object detectors[C].2012,:, 2012: 340-353.
[16] HE K M, SUN J. Convolutional neural networks at constrained time cost[C]. 2015()712,2015,,,,2015: 5353-5360.
[17] HE K M, GKIOXARI G, DOLLáR P,. Mask R-CNN[J]., 2020, 42(2): 386-397.
[18] GETTO G, LABRIOLA J T. iFixit myself: user-generated content strategy in 'the free repair guide for everything'[J]., 2016, 59(1): 37-55.
[19] 黃愛(ài)民. 面向標(biāo)準(zhǔn)件機(jī)箱裝配質(zhì)量圖像特征提取與構(gòu)建方法研究[D].廣州:華南理工大學(xué),2017.
HUANG A M.[D]. Guangzhou: South China University of Technology, 2017. (in Chinese)
[20] REBUFFI S A, KOLESNIKOV A, SPERL G,. iCaRL: incremental classifier and representation learning[C]. 2017()2126,2017,,,, 2017: 5533-5542.
Transfer learning techniques for semantic segmentation of machine vision inspection and identification based on label-reserved Softmax algorithms
LIU Guixiong*,HUANG Jian
(,,510640,),:
A convolutional neural network (CNN) model for machine vision inspection and identification can identify and measure the components, size, and other features of an object under test. Herein, a fine-tuning transfer learning technique for semantic segmentation based on a label-reserved softmax algorithm was proposed. First, the transfer learning modeling of semantic segmentation for machine vision inspection and identification was performed. Transferring more CNN model weights would reduce the initial loss of the model. Second, a fine-tuning transfer learning method based on label-reserved softmax algorithms was proposed, which could realize fine-tuning transfer learning with all model weights of slightly different detected objects. Experiments based on custom-developed datasets show that the training time for training models to satisfy the requirements of machine vision inspection and identification is reduced from 42.8 min to 30.1 min. Application experiments show that this transfer learning technique enables semi-supervised learning for the inspection of standard component installation, the inspection of missed and mis-installation cases, and the identification of assembly quality. The training time for the transfer learning of new chassis is less than 20.2 min, and the inspection accuracy reaches 100%. The fine-tuning transfer learning technique is effective and satisfies the requirements of machine vision inspection and identification.
machine vision; semantic segmentation; transfer learning; convolutional neural network(CNN); fine-tuning
TP394.1;TH691.9
A
10.37188/OPE.20223001.0117
1004-924X(2022)01-0117-09
2021-05-16;
2021-07-20.
廣東省重點(diǎn)領(lǐng)域研發(fā)計(jì)劃資助項(xiàng)目(No.2019B010154003);廣州市產(chǎn)業(yè)技術(shù)重大攻關(guān)計(jì)劃資助項(xiàng)目(No.201802030006)
劉桂雄(1968),男,廣東揭陽(yáng)人,教授,博士生導(dǎo)師,1995年于重慶大學(xué)獲得博士學(xué)位,主要從事先進(jìn)傳感與儀器的研究。E-mail:megxliu@scut.edu.cn
黃堅(jiān)(1990),男,廣東揭陽(yáng)人,博士研究生,2009年、2013年于華南理工大學(xué)分別獲得學(xué)士、碩士學(xué)位,主要從事制造過(guò)程機(jī)器視覺(jué)檢測(cè)的研究。E-mail:mehuangjian@mail.scut.edu.cn