王占云,閆志華
(鄭州大學(xué)機(jī)械工程學(xué)院,河南 鄭州 450001)
目前流水生產(chǎn)線上產(chǎn)品在線自動(dòng)計(jì)數(shù)裝置一般采用光電傳感技術(shù),這類裝置通常只能用于種類單一、擺放有序的生產(chǎn)線的在線自動(dòng)計(jì)數(shù)。而對(duì)于多品種混線生產(chǎn),產(chǎn)品擺放隨意的生產(chǎn)線的產(chǎn)品計(jì)數(shù),目前多采用人工完成,產(chǎn)量較大時(shí),人工統(tǒng)計(jì)難免出現(xiàn)差錯(cuò),從而造成浪費(fèi)。針對(duì)這一問題,以某搪瓷企業(yè)燒成生產(chǎn)線為研究對(duì)象,研究了一種基于深度學(xué)習(xí)的機(jī)器智能分類統(tǒng)計(jì)方法,實(shí)現(xiàn)了對(duì)多類產(chǎn)品混線生產(chǎn)情況下的自動(dòng)分類統(tǒng)計(jì)。近年來,深度學(xué)習(xí)是圖像識(shí)別中應(yīng)用最廣泛的一個(gè)領(lǐng)域,基于深度學(xué)習(xí)的各種模型層出不窮,其中深度神經(jīng)網(wǎng)絡(luò)(DNN)是當(dāng)前最主流的模型。該模型大多數(shù)使用顯卡廠商N(yùn)Vidia推出的通用并行計(jì)算架構(gòu)CUDA進(jìn)行GPU加速運(yùn)算,在保證識(shí)別準(zhǔn)確率的同時(shí)縮減了運(yùn)行時(shí)間,極大的提高了運(yùn)行效率。在深度卷積網(wǎng)絡(luò)模型的算法中,對(duì)多目標(biāo)圖像的識(shí)別效果最好的是fasterR-CNN算法,它能在較短的時(shí)間內(nèi)完成對(duì)多目標(biāo)圖像的快速定位。研究方法以fasterRCNN為基礎(chǔ),首先從工業(yè)攝像頭獲取圖像,然后利用fasterR-CNN對(duì)圖像中的產(chǎn)品進(jìn)行定位,提取其位置信息,再用含有ROI池化層的深度卷積網(wǎng)絡(luò)對(duì)工業(yè)圖像進(jìn)行分類識(shí)別和統(tǒng)計(jì)[1-5]。
分類統(tǒng)計(jì)方法首先用faster R-CNN算法提取圖像中目標(biāo)位置,之后用改進(jìn)的深度卷積網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行分類識(shí)別,共包含圖像獲取、目標(biāo)定位、目標(biāo)分類三部分,其過程,如圖1所示。
圖1 分類檢測(cè)結(jié)構(gòu)圖Fig.1 Structure Chart of Classified Detection
首先利用工業(yè)攝像頭獲得生產(chǎn)線上在制品圖像。在研究中,利用光電傳感裝置,當(dāng)懸掛在輸送機(jī)上的吊籃通過時(shí),觸發(fā)攝像頭,獲得吊籃上的在制品圖像,并傳送回計(jì)算機(jī)進(jìn)行處理。
產(chǎn)品定位采用faster R-CNN算法實(shí)現(xiàn),該算法對(duì)產(chǎn)品的候選區(qū)域進(jìn)行提取和類型識(shí)別,把不需要的候選區(qū)域作背景處理,保留需要的產(chǎn)品區(qū)域信息。Faster R-CNN引用區(qū)域生成網(wǎng)絡(luò)RPN對(duì)產(chǎn)品候選區(qū)進(jìn)行選擇和定位,在輸出端輸出產(chǎn)品區(qū)域位置信息和目標(biāo)所屬類型,其過程,如圖2所示。
在區(qū)域生成網(wǎng)絡(luò)RPN中,輸入與輸出的對(duì)應(yīng)關(guān)系為:
式中:輸入圖像為 x,輸出為 XPart1∈Ru×v@r,表示輸出 r為 u×v個(gè)尺寸的特征圖,θPart1—待學(xué)習(xí)參數(shù)。
之后結(jié)合RPN的輸出,得到faster R-CNN網(wǎng)絡(luò)的輸入與輸出關(guān)系如下:
圖2 Faster R-CNN網(wǎng)絡(luò)Fig.2 Faster R-CNN Network
深度卷積網(wǎng)絡(luò)的輸入要求圖像尺寸相同,而輸入深度卷積網(wǎng)絡(luò)的圖像包括faster R-CNN提取的不同尺寸的產(chǎn)品區(qū)域圖像和生產(chǎn)線上的攝像頭以及工廠用數(shù)碼相機(jī)拍攝的不同尺寸的樣本照。對(duì)于尺寸不同的圖像,傳統(tǒng)的方法是將圖像縮放到大小相同的尺寸,但這樣容易造成圖像信息的丟失[6]。改進(jìn)的深度卷積網(wǎng)絡(luò)是在深度卷積網(wǎng)絡(luò)中添加一個(gè)RoI池化層,歸一化輸入全連接層的輸入特征尺寸。該網(wǎng)絡(luò)的輸入為樣本圖像和樣本圖像的產(chǎn)品位置信息,其中樣本圖像輸入卷積網(wǎng)絡(luò)進(jìn)行特征提取,產(chǎn)品位置信息通過卷積網(wǎng)絡(luò)的映射機(jī)制映射到最后一層公共卷積層上,之后用ROI池化層對(duì)特征圖上目標(biāo)區(qū)域的特征進(jìn)行尺度歸一化處理[7],使其轉(zhuǎn)化為固定長(zhǎng)度的特征向量,然后將特征向量輸入softmax分類器進(jìn)行分類識(shí)別[8]。ZF5模型,如圖3所示。(圖中的RoI-pooling層的13×13為固定尺寸,不隨輸入尺寸的改變而改變),輸入的產(chǎn)品位置信息為[x,y,w,h,n],最后一層公共卷積層中產(chǎn)品區(qū)域位置信息為[x′,y′,w′,h′,n],n1、n2為 Pool1 和 Pool2 的滑窗尺寸,則兩者的映射關(guān)系為:
深度卷積網(wǎng)絡(luò)中輸入與輸出之間的關(guān)系如下:
式中:part—映射后的產(chǎn)品區(qū)域位置信息。
圖3 改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)ZF5模型Fig.3 The Model of Improved Depth Convolution Neural
分類器的參數(shù)表達(dá)如下:
式中:K—產(chǎn)品的種類數(shù);y—圖像中產(chǎn)品的種類標(biāo)簽。
本分類統(tǒng)計(jì)方法主要用于工業(yè)生產(chǎn)中多類混線產(chǎn)品的分類記數(shù),選擇成套搪瓷品為實(shí)驗(yàn)對(duì)象,它在生產(chǎn)線上有多種類和混線生產(chǎn)的特點(diǎn)。圖像的來源分為三類:工業(yè)攝像頭拍攝的搪瓷品套件,數(shù)碼相機(jī)在不同環(huán)境下拍攝的搪瓷品以及數(shù)碼相機(jī)拍攝的樣本照。采用VOC 2007數(shù)據(jù)集的格式以及評(píng)價(jià)算法工具,將原始圖像樣本制作為VOC 2007數(shù)據(jù)集格式并添加自定義標(biāo)簽,作為fasterR-CNN網(wǎng)絡(luò)和改進(jìn)深度卷積網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集,圖像為jpg格式。搪瓷品圖片共收集到755幅,包括生產(chǎn)線上的搪瓷品112幅、其他環(huán)境下的搪瓷品613幅以及樣本照30幅,為了擴(kuò)充數(shù)據(jù)集,將一些圖像向右鏡像和向下鏡像處理,并添加相應(yīng)標(biāo)簽信息,最終得到數(shù)據(jù)集2154幅,標(biāo)簽共6792個(gè)。部分搪瓷品圖像樣本,如圖4所示。
圖4 原始輸入圖像樣本Fig.4 Original Input Image Sample
硬件配置:處理器Inteli5-4210M@2.60GHz,GPU顯卡Nvidia GeForce GTX 960(2G),內(nèi)存 8G(DRR3L 1600MHz)
軟件配置:Win10 64位操作系統(tǒng),編程軟件Matlab2014a和VS2013,CUDA7.5數(shù)據(jù)庫(kù)。
該分類統(tǒng)計(jì)方法需要對(duì)faster R-CNN的網(wǎng)絡(luò)和改進(jìn)的深度卷積網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練調(diào)參,使該方法能夠?qū)μ麓善返奶卣鬟M(jìn)行提取和識(shí)別分類。首先對(duì)fasterR-CNN的網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,這里fasterR-CNN的網(wǎng)絡(luò)選用ZF5和VGG16兩種模型,把模型中的多分類改為二分類模式(即搪瓷品和其他),提高訓(xùn)練的精度和識(shí)別率。其中ZF5模型設(shè)置,如圖3所示。VGG16模型參數(shù)設(shè)置如下:該網(wǎng)絡(luò)包括13層卷積層、5層池化層和3層全連接層,在卷積層所有卷積核均為3*3大小,步長(zhǎng)為1,池化層的滑動(dòng)窗口為2*2大小,步長(zhǎng)為2。兩個(gè)模型的學(xué)習(xí)率均設(shè)置為0.01,迭代次數(shù)設(shè)置為20000次。在訓(xùn)練中訓(xùn)練樣本占80%,測(cè)試樣本占20%。預(yù)訓(xùn)練采用交替訓(xùn)練的方法,首先用在ImgNet預(yù)訓(xùn)練的模型進(jìn)行參數(shù)初始化,訓(xùn)練RPN網(wǎng)絡(luò);然后用RPN上提取的候選框訓(xùn)練FastR-CNN網(wǎng)絡(luò)參數(shù);之后固定共享卷積層,用訓(xùn)練好的fastR-CNN重新訓(xùn)練RPN網(wǎng)絡(luò),訓(xùn)練完成后再用RPN網(wǎng)絡(luò)的候選框微調(diào)fastR-CNN,如此交替優(yōu)化來訓(xùn)練faster R-CNN的網(wǎng)絡(luò)參數(shù),直至收斂為止[9]。Faster R-CNN預(yù)訓(xùn)練完成后,VGG16模型的搪瓷品位置信息提取效果,如圖5所示。生產(chǎn)線上搪瓷品識(shí)別過程,如圖6所示。
圖5 faster R-CNN區(qū)域定位結(jié)果Fig.5 The Results of Faster R-CNN Regional Positioning
圖6 生產(chǎn)線上搪瓷品識(shí)別過程Fig.6 Enamel Identification of Production Line
改進(jìn)的深度卷積網(wǎng)絡(luò)訓(xùn)練時(shí),需要輸入單件搪瓷品的圖像,因此訓(xùn)練集選用數(shù)碼相機(jī)拍攝的簡(jiǎn)單背景下的單件搪瓷品圖像和搪瓷品樣本照。待識(shí)別的搪瓷品分為4類,共有4種標(biāo)簽:大搪瓷盆、大搪瓷蓋、小搪瓷盆、小搪瓷蓋。深度卷積網(wǎng)絡(luò)選用ZF5和VGG16兩種模型,網(wǎng)絡(luò)模型參數(shù)設(shè)置同faster R-CNN一樣,學(xué)習(xí)率設(shè)置為0.01,迭代次數(shù)設(shè)為6000次。選用已經(jīng)訓(xùn)練好的faster R-CNN共享卷積層的參數(shù)進(jìn)行初始化,用反向傳播算法對(duì)softmax分類器和卷積網(wǎng)絡(luò)進(jìn)行微調(diào)。在訓(xùn)練過程中發(fā)現(xiàn),VGG16模型比ZF5模型的損失率低,而且VGG16訓(xùn)練時(shí)的收斂速度更快。
在faster R-CNN搪瓷品區(qū)域位置信息提取階段,用不同模型和訓(xùn)練樣本進(jìn)行實(shí)驗(yàn),來驗(yàn)證卷積網(wǎng)絡(luò)深度和樣本集大小對(duì)識(shí)別精度的影響,實(shí)驗(yàn)結(jié)果,如表1所示。準(zhǔn)確率為四次試驗(yàn)的平均值。
表1 Faster R-CNN在不同網(wǎng)絡(luò)模型和不同樣本下的識(shí)別準(zhǔn)確率Tab.1 Accuracy of Faster R-CNN Recognition Under Different Network Models and Different Number of Samples
在改進(jìn)的深度卷積網(wǎng)絡(luò)訓(xùn)練中,用傳統(tǒng)的縮放輸入圖像尺寸后輸入卷積網(wǎng)絡(luò)的方法,與本方法進(jìn)行對(duì)比,采用不同的模型進(jìn)行識(shí)別對(duì)比,實(shí)驗(yàn)結(jié)果,如表2所示。準(zhǔn)確率為四次試驗(yàn)平均值。
表2 不同深度卷積網(wǎng)絡(luò)在ZF5和VGG16模型下的識(shí)別準(zhǔn)確率Tab.2 Identification Accuracy of Convolutional Networks with Different Depths in ZF5 and VGG16 Models
預(yù)訓(xùn)練完成后,用不同的faster R-CNN和深度卷積網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果,如表3所示。
表3 不同模型組合網(wǎng)絡(luò)的分類準(zhǔn)確率和運(yùn)行時(shí)間Tab.3 Classification Accuracy and Running Time of Different Model Combinations
實(shí)驗(yàn)結(jié)果表明,在產(chǎn)品定位階段,適當(dāng)增加樣本量和增加網(wǎng)絡(luò)卷積層的深度,可以提高faster R-CNN提取搪瓷品位置區(qū)域的準(zhǔn)確率;在產(chǎn)品分類階段,深度卷積網(wǎng)絡(luò)中加入RoI池化層,可以提高卷積網(wǎng)絡(luò)的分類準(zhǔn)確率;整個(gè)分類統(tǒng)計(jì)方法中使用VGG16模型,識(shí)別率到達(dá)83.7%,每秒鐘可以處理3張圖像,滿足實(shí)時(shí)性分類統(tǒng)計(jì)的要求。
(1)提出了一種基于faster R-CNN和改進(jìn)的深度卷積網(wǎng)絡(luò)結(jié)合的圖像識(shí)別方法,用于搪瓷制品混線生產(chǎn)情況下的產(chǎn)品在線自動(dòng)分類統(tǒng)計(jì);
(2)用RoI池化層歸一化最后共享卷積層的特征,比直接通過縮放圖像來統(tǒng)一輸入圖像尺寸的方法識(shí)別率更高;
(3)實(shí)驗(yàn)結(jié)果表明,采用VGG16作為分類統(tǒng)計(jì)方法中faster R-CNN和改進(jìn)深度卷積網(wǎng)絡(luò)的模型,分類統(tǒng)計(jì)效果更好。