董秋成,吳愛國,董娜,馮偉
?
用于卷積神經(jīng)網(wǎng)絡(luò)圖像預(yù)處理的目標(biāo)中心化算法
董秋成1,吳愛國1,董娜1,馮偉2
(1. 天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津,300072;2. 中國科學(xué)院自動(dòng)化所 模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室,北京,100000)
為解決工業(yè)生產(chǎn)中對(duì)不同零件進(jìn)行自動(dòng)分類的問題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的模式識(shí)別算法,對(duì)29種不同尺寸的螺絲、螺母和墊片進(jìn)行分類。首先采集待分類零件的圖像數(shù)據(jù),通過數(shù)據(jù)增強(qiáng)得到數(shù)據(jù)集,然后設(shè)計(jì)一種簡化的卷積神經(jīng)網(wǎng)絡(luò)。提出一種對(duì)圖像中的目標(biāo)位置進(jìn)行中心化的圖像預(yù)處理算法,它能夠提取圖像中目標(biāo)所在的區(qū)域并將其移動(dòng)到圖像中心位置。研究結(jié)果表明,與不采用目標(biāo)中心化算法的傳統(tǒng)方法相比,總體準(zhǔn)確率從97.59%提升至99.96%,具有最低準(zhǔn)確率的零件的準(zhǔn)確率從85.83%提升至99.67%。使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)背景純凈且目標(biāo)明顯的圖像進(jìn)行分類時(shí),使用本文提出的目標(biāo)中心化算法進(jìn)行圖像預(yù)處理能夠顯著提高網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率。
零件;識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)增強(qiáng);中心化;目標(biāo)提取
隨著工業(yè)4.0時(shí)代的到來,圖像識(shí)別技術(shù)在工業(yè)生產(chǎn)中的應(yīng)用越來越廣泛,已被用于產(chǎn)品檢測(cè)、計(jì)數(shù)、尺寸測(cè)量等許多方面。零件識(shí)別是許多工業(yè)生產(chǎn)流程中常見且必要的工作任務(wù),它可以把不同種類的目標(biāo)物體進(jìn)行正確的分類處理,也可以用于分揀出質(zhì)量不達(dá)標(biāo)的工件。依靠人工進(jìn)行零件識(shí)別,分類效率低、可靠性差、成本高。為了提高工業(yè)生產(chǎn)線自動(dòng)化、智能化的程度,利用機(jī)器視覺設(shè)計(jì)出能夠應(yīng)用于實(shí)際生產(chǎn)的零件自動(dòng)識(shí)別系統(tǒng)成為當(dāng)前工業(yè)自動(dòng)化領(lǐng)域的重要課題,具有重要的理論意義和實(shí)用價(jià)值[1?2]?,F(xiàn)有的零件識(shí)別算法基本都是依賴傳統(tǒng)機(jī)器學(xué)習(xí)的基本方式:先提取一個(gè)合適的特征集,再將這些特征提供給簡單的機(jī)器學(xué)習(xí)算法[3?8]。這些算法的共同特點(diǎn)在于零件的特征均是人工選取的,或是由人工設(shè)計(jì)的算法進(jìn)行提取的。然而,特征的選取不僅需要依靠經(jīng)驗(yàn),而且適用性往往受到抑制,可擴(kuò)展性不佳。當(dāng)需要識(shí)別的零件種類較多時(shí),人工提取特征不僅工作量巨大,而且選取的特征不一定是最優(yōu)的。HINTON等[9]提出了深度學(xué)習(xí)模型。與手工規(guī)則構(gòu)造特征的方法相比,利用深度學(xué)習(xí)模型直接從大數(shù)據(jù)中學(xué)習(xí)特征,更有利于描述數(shù)據(jù)本身的豐富內(nèi)涵信息[10]。最近,深度學(xué)習(xí)方法在計(jì)算機(jī)視覺領(lǐng)域表現(xiàn)出巨大的潛力,卷積神經(jīng)網(wǎng)絡(luò)[11]作為一種特殊的深度學(xué)習(xí)架構(gòu),憑借其優(yōu)秀的表現(xiàn)受到廣泛的關(guān)注,在一系列大規(guī)模、細(xì)粒度的圖像識(shí)別任務(wù)中取得巨大成功[12]。卷積神經(jīng)網(wǎng)絡(luò)是一種新的目標(biāo)分類識(shí)別方法,該方法能夠?qū)崿F(xiàn)自動(dòng)化的圖像特征提取,與分類識(shí)別過程融為一體,并通過數(shù)據(jù)實(shí)現(xiàn)自我學(xué)習(xí)[13?14]。制造業(yè)信息化程度高、勞動(dòng)力密集、成本范圍廣大,是非常適合人工智能技術(shù)發(fā)揮的領(lǐng)域。同時(shí),人工智能技術(shù)也非常適合解決制造業(yè)面臨的挑戰(zhàn),如不穩(wěn)定的質(zhì)量及良率、生產(chǎn)線設(shè)計(jì)缺乏靈活性、產(chǎn)能管理困難以及生產(chǎn)成本上升等。人工智能技術(shù)可以幫助解決這些問題,改善質(zhì)檢流程,縮短設(shè)計(jì)周期,消除供應(yīng)鏈瓶頸,減少材料和能源浪費(fèi),并且提高產(chǎn)量。為了能夠?qū)⒃居糜谧R(shí)別自然圖像的卷積神經(jīng)網(wǎng)絡(luò)用來識(shí)別工業(yè)圖像,需要注意到自然圖像與工業(yè)圖像的不同之處,并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)與算法做出相應(yīng)的調(diào)整與改進(jìn)。自然圖像(例如ImageNet數(shù)據(jù)集)普遍色彩豐富、種類繁多,形狀、紋理、背景都極為復(fù)雜,而工業(yè)現(xiàn)場(chǎng)進(jìn)行圖像采集時(shí)環(huán)境相對(duì)穩(wěn)定,同種零件每次采集到的圖像差別不大,且目標(biāo)突出,背景較為純凈?;诖?,本文作者利用深度卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),并結(jié)合零件識(shí)別問題的特點(diǎn),設(shè)計(jì)一種簡化的卷積神經(jīng)網(wǎng)絡(luò),對(duì)29種不同尺寸的螺絲、螺母、墊片進(jìn)行分類,并且在圖像預(yù)處理中添加一種基于邊緣檢測(cè)的目標(biāo)中心化算法,同時(shí)驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)對(duì)于識(shí)別相同種類、不同尺寸的圖像的準(zhǔn)確率,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)在尺寸測(cè)量方面的應(yīng)用具有一定的參考價(jià)值。
1.1.1 零件種類
待測(cè)的零件分為螺絲、螺母、墊片3類,每種零件又分為不同的尺寸,一有共29種零件。其中螺絲18種,墊片8種;螺母為M3,M4和M5共3種。
29種零件的編號(hào)及尺寸如表1所示。
表1 零件編號(hào)及尺寸
注:墊片*后的數(shù)字表示外徑,單位為mm;螺絲*后的數(shù)字表示桿長,單位為mm。
1.1.2 圖像采集方法
圖像采集時(shí),攝像頭拍攝方向垂直零件所處平面,且攝像頭與零件的相對(duì)位置保持不變,如圖1所示。這樣既能模擬實(shí)際工況中位置固定的攝像頭垂直拍攝傳送帶上運(yùn)動(dòng)的零件的情形,同時(shí)又能使零件在圖像中的大小能夠反映圖像的實(shí)際大小。每種零件變換不同的角度、位置拍攝40次,以模擬實(shí)際工況中零件位置和擺放角度都是隨機(jī)的。
圖1 圖像采集示意圖
為防止網(wǎng)絡(luò)過擬合,用于訓(xùn)練的數(shù)據(jù)量應(yīng)盡可能大,但是,通過人工進(jìn)行圖像采集的方式獲取數(shù)據(jù)的效率很低,想獲得足夠多的數(shù)據(jù)需要很長時(shí)間。對(duì)于圖像識(shí)別問題來說,使用數(shù)據(jù)增強(qiáng)來擴(kuò)大數(shù)據(jù)量是一種效率很高且行之有效的辦法。圖像識(shí)別問題中常用的數(shù)據(jù)增強(qiáng)方法有:平移、旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、色彩偏移等。針對(duì)生產(chǎn)過程中的實(shí)際情況,選取了平移、旋轉(zhuǎn)、亮度偏移、對(duì)比度偏移4種數(shù)據(jù)增強(qiáng)方法,未采用翻轉(zhuǎn)的原因是待分類零件均為左右對(duì)稱,旋轉(zhuǎn)操作已經(jīng)可以模擬零件所有角度的情況,沒有必要再進(jìn)行翻轉(zhuǎn)操作;未采用翻轉(zhuǎn)和縮放的原因是在該問題中,圖像的大小代表零件的尺寸,縮放相當(dāng)于改變零件尺寸,從而改變圖像類別。
圖2所示為29種零件對(duì)應(yīng)的原始圖片。原始圖像為3 120像素×3 120像素的灰度圖像,對(duì)應(yīng)零件所處平面的實(shí)際長×寬為90 mm×90 mm,首先對(duì)圖像進(jìn)行0°~360°范圍隨機(jī)角度的旋轉(zhuǎn)。如圖3所示,中間白色圓形區(qū)域?yàn)槭冀K會(huì)被原圖覆蓋的區(qū)域。然后從圖像中心裁切2 048像素×2 048像素的圖像,左上角坐標(biāo)為[460, 610]中的隨機(jī)整數(shù)。這樣裁剪既能保證圖像外面的黑邊會(huì)被完全切去,又能使圖像中間的零件得到完整保留,同時(shí)具有位移上的隨機(jī)性。再將裁剪后的圖像縮放至128像素×128像素,此時(shí),每個(gè)像素對(duì)應(yīng)的實(shí)際長度為0.46 mm。最后,對(duì)該圖像進(jìn)行隨機(jī)亮度偏移與對(duì)比度偏移,偏移比率均為0.9~1.1。每張圖片重復(fù)100次,得到100張不同的圖像。圖4所示為其中3張?jiān)紙D片進(jìn)行數(shù)據(jù)增強(qiáng)后得到的部分結(jié)果。最終的數(shù)據(jù)包括29種零件,每張零件對(duì)應(yīng)4 000張圖片,共116 000張圖片。
卷積神經(jīng)網(wǎng)絡(luò)是由LeCun等提出的一種專門用來處理具有類似網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),例如時(shí)間序列數(shù)據(jù)和圖像數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)在諸多應(yīng)用領(lǐng)域都表現(xiàn)優(yōu)異[3]。卷積神經(jīng)網(wǎng)絡(luò)通過權(quán)值共享和卷積運(yùn)算直接處理二維圖像,避免了傳統(tǒng)模式識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程[15?18]。
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)包括卷積層和池化層。卷積層由一組待訓(xùn)練的卷積核構(gòu)成。根據(jù)需要提取特征的密度,卷積核通過固定的步長與輸入圖像作卷積運(yùn)算,經(jīng)由激活函數(shù)變換后輸出特征圖。池化層通常在卷積層后面出現(xiàn),通過對(duì)特征圖進(jìn)行下采樣,減少特征維度并抑制干擾。
圖2 原始零件圖片
圖3 隨機(jī)裁切示意圖(單位:像素)
(a) 墊片;(b) 螺母;(c) 螺絲
根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)并結(jié)合待分類數(shù)據(jù)集的特征,構(gòu)建了如圖5所示的卷積神經(jīng)網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)的搭建參考了AlexNet[19]和VGGNet[20]的結(jié)構(gòu)。因待識(shí)別的零件形狀較簡單,所以,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了較大簡化。
SIMONYAN等[20]指出,多個(gè)較小卷積核的層層疊加與一個(gè)較大卷積核具有相同大小的感受野,且參數(shù)更少,非線性更強(qiáng)。因此,在前2個(gè)卷積層中采用了2層3×3的卷積核,相當(dāng)于對(duì)輸入提供了5×5的感受野。
卷積網(wǎng)絡(luò)的輸入為1×128×128的經(jīng)過數(shù)據(jù)增強(qiáng)后的圖像;第1個(gè)卷積層包含32個(gè)3×3的卷積核,輸出維度為32×126×126;第2個(gè)卷積層同樣包含32個(gè)3×3的卷積核,輸出維度為32×124×124;然后經(jīng)過一個(gè)采樣核大小為2×2的最大池化層,輸出維度為32×62×62;第3個(gè)卷積層包含64個(gè)3×3的卷積核,輸出維度為64×60×60;然后再經(jīng)過一個(gè)采樣核大小為3×3的最大池化層,輸出維度為64×20×20;第4個(gè)卷積層包含128個(gè)3×3的卷積核,輸出維度為128×18×18;然后再經(jīng)過一個(gè)采樣核大小為2×2的最大池化層,輸出維度為128×9×9;再將這個(gè)三維向量展開成長度為10 368的一維向量,經(jīng)過一個(gè)輸出為256的全連接層,最后經(jīng)過一個(gè)輸出為29的全連接層,得到網(wǎng)絡(luò)的輸出。
所有卷積層的步長均為1,無填充;所有最大池化層的步長都與采樣核的邊長相同,無填充;除輸出層的激活函數(shù)使用Softmax外,其余所有的激活函數(shù)均為整流線性單元。
在第1個(gè)卷積層后面和每個(gè)最大池化層后面都添加了0.25的Dropout[21],在第2個(gè)全連接層后面添加了0.5的Dropout。
圖5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
每種零件的圖片由40張?jiān)紙D片經(jīng)過100次數(shù)據(jù)增強(qiáng)得到,即每個(gè)種類擁有4 000張圖像數(shù)據(jù)。將前28張?jiān)紙D片數(shù)據(jù)增強(qiáng)后得到的2 800個(gè)圖像作為訓(xùn)練集,后12張?jiān)紙D片數(shù)據(jù)增強(qiáng)后得到1 200個(gè)圖像作為測(cè)試集。因?yàn)闇y(cè)試集的原始圖片與訓(xùn)練集的不同,所以,即使遇到全新的圖片,網(wǎng)絡(luò)的準(zhǔn)確率也會(huì)與測(cè)試集的相同,并不會(huì)受到數(shù)據(jù)增強(qiáng)的影響。
本文訓(xùn)練網(wǎng)絡(luò)采用的自適應(yīng)學(xué)習(xí)率算法為Adam[22],學(xué)習(xí)率為1×10?4。訓(xùn)練時(shí),每次輸入32張圖片,并對(duì)輸入添加批標(biāo)準(zhǔn)化[23]。
在絕大多數(shù)機(jī)器學(xué)習(xí)算法以及訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,都需要對(duì)原始數(shù)據(jù)進(jìn)行中心化和標(biāo)準(zhǔn)化處理。數(shù)據(jù)經(jīng)過中心化和標(biāo)準(zhǔn)化處理后,會(huì)成為均值為0、標(biāo)準(zhǔn)差為1的服從標(biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)。中心化和標(biāo)準(zhǔn)化的意義是能夠消除數(shù)據(jù)所包含的特征之間的差異性,使它們具有相同的尺度。在回歸問題中,它能夠取消由于量綱不同、自身變異或者數(shù)值相差較大所引起的誤差;在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,它能加速權(quán)重參數(shù)的收斂。
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,對(duì)輸入添加了批標(biāo)準(zhǔn)化,這是一種針對(duì)圖像的像素進(jìn)行中心化和標(biāo)準(zhǔn)化的處理。但是,每張圖像中零件的位置是隨機(jī)出現(xiàn)的。雖然傳統(tǒng)觀念認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像類別的判斷與目標(biāo)在圖像中的位置無關(guān),但是在零件識(shí)別問題中,零件所處背景較為純凈,而且相同種類不同大小的零件圖像中目標(biāo)的形狀相似甚至相同,僅在大小上存在差別,即不同類別圖像間的差距較小,且目標(biāo)位置的隨機(jī)性模糊了這種差距。在實(shí)際運(yùn)行結(jié)果中也發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)對(duì)于零件在整幅圖像中占比較小,且種類相同、尺寸相近零件之間的區(qū)分準(zhǔn)確率較低,對(duì)于某些尺寸較小且形狀相似的零件,卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率甚至不如傳統(tǒng)算法。
為了解決卷積神經(jīng)網(wǎng)絡(luò)對(duì)于形狀、大小相似的目標(biāo)不敏感的問題,本文提出了將圖像中的目標(biāo)進(jìn)行中心化的方法。目標(biāo)中心化算法的思路是:通過將圖像中的待識(shí)別目標(biāo)的位置移動(dòng)到圖像的中心處,使相同類別的不同圖像間的差距盡可能縮小,從而突出不同類別圖像之間的差距。該方法不僅有一定的理論依據(jù)作為支撐,在實(shí)際運(yùn)行結(jié)果中,該方法也使神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率得到了顯著提升。
通過上下左右4個(gè)方向的Sobel算子提取邊緣,這4個(gè)算子的形式如下:
與卷積運(yùn)算類似,這4個(gè)算子分別從左到右、從上到下移動(dòng),每次移動(dòng)的步長為1。設(shè)算子F覆蓋到的原圖像素組成的矩陣為,則輸出為
(a) 原始圖片;(b) 邊緣提取結(jié)果
由圖6可見,圖像中有許多噪聲干擾。為了正確判斷零件位置,采用提取圖像中的最大連通域的方法。這樣防止了傳統(tǒng)的濾波操作可能導(dǎo)致的噪聲濾除不完全的問題,從而完全避免了噪聲的干擾。
找出最大連通域后,得到它的矩形包圍邊框,提取原始圖像邊框內(nèi)的圖像,即為原始圖像中零件部分的圖像。
為了驗(yàn)證目標(biāo)中心化算法的正確性,分別制作了3種數(shù)據(jù)集:第1種數(shù)據(jù)集僅提取矩形包圍框內(nèi)的圖像,不改變圖像位置;第2種數(shù)據(jù)集將提取到的目標(biāo)置于圖像左上角;第3種數(shù)據(jù)集將提取到的目標(biāo)置于圖像中心。這3種方法得到的數(shù)據(jù)集的部分圖像如圖7所示。
(a) 目標(biāo)在原始位置;(b) 目標(biāo)在左上角;(c) 目標(biāo)在中心
根據(jù)前面的理論分析,第1種數(shù)據(jù)集未改變目標(biāo)位置,僅去掉大部分背景,相當(dāng)于突出了目標(biāo)所在位置,但因?yàn)椴⑽锤淖兡繕?biāo)位置,猜測(cè)該種數(shù)據(jù)集的準(zhǔn)確率與原始數(shù)據(jù)集相似或稍有改善;第2種數(shù)據(jù)集將目標(biāo)置于圖像左上角處,統(tǒng)一了目標(biāo)位置但并未統(tǒng)一至中心處,相當(dāng)于一種略微弱化的中心化,與原始數(shù)據(jù)集的準(zhǔn)確率相比應(yīng)得到較明顯的提升,但仍不如第3種數(shù)據(jù)集,即完全地將目標(biāo)置于圖像中心。
分別使用原始數(shù)據(jù)集和目標(biāo)在原位置、左上角、中心的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),將訓(xùn)練集的全部數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)上訓(xùn)練80次。將每種數(shù)據(jù)集中的測(cè)試集的損失函數(shù)值變化曲線進(jìn)行比較,結(jié)果如圖8所示。
1—原始圖像;2—目標(biāo)在原位置;3—目標(biāo)在左上角;4—目標(biāo)在中心。
由圖8可見,在訓(xùn)練過程中,原始圖像和目標(biāo)在原位置的數(shù)據(jù)集訓(xùn)練速度幾乎相同,而目標(biāo)在左上角和目標(biāo)在中心的數(shù)據(jù)集訓(xùn)練速度遠(yuǎn)大于原始數(shù)據(jù)集的訓(xùn)練速度,且目標(biāo)在中心的數(shù)據(jù)集的訓(xùn)練速度略大于目標(biāo)在左上角數(shù)據(jù)集的訓(xùn)練速度,說明目標(biāo)中心化能夠強(qiáng)化數(shù)據(jù)的特征,加快網(wǎng)絡(luò)收斂,在相同訓(xùn)練次數(shù)下,損失函數(shù)更小,從而達(dá)到減少訓(xùn)練時(shí)間的目的,且中心化程度越強(qiáng),訓(xùn)練速度越快。
原始數(shù)據(jù)測(cè)試集綜合準(zhǔn)確率為97.59%,目標(biāo)在原位置的測(cè)試集綜合準(zhǔn)確率為98.57%,說明僅去掉背景也能提升一定的準(zhǔn)確率;而目標(biāo)在左上角的測(cè)試集綜合準(zhǔn)確率為99.88%,目標(biāo)在中心的測(cè)試集綜合準(zhǔn)確率為99.96%,說明目標(biāo)中心化能夠大幅提高網(wǎng)絡(luò)的準(zhǔn)確性,且準(zhǔn)確率隨中心化程度的增加而升高。
各測(cè)試集中每種零件的準(zhǔn)確率如表2所示。
表2 每種零件的準(zhǔn)確率
由表2可知:對(duì)原始圖像進(jìn)行分類,準(zhǔn)確率最低的零件為10號(hào),準(zhǔn)確率為85.83%;29種零件中僅有15種零件的準(zhǔn)確率大于99.9%;使用目標(biāo)中心化算法后,每類零件的準(zhǔn)確率都在99.5%以上,且26種零件的準(zhǔn)確率均大于99.9%,10號(hào)零件的準(zhǔn)確率也提升至99.67%,說明目標(biāo)中心化算法能夠十分顯著地提高網(wǎng)絡(luò)的準(zhǔn)確率。
1) 提出了一種基于邊緣提取和最大連通域的目標(biāo)中心化算法。在對(duì)29種不同尺寸的螺絲、螺母和墊片的分類問題中,系統(tǒng)的總體準(zhǔn)確率從97.59%提升至99.96%。
2) 本文提出的算法能夠?qū)Ρ尘凹儍舻墓I(yè)圖像進(jìn)行準(zhǔn)確分類,當(dāng)目標(biāo)占圖像區(qū)域較小且不同種類圖像差距不大時(shí),使用目標(biāo)中心化算法對(duì)圖像進(jìn)行預(yù)處理能夠顯著提高網(wǎng)絡(luò)的準(zhǔn)確率。同時(shí),對(duì)于識(shí)別相同形狀、不同尺寸的圖像,卷積神經(jīng)網(wǎng)絡(luò)也有很高的準(zhǔn)確率。
[1] 何曉陽, 徐惠鋼, 謝啟. 基于LabVIEW與BP神經(jīng)網(wǎng)絡(luò)的零件識(shí)別系統(tǒng)[J]. 儀表技術(shù)與傳感器, 2017(1): 119?122. HE Xiaoyang, XU Huigang, XIE Qi. Recognition system of parts based on LabVIEW and BP neural network[J]. Instrument Technique and Sensor, 2017(1): 119?122.
[2] 何澤強(qiáng). 基于機(jī)器視覺的工業(yè)機(jī)器人分揀系統(tǒng)設(shè)計(jì)[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué)信息與電氣工程學(xué)院, 2016: 1. HE Zeqiang. Design of industrial robot sorting system based on machine vision[D]. Harbin: Harbin Institute of Technology. School of Information and Electrical Engineering, 2016: 1.
[3] GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge, MA: The MIT Press, 2016: 3.
[4] 司小婷, 吳文江, 孫一蘭. 基于視覺的零件識(shí)別和定位[J]. 組合機(jī)床與自動(dòng)化加工技術(shù), 2016(10): 70?73. SI Xiaoting, WU Wenjiang, SUN Yilan. The identification and positioning of parts based on machine vision[J]. Modular Machine Tool & Automatic Manufacturing Technique, 2016(10): 70?73.
[5] 劉振宇, 李中生, 趙雪, 等. 基于機(jī)器視覺的工業(yè)機(jī)器人分揀技術(shù)研究[J]. 制造業(yè)自動(dòng)化, 2013(17): 25?30. LIU Zhenyu, LI Zhongsheng, ZHAO Xue, et al. Research of sorting technology based on industrial robot of machine vision[J]. Manufacturing Automation, 2013(17): 25?30.
[6] 吳益紅, 許鋼, 江娟娟, 等. 基于LBP和SVM的工件圖像特征識(shí)別研究[J]. 重慶理工大學(xué)學(xué)報(bào), 2016, 30(1): 77?84. WU Yihong, XU Gang, JIANG Juanjuan, et al. Research on workpiece image feature recognition based on LBP and SVM[J]. Journal of Chongqing University of Technology (Natural Science), 2016, 30(1): 77?84.
[7] 馮長建, 吳斌, 羅躍綱. 混合KPCA和SVM的機(jī)械零件形狀識(shí)別方法研究[J]. 機(jī)械制造與自動(dòng)化, 2016(4): 132?134. FENG Changjian, WU Bin, LUO Yuegang. Research on shape recognition of mechanical parts based on hybrid KPCA and SVM[J]. Machine Building & Automation, 2016(4): 132?134.
[8] 李春, 李琳, 鄒焱飚, 等. 基于視覺的焊接工件在線識(shí)別與分類算法研究[J]. 價(jià)值工程, 2016, 35(4): 97?101. LI Chun, LI Lin, ZOU Yanbiao, et al. Research on on-line recognition and classification of weldment based on machine vision[J]. Value Engineering, 2016, 35(4): 97?101.
[9] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504.
[10] 趙鵬, 王斐, 劉慧婷, 等. 基于深度學(xué)習(xí)的手繪草圖識(shí)別[J]. 四川大學(xué)學(xué)報(bào)(工程科學(xué)版), 2016, 48(3): 94?99. ZHAO Peng, WANG Fei, LIU Huiting, et al. Sketch recognition using deep learning[J]. Journal of Sichuan University (Engineering Science Edition), 2016, 48(3): 94?99.
[11] LéCUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 2001, 86(11): 2278?2324.
[12] 楊國國, 鮑一丹, 劉子毅. 基于圖像顯著性分析與卷積神經(jīng)網(wǎng)絡(luò)的茶園害蟲定位與識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2017, 33(6): 156?162. YANG Guoguo, BAO Yidan, LIU Ziyi. Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(6): 156?162.
[13] 周云成, 許童羽, 鄭偉, 等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的番茄主要器官分類識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2017, 33(15): 219?226. ZHOU Yuncheng, XU Tongyu, ZHENG Wei, et al. Classification and recognition approaches of tomato main organs based on DCNN[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(15): 219?226.
[14] SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[EB/OL]. [2013?12?21]. https://arxiv.org/ abs/1312.6229.
[15] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]// Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770?778.
[16] 高學(xué), 王有旺. 基于CNN和隨機(jī)彈性形變的相似手寫漢字識(shí)別[J]. 華南理工大學(xué)學(xué)報(bào) (自然科學(xué)版), 2014, 42(1): 72?76. GAO Xue, WANG Youwang. Recognition of similar handwritten Chinese characters based on CNN and random elastic deformation[J]. Journal of South China University of Technology(Natural Science), 2014, 42(1): 72?76.
[17] GLOROT X, BORDES A, BENGIO Y, et al. Deep sparse rectifier neural networks[C]// International Conference on Artificial Intelligence and Statistics. Cambridge, MA: The MIT Press, 2012: 315?323.
[18] ZHOU Y T, CHELLAPPA R. Computation of optical flow using a neural network[C]// IEEE International Conference on Neural Networks. Piscataway, NJ: IEEE, 1988: 71?78.
[19] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(2): 2012.
[20] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional networks for large-scale image recognition[EB/OL]. [2014?10?15]. https://arxiv.org/abs/1409.1556.
[21] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929?1958.
[22] KINGMA D P, BA J. Adam: A method for stochastic optimization[EB/OL]. [2014?12?22]. https://arxiv.org/abs/ 1412.6980.
[23] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL]. [2015?01?11]. https://arxiv.org/abs/1502.0316.
Target-centralization algorithm used for image preprocessing of CNN
DONG Qiucheng1, WU Aiguo1, DONG Na1, FENG Wei2
(1. School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China;2. National Laboratory of Pattern Recognition Institute of Automation, Chinese Academy of Sciences, Beijing 100000, China)
To solve the problem of classifying different parts automatically in industrial production, a pattern recognition algorithm based on convolutional neural network was raised and 29 different sizes of screws, nuts and washers were classified. Firstly, image data of the parts that were going to be classified were collected, and the dataset was created by data augmentation. Then, a simplified convolutional neural network was designed. An image preprocessing algorithm to centralize the position of the target in the image was raised, which can extract the target area in the image and move it to the center of the image. The results show that compared with traditional method without target-centralization algorithm, the total error is raised from 97.69% to 99.96, and the accuracy of the part which has the lowest accuracy is raised from 85.83% to 99.67%. When convolutional neural network is used to classify images which has pure background and obvious object, using the target-centralization algorithm raised in this paper to preprocess the images can improve the accuracy of the network significantly.
parts; recognition; convolutional neural network; data augmentation; centralization; object extraction
TP 391.4
A
1672?7207(2019)03?0579?08
10.11817/j.issn.1672-7207.2019.03.011
2018?03?12;
2018?04?26
國家自然科學(xué)基金資助項(xiàng)目(61402374) (Project(61402374) supported by the National Natural Science Foundation of China)
吳愛國,教授,博士生導(dǎo)師,從事智能化工藝集成系統(tǒng)開發(fā)研究;E-mail:agwu@tju.edu.cn
(編輯 趙俊)