馬敬,劉溪,楊勇,張錫志
(紅塔煙草集團(tuán)有限責(zé)任公司,云南 玉溪 653100)
“中國制造2025”戰(zhàn)略提出要大力推進(jìn)“兩化”融合,使生產(chǎn)制造過程高度自動化與智能化。近年來,隨著人工智能相關(guān)技術(shù)的不斷發(fā)展,計(jì)算機(jī)視覺技術(shù)在制造業(yè)扮演著越來越重要的角色,通過計(jì)算機(jī)自主學(xué)習(xí)的能力讓制造過程更加精確化和智能化。
計(jì)算機(jī)視覺技術(shù)用攝像頭和處理器來模擬人的眼睛和大腦,接收真實(shí)世界的視覺信息,例如圖片、視頻等,通過傳統(tǒng)圖像處理方法或者機(jī)器學(xué)習(xí)模型對目標(biāo)物體進(jìn)行特征提取、轉(zhuǎn)化和識別,具有硬件成本低、識別準(zhǔn)確度高、無接觸性等優(yōu)勢。采集物體的視覺信息并進(jìn)行運(yùn)算和分析,將圖像信息轉(zhuǎn)化為計(jì)算機(jī)可處理的數(shù)字信號,并產(chǎn)生反饋信息指導(dǎo)自動化設(shè)備的智能生產(chǎn)或者管理,在工業(yè)領(lǐng)域中,視覺算法通常用于零件的精密測量、外觀缺陷與磨損檢測、自動分揀系統(tǒng)、備件庫圖像檢索等。
如今工業(yè)企業(yè)中使用的零件種類繁多、數(shù)量巨大,在諸多場景中都需要對零件進(jìn)行自動識別,例如自動化生產(chǎn)線中的零件分揀系統(tǒng),如果采用人工分揀模式則存在效率低、錯誤率高等問題,基于計(jì)算機(jī)視覺的零件識別方式打破了傳統(tǒng)人工分揀的缺陷,能夠更加高效、客觀和準(zhǔn)確地對零件進(jìn)行識別,提升生產(chǎn)效率。同時,目前大多數(shù)工業(yè)企業(yè)都有一套完善的信息化物流管理模式,零件的各種信息都存儲在零備件管理系統(tǒng)中,使用計(jì)算機(jī)視覺技術(shù)對零件圖片進(jìn)行識別,并快速地從系統(tǒng)中檢索出相應(yīng)零件信息,這是傳統(tǒng)的憑借人工經(jīng)驗(yàn)進(jìn)行檢索的模式所不能及的。因此研究基于計(jì)算機(jī)視覺的零件識別算法具有非常重要的應(yīng)用價值和意義,本文主要對計(jì)算機(jī)視覺相關(guān)技術(shù),以及其在零件識別中的應(yīng)用情況進(jìn)行研究和探索,并對未來的發(fā)展趨勢進(jìn)行展望。
計(jì)算機(jī)視覺的核心在于圖像處理,圖像處理中的難點(diǎn)在于特征提取,特征提取指的是從圖像中提取出物體特征,如人臉的皮膚顏色、邊緣輪廓、關(guān)鍵點(diǎn)等,特征提取決定了接下來的圖像分類或檢測的效果。其中特征提取方式主要分為人工設(shè)計(jì)特征的提取算法和深度學(xué)習(xí)自動提取特征的方法。
人工設(shè)計(jì)特征提取算法主要指針對特定任務(wù)精心設(shè)計(jì)算法對圖像進(jìn)行特征提取,其中SIFT(尺度不變特征變換)是比較經(jīng)典的特征提取算法,屬于局部特征的描述算子,原理是在不同的尺度空間中查找圖像關(guān)鍵點(diǎn),并消除光照和噪聲的影響,找到邊緣點(diǎn)、角點(diǎn)等特征,SIFT算法具有穩(wěn)定性和不變形,能夠適應(yīng)圖像縮放、旋轉(zhuǎn)以及亮度變化,且特征向量匹配速度快。同時,HOG(方向梯度直方圖)也是常用的提取方法,其思想是一副圖像中局部物體的外觀和形狀能夠被邊緣方向的密度分布來描述,而梯度通常存在于物體的邊緣,通過計(jì)算圖像的局部區(qū)域的梯度直方圖來生成特征,被廣泛應(yīng)用于行人檢測任務(wù)。其他傳統(tǒng)特征提取方法還有ORB、HAAR等,其中ORB算法具有尺度不變形和旋轉(zhuǎn)不變形等優(yōu)點(diǎn),而且能夠快速檢測和提取圖像特征點(diǎn),運(yùn)算速度上比SITF快很多;HAAR是一種對圖像中的物體或目標(biāo)進(jìn)行檢測的算法,主要針對剛性物體檢測,常被應(yīng)用于人臉檢測任務(wù)。
可以看出傳統(tǒng)的人工設(shè)計(jì)特征算法,其算子需要人為憑借經(jīng)驗(yàn)設(shè)計(jì),其設(shè)計(jì)中只有少量參數(shù),往往要經(jīng)過幾年才能出現(xiàn)一個被廣泛接受的特征提取算法。隨著圖片數(shù)據(jù)的激增,傳統(tǒng)特征提取方法很難提取出海量圖片數(shù)據(jù)中隱含的信息,而深度學(xué)習(xí)方法打破了人工設(shè)計(jì)特征的瓶頸,能夠從大量樣本中自動地提取對任務(wù)有用的特征,提取過程完全不依賴人工設(shè)計(jì)。2012年,8層的AlexNet網(wǎng)絡(luò)在ImageNet圖片分類挑戰(zhàn)賽中的分類錯誤率相比傳統(tǒng)特征提取方法降低了近一半,目前深度學(xué)習(xí)方法在絕大多數(shù)視覺識別任務(wù)上的效果都遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)的人工設(shè)計(jì)特征方法。
深度學(xué)習(xí)將更深層次的神經(jīng)網(wǎng)絡(luò)應(yīng)用于計(jì)算機(jī)視覺,提取圖像的抽象特征,從AlexNet開始,相關(guān)學(xué)者從網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)深度來不斷提升深度神經(jīng)網(wǎng)絡(luò)的效果,例如Inception網(wǎng)絡(luò)用于捕捉不同尺度的特征,2015年提出的深度殘差網(wǎng)絡(luò)(ResNet)通過擬合殘差的方式來訓(xùn)練更深的網(wǎng)絡(luò),隨后密集網(wǎng)絡(luò)(DenseNet)被提出用于提取更隱含的圖像特征,而且DenseNet支持特征復(fù)用、結(jié)構(gòu)簡單。深度學(xué)習(xí)在圖像分類任務(wù)上取得了顯著的效果,同樣地在語義分割、目標(biāo)檢測等領(lǐng)域也得到了廣泛的應(yīng)用,例如R-CNN作為經(jīng)典的基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò),其利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對候選搜索區(qū)域進(jìn)行特征提取,然后使用支持向量機(jī)進(jìn)行區(qū)域分類,極大地提升了檢測效果;SSD是一種針對多類別的單次檢測器,因識別速度快而被廣泛應(yīng)用;此外從YOLO V1到Y(jié)OLO V4系列,將圖像物體檢測看作回歸問題,直接從整張圖片預(yù)測邊緣坐標(biāo),標(biāo)注框中包含物體的置信度,并且能夠提取更加抽象的物體特征,整個流程使用端到端來優(yōu)化檢測性能,因此識別速度很快。
機(jī)械零件識別是計(jì)算機(jī)視覺在工業(yè)領(lǐng)域中是一個重要應(yīng)用,指識別圖像中的零件類型,最開始用于生產(chǎn)過程中對零件進(jìn)行定位和分類,代替重復(fù)的人工勞動。根據(jù)圖像特征提取方式的不同分為基于特征提取算子的方法和基于深度學(xué)習(xí)的方法。
基于特征提取算子的方法通常分為幾個步驟:第一,對圖像進(jìn)行預(yù)處理,圖像的質(zhì)量決定了識別算法的精度,圖像預(yù)處理目的是剔除圖像中的冗余信息,提取有用的真實(shí)信息,增強(qiáng)可檢測性,通常的處理操作有灰度化、幾何變換和圖像增強(qiáng);第二,圖像分割,將圖像中的物體分割出來,減少無關(guān)背景對識別算法的影響,一般分為圖論分割方法、聚類分割方法和語義分割方法;第三,特征提取,提取出圖像中對識別有用的特征,常用的方法有SIFT、HOG等;最后,將提取到的圖像特征輸入到機(jī)器學(xué)習(xí)分類器中,完成對圖像的分類。通常來說,決定識別效果的主要因素是特征提取階段。
從上個世紀(jì)50年代開始,國外就對二維圖像的模式識別進(jìn)行了研究,在零件分類識別任務(wù)中,Almouhamed M提出了一種基于縮放不變形的平面輪廓識別算法,并且在遮擋場景下對機(jī)械零件的輪廓片段進(jìn)行匹配,是一種具有強(qiáng)魯棒性的形狀匹配方法。LJ Xiwe等人為了完成工業(yè)零件的在線分揀工作,使用多個USB攝像頭從多角度捕獲傳送帶上的零件圖像,使用Otsu算法對圖像進(jìn)行二值化處理,然后進(jìn)行輪廓提取和連接的組件標(biāo)記,計(jì)算工業(yè)零件的圓度和顏色信息,通過將圓度和顏色信息與之前人工建立的標(biāo)準(zhǔn)模板進(jìn)行比較,該方法嚴(yán)重依賴于人工標(biāo)準(zhǔn)模板,因此識別的零件種類不多。B Liu對圖片進(jìn)行邊緣檢測并選取合適的轉(zhuǎn)矩特征,然后搭建BP神經(jīng)網(wǎng)絡(luò)對零件進(jìn)行分類。
在國內(nèi)方面,任楷飛等人在LabView開發(fā)環(huán)境下提出了一種基于灰度值金字塔的模式匹配算法,對圖像進(jìn)行灰度化后經(jīng)過高斯濾波處理,在特定的模型參數(shù)下和模板圖像進(jìn)行匹配。司小婷等人對零件圖片進(jìn)行了識別和定位的研究,從零件的幾何、形狀和多輪廓特征對待識別零件和零件模板進(jìn)行匹配,然后使用最小外接矩形來定位零件??镞d君對零件圖片提取HU不變矩和仿射不變矩,并進(jìn)行組合使得圖像具有平移、縮放、選擇不變形,然后針對訓(xùn)練樣本少且特征維度高的問題,采用核參數(shù)的支持向量機(jī)(SVM)以及有向無環(huán)圖設(shè)計(jì)的多分類器對零件進(jìn)行分類。袁安富針對零件自動識別系統(tǒng)效率低的問題,提出了基于SURF的零件識別算法,SURF是SIFT的變種,主要是為了解決SIFT算法在DOG構(gòu)建和極值計(jì)算時效率低下的問題,SURF使用Hessian矩陣來檢測極值以及用小波轉(zhuǎn)化來計(jì)算關(guān)鍵點(diǎn),將SURF得到的特征向量用最臨近算法搜索和模板圖像最接近的零件圖像。馮長建通過傅里葉描述子提取零件的形狀和輪廓信息,將得到的高維向量用主成分分析進(jìn)行降維,然后用支持向量機(jī)進(jìn)行分類,但是分類的零件較為簡單(螺母、螺栓和墊圈等)。
綜上所述,基于特征提取算子的方法核心在于特征提取算法的設(shè)計(jì),由于此類算法的設(shè)計(jì)需要很豐富的專家經(jīng)驗(yàn),所以目前主流的方法均基于經(jīng)典的、經(jīng)過時間驗(yàn)證且成熟的特征提取算法。其次大多數(shù)方法需要和模板圖像進(jìn)行比對,因此標(biāo)準(zhǔn)模板的設(shè)計(jì)也很關(guān)鍵。
隨著工業(yè)制造的發(fā)展,需要快速地對紛繁復(fù)雜且數(shù)量龐大的零件類型進(jìn)行識別,基于特征提取算子的方法需要精心設(shè)計(jì)提取算法,無法適用于海量的零件識別,并且為每種零件設(shè)計(jì)標(biāo)準(zhǔn)圖像模板工作量巨大,深度學(xué)習(xí)方法能夠避免人工設(shè)計(jì)特征所帶來的工作量和局限性,因此越來越多的工作在利用深度學(xué)習(xí)自動提取特征的能力對零件進(jìn)行自動識別。
張煥煥對零件進(jìn)行了圖像采集,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對圖像進(jìn)行特征提取,將訓(xùn)練好的CNN網(wǎng)絡(luò)用于三種常見零件的識別。陳冠琪等人使用SSD網(wǎng)絡(luò)對零件圖像進(jìn)行識別,并且在SSD網(wǎng)絡(luò)的基礎(chǔ)上增加了多尺度模塊,通過該模塊將不同深度的網(wǎng)絡(luò)單元進(jìn)行跳躍連接,同時完成零件類型預(yù)測和定位,在小目標(biāo)零件上取得了不錯的識別效果。還有學(xué)者研究將支持向量機(jī)和深度學(xué)習(xí)相結(jié)合的方法,通過Mask R-CNN對圖片中的零件區(qū)域進(jìn)行分割,然后利用梯度直方圖(HOG)和LBP特征來訓(xùn)練SVM分類器,在遮擋情況下表現(xiàn)良好。為了緩解零件訓(xùn)練圖片缺乏的問題,陳緒等人提出了一種基于遷移學(xué)習(xí)的零件識別模型,將預(yù)訓(xùn)練模型應(yīng)用到小樣本的零件數(shù)據(jù)集上訓(xùn)練,經(jīng)過較少的迭代次數(shù)后在4種零件上達(dá)到了93%的精度。在進(jìn)行零件識別之前,將零件所在區(qū)域分割出來能夠降低無關(guān)背景對精度的影響,因此黃海松等人在標(biāo)注好區(qū)域的零件數(shù)據(jù)集上對Mask R-CNN進(jìn)行微調(diào),然后將零件區(qū)域分割出來,使得后續(xù)識別過程更具魯棒性。
目前深度學(xué)習(xí)技術(shù)在零件識別上應(yīng)用較少,一方面因?yàn)樯疃葘W(xué)習(xí)在工業(yè)領(lǐng)域還沒未發(fā)展成熟,第二個方面因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練樣本,對于工業(yè)零件識別來說標(biāo)注工作量太大。
傳統(tǒng)的人工設(shè)計(jì)特征進(jìn)行零件識別的方式無法適用于數(shù)據(jù)量龐大的機(jī)械零件識別,特征提取算子嚴(yán)重依賴于專家經(jīng)驗(yàn),雖然深度學(xué)習(xí)方法能夠自動提取圖像特征,效果往往也優(yōu)于傳統(tǒng)方式,但是需要大量的人工標(biāo)注樣本。因此未來深度學(xué)習(xí)在零件識別上所面臨的困難是如何低成本地獲取海量的訓(xùn)練數(shù)據(jù),例如利用機(jī)械零件所對應(yīng)的3D模型,從3D模型中快速產(chǎn)生大量的平面圖像作為訓(xùn)練,并采用一些風(fēng)格遷移算法緩解真實(shí)圖片和3D投影平面圖的視覺差異。