李航 厲丹 朱晨 姚瑤 張麗娜
摘要:卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)相結(jié)合,從而實(shí)現(xiàn)深度學(xué)習(xí)的方法。其具有良好的容錯(cuò)性、自適應(yīng)性以及較強(qiáng)的自學(xué)習(xí)能力,還具有自動(dòng)提取特征、權(quán)值共享以及輸入圖像與網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合良好等優(yōu)勢(shì)?;诰矸e神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的圖像識(shí)別系統(tǒng),首先對(duì)不同的圖像進(jìn)行采集,將采集的得到的結(jié)果作為訓(xùn)練集和測(cè)試集。通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)采集結(jié)果的訓(xùn)練,得到用來識(shí)別的各類特征,識(shí)別的結(jié)果可以得到圖像的類別信息。
關(guān)鍵詞:卷積層神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);圖像識(shí)別;圖像分類;Alexnet構(gòu)架
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)10-0196-02
隨著科學(xué)技術(shù)的飛速發(fā)展,圖像識(shí)別技術(shù)在社會(huì)各領(lǐng)域得以應(yīng)用。圖形識(shí)別技術(shù)可以作為一項(xiàng)基礎(chǔ)技術(shù)應(yīng)用于如工業(yè)零件分類、人臉識(shí)別以及手勢(shì)識(shí)別等。當(dāng)前的圖像識(shí)別也是作為一項(xiàng)十分熱門的技術(shù)被大眾所廣泛討論。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)新的熱門研究方向,其旨在模仿人類的學(xué)習(xí)模式,通過對(duì)輸入樣本的訓(xùn)練與測(cè)試,由簡(jiǎn)及深地提取特征來區(qū)分樣本。通過深度學(xué)習(xí)來進(jìn)行圖像識(shí)別也是如此,通過對(duì)于圖像樣本的訓(xùn)練和測(cè)試,對(duì)樣本進(jìn)行分類。本文討論深度學(xué)習(xí)應(yīng)用在圖像識(shí)別這一課題。
1卷積神經(jīng)網(wǎng)絡(luò)
1.1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)非常的相似也具有可學(xué)習(xí)的權(quán)重和偏置常量的神經(jīng)元組成,每個(gè)神經(jīng)元都接收一些輸人,并做一些點(diǎn)積計(jì)算,輸出是每個(gè)分類的分?jǐn)?shù),普通神經(jīng)網(wǎng)絡(luò)里的一些計(jì)算技巧到這里依舊適用,卷積神經(jīng)網(wǎng)絡(luò)由輸出層、卷積層、池化層、全連接層組成。
輸入層是對(duì)于整個(gè)神經(jīng)網(wǎng)絡(luò)的一個(gè)輸入,通常為一張圖片的像素矩陣。其中,在CNN層次結(jié)構(gòu)中,對(duì)于黑白圖片的輸入為一張二維神經(jīng)元,而對(duì)于RGB格式的圖片,輸人為一張三維神經(jīng)元。
卷積層是卷積神經(jīng)網(wǎng)絡(luò)中最為重要和關(guān)鍵的一層。卷積神經(jīng)網(wǎng)絡(luò)中的卷積層由若干的卷積單元所組成。卷積層中的輸入只是上一層神經(jīng)網(wǎng)絡(luò)的一小部分,卷積層將輸入分為一個(gè)又一個(gè)小區(qū)域例如3*3、5*5進(jìn)行特征提取。第一次的卷積是對(duì)低層次的、簡(jiǎn)單的特征如線條和邊角等進(jìn)行提取,之后逐層不斷地提取和壓縮,最后以得到較為高層次的特征。換言之,也就是說對(duì)于之前所提取出原始的特征進(jìn)行逐漸地壓縮、提煉。這樣使我們最后提取到的更加有效、可靠??梢詫⒆詈筇崛〕龅奶卣饔脕矸诸悺>矸e層的正向傳播映射為:
全連接層在卷積神經(jīng)網(wǎng)絡(luò)中起到了“分類器”的作用,全連接層的每一個(gè)節(jié)點(diǎn)都與上一層每個(gè)節(jié)點(diǎn)連接,也就是把前一層的輸局部特征都綜合起來,變成全局特征,最后計(jì)算每一類的得分,進(jìn)行分類。
2基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別系統(tǒng)
本文的基于卷積神經(jīng)網(wǎng)絡(luò)的圖片識(shí)別系統(tǒng)的實(shí)驗(yàn)過程總體上可分為四點(diǎn):A、數(shù)據(jù)集的準(zhǔn)備:準(zhǔn)備數(shù)據(jù)集,即為對(duì)物品進(jìn)行拍攝整理或者搜集有關(guān)圖像的圖樣。B、計(jì)算機(jī)模擬訓(xùn)練:將之前所收集的數(shù)據(jù)集在分作訓(xùn)練集、測(cè)試集,對(duì)于數(shù)據(jù)集輸入進(jìn)行訓(xùn)練。C、進(jìn)行圖像識(shí)別:基于卷積層的神經(jīng)網(wǎng)絡(luò)識(shí)別系統(tǒng)對(duì)于訓(xùn)練集可生成圖像識(shí)別的模型,以此完成對(duì)于圖像的識(shí)別。D、輸出顯示:將圖像識(shí)別的輸出結(jié)果進(jìn)行顯示。
2.1實(shí)驗(yàn)數(shù)據(jù)集準(zhǔn)備
本文將選取幾種常見的物體圖像進(jìn)行圖片識(shí)別實(shí)驗(yàn)。本次的數(shù)據(jù)集的樣本主要通過搜集圖片的方式來完成。通過搜集不同角度的、不同光線條件下的同一零件的圖片來準(zhǔn)備數(shù)據(jù)集。對(duì)于圖片,也可以通過拍照的方式來獲取樣本進(jìn)行訓(xùn)練。我們可以通過自己拍的照片來制作圖片數(shù)據(jù)集文件來完成訓(xùn)練集和測(cè)試集的準(zhǔn)備。本文所采集的圖像部分樣本如圖所示:
2.2模型訓(xùn)練
在本系統(tǒng)中是用的是Mexnet構(gòu)架,Alexnet一共有八個(gè)權(quán)重層,分別是由5個(gè)卷積層和三個(gè)全連接層組成,每個(gè)卷積層和全連接層都會(huì)受到ReLU激活函數(shù)的作用,在第一個(gè)卷積層和第二個(gè)卷積層后面連接一個(gè)局部響應(yīng)規(guī)范化層,最大池化層作用在第一個(gè)卷積層、第二個(gè)卷積層和第五個(gè)卷積層的輸出上。AlexNet在結(jié)構(gòu)總拋棄了以往的“s”形激活函數(shù),傳統(tǒng)的“s”型激活函數(shù)有sigmoid函數(shù)和tanh函數(shù):
sigmoid函數(shù)具有飽和性,當(dāng)輸人較大或者較小的時(shí)候,輸出的曲線接近平緩,此時(shí)梯度幾乎為0,會(huì)造成消失的梯度的問題,并且它的輸出均值不為0,可能會(huì)造成偏置轉(zhuǎn)移,會(huì)使得后一層的神經(jīng)元將上一層的輸出的非0均值的信號(hào)作為輸入,并且它的輸出范圍在0~1,沒有包含負(fù)信息,可能會(huì)損失一部分有用的信息。
tanh函數(shù)的輸出值的范圍為[-1,1],其輸出均值為0,并且包含了負(fù)信息,但是由于它也具有飽和特性,所以也會(huì)造成消失的梯度問題。
ReLU的形式為:f(x)=max(0,x),當(dāng)輸入為正時(shí),輸出值取其本身,此時(shí)關(guān)于輸入x的導(dǎo)數(shù)為1,是一個(gè)常數(shù),避免了消失的梯度問題,并且當(dāng)輸入小于0時(shí),輸出為0,引進(jìn)了稀疏性,能夠加速訓(xùn)練,但是由于其輸出均值也大于0,所以也會(huì)出現(xiàn)偏置轉(zhuǎn)移現(xiàn)象,并且由于當(dāng)輸入小于0時(shí),對(duì)應(yīng)的神經(jīng)元輸出為0,梯度為0,對(duì)應(yīng)的權(quán)重也就無法更新。Mexnet網(wǎng)絡(luò)結(jié)構(gòu)圖如下:
2.3進(jìn)行圖像識(shí)別
通過模擬訓(xùn)練,系統(tǒng)得到了一個(gè)圖像識(shí)別的深度學(xué)習(xí)模型。部分識(shí)別結(jié)果如下圖4所示,其中(a)橡皮鴨的識(shí)別結(jié)果,(b)為招財(cái)貓的識(shí)別結(jié)果,(c)為茶杯的識(shí)別結(jié)果。本次實(shí)驗(yàn)訓(xùn)練集為1000,測(cè)試集為300,正確率可以穩(wěn)定在95%左右。
3總結(jié)與展望
本文所研討的是基于卷積層神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別系統(tǒng)。通過對(duì)于圖像拍攝以及圖像搜集,準(zhǔn)備數(shù)據(jù)集來進(jìn)行模擬訓(xùn)練進(jìn)而實(shí)現(xiàn)對(duì)于圖像的識(shí)別。本系統(tǒng)所研討的方向有較大的應(yīng)用價(jià)值,其可以作為一項(xiàng)基礎(chǔ)的技術(shù)在社會(huì)各領(lǐng)域都有一定的應(yīng)用前景。但是有關(guān)圖像的種類我們所做的測(cè)試還不夠,還可以擴(kuò)大訓(xùn)練集。其次對(duì)于比較復(fù)雜特征的圖形識(shí)別做的研討還不夠,仍值得進(jìn)一步研究、實(shí)驗(yàn)。