薛先貴 黎路
【摘 要】本文對(duì)卷積神經(jīng)網(wǎng)絡(luò)的圖像特征提取技術(shù)進(jìn)行了綜述,探討了它的原理和發(fā)展方向,對(duì)于它的存在問題給出了相關(guān)的建議。
【關(guān)鍵詞】卷積神經(jīng)網(wǎng)絡(luò);圖像特征;特征提取
中圖分類號(hào): TP183;TP391.41文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2019)07-0083-002
DOI:10.19694/j.cnki.issn2095-2457.2019.07.033
【Abstract】In this paper, the image feature extraction technology based on convolutional neural network is summarized, its principle and development direction are discussed, and some suggestions for its problems are given.
【Key words】Convolutional Neural Network; Image features; Feature extraction
0 前言
目前,對(duì)于流行全球的深度學(xué)習(xí),一般來(lái)說(shuō)有三種基本架構(gòu):DBN結(jié)構(gòu),SAE結(jié)構(gòu)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(CNN),分別活躍于大數(shù)據(jù)挖掘,數(shù)據(jù)分類和圖像處理等領(lǐng)域。其中卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)( CNN)由于在機(jī)器視覺方面的突出表現(xiàn),使之成為圖像處理的不二人選,本文介紹了CNN技術(shù)在圖像特征提取中的應(yīng)用。
1 卷積神經(jīng)網(wǎng)絡(luò)的原理及其經(jīng)典的四種結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種局部連接網(wǎng)絡(luò),相對(duì)于典型的BP全連接神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),具有局部連接性和權(quán)值共享性的的特點(diǎn)。這種神經(jīng)網(wǎng)絡(luò)不僅大量的減少了訓(xùn)練參數(shù),還符合自然圖像中越近的像素對(duì)旁邊的像素影響越大的特點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重共享構(gòu)成卷積核,并且它與給定圖像做卷積后就可以提取圖像的某種特征。在圖像處理的過(guò)程中,通過(guò)許多不同的卷積核參數(shù)的訓(xùn)練,就可以自動(dòng)提取相同圖像的不同圖像特征。
目前,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,共有四種經(jīng)典結(jié)構(gòu)用于圖像特征提?。篖eNet網(wǎng)絡(luò),AlexNet網(wǎng)絡(luò),VggNet網(wǎng)絡(luò),ResNet網(wǎng)絡(luò)。
LeNet網(wǎng)絡(luò)是在1994年由Yan LeCun提出,也就是第一代卷積神經(jīng)網(wǎng)絡(luò)。LeNet主要用來(lái)進(jìn)行手寫字符的識(shí)別與分類,準(zhǔn)確率達(dá)到了98 ,已經(jīng)在美國(guó)的銀行中投入了使用,被用于讀取北美約10 的支票。AlexNet網(wǎng)絡(luò)由 Hinton的學(xué)生 Alex Krizhevsky于2012年提出,是 LeNet的一種更深更寬的版本,通過(guò)與其他各種圖像識(shí)別算法的比較,確定了卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中的優(yōu)勢(shì)。VGGNet網(wǎng)絡(luò)是由牛津大學(xué)計(jì)算機(jī)視覺組和Google DeepMind進(jìn)一步開發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)[2]。ResNet(殘差神經(jīng)網(wǎng)絡(luò))由何華明等人于2015年提出。通過(guò)殘差學(xué)習(xí),可以做到更深的網(wǎng)絡(luò)結(jié)構(gòu),從而存貯更多圖像特征,識(shí)別更加精準(zhǔn)。
2 卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征的原理
卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖像是將一個(gè)完整的圖片經(jīng)過(guò)多次或者并行的自動(dòng)特征提取,然后把每個(gè)圖像特征匯總到一起,在比較相似性之后,可以從高概率完成圖像識(shí)別的過(guò)程。從本質(zhì)上說(shuō),這是一個(gè)深度的自動(dòng)學(xué)習(xí)過(guò)程,我們前面所定義的圖像特征可能并不適合卷積神經(jīng)網(wǎng)絡(luò)的特征分類,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的提取特征而言,雖然有很多的還原算法試圖理解機(jī)器所提取的特征,但是就目前而言,機(jī)器所提取的特征不太適合人腦理解,甚至可能找到了人腦所沒發(fā)現(xiàn)的圖像特征。
2.1 圖像特征提取技術(shù)構(gòu)成
2.1.1 建立卷積層提取初步特征
卷積層的作用就是提取圖片中的某個(gè)初步特征,類似一個(gè)濾波器(其細(xì)節(jié)不完全相同),經(jīng)過(guò)大量的訓(xùn)練以后,機(jī)器自動(dòng)調(diào)整卷積核的值,然后與圖片矩陣做卷積,可以從圖像中提取一定的特征出來(lái),卷積核的數(shù)量對(duì)初步特征提取有很大影響,但是時(shí)間消耗相應(yīng)地增加。
2.1.2 建立池化層提取主要特征
匯集層連接到卷積層,因此匯集層的輸入是由卷積層和相應(yīng)的卷積核輸出的原始數(shù)據(jù)的輸出矩陣。目前,有很多文章指出,不用池化層也不影響特征提取的質(zhì)量,但是,池化層的主要作用是可以減少訓(xùn)練參數(shù)的數(shù)量,降低卷積層輸出的特征向量的維數(shù)[3]和減少過(guò)度擬合現(xiàn)象,僅保留最有用的圖像信息,并減少噪聲的傳播。
2.1.3 建立一個(gè)完全連接的層來(lái)匯總每個(gè)部分的功能
卷積層和池化層的共同作用下,不僅可以提取圖像特征,同時(shí)大大減少原始圖像帶來(lái)的參數(shù)。最后,我們應(yīng)用完全連接的層來(lái)生成一個(gè)等于我們需要的類數(shù)的分類器。將權(quán)重矩陣相乘,添加偏移值,然后使用ReLU激活函數(shù)使用梯度下降方法優(yōu)化參數(shù)。
最后鑒別圖像的圖像特征都提取出來(lái)了,就可以從特征的不同和相同出發(fā),用神經(jīng)網(wǎng)絡(luò)的來(lái)識(shí)別千萬(wàn)張圖片中的特定一張了。
3 圖像特征提取的發(fā)展方向
目前,對(duì)這種神經(jīng)網(wǎng)絡(luò)的改進(jìn)集中于如上所述將圖像特征提取到神經(jīng)網(wǎng)絡(luò)中的過(guò)程。首先,對(duì)于卷積層的改進(jìn)有以下幾種:卷積核小型化,1x1卷積,Network In Network,Inception機(jī)制,卷積分解(Factorization),反卷積運(yùn)算等等。例如,Network In Network的主要思想是用小規(guī)模神經(jīng)網(wǎng)絡(luò)替換卷積層的線性濾波器[4]。1x1卷積可用于減少信道維數(shù)或用于完整卷積網(wǎng)絡(luò),確保卷積網(wǎng)絡(luò)可接受任何大小的輸入圖像。并能做逐像素的預(yù)測(cè)。其次,對(duì)于池化層的改進(jìn)主要有以下幾種:L-P池化,混合池化,隨機(jī)池化,Spatial pyramid pooling,ROI pooling。Spatial pyramid pooling在SPP網(wǎng)絡(luò)中提出, ROI pooling在Fast R-CNN算法中提出。然后,還有其他功能可以更改網(wǎng)絡(luò)的其他部分,例如激活功能。ReLU,ELU,PReLU等取得了良好的效果,其中ReLU及其改進(jìn)型廣泛應(yīng)用于卷積網(wǎng)絡(luò)。最后,目前發(fā)展最快的是網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),比如殘差網(wǎng)絡(luò)和DenseNet等結(jié)構(gòu)等等。
4 總結(jié)
目前,基于卷積神經(jīng)網(wǎng)絡(luò)圖像分類的應(yīng)用很多,識(shí)別效果非常好。但是,一些迫切的問題目前都沒有解決:首先,還沒有形成一套完整的結(jié)構(gòu)理論或解釋理論?,F(xiàn)在許多識(shí)別系統(tǒng)都是根據(jù)特定的數(shù)據(jù)庫(kù),然后設(shè)計(jì)特別的網(wǎng)絡(luò),通過(guò)不斷的訓(xùn)練,同時(shí)結(jié)合人工來(lái)發(fā)現(xiàn)最佳的參數(shù)和優(yōu)化算法,這樣應(yīng)用的局限性比較大,同時(shí)也沒有較系統(tǒng)的理論來(lái)糾正后期錯(cuò)誤。第二,現(xiàn)有的算法和結(jié)構(gòu)尚存在一些缺陷。比如對(duì)海量圖像進(jìn)行分類識(shí)別時(shí),初始狀態(tài)參數(shù)以及圖片算法的選取,會(huì)對(duì)網(wǎng)絡(luò)訓(xùn)練造成很大影響。但不可否認(rèn)的是,卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的統(tǒng)治地位已經(jīng)牢不可破,更多的可能是,我們需要更好的理論來(lái)解釋和控制神經(jīng)網(wǎng)絡(luò)。
【參考文獻(xiàn)】
[1]何立民,萬(wàn)躍華.數(shù)字圖書館中基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)[J].中國(guó)圖書館學(xué)報(bào),2002,28(6):39-43.
[2]佘鵬,甘健侯,文斌,et al.經(jīng)典深度卷積神經(jīng)網(wǎng)絡(luò)模型在手繪草圖識(shí)別中的應(yīng)用研究[J].云南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2018.
[3]常祥,楊明.基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的圖像分類性能[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(3).
[4]范青.卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究[J]. 電腦知識(shí)與技術(shù),2016(33):173-176.