亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多通道卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別方法

        2017-07-24 16:09:39易超人鄧燕妮
        關(guān)鍵詞:錯(cuò)誤率分類器梯度

        易超人,鄧燕妮

        (武漢理工大學(xué) 自動(dòng)化學(xué)院,湖北 武漢 430070)

        ?

        多通道卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別方法

        易超人,鄧燕妮

        (武漢理工大學(xué) 自動(dòng)化學(xué)院,湖北 武漢 430070)

        為了更好地利用圖像數(shù)據(jù)中隱含的特征信息,將多方向梯度信息作為邊緣信息的基本表達(dá),提出了一種基于圖像梯度的多通道卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別方法。先將圖像進(jìn)行Sobel算子處理,得到水平方向、垂直方向及兩個(gè)對(duì)角方向的4個(gè)梯度圖像。然后,建立4個(gè)多層卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)4個(gè)不同方向梯度圖像的特征。再將4個(gè)不同方向的特征進(jìn)行隨機(jī)化特征融合,得到樣本的特征后經(jīng)過批標(biāo)準(zhǔn)化處理。最后,通過分類器得到分類結(jié)果。在數(shù)據(jù)庫Cifar-10和MNIST上進(jìn)行了驗(yàn)證,驗(yàn)證結(jié)果表明:本文提出的模型具有較好的泛化能力,相比單通道卷積神經(jīng)網(wǎng)絡(luò),在兩個(gè)數(shù)據(jù)庫中識(shí)別錯(cuò)誤率分別降低了9.85%和0.38%。

        卷積神經(jīng)網(wǎng)絡(luò);多通道;梯度圖像;隨機(jī)化特征融合;分類

        0 引言

        特征提取是模式識(shí)別領(lǐng)域中的核心技術(shù),也是其難點(diǎn)之一。傳統(tǒng)基于特征的識(shí)別方法都是先定義一種特征,再根據(jù)預(yù)先定義的特征進(jìn)行分類識(shí)別。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的重要發(fā)展,能夠逐層地自動(dòng)學(xué)習(xí)合適的表示特征,因而在眾多領(lǐng)域中得到了廣泛應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為深度學(xué)習(xí)的三大重要模型之一,繼承了深度學(xué)習(xí)技術(shù)自動(dòng)提取特征的優(yōu)點(diǎn),并且通過權(quán)值共享大大減少了所需要訓(xùn)練的參數(shù),使CNN能快速處理高維圖像,還具備一定的平移不變性,因而在圖像分類識(shí)別等領(lǐng)域取得了較好的效果。目前,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被應(yīng)用到人臉特征點(diǎn)檢測[1]、突出物體檢測[2]、行人檢測[3]、人臉識(shí)別[4]和車型識(shí)別[5]等領(lǐng)域,均取得了較好的效果。

        上述檢測和識(shí)別方法都是采用圖像的直接輸入。圖像最基本的特征是邊緣,邊緣是圖像信息最集中的地方,采用梯度信息作為邊緣信息的基本表達(dá)來進(jìn)行圖像處理,在某些方面能夠更好地利用圖像信息。文獻(xiàn)[6]提出了一種基于圖像梯度的單樣本人臉識(shí)別方法,采用梯度方法進(jìn)行人臉識(shí)別具有光照不變性等優(yōu)點(diǎn),利用B樣條濾波減小噪聲對(duì)圖像梯度信息的干擾,經(jīng)驗(yàn)證優(yōu)于傳統(tǒng)的濾波方法。文獻(xiàn)[7]將圖像的梯度幅值、相位和結(jié)構(gòu)相似度相結(jié)合,提出了一種新的利用梯度信息的圖像質(zhì)量評(píng)價(jià)模型—梯度相似度(gradient similarity,GSIM)模型,以及基于該模型的圖像質(zhì)量評(píng)價(jià)算法,經(jīng)驗(yàn)證新模型能真實(shí)反映失真圖像的視覺感知質(zhì)量,具有較高的評(píng)價(jià)可靠性。

        利用梯度信息處理圖像具有一定的優(yōu)點(diǎn),但是上述方法只利用了圖像水平方向和垂直方向的梯度信息,不能充分利用圖像信息。為了更好地利用數(shù)據(jù)中隱含的特征信息,本文用水平方向、垂直方向及兩個(gè)對(duì)角方向的4個(gè)梯度圖像作為邊緣信息,將多方向梯度信息作為CNN的輸入,提出了一種基于圖像梯度的多通道卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別方法。將4個(gè)梯度方向的特征信息輸入到多通道卷積神經(jīng)網(wǎng)絡(luò),使提取的圖像特征更加有效,并且在分類層前加入了批標(biāo)準(zhǔn)化算法,進(jìn)一步降低了圖像識(shí)別的錯(cuò)誤率。

        1 卷積神經(jīng)網(wǎng)絡(luò)

        1.1 卷積層和下采樣層

        1980年,文獻(xiàn)[8]提出新認(rèn)知機(jī),首次引進(jìn)了CNN 的概念,成為首個(gè)深度學(xué)習(xí)模型。2003年,文獻(xiàn)[9]對(duì)CNN進(jìn)行了歸納總結(jié)。CNN是一個(gè)多層非全連接的神經(jīng)網(wǎng)絡(luò),每層由多個(gè)二維平面組成,而每個(gè)平面由多個(gè)獨(dú)立神經(jīng)元組成。CNN包含兩種特殊的網(wǎng)絡(luò)結(jié)構(gòu):卷積層和下采樣層。卷積層和下采樣層可以有多層,一般CNN前幾層為卷積層和下采樣層的交替,CNN的深度由此體現(xiàn)[10]。CNN通過卷積層和下采樣層的相互配合來學(xué)習(xí)原始圖像的特征,并通過經(jīng)典的誤差反向傳播(back propagation,BP)算法來調(diào)整參數(shù),完成權(quán)值的更新。

        卷積是圖像識(shí)別中常用的算法,是指輸出圖像中的每個(gè)像素都是由輸入圖像對(duì)應(yīng)位置的小區(qū)域的像素通過加權(quán)所得,這個(gè)小區(qū)域叫做局部感受野,區(qū)域的權(quán)值叫做卷積核。輸入圖像通過卷積運(yùn)算后再加上偏置項(xiàng),通過激活函數(shù)得到其特征圖。文獻(xiàn)[9]給出了卷積層的形式:

        下采樣層也叫池化層,即將圖像分成一小塊一小塊的區(qū)域,對(duì)每個(gè)區(qū)域計(jì)算出一個(gè)值,然后將計(jì)算出的值依次排列,輸出新的圖像。這個(gè)過程相當(dāng)于模糊濾波,可增加對(duì)圖像特征提取的魯棒性。本文池化方法采用的是平均池化。

        1.2 批標(biāo)準(zhǔn)化

        在圖像處理過程中,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,例如白化,甚至是簡單的減均值圖像預(yù)處理操作都能提高識(shí)別率。批標(biāo)準(zhǔn)化(batch normalization,BN)[12]的思想則是對(duì)于每組批數(shù)據(jù),在網(wǎng)絡(luò)的每一層中,對(duì)各個(gè)特征分別進(jìn)行標(biāo)準(zhǔn)化處理。文獻(xiàn)[12]給出了算法流程,對(duì)于神經(jīng)元在一次批處理過程中的全部輸入,先計(jì)算均值和方差,再進(jìn)行標(biāo)準(zhǔn)化處理,并在誤差反向傳播的過程中學(xué)習(xí)該算法的參數(shù)。一般批標(biāo)準(zhǔn)化可運(yùn)用在任何層,且運(yùn)用在神經(jīng)元激活函數(shù)之前,即輸入到神經(jīng)元的數(shù)據(jù)通過加權(quán)運(yùn)算后再經(jīng)過批標(biāo)準(zhǔn)化處理,經(jīng)過激活函數(shù)進(jìn)行運(yùn)算。

        本文在經(jīng)過隨機(jī)化的特征融合后,輸入到分類器前的數(shù)據(jù)運(yùn)用批標(biāo)準(zhǔn)化,可以使輸入到分類器中的數(shù)據(jù)由集中變得分散,取得更好的識(shí)別效果。在一定程度上,可以防止過擬合。

        2 多通道卷積神經(jīng)網(wǎng)絡(luò)

        圖1是本文提出的多通道卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖。首先,將輸入圖像經(jīng)過Sobel算子得到水平方向、垂直方向及兩個(gè)對(duì)角方向的4個(gè)梯度圖像。然后,分別輸入4個(gè)多層卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)4個(gè)不同方向梯度圖像的特征。再將4個(gè)不同方向的特征進(jìn)行隨機(jī)化特征融合,特征融合后的信息具有更好的魯棒性[13],得到樣本的特征后再經(jīng)過批標(biāo)準(zhǔn)化處理。最后,通過分類器得到分類結(jié)果并輸出。

        圖1 多通道卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖

        對(duì)于一張32×32的圖片,可得到其4個(gè)方向上的梯度信息,大小均為32×32。對(duì)于每個(gè)通道,圖像梯度先經(jīng)過8個(gè)5×5的卷積核得到8個(gè)28×28的特征圖。然后,在池化大小為2×2下進(jìn)行采樣,得到8個(gè)14×14的特征圖。再經(jīng)過16個(gè)5×5卷積核后得到16個(gè)10×10特征圖。最后,在池化大小為2×2下采樣,得到16個(gè)5×5的特征圖。每個(gè)網(wǎng)絡(luò)都可以得到16個(gè)5×5的特征圖,然后對(duì)4個(gè)通道的特征圖進(jìn)行隨機(jī)化的特征融合。

        隨機(jī)化特征融合過程如圖2所示。圖2中:A、B、C、D分別代表不同通道的特征圖,上標(biāo)j表示每個(gè)通道的第j個(gè)特征圖;a、b、c、d分別代表來自其對(duì)應(yīng)特征圖A、B、C、D里的元素,下標(biāo)數(shù)字代表對(duì)應(yīng)特征圖元素的位置;M代表隨機(jī)化特征融合后的特征圖。每次取4個(gè)網(wǎng)絡(luò)中相同位置的4個(gè)特征圖,再取4個(gè)特征圖中相同位置的4個(gè)元素,然后用采樣矩陣選取一個(gè)元素。采樣矩陣按照其概率值大小隨機(jī)選擇,即元素值大的被選中的概率大。本文用0-1均勻分布來采樣,將單位長度1按照4個(gè)元素值的大小分成4個(gè)區(qū)間,元素值越大,覆蓋的區(qū)域越長,每個(gè)區(qū)間對(duì)應(yīng)一個(gè)位置,然后隨機(jī)生成一個(gè)0~1的數(shù),這個(gè)數(shù)會(huì)落入某一區(qū)間。得到的采樣矩陣為一個(gè)大小為2×2的矩陣,里面有一個(gè)元素為1,其余元素為0。通過這種隨機(jī)化的特征融合,最后得到16個(gè)大小為5×5的特征圖。把得到的特征圖全連接處理后,得到一個(gè)大小為400的向量,經(jīng)過批標(biāo)準(zhǔn)化處理后輸入分類器進(jìn)行分類。

        圖2 隨機(jī)化特征融合過程

        3 實(shí)驗(yàn)結(jié)果及分析

        選擇普適物體數(shù)據(jù)庫Cifar-10和手寫數(shù)字庫MNIST,驗(yàn)證本文提出的基于梯度的多通道卷積神經(jīng)網(wǎng)絡(luò)模型。

        3.1 實(shí)驗(yàn)方法

        實(shí)驗(yàn)1是在數(shù)據(jù)庫Cifar-10上進(jìn)行驗(yàn)證。該數(shù)據(jù)庫由60 000張32×32的RGB彩色圖片構(gòu)成,共分10類。其中,訓(xùn)練圖片50 000張,測試圖片10 000張,測試樣本為交叉驗(yàn)證。本文將樣本轉(zhuǎn)化為灰度圖像,歸一化后在該灰度樣本上進(jìn)行了驗(yàn)證。實(shí)驗(yàn)中的深度自動(dòng)編碼器(deep auto-encoder,DAE)和深度信念網(wǎng)絡(luò)(deep belief network,DBN)模型的層數(shù)均為[1 024 600200 10],單通道卷積神經(jīng)網(wǎng)絡(luò)包括2 個(gè)卷積層和2個(gè)池化層,其中,第1個(gè)卷積層為8個(gè)卷積核,第2個(gè)卷積層為16個(gè)卷積核,大小均為5×5,池化層大小均為 2×2。單通道卷積神經(jīng)網(wǎng)絡(luò)輸入的是進(jìn)行歸一化后的灰度圖像,多通道卷積神經(jīng)網(wǎng)絡(luò)輸入的是其灰度圖像進(jìn)行Sobel算子計(jì)算后的4個(gè)不同方向的圖像梯度。多通道卷積神經(jīng)網(wǎng)絡(luò)的4個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型均和單通道的模型相同,本文在多通道卷積神經(jīng)網(wǎng)絡(luò)模型中分類器前,對(duì)有無批標(biāo)準(zhǔn)化進(jìn)行了驗(yàn)證對(duì)比。所有模型的分類器均為softmax分類器。

        實(shí)驗(yàn)2是在數(shù)據(jù)庫MNIST上進(jìn)行驗(yàn)證。該數(shù)據(jù)庫由70 000張28×28的灰度圖片構(gòu)成,共分10類,其中,訓(xùn)練圖片60 000張,測試圖片10 000張。同樣將樣本進(jìn)行歸一化處理。實(shí)驗(yàn)中的DAE模型和DBN模型的層數(shù)均為[784 500 200 10],單通道的卷積神經(jīng)網(wǎng)絡(luò)同樣包括2個(gè)卷積層和2個(gè)池化層,兩層卷積層卷積核的個(gè)數(shù)分別為6個(gè)和12個(gè),大小均為5×5,池化層大小均為2×2。實(shí)驗(yàn)內(nèi)容與實(shí)驗(yàn)1基本類似。

        3.2 結(jié)果分析

        圖3為Cifar-10和MNIST兩種數(shù)據(jù)庫在不同算法下的識(shí)別錯(cuò)誤率。由圖3a和圖3b可以看出:在兩種數(shù)據(jù)庫上,本文提出的多通道CNN(有BN)模型,比單通道CNN識(shí)別錯(cuò)誤率分別降低了9.85%和0.38%。CNN在圖像識(shí)別方面比其他深度學(xué)習(xí)算法優(yōu)越,這主要是因?yàn)镃NN通過局部感受野和權(quán)值共享,能夠有效地提取圖像的特征,并具備一定的平移不變性。從圖3a和圖3b的單通道CNN和多通道CNN(無BN)的曲線可以看出:將圖片的多方向梯度信息輸入網(wǎng)絡(luò)并做隨機(jī)化的特征融合,比直接輸入原始圖片信息效果要好。這主要是因?yàn)閷⒃嫉臄?shù)據(jù)直接輸入卷積神經(jīng)網(wǎng)絡(luò),雖然也能得到較低的識(shí)別錯(cuò)誤率,但在模型結(jié)構(gòu)較簡單的條件下,不能夠有效學(xué)習(xí)數(shù)據(jù)集中隱含的特征信息,而特征的有效性直接決定了分類性能。4個(gè)梯度方向的特征信息能更全面利用數(shù)據(jù)中隱含的特征信息,兩個(gè)數(shù)據(jù)庫上取得的識(shí)別錯(cuò)誤率更低,這也說明了將多方向梯度信息作為邊緣信息的基本表達(dá)是有效的。本文將多通道模型分類層前有無批標(biāo)準(zhǔn)化算法進(jìn)行了驗(yàn)證對(duì)比,運(yùn)用批標(biāo)準(zhǔn)化后,Cifar-10數(shù)據(jù)庫經(jīng)過40次迭代后識(shí)別錯(cuò)誤率降低了2.88%。由于MNIST數(shù)據(jù)庫識(shí)別錯(cuò)誤率較低,下降的幅度不是很明顯,說明將集中的數(shù)據(jù)變得更分散,在一定程度上有利于防止過擬合,得到更好的效果。

        圖3 Cifar-10和MNIST數(shù)據(jù)庫在不同算法下的識(shí)別錯(cuò)誤率

        4 結(jié)束語

        (1) 卷積神經(jīng)網(wǎng)絡(luò)能自動(dòng)提取圖像的結(jié)構(gòu)信息等特征,通過局部感受野、權(quán)值共享和下采樣技術(shù)有效提取圖像信息,并具備平移不變性,在圖像識(shí)別上優(yōu)于其他深度學(xué)習(xí)算法。

        (2) 利用圖像多方向梯度信息作為圖像信息的表達(dá),在某些方面可以更好地利用圖像隱含的信息,并且通過隨機(jī)化的特征信息融合,增加網(wǎng)絡(luò)的魯棒性,可以得到更好的識(shí)別效果。

        (3) 批標(biāo)準(zhǔn)化使輸入到分類器中的數(shù)據(jù)由集中變得分散,在一定程度上防止了過擬合,可以進(jìn)一步降低識(shí)別錯(cuò)誤率。

        本文所提出的多通道卷積神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)庫上可以取得更低的識(shí)別錯(cuò)誤率,說明該方法是有效的,但此模型還較為復(fù)雜,多通道梯度卷積神經(jīng)網(wǎng)絡(luò)比單通道卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間大約增加一倍。后續(xù)研究工作是優(yōu)化模型的拓?fù)浣Y(jié)構(gòu),減少誤差反向傳播時(shí)間,降低網(wǎng)絡(luò)復(fù)雜度。

        [1] SUN Y,WANG X,TANG X.Deep convolutional network cascade for facial point detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Portland,Oregon,USA:IEEE,2013:3476-3483.

        [2] HE S F,LAU R W H,LIU W X,et al.SuperCNN:a superpixelwise convolutional neural network for salient object detection[J].International journal of computer vision,2015,115(3):330-344.

        [3] 蘇松志,李紹滋,陳淑媛,等.行人檢測技術(shù)綜述[J].電子學(xué)報(bào),2012,40(4):814-820.

        [4] MOON H M,CHANG H S,PAN S B.A face recognition system based on convolution neural network using multiple distance face[J].Soft computing,2016,20(2):1-8.

        [5] DONG Z,PEI M T,HE Y,et al.Vehicle type classification using unsupervised convolutional neural network[C]//Proceedings of the 2014 22nd International Conference on Pattern Recognition ( ICPR).Stockholm,Sweden:IEEE,2014:172-177.

        [6] 方蔚濤,吳凡.B樣條和圖像梯度的單樣本人臉識(shí)別[J].重慶大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,36(12):111-116.

        [7] 馬旭東,閆利,曹緯,等.一種新的利用梯度信息的圖像質(zhì)量評(píng)價(jià)模型[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2014,39(12):1412-1418.

        [8] FUKUSHIMA K.Neocognitron:a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological cybernetics,1980,36(4):193-202.

        [9] BEHNKE S.Hierarchical neural networks for image interpretation[M].Berlin:Springer,2003.

        [10] KRIZHEVSKY A,SUTSKEVER I,HINTON G.Imagenet classification with deep con-volutional neural networks[J].Advances in neural information processing systems,2012,25(2):1106-1114.

        [11] DAHL G E,SAINATH T N,HINTON G E.Improving deep neural networks for LVCSR using rectified linear units and dropout[C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Vancouver,BC,Canada:IEEE,2013:8609-8613.

        [12] IOFFE S,SZEGEDY C.Batch normalization:accelerating deep network training by reducing internal covariate shift[C]// Proceedings of the 32nd International Conferenceon Machine Learning.Lille,France:IEEE,2015:448-456.

        [13] 李歡歡,萬源,童恒慶,等.分層紋理特征和梯度特征融合的圖像分類[J].河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,36(1):52-57.

        國家“863”計(jì)劃基金項(xiàng)目(2015AA015904)

        易超人(1993-),男,湖北荊州人,碩士生;鄧燕妮(1962-),女,湖南益陽人,教授,博士,碩士生導(dǎo)師,主要研究方向?yàn)轸敯魞?yōu)化控制理論及應(yīng)用、計(jì)算機(jī)控制與應(yīng)用、過程智能控制與優(yōu)化技術(shù)等.

        2016-08-03

        1672-6871(2017)03-0041-04

        10.15926/j.cnki.issn1672-6871.2017.03.009

        TP391.41

        A

        猜你喜歡
        錯(cuò)誤率分類器梯度
        限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
        一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
        一種自適應(yīng)Dai-Liao共軛梯度法
        一類扭積形式的梯度近Ricci孤立子
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        正視錯(cuò)誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯(cuò)誤原因
        降低學(xué)生計(jì)算錯(cuò)誤率的有效策略
        性大毛片视频| 日本不卡不二三区在线看| 久久久天堂国产精品女人| 精品无码av一区二区三区| 欧美疯狂做受xxxxx高潮| 无码专区无码专区视频网址| 亚洲一区二区蜜桃视频| 亚洲熟女天堂av一区二区三区| 国产精品亚洲一区二区三区| 国产在视频线精品视频| 国产福利片无码区在线观看 | 精品乱码一区内射人妻无码| 一道久在线无码加勒比| 久久精品无码一区二区三区不| 精品日韩欧美一区二区三区在线播放| 国产自拍一区二区三区| 国产av久久久久精东av| 97久久天天综合色天天综合色hd| 久久亚洲午夜牛牛影视| 久久国产精品国产精品久久| 白浆国产精品一区二区| 亚洲日本va中文字幕| 国产爆乳乱码女大生Av| 北岛玲亚洲一区二区三区| 丰满少妇被猛烈进入高清播放| 国产无吗一区二区三区在线欢| 女人与牲口性恔配视频免费| 日本一区二区三区专区| 国产av久久在线观看| 亚洲色精品aⅴ一区区三区| 91精品国产色综合久久不卡蜜| 久久夜色精品国产三级| 日本一区二区三区爆乳| 人妻少妇av无码一区二区 | 精品亚洲国产成人av| 午夜精品久视频在线观看 | 色婷婷激情在线一区二区三区| 国内自拍愉拍免费观看| 国内最真实的xxxx人伦| 岛国AV一区二区三区在线观看| 亚洲人妖女同在线播放|