亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度卷積生成對抗網(wǎng)絡(luò)的圖像識別算法

2020-05-11 12:00:20劉戀秋

液晶與顯示 2020年4期

劉戀秋

(重慶財經(jīng)職業(yè)學(xué)院，重慶 402160)

1 引言

生成對抗網(wǎng)絡(luò)(GAN)是近年來最受關(guān)注的無監(jiān)督式神經(jīng)網(wǎng)絡(luò)之一，該模型功能強(qiáng)大且應(yīng)用場景廣泛，最常見的應(yīng)用是圖像生成。在GAN的框架中[1]，結(jié)果的生成是通過對抗過程不斷進(jìn)化，在GAN中同時有兩個模型訓(xùn)練：捕獲數(shù)據(jù)分布的生成模型G以及估計數(shù)據(jù)分布的判別模型D。生成器G的訓(xùn)練目標(biāo)是騙過判別器D，換言之最大化D犯錯誤的概率；D的目標(biāo)則是最大化自己的正確率。該框架本質(zhì)上是一個博弈過程，最終收斂于納什均衡。在空間上，對于生成器G和判別器D，如果使用零和博弈的loss函數(shù)，當(dāng)D訓(xùn)練完美達(dá)到1/2時，D就無法再分辨出真實(shí)數(shù)據(jù)和生成數(shù)據(jù)，也就無法再給G提供梯度。

為了進(jìn)一步提升GAN的穩(wěn)定性和識別效率，有很多學(xué)者都提出了自己的優(yōu)化方案，提出了虛擬批量標(biāo)準(zhǔn)化的算法，利用批量訓(xùn)練數(shù)據(jù)的方式顯著改善網(wǎng)絡(luò)性能。Radford提出了深度卷積生成對抗網(wǎng)絡(luò)(DCGAN)的算法[2]，該算法將GAN的概念擴(kuò)展到卷積神經(jīng)網(wǎng)絡(luò)中，可以生成更高質(zhì)量的圖片。在此基礎(chǔ)上，Sailimans等在近紅外光譜(NIR)圖像的場景下提出了著色 DCGAN模型[3]，該方案的核心是針對NIR圖像將其劃分為RGB 3個通道，再利用DCGAN的模型分別進(jìn)行訓(xùn)練，進(jìn)一步提升了識別的準(zhǔn)確率。但是針對大部分的圖像處理而言，基于深度卷積生成對抗網(wǎng)絡(luò)的圖形識別算法仍存在收斂速度慢、訓(xùn)練過程不夠穩(wěn)定的缺點(diǎn)。本文提出了融合加權(quán)Canny算子和Prewitt算子的深度卷積生成對抗網(wǎng)絡(luò)算法[4]，該加權(quán)算子對多個方向進(jìn)行卷積，從而初始化輸入圖片參數(shù)，有效減少了噪聲的干擾。

2 深度卷積神經(jīng)網(wǎng)絡(luò)算法

卷積神經(jīng)網(wǎng)絡(luò)又簡稱卷積網(wǎng)絡(luò)(CNN)，該模型主要用于處理網(wǎng)格狀結(jié)構(gòu)數(shù)據(jù)的特殊網(wǎng)絡(luò)結(jié)構(gòu)[5-8]。該模型是受到貓的視覺皮層細(xì)胞研究的啟發(fā)，模仿其神經(jīng)結(jié)構(gòu)然后提出了感受野(Receptive Field)的概念。卷積神經(jīng)網(wǎng)絡(luò)將時序信息等單一變量的信息作為一維的數(shù)據(jù)格式，而圖片、位置等信息則被認(rèn)為是二維的數(shù)據(jù)格式。卷積神經(jīng)網(wǎng)絡(luò)在推出后，取得了巨大的成功。呂永標(biāo)基于深度學(xué)習(xí)理論,將圖像去噪過程看成神經(jīng)網(wǎng)絡(luò)的擬合過程,構(gòu)造簡潔高效的復(fù)合卷積神經(jīng)網(wǎng)絡(luò),提出基于復(fù)合卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪算法，該算法由2個2層的卷積網(wǎng)絡(luò)構(gòu)成,分別訓(xùn)練3層卷積網(wǎng)絡(luò)中的部分初始卷積核,縮短階段網(wǎng)絡(luò)的訓(xùn)練時間和增強(qiáng)算法的魯棒性，最后運(yùn)用卷積網(wǎng)絡(luò)對新的噪聲圖像進(jìn)行有效去噪。實(shí)驗(yàn)表明，文中算法在峰值信噪比、結(jié)構(gòu)相識度及均方根誤差指數(shù)上與當(dāng)前較好的圖像去噪算法相當(dāng),尤其當(dāng)噪聲加強(qiáng)時效果更佳且訓(xùn)練時間較短[9]。王秀席等針對現(xiàn)有車型識別算法耗時長、特征提取復(fù)雜、識別率低等問題,引入了基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)方法。此方法具有魯棒性好、泛化能力強(qiáng)、識別度高等優(yōu)點(diǎn),因而被廣泛使用于圖像識別領(lǐng)域。在對公路中的4種主要車型(大巴車、面包車、轎車、卡車)的分類實(shí)驗(yàn)中,改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5使車型訓(xùn)練、測試結(jié)果均達(dá)到了98%以上,優(yōu)于傳統(tǒng)的SIFT+SVM算法，其算法在減少檢測時間和提高識別率等方面都有了顯著提高,在車型識別上具有明顯優(yōu)勢[10]。隨著大數(shù)據(jù)時代來臨以及GPU并行計算速度的飛速發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)本身不斷優(yōu)化(ReLU激活函數(shù)取代Sigmoid函數(shù)，Dropout思想的提出)，其計算效率得到了大幅度提升。許赟杰等針對常用的激活函數(shù)在反向傳播神經(jīng)網(wǎng)絡(luò)中具有收斂速度較慢、存在局部極小或梯度消失的問題,將Sigmoid系和ReLU系激活函數(shù)進(jìn)行了對比,分別討論了其性能,詳細(xì)分析了幾類常用激活函數(shù)的優(yōu)點(diǎn)及不足,并通過研究Arctan函數(shù)在神經(jīng)網(wǎng)絡(luò)中應(yīng)用的可能性,結(jié)合ReLU函數(shù),提出了一種新型的激活函數(shù)ArcReLU，既能顯著加快反向傳播神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,又能有效降低訓(xùn)練誤差并避免梯度消失的問題[11]。

深度卷積神經(jīng)網(wǎng)絡(luò)包含以下幾個核心部分：

(1)局部感知。圖像的空間聯(lián)系中局部的像素聯(lián)系比較緊密，而距離較遠(yuǎn)的像素相關(guān)性則較弱。因此，每個神經(jīng)元其實(shí)只需對局部區(qū)域進(jìn)行感知，而不需要對全局圖像進(jìn)行感知。

(2)權(quán)值共享。在上述的局部連接中，每個神經(jīng)元都有對應(yīng)的參數(shù)，再進(jìn)行卷積完成特征提取。例如，假設(shè)神經(jīng)元都對應(yīng)50個參數(shù)，共2 000 個神經(jīng)元，如果這10 000個神經(jīng)元的25個參數(shù)都是相等的，則參數(shù)量就變?yōu)?5個。把這25個參數(shù)對應(yīng)卷積操作，完成了特征提取。在卷積神經(jīng)網(wǎng)絡(luò)中相同的卷積核的權(quán)值和偏置值是一樣的。同一種卷積核按照固定對圖像進(jìn)行卷積操作，卷積后得到的所有神經(jīng)元都使用同一個卷積核區(qū)卷積圖像，都是共享連接參數(shù)。因此，權(quán)值共享減少了卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量。

(3)卷積。該步驟利用卷積核對圖像進(jìn)行特征提取。卷積過程本質(zhì)上是一個去除無關(guān)信息，留下有用信息的過程。其核心就是卷積核的大小步長設(shè)計和數(shù)量的選取。個數(shù)越多提取的特征越多，但網(wǎng)絡(luò)的復(fù)雜度也在增加，如果特征數(shù)量太少又不足以描述特征。在該步驟中的卷積核的大小影響網(wǎng)絡(luò)結(jié)構(gòu)的識別能力，步長決定了采取圖像的大小和特征個數(shù)。

(4)池化。在卷積神經(jīng)網(wǎng)絡(luò)中，池化層一般在卷積層后，通過池化來降低卷積層輸出的特征向量維數(shù)。池化過程最大程度地降低了圖像的分辨率，同時降低了圖像的處理維度，但又保留了圖像的有效信息，降低了后面卷積層處理復(fù)雜度，大大降低了網(wǎng)絡(luò)對圖像旋轉(zhuǎn)和平移的敏感性。一般采用的池化方法有兩種：平均池化(Mean pooling)和最大池化(Max pooling)。平均池化是指對圖像目標(biāo)局部區(qū)域的平均值進(jìn)行計算，將其作為池化后該區(qū)域的值；最大池化則是選取圖像目標(biāo)區(qū)域的最大值作為池化后的值。

3 基于深度卷積生成對抗網(wǎng)絡(luò)的圖像識別

3.1 圖像預(yù)處理

為了能夠提升圖像訓(xùn)練效率，對圖像進(jìn)行預(yù)處理，流程如下：

(1)假設(shè)給出圖像I，首先對其進(jìn)行歸一化處理，假設(shè)有像素為128×128的圖像I，將其歸一化為In∈[0,1]128,128,3；

(2)利用Canny算子和Prewitt算子的加權(quán)綜合，對圖像進(jìn)行進(jìn)一步的卷積預(yù)處理，提取核心特征。

3.2 訓(xùn)練流程

采用DCGAN的(G,D)架構(gòu)，生成器G是一個編碼解碼的CNN結(jié)構(gòu)，判別器D是一個步長卷積方案，不斷重復(fù)進(jìn)行下采樣來完成二分分類[12]。在每次訓(xùn)練的地帶中，我們都隨機(jī)采樣一批訓(xùn)練數(shù)據(jù)，對每個訓(xùn)練圖像I我們運(yùn)行生成器，接著用判別器來進(jìn)行分類，然后計算損失和更新的參數(shù)。

為了減少訓(xùn)練過程，本文將訓(xùn)練過程分為3個階段，每個階段定義一個損失函數(shù):

LMSE(I)=‖MΘG(I)‖，

(1)

LD(I)=-[lnD(I)+ln(1-D(G(I)))] ，

(2)

LG(I)=LMSE(I)-αlnD(G(I))，

(3)

第一個訓(xùn)練階段通過損失函數(shù)LMSE(I)不斷升級調(diào)整生成器的權(quán)重，第二階段則使用LD(I)來調(diào)整生成器的權(quán)重，第三階段過程類似，但是α是作為經(jīng)驗(yàn)值，根據(jù)不同的場景而變化。

3.3 網(wǎng)絡(luò)結(jié)構(gòu)

在生成器G的網(wǎng)絡(luò)結(jié)構(gòu)中，我們采用傳統(tǒng)的編碼器-解碼器結(jié)構(gòu)，以及擴(kuò)張的卷積來增加神經(jīng)元的感受野。對于判別器D，我們將圖像沿垂直方向分為左右兩部分，分別為Il、Ir，為了產(chǎn)生出預(yù)測結(jié)果Id，判別器需要分別計算Dg(Id)、Dl(Il)、Dl(Ir),最后生成判別器的概率p，生成器和判別器的網(wǎng)絡(luò)參數(shù)如表1～5所示。

表1 卷積層1Tab.1 Convolution layer 1

表2 卷積層2Tab.2 Convolution layer 2

表3 卷積層3Tab.3 Convolution layer 3

表4 輸出Tab.4 Output

表5 判別器參數(shù)表Tab.5 Discriminator parameter table

4 結(jié)果與討論

考慮到深度卷積網(wǎng)絡(luò)的計算成本，本文主要利用GPU的并行計算能力，采用5臺Inter(R)I7-8700K，64 G內(nèi)存，NVIDIA RTX 24 G GPU計算機(jī)，利用TensorFlow[13]平臺實(shí)現(xiàn)本文提出的算法并運(yùn)行。

4.1 CIFAR-100數(shù)據(jù)集

本文采用的CIFAR-100數(shù)據(jù)集包含大量的測試圖片[14]。與CIFAR-10不同的是，CIFAR-100有100個分類，其中每個類都包含500個訓(xùn)練圖像和100個測試圖像，每個圖像都帶有兩個標(biāo)簽。使用本文2.3節(jié)提出的模型實(shí)現(xiàn)生成器和

判別器，首先對數(shù)據(jù)集中的圖像進(jìn)行預(yù)處理，將圖片進(jìn)行歸一化，再利用Canny算子和Prewitt算子的加權(quán)，最后作為訓(xùn)練模型的輸入。在生成器的全連接層中加入Dropout，在預(yù)處理的3個階段，由于CIFAR-100的前景背景相對復(fù)雜多變，因此T1設(shè)置為20 000，T2為3 000，T3為10 000，α為0.006，實(shí)驗(yàn)總共運(yùn)行了25 h，進(jìn)行了50個epoch。在訓(xùn)練過程中，判別器的損失函數(shù)逐漸下降，而生成器的損失函數(shù)逐漸上升，最終判別器以微弱優(yōu)勢戰(zhàn)勝了生成器。最終檢測效果如圖1所示。在與其他經(jīng)典方法的對比中，其收斂的速度更快，檢測率也更優(yōu)，如表6所示。

表6 CIFAR-100圖像集實(shí)驗(yàn)準(zhǔn)確率Tab.6 Experimental accuracy of CIFAR-100 image set

圖1 CIFAR-100生成器迭代結(jié)果Fig.1 Iterative results of CIFAR-100 generator

4.2 LFW實(shí)驗(yàn)

LFW是一個人臉識別專用的圖像訓(xùn)練集[15]，有2 845張圖片，每張圖片中包含多個人臉，共有5 171個人臉作為測試集。測試集范圍包括不同姿勢、不同分辨率、旋轉(zhuǎn)和遮擋等圖片，基本能呈現(xiàn)人臉表情的各種狀態(tài)，同時包括灰度圖和彩色圖。本文采用灰度圖進(jìn)行實(shí)驗(yàn)。由于整個數(shù)據(jù)集相對較小，同時前景相對簡單，因此預(yù)處理時間消耗較小，T1設(shè)置為1 000，T2為2 000，T3為10 000，α為0.005，實(shí)驗(yàn)共運(yùn)行4 h，進(jìn)行了50個epoch。在迭代過程中隨著epoch的增大，生成器產(chǎn)生的圖片越加清晰精準(zhǔn)，質(zhì)量不斷提升，結(jié)果如圖2所示。

從表7中可以看到，本文采用的DCGAN+softmax+centermax的模型優(yōu)于傳統(tǒng)的DCGAN模型，在相對較小的數(shù)據(jù)集中，具備更強(qiáng)的特征提取能力；本文提出的模型的檢測率優(yōu)于其他有監(jiān)督和無監(jiān)督算法，證明了本文方法的可行性。

圖2 LFW生成器頭像迭代結(jié)果Fig.2 Iterative results of LFW generator

表7 LFW圖像集實(shí)驗(yàn)識別準(zhǔn)確率

Tab.7 Experimental recognition accuracy of LFW image set

識別模型準(zhǔn)確率/%AlexNet87.52Inception-ResNet88.74Gabor+wavelet79.71Fast-RCNN83.31DCGAN82.56DCGAN+Canny+Prewitt89.54

5 結(jié) 論

提出了一個基于深度卷積對抗網(wǎng)絡(luò)的模型，利用該模型對訓(xùn)練完成后的判別器進(jìn)行特征提取并用于圖像識別。利用Canny算子和Prewitt算子進(jìn)行圖像預(yù)處理，同時將訓(xùn)練劃分為3個階段設(shè)置不同的訓(xùn)練參數(shù)，提高了分類算法的內(nèi)聚性。在WILDERFACE和LFW數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，結(jié)果表明相對于其他傳統(tǒng)檢測算法，本文提出的模型在LFW識別準(zhǔn)確率達(dá)到89.54%，CIFAR-100上達(dá)到96.25%，證明了本文提出的模型在圖像檢測領(lǐng)域的可行性。