亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度特征融合的圖像分類算法的研究

2020-10-15 12:15:20蔡志鋒袁寶華劉廣海

計算機應(yīng)用與軟件 2020年10期

蔡志鋒袁寶華劉廣海

1(三江學(xué)院計算機科學(xué)與工程學(xué)院江蘇南京 210000) 2(南京理工大學(xué)泰州科技學(xué)院計算機系江蘇泰州 225300) 3(廣西師范大學(xué)計算機科學(xué)與信息工程學(xué)院廣西桂林 541004)

0 引言

基于內(nèi)容的圖像分類主要通過圖像的視覺特征信息對圖像進行分類，是近年來計算機視覺、人工智能等領(lǐng)域中一個非常熱門的研究課題。傳統(tǒng)的圖像分類方式通常使用統(tǒng)計學(xué)習(xí)算法進行圖像分類，例如：支持向量機[1](SVM)、K均值聚類[2]和最近鄰距離[3]等。但上述算法未曾考慮圖像的高層語義信息，因此經(jīng)常產(chǎn)生錯分、漏分等現(xiàn)象，分類精度較低。

深度學(xué)習(xí)網(wǎng)絡(luò)是近十年來興起的一種方法，已經(jīng)應(yīng)用到圖像的各個領(lǐng)域中并取得了令人驚喜的進展，如：目標識別[4]、圖像檢索[5]和圖像分類[6-7]等。深度學(xué)習(xí)通過多個隱含層的學(xué)習(xí)，從大規(guī)模數(shù)據(jù)中逐層進行學(xué)習(xí)和特征提取，尋找數(shù)據(jù)最優(yōu)的抽象表達方法，從而提高分類或識別的準確率。但深度網(wǎng)絡(luò)模型需要大量的數(shù)據(jù)進行訓(xùn)練，耗時較長，對存儲要求也相對較高。對于小數(shù)據(jù)量的數(shù)據(jù)集，直接采用CNN進行訓(xùn)練，往往容易造成過擬合現(xiàn)象，因此通常采用預(yù)訓(xùn)練的CNN網(wǎng)絡(luò)。輸入圖像經(jīng)過深度學(xué)習(xí)預(yù)訓(xùn)練網(wǎng)絡(luò)，將卷積層或者連接層的響應(yīng)值作為該圖像的深度特征，然后通過訓(xùn)練SVM等常規(guī)分類器對場景圖像進行分類。

數(shù)據(jù)模態(tài)的多樣性必然導(dǎo)致特征抽取方式的多樣性，每種特征抽取方式都有其關(guān)注的側(cè)重點，比如：紋理特征描述符只關(guān)注紋理而不關(guān)心顏色，因此單個特征通常只表征某一方面的信息。特征融合優(yōu)勢是明顯的，因為同一模式所提取的不同特征向量反映了模式的不同特性，對它們進行優(yōu)化組合，既保留了參與融合的多組特征的有效鑒別信息，又消除了特征向量之間的冗余信息。深度學(xué)習(xí)方法已經(jīng)深入到在計算機的各個領(lǐng)域中，研究適用于深度學(xué)習(xí)的信息融合技術(shù)很有必要。融合方法通常分為像素級、特征層以及決策層的融合[8]。特征層的融合[9-11]相比其他兩種融合更有效，因為其融合后的特征通常包含更多豐富的信息，從而提高識別率。Miao等[9]通過ResC3D深度學(xué)習(xí)網(wǎng)絡(luò)提取深度特征，然后采用典型相關(guān)分析方法進行特征融合，用在手勢識別上取得了不錯的效果。Haghighat等[10]考慮分類中的類別信息，提出鑒別相關(guān)分析的方法用于多模態(tài)的特征融合，該方法能夠有效地消除類間的相關(guān)性，限制類內(nèi)的相關(guān)性。Chaib等[11]采用VGG預(yù)訓(xùn)練網(wǎng)絡(luò)不同全連接層的特征，通過判別相關(guān)分析(Discriminant Correlation Analysis,DCA)進行特征融合，最后通過SVM進行分類。借鑒文獻[9-11]的思路，本文采用不同的預(yù)訓(xùn)練網(wǎng)絡(luò)來提取圖像的高層語義特征，然后進行特征融合，最后采用SVM分類器分類。

本文比較了兩種不同的深度特征獲取策略：(1)采用同一預(yù)訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)的不同層特征的特征融合；(2)采用多個深度學(xué)習(xí)網(wǎng)絡(luò)的全連接層特征的特征融合。同時，通過增加權(quán)重，重新定義DCA方法中的類間散度矩陣，使其能夠?qū)δ切╊悇e差異較小的類別也有較好的區(qū)分度。該方法可以充分利用深層網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)勢，獲取圖像的高層語義特征，提高分類結(jié)果的準確性，同時考慮了深度特征融合，能更有效地挖掘高層語義特征，大幅降低訓(xùn)練時間并提高分類精度。構(gòu)建多個預(yù)訓(xùn)練CNN的深度特征的特征融合，將其應(yīng)用到圖像分類中，實驗結(jié)果表明該特征融合方法獲得的深度特征相比于單個深度學(xué)習(xí)特征，具備強大的特征表征能力和低維特性，從而提高圖像分類性能。

1 相關(guān)知識

1.1 特征融合

典型相關(guān)分析(Canonical Correlation Analysis，CCA)通常是用來解決兩組隨機向量之間相互關(guān)系的統(tǒng)計方法，其目的是尋找兩組投影方向，使兩個隨機向量投影后的相關(guān)性達到最大[12]。然而，CCA的主要缺點是其忽略了數(shù)據(jù)集中的類別信息。近年來，DCA的出現(xiàn)克服了CCA中忽略類別信息的缺點，能夠?qū)⑼悩颖咎卣飨嚓P(guān)性最大化，同時最小化不同類樣本特征之間的相關(guān)性，有利于提高分類性能。

(1)

類間散度矩陣定義為：

(2)

(3)

式中：P是正交向量矩陣;Λ是由非負特征值組成的對角矩陣。式(3)可表示為:

(4)

式中：φ(c×r)是最大非零的特征向量矩陣；r表示矩陣的秩。

Sbx最大r個特征向量能通過映射φ→Φbxφ得到:

(Φbxφ)TSbxΦbxφ=Λ(r×r)

(5)

(6)

(7)

第二特征集Y也采用上述方法得到:

(8)

(9)

式中：r為轉(zhuǎn)換后特征的秩。

r≤min(c-1,rank(X),rank(Y))

(10)

(11)

(12)

(13)

式中：Wx=WbxWcx和Wy=WbyWcy分別表示X和Y的最終的轉(zhuǎn)換矩陣。

1.2 深度特征網(wǎng)絡(luò)

在過去的十年中，已經(jīng)開發(fā)出幾種用于大規(guī)模圖像分類和物體檢測的CNN模型，例如：Alexnet[13]，VGG[14]，ResNet[7]，Inception-v3[16]，GoogLeNet[17]和Inception-ResNet-v2[18]等。不同的預(yù)訓(xùn)練網(wǎng)絡(luò)具有不同的特性，它們都具備了提取強大且豐富特征的能力，從而使得其能遷移學(xué)習(xí)到其他領(lǐng)域中。不同的深度學(xué)習(xí)網(wǎng)絡(luò)具有不同的網(wǎng)絡(luò)結(jié)構(gòu)，下面介紹幾種典型的深度網(wǎng)絡(luò)。

(1)AlexNet：由Alex Krizhevsky設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)，共八層，前五層是卷積層，后三層是全連接層。在網(wǎng)絡(luò)中使用非飽和ReLU激活函數(shù)，其能夠提供比tanh和sigmoid等激活函數(shù)更好的訓(xùn)練性能。實驗中，網(wǎng)絡(luò)的輸入圖像大小通常為227×227，提取第一個全連接層特征作為圖像特征，其維數(shù)為4 096維。

(2)ResNet：2015年提出的深度卷積網(wǎng)絡(luò)，當年在ImageNet競賽中獲得圖像視覺挑戰(zhàn)中三項任務(wù)的冠軍。通過增加網(wǎng)絡(luò)的深度來提高識別率，從而解決網(wǎng)絡(luò)深度增加帶來的退化問題，使網(wǎng)絡(luò)更容易優(yōu)化。實驗中，提取殘差網(wǎng)絡(luò)的全連接層作為圖像特征，其維數(shù)為1 000維。

(3)VGG：在AlexNet網(wǎng)絡(luò)的基礎(chǔ)上開發(fā)的，其具有良好的泛化能力。VGG網(wǎng)絡(luò)由conv、pool、fc和softmax層組成。它的主要貢獻是使用一個非常小的3×3卷積內(nèi)核進行網(wǎng)絡(luò)設(shè)計，并將網(wǎng)絡(luò)深度增加到16或19層。在實驗中，采用第一個全連接層的特征來作為圖像特征，其維數(shù)為4 096維。

(4)GoogLeNet：由Szegedy等構(gòu)造的深度學(xué)習(xí)網(wǎng)絡(luò)，其網(wǎng)絡(luò)結(jié)構(gòu)稀疏且具備高計算性能。該模型通過構(gòu)造Incepteion模塊和均值池化來代替全連接層來減少模型參數(shù)規(guī)模。在網(wǎng)絡(luò)設(shè)計之初，研究人員就考慮了計算效率和實用性，從而讓GoogLeNet能夠在不同設(shè)備上運行。實驗中，獲取最后一個池化層特征來作為圖像特征向量，其維數(shù)是1 024維。

幾種典型的深度學(xué)習(xí)網(wǎng)絡(luò)參數(shù)如表1所示。

表1 典型的深度學(xué)習(xí)網(wǎng)絡(luò)參數(shù)

與大多數(shù)基于SIFT、SURF和HOG等低層特征的場景分類方法相比，本文提出的框架是基于不同預(yù)訓(xùn)練CNN模型的深度特征的融合。將不同預(yù)訓(xùn)練CNN模型的全連接層作為輸入的特征向量，能夠描述圖像場景的重要特征。

2 基于深度特征融合的圖像分類算法

2.1 Weighted DCA(WDCA)

DCA算法考慮了類別信息，能夠使同類特征相關(guān)最大化，并且不同類的特征相關(guān)最小化，但是其不能很好區(qū)分類間距離較小甚至重疊的類別。DCA的類間散度矩陣如式(2)所示，對于那些類間距離越大的類別，其散度矩陣中對應(yīng)的值越大，反之，則越小。這樣會導(dǎo)致過分強調(diào)那些離散度大的類的作用而忽略了離散度較小的類。

為此，通過增加權(quán)重來約束，降低那些離散度大的類的影響，提高離散度較小類的作用。重新定義DCA算法中的類間散度矩陣為：

(14)

2.2 基于WDCA的圖像分類算法

目前，常用的特征融合方法通常有：簡單疊加和串行連接。簡單疊加方法難以反映多特征之間的差異性，而串行連接方法通常會產(chǎn)生高維的融合特征，其包含了過多的冗余信息，導(dǎo)致計算效率降低。因此本文將WDCA的方法應(yīng)用于深度網(wǎng)絡(luò)的高層語義特征的融合，其不但能夠有效地表征不同的語義特征之間差異，而且能夠有效地降低特征融合后的維度，從而大大地節(jié)約計算成本。本文采用兩種策略來進行深度網(wǎng)絡(luò)的高層語義特征獲取，并在實驗中進行比較分析。

第一種策略：首先輸入圖像通過同一類型的卷積神經(jīng)網(wǎng)絡(luò)，然后分別提取不同層的深度特征作為圖像特征，對其采用WDCA的方法進行融合。

第二種策略：首先輸入圖像通過兩個不同類型的卷積神經(jīng)網(wǎng)絡(luò)提取到深度特征，然后對深度特征采用WDCA的方法進行融合。

兩種策略僅在于深度學(xué)習(xí)特征的獲取方式不同，后續(xù)特征融合的步驟相同。采用上述策略，特征融合后的特征維數(shù)為100×2，維數(shù)大大降低，使訓(xùn)練時間大大縮短，最后通過SVM分類器進行識別，如圖1所示。

圖1 基于深度特征融合的圖像分類框架

選擇不同深度網(wǎng)絡(luò)的全連接層或者同一深度網(wǎng)絡(luò)的不同層作為圖像的深度特征，然后通過WDCA方法對兩個不同的深度特征進行融合。由于X和Y的維數(shù)通常遠大于類別數(shù)，如式(10)所示，則融合后的特征維數(shù)最大為C-1，C為類別數(shù)。采用兩種形式來表示單個圖像的特征：

(15)

此為串行形式，融合后的特征維數(shù)2×(C-1)。

(16)

此為求和形式，融合后的特征維數(shù)為C-1。

基于深度特征融合的圖像分類算法步驟如下：

(1)利用不同的預(yù)訓(xùn)練網(wǎng)絡(luò)，分別提取訓(xùn)練集圖像的全接連層的深度特征，構(gòu)成圖像深度特征矩陣Xm×p=[φ1,φ2,…,φm]和Ym×q=[ψ1,ψ2,…,ψm]。

(2)根據(jù)WDCA特征融合算法，利用式(12)和式(13)將矩陣X和Y融合后分解為DX、DY以及投影矩陣Wx、Wy；根據(jù)式(15)或式(16)組合成訓(xùn)練圖像最終的特征融合向量Z1或Z2。

(3)利用不同的預(yù)訓(xùn)練網(wǎng)絡(luò)，提取測試圖像的深度特征矩陣TXn×p=[φ1,φ2,…,φn]和TYn×q=[ψ1,ψ2,…,ψn]。分別將其投影到對應(yīng)的特征空間Wx、Wy，得到測試圖像的深度融合特征A和B特征向量：

A=WxTX

(17)

B=WyTY

(18)

(4)根據(jù)式(15)或式(16)將測試圖像的特征A和B組合成測試圖像最終的特征融合向量TZ1或TZ2。

(5)采用SVM分類器進行圖像分類。

3 實驗結(jié)果

3.1 實驗平臺

為了驗證特征融合方法的有效性，本文在公開的Caltech 256數(shù)據(jù)集上，對算法進行評估。在分類任務(wù)中，采用SVM分類器，使用LIBSVM庫[1]，并通過五個交叉驗證選擇正則參數(shù)。實驗中計算機配置如下：Intel Core I7-4710Mq CPU @2.5 GHz×8, 內(nèi)存12 GB，無GPU。實驗中軟件環(huán)境為MATLAB 2018b，使用的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)均來自MATLAB 2018b自帶的深度學(xué)習(xí)包。

對于第一種策略，采用VGG預(yù)訓(xùn)練網(wǎng)絡(luò)，提取fc6、fc7層特征進行特征融合；對于第二種策略，分別采用VGG(簡稱V)、resnet101(簡稱R)、GoogLeNet(簡稱G)和inceptionresnetv2(簡稱I)四種不同結(jié)構(gòu)的預(yù)訓(xùn)練網(wǎng)絡(luò)進行特征融合。

Caltech 256數(shù)據(jù)庫是Li等[18]在Caltech 101數(shù)據(jù)集的基礎(chǔ)上進行的擴展，分為256個不同的對象類別，共有30 607幅圖像。Caltech 256數(shù)據(jù)庫選自Google Image數(shù)據(jù)集，總共分為256個類別，每個類別包含的圖像數(shù)量為80到827幅不等，每幅圖像的尺寸大小不等，圖2為Caltech 256部分示例圖。

圖2 Caltech 256部分圖像

3.2 實驗分析

在使用不同的卷積神經(jīng)網(wǎng)絡(luò)處理之前，需要根據(jù)不同的深度CNN網(wǎng)絡(luò)的要求對輸入圖像大小進行調(diào)整。為了驗證WDCA方法對于深度特征融合的有效性，分別采用單獨的深度學(xué)習(xí)網(wǎng)絡(luò)提取特征，然后采用不同深度網(wǎng)絡(luò)的深度特征融合，最后采用SVM分類器進行分類識別，分類結(jié)果如表2所示。

表2 不同的深度特征的圖像分類結(jié)果 %

可以看出，與采用單個深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)果相比，本文提出的兩種不同策略的深度特征融合方法的識別率有較好的提升，說明融合后的深度特征更能夠描述場景，有利于提高場景的識別率。同時，WDCA的特征融合效果要優(yōu)于DCA，這主要因為其平衡了類別差異的影響，類別差異小的類別能夠增加其類間距離，而那些類別差異較大的類別，降低其類間距離，也不影響其區(qū)分度。

此外，從不同的深度學(xué)習(xí)框架提取的特征融合策略要優(yōu)于從同一深度學(xué)習(xí)框架提取的特征融合，這主要因為不同的深度學(xué)習(xí)框架其特征的互補性要優(yōu)于同一個深度學(xué)習(xí)網(wǎng)絡(luò)的不同層。

不同的深度學(xué)習(xí)框架提取的特征，識別率也不相同，這說明不同的深度網(wǎng)絡(luò)提取的特征各有差異。從融合后的結(jié)果來看，其不同的深度網(wǎng)絡(luò)特征盡管不同，但是具有一定的互補性，因此融合后的特征表達能力要強于單個特征。GoogLeNet預(yù)訓(xùn)練網(wǎng)絡(luò)的特征識別率最低，但是融合后的特征識別率提升幅度最大。這也說明融合前的各自特征表達能力強，不代表融合后的特征表達能力一定強。融合后的特征表達能力強弱主要取決于融合前特征的互補性。

為了驗證特征融合方法的執(zhí)行效率，比較了單個深度網(wǎng)絡(luò)的圖像分類方法和基于WDCA深度特征融合的圖像分類方法的訓(xùn)練時間和測試時間，結(jié)果如表3所示?？梢钥闯?，經(jīng)本文方法融合后的特征維數(shù)僅為200，遠小于全連接層的4 096維特征，因此其訓(xùn)練時間和測試時間也大幅降低。特征融合方法是對深度特征進行優(yōu)化組合，既保留了參與融合的深度特征的有效鑒別信息，又消除了特征向量之間的冗余信息。

表3 不同方法的訓(xùn)練時間和測試時間的比較 s

4 結(jié) 語

針對復(fù)雜場景下的圖像分類問題，本文提出基于深度學(xué)習(xí)預(yù)訓(xùn)練網(wǎng)絡(luò)對場景進行特征學(xué)習(xí)，然后基于權(quán)重的DCA方法進行特征融合，最后通過SVM分類器進行圖像場景的分類識別。傳統(tǒng)的特征融合方法不僅容易導(dǎo)致維數(shù)增高，而且冗余信息較多。深度特征雖然表達特征能力較強，但是其維數(shù)較高且包含冗余信息，不同的深度網(wǎng)絡(luò)結(jié)構(gòu)提取的特征的表達能力也各不相同。本文提出的深度特征融合方法不僅能夠有效地優(yōu)化不同的深度CNN網(wǎng)絡(luò)組合，而且能夠有效地消除冗余信息，其特征維數(shù)也大大降低，在提高圖像分類識別率的同時又減少了樣本訓(xùn)練和測試時間。實驗結(jié)果驗證了本文方法的有效性和正確性。