亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度遷移學習與多尺度特征融合的場景識別方法

        2023-11-17 07:25:12胡春燕李菲菲
        電子科技 2023年11期
        關(guān)鍵詞:特征提取深度特征

        王 橋,胡春燕,李菲菲

        (上海理工大學 光電信息與計算機工程學院,上海 200093)

        場景識別的研究目的是使計算機能夠像人一樣對不同的圖像進行分析,并識別其中的場景。隨著攝像設(shè)備的普及,圖像被大量生產(chǎn),并快速在網(wǎng)絡(luò)上傳播。場景識別技術(shù)的發(fā)展為有效管理圖像數(shù)據(jù)提供了新思路,其也在圖像分類、自動駕駛等領(lǐng)域中發(fā)揮重要作用。

        場景識別主要分為3個階段:特征提取、特征變換和分類器訓練。由于計算機性能的提升,深度學習中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[1]技術(shù)得到了快速發(fā)展和廣泛運用。包括AlexNet[2]、GoogLeNet[3]、VGGNet[4]和ResNet[5]等在內(nèi)的CNN機器變體都得到了廣泛應(yīng)用。然而,神經(jīng)網(wǎng)絡(luò)深度的加深導致網(wǎng)絡(luò)容易產(chǎn)生梯度爆炸與彌散問題。針對此類問題,ResNet引入殘差結(jié)構(gòu),有效解決了隨著網(wǎng)絡(luò)深度的增加到質(zhì)變性能突然下降的問題,使其在較深的網(wǎng)絡(luò)中依然具有較好的性能表現(xiàn)。相較于低效率構(gòu)建手工特征,使用卷積神經(jīng)網(wǎng)絡(luò)能夠自動學習場景圖像的特征表示。同時,由CNN提取的深度卷積特征更精煉抽象并富有語義信息。由于數(shù)據(jù)庫中不同尺度大小的場景圖像影響其中物體大小,因此文獻[6]提出多尺度的網(wǎng)絡(luò)結(jié)構(gòu),使用CNN全連接層提取特征,識別準確率隨著提取尺度量增加而逐漸提升。然而增加尺度將大幅降低網(wǎng)絡(luò)效率。文獻[7]提出融合卷積神經(jīng)網(wǎng)絡(luò)中的全連接層和Softmax層的概率輸出作為場景圖片的表示。文獻[8]指出CNN最后一層卷積層輸出的卷積特征包含了更豐富的語義信息和空間信息。CNN的卷積層能夠接受不同尺度的場景圖片輸入且計算資源的消耗更小。因此,該研究直接使用卷積層特征作為場景圖片的表示。

        盡管現(xiàn)階段深度卷積特征具有較強的表達能力,但若使用傳統(tǒng)方法對深度卷積特征進行變換,仍能進一步提升特征的表達能力。文獻[9]使用稀疏字典學習(Sparse Dictionary Learning,SDL)用于場景識別中的編碼卷積特征,并取代全連接層(Fully Connected Layer,FCL)和校正線性單元(Linear Unit,ReLu)。此外,改進的稀疏自動編碼機[10]以及根據(jù)場景圖片的特性提出的多尺度空間編碼方法[11]也在場景識別領(lǐng)域取得了成功。雖然傳統(tǒng)編碼特征方法與深度卷積特征提取的結(jié)合在場景識別中取得了較好效果,但隨著場景識別的進一步發(fā)展,研究人員開始嘗試從不同角度進一步提升場景識別的準確率,例如提取場景圖像的背景信息與局部重點物體信息,或通過結(jié)合圖像的全局信息與局部信息。目前,為緩解場景圖像類內(nèi)差異與類間相似問題的干擾,研究者使用深度學習方法從多個尺度獨立提取卷積特征[12],例如采用費希爾向量(Fisher Vector,FV)[13]、局部聚合描述符向量(Vector of Locally Aggregated Descriptors,VLAD)[14]和語義聚合描述符向量(Vector of Semantically Aggregating Descriptor,VSAD)[15]等編碼方法。與單一圖像級別的表示方法相比,此類方法在識別性能上有明顯改善。由于局部對象包含在更大場景背景中,因此需要結(jié)合對象級別和場景級別的知識來確定圖像的場景類別。這種組合可以通過使用在不同數(shù)據(jù)庫(即ImageNet和Places)上預(yù)先訓練的混合CNN模型,從多尺度圖像塊中提取深度特征來實現(xiàn)識別。綜上所述,本文分析場景圖像的背景與物體信息,根據(jù)輸入圖像經(jīng)過類激活圖生成器生成的類激活圖的兩個不同尺度得到相應(yīng)的圖像區(qū)域,對全局級圖像進行補充,獲取場景圖像的綜合表示,進一步提升網(wǎng)絡(luò)的圖像特征提取性能。

        使用深度學習方法訓練一個性能表現(xiàn)良好的深度卷積神經(jīng)網(wǎng)絡(luò)需要兩個條件:1)需要有充足有標簽的訓練數(shù)據(jù),例如ImageNet數(shù)據(jù)集擁有一千多個類別,超百萬張圖片;2)需要擁有強大計算性能的計算機硬件,例如GPU等。上述條件導致在一些需要使用卷積神經(jīng)網(wǎng)絡(luò)的任務(wù)中缺少任務(wù)相關(guān)的訓練數(shù)據(jù)會造成網(wǎng)絡(luò)欠擬合,使得最終的網(wǎng)絡(luò)性能不佳。在研究中可以觀察到許多遷移學習的例子,例如研究發(fā)現(xiàn)通過訓練識別蘋果的網(wǎng)絡(luò)模型可能有助于識別梨[16],訓練網(wǎng)絡(luò)識別電子管風琴可能有助于網(wǎng)絡(luò)學習識別鋼琴。因此當訓練樣本不足時,使用遷移學習可以提高場景圖像識別模型的準確性和訓練速度。本文由于每類圖像只有100張,故只能選擇其中50張用于訓練。為了在樣本情況較小的情況下獲取足夠多的對象級別和場景級別的知識,本文使用在ImageNet和Places上預(yù)先訓練的混合CNN模型結(jié)合遷移學習的方法從多尺度圖像塊中提取深度特征來實現(xiàn)目標任務(wù),該方法比在單個大型數(shù)據(jù)集上訓練深度神經(jīng)網(wǎng)絡(luò)更有效。在實驗過程中發(fā)現(xiàn),遷移網(wǎng)絡(luò)參數(shù)不但加速目標網(wǎng)絡(luò)的學習和優(yōu)化,而且網(wǎng)絡(luò)收斂速度更快,節(jié)省了時間成本,得到的目標網(wǎng)絡(luò)也比隨機初始化權(quán)重的網(wǎng)絡(luò)效果更好。通過網(wǎng)絡(luò)遷移性研究在深度遷移網(wǎng)絡(luò)中加入微調(diào)可以使遷移后的網(wǎng)絡(luò)更加貼合目標網(wǎng)絡(luò)的需求[17],使得卷積神經(jīng)網(wǎng)絡(luò)能夠在目標任務(wù)的數(shù)據(jù)集上進一步提升網(wǎng)絡(luò)性能[18]。

        本文提出了一種基于深度遷移學習與多尺度特征融合的場景識別算法。首先在類激活圖生成器中加入SE-Block[19]模塊,然后獲取預(yù)訓練后性能優(yōu)異的網(wǎng)絡(luò)參數(shù)并將其遷移到本文的神經(jīng)網(wǎng)絡(luò)模型中,將預(yù)訓練的特征提取器在目標數(shù)據(jù)集上進行微調(diào)。本文將目標圖片送入類激活圖生成器生成類激活圖,從類激活圖中獲取圖片的關(guān)鍵區(qū)域,然后使用卷積神經(jīng)網(wǎng)絡(luò)從關(guān)鍵區(qū)域提取卷積特征,并通過連接所有3個L2歸一化的尺度特征向量來獲得最終的圖像表示,如圖1所示。多尺度特征融合框架尋找熱點區(qū)域的核心部分為類激活圖生成器(Discriminative Discovery Network,Dis-Net)。通過類激活映射獲取類激活圖(Discriminative Map,Dis-Map),并使用局部最大值的搜尋和篩選來提取場景圖像的重要信息,從重要信息中提取卷積特征,形成不同尺度特征。最后,本文采用最大池化策略進行特征聚合。本文方法的總體目標是從局部區(qū)域中提取鑒別性信息以補充全局層面的圖像表示。實驗結(jié)果表明,本文方法在場景識別的任務(wù)中效果良好。

        圖1 本文模型的總體框架Figure 1. Overall framework of the proposed model

        1 遷移學習

        傳統(tǒng)的機器學習技術(shù)試圖從頭開始學習每個任務(wù),而遷移學習技術(shù)在目標任務(wù)的訓練數(shù)據(jù)較少時會將之前在一些任務(wù)中學習到的知識轉(zhuǎn)移到目標任務(wù)中。傳統(tǒng)的機器學習與遷移學習的差異如圖2所示。

        (a)

        近年來常使用深度卷積神經(jīng)網(wǎng)絡(luò)作為解決計算機視覺任務(wù)的方法,但是初始訓練一個新的卷積神經(jīng)網(wǎng)絡(luò)不僅需要大量訓練樣本,還需要大量時間與高性能的硬件設(shè)施。當數(shù)據(jù)集樣本不足時,訓練的網(wǎng)絡(luò)難以滿足精度需求。當計算機性能有限時,將消耗大量時間用來訓練。針對此類問題,深度遷移學習具有先天優(yōu)勢。為了能夠在每類數(shù)據(jù)集較小且計算機能力有限的情況下進一步優(yōu)化卷積網(wǎng)絡(luò)參數(shù),本文采用融合遷移學習的手段進行卷積神經(jīng)網(wǎng)絡(luò)模型訓練。

        遷移學習通過將已經(jīng)獲取的能力應(yīng)用在相關(guān)領(lǐng)域模型中,使得網(wǎng)絡(luò)模型具有充足的知識,以此使得本文模型可以減少訓練時間,并調(diào)高識別精度,更加準確地完成目標任務(wù)。本文將在場景數(shù)據(jù)集Places訓練的網(wǎng)絡(luò)用于提取場景類型的特征,并將在物體數(shù)據(jù)集ImageNet中訓練的網(wǎng)絡(luò)用于提取物體特征。待網(wǎng)絡(luò)訓練完成后,將其遷移到本文模型中。由于場景圖像的差異性,需要通過微調(diào)使遷移后的網(wǎng)絡(luò)更加適應(yīng)目標任務(wù)的需求,以此進一步提升網(wǎng)絡(luò)性能[20]。

        2 卷積神經(jīng)網(wǎng)絡(luò)

        2.1 類激活圖生成器的網(wǎng)絡(luò)

        目前常用的CNN有AlexNet、VGGNet、ResNet和InceptionNet等。ResNet網(wǎng)絡(luò)通過引入獨特的殘差結(jié)構(gòu),使網(wǎng)絡(luò)能夠達到更深層,并避免由于網(wǎng)絡(luò)深度增加導致的梯度爆炸與彌散問題,且不會導致網(wǎng)絡(luò)模型的性能下降。因此,ResNet在深度、寬度、參數(shù)以及計算成本上都具有優(yōu)勢。

        本文在基于熱點區(qū)域探尋的場景識別方法基礎(chǔ)上進行改進。本文使用SUN397數(shù)據(jù)集,且每個類別選取100張照片。采用ResNet網(wǎng)絡(luò)可以更好地訓練網(wǎng)絡(luò),而ResNet-50[21]比ResNet-18更深,能得到更好的圖片標簽對應(yīng)的權(quán)重。由于圖片標簽的精準度直接決定類激活圖的準確程度,因此本文將類激活圖生成器的主干網(wǎng)絡(luò)由ResNet-18改為ResNet-50,以此來增加類激活圖生成器生成的類激活圖的準確度。ResNet網(wǎng)絡(luò)的殘差結(jié)構(gòu)如圖3所示。

        圖3 ResNet中的殘差結(jié)構(gòu) Figure 3. Residual structure in ResNet

        將預(yù)訓練好的場景特征提取網(wǎng)絡(luò)的參數(shù)與物體特征提取網(wǎng)絡(luò)的參數(shù)遷移到本文的卷積神經(jīng)網(wǎng)絡(luò)模型中,如圖4所示。

        圖4 基于遷移學習的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Figure 4. CNN structure based on transfer learning

        2.2 卷積特征的提取網(wǎng)絡(luò)

        由于深度卷積特征具有優(yōu)異的表示性能,因此在場景識別中,卷積特征已基本取代了傳統(tǒng)的手工特征。在眾多CNN及其結(jié)構(gòu)變體中,本文選擇 ResNet-50作為特征提取器。相較于其他卷積神經(jīng)網(wǎng)絡(luò)(例如AlexNet、GoogLeNet、VGG),ResNet-50網(wǎng)絡(luò)更深,參數(shù)更少。而且,由于ResNet具有殘差連接,更易訓練和收斂。對于深度卷積神經(jīng)網(wǎng)絡(luò)而言,不同階段的特征表示能力不同,最后一層卷積信息具有豐富的語義信息。使用深度卷積特征能夠縮減特征表示與圖片標簽之間的語義鴻溝。相比于全連接層輸出的特征,CNN最后一層卷積層輸出的卷積特征包含了更豐富的語義信息和空間信息,且CNN的卷積層能夠接受任意大小的圖片輸入,其消耗的計算資源也更小。因此,本文去除了ResNet-50的全連接分類層,直接使用卷積層特征進行場景圖像的表示,采用提取最后一次的多尺度卷積特征進行融合以達到最佳的場景分類準確率。具有全連接層的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在輸入全連接層時會將卷積特征從三維的特征塊拉平至一維的特征向量,從而造成空間信息損失。在進行物體分類任務(wù)時,全連接層帶來了空間點位之間的連接,使得特征擁有空間不變性,具有較大優(yōu)勢。對于卷積特征來說,每一塊空間區(qū)域均能擁有投射至輸入圖片的一片視野域,可理解為每個1×1×C大小的卷積特征都能表示原圖的一小塊區(qū)域特征,因而卷積特征具有空間表示能力。由此可知,使用卷積特征有益于保留場景圖片中的空間信息,從而提升準確度。

        2.3 網(wǎng)絡(luò)微調(diào)

        類激活圖生成器和特征提取器(全局尺度、1/4尺度)均使用了在大型場景數(shù)據(jù)集Places上預(yù)訓練的ResNet-50。源域數(shù)據(jù)集Places和目標域數(shù)據(jù)集SUN397在數(shù)據(jù)分布上有所不同,且兩者在場景類別上具有較大差異。因此,本文基于深度遷移學習的理論,使用目標域數(shù)據(jù)集SUN397對預(yù)訓練的網(wǎng)絡(luò)進行微調(diào)。在微調(diào)類激活圖生成器的過程中,為了加強類激活圖的熱點區(qū)域檢測能力,在類激活圖生成器的結(jié)構(gòu)中加入了一個SE-Block(Squeeze-and-Excitation-Block)。

        微調(diào)涉及兩個網(wǎng)絡(luò),即類激活圖生成器和特征提取器的主干網(wǎng)絡(luò),網(wǎng)絡(luò)均為 ResNet-50。特征提取器的微調(diào)過程如下:首先,在卷積層參數(shù)凍結(jié)的基礎(chǔ)上訓練其分類器;然后,解凍卷積層的參數(shù),以一個稍小的學習率微調(diào)卷積層和分類器(即微調(diào)整個主干網(wǎng)絡(luò))。類激活圖生成器的卷積層取自預(yù)訓練的卷積層,同時微調(diào)卷積層和后接的SE-Block和分類器。對卷積層設(shè)置一個較小的學習率以保護其特征提取能力,對于后接模塊正常設(shè)置其學習率。

        2.4 特征提取

        深度卷積網(wǎng)絡(luò)在特征提取方面具有優(yōu)異表現(xiàn),逐漸取代了傳統(tǒng)的特征提取方法。為了獲取較好的圖像特征,既要保障圖像類內(nèi)特征的一致性,又要保證類間特征在特征空間的多樣性與獨特性。場景圖像一般比較復(fù)雜,單特征提取易導致提取的特征不夠全面,使最終識別的效果難以達到預(yù)期水平。場景圖像在不同尺度包含的特征均包含豐富的信息,淺層網(wǎng)絡(luò)對幾何細節(jié)信息具有較強的表示能力,深層網(wǎng)絡(luò)提取語義信息的表示能力明顯高于淺層網(wǎng)絡(luò)。因此,本文采用多個尺度特征共同表示場景圖片的方法來獲取更為準確的圖片特征。對于提取深度卷積特征,本文模型使用了3個尺度架構(gòu)提取圖片特征,通過將目標圖片送入類激活圖生成器來生成類激活圖。從圖1中的類激活圖可以看出,關(guān)鍵區(qū)域的特征在類激活圖上表現(xiàn)出相對較大的數(shù)值,因而能根據(jù)數(shù)值大小來推斷該區(qū)域的特征是否關(guān)鍵。為獲得分布在圖像上的不同鑒別區(qū)域,使用滑動窗口搜索類激活圖的局部極大值。對于每一個步幅為1的3×3窗口,選擇大于或等于其周圍8個位置的中心值作為局部最大值。對于兩個重疊窗口中具有相同值的局部極大值只計算一次,以避免對彼此接近的區(qū)域進行冗余區(qū)域選擇。然后,選擇值高于閾值T的局部極大值作為最終判別位置。最后,裁剪以每個最終選擇的區(qū)分位置為中心的方形區(qū)域,即以局部最大值為中心,提取特定大小的特征塊作為關(guān)鍵區(qū)域的特征。對于生成的圖塊大小超出圖像區(qū)域的特殊情況,將其位置移動到圖像內(nèi)進行劃分。使用兩種不同的圖塊大小(圖像大小的1/4和1/16),將其稱之為“局部尺度”。尺寸的選擇著眼于捕捉圖像中互補的局部信息。本文模型采用了一種三尺度特征聚合管道,使用CNN提取深層特征,獲取最高(全局)尺度和粗略(1/4)局部尺度的CNN網(wǎng)絡(luò)在Place上預(yù)訓練,同時獲取精細(1/16)局部尺度的CNN網(wǎng)絡(luò)在ImageNet上預(yù)訓練,并最終從目標模型卷積神經(jīng)網(wǎng)絡(luò)分別提取卷積特征全局尺度特征、1/4局部尺度特征以及1/16局部尺度特征。

        3 類激活圖生成器與特征融合

        3.1 類激活圖生成器

        采用基于類激活映射的類激活圖生成器(Dis-Net)探尋熱點區(qū)域的核心部分,由此生成的Dis-Map經(jīng)過局部最大值的搜尋和篩選能夠反映場景圖片中的熱點區(qū)域。圖5為原類激活圖生成器,圖6為改進后的類激活圖生成器。

        圖5 原始類激活圖生成器Figure 5. Original class activation map generator

        圖6 改進后的類激活圖生成器 Figure 6. Improved class activation map generator

        將類激活圖生成器的主干網(wǎng)絡(luò)從ResNet-18更換為ResNet-50,并添加SE-Block模塊。圖片標簽對應(yīng)的分類權(quán)重是生成類激活圖的關(guān)鍵,而類激活圖的準確程度受圖片標簽準確度的影響。文獻[22]的類激活圖生成器通過去除主干網(wǎng)絡(luò)的第1個最大池化層,獲得了更高分辨率的激活圖,從而產(chǎn)生14×14的分布圖。然而,本文發(fā)現(xiàn)去除第1個最大池化層對主干網(wǎng)絡(luò)的分類準確度存在不良影響,導致熱點區(qū)域識別不準確。因此,本文選擇保留主干網(wǎng)絡(luò)的第1個最大池化層,并擴大原圖片的輸入尺寸以增大類激活圖的分辨率。

        3.2 SE-Block模塊

        為了加強類激活圖的熱點區(qū)域檢測能力,在類激活圖生成器的結(jié)構(gòu)中加入SE-Block[23]模塊。SE-Block能夠提取卷積層內(nèi)不同通道之間的跨通道聯(lián)系(Cross-channel Correlation),并利用此全局信息為每個通道賦予一個權(quán)重:對包含熱點信息的卷積通道賦予一個較高的權(quán)重,對無用卷積通道賦予一個較低的權(quán)重。

        圖 7 SE-Block結(jié)構(gòu)Figure 7. Structure of SE-Block

        SE-Block的結(jié)構(gòu)如圖7所示。輸入特征X首先經(jīng)過Ftr操作,即常規(guī)的卷積操作,得到特征圖U,X∈H′×W′×C′以及U∈H×W×C。然后利用壓縮(Squeeze)函數(shù)Fsq(·)提取通道間的關(guān)聯(lián)信息Z∈c。最后使用激發(fā)(Excitation)函數(shù)Fex(·)生成每個通道的權(quán)重S∈с。上述函數(shù)的計算式為

        (1)

        S=Fex(Z,W)=σ(g(Z,W))=σ(W2σ(W1Z))

        (2)

        其中,zc∈Z;uc∈U;W=[W1,W2]。

        SE-Block可突出有用特征,并抑制無用特征,能以最小的計算代價顯著提高現(xiàn)有神經(jīng)網(wǎng)絡(luò)的性能。

        3.3 特征融合

        本文使用一種三尺度框架,通過最大池化實現(xiàn)特征融合。根據(jù)熱點區(qū)域的中心坐標,在不同尺寸的場景圖片金字塔中采樣多尺度的圖像塊,分別送入到預(yù)訓練的卷積神經(jīng)網(wǎng)絡(luò)中提取特征,再將通過提取得到的不同特征進行融合。

        在模型中使用CNN來提取深度特征,CNN針對最高(全局)尺度和粗略(1/4)局部尺度以及精細(1/16)局部尺度。在每個尺度上,調(diào)整輸入?yún)^(qū)域的大小,從而得到不同尺度的不同特征向量,使用一個最大化池化(Max Pooling,MP)操作進行尺度內(nèi)特征聚合,將3個L2歸一化尺度特征向量串聯(lián)得到最終的圖像表示向量。

        全局尺度特征圖是原始輸入圖像的特征圖,1/4尺度和1/16尺度是熱點區(qū)域的面積與原圖的面積之比。

        3.4 分類器

        支持向量機(Support Vector Machine,SVM)為場景識別的分類提供了一種有效的解決方法,可以處理線性和非線性數(shù)據(jù)。為了獲得良好的分類精度,SVM通過訓練數(shù)據(jù)集進行訓練,找到一個超平面。超平面需要定位在最合適的位置。位于從超平面測量的最小垂直距離處的所有點被稱為支持向量。支持向量之間的最短距離稱為邊距。本文使用的支持向量機如圖8所示。

        圖8 支持向量機Figure 8. Support vector machine

        本文采用生成的多尺度深度特征來訓練多個一對多的線性SVM分類器。基于訓練圖像的尺度特征,對SVM分類器的參數(shù)C進行了優(yōu)化。C是支持向量機目標函數(shù)的超參數(shù),是對于誤分類樣本的懲罰項。在輸入線性SVM之前,特征經(jīng)過最大最小歸一化。本文使用的C值為0.02,同時采用平方鉸鏈損失函數(shù)。

        4 實驗結(jié)果及分析

        4.1 實驗數(shù)據(jù)集及實驗平臺

        本文在SUN397[24]進行了實驗。SUN397是一個大規(guī)模的場景識別數(shù)據(jù)集,共包含 130 519張、899類場景圖片,其中397類用作場景識別任務(wù)。使用數(shù)據(jù)集內(nèi)的397個類,且每個類別取100張場景圖像,對每個類內(nèi)選取的圖像對半劃分,分別構(gòu)成訓練集和測試集。

        提出的網(wǎng)絡(luò)模型訓練所用的硬件平臺為: CPU為Intel Core i7-10875H,主頻2.3 GHz,睿頻5.1 GHz;SAMSUNG 32 GB內(nèi)存;GPU為NVIDIA 2080 8 GB。

        4.2 實驗細節(jié)及分析

        微調(diào)涉及兩個網(wǎng)絡(luò),即類激活生成器和特征提取器的主干網(wǎng)絡(luò)。兩個網(wǎng)絡(luò)涉及3次訓練,訓練時的網(wǎng)絡(luò)參數(shù)如表1所示。

        表1 特征提取器和類激活圖生成器3次訓練的網(wǎng)絡(luò)參數(shù)

        在訓練時,考慮到SUN397每個類別訓練集只有50張圖片,故采用基于隨機采樣的數(shù)據(jù)增強[25]方法。本文在原始輸入圖片上采樣任意尺寸的圖像塊,采樣得到的圖像塊與原圖的尺寸比例范圍為在[0.08,1.00],長寬比范圍為[3/4,3/4]。采樣后將圖像塊調(diào)整成224×224大小,并對圖片進行隨機水平翻轉(zhuǎn)。最后對圖片進行標準化,在整個訓練集上求取標準化參數(shù)。由于數(shù)據(jù)集內(nèi)的圖片是彩色圖片,故三通道的標準化參數(shù)均值mean=[0.466,0.453,0.419],標準差std=[0.264,0.263,0.287]。在訓練時,使用帶動量的小批量隨機梯度下降優(yōu)化器。

        使用SE-Block對類激活圖的影響如圖9所示。SE-Block對類激活圖的值具有抑制作用,可減少熱點區(qū)域的數(shù)量,但能增強有效的熱點區(qū)域的激活值。

        (a)

        本文使用3個尺度構(gòu)成的最終特征進行C值選取。逐漸加大C值,得到準確度與C值的關(guān)系,如圖10所示。隨著C值增大,模型訓練的準確度達到100%,并保持不變。預(yù)測準確度在前期隨著C值的增大而逐漸增大,并在達到峰之后隨著C值的增大逐漸減小,模型經(jīng)歷了從欠擬合、擬合、過擬合3個不同階段。選擇較大的C值,縮小支持向量所在的超平面的間隔,以減少在訓練集上被錯誤分類的樣本。選擇較小的C值,訓練得到超平面的間隔較遠,但是被錯誤分類的樣本較多。C值越大,在訓練集上的準確度越高,超平面將對訓練集上產(chǎn)生過擬合造成較大的泛化誤差。C值越小,支持向量機可能無法收斂而無法得到最優(yōu)超平面,此時不僅在訓練集上表現(xiàn)較差,泛化誤差也較大。因此,本文選取測試準確度較高的點為C的取值點,即C=0.02較合理。

        圖10 SVM參數(shù)C和準確度的關(guān)系Figure 10. Relationship between parameter C of SVM and accuracy

        表2主要對特征提取器和類激活圖生成器主干網(wǎng)絡(luò)的處理方式進行標記,例如序號2表示類激活圖生成器在Places上進行了預(yù)訓練并在 SUN397上進行了微調(diào)(Finetune),特征提取器的主干網(wǎng)絡(luò)在全局尺度和1/4尺度上使用同樣的方式進行了處理。在1/16尺度上,特征提取器的主干網(wǎng)絡(luò)經(jīng)過ImageNet的預(yù)訓練。從表2可以看出,如果對主干網(wǎng)絡(luò)進行微調(diào),能夠緩解數(shù)據(jù)集偏置的問題,并提高場景識別的準確度。

        表2 微調(diào)特征提取器和CAM生成器對準確度的影響

        如表3所示,將本文方法與其它使用CNN的場景識別方法進行了比較。其中,VS-CNN通過多維度信息提取多種類型的特征,Dual CNN-DL、Multi-scale CNNs使用了多尺度多模型結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),Adi-Red解決了鑒別性區(qū)域自動發(fā)現(xiàn)。經(jīng)實驗對比發(fā)現(xiàn),采用多尺度特征融合的方法在場景識別中優(yōu)于當前的卷積神經(jīng)網(wǎng)絡(luò)算法模型。本文結(jié)合遷移學習與多尺度特征融合,通過3種不同的特征尺度解決了復(fù)雜場景的分類問題,其中全局尺度特征對于簡單場景具有較好的效果。本文構(gòu)建了新的類激活圖生成器,生成了更細膩的類激活圖,從而能夠更精準地尋找關(guān)鍵特征的位置并裁剪此區(qū)域的特征。本文提取的局部尺度特征能夠進一步補充場景圖像的特征信息,賦予了網(wǎng)絡(luò)模型分類復(fù)雜場景的能力。此方法識別準確度高于類似的識別算法,證明了通過改進類激活圖生成器網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合圖像的全局與局部特征方法的有效性。

        表3 在SUN397數(shù)據(jù)集上的準確度比較

        5 結(jié)束語

        本文提出一種基于深度遷移學習與多尺度特征融合的場景識別算法模型。該模型以ResNet-50網(wǎng)絡(luò)模型為基礎(chǔ),通過遷移學習,使模型獲取豐富的知識,簡化網(wǎng)絡(luò)模型的訓練難度,提升網(wǎng)絡(luò)的訓練效率。改進了類激活圖生成器,通過擴大原圖像尺寸增加了類激活圖的分辨率,使卷積網(wǎng)絡(luò)獲得了較多特征信息,采用區(qū)分區(qū)域來提取場景圖像的深層特征。通過卷積網(wǎng)絡(luò)使不同尺度的特征向量進行融合,增加了最終特征的特征信息豐富度,更加具體地對圖像進行表示。最終,將表示向量送入線性SVM分類器進行場景類別的識別。研究結(jié)果表明,本文方法能夠明顯緩解數(shù)據(jù)集偏執(zhí)的問題,改善圖像類內(nèi)差異與類間相似的問題,提高了場景識別的準確度。在改進類激活圖生成器網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上使用遷移學習與微調(diào)技術(shù),不提取沉余區(qū)域即可獲取信息豐富的熱點區(qū)域特征信息,更加符合人類對場景的觀察機制。未來將進一步結(jié)合深度學習的方法,探討更有效的提取場景圖像的背景、物體、空間位置等信息的算法,并在特征融合方面開展進一步的研究工作。

        猜你喜歡
        特征提取深度特征
        深度理解一元一次方程
        如何表達“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        免费看又色又爽又黄的国产软件| 蜜桃av福利精品小视频| 激情亚洲不卡一区二区| 日本丰满少妇裸体自慰| 欲色天天网综合久久| 国产99页| 按摩偷拍一区二区三区| 欧美大片va欧美在线播放| 国产在线精品成人一区二区三区| 午夜无码一区二区三区在线| 视频在线播放观看免费| 青春草免费在线观看视频| 99精品一区二区三区无码吞精| 久久精品—区二区三区无码伊人色| av男人的天堂手机免费网站| 一二三四五区av蜜桃| 久久夜色精品国产噜噜亚洲av| 亚洲中文字幕在线爆乳| 亚洲精品av一区二区日韩| 免费在线观看视频专区| 国产午夜视频一区二区三区 | 男女深夜视频网站入口| 久久九九精品国产av| 人人妻人人爽人人澡人人| 国产精品短视频| 中文字幕人妻久久一区二区三区| 极品少妇xxxx精品少妇偷拍| 国产精品久久久久久久免费看| 久久精品熟女不卡av高清| 一区二区三区日韩蜜桃| 久久久久亚洲精品无码蜜桃| 亚洲欧美成人a∨| av男人操美女一区二区三区| 男人天堂网2017| 亚洲精品字幕在线观看| 午夜在线观看有码无码| 久久蜜桃资源一区二区| а√资源新版在线天堂| 亚洲精品123区在线观看| 人妻少妇偷人精品一区二区| 亚洲av综合av成人小说|