亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度局部特征編碼與多通道特征融合的圖像場景分類

        2019-09-09 10:05:04顧廣華
        燕山大學學報 2019年4期
        關鍵詞:碼本尺度卷積

        秦 芳,顧廣華,*

        (1. 燕山大學 信息科學與工程學院,河北 秦皇島 066004;2.燕山大學 河北省信息傳輸與信號處理重點實驗室,河北 秦皇島 066004)

        0 引言

        場景分類是計算機視覺和模式識別的重要分支,它廣泛應用于圖像檢索、目標檢測和行為識別等多個領域[1]。場景由多個基本單元組成,這些單元排列在無規(guī)律的布局中。場景圖像具有較大的類內差異和類間相似性,當人眼看到一幅場景圖像時可迅速做出判斷,但對于機器來說難度很大。因此,讓計算機正確理解視覺場景對于研究者來說一直是一個具有挑戰(zhàn)性的問題。在過去的幾十年中,研究者們提出了許多用于圖像場景分類的方法,其中最著名的是“詞袋”(Bag of words, BOW)模型[2]。BOW模型使用聚類方法產生視覺碼本,通過量化局部特征構建“視覺詞”的出現(xiàn)頻率來表示圖像,取得了不錯的分類效果,但由于BOW模型沒考慮圖像的空間信息而影響了分類準確性。因此,一些研究者提出了一系列基于BOW模型的方法來提高獲取局部空間信息的能力。如概率潛在語義分析(Probabilistic Latent Semantic Analysis, pLSA)模型[3]和貝葉斯等級模型[4],都改善了分類效果。特別值得關注的是Lazebnik等提出空間金字塔匹配(Spatial Pyramid Matching,SPM)模型[5],它通過將圖像分割成越來越精細的子區(qū)域,并計算每個子區(qū)域內局部特征的直方圖來提升分類性能。然而,上述這些基于BOW的方法的性能強烈依賴于底層特征,例如,尺度不變特征變換(Scale Invariant Feature Transform, SIFT)或方向梯度直方圖(Histogram of Oriented Gradient, HOG)以及紋理特征。由于場景圖像的復雜性,這些底層特征無法有效實現(xiàn)精確分類。近年來,深度學習的方法不僅在語音識別、目標識別和檢測、自然語言處理等[6-7]經典問題上取得了巨大的成功,在許多其他實際應用中也取得了飛躍性的突破,引起了學術界和工業(yè)界的極大興趣。

        深層卷積神經網絡(Convolutional Neural Networks, CNN)[8]是深度學習的一個流行分支,是一個由卷積、池化和全連接層組成的多層架構,在視覺識別任務尤其是圖像分類領域取得了巨大成功。最大的突破之一是在ImageNet(包含1 000多個類別的圖像)大型視覺識別挑戰(zhàn)(ImageNet Large Scale Visual Recognition Challenge , ILSVRC)[9]中,CNN的識別精度比所有基于底層特征的方法高出約10%。目前,很多最近的工作[10-15]已經證明,基于諸如ImageNet、Places等大型數(shù)據(jù)集進行預訓練的深層CNN的中間特征的學習,可以有效地轉移到其他有限的訓練數(shù)據(jù)識別任務中去。

        然而,CNN特征是一種全局圖像表示,更多的獲取了圖像的高頻信息,且缺少幾何不變性。因為原始像素在卷積網絡中的局部鄰域內被多次濾波和池化,圖像的局部空間信息已經消失在聚類背景中,從而降低了分類和判別能力。為解決該問題,本文進行了三方面的工作:1)使用局部約束線性編碼(Locality constrained linear coding, LLC)方法編碼多尺度圖像塊的深度卷積層特征;2)提取原始圖像的第一個全連接層的全局CNN特征;3)將深度卷積層的多尺度編碼特征與原始圖像在全連接層的全局CNN特征實現(xiàn)多通道融合。

        1 多尺度局部特征編碼

        針對底層特征無法實現(xiàn)有效分類的問題以及CNN特征的缺點,本文通過滑動窗提取多尺度圖像塊,并獲得其深度卷積層CNN特征,使用K-means聚類方法將提取的特征量化為視覺碼本,基于通用碼本,使用LLC方法進行編碼獲取圖像的局部空間信息,以彌補底層特征與高層語義之間的差距,同時使用原始圖像的全連接層特征來有效表征場景圖像的語義信息,全局空間信息仍然被保留,并將來自于深度卷積層的中層編碼特征與來自全連接層的全局CNN特征進行多通道融合,實現(xiàn)全局信息與局部信息的互補,從而獲得更加準確的圖像表征。其原理框圖如圖1所示。

        圖1 多尺度局部特征編碼與多通道特征融合的原理框圖
        Fig.1 Multi-scale local feature coding and multi-channel feature fusion of the block diagram

        1.1 獲取多尺度圖像塊的CNN特征

        本文實驗證明使用較大尺寸的圖像作為卷積神經網絡的輸入比相對較小的尺寸更有優(yōu)勢,采用多尺度圖像塊的卷積層特征進行編碼來獲取圖像的局部空間信息的方法需要的特征數(shù)目不能過少。因此,首先將圖像調整為256×256的大小并轉化為灰度圖,將其用作原始圖像。然后,使用長度分別為128像素和64像素的滑動窗以16像素步長對圖像進行采樣,提取尺度分別為128×128、64×64的圖像塊,使用預訓練的卷積神經網絡(VGG-F)提取圖像塊的CNN特征。該網絡架構由5個卷積層和3個全連接層組成,第1個、第2個和第5個卷積層后帶有池化層,如圖2所示。

        圖2 預訓練的卷積神經網絡架構示意圖
        Fig.2 Pre-trained convolution neural network architecture diagram

        卷積層即一組濾波器進行工作,其中包括濾波器的可學習權重以產生輸入圖像的卷積信息,通過卷積運算,使原信號特征增強,并且降低噪音。池化層通過局部非線性運算來減小輸入層的空間尺寸,減少計算量的同時保持圖像旋轉不變性。全連接采用softmax全連接,得到的激活值即卷積神經網絡提取到的圖片特征。

        1.2 特征編碼

        使用預訓練的卷積神經網絡獲得多尺度局部圖像塊的深度卷積層特征之后,對于訓練集的每一類圖像塊特征使用K-means聚類算法來生成具有M個聚類簇的類碼本,依次得到所有類圖像的類碼本后,進行類碼本的級聯(lián)得到最終的通用碼本。基于獲得的通用碼本,采用局部約束線性編碼LLC[16]來獲得圖像的視覺描述符。LLC編碼用于減少重構誤差,利用局部約束將每個描述子投影到它的局部坐標系中,并且投影坐標通過特征各維最大池化整合來產生最終的圖像表示。其目標函數(shù)為

        s.t.1Tci=1,?i

        (1)

        式中加號前的一項最小化是為了減少量化誤差,加號后的一項則是做出假設約束。其中,X表示從圖像中提取的一組D維局部描述符,X=[x1,x2,…,xN]∈RD×N,碼本B具有M個元素B=[b1,b2,…,bM]∈RD×N,di表示可以為每個基本向量分配不同自由度的局部適配器,并且分配的自由度與輸入描述符xi的相似性成比例。即

        di=exp(dist(xi,B)/σ),

        (2)

        dist(xi,B)=[dist(xi,bi),…,dist(xi,bM)],

        (3)

        其中dist(xi,bj)表示xi與bj之間的歐式距離。σ用于調整局部適配器的權重衰減率。約束1Tci=1滿足LLC編碼的旋轉不變性要求。

        2 多通道特征融合

        圖像場景分類與其他分類任務不同,因為場景圖像具有較大的類內差異和類間相似性。一些場景圖像中含有許多復雜的目標,且其對類別的判斷十分重要。例如,圖3中的示例圖像來自于15類場景數(shù)據(jù)集中的“bedroom”和“kitchen”類,這兩類圖像中都含有多個目標,但是能夠識別“bedroom”類場景的判別性信息來自于圖中占據(jù)面積接近三分之一的床,而識別“kitchen”類的重要部分是圖中的“電飯煲”、“灶臺”等局部信息,由此可知,局部信息對于場景圖像的分類至關重要。此外,對于場景圖像來說,圖像的全局信息是實現(xiàn)分類判別的基礎,無論是室內場景中的橫向布局,抑或是室外場景的縱向結構,或者人造場景的全局結構,都是實現(xiàn)準確分類的前提。因此,融合全局結構信息與局部空間信息對于提高圖像場景分類準確性十分重要。卷積神經網絡的全連接層輸出的特征表示高層語義信息,丟失了目標的詳細信息和場景類別的空間信息。深度卷積層特征已被證明更適合于描述對象本身以及圖像中對象之間的空間關系[17]。本文通過獲取局部圖像塊的深度卷積層特征并進行編碼,捕獲圖像中目標的局部信息。將來自于深度卷積層的多尺度編碼特征與來自全連接層的全局CNN特征進行多通道融合。具體而言,獲得編碼特征與全局CNN特征后,將這兩種特征等比例加權級聯(lián),實現(xiàn)圖像全局與局部信息的融合,獲得更高效的圖像表示。即

        ffinal=[w1·f1,w2·f2],

        (4)

        其中,w1=w2=0.5,f1表示多尺度圖像塊卷積層的編碼特征,f2表示圖像的全連接層的CNN特征,用最終的融合特征表示來訓練分類器進行預測。

        圖3 場景類示例圖像
        Fig.3 Scene class example image

        3 實驗結果與分析

        本文針對所提出的問題在兩個常用場景類數(shù)據(jù)集上進行了評估,實驗分為3個部分:第一部分比較了單個通道特征與多通道融合特征的分類精度;第二部分探究了聚類碼本的不同大小對于分類結果的影響;第三部分探究了圖像塊不同尺度對于分類結果的影響。最后,根據(jù)三部分實驗所獲得的最優(yōu)參數(shù)在兩個通用場景數(shù)據(jù)集上進行了分類判別實驗。

        3.1 數(shù)據(jù)集

        1) Lazebnik等的15類場景數(shù)據(jù)集(15-category)。該數(shù)據(jù)集共包含4 486張灰度圖像,用于每個類別的圖像數(shù)量范圍為200~400。對于每個類別,隨機選取80幅圖像用于訓練,20幅圖像測試。最終分類精度取10次實驗的平均值。

        2) SUN397數(shù)據(jù)集是Xiao等[18]提出的場景識別數(shù)據(jù)集,包含397個場景類別,是當前最大的場景類別數(shù)據(jù)集。包含室內和室外場景圖像,每個類別至少包含100幅圖像。為了降低計算量,本文從中選出15個類別的圖像組成一個新的數(shù)據(jù)集SUN397-15,其中包括“ball_pit”, “ocean”, “bamboo_forest”, “electrical_substation”, “wave”, “bow_window_outdoor”, “subway_interior”, “sky”, “bullring”, “pagoda”, “ice_skating_rink_indoor”, “skatepark”, “shower”, “train_station_platform”, “rock_arch”。對該場景數(shù)據(jù)集同樣選取80幅圖像用于訓練,20幅圖像用于測試。最終的分類精度取10次實驗的平均值。

        3.2 多通道對比

        將深度卷積層的多尺度編碼特征與全連接層的全局CNN特征進行多通道融合,實現(xiàn)圖像的高效表征。為了驗證多通道融合特征的優(yōu)越性,在實驗中對兩個數(shù)據(jù)集的圖像分別提取不同通道的CNN特征,進行分類判別,分類精度如表1所示。表1中Channel1表示最后一個卷積層的CNN特征,Channel2表示第一個全連接層的CNN特征,Channel3表示第二個全連接層的CNN特征。

        由表1可見,在兩個數(shù)據(jù)集上使用單通道特征進行分類判別時,第一個全連接層的識別精度均高于其他單通道特征的識別精度。當使用多通道融合特征進行分類比較時,可以發(fā)現(xiàn)在SUN397-15數(shù)據(jù)集上,最后一個卷積層與第一個全連接層的雙通道融合特征的識別精度最好,而在15-category數(shù)據(jù)集上,最后一個卷積層與第一個全連接層的雙通道融合特征與兩個全連接層的融合特征的識別精度相當。由于卷積神經網絡是通過一系列濾波器與輸入圖像進行卷積、池化來層層抽象,最后一個卷積層還含有圖像的部分局部信息,而到達全連接層時,獲取的已經是圖像的高層語義信息。因此,本文為了彌補局部信息的缺失,采用圖像塊最后一個深度卷積層的特征進行編碼,同時,與第一個全連接層的全局語義信息進行多通道融合,來更有效的表征圖像。

        表1 多通道特征的分類結果比較Tab.1 Classification results comparison of multi-channel

        3.3 碼本大小的選擇

        K-means聚類的缺點之一是對K值的選擇敏感,因此本文中選擇K=10,K=50,K=100,K=150這四種不同大小的類碼本執(zhí)行聚類,依次得到每個類別的視覺碼本,再將所有類碼本級聯(lián)獲得通用碼本?;谠摯a本,使用LLC編碼方法獲得多尺度局部圖像塊的編碼特征,并進一步將其與原始圖像的第一個全連接層的全局CNN特征級聯(lián),實現(xiàn)多通道融合,在15-category數(shù)據(jù)集上比較了分類準確性,分類結果如表2所示。

        表2 不同大小類碼本的分類結果比較Tab.2 Classification results comparison of different size codebook

        由表2可見,隨著類碼本的增大,編碼特征和融合特征的分類精度在15-category數(shù)據(jù)集上均為先增加后減小。且當類碼本大小為K=100時,編碼特征和融合特征都可以獲得最好的分類精度。對于LLC編碼來說,在一定范圍內,類碼本越大,編碼特征的分類效果越好。但碼本過大,編碼特征會過于稀疏,反而影響分類效果。且在一幅實際場景圖像中,包含的視覺目標也是有限的。因此,在本文的實驗中,選擇K=100作為類碼本的大小,采用K-means聚類來構建視覺通用碼本。

        3.4 多尺度對比

        實驗中選擇不同尺度的滑動窗進行局部圖像塊采樣,獲取其深度卷積層特征并進行LLC編碼,分別對不同尺度圖像塊的編碼特征進行分類判別。進一步將編碼特征與原圖在第一個全連接層的全局特征相融合,在15-category數(shù)據(jù)集上比較了分類精度,結果取10次實驗的平均值,分類結果如表3所示。表3中Scale1表示采樣64×64的圖像塊,Scale2表示采樣128×128的圖像塊,Scale1+Scale2表示采樣兩個不同尺度的局部圖像塊。

        表3 多尺度編碼特征與融合特征的分類結果比較Tab.3 Classification results comparison of multi-scale coding features and fusion features

        由表3可知,當使用多尺度圖像塊的深度卷積層特征進行LLC編碼時,其分類精度比單尺度圖像塊的編碼特征高,且較大尺度圖像塊編碼特征的分類效果比較小尺度好。進一步將局部圖像塊的編碼特征與第一個全連接層的全局CNN特征進行多通道融合,使用兩個尺度的圖像塊編碼特征得到的融合特征相比兩個單尺度融合特征的分類精度都高。多尺度融合特征比多尺度編碼特征的分類精度提高了3.1%,這進一步說明了多通道融合的有效性。因此,本文在最終的分類判別實驗中,采用多尺度多通道融合特征來表征圖像。

        3.5 分類判別

        如前所述,本文采用多尺度局部圖像塊的深度卷積層特征進行LLC編碼,獲得編碼特征,進而與原始圖像的第一個全連接層的全局CNN特征實現(xiàn)多通道融合,以獲得整合了局部與全局信息的有效圖像表示。將編碼特征與融合特征在SUN397-15和15-category兩個數(shù)據(jù)集上進行實驗比較,識別精度取10次實驗的平均值,分類結果如表4所示。同時,為了更好地驗證本文方法的有效性,將原始圖像的第一個全連接層的CNN特征進行分類判別,作為比較的基準。表4中CNN1表示原始圖像CNN特征的分類精度,LLC1表示使用LLC編碼獲得的多尺度局部圖像塊的編碼特征的分類精度,LLC1+CNN1表示多通道融合后的分類精度。

        表4 兩個數(shù)據(jù)集上的實驗結果Tab.4 Experimental results on both datasets

        由表4可見,使用LLC方法獲得多尺度局部圖像塊的深度卷積層編碼特征,與原始圖像在第一個全連接層的全局CNN特征進行多通道融合,基于融合特征做分類判別時,在SUN397-15數(shù)據(jù)集上的分類精度達到98.0%,相比原始圖像的全局CNN特征的分類精度提高了1.5%。在15-category數(shù)據(jù)集上的分類精度達到92.9%,相比原始圖像CNN特征的識別精度提高了4.5%。由此可以看出本文將局部與全局信息融合的方法對于場景圖像的分類判別是有效的。

        此外,針對15類場景數(shù)據(jù)集,本文與其他場景分類方法[5,19-22]也進行了實驗對比,結果如表5所示。將多尺度局部圖像塊的編碼特征整合到全局CNN特征中的多通道融合方法,相比表5中的其他方法在分類精度上都有所提高,不僅比傳統(tǒng)的使用SPM方法進行場景識別的分類精度提高了11.5%,而且達到了與文獻[22]中相當?shù)姆诸愋Ч疚氖褂玫木W絡結構比文獻[22]簡單,且算法復雜度更低。由此表明,整合局部信息對于使用深度特征進行場景分類十分有效。

        4 結論

        本文為了克服CNN特征無法有效表征圖像局部信息的缺點,通過將多尺度局部圖像塊的深度卷積層特征進行LLC編碼,并將編碼特征與原始圖像的全連接層CNN特征進行多通道融合,從而獲得整合了局部結構信息與全局空間信息的有效圖像表示。在兩個典型數(shù)據(jù)集上的實驗結果,表明了本文所提出的場景分類方法的優(yōu)越性。同時,也驗證了多尺度圖像塊的編碼特征優(yōu)于單尺度圖像塊的編碼特征,且多通道融合特征優(yōu)于單通道CNN特征。

        表5 15-category數(shù)據(jù)集上不同分類方法比較Tab.5 Comparison of different classification methods on the 15-category dataset

        猜你喜歡
        碼本尺度卷積
        Galois 環(huán)上漸近最優(yōu)碼本的構造
        免調度NOMA系統(tǒng)中擴頻碼優(yōu)化設計
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        基于有限域上仿射空間構造新碼本
        財產的五大尺度和五重應對
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        幾類近似達到Welch界碼本的構造
        基于傅里葉域卷積表示的目標跟蹤算法
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        aa片在线观看视频在线播放| 好看的中文字幕中文在线| 一区二区三区亚洲免费| 人妻少妇精品视频一区二区三区l| 欧美性xxxxx极品老少| 国产午夜福利100集发布| 最近高清中文在线字幕观看| 亚洲成AV人片无码不卡| 中文字幕亚洲乱码熟女1区2区| 国产精品一区二区av麻豆日韩| 久久午夜无码鲁丝片午夜精品| 国产成人精品日本亚洲| 国产成年无码久久久免费| 亚洲女同恋中文一区二区| 精品国内日本一区二区| 国产综合精品| 少妇对白露脸打电话系列| 国产在线h视频| 中文字幕中文字幕三区| 日本精品一区二区三区二人码| 激情综合色综合久久综合| 成人无码视频| 亚洲国产精品免费一区| 99精品久久精品一区| 精品国偷自产在线视频九色| 末发育娇小性色xxxxx视频| 亚洲色图视频在线观看网站| 国产一区二三区中文字幕| 日韩精品中文一区二区三区在线 | 亚洲愉拍99热成人精品热久久| 精品香蕉久久久爽爽| 在线视频一区二区亚洲| 一区二区高清免费日本| 久久精品国产精品亚洲| 欧美黑人粗暴多交高潮水最多| 国产美女被遭强高潮露开双腿 | av男人的天堂亚洲综合网| 亚洲愉拍99热成人精品热久久| 久久亚洲sm情趣捆绑调教| 亚洲精品一区二区三区av| 97精品人妻一区二区三区在线|