史 靜,朱 虹
(西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院,西安 710048)
隨著互聯(lián)網(wǎng)多媒體等技術(shù)的發(fā)展,必然帶來海量的圖像數(shù)據(jù),傳統(tǒng)獲取信息的方法已經(jīng)無法滿足人類的需求了,為了對(duì)圖像帶來的大量數(shù)據(jù)信息進(jìn)行有效的分析和管理,需要根據(jù)圖像的不同內(nèi)容提前對(duì)其進(jìn)行分類.
場(chǎng)景圖像分類在機(jī)器視覺、人工智能、多媒體技術(shù)等多個(gè)領(lǐng)域受到廣泛的關(guān)注,比如讓機(jī)器人可以像人類一樣自己識(shí)別出街道、廚房、臥室等不同的場(chǎng)景,更加智能的為人類服務(wù).此外,場(chǎng)景圖像分類還在圖像檢索[1]、目標(biāo)識(shí)別[2]、旅游導(dǎo)航、數(shù)字照片自動(dòng)分類、視頻分類監(jiān)督等領(lǐng)域中得到了應(yīng)用.但是由于場(chǎng)景圖像的存在各種問題,使得場(chǎng)景圖像分類面臨巨大的挑戰(zhàn): (1) 圖像紋理布局很相似這就導(dǎo)致圖像類間比較相似; (2) 類內(nèi)由于拍攝角度、近景還是遠(yuǎn)景、光照等因素的影響導(dǎo)致類內(nèi)場(chǎng)景差異較大,這些都在一定程度上這些都增加了場(chǎng)景圖像分類的難度.
近年來,針對(duì)場(chǎng)景圖像分類問題已經(jīng)提出了各種各樣的算法,最終目的就是,在混合有多種類別的眾多場(chǎng)景圖像中,提取出屬于同一類場(chǎng)景圖像之間的相同或相似特征,如 SIFT[3]特征、GIST[4]特征、LBP[5]特征等,并用提取出的特征對(duì)這些場(chǎng)景圖像進(jìn)行盡可能準(zhǔn)確地分類,所以圖像特征的提取是提高分類準(zhǔn)確性中至關(guān)重要的一步.
目前的圖像場(chǎng)景分類在一定程度上克服了人工分類費(fèi)時(shí)費(fèi)力的弊端,但大都是建立在底層特征提取的層面上,這與人們對(duì)圖像進(jìn)行理解的方式有所不同.如何將底層特征進(jìn)行映射成為圖像高層語義特征就成為了研究的重點(diǎn),本文利用Gabor變換[6]在表示方向和頻率時(shí)與人類的視覺系統(tǒng)非常相似這一點(diǎn),在此基礎(chǔ)上,為底層特征進(jìn)行語義特征映射提供橋梁,將Gabor頻域信息中提取的LBP特征與視覺詞包模型自適應(yīng)相結(jié)合構(gòu)成融合特征,進(jìn)行分類判別.
圖像在頻域方面蘊(yùn)含著豐富的信息,這里利用Gabor變換對(duì)圖像進(jìn)行處理.Gabor變換其頻率和方向和人類通過視覺系統(tǒng)看物體時(shí)的頻率和方向很相似,可以很好地表現(xiàn)場(chǎng)景圖像各個(gè)方向和各個(gè)尺度的更加全面的頻域信息,在Gabor變換之后,提取LBP特征會(huì)得到更加豐富的紋理信息,有利于快速準(zhǔn)確地對(duì)場(chǎng)景圖像進(jìn)行分類識(shí)別.根據(jù)經(jīng)驗(yàn)值,選取的都是 5個(gè)尺度和8個(gè)方向,一共可以組合成40個(gè)Gabor小波函數(shù).
對(duì)圖像進(jìn)行Gabor變換就是讓輸入圖像和Gabor小波核函數(shù)進(jìn)行卷積運(yùn)算.假設(shè)輸入圖像用表示,那么圖像I與Gabor小波核函數(shù)的卷積定義可以表示為:
上式中的*稱為卷積因子,代表的就是在方向和尺度得到的40幅卷積圖像.
對(duì)于一幅圖來說,有了40幅不同尺度和方向的圖像,就可分別求取LBP特征,便可以得到更加豐富的紋理信息,將40幅圖像分別得到的LBP直方圖向量聯(lián)合起來,就可以得到整幅圖的LBP特征向量.圖2是圖1的灰度圖經(jīng)過Gabor變換后得到部分圖像及提取的LBP特征后的部分紋理圖.
圖1 場(chǎng)景圖像 insidecity 的原圖
圖2 Gabor變換圖像及提取的 LBP 特征圖
上述的方法最終得到的LBP特征維數(shù)已經(jīng)變?yōu)樵瓉淼?0倍,相當(dāng)于原來是只要求一幅圖的LBP直方圖,現(xiàn)在是對(duì)40幅圖求取的LBP直方圖才能代表一幅圖.比如本文中用到的8類室外場(chǎng)景圖像均為大小256×256的灰度圖,進(jìn)行Gabor小波變換之后求取LBP 直方圖向量,維數(shù)變到了 256×40=10 240 維.維數(shù)一旦變得很大,對(duì)計(jì)算速度和訓(xùn)練分類都會(huì)有很大的影響,所以必須進(jìn)行一定程度上的降維操作.
我們通過對(duì)圓形LBP特有的性質(zhì)均勻模式研究,均勻模式不僅可以達(dá)到降維的效果,而且還不會(huì)損失原圖的大量信息.使用均勻模式降維的過程中,可以將每一幅圖原本提取的256個(gè)直方圖向量映射到59維,那么對(duì)于一幅圖像來說原來的10 240維就會(huì)降低到59×40=2360維.雖然目前的2360維相對(duì)于原來的256維來說仍然很高,但是已經(jīng)在10 240維的基礎(chǔ)上降低了很多,所以已經(jīng)足夠接下來進(jìn)行分類訓(xùn)練.
近年來,SIFT特征已被廣泛應(yīng)用于紋理特征提取方面,BOW模型[7]的提出將SIFT的良好性能用于圖像分類.BOW模型最特別的地方是把圖像當(dāng)作是“文檔”,圖像的底層SIFT特征點(diǎn)被視為視覺詞匯.相關(guān)研究表明,圖像的整體統(tǒng)計(jì)信息對(duì)于語義場(chǎng)景的建模非常有用,而且不用檢測(cè)圖像中的具體目標(biāo)物.
視覺詞典[8–10]的構(gòu)建是使用所有的視覺特征集來形成可以描述這些視覺詞匯的碼本.視覺詞典的產(chǎn)生是詞包模型的關(guān)鍵,通常使用聚類方法來構(gòu)建視覺詞典,這里借助K-means聚類算法,聚類可以將具有最大相似度的特征聚為一類,聚類中心定義為“字典原子”,所有這些視覺字典原子構(gòu)成一個(gè)視覺詞典.
具體過程為: 從訓(xùn)練樣本中隨機(jī)選出一部分圖像,對(duì)其SIFT特征描述子進(jìn)行聚類,聚類中心作為字典原子,聚類中心的集合組成視覺詞典.將其中的視覺詞匯映射到與其距離最近的詞典原子,其中使用視覺詞匯表示圖像中的局部視覺屬性,統(tǒng)計(jì)圖像中每個(gè)視覺詞匯的出現(xiàn)頻率,從而形成了基于視覺詞匯表的直方圖,就可以得到場(chǎng)景圖像中的視覺詞包描述.使用視覺詞包模型的場(chǎng)景分類方法,將圖像中具有類似屬性的局部視覺特征轉(zhuǎn)換為視覺詞匯,大大降低了圖像特征表達(dá)的維數(shù),在場(chǎng)景圖像中形成了簡(jiǎn)單有效的中層語義描述,且適應(yīng)能力強(qiáng),泛化能力強(qiáng).
金字塔匹配的主要思想就是將特征空間進(jìn)行網(wǎng)格劃分,該劃分是進(jìn)行一系列逐漸變細(xì),然后形成金字塔分割,并且對(duì)每個(gè)層次下的匹配數(shù)進(jìn)行加權(quán)求和,以獲得特征集之間的相似度.
l0,l1,l2是三個(gè)不同的層,則這幾個(gè)層則被賦予不同的權(quán)值 1/8、1/4、1/2.用來表示X,Y在l級(jí)下的特征直方圖即為X,Y中屬于第i網(wǎng)格單元的特征點(diǎn),并且交叉核來描述在級(jí)別l下的匹配點(diǎn)數(shù)用直方圖表示,如下式所示,將簡(jiǎn)記為Il.
存在于l層結(jié)構(gòu)中的匹配點(diǎn)也存在于其更精細(xì)的l+1層結(jié)構(gòu)中,從而可以表示新出現(xiàn)在級(jí)別l上的匹配點(diǎn).將特征空間各級(jí)劃分進(jìn)行總和后點(diǎn)形成金字塔的核函數(shù):
對(duì)于圖像來說,該模型可以有效的描述圖像特征信息和空間位置信息.通過圖像的多層次分割,同時(shí)結(jié)合了圖像的多分辨率表示,可以在多個(gè)尺度空間中描述圖像的語義特征.
為了進(jìn)一步挖掘圖像的信息,既能提取豐富的紋理信息又能對(duì)圖像各種變化有很好魯棒性的特征,將Gabor-LBP和SPM+BOW進(jìn)行融合.這里將Gabor-LBP、SPM+BOW分別記為f1、f2,對(duì)這兩個(gè)特征進(jìn)行加權(quán)拼接,拼接后的特征稱為融合特征用F來表示,圖像的融合特征可以表示為:
式中F表示兩個(gè)特征f1和f2的加權(quán)拼接,即為融合特征,w1和w2分別表示f1和f2的權(quán)值.這里權(quán)值分配通過單個(gè)特征的識(shí)別率進(jìn)行設(shè)置,f1、f2的識(shí)別率分別為A1、A2:
為了避免不同的特征的數(shù)量級(jí)差別較大在特征融合時(shí)數(shù)量級(jí)較大的淹沒數(shù)量級(jí)較小的特征,這里我們對(duì)Gabor-LBP,SPM+BOW兩種特征進(jìn)行歸一化,然后按照上述中所說給每個(gè)特征賦予相應(yīng)的權(quán)值進(jìn)行加權(quán)拼接,拼接后的特征作為圖像的特征進(jìn)行分類識(shí)別.分類器我們使用一對(duì)一SVM分類器,由于一對(duì)多在設(shè)計(jì)時(shí)是將一類和其余類訓(xùn)練一個(gè)分類器這樣常常會(huì)出現(xiàn)數(shù)據(jù)失衡的問題造成最后的識(shí)別率并不可靠.訓(xùn)練完分類器后,對(duì)于測(cè)試圖像也經(jīng)過相同的過程提取圖像的融合特征,歸一化后加權(quán)拼接,最后輸入到分類器進(jìn)行分類決策.
為了驗(yàn)證本章提出的算法對(duì)于圖像場(chǎng)景分類的性能優(yōu)越性.本文采用了由Oliva等人提供的8類室外場(chǎng)景數(shù)據(jù)集[11](OT 數(shù)據(jù)集); Li Fei-Fei等人提供的 8 類運(yùn)動(dòng)場(chǎng)景[12](SE數(shù)據(jù)集).所有數(shù)據(jù)的準(zhǔn)確率均為5次試驗(yàn)的平均結(jié)果.
1) OT 數(shù)據(jù)集
該數(shù)據(jù)集總共包括2688張圖片,包含coast、forest、mountain 等,共 8 類自然場(chǎng)景,且每幅圖像都是大小為256×256的灰度圖,部分圖像如圖3所示,其中每類100張訓(xùn)練,其余測(cè)試.
圖3 OT 數(shù)據(jù)集
2) SE 數(shù)據(jù)集
該數(shù)據(jù)集總共包括1579張圖片,其中包含的運(yùn)動(dòng)場(chǎng)景有: badminton、bocce、croquet等 8類運(yùn)動(dòng)場(chǎng)景,每類圖像的數(shù)目從137張到250張不等.部分圖像如圖4所示,其中每類70張訓(xùn)練,其余60張測(cè)試.
圖4 SE 數(shù)據(jù)集
為了驗(yàn)證Gabor-LBP特征的有效性,這里對(duì)方形LBP,圓形 LBP,Gabor-LBP,依次進(jìn)行測(cè)試.各特征分類結(jié)果如表1所示.
表1 各數(shù)據(jù)集改進(jìn) LBP 與基本 LBP 方法的正確率比較(%)
為了探究不同訓(xùn)練數(shù)目下各個(gè)特征的識(shí)別率,我們對(duì)OT和SE數(shù)據(jù)集不同訓(xùn)練樣本數(shù)目進(jìn)行測(cè)試,我們以訓(xùn)練樣本從10到100逐漸增加實(shí)驗(yàn)結(jié)果如圖5所示.
圖5 各數(shù)據(jù)集訓(xùn)練樣本對(duì)識(shí)別率影響的曲線圖
從圖5可以看出隨著訓(xùn)練樣本的逐漸增加識(shí)別率逐漸提高,但Gabor-LBP的識(shí)別率始終高于其他LBP特征的識(shí)別率.
為了驗(yàn)證融合特征與單個(gè)特征分類識(shí)別率的比較實(shí)驗(yàn),對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行比較測(cè)試,結(jié)果如表2所示.
表2 各數(shù)據(jù)集整體識(shí)別率結(jié)果對(duì)比表(單位: %)
最后,將本文方法與其他參考文獻(xiàn)方法的進(jìn)行比較,結(jié)果如表3所示.
表3 不同方法結(jié)果對(duì)比表(單位: %)
由表3可以看出本文的圖像融合的方法在場(chǎng)景圖像分類方面有一定的優(yōu)勢(shì),由于特征融合提供了更為豐富的圖像信息使得圖像更具有區(qū)分性,從而提高了圖像的識(shí)別率.
本文提出了新的場(chǎng)景圖像分類算法,將圖像的Gabor-LBP特征與視覺詞包模型自適應(yīng)相結(jié)合,進(jìn)一步挖掘圖像的信息,可以獲得對(duì)場(chǎng)景圖像的多個(gè)尺度多個(gè)方向的豐富紋理特征,以及在圖像尺度,旋轉(zhuǎn),光照有很好的魯棒性特征.場(chǎng)景圖像的標(biāo)準(zhǔn)數(shù)據(jù)集的測(cè)試結(jié)果驗(yàn)證了本文方法的有效性.
參考文獻(xiàn)
1Xue ZY,Rahman MM,Antani S,et al.Modality classification for searching figures in biomedical literature.Proceedings of the 29th International Symposium on Computer-Based Medical Systems (CBMS).Dublin,Ireland.2016.152–157.
2Shao L,Liu L,Li XL.Feature learning for image classification via multiobjective genetic programming.IEEE Transactions on Neural Networks and Learning Systems,2014,25(7): 1359–1371.[doi: 10.1109/TNNLS.2013.2293418]
3Lowe DG.Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision,2004,60(2): 91–110.[doi: 10.1023/B:VISI.0000029664.99615.94]
4Yin JH,Li H,Jia XP.Crater detection based on GIST features.IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2015,8(1): 23–29.[doi:10.1109/JSTARS.2014.2375066]
5Nanni L,Lumini A,Brahnam S.Survey on LBP based texture descriptors for image classification.Expert Systems with Applications,2012,39(3): 3634–3641.[doi: 10.1016/j.eswa.2011.09.054]
6Tao DC,Li XL,Wu XD,et al.General tensor discriminant analysis and Gabor features for gait recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(10): 1700–1715.[doi: 10.1109/TPAMI.2007.1096]
7Kejriwal N,Kumar S,Shibata T.High performance loop closure detection using bag of word pairs.Robotics and Autonomous Systems,2016,(77): 55–65.[doi: 10.1016/j.robot.2015.12.003]
8Zhou L,Zhou ZT,Hu DW.Scene classification using a multi-resolution bag-of-features model.Pattern Recognition,2013,46(1): 424–433.[doi: 10.1016/j.patcog.2012.07.017]
9Chu WT,Chen CH,Hsu HN.Color CENTRIST: Embedding color information in scene categorization.Journal of Visual Communication and Image Representation,2014,25(5):840–854.[doi: 10.1016/j.jvcir.2014.01.013]
10Jeong DJ,Yoo HJ,Cho NI.Consumer video summarization based on image quality and representativeness measure.Proceedings of 2015 IEEE Global Conference on Signal and Information Processing (GlobalSIP).Orlando,FL,USA.2015.572–576.
11Oliva A,Torralba A.Modeling the shape of the scene: A holistic representation of the spatial envelope.International Journal of Computer Vision,2001,42(3): 145 –175.[doi:10.1023/A:1011139631724]
12Li LJ,Li FF.What,where and who? Classifying events by scene and object recognition.Proceedings of the 2007 IEEE 11th International Conference on Computer Vision.Rio de Janeiro,Brazil.2007.1–8.
13Wu JX,Rehg JM.CENTRIST: A visual descriptor for scene categorization.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8): 1489–1501.[doi: 10.1109/TPAMI.2010.224]