周華兵,朱國家,張彥鐸,任世強(qiáng)
武漢工程大學(xué) 湖北省智能機(jī)器人重點(diǎn)實(shí)驗(yàn)室,武漢 430205
近年來,對(duì)目標(biāo)檢測(cè)和圖像分類的問題研究一直在不斷發(fā)展完善,許多有用的模型被先后提出[1]。
其中,可變形的部件模型(Deformable Partbased Model,DPM)[2],是 在 HOG(Histogram of Oriented Gradient)[3]特征基礎(chǔ)上改進(jìn)而來,使用多模型(一般包含一個(gè)根模型和多個(gè)部件模型)代替HOG特征的單模型,在計(jì)算梯度方向時(shí),結(jié)合使用有符號(hào)梯度與無符號(hào)梯度的策略,能大大降低特征向量的維度;取消了HOG特征中的塊,只保留了單元,將該單元與其對(duì)角線鄰域上的4個(gè)單元一起做歸一化操作,獲得的效果非常類似于HOG特征,并且目標(biāo)檢測(cè)的精確度很高。詞袋模型(Bag of Words,BoW)[4]將一個(gè)圖像塊的特征向量看作是圖像中的視覺詞匯,然后根據(jù)若干圖像塊的視覺詞匯構(gòu)成的視覺詞袋來構(gòu)建全局特征直方圖。BoW模型在一定程度上可以表示一幅圖像,但是它僅僅關(guān)注圖像包含的特征,而忽略了有關(guān)特征空間布局的信息,無法對(duì)圖像進(jìn)行精確的識(shí)別,這嚴(yán)重限制了其表達(dá)能力。為克服此問題,Lazebnik等人引入了一個(gè)名為空間金字塔匹配(Spatial Pyramid Matching,SPM)[5]的局部無序匹配模型,該模型將圖像劃分為類似金字塔的各水平線上不斷細(xì)分的分辨率越來越高的網(wǎng)格序列,計(jì)算出每一個(gè)網(wǎng)格序列的局部特征直方圖,然后導(dǎo)出并組合為一個(gè)很大的特征向量來表示圖像。
隨著圖像分類技術(shù)的發(fā)展,人們對(duì)這些模型的優(yōu)化方法越來越豐富,并且目標(biāo)檢測(cè)與分類精度在進(jìn)一步提高中。文獻(xiàn)[6]在DPM的基礎(chǔ)上建立多人體模板,通過結(jié)合使用檢測(cè)單人和多人情況下的特征圖,很好地解決了行人相互靠近且有重疊場(chǎng)景下的目標(biāo)檢測(cè)問題。文獻(xiàn)[7]針對(duì)DPM采用單一特征來進(jìn)行特征描述不夠準(zhǔn)確的問題,提出結(jié)合使用紋理特征與顏色特征的多特征融合的方法,進(jìn)一步提高了目標(biāo)檢測(cè)的正確率。文獻(xiàn)[8]使用稀疏編碼的方法來生成視覺詞典,用單一的稀疏向量去對(duì)圖像進(jìn)行特征表達(dá),取得了一定的效果,但此時(shí)向量的維數(shù)會(huì)很大,不便于計(jì)算。此外,可以使用多層次向量加權(quán)再連接起來的方法進(jìn)行特征表達(dá),但這些權(quán)值都是根據(jù)經(jīng)驗(yàn)獲得,無法保證對(duì)圖像有最好的區(qū)分能力。文獻(xiàn)[9]將稀疏編碼與多核學(xué)習(xí)結(jié)合起來,在圖像進(jìn)行金字塔劃分的各個(gè)層次上分別進(jìn)行稀疏編碼,并為每個(gè)層次對(duì)應(yīng)的核矩陣計(jì)算加權(quán)系數(shù)并對(duì)其線性組合,充分利用圖像信息,得到區(qū)分能力最好的核矩陣。
以上方法雖然能在一定程度上改善目標(biāo)檢測(cè)和圖像分類性能,但是并未考慮將目標(biāo)檢測(cè)算法與圖像分類算法結(jié)合來進(jìn)行圖像分類?;诖?,本文提出一種基于興趣域檢測(cè)的空間金字塔匹配方法,該方法使用檢測(cè)器去構(gòu)建一個(gè)系統(tǒng),把圖像分割成如圖1所示的興趣域(Region of Interest,ROI)[10]與背景區(qū)域,同時(shí)檢測(cè)器會(huì)提供ROI評(píng)分;然后分別對(duì)ROI與背景區(qū)域使用標(biāo)準(zhǔn)的SPM算法構(gòu)建特征直方圖,并進(jìn)行SVM訓(xùn)練得到分類模型和SVM評(píng)分,此外,并不是直接使用SVM的分類情況來作為最終結(jié)果,而是結(jié)合ROI評(píng)分與SVM評(píng)分來為分類結(jié)果重新評(píng)分,并以此作為最終的分類結(jié)果。
圖1 圖像分割為ROI與背景區(qū)域示例
金字塔匹配的基本思想是把無序的特征集映射到高分辨率的空間進(jìn)行匹配。當(dāng)分辨率一定時(shí),落入同一個(gè)網(wǎng)格中的兩個(gè)點(diǎn)就稱之為匹配。
假設(shè)存在兩個(gè)特征集合X、Y,其中每個(gè)特征的維度是d,將特征空間劃分為不同的尺度0,1,2,…,L,以尺度l來劃分特征空間每一個(gè)維度,則d維的特征空間可以劃分出D=2dl個(gè)網(wǎng)格。和分別表示X、Y在劃分尺度為l時(shí)的直方圖特征,和分別表示特征集X、Y中落到第i個(gè)網(wǎng)格中點(diǎn)的個(gè)數(shù)。那么尺度為l時(shí)匹配點(diǎn)的總數(shù)計(jì)算公式為:
支持向量機(jī)是目前圖像分類領(lǐng)域的主流分類方法,其基本原理是:線性可分的情況下,直接尋找其最優(yōu)的分類超平面,并使得分類的間隙最大;而在線性不可分的情況下,通過使用核函數(shù)將輸入空間變換到高維空間,然后尋找最優(yōu)的分類超平面,達(dá)到精確分類的目的。
在線性可分的情況下,(xi,yi),i=1,2,…,n是線性樣本集里面的點(diǎn),分類函數(shù)是f(x)=wx+b,支持向量機(jī)等價(jià)的數(shù)學(xué)形式是:
引入拉格朗日算子αi,分類閾值為b*,可得最優(yōu)分類函數(shù)是:
在線性不可分的情況下將點(diǎn)積替換為內(nèi)積K(xi,x′),最優(yōu)分類函數(shù)是:
本文中支持向量機(jī)采用的核函數(shù)是χ2核(卡方核),其數(shù)學(xué)形式為:
所提算法的流程圖如圖2所示。
圖2 算法流程圖
ROI的提取是指將給定圖像中描述的主要對(duì)象從圖像中分離出來的過程,本文提取ROI的檢測(cè)器是基于DPM模型。輸入一幅原始圖片時(shí),先提取DPM特征得到模型,然后采用滑動(dòng)窗口的檢測(cè)方式,對(duì)原始圖片構(gòu)建尺度金字塔并進(jìn)行多尺度搜索。子窗口區(qū)域特征與待匹配模型的相似程度用響應(yīng)評(píng)分來描述,相似度越高,所得響應(yīng)評(píng)分越高。在尺度為l0的層,以(x0,y0)為錨點(diǎn)(子窗口區(qū)域最左上角的點(diǎn))的響應(yīng)評(píng)分公式如下:
其中R0,l0(x0,y0)表示根模型的響應(yīng)評(píng)分,由根模型與錨點(diǎn)所在的子區(qū)域的特征進(jìn)行卷積操作所得;Di,l0-λ(2(x0,y0)+vi)表示第i個(gè)部件模型的響應(yīng)評(píng)分,同樣由卷積操作所得;b是為了使各個(gè)部件模型對(duì)齊而設(shè)置的偏移量。部件模型的響應(yīng)評(píng)分詳細(xì)公式如下:
(x,y)為部件模型i在尺度層l的理想位置,(dx,dy)表示相對(duì)(x,y)的偏移量,Ri,l(x+dx,y+dy)表示部件模型在(x+dx,y+dy)處的響應(yīng)評(píng)分,di?φd(dx,dy)表示偏移(dx,dy)損失的評(píng)分。
由于大多數(shù)先進(jìn)的檢測(cè)器都提供非極大值抑制后的邊界框,實(shí)驗(yàn)中選擇評(píng)分最高的邊界框作為ROI,該評(píng)分被用作為ROI評(píng)分;圖3展示的是所采用的檢測(cè)器提供的評(píng)分最高的邊界框示例,圖4展示的是圖3對(duì)應(yīng)的評(píng)分映射及評(píng)分尺度,越亮的區(qū)域響應(yīng)評(píng)分越高。
另外還可以將檢測(cè)到的ROI邊界框進(jìn)行變換,比如把邊界框放大1.1倍,同時(shí)保持邊界框的中心不變,在一定程度上會(huì)提高分類性能。文獻(xiàn)[11]的結(jié)果說明了這一操作的有效性。
圖3 評(píng)分最高的邊界框示例
圖4 邊界框?qū)?yīng)的評(píng)分映射及尺度
在實(shí)際的圖像分類過程中,常常會(huì)有不同大小的圖像存在。如果使用圖像尺度歸一化的方式來處理不同大小圖像,會(huì)導(dǎo)致圖像信息的丟失,對(duì)分類結(jié)果的影響較大。使用空間金字塔池化可以有效解決這些問題。
空間金字塔池化是指使用多個(gè)不同大小的分割方式來進(jìn)行池化操作,從而保證輸出固定的特征向量,以此來實(shí)現(xiàn)任意大小的圖像的輸入。傳統(tǒng)的池化操作有最大池化和平均池化,這兩種池化方法有其相應(yīng)的缺點(diǎn)。最大池化選取池化區(qū)域內(nèi)的最大值作為池化輸出,這樣會(huì)忽略掉許多圖像信息,導(dǎo)致結(jié)果過擬合。而平均池化選取池化區(qū)域內(nèi)的平均值作為池化輸出,如果區(qū)域內(nèi)的值分布不均勻,會(huì)使得結(jié)果的誤差增大。當(dāng)相鄰的池化區(qū)域之間有重疊時(shí),稱這種池化操作為重疊池化。也就是說,池化單元網(wǎng)格是以m個(gè)像素為步長移動(dòng),對(duì)大小為n×n的區(qū)域進(jìn)行池化操作,當(dāng)m=n時(shí),是傳統(tǒng)的池化操作;當(dāng)m<n時(shí),是重疊池化操作。本文的空間金字塔池化策略就是重疊池化。
SPM算法將圖像分割為愈加精細(xì)的空間網(wǎng)格并計(jì)算每個(gè)子網(wǎng)格的視覺詞典的直方圖。一般來說,金字塔的等級(jí)是l=0,1,2此時(shí)圖像被分割為2l×2l網(wǎng)格。本文將圖像分割為ROI和背景區(qū)域,將這兩個(gè)區(qū)域的視覺詞典分別池化。在ROI中,使用級(jí)別為0和1的標(biāo)準(zhǔn)空間金字塔;由于背景為不同類別提供上下文信息,這里使用1×1和3×1的方式分割圖像,SPM將圖像各個(gè)分層的子網(wǎng)格的直方圖特征鏈接起來構(gòu)成一個(gè)大的特征向量來作為分類的依據(jù)。
線性支持向量機(jī)訓(xùn)練速度非???,在處理圖像分類問題時(shí)通過選取不同的核函數(shù)來應(yīng)對(duì)不同的分類需要,有許多優(yōu)勢(shì)。人們一貫認(rèn)為χ2核在應(yīng)用中具有非常好的性能,并在實(shí)際中得到了廣泛的應(yīng)用。在實(shí)驗(yàn)中獲得樣本之后,使用具有非線性χ2核的線性支持向量機(jī)進(jìn)行訓(xùn)練,得到相應(yīng)模型和算法提供的分類評(píng)分。為了取得平衡,通過齊次核映射計(jì)算一個(gè)χ2核的線性逼近,估計(jì)顯性特征映射來逼近齊次加性核。
雖然SVM訓(xùn)練之后可以得到分類模型,并且可以用該模型進(jìn)行圖像分類的相關(guān)工作,但是為了獲得更好的分類性能,在實(shí)驗(yàn)中結(jié)合使用ROI評(píng)分和SVM評(píng)分去為分類結(jié)果重新評(píng)分,以此作為最終的分類結(jié)果,并用公式(9)所示的Platt[12]方法對(duì)評(píng)分進(jìn)行曲線擬合。
其中si是圖像i的評(píng)分,pi是概率。常數(shù)A和B是可以用最大似然估計(jì)法估得的參數(shù)。一幅屬于某個(gè)目標(biāo)類別的圖像的最終得分由ROI評(píng)分和SVM評(píng)分轉(zhuǎn)化為概率后的乘積所得。
本次實(shí)驗(yàn)選擇的數(shù)據(jù)集是Pascal VOC 2007。該數(shù)據(jù)集共有9 963幅圖像,包含了20個(gè)不同目標(biāo)類別,且有些圖像包含于多個(gè)類別中。具體類別分別是飛機(jī)、自行車、鳥、船、瓶子、巴士、汽車、貓、椅子、奶牛、餐桌、狗、馬、摩托車、人、植物、綿羊、沙發(fā)、火車、電視等。圖5展示了一些來自此數(shù)據(jù)集的圖像示例。在實(shí)驗(yàn)中,隨機(jī)挑選該數(shù)據(jù)集中每個(gè)類別圖像的50%作為訓(xùn)練集,剩下的50%作為測(cè)試集,里面分別包含5 011和4 952幅圖像。通過6次實(shí)驗(yàn),為這20個(gè)類別分別計(jì)算其平均準(zhǔn)確度(Average Precision,AP)和平均準(zhǔn)確度均值(mean Average Precision,mAP),并以此來作為評(píng)價(jià)分類結(jié)果的標(biāo)準(zhǔn)。
基準(zhǔn)由采用標(biāo)準(zhǔn)SPM算法的 VLFeat[13]工具箱提供。它提取稠密 SIFT特征,通過矢量量化生成視覺詞典。所有實(shí)驗(yàn)是在4個(gè)大小分別為8×8、12×12、16×16、20×20的塊且步長為5個(gè)像素的網(wǎng)格中提取128維的SIFT描述符;然后通過k-均值聚類方法生成視覺詞袋,這里的k值就是詞袋的大小。對(duì)100 000個(gè)樣本進(jìn)行聚類并獲得1 000個(gè)視覺詞袋。然后進(jìn)行線性SVM訓(xùn)練,其核是一個(gè)χ2核的線性逼近,得到分類模型及SVM評(píng)分,懲罰因子C是通過交叉驗(yàn)證從1~10中選出。通過多次實(shí)驗(yàn)取平均值,來作為實(shí)驗(yàn)最終結(jié)果。
圖5 Pascal VOC 2007圖像集上的一些例子
為驗(yàn)證所提方法的有效性,設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn)進(jìn)行說明:與基準(zhǔn)分類器對(duì)比、與其他算法對(duì)比。并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
4.2.1 與基準(zhǔn)分類器對(duì)比
從以下六個(gè)方面進(jìn)行對(duì)比實(shí)驗(yàn):
(1)基準(zhǔn),對(duì)輸入圖像直接使用標(biāo)準(zhǔn)的SPM算法進(jìn)行分類。
(2)ROI評(píng)分,使用檢測(cè)器對(duì)圖像提取ROI并獲得相應(yīng)ROI評(píng)分,然后僅用ROI評(píng)分來進(jìn)行分類。
(3)ROI信息,根據(jù)ROI所包括的目標(biāo)主體來將圖像分類。
(4)基準(zhǔn)+ROI評(píng)分,使用檢測(cè)器提供的ROI評(píng)分為基準(zhǔn)分類結(jié)果重評(píng)分。
(5)基準(zhǔn)+ROI評(píng)分+SVM評(píng)分,在(4)的基礎(chǔ)上結(jié)合SVM評(píng)分為基準(zhǔn)分類結(jié)果重評(píng)分,即是本文所提方法。
(6)Ground Truth,使用數(shù)據(jù)集中經(jīng)人工標(biāo)記好了的區(qū)域作為ROI,這可以視為檢測(cè)器檢測(cè)的ROI準(zhǔn)確率為100%的理想情況。
實(shí)驗(yàn)結(jié)果如表1所示,表中記錄了在不同方面進(jìn)行實(shí)驗(yàn)時(shí),對(duì)數(shù)據(jù)集中各個(gè)類別分類的平均準(zhǔn)確度及平均準(zhǔn)確度均值。為了描述方便,將基準(zhǔn)所在的列描述為第一列。前兩列分別給出了使用基準(zhǔn)分類器和ROI評(píng)分的分類性能,得到的平均準(zhǔn)確度均值都較差。在某些類別里面,只有其中一個(gè)表現(xiàn)出色,并且結(jié)果差距可能很大。例如,在自行車和瓶子這兩類中,使用ROI評(píng)分的準(zhǔn)確度比使用基準(zhǔn)分類器高出約20%;而在對(duì)船、鳥和飛機(jī)等的分類中,使用基準(zhǔn)分類器比使用ROI評(píng)分有顯著的優(yōu)勢(shì)。這保證了基準(zhǔn)分類器和ROI評(píng)分的結(jié)合可以得到更優(yōu)越的性能。
表1 與基準(zhǔn)分類器對(duì)比結(jié)果%
與基準(zhǔn)分類器對(duì)比,從第三列可以看出,單獨(dú)使用ROI信息會(huì)對(duì)分類準(zhǔn)確率有相當(dāng)大的提升,這是因?yàn)镽OI信息中已經(jīng)包括了圖像目標(biāo)主體的信息,對(duì)于圖像所屬的類別有了大致的方向,所以在據(jù)此分類時(shí),分類性能會(huì)有所提升。而第四列可以看出,使用ROI評(píng)分為基準(zhǔn)分類器重評(píng)分的方式能夠提升所有圖像類別的分類性能,并且平均準(zhǔn)確度均值提高了10%。第五列所示結(jié)果即為本文所提方法,在第四列實(shí)驗(yàn)的基礎(chǔ)上結(jié)合使用SVM評(píng)分為分類結(jié)果重評(píng)分??梢钥吹皆谶@20個(gè)圖像類別中有17個(gè)類別的平均準(zhǔn)確度得到進(jìn)一步提升,并且所得平均準(zhǔn)確度均值的提高將超過12%,這充分說明結(jié)合使用目標(biāo)檢測(cè)與空間金字塔分類方法可以在圖像分類過程中利用更多的圖像特征信息,從而得到更準(zhǔn)確的分類結(jié)果。如第六列所示,使用數(shù)據(jù)集中已經(jīng)進(jìn)行過準(zhǔn)確的人工標(biāo)記的ROI進(jìn)行實(shí)驗(yàn)對(duì)比,這種理想情況會(huì)得到比前幾種方法更好的分類性能。
4.2.2 與其他算法對(duì)比
選取的對(duì)比算法都是在Pascal VOC 2007數(shù)據(jù)集上取得不錯(cuò)效果的三種圖像分類算法,并且都是以平均準(zhǔn)確度和平均準(zhǔn)確度均值作為評(píng)判分類結(jié)果優(yōu)劣的標(biāo)準(zhǔn)。這幾種算法的作者和所用方法分別是:
(1)Harzallah[14],使用滑動(dòng)窗口目標(biāo)定位。
(2)Wang[15],使用 LLC(Locality-constrained Linear Coding)編碼。(3)Sande[16],使用基于顏色描述的特征提取方法。對(duì)比結(jié)果如表2所示??梢钥闯霰疚姆椒ǐ@得的平均準(zhǔn)確度均值最高,相比第二名有1.3%的提升,并且在超過一半的圖像類別中獲得了最高的平均準(zhǔn)確度。此外,在自行車、瓶子和電視等類別中獲得了一個(gè)顯著高于第二名的平均準(zhǔn)確度,顯示了本文方法的優(yōu)越性。
表2 與三種算法對(duì)比結(jié)果 %
本文提出了一種基于興趣域檢測(cè)的空間金字塔匹配方法,使用檢測(cè)器去提取興趣域,把圖像分割成ROI與背景區(qū)域,對(duì)這兩個(gè)區(qū)域分別使用SPM算法構(gòu)建空間直方圖,結(jié)合ROI評(píng)分與SVM評(píng)分去重新評(píng)定分類結(jié)果。在Pascal VOC 2007圖像集上的實(shí)驗(yàn)表明,本文提出的方法能夠提高分類準(zhǔn)確率,并具有一定的優(yōu)越性。下一步將探索更多的方法來提取ROI,并結(jié)合分布式的平臺(tái)來提高實(shí)驗(yàn)效率和分類準(zhǔn)確率。
[1]丁祖萍,劉坤,王成.一種基于顏色和紋理的顯著性目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(19):192-195.
[2]Felzenszwalb P F,Girshick R B,McAllester D,et al.Object detection with discriminatively trained part based models[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2010,32(9):1627-1645.
[3]程廣濤,陳雪,郭照莊.基于HOG特征的行人視覺檢測(cè)方法[J].傳感器與微系統(tǒng),2011,30(7):68-70.
[4]Deselaers T,Pimenidis L,Nry H.Bag-of-visual words model for adult image classification and filtering[C]//The 19th International Conference on Pattern Recognition.Washington DC,USA:IEEE Press,2008:1-4.
[5]Lazebnik S,Schmid C,Ponce J.Beyond bags of features spatial pyramid matching for recognizing natural scene categories[C]//IEEE Conference on Computer Vision and Pattern Recognition,2006:2169-2178.
[6]熊聰,王文武.基于DPM模型的行人檢測(cè)技術(shù)的研究[J].電子設(shè)計(jì)工程,2014(23):172-173.
[7]陳芝垚.基于DPM的行人檢測(cè)和行人特征提取算法研究[D].成都:電子科技大學(xué),2016
[8]Yang J,Yu K,Gong Y,et al.Linear spatial pyramid matching using sparse coding for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Miami,USA:IEEE Press,2009,1794-1801.
[9]亓?xí)哉?,王慶.一種基于稀疏編碼的多核學(xué)習(xí)圖像分類方法[J].電子學(xué)報(bào),2012,40(4):773-779.
[10]Brett M,Anton J,Valabregue R,et al.Region of interest analysis using an SPM toolbox[J].Neuroimage,2002,16(2):201-217.
[11]Uijlings J R,Smeulders A W M,Scha R J H.What is the spatial extent of an object?[C]//IEEE Conference on Computer Vision and Pattern Recognition.Miami,USA:IEEE Press,2009:770-777.
[12]Platt J C.Probabilistic outputs for support vector machines and comparisons to regularized likehood method[J].Advances in Large Margin Classifiers,2000,10:61-74.
[13]Vedaldi A,F(xiàn)ulkerson B.VLFeat:An open and portable library of computer vision algorithm[C]//International Conference on Multimedea.Firenze,Italy:DBLP Press,2010:1469-1472.
[14]Harzallah H,Jurie F,Schmid C.Combing efficient object localization and image classification[C]//IEEE International Conference on Computer Vision,2010,30(2):237-244.
[15]Wang J,Yang J,Yu K,et al.Locality-constrained linearcoding for image classification[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010,119(5):3360-3367.
[16]Koea Sande V D,Gevers T,Snoek C.Evaluating color descriptors for object and scene recognition[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2010,32(9):1582-1596.