史 靜,朱 虹
(西安理工大學自動化與信息工程學院,陜西西安710048)
近些年來,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上每天都涌現(xiàn)出大量的圖像和視頻資料,我們可以充分利用網(wǎng)絡(luò)資源豐富我們的生活,但隨之而來的問題就是,如何更好地分類、管理這些資源。
目前,由于網(wǎng)絡(luò)的歸類整理方式和能力有限,加之大量圖像的文字標注有誤差,使得利用文字注釋進行圖像分類整理方法不再具有優(yōu)勢。由此,依據(jù)圖像內(nèi)容進行分類的算法逐漸發(fā)展起來,并成為機器視覺領(lǐng)域中一個重要的研究內(nèi)容[1-3],其應(yīng)用領(lǐng)域涉及到基于內(nèi)容的圖像檢索[4]、目標檢測[2]、視頻摘要[5]、視頻內(nèi)容分析[6],特別是機器人服務(wù)[7],例如機器人路徑規(guī)劃和機器人管家等等。
早期的圖像分類,主要通過描述圖像底層特征[8]信息來表征圖像的視覺感知屬性,進行場景分類,之后映射到高層語義進行分類。文獻[9]將圖像表示為一個尺度不變的響應(yīng)映射,通過提取的底層特征進行聚類,構(gòu)成“視覺詞袋”來表征圖像的語義信息[10-11],最終反映圖像的類別信息。
然而,由于場景中的事物數(shù)量和種類繁多,同類場景之間類內(nèi)變化較為豐富,以及不同類場景之間差異較小,造成了使用功能的差異,這些影響降低了其分類的準確度。
見圖1,圖1(a)為同一類的兩幅不同圖像,然而,類內(nèi)的出現(xiàn)目標、聚集區(qū)域以及姿態(tài)和外形都有著相當大的差異。圖1(b)~(d)中的三幅圖像分別屬于三個不同的類,但卻在視覺上非常相似。因此,對于一個高性能的分類系統(tǒng)來說,應(yīng)該能夠處理具有細微視覺差異的圖像類別。
圖1 類內(nèi)差異及類間相似圖像對比Fig.1 Images comparison of intra-class differences and extra-class similarity
針對上述問題,本文提出了一種新的基于上下文信息的自適應(yīng)場景分類算法,通過對圖像的上下文信息進行優(yōu)先檢測,彌補了將圖像中的事物割裂開來并硬分割組合的缺點。同時,利用提取的上下文信息對圖像的多尺度多方向特征進行優(yōu)化,進一步有效地提高了分類算法的效率和精度。
本文算法中為了充分利用圖像在不同尺度方向下的頻域特征,首先對圖像進行Gabor變換[10],之后,分別提取各尺度方向下Gabor變換圖像的顯著性區(qū)域。接著,對不同尺度方向下的Gabor變換圖像提取細節(jié)紋理特征,并利用同尺度方向下顯著性檢測的結(jié)果,對這些特征進行加權(quán)融合,并得到加權(quán)后紋理特征的累計直方圖。最后,送入到SVM中進行訓練。由于部分數(shù)據(jù)集中的圖像大小不一,所以,在訓練和測試之前需要將圖像尺寸歸一化。
Gabor變換是Gabor等提出的一種時間-頻率分析方法。其對信號的處理近似于人眼,能夠很好地提取目標物的局部空間和頻域信息,特別是對于圖像的邊緣信息,具有良好的方向和尺度選擇特性,且對于光照信息不敏感。鑒于以上原因,本文根據(jù)Gabor變換特殊性質(zhì),在其變換域的的不同尺度和方向上提取主要關(guān)聯(lián)特征,在這里我們進行5個尺度和8個方向的Gabor變換,即一幅圖像共得到40個變換結(jié)果圖。見圖2,由于變換結(jié)果圖較多,僅顯示Gabor變換的部分結(jié)果圖。
圖2 Gabor變換示意圖Fig.2 Gabor transformation images
由人眼的視覺感知特性可知,人們對場景的認知通常是依據(jù)場景中的某些事物,比如如臥室中的床、教室中的桌椅等,而對于場景的判別問題,目標物的檢測就尤為重要。
早期的顯著性檢測算法主要集中在對目標物輪廓信息的描述,并沒有對目標物存在的區(qū)域顯著性進行判別,且只注重目標物本身的提取,沒有關(guān)注目標物之間的相互關(guān)聯(lián),因此存在局限性,況且簡單的目標物檢測及組合,并不能準確表征圖像場景所反映的內(nèi)容。
鑒于以上原因,根據(jù)Goferman[12]的思想,所提取的顯著性區(qū)域,不但與周圍鄰近區(qū)域具有明顯差異,而且與圖像整體也具有明顯的差異,充分考慮了圖像中上下文之間的語義關(guān)系。通常情況下,圖像塊之間的顏色差異越大,距離越近,則顯著性越強。在提取場景圖像顯著性區(qū)域的基礎(chǔ)上,注重顯著目標之間的上下文關(guān)系。
圖3為部分圖像及其進行顯著性檢測后的結(jié)果。通過圖3可以看出,結(jié)果圖像能夠充分地反映場景中的事物,并對周圍環(huán)境進行了一定程度地描述。
圖3 部分圖像及其進行顯著性檢測后的結(jié)果Fig.3 Partial images and the results from sensitive information detected
本文利用經(jīng)典的LBP(Local Binary Pattern,局部二值模式)算法[13],它是由Ojala等人提出的,能夠很好地描述圖像的細節(jié)特征,對于圖像中的旋轉(zhuǎn)和灰度變化有著較強的魯棒性。計算公式如下:
(1)
(2)
式中:gc代表模板中的中心像素值,gn代表模板中與中心像素相鄰的像素值,N為模板中像素點的個數(shù),s(x)為紋理元。
見圖4,由3×3模板所覆蓋的區(qū)域,將區(qū)域中的周圍像素與中心像素進行比較,所得的結(jié)果表示成8位二進制碼,將這8為二進制碼轉(zhuǎn)為十進制,即為該模板中心像素的LBP值。通過該算法,將圖像中的所有像素點映射到0~255的范圍內(nèi)。
圖4 LBP特征提取示意圖Fig.4 LBP feature extraction images
圖5為對圖2的Gabor變換結(jié)果提取LBP特征后的部分結(jié)果。從結(jié)果圖中可以看出,LBP特征可以從不同尺度方向Gabor變換中提取更多的細節(jié)紋理特征,且表示更加清晰。
將每幅訓練圖像Gabor變換得到的40幅變換圖像,進行顯著性檢測,同時提取LBP特征,在同一尺度方向下利用顯著性檢測圖對LBP特征提取圖進行加權(quán),權(quán)值通過Sigmoid函數(shù)[14]映射得到。Sigmoid函數(shù)為S型函數(shù),也稱為S型生長曲線,有著單增以及反函數(shù)單增等性質(zhì),常被用作神經(jīng)網(wǎng)絡(luò)的閾值函數(shù),將變量映射到0~1之間。計算公式如下:
(3)
式中:w為顯著度值,αw為Sigmoid函數(shù)映射后的權(quán)值。下式為利用Sigmoid函數(shù)映射結(jié)果對LBP特征進行加權(quán)的公式:
LBPweight=αw·LBPnew
(4)
其中,LBPweight為加權(quán)后的LBP特征。
圖5 Gabor變換提取LBP特征部分結(jié)果Fig.5 The partial results of Gabor transform extracts LBP feature
對所有加權(quán)后的LBP圖像求取累計直方圖,生成256維特征向量,將所有尺度方向下的特征向量進行串聯(lián),即每幅圖像轉(zhuǎn)為256×40=10 240維特征向量。如此高維的特征向量,無論對于紋理的提取、表達都是不利的,數(shù)據(jù)量過大,導致直方圖過于稀疏,而且還會影響后期事物紋理的識別、分類及信息的存取,大大降低了算法的效率。因此,需要對加權(quán)后的LBP特征向量進行降維,使其在數(shù)據(jù)量減少的情況下,能夠很好地保留原始數(shù)據(jù)的特征信息,本文利用Ojala提出的均勻模式LBP(Uniform Pattern LBP)進行降維。
經(jīng)過統(tǒng)計,均勻模式LBP在整個的LBP特征中占85%~90%,而其他模式只占很少的一部分,因此,對于3×3的鄰域,將LBP特征值分為59類,58個均勻模式為一類,其它所有值為第59類,直方圖從原來的256維變成59維。最后,將每幅訓練圖像融合后的59×40=2 360維特征作為訓練特征,送入到SVM中進行訓練。
在3個公共標準圖像集上評價本文算法,分別為8類自然場景圖像集[15]、8類運動場景圖像集[16]及15類場景圖像集[15,17-18]。為準確評價本文算法與同類文獻的實驗結(jié)果,應(yīng)用同樣的訓練和測試數(shù)據(jù)比例。
1) 8類自然場景圖像集(OT):該數(shù)據(jù)集共包含8類2 688幅大小均為256×256的自然場景圖像。見圖6(a),有海灘、高樓等。每個類別利用200幅訓練,其余用來測試。
圖6 各數(shù)據(jù)集部分圖像Fig.6 Partial images of each datasets
2) 8類運動場景圖像集(SE):該數(shù)據(jù)集共包含8類1 579幅運動場景圖像。其中包括賽艇、滑板滑雪、攀巖等,見圖6(b)。每個類別利用70幅訓練,60幅用來測試。
3) 15類場景圖像集(LS):該圖像集總共4 485幅圖像,分為15類,包括室外以及室內(nèi)場景,見圖6(c)。每類利用100幅圖像訓練,其余用來測試。
在測試過程中,將測試圖像通過上述步驟得到2 360維特征向量,送入到已訓練好的SVM分類器中測試。
為了比較添加了顯著性算法與未添加該算法對本文實驗結(jié)果的影響,本文按照同樣的實驗數(shù)據(jù)劃分比例,對有無顯著性算法的實驗結(jié)果進行比較測試。表1為5次測試結(jié)果的平均值。
表1 有無顯著性檢測算法的分類準確率比較Tab.1 The classification accuracy with and without containing saliency detection algorithm
通過表1可以看出,在三個圖像集中,OT數(shù)據(jù)集的分類效果最好,一方面由于分類的數(shù)目較少,室外場景中目標物之間的上下文關(guān)系較為單一,變化較少,另一方面同類場景中目標物的紋理結(jié)構(gòu)較為類似,因此分類難度較小,而SE和LS數(shù)據(jù)集場景中目標物相對比較復雜,特別是LS數(shù)據(jù)集中還包括一些室內(nèi)場景,因此分類準確率較低。
增加了顯著性算法后,分類準確率相比較沒有顯著性算法的結(jié)果有了略微的提升,說明該算法具有一定的有效性,特別是對于SE數(shù)據(jù)集,提升的幅度相對較大,主要是由于該數(shù)據(jù)集為運動場景數(shù)據(jù)集,顯著性區(qū)域較為明顯且集中,而另外兩個數(shù)據(jù)集所包含的場景顯著性檢測所捕獲的上下文關(guān)系不夠明顯,顯著區(qū)域較為分散,因此,利用該算法所提升的性能有限。
將本文提出的算法在3個公共圖像集上與同類算法的分類正確率進行比較,結(jié)果見表2。
表2 分類正確率的比較測試實驗結(jié)果Tab.2 Comparison test results of scene classification accuracy
從表2中可以看出,本文算法較對比文獻算法整體占優(yōu),文獻[7]利用核稀疏表達(KSR),其為圖像在高維空間中的稀疏編碼技術(shù)去分類場景和人臉。文獻[13]提出了多尺度完備局部二值模式(MS-CLBP)描述子,在多個分辨率下表征占主要地位的紋理特征。文獻[19]利用擴展譜回歸和詞袋特征對圖像進行分類。本文的方法不需要建立復雜的主題模型,只需提取圖像的多尺度方向紋理特征,并利用顯著性區(qū)域檢測對特征進行增強。
本文提出了一種有效的場景圖像分類方法,通過提取圖像的顯著性區(qū)域和多尺度多方向上的細節(jié)紋理特征,并利用顯著性檢測算法對特征進行加權(quán)融合。之后,根據(jù)均勻模式對加權(quán)后的LBP特征向量進行降維。最后,訓練SVM分類器,并進行分類判別。該方法不僅充分考慮了人眼對視覺信號的敏感程度,而且彌補了單尺度單方向特征對于整體圖像描述不足的缺陷。