李詠豪
摘 要:傳統(tǒng)詞袋模型易受視角、尺度和背景等因素干擾。本文對(duì)傳統(tǒng)詞袋模型進(jìn)行了改進(jìn),提出一種基于角點(diǎn)檢測(cè)和圖論的感興趣區(qū)域提取方法,以及結(jié)合高斯模糊隸屬度函數(shù)選取視覺(jué)單詞。首先,對(duì)圖像進(jìn)行角點(diǎn)檢測(cè),利用圖論的方法劃定ROI區(qū)域,然后對(duì)得到的ROI區(qū)域進(jìn)行SIFT特征的提取并生成視覺(jué)詞典,從而減少背景信息的影響。其次,引入高斯模糊隸屬度函數(shù)改進(jìn)圖像視覺(jué)直方圖的表示。在Caltech 100數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法相較于傳統(tǒng)詞袋模型,分類(lèi)準(zhǔn)確度提升了3%。
關(guān)鍵詞: 詞袋模型;角點(diǎn)提取;圖論;高斯模糊隸屬度函數(shù)
文章編號(hào): 2095-2163(2019)03-0097-04?中圖分類(lèi)號(hào): TP391.41?文獻(xiàn)標(biāo)志碼: A
0?引?言
在計(jì)算機(jī)視覺(jué)領(lǐng)域中,圖像分類(lèi)是基礎(chǔ)問(wèn)題之一,被廣泛應(yīng)用于視頻監(jiān)控和圖像分析等方面。圖像分類(lèi)中常用的方法是詞袋模型[1-3]。詞袋模型可以分為以下3個(gè)步驟:
(1)特征提取。利用SIFT算法[4]生成128維的特征描述子,這些描述子具有尺度、光照等的不變性。
(2)構(gòu)造視覺(jué)詞典。利用k-means聚類(lèi)算法對(duì)SIFT描述子進(jìn)行聚類(lèi),得到視覺(jué)單詞,進(jìn)一步構(gòu)建視覺(jué)詞典。
(3)利用支持向量機(jī)(SVM)完成分類(lèi)。
詞袋模型的分類(lèi)效果易受視角、尺度、背景等因素干擾。針對(duì)這些問(wèn)題,目前提出不少對(duì)于詞袋模型的改進(jìn)算法。Wang等人[5]提出空間金字塔匹配模型;Philbin等人[6]提出一種軟分配的視覺(jué)詞匯統(tǒng)計(jì)直方圖的構(gòu)建方法。同時(shí),人類(lèi)在識(shí)別圖像時(shí),往往只是對(duì)某一區(qū)域感興趣,而不是整幅圖像。研究時(shí),就可以通過(guò)對(duì)ROI(感興趣區(qū)域)進(jìn)行特征提取,從而減少非感興趣區(qū)域特征點(diǎn)的干擾。因此,本文通過(guò)對(duì)原圖像進(jìn)行角點(diǎn)檢測(cè),結(jié)合圖論方法,確定ROI,然后對(duì)ROI進(jìn)行SIFT特征點(diǎn)提取,這樣可以使提取的SIFT特征描述子集中在物體上,排除背景上的干擾點(diǎn)。另外,在視覺(jué)詞匯直方圖生成過(guò)程中,本文引入模糊隸屬度函數(shù)來(lái)提高分類(lèi)準(zhǔn)確率。對(duì)此可做研究闡述如下。
1?ROI區(qū)域定位
傳統(tǒng)詞袋模型是對(duì)整幅圖像提取特征,如此一來(lái),位于背景上的特征點(diǎn)也被提取出來(lái),這將對(duì)視覺(jué)詞典直方圖產(chǎn)生一定影響。因此,本文采用角點(diǎn)和圖論相結(jié)合的方法來(lái)減少背景特征點(diǎn)的影響。這里擬將探討分述如下 。
1.1?角點(diǎn)提取
Shi等人[7]提出用于追蹤的Shi-Tomasi角點(diǎn)特征,在視頻跟蹤領(lǐng)域有較好的效果。本文將Shi-Tomasi角點(diǎn)特征引入到圖像分類(lèi)中,和圖論方法相結(jié)合,用于定位ROI區(qū)域。角點(diǎn)屬于圖像中的局部特征點(diǎn),角點(diǎn)處的一階導(dǎo)數(shù)為局部最大,并且圖像的灰度值在水平與垂直方向上有一定變化。設(shè)圖像在像素點(diǎn)(x,y)處的灰度值為I(x,y),以該點(diǎn)為中心構(gòu)建一大小為n*n的窗口M,窗口平移(x,y)后的灰度變化如下:
矩陣D可以用來(lái)判定像素點(diǎn)是否為角點(diǎn)。設(shè)λ1和λ2是矩陣D的特征值,如果λ1>λ2,并且λ2>kλ2max(λ2max表示任意像素點(diǎn)較小特征值的最大值,本文設(shè)k值為0.05),則可判定此像素點(diǎn)為角點(diǎn)。圖1列出提取角點(diǎn)的實(shí)例。
1.2?圖論方法
本文利用圖論[8]思想,對(duì)提取的角點(diǎn)構(gòu)建無(wú)向圖,根據(jù)各角點(diǎn)的連續(xù),去除關(guān)聯(lián)度低的角點(diǎn)。這里,圖G表示為G(V,E),其中V表示圖中的頂點(diǎn),E表示圖中各個(gè)點(diǎn)間的聯(lián)系。研究中將1.1節(jié)中提取的角點(diǎn)作為圖的頂點(diǎn),然后通過(guò)式(3)構(gòu)造無(wú)向圖M,即:
本文結(jié)合角點(diǎn)檢測(cè)和圖論來(lái)確定ROI,具體步驟如下。
步驟2?構(gòu)建無(wú)向圖。按式(3)構(gòu)建角點(diǎn)的無(wú)向圖M(i,j),i,j=1,…,n,n表示特征點(diǎn)的數(shù)目。
步驟3?去除關(guān)聯(lián)度小的角點(diǎn)。按式(4)得到關(guān)鍵角點(diǎn)集合V:
步驟4?劃定ROI區(qū)域。根據(jù)步驟3得到關(guān)鍵角點(diǎn)的集合V,更新xmin、xmax、ymin和ymax,劃定ROI區(qū)域。圖2顯示了通過(guò)本文方法確定的ROI。
從圖2可見(jiàn),利用本文方法確定的ROI區(qū)域,可以有效地將前景與背景區(qū)分開(kāi),然后,在ROI提取 SIFT特征描述子和生成視覺(jué)詞典,這樣可以減小背景特征點(diǎn)對(duì)視覺(jué)詞匯的影響。
2?模糊理論的應(yīng)用
傳統(tǒng)詞袋模型在視覺(jué)詞典生成之后,在對(duì)每幅圖像生成直方圖時(shí),是計(jì)算該幅圖像中每一個(gè)特征向量與視覺(jué)詞典中視覺(jué)詞匯的距離,即采用硬分配方法,將其映射到距其最近的視覺(jué)詞匯上面。如圖3所示。圖3中,A、B、C、D是生成的視覺(jué)單詞,1、2、3、4是圖像局部特征。在硬分配方式下,直接將特征1和2量化到詞匯A,特征3和4量化到詞匯B。但從圖3中可以發(fā)現(xiàn),特征1、2、3和4距離視覺(jué)詞匯A和B的距離是不同的,因此,在生成圖像直方圖時(shí)對(duì)于視覺(jué)詞匯的影響也應(yīng)該不同。
其中,f()表示隸屬度函數(shù),本文利用高斯隸屬度函數(shù)來(lái)提高分類(lèi)準(zhǔn)確率,如下式所述:
3?實(shí)驗(yàn)結(jié)果
本文擬在Caltech-101圖像庫(kù)上進(jìn)行實(shí)驗(yàn),該庫(kù)中有從人到動(dòng)物等101種類(lèi)別,共包括有9 146幅圖像,每個(gè)類(lèi)別的圖像數(shù)目從31到800張不等。研究隨機(jī)選擇10種類(lèi)別進(jìn)行實(shí)驗(yàn),包括:airplanes、anchor、ant、brain、ceiling_fan、chair、cup、elephant、face和rooster。每類(lèi)隨機(jī)提取10張作為訓(xùn)練圖像,再隨機(jī)選取10張和20張圖像作為測(cè)試圖像,進(jìn)行10次重復(fù)實(shí)驗(yàn),計(jì)算平均分類(lèi)準(zhǔn)確率。實(shí)驗(yàn)中,視覺(jué)詞典的大小選為300。
本文首先提取ROI區(qū)域,然后再計(jì)算分類(lèi)準(zhǔn)確率,分2組實(shí)驗(yàn),一組用傳統(tǒng)詞袋模型,即對(duì)整幅圖像提取SIFT特征;另一組是在ROI內(nèi)進(jìn)行SIFT特征提取,其中,參數(shù)δ為2。實(shí)驗(yàn)結(jié)果見(jiàn)表1。從表1可以發(fā)現(xiàn),在ROI內(nèi)提取特征,可以有效提高詞袋模型的分類(lèi)精度。
接著,本文計(jì)算高斯隸屬度函數(shù)對(duì)于圖像分類(lèi)精度的影響。在計(jì)算過(guò)程中,考慮高斯隸屬度函數(shù)參數(shù)σ(μ=0)對(duì)于分類(lèi)精度的影響,如圖4所示。從圖4可見(jiàn),當(dāng)σ=[0.3,0.5]時(shí),分類(lèi)準(zhǔn)確度達(dá)到最大值54.9%。進(jìn)一步,本文將ROI區(qū)域定位算法和高斯隸屬度函數(shù)相結(jié)合,對(duì)其進(jìn)行測(cè)試,所得結(jié)果見(jiàn)表2。實(shí)驗(yàn)結(jié)果表明:相對(duì)于傳統(tǒng)詞袋模型,本文算法在分類(lèi)準(zhǔn)確度上大約提高了3%。
4?結(jié)束語(yǔ)
本文提出了角點(diǎn)檢測(cè)和圖論相結(jié)合的ROI定位方法,在一定程度上降低了背景、尺度、角度對(duì)圖像分類(lèi)的影響,使所提取的SIFT特征點(diǎn)集中在物體上,則能生成更具有代表性的視覺(jué)詞匯。同時(shí)引入模糊隸屬度函數(shù),在圖像直方圖表示生成時(shí)融合空間信息,提高圖像的分類(lèi)精度。在Caltech-101數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本算法較傳統(tǒng)詞袋模型算法有更高的分類(lèi)準(zhǔn)確度。
參考文獻(xiàn)
[1]WANG Chong, HUANG Kaiqi. How to use Bag-of-Words model better for image classification[J]. Image and Vision Computing, 2015, 38: 65-74.
[2]?LI Feifei, FERGUS R , PERONA P. Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories[J]. Computer Vision and Image Understanding,2007,106(1):59-70.
[3]?GREGORY G, AlEX H, PIETRO P. Caltech-256 object category dataset [D]. California: California Institute of Technology, 2007.
[4]?EVERINGHAM M, Van GOOL L, WILLIAMS C K, et al. The pascal visual object classes (voc) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[5]?WANG Junqiu,CIPOLLA R,ZHA Hongbin.Vision-based global localization using a visual vocabulary [C]?//Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Barcelona:IEEE,2005: 4230-4235.
[6]?PHILBIN J,CHUM O,ISARD M,et al. Lost in quantization: Improving particular object retrieval in large scale image databases [C]?// IEEE Conference on Computer Vision and Pattern Recognition, 2008( CVPR 2008). Anchorage, AK:IEEE, 2008:1-8.
[7]?SHI J,TOMASI C, Good feature to track[C]?// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Seattle:IEEE Press, 1994: 593-600.
[8]?JIANG Wen, GUO Fei, LIU Zheng. A graph theory method for determination of cryo-EM image focuses[J]. Journal of Structural Biology, 2012, 180(2): 343-351.
[9]?KUMAR M, STOLL N, THUROW K, et al. Fuzzy memberships descriptors for images[J]. IEEE Transactions on Fuzzy Systems, 2016, 24(1): 195-207.