余良琨,黃立勤
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350000)
?
基于深度特征K-平均字典的場(chǎng)景識(shí)別*
余良琨,黃立勤
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350000)
計(jì)算機(jī)視覺中的中級(jí)詞袋模型廣泛采用滑動(dòng)窗口作為圖片的分割方法。然而由滑動(dòng)窗口產(chǎn)生的圖塊充滿隨機(jī)性,部分圖塊并沒有明顯的語義含義,會(huì)給后續(xù)的聚類帶來困難。針對(duì)這個(gè)問題,提出采用似物檢測(cè)取代滑動(dòng)窗口。同時(shí),根據(jù)詞袋模型字典設(shè)計(jì)中關(guān)于字典詞區(qū)別性和代表性的思路,對(duì)K-平均算法進(jìn)行了改進(jìn),并在MIT-67室內(nèi)場(chǎng)景數(shù)據(jù)庫中進(jìn)行了測(cè)試,該方法取得了良好的效果,最好的結(jié)果為76.31。
場(chǎng)景識(shí)別;K-平均算法;深度學(xué)習(xí);詞袋模型;似物檢測(cè)
場(chǎng)景分類早已作為計(jì)算機(jī)視覺中的一項(xiàng)特別工作有著自己獨(dú)到的處理。不同于一般的在圖片中檢測(cè)或識(shí)別一項(xiàng)典型的物體,諸如行人檢測(cè)和人臉識(shí)別,場(chǎng)景分類注重于理解高級(jí)的語義信息,如旅館、海灘。這些信息往往并不能由圖片中的某個(gè)物體或某塊場(chǎng)景單獨(dú)決定,而是由多個(gè)物體和多個(gè)圖塊的聯(lián)合關(guān)系來表征。應(yīng)用場(chǎng)景分類的知識(shí)能夠幫助解決很多計(jì)算機(jī)視覺其他領(lǐng)域的問題,包括語義標(biāo)記[1]、事件監(jiān)測(cè)[2-3],以及圖片信息獲取[4]。
對(duì)于場(chǎng)景識(shí)別而言,圖片的特征描述方式起著十分關(guān)鍵的作用。在早期的工作中[5],圖片的描述是基于邊緣檢測(cè)或者是角點(diǎn)檢測(cè)的局部特征。然而,這類的局部特征描述往往缺乏必要的語義信息而且缺乏魯棒性。因此,這種特征無法良好地表達(dá)整幅圖片的信息;用于分類時(shí),這樣的數(shù)據(jù)往往表達(dá)含糊。而且,采用這種特征描述時(shí),所有的圖塊都具有相同的權(quán)重。然而事實(shí)上,在許多案例中,圖片中往往有許多的圖塊對(duì)最終的場(chǎng)景分類并沒有任何的貢獻(xiàn),就比如室內(nèi)場(chǎng)景中的白墻圖塊,幾乎會(huì)出現(xiàn)在所有的室內(nèi)場(chǎng)景中。參考文獻(xiàn)[6]提出了使用物體檢測(cè)算法監(jiān)測(cè)到的物體作為場(chǎng)景特征來表征場(chǎng)景。這是一個(gè)十分有效的場(chǎng)景描述方式。然而,在實(shí)際中,有太多種類的物體需要手工標(biāo)記并且去訓(xùn)練各自的物體檢測(cè)算法。這無疑會(huì)給人們帶來沉重的手工勞動(dòng)。為了平衡這種塊描述的優(yōu)異特性與沉重手工標(biāo)記之間的矛盾,研究者們提出了基于區(qū)域特征的描述[7],然后,再將詞袋模型(BoW)應(yīng)用于各種歸一化后的區(qū)域特征[8-9]。這樣,給定的圖片就可以表示為這些視覺詞分布的統(tǒng)計(jì),而且,視覺上相似的圖片也會(huì)有著相似的特征詞分布。盡管基于圖塊的BoW方法圖片特征描述相比于基于像素點(diǎn)的低級(jí)特征圖像描述要豐富得多,并且相較于使用單獨(dú)物體檢測(cè)作為場(chǎng)景特征的方法更有效,但是它仍然面臨一些圖塊對(duì)于場(chǎng)景最終分類無意義的問題。
從以上的回顧中不難發(fā)現(xiàn),選擇合適的圖塊/區(qū)并用這些基本元素來構(gòu)建圖片的表達(dá)是非常重要的一環(huán)。同樣,對(duì)于BoW模型而言,還需要一個(gè)能夠良好構(gòu)建視覺字典的方法。Singh[10]提出好的視覺詞典應(yīng)該能夠在刻畫不同類時(shí)有足夠的區(qū)分度,刻畫相同類時(shí)又要能夠充分表達(dá),又可稱之為圖塊的區(qū)別性和代表性。Juneja[11]提出了使用熵-排序的方法來選取有用的圖塊。最近,一些學(xué)者都將場(chǎng)景圖片用滑動(dòng)窗口分割成多個(gè)圖塊[9,12],然后將圖塊通過預(yù)先訓(xùn)練好的Caffe深度學(xué)習(xí)中的VGG-VD模型[13],并在全連接層的第一層取出4 096維的非負(fù)特征再進(jìn)行后續(xù)的字典構(gòu)建的處理。最后進(jìn)行支持向量機(jī)(Support Vector Machine,SVM)分類。盡管這些方法提出了不同的圖塊或是視覺詞的聚類選取方式,但在最初的步驟中卻仍是依賴于一種毫無目的性的圖片分割方式。通過一定間隔相互疊加的滑動(dòng)窗口或者是基于空間金字塔模型(Spatial Pyramid Model,SPM)的層級(jí)式的分割。本文提出采用似物檢測(cè)(Object Proposal)的方式進(jìn)行場(chǎng)景圖片分割。似物檢測(cè)方法已經(jīng)廣泛地用于物體檢測(cè)、目標(biāo)定位、目標(biāo)跟蹤,可以用于發(fā)現(xiàn)潛在的物體區(qū)域,即能夠有效地發(fā)現(xiàn)可能是物體的圖塊,從而在最開始的圖片分割中就能夠準(zhǔn)確地發(fā)現(xiàn)可以更好表達(dá)場(chǎng)景含義的區(qū)域。
本文通過結(jié)合新的圖片似物檢測(cè)的分割方式和基于物體描述的魯棒的深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolution Neural Networks,DCNN)特征來解決場(chǎng)景分類中的問題。這種結(jié)合可以提升最初場(chǎng)景圖片分割步驟中圖塊的語義信息的明確性。如果這個(gè)步驟中各個(gè)圖塊沒有明確的語義信息,無疑會(huì)給后續(xù)的字典聚類帶來很大的含糊性。受文獻(xiàn)[9]的啟發(fā),每個(gè)似物檢測(cè)分割出來的圖片都采用DCNN進(jìn)行特征提取,保證了高質(zhì)量的特征。同時(shí)根據(jù)Singh關(guān)于聚類區(qū)別性和代表性的思路,本文提出了K-平均法(K-Means)的聚類選取方式。因此本文的主要貢獻(xiàn):(1)通過結(jié)合具有語義分割方式和特征表達(dá)豐富的DCNN圖塊描述方式,提出了一種新型的場(chǎng)景圖片的描述方式;(2)提出了一種同時(shí)具有同類代表性和類間區(qū)別性的K-Means聚類字典產(chǎn)生方式,生成了更加具有區(qū)別度的視覺字典。
1.1 似物檢測(cè)
似物檢測(cè)是用基于邊界框或者是圖塊分割的方式生成與類別無關(guān)的潛在物體區(qū)域的方法。每個(gè)邊界框或是圖塊都包含著可能的物體對(duì)象。在最早的圖塊物體屬性的研究中,每個(gè)圖片框都是被一系列特征進(jìn)行聯(lián)合表達(dá)的。這些特征會(huì)被送入訓(xùn)練好的,諸如樸素貝葉斯分類器[14]或是線性SVM分類器[15]來判別該區(qū)域是否是一個(gè)物體區(qū)域。為了更好地定位具有物體屬性的區(qū)域,Ristin[16]等人證明了隨機(jī)抽樣的局部區(qū)塊可以提供上下文信息以估計(jì)物體位置的先驗(yàn)分布。還有另一種方式是通過合并輸入圖像經(jīng)過過分割產(chǎn)生的超像素。本文選用了似物檢測(cè)中的選擇性搜索(Selective Search)[17]方法來實(shí)現(xiàn)場(chǎng)景圖片分割。選擇性搜索結(jié)合了窮舉搜索和物體分割的特點(diǎn)。圖像本質(zhì)上是分層的,并且各個(gè)區(qū)域形成物體存在各種各樣的原因。因此,單個(gè)自下而上分組算法不能捕獲所有可能的物體位置。為了解決這個(gè)問題,選擇性搜索使用一組不同的完備且分層分組策略。這使得選擇性搜索能夠穩(wěn)定、魯棒,并且獨(dú)立于對(duì)象類進(jìn)行似物檢測(cè)。
1.2 K-Means
K-Means是一種聚類算法。其目的是將一組向量分成圍繞公共均值向量聚集的K組。組內(nèi)的數(shù)據(jù)表達(dá)都可以近似為該組公共均值,因此聚類過程也就是尋找能夠最佳量化這些數(shù)據(jù)的建立字典或者是碼表的過程。
已知觀測(cè)集{x1,xn,…,xn},其中每個(gè)觀測(cè)都是一個(gè)d維實(shí)向量,K-Means聚類要把這n個(gè)觀測(cè)劃分到k個(gè)集合中(k≤n),使得組內(nèi)平方和(Within-Cluster Sum of Squares, WCSS)最小。換句話說,它的目標(biāo)是找到使得下式滿足的聚類Si:
(1)
其中μi是Si中所有點(diǎn)的均值。
本文算法中主要的3個(gè)部分是:似物檢測(cè);K-Means聚類并選取生成字典;場(chǎng)景圖片表達(dá)。如圖1所示。
圖1 算法流程圖
2.1 似物檢測(cè)
不同于之前工作中采用的滑動(dòng)窗口,本文采用了似物檢測(cè)中的選擇性搜索。由選擇性搜索產(chǎn)生的圖塊因?yàn)樵椒ㄖ凶⒅匚矬w屬性的選取,而使其相比于滑動(dòng)窗口在語義信息上的表達(dá)更加明確。采用選擇性搜索還帶來了另一個(gè)優(yōu)點(diǎn),可以很明確地限制圖塊的數(shù)量,這樣無疑可以減少后續(xù)處理的復(fù)雜度。當(dāng)使用滑動(dòng)窗口時(shí),因?yàn)榻o定的圖片的長(zhǎng)寬比例不一,卻又有著相同的圖塊分割大小、步進(jìn),因此每個(gè)圖片可能產(chǎn)生不同數(shù)量的圖塊。例如,假定從給定圖片的短邊可以提取出5個(gè)圖塊,長(zhǎng)邊按比例采樣,則可能產(chǎn)生5×6、5×7、5×8的圖塊數(shù)量。因此每個(gè)圖片的圖塊數(shù)根據(jù)圖片自身的長(zhǎng)寬比例而不定。如果采用了選擇性搜索,則可以避免這個(gè)問題。選擇性搜索固定每個(gè)圖片產(chǎn)生的圖塊。這樣不但避免了后續(xù)處理的復(fù)雜性,而且保證了每幅圖片對(duì)于K-Means聚類時(shí)具有相同的權(quán)重。
2.2 K-Means字典生成
2.2.1 K-Means聚類
將選擇性搜索得到的圖塊,輸入caffe深度網(wǎng)絡(luò)的VGG-VD模型,該模型在ImageNet[18]進(jìn)行了預(yù)訓(xùn)練并在ILSVRC-2014[19]上取得了極好的效果。接著在線性修正單元(Rectified Linear Unit,ReLU)的第六層fc6(全連接層的第一層)獲得非負(fù)4 096維度的深度特征,然后將這些特征進(jìn)行K-Means聚類。
2.2.2 選取聚類結(jié)果生成字典
字典視覺詞希望能夠同時(shí)滿足兩個(gè)要求,即區(qū)別性和代表性。區(qū)別性能夠準(zhǔn)確地分別不同類別。代表性又希望該詞有足夠的出現(xiàn)頻率。普通的K-Means聚類可以直接構(gòu)建字典,但是無法實(shí)現(xiàn)這兩個(gè)要求,因此要加入這個(gè)步驟構(gòu)建更加有效的視覺字典。
聚類的結(jié)果中也往往存在對(duì)各個(gè)類的偏向。即某個(gè)聚類結(jié)果中,大多數(shù)樣本都是來自同一個(gè)類中的圖塊。因此這個(gè)聚類中心點(diǎn)就具有與別的類中圖塊深度特征的區(qū)別性。同時(shí),定義同一聚類結(jié)果中滿足一定的同一場(chǎng)景的個(gè)數(shù)要求的樣本量,才可以視為對(duì)該場(chǎng)景具有代表性的字典詞。先限制聚類的代表性,再考慮聚類的區(qū)別性,最后排序取出前X個(gè)作為各類的字典數(shù)。
2.3 場(chǎng)景圖片表達(dá)
在這個(gè)環(huán)節(jié)中,需考慮如何有效地進(jìn)行圖片表達(dá)。給定單張場(chǎng)景圖片l,通過選擇性搜索產(chǎn)生G個(gè)圖塊和深度特征,將其表達(dá)為li={l1,l2,…,lG},作為矩陣H。此時(shí)H的表達(dá)具有G行,4 096列。通過K-Means聚類生成T個(gè)聚類空間/詞,并且在聚類選擇環(huán)節(jié)每類選擇了最具有區(qū)別性和代表性的X個(gè)詞。字典最終可以表示為矩陣M的形式,具有X×Y行(X是每一類場(chǎng)景的字典數(shù),Y是數(shù)據(jù)庫的場(chǎng)景數(shù))和4 096列。將原始表達(dá)矩陣H向字典空間M投射,其結(jié)果是最終表達(dá)矩陣K=H×MT。此時(shí),矩陣K具有G行,X×Y列。為了最后分類的方便,這個(gè)環(huán)節(jié)還會(huì)在矩陣K的行上采用最大值池化(max pooling)的方式降低維度,因此最后的表達(dá)維度為X×Y。
在MIT Indoor-67[20]數(shù)據(jù)庫上測(cè)試算法。MIT Indoor-67包含了67類的室內(nèi)場(chǎng)景。其中一個(gè)顯著的特點(diǎn)是:獨(dú)特的物體往往會(huì)出現(xiàn)在特定的場(chǎng)景中。每類場(chǎng)景圖片都包含大致80張訓(xùn)練圖片和20張測(cè)試圖片。最終,MIT Indoor-67的平均分類準(zhǔn)確率將作為算法評(píng)價(jià)標(biāo)準(zhǔn)。
給定一幅圖片后,將用選擇性搜索來獲取前36個(gè)最具有物體屬性的圖塊,然后將這些圖塊調(diào)整到224×224的尺寸大小來適應(yīng)使用VGG-VD模型的Caffe的輸入要求。之所以選擇36個(gè)圖塊是為了與大致相同數(shù)量的滑動(dòng)窗口圖塊數(shù)的方法進(jìn)行對(duì)比,同時(shí)測(cè)試了選擇性搜索產(chǎn)生32個(gè)圖塊的情形。在K-Means的聚類中生成1 000個(gè)聚類區(qū)域,并在此基礎(chǔ)上進(jìn)行聚類結(jié)果的篩選。先甄選聚類區(qū)域的代表性,滿足每聚類區(qū)域平均個(gè)數(shù)兩倍以上的認(rèn)定為具有代表性的區(qū)域。實(shí)際實(shí)驗(yàn)中共有192 960個(gè)圖塊、1 000個(gè)聚類區(qū)域,即,如果聚類區(qū)域A中超過386個(gè)樣本來自B類場(chǎng)景圖片,則認(rèn)定該聚類區(qū)域A具有B類的代表性。再對(duì)滿足代表性聚類區(qū)域的區(qū)別性進(jìn)行排序,即按照各聚類區(qū)域中B類樣本所占比例進(jìn)行排序。選取前X個(gè)聚類中心作為B類場(chǎng)景的字典。試驗(yàn)中分別進(jìn)行了每類20、40、60個(gè)字典詞的測(cè)試。以32個(gè)選擇性搜索圖塊+K-Means每類40字典為例。單一圖片最終表達(dá)的維度為40×67=2 680。最后,采用了一個(gè)5折的一對(duì)多的SVM分類器進(jìn)行分類。
表1為算法準(zhǔn)確率的比較。從表1中不難發(fā)現(xiàn),不同數(shù)量的選擇性搜索的效果均好于滑動(dòng)窗口,36個(gè)選擇性搜索圖塊好于32個(gè)的。同時(shí)也可發(fā)現(xiàn),采用了K-Means字典的與沒有采用字典的具有顯著差異。其中最好的結(jié)果出現(xiàn)在36個(gè)選擇性搜索窗口和每類40個(gè)K-Means字典組合中,其結(jié)果為76.31。
表1 算法準(zhǔn)確率比較
注:前三行數(shù)據(jù)是將深度特征直接經(jīng)圖片表達(dá),SVM分類得到。
因此,可以認(rèn)為在場(chǎng)景識(shí)別中,選擇性搜索相比于滑動(dòng)窗口更適用于場(chǎng)景圖片分割。同時(shí)具有代表性和區(qū)別性的K-Means字典能夠使得場(chǎng)景圖片的表達(dá)在線性空間中更加具有區(qū)分度。
[1] BOIX X, GONFAUS J M, VAN DE WEIJER J, et al. Harmony potentials [J]. International Journal of Computer Vision, 2012, 96(1): 83-102.
[2] MANDUCHI R, CASTANO A, TALUKDER A, et al. Obstacle detection and terrain classification for autonomous off-road navigation [J]. Autonomous Robots, 2005, 18(1): 81-102.
[3] Yao Bangpeng, Li Feifei. Modeling mutual context of object and human pose in human-object interaction activities[C]. Proceedings of the Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010: 17-24.
[4] BERRETTI S, BIMBO A D, VICARIO E. Efficient matching and indexing of graph models in content-based retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(10): 1089-1105.
[5] RUSSELL B C, FREEMAN W T, EFROS A A, et al. Using multiple segmentations to discover objects and their extent in image collections[C]. Proceedings of the Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, 2006: 1605-1614.
[6] LI L J, SU H, XING E P, et al. Object bank: a high-level image representation for scene classification & semantic feature sparsification[C]. Proceedings of the Advances in Neural Information Processing Systems, 2010: 1378-1386.
[7] LI F F, PERONA P. A bayesian hierarchical model for learning natural scene categories[C]. Proceedings of the Computer Vision and Pattern Recognition, 2005 IEEE Computer Society Conference on, 2005: 524-531.
[8] FERNANDO B, FROMONT E, TUYTELAARS T. Mining mid-level features for image classification [J]. International Journal of Computer Vision, 2014, 108(3): 186-203.
[9] LI Y, LIU L, SHEN C, et al. Mid-level deep pattern mining[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 971-980.
[10] SINGH S, GUPTA A, EFROS A A. Unsupervised discovery of mid-level discriminative patches [M]. Computer Vision-ECCV 2012. Springer, 2012: 73-86.
[11] JUNEJA M, VEDALDI A, JAWAHAR C, et al. Blocks that shout: distinctive parts for scene classification[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013: 923-930.
[12] GONG Y, WANG L, GUO R, et al. Multi-scale orderless pooling of deep convolutional activation features[C]. Proceedings of the European Conference on Computer Vision, 2014: 392-407.
[13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. Computer Science, 2004.
[14] ALEXE B, DESELAERS T, FERRARI V. What is an object?[C]. Proceedings of the Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010.
[15] CHENG M M, ZHANG Z, LIN W Y, et al. Bing: Binarized normed gradients for objectness estimation at 300 fps[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014.
[16] RISTIN M, GALL J, VAN GOOL L. Local context priors for object proposal generation[C]. Proceedings of the Asian Conference on Computer Vision, 2012.
[17] UIJLINGS J R, VAN DE SANDE K E, GEVERS T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-71.
[18] SHRIVASTAVA A, MALISIEWICZ T, GUPTA A, et al. Data-driven visual similarity for cross-domain image matching[C]. Proceedings of the ACM Transactions on Graphics (TOG), 2011.
[19] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[20] QUATTONI A, TORRALBA A. Recognizing indoor scenes[C]. Proceedings of the Computer Vision and Pattern Recognition, 2009 IEEE Conference on, 2009.
Scene classification based on deep feature K-Means dictionary
Yu Liangkun, Huang Liqin
(School of Physics and Information Engineering, Fuzhou University, Fuzhou 350000, China)
Sliding window is a very popular segmentation method for mid-level Bag-of-Word (BoW) model, which is used widely in scene recognition. However, the patches produced by sliding window is full of randomness, some of them do not have clear semantic information, that may bring difficulties to subsequent clustering. To deal with it, object proposal is adopted to replace sliding window. At the same time, based on the idea of discriminativeness and representativeness of dictionary of BoW, K-means is improved and tested in MIT-67 indoor scenes dataset. The method gets best result of 76.31.
scene classification; K-Means; deep learning; Bag-of-Word; object proposal
國(guó)家自然科學(xué)基金(61471124,61473090)
TP391.4
A
10.19358/j.issn.1674- 7720.2017.13.009
余良琨,黃立勤.基于深度特征K-平均字典的場(chǎng)景識(shí)別[J].微型機(jī)與應(yīng)用,2017,36(13):26-28,33.
2017-02-09)
余良琨(1992-),男,碩士研究生,主要研究方向:計(jì)算機(jī)視覺、場(chǎng)景分類。
黃立勤(1973-),男,博士,教授,主要研究方向:圖像處理與通信、計(jì)算機(jī)網(wǎng)絡(luò)通信。