趙騫,李敏,趙曉杰,陳雪勇
(電子科技大學 計算機科學與工程學院,四川 成都 611731)
?
基于感受野學習的特征詞袋模型簡化算法
趙騫,李敏,趙曉杰,陳雪勇
(電子科技大學 計算機科學與工程學院,四川 成都 611731)
本文研究了在圖像識別任務(wù)中,感受野學習對于特征詞袋模型的影響。在特征詞袋模型中,一個特征的感受野主要取決于視覺詞典中的視覺單詞和池化過程中所使用的區(qū)域。視覺單詞決定了特征的選擇性,池化區(qū)域則影響特征的局部性。文中提出了一種改進的感受野學習算法,用于尋找針對具體的圖像識別任務(wù)最具有效性的感受野,同時考慮到了視覺單詞數(shù)量增長所帶來的冗余問題。通過學習,低效、冗余的視覺單詞和池化區(qū)域會被發(fā)現(xiàn),并從特征詞袋模型中移除,從而產(chǎn)生一個針對具體分類任務(wù)更精簡的、更具可分性的圖像表達。最后,通過實驗顯示了該算法的有效性,學習到的模型除了結(jié)構(gòu)精簡,在識別精度上相比原有方法也能有一定提升。
視覺詞袋模型; 感受野學習;目標識別;圖像分類;特征學習
在計算機視覺和模式識別領(lǐng)域,圖像識別是一類相當常見的問題。它的作用是預(yù)測一幅圖像的類別標簽,或者標注出圖像內(nèi)容的屬性。在使用分類器對圖像所屬類別進行預(yù)測之前,一般會使用合適的特征對圖像進行描述。特征詞袋(bag-of-features, BoF)是一種常用的簡潔而高效的圖像中級特征(mid-level feature)學習模型。一個基本的BoF模型通常包含5個部分,提取圖像塊、描述圖像塊、視覺詞典學習編碼(coding)和池化(pooling)[1]。其中,視覺詞典學習作為BoF模型的核心, 集中了大量的研究工作,有不少基于監(jiān)督[2]和無監(jiān)督[3]的視覺詞典學習算法被提出,比如K-means[4]、稀疏編碼[5]等都可作為詞典學習算法被集成在BoF模型中。對于如何找到更好的池化區(qū)域,來生成包含更多局部性信息的圖像特征,同樣吸引了眾多研究者的目光。其中,空間金字塔模型(spatial pyramid matching)是一種常用的區(qū)域選取策略,他將特征圖分割成為一個一個逐層細化的空間子區(qū)域,之后在這些子區(qū)域上分別進行池化操作[6]。Coates等[7]通過對特征圖之間相似性的分析,使用貪婪方法,將相似性較高的特征圖分為一組,從而使得特征表達獲得了一定的旋轉(zhuǎn)不變性,Jia等[8]對于空間金字塔模型進行了進一步的擴展,定義了一組超完備(over-complete)的池化區(qū)域,該區(qū)域是由所有在特征圖上可能存在的矩形區(qū)域組成,并在此基礎(chǔ)上提出了感受野學習(receptive field learning)的概念,通過在超完備詞典生成的特征圖上的超完備區(qū)域中選擇那些最為有效區(qū)域。在這些被選擇的池化區(qū)域上計算圖像的特征表達。
本文的工作正是基于Jia等[9]提出的超完備區(qū)域的感受野學習方法的進一步改進,在感受野學習的同時考慮對視覺詞典規(guī)模進行限制,同時實現(xiàn)BoF模型中的視覺單詞和池化區(qū)域的精簡,從而到達優(yōu)化BoF模型結(jié)構(gòu)的目的。另外,與其他的詞典簡化方法相比,該方法充分考慮到了池化的作用和分類任務(wù)對視覺單詞的需求。
BoF模型的核心思想是將圖像表示成為一組無序特征的集合,通過統(tǒng)計每一種特征的響應(yīng)強度來構(gòu)造一個描述圖像的直方圖,即圖像的中級特征表達。利用圖像特征響應(yīng)的直方圖統(tǒng)計,可以訓練分類器對圖像中所表達的內(nèi)容進行識別。BoF模型具有簡潔、高效等特點,但同時BoF模型在最初提出時是為了解決圖像檢索問題,對每種特征在整幅圖像中的出現(xiàn)次數(shù)進行統(tǒng)計,無法對結(jié)構(gòu)信息和空間信息進行有效表示[9]。
BoF模型圖像分類框架如圖1所示。
圖1 面向圖像識別的Bag-of-features模型框架圖
通常將輸入圖像(或低級特征,比如SIFT、HOG等)使用視覺詞典中的視覺單詞進行編碼,從而得到一組特征響應(yīng)的分布圖。相對于BoF模型在圖像檢索領(lǐng)域的應(yīng)用,局部空間的特征直方圖對于圖像識別具有更重要的作用。因此對于特征圖進行分塊池化操作,可以使特征表達中包含多個區(qū)域、多個尺度上的特征統(tǒng)計信息。
1.1 詞典學習
建立BoF模型的第一步就是使用學習算法獲得一個視覺詞典(codebook)。為此,要從訓練樣本中隨機提取圖像塊(patch)。然后選擇一個學習算法,使用這些圖像塊作為算法的訓練樣本。常用的詞典學習算法有很多,總體上可分為有監(jiān)督和無監(jiān)督2類。在這里介紹兩種高效的無監(jiān)督詞典學習方案,K-means和OMP-K學習算法[10]。
K-means聚類算法[11]是一種快速而且易實現(xiàn)的學習算法,其通過最小化式(1)中的平方距離來搜索訓練數(shù)據(jù)的K個聚類中心,從而可以得到一個大小為K的詞典。在式(1)中,x(i)是由輸入的圖像塊或者初級特征組成的向量,d(j)是所求的聚類中心,每一個聚類中心可以被視為一個視覺單詞,他們共同構(gòu)成了一個完整的大小為K的詞典D。
OMP-K是另外一種無監(jiān)督學習算法,該算法通過交叉迭代公式(2)中的損失函數(shù),在服從約束條件的前提下最小化重構(gòu)誤差,來獲得詞典D。它與K-means算法的主要區(qū)別在于,在學習階段每個圖像塊最多使用K個視覺單詞計算最小誤差,而K-means算法每個圖像塊僅屬于一個視覺單詞(聚類中心)。
式中:‖s(i)‖0使用0范數(shù)表示編碼s(i)中非零元素的數(shù)量,每個視覺單詞d(j)為詞典D中一列。使用OMP-K算法計算式(2),可以得到詞典D。
1.2 特征編碼
在完成詞典學習之后,需要對輸入的數(shù)據(jù)(圖像或者初級特征)進行編碼。軟閾值(soft thresholding)編碼通過計算數(shù)據(jù)與視覺單詞之間的內(nèi)積對數(shù)據(jù)進行編碼,如式(3)。其中,閾值α的引入,為編碼后的特征帶來一定的稀疏性[12]。
但是,軟閾值方法需要手工指定閾值α,為了克服手工指定參數(shù)對編碼效果的影響。Coates等[4]提出了一種三角編碼算法(triangle)。該方法中,當數(shù)據(jù)x(i)到視覺單詞d(k)的距離大于數(shù)據(jù)x(i)到所有視覺單詞d(k)的平均距離μ(z)時,特征對應(yīng)的值為0,
式中:zk=‖x(i)-d(k)‖2表示數(shù)據(jù)到視覺單詞的歐式距離,μ(z)是zk的平均值。
每一個樣本在進行編碼后,會得到K個特征圖。這里,K為詞典中視覺單詞的個數(shù)。
1.3 池化
池化作為BoF模型中的一個關(guān)鍵步驟,它通過聚合運算(比如:計算最大值或均值)將一個矩形區(qū)域內(nèi)的特征轉(zhuǎn)換成為一個標量值,從而減少特征的數(shù)量。除了降低特征表達的維數(shù)之外,池化能夠為特征表達帶來一些非常有用的特性,比如平移不變性。
另外,為獲得更加豐富的特征空間分布的統(tǒng)計信息,規(guī)則網(wǎng)格結(jié)構(gòu)、空間金字塔、超完備(如圖2)等池化區(qū)域方案被相繼提出,使BoF特征保留了更多的局部統(tǒng)計信息。
圖2 Pooling區(qū)域
通常,池化可以用如式(5)的形式進行表示[13]
本節(jié)的算法是在Jia等[8]的基礎(chǔ)上,增加對于視覺詞匯數(shù)量增長的限制,從而實現(xiàn)感受野學習和選擇有效視覺單詞的雙重效果。算法中使用了Perkins等[14]提出的grafting方法對特征的重要性進行判斷,grafting全稱梯度特征測試(gradient feature testing),需要候選特征的梯度值作為重要性判斷的依據(jù),因此要首先定義分類器及其目標函數(shù)。
2.1 分類器
本文定義了一個多類線性分類器,使用BoF模型特征對標簽進行預(yù)測,
式中:x是輸入圖像的特征表達向量,W和b分別為權(quán)值矩陣和偏置,y為分類器的預(yù)測結(jié)果。式(7)定義了分類器的目標函數(shù),通過最優(yōu)化算法求出目標函數(shù)的最優(yōu)解,來確定參數(shù)W和b
式(8)中的ln(·)表示自然對數(shù)函數(shù),P是指標簽的類別總數(shù),W.,i表示矩陣W中的一列。
2.2 感受野學習
為了找到最為合適的感受野,將通過計算目標函數(shù)相對于每個特征對應(yīng)的權(quán)值矩陣元素的梯度值來判斷特征的重要性。首先,初始化一個空集合S來保存已選擇的特征,所有沒有被選擇的特征組成一個候選集合Sc。在每次迭代中,針對候選集合Sc中每個特征計算一個分值,如式(9)所示。選擇分值最大的特征加入集合S,并將其從Sc中移除。直到集合S中特征的數(shù)量達到一個指定的值,迭代停止。此時集合S中特征所對應(yīng)的感受野既是針對該分類任務(wù)最為有效的感受野。
與Jia等人提出的感受野學習方法[8]不同,本方法在計算特征分值的基礎(chǔ)上進一步對特征圖進行了區(qū)分,將未被選入的特征圖所包含特征的分值進行衰減,使感受野學習的過程更加傾向于選取已被選擇的特征圖上的特征,如式(9)
式中:L(W,b)是式(6)中所定義的目標函數(shù),Wj,.表示矩陣W中的一行,η是針對未選中特征圖中候選特征的衰減因子,其取值范圍為 [0, 1),M(j)用于表示當前第j個特征是否在選中的特征圖之上,其表示為
式中:如果特征圖上含有已選中特征,則認為該圖被選取,其M(j)值為1。
在每一次迭代后,新的特征被加入集合S。在此特征集合之上,需要對分類器參數(shù)W和b進行重新計算。將上次迭代計算出的W和b作為重新計算時的初始狀態(tài),以有效地減少計算參數(shù)所消耗的時間。
3.1 實現(xiàn)過程
實驗中主要使用了CIFAR-10數(shù)據(jù)庫[19]對文中提出的算法進行訓練和驗證。CIFAR-10是由加拿大多倫多大學教授Hinton等發(fā)布的一個用于圖像識別算法評估的數(shù)據(jù)庫,該數(shù)據(jù)庫中包含了50 000個訓練樣本和10 000個測試樣本,共分為10類。
在使用樣本訓練和測試前,都要對樣本數(shù)據(jù)進行歸一化和白化處理,這樣能夠提高BoF模型特征的預(yù)測性能。
從訓練樣本中隨機提取5×5的圖像塊用于詞典學習,選擇K-means作為詞典學習的算法,以及triangle作為編碼算法。輸入圖像經(jīng)編碼后會形成28×28的特征圖,然后最大值池化會將每張?zhí)卣鲌D上7×7相鄰但不重疊的空間區(qū)域聚合成為一個特征,因此每張?zhí)卣鲌D被降維到4×4的大小。超完備的池化區(qū)域以及對照實驗都將基于這些池化后的特征圖。
在訓練分類器時,式(7)中的參數(shù)λ固定為0.01,用于超完備池化區(qū)域和感受野學習實驗。對于其他預(yù)定義的池化區(qū)域(比如網(wǎng)格結(jié)構(gòu)和空間金字塔),在實驗中使用L2-SVM作為分類器,其參數(shù)通過五折交叉驗證的方式搜索確定。
3.2 算法性能測試
表1將本文提出的改進的感受野學習算法,同原有方法[8]以及幾種常用的池化策略進行了比較。表中包括網(wǎng)格結(jié)構(gòu)的池化區(qū)域(2×2,4×4),空間金字塔(spatial pyramid matching, SPM),超完備感受野(over-complete, OC),基于超完備感受野的感受野學習(OC+學習),本文方法是在超完備感受野上的實驗結(jié)果(OC+改進算法)。
表1 多種pooling策略的比較
在未使用學習策略的池化方案中,由于超完備感受野能夠較好地捕獲特征圖中的空間信息,因此得到了較高的分類精度。在增加學習策略之后冗余被消除,超完備感受野又獲得了0.28%的提升。在此基礎(chǔ)上使用本文方法,以一個較大的詞典作為初始詞典,同時在學習過程中對詞典規(guī)模的增長進行了限制。例如在表1中,分別以400和800為初始詞典大小,將衰減因子η設(shè)為0.7和0.8,在詞典規(guī)模為200時,學習到了4 408和5 370個特征。盡管使用的特征數(shù)有所減少,但是分類結(jié)果卻比原有算法提高了0.23%和1.27%。該結(jié)果說明了改進算法的有效性。
3.3 參數(shù)η的影響
本節(jié)實驗中,在CIFAR-10數(shù)據(jù)庫上比較了3種衰減因子η值下,學習算法所受到的影響(如圖3)。首先,使用K-means算法得到一個大小為1 600的詞典。然后,以該詞典生成的特征圖為基礎(chǔ),分別將η值設(shè)為0、0.3和0.7,觀察和比較在學習過程中,精度和詞典規(guī)模的增長。其中,當η值設(shè)為0時(即不對詞典的增長進行衰減),則本方法與Jia等提出的學習方法[8]等價。
(a)樣本數(shù)量對分類精度的影響
(b)樣本數(shù)量對詞典規(guī)模的影響
在圖3(a)是分類精度跟隨感受野數(shù)量(即感受野對應(yīng)的特征數(shù))增長的曲線,圖3(b)是視覺單詞量隨感受野數(shù)量增長的曲線??梢钥闯?,在這3種η值情況下,精度的增長受到的影響不大,而視覺單詞數(shù)量卻受到了明顯抑制,說明算法能夠?qū)τ诜诸愗暙I較低的視覺單詞進行識別。
在表2中,池化區(qū)域為OC,比較了圖3中的實驗在學習6 400個感受野時的狀態(tài)。從表中可以看出,隨著η值的增加,所需的視覺單詞的數(shù)量不斷下降。而且對于特征圖數(shù)量增長一定程度上的限制,對分類結(jié)果也會有一些提高?,F(xiàn)象也說明了基于梯度的貪婪算法并不能確保針對分類任務(wù)獲得一個最優(yōu)的特征集合。
表2 CIFAR-10數(shù)據(jù)庫的實驗結(jié)果
使用CIFAR-100數(shù)據(jù)庫重復(fù)上述實驗。這里,由于數(shù)據(jù)庫有100類對象,更大的權(quán)值矩陣W使得算法對η值變得更敏感,因此實驗中選擇的η值為0、0.1和0.3。在表3中,可以看到與CIFAR-10上類似的實驗結(jié)果。
3.4 樣本數(shù)量的影響
為了研究訓練樣本數(shù)量對本文所描述的算法的影響程度,隨機從CIFAR-10數(shù)據(jù)庫中選擇出多個樣本子集作為訓練數(shù)據(jù),使用這些子集學習詞典和感受野。除此之外,使用同樣樣本子集訓練卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[15],與本文中提出的算法進行對比。
表3 CIFAR-100數(shù)據(jù)庫的實驗結(jié)果
(a)樣本數(shù)量對分類精度的影響
(b)樣本數(shù)量對詞典規(guī)模的影響
作為參照對象的CNN使用了Lin等人提出的Network in Network模型[16]。該模型曾在CIFAR-10數(shù)據(jù)庫上獲得了準確率89.21%的最好成績。在實驗中,逐漸的減少訓練樣本的數(shù)量,使用了完整的50 000個樣本,以及隨機抽取的20 000、10 000和5 000個樣本分別進行試驗。在本文算法的實現(xiàn)過程中,一組實驗采用相同的初始詞典大小,對于不同大小的訓練集均取1 600個視覺單詞,稱為算法1。另一組隨著樣本數(shù)量的減少逐步擴大初始詞典的規(guī)模,分別使用1 600,3 200,4 800和6 400個視覺單詞,稱為算法2。實驗中的η被固定為0.3。
在圖4(a)中,可以發(fā)現(xiàn)在訓練集規(guī)模較大的情況下,CNN模型具有更高的分類精度。伴隨著訓練樣本數(shù)量的減少CNN模型的性能逐漸下降。當訓練樣本數(shù)量為10 000時,CNN模型同本文中的BoF模型性能相當。另外,算法2由于逐步提高了初始詞典的大小,對于分類性能的損失產(chǎn)生了一定的補償作用,因此略好于使用固定初始詞典大小的算法1的結(jié)果。
在圖4(b)中,學習后的詞典規(guī)模穩(wěn)定在一定范圍內(nèi)。盡管算法2的初始詞典大小在不斷增加,但是實際使用的詞典并沒有隨著初始詞典而膨脹。因此,在計算能力允許的情況下,可以使用較大的初始字典,本文提出的方法可以學習到一個大小合適的模型。
通過以上分析,認為針對小樣本集的目標識別問題,BoF模型依然是一種十分有效的工具。
3.5 分析討論
實驗驗證了方法的有效性,可將感受野學習和選擇有效視覺單詞相結(jié)合,用于對BoF模型的精簡。盡管對于詞典進行了大量的刪減,但是對于精度僅產(chǎn)生了較小影響,從側(cè)面說明了模型中包含了很多與分類無關(guān)的冗余參數(shù)。
然而,本文提出的方法仍有幾點不足需要進一步改進。首先,通常對于參數(shù)η的調(diào)節(jié)缺少指導性的原則,只能通過嘗試多個η值來估計合適的取值。其次,如何指定一個合適的特征數(shù),同樣缺乏指導原則。一般來說,可以指定一個較大的特征數(shù),觀測算法在驗證集上的效果,從而做出判斷。
本文通過對現(xiàn)有的感受野學習方法的分析和研究的基礎(chǔ)上,提出了一種改進型的感受野學習算法。相比于原有算法,本文提出的方法除了考慮生成特征的空間區(qū)域和詞典對于分類的影響之外,還將去除詞典中低效的視覺單詞納入學習過程。使用此方法,從詞典大小和池化區(qū)域兩方面對BoF模型的規(guī)模進行了精簡。實驗結(jié)果表明,本文提出的方法能夠利用更少的詞典規(guī)模形成更有效的特征表達,即使在使用相同初始詞典的情況下,也可以較少冗余成分對于分類任務(wù)的干擾,提高BoF模型生成的特征表達的表達能力,從而提高分類精度。特別是在訓練樣本較小的情況下,具有一定的應(yīng)用價值。
[1]HUANG Yongzhen, WU Zifeng, WANG Liang, et al. Feature coding in image classification: a comprehensive study[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 36(3): 493-506.
[2]YANG Jianchao, YU Kai, GONG Yihong, et al. Linear spatial pyramid matching using sparse coding for image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, 2009: 1794-1801.
[3]YU Kai, ZHANG Tong, GONG Yihong. Nonlinear learning using local coordinate coding[C]//Advances in Neural Information Processing Systems 22: 23rd Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2009: 2223-2231.
[4]COATES A, NG A, LEE H. An analysis of single-layer networks in unsupervised feature learning[J]. Journal of machine learning research, 2011, 15: 215-223.
[5]GREGOR K, LECUN Y. Learning fast approximations of sparse coding[C]//Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel, 2010.
[6]LAZEBNIK S, SCHMID C, Ponce J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY, USA, 2006, 2: 2169-2178.
[7]COATES A, NG A Y. Selecting receptive fields in deep networks[C]//Advances in Neural Information Processing Systems 24: 25th Annual Conference on Neural Information Processing Systems. Granada, Spain, 2011: 2528-2536.
[8]JIA Yangqing, HUANG Chang, DARRELL T. Beyond spatial pyramids: receptive field learning for pooled image features[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, 2012: 3370-3377.
[9]SIVIC J, ZISSERMAN A. Video google: a text retrieval approach to object matching in videos[C]//Proceedings of the Ninth IEEE International Conference on Computer Vision. Nice, France, 2003: 1470-1477.
[10]COATES A, NG A Y. The importance of encoding versus training with sparse coding and vector quantization[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue, WA, USA, 2011.
[11]JAIN A K. Data clustering: 50 years beyond K-means[J]. Pattern recognition letters, 2010, 31(8): 651-666.
[12]汪啟偉. 圖像直方圖特征及其應(yīng)用研究[D]. 合肥: 中國科學技術(shù)大學, 2014. WANG Qiwei. Study on image histogram feature and application[D]. Hefei, China: University of Science and Technology of China, 2014.
[13]BOUREAU Y L, ROUX N L, BACH F, et al. Ask the locals: multi-way local pooling for image recognition[C]//Proceedings of the 2011 International Conference on Computer Vision. Barcelona, Spain, 2011: 2651-2658.
[14]PERKINS S, LACKER K, THEILER J. Grafting: fast, incremental feature selection by gradient descent in function space[J]. Journal of machine learning research, 2003, 3: 1333-1356.
[15]LECUN Y, BOSER B E, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[C]//Advances in Neural Information Processing Systems 2: 3rd Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada. San Francisco, CA, USA, 1989: 396-404.
[16]KRIZHEVSKY A. Learning multiple layers of features from tiny images[D]. Toronto, Canada: University of Toronto, 2009.
趙騫,男,1986年生,博士研究生,主要研究方向為計算機視覺、神經(jīng)網(wǎng)絡(luò)。參與“863”項目1項,國家自然科學基金項目1項。
李敏,男,1981年生,講師,博士,主要研究方向為仿生機器人、外骨骼機器人。參與 “863”項目2項。曾獲得教育部技術(shù)發(fā)明獎一等獎1項,授權(quán)國家發(fā)明專利5項,發(fā)表學術(shù)論文7 篇。
趙曉杰,男,1972年生,博士研究生,主要研究方向為航跡規(guī)劃、傳感器網(wǎng)絡(luò),參與“973”項目1項。
2017第2屆IEEE大數(shù)據(jù)分析國際會議
2017 the 2nd IEEE International Conference on Big Data Analysis (ICBDA 2017)
我國已全面邁入4G時代,大數(shù)據(jù)、云計算等產(chǎn)業(yè)關(guān)鍵技術(shù)演進和應(yīng)用創(chuàng)新加速發(fā)展,產(chǎn)業(yè)支持政策規(guī)劃紛紛出臺,數(shù)據(jù)開放共享機制不斷推進,產(chǎn)業(yè)發(fā)展基礎(chǔ)環(huán)境初步具備,產(chǎn)業(yè)生態(tài)體系逐步完善建立,大數(shù)據(jù)產(chǎn)業(yè)將進入理性發(fā)展、落地應(yīng)用階段,并有望在通信、互聯(lián)網(wǎng)、金融、醫(yī)療等重點行業(yè)率先取得突破,將成為全球最重要的大數(shù)據(jù)市場。大數(shù)據(jù)帶來了全新的變革與機遇,但我國大數(shù)據(jù)產(chǎn)業(yè)還處于發(fā)展初期,總體戰(zhàn)略規(guī)劃仍有待部署,行業(yè)標準化和規(guī)?;瘧?yīng)用還未實現(xiàn),核心技術(shù)和數(shù)據(jù)資源開放有待突破,行業(yè)協(xié)作和商業(yè)模式瓶頸尚待解決,數(shù)據(jù)安全與隱私保護形勢嚴峻等諸多挑戰(zhàn)。
為了迎接大數(shù)據(jù)時代的到來,更好地交流大數(shù)據(jù)的實踐經(jīng)驗,進一步推進大數(shù)據(jù)技術(shù)創(chuàng)新與應(yīng)用,展示國內(nèi)外大數(shù)據(jù)領(lǐng)域的最新科研成果。2017年第二屆大數(shù)據(jù)分析國際會議將于2017年3月10日-12日在中國北京召開。本屆ICBDA 2017 由IEEE和西交利物浦大學大數(shù)據(jù)分析研究所聯(lián)合主辦,University of Texas at Dallas, USA協(xié)辦,由西交利物浦大學的關(guān)圣威教授,和University of Texas at Dallas張康教授擔任聯(lián)合大會主席。會議旨在促進大數(shù)據(jù)分析等領(lǐng)域的學術(shù)交流與合作,熱忱歡迎從事相關(guān)技術(shù)研究的專家、學者和專業(yè)技術(shù)人員踴躍投稿并參加大會。
會議網(wǎng)站:http://www.icbda.org/index.html
Learning receptive fields for compact bag-of-feature model
ZHAO Qian, LI Min, ZHAO Xiaojie, CHEN Xueyong
(School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China)
In this work, the effects of receptive field learning on a bag-of-features pipeline were investigated for an image identification task. In a bag-of-features model, the receptive field of a feature depends mostly on use of visual words in a visual dictionary and the region used during the pooling process. Codewords make the feature respond to specific image patches and the pooling regions determine the spatial scope of the features. A modified graft feature selecting algorithm was proposed to find the most efficient receptive fields for identification purposes; this considers the redundancy problem created by simultaneously increasing visual words. Using learning receptive fields, inefficient and redundant codewords and pooling regions were found and subsequently eliminated from the pooling region, this made the pipeline more compact and separable for the specified classification task. The experiments show that the modified learning algorithm is effective and the learned pipeline useful for both structural simplification and improving classification accuracy compared with the baseline method.
bag-of-features model; receptive field learning; object recognition; image classification; feature learning
2016-01-01.
日期:2016-07-18.
國家自然科學基金項目(61371182).
趙騫. E-mail:zhokyia@gmail.com.
TP391.4
A
1673-4785(2016)05-0663-07
10.11992/tis.201601001
http://www.cnki.net/kcms/detail/23.1538.TP.20160718.1521.004.html
趙騫,李敏,趙曉杰,等.基于感受野學習的特征詞袋模型簡化算法[J]. 智能系統(tǒng)學報, 2016, 11(5):663-669.
英文引用格式:ZHAO Qian, LI Min, ZHAO Xiaojie, et al. Learning receptive fields for compact bag-of-feature model[J]. CAAI transactions on intelligent systems, 2016,11(5):663-669.