田文奇,瞿心昱
(浙江交通職業(yè)技術(shù)學(xué)院機電學(xué)院,浙江杭州311112)
基于計算機視覺的場景識別是實現(xiàn)人機交互的一種新的重要手段。通常的方法是先對攝像頭讀入的圖像或視頻信息進行場景的檢測和定位,然后對檢測到的場景進行跟蹤并分割出較小的感興趣區(qū)域,之后在此感興趣區(qū)域中分割出準(zhǔn)確的場景,最后使用預(yù)先通過訓(xùn)練樣本訓(xùn)練好的分類器進行分類識別。已經(jīng)有很多研究人員提出了自己不同的解決方法[1-6],但是其基本框架還是和上述的一致的。這個框架是目前各種視覺識別系統(tǒng)包括場景識別所普遍采用的,主要存在的問題是:分類器的學(xué)習(xí)需要大量訓(xùn)練數(shù)據(jù),比如同一個場景,在不同光照不同角度,都需要大量樣本進行訓(xùn)練,然而這些樣本的收集是一件耗時耗力且困難的;分類器的學(xué)習(xí)是批量的、離線的,如果要添加新的場景,必須增加新的訓(xùn)練樣本,重新訓(xùn)練,當(dāng)類別很多時,重新訓(xùn)練是非常耗時的,因此可擴展性差;對于事先訓(xùn)練好的分類器,分類識別往往只停留在已訓(xùn)練的類別里,對未知新類別會錯誤分類到已有類別中,而不會知道是新類別,即對新情況適應(yīng)性和魯棒性差;場景特征只能從少量的初始樣本里獲得,這對于場景的準(zhǔn)確特征表達(dá)往往是不夠的,識別準(zhǔn)確率不能得到提高。
為了解決這些問題,國內(nèi)外各研究人員提出了不同的在線學(xué)習(xí)框架和學(xué)習(xí)算法,將樣本的訓(xùn)練和測試同時進行,實時地、在線地更新訓(xùn)練結(jié)果和分類器。這樣就使得訓(xùn)練分類器不需要收集大量訓(xùn)練數(shù)據(jù),而是在系統(tǒng)使用的過程中實時在線訓(xùn)練,不斷在運行中獲得訓(xùn)練樣本進行實時訓(xùn)練和學(xué)習(xí),隨時更新樣本特征空間,不斷提高識別的準(zhǔn)確率,同時也能對未知類別實時檢測和學(xué)習(xí)。Stephan KIRSTEIN 等[7]模擬了人腦的記憶結(jié)構(gòu),采用Gabor 濾波和分層結(jié)構(gòu)來進行特征提取,然后采用在線向量量化算法(oVQ)和增量學(xué)習(xí)向量量化算法(iLVQ)對物體特征實現(xiàn)在線增量學(xué)習(xí),在3 個小時內(nèi)實現(xiàn)了對50 個物體的在線學(xué)習(xí)和準(zhǔn)確識別。A PRONOBIS 等[8]采用修改的支持向量機算法進行移動機器人室內(nèi)場景的增量學(xué)習(xí)。Peter M ROTH 等[9]采用增量主成分分析(PCA)對手持未知物體進行在線學(xué)習(xí)。另外還有些研究人員研究了在線PCA 算法對視覺物體,行為和場景進行在線學(xué)習(xí)[10-12]。D SKOCAJ 和A LEONARDIS 等[13]則提出了一種用于子空間增量學(xué)習(xí)的加權(quán)和魯棒PCA 算法。
針對場景學(xué)習(xí)和識別,提出一種基于增量PCA的場景在線學(xué)習(xí)和識別方法。
算法流程如圖1 所示。假設(shè)輸入算法有n 個樣本,算法有如下一些變量:當(dāng)前的子空間,當(dāng)前樣本均值向量,當(dāng)前系數(shù)向量,新樣本,其重建投影,子空間更新,更新后的平均向量和更新后的系數(shù)向量。
在步驟n+1 時,當(dāng)新樣本輸入,新的子空間可以通過計算主成分分析得到的系數(shù)向量,而不是高維重建,因為系數(shù)向量和重建圖像包含相同的視覺變化,即在不同的坐標(biāo)下,他們的本質(zhì)是一樣的,因此這個方法在計算上非常有效。
圖1 自適應(yīng)增量PCA 算法流程
在步驟n+1,新樣本投影到當(dāng)前子空間
重建得
計算誤差向量
和擴展協(xié)方差矩陣
建立新的系數(shù)矩陣
求得下一步的系數(shù)矩陣為
更新的子空間為
上述在線主成分分析的問題是,在每一步增加了一個維度,因此,增加了計算和存儲成本和冗余樣本信息。因此,提出了自適應(yīng)子空間的概念,來調(diào)整子空間上面的在線PCA 算法的更新策略。每一個新的場景圖像可以分為3 種情況:(1)未知樣本,新類;(2)與已學(xué)習(xí)類相似性較低的場景樣本;(3)與已學(xué)習(xí)類相似度高的場景樣本。設(shè)置兩個閾值來區(qū)分3種情況:θclass,類間距離閾值;θdistance,類內(nèi)距離閾值。更新策略分為3 種方法根據(jù)θclass和θdistance。如圖2所示。
圖2 自適應(yīng)子空間更新策略結(jié)構(gòu)圖
如果‖r‖ >θclass,則通過在線PCA 算法計算新子空間U(n+1),且dim(U(n+1))=dim(U(n))+1,如果‖r‖<θclass,計算新樣本投影和已有所有樣本投影的歐式距離deuclidean 根據(jù)大小判斷分成兩個類別分別處理。
實驗設(shè)計用來執(zhí)行提出在線學(xué)習(xí)和識別的場景。預(yù)處理場景圖像作為樣本輸入分類器進行在線學(xué)習(xí),每個樣本60 ×45 像素,即2 700 的維數(shù)。Visual C ++ 6.0 環(huán)境和OpenCV 庫用于本次在線場景識別實驗,硬件環(huán)境為AS-R 移動機器人,如圖3 所示。
圖3 AS-R 移動機器人實驗平臺
使用105 個場景樣本進行實驗。初始化分類器用20 個兩類樣本,每類10 個樣本。在線學(xué)習(xí)階段一個新樣本讀入分類器進行下一步學(xué)習(xí)。該方法在重建誤差等方面與離線PCA 比較結(jié)論如下。在線學(xué)習(xí)和識別開始于第21 個場景樣本。在線學(xué)習(xí)過程的樣本重建如圖4 和圖5 所示。
圖4 一個類別的重建過程
圖5 重建誤差趨勢
在圖中可以看到,隨著學(xué)習(xí)次數(shù)的增加,重建誤差減少了,重建結(jié)果逐步改進。在離線PCA 中,樣本不能重建,重建誤差不能減少,逐漸重建效果得不到提高。因此,采用文中提出的自適應(yīng)增量PCA 算法進行場景的在線識別,可以使得移動機器人場景識別在線進行,知識得到不斷更新,遇到新情況不需要重新學(xué)習(xí)。隨著知識在線積累,識別系統(tǒng)有更好的可擴展性、適應(yīng)性和魯棒性。
提出了一種基于自適應(yīng)增量PCA 算法的移動機器人視覺場景識別。該方法可以使用相同的模式訓(xùn)練和學(xué)習(xí)階段,從而實現(xiàn)新場景學(xué)習(xí)與識別。子空間更新策略是選擇自動對應(yīng)3 種不同的樣本情況來衡量新樣本之間的相似度并學(xué)習(xí)樣本,這提高了適應(yīng)能力。最后,進行了實驗測試表明,該方法對實時場景知識更新、添加和積累有很好的適應(yīng)性和魯棒性。
[1]LIU M-Y,TUZEL O,VEERARAGHAVAN A,et al.Fast Object Localization and Pose Estimation in Heavy Clutter for Robotic Bin Picking[J].Int.J.of Robotics Research,2012,31(8):951-973.
[2]NIEUWENHUISEN M,STUCKLER J,BERNER A,et al.Shapeprimitivebased Object Recognition and Grasping[C].In Proc.7th German Conferenceon Robotics,2012.
[3]PAPAZOV C,HADDADIN S,PARUSEL S,et al.Rigid 3D Geometry Matching for Grasping of Known Objects in Cluttered Scenes[J].Int.J.of Robotics Research,2012,31(4):538-553.
[4]CHOI C,TAGUCHI Y,TUZEL O,et al.Votingbased Pose Estimation for Robotic Assembly Using a 3D Sensor[C].In Proc.IEEE Int.Conf.Robotics and Automation,2012.
[5]LI Y,WU X,CHRYSATHOU Y,et al.Consistently Fitting Primitives by Discovering Global Relations[J].ACM Trans.On Graphics,2011,30:52:1-52:12.
[6]楊全,王民.基于Euclidean 距離的手勢識別[J].微計算機信息,2007(25):265-266.
[7]KIRSTEIN Stephan,WERSING Heiko,KORNER Edgar.A Biologically Motivated Visual Memory Architecture for Online Learning of Objects[J].Neural Networks,2008,21:65-77.
[8]PRONOBIS Andrzej,JENSFELT Patric.Large-scale Semantic Mapping and Reasoning with Heterogeneous Modalities[C]//2012 IEEE International Conference on Robotics and Automation RiverCentre,Saint Paul,Minnesota,USA,2012:3515-3522.
[9]ROTH Peter M,DONOSER Michael,BISCHOF Horst.Online Learning of Unknown hand Held Objects Via Tracking[C]//Int.Conf.on Computer Vision Systems,New York,2006.
[10]OZAWA Seiichi,PANG Shaoning,KASABOV Nikola.A modified Incremental Principal Component Analysis for On-line Learning of Feature Space and Classifier[C]//PRICAI 2004:Trends in Artificial Intelligence.Springer Berlin Heidelberg,2004:231-240.
[11]JIANG Xianhua,MOTAI Yuichi.Learning by Observation of Robotic Tasks Using on-line PCA-based Eigen Behavior[C]//Proceedings 2005 IEEE International Symposium on Computational Intelligence in Robotics and Automation,2005:391-396.
[12]ARTTAC M,JOGAN M,LEONARDIS A.Incremental PCA for On-line Visual Learning and Recognition[C]//In ICPR 2002,3:781-784.
[13]SKOCAJ D,LEONARDIS A.Weighted and Robust Incremental Method for Subspace Learning[C]//In Proc.IEEE Intern.Conf.on Computer Vision,2003,II,1494-1501.