盧良鋒,何加銘,謝志軍,孫德超
(寧波大學(xué),浙江 寧波 315211)
基于深度學(xué)習(xí)的RGB-D物體識(shí)別算法*
盧良鋒,何加銘,謝志軍,孫德超
(寧波大學(xué),浙江 寧波 315211)
結(jié)合RGB圖像和深度圖像,提出了一種新的基于深度學(xué)習(xí)的無監(jiān)督物體識(shí)別算法KSAE-SPMP。采用標(biāo)準(zhǔn)的RGB-D數(shù)據(jù)庫2D3D來驗(yàn)證新提出的算法。實(shí)驗(yàn)結(jié)果表明,與之前提出的基于RGB-D的物體識(shí)別算法相比,KSAE-SPMP算法取得了最高的識(shí)別準(zhǔn)確率,此算法能夠很好地完成RGB-D物體的識(shí)別。
物體識(shí)別 RGB-D圖像 k稀疏自編碼 空間金字塔最大池化 Softmax分類器
基于RGB圖像的物體識(shí)別從RGB圖像中提取顏色特征、紋理特征和輪廓特征等來識(shí)別物體。基于深度圖像的物體識(shí)別從深度圖像中提取物體的三維空間形狀等特征來識(shí)別物體。這2種物體識(shí)別方法都未能完全利用物體的可用特征信息,存在一定的局限性。RGB-D相機(jī)能同時(shí)記錄物體的高分辨率的RGB圖像和深度圖像。物體的深度信息和顏色信息對(duì)彼此都是一種有效的補(bǔ)充,結(jié)合RGB圖像和深度圖像,能夠有效地提高物體的識(shí)別準(zhǔn)確率。
深度學(xué)習(xí)[1]是一種新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。它通過組合低層特征形成更加抽象的高層表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。本文結(jié)合RGB圖像和深度圖像,提出了一種新的深度學(xué)習(xí)算法KSAESPMP來完成物體的識(shí)別。實(shí)驗(yàn)結(jié)果表明,與之前提出的基于RGB-D的物體識(shí)別算法相比,KSAE-SPMP算法取得了最高的識(shí)別準(zhǔn)確率,此算法能夠很好地完成RGB-D物體的識(shí)別。
本文主要研究如何利用深度學(xué)習(xí)算法完成RGB-D的物體識(shí)別。在過去的幾年中,一些研究小組對(duì)如何從物體中無監(jiān)督地提取具有代表性的特征做了深入的研究,取得了一些極具價(jià)值的研究成果。
(1)無監(jiān)督特征學(xué)習(xí)算法
近年來,許多無監(jiān)督地從原始視覺圖像中提取特征的算法被提出。例如深度信念網(wǎng)絡(luò)[4]、去噪自編碼[5]、卷積神經(jīng)網(wǎng)絡(luò)[6]、K均值算法[7-8]、分層稀疏編碼[9]和分層匹配追蹤算法[3]等。這些無監(jiān)督的特征學(xué)習(xí)算法在多種識(shí)別工作中取得了優(yōu)異的成果。如手寫字體的識(shí)別、面部識(shí)別、物體識(shí)別、場(chǎng)景識(shí)別、動(dòng)作識(shí)別[15]和物體識(shí)別[16]等。然而,這些算法大多被應(yīng)用在二維圖像的處理上,如灰度圖像。本文同時(shí)使用RGB和深度圖像,提取到了更多樣性的特征,有效地提高了物體的識(shí)別準(zhǔn)確率。
(2)基于RGB-D的深度學(xué)習(xí)算法
新一代傳感技術(shù)RGB-D相機(jī)的出現(xiàn),推動(dòng)了物體識(shí)別技術(shù)的進(jìn)一步發(fā)展。RGB-D相機(jī)能夠同時(shí)記錄RGB圖像和深度圖像,RGB圖像包含物體的表面顏色信息和紋理信息,深度圖像包含物體的空間形狀信息,結(jié)合RGB圖像和深度圖像能有效地提高物體的識(shí)別準(zhǔn)確率。在過去的幾年里,許多基于RGB-D的物體識(shí)別深度學(xué)習(xí)算法被提出。Blum等人提出了卷積K均值描述符[7],在興趣點(diǎn)附近自動(dòng)地學(xué)習(xí)特征并最終將這些特征進(jìn)行融合。Liefeng Bo等人提出了分層匹配追蹤算法(HMP)[10],此算法利用稀疏編碼和空間金字塔最大池化(SPMP)無監(jiān)督地從原始RGB-D圖像中學(xué)習(xí)分層的特征。Socher等人結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)提出了CNN-RNN深度學(xué)習(xí)算法[11],卷積神經(jīng)網(wǎng)絡(luò)層學(xué)習(xí)低維的平移不變性特征并作為RNN輸入,遞歸神經(jīng)網(wǎng)絡(luò)層學(xué)習(xí)高維抽象特征。本文在Liefeng Bo等人工作[10]的基礎(chǔ)上,結(jié)合改進(jìn)的k稀疏自編碼算法(k-SAE)和空間金字塔最大池化算法(SPMP),提出了新的無監(jiān)督的深度學(xué)習(xí)算法KSAE-SPMP,與之前的算法相比,此算法取得了更高的識(shí)別準(zhǔn)確率。
(3)RGB-D數(shù)據(jù)庫
自2010年RGB-D(Kinect款)相機(jī)誕生以來,一些研究小組采集并公布了若干RGB-D數(shù)據(jù)庫,為以后的研究工作奠定了堅(jiān)實(shí)的基礎(chǔ)。其中,比較具有代表性的有美國(guó)華盛頓大學(xué)計(jì)算機(jī)與科學(xué)工程系的Kevin Lai、Liefeng Bo聯(lián)合因特爾西雅圖實(shí)驗(yàn)室的Xiaofeng Ren等人公布的RGB-D數(shù)據(jù)庫[12],馬克思·普朗克學(xué)會(huì)Browatzki等人公布的2D3D數(shù)據(jù)庫[13]等。本文采用2D3D數(shù)據(jù)校驗(yàn)算法的準(zhǔn)確性,2D3D數(shù)據(jù)庫包含14個(gè)類別,共計(jì)156個(gè)室內(nèi)常見的物體,每個(gè)類別包括10個(gè)左右的物體。每個(gè)物體包含36對(duì)RGB圖像和深度圖像,這些圖像是由物體放置在托盤上每旋轉(zhuǎn)20度拍攝一張而成。圖1展示了這些物體的一些代表性圖片:
圖1 2D3D數(shù)據(jù)庫部分物體實(shí)例圖片
本文提出了KSAE-SPMP深度學(xué)習(xí)算法,用于基于RGB-D的物體識(shí)別。KSAE-SPMP算法共分為3個(gè)階段,即整個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)分為3層:
(1)使用k稀疏自編碼算法(k-SAE)[2]分別提取低維的顏色特征和形狀特征。
(2)以階段1提取的低維特征作為輸入,使用空間金字塔最大池化算法(SPMP)[3]提取高維平移不變性特征。
(3)合并顏色特征和形狀特征作為物體最終的特征,送入Softmax分類器進(jìn)行分類。
3.1 k稀疏自編碼算法提取低維特征
圖2 簡(jiǎn)單的4-2-4結(jié)構(gòu)稀疏自編碼圖例
自編碼算法是一種無監(jiān)督的特征學(xué)習(xí)算法?,F(xiàn)在假設(shè)有1個(gè)無類別標(biāo)簽的樣本集。{x(1),x(2),…,x(m)},其中x(i)∈Rn。自編碼算法通過反向傳播算法,期望輸出的目標(biāo)值等于輸入值,即x^(i)=x(i),這樣可以說隱層節(jié)點(diǎn)值y(i)是x(i)的另一種表示,即可作為輸入x(i)的特征。如果在隱層節(jié)點(diǎn)上加入稀疏性限制,可以發(fā)現(xiàn)原始輸入的一些有價(jià)值的數(shù)據(jù)結(jié)構(gòu)。稀疏性可以簡(jiǎn)單地解釋如下:假設(shè)使用sigmoid函數(shù)作為神經(jīng)元的激活函數(shù),當(dāng)神經(jīng)元的輸出接近1時(shí),認(rèn)為它是被激活的,而輸出接近0時(shí),認(rèn)為它是被抑制的。當(dāng)隱層節(jié)點(diǎn)數(shù)目較多時(shí),希望大多數(shù)隱層節(jié)點(diǎn)處于抑制狀態(tài),以期發(fā)現(xiàn)輸入數(shù)據(jù)中的結(jié)構(gòu)。圖2是一個(gè)簡(jiǎn)單的三層稀疏自編碼網(wǎng)絡(luò),輸入層、隱層和輸出層節(jié)點(diǎn)數(shù)分別為4、2和4。近年來的研究表明,通過鼓勵(lì)稀疏的方式學(xué)習(xí)到的特征在分類任務(wù)中通常有著優(yōu)異的表現(xiàn)。
在典型的稀疏自編碼算法[14]中,使用公式(1)作為總體的代價(jià)函數(shù)。其中第1項(xiàng)為均方差項(xiàng),第2項(xiàng)為權(quán)重衰減項(xiàng),第3項(xiàng)為稀疏懲罰項(xiàng),用來控制隱層節(jié)點(diǎn)的稀疏性。通過反向誤差傳播來優(yōu)化參數(shù){W,b},迭代過若干次后,期望輸出x^(i)=x(i)。
Makhzani等人提出了一種改進(jìn)的稀疏自編碼算法k稀疏自編碼[2]。k稀疏自編碼算法使用線性的激活函數(shù),在隱層節(jié)點(diǎn)中,每次選取最大的k個(gè)激活值,并將其他的所有激活值設(shè)置為0。誤差反向傳播的每次迭代中均如此設(shè)置,直至迭代完成。得到優(yōu)化后的參數(shù){W,b}后,對(duì)于輸入x(i),計(jì)算特征f=Wx+b并選取其中最大的αk個(gè)最大的激活作為最終的特征,其中α≥1,其它所有的激活值全部設(shè)置為0。k稀疏自編碼在手寫數(shù)字識(shí)別等領(lǐng)域取得了優(yōu)異的表現(xiàn)。
本文使用k稀疏自編碼算法作為KSAE-SPMP深度學(xué)習(xí)網(wǎng)絡(luò)的第1層,分別從RGB圖像和深度圖像中提取物體的低維顏色特征和低維形狀特征。首先,將所有的圖片大小縮放至r×r,并從RGB圖像和深度圖像中分別隨機(jī)提取h個(gè)圖像塊,每個(gè)圖像塊的長(zhǎng)和寬均為s。分別使用RGB和深度圖像塊作為輸入,訓(xùn)練2個(gè)k稀疏自編碼,一個(gè)用于提取RGB圖像特征,另一個(gè)用于提取深度圖像特征。訓(xùn)練完成后,分別使用這2個(gè)k稀疏自編碼作為映射函數(shù),從每張RGB和深度圖像中以卷積的方式逐像素提取顏色特征和形狀特征。假設(shè)k稀疏自編碼的隱層節(jié)點(diǎn)個(gè)數(shù)為q,則卷積后得到的顏色特征和形狀特征均為一個(gè)大小為t×t×q的三維矩陣,t=r–s+1。為降低特征的維度,對(duì)三維矩陣進(jìn)行了簡(jiǎn)單的平均池化,將池化后的三維矩陣送入空間金字塔最大池化層,從低維特征中提取空間平移不變性特征。
3.2 空間金字塔最大池化算法提取高維特征
空間金字塔最大池化(SPMP)[3]是一種有效地從低維特征中提取抽象的空間平移不變特征的算法。對(duì)于每一張RGB圖像和深度圖像來說,k稀疏自編碼層輸出的低維特征均為一個(gè)三維矩陣。圖3為空間金字塔最大池化的簡(jiǎn)單描述,圖中每個(gè)點(diǎn)代表1個(gè)q維的向量。
空間金字塔最大池化算法將所有的點(diǎn)劃分為d2個(gè)塊,其中d取不同的值。圖3中的4個(gè)子圖d的取值分別為1、2、3和4。假設(shè)每個(gè)塊C共包含p個(gè)點(diǎn),即共有p個(gè)q維向量,將其組合成1個(gè)大小為p×q維的矩陣。如公式(2)所示,對(duì)于矩陣的每一行,取最大的值作為最終的特征值,所以對(duì)于每個(gè)塊C,最終結(jié)果為1個(gè)q維的向量。
對(duì)于每張圖片,選取不同的d值后,假設(shè)圖片共被分為了r個(gè)塊。如圖3中選取d=1、2、3、4,此圖片共被劃分為了r = 12+22+32+42=30個(gè)塊。對(duì)于每一個(gè)塊C,最終特征結(jié)果均為1個(gè)q維矩陣,所以每張圖片的最終特征為1個(gè)r×q維的向量。
3.3 Softmax分類器完成分類
圖3 空間金字塔最大池化簡(jiǎn)單示例
對(duì)于物體的每個(gè)樣本而言,RGB圖像和深度圖像經(jīng)過空間金字塔最大池化提取后的特征均為1個(gè)r×q維的向量,將這2個(gè)r×q維的向量合并為1個(gè)2×r×q維的向量,此向量為每個(gè)樣本最終的特征向量。分別提取每個(gè)樣本的特征向量,并將樣本分為訓(xùn)練樣本集和測(cè)試樣本集2個(gè)部分。Softmax分類器是深度學(xué)習(xí)領(lǐng)域一個(gè)常用的快速分類器,在手寫數(shù)字識(shí)別和物體識(shí)別等領(lǐng)域都取得了優(yōu)秀的分類結(jié)果。本文選擇Softmax分類器來測(cè)試KSAE-SPMP算法的準(zhǔn)確性。首先使用訓(xùn)練集對(duì)Softmax分類器進(jìn)行訓(xùn)練,然后使用測(cè)試樣本集作為輸入,得到最終的物體識(shí)別準(zhǔn)確率。
為驗(yàn)證KSAE-SPMP算法的有效性,本文采用了馬克思·普朗克學(xué)會(huì)Browatzki等人公布的2D3D數(shù)據(jù)庫。2D3D數(shù)據(jù)庫包含14個(gè)類別,共計(jì)156個(gè)室內(nèi)常見的物體,每個(gè)類別包括10個(gè)左右的物體。每個(gè)物體包含36對(duì)RGB圖像和深度圖像,這些圖像是由物體放置在托盤上每旋轉(zhuǎn)20度拍攝1張而成。
4.1 實(shí)驗(yàn)過程
為與先前提出的以2D3D數(shù)據(jù)庫[13]為測(cè)試數(shù)據(jù)集的方法進(jìn)行實(shí)驗(yàn)結(jié)果的對(duì)比,采用了與之相同的實(shí)驗(yàn)過程。每次實(shí)驗(yàn)中,隨機(jī)地將數(shù)據(jù)庫分為2個(gè)部分,一部分作為訓(xùn)練樣本,一部分作為測(cè)試樣本。分割規(guī)則為隨機(jī)地從每個(gè)類別中挑選出6個(gè)物體用于訓(xùn)練,剩余的物體用于測(cè)試。對(duì)于類別中物體個(gè)數(shù)小于6的樣本,隨機(jī)選取1個(gè)物體用于測(cè)試,剩余的物體用于訓(xùn)練,保證每個(gè)類別中至少有1個(gè)物體用于測(cè)試。對(duì)于每個(gè)物體,選取其中角度均勻分布的18張圖片用于訓(xùn)練或者測(cè)試。最終的訓(xùn)練樣本包含82個(gè)物體,共計(jì)1 476張圖片,測(cè)試樣本包含74個(gè)物體,1 332張圖片。整個(gè)實(shí)驗(yàn)重復(fù)30次,每次隨機(jī)分割數(shù)據(jù)庫,最終的實(shí)驗(yàn)結(jié)果取30次實(shí)驗(yàn)結(jié)果的平均值。
數(shù)據(jù)庫分割完成后,首先將所有的圖片大小重置為194×194,然后從訓(xùn)練樣本中的RGB圖像和深度圖像中分別隨機(jī)提取300 000個(gè)大小為10×10的圖像塊,并用這些圖片塊作為k稀疏自編碼算法的輸入,完成k稀疏自編碼算法的訓(xùn)練。k稀疏自編碼算法的隱層節(jié)點(diǎn)個(gè)數(shù)為300,k的值選擇25。完成訓(xùn)練后,以卷積的方式逐像素地從每張圖片中提取特征。每張RGB圖片和深度圖片的特征均為1個(gè)300×185×185的三維矩陣。分別對(duì)這些三維矩陣進(jìn)行簡(jiǎn)單的平均池化,池化滑動(dòng)窗口大小為10×10,步長(zhǎng)為5。池化后的特征為300×36×36的三維矩陣。對(duì)每個(gè)三維矩陣進(jìn)行空間金字塔最大池化,選取d分別為1、2、3、4,每張RGB圖像和深度圖像的最終特征均為30×300 = 9000維的向量。將每個(gè)樣本從RGB圖像和深度圖像中提取的特征進(jìn)行合并,得到最終的特征,特征最終的維度為18 000。提取完所有樣本的特征后,使用訓(xùn)練樣本集訓(xùn)練Softmax分類器,使用測(cè)試樣本集得到最終的物體識(shí)別準(zhǔn)確率。
4.2 實(shí)驗(yàn)結(jié)果對(duì)比
在本文之前,已經(jīng)有學(xué)者提出了一些深度學(xué)習(xí)算法用于2D3D數(shù)據(jù)庫中物體的識(shí)別。表1列出了本文以及之前的一些算法所取得的物體識(shí)別的準(zhǔn)確率。2D3D數(shù)據(jù)庫的作者Browatzki等人采用手動(dòng)的特征提取算法[13],識(shí)別準(zhǔn)確率較低。Liefeng Bo等人采用分層匹配追蹤深度學(xué)習(xí)算法[10],識(shí)別結(jié)果得到明顯提高。新提出的算法KSAE-SPMP的識(shí)別準(zhǔn)確率與之前最好的結(jié)果相比[10]提高了1.4%,獲得了最高的識(shí)別準(zhǔn)確率。另外,RGB圖像和深度圖像特征結(jié)合時(shí)取得的識(shí)別準(zhǔn)確率明顯高于單獨(dú)使用RGB圖像或者深度圖像,這說明KSAE-SPMP算法能高效地完成多分類RGB-D物體的識(shí)別。
表1 物體識(shí)別準(zhǔn)確率結(jié)果及對(duì)比/%
本文采用RGB-D數(shù)據(jù)庫,結(jié)合物體的顏色信息和深度信息,提出了一種新的無監(jiān)督深度學(xué)習(xí)算法KSAE-SPMP來完成物體的識(shí)別。實(shí)驗(yàn)結(jié)果表明,與單獨(dú)使用RGB圖像和深度圖像相比,結(jié)合RGB圖像特征和深度圖像特征能有效提高物體識(shí)別的準(zhǔn)確率。KSAE-SPMP算法學(xué)習(xí)到了極具代表性的特征,在標(biāo)準(zhǔn)的RGB-D數(shù)據(jù)庫2D3D上,與之前的工作相比,KSAE-SPMP算法取得了更高的物體識(shí)別準(zhǔn)確率。KSAE-SPMP算法能高效地完成多分類物體的識(shí)別。
[1] 孫志軍,薛磊,許陽明,等. 深度學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012,29(8): 2806-2810.
[2] Makhzani A, Frey B. k-Sparse Autoencoders[J]. arXiv preprint arXiv, 2013: 1312-5663.
[3] Bo L, Ren X, Fox D. Hierarchical Matching Pursuit for Image Classifi cation: Architecture and Fast Algorithms[J]. NIPS, 2011,1(2): 6-6.
[4] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006,18(7): 1527-1554.
[5] Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]. Proceedings of the 25th international conference on machine learning, ACM, 2008: 1096-1103. [6] Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]. Proceedings of the 26th Annual International Conference on Machine Learning, ACM, 2009: 609-616.
[7] Blum M, Springenberg J T, Wulfing J, et al. A learned feature descriptor for object recognition in rgb-d data[C]. Robotics and Automation(ICRA), 2012 IEEE International Conference on IEEE, 2012: 1298-1303.
[8] Coates A, Ng A Y. The importance of encoding versus training with sparse coding and vector quantization[C]. Proceedings of the 28th International Conference on Machine Learning(ICML-11), 2011: 921-928.
[9] Yu K, Lin Y, Lafferty J. Learning image representations from the pixel level via hierarchical sparse coding[C]. Computer Vision and Pattern Recognition(CVPR), 2011 IEEE Conference on IEEE, 2011: 1713-1720.
[10] Bo L, Ren X, Fox D. Unsupervised feature learning for RGB-D based object recognition[C]. Experimental Robotics, Springer International Publishing, 2013: 387-402. [11] Socher R, Huval B, Bath B P, et al. Convolutional-Recursive Deep Learning for 3D Object Classification[C]. NIPS, 2012: 665-673.
[12] Lai K, Bo L, Ren X, et al. A large-scale hierarchical multi-view rgb-d object dataset[C]. Robotics and Automation(ICRA), 2011 IEEE International Conference on IEEE, 2011: 1817-1824.
[13] Browatzki B, Fischer J, Graf B, et al. Going into depth: Evaluating 2D and 3D cues for object classifi cation on a new, large-scale object dataset[C]. Computer Vision Workshops(ICCV Workshops), 2011 IEEE International Conference on IEEE, 2011: 1189-1195.
[14] Deng J, Zhang Z, Marchi E, et al. Sparse autoencoderbased feature transfer learning for speech emotion recognition[C]. Affective Computing and Intelligent Interaction(ACII), 2013 Humaine Association Conference on, 2013: 511-516.
[15] 王寧波. 基于RGB-D的行人檢測(cè)[D]. 杭州: 浙江大學(xué), 2013.
[16] 吳鑫,王桂英,叢楊. 基于顏色和深度信息融合的目標(biāo)識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2013(A01): 96-100.★
盧良鋒:碩士研究生就讀于寧波大學(xué),研究方向?yàn)樯疃葘W(xué)習(xí)。
何加銘:教授,博士生導(dǎo)師,主要研究方向?yàn)橐苿?dòng)通信。
謝志軍:寧波大學(xué)副教授,研究方向?yàn)闊o線傳感器網(wǎng)絡(luò)、基于TDLTE的新一代無線通信技術(shù)、RFID等。
RGB-D Object Recognition Algorithm Based on Deep Learning
LU Liang-feng, HE Jia-ming, XIE Zhi-jun, SUN De-chao
(Ningbo University, Ningbo 315211, China)
Combined with RGB and depth images, a novel unsupervised object recognition algorithm KSAE-SPMP based on deep learning was put forward. A standard RGB-D database 2D3D was adopted to verify the proposed algorithm. Experimental results demonstrated that compared with RGB-D algorithm based on object recognition proposed previously, KSAE-SPMP algorithm has the highest accurate identification rate, which is able to complete the RGB-D object recognition commendably.
object recognition RGB-D image K sparse auto encoding spatial pyramid max pooling Softmax classifi er
10.3969/j.issn.1006-1010.2015.10.010
TP391.4
A
1006-1010(2015)10-0052-05
盧良鋒,何加銘,謝志軍,等. 基于深度學(xué)習(xí)的RGB-D物體識(shí)別算法[J]. 移動(dòng)通信, 2015,39(10): 52-56.
浙江省移動(dòng)網(wǎng)絡(luò)應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室(2010E10005);浙江省新一代移動(dòng)互聯(lián)網(wǎng)用戶端軟件科技創(chuàng)新團(tuán)隊(duì)(2010R50009);新型輸入引擎及搜索與識(shí)別算法研究(2012R10009-19);浙江省重中之重學(xué)科開放基金項(xiàng)目(xkxl1305)
2014-12-04
責(zé)任編輯:劉妙 liumiao@mbcom.cn