陶 婧
(蕪湖職業(yè)技術(shù)學(xué)院 公共管理學(xué)院,安徽 蕪湖 241000)
目標(biāo)識別技術(shù)是一種通過各類算法對目標(biāo)進(jìn)行特征識別的技術(shù).早期的目標(biāo)識別技術(shù)包括文字識別、二維圖像識別技術(shù)、三維空間物體識別技術(shù),維度越高識別技術(shù)的難度越大[1].19世紀(jì)60年代二維圖像識別技術(shù)開始起步,隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,人們找到了提高二維圖像識別效率的方法.將計(jì)算機(jī)技術(shù)與圖像處理技術(shù)相結(jié)合,大大提高了二維圖像識別的精準(zhǔn)度[2].隨著二維圖像的數(shù)據(jù)復(fù)雜化以及動態(tài)圖像的發(fā)展,普通的目標(biāo)識別技術(shù)已經(jīng)不能滿足科技發(fā)展的欲望.由此,三維目標(biāo)識別技術(shù)應(yīng)運(yùn)而生.三維圖像識別技術(shù)是通過對三維空間的某一物體進(jìn)行三維觀察取樣,然后通過二維識別技術(shù)對每一維圖像進(jìn)行特征識別,最后將每一維的特征整合到一起得到三維物體在三維空間中的位置和姿態(tài)[3].目前,三維目標(biāo)識別技術(shù)是計(jì)算機(jī)視覺技術(shù)領(lǐng)域的研究熱門.其在軍事領(lǐng)域?qū)椫茖?dǎo)、智能領(lǐng)域無人駕駛、工業(yè)自動化智能機(jī)器人、航天遙感技術(shù)以及生物醫(yī)藥設(shè)備領(lǐng)域等發(fā)揮著重要作用.
隨著新型目標(biāo)識別技術(shù)的發(fā)展,目標(biāo)識別技術(shù)所能達(dá)到的領(lǐng)域越來越接近于人眼功能.深度學(xué)習(xí)誕生于21世紀(jì)初,是由“神經(jīng)網(wǎng)絡(luò)之父”Hinton提出的一種在神經(jīng)網(wǎng)絡(luò)算法基礎(chǔ)上的一種全新的訓(xùn)練方法[4].深度學(xué)習(xí)算法有效避免了神經(jīng)網(wǎng)絡(luò)算法中的過擬合的問題.隨著信息科學(xué)的發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)來臨,并且隨著CPU等硬件系統(tǒng)計(jì)算能力的提升,大規(guī)模數(shù)據(jù)非線性計(jì)算也越來越多.因此,利用深度學(xué)習(xí)算法對大數(shù)據(jù)的研究是必不可少的.深度網(wǎng)絡(luò)是一種模擬人腦行為尋找規(guī)律特征的算法,包含多個神經(jīng)網(wǎng)絡(luò)模塊,通過每一層神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行特征提取和抽象,每一層神經(jīng)網(wǎng)絡(luò)中還分為多個單元層,通過多層篩選對數(shù)據(jù)進(jìn)行特征提取,低層特征經(jīng)過再提取就得到了高層特征.提取的特征越來越抽象,也越具有代表性[5].由此,三維識別技術(shù)在利用特征對目標(biāo)進(jìn)行識別的過程中也更為精確.本文研究將深度學(xué)習(xí)算法更高效的應(yīng)用到三維目標(biāo)識別技術(shù)領(lǐng)域,為三維識別技術(shù)領(lǐng)域提供一種新的研究方向,并且擴(kuò)展了深度學(xué)習(xí)算法的應(yīng)用領(lǐng)域.
本文主要研究了基于深度學(xué)習(xí)算法的顏色-深度(Red/Green/Blue-Depth,RGB-D)物體識別技術(shù).本文對RGB-D物體識別技術(shù)進(jìn)行了詳細(xì)的分析,并對目標(biāo)識別技術(shù)中的深度學(xué)習(xí)算法的幾種典型的網(wǎng)絡(luò)模型進(jìn)行了詳細(xì)的闡述.
在目標(biāo)識別技術(shù)中,通常用的方法是利用多幅二維圖像的點(diǎn)集特征來確定三維物體在空間中的位置和姿態(tài)信息.深度成像傳感器可以檢測三維空間中的目標(biāo)物體表面上的各個點(diǎn)三維坐標(biāo)信息.深度成像傳感器輸出的圖像被稱為深度圖像.其原理是通過對目標(biāo)物體發(fā)射連續(xù)的近紅外脈沖,利用深度成像傳感器接收由物體反射回的光脈沖.通過比較發(fā)射光脈沖與反射回的光脈沖的相位差,可以推算到光脈沖之間的傳輸延遲進(jìn)而得到目標(biāo)物體相對于發(fā)射器的距離,最終得到一幅帶深度信息的圖像(Depth).
通過識別物體的顏色信息,在圖像上體現(xiàn)相應(yīng)的紅(R)、綠(G)、藍(lán)(B)三種顏色以及相互疊加得到的顏色,得到的圖像即為二維彩色圖像(RGB).RGB圖像的優(yōu)勢在于不僅可以體現(xiàn)物體的顏色特性,將RGB圖像轉(zhuǎn)化為灰度圖像時(shí)還可以體現(xiàn)物體的紋理特征,如圖1.
圖1 RGB圖像轉(zhuǎn)化的灰度圖像
RGB圖像和Depth圖像之間的比較見圖2.
圖2 RGB圖像和Depth圖像之間的比較
對于三維空間的物體,如果只單獨(dú)采用RGB圖像或者深度圖像進(jìn)行識別,一般獲取的識別效果并不理想.將RGB特征與深度特征采用有效的融合方法進(jìn)行融合,可以有效提高物體識別率.因此,提出了RGB-D物體識別技術(shù).RGB-D物體識別技術(shù)是在用于檢測三維空間中物體表面的目標(biāo)點(diǎn)在三維空間中距離成像設(shè)備的距離的三維傳感器的基礎(chǔ)上,采用RGB攝像機(jī)檢測三維空間中物體表面的紋理、輪廓和顏色等特征.彌補(bǔ)了基于二維圖像的識別方法缺少空間立體感、空間位置等信息的不足,對于物體識別的研究具有非常重大的意義.
該技術(shù)的算法的框架如圖3,主要為特征提取、融合和識別三個過程.提取特征部分主要采用多層匹配追蹤算法從深度圖像及RGB圖像中分別提取出深度特征和RGB特征.融合特征部分是采用特征級融合方法將上述得到的特征進(jìn)行深度融合,得到融合特征.特征識別部分是運(yùn)用SVM分類器進(jìn)行分類識別,并根據(jù)特征融合情況調(diào)整融合參數(shù),對識別尋優(yōu).
圖3 RGB-D物體識別技術(shù)算法的實(shí)現(xiàn)框架
RGB-D物體識別技術(shù)的硬件系統(tǒng)主要由三維傳感器成像設(shè)備以及微軟研發(fā)的Kinect攝像機(jī)組成.在實(shí)際應(yīng)用中,整個成像設(shè)備可以減少光照變化、陰影、視角變化等外界因素對物體識別的干擾,獲取圖像魯棒性的特征,穩(wěn)定地反映物體表面的三維幾何特性,得到高質(zhì)量的RGB圖像和深度圖像.并且這兩種圖像之間的信息保證完全獨(dú)立,可以相互結(jié)合使用.
深度學(xué)習(xí)算法是一種類似于人腦的尋找潛在聯(lián)系的算法.深度學(xué)習(xí)算法能夠在大規(guī)模的數(shù)據(jù)當(dāng)中將數(shù)據(jù)特征從具體到抽象,并且可以進(jìn)行多層傳遞.深度學(xué)習(xí)算法是人工神經(jīng)網(wǎng)絡(luò)的進(jìn)化版.一個深度學(xué)習(xí)算法中通常包含三層或者三層以上的神經(jīng)網(wǎng)絡(luò)模型.在功能上比神經(jīng)網(wǎng)絡(luò)算法更加具有可行性.目前,深度學(xué)習(xí)算法廣泛應(yīng)用于在線語音識別、圖像識別、人臉識別以及智能系統(tǒng)識別技術(shù)中.深度學(xué)習(xí)模型包含多種,本文主要分析自動編碼機(jī)和深度卷積神經(jīng)網(wǎng)絡(luò)模型.
自動編碼機(jī)是一種非監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò).在無外界干擾的條件下,它能夠自行的對輸入數(shù)據(jù)進(jìn)行特征提取.自動編碼機(jī)的基本單元圖如圖4.
圖4 自動編碼機(jī)的基本單元圖
圖4中,自動編碼機(jī)中主要包含一個輸入層、一個隱含層和一個輸出層.其中,可以通過增加隱含層的個數(shù)來提高特征的準(zhǔn)確性.自動編碼機(jī)的編碼過程和解碼過程可以由公式(1)和公式(2)來表示.
h=f(W1x+b1),
(1)
(2)
在公式(1)中,h為輸出矢量,f為自動編碼機(jī)在尋找特征時(shí)不斷學(xué)習(xí)獲得的一個特征提取函數(shù),W1為輸入層與隱含層之間的權(quán)值,x為輸入矢量,b1為對應(yīng)的偏置.在公式(2)中,W2為輸出層與隱含層之間的權(quán)值,b2為對應(yīng)的偏置.
自動編碼機(jī)的目標(biāo)函數(shù)是以重構(gòu)出來的誤差最小.從而可以不斷更新迭代權(quán)值和偏置參數(shù).
深度卷積神經(jīng)網(wǎng)絡(luò)是監(jiān)督神經(jīng)網(wǎng)絡(luò)的一種.卷積神經(jīng)網(wǎng)絡(luò)中包含多個隱含層.其中,隱含層包括卷積層、池化層和全連接層.卷積層和池化層的主要作用就是在輸入層的大量數(shù)據(jù)中尋找特征,最終得到特征圖層.卷積層主要用于將輸出層的特征數(shù)據(jù)進(jìn)行增強(qiáng),并且可以降低無關(guān)的其余雜質(zhì)數(shù)據(jù).卷積層的卷積運(yùn)算主要根據(jù)公式(3)進(jìn)行.
yj=F(Wjx+bj),
(3)
其中,Wj為共享權(quán)值,bj為共享偏置,F(xiàn)為激活函數(shù),常用的激活函數(shù)有sigmoid函數(shù)、tanh函數(shù)以及ReLu函數(shù).
在數(shù)據(jù)進(jìn)行了卷積層經(jīng)過卷積運(yùn)算后,被運(yùn)往池化層部分.池化層利用了圖像數(shù)據(jù)局部相關(guān)性的原理,對卷積后的數(shù)據(jù)進(jìn)行采樣.采樣數(shù)據(jù)保留了原始數(shù)據(jù)的特征信息,并且減少了數(shù)據(jù)量,大大減少了數(shù)據(jù)處理量.池化層中池化的處理方法有兩種:平均池化和最大池化.池化過程的示意圖如圖5.
圖5 池化層中池化過程
由圖5可以看出,池化層首先將由卷積層輸出的數(shù)據(jù)進(jìn)行區(qū)域劃分,然后對每一個區(qū)域的數(shù)據(jù)進(jìn)行平均值或者最大值進(jìn)行求解,并作為池化結(jié)果進(jìn)行輸出.
總結(jié)上述闡述,RGB-D物體識別技術(shù)是數(shù)據(jù)獲取以及數(shù)據(jù)判別的重要技術(shù).而深度卷積神經(jīng)網(wǎng)絡(luò)算法是處理數(shù)據(jù),尋找數(shù)據(jù)特征的主要算法.兩者的結(jié)合可以實(shí)現(xiàn)對三維空間中物體進(jìn)行捕捉、處理以及識別的過程.深度卷積神經(jīng)網(wǎng)絡(luò)在一定程度上不僅增強(qiáng)了原始數(shù)據(jù)種獨(dú)有的特征,并且降低了其中的干擾雜質(zhì)數(shù)據(jù),使得辨識效率和精度大幅增加,是一種非常好的處理手段.
隨著單層卷積神經(jīng)網(wǎng)絡(luò)-遞歸神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network-Recurrent Neural Network,CNN-RNN)算法的誕生,學(xué)者們利用該算法對圖像進(jìn)行處理以便辨識需要,但是這產(chǎn)生了一個更大的弊端.使得RGB-D物體識別技術(shù)獲取了RGB圖像之后,需要將圖像的大小控制在某一固定的范圍.因此,圖像會得到不同程度上的壓縮以及拉伸.這樣使得圖像在一定程度上失真.導(dǎo)致整個識別系統(tǒng)的識別精準(zhǔn)度下降.為了解決這個問題,需要對獲取的圖像進(jìn)行處理,既不損失原始圖像的信息又可以適應(yīng)RGB-D識別方法固定的輸出大小.
本文在原算法的基礎(chǔ)之上進(jìn)行了改進(jìn),提出了單層卷積神經(jīng)網(wǎng)絡(luò)-空間金字塔池化層-遞歸神經(jīng)網(wǎng)絡(luò)(CNN-SPPL-RNN)算法.本文提出了利用空間金字塔池化層(Spatial Pyramid Pooling Layer,SPPL)里層代替卷積神經(jīng)網(wǎng)絡(luò)中的池化層,直接對RGB圖像中的卷積特征進(jìn)行2D金字塔池化,對Depth圖像中的卷積特征進(jìn)行3D金字塔池化.
CNN-SPPL-RNN算法的基本組成包括單層卷積神經(jīng)網(wǎng)絡(luò)(CNN)、空間金字塔池化層(SPPL)以及遞歸神經(jīng)網(wǎng)絡(luò)(RNN).三者的相互關(guān)系示意圖如圖6.
圖6 CNN-SPPL-RNN算法的基本構(gòu)成示意圖
圖6詳細(xì)介紹了CNN-SPPL-RNN算法的整個運(yùn)行過程.本文從兩個方向?qū)μ岢龅腃NN-SPPL-RNN算法進(jìn)行了驗(yàn)證.首先,利用RGB攝像機(jī)獲取RGB圖像或Depth圖像;對圖像進(jìn)行數(shù)據(jù)化,利用k-means聚類算法進(jìn)行處理,并同時(shí)學(xué)習(xí)兩類圖像視角的卷積濾波器系數(shù).然后濾波除去多余的雜質(zhì)數(shù)據(jù);經(jīng)過卷積運(yùn)算獲得具有低級數(shù)據(jù)特征的單層神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)矩陣;利用2D金字塔池化算法對每一層數(shù)據(jù)矩陣進(jìn)行池化操作;將池化后的數(shù)據(jù)作為多個固定樹型遞歸神經(jīng)網(wǎng)絡(luò)的輸出,使數(shù)據(jù)特征進(jìn)一步得到提煉,最終得到更加高級的數(shù)據(jù)特征.
本文借鑒了華盛頓大學(xué)相關(guān)研究人員的WRGB-D數(shù)據(jù)集以及2D3D數(shù)據(jù)集,利用MATLAB仿真平臺進(jìn)行了程序編寫.從數(shù)據(jù)集中隨機(jī)采樣了400000個子塊.利用聚類算法得到了128個濾波器系數(shù).其中RGB方向的濾波器尺寸為9×9×3,Depth方向的濾波器尺寸為9×9.然后通過卷積運(yùn)算可以得到卷積特征.神經(jīng)網(wǎng)絡(luò)N=64的固定樹型RNN神經(jīng)網(wǎng)絡(luò).利用RNN神經(jīng)網(wǎng)絡(luò)對RGB方向和Depth方向的特征maps進(jìn)行進(jìn)一步的特征提取.隨機(jī)權(quán)值取[-1,1]直接的隨機(jī)數(shù),激活函數(shù)選用tanh.結(jié)合RGB方向和Depth方向的抽象特征,最終得到組合特征.
本文在WRGB-D數(shù)據(jù)集上對RGB方向和Depth方向的抽象特征數(shù)據(jù)進(jìn)行驗(yàn)證.并驗(yàn)證本文提出的CNN-SPPL-RNN算法,實(shí)驗(yàn)結(jié)果如下表.
表1 WRGB-D數(shù)據(jù)集結(jié)果對比
由上表可以看出,經(jīng)過WRGB-D數(shù)據(jù)集的對比,可以得出通過RGB方向和Depth方向得到的數(shù)據(jù)特征平均分辨率達(dá)到了91.9%和93.2%.二者結(jié)合使用的平均分辨率達(dá)到了93.7%.經(jīng)過實(shí)驗(yàn)驗(yàn)證,識別準(zhǔn)確率達(dá)到了90.8%.這證明了本文提出的CNN-SPPL-RNN特征提取算法具有非常高的精準(zhǔn)度.
針對三維空間中實(shí)物目標(biāo)識別中存在的問題以及現(xiàn)存識別技術(shù)中存在的弊端,本文利用了深度神經(jīng)網(wǎng)絡(luò),將該網(wǎng)絡(luò)應(yīng)用到了三維空間目標(biāo)識別技術(shù)當(dāng)中.深度神經(jīng)網(wǎng)絡(luò)能夠快速準(zhǔn)確地提取大數(shù)據(jù)中的特征數(shù)據(jù).本文根據(jù)深度神經(jīng)網(wǎng)絡(luò)的這種特性提出了CNN-SPPL-RNN算法.實(shí)驗(yàn)數(shù)據(jù)表明,當(dāng)采取CNN-SPPL-RNN算法來對三維空間實(shí)物進(jìn)行識別的精準(zhǔn)度達(dá)到了90%以上.本文還將RGB方向和Depth方向相結(jié)合,組成針對三維物體的組合特性.根據(jù)實(shí)驗(yàn)數(shù)據(jù)表明,組合特性對三維實(shí)物的識別準(zhǔn)確率達(dá)到了93.7%.這些實(shí)驗(yàn)數(shù)據(jù)證明了本文提出的CNN-SPPL-RNN算法可以應(yīng)用到三維目標(biāo)識別系統(tǒng)中,該方法是可行的.