黃 強(qiáng),王永雄
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093) E-mail :channhuang@163.com
3D物體識(shí)別是機(jī)器視覺、計(jì)算機(jī)圖形學(xué)等的主要研究方向之一,也是自然場景理解最具挑戰(zhàn)性的任務(wù)之一.在圖像處理中,二維圖像被離散化為多個(gè)像素點(diǎn).3D模型的處理與之類似,被離散化為多個(gè)三維體素(volume pixel)點(diǎn).3D模型分類的重點(diǎn)是提取三維結(jié)構(gòu)的內(nèi)部特征.近年來,不同的特征描述方法相繼被提出,例如幾何特征[1]、拓?fù)涮卣鱗2]、部分級(jí)特征[3]等.也有很多研究者利用不同的深度學(xué)習(xí)網(wǎng)絡(luò)自動(dòng)提取3D模型的立體特征[4-8],并進(jìn)行分類和檢索,取得了一些成果,如深度卷積網(wǎng)絡(luò)[9]、深度玻爾茲曼機(jī)[10]、深度自編碼器[11]、深度殘差網(wǎng)絡(luò)[12]等.Charles等人[13]提出了基于3D點(diǎn)云圖的深度網(wǎng)絡(luò)結(jié)構(gòu),用于3D物體識(shí)別.Xie等人[14]提出了一種基于深度卷積能量模型的3D特征提取的網(wǎng)絡(luò),使用的綜合分析方法可以合成三維圖形.這些方法大都是沿用圖像特征提取的方法,使用更復(fù)雜的網(wǎng)絡(luò)直接提取3D特征.
另一種思路是將一個(gè)3D模型看作是一系列2D圖像的集合,這些圖像是3D模型在不同視角下的投影圖.Cyr和Kimia[15]利用多視角投影提取了3D模型的特征和姿態(tài).Chen等人[16]提出了用2D投影的輪廓描述3D模型特征的LFD算法.Xie等人[17]進(jìn)一步提出了基于多視角3D模型的MVD-ELM算法,在3D模型分類中引入了超限學(xué)習(xí)機(jī)(ELM)[18]網(wǎng)絡(luò).Wang等人[19]提出了CAE-ELM算法,將自編碼器和ELM結(jié)合應(yīng)用于3D特征學(xué)習(xí)上.這些方法取得了一定的突破,但是3D物體識(shí)別的準(zhǔn)確率和實(shí)時(shí)性仍然有待提高.
近年來,ELM[18]受到了廣泛的關(guān)注.ELM不會(huì)陷入局部最優(yōu)、不用考慮學(xué)習(xí)率、訓(xùn)練速度快、網(wǎng)絡(luò)結(jié)構(gòu)簡單穩(wěn)定等優(yōu)點(diǎn)使其成為研究的熱點(diǎn)之一.Huang等人[20]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和ELM提出了基于超限學(xué)習(xí)機(jī)的局部感知域(LRF-ELM),在圖像分類上取得了新的突破,并且其訓(xùn)練時(shí)間相比于其它深度學(xué)習(xí)方法減少了3個(gè)數(shù)量級(jí).不過ELM網(wǎng)絡(luò)在很多實(shí)際應(yīng)用中的準(zhǔn)確率不如深度學(xué)習(xí)的方法,但是ELM作為分類層卻能取得很好的效果.
殘差網(wǎng)絡(luò)(ResNet)[21]在很多大規(guī)模圖像數(shù)據(jù)集的分類中表現(xiàn)優(yōu)異.它能使一百多層的網(wǎng)絡(luò)結(jié)構(gòu)依然保持很高的準(zhǔn)確率而不退化,得益于網(wǎng)絡(luò)層之間大量恒等映射的快捷連接.
本文嘗試將改進(jìn)的殘差單元和ELM網(wǎng)絡(luò)進(jìn)行結(jié)合,用于3D物體識(shí)別.殘差單元利用恒等映射將優(yōu)化目標(biāo)變成一個(gè)個(gè)容易優(yōu)化的函數(shù).基本的殘差單元都是兩個(gè)或三個(gè)卷積核加上一個(gè)恒等映射的快捷連接.對(duì)于層數(shù)較少的網(wǎng)絡(luò),這樣會(huì)導(dǎo)致待優(yōu)化的函數(shù)具有一定的局限性.在實(shí)驗(yàn)中,我們以一種規(guī)范的方式依次增加基本殘差單元的映射通道數(shù),尋找到最佳的網(wǎng)絡(luò)結(jié)構(gòu).這種新的網(wǎng)絡(luò)單元稱之為融合卷積單元.融合卷積單元包含多個(gè)和恒等映射并行的卷積層、mask層和池化層(如圖4、圖6所示).它的卷積通道數(shù)可以變化,增加的通道上的卷積個(gè)數(shù)依次增加.多個(gè)不同的融合卷積單元組成的融合卷積網(wǎng)絡(luò)和ELM網(wǎng)絡(luò)結(jié)合得到了一種新型的網(wǎng)絡(luò)結(jié)構(gòu),本文稱之為基于超限學(xué)習(xí)機(jī)的融合卷積網(wǎng)絡(luò)(CCN-ELM).
本文提出的方法的主要特點(diǎn)有:
·CCN-ELM的輸入為3D模型的多視角圖像,對(duì)于每一個(gè)投影圖通道(維度),它們的卷積參數(shù)共享.
·一個(gè)3D模型的所有視角圖像經(jīng)過不同的旋轉(zhuǎn)、平移等仿射變換可以產(chǎn)生一個(gè)新的訓(xùn)練樣本.本文使用這種方式將訓(xùn)練數(shù)據(jù)擴(kuò)充了一倍.
·CCN-ELM的基本網(wǎng)絡(luò)框架是多層ELM,但是它不同于傳統(tǒng)的ELM.其一半的網(wǎng)絡(luò)參數(shù)是以高斯分布隨機(jī)產(chǎn)生,另一半的參數(shù)則通過在稀疏矩陣上疊加噪聲來尋優(yōu)的方式獲得.實(shí)驗(yàn)顯示,這種半隨機(jī)的ELM網(wǎng)絡(luò)的效果更好.
·針對(duì)殘差網(wǎng)絡(luò)單元擬合能力不足的問題,提出的融合卷積單元改進(jìn)了殘差項(xiàng)函數(shù)的形式,使其能擬合更復(fù)雜的非線性函數(shù),增加了低層網(wǎng)絡(luò)的特征提取能力.同時(shí)網(wǎng)絡(luò)結(jié)構(gòu)更加規(guī)范,多通道之間的卷積沒有互連,降低了網(wǎng)絡(luò)的耦合度.
·通過高斯分布產(chǎn)生的卷積核參數(shù)經(jīng)過了歸一化處理,給隱含層通道的特征提取帶來了好處,也降低了特征擴(kuò)散的風(fēng)險(xiǎn).
·在卷積層和池化層之間增加了mask層,可以過濾背景和一些干擾特征,起到非極大值抑制的作用.
這種網(wǎng)絡(luò)結(jié)構(gòu)不僅準(zhǔn)確率高,而且速度快、易于實(shí)現(xiàn),其識(shí)別3D物體的過程如圖1所示.
本文使用Princeton ModelNet[9]中的3D模型作為網(wǎng)絡(luò)的輸入.因?yàn)橐话愕木矸e網(wǎng)絡(luò)更適合處理二維的圖像和形狀,所以我們并不是直接在3D模型上進(jìn)行操作,而是先獲得其在多個(gè)視角下的投影圖,再將投影圖的集合輸入到網(wǎng)絡(luò)中.
輸入層.利用MVD-ELM[17]中的方法,使用OpenGL打開3D模型的.off文件.以模型的中心為中心點(diǎn),構(gòu)造一個(gè)正多面體,在多面體的頂點(diǎn)處對(duì)3D模型進(jìn)行投影.不同的投影點(diǎn)(視角)可以得到不同的投影圖,如圖2所示.假設(shè)投影點(diǎn)個(gè)數(shù)為D,則對(duì)于每一個(gè)3D模型,它都可以用D個(gè)圖像(分辨率為d×d)的集合來表示.每一個(gè)3D模型都可以表示成d×d×D的三維視圖.對(duì)于每一個(gè)投影圖像,我們另構(gòu)造了一個(gè)mask圖像,它是原圖劃去了背景和不相關(guān)元素后的二值圖像.Mask圖像用于卷積層和池化層之間的mask層.
圖1 CCN-ELM網(wǎng)絡(luò)識(shí)別3D物體的過程Fig.1 Prediction process of our CCN-ELM framework for 3D object recognition
圖2 從多個(gè)視角得到3D模型的不同投影圖Fig.2 A series of 2D depth images are captured from the 3D object with different viewpoints
超限學(xué)習(xí)機(jī)(ELM)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò).不同于其它的反向傳播、權(quán)值迭代調(diào)整的神經(jīng)網(wǎng)絡(luò),ELM網(wǎng)絡(luò)的輸入層和隱含層之間的權(quán)值全部隨機(jī)產(chǎn)生,并且不需要調(diào)整.隱含層和輸出層之間的權(quán)值滿足方程Hβ=T,H為特征矩陣,T為標(biāo)簽矩陣,訓(xùn)練過程為求解參數(shù)β.
ELM特征映射.給定一個(gè)輸入數(shù)據(jù)集x∈RN,ELM的輸出可以表示為:
(1)
其中,h(x)=[h(x1),…,h(xN)]T(N為訓(xùn)練樣本的數(shù)量),是隱含層的輸出矩陣.β=[β1,…,βN]是隱含層和輸出層之間的權(quán)值矩陣.h可以是任意操作的疊加(如全連接、卷積、池化、激活等),稱為x的特征映射.β是待訓(xùn)練的權(quán)值(不考慮偏置).在ELM網(wǎng)絡(luò)里,h中的參數(shù)都是以某種連續(xù)的分布隨機(jī)產(chǎn)生的,并且在訓(xùn)練和預(yù)測時(shí)保持不變,只需要訓(xùn)練和求解分類層的β.
ELM學(xué)習(xí).ELM學(xué)習(xí)是一種監(jiān)督式學(xué)習(xí).在ModelNet-10 數(shù)據(jù)集中,每一個(gè)輸入模型對(duì)應(yīng)一個(gè)標(biāo)簽類別,分別編號(hào)為1,…,10,可以得到一個(gè)標(biāo)簽矩陣T∈RN×10.T的每一行表示一個(gè)訓(xùn)練樣本的期望輸出,這一行中,標(biāo)簽編號(hào)對(duì)應(yīng)的列值為1,其余列值為-1.把構(gòu)造的映射h記作H∈RN×m(m是分類層神經(jīng)元的數(shù)量),它是樣本的特征矩陣.網(wǎng)絡(luò)的優(yōu)化目標(biāo)是最小化權(quán)值和訓(xùn)練誤差:
min C‖Hβ-T‖2+‖β‖2
(2)
其中,Hβ是實(shí)際輸出,T是期望輸出,C是正則化參數(shù),由經(jīng)驗(yàn)給出.
根據(jù)M-P廣義逆和嶺回歸理論,最優(yōu)的β∈Rm×10可以由(3)式[22]得出:
(3)
其中,I是與HHT或HTH相同大小的單位矩陣.
得到β后,網(wǎng)絡(luò)模型就可以進(jìn)行預(yù)測.將測試集加入模型中,經(jīng)過融合卷積網(wǎng)絡(luò)提取特征后得到預(yù)測數(shù)據(jù)的特征矩陣H′∈Rn×m(n表示測試樣本的數(shù)量),計(jì)算T′=H′β.T′的每一行表示一個(gè)樣本的輸出,找出每一行中的最大值,其對(duì)應(yīng)的列即為預(yù)測的輸出類別,預(yù)測過程如圖1所示.
Local Receptive Field based ELM (LRF-ELM).Huang等人[20]在ELM的基礎(chǔ)上進(jìn)一步提出了基于超限學(xué)習(xí)機(jī)的局部感知域(LRF-ELM),將全連接特征映射層替換為局部感知域,由卷積層和池化層組成.卷積核參數(shù)也是以某種連續(xù)的分布隨機(jī)產(chǎn)生.與其它的深度模型一樣,多層LRF-ELM也被用于特征學(xué)習(xí).它的優(yōu)點(diǎn)是只訓(xùn)練和優(yōu)化最后一個(gè)全連接層,因此訓(xùn)練速度很快.本文提出的模型也是基于LRF-ELM,但使用的是一種新的特征提取的網(wǎng)絡(luò)結(jié)構(gòu),并且只隨機(jī)產(chǎn)生一半的網(wǎng)絡(luò)參數(shù),另一半?yún)?shù)則通過構(gòu)造稀疏矩陣并加入高斯噪聲尋優(yōu)的方法獲得.
雖然ELM網(wǎng)絡(luò)結(jié)構(gòu)只訓(xùn)練迭代一次,但是當(dāng)網(wǎng)絡(luò)層數(shù)和訓(xùn)練樣本數(shù)較多時(shí),內(nèi)存的開銷也隨之增大.因此需要合理地設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),以滿足實(shí)際應(yīng)用.
殘差網(wǎng)絡(luò)在2015年的ILSVRC、ImageNet、COCO等計(jì)算機(jī)圖像識(shí)別任務(wù)中取得了最好的成績,并且它將深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)最多增加到了1000多層.殘差網(wǎng)絡(luò)由大量殘差單元組成,殘差單元包含2個(gè)或3個(gè)小卷積核和恒等映射的連接.這種方式使得網(wǎng)絡(luò)隨著深度的增加而不退化,在一定程度上解決了梯度爆炸的問題.同時(shí)這也反映了多層非線性網(wǎng)絡(luò)無法逼近多個(gè)恒等映射.
典型的殘差單元結(jié)構(gòu)如圖3所示.它有2層,卷積層表達(dá)式為F=W2σ(W1x)(σ表示非線性函數(shù)RELU,下同),W1和W2表示卷積操作.它并聯(lián)一個(gè)恒等映射的快捷連接(shortcut),得到y(tǒng)=F(x,{Wi})+x,經(jīng)過第二個(gè)函數(shù)得到輸出σ(y).實(shí)驗(yàn)顯示,在深度網(wǎng)絡(luò)中,優(yōu)化殘差函數(shù)更加容易.增加恒等映射的快捷連接,使得網(wǎng)絡(luò)可以以殘差來訓(xùn)練參數(shù),在不增加復(fù)雜度的情況下,顯著地提升了網(wǎng)絡(luò)的性能.
圖3 殘差單元Fig.3 A residual unit
殘差網(wǎng)絡(luò)的思想是忽略相同的主體部分,從而突出微小的變化.引入殘差后的映射對(duì)輸出的變化更加敏感.
針對(duì)低層殘差網(wǎng)絡(luò)擬合能力不足的問題,本文提出了一種改進(jìn)的融合卷積網(wǎng)絡(luò).融合卷積網(wǎng)絡(luò)由融合卷積單元(Coalesce Convolution Block)組成.融合卷積單元包含幾個(gè)和恒等映射并聯(lián)的卷積層、mask層、池化層和激活函數(shù)等(如圖6所示).融合卷積單元的通道個(gè)數(shù)表示單元的大小,每個(gè)通道上的卷積核個(gè)數(shù)恒定,增加的通道的卷積核個(gè)數(shù)依次增加.這樣做的好處是網(wǎng)絡(luò)可以以較少的層數(shù)獲得深度殘差網(wǎng)絡(luò)的特征提取的能力,而且網(wǎng)絡(luò)并行計(jì)算的效率更高.它也不同于Christian等人[23]提出的Inception-ResNet網(wǎng)絡(luò),直接在Inception網(wǎng)絡(luò)中加入殘差項(xiàng).融合卷積網(wǎng)絡(luò)更加規(guī)范和簡潔,不同通道之間的卷積沒有互連,減少了參數(shù)耦合.
假設(shè)期望的最優(yōu)映射為H(x),待優(yōu)化的殘差映射為F(x)=H(x)-x.則.不同大小的融合卷積單元的F(x)的數(shù)學(xué)形式也不同.以4通道融合卷積單元為例,其卷積網(wǎng)絡(luò)如圖4所示.圖4中各通道輸出分別為:
F1=W11x,F2=W22σ(W21x),F3=W33σ(W32σ(W31x)),F(xiàn)4=W44σ(W43σ(W42σ(W41x))),F(xiàn)(x)=F1+F2+F3+F4.
對(duì)于k通道的融合卷積單元:
(4)
輸出g(x)=σ(F(x)+x),加上mask層和池化層,構(gòu)成一個(gè)融合卷積單元(如圖6所示).這種函數(shù)大大增強(qiáng)了網(wǎng)絡(luò)對(duì)殘差項(xiàng)的擬合能力.本文測試了不同通道數(shù)的融合卷積單元組合而成的網(wǎng)絡(luò),證明了這種網(wǎng)絡(luò)的優(yōu)越性.
圖4 4通道卷積網(wǎng)絡(luò)Fig.4 4-channels convolution network
本文引入了CCN-ELM網(wǎng)絡(luò),進(jìn)行3D物體的特征提取和分類.CCN-ELM識(shí)別3D模型的網(wǎng)絡(luò)框架如圖5所示.一個(gè)3D模型表示為d×d×D的三維數(shù)據(jù)(d為分辨率).輸入共有D×N張圖片(N為樣本數(shù),D為投影視角數(shù)).每個(gè)3D模型有D個(gè)通道,每個(gè)通道中包含多層融合卷積單元.提取所有視角圖的特征后,由半隨機(jī)的ELM分類層進(jìn)行輸出.
圖5 CCN-ELM識(shí)別3D物體的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Architecture of CCN-ELM for 3D object recongnition
由2.1節(jié)知,可以利用OpenGL將3D物體表示為多視角下的二維投影圖像的集合,同時(shí)可以得到對(duì)應(yīng)的mask圖像集.設(shè)訓(xùn)練集的樣本個(gè)數(shù)為.給訓(xùn)練集中的每個(gè)3D模型的所有投影圖像和mask圖像分別做旋轉(zhuǎn)、平移、翻轉(zhuǎn)仿射變換(不同投影圖像旋轉(zhuǎn)不同的角度),新的圖像集也可以表示一個(gè)對(duì)應(yīng)的3D模型.得到輸入網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)大小為d×d×D×2N.Mask圖像的處理與之相同.
CCN-ELM網(wǎng)絡(luò)基于三點(diǎn)考慮:
1)同一個(gè)融合卷積單元里,相同大小的卷積核參數(shù)共享;
2)網(wǎng)絡(luò)中一半的卷積核參數(shù)由高斯分布隨機(jī)產(chǎn)生,另一半則通過構(gòu)造稀疏矩陣加高斯白噪聲尋優(yōu)的方法獲得;
3)多層融合卷積網(wǎng)絡(luò)提取特征,ELM層分類.
CCN-ELM的訓(xùn)練過程分為兩步:融合卷積網(wǎng)絡(luò)提取特征,ELM網(wǎng)絡(luò)進(jìn)行矩陣運(yùn)算訓(xùn)練分類層參數(shù).CCN-ELM詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示.
(a) Coalesce convolutional network based ELM (b) k-channels coalesce convolution block (CCB)
圖6 CCN-EM網(wǎng)絡(luò)圖和CCB結(jié)構(gòu)圖
Fig.6 CCN-ELM network and CCB structure
圖6中,左圖的Random CCB為隨機(jī)融合卷積單元,這個(gè)單元里的所有卷積核參數(shù)均隨機(jī)產(chǎn)生并經(jīng)過了歸一化;Sparse CCB為稀疏融合卷積單元,這個(gè)單元里的卷積核由稀疏矩陣加高斯白噪聲尋優(yōu)的方法獲得.圖6中的右圖為包含多通道卷積層、mask層和池化層的CCB結(jié)構(gòu).
每一個(gè)輸入模型對(duì)應(yīng)一個(gè)類別標(biāo)簽,可分別編號(hào)為1,…,L,樣本數(shù)為N(已擴(kuò)充數(shù)據(jù)個(gè)數(shù),區(qū)別于3.1節(jié)中的N),可以得到一個(gè)標(biāo)簽矩陣T∈RN*L.T的每一行表示一個(gè)訓(xùn)練樣本的期望輸出,行中標(biāo)簽編號(hào)對(duì)應(yīng)的列值為1,其余列值為-1.
對(duì)于每個(gè)輸入圖像,假設(shè)CCN-ELM有K層,則第i層包含2i(i=1,…,K)個(gè)融合卷積單元.它以i-1層的輸出映射作為輸入.在第i層中,有2i-1個(gè)random CCB和2i-1個(gè)sparse CCB,如圖6中左圖所示.它們之間僅僅卷積核參數(shù)不同,一個(gè)隨機(jī)產(chǎn)生,一個(gè)固定參數(shù),其余的結(jié)構(gòu)和參數(shù)一致.
random CCB的所有卷積核參數(shù)隨機(jī)產(chǎn)生,并進(jìn)行歸一化.設(shè)某個(gè)卷積核大小為×t,卷積核參數(shù)由(5)、(6)式產(chǎn)生:
W(i,j)=rand(0,1),i=1,…,;j=1,…,t
(5)
(6)
假設(shè)sparse CCB中的某個(gè)卷積核大小為c×c.先將它初始化為的矩陣rand(0,1)×I(I為c×c大小的單位矩陣或者更稀疏的矩陣),再在卷積核的數(shù)值上加入高斯白噪聲,加入網(wǎng)絡(luò)中,進(jìn)行一定次數(shù)的迭代尋優(yōu)之后,將卷積核固定,后面的測試訓(xùn)練不再改變.這種操作可以增強(qiáng)網(wǎng)絡(luò)的稀疏性,使其只對(duì)關(guān)鍵特征敏感.
在同一個(gè)融合卷積單元里,所有相同大小的卷積核參數(shù)共享.
經(jīng)過多個(gè)通道的卷積操作和RELU激活之后,可以得到卷積層輸出g(x)=σ(F(x)+x),設(shè)為Gp,q.
Mask層的計(jì)算為:
(7)
在ELM分類層中,將所有的特征矩陣合并為一個(gè)行向量,假設(shè)大小為1×n.D個(gè)投影圖的特征向量則為1×m(m=D×n).若訓(xùn)練數(shù)據(jù)數(shù)量為N,可以得到特征矩陣H∈RN×m.標(biāo)簽矩陣T∈RN×L,再由(3)式可以求得分類層的參數(shù)β.將測試集數(shù)據(jù)進(jìn)行投影預(yù)處理后輸入到模型中,就可以預(yù)測樣本的類別.
本文在普林斯頓3D模型數(shù)據(jù)集ModelNet和圖像分類數(shù)據(jù)集NORB上驗(yàn)證了CCN-ELM的性能,并和當(dāng)前其他的先進(jìn)方法進(jìn)行了比較.ModelNet10和ModelNet40是目前廣泛使用的ModelNet的兩個(gè)子數(shù)據(jù)集.ModelNet10 數(shù)據(jù)集由4,899個(gè)3D CAD模型組成,共10個(gè)類別,包含3,991個(gè)訓(xùn)練數(shù)據(jù)和908個(gè)測試數(shù)據(jù).ModelNet40 數(shù)據(jù)集由12,311個(gè)3D CAD模型組成,共40個(gè)類別,包含9,843個(gè)訓(xùn)練數(shù)據(jù)和2,468個(gè)測試數(shù)據(jù).這些模型包含了常見的家具,交通工具,樂器,電子產(chǎn)品等.
本文利用MATLAB 2016a實(shí)現(xiàn)CCN-ELM網(wǎng)絡(luò).它運(yùn)行在Intel(R) Xeon E5-1620 3.5GHz CPU 32G RAM的計(jì)算機(jī)上.對(duì)于3D物體模型的多視角投影操作,本文在QT5.11和OpenGL中實(shí)現(xiàn).
本文分別測試了三、四、五、六層包含1、2、3、4通道融合卷積單元的網(wǎng)絡(luò)結(jié)構(gòu),投影視角數(shù)=6 ,正則化參數(shù)=0.015.融合卷積單元中的卷積核大小如表1所示.
表1 不同通道的CCB中卷積核的大小Table 1 Size of convolution kernel of different channels of CCB
融合卷積單元中的池化均為2*2均值池化.Sparse CCB中的效果較好的3*3卷積核參數(shù)為[-0.38,0,0;0,0.35,0;0,0,0.5],1*1卷積核參數(shù)可以隨機(jī)產(chǎn)生,對(duì)識(shí)別率影響很小.
在官網(wǎng)上下載的數(shù)據(jù)集中,ModelNet10已經(jīng)經(jīng)過了手動(dòng)調(diào)整位置和方向,ModelNet40則沒有.受計(jì)算機(jī)內(nèi)存的限制,這里只給ModelNet10中的訓(xùn)練數(shù)據(jù)做了仿射變換以擴(kuò)充數(shù)據(jù).ModelNet10訓(xùn)練集輸入數(shù)據(jù)大小為128×128×6×7982,ModelNet40為128×128×6×9843.
Xie等人[17]提出的MVD-ELM也是利用卷積神經(jīng)網(wǎng)絡(luò)和ELM網(wǎng)絡(luò)識(shí)別3D模型,他們的論文中對(duì)ModelNet10數(shù)據(jù)集識(shí)別的準(zhǔn)確率為88.99%,我們復(fù)現(xiàn)他們的方法后得到的準(zhǔn)確率為87%.Arvind等人[12]提出的用于3D物體識(shí)別的深度殘差網(wǎng)絡(luò),在ModelNet40中的識(shí)別率為86.5%,我們復(fù)現(xiàn)后得到的準(zhǔn)確率為85.8%.
表2 不同通道數(shù)的CCN-ELM在ModelNet10中的準(zhǔn)確率Table 2 CCN-ELM recognition accuracy of different channels on the ModelNet10 dataset
表3 不同算法在ModelNet10和ModelNet40中的準(zhǔn)確率(表中第二行表示算法訓(xùn)練時(shí)間)Table 3 Recognition accuracy of different methods on the ModelNet10 and ModelNet40 datasets
對(duì)于提出的網(wǎng)絡(luò)模型,全部使用融合卷積單元和部分組合融合卷積單元均在ModelNet10上取得了90%以上的準(zhǔn)確率,最高達(dá)到了92.86%,在ModelNet40中的識(shí)別率最高達(dá)到了88.67%.實(shí)驗(yàn)顯示,CCN-ELM網(wǎng)絡(luò)相比現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)和深度殘差網(wǎng)絡(luò)效果更好,而且訓(xùn)練時(shí)間更短.不同通道數(shù)對(duì)應(yīng)的測試結(jié)果如表2所示(6層融合卷積網(wǎng)絡(luò)).由實(shí)驗(yàn)結(jié)果可知,通道數(shù)越多,識(shí)別效果越好.CCN-ELM的實(shí)驗(yàn)結(jié)果和其他算法的結(jié)果比較如表3所示.
為了進(jìn)一步驗(yàn)證CCN-ELM的性能.本文在NORB數(shù)據(jù)集上也進(jìn)行了測試.NORB數(shù)據(jù)集包含24300張圖片.它是3D物體的圖像識(shí)別數(shù)據(jù)集.拍攝者從不同的角度對(duì)5大類別(4條腿的動(dòng)物、人像、飛機(jī)、卡車、小汽車)中的模型進(jìn)行圖像拍攝.拍攝采用了2個(gè)照相機(jī),6 種不同的光照條件,9個(gè)特定的拍攝角度,18個(gè)仰角.每張樣本圖片經(jīng)過鏡像變換擴(kuò)充為兩張圖片.每張圖片經(jīng)過了壓縮,分辨率為32×32.本文使用6層4通道的CCN-ELM網(wǎng)絡(luò),識(shí)別的準(zhǔn)確率達(dá)到了96.32%.本文的方法和其他方法的實(shí)驗(yàn)結(jié)果比較如表4所示.CCN-ELM網(wǎng)絡(luò)在NORB上的表現(xiàn)也優(yōu)于其他的網(wǎng)絡(luò).
表4 不同算法在NORB中的準(zhǔn)確率Table 4 Recognition accuracy results of different methods on the NORB dataset
本文提出了一種新型的結(jié)合超限學(xué)習(xí)機(jī)和融合卷積網(wǎng)絡(luò)的模型,并在3D物體識(shí)別中取得了很好的效果.CCN-ELM網(wǎng)絡(luò)以多視角的3D投影圖作為輸入,經(jīng)過多層融合卷積網(wǎng)絡(luò)和ELM網(wǎng)絡(luò),預(yù)測物體的類別.提出的融合卷積單元能擬合更復(fù)雜的非線性殘差項(xiàng)函數(shù),增加了低層網(wǎng)絡(luò)的特征表達(dá)能力,同時(shí)網(wǎng)絡(luò)結(jié)構(gòu)更加規(guī)范和簡潔,便于優(yōu)化和訓(xùn)練.實(shí)驗(yàn)顯示,CCN-ELM的準(zhǔn)確率和訓(xùn)練時(shí)間均優(yōu)于其它常用的網(wǎng)絡(luò)模型,并且它的結(jié)構(gòu)更易于實(shí)現(xiàn).較快的訓(xùn)練和測試速度,使它能應(yīng)用于實(shí)時(shí)3D物體識(shí)別中.
受計(jì)算機(jī)硬件的限制,使用的3D物體投影個(gè)數(shù)和網(wǎng)絡(luò)的并行映射通道數(shù)較少,網(wǎng)絡(luò)層數(shù)也較少.今后將研究更深層、更多通道的融合卷積網(wǎng)絡(luò),以獲得更好的結(jié)果.