亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

結(jié)合超限學(xué)習(xí)機(jī)和融合卷積網(wǎng)絡(luò)的3D物體識(shí)別方法

2019-09-09 03:38:40王永雄

小型微型計(jì)算機(jī)系統(tǒng) 2019年9期

關(guān)鍵詞：融合模型

黃強(qiáng)，王永雄

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院，上海 200093) E-mail ：channhuang@163.com

1 引言

3D物體識(shí)別是機(jī)器視覺、計(jì)算機(jī)圖形學(xué)等的主要研究方向之一，也是自然場景理解最具挑戰(zhàn)性的任務(wù)之一.在圖像處理中，二維圖像被離散化為多個(gè)像素點(diǎn).3D模型的處理與之類似，被離散化為多個(gè)三維體素(volume pixel)點(diǎn).3D模型分類的重點(diǎn)是提取三維結(jié)構(gòu)的內(nèi)部特征.近年來，不同的特征描述方法相繼被提出，例如幾何特征[1]、拓?fù)涮卣鱗2]、部分級(jí)特征[3]等.也有很多研究者利用不同的深度學(xué)習(xí)網(wǎng)絡(luò)自動(dòng)提取3D模型的立體特征[4-8]，并進(jìn)行分類和檢索，取得了一些成果，如深度卷積網(wǎng)絡(luò)[9]、深度玻爾茲曼機(jī)[10]、深度自編碼器[11]、深度殘差網(wǎng)絡(luò)[12]等.Charles等人[13]提出了基于3D點(diǎn)云圖的深度網(wǎng)絡(luò)結(jié)構(gòu)，用于3D物體識(shí)別.Xie等人[14]提出了一種基于深度卷積能量模型的3D特征提取的網(wǎng)絡(luò)，使用的綜合分析方法可以合成三維圖形.這些方法大都是沿用圖像特征提取的方法，使用更復(fù)雜的網(wǎng)絡(luò)直接提取3D特征.

另一種思路是將一個(gè)3D模型看作是一系列2D圖像的集合，這些圖像是3D模型在不同視角下的投影圖.Cyr和Kimia[15]利用多視角投影提取了3D模型的特征和姿態(tài).Chen等人[16]提出了用2D投影的輪廓描述3D模型特征的LFD算法.Xie等人[17]進(jìn)一步提出了基于多視角3D模型的MVD-ELM算法，在3D模型分類中引入了超限學(xué)習(xí)機(jī)(ELM)[18]網(wǎng)絡(luò).Wang等人[19]提出了CAE-ELM算法，將自編碼器和ELM結(jié)合應(yīng)用于3D特征學(xué)習(xí)上.這些方法取得了一定的突破，但是3D物體識(shí)別的準(zhǔn)確率和實(shí)時(shí)性仍然有待提高.

近年來，ELM[18]受到了廣泛的關(guān)注.ELM不會(huì)陷入局部最優(yōu)、不用考慮學(xué)習(xí)率、訓(xùn)練速度快、網(wǎng)絡(luò)結(jié)構(gòu)簡單穩(wěn)定等優(yōu)點(diǎn)使其成為研究的熱點(diǎn)之一.Huang等人[20]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和ELM提出了基于超限學(xué)習(xí)機(jī)的局部感知域(LRF-ELM)，在圖像分類上取得了新的突破，并且其訓(xùn)練時(shí)間相比于其它深度學(xué)習(xí)方法減少了3個(gè)數(shù)量級(jí).不過ELM網(wǎng)絡(luò)在很多實(shí)際應(yīng)用中的準(zhǔn)確率不如深度學(xué)習(xí)的方法，但是ELM作為分類層卻能取得很好的效果.

殘差網(wǎng)絡(luò)(ResNet)[21]在很多大規(guī)模圖像數(shù)據(jù)集的分類中表現(xiàn)優(yōu)異.它能使一百多層的網(wǎng)絡(luò)結(jié)構(gòu)依然保持很高的準(zhǔn)確率而不退化，得益于網(wǎng)絡(luò)層之間大量恒等映射的快捷連接.

本文嘗試將改進(jìn)的殘差單元和ELM網(wǎng)絡(luò)進(jìn)行結(jié)合，用于3D物體識(shí)別.殘差單元利用恒等映射將優(yōu)化目標(biāo)變成一個(gè)個(gè)容易優(yōu)化的函數(shù).基本的殘差單元都是兩個(gè)或三個(gè)卷積核加上一個(gè)恒等映射的快捷連接.對(duì)于層數(shù)較少的網(wǎng)絡(luò)，這樣會(huì)導(dǎo)致待優(yōu)化的函數(shù)具有一定的局限性.在實(shí)驗(yàn)中，我們以一種規(guī)范的方式依次增加基本殘差單元的映射通道數(shù)，尋找到最佳的網(wǎng)絡(luò)結(jié)構(gòu).這種新的網(wǎng)絡(luò)單元稱之為融合卷積單元.融合卷積單元包含多個(gè)和恒等映射并行的卷積層、mask層和池化層(如圖4、圖6所示).它的卷積通道數(shù)可以變化，增加的通道上的卷積個(gè)數(shù)依次增加.多個(gè)不同的融合卷積單元組成的融合卷積網(wǎng)絡(luò)和ELM網(wǎng)絡(luò)結(jié)合得到了一種新型的網(wǎng)絡(luò)結(jié)構(gòu)，本文稱之為基于超限學(xué)習(xí)機(jī)的融合卷積網(wǎng)絡(luò)(CCN-ELM).

本文提出的方法的主要特點(diǎn)有：

·CCN-ELM的輸入為3D模型的多視角圖像，對(duì)于每一個(gè)投影圖通道(維度)，它們的卷積參數(shù)共享.

·一個(gè)3D模型的所有視角圖像經(jīng)過不同的旋轉(zhuǎn)、平移等仿射變換可以產(chǎn)生一個(gè)新的訓(xùn)練樣本.本文使用這種方式將訓(xùn)練數(shù)據(jù)擴(kuò)充了一倍.

·CCN-ELM的基本網(wǎng)絡(luò)框架是多層ELM，但是它不同于傳統(tǒng)的ELM.其一半的網(wǎng)絡(luò)參數(shù)是以高斯分布隨機(jī)產(chǎn)生，另一半的參數(shù)則通過在稀疏矩陣上疊加噪聲來尋優(yōu)的方式獲得.實(shí)驗(yàn)顯示，這種半隨機(jī)的ELM網(wǎng)絡(luò)的效果更好.

·針對(duì)殘差網(wǎng)絡(luò)單元擬合能力不足的問題，提出的融合卷積單元改進(jìn)了殘差項(xiàng)函數(shù)的形式，使其能擬合更復(fù)雜的非線性函數(shù)，增加了低層網(wǎng)絡(luò)的特征提取能力.同時(shí)網(wǎng)絡(luò)結(jié)構(gòu)更加規(guī)范，多通道之間的卷積沒有互連，降低了網(wǎng)絡(luò)的耦合度.

·通過高斯分布產(chǎn)生的卷積核參數(shù)經(jīng)過了歸一化處理，給隱含層通道的特征提取帶來了好處，也降低了特征擴(kuò)散的風(fēng)險(xiǎn).

·在卷積層和池化層之間增加了mask層，可以過濾背景和一些干擾特征，起到非極大值抑制的作用.

這種網(wǎng)絡(luò)結(jié)構(gòu)不僅準(zhǔn)確率高，而且速度快、易于實(shí)現(xiàn)，其識(shí)別3D物體的過程如圖1所示.

2 算法基礎(chǔ)

2.1 3D模型處理

本文使用Princeton ModelNet[9]中的3D模型作為網(wǎng)絡(luò)的輸入.因?yàn)橐话愕木矸e網(wǎng)絡(luò)更適合處理二維的圖像和形狀，所以我們并不是直接在3D模型上進(jìn)行操作，而是先獲得其在多個(gè)視角下的投影圖，再將投影圖的集合輸入到網(wǎng)絡(luò)中.

輸入層.利用MVD-ELM[17]中的方法，使用OpenGL打開3D模型的.off文件.以模型的中心為中心點(diǎn)，構(gòu)造一個(gè)正多面體，在多面體的頂點(diǎn)處對(duì)3D模型進(jìn)行投影.不同的投影點(diǎn)(視角)可以得到不同的投影圖，如圖2所示.假設(shè)投影點(diǎn)個(gè)數(shù)為D，則對(duì)于每一個(gè)3D模型，它都可以用D個(gè)圖像(分辨率為d×d)的集合來表示.每一個(gè)3D模型都可以表示成d×d×D的三維視圖.對(duì)于每一個(gè)投影圖像，我們另構(gòu)造了一個(gè)mask圖像，它是原圖劃去了背景和不相關(guān)元素后的二值圖像.Mask圖像用于卷積層和池化層之間的mask層.

圖1 CCN-ELM網(wǎng)絡(luò)識(shí)別3D物體的過程Fig.1 Prediction process of our CCN-ELM framework for 3D object recognition

圖2 從多個(gè)視角得到3D模型的不同投影圖Fig.2 A series of 2D depth images are captured from the 3D object with different viewpoints

2.2 ELM和LRF-ELM

超限學(xué)習(xí)機(jī)(ELM)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò).不同于其它的反向傳播、權(quán)值迭代調(diào)整的神經(jīng)網(wǎng)絡(luò)，ELM網(wǎng)絡(luò)的輸入層和隱含層之間的權(quán)值全部隨機(jī)產(chǎn)生，并且不需要調(diào)整.隱含層和輸出層之間的權(quán)值滿足方程Hβ=T，H為特征矩陣，T為標(biāo)簽矩陣，訓(xùn)練過程為求解參數(shù)β.

ELM特征映射.給定一個(gè)輸入數(shù)據(jù)集x∈RN，ELM的輸出可以表示為：

(1)

其中，h(x)=[h(x1)，…，h(xN)]T(N為訓(xùn)練樣本的數(shù)量)，是隱含層的輸出矩陣.β=[β1,…,βN]是隱含層和輸出層之間的權(quán)值矩陣.h可以是任意操作的疊加(如全連接、卷積、池化、激活等)，稱為x的特征映射.β是待訓(xùn)練的權(quán)值(不考慮偏置).在ELM網(wǎng)絡(luò)里，h中的參數(shù)都是以某種連續(xù)的分布隨機(jī)產(chǎn)生的，并且在訓(xùn)練和預(yù)測時(shí)保持不變，只需要訓(xùn)練和求解分類層的β.

ELM學(xué)習(xí).ELM學(xué)習(xí)是一種監(jiān)督式學(xué)習(xí).在ModelNet-10 數(shù)據(jù)集中，每一個(gè)輸入模型對(duì)應(yīng)一個(gè)標(biāo)簽類別，分別編號(hào)為1，…，10，可以得到一個(gè)標(biāo)簽矩陣T∈RN×10.T的每一行表示一個(gè)訓(xùn)練樣本的期望輸出，這一行中，標(biāo)簽編號(hào)對(duì)應(yīng)的列值為1，其余列值為-1.把構(gòu)造的映射h記作H∈RN×m(m是分類層神經(jīng)元的數(shù)量)，它是樣本的特征矩陣.網(wǎng)絡(luò)的優(yōu)化目標(biāo)是最小化權(quán)值和訓(xùn)練誤差：

min C‖Hβ-T‖2+‖β‖2

(2)

其中，Hβ是實(shí)際輸出，T是期望輸出，C是正則化參數(shù)，由經(jīng)驗(yàn)給出.

根據(jù)M-P廣義逆和嶺回歸理論，最優(yōu)的β∈Rm×10可以由(3)式[22]得出：

(3)

其中，I是與HHT或HTH相同大小的單位矩陣.

得到β后，網(wǎng)絡(luò)模型就可以進(jìn)行預(yù)測.將測試集加入模型中，經(jīng)過融合卷積網(wǎng)絡(luò)提取特征后得到預(yù)測數(shù)據(jù)的特征矩陣H′∈Rn×m(n表示測試樣本的數(shù)量)，計(jì)算T′=H′β.T′的每一行表示一個(gè)樣本的輸出，找出每一行中的最大值，其對(duì)應(yīng)的列即為預(yù)測的輸出類別，預(yù)測過程如圖1所示.

Local Receptive Field based ELM (LRF-ELM).Huang等人[20]在ELM的基礎(chǔ)上進(jìn)一步提出了基于超限學(xué)習(xí)機(jī)的局部感知域(LRF-ELM)，將全連接特征映射層替換為局部感知域，由卷積層和池化層組成.卷積核參數(shù)也是以某種連續(xù)的分布隨機(jī)產(chǎn)生.與其它的深度模型一樣，多層LRF-ELM也被用于特征學(xué)習(xí).它的優(yōu)點(diǎn)是只訓(xùn)練和優(yōu)化最后一個(gè)全連接層，因此訓(xùn)練速度很快.本文提出的模型也是基于LRF-ELM，但使用的是一種新的特征提取的網(wǎng)絡(luò)結(jié)構(gòu)，并且只隨機(jī)產(chǎn)生一半的網(wǎng)絡(luò)參數(shù)，另一半?yún)?shù)則通過構(gòu)造稀疏矩陣并加入高斯噪聲尋優(yōu)的方法獲得.

雖然ELM網(wǎng)絡(luò)結(jié)構(gòu)只訓(xùn)練迭代一次，但是當(dāng)網(wǎng)絡(luò)層數(shù)和訓(xùn)練樣本數(shù)較多時(shí)，內(nèi)存的開銷也隨之增大.因此需要合理地設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)，以滿足實(shí)際應(yīng)用.

2.3 殘差網(wǎng)絡(luò)

殘差網(wǎng)絡(luò)在2015年的ILSVRC、ImageNet、COCO等計(jì)算機(jī)圖像識(shí)別任務(wù)中取得了最好的成績，并且它將深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)最多增加到了1000多層.殘差網(wǎng)絡(luò)由大量殘差單元組成，殘差單元包含2個(gè)或3個(gè)小卷積核和恒等映射的連接.這種方式使得網(wǎng)絡(luò)隨著深度的增加而不退化，在一定程度上解決了梯度爆炸的問題.同時(shí)這也反映了多層非線性網(wǎng)絡(luò)無法逼近多個(gè)恒等映射.

典型的殘差單元結(jié)構(gòu)如圖3所示.它有2層，卷積層表達(dá)式為F=W2σ(W1x)(σ表示非線性函數(shù)RELU，下同)，W1和W2表示卷積操作.它并聯(lián)一個(gè)恒等映射的快捷連接(shortcut)，得到y(tǒng)=F(x，{Wi})+x，經(jīng)過第二個(gè)函數(shù)得到輸出σ(y).實(shí)驗(yàn)顯示，在深度網(wǎng)絡(luò)中，優(yōu)化殘差函數(shù)更加容易.增加恒等映射的快捷連接，使得網(wǎng)絡(luò)可以以殘差來訓(xùn)練參數(shù)，在不增加復(fù)雜度的情況下，顯著地提升了網(wǎng)絡(luò)的性能.

圖3 殘差單元Fig.3 A residual unit

殘差網(wǎng)絡(luò)的思想是忽略相同的主體部分，從而突出微小的變化.引入殘差后的映射對(duì)輸出的變化更加敏感.

2.4 融合卷積單元

針對(duì)低層殘差網(wǎng)絡(luò)擬合能力不足的問題，本文提出了一種改進(jìn)的融合卷積網(wǎng)絡(luò).融合卷積網(wǎng)絡(luò)由融合卷積單元(Coalesce Convolution Block)組成.融合卷積單元包含幾個(gè)和恒等映射并聯(lián)的卷積層、mask層、池化層和激活函數(shù)等(如圖6所示).融合卷積單元的通道個(gè)數(shù)表示單元的大小，每個(gè)通道上的卷積核個(gè)數(shù)恒定，增加的通道的卷積核個(gè)數(shù)依次增加.這樣做的好處是網(wǎng)絡(luò)可以以較少的層數(shù)獲得深度殘差網(wǎng)絡(luò)的特征提取的能力，而且網(wǎng)絡(luò)并行計(jì)算的效率更高.它也不同于Christian等人[23]提出的Inception-ResNet網(wǎng)絡(luò)，直接在Inception網(wǎng)絡(luò)中加入殘差項(xiàng).融合卷積網(wǎng)絡(luò)更加規(guī)范和簡潔，不同通道之間的卷積沒有互連，減少了參數(shù)耦合.

假設(shè)期望的最優(yōu)映射為H(x)，待優(yōu)化的殘差映射為F(x)=H(x)-x.則.不同大小的融合卷積單元的F(x)的數(shù)學(xué)形式也不同.以4通道融合卷積單元為例，其卷積網(wǎng)絡(luò)如圖4所示.圖4中各通道輸出分別為：

F1=W11x,F2=W22σ(W21x),F3=W33σ(W32σ(W31x))，F(xiàn)4=W44σ(W43σ(W42σ(W41x)))，F(xiàn)(x)=F1+F2+F3+F4.

對(duì)于k通道的融合卷積單元：

(4)

輸出g(x)=σ(F(x)+x)，加上mask層和池化層，構(gòu)成一個(gè)融合卷積單元(如圖6所示).這種函數(shù)大大增強(qiáng)了網(wǎng)絡(luò)對(duì)殘差項(xiàng)的擬合能力.本文測試了不同通道數(shù)的融合卷積單元組合而成的網(wǎng)絡(luò)，證明了這種網(wǎng)絡(luò)的優(yōu)越性.

圖4 4通道卷積網(wǎng)絡(luò)Fig.4 4-channels convolution network

3 用于3D物體識(shí)別的CCN-ELM網(wǎng)絡(luò)

本文引入了CCN-ELM網(wǎng)絡(luò)，進(jìn)行3D物體的特征提取和分類.CCN-ELM識(shí)別3D模型的網(wǎng)絡(luò)框架如圖5所示.一個(gè)3D模型表示為d×d×D的三維數(shù)據(jù)(d為分辨率).輸入共有D×N張圖片(N為樣本數(shù)，D為投影視角數(shù)).每個(gè)3D模型有D個(gè)通道，每個(gè)通道中包含多層融合卷積單元.提取所有視角圖的特征后，由半隨機(jī)的ELM分類層進(jìn)行輸出.

圖5 CCN-ELM識(shí)別3D物體的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Architecture of CCN-ELM for 3D object recongnition

3.1 數(shù)據(jù)預(yù)處理

由2.1節(jié)知，可以利用OpenGL將3D物體表示為多視角下的二維投影圖像的集合，同時(shí)可以得到對(duì)應(yīng)的mask圖像集.設(shè)訓(xùn)練集的樣本個(gè)數(shù)為.給訓(xùn)練集中的每個(gè)3D模型的所有投影圖像和mask圖像分別做旋轉(zhuǎn)、平移、翻轉(zhuǎn)仿射變換(不同投影圖像旋轉(zhuǎn)不同的角度)，新的圖像集也可以表示一個(gè)對(duì)應(yīng)的3D模型.得到輸入網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)大小為d×d×D×2N.Mask圖像的處理與之相同.

3.2 CCN-ELM網(wǎng)絡(luò)

CCN-ELM網(wǎng)絡(luò)基于三點(diǎn)考慮：

1)同一個(gè)融合卷積單元里，相同大小的卷積核參數(shù)共享；

2)網(wǎng)絡(luò)中一半的卷積核參數(shù)由高斯分布隨機(jī)產(chǎn)生，另一半則通過構(gòu)造稀疏矩陣加高斯白噪聲尋優(yōu)的方法獲得；

3)多層融合卷積網(wǎng)絡(luò)提取特征，ELM層分類.

CCN-ELM的訓(xùn)練過程分為兩步：融合卷積網(wǎng)絡(luò)提取特征，ELM網(wǎng)絡(luò)進(jìn)行矩陣運(yùn)算訓(xùn)練分類層參數(shù).CCN-ELM詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示.

(a) Coalesce convolutional network based ELM (b) k-channels coalesce convolution block (CCB)

圖6 CCN-EM網(wǎng)絡(luò)圖和CCB結(jié)構(gòu)圖
Fig.6 CCN-ELM network and CCB structure

圖6中，左圖的Random CCB為隨機(jī)融合卷積單元，這個(gè)單元里的所有卷積核參數(shù)均隨機(jī)產(chǎn)生并經(jīng)過了歸一化；Sparse CCB為稀疏融合卷積單元，這個(gè)單元里的卷積核由稀疏矩陣加高斯白噪聲尋優(yōu)的方法獲得.圖6中的右圖為包含多通道卷積層、mask層和池化層的CCB結(jié)構(gòu).

每一個(gè)輸入模型對(duì)應(yīng)一個(gè)類別標(biāo)簽，可分別編號(hào)為1，…，L，樣本數(shù)為N(已擴(kuò)充數(shù)據(jù)個(gè)數(shù)，區(qū)別于3.1節(jié)中的N)，可以得到一個(gè)標(biāo)簽矩陣T∈RN*L.T的每一行表示一個(gè)訓(xùn)練樣本的期望輸出，行中標(biāo)簽編號(hào)對(duì)應(yīng)的列值為1，其余列值為-1.

對(duì)于每個(gè)輸入圖像，假設(shè)CCN-ELM有K層，則第i層包含2i(i=1，…，K)個(gè)融合卷積單元.它以i-1層的輸出映射作為輸入.在第i層中，有2i-1個(gè)random CCB和2i-1個(gè)sparse CCB，如圖6中左圖所示.它們之間僅僅卷積核參數(shù)不同，一個(gè)隨機(jī)產(chǎn)生，一個(gè)固定參數(shù)，其余的結(jié)構(gòu)和參數(shù)一致.

random CCB的所有卷積核參數(shù)隨機(jī)產(chǎn)生，并進(jìn)行歸一化.設(shè)某個(gè)卷積核大小為×t，卷積核參數(shù)由(5)、(6)式產(chǎn)生：

W(i,j)=rand(0,1),i=1，…，;j=1，…，t

(5)

(6)

假設(shè)sparse CCB中的某個(gè)卷積核大小為c×c.先將它初始化為的矩陣rand(0,1)×I(I為c×c大小的單位矩陣或者更稀疏的矩陣)，再在卷積核的數(shù)值上加入高斯白噪聲，加入網(wǎng)絡(luò)中，進(jìn)行一定次數(shù)的迭代尋優(yōu)之后，將卷積核固定，后面的測試訓(xùn)練不再改變.這種操作可以增強(qiáng)網(wǎng)絡(luò)的稀疏性，使其只對(duì)關(guān)鍵特征敏感.

在同一個(gè)融合卷積單元里，所有相同大小的卷積核參數(shù)共享.

經(jīng)過多個(gè)通道的卷積操作和RELU激活之后，可以得到卷積層輸出g(x)=σ(F(x)+x)，設(shè)為Gp，q.

Mask層的計(jì)算為：

(7)

在ELM分類層中，將所有的特征矩陣合并為一個(gè)行向量，假設(shè)大小為1×n.D個(gè)投影圖的特征向量則為1×m(m=D×n).若訓(xùn)練數(shù)據(jù)數(shù)量為N，可以得到特征矩陣H∈RN×m.標(biāo)簽矩陣T∈RN×L，再由(3)式可以求得分類層的參數(shù)β.將測試集數(shù)據(jù)進(jìn)行投影預(yù)處理后輸入到模型中，就可以預(yù)測樣本的類別.

4 實(shí)驗(yàn)和結(jié)果分析

本文在普林斯頓3D模型數(shù)據(jù)集ModelNet和圖像分類數(shù)據(jù)集NORB上驗(yàn)證了CCN-ELM的性能，并和當(dāng)前其他的先進(jìn)方法進(jìn)行了比較.ModelNet10和ModelNet40是目前廣泛使用的ModelNet的兩個(gè)子數(shù)據(jù)集.ModelNet10 數(shù)據(jù)集由4，899個(gè)3D CAD模型組成，共10個(gè)類別，包含3，991個(gè)訓(xùn)練數(shù)據(jù)和908個(gè)測試數(shù)據(jù).ModelNet40 數(shù)據(jù)集由12，311個(gè)3D CAD模型組成，共40個(gè)類別，包含9，843個(gè)訓(xùn)練數(shù)據(jù)和2，468個(gè)測試數(shù)據(jù).這些模型包含了常見的家具，交通工具，樂器，電子產(chǎn)品等.

本文利用MATLAB 2016a實(shí)現(xiàn)CCN-ELM網(wǎng)絡(luò).它運(yùn)行在Intel(R) Xeon E5-1620 3.5GHz CPU 32G RAM的計(jì)算機(jī)上.對(duì)于3D物體模型的多視角投影操作，本文在QT5.11和OpenGL中實(shí)現(xiàn).

4.1 3D物體識(shí)別

本文分別測試了三、四、五、六層包含1、2、3、4通道融合卷積單元的網(wǎng)絡(luò)結(jié)構(gòu)，投影視角數(shù)=6 ，正則化參數(shù)=0.015.融合卷積單元中的卷積核大小如表1所示.

表1 不同通道的CCB中卷積核的大小Table 1 Size of convolution kernel of different channels of CCB

融合卷積單元中的池化均為2*2均值池化.Sparse CCB中的效果較好的3*3卷積核參數(shù)為[-0.38，0，0;0，0.35，0;0，0，0.5]，1*1卷積核參數(shù)可以隨機(jī)產(chǎn)生，對(duì)識(shí)別率影響很小.

在官網(wǎng)上下載的數(shù)據(jù)集中，ModelNet10已經(jīng)經(jīng)過了手動(dòng)調(diào)整位置和方向，ModelNet40則沒有.受計(jì)算機(jī)內(nèi)存的限制，這里只給ModelNet10中的訓(xùn)練數(shù)據(jù)做了仿射變換以擴(kuò)充數(shù)據(jù).ModelNet10訓(xùn)練集輸入數(shù)據(jù)大小為128×128×6×7982，ModelNet40為128×128×6×9843.

Xie等人[17]提出的MVD-ELM也是利用卷積神經(jīng)網(wǎng)絡(luò)和ELM網(wǎng)絡(luò)識(shí)別3D模型，他們的論文中對(duì)ModelNet10數(shù)據(jù)集識(shí)別的準(zhǔn)確率為88.99%，我們復(fù)現(xiàn)他們的方法后得到的準(zhǔn)確率為87%.Arvind等人[12]提出的用于3D物體識(shí)別的深度殘差網(wǎng)絡(luò)，在ModelNet40中的識(shí)別率為86.5%，我們復(fù)現(xiàn)后得到的準(zhǔn)確率為85.8%.

表2 不同通道數(shù)的CCN-ELM在ModelNet10中的準(zhǔn)確率Table 2 CCN-ELM recognition accuracy of different channels on the ModelNet10 dataset

表3 不同算法在ModelNet10和ModelNet40中的準(zhǔn)確率(表中第二行表示算法訓(xùn)練時(shí)間)Table 3 Recognition accuracy of different methods on the ModelNet10 and ModelNet40 datasets

對(duì)于提出的網(wǎng)絡(luò)模型，全部使用融合卷積單元和部分組合融合卷積單元均在ModelNet10上取得了90%以上的準(zhǔn)確率，最高達(dá)到了92.86%，在ModelNet40中的識(shí)別率最高達(dá)到了88.67%.實(shí)驗(yàn)顯示，CCN-ELM網(wǎng)絡(luò)相比現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)和深度殘差網(wǎng)絡(luò)效果更好，而且訓(xùn)練時(shí)間更短.不同通道數(shù)對(duì)應(yīng)的測試結(jié)果如表2所示(6層融合卷積網(wǎng)絡(luò)).由實(shí)驗(yàn)結(jié)果可知，通道數(shù)越多，識(shí)別效果越好.CCN-ELM的實(shí)驗(yàn)結(jié)果和其他算法的結(jié)果比較如表3所示.

4.2 圖像識(shí)別

為了進(jìn)一步驗(yàn)證CCN-ELM的性能.本文在NORB數(shù)據(jù)集上也進(jìn)行了測試.NORB數(shù)據(jù)集包含24300張圖片.它是3D物體的圖像識(shí)別數(shù)據(jù)集.拍攝者從不同的角度對(duì)5大類別(4條腿的動(dòng)物、人像、飛機(jī)、卡車、小汽車)中的模型進(jìn)行圖像拍攝.拍攝采用了2個(gè)照相機(jī)，6 種不同的光照條件，9個(gè)特定的拍攝角度，18個(gè)仰角.每張樣本圖片經(jīng)過鏡像變換擴(kuò)充為兩張圖片.每張圖片經(jīng)過了壓縮，分辨率為32×32.本文使用6層4通道的CCN-ELM網(wǎng)絡(luò)，識(shí)別的準(zhǔn)確率達(dá)到了96.32%.本文的方法和其他方法的實(shí)驗(yàn)結(jié)果比較如表4所示.CCN-ELM網(wǎng)絡(luò)在NORB上的表現(xiàn)也優(yōu)于其他的網(wǎng)絡(luò).

表4 不同算法在NORB中的準(zhǔn)確率Table 4 Recognition accuracy results of different methods on the NORB dataset

5 結(jié) 論

本文提出了一種新型的結(jié)合超限學(xué)習(xí)機(jī)和融合卷積網(wǎng)絡(luò)的模型，并在3D物體識(shí)別中取得了很好的效果.CCN-ELM網(wǎng)絡(luò)以多視角的3D投影圖作為輸入，經(jīng)過多層融合卷積網(wǎng)絡(luò)和ELM網(wǎng)絡(luò)，預(yù)測物體的類別.提出的融合卷積單元能擬合更復(fù)雜的非線性殘差項(xiàng)函數(shù)，增加了低層網(wǎng)絡(luò)的特征表達(dá)能力，同時(shí)網(wǎng)絡(luò)結(jié)構(gòu)更加規(guī)范和簡潔，便于優(yōu)化和訓(xùn)練.實(shí)驗(yàn)顯示，CCN-ELM的準(zhǔn)確率和訓(xùn)練時(shí)間均優(yōu)于其它常用的網(wǎng)絡(luò)模型，并且它的結(jié)構(gòu)更易于實(shí)現(xiàn).較快的訓(xùn)練和測試速度，使它能應(yīng)用于實(shí)時(shí)3D物體識(shí)別中.

受計(jì)算機(jī)硬件的限制，使用的3D物體投影個(gè)數(shù)和網(wǎng)絡(luò)的并行映射通道數(shù)較少，網(wǎng)絡(luò)層數(shù)也較少.今后將研究更深層、更多通道的融合卷積網(wǎng)絡(luò)，以獲得更好的結(jié)果.