亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合超限學(xué)習(xí)機(jī)和融合卷積網(wǎng)絡(luò)的3D物體識(shí)別方法

        2019-09-09 03:38:40王永雄
        關(guān)鍵詞:融合模型

        黃 強(qiáng),王永雄

        (上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093) E-mail :channhuang@163.com

        1 引 言

        3D物體識(shí)別是機(jī)器視覺、計(jì)算機(jī)圖形學(xué)等的主要研究方向之一,也是自然場景理解最具挑戰(zhàn)性的任務(wù)之一.在圖像處理中,二維圖像被離散化為多個(gè)像素點(diǎn).3D模型的處理與之類似,被離散化為多個(gè)三維體素(volume pixel)點(diǎn).3D模型分類的重點(diǎn)是提取三維結(jié)構(gòu)的內(nèi)部特征.近年來,不同的特征描述方法相繼被提出,例如幾何特征[1]、拓?fù)涮卣鱗2]、部分級(jí)特征[3]等.也有很多研究者利用不同的深度學(xué)習(xí)網(wǎng)絡(luò)自動(dòng)提取3D模型的立體特征[4-8],并進(jìn)行分類和檢索,取得了一些成果,如深度卷積網(wǎng)絡(luò)[9]、深度玻爾茲曼機(jī)[10]、深度自編碼器[11]、深度殘差網(wǎng)絡(luò)[12]等.Charles等人[13]提出了基于3D點(diǎn)云圖的深度網(wǎng)絡(luò)結(jié)構(gòu),用于3D物體識(shí)別.Xie等人[14]提出了一種基于深度卷積能量模型的3D特征提取的網(wǎng)絡(luò),使用的綜合分析方法可以合成三維圖形.這些方法大都是沿用圖像特征提取的方法,使用更復(fù)雜的網(wǎng)絡(luò)直接提取3D特征.

        另一種思路是將一個(gè)3D模型看作是一系列2D圖像的集合,這些圖像是3D模型在不同視角下的投影圖.Cyr和Kimia[15]利用多視角投影提取了3D模型的特征和姿態(tài).Chen等人[16]提出了用2D投影的輪廓描述3D模型特征的LFD算法.Xie等人[17]進(jìn)一步提出了基于多視角3D模型的MVD-ELM算法,在3D模型分類中引入了超限學(xué)習(xí)機(jī)(ELM)[18]網(wǎng)絡(luò).Wang等人[19]提出了CAE-ELM算法,將自編碼器和ELM結(jié)合應(yīng)用于3D特征學(xué)習(xí)上.這些方法取得了一定的突破,但是3D物體識(shí)別的準(zhǔn)確率和實(shí)時(shí)性仍然有待提高.

        近年來,ELM[18]受到了廣泛的關(guān)注.ELM不會(huì)陷入局部最優(yōu)、不用考慮學(xué)習(xí)率、訓(xùn)練速度快、網(wǎng)絡(luò)結(jié)構(gòu)簡單穩(wěn)定等優(yōu)點(diǎn)使其成為研究的熱點(diǎn)之一.Huang等人[20]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和ELM提出了基于超限學(xué)習(xí)機(jī)的局部感知域(LRF-ELM),在圖像分類上取得了新的突破,并且其訓(xùn)練時(shí)間相比于其它深度學(xué)習(xí)方法減少了3個(gè)數(shù)量級(jí).不過ELM網(wǎng)絡(luò)在很多實(shí)際應(yīng)用中的準(zhǔn)確率不如深度學(xué)習(xí)的方法,但是ELM作為分類層卻能取得很好的效果.

        殘差網(wǎng)絡(luò)(ResNet)[21]在很多大規(guī)模圖像數(shù)據(jù)集的分類中表現(xiàn)優(yōu)異.它能使一百多層的網(wǎng)絡(luò)結(jié)構(gòu)依然保持很高的準(zhǔn)確率而不退化,得益于網(wǎng)絡(luò)層之間大量恒等映射的快捷連接.

        本文嘗試將改進(jìn)的殘差單元和ELM網(wǎng)絡(luò)進(jìn)行結(jié)合,用于3D物體識(shí)別.殘差單元利用恒等映射將優(yōu)化目標(biāo)變成一個(gè)個(gè)容易優(yōu)化的函數(shù).基本的殘差單元都是兩個(gè)或三個(gè)卷積核加上一個(gè)恒等映射的快捷連接.對(duì)于層數(shù)較少的網(wǎng)絡(luò),這樣會(huì)導(dǎo)致待優(yōu)化的函數(shù)具有一定的局限性.在實(shí)驗(yàn)中,我們以一種規(guī)范的方式依次增加基本殘差單元的映射通道數(shù),尋找到最佳的網(wǎng)絡(luò)結(jié)構(gòu).這種新的網(wǎng)絡(luò)單元稱之為融合卷積單元.融合卷積單元包含多個(gè)和恒等映射并行的卷積層、mask層和池化層(如圖4、圖6所示).它的卷積通道數(shù)可以變化,增加的通道上的卷積個(gè)數(shù)依次增加.多個(gè)不同的融合卷積單元組成的融合卷積網(wǎng)絡(luò)和ELM網(wǎng)絡(luò)結(jié)合得到了一種新型的網(wǎng)絡(luò)結(jié)構(gòu),本文稱之為基于超限學(xué)習(xí)機(jī)的融合卷積網(wǎng)絡(luò)(CCN-ELM).

        本文提出的方法的主要特點(diǎn)有:

        ·CCN-ELM的輸入為3D模型的多視角圖像,對(duì)于每一個(gè)投影圖通道(維度),它們的卷積參數(shù)共享.

        ·一個(gè)3D模型的所有視角圖像經(jīng)過不同的旋轉(zhuǎn)、平移等仿射變換可以產(chǎn)生一個(gè)新的訓(xùn)練樣本.本文使用這種方式將訓(xùn)練數(shù)據(jù)擴(kuò)充了一倍.

        ·CCN-ELM的基本網(wǎng)絡(luò)框架是多層ELM,但是它不同于傳統(tǒng)的ELM.其一半的網(wǎng)絡(luò)參數(shù)是以高斯分布隨機(jī)產(chǎn)生,另一半的參數(shù)則通過在稀疏矩陣上疊加噪聲來尋優(yōu)的方式獲得.實(shí)驗(yàn)顯示,這種半隨機(jī)的ELM網(wǎng)絡(luò)的效果更好.

        ·針對(duì)殘差網(wǎng)絡(luò)單元擬合能力不足的問題,提出的融合卷積單元改進(jìn)了殘差項(xiàng)函數(shù)的形式,使其能擬合更復(fù)雜的非線性函數(shù),增加了低層網(wǎng)絡(luò)的特征提取能力.同時(shí)網(wǎng)絡(luò)結(jié)構(gòu)更加規(guī)范,多通道之間的卷積沒有互連,降低了網(wǎng)絡(luò)的耦合度.

        ·通過高斯分布產(chǎn)生的卷積核參數(shù)經(jīng)過了歸一化處理,給隱含層通道的特征提取帶來了好處,也降低了特征擴(kuò)散的風(fēng)險(xiǎn).

        ·在卷積層和池化層之間增加了mask層,可以過濾背景和一些干擾特征,起到非極大值抑制的作用.

        這種網(wǎng)絡(luò)結(jié)構(gòu)不僅準(zhǔn)確率高,而且速度快、易于實(shí)現(xiàn),其識(shí)別3D物體的過程如圖1所示.

        2 算法基礎(chǔ)

        2.1 3D模型處理

        本文使用Princeton ModelNet[9]中的3D模型作為網(wǎng)絡(luò)的輸入.因?yàn)橐话愕木矸e網(wǎng)絡(luò)更適合處理二維的圖像和形狀,所以我們并不是直接在3D模型上進(jìn)行操作,而是先獲得其在多個(gè)視角下的投影圖,再將投影圖的集合輸入到網(wǎng)絡(luò)中.

        輸入層.利用MVD-ELM[17]中的方法,使用OpenGL打開3D模型的.off文件.以模型的中心為中心點(diǎn),構(gòu)造一個(gè)正多面體,在多面體的頂點(diǎn)處對(duì)3D模型進(jìn)行投影.不同的投影點(diǎn)(視角)可以得到不同的投影圖,如圖2所示.假設(shè)投影點(diǎn)個(gè)數(shù)為D,則對(duì)于每一個(gè)3D模型,它都可以用D個(gè)圖像(分辨率為d×d)的集合來表示.每一個(gè)3D模型都可以表示成d×d×D的三維視圖.對(duì)于每一個(gè)投影圖像,我們另構(gòu)造了一個(gè)mask圖像,它是原圖劃去了背景和不相關(guān)元素后的二值圖像.Mask圖像用于卷積層和池化層之間的mask層.

        圖1 CCN-ELM網(wǎng)絡(luò)識(shí)別3D物體的過程Fig.1 Prediction process of our CCN-ELM framework for 3D object recognition

        圖2 從多個(gè)視角得到3D模型的不同投影圖Fig.2 A series of 2D depth images are captured from the 3D object with different viewpoints

        2.2 ELM和LRF-ELM

        超限學(xué)習(xí)機(jī)(ELM)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò).不同于其它的反向傳播、權(quán)值迭代調(diào)整的神經(jīng)網(wǎng)絡(luò),ELM網(wǎng)絡(luò)的輸入層和隱含層之間的權(quán)值全部隨機(jī)產(chǎn)生,并且不需要調(diào)整.隱含層和輸出層之間的權(quán)值滿足方程Hβ=T,H為特征矩陣,T為標(biāo)簽矩陣,訓(xùn)練過程為求解參數(shù)β.

        ELM特征映射.給定一個(gè)輸入數(shù)據(jù)集x∈RN,ELM的輸出可以表示為:

        (1)

        其中,h(x)=[h(x1),…,h(xN)]T(N為訓(xùn)練樣本的數(shù)量),是隱含層的輸出矩陣.β=[β1,…,βN]是隱含層和輸出層之間的權(quán)值矩陣.h可以是任意操作的疊加(如全連接、卷積、池化、激活等),稱為x的特征映射.β是待訓(xùn)練的權(quán)值(不考慮偏置).在ELM網(wǎng)絡(luò)里,h中的參數(shù)都是以某種連續(xù)的分布隨機(jī)產(chǎn)生的,并且在訓(xùn)練和預(yù)測時(shí)保持不變,只需要訓(xùn)練和求解分類層的β.

        ELM學(xué)習(xí).ELM學(xué)習(xí)是一種監(jiān)督式學(xué)習(xí).在ModelNet-10 數(shù)據(jù)集中,每一個(gè)輸入模型對(duì)應(yīng)一個(gè)標(biāo)簽類別,分別編號(hào)為1,…,10,可以得到一個(gè)標(biāo)簽矩陣T∈RN×10.T的每一行表示一個(gè)訓(xùn)練樣本的期望輸出,這一行中,標(biāo)簽編號(hào)對(duì)應(yīng)的列值為1,其余列值為-1.把構(gòu)造的映射h記作H∈RN×m(m是分類層神經(jīng)元的數(shù)量),它是樣本的特征矩陣.網(wǎng)絡(luò)的優(yōu)化目標(biāo)是最小化權(quán)值和訓(xùn)練誤差:

        min C‖Hβ-T‖2+‖β‖2

        (2)

        其中,Hβ是實(shí)際輸出,T是期望輸出,C是正則化參數(shù),由經(jīng)驗(yàn)給出.

        根據(jù)M-P廣義逆和嶺回歸理論,最優(yōu)的β∈Rm×10可以由(3)式[22]得出:

        (3)

        其中,I是與HHT或HTH相同大小的單位矩陣.

        得到β后,網(wǎng)絡(luò)模型就可以進(jìn)行預(yù)測.將測試集加入模型中,經(jīng)過融合卷積網(wǎng)絡(luò)提取特征后得到預(yù)測數(shù)據(jù)的特征矩陣H′∈Rn×m(n表示測試樣本的數(shù)量),計(jì)算T′=H′β.T′的每一行表示一個(gè)樣本的輸出,找出每一行中的最大值,其對(duì)應(yīng)的列即為預(yù)測的輸出類別,預(yù)測過程如圖1所示.

        Local Receptive Field based ELM (LRF-ELM).Huang等人[20]在ELM的基礎(chǔ)上進(jìn)一步提出了基于超限學(xué)習(xí)機(jī)的局部感知域(LRF-ELM),將全連接特征映射層替換為局部感知域,由卷積層和池化層組成.卷積核參數(shù)也是以某種連續(xù)的分布隨機(jī)產(chǎn)生.與其它的深度模型一樣,多層LRF-ELM也被用于特征學(xué)習(xí).它的優(yōu)點(diǎn)是只訓(xùn)練和優(yōu)化最后一個(gè)全連接層,因此訓(xùn)練速度很快.本文提出的模型也是基于LRF-ELM,但使用的是一種新的特征提取的網(wǎng)絡(luò)結(jié)構(gòu),并且只隨機(jī)產(chǎn)生一半的網(wǎng)絡(luò)參數(shù),另一半?yún)?shù)則通過構(gòu)造稀疏矩陣并加入高斯噪聲尋優(yōu)的方法獲得.

        雖然ELM網(wǎng)絡(luò)結(jié)構(gòu)只訓(xùn)練迭代一次,但是當(dāng)網(wǎng)絡(luò)層數(shù)和訓(xùn)練樣本數(shù)較多時(shí),內(nèi)存的開銷也隨之增大.因此需要合理地設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),以滿足實(shí)際應(yīng)用.

        2.3 殘差網(wǎng)絡(luò)

        殘差網(wǎng)絡(luò)在2015年的ILSVRC、ImageNet、COCO等計(jì)算機(jī)圖像識(shí)別任務(wù)中取得了最好的成績,并且它將深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)最多增加到了1000多層.殘差網(wǎng)絡(luò)由大量殘差單元組成,殘差單元包含2個(gè)或3個(gè)小卷積核和恒等映射的連接.這種方式使得網(wǎng)絡(luò)隨著深度的增加而不退化,在一定程度上解決了梯度爆炸的問題.同時(shí)這也反映了多層非線性網(wǎng)絡(luò)無法逼近多個(gè)恒等映射.

        典型的殘差單元結(jié)構(gòu)如圖3所示.它有2層,卷積層表達(dá)式為F=W2σ(W1x)(σ表示非線性函數(shù)RELU,下同),W1和W2表示卷積操作.它并聯(lián)一個(gè)恒等映射的快捷連接(shortcut),得到y(tǒng)=F(x,{Wi})+x,經(jīng)過第二個(gè)函數(shù)得到輸出σ(y).實(shí)驗(yàn)顯示,在深度網(wǎng)絡(luò)中,優(yōu)化殘差函數(shù)更加容易.增加恒等映射的快捷連接,使得網(wǎng)絡(luò)可以以殘差來訓(xùn)練參數(shù),在不增加復(fù)雜度的情況下,顯著地提升了網(wǎng)絡(luò)的性能.

        圖3 殘差單元Fig.3 A residual unit

        殘差網(wǎng)絡(luò)的思想是忽略相同的主體部分,從而突出微小的變化.引入殘差后的映射對(duì)輸出的變化更加敏感.

        2.4 融合卷積單元

        針對(duì)低層殘差網(wǎng)絡(luò)擬合能力不足的問題,本文提出了一種改進(jìn)的融合卷積網(wǎng)絡(luò).融合卷積網(wǎng)絡(luò)由融合卷積單元(Coalesce Convolution Block)組成.融合卷積單元包含幾個(gè)和恒等映射并聯(lián)的卷積層、mask層、池化層和激活函數(shù)等(如圖6所示).融合卷積單元的通道個(gè)數(shù)表示單元的大小,每個(gè)通道上的卷積核個(gè)數(shù)恒定,增加的通道的卷積核個(gè)數(shù)依次增加.這樣做的好處是網(wǎng)絡(luò)可以以較少的層數(shù)獲得深度殘差網(wǎng)絡(luò)的特征提取的能力,而且網(wǎng)絡(luò)并行計(jì)算的效率更高.它也不同于Christian等人[23]提出的Inception-ResNet網(wǎng)絡(luò),直接在Inception網(wǎng)絡(luò)中加入殘差項(xiàng).融合卷積網(wǎng)絡(luò)更加規(guī)范和簡潔,不同通道之間的卷積沒有互連,減少了參數(shù)耦合.

        假設(shè)期望的最優(yōu)映射為H(x),待優(yōu)化的殘差映射為F(x)=H(x)-x.則.不同大小的融合卷積單元的F(x)的數(shù)學(xué)形式也不同.以4通道融合卷積單元為例,其卷積網(wǎng)絡(luò)如圖4所示.圖4中各通道輸出分別為:

        F1=W11x,F2=W22σ(W21x),F3=W33σ(W32σ(W31x)),F(xiàn)4=W44σ(W43σ(W42σ(W41x))),F(xiàn)(x)=F1+F2+F3+F4.

        對(duì)于k通道的融合卷積單元:

        (4)

        輸出g(x)=σ(F(x)+x),加上mask層和池化層,構(gòu)成一個(gè)融合卷積單元(如圖6所示).這種函數(shù)大大增強(qiáng)了網(wǎng)絡(luò)對(duì)殘差項(xiàng)的擬合能力.本文測試了不同通道數(shù)的融合卷積單元組合而成的網(wǎng)絡(luò),證明了這種網(wǎng)絡(luò)的優(yōu)越性.

        圖4 4通道卷積網(wǎng)絡(luò)Fig.4 4-channels convolution network

        3 用于3D物體識(shí)別的CCN-ELM網(wǎng)絡(luò)

        本文引入了CCN-ELM網(wǎng)絡(luò),進(jìn)行3D物體的特征提取和分類.CCN-ELM識(shí)別3D模型的網(wǎng)絡(luò)框架如圖5所示.一個(gè)3D模型表示為d×d×D的三維數(shù)據(jù)(d為分辨率).輸入共有D×N張圖片(N為樣本數(shù),D為投影視角數(shù)).每個(gè)3D模型有D個(gè)通道,每個(gè)通道中包含多層融合卷積單元.提取所有視角圖的特征后,由半隨機(jī)的ELM分類層進(jìn)行輸出.

        圖5 CCN-ELM識(shí)別3D物體的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Architecture of CCN-ELM for 3D object recongnition

        3.1 數(shù)據(jù)預(yù)處理

        由2.1節(jié)知,可以利用OpenGL將3D物體表示為多視角下的二維投影圖像的集合,同時(shí)可以得到對(duì)應(yīng)的mask圖像集.設(shè)訓(xùn)練集的樣本個(gè)數(shù)為.給訓(xùn)練集中的每個(gè)3D模型的所有投影圖像和mask圖像分別做旋轉(zhuǎn)、平移、翻轉(zhuǎn)仿射變換(不同投影圖像旋轉(zhuǎn)不同的角度),新的圖像集也可以表示一個(gè)對(duì)應(yīng)的3D模型.得到輸入網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)大小為d×d×D×2N.Mask圖像的處理與之相同.

        3.2 CCN-ELM網(wǎng)絡(luò)

        CCN-ELM網(wǎng)絡(luò)基于三點(diǎn)考慮:

        1)同一個(gè)融合卷積單元里,相同大小的卷積核參數(shù)共享;

        2)網(wǎng)絡(luò)中一半的卷積核參數(shù)由高斯分布隨機(jī)產(chǎn)生,另一半則通過構(gòu)造稀疏矩陣加高斯白噪聲尋優(yōu)的方法獲得;

        3)多層融合卷積網(wǎng)絡(luò)提取特征,ELM層分類.

        CCN-ELM的訓(xùn)練過程分為兩步:融合卷積網(wǎng)絡(luò)提取特征,ELM網(wǎng)絡(luò)進(jìn)行矩陣運(yùn)算訓(xùn)練分類層參數(shù).CCN-ELM詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示.

        (a) Coalesce convolutional network based ELM (b) k-channels coalesce convolution block (CCB)

        圖6 CCN-EM網(wǎng)絡(luò)圖和CCB結(jié)構(gòu)圖
        Fig.6 CCN-ELM network and CCB structure

        圖6中,左圖的Random CCB為隨機(jī)融合卷積單元,這個(gè)單元里的所有卷積核參數(shù)均隨機(jī)產(chǎn)生并經(jīng)過了歸一化;Sparse CCB為稀疏融合卷積單元,這個(gè)單元里的卷積核由稀疏矩陣加高斯白噪聲尋優(yōu)的方法獲得.圖6中的右圖為包含多通道卷積層、mask層和池化層的CCB結(jié)構(gòu).

        每一個(gè)輸入模型對(duì)應(yīng)一個(gè)類別標(biāo)簽,可分別編號(hào)為1,…,L,樣本數(shù)為N(已擴(kuò)充數(shù)據(jù)個(gè)數(shù),區(qū)別于3.1節(jié)中的N),可以得到一個(gè)標(biāo)簽矩陣T∈RN*L.T的每一行表示一個(gè)訓(xùn)練樣本的期望輸出,行中標(biāo)簽編號(hào)對(duì)應(yīng)的列值為1,其余列值為-1.

        對(duì)于每個(gè)輸入圖像,假設(shè)CCN-ELM有K層,則第i層包含2i(i=1,…,K)個(gè)融合卷積單元.它以i-1層的輸出映射作為輸入.在第i層中,有2i-1個(gè)random CCB和2i-1個(gè)sparse CCB,如圖6中左圖所示.它們之間僅僅卷積核參數(shù)不同,一個(gè)隨機(jī)產(chǎn)生,一個(gè)固定參數(shù),其余的結(jié)構(gòu)和參數(shù)一致.

        random CCB的所有卷積核參數(shù)隨機(jī)產(chǎn)生,并進(jìn)行歸一化.設(shè)某個(gè)卷積核大小為×t,卷積核參數(shù)由(5)、(6)式產(chǎn)生:

        W(i,j)=rand(0,1),i=1,…,;j=1,…,t

        (5)

        (6)

        假設(shè)sparse CCB中的某個(gè)卷積核大小為c×c.先將它初始化為的矩陣rand(0,1)×I(I為c×c大小的單位矩陣或者更稀疏的矩陣),再在卷積核的數(shù)值上加入高斯白噪聲,加入網(wǎng)絡(luò)中,進(jìn)行一定次數(shù)的迭代尋優(yōu)之后,將卷積核固定,后面的測試訓(xùn)練不再改變.這種操作可以增強(qiáng)網(wǎng)絡(luò)的稀疏性,使其只對(duì)關(guān)鍵特征敏感.

        在同一個(gè)融合卷積單元里,所有相同大小的卷積核參數(shù)共享.

        經(jīng)過多個(gè)通道的卷積操作和RELU激活之后,可以得到卷積層輸出g(x)=σ(F(x)+x),設(shè)為Gp,q.

        Mask層的計(jì)算為:

        (7)

        在ELM分類層中,將所有的特征矩陣合并為一個(gè)行向量,假設(shè)大小為1×n.D個(gè)投影圖的特征向量則為1×m(m=D×n).若訓(xùn)練數(shù)據(jù)數(shù)量為N,可以得到特征矩陣H∈RN×m.標(biāo)簽矩陣T∈RN×L,再由(3)式可以求得分類層的參數(shù)β.將測試集數(shù)據(jù)進(jìn)行投影預(yù)處理后輸入到模型中,就可以預(yù)測樣本的類別.

        4 實(shí)驗(yàn)和結(jié)果分析

        本文在普林斯頓3D模型數(shù)據(jù)集ModelNet和圖像分類數(shù)據(jù)集NORB上驗(yàn)證了CCN-ELM的性能,并和當(dāng)前其他的先進(jìn)方法進(jìn)行了比較.ModelNet10和ModelNet40是目前廣泛使用的ModelNet的兩個(gè)子數(shù)據(jù)集.ModelNet10 數(shù)據(jù)集由4,899個(gè)3D CAD模型組成,共10個(gè)類別,包含3,991個(gè)訓(xùn)練數(shù)據(jù)和908個(gè)測試數(shù)據(jù).ModelNet40 數(shù)據(jù)集由12,311個(gè)3D CAD模型組成,共40個(gè)類別,包含9,843個(gè)訓(xùn)練數(shù)據(jù)和2,468個(gè)測試數(shù)據(jù).這些模型包含了常見的家具,交通工具,樂器,電子產(chǎn)品等.

        本文利用MATLAB 2016a實(shí)現(xiàn)CCN-ELM網(wǎng)絡(luò).它運(yùn)行在Intel(R) Xeon E5-1620 3.5GHz CPU 32G RAM的計(jì)算機(jī)上.對(duì)于3D物體模型的多視角投影操作,本文在QT5.11和OpenGL中實(shí)現(xiàn).

        4.1 3D物體識(shí)別

        本文分別測試了三、四、五、六層包含1、2、3、4通道融合卷積單元的網(wǎng)絡(luò)結(jié)構(gòu),投影視角數(shù)=6 ,正則化參數(shù)=0.015.融合卷積單元中的卷積核大小如表1所示.

        表1 不同通道的CCB中卷積核的大小Table 1 Size of convolution kernel of different channels of CCB

        融合卷積單元中的池化均為2*2均值池化.Sparse CCB中的效果較好的3*3卷積核參數(shù)為[-0.38,0,0;0,0.35,0;0,0,0.5],1*1卷積核參數(shù)可以隨機(jī)產(chǎn)生,對(duì)識(shí)別率影響很小.

        在官網(wǎng)上下載的數(shù)據(jù)集中,ModelNet10已經(jīng)經(jīng)過了手動(dòng)調(diào)整位置和方向,ModelNet40則沒有.受計(jì)算機(jī)內(nèi)存的限制,這里只給ModelNet10中的訓(xùn)練數(shù)據(jù)做了仿射變換以擴(kuò)充數(shù)據(jù).ModelNet10訓(xùn)練集輸入數(shù)據(jù)大小為128×128×6×7982,ModelNet40為128×128×6×9843.

        Xie等人[17]提出的MVD-ELM也是利用卷積神經(jīng)網(wǎng)絡(luò)和ELM網(wǎng)絡(luò)識(shí)別3D模型,他們的論文中對(duì)ModelNet10數(shù)據(jù)集識(shí)別的準(zhǔn)確率為88.99%,我們復(fù)現(xiàn)他們的方法后得到的準(zhǔn)確率為87%.Arvind等人[12]提出的用于3D物體識(shí)別的深度殘差網(wǎng)絡(luò),在ModelNet40中的識(shí)別率為86.5%,我們復(fù)現(xiàn)后得到的準(zhǔn)確率為85.8%.

        表2 不同通道數(shù)的CCN-ELM在ModelNet10中的準(zhǔn)確率Table 2 CCN-ELM recognition accuracy of different channels on the ModelNet10 dataset

        表3 不同算法在ModelNet10和ModelNet40中的準(zhǔn)確率(表中第二行表示算法訓(xùn)練時(shí)間)Table 3 Recognition accuracy of different methods on the ModelNet10 and ModelNet40 datasets

        對(duì)于提出的網(wǎng)絡(luò)模型,全部使用融合卷積單元和部分組合融合卷積單元均在ModelNet10上取得了90%以上的準(zhǔn)確率,最高達(dá)到了92.86%,在ModelNet40中的識(shí)別率最高達(dá)到了88.67%.實(shí)驗(yàn)顯示,CCN-ELM網(wǎng)絡(luò)相比現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)和深度殘差網(wǎng)絡(luò)效果更好,而且訓(xùn)練時(shí)間更短.不同通道數(shù)對(duì)應(yīng)的測試結(jié)果如表2所示(6層融合卷積網(wǎng)絡(luò)).由實(shí)驗(yàn)結(jié)果可知,通道數(shù)越多,識(shí)別效果越好.CCN-ELM的實(shí)驗(yàn)結(jié)果和其他算法的結(jié)果比較如表3所示.

        4.2 圖像識(shí)別

        為了進(jìn)一步驗(yàn)證CCN-ELM的性能.本文在NORB數(shù)據(jù)集上也進(jìn)行了測試.NORB數(shù)據(jù)集包含24300張圖片.它是3D物體的圖像識(shí)別數(shù)據(jù)集.拍攝者從不同的角度對(duì)5大類別(4條腿的動(dòng)物、人像、飛機(jī)、卡車、小汽車)中的模型進(jìn)行圖像拍攝.拍攝采用了2個(gè)照相機(jī),6 種不同的光照條件,9個(gè)特定的拍攝角度,18個(gè)仰角.每張樣本圖片經(jīng)過鏡像變換擴(kuò)充為兩張圖片.每張圖片經(jīng)過了壓縮,分辨率為32×32.本文使用6層4通道的CCN-ELM網(wǎng)絡(luò),識(shí)別的準(zhǔn)確率達(dá)到了96.32%.本文的方法和其他方法的實(shí)驗(yàn)結(jié)果比較如表4所示.CCN-ELM網(wǎng)絡(luò)在NORB上的表現(xiàn)也優(yōu)于其他的網(wǎng)絡(luò).

        表4 不同算法在NORB中的準(zhǔn)確率Table 4 Recognition accuracy results of different methods on the NORB dataset

        5 結(jié) 論

        本文提出了一種新型的結(jié)合超限學(xué)習(xí)機(jī)和融合卷積網(wǎng)絡(luò)的模型,并在3D物體識(shí)別中取得了很好的效果.CCN-ELM網(wǎng)絡(luò)以多視角的3D投影圖作為輸入,經(jīng)過多層融合卷積網(wǎng)絡(luò)和ELM網(wǎng)絡(luò),預(yù)測物體的類別.提出的融合卷積單元能擬合更復(fù)雜的非線性殘差項(xiàng)函數(shù),增加了低層網(wǎng)絡(luò)的特征表達(dá)能力,同時(shí)網(wǎng)絡(luò)結(jié)構(gòu)更加規(guī)范和簡潔,便于優(yōu)化和訓(xùn)練.實(shí)驗(yàn)顯示,CCN-ELM的準(zhǔn)確率和訓(xùn)練時(shí)間均優(yōu)于其它常用的網(wǎng)絡(luò)模型,并且它的結(jié)構(gòu)更易于實(shí)現(xiàn).較快的訓(xùn)練和測試速度,使它能應(yīng)用于實(shí)時(shí)3D物體識(shí)別中.

        受計(jì)算機(jī)硬件的限制,使用的3D物體投影個(gè)數(shù)和網(wǎng)絡(luò)的并行映射通道數(shù)較少,網(wǎng)絡(luò)層數(shù)也較少.今后將研究更深層、更多通道的融合卷積網(wǎng)絡(luò),以獲得更好的結(jié)果.

        猜你喜歡
        融合模型
        一半模型
        一次函數(shù)“四融合”
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        重要模型『一線三等角』
        寬窄融合便攜箱IPFS500
        《融合》
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        人妻少妇精品中文字幕av蜜桃| 日产国产亚洲精品系列| 日本久久精品中文字幕| 亚洲av无码专区在线观看下载| 中国丰满熟妇xxxx| 久久青青草原亚洲AV无码麻豆| 久久精品国产视频在热| 亚洲无人区乱码中文字幕能看| 超碰97人人射妻| av蓝导航精品导航| 日本加勒比东京热日韩| 亚洲av日韩av天堂久久不卡 | 亚洲AV秘 无码一区二区三| 亚洲一区二区三区毛片| 亚洲av天堂免费在线观看| 老少配老妇老熟女中文普通话| 亚洲国产精品自拍一区| 国产目拍亚洲精品区一区| 精彩亚洲一区二区三区| 亚洲欧美牲交| av人摸人人人澡人人超碰小说| 精品综合久久久久久99| va精品人妻一区二区三区| 丰满大爆乳波霸奶| 大伊香蕉在线精品视频75| 成人午夜免费福利| 久久精品一区二区熟女| 成人国产精品一区二区网站公司| 亚洲狠狠网站色噜噜| 青青草视频国产在线观看| 日本一二三区在线观看视频| 久久国产劲暴∨内射| 国产视频在线一区二区三区四区| 99久久精品人妻一区| 亚洲人成无码区在线观看| 欧美精品黄页在线观看视频| 日本不卡一区二区三区在线 | 久久色悠悠综合网亚洲| 人妻在卧室被老板疯狂进入| 亚洲人成无码网www| 亚洲第一页综合av免费在线观看|