亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多視圖循環(huán)神經(jīng)網(wǎng)絡的三維物體識別

        2020-04-06 08:48:22李文生張文強
        電子科技大學學報 2020年2期
        關(guān)鍵詞:池化視圖檢索

        董 帥,李文生,張文強,鄒 昆

        (電子科技大學中山學院 廣東 中山 528406)

        近5 年,基于深度學習的計算機視覺技術(shù)[1]飛速發(fā)展,已廣泛應用于智能安防和無人駕駛等多個領域。在大規(guī)模目標數(shù)據(jù)集中,針對具體的識別或檢測任務,深層卷積網(wǎng)絡可以通過端對端的方式自適應地學習如何從輸入數(shù)據(jù)中提取和抽象特征,以及如何基于該特征進行決策。深層卷積網(wǎng)絡既可作為圖像特征提取和分類操作的統(tǒng)一體,又可以只作為特征提取網(wǎng)絡供實例檢索任務使用[2-3]。目前大多數(shù)基于深度學習的圖像分類網(wǎng)絡和目標檢測框架都是針對二維圖像提出的,但隨著深度學習逐步應用到機器人導航和無人超市等領域,三維物體的識別技術(shù)也逐漸得到了研究人員的廣泛關(guān)注。與二維圖像相比,三維物體識別的難點在于,同一物體的不同側(cè)面可能存在較大差異,從不同角度觀察會呈現(xiàn)出不同的形態(tài),而不同物體在某個側(cè)面上的差異可能很小,甚至呈現(xiàn)出相同的形態(tài)。這使得直接使用單視圖(即二維圖像或投影)分類網(wǎng)絡的識別效果較差。

        在深度學習受到廣泛關(guān)注之前,有許多學者采用了SURF 等傳統(tǒng)幾何方法[4-7]對三維物體的識別技術(shù)進行了探索,取得了一定的成果,但這類方法的魯棒性和泛化能力較差。近幾年,研究者逐漸將深度學習推廣到三維物體識別領域,提出了多種方法。這些方法可以大致分為兩類:基于三維數(shù)據(jù)表示的方法和基于多視圖表示的方法。文獻[8]提出了基于體素網(wǎng)格和三維卷積的VoxelNet,該網(wǎng)絡是二維平面卷積到三維空間卷積的直接推廣,由于計算量過大,輸入模型的體素分辨率一般較低,進而導致識別精度也較低。文獻[9-10]提出了針對三維點云的PointNet 及后續(xù)的一系列方法,這些方法基于點云的無序性提出多種非歐卷積網(wǎng)絡[11-12],具有較大的影響力,但同樣存在計算量大和訓練困難的問題。文獻[13]提出了基于SSD 的6 維位姿估計目標檢測框架,開創(chuàng)性地將位姿估計和目標檢測二者結(jié)合,具有啟發(fā)性。文獻[14]提出了基于深度霍夫投票的3D 目標檢測框架VoteNet,該框架主要用于場景的識別,未關(guān)注單個實例的分類和檢索問題。文獻[15]提出的基于多視圖的卷積神經(jīng)網(wǎng)絡(MVCNN),與基于三維數(shù)據(jù)的方法并行。MVCNN 在分類和檢索任務上的表現(xiàn)均優(yōu)于基于三維數(shù)據(jù)的識別方法。在文獻[16]中,對MVCNN、PointNet++和VoxelNet 等多種方法進行對比,并指出多視圖方法的優(yōu)異表現(xiàn)主要得益于龐大的二維圖像數(shù)據(jù)集。但MVCNN 存在兩個方面的不足:1)依賴于精確的3D 模型,且采用了固定視角的視圖,這并不符合真實的應用場景,導致算法泛化能力不足;2) 采用了最大值池化操作來對多視圖進行融合,融合后的特征會損失大量信息。

        針對MVCNN 存在的問題,本文提出了一種基于MVRNN 的三維物體識別方法。首先,設計了一個包含特征辨識度指標的目標函數(shù)用于訓練網(wǎng)絡,能夠得到辨識度更高的物體單視圖特征和融合特征;其次,使用循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network, RNN)對多個視圖特征進行融合,得到一個更加緊湊且包含更豐富信息的融合特征作為物體的注冊特征;最后,利用單視圖特征對注冊特征進行檢索。與MVCNN 相比,MVRNN 存在以下優(yōu)點:1)不依賴于3D 模型,在實際應用中,只需要采集2D 圖片提取特征并進行融合;2)對視圖的視角和數(shù)量沒有要求,對不同視圖的特征信息利用更充分;3)利用循環(huán)結(jié)構(gòu)網(wǎng)絡進行特征融合,兼具緊湊性和完備性。

        1 問題描述

        1.1 多視圖數(shù)據(jù)集

        PASCAL3D+和Tsukuba 等公開三維數(shù)據(jù)集主要針對三維模型的分類,并不適用于多視圖的識別場景。文獻[15]基于ModelNet 建立了多視圖的數(shù)據(jù)集,但只采用了圖1 所示的12 個固定位置和視角,并不完全符合實際應用的場景。為了充分展現(xiàn)MVRNN 的優(yōu)點,本文自建數(shù)據(jù)集MV3D (multiview 3D)用于對比試驗。

        MV3D 采用Unity 軟件制作,將三維模導入軟件,并在Camera 的視場中隨機平移和旋轉(zhuǎn)模型,得到二維視圖。該數(shù)據(jù)集共有95 個三維物體模型,每個物體包括100 個二維視圖。物體模型較ModelNet 更加精致,紋理也更加豐富。該數(shù)據(jù)集中存在一些在不同視角角度下外觀差異較大的物體,以及一些屬于不同類別但在某些視角下形態(tài)十分相近的物體。圖2 展示了該數(shù)據(jù)集中的部分樣本。

        1.2 MVRNN 三維物體識別框架

        在MVCNN 中, F(·)采用了簡單的最大值池化;此外, F(·)還可采用均值池化和直接拼接等實現(xiàn)方法。本文利用RNN 代替最大值池化實現(xiàn)特征融合,此即為MVRNN 的由來。

        由于多個模塊同時訓練難度較大,整個框架采用分步訓練的策略:1) 訓練分類分支 E(·)和 C1(·),固化 E(·)并提取單視圖特征;2)訓練分類分支F(·)和 C2(·), 固化 F(·)計算融合特征;3)訓練二分類網(wǎng)絡 M(·)。 C1(·)和 C2(·)只 用于 E(·)和 F(·)的訓練,并不直接參與預測。

        2 MVRNN 具體實現(xiàn)方案

        2.1 特征提取網(wǎng)絡

        與MVCNN 一樣,在MVRNN 中 E(·)和 C1(·)直接采用了ResNet-18[17]的結(jié)構(gòu),并加載了預訓練的參數(shù)進行微調(diào)。輸入圖片尺寸為224*224,輸出特征長度為512。訓練時,采用的損失函數(shù)為:

        2.2 循環(huán)多視圖特征融合網(wǎng)絡

        特征融合網(wǎng)絡的作用是對多個視圖特征進行融合,得到一個能夠完整描述物體形狀和紋理信息的特征。本節(jié)借鑒視頻分析方法,采用RNN 來融合特征,其結(jié)構(gòu)如圖4 所示。物體的多個視圖在時間上無相關(guān)性,但在空間上是關(guān)聯(lián)的,因此能夠借助RNN 的記憶能力來融合特征。

        F(·)網(wǎng)絡采用圖5 所示的結(jié)構(gòu),每個循環(huán)體中包括線性全連接層(full connection, FC)和雙曲正切單元Tanh,最后的分類層 C2(·)包括了線性全連接FC 和Softmax 操作,全連接層神經(jīng)元數(shù)量均為1 024,融合后特征長度為512。 F(·)循環(huán)體的數(shù)量可以隨輸入視圖的數(shù)量變化,即輸入視圖數(shù)量不固定。 F(·)的訓練同樣采用了式(1)所示的損失函數(shù),λ 取0.01,μ取0。

        2.3 檢索匹配網(wǎng)絡

        相似度匹配模塊 M(·)是一個二分類模型,使用了三層的全連接神經(jīng)網(wǎng)絡結(jié)構(gòu),輸入由單視圖特征和融合后特征拼接而成,隱藏層由線性全連接、Batch Normalization 和ReLU 組成,輸出層由線性全連接FC 和Softmax 組成,隱藏層神經(jīng)元數(shù)量均為1 024,網(wǎng)絡結(jié)構(gòu)如圖6 所示。 F(·)的訓練同樣采用了式(1)所示的損失函數(shù),其中,λ取0.000 5,μ取0。

        3 特征融合方法對比

        特征融合是傳統(tǒng)機器學習中比較常用的手段,一般需要根據(jù)先驗知識來提取不同類別的特征信息,并進行協(xié)同決策。特征融合在深度學習領域也得到廣泛應用,比如ResNet 的殘差模塊和DenseNet的跨層連接,都對不同層的特征進行了融合。常見的特征融合方法包括直接拼接(concatenating)、堆疊(stacking)、相加(adding)、最大值池化(max-pooling)和均值池化(average-pooling)等。其中,堆疊可以看做是直接拼接的特例,相加則等效于均值池化。衡量特征融合方法的主要準則有兩個:1) 原始特征的信息是否會損失,即信息的完備性;2) 融合后特征是否便于后續(xù)計算,即特征的緊湊性,一般指融合特征的長度。此外,傳統(tǒng)機器學習的特征融合還比較注重被融合特征之間的差異性,差異越大則信息量越多,但該準則對于本文所解決的問題并不適用。

        對于三維物體的多視圖特征融合任務而言,直接拼接能夠保證信息的完備性,但融合后特征長度較大,會導致網(wǎng)絡規(guī)模較大,且訓練難度增大;最大值池化和均值池化得到的特征比較緊湊,但會損失部分信息;而RNN 則兼具完備性和緊湊性。幾種方法得到的融合特征長度比較直觀,直接拼接方法的完備性也是毋庸諱言。

        為了對比兩種池化方法和RNN 的完備性,本節(jié)設計了一個比較極端的二維特征融合任務,對比結(jié)果如圖7~圖10 所示。圖7 包含10 個物體的不同視圖特征,每條曲線表示一個物體,曲線上的點表示不同視圖的特征。特征空間可以分為左上、左下、右上和右下4 個子空間,子空間內(nèi)的物體特征存在較大的相似性。從每條曲線隨機抽取5 個點進行融合,重復得到融合特征的分布。最大值池化的結(jié)果如圖8 所示,其中,左下兩個物體特征出現(xiàn)了重疊,右上的類似。均值池化的結(jié)果則是左上和右下的物體特征出現(xiàn)重疊,具體如圖9 所示。RNN采用了單隱含層10 神經(jīng)元的全連接網(wǎng)絡,其融合結(jié)果如圖10 所示。RNN 引入了新的網(wǎng)絡層將特征映射至新的空間,10 個物體被有效區(qū)分。

        4 實驗結(jié)果與分析

        為了說明MVRNN 在融合多視圖特征上的優(yōu)越性,本節(jié)在ModelNet 數(shù)據(jù)集[15]和自建數(shù)據(jù)集MV3D 上進行了多組對比分析。

        從ModelNet 數(shù)據(jù)集隨機抽取4 000 個物體,每個物體分別抽取6 張和12 張視圖,按照6:1:3 的比例劃分訓練集、驗證集和測試集。MVCNN 和MVRNN 在融合特征分類任務和實例檢索任務上的性能如表1 所示。從表1 可以看出,相較于MVCNN,MVRNN 在分類任務上有一定的提升,且融合的視圖越多,二者的準確率都有提升;在檢索任務上,MVRNN 明顯優(yōu)于MVCNN;需要注意的是,隨著視圖的增多,MVCNN 檢索的準確率會下降,這是由于ModelNet 數(shù)據(jù)集中模型本身都比較簡單粗糙,缺乏具有辨識度的紋理,最大值池化操作更容易丟失信息,圖片越多,更有可能導致部分關(guān)鍵信息的丟失。

        表1 MVCNN 和MVRNN 準確率對比(ModelNet)

        由于ModelNet 數(shù)據(jù)集具有固定視角的限制,無法充分驗證MVRNN 的性能。因此,本文利用Unity 3D 制作了MV3D 數(shù)據(jù)集,其中訓練集包含65 個物體,測試集包含30 個物體,每個物體包含100 張視圖。數(shù)據(jù)集的設定如下:

        1)訓練特征提取網(wǎng)絡時,訓練集中所有的視圖(6 500 張)全部參與訓練。

        2)訓練特征融合網(wǎng)絡時,從每個物體隨機抽取6 個單視圖特征構(gòu)建六元組作為網(wǎng)絡輸入;訓練集包含65 個物體,每個物體包含2 000 個六元組;測試集由同樣的65 個物體生成,每個物體包含500 個六元組。即訓練樣本數(shù)量為130 000,測試樣本數(shù)量為32 500。

        3)訓練匹配網(wǎng)絡時,從物體A 隨機抽取7 個單視圖特征A1~A7,從物體B 抽取1 個單視圖特征B1,構(gòu)建正負兩個七元組樣本作為網(wǎng)絡輸入,其中A1~A6 輸入特征融合網(wǎng)絡生成融合特征,A7 為檢索特征正樣本,B1 為檢索特征負樣本;訓練集包含65 個物體,每個物體包含2 000 個七元組;測試集包含30 個物體,每個物體包含2 000個七元組。即訓練樣本數(shù)量為130 000,測試樣本數(shù)量為60 000。

        在MV3D 數(shù)據(jù)集上進行7 種方法的對比測試,結(jié)果如表2 所示。實驗的設定如下:1)基于單個視圖特征進行分類和檢索;2)基于多個單視圖特征進行單獨匹配,并取置信度最高的視圖作為最終匹配結(jié)果;3) MVCNN,即 F(·)為最大值池化;4) F(·)為 直 接 拼 接;5) F(·)為 均 值 池 化;6)MVRNN without Lrect; 7) MVRNN with Lrect。各組實驗涉及到的卷積網(wǎng)絡和相似度匹配模型均采用同樣的結(jié)構(gòu),且所有模型均使用相同的訓練方法和超參,batch_size 為50,采用Nesterov[18]梯度加速算法,初始學習率為10?2,穩(wěn)定后變?yōu)?0?3和10?4,動量為0.9,dropout 概率[19]為0.3。 top 1_dst定義為在檢索正確的結(jié)果中,1.0 與最大相似度之間的平均距離,即則表示在檢索正確的結(jié)果中,最大與次大相似度之間的平均距離,即可以衡量特征辨識度的高低, top 2_dst越大,同時top1_dst越小,則該值越大,也說明特征的辨識度越高。

        表2 MVRNN 性能對比(MV3D)

        從表2 來看,MVRNN 準確率最高,即使損失函數(shù)不考慮 Lrect項,結(jié)果依然較其他方法好。最大值池化、均值池化和直接拼接3 種方式準確率相近,為第2 梯隊;只使用單視圖的兩種方法效果最差。

        在目標函數(shù)中增加 Lrect項后,MVRNN 在單視圖分類和融合特征檢索的準確率上都得到了明顯提升,具體結(jié)果如表3 所示。結(jié)合表2 的特征辨識度指標來看, Lrect能夠提升特征辨識度,進而提升分類和檢索的準確率。

        表3 Lrect 效果對比

        為了進一步對比MVRNN 和MVCNN 的性能,本節(jié)對表2 中的實驗3 和實驗7 進行擴展,得到了視圖數(shù)量分別為2,4,6,8,10 時,訓練集物體數(shù)量為10,20,30,40,50,65 時的檢索準確率,具體結(jié)果如圖11 所示。從圖中可以看出:1)隨著訓練集物體數(shù)量的增加,檢索準確率也不斷增加;2)在物體數(shù)量超過30 后,準確率整體的提升幅度較小,物體數(shù)量為30 時對應的訓練樣本數(shù)量為60 000;3)MVRNN 整體準確率較MVCNN 高約8%。

        本文還基于MVRNN 開發(fā)了一個簡單的商品識別系統(tǒng)。該系統(tǒng)包括商品注冊和商品識別兩個模式,具體應用如圖12 和圖13 所示。在注冊階段,采集商品實例的不同視圖,以提取視圖特征進行融合,并對融合特征進行注冊;在識別階段,則根據(jù)商品單視圖特征對融合特征進行檢索。在100 種常見飲料食品類商品上進行測試,注冊圖片不超過9 張,即可完成大部分商品實例的檢索,準確率約為90%。

        5 結(jié) 束 語

        針對三維物體的分類和檢索問題,本文對MVCNN 進行改進,提出了MVRNN。通過在損失函數(shù)中引入特征辨識度指標,能夠有效提升分類和檢索的準確率;利用RNN 代替最大值池化操作,使得融合特征具有信息完備性。在ModelNet 數(shù)據(jù)集和MV3D 數(shù)據(jù)集上,MVRNN 的表現(xiàn)較MVCNN有了明顯提升。在未來的研究中,擬制作大規(guī)模商品數(shù)據(jù)集以開展MVRNN 的應用研究;此外,將MVRNN 與SSD 等目標檢測框架結(jié)合來估計物體的六維位姿也是一個比較有前景的方向。

        猜你喜歡
        池化視圖檢索
        基于緊湊型雙線性網(wǎng)絡的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設計
        卷積神經(jīng)網(wǎng)絡中的自適應加權(quán)池化
        軟件導刊(2022年3期)2022-03-25 04:45:04
        2019年第4-6期便捷檢索目錄
        基于卷積神經(jīng)網(wǎng)絡和池化算法的表情識別研究
        5.3 視圖與投影
        視圖
        Y—20重型運輸機多視圖
        SA2型76毫米車載高炮多視圖
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        成人综合亚洲国产成人| 亚洲欧美一区二区三区| 在线精品国产一区二区| 熟女白浆精品一区二区| av手机免费在线观看高潮| 国内熟女啪啪自拍| 中字幕久久久人妻熟女| 久久精品国产亚洲片| 蜜桃免费一区二区三区| 亚洲精品国偷拍自产在线观看| 黄 色 人 成 网 站 免 费| 日本一区二区不卡超清在线播放| 亚洲一区二区三区激情在线观看| 亚洲欧美色一区二区三区| 欧美色aⅴ欧美综合色| 宅男久久精品国产亚洲av麻豆| 97精品人妻一区二区三区在线| 欧美黑人性暴力猛交喷水| 五月天国产精品| 免费人成网在线观看品观网| 伊人久久大香线蕉av不变影院| 天天爽夜夜爽夜夜爽| 久久婷婷国产精品香蕉| 伊人久久亚洲精品中文字幕| 亚洲欧美一区二区成人片| 日韩无码无播放器视频| 日韩国产有码精品一区二在线 | 无码三级国产三级在线电影| 国产三级不卡一区不卡二区在线| 国产网红主播无码精品| 五月天国产精品| 日本女优爱爱中文字幕| 日韩网红少妇无码视频香港| 性一交一乱一伦| 日本人妻av在线观看| 黄片视频免费在线播放观看| 内谢少妇xxxxx8老少交| WWW拍拍拍| 中文字幕丰满人妻av| 狠狠色噜噜狠狠狠狠米奇777| 国产精品白浆无码流出|