亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的三維圖像識(shí)別技術(shù)研究

        2023-12-04 14:18:46高瞻宇
        信息記錄材料 2023年10期
        關(guān)鍵詞:池化特征提取卷積

        高瞻宇

        (華為技術(shù)有限公司 廣東 深圳 518129)

        0 引言

        深度學(xué)習(xí)作為圖像識(shí)別領(lǐng)域的一項(xiàng)重要技術(shù),常被用于二維圖像的特征識(shí)別和分類(lèi),而三維圖像采集數(shù)據(jù)主要以點(diǎn)云格式為主,點(diǎn)云作為一種特殊的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),具有無(wú)序性、旋轉(zhuǎn)不變性、非結(jié)構(gòu)化等特點(diǎn),原有的深度學(xué)習(xí)框架很難直接應(yīng)用于三維圖像的特征識(shí)別,因此本文提出了一種基于PointNet 網(wǎng)絡(luò)的深度學(xué)習(xí)模型架構(gòu),專(zhuān)用于三維圖像點(diǎn)云數(shù)據(jù)的特征識(shí)別和分類(lèi),以有效改善三維圖像的識(shí)別效果。

        1 關(guān)鍵技術(shù)概述

        1.1 點(diǎn)云

        點(diǎn)云是描述三維對(duì)象空間結(jié)構(gòu)和表面特征信息的一種數(shù)據(jù)格式,每一個(gè)點(diǎn)云都包含有三維坐標(biāo)、顏色、漫反射強(qiáng)度等信息[2],用于標(biāo)記三維對(duì)象任意點(diǎn)上的特征信息。點(diǎn)云數(shù)據(jù)的獲取主要是通過(guò)三維掃描設(shè)備,三維掃描設(shè)備又分為接觸式掃描設(shè)備與無(wú)接觸式掃描設(shè)備,接觸式掃描設(shè)備是將設(shè)備探頭與對(duì)象表面進(jìn)行接觸,以采集對(duì)象表面的反射信號(hào)獲得信息;無(wú)接觸式設(shè)備是由設(shè)備探頭周期性隔空發(fā)射激光光束,光束經(jīng)過(guò)對(duì)象表面產(chǎn)生漫反射,設(shè)備通過(guò)采集這些漫反射信號(hào)記錄對(duì)象的空間結(jié)構(gòu),具有采集速度快、精度高等特點(diǎn)。

        通過(guò)上述設(shè)備獲取的原始點(diǎn)云具有以下特點(diǎn):

        (1)無(wú)序性:點(diǎn)云是一個(gè)N×3 的矩陣,表示一個(gè)對(duì)象具有n個(gè)點(diǎn)云,每個(gè)點(diǎn)云都包含一個(gè)三維坐標(biāo)信息,而這n個(gè)點(diǎn)云的排列順序可以是任意的,無(wú)論如何排列,都不會(huì)改變其在三維空間投影中對(duì)對(duì)象形狀的特征表示。

        (2)旋轉(zhuǎn)不變性:是指在三維空間坐標(biāo)系中,對(duì)象發(fā)生旋轉(zhuǎn)后,即使所有點(diǎn)云的三維坐標(biāo)信息都發(fā)生了改變,都不會(huì)影響其對(duì)對(duì)象形狀的幾何性質(zhì)的描述,例如形狀大小、縮放比例等。

        (3)非結(jié)構(gòu)化:點(diǎn)云是一個(gè)非結(jié)構(gòu)化的數(shù)據(jù)格式,包含三維坐標(biāo)、顏色、反射強(qiáng)度等多種信息,是區(qū)別于二維圖像的一個(gè)明顯特征,因此也無(wú)法用二維圖像的常規(guī)方法進(jìn)行圖像處理。

        (4)分布不均、局部缺失:受限于外部環(huán)境、硬件設(shè)備性能等條件,原始點(diǎn)云大都存在分布不均、局部缺失等特點(diǎn),特別是曲面復(fù)雜的對(duì)象更為明顯。

        (5)高冗余性:是指點(diǎn)云之間描述信息的重復(fù)性較高,存在大量冗余信息,在圖像識(shí)別時(shí)還需要進(jìn)行去重處理。

        1.2 深度學(xué)習(xí)

        深度學(xué)習(xí)來(lái)源于人工神經(jīng)網(wǎng)絡(luò)的研究,是通過(guò)構(gòu)建多層神經(jīng)網(wǎng)絡(luò),建立前向?qū)W習(xí)與反向傳播的深層學(xué)習(xí)模型,多用于圖像識(shí)別、音頻處理、自然語(yǔ)言處理等領(lǐng)域[3]。 深度學(xué)習(xí)基于數(shù)據(jù)源的標(biāo)識(shí)特征可以分為有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)兩種,針對(duì)帶有特征標(biāo)識(shí)數(shù)據(jù)源所構(gòu)建的學(xué)習(xí)模型,通過(guò)已知特征進(jìn)行數(shù)據(jù)規(guī)律分析,以實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的特征預(yù)測(cè)和分類(lèi),即為有監(jiān)督學(xué)習(xí)[4];對(duì)未知特征數(shù)據(jù)集,通過(guò)潛在規(guī)律挖掘與分析,進(jìn)行模糊分類(lèi)和預(yù)測(cè),為無(wú)監(jiān)督學(xué)習(xí)。 其中卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)最為典型的一種算法,可用于有監(jiān)督學(xué)習(xí),也可用于無(wú)監(jiān)督學(xué)習(xí),并被廣泛地應(yīng)用于二維圖像識(shí)別和分類(lèi)當(dāng)中。 但針對(duì)三維圖像處理,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)受到點(diǎn)云特征的影響很難滿(mǎn)足相應(yīng)需求,因此需要一個(gè)構(gòu)建多層權(quán)重共享卷積神經(jīng)網(wǎng)絡(luò),即PointNet 網(wǎng)絡(luò)以實(shí)現(xiàn)三維圖像的特征處理。

        1.3 PointNet

        PointNet 卷積神經(jīng)網(wǎng)絡(luò)是專(zhuān)用于處理三維圖像點(diǎn)云的深度學(xué)習(xí)模型[5],解決問(wèn)題的核心思路是通過(guò)多個(gè)神經(jīng)網(wǎng)絡(luò)層(multi-layer perceptron, MLP)的卷積,實(shí)現(xiàn)對(duì)點(diǎn)云特征的擴(kuò)維。 再在此基礎(chǔ)上進(jìn)行最大值池化操作,特征提取和全局連接,最終獲得一個(gè)1×1024 維的全局特征矩陣,作為圖像識(shí)別和分類(lèi)的依據(jù)。 PointNet 特點(diǎn)如下:

        (1)權(quán)重的共享性:PointNet 允許在多個(gè)MLP 之間共享部分權(quán)重,以確保點(diǎn)云之間的關(guān)聯(lián)特征不被損失,避免因特征分布不均導(dǎo)致的分析誤差;

        (2)可擴(kuò)維性:通過(guò)MLP 多層卷積進(jìn)行特征擴(kuò)維,從而確保點(diǎn)云特征足夠豐富,便于精確信息的提取和分析,盡可能彌補(bǔ)局部特征缺失導(dǎo)致的圖像信息描述不準(zhǔn)確。

        (3) 最大池化對(duì)稱(chēng)性: PointNet 采用最大池化Maxpooling 方法進(jìn)行特征提取,通過(guò)對(duì)稱(chēng)函數(shù)構(gòu)建可以有效解決點(diǎn)云無(wú)序性對(duì)特征提取的干擾,即無(wú)論輸入點(diǎn)云的排列順序如何變換,最終輸出的都是一個(gè)確定結(jié)果。

        (4)數(shù)據(jù)對(duì)齊性:為了網(wǎng)絡(luò)模型能夠匹配點(diǎn)云的旋轉(zhuǎn)不變特性,PointNet 增加了訓(xùn)練網(wǎng)模塊(training net,TNet),該模塊可以通過(guò)數(shù)據(jù)對(duì)齊操作解決點(diǎn)云旋轉(zhuǎn)后剛體不變的問(wèn)題,以確保同一對(duì)象在不同旋轉(zhuǎn)角度下,網(wǎng)絡(luò)模型都能得到相同的特征分析結(jié)果。

        2 PointNet 網(wǎng)絡(luò)架構(gòu)

        PointNet 網(wǎng)絡(luò)架構(gòu)主要包括MLP、T-Net 訓(xùn)練網(wǎng)、Maxpooling 池化和Softmax 分類(lèi)器四個(gè)模塊,如圖1 所示:

        MLP 模塊通過(guò)一個(gè)三層卷積網(wǎng)絡(luò)[6],對(duì)直接輸入的原始點(diǎn)云進(jìn)行擴(kuò)維卷積,逐層將點(diǎn)云維度從原始的N×3維擴(kuò)展至N×64、N×128、N×1024,PointNet 最多可將點(diǎn)云維度擴(kuò)展至1024 維。 原始點(diǎn)云最初只包含了三維特征向量,即三維坐標(biāo)信息,通過(guò)擴(kuò)展可以獲取更多的圖像隱含信息以及各個(gè)點(diǎn)云之間的關(guān)聯(lián)特征,為了確保這些關(guān)聯(lián)特征不會(huì)丟失,各層MLP 之間需要共享部分權(quán)重。

        為了避免點(diǎn)云旋轉(zhuǎn)不變性對(duì)特征提取造成誤差,在每層MLP 之間都增加了T-Net 訓(xùn)練網(wǎng)用于數(shù)據(jù)的對(duì)齊處理,通常需要兩個(gè)T-Net,一個(gè)用于對(duì)原始點(diǎn)云進(jìn)行對(duì)齊,一個(gè)用于對(duì)特征矩陣進(jìn)行對(duì)齊。 T-Net 通過(guò)學(xué)習(xí)模型的訓(xùn)練,可以模擬三維對(duì)象在特定空間下的旋轉(zhuǎn)不變性,因此將其訓(xùn)練結(jié)果作為點(diǎn)云和特征矩陣的對(duì)齊依據(jù),能夠有效提高PointNet 網(wǎng)絡(luò)對(duì)點(diǎn)云旋轉(zhuǎn)識(shí)別的魯棒性。

        Maxpooling 最大池化是解決點(diǎn)云無(wú)序性的有效策略,工作在卷積神經(jīng)網(wǎng)絡(luò)的池化層,池化層的主要作用是對(duì)升維后的特征進(jìn)行降維提取,Maxpooling 是一個(gè)對(duì)稱(chēng)函數(shù),在特征提取時(shí)確保了無(wú)序輸入對(duì)最終輸出結(jié)果的唯一性。

        Softmax 分類(lèi)器連接在卷積神經(jīng)網(wǎng)絡(luò)的輸出端,用于將提取的特征值映射在(0,1)區(qū)間內(nèi),且所有輸出值累加總和為1。 Softmax 分類(lèi)器主要用于解決多分類(lèi)問(wèn)題,PointNet 網(wǎng)絡(luò)經(jīng)過(guò)Softmax 分類(lèi)器,最終會(huì)輸出一個(gè)具有K個(gè)類(lèi)的分類(lèi)分?jǐn)?shù)。

        3 PointNet 網(wǎng)絡(luò)核心模塊的功能設(shè)計(jì)與實(shí)現(xiàn)

        3.1 MLP

        MLP 是一個(gè)多層感知機(jī)模型,各層MLP 之間通過(guò)共享權(quán)重實(shí)現(xiàn)卷積關(guān)聯(lián)[7],首先PointNet 網(wǎng)絡(luò)將輸入的原始點(diǎn)云看作是一個(gè)N×3 的單通道圖片,即第一層卷積核的大小為1×3×1,對(duì)應(yīng)一個(gè)點(diǎn)的三維坐標(biāo)信息,然后通過(guò)定義卷積核數(shù)量就可以任意指定該層MLP 的通道輸出數(shù)量,也就是將三維坐標(biāo)信息作為三個(gè)輸入神經(jīng)元,通過(guò)第一層MLP 進(jìn)行信息整合后傳遞到下一層MLP。 之后每個(gè)MLP 層的卷積核均為1*1*OpChannel,OpChannel 用于指定點(diǎn)云待轉(zhuǎn)換的維度,每個(gè)輸入的神經(jīng)元都會(huì)對(duì)應(yīng)一個(gè)1*1*OpChannel 的卷積核,以實(shí)現(xiàn)其維度的擴(kuò)展,如此每個(gè)特征提取層都僅針對(duì)單個(gè)點(diǎn)建立特征連接,在經(jīng)歷64 維、128 維的特征空間映射后,最終可對(duì)每一個(gè)點(diǎn)提取到1024 維特征。

        實(shí)現(xiàn)該模型的核心函數(shù)為tf_util. conv2d()[8],該函數(shù)的調(diào)用形式如下:

        其中input_img 為輸入圖像的原始點(diǎn)云數(shù)據(jù)集;output_channels 用于指定當(dāng)前MLP 層的卷積核數(shù)量,設(shè)置值為64;kernel_sizes 指定當(dāng)前MLP 層的卷積核的高度、寬度與通道數(shù)量。 通過(guò)output_channels 與kernel_sizes 參數(shù)指定將要構(gòu)建的卷積核高度為1、寬度為3、圖像通道為1,卷積核數(shù)為64,因此卷積核的大小可表示為[1,3,1,64]。 pad用于設(shè)置特征矩陣的填充模式,設(shè)置值為VALID,表示有效填充,即不會(huì)用零填充;step 表示步長(zhǎng),值為[1,1]代表卷積核在垂直方向與水平方向每一次均移動(dòng)一步;is_tra用于區(qū)分模型的操作類(lèi)型,當(dāng)值為T(mén)rue 時(shí),表示為訓(xùn)練模型,值為False,表示為測(cè)試模型;bent_dec 用于設(shè)置模型訓(xùn)練時(shí)的衰減率,取值范圍通常在(0.5,0.99)。

        3.2 T-Net

        T-Net 可以理解為是一個(gè)縮小版的微型PointNet 網(wǎng)絡(luò),它的結(jié)構(gòu)與PointNet 相似,包括三層MLP,但在MLP卷積過(guò)程中要完成對(duì)旋轉(zhuǎn)后點(diǎn)云、特征矩陣的規(guī)范化操作,并通過(guò)學(xué)習(xí)最終能夠輸出一個(gè)3*3 的旋轉(zhuǎn)矩陣,依據(jù)該旋轉(zhuǎn)矩陣即可對(duì)PointNet 網(wǎng)絡(luò)中輸入的數(shù)據(jù)進(jìn)行對(duì)齊,從而保證了點(diǎn)云數(shù)據(jù)在特定空間的旋轉(zhuǎn)不變性。 其工作流程如圖2 所示:

        圖2 T-Net 的工作流程

        T-Net 網(wǎng)絡(luò)首先將待對(duì)齊圖像的N×3 點(diǎn)云矩陣作為輸入的原始特征矩陣,N 表示點(diǎn)云中的點(diǎn)數(shù)據(jù)的數(shù)量,3仍表示三維空間坐標(biāo)(x,y,z)的值;其次通過(guò)三層MLP 的權(quán)重共享,依次將N 個(gè)點(diǎn)云數(shù)據(jù)的三維特征分別映射到64 維、128 維、1024 維空間,即N×1024。 由于升維后會(huì)存在大量的冗余特征,還需經(jīng)過(guò)池化層降維提取,才能獲取最終的全局特征,池化層主要采用了最大池化算法Maxpooling,Maxpooling 是一個(gè)對(duì)稱(chēng)函數(shù),其數(shù)學(xué)表達(dá)式如式(1)所示:

        其中xi表示點(diǎn)云,f(x)為映射函數(shù),用于描述點(diǎn)云從低維空間到高維空間的映射,P(x)為對(duì)稱(chēng)函數(shù),在輸入點(diǎn)云的任意排序下,始終可以保持輸出特征的一致性。 經(jīng)過(guò)Maxpooling 最大池化后,即可獲取點(diǎn)云的1024 個(gè)全局特征,而這一過(guò)程實(shí)質(zhì)是特征的降維,Maxpooling 將擴(kuò)維后的圖像特征進(jìn)行等大小的區(qū)域分割,通過(guò)在區(qū)域之間滑動(dòng),提取各個(gè)區(qū)域內(nèi)權(quán)重占比最大特征值作為當(dāng)前區(qū)域的唯一特征,從而實(shí)現(xiàn)特征的降維。 再通過(guò)全連接層實(shí)現(xiàn)全局特征的映射,提取到1024 個(gè)全局特征,1024 個(gè)全局特征經(jīng)過(guò)降采樣轉(zhuǎn)換為9 個(gè)特征值,并最終輸出一個(gè)3×3 的變換矩陣。

        T-Net 網(wǎng)絡(luò)模型在實(shí)際訓(xùn)練時(shí),主要會(huì)用到兩個(gè)函數(shù):

        (1)input_transform_net()函數(shù),用于進(jìn)行點(diǎn)云矩陣的對(duì)齊訓(xùn)練[9],其參數(shù)定義如下:

        input_transform_net(point_cloud, is_training, bn_decay=None, K=3)

        其中point_cloud 表示輸入的點(diǎn)云矩陣,bn_decay 為學(xué)習(xí)率,該參數(shù)在初始化后會(huì)隨著模型訓(xùn)練過(guò)程按照指數(shù)遞增,K 表示卷積核的初始維度,該函數(shù)最終會(huì)返回一個(gè)K維的3×3 變換矩陣。

        (2)feature_transform_net()函數(shù),用于進(jìn)行特征矩陣的對(duì)齊訓(xùn)練,其參數(shù)定義如下:

        feature_transform_net(inputs, is_training, bn_decay =None, K=64)

        該函數(shù)參數(shù)定義功能與input_transform_net()類(lèi)似,輸入特征矩陣作為模型訓(xùn)練的數(shù)據(jù)源,最終會(huì)返回一個(gè)K×K 維的變換矩陣。

        4 結(jié)論

        綜上所述,本研究設(shè)計(jì)與實(shí)現(xiàn)了一個(gè)專(zhuān)用于三維圖像識(shí)別的PointNet 網(wǎng)絡(luò)模型,通過(guò)MLP 多層感知機(jī)模型,實(shí)現(xiàn)了點(diǎn)云特征的高維擴(kuò)展,以確保圖像特征提取精度,避免特征缺失造成圖像局部細(xì)節(jié)的失真;通過(guò)T-Net 網(wǎng)絡(luò)獲取一個(gè)經(jīng)過(guò)學(xué)習(xí)和訓(xùn)練的變換矩陣,用于規(guī)范旋轉(zhuǎn)后的點(diǎn)云矩陣與特征矩陣,使其旋轉(zhuǎn)變換后仍可提取到相同特征,解決了點(diǎn)云的旋轉(zhuǎn)不變性問(wèn)題;通過(guò)最大池化,對(duì)點(diǎn)云特征進(jìn)行降維和特征提取,采用對(duì)稱(chēng)函數(shù)很好地解決了點(diǎn)云無(wú)序性問(wèn)題。

        猜你喜歡
        池化特征提取卷積
        基于緊湊型雙線(xiàn)性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
        基于Sobel算子的池化算法設(shè)計(jì)
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        91网红福利精品区一区二| 18精品久久久无码午夜福利 | 亚洲精品国偷拍自产在线| 欧美操逼视频| 精品少妇爆乳无码aⅴ区| 精品性影院一区二区三区内射| 久久99久久99精品免观看不卡| 久久精品一区一区二区乱码| 神马影院午夜dy888| 亚洲av永久无码精品国产精品| 国产精品青草久久久久婷婷| 在线观看免费的黄片小视频| 亚洲一区二区三区重口另类 | 成av人片一区二区久久| 亚洲欧洲国产成人综合在线| 国产在线精品一区在线观看| 日韩免费小视频| 一区二区亚洲精美视频| 末成年人av一区二区| 在线观看免费人成视频| 色妺妺视频网| 亚洲中文字幕有码av| 国产优质av一区二区三区 | 亚洲日产乱码在线中文字幕| 黄污在线观看一区二区三区三州| 亚洲一卡2卡3卡4卡5卡精品| 久久精品国产亚洲vr| 国产乱人伦AⅤ在线麻豆A| 亚洲小少妇一区二区三区| 中文区中文字幕免费看| 国产在线观看免费观看| 久久亚洲国产中v天仙www| 亚洲国产综合久久精品 | 久久九九精品国产不卡一区| 久久不见久久见免费影院| 国产农村乱子伦精品视频| 亚洲精品美女自拍偷拍| 亚洲av自偷自拍亚洲一区| 放荡的美妇在线播放| 国产免费又色又爽又黄软件| 丝袜美腿爆炒国产在线观看|