亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多尺度特征結合注意力機制的室內3D點云目標檢測

        2024-04-29 00:00:00顧方宇胡海洋
        軟件工程 2024年3期
        關鍵詞:目標檢測

        文章編號:2096-1472(2024)03-0067-07

        DOI:10.19644/j.cnki.issn2096-1472.2024.003.014

        摘"要:為了實現(xiàn)三維點云在室內和工業(yè)環(huán)境中的實際應用,文章改進了傳統(tǒng)的目標檢測轉換器(Detection Transformer, DeTR)神經(jīng)網(wǎng)絡,并提出了一種基于分層抽象的多層點云特征提取方法;同時,設計了曲面特征提取模塊對三維點云進行預處理,增強了點云的附加特征。在公開數(shù)據(jù)集ScanNet V2和工業(yè)室內數(shù)據(jù)集上對本文方法進行實驗驗證和評估,該方法在ScanNet V2上的mAP@0.5準確率超過最先進的模型(State-of-the-Art, SOTA)CAGroup3d,達到76.0%;在ScanNet V2上的mAP@0.25準確率超過最先進的模型CAGroup3d,達到62.2%,消融實驗進一步驗證了所述方法的準確性和高效性。

        關鍵詞:三維點云;目標檢測;工業(yè)環(huán)境;Transformer

        中圖分類號:TP389.1""文獻標志碼:A

        Indoor 3D Point Cloud Object Detection with Multi-scale Features and Attention Mechanism

        GU Fangyu, HU Haiyang

        (School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou 310018, China)

        gfy2345@163.com; huhaiyang@hdu.edu.cn

        Abstract: To facilitate the practical application of 3D point cloud in indoor and industrial environments, this paper proposes a multi-layer point cloud feature extraction method based on hierarchical abstraction with the improvement of traditional object Detection Transformer (DeTR) neural network. Additionally, a surface representation module for preprocessing 3D point cloud is designed to enhance the additional features of the 3D point cloud. Experimental validation and assessment of the proposed method are conducted on the public dataset ScanNet V2 and an industrial indoor dataset. Experiment results show that the mAP@0.5 accuracy of the proposed method exceeds the State-of-the-Art (SOTA) model CAGroup3d, reaching 76.0%; the mAP@0.25 accuracy exceeds the SOTA model CAGroup3d, reaching 62.2%. The ablation experiment further validates the accuracy and efficiency of the method.

        Key words: 3D point cloud; object detection; industrial environment; Transformer

        0""引言(Introduction)

        制造業(yè)的升級,本質上涉及核心技術的提升、生產(chǎn)模式的改進以及應用場景的拓寬,所有這些都依賴于前沿技術的推動和支持,而工業(yè)視覺中的智能傳感器包括機器視覺技術在內的系統(tǒng),在其中起著至關重要的作用。

        在三維目標檢測領域,當前的目標檢測算法主要集中在從三維點云到二維特征的轉換上,這主要依賴于點云預處理的方法。本文提出一種新的策略,專注于使用深度學習處理三維點云數(shù)據(jù),將三維點云目標檢測和室內機器人場景融合,實現(xiàn)三維視覺在室內和工業(yè)場景中的真實應用。

        本文的主要貢獻總結如下:(1)對傳統(tǒng)的DeTR目標檢測網(wǎng)絡進行改進,提出了一個基于分層抽象的多層點云特征提取方法,該方法不僅能通過多層網(wǎng)絡獲取多尺度點云集,而且強化了在三維點云中進行目標檢測的能力;(2)采用了曲面表示模塊對三維點云進行預處理,增強了三維點云的附加特征,通過從點到面的方式增強了點云的附加信息;(3)引入了基于特征金字塔融合特征的轉換器神經(jīng)網(wǎng)絡(Transformer)架構,在多尺度點云集的特征圖上進行多尺度注意力操作,有助于增強特征提取能力,并提高目標檢測的準確率。

        1""相關工作(Related work)

        目標檢測是使用計算機視覺技術,從不同復雜程度的背景中識別運動物體,并分離背景完成目標標記的一項研究內容。近年來,隨著區(qū)域卷積神經(jīng)網(wǎng)絡(Regions with Convolutional Neural Networks, RCNN)算法[1]的提出,深度學習逐漸被應用到目標檢測領域。YOLO算法[2]在已有目標檢測算法結構上做出了一定的創(chuàng)新,不僅能從端到端直接輸出目標信息,同時擁有較快的反應速度,目前依舊是工業(yè)界目標檢測的首選。

        三維目標檢測是環(huán)境感知系統(tǒng)中的重要技術之一,它在自動駕駛、機器人等領域發(fā)揮著重要的作用[3]。深度學習,特別是卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN),提供了一種可以推動三維目標檢測精確度提升的方法,并且隨著深度學習的迅速發(fā)展,三維目標檢測的性能也得到了顯著的提升。

        隨著深度傳感器和三維激光掃描儀的普及運用,基于點云(Point Cloud)的三維目標檢測得到廣泛關注。目前,主流的三維數(shù)據(jù)表示方法主要有深度圖、三角網(wǎng)格、體素和點云,其中點云是最簡單的一種三維數(shù)據(jù)表示方法,具有獲取簡單、易于存儲、可視性強、結構描述精細等優(yōu)點,而且能夠方便地與深度圖、體素等其他數(shù)據(jù)格式相互轉換,已成為三維重建、三維目標檢測、即時定位與地圖構建(Simultaneous Localization and Mapping, SLAM)等研究領域最基本的數(shù)據(jù)格式[4-6]。在處理點云數(shù)據(jù)的領域,PointNet[7](一種用于點云數(shù)據(jù)處理的深度學習架構)被提出直接處理點云,其使用一系列全連接層和非線性激活對點云進行處理,從而聚合所有點的特征。同時,這種方法保證了在無序點云集中,對在任意點次序中的點,均能保證擬合函數(shù)對點的輸入順序不敏感。針對PointNet中不能處理點與點間局部關系的局限性,PointNet++[8]被提出,其在原有網(wǎng)絡的基礎上使用了分層抽象(Set-Abstraction)的方法,使得模型能夠捕獲更豐富的局部結構信息。

        使用PointNet作為骨干模型疊加檢測頭,在兩階段的方法上實現(xiàn)基于點云領域的三維目標檢測是一種比較常見的研究點云目標檢測算法的思路。PointRCNN[9]在PointNet的基礎上,首先進行區(qū)域提議,其次對提議的區(qū)域進行分類和邊界框回歸。VoteNet[10]使用基于霍夫投票(Hough Voting)的方法,在處理稀疏和無序的點云數(shù)據(jù)時具有較好的性能,此外它的投票機制也使得模型對噪聲和遮擋具有很好的魯棒性。VENet[11]基于VoteNet,將基于注意力的多層感知機(Attention-based Multi-Layer Perceptron, AMLP)用于特征提取,從而提升了模型在特定數(shù)據(jù)集上的分類準確度和魯棒性。

        受遮擋、光照反射、表面材質的透明度以及傳感器分辨率和視角等因素的限制,使用單個點云相機采集到的點云數(shù)據(jù)往往是不完整的。基于信息補全方法,對點云進行信息擴展和補全也是一個在點云信息處理領域常用的方法。在信息補全方面,PF-Net[12]被提出,它是基于幾何結構預測的精確和保真度的點云補全方法,其中多分辨率編碼器(Multi-Resolution Encoder)使用了一個聯(lián)合多層感知機(CMLP),從低分辨率的點云中提取多尺度特征;此外,點金字塔解碼器(Point-Pyramid Decoder)用于預測不同深度層次的點特征,并傳播整體幾何信息到最后被補全點的骨架中心。

        2""模型設計(Design of the model)

        本文提出的基于表面增強尾骨和多尺度可變形DeTR(Multi-Scaled-Deformable-DeTR, MSD-DeTR)的三維多尺度點云目標檢測方法,其主體流程結構如圖1所示,該結構主要由以下幾個部分組成:(1)基于曲面表示的曲面特征提取模塊;(2)基于注意力增強多層感知機的特征提取模塊;(3)基于多尺度特征金字塔和Transformer的注意力主干網(wǎng)絡(DeTR)。

        2.1""曲面特征提取

        點云通常在三維空間中呈稀疏分布,在處理點云數(shù)據(jù)時,局部形狀的表達至關重要。以往的研究通過使用額外的元素或通過不同的轉換間接地從形狀中學習,然而這些操作可能只能提供一些表示點云局部集合的提示,而不能明確地反映局部形狀。當使用額外的信息或轉換表示或處理點云數(shù)據(jù)時,可能會導致計算量顯著增加,而對點云表示的貢獻卻很小。在某些情況下,這種做法甚至可能導致幾何信息的丟失。

        本文依據(jù)曲面表示的方法表示局部幾何結構,并提出了一種基于傘狀表面的額外信息的嵌入方式,不僅能夠保留點云的幾何細節(jié),同時能夠以極小的額外的計算量表述更復雜的局部形狀。下面介紹一個三角信息增強的方法。

        對于二維曲線上的一個點(xi,yi),可以使用點法式表示過點的切線,如公式(1)所示:

        對于轉換函數(shù)T(·),它是一個使用可學習參數(shù)的函數(shù)(線性回歸器和非線性擬合器的組合),在損失的反向傳播中,它能保證傘狀信息隨著訓練逐步正確擬合。相較于使用預定的超參數(shù)進行調整,使用可學習的參數(shù)不僅能使擬合效果最優(yōu)化,還能減少模型微調中的工作量。

        2.2""注意力改進的分層提取模塊

        盡管基于分層特征提取的深層網(wǎng)絡在點云數(shù)據(jù)處理中展現(xiàn)出很好的性能,但仍有一些限制和缺點,其中之一便是特征抽取能力有限。由于分層特征提取主要依賴全連接神經(jīng)網(wǎng)絡,而全連接神經(jīng)網(wǎng)絡在處理圖像或序列數(shù)據(jù)時的表現(xiàn)弱于包括卷積神經(jīng)網(wǎng)絡在內的一部分神經(jīng)網(wǎng)絡。這使得基于分層特征提取的網(wǎng)絡在處理復雜結構的點云數(shù)據(jù)時,可能無法提取到足夠的特征信息,從而導致諸如識別準確率下降等問題。

        本文方法在分層特征提取的基礎上,提出了基于自注意力增強的多層感知機嵌入,這種注意力機制集成的分層特征提取模塊,可以強化分層提取算法中種子點的特征描述,從而更好地提取點云數(shù)據(jù)中的特征。在分層特征提取模塊(圖3)中,總共包含3層采樣分組模塊,其中每個分層采樣模塊包含采樣分組操作。

        一個在工業(yè)機器人場景中所攝入的點云圖往往有非常多的點,這會造成計算量過大而限制模型使用。本文的解決方案是從所有的點云數(shù)據(jù)中采樣k個點,并且保證這k個點擁有足夠的信息。采樣操作中,主要使用最遠點采樣算法(Farthest Point Sampling, FPS)保證采樣獲取的點數(shù)量在可控范圍內,主要操作步驟如下:(1)隨機選擇一個初始的已選擇的采樣點;(2)計算每個點與已選擇采樣點集之間的距離;(3)持續(xù)循環(huán)迭代,并將距離最遠的點加入已選擇采樣點集,直到點集的數(shù)量符合要求。

        在繁雜的分層特征中,傳統(tǒng)的基于PointNet++的特征提取模塊具有一定的局限性。本文所述模型使用自注意力增強的多層感知機(Attention-based MLP, AMLP)對鄰域點進行特征提取處理,可以達到提升分層特征提取能力和提升模型性能的目的。具體來說,對于每個分層特征子集的單條特征gij,從每個層池化特征,生成(c1,…,cL),其中L是多層感知機中感知器的層數(shù)。

        與直接連接池化特征不同,自注意力多層感知機的設計在每一層都插入了一個級別注意力塊(Level-Attention-Block, LAB)。在每個LAB中,一個池化特征向量cl∈{c1,…,cL}首先被饋入兩個全連接(Fully-Connect, FC)層,輸出大小為C/4和C。其中,第一個FC層使用線性激活單元(Rectified Linear Unit, ReLU)作為激活函數(shù)。Sigmoid(·)用于將輸出權重歸一化到(0,1)的范圍,如公式(4)所示:

        cl乘以學習到的權重Wl,并添加到自己的結果上,如公式(5)所示:

        cl=cl+Wl×cl(5)

        來自所有層的特征向量被組合起來,形成組合特征向量。通過LAB中的第二個FC層輸出,如公式(6)所示:

        C=FC(Concat(c1,…,cl))(6)

        其中:Concat(·)代表拼接函數(shù),它將多條特征向量拼合到一個向量中。FC(·)代表第二個FC層中使用的全連接函數(shù),它是多個線性連接層的組合,能夠將向量整合到合適的尺寸中。通過上述方法,模型能夠學習到被自注意力增強的點云特征,從而使模型能夠在處理復雜點云數(shù)據(jù)時,更好地把握重要的特征信息,從而提高模型的表現(xiàn)。

        2.3""多尺度特征融合的主干網(wǎng)絡

        兩階段的目標檢測是目前常見的目標檢測方法,它一般包括兩個階段:第一個階段是生成候選區(qū)域的提議,生成方法是區(qū)域提議;第二個階段是提議分類和提議回歸,一般是對第一階段的提議候選區(qū)域進行分類,并對提議生成的邊界框進行回歸。雖然兩個階段的目標檢測方法在精度上均有很好的表現(xiàn),但是它們也存在缺點,例如計算復雜,兩個階段的目標檢測器通常需要在多個區(qū)域提議上運行,增加了計算負擔。通常,兩個階段的目標檢測方法需要在訓練時使用復雜的采樣策略,使訓練過程過于煩瑣。

        多尺度特征融合的主干網(wǎng)絡,主要使用特征金字塔模塊融合對齊上述曲面特征提取的特征和改進分層提取尾骨提取的特征,并對融合的特征使用基于Transformer的編碼器和解碼器,同時使用端到端的檢測骨架進行目標檢測,從而簡化計算能力。

        特征金字塔是一種常見的特征對齊技術,它是通過對輸入特征進行多次下采樣構建的。舉例來說,二維目標檢測方法使用特征金字塔同時檢測不同尺度和位置的目標。這些方法首先使用卷積神經(jīng)網(wǎng)絡對輸入圖像進行特征提取,然后在這些特征圖的不同層級上應用區(qū)域提議網(wǎng)絡(Region Proposal Network, RPN)和目標分類器檢測不同尺度下的特征。

        對于點云特征對齊的特征金字塔來說,每一次下采樣都會生成一層金字塔。這些不同層次的特征代表了在原始點云集上的不同特征提取方式,不同層次的特征包含了不同尺度的信息。

        在使用Transformer的目標檢測主干網(wǎng)絡中,它將目標檢測問題看成直接從輸入特征圖中提取并預測物體邊界框和類別的問題。端到端的主干網(wǎng)絡可以擺脫傳統(tǒng)目標檢測框架中的一些步驟,如錨框生成以及非極大值抑制(Non-Maximum Suppression, NMS)等。

        在主干網(wǎng)絡中,Transformer模型被用來對特征進行編碼和解碼,以生成最終的目標檢測結果。具體來說,編碼器部分輸入的是由特征金字塔卷積得到的聚合特征F,使用編碼函數(shù)Encoder(·)對聚合特征F進行編碼得到編碼特征E,如公式(8)所示:

        E=Encoder(F)(8)

        其中:Encoder(·)是Transformer的編碼器函數(shù),主要包含自注意力層(Self-Attention Layer)和前饋神經(jīng)網(wǎng)絡(Feed-Forward Layer),在兩個主要的模塊之后,Transformer編碼器還使用了層標準化(Layer Normalization)和殘差連接(Residual Connection)以穩(wěn)定訓練過程并加快收斂速度。

        解碼器部分則接收編碼特征E和一組固定數(shù)量的查詢(Query)作為輸入,通過自注意力、編碼器-解碼器注意力(Encoder-Decoder Attention)和FC層生成最終的目標檢測結果。使用編碼特征E和查詢矩陣Q,進一步使用Decoder(·)函數(shù)生成解碼特征D,如公式(9)所示:

        D=Decoder(E,Q)(9)

        對于每個解碼器,其與編碼器類似,同樣包含自注意力層、前饋神經(jīng)網(wǎng)絡、層標準化和殘差連接。在自注意力后,解碼器還包含一個交叉注意力層。交叉注意力層類似于自注意力層,但是它使用解碼器的當前輸出作為查詢,而用編碼器的輸出作為鍵(key)和值(value),使得解碼器在生成每個輸出時,都可以考慮到編碼器輸出的全局信息。

        解碼后,所得的解碼特征D包含目標框信息和目標分類信息。若D的長度為d,物體類別數(shù)量為C,則目標框的預測通過一個線性變換實現(xiàn),如公式(10)所示:

        box=WboxD+bbox (10)

        通過這種方式,基于Transformer解碼器生成的特征被變換為預測框和類別,相較于兩階段的目標檢測,端到端的目標檢測計算量更小且算法不依賴于極大值抑制(NMS)等步驟,這使得本文算法更加有利于工業(yè)環(huán)境下的硬件要求和檢測速度要求。

        模型使用的損失函數(shù)包含4個部分:主干網(wǎng)絡中產(chǎn)生的多階段損失、目標檢測任務所產(chǎn)生的分類損失、邊界框產(chǎn)生的回歸損失和旋轉損失。其中,基于Transformer的主干網(wǎng)絡產(chǎn)生的損失是由每個隱藏層產(chǎn)生的損失的平均值,如公式(13)所示:

        其中:Rtrue代表真實檢測框的相對角度,Rpred代表實際檢測框的相對角度,RtrueRpred中元素的值為π的倍數(shù)。

        3""實驗結果(Experiment results)

        為了驗證本文提出的基于表面增強尾骨和多尺度可變形DeTR的三維多尺度點云目標檢測方法的有效性,將其應用在公開數(shù)據(jù)集ScanNet[13]上進行評估。此外,為了驗證該方法在工業(yè)室內場景下的目標檢測的有效性,在各個數(shù)據(jù)集規(guī)范的基礎上對其進行訓練和驗證。本文遵循標準評估協(xié)議[14],并使用不同IoU閾值下的平均準確率均值(mAP)作為指標,不考慮邊界框的方向。

        3.1""ScanNet數(shù)據(jù)集

        ScanNet V2數(shù)據(jù)集[13]是一個基于室內場景的三維重建數(shù)據(jù)集,由1 513個室內場景和18個對象類別組成,提供了每個點的實例、語義標簽和三維邊界框的注釋。該數(shù)據(jù)集的室內場景大多為臥室、客廳、洗手間和辦公室等,對象類別大多為地板、墻、椅子和沙發(fā)等,與其他公開數(shù)據(jù)集相比,ScanNet V2數(shù)據(jù)集的場景更加完整,平均覆蓋的區(qū)域更大且場景更加雜亂,因此目標檢測的難度更大。本文遵循標準評估協(xié)議,在設置0.25閾值(mAP@0.25)的平均精度和設置0.5閾值(mAP@0.5)的平均精度下進行評估。

        3.2""工業(yè)三維目標檢測數(shù)據(jù)集

        工業(yè)機器人三維目標檢測數(shù)據(jù)集是在杭州西奧電梯有限公司的機器人生產(chǎn)車間中采集的,通過zed2相機對機器人生產(chǎn)環(huán)境進行點云數(shù)據(jù)的提取。在符合各數(shù)據(jù)集制作標準的前提下,由人工對數(shù)據(jù)進行框選和標注,并由不同的人員對數(shù)據(jù)進行驗證和調整。本數(shù)據(jù)集包含多個機器人作業(yè)場景,每個場景對象位置不同,拍攝角度不同且環(huán)境亮度不斷變化。本數(shù)據(jù)集共2 234個數(shù)據(jù),其中包含1 675個訓練用例和559個測試用例,增加了4個檢測對象類別,分別是機器人、推車、板材和傳送帶。本文在數(shù)據(jù)集上進行了實驗,結果如圖5所示。實驗在ScanNet V2數(shù)據(jù)集上進行,使用mAP@0.25和mAP@0.5作為衡量指標。

        3.3""結果分析

        針對三維目標檢測領域中的大規(guī)模場景室內數(shù)據(jù)集ScanNet V2,實驗選用了主流的檢測方法同本文模型進行對比,這些方法分別是層次幾何網(wǎng)絡(Hierarchical Geometry Network, HGNet)[14]、生成稀疏檢測網(wǎng)絡(Generative Sparse Detection Network, GSDN)[15]、三維語義實例分割的多提案聚合網(wǎng)絡(3D Multi Proposal Aggregation, 3D-MPA)[16]、深度霍夫投票網(wǎng)絡(VoteNet)[10]、多級上下文霍夫投票網(wǎng)絡(Multi-Level Context VoteNet, MLCVNet)[17]、回溯代表點投票網(wǎng)絡(Back-tracing Representative Network, BRNet)[18]、混合幾何原語網(wǎng)絡(Hybrid Geometric Primitives 3D Network, H3DNet)[19]、三維目標檢測轉換器(3D Detection Transformer, 3DeTR)[20]、類別感知分組網(wǎng)絡(Class-Aware Grouping for 3D Object Detection, CAGroup3D)[21]、視錐網(wǎng)絡(Frustum PointNet, F-PointNet)[22]、多模態(tài)令牌轉換器網(wǎng)絡(TokenFusion)[23]、全卷積無錨點網(wǎng)絡(Fully Convolutional Anchor-Free 3D Object Detection, FCAF3D)[24]。如表1所示,本文算法的平均準確率均值與最先進的模型CAGroup3d相近,mAP@0.25超過最先進的模型CAGroup3d,達到76.0%;mAP@0.5超過最先進的模型CAGroup3d,達到62.2%。

        3.4""消融實驗

        本文所述方法使用了3個模塊,其中尾骨部分包括曲面特征提取模塊、分層特征提取模塊。為了證明本文方法使用的模塊的有效性,設計了一個逐個拆除模塊的消融實驗進行驗證。

        實驗使用分層特征提取模塊和去掉特征金字塔模塊的Transformer的主干網(wǎng)絡模塊進行實驗,使用PointNet++作為尾骨和去掉特征金字塔模塊的Transformer的主干網(wǎng)絡模塊進行對比實驗,并測定在ScanNet V2和工業(yè)室內數(shù)據(jù)集上的平均表現(xiàn),收集測試集上產(chǎn)生的精度數(shù)據(jù),與本文方法進行對比。

        如表2所示,針對曲面特征提取模塊和注意力改進的分層提取模塊實用性在ScanNet數(shù)據(jù)集和工業(yè)室內數(shù)據(jù)集上開展實驗?;€特征提取模塊僅使用PointNet++,AMLP代表該模型僅使用注意力增強的分層特征提取模塊,RepSurf-U代表該模型僅使用傘狀曲面特征提取模塊,O代表沒有使用對應模塊,P代表使用了對應模塊。針對尾骨模塊的實用性,使用注意力增強的分層特征提取模塊以及曲面特征提取模塊可以明顯增強模型在ScanNet V2數(shù)據(jù)集上的準確率,在僅使用注意力增強的尾骨模塊中,準確率相較原基線方法提升了約2.4%,在增加使用曲面特征提取模塊后,準確率相較僅使用基于注意力增強多層感知機的特征提取模塊提升了約9.5%,證明本文的尾骨模塊在基線方法上做出了有效改進。

        4""結論(Conclusion)

        在本研究中,成功地提出并實現(xiàn)了一個具有創(chuàng)新性的三維點云目標檢測框架,該框架適用于工廠的室內環(huán)境。設計的框架主要由3個部分構成:基于表面表示的曲面特征提取模塊、基于注意力增強多層感知機的特征提取模塊,以及基于多尺度特征金字塔和Transformer的注意力主干網(wǎng)絡。這種結構設計在復雜的室內環(huán)境中實現(xiàn)了高精度的目標檢測,實驗結果也證明了其優(yōu)越性。值得強調的是,方法中實現(xiàn)了一種創(chuàng)新的特征提取技術,即將注意力機制融入多層感知機的采樣過程中,能夠更有效地提取點云集的特征,在目標檢測中取得了更好的效果。同時,檢測網(wǎng)絡采用特征金字塔和Transformer,簡化了檢測過程,也大大提高了目標檢測的速度,對于實際的工業(yè)應用場景具有很大的價值??傮w來說,本研究不僅提供了一種理論上的新方法,還通過實驗證明了這種方法的有效性。希望該研究能引起更多研究人員的興趣,共同推動其不斷進步。同時,希望這個框架能夠在未來的工業(yè)應用中發(fā)揮價值,改善和優(yōu)化目標檢測的效果。

        參考文獻(References)

        [1] GIRSHICK R,DONAHUE J,DARRELL T,et al. Region-based convolutional networks for accurate object detection and segmentation[J]. IEEE transactions on pattern analysis and machine intelligence,2015,38(1):142-158.

        [2] REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once:unified,real-time object detection[C]∥IEEE. Proceedings of the 2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2016:779-788.

        [3] BIMBRAW K. Autonomous cars:past,present and future a review of the developments in the last century,the present scenario and the expected future of autonomous vehicle technology[C]∥IEEE. 2015 12th International Conference on Informatics in Control,Automation and Robotics (ICINCO). Piscataway:IEEE,2015:191-198.

        [4] CADENA C,CARLONE L,CARRILLO H,et al. Past,present,and future of simultaneous localization and mapping:toward the robust-perception age[J]. IEEE,2016,32(6):1309-1332.

        [5] BUTIME J,GUTIERREZ I,CORZO L G,et al. 3D reconstruction methods,a survey[C]∥INSTICC. Proceedings of the First International Conference on Computer Vision Theory and Applications. Setúbal:INSTICC,2006:457-463.

        [6] GUO Y,WANG H,HU Q,et al. Deep learning for 3D point clouds:a survey[J]. IEEE transactions on pattern analysis and machine intelligence,2020,43(12):4338-4364.

        [7] QI C R,SU H,MO K,et al. Pointnet:deep learning on point sets for 3D classification and segmentation[C]∥IEEE. Proceedings of the 2017 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2017:652-660.

        [8] QI C R,YI L,SU H,et al. Pointnet++:deep hierarchical feature learning on point sets in a metric space[J]. Advances in neural information processing systems,2017,30(1):5105-5114.

        [9] SHI S,WANG X,LI H. Pointrcnn:3D object proposal generation and detection from point cloud[C]∥IEEE. Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2019:770-779.

        [10] QI C R,LITANY O,HE K,et al. Deep hough voting for 3D object detection in point clouds[C]∥IEEE. Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2019:9277-9286.

        [11] XIE Q,LAI Y K,WU J,et al. Venet:voting enhancement network for 3D object detection[C]∥IEEE. Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2021:3712-3721.

        [12] HUANG Z,YU Y,XU J,et al. Pf-net:point fractal network for 3D point cloud completion[C]∥IEEE. Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2020:7662-7670.

        [13] DAI A,CHANG A X,SAVVA M,et al. Scannet:richly-annotated 3D reconstructions of indoor scenes[C]∥IEEE. Proceedings of the 2017 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2017:5828-5839.

        [14] YAO T,LI Y,PAN Y,et al. Hgnet:learning hierarchical geometry from points,edges,and surfaces[C]∥IEEE. Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2023:21846-21855.

        [15] GWAK J Y,CHOY C,SAVARESE S. Generative sparse detection networks for 3D single-shot object detection[C]∥Springer. Computer Vision-ECCV 2020. Berlin:Springer,2020:297-313.

        [16] ENGLEMANN F,BOKELOH M,F(xiàn)ATHI A,et al. 3D-mpa:multi-proposal aggregation for 3D semantic instance segmentation[C]∥IEEE. Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2020:9031-9040.

        [17] XIE Q,LAI Y K,WU J,et al. Mlcvnet:multi-level context votenet for 3D object detection[C]∥IEEE. Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2020:10447-10456.

        [18] CHENG B,SHENG L,SHI S,et al. Back-tracing representative points for voting-based 3D object detection in point clouds[C]∥IEEE. Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2021:8963-8972.

        [19] ZHANG Z,SUN B,YANG H,et al. H3DNet:3D object detection using hybrid geometric primitives[C]∥Springer. Computer Vision-ECCV 2020. Berlin:Springer,2020:311-329.

        [20] MISRA I,GIRDHAR R,JOULIN A. An end-to-end transformer model for 3D object detection[C]∥IEEE. Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2021:2906-2917.

        [21] WANG H,DONG S,SHI S,et al. Cagroup3D:class-aware grouping for 3D object detection on point clouds[J]. Advances in neural information processing systems,2022,35(1):29975-29988.

        [22] QI C R,LIU W,WU C,et al. Frustum pointnets for 3D object detection from rgb-d data[C]∥IEEE. Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2018:918-927.

        [23] WANG Y,CHEN X,CAO L,et al. Multimodal token fusion for vision transformers[C]∥IEEE. Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2022:12186-12195.

        [24] RUKHOVICH D,VORONTSOVA A,KONUSHIN A. Fcaf3D:fully convolutional anchor-free 3D object detection[C]∥Springer. Computer Vision-ECCV 2022. Berlin:Springer,2022:477-493.

        作者簡介:

        顧方宇(1999-),男,碩士生。研究領域:計算機視覺,深度學習。

        胡海洋(1977-),男,博士,教授。研究領域:機器視覺,智能制造。

        收稿日期:2023-07-03

        基金項目:浙江省自然科學基金項目(LY22F020021);浙江省重點研發(fā)計劃“領雁”項目(2023C01145);國家自然科學基金項目(61802095,61572162)

        猜你喜歡
        目標檢測
        多視角目標檢測與跟蹤技術的研究與實現(xiàn)
        視頻中目標檢測算法研究
        軟件(2016年4期)2017-01-20 09:38:03
        行為識別中的人體運動目標檢測方法
        移動機器人圖像目標識別
        基于視頻監(jiān)控的運動圖像檢測算法研究
        基于背景建模法的運動目標檢測
        基于P3電位的目標檢測研究
        科技視界(2016年4期)2016-02-22 13:09:19
        智能視頻技術在電力系統(tǒng)領域的應用
        相關K分布雜波中擴展目標積累檢測性能分析
        基于連通域標記的目標檢測算法設計與實現(xiàn)
        欧美日韩亚洲一区二区精品| 天堂中文官网在线| 国产真实伦在线观看| 日韩AV无码一区二区三| av免费在线手机观看| 亚洲三级视频一区二区三区| 精品人妻中文无码av在线| 国产免费专区| 日韩av综合色区人妻| 最近免费中文字幕中文高清6| 久久亚洲国产成人精品性色| 狠狠躁狠狠躁东京热无码专区| 亚洲天堂av免费在线| 亚洲成av人片一区二区密柚| 久久综合精品国产一区二区三区无码| 国产精品青草久久久久婷婷| 福利视频在线一区二区三区 | 加勒比一本大道大香蕉| 娇小女人被黑人插免费视频| 国模欢欢炮交啪啪150| 无码Av在线一区二区三区| 按摩偷拍一区二区三区| 国产精品久免费的黄网站| 久久精品国内一区二区三区| 日本精品久久久久中文字幕1| 加勒比日韩视频在线观看| 国产aⅴ无码专区亚洲av麻豆| 在线视频这里只有精品| 亚洲成av人片在久久性色av| 久久精品99国产精品日本| 亚洲av无码国产剧情| 国产亚洲精品性爱视频| 国产成人国产三级国产精品| wwww亚洲熟妇久久久久| 久久精品国产99久久丝袜| 久久久噜噜噜噜久久熟女m| 亚洲乱码中文字幕久久孕妇黑人| 熟妇人妻中文字幕无码老熟妇| 日韩在线中文字幕一区二区三区| 日韩精品熟妇一区二区三区| 8ⅹ8x擦拨擦拨成人免费视频|