摘" 要: 點云Transformer網(wǎng)絡在提取三維點云的局部特征和攜帶的多級自注意力機制方面展現(xiàn)出了卓越的特征學習能力。然而,多級自注意力層對計算和內(nèi)存資源的要求極高,且未充分考慮特征融合中層級間以及通道間的區(qū)分度與關(guān)聯(lián)性。為解決上述問題,提出一種基于點云Transformer的輕量級特征增強融合分類網(wǎng)絡EFF?LPCT。EFF?LPCT使用一維化Ghost卷積對原始網(wǎng)絡進行重構(gòu),以降低計算復雜度和內(nèi)存要求;引入自適應支路權(quán)重,以實現(xiàn)注意力層級間的多尺度特征融合;利用多個通道注意力模塊增強特征的通道交互信息,以提高模型分類效果。在ModelNet40數(shù)據(jù)集進行的實驗結(jié)果表明,EFF?LPCT在達到93.3%高精度的同時,相較于點云Transformer減少了1.11 GFLOPs的浮點計算量和0.86×106的參數(shù)量。
關(guān)鍵詞: 點云分類; Transformer網(wǎng)絡; Ghost卷積; 特征增強融合模塊; ECA通道注意力; 特征學習
中圖分類號: TN249?34; TP391" " " " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)06?0106?07
Point cloud classification based on Ghost convolution and adaptive attention
SHU Mi, WANG Zhangang
(School of Information Communication Engineering, Beijing Information Science and Technology University, Beijing 100011, China)
Abstract: The point cloud Transformer network can exhibit remarkable feature learning capabilities by extracting local features of three?dimensional point clouds and employing multi?level self?attention mechanisms. However, the multi?level self?attention layer has high requirements on computing and memory resources, and the differentiation and correlation between levels and channels in feature fusion are not considered fully. In order to solve the above problems, a lightweight point cloud Transformer based on enhanced feature fusion (EFF?LPCT) is proposed. In the EFF?LPCT, the original network is reconstructed by means of one?dimensional Ghost convolution to reduce computational complexity and memory requirements. The adaptive branch weight is used to realize the multi?scale feature fusion between attention levels and multiple channel attention modules are used to enhance channel interaction information, so as to improve the model classification performance. The experimental results on the ModelNet40 datasets demonstrate that EFF?LPCT can realize 93.3% high accuracy while reducing the floating point computation amount of 1.11 GFLOPs and the parameter number of 0.86×106 compared to point cloud Transformer.
Keywords: point cloud classification; Transformer network; Ghost convolution; feature enhancement fusion module; ECA channel attention; feature learning
0" 引" 言
隨著獲取三維場景幾何信息傳感器的普及,如激光掃描儀和RGB?D相機,三維激光點云分類作為一項基礎(chǔ)的計算機視覺任務,對于許多計算機視覺應用越來越關(guān)鍵。激光點云數(shù)據(jù)可以通過其簡單而靈活的數(shù)據(jù)結(jié)構(gòu)清晰地表達三維幾何形狀。近年來,點云分類的應用領(lǐng)域逐漸擴大,如城市建設、自動駕駛、機器人技術(shù)、工程測量和制圖。點云分類高度依賴于全局特征,與二維圖像相比,點云在三維空間中數(shù)據(jù)結(jié)構(gòu)更為復雜,點云數(shù)據(jù)具有無序和不規(guī)則的特點,現(xiàn)有點云分類算法往往難以在高效性和準確性之間取得平衡。因此,設計深度學習網(wǎng)絡以實現(xiàn)高效的特征提取仍是一個具有挑戰(zhàn)性的研究方向。
為了應對上述挑戰(zhàn),近年來學者已提出許多基于深度學習的方法來處理三維激光點云。目前有些研究側(cè)重于使用多視圖投影或通過設計具有三維空間體素化的離散空間卷積來將三維點云投影到二維參數(shù)平面,盡管在點云處理方面取得了顯著效果,但未能充分利用空間點云的稀疏性,大量的投影和體素化操作往往會導致高計算成本和內(nèi)存消耗[1?2]。文獻[3]提出直接處理無序點云的方法PointNet,以端到端的方式實現(xiàn)點云特征學習,PointNet由剛性變換(T?Net)、共享的多層感知機(Multilayer Perceptron, MLP)和最大池化(Max?Pooling)等幾個核心模塊組成,其確保了網(wǎng)絡對點的排列和形狀旋轉(zhuǎn)不變。PointNet++[4]作為PointNet的擴展,引入了層級結(jié)構(gòu)以更好地捕捉點云的層次化信息,但由于多層級結(jié)構(gòu)導致模型參數(shù)量和計算復雜度增加。有研究利用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)強大的局部特征提取能力,如PointCNN[5]和DGCNN[6],但這些方法在處理稀疏點云數(shù)據(jù)時會受限于計算效率,故需要更有效的策略來適應大規(guī)模點云的分類任務。
近期,Transformer在自然語言處理和計算機視覺等領(lǐng)域已取得顯著進展[7?8]。Transformer具有出色的全局特征學習能力,已應用于如對象分類、場景語義分割和對象部件分割等諸多點云處理任務中。自注意機制(self?attention)作為Transformer的核心組件,用來計算任意兩個嵌入單詞之間的相似性,然后利用相應的相似性來計算所有單詞的加權(quán)和,作為新的輸出。每個輸出單詞能夠與所有輸入單詞建立連接,是Transformer擅長全局特征學習的原因。因此當前的三維點云傾向于使用自注意力層替代網(wǎng)絡中的卷積操作,以實現(xiàn)更好的特征表達。通過Transformer學習獲取點云的全局特征。點云Transformer(Point Cloud Transformer, PCT)[9]采用PointNet架構(gòu),其中將共享MLP層替換為標準Transformer層,采用偏自注意力機制和鄰域信息嵌入。文獻[10]提出了另一種逐點學習全局特征的方法,使用多級Transformer來提取不同分辨率點云的全局特征,將特征拼接并輸入至多尺度Transformer中獲得點云全局特征。Point Transformer[11]將Transformer層應用于點云的局部鄰域,并通過向下轉(zhuǎn)換模塊分層提取局部特征,通過全局平均池化操作獲得全局特征。由于Transformer應用于每層的所有輸入,Transformer層級之間會產(chǎn)生較多信息冗余,未考慮網(wǎng)絡輕量化,大量的線性轉(zhuǎn)換層也導致計算量較大和高內(nèi)存成本。
目前許多工作從輕量級的角度來研究深度學習,有效地解決深度學習的訓練和推理時間問題。文獻[12]使用深度可分離卷積構(gòu)建輕量級網(wǎng)絡(MobileNet),提高了整體網(wǎng)絡的精度和速度。文獻[13]提出了一種超輕量級深度學習架構(gòu)(UL?DLA)。文獻[14]提出了一種新的非參數(shù)點云分析方法(Point?NN),該方法使用簡單的三角函數(shù)來揭示局部空間模式,并使用非參數(shù)編碼器來提取訓練集特征,并將特征緩存構(gòu)成為點云特征存儲庫。但上述輕量化結(jié)構(gòu)會降低網(wǎng)絡模型的泛化能力。
因此為保持原有先進分類精度,同時將網(wǎng)絡進行輕量化以降低模型參數(shù)量和計算復雜度,本文提出了一種輕量化特征增強融合網(wǎng)絡,即EFF?LPCT(Lightweight Point Cloud Transformer based on Enhanced Feature Fusion)。本文具體貢獻如下:
1) 使用一維化Ghost卷積對原始網(wǎng)絡進行重構(gòu),以降低計算復雜度和內(nèi)存要求;
2) 引入自適應支路權(quán)重,以實現(xiàn)注意力層級間的多尺度特征融合;
3) 利用多個通道注意力模塊增強特征的通道交互信息,以提高模型分類效果。
1" 特征增強融合的輕量化Transformer網(wǎng)絡
1.1" EFF?LPCT網(wǎng)絡模型概述
EFF?LPCT引入一維化Ghost卷積,以更少的計算代價從點云中提取特征,并將自適應權(quán)重與ECA(Efficient Channel Attention)[15]通道注意力模塊融入點云Transformer中,引入殘差網(wǎng)絡結(jié)構(gòu)并實現(xiàn)多尺度的特征融合,從而提升模型分類性能。
EFF?LPCT網(wǎng)絡結(jié)構(gòu)如圖1所示。其首要目標是將輸入激光點云坐標進行編碼,映射至一個高維特征空間作為基礎(chǔ)特征,該高維空間能夠有效地捕捉點與點之間的語義關(guān)聯(lián)性,將得到的點云局部特征作為輸入,由4個堆疊的偏自注意力模塊進一步提取點云全局特征。
為減少網(wǎng)絡模型在特征提取過程中的參數(shù)量與浮點計算量,本文使用一維的Ghost卷積對點云Transformer網(wǎng)絡的局部特征提取(Sample?and?Group, SG)模塊和偏自注意力特征提?。∣ffset?Attention, OA)模塊進行重構(gòu),以減少輕量化所帶來的精度損失,并利用ECA模塊來增加通道之間的信息交互以提升網(wǎng)絡性能。其中,局部特征提取Ghost?SG模塊的運算公式如式(1)~式(3)所示。
式中:[Fp]為點云采樣點p的輸入特征;[Fsp]為點云采樣點p的輸出特征;MP為自適應最大池化;[RPx,k]為向量重復k次x形成的矩陣算子;Ghost表示一維Ghost卷積;GhostECA是一種使用ECA彌補通道信息交互不足的一維Ghost卷積。
偏自注意力特征提取Ghost?OA模塊的運算如式(4)所示。
式中OA表示偏自注意力機制,即自注意力的特征Fsa與輸入特征Fin的偏移量。在特征增強過程中,為更好地捕捉不同自注意力層級對分類任務的貢獻程度,引入自適應權(quán)重提升特征在空間的表達能力。此外,再次利用ECA增強通道間的權(quán)重和通道間的信息交互能力,有助于網(wǎng)絡學習每個點的語義信息且使特征更具有判別性。在特征融合模塊中,進一步使用一維Ghost卷積進行輕量化改進,其輸出特征作為分類解碼器的輸入。解碼器由最大池化層和兩個串聯(lián)的線性網(wǎng)絡LBR(Liner, Batchnorm, ReLU)組成,神經(jīng)元丟失率(dropout)為0.5,通過線性層網(wǎng)絡輸出k個類別得分,最終點云分類預測結(jié)果以最高分類別確定。
1.2" EFF特征增強融合
本文在點云Transformer的基礎(chǔ)上引入了一種自適應權(quán)重的多分支特征增強模塊。觀察到點云Transformer網(wǎng)絡結(jié)構(gòu)中4個堆疊的自注意力層所提取的關(guān)聯(lián)性特征,在特征增強過程中引入自適應權(quán)重調(diào)整自注意力層級之間的重要程度,并利用ECA通道注意力機制來關(guān)注特征通道間對于分類任務潛在的貢獻程度。在上述基礎(chǔ)上設計了EFF(Enhanced Feature Fusion Module)特征增強融合模塊,結(jié)構(gòu)如圖2所示,具體可分為層級間自適應權(quán)重、通道間注意力模塊和輕量化特征融合模塊。
受到自適應特征融合[16]的啟發(fā),自適應權(quán)重在多分支特征提取網(wǎng)絡中能更好地平衡各分支的貢獻,利用自適應權(quán)重旨在動態(tài)調(diào)整堆疊自注意力層級之間的分支權(quán)重,以調(diào)節(jié)拼接特征在空間域的相對重要性,通過在每個分支中引入自適應性,從而更有效地捕捉輸入數(shù)據(jù)中的特征貢獻程度,以提高網(wǎng)絡性能。
關(guān)注到自注意力層級之間特征對于分類任務的貢獻程度,為充分利用有效特征引入本文自適應權(quán)重。該網(wǎng)絡的特點在于其多分支結(jié)構(gòu),其中每個分支提取輸入數(shù)據(jù)的不同層次的語義特征,通過分析每個分支對整體任務的貢獻,能夠調(diào)整相應權(quán)重,以確保在特定任務上關(guān)注更關(guān)鍵的分支,取得更好的網(wǎng)絡性能。對于堆疊的4層自注意力層,定義了每層輸出的自適應特征權(quán)重用以自行決定每層之間的特定關(guān)聯(lián)權(quán)重,其中自適應系數(shù)滿足關(guān)系式(5)~式(8)。
式中:[wi]為初始化指數(shù)權(quán)重;[wj]為特征權(quán)重;[αi]為歸一化權(quán)重。
為實現(xiàn)多尺度特征的自適應拼接融合,將學習得到的權(quán)重應用于多個分支的特征表示,進行加權(quán)拼接。確保每個分支的特征以適當?shù)臋?quán)重被融合,使得模塊更加靈活,能夠在不同任務和場景下更好地適應數(shù)據(jù)的特性。在特征增強過程中利用ECA進一步加強通道間特征關(guān)聯(lián)性和區(qū)分度,特征融合運算前引入殘差網(wǎng)絡的殘差分支恒等映射(Identity)防止網(wǎng)絡模型過擬合,有助于保持網(wǎng)絡的泛化能力。特征融合過程中將ECA增強特征作為輸入,使用LBR進行特征融合。在此基礎(chǔ)上為進一步減少特征融合的參數(shù)量和計算成本,用一維Ghost卷積模塊替代LBR層,為了保持網(wǎng)絡性能,利用ECA增強有效的特征通道。
1.3" Ghost輕量化卷積
網(wǎng)絡模型中豐富冗余的特征保證了網(wǎng)絡對于應用任務的性能和穩(wěn)定性,但網(wǎng)絡訓練中冗余特征的生成間接增加了網(wǎng)絡訓練的參數(shù)量和計算成本。本文受到GhostNet[17]輕量化卷積模塊的啟發(fā),將二維Ghost卷積調(diào)整至一維卷積應用于激光點云序列數(shù)據(jù),將一維化Ghost卷積嵌入特征提取模塊與特征融合模塊,以計算成本更低的方式達到原網(wǎng)絡的特征結(jié)構(gòu),避免特征冗余導致的較高計算量與參數(shù)量。
傳統(tǒng)一維卷積和一維化Ghost卷積運算流程示意圖如圖3所示。Ghost卷積作為傳統(tǒng)卷積的輕量化替代達到相似效果。Ghost卷積首先使用傳統(tǒng)卷積生成通道數(shù)為m的小量基礎(chǔ)特征,其次進行線性運算生成通道數(shù)為s的Ghost特征,利用深度卷積將基礎(chǔ)特征的單個通道分為一組,即分組數(shù)為g=cin的分組卷積,對輸入特征的每個通道進行分組線性變換,以生成部分冗余特征,此過程旨在減小卷積核的規(guī)模,從而降低整體模型的參數(shù)量。在每次卷積后,將分組處理后的特征按通道維度進行拼接,形成輸出特征,其中Ghost卷積輸出的特征通道數(shù)為[n=m·s]。
在輸出特征通道數(shù)量為n的運算中,傳統(tǒng)一維卷積和一維化Ghost卷積參數(shù)量分別為p1、p2,如式(9)~式(11)所示。
傳統(tǒng)一維卷積和一維Ghost卷積的浮點計算量分別為q1、q2,如式(12)~式(14)所示。
式中:c表示輸入點云特征的通道數(shù);k表示卷積操作中卷積核大??;l表示卷積生成的原始特征的特征長度;d為線性運算過程中卷積核的大小。由于[s?c],觀察式(11)、式(14),當兩次卷積核大小k=d時,使用Ghost卷積進行輕量化的參數(shù)量和浮點計算量約為傳統(tǒng)卷積的[1s]。
1.4" ECA通道注意力
引入一維Ghost卷積輕量化的同時降低了通道之間的信息交互,但影響了分類精度,本文利用通道注意力機制增強通道間的區(qū)分度和關(guān)聯(lián)性以提高分類精度。ECA是SE(Squeeze and Excitation)[18]的一種改進輕量級版本。
SE模塊結(jié)構(gòu)如圖4所示。首先通過全局平均池化進行壓縮(Squeeze)運算,獲取C×1的通道全局特征;其次進行激活(Excitation)運算,通過兩個串聯(lián)的全連接層和激活函數(shù)計算通道間關(guān)聯(lián)性C×1的權(quán)重。
ECA結(jié)構(gòu)如圖5所示。首先接收來自前一層特征作為輸入,執(zhí)行全局平均池化,獲取每個通道的全局重要性分數(shù);其次引入一維卷積操作,在通道維度上進行卷積運算,動態(tài)地計算卷積核大小k,使用權(quán)重共享的方式改進SE全連接層結(jié)構(gòu),從而避免通道維度的壓縮。
其中卷積核由式(15)確定,設置[γ=2],[b=1]。
特征加權(quán)融合利用計算得到的注意力權(quán)重對每個通道的特征進行加權(quán)融合,確保網(wǎng)絡更注重對任務貢獻較大的通道。ECA增強了通道關(guān)聯(lián)性,強化了網(wǎng)絡對通道之間關(guān)聯(lián)性的建模能力,從而有助于更全面地捕捉復雜特征。通過自適應地調(diào)整通道權(quán)重,使得其更有效地進行全局特征的獲取。
2" 實驗驗證與分析
評價指標采用平均準確率(mean Accuracy, mAcc)與總體準確率(overall Accuracy, oAcc),如式(16)、式(17)所示。
式中:Ni為第i類點云的個數(shù);Ti為第i類中正確預測的點云樣本個數(shù);K為數(shù)據(jù)集中的類個數(shù);N為數(shù)據(jù)集中點云采樣點數(shù)量;T為所有正確預測的點云樣本數(shù)量。
使用模型參數(shù)量和浮點計算量(GFLOPs)來評估網(wǎng)絡計算復雜度,利用單位時間處理點云樣本數(shù)量(FPS)反映模型效率。
2.1" 激光點云數(shù)據(jù)集
ModelNet40[19]數(shù)據(jù)集包含40個物體類別的12 311個CAD點云模型,數(shù)據(jù)集可視化實例如圖6所示。為保持對比實驗合理性,采用官方訓練測試集的劃分,其中9 843個點云樣本用于訓練,2 468個點云樣本用于推理測試,并且保持每個點云樣本數(shù)據(jù)均下采樣至1 024點作為網(wǎng)絡模型的輸入;對于輸入激光點云樣本進行[-0.2,0.2]范圍內(nèi)的隨機平移,以及[0.67,1.5]范圍內(nèi)的隨機各向異性縮放和隨機輸入點丟失的策略進行三維激光點云的數(shù)據(jù)增強。
2.2" 實驗環(huán)境與超參數(shù)
Intel i7?13790F CPU、GeForce RTX4090顯卡24 GB顯存、64 GB內(nèi)存、Windows 10操作系統(tǒng)、Python 3.9.18、PyTorch 1.12.1、CUDA 11.6。批次大小為100,使用250個訓練周期,初始學習率為0.01,采用SGD優(yōu)化器進行訓練,使用余弦退火調(diào)度在每個周期調(diào)整學習率。
2.3" 對比實驗
本文通過引入輕量化設計和多尺度特征增強融合方法來改進點云Transfomer,以設計EFF模塊,并與一些已經(jīng)成熟的三維點云分類方法進行性能比較。實驗分類的對比結(jié)果如表1所示。
本文所提方法采用了與DGCNN分類網(wǎng)絡相似的4層相同模塊堆疊的級聯(lián)結(jié)構(gòu),充分獲取了點云數(shù)據(jù)的多尺度特征。實驗結(jié)果表明,引入的自適應權(quán)重有利于使全局特征更具有區(qū)分性,在特征提取和特征融合過程中利用ECA增強特征通道之間的信息交互能力可以提升分類網(wǎng)絡的性能。EFF?LPCT在ModelNet40數(shù)據(jù)集上的分類總體準確率(oAcc)達到了93.3%,平均準確率(mAcc)達到了90.4%,均優(yōu)于其他Transformer分類網(wǎng)絡。
2.4" 模型計算復雜度
該模型的整體復雜度和計算開銷主要取決于所需的浮點計算量(GFLOPs)和模型參數(shù)的規(guī)模。本文方法和基于注意力的Point Cloud Transformer模型在ModelNet40數(shù)據(jù)集上的計算結(jié)果如表2所示。
本文模型參數(shù)量相比于原始網(wǎng)絡模型Point Cloud Transformer減少了0.86×106,在浮點計算量GFLOPs上降低了1.11,降低約47.8%。使用Ghost輕量化操作有效降低了模型計算復雜度,并利用自適應權(quán)重和ECA,在降低計算成本的同時取得了較高的模型分類精度,并且保持了較好的推理速度。
2.5" 消融實驗
本文網(wǎng)絡模型引入Ghost卷積網(wǎng)絡來減少整體網(wǎng)絡參數(shù)量和浮點計算量,通過引入自適應權(quán)重、ECA通道注意力機制,可以更好地獲取激光點云的全局特征。自適應權(quán)重可以更好地關(guān)注自注意力層級之間的關(guān)聯(lián)性與區(qū)分度,ECA通道注意力機制可以獲取點云特征通道之間特征的貢獻程度,對語義信息提取更大的特征通道以增強網(wǎng)絡的分類能力。為驗證模型的有效性,本文進行了消融實驗,其結(jié)果如表3所示。
從表3可以觀察到:使用一維的Ghost卷積重構(gòu)網(wǎng)絡,會帶來模型分類精度的明顯下降,使用自適應權(quán)重的模型優(yōu)于原始網(wǎng)絡,利用ECA的模型分類精度得到進一步提升;并且在一維Ghost卷積重構(gòu)的網(wǎng)絡模型中,自適應權(quán)重與ECA有效提升了模型的分類精度。
EFF?LPCT和LPCT在ModelNet40數(shù)據(jù)集的訓練結(jié)果如圖7所示。其中LPCT為基準網(wǎng)絡經(jīng)過Ghost輕量化后改進的網(wǎng)絡模型。
由圖7可觀察到,利用Ghost卷積輕量化網(wǎng)絡使得模型準確率有明顯下降,但利用自適應權(quán)重關(guān)注特征在層級間的特征貢獻程度,并引入殘差結(jié)構(gòu)防止過擬合現(xiàn)象,采用ECA通道注意力機制可以更好地補充Ghost輕量化帶來的性能損失,可見在輕量化后引入自適應權(quán)重和ECA對模型精度提升的有效性。
3" 結(jié)" 論
本文提出了一種準確、高效的三維激光點云分類網(wǎng)絡EFF?LPCT。利用Ghost卷積在保持原有性能的同時對網(wǎng)絡模型進行輕量化處理,考慮到不同注意力層級對于分類任務的貢獻程度,提出EFF特征增強融合模塊。引入自適應權(quán)重,通過多層堆疊的自注意力層學習多尺度特征,結(jié)合ECA通道注意力模塊旨在增強特征在通道維度的權(quán)重,從而提升特征的表達能力。將輕量化改進網(wǎng)絡應用于ModelNet40數(shù)據(jù)集進行任務分類,結(jié)果表明,所提方法在精度上取得了更高水平,同時具有更低的內(nèi)存消耗和浮點計算量。未來的研究將該網(wǎng)絡應用于激光點云的其他任務,如目標檢測和三維重建,并針對具體任務提出改進的特征增強學習網(wǎng)絡。
參考文獻
[1] MOHAMMADI S S, WANG Y, DEL BUE A. Pointview?GCN: 3D shape classification with multi?view point clouds [C]// 2021 IEEE International Conference on Image Processing (ICIP). [S.l.]: IEEE, 2021: 3103?3107.
[2] GEZAWA A S, BELLO Z A, WANG Q, et al. A voxelized point clouds representation for object classification and segmentation on 3D data [J]. The journal of supercomputing, 2022, 78(1): 1479?1500.
[3] QI C R, SU H, MO K, et al. PointNet: deep learning on point sets for 3d classification and segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2017: 652?660.
[4] QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [J]. Advances in neural information processing systems, 2017, 30: 5105?5114.
[5] LI Y Y, BU R, SUN M C, et al. PointCNN: Convolution on x?transformed points [EB/OL]. [2024?01?18]. https://www.xueshufan.com/publication/2902302021.
[6] WANG Y, SUN Y, LIU Z, et al. Dynamic graph CNN for learning on point clouds [J]. ACM transactions on graphics, 2019, 38(5): 1?12.
[7] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. [2024?01?21]. https://www.xueshufan.com/publication/3119786062.
[8] WU B, XU C, DAI X, et al. Visual transformers: Token?based image representation and processing for computer vision [EB/OL]. [2023?12?07]. https://www.xueshufan.com/publication/3033210410.
[9] GUO M H, CAI J X, LIU Z N, et al. PCT: point cloud transformer [J]. Computational visual media, 2021, 7: 187?199.
[10] ZHONG Q, HAN X F. Point cloud learning with transformer [EB/OL]. [2024?01?07]. https://www.xueshufan.com/publication/3158483215.
[11] ZHAO H, JIANG L, JIA J, et al. Point transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2021: 16259?16268.
[12] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2024?03?28]. https://www.xueshufan.com/publication/2612445135.
[13] QURESHI S A, RAZA S E A, HUSSAIN L, et al. Intelligent ultra?light deep learning model for multi?class brain tumor detection [J]. Applied science, 2022, 12: 3715.
[14] ZHANG R, WANG L, WANG Y, et al. Parameter is not all you need: Starting from non?parametric networks for 3D point cloud analysis [EB/OL]. [2023?04?18]. https://blog.csdn.net/weixin_43899239/article/details/141808202.
[15] WANG Q, WU B, ZHU P, et al. ECA?Net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2020: 11534?11542.
[16] ZHANG J, WU X, HUANG C. Adamow: multimodal sentiment analysis based on adaptive modality?specific weight fusion network [J]. IEEE access, 2023(2): 48410?48420.
[17] HAN K, WANG Y, TIAN Q, et al. GhostNet: more features from cheap operations [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 1580?1589.
[18] HU J, SHEN L, SUN G. Squeeze?and?excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 7132?7141.
[19] WU Z, SONG S, KHOSLA A, et al. 3D shapeNets: a deep representation for volumetric shapes [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 1912?1920.
[20] GAO Y, LIU X, LI J, et al. LFT?Net: local feature transformer network for point clouds analysis [J]. IEEE transactions on intelligent transportation systems, 2022, 24(2): 2158?2168.
[21] ZHONG Q, HAN X F. Point cloud learning with transformer [EB/OL]. [2023?07?18]. https://www.xueshufan.com/publication/3158483215.
[22] MAZUR K, LEMPITSKY V. Cloud transformers: a universal approach to point cloud processing tasks [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2021: 10715?10724.
[23] LU D, XIE Q, GAO K, et al. 3DCTN: 3D convolution?transformer network for point cloud classification [J]. IEEE transactions on intelligent transportation systems, 2022, 23(12): 24854?24865.
作者簡介:舒" 密(1998—),男,北京人,碩士研究生,研究方向為三維點云處理與計算機視覺。
王占剛(1977—),男,河北邢臺人,博士研究生,副教授,研究方向為大數(shù)據(jù)處理與分析、虛擬現(xiàn)實與三維模擬。
收稿日期:2024?06?14" " " " " "修回日期:2024?07?24