亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Transformer驅(qū)動的圖像分類研究進展

        2023-09-26 04:21:38石爭浩李成建周亮張治軍仵晨偉尤珍臻任文琦
        中國圖象圖形學報 2023年9期
        關(guān)鍵詞:復(fù)雜度全局注意力

        石爭浩,李成建*,周亮,張治軍,仵晨偉,尤珍臻,任文琦

        1.西安理工大學計算機科學與工程學院,西安 710048;2.中山大學網(wǎng)絡(luò)空間安全學院,深圳 518107

        0 引言

        圖像分類旨在識別圖像中存在目標對象所屬具體類別,是圖像處理和計算機視覺領(lǐng)域的重要研究方向,具有重要實際應(yīng)用價值。然而由于實際應(yīng)用中,圖像目標的形態(tài)、類型多樣,且成像環(huán)境復(fù)雜,現(xiàn)有方法的分類效果卻總是差強人意,存在分類準確性低、假陽性高等問題,嚴重影響其在后續(xù)圖像及計算機視覺相關(guān)任務(wù)中的應(yīng)用。因此,如何通過后期算法提高圖像分類的精度和準確性,具有重要研究意義,受到越來越多的關(guān)注。

        在近十幾年間,由于優(yōu)異的特征提取能力,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)及其變體,如VGGNet(Visual Geometry Group network)(Simonyan 和Zisserman,2015)、Inceptions(Szegedy等,2015)、ResNet(X)(residual network)(He 等,2016;Xie 等,2017)、DenseNet(densely connected convolutional network)(Huang 等,2017)、MobileNet(Howard 等,2017)、EfficientNet(Tan 和Le,2019)、RegNet(Parmar 等,2019)和ConvNeXts(Liu 等,2022a)等為代表的深度學習技術(shù)廣泛應(yīng)用于各種圖像處理任務(wù),取得了較好的處理效果。作為后起之秀,在自然語言處理領(lǐng)域大放異彩的Transformer(Vaswani 等,2017)模型,由于較強的遠距離建模和并行化序列處理能力,逐漸引起圖像處理和計算機視覺領(lǐng)域研究者的興趣,并在目標檢測(Carion 等,2020)、語義分割(Wang 等,2021a)、目標跟蹤(Chen等,2021a)、圖像生成(Jiang 等,2021)和圖像增強(Chen 等,2021b)等應(yīng)用中表現(xiàn)出良好的性能。ViT(vision Transformer)(Dosovitskiy 等,2021)是Google團隊提出的第一個利用堆疊的 Transformer 編碼器代替?zhèn)鹘y(tǒng)CNN 的網(wǎng)絡(luò)模型。相較于傳統(tǒng)CNN,ViT通過將輸入圖像劃分為一個個的圖像塊(Patch),實現(xiàn)對待處理圖像的全局建模和并行化處理,極大提升了模型的圖像分類能力。然而,盡管ViT 模型在圖像處理和計算機視覺應(yīng)用中已取得了很好成效,但研究(Guo等,2022)發(fā)現(xiàn),與目前最先進的CNN 模型相比,現(xiàn)有ViT 模型在視覺任務(wù)中的表現(xiàn)仍存在差距。分析其原因,主要有:1)絕對位置編碼導(dǎo)致現(xiàn)有模型可擴展性能差;2)自注意力機制與分辨率計算上呈二次方關(guān)系帶來高昂的計算開銷;3)缺乏歸納偏置導(dǎo)致數(shù)據(jù)饑餓和收斂速度慢問題;4)深層Transformer存在注意力崩潰問題。

        針對上述問題,研究者開展了更為深入的研究,并先后推出數(shù)篇關(guān)于Transformer 的技術(shù)綜述。Tay等人(2023)回顧了Transformer 的效率;Khan 等人(2022)和Han 等人(2023)總結(jié)了一些早期的視覺Transformer 和一些注意力模型;Lin 等人(2022)提供了對Transformer 的各種變體的系統(tǒng)評論,并粗略地給出了Transformer在不同視覺任務(wù)中的應(yīng)用;Liu等人(2022b)提出根據(jù)動機、結(jié)構(gòu)和使用場景組織這些方法;Xu 等人(2022)根據(jù)任務(wù)場景對它們進行分類。

        與以上綜述不同,為了使讀者對最新研究進展有一個更為全面、更為系統(tǒng)、更為深入的了解,緊跟最新研究進展,本文對2021年和2022年發(fā)表的各種Transformer驅(qū)動的深度學習圖像分類方法和模型進行了系統(tǒng)梳理,重點對ViT 變體驅(qū)動的圖像分類方法進行了歸納和總結(jié),包括可擴展的位置編碼、低復(fù)雜度和低計算代價、局部信息與全局信息融合以及深層ViT模型等。本文主要貢獻如下:

        1)分類總結(jié)近年來Transformer驅(qū)動的深度學習圖像分類方法和模型,介紹各類方法的核心思想,分析存在的問題及可能的解決方案;

        2)系統(tǒng)梳理Transformer驅(qū)動的深度學習圖像分類任務(wù)需要解決的關(guān)鍵性科學問題,并對未來的研究方向及發(fā)展趨勢進行展望。

        1 傳統(tǒng)Transformer

        Transformer(Vaswani 等,2017)最早應(yīng)用在序列到序列的自然語言處理自回歸任務(wù)中,其整體架構(gòu)為 encoder-decoder 結(jié)構(gòu),其中編碼部分采用多頭自注意力機制(multi-head self-attention,MHSA)實現(xiàn)全局信息的提取,隨后采用前饋神經(jīng)網(wǎng)絡(luò)(feedforward network,F(xiàn)FN)來完成維度的變換和提取更豐富的語義信息。本節(jié)先介紹注意力機制和多頭注意力機制,然后介紹前饋神經(jīng)網(wǎng)絡(luò)和位置編碼,最后給出傳統(tǒng)Transformer的模型結(jié)構(gòu)。

        1.1 注意力機制和多頭注意力機制

        注意力機制是Transformer 的重要組成部分,其整體結(jié)構(gòu)可以分為線性映射模塊和注意力模塊兩部分。

        線性映射模塊的作用是將輸入序列X和Y映射成其投影Q、K和V。給定輸入序列X和Y,其中X∈Rn×d,Y∈Rn×d,n表示輸入序列長度,d代表輸入數(shù)據(jù)的維度。令Q表示X投影,K和V表示Y的投影。其數(shù)學表述為

        式中,WQ∈,WK∈和WV∈分別表示不同的線性矩陣;dq,dk,dv分別代表經(jīng)過特征映射后的Q,K,V的序列維度。當Y=X時,dq=dk=dv,注意力機制也變?yōu)樽宰⒁饬C制。這種機制由于減少了對外部信息的依賴,更擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。

        注意力模塊的作用是顯式地將查詢Q與對應(yīng)的鍵K進行相似度計算獲得注意力權(quán)重,根據(jù)權(quán)重矩陣為V分配關(guān)注度權(quán)值,并更新輸出向量,其數(shù)學表述為

        由于特征子空間的限制,單頭注意力機制的建模能力通常較差。為此,Vaswani等人(2017)提出多頭注意力機制,即將輸入矩陣線性映射到由多個獨立注意力頭組成的特征子空間中進行點乘運算,隨后拼接特征向量和線性映射得到最終輸出,具體為

        式中,i代表頭的序號,head代表頭的個數(shù),fConcat代表拼接,WO代表輸出映射矩陣。多頭注意力將輸入序列維度d拆分成head個維度為d/head的獨立注意頭,每個頭完成自注意計算后進行拼接(結(jié)果定義為MH)。在不增加額外計算成本的情況下,多頭注意力機制豐富了特征子空間的多樣性。

        1.2 前饋神經(jīng)網(wǎng)絡(luò)

        在編碼器和解碼器結(jié)構(gòu)中,前饋神經(jīng)網(wǎng)絡(luò)在Self-attention 層之后,主要由兩個線性層和一個非線性激活層組成,即

        式中,W1和W2是兩個線性映射矩陣,b1和b2為偏移量。δ為非線性激活函數(shù),如GELU(Gaussian error linear unit)(Hendrycks和Gimpel,2020)。

        1.3 位置編碼

        在提取序列數(shù)據(jù)特征過程中,有效利用數(shù)據(jù)的先后順序?qū)τ讷@得更好的特征表示至關(guān)重要。但Transformer 模型中的Self-attention 模塊缺乏捕獲數(shù)據(jù)先后順序的能力,限制了其在序列數(shù)據(jù)處理中的應(yīng)用。針對該問題,Vaswani等人(2017)將絕對位置編碼引入Transformer 模型結(jié)構(gòu)中,通過正弦余弦的相對位置學習,提高了Transformer 模型獲取序列位置信息的能力。絕對位置編碼的定義為

        式中,m和j代表向量索引,pos表示序列中每個元素的位置。

        為了進一步提高Transformer模型獲取序列位置信息的能力,Devlin 等人(2019)、Dosovitskiy 等人(2021)和Li 等人(2022a)還提出了可學習位置編碼(Gehring等,2017)、相對位置編碼(Shaw等,2018)和動態(tài)位置編碼。本文主要介紹可擴展的位置編碼。

        1.4 Transformer模型架構(gòu)

        Transformer 模型首先通過線性映射層對輸入數(shù)據(jù)進行編碼,并將輸入數(shù)據(jù)與絕對位置編碼相加,為輸入Transformer encoder 的數(shù)據(jù)添加位置信息(此時的數(shù)據(jù)稱之為Token)。然后,Tokens 集合通過編碼器完成特征編碼,將編碼特征輸入到解碼器實現(xiàn)解碼操作。最后,通過Linear 層和softmax 將數(shù)據(jù)轉(zhuǎn)化為概率,完成對數(shù)據(jù)的分類。上述結(jié)構(gòu)中,編碼層由MHSA(multi-head self-attention)聚合編碼信息,F(xiàn)FN(feed-forward network)層完成維度的變換和提取更豐富的語義信息。解碼器通過掩碼多頭自注意力機制(mask multi-head self-attention,Mask-MHSA)完成對輸入數(shù)據(jù)Y的有序解碼,其中,交叉注意力層(cross-attention)則是編碼信息和解碼信息融合的關(guān)鍵。

        除上述主干網(wǎng)絡(luò)外,Vaswani等人(2017)還將殘差網(wǎng)絡(luò)連接(He 等,2016)和層歸一化(layer normalization)(Hu等,2019)引入Transformer模型。

        2 Vision Transformer

        圖1 按時間順序給出了近年來Transformer 模型及其在圖像處理應(yīng)用中的研究發(fā)展演化過程。由圖1 可見,基于Transformer 模型的圖像處理方法已經(jīng)成為近年圖像處理的主流研究方法。

        圖1 Transformer研究演化進程Fig.1 The evolution of research on Transformer and its application in image classification

        本節(jié)首先介紹傳統(tǒng)的ViT模型,然后根據(jù)ViT面臨的問題及其所采用解決策略的不同,對近年來的ViT 變體模型進行梳理總結(jié),主要包括可擴展的位置編碼、低復(fù)雜度和低計算代價、局部信息與全局信息融合以及深層ViT模型,如圖2所示。

        圖2 基于視覺Transformer的變體分類Fig.2 Visual Transformer-based variant classification

        2.1 ViT

        ViT模型的整體結(jié)構(gòu)如圖3所示,首先將輸入圖像I∈RH×W×3劃分為一個個不重疊的圖像塊,其維度為x∈,這里H和W分別代表圖像的高與寬,3代表輸入圖像的通道數(shù),P代表了Patch 塊的高和寬,N代表了根據(jù)高和寬為P的尺寸劃分圖像塊的個數(shù)。然后,將圖像塊線性映射為Tokens 集合,此時的維度為x∈RN×C,C為映射的Hidden Embedding。再后,為Tokens 集合添加絕對位置編碼以保證輸入Tokens 之間的空間位置信息和添加CLS(Class Token)用于后續(xù)分類任務(wù)。最后,將Tokens經(jīng)過堆疊6 層的Transformer 編碼器提取特征,并取出最后一層輸出的CLS進行圖像分類。

        圖3 ViT模型(Dosovitskiy等,2021)Fig.3 ViT model(Dosovitskiy et al.,2021)

        2.2 可擴展位置編碼

        在傳統(tǒng)的標準ViT 中,為確定圖像塊之間的先后順序,絕對位置編碼為每個圖像塊線性映射后的Tokens 集合添加一個唯一的位置編碼,但破壞了模型提取特征的平移不變性(Kayhan 和van Gemert,2020)。針對該問題,可學習位置編碼通過定義輸入序列長度相同的向量與網(wǎng)絡(luò)權(quán)重聯(lián)合更新,但導(dǎo)致模型在測試階段遇到更長序列時性能下降。而相對位置編碼不僅帶來額外的開銷,而且需要修改ViT的實現(xiàn)方式。

        由此可見,具有良好可擴展性及較小計算成本的編碼方式變得非常必要。為此,先后提出了一種可擴展的位置編碼和其變體CPVT(conditional position encoding vision Transformer)(Chu 等,2023)、ResT(efficient multi-scale vision Transformer)(Zhang和 Yang,2021)、Uniformer(unified Transformer)(Li等,2022a)和 CMT(convolutional neural networks neet vision Transformers)(Guo等,2022)。

        CPVT(Chu 等,2023)中的位置編碼方式與絕對位置編碼不同,提出了一種條件位置編碼,如圖 4(a)所示,通過對Tokens序列進行維度變換轉(zhuǎn)為一幅圖像,對圖像進行F操作后再轉(zhuǎn)為Tokens序列,以此實現(xiàn)可擴展位置編碼。F可以是深度卷積(depth wise convolution,DWconv)、可分離卷積(separable convolution,Sconv)或其他復(fù)雜的運算(Chu等,2023)。

        ResT(Zhang 和Yang,2021)是一種多尺度的ViT,主要通過高效的多頭注意力機制和基于空間注意力機制的位置編碼結(jié)合,讓整個模型相較于絕對位置編碼方式具有更大的靈活性,可以處理任意大小的輸入圖像,無需插值和微調(diào)就能獲得很好的實驗效果??臻g注意力機制(如圖4(b)所示)的位置編碼為

        圖4 可擴展位置編碼Fig.4 Scalable position encoding((a)CPVT(Chu et al.,2023);(b)ResT(Zhang and Yang,2021))

        式中,PA為線性映射函數(shù),fDW為深度卷積,σ為sigmoid激活函數(shù),x為輸入Patch塊的序列。

        CMT(Guo 等,2022)主要致力于融合CNN 的局部信息提取和Transformer 的長距離建模能力,以此獲得更高的性能。如圖5 所示,在模型設(shè)計過程中,首先通過在Stem層堆疊3層卷積使得減少圖像尺寸的同時增加局部信息的提取能力。隨后,通過設(shè)計局部感知單元(local perception unit,LPU)來解決絕對位置編碼破壞Transformer 的平移不變性問題,整個局部感知單元通過將深度卷積提取特征與原輸入特征求和來實現(xiàn)可擴展位置編碼,具體為

        圖5 CMT模型的核心架構(gòu)(Guo等,2022)Fig.5 Core architecture of the CMT model(Guo et al.,2022)

        式中,fDW表示深度卷積,x為輸入Patch序列。

        再后,為緩解Transformer高昂計算代價問題,設(shè)計了輕量級多頭注意力(lightweight multi-head selfattention,LMHSA),將大卷積核的深度可分離卷積應(yīng)用到K,V上,減少尺寸降低計算量。最后,在原始逆殘差結(jié)構(gòu)基礎(chǔ)上,逆殘差前饋神經(jīng)網(wǎng)絡(luò)(inverted residual feed-forward network,IRFFN)通過改進殘差路線提升梯度在本層的傳播能力。

        Uniformer(Li 等,2022a)與CMT(Guo 等,2022)類似,都通過堆疊多層卷積實現(xiàn)局部特征的提取和降低分辨率。此外,在位置編碼上將經(jīng)過深度卷積后的數(shù)據(jù)與線性變化后的數(shù)據(jù)進行相加,來完成可擴展的位置編碼,如式(11)所示。

        基于可擴展位置編碼的ViT 模型及其特點如表1所示。

        表1 基于可擴展位置編碼的ViT模型Table 1 ViT model based on scalable positional coding

        2.3 低復(fù)雜度和低計算代價

        由于采用softmax 作為注意力分數(shù)概率化的Self-attention與編碼后的Tokens數(shù)量呈二次方關(guān)系,ViT 的計算復(fù)雜度為Ω(2(hw)2C+4hwC2)。其中,Ω 為計算復(fù)雜度,h與w為Patch 的高和寬,C為每個塊的維度。在自然語言處理(natural language processing,NLP)任務(wù)中,雖然Wang 等人(2020)和Wu等人2021)引入了線性注意力來緩解此類問題,但將NLP 領(lǐng)域設(shè)計的線性注意力直接應(yīng)用于ViT 中,效果并不理想。因此,一種基于計算機視覺領(lǐng)域降低Self-attention 或整個Transformer encoder 計算復(fù)雜度的模型是必要的。為了從圖像處理的基本屬性出發(fā)降低ViT 的計算復(fù)雜度,以Swin Transformer(hierarchical vision Transformer using shifted windows)(Liu等,2021)為代表的許多工作,對于低復(fù)雜度模型進行研究。代表性工作有VOLO(vision outlooker)(Yuan 等,2021a)、CSwin Transformer(cross-shaped window Transformer)(Dong 等,2022)和VVT(vicinity vision Transformer)(Sun等,2022)。

        Swin Transformer(Liu 等,2021a)將圖像劃分為一個個Patch 后,先在Patch 內(nèi)部進行自注意力機制運算,通過Patch 的劃分與合并,實現(xiàn)空間縮減和通道擴充任務(wù),這種方法稱為Window attention。然后,沿著空間維度移動窗口來對全局信息和邊界信息進行建模,此方法稱為Shift attention。兩者在模型搭建過程中順次交替進行局部和全局信息的提取。Swin Transformer 中引入Window attention 后復(fù)雜度縮減為Ω(2M2hwC+4hwC2)。其中,M為Patch 中再次劃分子Patch 的高和寬。Swin Transformer 核心架構(gòu)如圖6所示,其中,l層為Window attention,l+1層為Shift attention,l為層數(shù)。

        圖6 Swin Transformer的核心架構(gòu)(Liu等,2021)Fig.6 Core architecture of Swin Transformer(Liu et al.,2021)

        VOLO(Yuan 等,2021a)采用了兩階段的架構(gòu)設(shè)計。首先,通過Outlooker 生成精細級的Token 表示。然后,堆疊多層Transformer 模塊聚合全局信息。其核心模塊Outlooker 由實現(xiàn)空間信息編碼的Outlook attention 和通道信息交互的多層感知機(multi-layer perceptron,MLP)組成。如圖7 所示,對于圖像上的每個空間位置(wi,hj),其中wi代表橫坐標,hj代表縱坐標,Outlook attention 首先將輸入特征圖通過線性映射后劃分為若干個以(wi,hj)為中心、Ws×Ws大小的局部窗口,計算每個中心點與局部窗口內(nèi)的所有鄰居的相似度。隨后通過Reshape 操作和softmax 激活函數(shù)獲得注意力權(quán)重矩陣(如圖7中綠色虛框和黑色虛框所示),并將其作為以(wi,hj)為中心的局部窗口內(nèi)所有值組成的V的權(quán)重(如圖7 中的Linear+Unfold)。最后,將來自V的不同局部窗口同一位置的不同加權(quán)值求和得到最終輸出(如圖7 中的Fold 操作)。Outlook attention 相較于多頭自注意力計算量與Tokens 數(shù)量呈現(xiàn)二次方關(guān)系而言,通過Reshape 操作簡化了求解注意力的流程,并在一定程度上保留了視覺任務(wù)的關(guān)鍵位置信息(Hou 等,2021;Hu 等,2019)。計算復(fù)雜度縮減為Ω(hwC(2C+head(Ws)4)+hwC(Ws)2)。其中,Ws為滑動窗口大小。

        圖7 Outlook attention的整體架構(gòu)(Yuan等,2021a)Fig.7 The overall architecture of Outlook attention(Yuan et al.,2021a)

        CSwin Transformer(Dong 等,2022)為了在減小計算量的同時解決Swin Transformer 中窗口注意力的Token 之間信息交互受限問題,提出一種十字形窗口自注意力機制。該注意力機制通過平行水平和垂直條紋來實現(xiàn)自我注意,形成十字形窗口,擴大感受野提升Token 之間的信息交互能力。計算復(fù)雜度縮減為Ω(HWC×(4C+Sw×H+Sw×W)),Sw是超參數(shù),每層Sw為[1,2,7],前期小后期大是為了增加CSwin 的感受野,并使計算復(fù)雜度控制在可接受范圍內(nèi)。

        VVT(Sun 等,2022)提出了Vicinity attention,在具有線性復(fù)雜度的ViT 中引入局部偏差。具體來說,對于每個劃分的圖像塊,根據(jù)其相鄰塊測量的2D 曼哈頓距離調(diào)整其注意力權(quán)重。在這種情況下,鄰近的Patch將比遠處的Patch受到更多的關(guān)注。此外,由于Vicinity attention 需要的Token 數(shù)量遠大于特征維度,VVT模型在不降低分類準確率的情況下,模型計算復(fù)雜度從Ω(2(hw)2C+4hwC2) 縮減為Ω(hw(2C)2+2C2),(2C)2?(hw)2。

        基于低復(fù)雜度和低計算代價的ViT 模型及其特點如表2所示。

        表2 基于低復(fù)雜度和低計算代價的ViT模型Table 2 ViT model based on low complexity and low computational cost

        2.4 局部與全局信息融合

        本節(jié)從問題和架構(gòu)設(shè)計兩個角度組織敘述邏輯,分“數(shù)據(jù)饑餓”問題、CNN 與Transformer 結(jié)合和純Transformer架構(gòu)3個部分展開。

        2.4.1 “數(shù)據(jù)饑餓”問題

        “數(shù)據(jù)饑餓”問題(Hassani等,2022b)是指ViT模型從頭開始訓練到模型收斂性能達到與CNN 一樣好或更好的效果所需的數(shù)據(jù)量規(guī)模更大。Selfattention 是ViT 模型提取全局信息獲得遠距離建模能力的關(guān)鍵,但這種模型設(shè)計缺乏CNN 中所固有的歸納偏置,如平移不變性和局部性。導(dǎo)致模型訓練過程中所需數(shù)據(jù)量更大,收斂速度在相同數(shù)據(jù)量的情況下相對于CNN 模型速度更慢。雖然隨著數(shù)據(jù)量的增大可以使得模型收斂并取得更好的效果,但針對一些研究領(lǐng)域,由于數(shù)據(jù)集標記比較困難,導(dǎo)致數(shù)據(jù)量較小。在這種情況下,模型的處理性能和收斂速度都不能達到令人滿意的效果。因此,DeiT(data-efficient image Transformers)(Touvron 等,2021a)、SLViT(vision Transformer for small-size datas-ets)(Lee等,2021)和CCT(compact convolutional Transformer)(Hassani 等,2022b)從解決數(shù)據(jù)饑餓問題出發(fā)設(shè)計模型。

        DeiT(Touvron等,2021a)為了緩解ViT模型對于大數(shù)據(jù)集的依賴,通過引入數(shù)據(jù)增強和正則化策略,在ImageNet 上獲得了81.8%的準確率。此外,在訓練中,DeiT 使用知識蒸餾策略,將訓練好的CNN 模型作為老師,Transformer 模型作為學生,在CNN 模型的指導(dǎo)下為Transformer模型帶來了歸納偏置?;谶@種蒸餾策略在不借助外部數(shù)據(jù)的情況下獲得了83.4%的準確率,既說明了蒸餾策略的有效性,也說明歸納偏置的添加對于提升ViT 模型性能和解決數(shù)據(jù)饑餓問題是有效的,如圖8 所示,其中Class Token負責模型分類,Distillation負責知識蒸餾引入歸納偏置,LCE代表學生模型分類交叉熵損失,Lteacher代表老師模型損失。

        圖8 DeiT模型(Touvron等,2021a)Fig.8 DeiT model(Touvron et al.,2021a)

        SLViT(Lee 等,2021)從ViT 在小數(shù)據(jù)集訓練慢、效果差現(xiàn)象的本質(zhì)出發(fā),提出了一種新的基于空間特征平移的標記化方法(shifted patch tokenization,SPT)。此外,為了解決注意力分數(shù)分布平滑問題,Lee 等人(2021)還提出了局部自注意力機制(locality self-attention,LSA),在僅增加少量參數(shù)和簡單操作的情況下顯著提升了ViT的性能。

        CCT(Hassani 等,2022b)為了解決數(shù)據(jù)饑餓問題提出了一種新型的序列池化操作,使得模型消除了對于Class Token和位置編碼的依賴。整個模型小而靈活,在參數(shù)量0.28 M 的情況下即可取得很好的效果。序列池化操作為

        式中,g為線性映射層,Xl∈Rn×d為Transformer 第l層的輸出,∈R1×n為通過通道注意力后的特征,z為分配權(quán)重后的輸出特征。整個流程如下:首先,將Xl輸入到線性映射層g(Xl)∈Rd×1,并使用softmax 激活函數(shù)進行歸一化和概率化。隨后,將計算的概率與Xl相乘獲得z,并通過池化層移除z中的第2個維度,此時z∈Rd。最后,將z輸入到線性層進行分類或其他工作。

        基于解決“數(shù)據(jù)饑餓”問題的ViT 模型及其特點如表3所示。

        表3 基于解決“數(shù)據(jù)饑餓”問題的ViT模型Table 3 Based on the ViT model to solve the “data hunger” problem

        2.4.2 CNN與Transformer結(jié)合

        由于Transformer 強大的全局信息提取能力,在不同的領(lǐng)域取得了很大的成就,有力地推動了NLP和計算機視覺工作的發(fā)展。但由于缺乏歸納偏置,收斂速度慢,信息利用不充分。CNN 因其具有的局部性和平移不變性,能夠很好地提取局部信息,但其感受野受限(劉啟超 等,2021),在一定程度上限制了卷積神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)集上的吞吐量和提取能力。SLaK(sparse large kernel network)(Liu 等,2023)、RepLKNet(revisiting large kernel design in CNNs)(Ding 等,2022)和ConvNeXt(a convnet for the 2020s)(Liu 等,2022a)提出采用大卷積核策略擴大模型感受野,但帶來了更高的計算代價,且視野范圍小于自注意力機制。為了更充分地利用有效信息,彌補兩種模型的缺陷,Xiao 等人(2021)提出了將卷積與ViT 結(jié)合的模型(Early Conv)。該模型的實驗結(jié)果證明了兩種模型的聯(lián)合對增強特征提取能力具有重要意義(孫旭輝 等,2023)。

        目前,CNN 與Transformer 的結(jié)合,主要有3 種模式,即CNN+Self-attention、串行機制和并行機制。其中,CoTNet(contextual Transformer networks)(Li 等,2023)、LG-Transformer(local-to-global Self-attention in vision Transformers)(Li 等,2021a)和BoTNet(bottleneck Transformers for visual recognition)(Srinivas等,2021)等都采用CNN+Self-attention 模式。該模式通過堆疊多層卷積提取局部信息,在分類前一層添加Self-attention 及其變體以增強模型的全局信息提取能力。最終實現(xiàn)局部信息與全局信息的融合。

        基于CNN+Self-attention 的模型架構(gòu)圖如圖9所示。本文以BoTNet 模型作為CNN+Self-attention模式的代表進行闡述。

        圖9 CNN+Self-attention模型架構(gòu)Fig.9 CNN+Self-attention model architecture

        BoTNet(Srinivas 等,2021)提出了一種all2all attention 機制,相較于原始的Self-attention 通過Token 的序列化表示,所提出的注意力直接作用于2D 特征圖,并在Self-attention 的基礎(chǔ)上添加了內(nèi)容—編碼和內(nèi)容—內(nèi)容的交互。其中,內(nèi)容—編碼的信息交互主要通過定義高和寬的相對位置編碼來表達特征之間的相對距離,并通過與Q計算注意力得分獲得Q中所查詢對象在圖像中的位置信息;內(nèi)容—內(nèi)容的交互與原始的自注意力一致,將線性映射的Q和K進行內(nèi)積獲得內(nèi)容之間的相關(guān)關(guān)系。隨后,將內(nèi)容—編碼和內(nèi)容—內(nèi)容得分進行求和并通過與V的運算獲得交互后的位置和內(nèi)容信息,以提高模型全局定位和分類能力,模型如圖10 所示。當應(yīng)用于圖像分類任務(wù)中時,先將所設(shè)計的all2all attention 模塊替換殘差結(jié)構(gòu)中的3 × 3 卷積,以獲得具有全局建模能力的殘差結(jié)構(gòu)。然后,將該殘差結(jié)構(gòu)堆疊多層替換ResNet 架構(gòu)的最后一個stage,以實現(xiàn)局部信息與全局信息交互,增強模型分類性能。

        圖10 BoTNet中all2all attention整體架構(gòu)(Srinivas等,2021)Fig.10 Overall architecture of all2all attention in BoTNet(Srinivas et al.,2021)

        圖11 GPSA模型塊(Dai等,2021)Fig.11 GPSA model block(Dai et al.,2021)

        基于CNN+Self-attention 的模型及其特點如表4所示。

        表4 基于CNN+Self-attention的模型Table 4 CNN+Self-attention-based model

        串行機制主要是將CNN 模型添加到Transformer 的不同位置,為模型增加局部信息提取能力。如CNN 進行位置編碼、CNN 將Patch 編碼為Token,亦或是將ViT 中的線性層變?yōu)榫矸e層或添加一些其他的注意力機制。

        DeiT 通過使用知識蒸餾策略為Transformer 引入歸納偏置。CCT 通過將卷積與Transformer結(jié)合完成局部和全局信息融合的同時利用蒸餾的方式增強CCT性能。上述兩個模型既是數(shù)據(jù)饑餓問題的解決方法,也是串行機制的經(jīng)典模型。除了通過上述方法為模型添加軟歸納偏置外,串行機制還包括如下3類:

        1)位置編碼或Patch 編碼中添加CNN 引入歸納偏置。如CPVT、ResT、CMT、MobileViT(light-weight,general-puprose and mobile-friendly vision Transformer)(Mehta 和Rastegari,2022)和GC ViT(global context vision Transformers)(Hatamizadeh 等,2023)、MFT(multimodal fusion Transformer)(Roy 等,2022)、MCT(multiscale convolutional Transformer)(Jia 等,2022)、CTN(convolutional Transformer network)(Zhao等,2022)、DHViT(deep hierarchical vision Transformer)(Xue 等,2022)、DSS-TRM(deep spatialspectral Transformer)(Liu等,2022c)等。

        2)自注意力模塊添加CNN。如CoAtNet(convolution and Self-attention)(Dai 等,2021)、ConViT(improving vision Transformers with soft convolutional inductive biases)(D’Ascoli 等,2021)、CvT(convolutional vision Transformer)(Wu 等,2021b)、CMT(Guo等,2022)、PVTv1(pyramid vision Transformer)(Wang等,2021b)、PVTv2(improved baselines with pyramid vision Transformer)(Wang 等,2022)、MViTv1(multiscale vision Transformers)(Fan 等,2021)、MViTv2(improved multiscale vision Transformers for classification and detection)(Li 等,2022b)、EdgeViTs(light-weight Transformers)(Pan 等,2022)、EdgeNeXt(efficiently amalgamated CNN-Transformer architecture for mobile vision applications)(Maaz 等,2022)、ScalableViT(scalable vision Transformer)(Yang 等,2022)等。

        3)MLP 或FFN 中添加深度可分離卷積為ViT 引入歸納偏置。如LeViT(a vision Transformer in convnet’s clothing for faster inference)(Graham 等,2021)、CMT、GLiT(global local image Transfomer)(Chen 等,2021c)、LocalViT(bringing locality to vision Transformers)(Li 等,2021b)、CeiT(convolutionenhanced image Transformer)(Yuan 等,2021b)、PiT(pooling-based vision Transformer)(Heo等,2021)等。

        在類型1)中,CPVT 和ResT 通過使用深度卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)可擴展位置編碼的設(shè)計,將CNN 的歸納偏置引入到ViT 中。CMT 的設(shè)計不僅在編碼階段使用深度卷積作為可擴展位置編碼的一部分,在自注意力機制和FFN中都使用CNN來幫助ViT模型引入歸納偏置提高模型的收斂速度。

        MobileViT(Mehta 和Rastegari,2022)主要致力于將輕量級卷積與Transrformer 結(jié)合應(yīng)用于移動端,網(wǎng)絡(luò)模型采用類似于UNet的網(wǎng)絡(luò)架構(gòu)。首先,通過n×n的卷積提取局部信息,將特征序列化后輸入ViT 完成全局信息的提取。其中,ks為卷積核大小。然后,通過卷積操作升維和殘差連接完成局部信息和全局信息融合。

        GC ViT(Hatamizadeh 等,2023)提出一種全局Token 生成模塊,利用卷積的方式產(chǎn)生全局Token,將生成的Token 作為全局自注意力機制的Q完成全局信息提取。局部注意力與全局注意力交替提取局部和全局信息。

        MFT(Roy 等,2022)提出多模態(tài)信息融合方案。首先,將高光譜圖像(hyperspectral image,HSI)信息作為輸入Transformer 的Patch token,激光雷達(light detection and ranging,LiDAR)合成圖像與高光譜圖像對應(yīng)位置的圖像信息作為CLS。隨后,對高光譜圖像的Patch token 和CLS 通過CNN 進行標記化,將標記化后的Token 輸入到Transformer 模型提取全局信息。最后,通過跨Patch的注意力實現(xiàn)兩種模態(tài)信息的交互,完成局部和全局信息融合。

        MCT(Jia 等,2022)提出一種多尺度卷積Transformer,可以有效捕獲局部與全局空間光譜信息。此外,還定義了一個自監(jiān)督預(yù)置任務(wù),使得骨干網(wǎng)絡(luò)在自監(jiān)督學習過程中有效地建模中心像素點與鄰域像素的關(guān)系。

        CTN(Zhao等,2022)通過設(shè)計中心位置編碼,將位置和光譜特征相結(jié)合生成空間位置特征,并使用卷積Transformer 將局部信息與全局信息融合,提高模型的分類性能。

        DHViT(Xue等,2022)利用光譜序列Transformer沿光譜維度從高光譜圖像中提取特征,捕獲光譜長期依賴。并通過CNN 和Transformer 結(jié)合的空間層次Transfromer 提取HSI 和LiDAR 圖像中的空間特征。最后,堆疊多層交叉注意力機制自適應(yīng)融合多模態(tài)信息實現(xiàn)高光譜圖像的分類。

        DSS-TRM(Liu 等,2022c)提出了一種局部—全局信息融合和空間光譜交互的Transformer模型。該模型中,兩個注意力機制通過二維卷積實現(xiàn)Patch的編碼。其中,空間注意力提取高光譜圖像的空間特征,光譜自注意力負責光譜維度的信息交互。最后,通過將兩種注意力提取的特征進行拼接輸入到分類器完成圖像分類。

        在類型2)中,CoAtNet(Dai等,2021)提出了一種將深度卷積與自注意力機制有效結(jié)合的垂直堆疊方式,在提高泛化性、容量和效率方面取得了驚人的成果。ConViT(D’Ascoli 等,2021)提出一種門控位置自注意力(gated positional self-attention,GPSA)模塊。模塊分為兩個分支:Wq和Wk用于全局建模,Trpos提取局部信息。為了進行局部信息和全局信息的平衡,引入一個可學習參數(shù)λ,對CNN 和Self-attention占比進行動態(tài)調(diào)節(jié),如圖 11所示,r代表相對位置編碼,Awi,hj為注意力矩陣。CvT(Wu 等,2021b)模型采用CNN 代替線性映射層和Self-attention 中的Linear以構(gòu)建卷積ViT。

        PVTv1(Wang 等,2021b)主要是對自注意模塊進行改進,即將Linear 層設(shè)計為空間收縮注意力(spatial reduction attention,SRA),在降低空間分辨率的同時加深模型深度類似于MaxPooling,實現(xiàn)金字塔結(jié)構(gòu)以利用空間信息。PVTv2(Wang 等,2022)針對PVTv1 中存在的問題做出3 點改進:1)采用卷積提取連續(xù)特征;2)帶Zero-padding的重疊塊嵌入提取位置信息的編碼;3)均值池化的注意力層。相對于PVTv1,PVTv2 更能充分利用局部和全局信息,以提升模型的性能。

        MViTv1(Fan 等,2022)提出了一種Pool attention,在整個注意力中對Q、K、V進行池化操作,降低輸入圖像分辨率,從而減少序列長度,降低計算量,使得模型能夠應(yīng)對不同時空分辨率的輸入。

        MViTv2(Li 等,2022b)采用池化操作來增強模型的空間建模能力,同時又利用多尺度信息提高模型性能。MViTv2 提出了Improved pooling attention,如圖12 所示。該注意力模型采用與MViTv1 中相同的池化操作來進行特征降維,降低參數(shù)量。此外,為了解決MViTv1 使用絕對位置編碼忽略平移不變性的問題和增強池化模塊的訓練,MViTv2 在MHPA 中添加相對位置編碼指導(dǎo)K獲知所處位置,Q處添加殘差池化連接與Self-attention后的信息融合,增強了信息流,便于池化模塊的訓練。最后,通過線性層和池化層完成全局信息建模,同時在模型Patch 轉(zhuǎn)Token中使用CNN提取局部信息。

        圖12 Improved pooling attention 架構(gòu)圖(Li等,2022b)Fig.12 Diagram of the improved pooling attention architecture(Li et al.,2022b)

        EdgeNeXt(Maaz 等,2022)提出一種卷積編碼器和分割深度轉(zhuǎn)置注意編碼器(split depth-wise transpose attention,SDTA)。卷積編碼器由深度卷積和線性層組成負責提取局部信息。SDTA 編碼器主要由特征編碼模塊和自注意計算模塊組成。特征編碼模塊將輸入數(shù)據(jù)按通道維度進行拆分,每個部分經(jīng)深度卷積提取局部信息后進行拼接。而自注意計算模塊則負責對經(jīng)過特征編碼模塊提取局部信息后的特征進行全局建模。最終實現(xiàn)局部信息和全局信息的融合。

        EdgeViTs(Pan等,2022)提出一種局部—全局—局部的結(jié)構(gòu)。該結(jié)構(gòu)通過深度可分離卷積聚合局部信息,全局稀疏的Self-attention 提取全局信息,最后通過轉(zhuǎn)置卷積將代表Token 中的全局上下文信息傳播到它們相鄰的Token。從而實現(xiàn)局部—全局融合。

        ScalableViT(Yang 等,2022)提出了可擴展的自注意力機制(scalable self-attention,SSA)和基于窗口交互的注意力機制(interactive window-based selfattention,IWSA)。SSA 通過引入用于控制空間和通道維度數(shù)量的兩個參數(shù),解除ViT 結(jié)構(gòu)中固定維度帶來的約束,以增強上下文信息的學習能力和提升網(wǎng)絡(luò)效率。而IWSA 則通過對V矩陣重新組合并從相鄰窗口中提取空間信息實現(xiàn)窗口之間的信息交互。

        在類型3)中,LeViT(Graham 等,2021)采用4 層3 × 3卷積降低圖像分辨率和圖像化編碼,隨后通過attention 與MLP 交替堆疊搭建模型。其中,MLP 與Self-attention數(shù)量關(guān)系上由一對一變?yōu)槎鄬Χ唷?/p>

        GLiT(Chen 等,2021c)模型提出將ViT 中的FFN替換為由深度卷積神經(jīng)網(wǎng)絡(luò)、Swish 和GELU 激活函數(shù)組成的卷積MLP。整個模塊負責局部信息提取和優(yōu)化。

        LocalViT(Li等,2021b)主要通過將Self-attention處理后的全局信息重構(gòu)為圖像。隨后,通過Conv(1 × 1) →Conv(3 × 3) →Conv(1 × 1) 等卷積操作來實現(xiàn)全局信息的整合與局部信息的提取。最后,將特征圖轉(zhuǎn)為序列Token 作為下層Transformer的輸入。

        CeiT(Yuan 等,2021b)與LocalViT、GLiT 類似,通過卷積降低分辨率,設(shè)置類似于LocalViT 的卷積MLP 結(jié)構(gòu)增強模型局部信息提取和全局融合能力。最后,將每個階段的Class Token 進行拼接,并通過ViT模型完成圖像分類。MLP改進圖如圖13所示。

        圖13 MLP改進圖(Li等,2021b)Fig.13 MLP improvement diagram(Li et al.,2021b)

        PiT(Heo 等,2021)從CNN 模型進行圖像分類任務(wù)時維度升高和空間維度下絳的角度考慮ViT模型是否存在同樣的空間維度變化出發(fā),設(shè)計了由深度卷積實現(xiàn)池化操作的池化層,在降低模型空間維度的同時提升模型通道數(shù)量。在與ResNet 相同的超參數(shù)配置時明顯優(yōu)于ResNet,說明了PiT 的有效性。PiT 與ViT 的對比說明,空間降維對ViT 架構(gòu)有利。

        基于串行機制的局部與全局信息融合ViT 模型及其特點如表5所示。

        表5 基于串行機制的局部與全局信息融合ViT模型Table 5 Local and global information fusion ViT model based on serial mechanism

        并行機制實現(xiàn)局部信息和全局信息的融合方式可以分為以下兩種:

        1)CNN 分支和ViT 分支通過橋接來進行數(shù)據(jù)交互。如ConFormer(local features coupling global representations for visual recognition)(Peng 等,2021)、MobileFormer(bridging mobileNet and Transformer)(Chen 等,2022a)和 MixFormer(mixing features across windows and dimensions)(Chen等,2022b)。

        2)將輸入特征按通道維度進行劃分,隨后對不同通道的特征進行計算,將計算的結(jié)果進行拼接以完成新的自注意力變體設(shè)計。如IFormer(inception Transformer)(Si 等,2022)、LITv2(fast vision Transformers with HiLo attention)(Pan 等,2023)和ASFFormer(adaptive split-fusion Transformer)(Su 等,2022)。

        在方式1)中,ConFormer(Peng 等,2021)模型通過CNN 分支進行局部信息的提取,ViT 分支提取全局信息,中間通過特征耦合單元(feature coupling unit,F(xiàn)CU)解構(gòu)器來并行傳輸數(shù)據(jù),實現(xiàn)局部信息和全局信息的融合,如圖14所示。

        圖14 ConFormer架構(gòu)(Peng等,2021)Fig.14 ConFormer architecture(Peng et al.,2021)

        MobileFormer(Chen 等,2022a)是Google 團隊設(shè)計的一個并行ViT,整個模型可以分為兩個階段:1) Mobile →Former;2) Former →Mobile;其中Mobile表示輕量級的卷積提取網(wǎng)絡(luò),F(xiàn)ormer 表示Crossattention。整個模型并行傳遞信息流,完成局部信息和全局信息的交互。

        MixFormer(Chen 等,2022b)提出了一種并行交互模塊。該模塊通過局部窗口自注意力提取局部信息,深度卷積提取全局信息中間則利用通道和空間交互模塊進行信息并行傳輸,從而提高窗口之間的信息交互能力,實現(xiàn)局部和全局信息的融合。

        在方式2)中,主要是在完成通道劃分的同時對劃分后的通道信息進行計算和融合。其中,IFormer(Si 等,2022)從圖像數(shù)據(jù)的高低頻角度出發(fā)看待模型的全局信息和局部信息融合問題。由于模型提取的全局信息對應(yīng)了圖像中的低頻成分,從ViT 模型特征提取能力角度可以得到結(jié)論:Transformer 模型提取低頻信息能力強、提取高頻信息能力弱。因此,為增強高低頻信息的提取,模型將輸入的特征圖在通道維度上劃分為3 塊,一塊采用Self-attention 完成低頻信息的提取,另外兩塊分別采用Maxpool 和DWconv完成高頻信息的提取。最后,使用Fusion模塊完成高低頻信息融合,如圖15所示。

        圖15 IFormer核心架構(gòu)(Si等,2022)Fig.15 IFormer core architecture(Si et al.,2022)

        LITv2(Pan 等,2023)的核心是一種新穎的自注意力機制,靈感來源于圖像中的高頻捕捉局部精細細節(jié)、低頻聚焦于全局結(jié)構(gòu),而多頭自注意力層忽略了不同頻率的特征。因此,模型通過將頭部分成兩組來解開注意力層中的高/低頻模式。其中,一組通過每個局部窗口內(nèi)的自注意力對高頻進行編碼;另一組對每個窗口使用平均池化獲得輸入圖像的低頻特征,隨后將低頻特征進行線性映射為K和V,并將其與來自原始圖像的Q進行注意力計算提取低頻信息。最后通過拼接和ConvFFN完成高頻信息和低頻信息的融合。

        ASF-Former(Su 等,2022)提出了HMCB(halfresidual mobile convolutional branch),根據(jù)模型所處層數(shù)和分類重要程度的不同,將數(shù)據(jù)通道劃分為兩半,并行提取局部信息和全局信息,并采用Adaptive Fusion 方法,動態(tài)地生成通道信息融合標量,以更加合理的方式融合局部和全局信息。

        基于并行機制的局部與全局信息融合ViT 模型及其特點如表6所示。

        表6 基于并行機制的局部與全局信息融合ViT模型Table 6 ViT model of local and global information fusion based on parallel mechanism

        2.4.3 純Transformer架構(gòu)

        相較于在Transformer架構(gòu)中引入CNN 為ViT模型添加歸納偏置,實現(xiàn)局部信息與全局信息的融合,純Transformer 架構(gòu)更偏向于修改ViT 架構(gòu),使得模型兼具局部信息與全局信息提取能力。典型的模型代表有Swin Transformer、PoolFormer(Yu 等,2022b)、CAT(cross attention Transformer)(Lin 等,2021)、CrossFormer(Wang 等,2021c)、TNT(Transformer in Transformer)(Han 等,2021)、Twins-SVT(twins spatial attention in vision Transformers)(Chu等,2021)、LightViT(light-weight vision Transformers)(Huang 等,2022)、SpectralFormer(spectral Transformer)(Hong 等,2022)、PyramidTNT(improved Transformer-in-Transformer baselines with pyramid architecture)(Han 等,2022)、NAT(neighborhood attention Transformer)(Hassani 等,2022a)、BOAT(bilateral local attention vision Transformer)(Yu 等,2022a)、Sequencer(Tatsunami 和 Taki,2023)和Sep-ViT(separable vision Transformer)(Li等,2022c)。

        PoolFormer(Yu 等,2022b)通過實驗分析證明Self-attention 層主要提取空間信息,而FFN 負責提取通道信息。最后通過實驗將由AvgPool 組成的模型與Self-attention 組成的模型順次結(jié)合獲得最優(yōu)實驗結(jié)果,既體現(xiàn)了局部信息與全局信息的融合對于提升模型性能的有效性,又為隨后的研究者設(shè)計更加有效的ViT變體提供了思路。

        CAT(Lin 等,2021)提出一種新的注意力機制,即交叉注意力機制。該注意力通過在圖像塊內(nèi)部進行自注意力獲取局部信息,并從單通道特征圖劃分的圖像塊之間應(yīng)用注意力捕獲全局信息。隨后,交替應(yīng)用Patch內(nèi)和Patch間注意力,實現(xiàn)交叉注意,以較低的計算成本保持性能,并為其他視覺任務(wù)構(gòu)建一個分層網(wǎng)絡(luò)。

        CrossFormer(Wang 等,2021c)提出了跨尺度嵌入層(cross-scale embedding layer,CEL)和長短距離注意力(long short distance attention,LSDA)來解決跨尺度、計算開銷大以及局部—全局信息融合能力弱等問題。一方面,CEL 將每個嵌入與多個不同尺度的Patch混合在一起,為自注意力模塊本身提供跨尺度特征;另一方面,LSDA 將 Self-attention 模塊分為短距離和長距離對應(yīng)模塊,不僅減少了計算負擔,而且在嵌入中同時保留了小規(guī)模和大規(guī)模的特征。通過以上兩種設(shè)計,實現(xiàn)了跨尺度注意力。

        TNT(Han 等,2021)和PyramidTNT(Han 等,2022)都通過兩層嵌套的方式完成Patch和像素級編碼,即外部Transformer將圖像劃分為一個個Patch提取全部特征,而內(nèi)部Transformer 塊則從像素編碼中提取局部特征。通過線性變換層將像素級特征投影到Patch 編碼的空間,然后將其添加到Patch 中。區(qū)別之處在于PyramidTNT 引入了金字塔結(jié)構(gòu),可以更好地利用空間信息。

        Twins-SVT(Chu 等,2021)由局部分組自注意力(locally-grouped self-attention,LSA)和全局子采樣自注意力(global sub-sampled attention,GSA)組成。LSA 將輸入的特征圖劃分為子窗口,在窗口內(nèi)進行自注意力計算,實現(xiàn)降低參數(shù)量的同時提取局部信息。但劃分窗口的方式無法有效實現(xiàn)窗口之間的信息交互,進而影響了模型的性能。因此,通過設(shè)計GSA 模塊選擇窗口代表信息,并通過代表信息之間的交互完成全局信息的提取。最后,通過LSA 和GSA的交替堆疊,完成局部和全局信息的融合,提升模型分類性能。

        LightViT(Huang 等,2022)為降低模型的計算量,實現(xiàn)局部信息和全局信息的融合,對ViT 模型中的自注意力和FFN 模塊進行改進。首先,提出一種局部全局廣播注意力,通過窗口注意力降低參數(shù)量。同時,引入可學習全局Token,動態(tài)地聚合局部信息和全局信息,解決經(jīng)過局部窗口注意力后窗口之間交互能力差的問題。最后,通過空間注意力和通道注意力結(jié)合的方式,增強FFN的特征表達能力。

        SpectralFormer(Hong 等,2022)提出一種純Transformer 的高光譜圖像分類模型,可以接受像素級或Patch級的輸入,旨在從附近的高光譜波段捕獲光譜局部序列信息。整個模型由分組光譜嵌入(group-wise spectral embedding,GSE)和跨層自適應(yīng)融合(cross-layer adaptive fusion,CAF)模塊組成。其中,GSE主要學習局部光譜表示,以提高模型捕獲細微光譜差異的能力。CAF模塊通過設(shè)計跨層跳躍連接將信息從淺層傳遞到深層,增強層間的信息交互能力。兩個模塊的設(shè)計與Transformer 架構(gòu)結(jié)合,能夠有效將局部信息與全局信息融合,提升模型的分類能力。

        NAT(Hassani 等,2022a)提出了鄰域注意力(neighborhood attention,NA),其實質(zhì)是點積自注意力的局部化,主要將每個查詢Token 的感受野限制在鍵值對對應(yīng)Token 周圍的固定大小鄰域。這種結(jié)構(gòu)能夠使較小的區(qū)域引起更多的局部關(guān)注,而較大的區(qū)域會產(chǎn)生更多的全局關(guān)注,從而在平移不變性和等變性之間取得平衡,實現(xiàn)對感受野的控制,進而通過這種鄰居形式,獲得局部信息與全局信息的融合,提升了模型性能,降低了計算開銷。

        BOAT(Yu 等,2022a)提出一種雙向局部注意力模塊,由特征空間局部注意力模塊和圖像空間局部注意力模塊組成。圖像空間局部注意力模塊將圖像劃分為多個局部窗口,通過注意力運算提取局部信息。而特征空間局部注意力模塊則根據(jù)Patch 的特性,采用平衡分層聚類法(如圖16 所示),將其分組到多個集群中,在每個集群中進行自注意力機制計算。這種特征空間局部注意力方法能夠有效地捕獲跨不同局部窗口的Patch之間的連接,但仍然具有相關(guān)性。

        圖16 平衡分層聚類法示例(Yu等,2022a)Fig.16 Example of balanced hierarchical clustering(Yu et al.,2022a)

        Sequencer(Tatsunami和Taki,2023)提出一種基于雙向LSTM(long short-term memory)提取局部與全局信息的網(wǎng)絡(luò)模型。首先將圖像按照行與列進行劃分并采用雙向LSTM提取特征,隨后將提取的特征進行拼接和通道混合。實現(xiàn)局部信息和全局信息的融合。

        SepViT(Li等,2022c)提出一種深度可分離的注意力機制,結(jié)構(gòu)如圖17 所示。首先將圖像分割為不同的Patch,然后為不同的Patch 添加Window Token,計算窗口注意力。隨后將Window Token 通過卷積轉(zhuǎn)變?yōu)镼、K,Patch 作為新的Self-attention 的V進行點積注意力,實現(xiàn)局部信息和全局信息融合。

        圖17 SepViT模型(Li等,2022c)Fig.17 SepViT model(Li et al.,2022c)

        基于純Transformer 的局部與全局信息融合ViT模型及其特點如表7所示。

        表7 基于純Transformer的局部與全局信息融合ViT模型Table 7 Local and global information fusion ViT model based on pure Transformer

        2.5 深層ViT模型

        He 等人(2016)和張珂等人(2021)研究發(fā)現(xiàn),隨著模型層數(shù)加深,模型性能得到顯著提升。因此,有很多研究嘗試將ViT 模型層數(shù)加深,以提升分類性能。但研究表明,隨著ViT 層數(shù)增加,會產(chǎn)生注意力崩潰問題。為解決這個問題,DeepViT(towardsdeeper vision Transformer)(Zhou 等,2021)、CaiT(class-attention in image Transformers)(Touvron 等,2021b)和 T2T-ViT(tokens-to-token vision Transformer)(Yuan 等,2021c)等通過巧妙的模型結(jié)構(gòu)設(shè)計提升ViT性能。

        DeepViT(Zhou 等,2021)發(fā)現(xiàn)隨著模型層數(shù)的不斷加深,ViT 每層的相似度差異會逐漸減小。針對該問題,提出了兩種解決方法:1)擴大輸入Token的維度,增加參數(shù)量擴大相似度;2)通過引入Reattention 解決注意力崩潰問題,即在Self-attention 計算過程中添加歸一化因子,打破相似度一致化。

        CaiT(Touvron 等,2021b)從兩個角度加深模型和提升性能,如圖18 所示。1)引入LayerScale 層,在每個殘差塊的輸出上添加一個可學習的對角矩陣,以提高訓練的動態(tài)性和獲得更深層次的模型;2)構(gòu)建了一個CA(class-attention)模塊,即通過前期的多層Transformer 完成特征提取,在后期添加Class Token 聚合分類信息,將Class Token 的任務(wù)從概括全局信息進行分類與實時更新特征圖分離,通過堆疊多層Transformer提升模型性能。

        圖18 CaiT 歸一化因子(Touvron等,2021b)Fig.18 CaiT normalization factor(Touvron et al.,2021b)

        T2T-ViT(Yuan 等,2021c)提出Tokens-to-Token(T2T)模塊,將相鄰的Tokens 聚合為一個Token,以模擬周圍Tokens 的局部結(jié)構(gòu)信息,迭代地減少Tokens的長度。具體來說,在每個Token-to-Token步驟中,由Transformer 輸出的Tokens 被重建為一個圖像,然后通過軟分割將周圍的Token 分割平鋪聚集在一起生成新的Token。因此,周圍的局部結(jié)構(gòu)被嵌入到生成的Token 中,并輸入到下一個Transformer層。隨后,在T2T引入局部先驗性的基礎(chǔ)上堆疊多層提升模型性能。

        深層ViT模型及其特點如表8所示。

        表8 深層ViT模型Table 8 Deep ViT model

        3 實 驗

        本節(jié)主要通過ViT 變體在ImageNet、CIFAR-10(Canadian Institute for Advanced Research)和CIFAR-100 這3 個數(shù)據(jù)集上的分類準確率來衡量模型對于ViT 設(shè)計之初所面臨問題的解決程度??紤]到近年來Transformer 在遙感圖像分類中也得到廣泛應(yīng)用,本文對基于Transformer的遙感圖像分類方法也通過實驗進行了對比分析。

        3.1 數(shù)據(jù)集

        CIFAR-10 數(shù)據(jù)集由10 個類別共60 000 幅32 ×32像素的彩色圖像組成,每個類6 000幅圖像。訓練集50 000幅圖像,測試集10 000 幅圖像。測試集圖像包含10個類別,每個類別1 000幅圖像。CIFAR-100數(shù)據(jù)集有100個類,每個類包含600幅圖像。每類分為500幅訓練圖像和100幅測試圖像。

        ImageNet(Deng 等,2009)是美國斯坦福大學和普林斯頓大學根據(jù)WordNet 層次結(jié)構(gòu)合作組織建立的用于視覺對象識別軟件研究的大型可視化數(shù)據(jù)庫,涵蓋1 000 個對象類別,包含 1 281 167 幅訓練圖像,50 000幅驗證圖像和100 000幅測試圖像。本文中的ImageNet數(shù)據(jù)集特指ImageNet-1K。

        Indian Pines 是第一個高光譜(hyperspectral,HS)圖像數(shù)據(jù)集。1992年在美國印第安納州西北部使用機載可見光/紅外成像光譜儀(airborne visible/infrared imaging spectrometer,AVIRIS)傳感器收集所得。HS 圖像由145 × 145 像素組成,地面采樣距離(ground sample distance,GSD)為20 m,220 個光譜波段覆蓋400 nm 至2 500 nm 波長范圍,光譜分辨率為10 m。去除20 個噪聲和水吸收波段后,保留200 個光譜波段。該研究場景中有16個主要研究類別。

        Trento 數(shù)據(jù)集收集了意大利南部特倫托一個農(nóng)村地區(qū)的高光譜圖像和LiDAR 數(shù)據(jù)。該數(shù)據(jù)集的覆蓋范圍內(nèi)包含6個不同的類別。

        Salinas 由機載可見光/紅外成像光譜儀(AVIRIS)在美國加利福尼亞州薩利納斯谷地區(qū)收集。數(shù)據(jù)集的空間大小為512 × 217像素,空間分辨率為3.7 m/像素,光譜范圍為400~2 500 nm,去除20個噪聲波段后有204個波段。除了未標記的像素外,數(shù)據(jù)集還包含16個手動標記的類。

        3.2 評價指標

        實驗結(jié)果的評價主要采用準確率和參數(shù)量兩個指標。此外,為了更全面地分析模型的性能,采用浮點運算數(shù)(floating point operations,F(xiàn)LOPs)作為模型性能評價指標。

        對遙感圖像分類結(jié)果采用與Hong 等人(2022)相同的評價指標。如總體分類精度(overall accuracy,OA)、平均分類精度(average accuracy,AA)和Kappa(κ)系數(shù)。

        3.3 實驗結(jié)果

        表9 給出了16 個模型在ImageNet、CIFAR-10 和CIFAR-100 數(shù)據(jù)集上的實驗結(jié)果??梢钥闯觯瑢?yīng)ResNet 系列模型,隨著模型堆疊殘差連接網(wǎng)絡(luò)數(shù)量增加,模型深度加深,準確率上升,但參數(shù)量和計算復(fù)雜度也隨之增加。上述結(jié)果表明,殘差網(wǎng)絡(luò)在解決深層卷積神經(jīng)網(wǎng)絡(luò)的梯度消失和梯度爆炸問題中比較有效,但其參數(shù)規(guī)模巨大,計算復(fù)雜度大,不利于移動端部署。相比于ResNet系列模型,由于采用了深度可分離卷積,EfficientNet 系列模型的參數(shù)量顯著降低,采用較少計算量,就能完成較高分類性能。該結(jié)果表明,深度可分離卷積對于降低參數(shù)量十分有效且不會降低分類性能。

        表9 可擴展位置編碼類別ViT變體與CNN和ViT在不同數(shù)據(jù)集上的Top-1準確率、參數(shù)量和FLOPs對比Table 9 Comparison of Top-1 accuracy,number of parameters and FLOPs of the scalable location coding class ViT variant with CNN and ViT on different datasets

        為了獲得更高的圖像分類準確率,提出了基于可擴展位置編碼的ViT 模型。由表9 可見,CMT 模型取得了84.5%的準確率,相比于CNN 系列最高準確率高出3.4%,同時具有較低的計算復(fù)雜度。該結(jié)果表明,可擴展位置編碼能夠有效解決ViT 模型中絕對位置編碼帶來的可擴展性差問題,提升了ViT模型性能,為模型應(yīng)用于高分辨率圖像提供了可能。

        表10 給出了14 個模型在ImageNet 圖像分類數(shù)據(jù)集上的實驗結(jié)果。可以看出,根據(jù)模型所采用方式的不同,可以劃分為窗口注意力型(Swin Transformer,CSWin Transformer)和自注意力改進型(VOLO,VVT)兩種方式。其中,窗口注意力型核心思想是二次劃分Patch 進行Self-attention 運算,從而減少計算復(fù)雜度。而改進自注意力型主要 將 Self-attention中的運算順序進行[φ(Q)φ(K)T]V→φ(Q)[φ(K)TV]的交換以及將softmax 替換為線性復(fù)雜度的函數(shù)來降低計算復(fù)雜度。通過表10 中的FLOPs 對比可以發(fā)現(xiàn),兩種方式的復(fù)雜度都低于ViT 的同時分類準確率更高。此外,窗口注意力型模型性能在相同計算復(fù)雜度下不如自注意力改進型。由此可得出結(jié)論,兩種降低復(fù)雜度的方式對于降低復(fù)雜度都有效,其中從模型架構(gòu)上對于Self-attention的改進更直接也更有效,未來改進模型降低復(fù)雜度時,為保證復(fù)雜度與準確率平衡,可以尋找線性復(fù)雜度的函數(shù)代替softmax函數(shù)。

        表10 低復(fù)雜度和低計算代價類別ViT變體在ImageNet數(shù)據(jù)集上的Top-1準確率和計算復(fù)雜度對比Table 10 Comparison of Top-1 accuracy and computational complexity of low-complexity and low-computational-cost class ViT variants on ImageNet dataset

        表11給出了8個模型(*表示蒸餾)在ImageNet、CIFAR-10 和CIFAR-100 圖像分類數(shù)據(jù)集上的實驗結(jié)果??梢钥闯?,DeiT、CCT 模型添加知識蒸餾策略時,模型在ImageNet、CIFAR-10 和CIFAR-100 數(shù)據(jù)集上分類準確率都有所提升,表明了知識蒸餾策略在少量增加甚至不增加參數(shù)量的情況下為模型引入歸納偏置提升分類性能具有重要作用,從中可得出結(jié)論:歸納偏置的缺乏影響ViT 模型在小數(shù)據(jù)集上的準確率,進而需要大量數(shù)據(jù)來緩解這個問題。

        表11 “數(shù)據(jù)饑餓”問題解決方法在CIFAR-10、CIFAR-100和ImageNet數(shù)據(jù)集上的準確率對比Table 11 Comparison of accuracy rates for “data hungry” problem on CIFAR-10,CIFAR-100 and ImageNet datasets

        表12 給出了9 個模型在ImageNet、CIFAR-10 和CIFAR-100 圖像分類數(shù)據(jù)集上的實驗結(jié)果??梢钥闯觯? 種模型在ResNet 為基礎(chǔ)的Backbone 上合理添加Self-attention 及其變體實現(xiàn)局部信息與全局信息的融合,相較于ResNet 系列、ViT-B 和ViT-L 具有較高的分類準確率,從中可得出結(jié)論:兩者的結(jié)合既降低了參數(shù)量(CNN 參數(shù)量?多層Self-attention 堆疊)又降低了計算復(fù)雜度。

        表12 CNN+Self-attention模型及其變體在CIFAR-10、CIFAR-100和ImageNet數(shù)據(jù)集上的準確率對比Table 12 Accuracy comparison of CNN+Self-attention model and its variants on CIFAR-10,CIFAR-100 and ImageNet datasets

        表13 給出了26 個模型在ImageNet、CIFAR-10和CIFAR-100圖像分類數(shù)據(jù)集上的實驗結(jié)果??梢钥闯?,相較于CNN+Self-attention 的模式而言,CNN和Transformer的串行機制重點是對Transformer的改進。表中CvT、CCT 模型代表了使用CNN 代替線性映射層將Patch 映射到Token 的方法提取特征的局部信息;CeiT 和LocalViT 則是利用CNN 降低分辨率,以及FFN 模塊中添加深度卷積來聚合空間局部信息。通過將CvT、CeiT與ViT相比證明兩種模型的有效性,從中可得出結(jié)論:前期引入CNN 對于提升性能相較于后期FFN 處添加更加有效,深度卷積能夠降低模型參數(shù)量并提升性能。此外,由表13 可以看出,PVT v1 和PVT v2 通過引入金字塔結(jié)構(gòu)為模型帶來了豐富的多尺度空間信息和相較于原始ViT 更低的參數(shù)量和更好的性能。PiT、MViTv1 和MViTv2為模型引入Pool 操作增加了模型的空間信息。PVT v2和MViTv2除了引入主要架構(gòu)外,還在模型中添加CNN 帶來歸納偏置,相較于單獨添加CNN 模型引入金字塔結(jié)構(gòu)和空間信息的模型,參數(shù)量降低且準確率上升。從而得出結(jié)論:CNN 帶來的歸納偏置和金字塔結(jié)構(gòu)以及Pool操作帶來的空間信息結(jié)合是使得全局信息與局部信息融合,降低參數(shù)量、復(fù)雜度和性能提升的重要手段。其中ScalableViT 與GC ViT 主要對窗口注意力進行改進,將它們與Swin Transformer 對比可知,增加窗口之間信息交互,對提升模型性能至關(guān)重要。

        表13 串行機制中引用量300以上的模型在不同數(shù)據(jù)集上的準確率對比Table 13 Comparison of accuracy on different datasets for models with 300+citations in the serial mechanism

        表14 給出了13 個模型在ImageNet、CIFAR-10和CIFAR-100圖像分類數(shù)據(jù)集上的實驗結(jié)果??梢钥闯?,并行機制分為兩種方式:1)CNN 分支和ViT 分支通過橋接來進行數(shù)據(jù)交互,如Conformer與Mobile-Former;2)將輸入特征按通道維度進行劃分,隨后對不同通道的特征進行計算,將計算的結(jié)果進行拼接以完成新的自注意力變體設(shè)計,如IFormer 與ASFFormer。從實驗結(jié)果來看,橋接的并行方式相較于使用劃分通道的方法在相同參數(shù)量和計算復(fù)雜度情況下,IFormer 取得的準確率更高。從中可得出結(jié)論:相較于通過橋接模型完成局部信息和全局信息融合的并行方式,利用交叉Self-attention具有的交互能力直接進行信息傳遞,省去復(fù)雜的傳輸網(wǎng)絡(luò)大幅降低了模型復(fù)雜度和模型參數(shù)量。但交叉注意力方式交互相較于并行模型較低的準確率說明此類方法有待進一步完善。此外,表14 中的劃分通道類型的模型,解決了并行橋接和交叉注意力在交互過程中存在的數(shù)據(jù)冗余,影響模型性能的問題,不同通道各司其職,這種合理的通道融合機制為局部信息和全局信息融合做出重要貢獻。

        表14 并行機制模型及其變體在CIFAR-10、CIFAR-100和ImageNet數(shù)據(jù)集上的準確率對比Table 14 Comparison of accuracy of parallel mechanism models and their variants on CIFAR-10,CIFAR-100 and ImageNet datasets

        表15 給出了14 個模型在ImageNet、CIFAR-10和CIFAR-100圖像分類數(shù)據(jù)集上的實驗結(jié)果。可以看出,純Transformer 架構(gòu)融合全局與局部信息的方法,從窗口注意力存在的Patch塊之間信息交互能力差出發(fā),設(shè)計了增強窗口之間信息交互能力的模型。由表15 可以看出,對距離權(quán)重分配法(BOAT,NAT)、窗口級嵌套法(TNT,Twins-SVT,PyranidTNT)以及Windows Token 窗口信息交互法(SepVit)等3種方法進行了對比,BOAT 模型獲得的準確率最高。此外,NAT 模型取得了第2 的成績。實驗結(jié)果表明,距離權(quán)重分配法進行局部和全局信息融合相對于另外兩種方式獲得了更優(yōu)異的性能,證明了引入歸納偏置對于ViT網(wǎng)絡(luò)提升性能至關(guān)重要。

        表15 基于純Transformer中引用量200以上的模型在不同數(shù)據(jù)集上的準確率對比Table 15 Comparison of accuracy on different datasets based on models with 200+citations in the pure Transformer architecture

        表16 給出了9 個模型在ImageNet、CIFAR-10 和CIFAR-100 圖像分類數(shù)據(jù)集上的實驗結(jié)果??梢钥闯觯珼eepViT、CaiT 和T2T-ViT 這3 個模型主要通過合理的架構(gòu)設(shè)計來解決深層ViT 帶來的注意力崩潰問題。從表16 中實驗結(jié)果對比發(fā)現(xiàn),CaiT 獲得了最高的分類準確率。從中可以得出結(jié)論,通過層歸一化因子可以減緩層與層之間的相似度增加,緩解注意力崩潰問題,進而加深模型層數(shù)提升模型性能。

        表16 深層ViT模型在CIFAR-10、CIFAR-100和ImageNet數(shù)據(jù)集上的準確率對比Table 16 Comparison of accuracy of deep ViT models on CIFAR-10,CIFAR-100 and ImageNet datasets

        表17 給出了29 個模型在ImageNet、CIFAR-10和CIFAR-100圖像分類數(shù)據(jù)集上的實驗結(jié)果。表17還給出了本文按照4 個大類別8 個子類別展開敘述的8個最優(yōu)模型。圖19是根據(jù)本文所劃分的4個類別,在圖像尺寸為224 × 224像素情況下獲得的每個類別的最高準確率與參數(shù)量的關(guān)系。

        表17 4個大類別8個子類的最優(yōu)模型在CIFAR-10、CIFAR-100和ImageNet數(shù)據(jù)集上的準確率對比Table 17 Comparison of accuracy of the best models in four broad categories and eight subcategories on CIFAR-10,CIFAR-100 and ImageNet datasets

        圖19 4分類中ImageNet上準確率最高模型的參數(shù)量和準確率圖Fig.19 Plot of number of parameters and accuracy of the most accurate models on ImageNet in the four classifications

        由表 17 和圖19 可見:1)通過最優(yōu)模型的參數(shù)量逐漸增大,模型的整體性能不斷提升,從中可以得出結(jié)論,當基礎(chǔ)設(shè)計有效時,隨著模型參數(shù)的增加,性能也會不斷提升;2)DeiT 蒸餾模型和DeiT-B 的實驗效果對比可以得出結(jié)論,蒸餾的方式使得模型在參數(shù)量少量增加甚至不變的情況下提升了性能;3)隨著模型深度加深模型性能提升,證明了CaiT 緩解注意力崩潰的方法有效;4)通過上述模型的內(nèi)部結(jié)構(gòu)發(fā)現(xiàn),將CNN 與Transformer 有效結(jié)合,對于圖像分類效果具有明顯增益。

        表18給出了ViT、SpectralFormer(Hong等,2022)、MFT(Roy等,2022)、MCT(Jia等,2022)、CTN(Zhao等,2022)、DHViT(Xue 等,2022)和DSS-TRM(Liu 等,2022c)等7個模型在Indian Pines、Salinas和Trento遙感高光譜圖像分類數(shù)據(jù)集上的實驗結(jié)果。

        表18 基于Transformer的遙感高光譜圖像分類模型在不同數(shù)據(jù)集上的OA、AA、κ對比Table 18 Comparison of OA,AA and κ of Transformer-based remote sensing hyperspectral image classification model on different datasets/%

        由表18 可見,相比于使用原始ViT 模型進行高光譜圖分類而言,使用局部信息與全局信息結(jié)合的方法有效提高了分類準確率,證明了局部與全局信息融合的有效性。此外,通過使用數(shù)據(jù)的不同可將模型劃分為單模態(tài)和多模態(tài)。其中,SpectralFormer、MCT、CTN、DSS-TRM 僅使用高光譜圖的單模態(tài)數(shù)據(jù),MFT 和DHViT 則是使用高光譜圖像和LiDAR 圖像作為輸入數(shù)據(jù)的多模態(tài)模型。通過將Spectral-Former 在Trento 數(shù)據(jù)集上的實驗結(jié)果與MFT 和DHViT 對比發(fā)現(xiàn),針對多模態(tài)數(shù)據(jù)設(shè)計的模型相較于設(shè)計之初僅使用一個模態(tài)數(shù)據(jù)的SpectralFormer的OA、AA 和κ分別提高了11.16%、19.64% 和14.75%。實驗結(jié)果表明,合理利用多模態(tài)信息能夠提升模型的整體性能。Indian Pines 數(shù)據(jù)集上的實驗結(jié)果對比可以發(fā)現(xiàn),DSS-TRM 相較于Spectral-Former、CTN 取得了更好的實驗效果,表明有效捕捉和利用空間—光譜信息能夠提升高光譜圖像分類的準確率。

        4 結(jié)語

        目前基于ViT 的圖像分類研究盡管已經(jīng)取得了一定進展,然而在實際應(yīng)用中,由于圖像分類問題的復(fù)雜性,仍面臨很多挑戰(zhàn)性問題,亟需解決。具體體現(xiàn)如下:1)由于ViT 設(shè)計之初將圖像劃分為固定的圖像塊,破壞了固有的對象結(jié)構(gòu),減少了輸入Patches 提供的信息量,使得模型聚焦于背景,對圖像分類造成信息干擾,影響分類結(jié)果。2)Transformer模型中通過添加CNN 的方式引入歸納偏置只是緩解了數(shù)據(jù)饑餓問題,并未解決發(fā)生此類問題的根源。3)目前使用Transformer 和CNN 模型進行圖像分類,在相同性能情況下,Transformer 仍比CNN模型參數(shù)量和計算復(fù)雜度大,且不利于移動端部署。

        針對上述問題,本文認為在后續(xù)工作中,可以從如下方面展開研究:1)設(shè)計一種不從固定位置采樣,以迭代方式更新采樣位置,通過上下文信息交融聚焦分類關(guān)鍵區(qū)域的方案。2)分析產(chǎn)生數(shù)據(jù)饑餓問題的根本原因,在CNN 與Transformer 結(jié)合的基礎(chǔ)上進行改進,設(shè)計更加合理的模型。3)設(shè)計低復(fù)雜度、低計算量和輕量級便于部署的模型。4)增加解決問題的數(shù)量或設(shè)計統(tǒng)一的框架對于推動計算機視覺領(lǐng)域的發(fā)展具有里程碑的意義,也是未來主要研究的方向之一。5)將Transformer應(yīng)用到小眾科研領(lǐng)域和工業(yè)實景下解決具體的工業(yè)問題,對于推動國家工業(yè)智能化發(fā)展,具有重要意義。

        猜你喜歡
        復(fù)雜度全局注意力
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        讓注意力“飛”回來
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        求圖上廣探樹的時間復(fù)雜度
        A Beautiful Way Of Looking At Things
        某雷達導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進
        出口技術(shù)復(fù)雜度研究回顧與評述
        婷婷亚洲岛国热超碰中文字幕| 国产做床爱无遮挡免费视频| 国产精品三级国产精品高| 国产av久久在线观看| 少妇粉嫩小泬喷水视频www| 午夜AV地址发布| 一区二区三区不卡免费av| 国产成人一区二区三区影院| 欧美又粗又长又爽做受| 乱码午夜-极国产极内射| 久久久精品国产亚洲麻色欲 | 337p人体粉嫩胞高清视频| 放荡的闷骚娇妻h| 最新福利姬在线视频国产观看| 曰日本一级二级三级人人| 精品久久久久久无码人妻蜜桃| 狠干狠爱无码区| 日本看片一区二区三区| 手机在线观看日韩不卡av| 亚洲精品乱码久久久久久日本蜜臀 | 日本精品久久中文字幕| 一本色道久久88加勒比一| 四虎影视永久地址www成人| 亚洲a级片在线观看| 日本女u久久精品视频| 中文精品久久久久人妻不卡| 人妻丰满熟妇av无码处处不卡| 在线偷窥制服另类| 亚洲精品中文字幕导航| 久久久久亚洲av成人网人人网站| 国产欧美成人| 漂亮人妻被强中文字幕乱码| 亚洲av不卡无码国产| 国内精品无码一区二区三区| 中文字幕日韩人妻高清在线| 噜噜中文字幕一区二区| 亚洲av日韩av无码污污网站| 91人妻无码成人精品一区91| a级三级三级三级在线视频| 亚洲无线一二三四区手机| 暖暖免费 高清 日本社区在线观看|