李遠(yuǎn), 時(shí)旭, 楊正春, 譚崎娟, 黃鴻*
(1.重慶大學(xué) 光電技術(shù)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,重慶 400044;2.重慶市婦幼保健院 超聲科,重慶 401147;3.重慶大學(xué)附屬腫瘤醫(yī)院 影像科,重慶 400030)
高光譜成像(Hyperspectral Imaging, HSI)技術(shù)是一種先進(jìn)的圖像空間信息與光譜信息提取技術(shù),能同時(shí)獲取拍攝對象的二維空間信息和一維光譜信息,覆蓋可見光、紅外和紫外等光譜范圍,其已成功應(yīng)用于遙感監(jiān)測、藝術(shù)保護(hù)以及食品安全等[1]。在生物醫(yī)學(xué)領(lǐng)域,高光譜成像作為一種非侵入性的輔助診斷手段,因其可提供有關(guān)組織生理、形態(tài)和生化成分的診斷信息,為生物組織學(xué)研究提供精細(xì)的光譜特征,正逐漸受到廣泛關(guān)注[2-5],并已成功應(yīng)用于非侵入性疾病的診斷和監(jiān)測[6-7]、圖像引導(dǎo)的微創(chuàng)手術(shù)[8]和藥物劑量評估[9]等。近年來,隨著精準(zhǔn)醫(yī)學(xué)理論的高速發(fā)展,如何針對高光譜醫(yī)學(xué)圖像高維度、高冗余度以及“圖譜合一”的特點(diǎn),設(shè)計(jì)高效與精確的診斷算法已成為高光譜醫(yī)學(xué)圖像分析領(lǐng)域的研究熱點(diǎn)。
傳統(tǒng)的高光譜醫(yī)學(xué)圖像分類方法通常在提取手工特征之后,使用分類器對其分類。Duan[10]等提出一種旋轉(zhuǎn)不變的局部二值化模式作為紋理特征,同時(shí)結(jié)合形狀特征和光譜特征,采用支持向量機(jī)(Support Vector Machine,SVM)對白細(xì)胞進(jìn)行分類。Ruiz[11]等使用SVM和隨機(jī)森林(Random Forest, RF)對活體大腦高光譜圖像進(jìn)行分類,驗(yàn)證了傳統(tǒng)分類方法的潛力。Baltussen[12]等對腹腔鏡獲取的結(jié)腸癌高光譜圖像進(jìn)行特征提取后,采用SVM對三種組織類型進(jìn)行區(qū)分。然而傳統(tǒng)的高光譜圖像分類方法無法提取深層特征,其性能受到很大限制。
近年來,深度學(xué)習(xí)作為一種端到端的方法,已開始應(yīng)用于高光譜醫(yī)學(xué)圖像處理領(lǐng)域。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)成為主流,其使用局部感受野,并且隨著網(wǎng)絡(luò)層數(shù)的加深,逐漸提取深層特征,在診斷任務(wù)中表現(xiàn)優(yōu)異。Huang等[13]提出了一種將調(diào)制Gabor小波與深度卷積神經(jīng)網(wǎng)絡(luò)核相結(jié)合的血細(xì)胞分類框架(Modulated Gabor CNN,MGCNN),將調(diào)制Gabor濾波與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,對血細(xì)胞進(jìn)行分類。Wei[14]等設(shè)計(jì)了一種雙通道CNN提取局部特征與全局特征,取得了比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)更好的分類結(jié)果。Zhang[15]等提出了一種基于卷積組合單元的三維卷積神經(jīng)網(wǎng)絡(luò)(3DPulCNN),對肺癌三種亞型進(jìn)行分類。Hu[16]等提出一種空-譜聯(lián)合卷積神經(jīng)網(wǎng)絡(luò),對胃部病理組織進(jìn)行識別。然而,高光譜圖像波段數(shù)量豐富,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)無法在長距離波段之間挖掘有效的關(guān)系信息,并扭曲其原有的光譜序列關(guān)系。這限制了卷積神經(jīng)網(wǎng)絡(luò)方法在高光譜醫(yī)學(xué)圖像上的性能。
Vision Transformer(ViT)以其強(qiáng)大的全局建模能力而受到廣泛關(guān)注[17]。ViT中的自注意力機(jī)制,可以捕獲長距離光譜波段間的關(guān)系,更好地對光譜序列建模,已在高光譜醫(yī)學(xué)圖像領(lǐng)域取得一定成效。Zhou等[18]提出一種 Swin-spectral Transformer用來獲得有效的光譜和空間特征表示。Li[19]等提出一種光譜紋理Transformer,用來感知光譜上下文信息。Li[20]等提出一種多層協(xié)同生成對抗Transformer,用于緩解高光譜醫(yī)學(xué)標(biāo)記樣本數(shù)量的不足,加深而受限的問題。然而高光譜醫(yī)學(xué)圖像在獲取過程中,由于采集設(shè)備、操作手段,以及預(yù)處理方式(光譜矯正、降噪以及解混等)的不同,其光譜分辨率、空間分辨率也往往不同,所拍攝生物組織的光譜曲線差異較大。因此,每個具體的診斷任務(wù)往往需要設(shè)計(jì)不同的算法。當(dāng)上述算法應(yīng)用于不同的診斷任務(wù)時(shí),其性能難以滿足更進(jìn)一步的精度需求。
最近,研究人員開始結(jié)合Transformer模型和空-譜注意力機(jī)制,以提升高光譜圖像分類的精度。空-譜注意力機(jī)制可以更好地捕捉關(guān)鍵的空間和光譜信息,并根據(jù)不同類型的高光譜圖像的特點(diǎn)挖掘關(guān)鍵的空-譜信息。Peng[21]等設(shè)計(jì)了一種雙分支結(jié)構(gòu)的交叉空-譜注意力,其中空間分支用來獲取細(xì)粒度的空間信息,光譜分支用來建立光譜序列之間的關(guān)系。Ouyang[22]等提出一種空-譜注意力機(jī)制,用于依次捕獲空間信息和光譜信息,使模型更加關(guān)注差異化的空間和光譜位置。Liu等[23]提出一種雙流深度空-譜注意力機(jī)制,分別用于關(guān)注空間維度和光譜維度的特征。然而,這些空-譜注意力機(jī)制只是簡單地將輸入特征分別處理成光譜序列或空間序列,再依次或并行使用自注意力機(jī)制對這兩種序列進(jìn)行長距離關(guān)系捕獲,并未對自注意力機(jī)制本身進(jìn)行改進(jìn),使其具備空-譜特征提取能力。此外,這些高光譜圖像分類算法中,往往只進(jìn)行單一地輸出預(yù)測,未能結(jié)合多個視野的信息對圖像類別進(jìn)行綜合預(yù)測,這給模型的性能帶來了瓶頸。
基于此,本文提出了一種空-譜自注意力Transformer (Spatial-spectral Self-attention Transformer, S3AT)。首先,為了適應(yīng)不同儀器設(shè)備所采集的高光譜醫(yī)學(xué)圖像的空-譜信息密度不同,該模型在原有自注意力機(jī)制基礎(chǔ)上,將空間注意力和光譜注意力融入自注意力機(jī)制中,尋找空間特征和光譜特征之間的內(nèi)在關(guān)聯(lián),得到空-譜自注意力。其次,將不同空-譜Transformer編碼器中的卷積核大小設(shè)計(jì)為不同尺寸,以獲得不同視野下的空-譜自注意力,并對其進(jìn)行融合。在最后分類過程中,網(wǎng)絡(luò)在不同視野下分別進(jìn)行預(yù)測,并將預(yù)測結(jié)果使用可學(xué)習(xí)的預(yù)測權(quán)重進(jìn)行融合,形成最終分類結(jié)果。在In-vivo Human Brain 和 BloodCell HSI數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,該方法充分挖掘了空-譜特征,有效地融合不同視野下獲取的信息,在不同儀器所獲得的高光譜醫(yī)學(xué)圖像上均具有明顯的精度優(yōu)勢。
本文所提出的S3AT算法如圖1所示。首先以高光譜圖像的一個像素點(diǎn)為中心取出一個圖像塊作為樣本,沿光譜維將圖像塊展開后輸入S3AT網(wǎng)絡(luò)。網(wǎng)絡(luò)由三階段空-譜Transformer編碼器組成,其內(nèi)部卷積核的空間感受野(kernel size)依次由大到小。在每個階段的編碼器中,所獲得的空-譜自注意力會與之前更大視野下所獲得空-譜自注意力進(jìn)行融合。最后,通過可訓(xùn)練系數(shù)對這些不同視野下預(yù)測進(jìn)行加權(quán)融合,形成最終的輸出結(jié)果。下面對空-譜Transformer編碼器和預(yù)測加權(quán)融合分別進(jìn)行介紹。
圖1 空-譜自注意力Transformer流程圖Fig.1 Flowchart of spatial-spectral self-attention transformer
在不同儀器、不同獲取條件獲得高光譜醫(yī)學(xué)圖像中,信息在空間像素間、光譜波段間的分布往往存在較大差異,這需要模型精細(xì)地描繪像素與像素間、波段與波段之間的關(guān)系,自適應(yīng)地挖掘空間信息與光譜信息之間的內(nèi)蘊(yùn)關(guān)聯(lián)。因此,本文設(shè)計(jì)了一種空-譜Transformer編碼器,其如圖2(a)所示。首先,通過層歸一化、線性層和Reshape(sequence to patch)操作,將輸入特征映射為三個矩陣Q∈Rb×w×w,K∈Rb×w×w和V∈Rb×w×w,其中w為特征的空間尺度,b為特征所含波段數(shù)。隨后,這三個矩陣輸入空-譜自注意力(Spatial-spectral Self-attention,S3A)機(jī)制模塊,以獲取空-譜特征。在空-譜自注意力模塊中,將Q輸入空間注意力模塊,以精確地挖掘高光譜醫(yī)學(xué)圖像中不同像素間的關(guān)系,賦予特征圖不同空間位置的以不同的重要性,提取更加具有鑒別性的空間特征,其具體結(jié)構(gòu)如圖2(b)所示。首先通過全局最大池化和全局平均池化對Q的通道域特征進(jìn)行壓縮,并將所得的兩個特征沿通道維進(jìn)行拼接。接著,通過一個卷積層將這個二通道特征轉(zhuǎn)換為單通道特征,再以一個Sigmoid函數(shù)對其激活得到空間注意力。此過程可表示為:
圖2 空-譜Transformer編碼器結(jié)構(gòu)圖Fig.2 Structure of spatial-spectral transformer encoder
其中,AvgPool(·)表示平均池化操作,
[·]表示特征圖拼接,MaxPool(·)表示最大池化操作,Sigmoid(·)為Sigmoid激活函數(shù)操作,fn×n(·)表示卷積層,其中n表示感受野大小。將Q與空間注意力進(jìn)行點(diǎn)乘并殘差連接,再以ReLU函數(shù)激活,可得空間特征:
獲取空間特征之后,為了精確地描繪波段與波段之間的關(guān)系,更好地賦予不同波段以不同權(quán)重,提取對診斷有幫助的波段,將K輸入光譜注意力模塊,其結(jié)構(gòu)如圖2(c)所示。首先,使用最大池化和均值池化,把K的每個波段內(nèi)的空間特征信息進(jìn)行壓縮。然后采用MLP對壓縮特征進(jìn)行映射,以提高壓縮信息的遷移能力。最后,在每個波段上對兩種壓縮方式得到的壓縮信息相加融合并以Sigmoid函數(shù)激活,得到光譜注意力。這個過程可表示為:
其中,MLP(·)為多層感知機(jī)。隨后可得光譜特征:
為了獲得空間特征和光譜特征的內(nèi)蘊(yùn)關(guān)聯(lián),詳細(xì)地刻畫高光譜醫(yī)學(xué)圖像空-譜信息分布,將Fspa和Fspe進(jìn)行點(diǎn)積,可得本層編碼器下空-譜自注意力。為了更好地利用不同視野下所獲得的空-譜自注意力,對不同視野下所獲的關(guān)鍵空-譜信息進(jìn)行整合,本文設(shè)計(jì)的空-譜自注意力中,將之前更大視野下獲得空-譜自注意力Apre與本層所得空-譜自注意力進(jìn)行拼接融合,并接一個卷積層對拼接后的維度進(jìn)行降維。記本層編碼器的序號為i,i∈{1,2,3},則多視野融合后的空-譜自注意力可表示為:
隨后,Aspa-spei會分成兩條支路:一路會直接輸入下一個編碼器進(jìn)行不同視野關(guān)鍵信息融合,另一路會和fn×n×n(V)進(jìn)行點(diǎn)乘,得空-譜特征為:
其中:fn×n×n(·)表3D卷積層,n表示本層編碼器感受野大小。最后,經(jīng)過Reshape (patch to sequence),LayerNorm以及Linear層后,空-譜特征從本層編碼器輸出。
如圖1所示,文本設(shè)計(jì)了一種多視野預(yù)測融合(Multi-View Predictions Fusion,MVPF)策略,將不同感受野下的編碼器對樣本分別進(jìn)行預(yù)測,并對所有預(yù)測結(jié)果進(jìn)行有機(jī)融合,彌補(bǔ)網(wǎng)絡(luò)模型單一預(yù)測的不足。具體而言,將三個不同視野下的Transformer編碼器所得空-譜特征分別接以一個分類器,輸出三個類別預(yù)測,再對這三個預(yù)測進(jìn)行加權(quán)融合。將大視野到小視野所得的三個預(yù)測分別表示為p1,p2和p3,則最終融合預(yù)測pfusion滿足:其中,αi,i∈{1,2,3}為第i個視野下的可訓(xùn)練預(yù)測權(quán)重。這些權(quán)重的訓(xùn)練使用標(biāo)準(zhǔn)的反向傳播算法來進(jìn)行。由(7)式可得:
設(shè)損失函數(shù)為L(pfusion),則對于可訓(xùn)練參數(shù)α1和α2的梯度可以通過鏈?zhǔn)椒▌t計(jì)算得到,其表達(dá)式如下:
為了詳細(xì)說明S3AT的結(jié)構(gòu),受篇幅所限,其重要可訓(xùn)練網(wǎng)絡(luò)參數(shù)如表1所示。
表1 S3AT的模型參數(shù)Tab.1 Model parameter of S3AT
為了驗(yàn)證S3AT在面向不同儀器、不同成像以及不同預(yù)處理方式下所獲得高光譜醫(yī)學(xué)數(shù)據(jù),均具有出色的分類性能,本文采用In-vivo Human Brain HSI Dataset 和 BloodCell HSI Dataset來進(jìn)行對比實(shí)驗(yàn)。下面分別對其進(jìn)行介紹:
(1) In-vivo Human Brain HSI Dataset( Brain HSI Dataset):該數(shù)據(jù)集由英國南安普頓大學(xué)醫(yī)院(UHS)和西班牙拉斯帕爾馬斯大學(xué)內(nèi)格林醫(yī)院(UHDRN)共同采集。采集系統(tǒng)由Hyperspec?VNIR A-Series相機(jī)組成。相機(jī)基于推掃技術(shù),使用硅CCD探測器陣列,最低幀率為90幀/秒,光譜范圍為400~1 000 nm,光譜分辨率為2~3 nm,可捕獲826個光譜波段,每行1 004個空間像素。采集對象為進(jìn)行開顱切除腦腫瘤手術(shù)過程中的16名成年患者,最終獲得26張高光譜圖像,其共包含背景、正常、腫瘤以及血管四個類別。在本文實(shí)驗(yàn)中,選取包含全部四種類別的高光譜圖像進(jìn)行實(shí)驗(yàn),共包含6個病人、9張圖像。
(2) BloodCell HSI Dataset:該數(shù)據(jù)集是通過將顯微鏡和硅電荷耦合裝置與VariSpec?液晶可調(diào)諧濾波器(Liquid Crystal Tunable Filter,LCTFs)結(jié)合起來收集。該數(shù)據(jù)集包含兩張血細(xì)胞圖像,其分別命名為Bloodcell1-3和Bloodcell2-2。Bloodcell1-3的大小為973×799 pixel,Bloodcell2-2的大小為462×451 pixel,它們都含33個波段。每張高光譜圖像含有紅細(xì)胞、白細(xì)胞和背景3個類別。
由于成像方式不同,采集設(shè)備不同,以上兩個數(shù)據(jù)集中的高光譜圖像的空間分辨率和光譜分辨率存在較大差異,進(jìn)而空間信息和光譜信息分布有所不同。為了展示這個特性,在兩個數(shù)據(jù)集中各自隨機(jī)選取一個樣本點(diǎn),以其為中心裁剪出一個patch,分別做出光譜曲線以及某個隨機(jī)波段的二維圖像,最終可視化結(jié)果如圖3所示。
圖3 Brain和BloodCell HSI數(shù)據(jù)集上的空間和光譜信息可視化Fig.3 Visualization of spatial and spectral information on Brain and BloodCell HSI Dataset
由圖3可知,本文采用的兩個數(shù)據(jù)集中圖像的波段數(shù)、光譜曲線以及空間分辨率存在較大差異,因此可以驗(yàn)證所提出算法在不同類型高光譜醫(yī)學(xué)圖像上的有效性。
為驗(yàn)證本文算法的有效性,選取卷積神經(jīng)網(wǎng)絡(luò)方法HybridSN[24],SSRN(Spectral-Spatial Residual Network)[25]和DBDA(Double-Branch Dual-Attention )[26],Transformer深度學(xué)習(xí)方法Spectral-wise ViT[27],SSFTT[28]和CTMixer[29]作為對比算法。每種算法重復(fù)進(jìn)行10次實(shí)驗(yàn),以均值±標(biāo)準(zhǔn)差(Standard Deviation,STD)的形式表征總體分類精度(Overall Accuracy,OA)、平均分類精度(Average Accuracy,AA)以及Kappa系數(shù)(Kappa Coefficient,KC),以便綜合比較并判斷各算法的分類性能。在實(shí)驗(yàn)中,按波段對高光譜血細(xì)胞數(shù)據(jù)進(jìn)行歸一化處理,而學(xué)習(xí)率以及樣本Patch大小,均由實(shí)驗(yàn)確定。在兩個數(shù)據(jù)上的實(shí)驗(yàn)設(shè)置如表2所示。
表2 Brain和BloodCell HSI數(shù)據(jù)集上的實(shí)驗(yàn)設(shè)置Tab.2 Experimental setup on Brain and BloodCell HSI datasets
為了對所提出的S3AT進(jìn)行全面的研究,本文分析了樣本patch大小和學(xué)習(xí)率對分類精度的影響。對于輸入樣本patch大小,不僅影響空間信息量,而且影響模型的復(fù)雜性。至于學(xué)習(xí)率,學(xué)習(xí)率過大會導(dǎo)致模型過快收斂到次優(yōu)解,而學(xué)習(xí)率過小則會導(dǎo)致導(dǎo)致收斂過程停滯。因此,這些參數(shù)需要進(jìn)行實(shí)驗(yàn)以獲得更好的分類精度。對于學(xué)習(xí)率,選取范圍為{1×10-5,1×10-4,1×10-3,1×10-2}。對于樣本patch大小,選取范圍為{3,5,7,9,11}。實(shí)驗(yàn)中,采用網(wǎng)格搜索確定最佳參數(shù),數(shù)據(jù)集劃分與表1相同,結(jié)果如圖4所示。
圖4 Brain和BloodCell HSI數(shù)據(jù)集上的參數(shù)分析Fig.4 Parameter analysis on Brain and BloodCell HSI datasets
由圖4(a)和圖4(b)可知,增加樣本patch大小可以明顯提高分類精度。這是因?yàn)楦蟮膒atch包含了更多的空間信息,提高了樣本的鑒別性??紤]到運(yùn)算效率,在兩個數(shù)據(jù)集上,patch大小均設(shè)為9。同時(shí),過小的學(xué)習(xí)率會使得模型更難獲得高級特征,而學(xué)習(xí)率過大會使模型發(fā)散和梯度爆炸,因此在本文兩個數(shù)據(jù)集中,學(xué)習(xí)率均設(shè)置為1×10-3。
在文本所提出的S3AT模型中,空-譜自注意力機(jī)制和多視野預(yù)測融合策略占據(jù)關(guān)鍵地位。為了驗(yàn)證它們的有效性,以單視野下的原始Transformer網(wǎng)絡(luò)為Baseline,在Brain HSI數(shù)據(jù)集上進(jìn)行關(guān)于視野個數(shù)(Number of Views, NV)以及空-譜自注意力機(jī)制的消融實(shí)驗(yàn)。結(jié)果如表3所示。
表3 S3AT關(guān)于不同模塊的消融實(shí)驗(yàn)分析Tab.3 Ablation analysis of the proposed S3AT with a combination of different components
由表3可知,將S3A單獨(dú)添加到單視野網(wǎng)絡(luò)后,OA,AA和KC分別提升了3.39%,4.44%和10.35%。這說明S3A模塊成功關(guān)注到了關(guān)鍵的空-譜特征區(qū)域,提取出了更具鑒別性空-譜特征。在添加S3A的狀態(tài)下,隨著視野數(shù)的增多,模型的預(yù)測能力得到進(jìn)一步的提升。這是因?yàn)槎嘁曇邦A(yù)測融合策略成功融合不同視野下的決策。當(dāng)視野個數(shù)為3時(shí),模型分類表現(xiàn)達(dá)到最優(yōu)。其OA,AA和KC分別提升了7.79%,5.88%和12.08%。當(dāng)視野個數(shù)進(jìn)一步增大時(shí),模型預(yù)測性能下降,這是因?yàn)檫^多的視野使得模型過于復(fù)雜,引入過多可訓(xùn)練參數(shù),陷入過擬合狀態(tài)。
在本文所提出的S3AT模型中,多視野預(yù)測融合策略占據(jù)了重要地位。為了展示不同視野下的預(yù)測效果,在Brain HSI數(shù)據(jù)集上,分別使用三個視野下對應(yīng)的分類器單獨(dú)對整張測試圖像進(jìn)行預(yù)測,同時(shí)使用預(yù)測融合后的預(yù)測圖作為對照,實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 多視野預(yù)測融合分析Fig.5 Analysis of multi-view predictions fusion
圖5可以看出,在原有各個視野下的預(yù)測的基礎(chǔ)上,多視野預(yù)測融合策略取得了更好的分類效果。這是由于不同視野下的空-譜Transformer編碼器獲得了不同的關(guān)鍵信息,所設(shè)計(jì)的多視野融合策略有效地對這些信息賦予不同的權(quán)重,有效地對其進(jìn)行整合,從而更好地利用不同視野下所獲的信息,取得更高的分類精度。值得注意的是,從大視野至小視野,模型所獲的預(yù)測權(quán)重分別為0.41,0.36和0.23。這是因?yàn)槟P驮诖笠曇跋芦@得了更多的整體信息,而在小視野下,模型獲得更多的細(xì)節(jié)信息作為補(bǔ)充。
3.6.1 Brain HSI數(shù)據(jù)集結(jié)果
在Brain HSI數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果由表4所示。由表4可知,ViT取得了最差的分類精度。這是由于ViT偏重于光譜特征提取,未能充分提取到充足的空間特征。其余對比方法均取得了稍好的分類結(jié)果,這是因?yàn)樗鼈兙?譜特征提取模塊,提升了模型的鑒別能力。在對比方法中,SSRN取得了更好的分類結(jié)果,這是因?yàn)镾SRN中的空間注意力和光譜注意力模塊關(guān)注到了重點(diǎn)空間區(qū)域和重要光譜波段,消除了特征冗余。然而,其單一的預(yù)測使得模型精度受限。在所有方法中,本文提出的方法取得了更好的分類結(jié)果。這是因?yàn)镾3AT中的空-譜自注意力機(jī)制賦予空-譜特征以不同權(quán)重,并且其將不同視野下的診斷預(yù)測按不同的權(quán)重進(jìn)行融合,提升了模型的預(yù)測能力。
表4 Brain HSI數(shù)據(jù)集上不同算法的分類結(jié)果Tab.4 Classification results of different algorithms on Brain HSI Dataset(%)
為了直觀對比不同方法的預(yù)測,在上述實(shí)驗(yàn)中,取其中一次實(shí)驗(yàn)中一張預(yù)測圖作為展示,結(jié)果如圖6所示??梢钥闯?,本文算法相比其他方法,分類圖錯分點(diǎn)較少,更為平滑。這是因?yàn)镾3AT在面向基于反射光成像的高光譜圖像時(shí),可以自適應(yīng)地獲取空-譜自注意力,詳細(xì)地描繪出圖像的空-譜信息分布,挖掘更具鑒別性的空-譜特征,并將多視野所得到的空-譜自注意力融合。此外,在預(yù)測階段,多視野預(yù)測的有機(jī)融合,使得模型的預(yù)測更加精確。
圖6 各算法在 Brain HSI數(shù)據(jù)集上的分類結(jié)果圖Fig.6 Classification maps of different methods on Brain HSI Dataset
3.6.2 BloodCell HSI數(shù)據(jù)集結(jié)果
在BloodCell HSI數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果如表5所示。由表5可知,S3AT在大多數(shù)指標(biāo)上,依舊取得更好的分類結(jié)果。這是因?yàn)樵诿嫦蚧陲@微鏡透射光成像的高光譜圖像時(shí),S3AT的空-譜自注意力模塊仍然能夠捕獲關(guān)鍵的空-譜信息,提高模型的分類能力,并且融合了不同視野下的診斷信息。這說明S3AT可以適用于不同儀器、不同成像方式所獲取的高光譜醫(yī)學(xué)圖像,具有較好的泛化性,節(jié)約了模型開發(fā)成本。為了直觀對比不同方法的預(yù)測,在上述實(shí)驗(yàn)中,取其中一次實(shí)驗(yàn)的預(yù)測圖作為展示,結(jié)果如圖7所示。由圖7可知,S3AT所得分類圖更為光滑,誤分點(diǎn)較少。這說明基于空-譜自注意力機(jī)制和多視野預(yù)測融合的S3AT算法的分類性能有明顯提升,具有強(qiáng)的魯棒性,更適合實(shí)際應(yīng)用場景。
表5 BloodCell HSI數(shù)據(jù)集上不同算法的分類結(jié)果Tab.5 Classification results of different algorithms on BloodCell HSI Dataset(%)
圖7 各算法在BloodCell HSI數(shù)據(jù)集上的分類結(jié)果圖Fig.7 Classification maps of different methods on BloodCell HSI Dataset
所有算法在執(zhí)行時(shí)都需要消耗時(shí)間和空間資源,因此,對算法的時(shí)空代價(jià)進(jìn)行分析非常必要。在神經(jīng)網(wǎng)絡(luò)中,參數(shù)數(shù)量可用于表示網(wǎng)絡(luò)的空間復(fù)雜度和大小,也對應(yīng)計(jì)算機(jī)內(nèi)存資源的消耗。該指標(biāo)越小,則表示網(wǎng)絡(luò)的空間復(fù)雜度越小。浮點(diǎn)運(yùn)算次(Floating Point Operations,F(xiàn)LOPs)表示每秒完成預(yù)測所需的計(jì)算量,用來衡量網(wǎng)絡(luò)的運(yùn)算速度。該指標(biāo)越小,則表示網(wǎng)絡(luò)的時(shí)間復(fù)雜度越小。而推理時(shí)間則直接反映了一個算法在某一個設(shè)備上運(yùn)算效率。使用Brain HSI Dataset上對32個測試樣本在對本文使用的所有算法進(jìn)行時(shí)空代價(jià)分析,實(shí)驗(yàn)平臺如表1所示,實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同算法的參數(shù)量、FLOPs以及推理時(shí)間比較Tab.6 Parameters, FLOPs and inference time comparison of different algorithms
如表6可知,S3AT相比HybridSN,SSRN,DBDA,ViT取得了更少的運(yùn)算次數(shù)、更少的推理時(shí)間以及更少的模型參數(shù)(DBDA除外)。雖然SSFTT和CTMixer在時(shí)間復(fù)雜度上取得更低的結(jié)果,但S3AT分類性能比上述兩個算法有顯著性提升。這說明本文所提出算法具有較高的性能和效率,在高光譜醫(yī)學(xué)圖像分類任務(wù)中得到更好的表現(xiàn),進(jìn)而可以在計(jì)算資源受限的場景下得到更好地應(yīng)用,具有較高的實(shí)用價(jià)值和推廣前景。
在高光譜醫(yī)學(xué)圖像分類任務(wù)中,為了克服Transformer網(wǎng)絡(luò)難以適應(yīng)不同類型的高光譜圖像而導(dǎo)致的性能表現(xiàn)差異較大,以及未能使用多個感受野的空-譜信息的問題,本文基于空-譜自注意力機(jī)制以及多視野預(yù)測融合策略,提出一種空-譜自注意力Transformer (S3AT)。該方法能根據(jù)高光譜醫(yī)學(xué)圖像中的空-譜信息分布,自適應(yīng)挖掘重點(diǎn)空-譜信息,并將不同感受野下所獲得空-譜自注意力進(jìn)行融合,且將不同感受野下的預(yù)測進(jìn)行加權(quán)融合。在Brain和Bloodcell HSI高光譜數(shù)據(jù)集上,OA,AA和KC分別獲得了82.25%,82.27%和76.17%以及91.74%,88.97%和81.86%。實(shí)驗(yàn)結(jié)果表明,S3AT對不同類型的高光譜醫(yī)學(xué)圖像,均具有高精度的分類效果。然而,S3AT中的各個感受野大小為手工設(shè)定,未能根據(jù)圖像自適應(yīng)進(jìn)行尺寸調(diào)整。因此下一步研究工作將關(guān)注如何設(shè)計(jì)一種自適應(yīng)動態(tài)感受野,從而使模型更加有效地獲取不同視野下的空-譜信息。