摘" " 要: 針對(duì)礦物類別眾多、存在環(huán)境雜質(zhì)等干擾信息以及部分拉曼光譜存在相似性等問(wèn)題,結(jié)合拉曼光譜時(shí)域和頻域上多尺度特征信息,提出一種基于卷積結(jié)構(gòu)和自注意力結(jié)構(gòu)的雙分支分類網(wǎng)絡(luò)RT-Net(Residual-Transformer Net)。該網(wǎng)絡(luò)利用卷積塊搭建局部特征提取模塊,引入通道注意力增強(qiáng)局部特征提取能力;利用自注意力結(jié)構(gòu)學(xué)習(xí)拉曼光譜頻域中的雙向依賴關(guān)系來(lái)提取全局特征信息,由注意力融合模塊進(jìn)行多尺度特征融合用以分類。實(shí)驗(yàn)結(jié)果表明:RT-Net實(shí)現(xiàn)了對(duì)于1 321類礦物拉曼光譜快速準(zhǔn)確的分類,分類準(zhǔn)確率達(dá)到90.31%;此外,在精準(zhǔn)率、召回率和F1得分3個(gè)評(píng)估指標(biāo)上分別達(dá)到了0.878 1、0.906 6和0.897 2,進(jìn)一步驗(yàn)證了RT-Net的有效性。
關(guān)鍵詞: 礦物分類;拉曼光譜;頻域;注意力機(jī)制;多尺度融合
中圖分類號(hào): TP391.4" " " " " " 文獻(xiàn)標(biāo)志碼: A" " " " " " " " 文章編號(hào):" 1671-024X(2025)01-0053-09
Classification method of Raman spectra of mineral based on
convolution and Transformer
GENG Lei1,2, QIU Huaizhi2,3, XIAO Zhitao1,2, ZHANG Fang1,2, WU Jun2,3
(1. School of Life Sciences, Tiangong University, Tianjin 300387, China; 2. Tianjin Key Laboratory of Optoelectronic Detection Technology and Systems, Tiangong University, Tianjin 300387, China; 3. School of Electronics and Information Engineering, Tiangong University, Tianjin 300387, China)
Abstract: To address the problems of many mineral categories, the existence of environmental impurities and other interference information, and the similarity of some Raman spectra, a two-branch classification network RT-Net (Residual-Transformer Net) based on convolutional structure and self-attentive structure is proposed by combining the multi-scale feature information in the time and frequency domains of Raman spectra. The network uses convolutional blocks to build a local feature extraction module and introduces channel attention to enhance the local feature extraction ability; the self-attentive structure is used to learn the bidirectional dependencies in the frequency domain of Raman spectra to extract global feature information, and the attentional fusion module is used for multi-scale feature fusion for classification. The experimental results show that RT-Net achieves fast and accurate classification of 1 321 types of mineral Raman spectra with an accuracy of 90.31%. In addition, the three evaluation indexes of precision, recall and F1 score reached 0.878 1, 0.906 6 and 0.897 2, respectively, further validating the effectiveness of RT-Net.
Key words: mineral classification; Raman specta; frequency domain; attentional mechanisms; multi-scale integration
礦物識(shí)別在地質(zhì)分析、資源勘探以及許多工程應(yīng)用中都是極為關(guān)鍵的一環(huán)。拉曼光譜能夠提供豐富的物質(zhì)分子信息,具有反映物質(zhì)分子“指紋”特征的特性,能夠獲取被測(cè)物質(zhì)的分子振動(dòng)、轉(zhuǎn)動(dòng)能級(jí)信息并進(jìn)行分析,已被廣泛應(yīng)用于各場(chǎng)景下的礦物質(zhì)分析和識(shí)別任務(wù)中[1]。然而,自然界中礦物的種類繁多,其拉曼光譜具有一定的相似性,且因其成長(zhǎng)環(huán)境不同,成分結(jié)構(gòu)復(fù)雜不統(tǒng)一,同類礦物的拉曼光譜也存在一定差異性。這些問(wèn)題都對(duì)礦物的分類造成許多困難,因此建立一個(gè)快速準(zhǔn)確的礦物拉曼光譜分類模型有著重要的價(jià)值。
近年來(lái),深度學(xué)習(xí)技術(shù)不斷發(fā)展, 被廣泛應(yīng)用于圖像分類[2]、 語(yǔ)音識(shí)別[3]、 醫(yī)學(xué)信號(hào)處理[4]等領(lǐng)域。深度神經(jīng)網(wǎng)絡(luò)能夠?qū)⒃紨?shù)據(jù)的特征從低維空間映射到高維空間,具有優(yōu)異的特征學(xué)習(xí)能力。對(duì)于多分類任務(wù),深度神經(jīng)網(wǎng)絡(luò)能夠很好地學(xué)習(xí)到樣本間差異區(qū)分度較小的特征。已有學(xué)者將該技術(shù)應(yīng)用于礦物拉曼光譜的識(shí)別任務(wù)上,并取得了一定效果。Liu等[5]采用包括特征提取的金字塔形卷積層和用于分類的2個(gè)全連接層的LetNet變體的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)拉曼光譜數(shù)據(jù)分類的方法,在RRUFF(礦物拉曼光譜數(shù)據(jù)庫(kù))上取得很好的分類效果。郭志琦[6]針對(duì)192類的礦物拉曼光譜多分類問(wèn)題,提出了一種輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型FMCNN(factorization machine combined neural network),達(dá)到了98.8%的分類精度。Sang等[7]基于VGG19的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建了深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型1DCNN,在RRUFF數(shù)據(jù)庫(kù)上構(gòu)建的類別數(shù)為192和1 332的2個(gè)數(shù)據(jù)集上,準(zhǔn)確率分別達(dá)到了97.72%和87.91%。由于CNN架構(gòu)的步長(zhǎng)特征限制了感受野的范圍,難以覆蓋全部拉曼光譜,導(dǎo)致部分特征信息丟失。
礦物拉曼光譜的光譜信息在波段之間是高度相關(guān)的,關(guān)注大范圍的波段關(guān)系有助于拉曼光譜特征的提取。Transformer架構(gòu)利用多頭注意力機(jī)制提取到時(shí)序向量間的隱含關(guān)系,很好地解決了長(zhǎng)距離依賴關(guān)系問(wèn)題。Behinaein等[8]通過(guò)級(jí)聯(lián)卷積結(jié)構(gòu)與自注意力結(jié)構(gòu)的方式對(duì)心電信號(hào)進(jìn)行分類,其特點(diǎn)是通過(guò)卷積操作提取心電信號(hào)中的特征信息,從而提供給自注意力結(jié)構(gòu)進(jìn)行后續(xù)分類。孫嘉瑤[9]提出一種雙分支網(wǎng)絡(luò)結(jié)構(gòu),各分支結(jié)構(gòu)都使用卷積與自注意力層級(jí)聯(lián)的方式,分別從時(shí)間維度和通道維度挖掘信號(hào)中的特征。除了級(jí)聯(lián)卷積與自注意力的方式,葛君偉等[10]提出將卷積結(jié)構(gòu)和自注意力結(jié)構(gòu)進(jìn)行并行連接,從2種不同的角度捕獲特征信息。
針對(duì)礦物拉曼光譜存在的類間相似性和存在干擾性信息等問(wèn)題,本文提出了一種同時(shí)提取時(shí)頻域特征的多尺度信息融合雙分支網(wǎng)絡(luò)RT-Net。主要研究?jī)?nèi)容有以下幾個(gè)方面:
(1) 為提取礦物拉曼光譜中強(qiáng)度較小的次特征峰,解決雜質(zhì)、環(huán)境等干擾性信息問(wèn)題,設(shè)計(jì)了一種利用擴(kuò)張卷積塊搭建的局部特征提取模塊,對(duì)小特征峰進(jìn)行特征提取,同時(shí)通過(guò)將通道注意力模塊嵌入卷積網(wǎng)絡(luò)的不同階段,抑制低級(jí)語(yǔ)義特征。
(2) 針對(duì)部分礦物的拉曼光譜較為相似的問(wèn)題,結(jié)合時(shí)頻域特征信息,設(shè)計(jì)了一種由卷積和Trans-former并行連接的雙分支網(wǎng)絡(luò),學(xué)習(xí)光譜多尺度的特征信息。利用卷積網(wǎng)絡(luò)提取光譜時(shí)域上的局部特征信息,捕獲益于分類的拉曼特征峰信息;通過(guò)Transfor-mer學(xué)習(xí)光譜頻域上的全局依賴關(guān)系,融合局部特征信息用以分類。
(3) 利用注意力融合模塊,將提取的局部特征信息和全局信息在保留各自最大信息完整性的同時(shí)進(jìn)行充分融合。
(4) 通過(guò)實(shí)驗(yàn)驗(yàn)證了本文方法的有效性,并與傳統(tǒng)光譜分類算法進(jìn)行比較。
1 基于RT-Net網(wǎng)絡(luò)的礦物拉曼光譜分類法
本文提出的RT-Net網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。
RT-Net是由SRNet分支和TrNet分支并行的雙分支網(wǎng)絡(luò),能夠精確分類具有1 321類的礦物拉曼圖譜。礦物的拉曼光譜有許多波峰和波谷,包含許多特征信息,因此在SRNet分支,利用其善于捕捉卷積感受野范圍內(nèi)的特征的優(yōu)勢(shì),提取拉曼光譜的局部特征信息用以分類。由于某些礦物的拉曼光譜有相似的特征峰,依靠局部特征難以區(qū)分,因此TrNet分支借由Transformer的自注意力機(jī)制對(duì)全局依賴關(guān)系的學(xué)習(xí)能力,學(xué)習(xí)拉曼光譜的全局特征信息。網(wǎng)絡(luò)從局部和全局對(duì)礦物的拉曼光譜進(jìn)行特征提取,通過(guò)注意力融合模塊(AFM),將各分支的特征信息進(jìn)行融合分類。下面將對(duì)各分支網(wǎng)絡(luò)和注意力融合模塊進(jìn)行更為詳盡的敘述。
1.1 SRNet分支網(wǎng)絡(luò)
SRNet分支是由1個(gè)1 × 7的一維卷積層和1個(gè)1 × 3的最大池化層,對(duì)拉曼光譜時(shí)域數(shù)據(jù)進(jìn)行下采樣,降低維數(shù)并保證數(shù)據(jù)基本特征的完整性。共8個(gè)特征提取模塊分為4個(gè)階段對(duì)拉曼數(shù)據(jù)進(jìn)行時(shí)域特征的細(xì)分,結(jié)構(gòu)如圖2所示。
每個(gè)特征塊有2個(gè)相同輸出通道數(shù)的3×3卷積層,每個(gè)卷積層后接1個(gè)批量規(guī)范化層和ReLU激活函數(shù)。然后通過(guò)跳過(guò)2個(gè)卷積層,將輸入直接加在ReLU激活函數(shù)前。假設(shè)輸入為x,通過(guò)2個(gè)卷積層后的輸出為f(x),convolutional_block模塊由于第1個(gè)卷積層步長(zhǎng)為2,跳躍連接的輸入x需要經(jīng)過(guò)1個(gè)卷積層調(diào)整通道維度與f(x)相匹配,輸出Hc(x)的的計(jì)算公式為:
Hc(x) = f(x) + Wx(1)
式中:W為卷積矩陣。identity_block模塊是2個(gè)步長(zhǎng)為1的卷積層,因此跳躍連接的輸入x通道維度與f(x)相一致,輸出Hi(x)的計(jì)算公式為:
Hi(x) = f(x) + x(2)
每個(gè)特征提取模塊中都加入了Squeeze-and-Excitation (SE)模塊[11],通過(guò)提取特征圖通道之間的相關(guān)性信息,自適應(yīng)的動(dòng)態(tài)學(xué)習(xí)并加以調(diào)整,對(duì)每個(gè)通道施加不同的權(quán)重,選擇性的突出利于識(shí)別的特征并抑制無(wú)用特征。
1.2 TrNet分支網(wǎng)絡(luò)
Transformer網(wǎng)絡(luò)主要應(yīng)用于自然語(yǔ)言處理領(lǐng)域,由于礦物拉曼光譜數(shù)據(jù)符合時(shí)間序列數(shù)據(jù)特點(diǎn),故使用Transformer模塊作為礦物拉曼光譜全局特征的主要特征提取器,通過(guò)自注意力機(jī)制學(xué)習(xí)其長(zhǎng)距離雙向依賴關(guān)系。同時(shí),Transformer網(wǎng)絡(luò)含有Encoder編碼器和Decoder解碼器2部分,分別負(fù)責(zé)對(duì)輸入模型信號(hào)進(jìn)行編碼和解碼,而礦物拉曼光譜分類任務(wù)并不涉及Decoder解碼操作,故將Transformer中的Encoder結(jié)構(gòu)作為分支網(wǎng)絡(luò)TrNet的基礎(chǔ),用于提取礦物拉曼光譜全局特征。由于自注意力模型在對(duì)當(dāng)前位置的數(shù)據(jù)信息進(jìn)行編碼時(shí),易過(guò)度的集中注意力在自身的位置而忽視了其他的位置,因此在Transformer中引入了多頭注意力機(jī)制(Multi-Head Attention)來(lái)解決該問(wèn)題,其完整計(jì)算過(guò)程如公式(3)所示:
MultiHead(Q,K,V) = Concat(head1,…,headk)WO
where headi = Attention(CWiQ,CWiK,CWiV)(3)
由于礦物種類數(shù)量較多,部分礦物類別的拉曼光譜存在相似性,特征峰在時(shí)域上面難以區(qū)分,頻域則可以更好地從全局上表征礦石的特征。因此,通過(guò)將輸入進(jìn)行快速傅里葉變換(FFT)轉(zhuǎn)換到頻域,進(jìn)而利用Transformer來(lái)學(xué)習(xí)全局依賴關(guān)系,其結(jié)構(gòu)如圖3所示。
首先對(duì)TrNet的輸入進(jìn)行時(shí)頻域轉(zhuǎn)換,通過(guò)1個(gè)卷積核大小為1 × 1且通道數(shù)為128的一維卷積層,改變輸入的維度大小以及提供礦物拉曼光譜的空間信息。然后將編碼后的礦物拉曼光譜數(shù)據(jù)送入Transformer的Encoder結(jié)構(gòu)中,在多頭注意力層后接入1個(gè)前饋神經(jīng)網(wǎng)絡(luò)為模型增加非線性表達(dá)的能力,其計(jì)算公式如公式(4)所示:
FFN(x) = ReLU(0,xW1 + b1)W2 + b2(4)
式中:x表示經(jīng)過(guò)多頭注意力層后的輸出特征。
同時(shí),在多頭注意力層和前饋網(wǎng)絡(luò)層周圍都使用了殘差連接(Residual Connection)的方式并進(jìn)行層歸一化(Layer Normalization,LN)操作。殘差連接能夠幫助網(wǎng)絡(luò)底層特征信息有效的傳遞到網(wǎng)絡(luò)的高層,增加了信息的傳遞效率并且增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。層歸一化操作是為了在激活函數(shù)之前,將輸入轉(zhuǎn)換為均值為0且方差為1的數(shù)據(jù),避免出現(xiàn)梯度消失或者梯度爆炸。
1.3 注意力融合模塊
為了將SRNet和TrNet在拉曼光譜數(shù)據(jù)中提取的局部特征與全局特征在保持各自信息完整度最大化的同時(shí)能夠充分融合,利用多頭注意力機(jī)制搭建了1個(gè)注意力融合模塊(AFM),其結(jié)構(gòu)如圖4所示。
由于2個(gè)分支輸出特征的維度不一致,因此在特征融合前要先進(jìn)行維度統(tǒng)一。SRNet分支網(wǎng)絡(luò)輸出的特征尺寸為Tc × C,其中Tc表示礦物拉曼光譜通過(guò)SRNet的卷積操作之后的輸出長(zhǎng)度,C表示最后1個(gè)特征提取模塊中卷積操作的通道數(shù)。TrNet分支網(wǎng)絡(luò)輸出的特征尺寸為T × C,其中T表示原始輸入序列的長(zhǎng)度,N代表輸入的礦物拉曼光譜的空間維度。超參數(shù)C和N的值統(tǒng)一設(shè)置為128,保證了2個(gè)分支網(wǎng)絡(luò)輸出的特征通道維度相同,然后分別通過(guò)2個(gè)卷積核大小為1 × 1的卷積層,將SRNet分支卷積操作后的輸出長(zhǎng)度Tc與TrNet分支原始輸入序列的長(zhǎng)度T進(jìn)行統(tǒng)一。
將SRNet與TrNet輸出的特征分別對(duì)應(yīng)矩陣Q和矩陣K來(lái)計(jì)算注意力得分,計(jì)算得到的注意力得分包含了局部特征與全局特征融合后的對(duì)應(yīng)關(guān)系,注意力得分越高表明該位置的特征與總體特征的匹配程度越高,使用融合了全局特征與局部特征的對(duì)應(yīng)關(guān)系的注意力得分標(biāo)定SRNet的局部特征,計(jì)算過(guò)程如公式(5)所示:
式中:XTrans和XCNN分別代表SRNet的輸出和TrNet的輸出。
2 實(shí)驗(yàn)結(jié)果分析
2.1 實(shí)驗(yàn)數(shù)據(jù)
本次實(shí)驗(yàn)使用的數(shù)據(jù)集是RRUFF數(shù)據(jù)庫(kù)中的礦物拉曼光譜數(shù)據(jù)集,該數(shù)據(jù)集包含5 267組光譜數(shù)據(jù)和1 687種礦石物質(zhì)。由于訓(xùn)練模型時(shí)至少要?jiǎng)澐?個(gè)樣本用作測(cè)試集,因此篩除掉只有1個(gè)樣本的礦石類別后剩余1 321類。
2.1.1 樣條插值
RRUFF數(shù)據(jù)庫(kù)中收集的光譜數(shù)據(jù)因采集條件不同,導(dǎo)致拉曼位移及頻率不同,光譜數(shù)據(jù)點(diǎn)的數(shù)量各不相同。因此,需要對(duì)光譜數(shù)據(jù)進(jìn)行插值處理。
采用一階樣條插值法對(duì)各個(gè)光譜數(shù)據(jù)進(jìn)行處理。通過(guò)估算插值點(diǎn)相鄰的2個(gè)數(shù)據(jù)點(diǎn),僅對(duì)1個(gè)小區(qū)間進(jìn)行插值,插值結(jié)果如圖5所示。經(jīng)過(guò)插值處理后的光譜數(shù)據(jù),可以得到均勻分布在0~1 700 cm-1拉曼位移上的1 024個(gè)數(shù)據(jù)點(diǎn)及對(duì)應(yīng)強(qiáng)度,對(duì)某些類礦石拉曼位移未覆蓋的區(qū)間用0進(jìn)行填充。
2.1.2 數(shù)據(jù)增強(qiáng)
大部分礦石類別在選用的RRUFF數(shù)據(jù)集中樣本數(shù)量比較少,而數(shù)據(jù)量過(guò)少對(duì)模型的訓(xùn)練會(huì)帶來(lái)過(guò)擬合等一系列不利影響,因此采用數(shù)據(jù)增強(qiáng)的方式減輕對(duì)模型訓(xùn)練的不利影響。
在每一類礦石數(shù)據(jù)中隨機(jī)抽選1個(gè)拉曼光譜樣本放入測(cè)試集,剩余數(shù)據(jù)按照3 ∶ 1的比例劃分訓(xùn)練集和驗(yàn)證集。劃分后訓(xùn)練集所含數(shù)據(jù)量為3 580,測(cè)試集所含數(shù)據(jù)量為1 321。然后對(duì)訓(xùn)練集中的數(shù)據(jù)采用以下操作進(jìn)行數(shù)據(jù)增強(qiáng):
(1) 平移操作:固定拉曼強(qiáng)度序列不變,將拉曼位移在0~0.4 cm-1之間左右平移,對(duì)每一類礦石進(jìn)行不同次數(shù)的操作,使每類礦石數(shù)據(jù)量在10個(gè)樣本左右。
(2) 曲線加噪聲:對(duì)平移后的拉曼光譜曲線在位移和強(qiáng)度序列中加入高斯噪聲。每一條拉曼曲線中的每一個(gè)點(diǎn)都在X和Y軸方向上加入1個(gè)隨機(jī)噪聲,該噪聲符合均值為0、標(biāo)準(zhǔn)差為0.5的正態(tài)分布,處理后每類礦石的數(shù)據(jù)量在20個(gè)樣本左右。
2.1.3 歸一化
同一礦物在不同激發(fā)光功率下會(huì)有不同的峰強(qiáng),為了避免在模型訓(xùn)練時(shí)強(qiáng)度大小對(duì)拉曼曲線的影響,使模型只關(guān)注光譜圖上特征峰之間的相對(duì)強(qiáng)度,對(duì)所有樣本數(shù)據(jù)的強(qiáng)度序列分別進(jìn)行了Min-Max歸一化處理,計(jì)算方式如公式(6)所示:
式中:x表示輸入的強(qiáng)度值。
2.2 評(píng)價(jià)指標(biāo)
本次實(shí)驗(yàn)使用4種評(píng)價(jià)指標(biāo)判斷RT-Net網(wǎng)絡(luò)模型能否對(duì)礦物拉曼光譜進(jìn)行1 321類的精確分類。準(zhǔn)確率是對(duì)模型效果最直觀的評(píng)價(jià)指標(biāo),即測(cè)試集中正確樣本占總樣本的比例。此外,對(duì)于礦物拉曼數(shù)據(jù)的多分類問(wèn)題,增加精確率、召回率和F1分?jǐn)?shù),從而盡可能的客觀和全面的評(píng)估模型的性能。本文使用P和N表示正樣本和負(fù)樣本,用T和F表示正確預(yù)測(cè)和錯(cuò)誤預(yù)測(cè),4項(xiàng)評(píng)價(jià)指標(biāo)的公式如下所示:
式中:TP、FP、TN和FN分別表示真正、假正、真負(fù)和假負(fù)。
2.3 實(shí)驗(yàn)環(huán)境及超參數(shù)設(shè)置
硬件配置為:GPU,2個(gè)NVIDIA 2080Ti顯卡。深度學(xué)習(xí)框架為:TensorFlow 2.0+python3.7。網(wǎng)絡(luò)在訓(xùn)練時(shí)采用Adam優(yōu)化器訓(xùn)練模型,權(quán)重衰減系數(shù)為1e-4,初始學(xué)習(xí)率為0.000 1,batch size為64。由于模型訓(xùn)練時(shí)其收斂速度會(huì)隨著迭代輪次的增加而減緩,出現(xiàn)學(xué)習(xí)停滯的現(xiàn)象,通過(guò)降低學(xué)習(xí)率能有效改善此現(xiàn)象,因此設(shè)置訓(xùn)練的迭代輪次為200,當(dāng)模型訓(xùn)練時(shí)的迭代輪次達(dá)到20且驗(yàn)證集準(zhǔn)確率并未提升時(shí),學(xué)習(xí)率將被調(diào)整為上輪迭代學(xué)習(xí)率的1/2。
2.4 實(shí)驗(yàn)結(jié)果與分析
2.4.1 各分支網(wǎng)絡(luò)有效性驗(yàn)證
為了分析網(wǎng)絡(luò)模型對(duì)礦物拉曼光譜的學(xué)習(xí)能力,通過(guò)將網(wǎng)絡(luò)深層的特征集合與池化層獲得的權(quán)重系數(shù)矩陣相乘,最終映射得到一個(gè)能夠表征特征關(guān)注度的熱力圖。
SRNet在殘差結(jié)構(gòu)中通過(guò)堆疊擴(kuò)張卷積塊,能夠有效的對(duì)礦物拉曼光譜中拉曼峰的特征信息進(jìn)行提取并用以分類。本文隨機(jī)選取了3類礦物的拉曼光譜曲線,通過(guò)SRNet對(duì)其特征提取并進(jìn)行了特征熱力圖可視化,結(jié)果如圖6所示。
由圖6可以看到,SRNet能夠?qū)γ款惖V物拉曼光譜中特征峰的特征信息進(jìn)行提取,并且對(duì)最明顯的主拉曼峰關(guān)注程度最高,對(duì)次拉曼峰的關(guān)注程度相對(duì)較低。由此可以證明,SRNet能夠很好捕獲到每一類礦物的局部特征信息,從而有效地對(duì)其進(jìn)行分類。
TrNet沿用Transformer-Encoder結(jié)構(gòu)通過(guò)多頭注意力結(jié)構(gòu)和前饋神經(jīng)網(wǎng)絡(luò)級(jí)聯(lián)的方式,利用自注意力機(jī)制對(duì)輸入進(jìn)行全局特征信息的特征提取。由于頻域的變換結(jié)果是通過(guò)FFT得到的,其頻域信息是時(shí)域波形對(duì)應(yīng)頻率下的幅度特征,通過(guò)對(duì)全局特征信息進(jìn)行學(xué)習(xí),并映射回原始拉曼光譜用于分類。選取了3類礦物進(jìn)行了特征可視化分析,結(jié)果如圖7所示。
由圖7可看出,TrNet通過(guò)提取全局特征信息能夠關(guān)注到拉曼頻移在500 ~1 200 cm-1之間的較小的拉曼峰,在主次特征峰拉曼頻移和形狀極為相似的情況下,可以憑借其余較小的特征峰進(jìn)行正確區(qū)分。然而某些礦物拉曼光譜在時(shí)域上較為相似,在頻域則是具有差異性信息,考慮到時(shí)序數(shù)據(jù)可以從時(shí)域轉(zhuǎn)換到頻域獲取頻域信息,網(wǎng)絡(luò)能夠通過(guò)學(xué)習(xí)光譜頻域上的特征信息映射回原始拉曼光譜,在提取主特征峰的前提下學(xué)習(xí)多尺度的特征信息用于分類。
為驗(yàn)證頻域特征信息對(duì)于網(wǎng)絡(luò)模型的性能影響,設(shè)置了消融實(shí)驗(yàn)來(lái)進(jìn)行分析驗(yàn)證,實(shí)驗(yàn)結(jié)果如表1和表2所示。由表1可以看出,在時(shí)域上,SRNet對(duì)礦物拉曼光譜上的局部特征提取能力較強(qiáng)從而有較高分類精度,而在頻域上,TrNet通過(guò)學(xué)習(xí)拉曼光譜全局特征信息進(jìn)行分類效果較好。再與表2對(duì)比可知,RT-Net的2個(gè)分支選擇為SRNet提取時(shí)域特征信息和TrNet提取頻域特征信息時(shí),礦物拉曼光譜分類任務(wù)模型性能最優(yōu)。
2.4.2 SRNet中通道注意力機(jī)制有效性驗(yàn)證
為了驗(yàn)證通道注意力模塊對(duì)殘差網(wǎng)絡(luò)的性能影響,通過(guò)消融實(shí)驗(yàn)和特征可視化進(jìn)行分析。消融實(shí)驗(yàn)依照控制變量法的原則分別對(duì)未引入通道注意力模塊和引入通道注意力后的殘差網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果如表3所示。由表3可見(jiàn),引入通道注意力模塊對(duì)于殘差網(wǎng)絡(luò)模型的整體性能有提升,并且4個(gè)評(píng)估指標(biāo)都優(yōu)于未引入通道注意力模塊得網(wǎng)絡(luò)模型。
除了從評(píng)價(jià)指標(biāo)能夠直觀的表現(xiàn)通道注意力模塊對(duì)網(wǎng)絡(luò)性能的提升,還可以通過(guò)引入通道注意力模塊前后的特征圖進(jìn)行可視化,從而具體地分析通道注意力模塊對(duì)殘差網(wǎng)絡(luò)帶來(lái)的性能提升。將上述2種情況的SRNet網(wǎng)絡(luò)中最后1個(gè)卷積層的特征進(jìn)行可視化,將其輸入展開(kāi)為一維向量,該向量是網(wǎng)絡(luò)模型從礦物拉曼光譜中提取的一組抽象特征,其可視化如圖8所示。
圖8(a)將未引入通道注意力模塊的SRNet的各通道輸出特征進(jìn)行可視化,其中各個(gè)通道的特征強(qiáng)度關(guān)系都相對(duì)獨(dú)立。圖8(b)將通過(guò)引入通道注意力模塊來(lái)增強(qiáng)SRNet的通道輸出特征進(jìn)行可視化,各通道的特征強(qiáng)度變化是因?yàn)橥ǖ雷⒁饬Y(jié)構(gòu)通過(guò)學(xué)習(xí)通道間的依賴關(guān)系來(lái)判斷通道的重要程度,根據(jù)特征重要程度使網(wǎng)絡(luò)模型更關(guān)注利于分類的有效特征。該實(shí)驗(yàn)驗(yàn)證了引入通道注意力模塊能夠很好的幫助SRNet對(duì)礦物拉曼光譜進(jìn)行精準(zhǔn)分類。
2.4.3 RT-Net整體網(wǎng)絡(luò)學(xué)習(xí)能力可視化分析
為了驗(yàn)證RT-Net對(duì)礦物拉曼光譜的特征學(xué)習(xí)能力,通過(guò)將深層神經(jīng)網(wǎng)絡(luò)的特征集合與全局平均池化層求得的權(quán)重系數(shù)矩陣做乘法運(yùn)算,在映射到拉曼光譜上得到1張能夠表征特征關(guān)注度的熱力圖,模擬網(wǎng)絡(luò)模型在分類過(guò)程中對(duì)特征信息的關(guān)注度,此方法能夠直觀的將網(wǎng)絡(luò)模型的特征學(xué)習(xí)能力進(jìn)行可視化。
選取任意4類礦物中各一條拉曼光譜曲線,將RT-Net模型的特征學(xué)習(xí)能力進(jìn)行了可視化分析。特征熱力圖是按照拉曼光譜曲線趨勢(shì)的散點(diǎn)構(gòu)成,其中的散點(diǎn)的顏色反應(yīng)了模型對(duì)該位置關(guān)注度的高低。對(duì)于網(wǎng)絡(luò)模型判定類別的作用越大的取樣點(diǎn),其對(duì)應(yīng)的顏色越紅,從而反應(yīng)RT-Net對(duì)礦物拉曼光譜分類時(shí)依靠的那些特征區(qū)域。而隨著對(duì)應(yīng)顏色由深紅色逐漸到淺白色最后到深藍(lán)色,則表明模型認(rèn)為該特征對(duì)于類別判斷的作用是逐漸減小的甚至是無(wú)用的。RT-Net對(duì)拉曼光譜特征學(xué)習(xí)能力可視化結(jié)果如圖9所示。
圖9中:第1列分別是4種礦物Ankinovichite、Copiapite、Juangodoyite以及PyrosmaliteMn 的拉曼光譜曲線;第2列是SRNet在礦物拉曼光譜時(shí)域上對(duì)特征信息關(guān)注程度的可視化結(jié)果,觀察發(fā)現(xiàn),SRNet通過(guò)擴(kuò)張卷積能夠?qū)W習(xí)到拉曼光譜中的局部特征峰;第3列是TrNet在拉曼光譜頻域上學(xué)習(xí)到的特征信息映射到原始圖譜上的可視化結(jié)果圖,觀察發(fā)現(xiàn),TrNet利用自注意力結(jié)構(gòu)有效地學(xué)習(xí)到礦物拉曼光譜的全局信息;第4列是RT-Net對(duì)輸入拉曼光譜的特征關(guān)注程度的可視化結(jié)果圖,相比較于支路模型,RT-Net通過(guò)注意力模塊將雙分支提取到的局部特征信息和全局信息有效融合后,能夠更加全面的關(guān)注最有利于類別判斷的特征信息。該實(shí)驗(yàn)也驗(yàn)證了設(shè)計(jì)RT-Net的初衷,通過(guò)卷積網(wǎng)絡(luò)和自注意力機(jī)制并行的雙分支網(wǎng)絡(luò)結(jié)構(gòu)對(duì)1 321類礦物拉曼光譜實(shí)現(xiàn)精準(zhǔn)分類。
2.4.4 RT-Net與其他分類算法性能對(duì)比
為驗(yàn)證RT-Net對(duì)礦物拉曼光譜分類的可行性,選用幾類經(jīng)典的機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比試驗(yàn)分析。利用PCA算法將礦物拉曼光譜數(shù)據(jù)進(jìn)行降維處理,將其高維空間特征映射到低維特征空間,然后將樣本數(shù)據(jù)的主要特征分量進(jìn)行提取,輸入到分類器中用以分類。最終在各模型在測(cè)試集上的性能比較如表4所示。
由表4可知,RT-Net準(zhǔn)確率遠(yuǎn)高于其他經(jīng)典機(jī)器學(xué)習(xí)分類方法。分類算法按照其各自的分類準(zhǔn)對(duì)礦物拉曼光譜進(jìn)行類別劃分,但由于本文數(shù)據(jù)集中礦物拉曼光譜類別數(shù)量較多,且其特征信息極為相似,導(dǎo)致拉曼光譜數(shù)據(jù)在特征空間分布較為密集,傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法難以找到準(zhǔn)確的決策面,因而難以精準(zhǔn)分類。
本文將RT-Net與其他深度學(xué)習(xí)算法以及同類任務(wù)的分類網(wǎng)絡(luò)進(jìn)行了對(duì)比試驗(yàn),在同一數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5所示。
從表5中可以看出,LSTM和GRU兩類算法的性能在數(shù)據(jù)集上表現(xiàn)并不理想,是因?yàn)閷?duì)礦物拉曼光譜而言,局部特征峰是進(jìn)行類別判斷的首要特征信息,而RNN結(jié)構(gòu)的深度學(xué)習(xí)算法善于學(xué)習(xí)中長(zhǎng)距離序列的依賴關(guān)系,導(dǎo)致沒(méi)能有效學(xué)習(xí)到有價(jià)值的特征信息。相較于單一的RNN結(jié)構(gòu),TCN算法加入了卷積結(jié)構(gòu)對(duì)礦物拉曼光譜的局部特征進(jìn)行學(xué)習(xí),能夠?qū)τ欣陬悇e判斷的特征信息進(jìn)行提取,實(shí)驗(yàn)也表明其性能要優(yōu)于RNN。原始的Transformer-Encoder結(jié)構(gòu)在數(shù)據(jù)集上進(jìn)行了訓(xùn)練測(cè)試,能夠?qū)W習(xí)礦物拉曼光譜的全局特征信息用以分類,表現(xiàn)出較好的性能。對(duì)于礦物拉曼光譜分類這一特定任務(wù)領(lǐng)域的算法CNN、1DCNN和FMCNN,在該數(shù)據(jù)集上表現(xiàn)的效果并不理想。由于上述3種算法都是基于CNN結(jié)構(gòu)提取礦物拉曼光譜的局部特征信息進(jìn)行分類的,而礦物拉曼光譜數(shù)據(jù)集中樣本類別為1 321類,類別數(shù)量更多且存在許多同譜異物的樣本數(shù)據(jù),僅憑借CNN結(jié)構(gòu)提取樣本中的局部特征信息難以判別這些“困難”樣本數(shù)據(jù)。但是RT-Net具備局部特征提取和全局特征提取的能力,并且引入了頻域特征信息,在數(shù)據(jù)集上展現(xiàn)出強(qiáng)大的分類能力,各項(xiàng)評(píng)價(jià)指標(biāo)均為最高。
3 結(jié)束語(yǔ)
本文提出了一種基于卷積和Transformer的雙分支網(wǎng)絡(luò)RT-Net拉曼光譜分類模型,實(shí)現(xiàn)了1 321類礦物拉曼光譜的精確分類。通過(guò)卷積網(wǎng)絡(luò)分支在局部特征提取模塊引入通道注意力機(jī)制來(lái)抑制低層語(yǔ)義信息,聚焦深層語(yǔ)義信息;利用Transformer使光譜特征建立全局依賴關(guān)系,增強(qiáng)全局前后文建模能力。與傳統(tǒng)分類算法和深層卷積網(wǎng)絡(luò)模型相比,RT-Net能夠全面地提取多尺度特征信息,利用注意力融合模塊將時(shí)域特征和頻域特征進(jìn)行多尺度融合從而實(shí)現(xiàn)精準(zhǔn)分類。實(shí)驗(yàn)結(jié)果表明,RT-Net是一種性能優(yōu)異的礦物拉曼光譜分類模型,相比于傳統(tǒng)光譜分類算法無(wú)需進(jìn)行預(yù)處理和特征提取等步驟,具有簡(jiǎn)單快速、分類精度高的優(yōu)點(diǎn),為更多類別的礦物拉曼光譜分類任務(wù)提供了新思路。
參考文獻(xiàn):
[1]" " VENERANDA M, MANRIQUE J A, LOPEZ-REYES G, et al. Spectroscopic study of olivine-bearing rocks and its relevance to the ExoMars rover mission[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 223:117360.
[2]" " 余東行, 張保明, 趙傳, 等. 聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)與集成學(xué)習(xí)的遙感影像場(chǎng)景分類[J]. 遙感學(xué)報(bào), 2020, 24(6):717-727.
YU D X, ZHANG B M, ZHAO C, et al. Remote sensing image scene classification based on combined convolution neural network and ensemble learning[J]. Journal of Remote Sensing, 2020, 24(6):717-727(in Chinese).
[3]" " JIA G M, CHENG F Y, YANG J F, et al. Intelligent checking model of Chinese radiotelephony read-backs in civil aviation air traffic control[J]. Chinese Journal of Aeronautics, 2018, 31(12):2280-2289.
[4]" " YU M X, SUN Y C, ZHU B F, et al. Diverse frequency band-based convolutional neural networks for tonic cold pain assessment using EEG[J]. Neurocomputing, 2020, 378:270-282.
[5]" " LIU J C, OSADCHY M, ASHTON L, et al. Deep convolutional neural networks for Raman spectrum recognition:A unified solution[J]. Analyst, 2017, 142(21):4067-4074.
[6]" " 郭志琦. 基于深度學(xué)習(xí)的拉曼光譜分析與應(yīng)用研究[D]. 烏魯木齊:新疆大學(xué), 2021.
GUO Z Q. Analysis and application of Raman spectroscopy based on deep learning[D]. Urumqi:Xinjiang University, 2021 (in Chinese).
[7]" " SANG X C, ZHOU R G, LI Y C, et al. One-dimensional deep convolutional neural network for mineral classification from Raman spectroscopy[J]. Neural Processing Letters, 2022, 54(1):677-690.
[8]" " BEHINAEIN B, BHATTI A, RODENBURG D, et al. A transformer architecture for stress detection from ECG[C]//2021 International Symposium on Wearable Computers. Virtual, USA: ACM, 2021:132-134.
[9]" " 孫嘉瑤. 深度學(xué)習(xí)注意力機(jī)制在腦電信號(hào)分類中的應(yīng)用[D]. 深圳:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院), 2021.
SUN J Y. Application of deep learning attention mechanism in EEG signal classification[D]. Shenzhen:University of Chinese Academy of Sciences (Chinese Academy of Sciences Shenzhen Advanced Technology Research Institute), 2021(in Chinese).
[10]" 葛君偉, 涂兆昊, 方義秋. 基于融合CNN和Transformer的分離結(jié)構(gòu)機(jī)器翻譯模型[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(2):432-435.
GE J W, TU Z H, FANG Y Q. A machine translation model with separate structure based on fusion CNN and Transformer[J]. Application Research of Computers, 2022, 39(2):432-435(in Chinese).
[11]" HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:7132-7141.
[12]" YAN X, GE H, YAN Q. SVM with RBF kernel and its application research[J]. Computer Engineering and Design, 2006, 27(11): 1996-1997.
[13]" KRAMER O. K-Nearest Neighbors[C]//Dimensionality Reduction with Unsupervised Nearest Neighbors. Berlin, Heidelberg:Springer, 2013:13-23.
[14]" MYLES A J, FEUDALE R N, LIU Y, et al. An introduction to decision tree modeling[J]. Journal of Chemometrics: A Journal of the Chemometrics Society, 2004, 18(6): 275-285.
[15]" RISH I. An empirical study of the naive Bayes classifier[C]//IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. Seattle, WA, USA: IJCAI, 2001: 41-46.
[16]" THARWAT A. Linear vs. quadratic discriminant analysis classifier: A tutorial[J]. International Journal of Applied Pattern Recognition, 2016, 3(2): 145-180.
[17]" GUO G D, WANG H, BELL D, et al. KNN Model-based approach in classification[C]//MEERSMAN R, TARI Z, SCHM-IDT D C. Lecture Notes in Computer Science.Berlin. Heidelberg:Springer Berlin Heidelberg, 2003:986-996.
[18]" HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[19]" CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. ArXiv e-Prints, 2014:arXiv:1406.1078.
[20]" ZHAO B D, LU H Z, CHEN S F, et al. Convolutional neural networks for time series classification[J]. Journal of Systems Engineering and Electronics, 2017, 28(1):162-169.
[21]" ZHA B, VANNI A, HASSAN Y, et al. Deep transformer networks for time series classification: The NPP safety case[J]. ArXiv preprint arXiv: 2021. 2104. 05448.
本文引文格式:
耿磊, 仇懷志, 肖志濤, 等. 基于卷積和Transformer的礦物拉曼光譜分類方法[J]. 天津工業(yè)大學(xué)學(xué)報(bào), 2024, 44(1): 53-61.
GENG L, QIU H Z, XIAO Z T, et al. Classification method of Raman spectra of mineral based on convolution and Transformer[J]. Journal of Tiangong University, 2024, 44(1): 53-61(in Chinese).
收稿日期: 2023-03-01
基金項(xiàng)目: 天津市科技計(jì)劃項(xiàng)目(20YDTPJC00110)
通信作者: 耿" " 磊(1982—),男,博士,教授,主要研究方向?yàn)闄C(jī)器視覺(jué)、深度學(xué)習(xí)等。E-mail:genglei@tiangong.edu.cn