李東明,湯 鵬,張麗娟,雷 雨,劉雙利
(1. 吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,長春 130118;2. 長春工業(yè)大學(xué)計算機科學(xué)與工程學(xué)院,長春 130012;3. 吉林農(nóng)業(yè)大學(xué)中藥材學(xué)院,長春 130118)
中醫(yī)藥經(jīng)長期臨床實踐觀察比較,逐漸形成了道地藥材這一概念。這些道地藥材由于地域、溫度、水分、光照、土壤等優(yōu)勢,其藥效品質(zhì)突出。防風(fēng)藥材為傘形科植物防風(fēng)的干燥根,主治外感表證、風(fēng)疹瘙癢、風(fēng)濕痹痛等癥。防風(fēng)為東北地區(qū)的道地藥材,是大宗藥材之一。目前,對防風(fēng)藥材的產(chǎn)地及質(zhì)量的識別方法多為基于物理或化學(xué)特征的中藥材識別,《中華人民共和國藥典》以升麻素苷(CHO)及5-O-甲基維斯阿米醇苷(CHO)的含量測定為評價指標(biāo),但是無法對防風(fēng)藥材的道地性及其質(zhì)量優(yōu)劣進行準(zhǔn)確衡量。
隨著人工智能技術(shù)的快速發(fā)展,圖像的智能分類與識別成為該領(lǐng)域中最重要的應(yīng)用目標(biāo)之一。其中,基于圖像分析的植物識別分類技術(shù)已成為國內(nèi)外植物信息學(xué)領(lǐng)域研究的熱點。目前,深度神經(jīng)網(wǎng)絡(luò)技術(shù)在識別防風(fēng)藥材產(chǎn)地或質(zhì)量仍處于空白階段,但深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在圖像分類上的研究已經(jīng)展開。Krizhevsky等搭建的AlexNet網(wǎng)絡(luò)在對大型公開集(ImageNet)進行圖像分類識別訓(xùn)練中獲得了不容忽視的好成績。在此基礎(chǔ)上學(xué)者們相繼提出VggNet、GoogLeNet、ResNet和DenseNet等經(jīng)典的深度卷積神經(jīng)網(wǎng)絡(luò),并廣泛應(yīng)用在植物圖像分類任務(wù)中。Reyes等利用180余萬張圖像對卷積神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練,并使用微調(diào)思想將學(xué)習(xí)到的識別能力從其他領(lǐng)域轉(zhuǎn)移到植物識別任務(wù)中來。Grinblat等利用卷積神經(jīng)網(wǎng)絡(luò)對植物葉片紋理模式進行識別,實現(xiàn)對3種不同豆科植物,即白豆、紅豆和大豆的識別和分類。
Dyrmann等通過CNN對22種生長初期的雜草和作物等1萬余張在光照、分辨率和土壤類型方面存在差異的植物彩色圖像進行種類識別,其準(zhǔn)確率為86.2%。Lee等嘗試使用卷積神經(jīng)網(wǎng)絡(luò)直接從輸入數(shù)據(jù)的原始表示中學(xué)習(xí)有價值的葉片特征信息,并基于反卷積網(wǎng)絡(luò)方法對所獲取到的特征信息進行直觀性分析,結(jié)果表明葉片的紋理特征在對葉片進行識別分類方面更具決定性。由于各領(lǐng)域?qū)?shù)據(jù)集采集及創(chuàng)建的局限性會嚴(yán)重影響深度網(wǎng)絡(luò)模型的性能,所以為解決訓(xùn)練樣本不足的問題,Nguyen、Ghazi、鄭一力等利用遷移學(xué)習(xí)思想,先將AlexNet、GoogLeNet、Inception V3等經(jīng)典模型在大規(guī)模圖像數(shù)據(jù)集(ImageNet)中進行預(yù)訓(xùn)練,然后將得到的預(yù)訓(xùn)練模型應(yīng)用于目標(biāo)數(shù)據(jù)集上并進行微調(diào)來達到更好的識別分類效果。
大量科學(xué)試驗證明卷積神經(jīng)網(wǎng)絡(luò)引進注意力機制對提高網(wǎng)絡(luò)性能有著極大的促進作用,所以近年來注意力機制得到快速的發(fā)展與壯大。Hu等提出了SE(Squeeze Excitation)機制,它學(xué)習(xí)特征圖中各個通道間的關(guān)聯(lián)得到通道注意力,使網(wǎng)絡(luò)對信息豐富的通道格外關(guān)注;CBAM(Convolutional Block Attention Module)機制則在SE機制基礎(chǔ)上進行了進一步地擴展,該機制將特征圖按通道進行全局池化,獲得空間注意力;BAM(Bottleneck Attention Module)則采用并聯(lián)的方式將空間、通道兩種注意力進行整合;Wang等提出的Non-Local模型通過全局像素點對局部像素點的計算響應(yīng),即實現(xiàn)對特征圖的全局進行更有效關(guān)注,并與三維神經(jīng)網(wǎng)絡(luò)有效集成,該模型在視頻分類任務(wù)中有較好效果;Fu等提出的DANet則探索了特征圖中各空間和各通道間的關(guān)聯(lián)關(guān)系,分別生成全局通道注意力和空間注意力,該模型在語義分割任務(wù)中取得了較好的效果;Li等提出的SK(Selective Kernel)結(jié)構(gòu)采用SE模型和殘差網(wǎng)絡(luò)相結(jié)合的思想,能夠根據(jù)特征圖的不同尺度讓網(wǎng)絡(luò)動態(tài)地選擇不同的感受野,提高了注意力機制的靈活度;Hou等提出的CA(Coordinate Attention)協(xié)調(diào)注意力機制是將位置信息嵌入到通道注意力模型中,對輸入的特征圖進行自適應(yīng)特征細化,可進一步提高網(wǎng)絡(luò)的性能。
結(jié)合相關(guān)研究分析,本文嘗試將深度學(xué)習(xí)技術(shù)引入中藥材產(chǎn)地識別領(lǐng)域,應(yīng)用于防風(fēng)藥材產(chǎn)地識別。防風(fēng)藥材的表型作為區(qū)分防風(fēng)藥材產(chǎn)地的首選器官,受生長年限和人為因素影響,同一產(chǎn)地的防風(fēng)藥材外觀形態(tài)也極易發(fā)生改變。防風(fēng)藥材的顏色紋理特征在同一地區(qū)受外界特殊情況影響較小,外部性狀較為穩(wěn)定。但是同物種空間形態(tài)和顏色紋理特征較為復(fù)雜,區(qū)分度較低,對防風(fēng)產(chǎn)地識別屬于精細分類范疇。本文在上述研究成果的基礎(chǔ)上,通過分析已有的ResNet和DenseNet卷積神經(jīng)網(wǎng)絡(luò)模型的圖像特征提取能力,提出了一種改進稠密連接網(wǎng)絡(luò)用于防風(fēng)藥材產(chǎn)地識別的方法,以期為構(gòu)建可靠、精準(zhǔn)、快速的防風(fēng)產(chǎn)地識別系統(tǒng)提供理論基礎(chǔ)。
防風(fēng)樣品來自吉林農(nóng)業(yè)大學(xué)中藥材學(xué)院中心實驗室。該實驗室提供了正品防風(fēng)(根據(jù)地域不同,包括關(guān)防風(fēng)、口防風(fēng)和西北防風(fēng))的主要產(chǎn)區(qū)的防風(fēng)樣本,包括黑龍江、吉林、河北、甘肅、內(nèi)蒙古東北部5個產(chǎn)地1 500余個防風(fēng)樣品。將樣本展平至白色背景上,在室內(nèi)自然光下手機拍攝獲得每種產(chǎn)地防風(fēng)圖像約3 500張,共拍攝防風(fēng)藥材圖像18 543張,充分考慮到各類防風(fēng)地域分布差異。通過對本數(shù)據(jù)集圖像進行隨機裁剪、隨機旋轉(zhuǎn)、隨機翻轉(zhuǎn)等增廣處理,擴充至55 628張防風(fēng)圖像,來增強數(shù)據(jù)樣本,數(shù)據(jù)集圖像信息如圖1所示。
圖1 防風(fēng)藥材數(shù)據(jù)集Fig.1 Saposhnikovia divaricata data set
為排除試驗存在的偶然性,確保其穩(wěn)定性,各網(wǎng)絡(luò)模型訓(xùn)練均采用5折交叉驗證的方法,將整個數(shù)據(jù)集的80%作為測試集,另外20%作為驗證集。采用Python腳本程序?qū)⒄麄€數(shù)據(jù)集隨機近似均等化分為5部分,每部分逐一作為驗證集,另外4部分的圖像樣本進行對各網(wǎng)絡(luò)模型的訓(xùn)練,使網(wǎng)絡(luò)模型在訓(xùn)練過程中訓(xùn)練集與驗證集的數(shù)量比始終為4:1,本文最終試驗結(jié)果為5次試驗的平均值。數(shù)據(jù)集劃分示例如表1所示。
表1 數(shù)據(jù)集劃分Table 1 Data set partition
稠密連接網(wǎng)絡(luò)(DenseNet)的組成單元即為稠密模塊(Dense Block),稠密模塊結(jié)構(gòu)如圖2所示。每一個稠密模塊由五層網(wǎng)絡(luò)結(jié)構(gòu)組成,每層網(wǎng)絡(luò)均含卷積層(Convolution Layer, Conv)、激活函數(shù)層(Rectified Linear Units Layer, ReLU)和批量標(biāo)準(zhǔn)化層(Batch Normalization Layer, BN)。
圖2 稠密模塊Fig.2 Dense block
稠密模塊使用了一種更加密集的連接模式,它以一種層與層之間直接連接的方式迭代連接所有的輸出。因此,第層的輸出x為:
式中[...]表示連接操作,它通過對輸出的連接進行特征重用,H的操作定義為:一個批量標(biāo)準(zhǔn)化層(BN)后接激活函數(shù)(ReLU)再加一個卷積層(Conv)、隨機失活層與池化層。BN層擁有正向及反向傳播結(jié)構(gòu),主要解決梯度消失與爆炸問題。隨機失活層通過隨機關(guān)閉神經(jīng)元,有效緩解了網(wǎng)絡(luò)訓(xùn)練過程中信息冗余問題。
由于各產(chǎn)地防風(fēng)藥材的表型在直觀上差別不大,需要對其外部紋理及相關(guān)色澤等方面進行細粒度分類。因為稠密連接網(wǎng)絡(luò)可以擁有更深的網(wǎng)絡(luò)層次,且網(wǎng)絡(luò)模型參數(shù)數(shù)量相比較小,具有深層新特征信息挖掘能力強及特征的重復(fù)利用率高等優(yōu)點。因此,成為完成類似于對防風(fēng)藥材產(chǎn)地識別這樣細粒度分類任務(wù)的首選。但是,這也會增加稠密連接網(wǎng)絡(luò)的計算量,網(wǎng)絡(luò)對內(nèi)存或顯存消耗過多,這對處理設(shè)備提出了更高的要求。
殘差網(wǎng)絡(luò)是He等提出的一種優(yōu)異的深度學(xué)習(xí)算法,這種算法擁有較稠密連接網(wǎng)絡(luò)更輕型的結(jié)構(gòu),同時由于殘差網(wǎng)絡(luò)易于優(yōu)化的特點,也使得大量的學(xué)者對其進行了深入的研究。
殘差塊(Residual Block)的輸入與線性輸出進行特征信息融合,作為該殘差塊的整體輸出,并通過BN層(Batch Normalized)進行歸一化操作。因此,殘差模塊可有效減少在網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)的梯度彌散、過擬合等現(xiàn)象。
殘差模塊如圖3所示,輸入特征信息分別經(jīng)過圖中主干的3個卷積層的運算輸出為(,,,),其中第一個1×1的卷積層和第三個1×1的卷積層分別起到降維和升維的作用,以達到節(jié)約參數(shù)的目的。、、表示在殘差模塊各層所學(xué)習(xí)的權(quán)重參數(shù),W表示經(jīng)過殘差模塊輸出的維度方陣,并與(,,,)融合,成為下個殘差模塊的輸入。
根據(jù)W的模是否為1來判斷殘差模塊的輸入和輸出維度相同與否,如果W的模不為1即為不相同,則可利用W將殘差模塊的輸入和輸出調(diào)整到相同維度。當(dāng)與相等時表示恒等映射;當(dāng)與不相等時,則表示殘差模塊需學(xué)習(xí)兩者之間不同的信息。
圖3 殘差模塊Fig.3 Residual block
注意力機制已經(jīng)被廣泛應(yīng)用到深度學(xué)習(xí)領(lǐng)域之中,并對提升網(wǎng)絡(luò)模型在分類、檢測和預(yù)測等任務(wù)方面的準(zhǔn)確率有著突出貢獻。廣泛應(yīng)用在卷積神經(jīng)網(wǎng)絡(luò)中的注意力機制主要分為:通道注意力機制和空間注意力機制。
雖然通道注意力機制對于提升網(wǎng)絡(luò)模型性能具有顯著效果,但它們通常會忽略位置信息,空間注意力機制在對通道信息進行學(xué)習(xí)時也存在一定局限性。因此本網(wǎng)絡(luò)模型引入?yún)f(xié)調(diào)注意力(,CA)模型。CA模型是將位置信息嵌入到信道注意中,對輸入的特征圖進行自適應(yīng)特征細化,CA模型的結(jié)構(gòu)如圖4所示。
圖4 協(xié)調(diào)注意力機制模型Fig.4 Coordination attention mechanism model
經(jīng)上述變換網(wǎng)絡(luò)可學(xué)習(xí)到優(yōu)良的全局感受野,編碼精確的位置信息。為更好的利用以上學(xué)習(xí)到的特征信息,通過上述的變換進行連接融合。再利用一個卷積核尺寸為1×1的變換函數(shù),對其進行再一次變換操作,即:
式中表示sigmoid激活函數(shù),然后對g和g進行拓展,作為注意力權(quán)重,CA模型的最終輸出為:
使殘差模塊結(jié)構(gòu)可以在增加網(wǎng)絡(luò)深度的基礎(chǔ)上,進一步提高對特征信息利用的準(zhǔn)確性與高效性。
根據(jù)防風(fēng)藥材數(shù)據(jù)集圖像背景復(fù)雜且不單一的特點,對其進行分類訓(xùn)練時,加深了網(wǎng)絡(luò)對其空間位置特征信息和通道特征信息的依賴。本文按照協(xié)調(diào)注意力機制原理,將CA模型嵌入到含有跳躍連接的殘差模塊中,歸因于在特征集合相加操作前對分支上殘差的特征進行了特征重標(biāo)定,以實現(xiàn)對網(wǎng)絡(luò)模型的優(yōu)化,若對特征集合相加操作后主支上的特征進行重標(biāo)定,由于在主干上存在0~1的加權(quán)操作,在網(wǎng)絡(luò)較深情況下,進行反向傳播優(yōu)化時在靠近輸入層容易出現(xiàn)梯度消散的情況,導(dǎo)致網(wǎng)絡(luò)模型性能難以獲得提升。因此,CA模型分別以水平、垂直兩個空間方向?qū)Ω魍ǖ捞卣鬟M行編碼,并將獲得的空間位置信息嵌入到通道注意力機制中,對輸入的特征圖進行自適應(yīng)特征細化,來適應(yīng)數(shù)據(jù)集各類別之間其表型差別性小的細粒度圖像分類任務(wù)。將CA模型引入殘差模塊中應(yīng)用在防風(fēng)藥材產(chǎn)地識別上,使新網(wǎng)絡(luò)在訓(xùn)練過程中既能學(xué)習(xí)到目標(biāo)圖像的通道信息又能獲取到目標(biāo)圖像的精確位置信息,有效提高網(wǎng)絡(luò)模型的性能。改進殘差塊模型結(jié)構(gòu)如圖5所示。
圖5 改進殘差塊模型Fig.5 Improved residual block model
在圖5中,Conv和BN為一個卷積處理層,具體過程為:一個卷積核尺寸為1×1的卷積處理層,對傳入的特征信息進行降維,減少運算量,后接一個卷積核尺寸為3×3的卷積運算層,來進行常規(guī)訓(xùn)練;然后,將輸出的特征圖合并,輸入到CA模型,原因在于CA模型內(nèi)具有大量的非線性優(yōu)化操作,可以更好地擬合空間、通道間復(fù)雜的相關(guān)性,并極大地減少了參數(shù)量和計算量;接著,通過一個Sigmoid層獲得0~1之間歸一化的權(quán)重,通過一個加權(quán)操作將歸一化后的權(quán)重加權(quán)到每個特殊的通道上,使其可以有效增加特征圖的通道信息以及空間位置信息;再將輸出的注意力特征與原始的輸入特征通過短連接相加,使網(wǎng)絡(luò)性能獲得進一步的提升;最后,在接入一個卷積核尺寸為1×1的卷積處理層,來還原輸入特征信息的維度,這樣可保持網(wǎng)絡(luò)識別目標(biāo)的精度和減少計算量。
研究發(fā)現(xiàn),深度殘差模塊采用殘差旁支通路方式善于對特征信息重復(fù)利用,但殘差神經(jīng)網(wǎng)絡(luò)只使用淺層卷積提取特征,缺少深層語義信息表達。稠密模塊采用密集連接通路方式,使其可以探索深層新特征,但存在冗余。
經(jīng)借鑒DCNet網(wǎng)絡(luò)的重要思想,本文將改進的殘差模塊引進到稠密網(wǎng)絡(luò)。本文結(jié)合殘差塊的特征重用特點和稠密塊對新特征探索的特點,來提高網(wǎng)絡(luò)的高效性,有效地解決隨著殘差塊疊加,網(wǎng)絡(luò)存在梯度彌散的一系列問題,并減少網(wǎng)絡(luò)參數(shù)的運算量。同時,還結(jié)合遷移學(xué)習(xí)思想,對全連接層進行重構(gòu),以提高模型非線性表達能力,提高網(wǎng)絡(luò)的整體性能。
本文提出的改進稠密連接網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。在圖6中,該網(wǎng)絡(luò)模型包含卷積層、改進殘差層、稠密連接層、池化層和重構(gòu)層5個部分。
圖6 改進稠密連接網(wǎng)絡(luò)模型Fig.6 Improved densely connected network model
1)卷積層:該部分由一個具有64個卷積核大小尺寸為7×7的卷積層構(gòu)成,卷積的步長為2,填充像素為3,對RGB圖像進行卷積處理,提取圖像的淺層特征信息。
2)改進殘差層:在提取特征之后,所獲得的特征信息需要先后經(jīng)過7個改進的殘差模塊進行處理,經(jīng)過該層首先經(jīng)過兩個擁有64個卷積核大小為1×1和3×3的卷積層,起到對特征信息進行降維的作用;然后,將卷積后生成的特征圖輸入到CA模型,即將傳入的特征信息,采用大小為(,1),(1,)的兩種池化核分別以水平、垂直兩個空間方向?qū)Ω魍ǖ谰酆咸卣鳌2⑸厦娴奶卣鬟M行連接操作,使用1×1卷積變換函數(shù)對其進行變換操作,并沿著空間維度將水平和垂直方向進行編碼的中間特征映射,分解為兩個單獨的張量;接著,應(yīng)用另外兩個1×1的卷積變換分別將兩個單獨的張量變換成具有相同通道數(shù)的張量并進行連接操作,再經(jīng)過Sigmoid激活函數(shù)將融合之后的通道特征進行自適應(yīng)加權(quán),再將CA模型輸出的深層特征信息與特征提取部分輸出的淺層特征信息結(jié)合;最后,使用具有64個卷積核大小為1×1的卷積層進行特征融合并恢復(fù)到原本維度。
3)稠密連接層:為提升網(wǎng)絡(luò)對特征信息學(xué)習(xí)和描述的性能,在網(wǎng)絡(luò)的深層保留兩組稠密模塊,每組稠密塊由6組1×1和3×3卷積構(gòu)成。兩組稠密塊之間由過渡層(Transition layer)鏈接,過渡層由歸一化、卷積核大小為1×1的卷積層和池化層構(gòu)成。第1組稠密塊的輸入是CA模型所獲得的特征信息經(jīng)過歸一化、ReLU激活函數(shù)和卷積核大小為3×3的卷積層等一系列操作,所獲取的局部特征信息的串聯(lián)。這樣可以有效緩解在特征提取過程中所造成的空間維度信息丟失的問題,且由于稠密模塊設(shè)計較為狹窄,大大地降低了網(wǎng)絡(luò)的參數(shù)冗余度。
4)池化層:經(jīng)過稠密層所獲得的特征信息,輸入到池化層進行歸一化和ReLU激活函數(shù)層后進行自適應(yīng)平局池化,使池化后的每個通道的大小為1×1。
5)重構(gòu)層:為了提高對防風(fēng)藥材產(chǎn)地識別精度和網(wǎng)絡(luò)模型的泛化能力,本文引入遷移思想,在ImageNet數(shù)據(jù)集上進行預(yù)訓(xùn)練得到初始化深度模型,并在防風(fēng)數(shù)據(jù)集上進行遷移訓(xùn)練。在遷移中,對最后全連接層進行重構(gòu),提高網(wǎng)絡(luò)模型非線性表達能力。具體做法:首先,將原全連接層輸入的特征信息傳送到具有256個輸出的線性層,隨后分別經(jīng)過ReLU函數(shù)和Dropout層,后進入256×5線性層,輸出為5通道的softmax層,來適應(yīng)網(wǎng)絡(luò)模型對各種防風(fēng)藥材產(chǎn)地的精確識別;最后,通過分類器Logsoftmax來對輸入的特征信息進行識別判斷。本文通過“凍結(jié)”網(wǎng)絡(luò)中初始層的權(quán)重,使網(wǎng)絡(luò)具有抽取圖像特征的能力,防止過擬合情況的發(fā)生,實現(xiàn)不同產(chǎn)地防風(fēng)圖像自動識別。
試驗配置環(huán)境為GPU并行計算工作站,處理器為Xeon(R)CPU E5-2680v4、顯卡為GeForce GTX 1080Ti、采用Ubuntu 16.04LTS操作系統(tǒng)、軟件配置安裝Anaconda3-5.2.0-Linux版本,并基于Python 3.6.5編程語言搭建Pytorch的深度學(xué)習(xí)框架。
本文提出的新網(wǎng)絡(luò)模型訓(xùn)練時采用的具體試驗參數(shù)信息如表2所示。為驗證新網(wǎng)絡(luò)模型的有效性,本文以網(wǎng)絡(luò)模型參數(shù)、模型損失以及識別出藥材產(chǎn)地準(zhǔn)確率作為評價指標(biāo)。分別選擇Vgg16、GoogLeNet、ResNet101和DenseNet121四種經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)并按照對應(yīng)原論文中原型框架和參數(shù)設(shè)置方式對防風(fēng)藥材數(shù)據(jù)集進行對比試驗,結(jié)果如表3所示。
經(jīng)對比試驗結(jié)果表明,新網(wǎng)絡(luò)模型在本數(shù)據(jù)集上識別平均準(zhǔn)確率達到97.23%,平均損失僅為0.15,收斂速度也遠快于其他網(wǎng)絡(luò)模型。因此,本研究提出的新網(wǎng)絡(luò)的性能與其他網(wǎng)絡(luò)模型對比有較大幅度的提升。各網(wǎng)絡(luò)模型識別分類準(zhǔn)確率及損失曲線如圖7所示。
表2 新模型訓(xùn)練參數(shù)Table 2 New model training parameters
表3 不同卷積神經(jīng)網(wǎng)絡(luò)模型試驗結(jié)果對比Table 3 Comparison of experimental results of different CNN models
圖7 各模型對數(shù)據(jù)集的識別結(jié)果Fig.7 Recognition results of each model on the data set
3.2.1 殘差層對模型性能的影響
試驗過程中對比網(wǎng)絡(luò)模型均參照論文中原型框架和參數(shù)設(shè)置方式,單次訓(xùn)練樣本數(shù)量為32,輸入圖片尺度采用256×256像素。根據(jù)試驗對比發(fā)現(xiàn),DenseNet比ResNet的模型參數(shù)少4×10,但是DenseNet對GPU的占用率高達89.2%,且收斂速度慢。
其原因在于在相同深度的這兩個網(wǎng)絡(luò)DenseNet擁有比ResNet更輕的結(jié)構(gòu),稠密塊(Dense Block)中每兩層網(wǎng)絡(luò)之間都為直接連接,能夠?qū)μ卣餍畔⑦M行直接輸入與輸出,因此對于一個擁有層網(wǎng)絡(luò)結(jié)構(gòu)的模塊,則該模塊的直接連接數(shù)僅有(+1)/2個。故每次卷積輸入與輸出的通道個數(shù)要比ResNet少很多,使 BN層和全連接層的運算參數(shù)量也相應(yīng)地減少;但DenseNet比ResNet的特征圖信息更加復(fù)雜,導(dǎo)致卷積過程的計算量增大,內(nèi)存的訪問次數(shù)也隨之增加,且內(nèi)存的訪問相對費時,使得GPU占用率過高,訓(xùn)練速度緩慢。
因此,結(jié)合DenseNet和ResNet的運算特點,本文通過引進殘差模塊與稠密模塊相結(jié)合的新網(wǎng)絡(luò)相比于其他傳統(tǒng)神經(jīng)網(wǎng)絡(luò),既減少網(wǎng)絡(luò)對內(nèi)存的訪問次數(shù)及運算量,弱化網(wǎng)絡(luò)對資源的依賴程度。又加強了特征傳播,鼓勵特征重用,并大大減少了參數(shù)的數(shù)量,改進了整個網(wǎng)絡(luò)的信息流和梯度,這使得它們易于訓(xùn)練,很大程度上能夠克服訓(xùn)練的過擬合。新模型的參數(shù)規(guī)模僅為8.3×10,GPU的占用率大幅度下降,收斂速度也遠快于其他對比網(wǎng)絡(luò)。
3.2.2 注意力機制對網(wǎng)絡(luò)模型性能的影響
將本研究提出的新網(wǎng)絡(luò)中的CA模型替換為不同注意力模型進行防風(fēng)產(chǎn)地識別試驗并進行對比:1)現(xiàn)有經(jīng)典的通道注意力SE(Squeeze-Excitation)模型,新網(wǎng)絡(luò)中的注意力模型換成SE模型(簡稱為Model(SE));2)CBAM(Convolutional Block Attention Module)模型則是在通道注意力機制基礎(chǔ)上進一步串聯(lián)空間注意力機制而擴展所得到的,將新網(wǎng)絡(luò)中的注意力模型換成CBAM模型(簡稱為Model(CBAM));3)BAM(Bottleneck Attention Module)模型則是采用并聯(lián)的方式將空間注意力和通道注意力整合得到的,將新網(wǎng)絡(luò)中的注意力模型換成BAM模型(簡稱為Model(BAM));4)CA(Coord Attention)模型則是將位置信息嵌入到了通道注意力中所得到的輕量級網(wǎng)絡(luò),新網(wǎng)絡(luò)原模型(簡稱為Model(CA));5)將新網(wǎng)絡(luò)中的注意力模型去掉(簡稱為Model(NO)),各網(wǎng)絡(luò)模型對防風(fēng)藥材的產(chǎn)地識別結(jié)果如表4所示。
表4 不同注意力機制模型識別結(jié)果對比Table 4 Recognition results comparison of different attention mechanism models
為了證明本文提出的加入CA模型的有效性,進行了一系列的關(guān)于注意力機制的試驗,與廣泛應(yīng)用的注意力模型SE、CBAM和BAM進行對比,其結(jié)果列于表4中。由試驗結(jié)果可以看出,Model(NO)網(wǎng)絡(luò)對防風(fēng)藥材產(chǎn)地識別的平均準(zhǔn)確率達到 93.84%。而 Model(SE) 、Model(CBAM)、 Model(BAM)和Model(CA) 網(wǎng)絡(luò)對防風(fēng)藥材產(chǎn)地識別的平均準(zhǔn)確率分別達到94.71%、95.94%、95.07%和97.23%。由此表明加入以上注意力機制的新網(wǎng)絡(luò)對防風(fēng)藥材產(chǎn)地識別的準(zhǔn)確率都有不同程度的提高,分別提高了0.87個百分點、2.1個百分點、1.23個百分點和3.39個百分點。這證明了注意力機制的引入對提高網(wǎng)絡(luò)模型準(zhǔn)確率的有效性,其中,CA模型對網(wǎng)絡(luò)模型準(zhǔn)確率的提升效果最佳。由于只有SE模型是基于通道注意力機制,而文中其他注意力模型都是通道注意力機制與位置特征信息的有機結(jié)合。由SE與CBAM、BAM、CA注意力對比試驗結(jié)果可知,空間特征信息似乎對網(wǎng)絡(luò)有較大貢獻。
原因在于,CA機制與傳統(tǒng)通道注意力機制的工作方式大相徑庭,CA模型是通過將全局池化變換為兩個一維特征編碼的操作,并采用大小不同的兩種池化核分別以水平、垂直兩個空間方向?qū)Ω魍ǖ谰酆咸卣鳌Mㄟ^這種方式,網(wǎng)絡(luò)可以從不同方向?qū)W習(xí)到遠程信息的交互性信息并獲取樣本目標(biāo)空間特征信息。
將得到的特征圖分別編碼為具有全局感受野和精確位置信息的注意力圖,可以將其應(yīng)用于輸入的特征圖作為輸入的完善信息,以增強對待識別目標(biāo)的表示。所以當(dāng)使用原網(wǎng)絡(luò)中的CA模型時,網(wǎng)絡(luò)獲得的識別效果最佳。
針對與CA模型同為空間和通道特征信息結(jié)合且試驗效果較好的CBAM模型進行結(jié)構(gòu)對比分析,發(fā)現(xiàn)CA模型相對于CBAM模型所提出的位置信息編碼方式的優(yōu)點是雙重的,首先CBAM模型中的空間注意機制將通道維壓縮為1,從而導(dǎo)致信息丟失。但是CA模型使用適當(dāng)?shù)目s小比率來減小瓶頸中的通道尺寸,從而避免過多的信息丟失。其次,CBAM模型利用內(nèi)核大小的卷積層7×7編碼局部空間信息,而CA模型集中于通過使用兩個互補的一維全局池化操作對全局信息進行編碼。這使網(wǎng)絡(luò)能夠集中精力捕捉視覺任務(wù)必不可少的空間位置之間的長期依賴關(guān)系。
如圖8所示,在最后一個構(gòu)建塊中對嵌入CA模型方法前后的新網(wǎng)絡(luò)所生成的熱力特征圖進行可視化。使用Grad-CAM作為可視化工具。很明顯,CA模型可以更準(zhǔn)確地定位到感興趣且有價值的區(qū)域
圖8 嵌入CA模型前后新網(wǎng)絡(luò)熱力特征圖的可視化結(jié)果Fig.8 Visualization results of the thermal feature maps of the new network before and after the CA model is embedded
3.2.3 數(shù)據(jù)擴充對網(wǎng)絡(luò)模型性能的影響
為更好提高新網(wǎng)絡(luò)模型的識別性能,本文分別通過以下3種方式對數(shù)據(jù)集進行數(shù)據(jù)擴充:1)隨機裁剪尺寸為256×256像素;2)隨機翻轉(zhuǎn);3)通過多種角度進行隨機旋轉(zhuǎn)。以新網(wǎng)絡(luò)為試驗?zāi)P?,在其他參?shù)相同的條件下,分別對擴充前數(shù)據(jù)集(18 543張)和擴充后數(shù)據(jù)集(55 628張)進行對比試驗。準(zhǔn)確率曲線如圖9所示。
圖9 數(shù)據(jù)擴增前后準(zhǔn)確度曲線Fig.9 Accuracy curve before and after data amplification
通過對數(shù)據(jù)進行預(yù)處理操作提高了數(shù)據(jù)樣本圖像的多樣性,并可以抑制網(wǎng)絡(luò)訓(xùn)練過程中過擬合現(xiàn)象的發(fā)生。新網(wǎng)絡(luò)模型對擴充前后數(shù)據(jù)集進行對比訓(xùn)練試驗,但試驗結(jié)果顯示其對模型準(zhǔn)確度提升效果并不明顯,其試驗結(jié)果分別是96.34%、97.23%,兩者識別準(zhǔn)確率相差不到1個百分點。說明在應(yīng)用遷移學(xué)習(xí)模式背景下,進行防風(fēng)藥材數(shù)據(jù)集的擴充對于提升網(wǎng)絡(luò)模型識別分類性能的影響較小,原因是預(yù)訓(xùn)練模型在大型圖像數(shù)據(jù)集上已經(jīng)獲得了較多的知識信息儲備,進而弱化了數(shù)據(jù)擴充的作用。
試驗初期準(zhǔn)確率波動性大的主要原因在于:為了減少數(shù)據(jù)預(yù)處理所占用存儲空間,所以試驗將部分數(shù)據(jù)預(yù)處理操作采用了在線動態(tài)的方式來進行。在試驗過程中,從數(shù)據(jù)集中隨機獲取部分樣本圖像進行歸一化、中心裁剪等相關(guān)預(yù)處理,并重新排列初始數(shù)據(jù)集的默認圖像順序,也伴隨偶然性。但伴隨訓(xùn)練的深入,網(wǎng)絡(luò)模型逐漸健碩,數(shù)據(jù)集回歸原始樣本圖像分布,所以準(zhǔn)確率波動幅度逐漸減小,網(wǎng)絡(luò)模型的泛化性隨之提升。
1)本文構(gòu)建了一個防風(fēng)藥材產(chǎn)地圖像識別數(shù)據(jù)集,該數(shù)據(jù)集可以作為基準(zhǔn)數(shù)據(jù)集對當(dāng)前主流機器學(xué)習(xí)方法進行驗證。通過分析已有的ResNet和DenseNet卷積神經(jīng)網(wǎng)絡(luò)模型,本文提出一種改進稠密連接網(wǎng)絡(luò)模型。
2)新網(wǎng)絡(luò)模型構(gòu)建過程為:首先對殘差模塊進行改進,即在殘差模塊中引入了協(xié)調(diào)注意力機制(Coordinate Attention),來適應(yīng)各產(chǎn)地防風(fēng)之間表型差別性小的細粒度圖像分類任務(wù),并提高分類識別的準(zhǔn)確率。再將改進的殘差模塊與稠密模塊進行具有針對性的結(jié)合,這樣可提高網(wǎng)絡(luò)探索新特征的靈活性和利用特征的高效性,減少網(wǎng)絡(luò)參數(shù)的運算量,增強網(wǎng)絡(luò)模型的泛化性。
3)通過對比試驗,各網(wǎng)絡(luò)模型在新防風(fēng)藥材數(shù)據(jù)集上的結(jié)果表明:經(jīng)典的傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)Vgg16、GoogLeNet、ResNet101和DenseNet121對防風(fēng)藥材產(chǎn)地識別的準(zhǔn)確率分別為:86.74%、88.56%、91.28%和93.46%。而改進后的新網(wǎng)絡(luò)對防風(fēng)藥材產(chǎn)地識別的平均準(zhǔn)確率可達97.23%,本文提出的新網(wǎng)絡(luò)對比以上經(jīng)典的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對防風(fēng)藥材產(chǎn)地識別的平均準(zhǔn)確率有較大程度的提高。并且本文提出的新網(wǎng)絡(luò)在訓(xùn)練過程中僅需要約48輪便可達到收斂的狀態(tài);但以上其他神經(jīng)網(wǎng)絡(luò)再對比試驗中需要上百輪才可以達到收斂狀態(tài)。綜上本文提出的新網(wǎng)絡(luò)模型參數(shù)僅為8.3×10,識別準(zhǔn)確率遠高于其他對比網(wǎng)絡(luò);也極大地提高了收斂速度;證明新模型對防風(fēng)藥材產(chǎn)地精確高效識別的有效性。
將深度學(xué)習(xí)應(yīng)用于中藥材領(lǐng)域后,可以使中醫(yī)藥在臨床醫(yī)療上取得更快、更健康的發(fā)展,為中藥材的道地性識別問題在理論與實踐中得到更好的解決。