葉青 馮振乾 朱彥陳 杜建強(qiáng)
摘 ?要:為提高人們的中醫(yī)藥文化素養(yǎng),克服人們對中藥飲片認(rèn)知依賴專家經(jīng)驗(yàn)的問題,探索計(jì)算機(jī)視覺技術(shù)識別中藥飲片的可行性,文章建立了包含60種常用中藥飲片的數(shù)據(jù)庫,構(gòu)建一種用于中藥飲片圖像識別的輕量化卷積神經(jīng)網(wǎng)絡(luò)模型(ConvFormer),并與常用的圖像識別算法進(jìn)行了實(shí)驗(yàn)對比。實(shí)驗(yàn)結(jié)果表明,該文提出的ConvFormer模型優(yōu)于常用的幾種圖像識別算法,模型經(jīng)過微調(diào)后識別準(zhǔn)確率可達(dá)98.4%,可為中藥飲片圖像識別提供可靠的技術(shù)支撐。
關(guān)鍵詞:中藥飲片;高低頻提??;輕量化卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.4 ? ? 文獻(xiàn)標(biāo)識碼:A ? 文章編號:2096-4706(2023)14-0001-07
Intelligent Screening of Decoction Pieces of Traditional Chinese Medicine Based on Deep Learning
YE Qing, FENG Zhenqian, ZHU Yanchen, DU Jianqiang
(College of Computer Science, Jiangxi University of Chinese Medicine, Nanchang ?330004, China)
Abstract: To improve people's literacy of traditional Chinese medicine culture and overcome the problem that people's cognition of TCM decoction pieces depends on expert experience, and explore the feasibility of computer vision technology to identify TCM decoction pieces. In this paper, a database containing 60 commonly used TCM decoction pieces is established, and a lightweight convolutional neural network model (ConvFormer) is constructed for TCM decoction pieces image recognition, and experimental comparisons are conducted with commonly used image recognition algorithms. The experimental results show that the ConvFormer model proposed in this paper is superior to several commonly used image recognition algorithms. After fine-tuning, the recognition accuracy of the model can reach 98.4%, providing reliable technical support for image recognition of TCM decoction pieces.
Keywords: TCM decoction piece; high and low frequency extraction; lightweight convolutional neural network
0 ?引 ?言
中藥飲片是在傳統(tǒng)中醫(yī)藥理論的指導(dǎo)下,根據(jù)辨證論治和臨床制劑的需要,對中藥材進(jìn)行加工的炮制品。隨著國家大力提倡發(fā)展中醫(yī)藥事業(yè),人們越來越重視中醫(yī)藥對健康飲食保健的影響,因此對中藥飲片的需求量也日益增加,市場上出現(xiàn)摻偽摻假、飲片炮制不合理、農(nóng)藥殘留等現(xiàn)象,嚴(yán)重危害使用者的健康安全[1]。傳統(tǒng)鑒別中藥飲片的方法依賴于專業(yè)人員的視覺感官和長期積累的相關(guān)經(jīng)驗(yàn),這種鑒別方法效率低下,且容易受外界因素的干擾。人工智能圖像處理技術(shù)的快速發(fā)展使得現(xiàn)代計(jì)算機(jī)技術(shù)與傳統(tǒng)中醫(yī)藥的結(jié)合成為新的發(fā)展方向。國家藥監(jiān)局發(fā)布的《國家藥監(jiān)局關(guān)于促進(jìn)中藥傳承創(chuàng)新發(fā)展的實(shí)施意見》中指出,要促進(jìn)現(xiàn)代信息技術(shù)在中藥生產(chǎn)中的應(yīng)用[2]。國務(wù)院辦公廳關(guān)于印發(fā)《“十四五”中醫(yī)藥發(fā)展規(guī)劃》中同樣指出,要加快中藥材自動化智能化水平[3]。越來越多的政策推動中醫(yī)藥領(lǐng)域應(yīng)用大數(shù)據(jù)、人工智能等新一代“智能”技術(shù)。因此,將深度學(xué)習(xí)人工智能技術(shù)合理運(yùn)用到中藥飲片的鑒定鑒別上,可在一定程度上替代人工完成中藥飲片的種類智能化識別,甚至是對于同一種類不同形態(tài)的質(zhì)量甄別,提高人們對中藥飲片的認(rèn)知,促進(jìn)中醫(yī)藥文化的傳承與發(fā)展。
根據(jù)相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)與分析,使用計(jì)算機(jī)視覺技術(shù)對中藥飲片進(jìn)行鑒定尚未形成規(guī)模化效應(yīng)。相較于人臉識別,對中藥飲片的識別研究還比較少,但大體來說主要分為兩種:1)使用傳統(tǒng)的圖像識別算法。該類算法首先進(jìn)行顏色紋理形狀的特征提取,然后使用機(jī)器學(xué)習(xí)分類器進(jìn)行分類。2)使用深度學(xué)習(xí)算法。該類算法能夠自動提取圖像的高層語義特征并進(jìn)行分類。傳統(tǒng)的圖像識別算法在進(jìn)行特征提取時(shí),針對某一種特征的提取效果明顯,而對其他特征的提取效果較差,泛化性較弱。常見的傳統(tǒng)中藥飲片識別算法如圖1所示。謝樹瑩[4]使用顏色直方圖對飲片中的黃柏、當(dāng)歸等五種常見飲片的顏色特征進(jìn)行提取,并使用支持向量機(jī)完成對這5種飲片的辨色識別。錢丹丹[5]使用計(jì)算機(jī)視覺技術(shù)分別對大棗飲片的顏色、大小、缺陷特征進(jìn)行提取,并使用樸素貝葉斯模型完成了對飲片質(zhì)量的分類。陳仕妍[6]通過綜合不同顏色特征向量,實(shí)現(xiàn)了常見20種飲片的識別分類。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,一些研究人員嘗試將VGGNet、GoogleNet等網(wǎng)絡(luò)模型應(yīng)用于飲片識別中,并取得了較好的識別精度。王健慶[7]證明了GoogleNet深度學(xué)習(xí)模型對中藥飲片的識別性能優(yōu)于HOG特征算法。陳雁[8]使用BMFnet-WGAN網(wǎng)絡(luò)完成了不同復(fù)雜環(huán)境下對飲片的識別,平均識別精度為85.9%。
本文構(gòu)建了江西中醫(yī)藥大學(xué)中藥飲片資源數(shù)據(jù)庫,創(chuàng)新性提出輕量級神經(jīng)網(wǎng)絡(luò)模型ConvFormer,使用數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)微調(diào)的方法實(shí)現(xiàn)了98.4%的識別精度,同時(shí)對傳統(tǒng)圖像識別算法和幾種常見卷積神經(jīng)網(wǎng)絡(luò)模型的識別效果進(jìn)行對比,證明了本文所提網(wǎng)絡(luò)模型的識別效果更好。
1 ?輕量級神經(jīng)網(wǎng)絡(luò)
輕量級神經(jīng)網(wǎng)絡(luò)脫胎于卷積神經(jīng)網(wǎng)絡(luò),在早期的神經(jīng)網(wǎng)絡(luò)應(yīng)用中,人們不太注重網(wǎng)絡(luò)的參數(shù)量和計(jì)算量,往往會使整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)過于冗余,運(yùn)算速度較慢。輕量級神經(jīng)網(wǎng)絡(luò)的提出能夠使整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)在保持原有精度的情況下,使模型的參數(shù)量和復(fù)雜度進(jìn)一步降低,并且能夠部署在移動設(shè)備上進(jìn)行識別應(yīng)用。MobileNet網(wǎng)絡(luò)是輕量級神經(jīng)網(wǎng)絡(luò)的主要代表之一,MobileNet輕量級網(wǎng)絡(luò)是在VGG網(wǎng)絡(luò)的基本結(jié)構(gòu)上,使用深度可分離結(jié)構(gòu)構(gòu)建而成的,通過寬度因子和圖像分辨率因子控制模型和輸入圖像的大小,相較于原始VGG網(wǎng)絡(luò)計(jì)算量明顯減少。深度可分離結(jié)構(gòu)如圖2所示。
卷積神經(jīng)網(wǎng)絡(luò)通過普通卷積層對前一層的特征圖進(jìn)行卷積,獲得圖像的抽象局部特征,卷積神經(jīng)網(wǎng)絡(luò)通過將特征圖一層一層地卷積最終獲得高級語義信息,實(shí)現(xiàn)物體的分類識別。卷積神經(jīng)網(wǎng)絡(luò)中第L-1層的特征圖F大小為DF × DF × M,普通卷積層K的大小為DK × DK × M × N,利用普通卷積層K對特征圖F進(jìn)行卷積計(jì)算,獲得特征圖G的計(jì)算量大小為DK × DK × M × N × DF × DF。MobileNet神經(jīng)網(wǎng)絡(luò)中的深度可分離卷積由Depthwise卷積層和Pointwise卷積層組成,Depthwise卷積層的尺寸大小為DK × DK × 1 × M,Pointwise卷積層的尺寸大小為1 × 1 × M × N,因此對特征圖F進(jìn)行深度可分離卷積計(jì)算,獲得特征圖G的計(jì)算量大小為DK × DK × M × DF × DF + M × N × DF × DF。計(jì)算量減少為原來的。因此,深度可分離結(jié)構(gòu)能夠有效降低網(wǎng)絡(luò)模型參數(shù),提高運(yùn)算效率。
2 ?材料和設(shè)備
2.1 ?實(shí)驗(yàn)材料
目前在圖像識別領(lǐng)域尚未建立關(guān)于中藥飲片的權(quán)威數(shù)據(jù)庫,本文選用的60種常用中藥飲片均采集于江西中醫(yī)藥大學(xué)岐黃國醫(yī)書院。每味飲片為歧黃國醫(yī)書院選用道地藥材,使用傳統(tǒng)中醫(yī)藥炮制技術(shù)進(jìn)行炮制,在中藥炮制專家的鑒定下,符合《中華人民共和國藥典》中飲片質(zhì)量標(biāo)準(zhǔn)規(guī)定。根據(jù)所選飲片的形狀和外觀紋理特征,將60種常見中藥飲片分為顆粒、段、切片、塊四類:
1)顆粒狀。蠶砂、覆盆子、蒺藜、使君子、王不留行。
2)段狀。白英、當(dāng)歸、黨參、膽南星、蓽茇、紫草、葛根、鉤藤、黃柏、牛膝、太子參、檀香、制遠(yuǎn)志、土茯苓、續(xù)斷。
3)切片狀。白芍、白芷、白術(shù)、拔契、檳榔、川穹、丹參、大血藤、防風(fēng)、佛手、黑附片、紅景天、紅參片、黃芪、雞血藤、姜半夏、桔梗、木通、苧麻根。
4)塊狀。大腹皮、刀豆殼、茯苓、龜板、海桐皮、雞內(nèi)金、焦山楂、焦神曲、連翹、木瓜、藕節(jié)炭、三棱、射干、升麻、生地、柿子蒂、熟地、松節(jié)、梔子炭、制川烏。部分中藥飲片圖像如圖3所示。
2.2 ?實(shí)驗(yàn)設(shè)備
本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型甄別中藥飲片的硬件設(shè)備分為采集設(shè)備和電腦硬件設(shè)備。采集飲片圖像信息的是華為P30手機(jī)、佳能850D型相機(jī)。電腦硬件設(shè)備為宏碁臺式電腦(包含英特爾12代酷睿i9主機(jī)、Win 10操作系統(tǒng))和22英寸顯示器,內(nèi)置4塊NVIDIA Tesla k80型顯卡、64 G運(yùn)行內(nèi)存、1 024 G固態(tài)硬盤,運(yùn)行軟件選用PyCharm2021。
3 ?實(shí)驗(yàn)方法
3.1 ?中藥飲片資源數(shù)據(jù)庫
通過圖像采集設(shè)備采集60種常用中藥飲片的圖像信息,對各種飲片圖像進(jìn)行人工標(biāo)記,共得到12 719張圖像,并確保每種飲片的圖像數(shù)量大于120。本文所用的中藥飲片圖像數(shù)據(jù)均由高分辨率
設(shè)備采集,每張圖像數(shù)據(jù)的分辨率為5 290 × 3 400,
并且后期由中藥飲片鑒定專家對每張圖像數(shù)據(jù)進(jìn)行檢查,確保每種飲片標(biāo)注信息準(zhǔn)確無誤,飲片細(xì)節(jié)信息能夠清晰完整保留。對處理后的中藥飲片圖像數(shù)據(jù)進(jìn)行歸類,建立符合規(guī)范的中藥飲片資源數(shù)據(jù)庫。
3.2 ?圖像預(yù)處理
中藥飲片圖像數(shù)據(jù)在采集時(shí)由于不同的光照亮度強(qiáng)弱問題,容易形成一些無關(guān)信息的干擾。在進(jìn)行模型訓(xùn)練之前,先對飲片圖像數(shù)據(jù)進(jìn)行預(yù)處理,消除采集過程中光照亮度問題帶來的干擾。由于在采集飲片時(shí)使用的是傳統(tǒng)的RGB三通道模式,而RGB模式中R通道、G通道、B通道之間關(guān)聯(lián)性較強(qiáng),且每個(gè)通道都存儲有亮度信息,更容易受周圍環(huán)境的影響。HSI色彩空間從人類的視覺角度出發(fā),使用色調(diào)、色飽和度、亮度來描述顏色信息,將亮度信息與其他參數(shù)信息分隔開來,因此使用HSI色彩空間可減少飲片周圍亮度信息帶來的影響。其中,RGB轉(zhuǎn)換為HSI的過程如式(1)至式(4)所示:
(1)
(2)
(3)
I = (R + G + B)/3 ? ? ? ? ? ? ? ? ? ? (4)
其中,R、G、B分別表示RGB顏色空間中的R、
G、B三個(gè)通道值,H、S、I分別表示HSI色彩空間中的色調(diào)值、飽和度值、亮度值。通過上述公式可以將飲片圖像數(shù)據(jù)轉(zhuǎn)變?yōu)镠SI色彩空間的圖像數(shù)據(jù),然后將變換后的圖像數(shù)據(jù)作為顏色特征輸入到模型中進(jìn)行識別。
神經(jīng)網(wǎng)絡(luò)模型需要大量的圖像數(shù)據(jù)進(jìn)行訓(xùn)練,因此在進(jìn)行飲片識別之前,需要先將圖像數(shù)據(jù)進(jìn)行增強(qiáng),增加訓(xùn)練樣本的數(shù)量,然后再輸入到神經(jīng)網(wǎng)絡(luò)中,這樣可以減少模型過擬合帶來的風(fēng)險(xiǎn),使模型的魯棒性更強(qiáng)。飲片圖像數(shù)據(jù)共計(jì)12 719張,在進(jìn)行特征提取之前,我們先將飲片圖像數(shù)據(jù)進(jìn)行裁剪操作、水平翻轉(zhuǎn)操作和HSI色彩空間操作,將圖像數(shù)量變?yōu)樵瓉淼?倍。
3.3 ?模型設(shè)計(jì)
3.3.1 ?模型架構(gòu)
本文構(gòu)建的網(wǎng)絡(luò)模型如圖4所示,其中包含輸入層、圖像數(shù)據(jù)預(yù)處理層、Conv層、TCB層、PoolFormer層和輸出分類層。其中輸入層用于飲片的批量輸入,在輸出分類層輸出批量輸入飲片的種類名稱。圖像數(shù)據(jù)預(yù)處理層會將批量輸入的飲片圖像數(shù)據(jù)轉(zhuǎn)換為色彩空間圖像數(shù)據(jù),經(jīng)過裁剪、翻轉(zhuǎn)操作,擴(kuò)充原來數(shù)據(jù)集的數(shù)量。Conv層的步長為2,作用為初步提取飲片的特征,將提取的特征傳入TCB層中。通過三個(gè)TCB模塊,將初步提取的飲片特征逐層抽象。PoolFormer層更加偏好于全局特征,然而在前面三個(gè)TCB模塊特征提取時(shí)會有一些特征信息遺失,因此PoolFormer層與Conv層之間的短連接,能夠?qū)⒊醪教崛〉奶卣骱蚑CB抽象的特征同時(shí)輸入到PoolFormer層中,使得該層處理的特征信息更加全面。
3.3.2 ?特征提取
現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)算法和Transformer算法對飲片的特征提取都存有不足。卷積神經(jīng)網(wǎng)絡(luò)由于受卷積核感受野的限制,在進(jìn)行特征提取時(shí)偏好局部信息。Transformer偏好于長距離信息的特性使得模型的參數(shù)量比較大,識別速度比較慢。因此本文創(chuàng)新性地提出一種輕量級神經(jīng)網(wǎng)絡(luò)ConvFormer算法,通過將卷積神經(jīng)網(wǎng)絡(luò)和Transformer相結(jié)合,將兩者的優(yōu)勢互補(bǔ),使模型更加適用于中藥飲片的識別,輕量級的結(jié)合使網(wǎng)絡(luò)參數(shù)量更少,識別速度更快。ConvFormer算法模型在低頻特征中使用TCB模塊(雙通道卷積模塊)提取飲片的紋理形狀等淺層特征,在高頻特征中使用PoolFormer模塊強(qiáng)化低頻特征中提取的紋理形狀特征,同時(shí)減少模型的參數(shù)量計(jì)算,提高識別速度。
所提出的低頻特征提取為TCB模塊,如圖5(a)所示,該特征提取模塊由兩個(gè)特征提取模塊并行組成。一個(gè)分支使用改進(jìn)的SeNet模塊提取通道信息,另一個(gè)分支使用大尺度卷積核提取空間信息,將兩分支提取的特征進(jìn)行相加運(yùn)算,可以實(shí)現(xiàn)通道特征與空間特征的互補(bǔ)。改進(jìn)的SeNet模塊將原有的全連接層去除,使用DWConv進(jìn)行特征信息交互,減少了全連接帶來的數(shù)據(jù)冗余。另一分支使用大尺度卷積核提取空間特征,主要用于關(guān)注圖像中哪一部分更加重要,同時(shí)空間信息的提取補(bǔ)充了通道關(guān)注不到的細(xì)節(jié)信息。通道特征提取與空間特征提取分開進(jìn)行,實(shí)現(xiàn)在對飲片通道特征信息和空間特征信息進(jìn)行捕獲的同時(shí)減少參數(shù)量。多次堆疊執(zhí)行TCB模塊能夠快速編碼更多的特征信息。
所提出的高頻特征提取為PoolFormer模塊,如圖5(b)所示,該模塊采用Transformer中的MetaFormer框架,將原有框架中的Attention模塊變?yōu)楸疚闹械腃hannel Pool模塊。Transformer原網(wǎng)絡(luò)框架使用Attention模塊導(dǎo)致整個(gè)模型計(jì)算量大,運(yùn)行緩慢。Attention模塊的作用是實(shí)現(xiàn)全局特征之間的信息通信,本文PoolFormer通過兩個(gè)殘差子模塊分步實(shí)現(xiàn)高頻特征對全局特征的提取抽象,第一個(gè)模塊為LayerNorm+Channel Pool,主要作用是對之前提取的特征圖進(jìn)行通道信息之間的混合通信,第二個(gè)模塊為LayerNorm+Mlp,目的是在混合通道信息之間添加線性空間信息。相較于原有的Attention模塊,修改后的PoolFormer模塊可以實(shí)現(xiàn)同樣效果且參數(shù)量大大減少,運(yùn)算速度加快。
3.4 ?模型訓(xùn)練
ConvFormer模型使用中藥飲片資源數(shù)據(jù)庫中的飲片圖像數(shù)據(jù)進(jìn)行識別,按照7:2:1的比例將飲片數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。本文首先在最優(yōu)超參數(shù)的選取上進(jìn)行實(shí)驗(yàn),確定最佳的初始學(xué)習(xí)率和批尺寸。根據(jù)選取的超參數(shù),對比了兩種不同的遷移學(xué)習(xí)方法與未遷移的ConvFormer網(wǎng)絡(luò)模型性能優(yōu)劣。同時(shí),以傳統(tǒng)的機(jī)器學(xué)習(xí)方法KNN和HOG+SVM、深度學(xué)習(xí)方法ResNet50、GoogleNet、MobileNet作為對照組進(jìn)行實(shí)驗(yàn),對比了每種算法的識別準(zhǔn)確率和參數(shù)量。
4 ?結(jié)果與分析
4.1 ?選定最優(yōu)超參數(shù)
本文構(gòu)建的網(wǎng)絡(luò)模型在進(jìn)行訓(xùn)練時(shí)受初始學(xué)習(xí)率和批尺寸的影響,不同的學(xué)習(xí)率和批尺寸會以不同的步調(diào)尋找全局最優(yōu)解,學(xué)習(xí)率是模型梯度下降的步長,決定了搜索全局最優(yōu)解的快慢;批尺寸為模型每次進(jìn)行訓(xùn)練時(shí)的樣本數(shù)量,決定著模型尋求最優(yōu)解的方向。因此,選取合適的學(xué)習(xí)率和批尺寸對實(shí)驗(yàn)結(jié)果有很大的影響。本文選取的學(xué)習(xí)率為0.1、0.01、0.001、0.000 1,批尺寸為4、8、16、32、64、128、256,將不同的學(xué)習(xí)率與批尺寸進(jìn)行組合實(shí)驗(yàn),觀察實(shí)驗(yàn)結(jié)果的準(zhǔn)確率變化情況,從而確定最優(yōu)的組合方式。實(shí)驗(yàn)結(jié)果如圖6所示。
從圖6中可以得出,當(dāng)batchsize增大時(shí),模型的準(zhǔn)確率先升高后降低;在每個(gè)batchsize中,準(zhǔn)確率會隨著learning rate的減小而快速找到模型的全局最優(yōu)解。learningrate越大,模型準(zhǔn)確率產(chǎn)生的波動越大。以learningrate=0.01為例,模型的準(zhǔn)確率會因batchsize過小而陷入局部最優(yōu)解,隨著batchsize變得過大而難以收斂。綜上,本文選取的最佳初始學(xué)習(xí)率為0.000 1,批尺寸為16。
4.2 ?不同模型識別效果對比
不同模型在中藥飲片上的識別結(jié)果如表1所示。從表1中可以看出,相較于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法,傳統(tǒng)的機(jī)器學(xué)習(xí)識別算法效果較差。在傳統(tǒng)機(jī)器學(xué)習(xí)算法中,將特征提取和特征分類分離的HOG+SVM方法效果明顯優(yōu)于直接在特征空間中分類的KNN方法。在深度學(xué)習(xí)算法中,本文提出的ConvFormer算法效果最好,準(zhǔn)確率最高可達(dá)96.6%。相較于MobileNet網(wǎng)絡(luò),雖然參數(shù)量有所增加,但準(zhǔn)確率大幅提升。與GoogleNet、ResNet50網(wǎng)絡(luò)相比,ConvFormer方法不僅準(zhǔn)確率小幅提升,而且在參數(shù)量大小上明顯減少,這表明本文提出的改進(jìn)模型能夠明顯提升中藥飲片的識別率,并且在模型大小上降低了對內(nèi)存的消耗,識別速度更快,魯棒性更佳。
本文同時(shí)對比了使用遷移學(xué)習(xí)與未使用遷移學(xué)習(xí)的ConvFormer算法,在實(shí)驗(yàn)中使用遷移學(xué)習(xí)有助于模型更快地收斂。在遷移學(xué)習(xí)的兩種方法中,固定權(quán)重的遷移學(xué)習(xí)發(fā)生了負(fù)遷移,我們推測固定權(quán)重將先驗(yàn)知識固定,模型進(jìn)行新的飲片圖像識別時(shí)囿于原有知識,造成準(zhǔn)確率降低的現(xiàn)象。在微調(diào)遷移學(xué)習(xí)中,模型的準(zhǔn)確率相較于未遷移時(shí)明顯提高,經(jīng)分析可知,在模型進(jìn)行測試時(shí),將測試中學(xué)習(xí)到的新知識添加到原有的知識庫中,不斷地更新先驗(yàn)知識,使模型更加適用于該種類的鑒別。
4.3 ?飲片識別準(zhǔn)確率對比
本文進(jìn)一步測試了網(wǎng)絡(luò)上各種復(fù)雜背景下中藥飲片在改進(jìn)模型上的識別效果。網(wǎng)絡(luò)上獲取的圖片相較于本文使用的數(shù)據(jù)集圖像分辨率更低,明亮度不一,圖像內(nèi)雜物、修飾物較多。將收集到的網(wǎng)絡(luò)上中藥飲片作為測試數(shù)據(jù)集,獲得其識別率,如表2所示為網(wǎng)絡(luò)上收集到的中藥飲片識別準(zhǔn)確率。
從表2中可以看出,在識別熟地、生地、焦神曲類飲片時(shí),因它們的外觀、顏色相似導(dǎo)致識別率較低;黃芪、白芍、桔梗類飲片在顏色和紋理方面具有一定的相似性,網(wǎng)絡(luò)模型仍能夠?qū)⑵溆行ёR別出來。太子參、鉤藤、黃柏、檀香類段狀飲片,外觀差異較大,識別效果較好。綜合觀之,本文提出的網(wǎng)絡(luò)模型在面對新的復(fù)雜背景時(shí),噪聲較多的飲片仍具有較好的識別率,模型泛化能力較強(qiáng)。
5 ?結(jié) ?論
本文總結(jié)了傳統(tǒng)中藥飲片識別常用的方法,傳統(tǒng)中藥飲片識別將特征提取與特征分類分離,雖然可以針對不同的類型設(shè)計(jì)具體的特征提取方式,但是這種方式泛化能力較弱,常常會存在不同類型中藥飲片識別準(zhǔn)確率較低的問題。在深度學(xué)習(xí)方法中使用卷積神經(jīng)網(wǎng)絡(luò)自動提取特征并進(jìn)行特征分類,這種方式對背景單一、形態(tài)差別較大、圖像屬性相似的中藥飲片識別準(zhǔn)確率尚佳,但也存在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)困難,較長的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致梯度彌散的現(xiàn)象。
本文提出的ConvFormer算法,針對中藥飲片種類多、每種飲片圖像數(shù)量少、飲片圖像受光照亮度強(qiáng)弱因素影響等問題,改進(jìn)了現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)和Transformer方法對飲片特征提取不足的問題。該算法采用高低頻特征提取的方式,更加關(guān)注提取飲片的細(xì)節(jié)特征,減少了參數(shù)量,使模型可以更加輕便、快捷地針對中藥飲片進(jìn)行識別。在圖像預(yù)處理環(huán)節(jié),使用HSI色彩空間代替?zhèn)鹘y(tǒng)的RGB顏色空間,解決了飲片圖像受光照強(qiáng)度因素干擾的問題。
此外,對本文提出的網(wǎng)絡(luò)模型進(jìn)行最優(yōu)超參數(shù)選取實(shí)驗(yàn),通過不同的超參數(shù)組合實(shí)驗(yàn),選取最優(yōu)的網(wǎng)絡(luò)超參數(shù)。同時(shí)采用傳統(tǒng)識別方法、深度學(xué)習(xí)方法與提出的網(wǎng)絡(luò)模型進(jìn)行對比實(shí)驗(yàn),得出了本文提出的新型網(wǎng)絡(luò)模型識別準(zhǔn)確率優(yōu)于其他方法。通過遷移學(xué)習(xí)對比實(shí)驗(yàn),驗(yàn)證了遷移學(xué)習(xí)微調(diào)能夠提高模型在中藥飲片識別上的有效性。最后,收集網(wǎng)絡(luò)中復(fù)雜背景下的中藥飲片圖像進(jìn)行測試,驗(yàn)證了本文提出的方法在面對復(fù)雜背景下的中藥飲片時(shí),仍能有效提取圖像中的飲片細(xì)節(jié)特征,具有較高的識別率,模型泛化性能較強(qiáng)。
綜上,本文提出的新型圖像識別方法具有廣泛的應(yīng)用前景,在面對復(fù)雜背景下的中藥飲片時(shí),能夠關(guān)注飲片細(xì)節(jié)信息有效地進(jìn)行識別。該算法在外觀、顏色相似的飲片識別中還存在不足之處,后續(xù)的研究將會更加關(guān)注外觀相似中藥飲片的細(xì)分類識別。
參考文獻(xiàn):
[1] 張靜.探討中藥飲片抽檢情況及市場現(xiàn)狀 [J].食品安全導(dǎo)刊,2021(23):185-186.
[2] 王青云.《國家藥監(jiān)局關(guān)于促進(jìn)中藥傳承創(chuàng)新發(fā)展的實(shí)施意見》發(fā)布 [J].中醫(yī)藥管理雜志,2021,29(1):129.
[3] 佚名.“十四五”中醫(yī)藥發(fā)展規(guī)劃 [J].江蘇中醫(yī)藥,2022,54(5):1-9.
[4] 謝樹瑩,周明,周金海.基于OpenCV的中藥飲片“辨色”識別研究 [J].時(shí)珍國醫(yī)國藥,2018,29(2):510-512.
[5] 錢丹丹,周金海.基于計(jì)算機(jī)視覺的中藥飲片檢測與分級研究 [J].時(shí)珍國醫(yī)國藥,2019,30(1):203-205.
[6] 陳仕妍,盧文彪,王鳳梅.基于顏色匹配模板的中藥飲片圖像識別 [J].中國實(shí)驗(yàn)方劑學(xué)雜志,2020,26(6):158-162.
[7] 王健慶,戴愷,李子柔.基于深度學(xué)習(xí)的中藥飲片圖像識別研究 [J].時(shí)珍國醫(yī)國藥,2020,31(12):2930-2933.
[8] 陳雁,鄒立思.基于BMFnet-WGAN的中藥飲片智能甄別 [J].中國實(shí)驗(yàn)方劑學(xué)雜志,2021,27(15):107-114.
作者簡介:葉青(1968—),女,漢族,江西南昌人,教授,碩士,研究方向:數(shù)據(jù)挖掘、中醫(yī)藥信息學(xué);馮振乾(1997—),男,漢族,河南新鄉(xiāng)人,碩士研究生在讀,研究方向:圖像處理;通訊作者:朱彥陳(1980—),男,漢族,江西南昌人,副教授,碩士,研究方向:圖像處理;杜建強(qiáng)(1968—),男,漢族,江西南昌人,教授,博士,研究方向:數(shù)據(jù)挖掘、中醫(yī)藥信息學(xué)。