【摘要】 背景 傳統(tǒng)中藥材檢測(cè)手段依賴主觀經(jīng)驗(yàn),難以滿足中藥材在準(zhǔn)確分類與鑒別方面的需求。目的 基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)開(kāi)發(fā)一款能夠自動(dòng)識(shí)別163種中藥材的人工智能模型及電腦端應(yīng)用程序。方法 2020年1月—2024年6月,采集了兩個(gè)中藥材數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練、驗(yàn)證和測(cè)試,共包含163種中藥材。通過(guò)準(zhǔn)確率、靈敏度、特異度、精確率、受試者工作特征(ROC)曲線下面積(AUC)、F1分?jǐn)?shù)等指標(biāo)來(lái)衡量CNN模型的性能。在模型訓(xùn)練完成后,基于PyQt5技術(shù)開(kāi)發(fā)了一款應(yīng)用程序,供臨床便攜使用。結(jié)果 本研究共納入了276 767張圖像,開(kāi)發(fā)了EfficientNetB0、ResNet50、MobileNetV3、VGG19和ResNet18 5種模型,通過(guò)性能比較,EfficientNet_B0模型在驗(yàn)證集上取得了最高的準(zhǔn)確率(99.0%)和AUC(0.994 2),被選為最佳模型。在測(cè)試集上,最佳模型對(duì)所有中藥類別識(shí)別的準(zhǔn)確率為99.0%、靈敏度為99.0%、特異度為100.0%、AUC為1.0,展現(xiàn)出良好的性能。結(jié)論 基于卷積神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的深度學(xué)習(xí)模型能夠快速準(zhǔn)確地識(shí)別163種中藥材,借助其高靈敏度的識(shí)別能力,為醫(yī)師對(duì)中藥材的鑒別提供有力輔助。
【關(guān)鍵詞】 中藥材;模式識(shí)別,自動(dòng);中藥藥材學(xué);應(yīng)用程序;人工智能;PyQt5;卷積神經(jīng)網(wǎng)絡(luò)
【中圖分類號(hào)】 R 282 R-05 【文獻(xiàn)標(biāo)識(shí)碼】 A DOI:10.12114/j.issn.1007-9572.2024.0394
Construction of an Artificial Intelligence Model and Application for an Automatic Recognition of Traditional Chinese Medicine Herbals Based on Convolutional Neural Networks
WANG Ganhong1,ZHANG Zihao2,XI Meijuan1,XIA Kaijian3,ZHOU Yanting1*,CHEN Jian4*
1.Department of Gastroenterology,Changshu Hospital of Traditional Chinese Medicine(Changshu New District Hospital),Changshu 215500,China
2.Shanghai Hao Brothers Educational Technology Co.,Ltd.,Shanghai 200434,China
3. Changshu Key Laboratory of Medical Artificial Intelligence and Big Data,Changshu 215500,China
4.Department of Gastroenterology,Changshu No.1 People's Hospital,Changshu 215500,China
*Corresponding authors:ZHOU Yanting,Senior nurse;E-mail:yantingz19@gmail.com
CHEN Jian,Associate chief physician;E-mail:szcsdocter@gmail.com
【Abstract】 Background Conventional methods for identifying traditional Chinese medicine (TCM) herbals mainly rely on subjective experiences,making it difficult to meet the needs for accurate classification and identification. Objective This study aims to develop an artificial intelligence model and a desktop application capable of automatically recognizing 163 types of TCM herbals based on convolutional neural networks(CNN). Methods From January 2020 to June 2024,data from two datasets of 163 TCM herbals were collected for training,validation,and testing of the deep learning model. The performance of the CNN model was evaluated for the accuracy,sensitivity,specificity,precision,area under the receiver operating characteristic (ROC) curve (AUC),and F1 score. After model training,an application was developed using PyQt5 technology for convenient clinical use. Results A total of 276 767 images were included in this study. Five models,including EfficientNetB0,ResNet50,MobileNetV3,VGG19,and ResNet18,were developed. After comparing their performance,the EfficientNetB0 model achieved the highest accuracy(99.0%)and AUC(0.994 2) in the validation dataset,and it was selected as the optimal model. In the test dataset,the EfficientNetB0 model achieved an accuracy of 99.0%,sensitivity of 99.0%,specificity of 100.0%,and an AUC of 1.0 across all categories,demonstrating an excellent performance. Conclusion The deep learning model developed based on CNN can quickly and accurately recognize 163 types of TCM herbals with high sensitivity and recognition capability,thus providing a robust support for physicians to accurately identify TCM herbals.
【Key words】 Traditional Chinese medicine herbals;Pattern recognition,automated;Materia Medica Science (TCD);Application;Artificial intelligence;PyQt5;Convolutional neural networks
近年來(lái),隨著公眾健康意識(shí)的提升以及中醫(yī)文化的普及,國(guó)內(nèi)外中藥材市場(chǎng)呈現(xiàn)持續(xù)增長(zhǎng)的趨勢(shì);不同種類的中藥材藥效各異,正確分類是保證臨床療效的首要條件。中藥種類繁多,部分中藥材形態(tài)相似,既往中藥材的分類多依賴人工鑒別,日益增長(zhǎng)的中藥材需求使得傳統(tǒng)分類方法難以滿足快速、準(zhǔn)確的分類需求。中藥材的質(zhì)量控制和評(píng)價(jià)是中藥現(xiàn)代化發(fā)展的核心內(nèi)容之一,直接關(guān)系到臨床療效和患者用藥安全[1-2]。因此,構(gòu)建科學(xué)、高效、準(zhǔn)確的中藥材檢測(cè)體系已成為保障中藥品質(zhì)、推動(dòng)中藥現(xiàn)代化進(jìn)程的重要挑戰(zhàn)[3]。
目前中醫(yī)藥的現(xiàn)代化建設(shè)正在加快步伐,努力實(shí)現(xiàn)高質(zhì)量發(fā)展。在人工智能(artificial intelligence,AI)的浪潮中,計(jì)算機(jī)視覺(jué)領(lǐng)域正迅速發(fā)展,其賦予了機(jī)器“看”的能力,讓機(jī)器能夠理解和解析視覺(jué)信息。在醫(yī)學(xué)領(lǐng)域,AI已被廣泛應(yīng)用于輔助診斷,包括CT影像、消化內(nèi)鏡、超聲、心電圖等[4-6]。使用AI進(jìn)行圖像識(shí)別,具有檢測(cè)速度快、準(zhǔn)確率高、客觀性強(qiáng)、成本低等優(yōu)勢(shì),被視為實(shí)現(xiàn)中藥材分類的可靠手段。郭叢等[7]利用YOLOv4算法構(gòu)建了能夠自動(dòng)識(shí)別108種中藥材的目標(biāo)檢測(cè)模型,HAN等[8]在包含43種中藥材的數(shù)據(jù)集上利用DenseNet-201網(wǎng)絡(luò)構(gòu)建了一款深度學(xué)習(xí)圖像分類模型,達(dá)到了90%以上的識(shí)別準(zhǔn)確率。然而,這些研究存在的普遍問(wèn)題是識(shí)別種類較為單一,并且模型尚未進(jìn)一步開(kāi)發(fā)和部署到本地終端設(shè)備,限制了其在臨床中的實(shí)際應(yīng)用。本研究使用了包含163種中藥材的276 767張不同圖像,旨在訓(xùn)練能夠準(zhǔn)確識(shí)別這些常見(jiàn)中藥材的AI模型,并將其開(kāi)發(fā)成能夠便攜使用的應(yīng)用程序。
1 資料與方法
1.1 數(shù)據(jù)集
本研究基于2個(gè)數(shù)據(jù)集,共計(jì)276 767張圖像進(jìn)行:數(shù)據(jù)集#1(Chinese-Medicine163)、數(shù)據(jù)集#2(常熟市中醫(yī)院、常熟市第一人民醫(yī)院)。收集的圖像包括163種常用中藥材的圖片數(shù)據(jù),包括:三七、穿心蓮、薏苡仁、穿山甲、石膏、草寇、雞血藤等。數(shù)據(jù)集#1被隨機(jī)劃分為訓(xùn)練集(n=256 767)和驗(yàn)證集(n=10 000),數(shù)據(jù)集2#作為獨(dú)立的測(cè)試集(n=10 000)。3個(gè)數(shù)據(jù)集之間不存在重復(fù)圖像,從而避免模型過(guò)擬合,并確保測(cè)試結(jié)果的可靠性。數(shù)據(jù)集中具有代表性的圖像示例,見(jiàn)圖1。Chinese-Medicine163公開(kāi)數(shù)據(jù)集來(lái)自百度開(kāi)發(fā)的深度學(xué)習(xí)平臺(tái)PP飛槳(PaddlePaddle),下載地址為:https://aistudio.baidu.com/datasetdetail/246739,數(shù)據(jù)集圖片來(lái)源于百度圖片,使用網(wǎng)絡(luò)爬蟲技術(shù)抓取并篩選。數(shù)據(jù)集#2由常熟市中醫(yī)院和常熟市第一人民醫(yī)院的執(zhí)業(yè)中藥師使用手機(jī)拍攝獲取。
1.2 深度學(xué)習(xí)網(wǎng)絡(luò)
1.2.1 圖像預(yù)處理:為確保模型具備較強(qiáng)的泛化能力,研究中對(duì)數(shù)據(jù)進(jìn)行了系統(tǒng)的預(yù)處理和增強(qiáng)。在預(yù)處理階段,對(duì)訓(xùn)練集執(zhí)行隨機(jī)圖像尺寸調(diào)整,裁剪至224像素×224像素。圖像隨后從PIL Image或numpy.ndarray格式轉(zhuǎn)換為PyTorch Tensor,并歸一化至[0, 1]范圍。RGB通道的標(biāo)準(zhǔn)化采用均值[0.485,0.456,0.406]及標(biāo)準(zhǔn)偏差[0.229,0.224,0.225]。本研究采用在線數(shù)據(jù)增強(qiáng)的方法[9],在訓(xùn)練過(guò)程中實(shí)時(shí)進(jìn)行,不生成新的圖像文件,確保模型每次訓(xùn)練時(shí)都能看到略有不同的圖像版本。以50%的概率進(jìn)行隨機(jī)水平翻轉(zhuǎn)。使用HSVRandomAug技術(shù)[10]在HSV色彩空間中引入隨機(jī)擾動(dòng),從而增強(qiáng)模型對(duì)光照變化和色彩差異的魯棒性。所有預(yù)處理和增強(qiáng)步驟均通過(guò)PyTorch的torchvision庫(kù)完成。
1.2.2 模型訓(xùn)練配置:為實(shí)現(xiàn)針對(duì)163種中藥材的圖像分類任務(wù),選取在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的3種卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行遷移學(xué)習(xí)。選用的模型包括EfficientNetB0、ResNet50、MobileNetV3-Large、VGG19和ResNet18。為了適應(yīng)163分類的數(shù)據(jù)集,本研究為每個(gè)預(yù)訓(xùn)練模型添加了兩個(gè)帶ReLU激活函數(shù)的全連接層,并增加了一個(gè)帶Softmax激活函數(shù)的輸出層。輸出層的節(jié)點(diǎn)數(shù)設(shè)置為163,以滿足分類任務(wù)的需求。模型訓(xùn)練采用交叉熵?fù)p失函數(shù)和Adam優(yōu)化器,設(shè)定25個(gè)訓(xùn)練周期(epoch)。為防止過(guò)擬合,采用早停策略,即如果驗(yàn)證集性能在連續(xù)8個(gè)epoch沒(méi)有提升,則自動(dòng)終止訓(xùn)練。此外,設(shè)置學(xué)習(xí)率調(diào)度,每5個(gè)周期將學(xué)習(xí)率減半。所有操作在PyTorch框架下完成。神經(jīng)網(wǎng)絡(luò)架構(gòu)見(jiàn)圖2。
1.2.3 模型可解釋性分析。本研究使用多種可解釋性人工智能(Explainable AI,XAI)技術(shù),包括Grad-CAM和SHAP[11-12]。Grad-CAM通過(guò)生成熱圖揭示模型決策過(guò)程中關(guān)鍵的圖像區(qū)域,而SHAP則為圖像分類任務(wù)中的每個(gè)像素分配重要性分?jǐn)?shù),清晰地標(biāo)識(shí)其在模型決策中的作用。
為深入了解模型在語(yǔ)義層面的分類能力,從圖像分類模型中抽取了中間層輸出作為語(yǔ)義特征。不同的中藥材類別具有不同的語(yǔ)義特征。在目標(biāo)層注冊(cè)前向鉤子用于捕獲這些特征,使用t-SNE技術(shù)將高維特征降維到二維和三維空間[13],并利用plotly庫(kù)對(duì)這些特征進(jìn)行可視化分析。
1.2.4 應(yīng)用程序開(kāi)發(fā)與部署。為實(shí)現(xiàn)163種中藥材圖像的自動(dòng)化分類,使用PyQt5技術(shù)將性能最佳的CNN模型開(kāi)發(fā)成一款能夠在本地電腦上便攜使用的應(yīng)用程序。PyQt5是Qt公司開(kāi)發(fā)的一個(gè)庫(kù),將1 000多個(gè)Qt組件融合為Python模塊,支持使用Python語(yǔ)言高效開(kāi)發(fā)Qt程序[14]。具體步驟如下:首先,通過(guò)多項(xiàng)指標(biāo)的性能對(duì)比獲取最佳模型。然后,將在PyTorch框架下開(kāi)發(fā)的模型轉(zhuǎn)換為ONNX格式。最后,使用PyQt5技術(shù)開(kāi)發(fā)一個(gè)具有可視化圖形用戶界面的應(yīng)用程序,使臨床工作人員無(wú)需編程知識(shí)也能輕松使用該應(yīng)用。詳細(xì)的研究流程展示于圖3。
1.3 實(shí)驗(yàn)平臺(tái)和統(tǒng)計(jì)分析
本研究使用配備RTX A4000顯卡(16GB顯存)、5×E5-2680 v4 CPU和350GB硬盤空間的計(jì)算機(jī)。通過(guò)Keras構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型,并使用OpenCV處理圖像數(shù)據(jù)。數(shù)據(jù)整理、分析及可視化使用Pandas、NumPy、Matplotlib和Plotly。模型優(yōu)化采用PyTorch,模型的保存和加載依賴于H5py。使用Weights amp; Biases(wandb)工具追蹤模型的完整訓(xùn)練過(guò)程。
采用多項(xiàng)指標(biāo)全面評(píng)估AI模型的性能,包括靈敏度、特異度、精確率、準(zhǔn)確率、F1分?jǐn)?shù)、平均精度(AP)、馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC)、受試者工作特征曲線下面積(AUC)、科恩卡帕系數(shù)(Cohen's Kappa)和加權(quán)平均(weighted average)。計(jì)算公式如式(1)~(6)所示。
(1)F1=2×(精確率×靈敏度)/(精確率+靈敏度)
(2)Pweighted=∑k
i=1 wi·Pi
(3)AP=∫01" p(r)dr
(4)AUC=1/2∑i=1
n-1(FPRi+1-FPRi)×(TPRi+1+TPRi)
(5)MCC=
(6)Cohen's Kappa:κ=(Po-Po)/(1-Pe )
其中,TP表示正確預(yù)測(cè)為陽(yáng)性的樣本數(shù)量,TN表示正確預(yù)測(cè)為陰性的樣本數(shù)量,F(xiàn)P表示錯(cuò)誤預(yù)測(cè)為陽(yáng)性的樣本數(shù)量,F(xiàn)N表示錯(cuò)誤預(yù)測(cè)為陰性的樣本數(shù)量。Pi 是第i個(gè)類別的性能指標(biāo)值,wi 是第i個(gè)類別的權(quán)重。
2 結(jié)果
2.1 基線資料
本研究共納入了276 767張圖像,分為訓(xùn)練集(n=256 767)、驗(yàn)證集(n=10 000)、測(cè)試集(n=10 000),涵蓋163種常見(jiàn)中藥材,訓(xùn)練集中每個(gè)種類的圖像數(shù)量為(1 575.22±313.10)張圖片,驗(yàn)證集和測(cè)試集中平均每個(gè)種類為(61.35±7.84)張圖像,見(jiàn)表1。
2.2 模型訓(xùn)練
本研究使用同一個(gè)數(shù)據(jù)集訓(xùn)練了5種不同的神經(jīng)網(wǎng)絡(luò)模型,包括EfficientNetB0、ResNet50、MobileNetV3、VGG19和ResNet18。訓(xùn)練初期,5種模型的分類損失隨著訓(xùn)練步數(shù)的增加迅速下降,并逐漸趨于穩(wěn)定,表明模型正在收斂?jī)?yōu)化。與此同時(shí),5種模型的準(zhǔn)確率在訓(xùn)練初期迅速上升,并在達(dá)到較高水平后保持穩(wěn)定。其中,EfficientNetB0的準(zhǔn)確率為98.96%,MobileNetV3為98.81%,顯著高于ResNet50的86.89%,見(jiàn)圖4。
2.3 不同模型診斷性能比較
表2展示了在含有10 000張不同中藥材圖像的驗(yàn)證集上,5種經(jīng)過(guò)遷移學(xué)習(xí)訓(xùn)練的AI模型在中藥材分類任務(wù)中的對(duì)比情況。這些模型分別是EfficientNetB0、ResNet50、MobileNetV3、VGG19和ResNet18。EfficientNetB0模型在驗(yàn)證集上獲得了最高的準(zhǔn)確率(99.04%)、靈敏度(99.04%)和AUC(0.994 2),并且在其他重要性能指標(biāo)上表現(xiàn)優(yōu)異(在精確率和F1分?jǐn)?shù)指標(biāo)上排名第二),因此被選為最佳模型。
2.4 最佳模型在測(cè)試集上的性能評(píng)估
表3詳細(xì)評(píng)估了性能最佳模型EfficientNetB0在包含10 000張中藥材圖像測(cè)試集上的表現(xiàn)。該表格提供了163個(gè)類別的識(shí)別性能指標(biāo),包括精確率、靈敏度(召回率)、特異度、F1分?jǐn)?shù)、準(zhǔn)確率、AP、AUC、MCC以及科恩卡帕系數(shù)。此外,還使用加權(quán)平均作為匯總統(tǒng)計(jì)指標(biāo)。
圖5展示了EfficientNetB0模型在測(cè)試集上對(duì)不同類別中藥材預(yù)測(cè)性能的兩個(gè)關(guān)鍵評(píng)估曲線:(A)精確率-召回率(PR)曲線和(B)ROC曲線。在圖5A中,除“麥芽(maiya)”“谷芽(guya)”類別外,其余161種類別的PR曲線均趨向于右上角的曲線表示在這些類別上模型表現(xiàn)良好。在圖5B的ROC曲線圖中,所有類別的曲線緊鄰圖表的左上角,表明模型在這些類別上效果良好。
為分析AI模型在163種中藥材分類中誤判的原因,本研究采用t-分布隨機(jī)鄰域嵌入(t-SNE)技術(shù),將高維數(shù)據(jù)映射至二維平面,使不同類別之間的分離程度能夠直觀展現(xiàn)(圖6)。這種可視化方法有助于辨識(shí)哪些類別的圖像容易區(qū)分,以及哪些類別之間存在重疊,導(dǎo)致模型更容易出現(xiàn)錯(cuò)誤分類。為了更清晰地展示不同類別圖像之間的語(yǔ)義特征,本研究進(jìn)一步采用t-SNE技術(shù)構(gòu)建了三維空間的交互式語(yǔ)義特征圖。打開(kāi)該html文件后,用戶可以通過(guò)鼠標(biāo)點(diǎn)擊拖動(dòng)、鼠標(biāo)滾輪上下滑動(dòng),查看每張圖像及其在語(yǔ)義特征空間中的位置(https://pan.baidu.com/s/1jjrfe2JUXflVrMUJA5rKrQ?pwd=xxyj,提取碼:xxyj)。例如,通過(guò)三維交互式語(yǔ)義特征圖的點(diǎn)擊查看,可以發(fā)現(xiàn)谷芽和麥芽類別在語(yǔ)義特征上存在部分重疊,這解釋了模型誤分類的原因。
2.5 模型可解釋性分析
圖7展示了Grad-CAM技術(shù)在AI模型決策過(guò)程中的可視化。A列是原始圖像;B列顯示了基于EfficientNet_B0模型生成的像素激活熱圖,突出了模型決策的關(guān)鍵區(qū)域;C列將激活熱圖與原始圖像疊加,暖色調(diào)(如紅色和黃色)指示了模型識(shí)別的關(guān)鍵病變區(qū)域。
圖8使用SHAP技術(shù)展示了模型預(yù)測(cè)邏輯的內(nèi)部機(jī)制。在兩個(gè)子圖中,模型的預(yù)測(cè)分別對(duì)應(yīng)于郁金和百合兩種真實(shí)分類。像素顏色及深淺指示對(duì)模型預(yù)測(cè)的貢獻(xiàn):紅色表示正向貢獻(xiàn),藍(lán)色表示負(fù)向貢獻(xiàn),顏色越深貢獻(xiàn)越大。圖8A中,與柏子仁和半夏相比,郁金的紅色區(qū)域更加明顯,使得模型能夠準(zhǔn)確將其分類為郁金。同理,圖8B中的特征使得模型正確判斷為百合。
2.6 AI模型終端部署及應(yīng)用
使用PyQt5技術(shù)將EfficientNet_B0模型開(kāi)發(fā)為一款能夠在本地電腦上便攜使用的具有可視化操作界面的應(yīng)用程序(圖9A),使不具備編程知識(shí)的醫(yī)務(wù)人員也能輕松使用該程序。圖9B、9C分別展示了使用該應(yīng)用程序?qū)螐埡团恐兴幉膱D像進(jìn)行預(yù)測(cè)的演示視頻(微信掃一掃觀看)。AI模型能夠快速、準(zhǔn)確地輸出預(yù)測(cè)類別及置信度,并顯示預(yù)測(cè)用時(shí)(單位:s)。
3 討論
近年來(lái),AI技術(shù),尤其是計(jì)算機(jī)視覺(jué)技術(shù),在醫(yī)學(xué)領(lǐng)域得到廣泛應(yīng)用,圖像分類技術(shù)已成功用于自動(dòng)識(shí)別結(jié)腸息肉和上消化道解剖部位等,并取得良好的識(shí)別效果[15-16]。中藥文化是我國(guó)傳統(tǒng)醫(yī)學(xué)的重要組成部分,從神農(nóng)嘗百草到李時(shí)珍的《本草綱目》,均為中藥材提供了堅(jiān)實(shí)的理論基礎(chǔ)。中藥材種類繁多,傳統(tǒng)鑒別方法主要依賴人工主觀經(jīng)驗(yàn),而化學(xué)檢測(cè)或儀器分析則需要大量專業(yè)設(shè)備和較長(zhǎng)時(shí)間,導(dǎo)致成本較高、可操作性差。中華人民共和國(guó)工業(yè)和信息化部等10部門在2021年聯(lián)合發(fā)布的《“十四五”醫(yī)療裝備產(chǎn)業(yè)發(fā)展規(guī)劃》強(qiáng)調(diào)大力推動(dòng)中醫(yī)醫(yī)療裝備的創(chuàng)新升級(jí)。將AI技術(shù)應(yīng)用于中藥材識(shí)別,不僅為中醫(yī)的傳承與創(chuàng)新提供了新的可能性,也開(kāi)辟了廣闊的產(chǎn)業(yè)前景和發(fā)展?jié)摿Γ纬伞爸嗅t(yī)+AI”的創(chuàng)新模式,智能化、精準(zhǔn)化、快速化是中藥材檢測(cè)的重點(diǎn)發(fā)展方向[17]。
胡曉東等[18]的研究使用1 581張圖像建立數(shù)據(jù)集,基于卷積神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的SE-ResNet36圖像分類模型取得了95.77%的識(shí)別準(zhǔn)確率,但該模型僅能識(shí)別17類常見(jiàn)中藥材。HAN等[8]利用DenseNet-201網(wǎng)絡(luò)構(gòu)建了一款深度學(xué)習(xí)圖像分類模型,在所有類別中最高達(dá)到了95.21%的識(shí)別準(zhǔn)確率,研究包含了50種中藥材,共計(jì)15 622張圖像。與上述兩位學(xué)者相比,本研究納入了更多種類(163種)、更大數(shù)量(276 767張)的中藥材圖像數(shù)據(jù)集用于AI模型的開(kāi)發(fā),更重要的是,本研究取得了更高的總體識(shí)別準(zhǔn)確率(99.02%)。此外,本研究使用PyQt5技術(shù)將該模型開(kāi)發(fā)為一款具有可視化操作界面的電腦端應(yīng)用程序,使得編程知識(shí)匱乏的醫(yī)務(wù)人員也能輕松使用。這為模型在臨床工作中的實(shí)際應(yīng)用奠定了基礎(chǔ)。
多項(xiàng)研究證實(shí)[19-20],雖然“醫(yī)學(xué)+AI”模式能夠輔助醫(yī)務(wù)人員更快速、準(zhǔn)確且客觀地進(jìn)行醫(yī)學(xué)圖像分類,但模型的“黑盒”特性限制了對(duì)其內(nèi)部機(jī)制和決策過(guò)程的了解。開(kāi)發(fā)既準(zhǔn)確又可解釋的模型對(duì)于促進(jìn)其在臨床實(shí)踐中的應(yīng)用至關(guān)重要[21]。本研究采用了多種可解釋性人工智能技術(shù),包括Grad-CAM、SHAP以及t-SNE,這些技術(shù)不僅直觀呈現(xiàn)了模型的決策過(guò)程,還增強(qiáng)了對(duì)模型的信賴和驗(yàn)證。
本研究存在一定的局限性,未來(lái)計(jì)劃將性能最佳的模型部署到移動(dòng)端應(yīng)用程序中。通過(guò)多種形式的使用,包括移動(dòng)端和桌面端,后續(xù)本課題組將進(jìn)一步擴(kuò)大研究成果在不同場(chǎng)景中的應(yīng)用。這將提高使用的便捷性,讓更多人能夠體驗(yàn)到AI在中藥材識(shí)別中的潛力。
本研究收集了163種常見(jiàn)中藥材的圖像數(shù)據(jù)集,通過(guò)遷移學(xué)習(xí)開(kāi)發(fā)了5種CNN架構(gòu)的AI模型,以自動(dòng)識(shí)別這些中藥材。性能比較結(jié)果顯示,EfficientNetB0模型在驗(yàn)證和測(cè)試過(guò)程中表現(xiàn)最佳。最終,使用PyQt5技術(shù)將其開(kāi)發(fā)為一款便攜式的本地應(yīng)用程序。本研究涵蓋了從數(shù)據(jù)集構(gòu)建、模型開(kāi)發(fā)與測(cè)試、可解釋性分析到終端部署的完整流程,具有良好的臨床應(yīng)用潛力和參考價(jià)值。
作者貢獻(xiàn):王甘紅、陳健進(jìn)行文章的構(gòu)思與設(shè)計(jì);奚美娟、夏開(kāi)建、張子豪進(jìn)行數(shù)據(jù)收集及數(shù)據(jù)整理,并進(jìn)行統(tǒng)計(jì)學(xué)處理與代碼報(bào)錯(cuò)解決;王甘紅、周燕婷撰寫論文并進(jìn)行論文的修訂;陳健對(duì)文章整體負(fù)責(zé),監(jiān)督管理。
本文無(wú)利益沖突。
王甘紅https://orcid.org/0009-0004-7388-6268
陳健https://orcid.org/0009-0001-9930-878X
參考文獻(xiàn)
張伯禮,張俊華,陳士林,等. 中藥大健康產(chǎn)業(yè)發(fā)展機(jī)遇與戰(zhàn)略思考[J]. 中國(guó)工程科學(xué),2017,19(2):16-20. DOI:10.15302/J-SSCAE-2017.02.003.
薛曉娟,劉彩,王益民,等. 新時(shí)代中醫(yī)藥發(fā)展現(xiàn)狀與思考[J]. 中國(guó)工程科學(xué),2023,25(5):11-20. DOI:10.15302/J-SSCAE-2023.05.007.
曹雪曉,任曉亮,王萌,等. 中藥材及飲片規(guī)格等級(jí)質(zhì)量標(biāo)準(zhǔn)研究進(jìn)展[J]. 中藥材,2021,44(2):490-494. DOI:10.13863/j.issn1001-4454.2021.02.044.
黃麗,張軍,吳慧玲,等. 基于深度學(xué)習(xí)的內(nèi)鏡超聲膽管掃查輔助分站系統(tǒng)構(gòu)建[J]. 中華消化內(nèi)鏡雜志,2022,39(4):295-300. DOI:10.3760/cma.j.cn321463-20210628-00007.
吳樹(shù)劍,俞詠梅,范莉芳,等. 基于增強(qiáng)CT深度學(xué)習(xí)影像組學(xué)術(shù)前預(yù)測(cè)胸腺瘤風(fēng)險(xiǎn)分類[J]. 中國(guó)腫瘤臨床,2023,50(19):999-1005. DOI:10.12354/j.issn.1000-8179.2023.20230828.
陳健,王珍妮,夏開(kāi)建,等. 基于深度學(xué)習(xí)的結(jié)直腸息肉內(nèi)鏡圖像分割和分類方法比較[J]. 上海交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2024,44(6):762-772.
郭叢,田鈺嘉,李楊,等. 基于YOLOv4算法的中藥飲片識(shí)別[J]. 中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2023,29(14):133-140. DOI:10.13422/j.cnki.syfjx.20230614.
HAN Y,LAN J,GUO R Y,et al. Identification of Chinese herbal medicine slices based on deep learning[J]. Acta Agriculturae Boreali-occidentalis Sinica,2023,32(11):1859-1867. DOI:10.7606/j.issn.1004-1389.2023.11.020.
ATHALYE C,ARNAOUT R. Domain-guided data augmentation for deep learning on medical imaging[J]. PLoS One,2023,18(3):e0282532. DOI:10.1371/journal.pone.0282532.
QIU Z R,RONG S Y,YE L K. YOLF-ShipPnet:improved RetinaNet with pyramid vision transformer[J]. Int J Comput Intell Syst,2023,16(1):58. DOI:10.1007/s44196-023-00235-4.
ZHANG Y Y,HONG D,MCCLEMENT D,et al. Grad-CAM helps interpret the deep learning models trained to classify multiple sclerosis types using clinical brain magnetic resonance imaging[J]. J Neurosci Methods,2021,353:109098. DOI:10.1016/j.jneumeth.2021.109098.
KIKUTSUJI T,MORI Y,OKAZAKI K I,et al. Explaining reaction coordinates of alanine dipeptide isomerization obtained from deep neural networks using explainable artificial intelligence(XAI)[J]. J Chem Phys,2022,156(15):154108. DOI:10.1063/5.0087310.
LINDERMAN G C,STEINERBERGER S. Clustering with t-SNE,provably[J]. SIAM J Math Data Sci,2019,1(2):313-332. DOI:10.1137/18m1216134.
KIRSAN A S,TAKANO K,ZEBADA MANSURINA S T. EksPy:a new Python framework for developing graphical user interface based PyQt5[J]. Int J Electr Comput Eng,2024,14(1):520. DOI:10.11591/ijece.v14i1.pp520-531.
許郭婷,吳愛(ài)榮,林嘉希,等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的上消化道內(nèi)鏡解剖分類模型構(gòu)建[J]. 中國(guó)醫(yī)學(xué)物理學(xué)雜志,2023,40(8):1051-1056. DOI:10.3969/j.issn.1005-202X.2023.08.021.
陳健,張子豪,盧勇達(dá),等. 基于深度學(xué)習(xí)構(gòu)建結(jié)直腸息肉診斷自動(dòng)分類模型[J]. 中華診斷學(xué)電子雜志,2024,12(1):9-17.
王超超,張先超,谷正昌,等. 中藥材及飲片檢測(cè)中人工智能應(yīng)用探討[J]. 中國(guó)工程科學(xué),2024,26(2):245-254.
胡曉東. 基于改進(jìn)深度學(xué)習(xí)算法的中藥飲片圖像識(shí)別研究[D]. 長(zhǎng)春:吉林農(nóng)業(yè)大學(xué),2023. DOI:10.27163/d.cnki.gjlnu.2023.000042.
ZHOU L Q,WANG J Y,YU S Y,et al. Artificial intelligence in medical imaging of the liver[J]. World J Gastroenterol,2019,
25(6):672-682. DOI:10.3748/wjg.v25.i6.672.
林嘉希,汪盛嘉,趙鑫,等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的Barrett食管內(nèi)鏡圖片分類模型的建立[J]. 上海交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2022,42(5):653-659. DOI:10.3969/j.issn.1674-8115.2022.05.014.
GHNEMAT R,ALODIBAT S,ABU AL-HAIJA Q. Explainable artificial intelligence(XAI)for deep learning based medical imaging classification[J]. J Imaging,2023,9(9):177. DOI:10.3390/jimaging9090177.
(收稿日期:2024-06-10;修回日期:2024-10-10)
(本文編輯:趙躍翠)