亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)在舌象分類中的研究綜述

        2023-02-18 07:16:04林卓勝李勝可劉慧琳
        計(jì)算機(jī)與生活 2023年2期
        關(guān)鍵詞:舌象舌苔分類

        吳 欣,徐 紅,2,林卓勝,李勝可,劉慧琳,馮 躍+

        1.五邑大學(xué) 智能制造學(xué)部,廣東 江門529020

        2.維多利亞大學(xué),澳大利亞 墨爾本8001

        3.上海中醫(yī)藥大學(xué) 教學(xué)實(shí)驗(yàn)中心,上海201203

        中醫(yī)歷經(jīng)幾千年的發(fā)展,已形成了一個(gè)集診斷、治療、預(yù)防于一體的醫(yī)療體系。作為中醫(yī)診斷方法之一的舌診的理論基礎(chǔ)在于舌的異常變化,如紋理、顏色和形狀的變化,可揭示人體對(duì)應(yīng)器官的疾病,診斷易行,無(wú)疼無(wú)損[1-3]。中醫(yī)臨床研究表明,在疾病的發(fā)展過(guò)程中,舌的變化是迅速而顯著的,然而傳統(tǒng)的舌診有賴于醫(yī)者的主觀分析,有不可避免的局限性[1],診斷結(jié)果可能是模糊和不確定的,阻礙了其發(fā)展應(yīng)用。因此,有必要對(duì)舌診進(jìn)行客觀化定量檢測(cè),并探討舌象與疾病的量化關(guān)系。

        如今,計(jì)算機(jī)科學(xué)和技術(shù)的發(fā)展使得基于圖像處理和模式識(shí)別的自動(dòng)舌診系統(tǒng)設(shè)計(jì)成為可能[4]。機(jī)器學(xué)習(xí)算法已被應(yīng)用于舌象的顏色、紋理和形狀研究,包括支持向量機(jī)(support vector machines,SVM)[5]、隨機(jī)森林(random forest,RF)[6]、K-均值聚類(K-means clustering algorithm)[7]、主成分分析法(principal component analysis,PCA)[8]、梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)[9]、自適應(yīng)提升(adaptive boosting,AdaBoost)[10]和樸素貝葉斯(naive Bayes model)[4]等。然而,被采集者的舌象特征復(fù)雜且相互關(guān)聯(lián),如舌色與苔色間的相關(guān)性較為明顯,要達(dá)到預(yù)期的分類精度具有一定的難度。

        傳統(tǒng)的圖像分類算法通常在簡(jiǎn)單的圖像分類任務(wù)上效果較好,但在較為復(fù)雜的任務(wù)上效果差強(qiáng)人意[11-13]。隨著人工智能的快速發(fā)展,深度學(xué)習(xí)技術(shù)也越來(lái)越成熟,智能方法應(yīng)用于中醫(yī)研究[14-17]使該領(lǐng)域發(fā)生了范式轉(zhuǎn)變。劉飛等人[18]基于深度學(xué)習(xí)的方法將預(yù)處理的圖像特征映射作為網(wǎng)絡(luò)的輸入,完成了對(duì)糖尿病患者和正常對(duì)照組的分類識(shí)別。在臨床應(yīng)用上,不少研究者開(kāi)展舌診以及相關(guān)領(lǐng)域客觀化和定量化的探索,如Sun 等人[19]基于7 層卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提出了一種無(wú)需邊界框準(zhǔn)確分類齒痕舌并定位舌診圖像中重要區(qū)域的方法,平均分類準(zhǔn)確率達(dá)到78.6%。

        分析統(tǒng)計(jì)目前已有的舌診研究文獻(xiàn)發(fā)現(xiàn)(見(jiàn)圖1[20]),文獻(xiàn)發(fā)表數(shù)量整體呈波浪式上升趨勢(shì),但增加速度緩慢,研究主題主要包括舌診客觀化研究、中醫(yī)舌診、中醫(yī)舌象、中醫(yī)診斷、圖像分割、圖像處理、特征提取和冠心病等內(nèi)容[20]。研究方法主要是通過(guò)傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)對(duì)舌診圖像進(jìn)行定量分析。傳統(tǒng)方法適合解決小樣本場(chǎng)景中過(guò)度擬合的問(wèn)題?;谏疃葘W(xué)習(xí)在圖像分類方面取得較好的成果,因此一些深度學(xué)習(xí)的方法被廣泛應(yīng)用于舌診客觀化研究。深度學(xué)習(xí)與傳統(tǒng)方法相比具有以下優(yōu)點(diǎn):(1)在大規(guī)模數(shù)據(jù)和識(shí)別精度上,深度學(xué)習(xí)模型具有更好的能力;(2)可以最大程度地進(jìn)行信息交換。

        圖1 舌診客觀化研究發(fā)表文獻(xiàn)的變化趨勢(shì)Fig.1 Growth of objective study papers on tongue diagnosis

        目前,舌診自動(dòng)化主要的處理流程分析(見(jiàn)圖2[21])如下:首先采集舌診圖像,進(jìn)行顏色校正或數(shù)據(jù)增強(qiáng)(平移、旋轉(zhuǎn)和鏡像等)預(yù)處理;然后基于深度學(xué)習(xí)進(jìn)行舌體分割和舌象分類,舌象分類包括提取舌象的顏色、紋理和形狀等特征與舌象分析;接著根據(jù)中醫(yī)舌診知識(shí)庫(kù)的相關(guān)知識(shí)實(shí)現(xiàn)中醫(yī)證候的推斷;最后給出中醫(yī)診斷建議。

        圖2 舌診自動(dòng)化流程Fig.2 Tongue diagnosis automated process

        1 基于深度學(xué)習(xí)的舌象分類方法

        1.1 早期神經(jīng)網(wǎng)絡(luò)

        人工神經(jīng)網(wǎng)絡(luò)由大量相互連接的神經(jīng)元組成,它近似模擬了神經(jīng)信號(hào)的處理。Rosenblatt等人提出了多層感知器模型(multilayer perceptron,MLP),首次將神經(jīng)網(wǎng)絡(luò)的理論付諸實(shí)踐[22-24]。Obafemi-Ajayi等人[13]設(shè)計(jì)了自動(dòng)識(shí)別和舌形分類的方法,同時(shí)用SVM 和MLP 來(lái)訓(xùn)練舌形分類,并提出了基于對(duì)稱軸檢測(cè)的新方法來(lái)校正舌頭的方向。在自建的包含303 張舌象的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MLP 比SVM 識(shí)別準(zhǔn)確率高約3%。

        1998年,LeCun等人[25]提出基于梯度學(xué)習(xí)的CNN模型LeNet-5,網(wǎng)絡(luò)由卷積區(qū)和全連接(fully connected,F(xiàn)C)區(qū)兩部分組成。邢甜甜[26]對(duì)舌色、舌苔色、舌苔薄厚、舌苔腐膩和舌苔潤(rùn)燥5 個(gè)類別分別建立了CNN模型,參照LeNet-5 網(wǎng)絡(luò)進(jìn)行調(diào)整。同時(shí),建立了多任務(wù)CNN 模型,將顏色和紋理分類任務(wù)分別對(duì)應(yīng)一個(gè)網(wǎng)絡(luò)模型。與單任務(wù)分類相比,在節(jié)約時(shí)間、減少計(jì)算量的同時(shí)不犧牲分類性能。

        1.2 卷積神經(jīng)網(wǎng)絡(luò)

        LeNet-5 網(wǎng)絡(luò)逐漸被其他機(jī)器學(xué)習(xí)方法所超越[27-29]。2012 年,Krizhevsky 等人[30]構(gòu)建了AlexNet 網(wǎng)絡(luò)。Zeiler 和Fergus[31]構(gòu)建ZFNet 網(wǎng)絡(luò),使用可視化技術(shù)揭示神經(jīng)網(wǎng)絡(luò)各層的作用并優(yōu)化網(wǎng)絡(luò),調(diào)整后的網(wǎng)絡(luò)性能超越了原始網(wǎng)絡(luò)。隨后,原理、算法和模型經(jīng)歷了井噴式發(fā)展,相關(guān)的研究工作如汗牛充棟。

        Xue 等人[32]用裂紋舌和非裂紋舌數(shù)據(jù)對(duì)AlexNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提取裂紋區(qū)域的高層次特征。Huo 等人[33]在AlexNet 網(wǎng)絡(luò)基礎(chǔ)上,通過(guò)批量歸一化(batch normolization,BN)[34]對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,結(jié)果表明預(yù)處理方法提高了舌形分類的精度,減少了訓(xùn)練時(shí)間,證明了對(duì)不同舌形識(shí)別的有效性。肖慶新等人[35]對(duì)AlexNet 結(jié)構(gòu)進(jìn)行修改,將卷積核大小為11×11 或7×7 改為5×5 或3×3,并且減少了全連接層的輸出數(shù)量,卷積操作后增加了池化操作,減少了參數(shù)數(shù)目和特征圖尺寸,搭建了舌苔顏色分類模型。

        針對(duì)2012 年的ImageNet 數(shù)據(jù)集,深度學(xué)習(xí)框架Caffe定義的結(jié)構(gòu)與AlexNet大致相同,被稱為CaffeNet[36]。Hou 等人[37]針對(duì)舌色分類問(wèn)題,在CaffeNet 的基礎(chǔ)上對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改,修改方案與文獻(xiàn)[33]相同。因?yàn)樯嘞髷?shù)量有限,在學(xué)習(xí)過(guò)程中,舌象的某些特征會(huì)逐漸減弱甚至消失,所以減少FC 層的神經(jīng)元數(shù)量,結(jié)果比傳統(tǒng)方法更實(shí)用、準(zhǔn)確。

        2014 年,Simonyan 等人[38]提出了VGG 模型,運(yùn)用更小的卷積核,并且加深網(wǎng)絡(luò),一定程度減少了參數(shù)量,達(dá)到更好的效果。AlexNet、VGG 等模型都是通過(guò)增大網(wǎng)絡(luò)的深度來(lái)獲得更好的訓(xùn)練效果,但層數(shù)的增加會(huì)帶來(lái)很多負(fù)作用,比如過(guò)擬合、梯度消失/爆炸等。2015 年,Szegedy 等人[39]結(jié)合文獻(xiàn)[40-41]提出GoogLeNet網(wǎng)絡(luò),Inception 模塊的提出可以從另一種角度優(yōu)化訓(xùn)練效果,在相同計(jì)算量下提取到更多的特征,更高效地利用計(jì)算資源。

        為了解舌苔的性質(zhì),F(xiàn)u 等人[42]采用Otsu 閾值分割[43]舌體,并將圖片色彩轉(zhuǎn)化到HSV[44]顏色空間,由于大部分舌苔位于舌的中央或根部,且在水平方向上近似對(duì)稱,采用了水平翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)方式,最后用GoogLeNet 網(wǎng)絡(luò)進(jìn)行了四分類和三分類。CNN 具有局部性和平移不變性等優(yōu)點(diǎn)。但如果需要對(duì)圖像中的對(duì)象或錯(cuò)誤進(jìn)行定位、標(biāo)定、代碼讀取或后期處理,則傳統(tǒng)算法更具有優(yōu)勢(shì)。該方法結(jié)合了基礎(chǔ)圖像處理和深度學(xué)習(xí)的特點(diǎn),使得模型性能有所提升。

        CNN 在圖像分類任務(wù)中表現(xiàn)良好。然而,隨著CNN 深度的增加,訓(xùn)練更加困難,訓(xùn)練誤差更高。隨著網(wǎng)絡(luò)深度的增加,準(zhǔn)確率達(dá)到飽和后迅速下降。2015年,He等人[45]提出了ResNet 解決這種退化問(wèn)題。為減少中醫(yī)師之間的診斷差異,Li等人[46]提出一種基于CNN 的舌特征分類框架(見(jiàn)圖3),使用一種改進(jìn)的人臉標(biāo)志點(diǎn)檢測(cè)方法和U-Net[47]完成舌分割任務(wù),最后以ResNet-34 作為骨干網(wǎng)絡(luò),從舌象中提取特征并分類。邵尤偉[48]先將舌質(zhì)與舌苔分離,然后將分離后的圖像作為輸入,使用ResNet-50 分別對(duì)舌質(zhì)和舌苔分類,并參考Zhang 教授的方法[49]預(yù)測(cè)病癥和診斷結(jié)果。Chang 等人[50]針對(duì)裂紋舌建立ResNet-50和Grad-CAM[51]可視化裂隙區(qū)域,該模型既可檢測(cè)舌裂紋,又可定位裂紋區(qū)域。當(dāng)提取固定位置的手工特征時(shí),舌苔區(qū)域的大小或位置變化可能會(huì)導(dǎo)致模型性能不一致。為了解決這一問(wèn)題,Tang 等人[52]利用ResNet對(duì)舌苔特征進(jìn)行提取和采用多實(shí)例支持向量機(jī)(multiple-instance support vector machines,MI-SVM)[53]進(jìn)行分類。

        圖3 舌象分類整體框架Fig.3 Overview of tongue classification framework

        孫萌等人[54]將ResNet 網(wǎng)絡(luò)與Inception 模塊[39]采用NIN(network in network)[41]方式結(jié)合,設(shè)計(jì)了Triplet Loss的度量分類方法(見(jiàn)圖4),最大化非同類樣本的特征距離,同時(shí)縮小類間樣本特征的間距,增加了網(wǎng)絡(luò)的深度與寬度,同時(shí)能更好地提取特征,減少參數(shù)量。

        圖4 算法整體框架Fig.4 Overall framework of algorithm

        殘差連接使CNN更深、更強(qiáng)、更高效。DenseNet[55]進(jìn)一步擴(kuò)展網(wǎng)絡(luò)連接確保各層間的信息流最大化。陳慧貞[56]以AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),引入DenseNet中的密集連接方式,提出一種舌苔分類模型TonNet。又因?yàn)樯嘣\需舌苔、舌質(zhì)等多方位綜合診斷,研究人員以TonNet 為基礎(chǔ)設(shè)計(jì)了包含舌苔和舌質(zhì)兩個(gè)輸出的舌象辨識(shí)模型Multi-TonNet。

        目前舌象分類中注意力機(jī)制使用最多的是SENet(squeeze-and-excitation network)[57]。牛富泉[16]對(duì)包含人臉的舌圖像進(jìn)行分割,得到的舌區(qū)域圖像采用帶有SE block 的ResNet-101 網(wǎng)絡(luò)分類,提高了裂紋舌的識(shí)別準(zhǔn)確率。為提高智能舌診的診斷效果和增加舌診的可解釋性,駱明楠[58]提出基于Competitive-SE 通道注意力機(jī)制的CNN 和隨機(jī)區(qū)域池化的訓(xùn)練方式,提升了表征能力,突出了某些重要特征,并根據(jù)舌象信息提供診斷思路(見(jiàn)圖5),從而促進(jìn)舌診的可解釋性和智能化。

        圖5 基于舌屬性學(xué)習(xí)的舌診預(yù)測(cè)Fig.5 Prediction of tongue diagnostic based on tongue attribute learning

        1.3 基于區(qū)域卷積網(wǎng)絡(luò)的模型

        自2014 年R-CNN(regions with CNN features)[59]問(wèn)世以來(lái),目標(biāo)檢測(cè)領(lǐng)域涌現(xiàn)大量改進(jìn)的模型[60],例如Fast R-CNN[61]、Faster R-CNN[62]。齒痕區(qū)域僅出現(xiàn)在舌邊緣區(qū)域。現(xiàn)有的方法[63-64]大多是利用凹區(qū)域信息對(duì)齒痕舌進(jìn)行分類,當(dāng)齒痕區(qū)域不凹時(shí),分類結(jié)果往往不一致。為了解決這些問(wèn)題,Li等人[65]提出三階段的方法:第一階段,用R-CNN 選擇搜索生成舌象可疑區(qū)域;第二階段,將可疑區(qū)域輸入CNN 提取每個(gè)區(qū)域的特征向量;第三階段,CNN 的輸出被視為一個(gè)二維矩陣,并使用多實(shí)例分類器進(jìn)行最終決策。Gholami 等人[66]利用R-CNN 網(wǎng)絡(luò)將舌體區(qū)域與其他區(qū)域分離,經(jīng)過(guò)必要的預(yù)處理后,將圖像提供給DenseNet網(wǎng)絡(luò)分類。

        杜春慧[67]針對(duì)舌圖像的裂紋、顏色和齒痕做了定量研究,并搭建了中醫(yī)舌診推薦系統(tǒng),一定程度上為醫(yī)生和患者提供了便利。研究者采用Faster R-CNN網(wǎng)絡(luò)識(shí)別裂紋,通過(guò)ZFNet、VGG-16 和ResNet-101 提取裂紋特征。同時(shí)采用模糊C 均值聚類分離舌質(zhì)和舌苔,通過(guò)KNN、SVM、CNN 和Bayes 識(shí)別舌色。Chen 等人[68]提出基于ResNet-50 模型和注意力機(jī)制改進(jìn)的Faster R-CNN 方法。首先,考慮到隨著網(wǎng)絡(luò)深度的增加,缺失的信息會(huì)增加,提出在區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)中使用ResNet-50模型,以保留更多的原始信息。其次,在網(wǎng)絡(luò)中引入空間注意力和通道注意力機(jī)制,強(qiáng)調(diào)局部病變信息,抑制背景舌象信息。結(jié)果與原始的Faster R-CNN 相比,準(zhǔn)確率顯著提高。

        Mask R-CNN[69]在Faster R-CNN 基礎(chǔ)上增加分支目標(biāo)掩碼預(yù)測(cè)網(wǎng)絡(luò),并行當(dāng)前的邊界框識(shí)別,能同時(shí)進(jìn)行目標(biāo)檢測(cè)和分割,且易于擴(kuò)展到其他任務(wù)上。Li等人[70]將數(shù)據(jù)分為數(shù)據(jù)集1 和數(shù)據(jù)集2,并利用Mask R-CNN 模型對(duì)數(shù)據(jù)集2 的舌診圖像進(jìn)行檢測(cè),去除原始圖像的背景。然后在數(shù)據(jù)集1 和數(shù)據(jù)集2 上采用疊加技術(shù)進(jìn)行模型融合,以最大限度地發(fā)揮臨床數(shù)據(jù)的優(yōu)勢(shì),獲得更好的分類效果。Peng 等人[71]設(shè)計(jì)了舌象點(diǎn)刺識(shí)別與提取模型,包括多尺度特征圖生成、候選區(qū)選擇和目標(biāo)區(qū)域識(shí)別。利用深度卷積網(wǎng)絡(luò)構(gòu)造多尺度特征圖,然后利用目標(biāo)候選框生成算法和選擇策略選擇高抽象的特征圖,最后利用分類網(wǎng)絡(luò)對(duì)目標(biāo)區(qū)域分類。在非標(biāo)準(zhǔn)光照條件下,實(shí)驗(yàn)使用手機(jī)拍攝各種舌象,以增加模型的魯棒性。

        根據(jù)舌象紋理的特點(diǎn),劉佳麗等人[72]設(shè)計(jì)基于YOLOv3 目標(biāo)檢測(cè)改進(jìn)的Double-D 優(yōu)化架構(gòu)。首先在特征提取架構(gòu)DarkNet-53 網(wǎng)絡(luò)中進(jìn)行細(xì)粒度特征融合,然后利用K-means 維度聚類和多尺度識(shí)別定位,得到訓(xùn)練權(quán)重后,對(duì)舌裂紋進(jìn)行預(yù)測(cè)。Yen等人[73]使用YOLOv4[74]對(duì)舌所屬的類別進(jìn)行分類并獲取坐標(biāo)信息,可用于識(shí)別其他舌象。針對(duì)齒痕舌識(shí)別效率低和準(zhǔn)確率不高的問(wèn)題,顏建軍等人[75]提出基于YOLOv5 的齒痕檢測(cè)模型,利用分割算法對(duì)舌體進(jìn)行分割,采用YOLOv5 檢測(cè)齒痕區(qū)域,提取相關(guān)齒痕舌特征向量,用RF 分類。

        Weng 等人[76]提出了基于DarkNet-53 的弱監(jiān)督Y(jié)OLO(weakly supervised YOLO,WSYOLO)方法(見(jiàn)圖6),利用完全邊界框注釋和粗圖像注釋的舌圖像來(lái)訓(xùn)練齒痕和裂紋檢測(cè)模型。該模型基于YOLO 擴(kuò)展而來(lái),并增加了幾個(gè)分類分支,用于識(shí)別齒痕舌和裂紋舌。分類分支從不同層次提取特征,檢測(cè)分支用于定位齒痕和裂紋的位置。

        圖6 WSYOLO 的網(wǎng)絡(luò)架構(gòu)Fig.6 Framework of WSYOLO

        1.4 遷移學(xué)習(xí)

        中醫(yī)舌診需要觀察舌體的顏色、紋理和形狀,以獲得必要的信息。由于醫(yī)學(xué)圖像樣本少,采用遷移學(xué)習(xí)方法緩解了醫(yī)學(xué)圖像樣本不足的問(wèn)題。目前基于遷移學(xué)習(xí)的舌象分類方法大多是利用大型ImageNet數(shù)據(jù)集或其他醫(yī)學(xué)數(shù)據(jù)集對(duì)網(wǎng)絡(luò)預(yù)訓(xùn)練,然后遷移到目標(biāo)任務(wù)對(duì)網(wǎng)絡(luò)微調(diào)。最后使用少量醫(yī)學(xué)數(shù)據(jù)重新訓(xùn)練全連接層進(jìn)行分類,進(jìn)而提高網(wǎng)絡(luò)的性能。醫(yī)學(xué)圖像的主流遷移框架如圖7 所示,其中微調(diào)的模型、次數(shù)、順序以及預(yù)訓(xùn)練數(shù)據(jù)集的選用都會(huì)影響最終遷移的效果[77]。

        圖7 醫(yī)學(xué)圖像的主流遷移框架Fig.7 Mainstream migration framework in medical image field

        針對(duì)開(kāi)放環(huán)境中拍攝引起的舌體位置不統(tǒng)一問(wèn)題,李淵彤等[21]用預(yù)訓(xùn)練的VGG-16 模型初始化,用空間變換層糾正圖像目標(biāo)的空間位置,再用多個(gè)卷積層和池化層的組合獲取多個(gè)任務(wù)之間共享的語(yǔ)義特征圖,最后由一個(gè)卷積塊和多個(gè)全連接層組合用于共同的語(yǔ)義特征提取,針對(duì)各自任務(wù)相關(guān)的語(yǔ)義特征向量進(jìn)行分類預(yù)測(cè)。

        Chen 等人[78]提出了相似稀疏域自適應(yīng)方法對(duì)舌診進(jìn)行建模(見(jiàn)圖8),其中A 表示ResNet-34 網(wǎng)絡(luò),B表示Faster R-CNN。在ResNet-34 預(yù)訓(xùn)練的基礎(chǔ)上構(gòu)建RPN 的訓(xùn)練,只需增加少量計(jì)算成本。通過(guò)對(duì)輸入的舌圖像進(jìn)行分類,將具有代表性的病變和其他異常標(biāo)記出來(lái)作為最終多分類的輔助依據(jù),有效地模擬中醫(yī)師診斷。

        圖8 中醫(yī)舌診模型架構(gòu)Fig.8 Architecture of TCM tongue diagnosis model

        劉婧瑋[79]基于ResNet-34 網(wǎng)絡(luò)和VGG-16 網(wǎng)絡(luò)對(duì)齒痕和膩苔分類,通過(guò)遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)優(yōu)化防止過(guò)擬合,但因?yàn)闃颖静黄胶馇夷佁υ\斷受醫(yī)生主觀影響較大,膩苔識(shí)別在驗(yàn)證集上的準(zhǔn)確率不高。Wang 等人[80]用預(yù)訓(xùn)練權(quán)重初始化網(wǎng)絡(luò)并微調(diào),使用ResNet-34 網(wǎng)絡(luò)結(jié)構(gòu)提取特征并分類。該模型可推廣到其他設(shè)備捕獲的圖像,具有較強(qiáng)的泛化能力,可從信息學(xué)的角度提供客觀、方便的計(jì)算機(jī)輔助舌診方法,用于跟蹤疾病進(jìn)展和評(píng)估藥理作用。

        邱童[81]用ResNet-50 預(yù)訓(xùn)練并微調(diào),采用Faster R-CNN 框架對(duì)舌診圖像進(jìn)行預(yù)處理,使用多特征融合的方法對(duì)高低語(yǔ)義信息特征融合,對(duì)是否是舌象進(jìn)行分類。為了適應(yīng)各種攝影環(huán)境下的舌診圖像,構(gòu)建中藥處方,Hu 等人[82]用ResNet-50 和VGG 模型預(yù)訓(xùn)練,并設(shè)計(jì)了用于處方構(gòu)建的神經(jīng)網(wǎng)絡(luò)框架。此外,研究人員還提出輔助治療主題丟失機(jī)制,以模擬中醫(yī)師治療,并減少輸出標(biāo)簽對(duì)結(jié)果多樣性的干擾。實(shí)驗(yàn)使用真實(shí)的舌診圖像和相應(yīng)的處方,結(jié)果可以生成與真實(shí)樣本接近的處方,驗(yàn)證了方法的可行性。同時(shí),從更多的物理信息出發(fā),為自動(dòng)構(gòu)建中藥處方提供參考。Song 等人[83]通過(guò)預(yù)訓(xùn)練好的ResNet和Inception-v3 網(wǎng)絡(luò)提取舌體特征,用全局平均池化和全連接層重寫原始網(wǎng)絡(luò)的輸出層,得到分類結(jié)果。

        Sadasivan等人[84]采用經(jīng)典的AlexNet、VGG、Goog-LeNet 和ResNet 模型進(jìn)行遷移學(xué)習(xí),并采用兩種方法進(jìn)行對(duì)比:第一種方法,在大規(guī)模的ImageNet 數(shù)據(jù)集上,使用微調(diào)的預(yù)訓(xùn)練模型,最佳準(zhǔn)確率為98.61%;第二種方法,使用未微調(diào)的預(yù)訓(xùn)練模型,準(zhǔn)確率為96.94%。盡管與第二種方法相比,第一種方法的訓(xùn)練時(shí)間較長(zhǎng),但研究結(jié)果強(qiáng)調(diào)遷移學(xué)習(xí)在識(shí)別任務(wù)中的優(yōu)越性,并且ResNet模型效果都優(yōu)于其他模型。

        楊晶東等人[85]利用遷移學(xué)習(xí)獲取公共特征,再使用全連接神經(jīng)網(wǎng)絡(luò)對(duì)舌象特征進(jìn)行訓(xùn)練分類,架構(gòu)采用“Inception-v3 和兩層全連接層”和“Inception-v3和三層全連接層”。為解決舌象分類易受到舌部其他信息干擾的問(wèn)題,翟鵬博等人[86]提出融合注意力機(jī)制的多階段舌象分類算法,并設(shè)計(jì)了舌象采集系統(tǒng)采集舌診圖片。首先通過(guò)融合不同的感受野特征,獲得舌部區(qū)域,然后借助注意力機(jī)制排除舌部其他的信息干擾,提取更為精準(zhǔn)的信息進(jìn)行分類。因?yàn)橛械谋徊杉啐X痕不明顯且與周圍舌體較為接近,所以齒痕舌比其他類別的分類準(zhǔn)確率低。

        齒痕舌的識(shí)別具有一定的挑戰(zhàn)?,F(xiàn)有的方法大多只關(guān)注齒痕舌的分類,沒(méi)有涉及齒痕的確切位置和數(shù)量,對(duì)后續(xù)診斷缺乏指導(dǎo)性作用。Kong 等人[87]試圖解決這些問(wèn)題,提出了一種基于Mask scoring RCNN 框架和在COCO 數(shù)據(jù)集上訓(xùn)練ResNet-101 網(wǎng)絡(luò)的遷移學(xué)習(xí)方法,可以提取、可視化齒痕并識(shí)別齒痕的數(shù)量。該方法可以穩(wěn)定地檢測(cè)和分割齒痕,為齒痕舌的嚴(yán)重程度分析提供依據(jù)。劉夢(mèng)等人[88]以帶預(yù)訓(xùn)練權(quán)重的VGG-16 和ZFNet 為特征提取器的Faster R-CNN 模型對(duì)齒痕舌和裂紋舌進(jìn)行局部特征提取。

        由于舌體分割的復(fù)雜性和細(xì)粒度特性,舌診圖像分類具有一定的挑戰(zhàn),而兩項(xiàng)任務(wù)是高度相關(guān)的,與多任務(wù)聯(lián)合學(xué)習(xí)(multi-task joint learning,MTL)的思想相同。Xu 等人[89]提出了用于舌診圖像分割和分類的MTL 方法。其中,網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,以ResNet-50 為網(wǎng)絡(luò)的骨干,并且考慮到舌苔分類的類間方差小、類內(nèi)方差大的特點(diǎn),同時(shí)將U-Net和判別濾波器學(xué)習(xí)融合到MTL 中,使這兩項(xiàng)任務(wù)能達(dá)到預(yù)期的效果。

        舌象標(biāo)簽之間有較強(qiáng)的相關(guān)性,需綜合考慮舌象多標(biāo)簽。湯一平等人[90]提出了MTL 模型。首先,在ImageNet 數(shù)據(jù)集上參數(shù)初始化,在共享網(wǎng)絡(luò)層對(duì)所有標(biāo)簽進(jìn)行聯(lián)合學(xué)習(xí),自動(dòng)挖掘和利用標(biāo)簽間的相關(guān)性;然后,在不同子網(wǎng)絡(luò)層分別完成特定類別的學(xué)習(xí)任務(wù),從而消除多標(biāo)簽分類中的歧義性;最后,訓(xùn)練多個(gè)Softmax 分類器以實(shí)現(xiàn)對(duì)所有標(biāo)簽的并行預(yù)測(cè)。該方法以端到端的方式同時(shí)提取舌象多個(gè)特征并直接進(jìn)行分類識(shí)別。

        1.5 其他方法

        舌象標(biāo)簽之間有較強(qiáng)的相關(guān)性,需綜合考慮舌象多標(biāo)簽。王愛(ài)民等人[91]提出了基于學(xué)習(xí)矢量量化(learning vector quantization,LVQ)神經(jīng)網(wǎng)絡(luò)的舌色、苔色自動(dòng)分類方法,分類器采用“2σ”準(zhǔn)則進(jìn)行樣本篩 選,并采用Fisher[92]作為色度 空間(RGB,HIS,Ohta,YUV)選擇的依據(jù),有效地提高了圖像的識(shí)別率。然而,一個(gè)圖像塊可能有多種類別的彩色,但在標(biāo)注時(shí)僅將其定為一種類別,容易造成量化誤差。

        文獻(xiàn)[93]在圖像模糊相關(guān)求和過(guò)程中提出了加權(quán)因子的算法,然而這是以人工方式完成的。針對(duì)這個(gè)問(wèn)題,Qin 等人[94]提出模糊小腦模型關(guān)節(jié)控制器(fuzzy cerebellar model articulation controller,F(xiàn)CMAC)取代加權(quán)模糊關(guān)聯(lián)算法,以克服參數(shù)調(diào)整過(guò)程中的不確定性和不適應(yīng)性。首先,根據(jù)專家的判斷選擇圖像作為輸入,訓(xùn)練FCMAC 神經(jīng)網(wǎng)絡(luò)進(jìn)行模糊適應(yīng),并作為檢驗(yàn)對(duì)象。其次,提高期望輸出值以增加主要特征顏色向量的比例,同時(shí)降低次要特征向量的比例,以提高對(duì)檢索焦點(diǎn)的關(guān)注度。人眼對(duì)顏色具有相對(duì)恒常性,而機(jī)器不敏感顏色的變化,通過(guò)加入噪聲,如陰影或日光圖,降低表示陰影和日光圖的顏色向量的比例,以便檢索對(duì)噪聲不太敏感。

        深度學(xué)習(xí)網(wǎng)絡(luò)通常使用大量的舌診圖像進(jìn)行訓(xùn)練。然而,某些類別的舌圖像很少,這使得深度學(xué)習(xí)無(wú)法使用。此外,收集大量的舌診圖像成本太高且難以應(yīng)用。Qiu[95]采用元學(xué)習(xí)方法,通過(guò)幾個(gè)樣本提高識(shí)別的準(zhǔn)確性,提出了改進(jìn)的原型網(wǎng)絡(luò)(prototypical network),并根據(jù)舌診圖像的特點(diǎn)設(shè)計(jì)了基于領(lǐng)域知識(shí)(domain knowledge)和混合損失函數(shù)的特征嵌入算法。該方法比改進(jìn)前的原型網(wǎng)絡(luò)、ResNet 和AlexNet的精度都有提升,具有良好的泛化能力。

        鑒于多模型決策可以克服單模型判別的不足,獲得更高的分類精度。Xiao 等人[96]提出了多模型決策的中醫(yī)舌苔紋理分析方法。首先,對(duì)舌苔紋理進(jìn)行預(yù)分類。然后,通過(guò)比較Inception-v3、ResNet-50和MobileNet 等不同深度網(wǎng)絡(luò)模型的分類精度,進(jìn)行多模型決策,進(jìn)一步優(yōu)化舌苔紋理分析結(jié)果。

        通用CNN 對(duì)區(qū)域舌象細(xì)節(jié)特征的獲取能力較弱,同時(shí)忽略卷積通道之間的關(guān)系,導(dǎo)致模型有較高冗余。為增強(qiáng)CNN 效果,Hu 等人[97]提出了隨機(jī)區(qū)域合并方法獲取詳細(xì)的區(qū)域特征。同時(shí),還提出了內(nèi)成像通道關(guān)系建模方法,并與空間注意力機(jī)制相結(jié)合,對(duì)所有通道上的多區(qū)域關(guān)系建模。新的全通道區(qū)域注意力網(wǎng)絡(luò)對(duì)局部細(xì)節(jié)特征建模,提高了建模效率。該模型為舌象細(xì)節(jié)特征的建模提供了范例,對(duì)其他輔助診斷應(yīng)用具有指導(dǎo)意義。關(guān)于如何動(dòng)態(tài)地調(diào)整任務(wù)的交互時(shí)間,Xu 等人[98]提出了任務(wù)耦合彈性學(xué)習(xí)框架建立任務(wù)相關(guān)性,用特征圖像對(duì)疾病位置和疾病性質(zhì)分類,用動(dòng)態(tài)序列模塊建立序列關(guān)系并實(shí)現(xiàn)多階段訓(xùn)練和損失正則化。

        采集到的原始數(shù)據(jù)通常是有噪聲的高維數(shù)據(jù),Dai等人[99]提出了概念對(duì)齊深度自動(dòng)編碼器的方法分析舌圖像。深層自動(dòng)編碼器分解為兩個(gè)主要部分:編碼器逐層執(zhí)行對(duì)輸入圖像的降維,解碼器重建原始圖像。Meng 等人[100]提出了特征提取框架,以提取無(wú)偏差的特征并減少舌診斷的工作量。為解決冗余問(wèn)題,引入高分散性和局部響應(yīng)正?;僮?。針對(duì)中醫(yī)舌色分類中存在噪聲的問(wèn)題,卓力等人[101]提出有噪聲標(biāo)注下的舌色分類方法(見(jiàn)圖9):首先,用二階段的數(shù)據(jù)清洗;然后,用基于通道注意力的輕量卷積神經(jīng)網(wǎng)絡(luò)增強(qiáng)特征的表達(dá)能力;最后,用知識(shí)蒸餾策略提高分類性能,教師網(wǎng)絡(luò)用ResNet-50 和SENet網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)用輕量CNN網(wǎng)絡(luò)。此外,Rajakumaran等人[102]提出了深度可分離卷積模型用于舌色特征提取與分析,在預(yù)處理階段包括數(shù)據(jù)增強(qiáng)和雙邊濾波去除噪聲。利用舌圖像數(shù)據(jù)集對(duì)該模型的性能進(jìn)行評(píng)估,結(jié)果表明具有良好的分類性能。

        圖9 有噪聲標(biāo)注的中醫(yī)舌色分類方法整體框架Fig.9 Overall framework of Chinese medicine tongue color classification method with noisy labeling

        早期神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單且深度較淺,適用于單一且無(wú)復(fù)雜背景的舌體圖像;卷積神經(jīng)網(wǎng)絡(luò)增加了網(wǎng)絡(luò)深度或?qū)挾鹊?,提升了特征提取能力,更關(guān)注舌體圖像局部區(qū)域,適用于開(kāi)放和封閉環(huán)境下的大部分舌象;區(qū)域卷積神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)疾病位置、齒痕和裂紋定位,適用于背景復(fù)雜且明顯的舌體圖像;遷移學(xué)習(xí)能夠緩解樣本不足的問(wèn)題,降低計(jì)算資源損耗,縮短訓(xùn)練時(shí)間,適用于小樣本舌象分類;其他方法是針對(duì)某一特定問(wèn)題提出的解決方案。

        綜上所述,深度學(xué)習(xí)算法在中醫(yī)學(xué)中的應(yīng)用發(fā)展迅速,表1和表2總結(jié)了深度學(xué)習(xí)的舌象分類方法。

        表1 基于深度學(xué)習(xí)的舌象分類方法比較Table 1 Comparison of deep learning based methods for tongue classification

        表2 基于遷移學(xué)習(xí)的舌象分類方法比較Table 2 Comparison of transfer learning based methods for tongue classification

        2 常用數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        2.1 常用數(shù)據(jù)集

        對(duì)于中醫(yī)舌象分類來(lái)說(shuō),由于中醫(yī)臨床數(shù)據(jù)的特殊性和隱私保護(hù)問(wèn)題,可研究的數(shù)據(jù)有限,目前的公開(kāi)數(shù)據(jù)集較少。公開(kāi)數(shù)據(jù)集Tooth-Marked-Tongue為HANHUI 在Kaggle 網(wǎng)站上發(fā)布的尺寸不一的有齒痕和無(wú)齒痕數(shù)據(jù),共1 250 例[103],如圖10 所示,其舌象的標(biāo)簽是由多名中醫(yī)師標(biāo)注。公開(kāi)數(shù)據(jù)集BioHit 圖像數(shù)據(jù)集[104]包含300 例舌圖像,圖像尺寸為567×768像素,如圖11 所示。目前大多數(shù)研究者自建數(shù)據(jù)集,從互聯(lián)網(wǎng)收集,與各個(gè)學(xué)術(shù)研究機(jī)構(gòu)和醫(yī)院合作,并由專業(yè)且經(jīng)驗(yàn)豐富的中醫(yī)專家標(biāo)注,如圖12 所示。

        圖10 Tooth-Marked-Tongue數(shù)據(jù)集部分舌象圖像Fig.10 Some samples of Tooth-Marked-Tongue dataset

        圖11 BioHit數(shù)據(jù)集部分舌象圖像Fig.11 Some samples of BioHit tongue dataset

        圖12 自建數(shù)據(jù)集部分舌象圖像Fig.12 Some samples of self-built tongue dataset

        由于醫(yī)學(xué)圖像樣本數(shù)量不足,在圖像分類之前,需對(duì)樣本進(jìn)行數(shù)據(jù)增強(qiáng),以保證不同特征的舌象數(shù)據(jù)具有相同規(guī)模的訓(xùn)練集和驗(yàn)證集。采用的類別平衡策略為保持最大的樣本數(shù)目不變,再根據(jù)少數(shù)類與最大類的數(shù)量間的差異,對(duì)少數(shù)類進(jìn)行樣本類別擴(kuò)充。常用的數(shù)據(jù)增強(qiáng)方式有平移、旋轉(zhuǎn)、水平翻轉(zhuǎn)、加高斯噪聲等不同變換方法的組合來(lái)對(duì)圖像進(jìn)行增強(qiáng),也有利用生成模型生成新的樣本或新的特征。SMOTE(synthetic minority oversampling technique)[105]是一種綜合采樣人工合成數(shù)據(jù)的算法,用于解決數(shù)據(jù)類別不平衡問(wèn)題,以過(guò)采樣少數(shù)類和下采樣多數(shù)類結(jié)合的方式來(lái)合成數(shù)據(jù)。Qi等人[6]利用SMOTE 算法解決舌色學(xué)習(xí)樣本數(shù)的不平衡性來(lái)提高分類精度。

        2.2 評(píng)價(jià)指標(biāo)

        無(wú)論是二分類問(wèn)題,還是多分類問(wèn)題,最常用的是性能度量指標(biāo)是錯(cuò)誤率和準(zhǔn)確度。然而,只有錯(cuò)誤率和準(zhǔn)確度不能滿足所有任務(wù)的要求,往往還有查準(zhǔn)率(precision,P)與查全率(recall,R)。

        對(duì)于二分類問(wèn)題,可依據(jù)真實(shí)類別與預(yù)測(cè)類別劃分為真正例(true positive,TP)、假正例(false positive,F(xiàn)P)、真反例(true negative,TN)、假反例(false negative,F(xiàn)N),如表3 所示。

        表3 混淆矩陣Table 3 Confusion matrix

        準(zhǔn)確度(accuracy,Acc)是指分類正確的樣本數(shù)除以樣本總數(shù),由式(1)計(jì)算:

        查準(zhǔn)率P和查全率R分別如式(2)和式(3)所示:

        一般來(lái)說(shuō),查全率R低時(shí),查全率P往往高,反之亦然。

        F1 度量是基于查準(zhǔn)率與查全率的調(diào)和平均,由式(4)計(jì)算:

        特異性(specificity,Spc)是指負(fù)樣本被預(yù)測(cè)為負(fù)樣本的比例,計(jì)算方式如式(5):

        虛警率(false alarm rate,F(xiàn)AR)是指負(fù)樣本中被分為正樣本的比例,其值越小說(shuō)明模型的性能越好,計(jì)算公式如式(6):

        舌象分類大多都為單標(biāo)簽分類,一般只是針對(duì)一個(gè)類別,如顏色、紋理或者形狀,并沒(méi)有考慮到多標(biāo)簽分類。而病人的情況是復(fù)雜多樣的,故診斷任務(wù)也有圖像多分類任務(wù)。舌診預(yù)測(cè)任務(wù)是數(shù)據(jù)不平衡下的多標(biāo)簽分類任務(wù),因此評(píng)價(jià)指標(biāo)不能采用單標(biāo)簽圖像分類的標(biāo)準(zhǔn),要綜合考察查準(zhǔn)率和查全率。

        AP 值為根據(jù)精準(zhǔn)率和召回率繪制而成的PR 曲線下的面積,能夠很好地在醫(yī)療任務(wù)上對(duì)模型進(jìn)行評(píng)判。而mAP 值是多類別的AP 值,是衡量模型在多個(gè)類別上的預(yù)測(cè)性能情況,計(jì)算公式如式(7)所示。

        一種比較直接的方法是在各混淆矩陣上分別計(jì)算查準(zhǔn)率和查全率,然后計(jì)算平均值,即可得到宏查準(zhǔn)率(macro-P)、宏查全率(macro-R)和對(duì)應(yīng)的宏平均(macro-F1),計(jì)算公式如式(8)~(10)所示:

        也可以把各個(gè)混淆矩陣對(duì)應(yīng)的元素進(jìn)行平均,再基于平均值計(jì)算微查準(zhǔn)率(micro-P)、微查全率(micro-R)和微平均(micro-F1),計(jì)算公式如式(11)~(13)所示。

        3 舌診圖像的應(yīng)用

        近年來(lái),圖像分類、舌象提取、舌體或舌苔分割等重要的人工智能技術(shù)被廣泛應(yīng)用于舌診,以提高診斷的魯棒性和準(zhǔn)確性。在中醫(yī)臨床實(shí)踐中,中醫(yī)師通過(guò)觀察舌色、形狀、舌苔、唾液量等特征,推斷出被采集者的主要疾病。不同綜合癥或疾病的舌象被電子化后,得到標(biāo)有不同綜合癥或疾病的舌象數(shù)據(jù)集,應(yīng)用人工智能方法構(gòu)建預(yù)測(cè)人體不同綜合癥或疾病狀態(tài)的舌象,為臨床綜合癥和疾病的診斷及臨床用藥提供了依據(jù)[106],舌診圖像與中醫(yī)證候和疾病的映射關(guān)系如圖13 所示。劉國(guó)正[107]將舌象與中醫(yī)證候聯(lián)系起來(lái),采用ResNet-18 模型進(jìn)行了4 組分類(正常-證候、正常-熱證、正常-寒證和熱證-寒證),并擴(kuò)展到3 分類(正常-熱證-寒證)。

        圖13 圖像與中醫(yī)證候和疾病的映射方案Fig.13 Mapping scheme of images to TCM symptoms and diseases

        人工智能是通過(guò)將表示學(xué)習(xí)與復(fù)雜的推理相結(jié)合的系統(tǒng)實(shí)現(xiàn)的[108]。Gui 等人[109]利用標(biāo)簽分布特征進(jìn)行舌色的多標(biāo)簽學(xué)習(xí),通過(guò)顏色標(biāo)簽來(lái)描述舌象。這種方法可以看作是不同醫(yī)生對(duì)同一樣本的診斷結(jié)果的總結(jié),符合中醫(yī)診斷的實(shí)際情況。人工智能輔助舌診可以將2 型糖尿病、早期乳腺癌、冠心病等患者與健康人區(qū)分開(kāi)來(lái)[4,79,110-112]。

        研究表明糖尿病患者的舌苔常呈黃色且苔厚[113]。Zhang 等人[114]使用舌色、紋理和幾何特征檢測(cè)糖尿病和非增殖性糖尿病視網(wǎng)膜病變。Li 等人[115]從舌診圖像中提取顏色特征、紋理特征和舌苔,采用最新的深度學(xué)習(xí)技術(shù)ViT(vision transformer)[116]進(jìn)行舌象分類,通過(guò)Grad-CAM 方法提供定位診斷信息,并驗(yàn)證聚類結(jié)果的可靠性。ViT 的訓(xùn)練速度遠(yuǎn)優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)[117-118]。此方法為中醫(yī)藥預(yù)防和治療糖尿病提供診斷依據(jù),開(kāi)展個(gè)體化治療;促進(jìn)中醫(yī)診斷的規(guī)范化發(fā)展;保證中醫(yī)診斷的準(zhǔn)確性和一致性。

        隨著對(duì)冠心病預(yù)測(cè)系統(tǒng)的最新研究,分類變得非常重要[119],深度學(xué)習(xí)提高了冠心病預(yù)測(cè)系統(tǒng)的準(zhǔn)確性。葉樺等人[120]建立基于反向傳播神經(jīng)網(wǎng)絡(luò)的糖尿病合并冠心病舌象和脈象的證型預(yù)測(cè)模型。

        2019 年冠狀病毒?。╟orona virus disease 2019,COVID-19)引起了全世界的關(guān)注。Liang 等人[121]首次將舌診應(yīng)用于COVID-19 疾病進(jìn)展的時(shí)間序列分析。通過(guò)定期分析獲得各種舌診圖像,然后根據(jù)舌頭的特征來(lái)調(diào)整中藥配方。研究人員發(fā)現(xiàn)舌色、舌苔厚度和舌苔顏色與COVID-19 的病變密切相關(guān)。Wang 等人[122]在ImageNet 數(shù)據(jù)集上用ResNet 構(gòu)建了膩舌苔識(shí)別網(wǎng)絡(luò)(GreasyCoatNet)來(lái)完成COVID-19疾病舌診圖像分類任務(wù)。研究者們用普通攝像機(jī)拍攝了50 名處于恢復(fù)期的COVID-19 患者和43 名無(wú)COVID-19 病史的對(duì)照組舌象,用GreasyCoatNet34模型量化與COVID-19 疾病相關(guān)的舌苔。此研究有助于治療選擇和預(yù)測(cè),可以為區(qū)分舌象、診斷中醫(yī)證候和跟蹤疾病進(jìn)展(如COVID-19)提供重要的研究范式,在臨床應(yīng)用中顯示出獨(dú)特的潛力。

        由于綜合癥的診斷受限于臨床醫(yī)生的經(jīng)驗(yàn),Hsu等[113]提出了綜合診斷系統(tǒng)框架,已實(shí)現(xiàn)定量和客觀診斷,同時(shí)輔助年輕醫(yī)生準(zhǔn)確診斷。研究人員使用多箱檢測(cè)器(multi-box detector)檢測(cè)舌體圖像的裂縫區(qū)域,同時(shí)用自己開(kāi)發(fā)的G-TongueNet 和L-TongueNet從整個(gè)舌體圖像和裂縫區(qū)域提取全局和局部特征,再使用GBDT 對(duì)發(fā)熱證、血虛和脾虛進(jìn)行分類,確定最終的綜合癥。

        中醫(yī)體質(zhì)(traditional Chinese medicine constitution,TCMC)作為中醫(yī)理論的重要組成部分之一,引起了越來(lái)越多的研究人員的關(guān)注。國(guó)醫(yī)大師王琦院士團(tuán)隊(duì)提出的九種體質(zhì)學(xué)說(shuō)[122-123]是通過(guò)中醫(yī)的視角來(lái)區(qū)分人體生理特征個(gè)體差異的概念。

        Zhou 等人[124]采用AlexNet網(wǎng)絡(luò)和灰度共生矩陣,以及最小封閉矩形和邊緣曲線來(lái)提取舌圖像的特征。然后使用不同的分類器對(duì)九種體質(zhì)中的氣虛質(zhì)、痰濕質(zhì)和濕熱質(zhì)分類,神經(jīng)網(wǎng)絡(luò)的分類精度比傳統(tǒng)機(jī)器學(xué)習(xí)算法的準(zhǔn)確率提高了9%。Zhou 等人[125]繼續(xù)在AlexNet 網(wǎng)絡(luò)的基礎(chǔ)上,搭建了特征融合的深度網(wǎng)絡(luò),通過(guò)多個(gè)特征層的融合,實(shí)現(xiàn)對(duì)舌診圖像的三種體質(zhì)分類,得到較好的分類結(jié)果,準(zhǔn)確率達(dá)到了73%,比未使用融合的方法[124]提高了10%。謝佳澄[126]對(duì)舌象進(jìn)行TCMC 分類,通過(guò)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)判別一張圖片中是否存在舌,用戶通過(guò)手機(jī)上傳舌象圖片便可進(jìn)行TCMC 分類的判別,并根據(jù)體質(zhì)結(jié)果提供飲食、生活方式等相關(guān)信息的推薦。Li等人[127]提出在開(kāi)放環(huán)境下基于混合深度學(xué)習(xí)的識(shí)別方法,采用GoogLeNet 網(wǎng)絡(luò)識(shí)別體質(zhì)?,F(xiàn)有的體質(zhì)識(shí)別算法對(duì)舌診圖像只給出一個(gè)體質(zhì)結(jié)果。然而,在實(shí)際的體質(zhì)認(rèn)定過(guò)程中,個(gè)人往往會(huì)存在兩個(gè)或兩個(gè)以上的體質(zhì)。Li 等人[128]采用多標(biāo)簽分類方法來(lái)識(shí)別舌診圖像的復(fù)合構(gòu)成,并比較了四種不同網(wǎng)絡(luò)(Inceptionv3、ResNet-50、VGG-16 和DenseNet-121)的特征提取性能。

        舌診圖像的質(zhì)量是構(gòu)建舌診領(lǐng)域標(biāo)準(zhǔn)數(shù)據(jù)集的基礎(chǔ)。Jiang 等人[129]首先對(duì)舌診圖像質(zhì)量進(jìn)行評(píng)估(image quality assessment,IQA),然后進(jìn)行顏色校正和舌體分割,對(duì)舌色、舌質(zhì)和舌形提取特征并分析,綜合舌診圖像特征得到九種TCMC 之一,最后根據(jù)具體的體質(zhì)制定中醫(yī)藥治療方案。IQA 的質(zhì)量篩選模型,用于識(shí)別質(zhì)量好和質(zhì)量差的舌診圖像,通過(guò)準(zhǔn)確度、精密度、召回率和F1-score 等指標(biāo)進(jìn)行比較。此外,盡管深度學(xué)習(xí)方法已經(jīng)應(yīng)用于醫(yī)學(xué)領(lǐng)域[130-131],大多數(shù)研究者還沒(méi)有使用深度學(xué)習(xí)方法自動(dòng)從大量訓(xùn)練樣本中學(xué)習(xí)特征。Ma 等人[132]提出了自動(dòng)體質(zhì)識(shí)別的系統(tǒng)框架,該框架由舌診圖像采集、舌苔檢測(cè)、舌苔校準(zhǔn)、舌特征提取和體質(zhì)分類組成。此方法在個(gè)體層面上考慮了實(shí)例復(fù)雜性,以減少不同環(huán)境條件(如光照和分辨率)對(duì)圖像分布不均的影響。復(fù)雜性感知分類方法是通用的,可以很容易地?cái)U(kuò)展到其他應(yīng)用場(chǎng)景。

        4 分類方法性能比較

        本文主要以HANHUI 在Kaggle 網(wǎng)站上發(fā)布的有齒痕和無(wú)齒痕數(shù)據(jù)[103]作為二分類的例子對(duì)比經(jīng)典網(wǎng)絡(luò)方法。Kaggle 是2010 年成立的預(yù)測(cè)模型和分析競(jìng)賽平臺(tái),目前被用作數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的學(xué)習(xí)平臺(tái)[133]。數(shù)據(jù)包括1 250 張舌圖像,其中546 張有齒痕的異常圖像和704 張無(wú)齒痕的正常圖像。本實(shí)驗(yàn)使用了5 折交叉驗(yàn)證的方式,實(shí)驗(yàn)結(jié)果有以下6 個(gè)指標(biāo)評(píng)估:準(zhǔn)確率(Acc)、查準(zhǔn)率(P)、查全率(R)、F1 度量(F1)、特異性(Spc)和虛警率(FAR)。表4 列出了不同分類方法的各個(gè)評(píng)價(jià)指標(biāo)的均值和方差。表5列出了經(jīng)遷移學(xué)習(xí)后各個(gè)分類模型的評(píng)價(jià)指標(biāo)的均值和方差。

        表4 對(duì)于齒痕舌不同分類方法的評(píng)價(jià)指標(biāo)Table 4 Evaluation metrics for different tooth-marked tongue classification methods 單位:%

        表5 基于遷移學(xué)習(xí)的齒痕舌分類不同方法結(jié)果對(duì)比Table 5 Evaluation metrics for different tooth-marked tongue classification methods based on transfer learning 單位:%

        AlexNet和DenseNet系列準(zhǔn)確率較低。DenseNet系列的Spc接近于1,即被預(yù)測(cè)為負(fù)樣本概率接近1。如果訓(xùn)練數(shù)據(jù)集有限,參數(shù)過(guò)多很容易產(chǎn)生過(guò)擬合,導(dǎo)致模型對(duì)有齒痕和無(wú)齒痕數(shù)據(jù)分布存在偏差,即DenseNet 系列將樣本直接分類為負(fù)樣本。在AlexNet 的基礎(chǔ)上,VGG 系列運(yùn)用了更小的卷積核,并且加深了網(wǎng)絡(luò),達(dá)到了更好的效果。其中VGG-13對(duì)于齒痕舌的診斷采用5 折交叉驗(yàn)證,其準(zhǔn)確率均值為92.37%,方差為0.46%,F(xiàn)1、Spc和FAR分別為90.99%、95.71%和4.29%。無(wú)論是否使用遷移學(xué)習(xí)的方法訓(xùn)練模型,VGG-13 性能最好。GoogLeNet 增加網(wǎng)絡(luò)深度和寬度,但網(wǎng)絡(luò)加深時(shí),有時(shí)無(wú)法收斂,其準(zhǔn)確率僅次于VGG-13 和VGG-16。

        SE_ResNet 系列相比ResNet 系列加入了通道注意力機(jī)制,即可自適應(yīng)地校正通道特征。SE_ResNet系列增加少量參數(shù),提升精度約2%。CNN 的參數(shù)過(guò)多,實(shí)驗(yàn)往往達(dá)不到理想的效果。MobileNet 系列是專注于移動(dòng)端或嵌入式設(shè)備中的輕量級(jí)CNN 網(wǎng)絡(luò),減少模型參數(shù)與運(yùn)算量,結(jié)果表明在齒痕分類的精確度仍有提升的空間。而使用遷移學(xué)習(xí)的方法進(jìn)行齒痕分類時(shí),大多數(shù)模型性能都有所提高,在一定程度上克服了樣本不足的局限性,提升了分類的效果。

        表6 對(duì)以上網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)進(jìn)行了總結(jié)。數(shù)據(jù)集齒痕舌體的邊緣信息目標(biāo)較小,凹凸程度不同,并且特征相對(duì)不明顯。如果數(shù)據(jù)量不夠,在訓(xùn)練模型時(shí)容易出現(xiàn)難收斂或者過(guò)擬合的問(wèn)題,導(dǎo)致模型分類性能變差。因此,需要收集更多的高質(zhì)量數(shù)據(jù)以獲得有臨床意義的診斷結(jié)果。

        表6 神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)Table 6 Advantages and disadvantages of neural network models

        5 存在的問(wèn)題和發(fā)展趨勢(shì)

        雖然深度學(xué)習(xí)在自動(dòng)提取高維特征方面比傳統(tǒng)方法更具優(yōu)勢(shì),但是仍然存在一些挑戰(zhàn)和局限性。本文將從以下四方面對(duì)深度學(xué)習(xí)在舌象分類中存在的問(wèn)題和發(fā)展趨勢(shì)進(jìn)行討論。

        (1)構(gòu)建數(shù)據(jù)集。大多研究人員自建非公開(kāi)的舌診圖像數(shù)據(jù)集,因而無(wú)法在相同的數(shù)據(jù)集上對(duì)分類模型進(jìn)行性能比較。而深度學(xué)習(xí)網(wǎng)絡(luò)需要海量和高質(zhì)量數(shù)據(jù),訓(xùn)練成本高,使用較小數(shù)據(jù)規(guī)模的網(wǎng)絡(luò)分類是未來(lái)發(fā)展的趨勢(shì)。舌診圖像數(shù)據(jù)集一般通過(guò)普通的攝像機(jī)、照相機(jī)或中醫(yī)舌診儀采集,由于使用的設(shè)備或舌診圖像采集系統(tǒng)不同,并且沒(méi)有任何的通用標(biāo)準(zhǔn),導(dǎo)致所獲得的舌診圖像質(zhì)量有顯著差異。隨著互聯(lián)網(wǎng)與云計(jì)算不斷發(fā)展,移動(dòng)設(shè)備成為采集舌診圖像數(shù)據(jù)的一種工具,但數(shù)據(jù)質(zhì)量有限,它需要更大的數(shù)據(jù)集和更好的模型才能達(dá)到較好的效果。此外,被采集者無(wú)法將舌體完整伸展導(dǎo)致臟腑體表區(qū)域不完善,飲食或藥物可能引起舌苔顏色異?;蛏囿w異常,顫抖造成圖像模糊。因此舌診圖像的質(zhì)量評(píng)判尤為重要,舌診圖像質(zhì)量的好壞影響最終的分類結(jié)果。

        (2)開(kāi)放環(huán)境?;谠缙谏窠?jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、區(qū)域卷積神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)以及其他方法在封閉環(huán)境下取得了較好的魯棒性。然而,提高中醫(yī)輔助診斷在真實(shí)診療環(huán)境下的準(zhǔn)確率以及受試者的體驗(yàn)舒適度是一發(fā)展趨勢(shì)。雖然這種開(kāi)放環(huán)境不易控制環(huán)境復(fù)雜性和動(dòng)態(tài)性,如光線、溫度等,但可使被采集者有較為自然的生理心理狀態(tài),更易于還原真實(shí)情況和真實(shí)的中醫(yī)診斷環(huán)境,從而克服現(xiàn)有大多數(shù)研究采用暗箱式數(shù)碼相機(jī)拍照的封閉形式,存在的易引發(fā)被采集者產(chǎn)生心理壓力而不能保持血?dú)馄胶团c舌尖自然下垂的問(wèn)題。因此,從自然的中醫(yī)診斷環(huán)境出發(fā),搭建開(kāi)放舌診視頻圖像采集環(huán)境,降低對(duì)被采集者的約束程度,為一次性獲得較多有效圖像,采取視頻采集,并從中篩選有效圖像以及動(dòng)態(tài)特征,得到視頻圖像數(shù)據(jù)集。

        (3)提取局部和全局特征。近年來(lái),研究者將局部及全局特征提取[101]用于舌象診斷,從臨床數(shù)據(jù)中學(xué)習(xí)有用的特征,并利用獲得的特征采用有監(jiān)督的技術(shù)將病人的健康狀況進(jìn)行劃分。常見(jiàn)的舌象全局特征包含舌體的神、色、形、態(tài)。全局特征具有不變性且計(jì)算簡(jiǎn)單,但其有特征維數(shù)高、計(jì)算量大等缺點(diǎn)。常見(jiàn)的舌象局部特征包含舌形、舌苔、舌質(zhì)、紋理、動(dòng)態(tài)及舌下絡(luò)脈等。局部特征是從圖像區(qū)域中抽取的特征,其特征間的相關(guān)性小,特征描述維度低,易于實(shí)現(xiàn)快速匹配。注意力機(jī)制能夠提高CNN的可解釋性和發(fā)現(xiàn)新的舌特征(例如與疾病相關(guān)的區(qū)域中的特定顏色)以及提取局部和全局特征的能力,可以對(duì)小樣本的舌象分類提供重要的幫助。未來(lái)CNN 框架的設(shè)計(jì)可以在不同層次引入注意力機(jī)制,使計(jì)算機(jī)視覺(jué)更接近人類視覺(jué)能力。

        (4)單標(biāo)簽與多標(biāo)簽分類。目前,大多數(shù)CNN 模型僅支持單標(biāo)簽數(shù)據(jù)[89],將任務(wù)簡(jiǎn)化為單標(biāo)簽分類問(wèn)題。但是同一樣本的舌象特征復(fù)雜且相互有關(guān)聯(lián),臨床患者較少有單一證型,往往出現(xiàn)多個(gè)證型兼夾的復(fù)雜情況,屬于典型的多標(biāo)簽學(xué)習(xí)問(wèn)題。此外,舌診病例樣本具有不均衡特點(diǎn),導(dǎo)致難以直接訓(xùn)練基于深度學(xué)習(xí)的多標(biāo)簽分類模型。針對(duì)這些問(wèn)題,訓(xùn)練多個(gè)單標(biāo)簽網(wǎng)絡(luò),從而將多分類問(wèn)題轉(zhuǎn)換為二分類問(wèn)題,以此來(lái)消除多標(biāo)簽的歧義性;舌象特征相互有關(guān)聯(lián),分別進(jìn)行特征提取和分類,忽略了它們之間存在關(guān)聯(lián)的有效信息。此外,Transformer 與CNN 不一樣,它沒(méi)有卷積、Pooling 等操作,也沒(méi)有循環(huán),然而在中醫(yī)圖像單標(biāo)簽與多標(biāo)簽分類任務(wù)中應(yīng)用較少,后續(xù)可以廣泛地應(yīng)用。

        6 結(jié)束語(yǔ)

        深度學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的發(fā)展依賴于醫(yī)學(xué)大數(shù)據(jù)的積累。在疾病治療方面,深度學(xué)習(xí)不僅可以檢測(cè)到病灶區(qū)域,還可以對(duì)特定病灶進(jìn)行判別和分類。如何將深度學(xué)習(xí)更好地應(yīng)用于醫(yī)療的各個(gè)階段,成為一項(xiàng)更具挑戰(zhàn)性的任務(wù)。本文首先對(duì)深度學(xué)習(xí)的舌象分類現(xiàn)狀進(jìn)行調(diào)查、研究和總結(jié),以便為該領(lǐng)域的研究人員提供參考,最后對(duì)未來(lái)的研究方向進(jìn)行探討和分析。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和計(jì)算能力的提高,深度學(xué)習(xí)在舌象分類領(lǐng)域?qū)⒌玫搅烁鼜V泛的應(yīng)用。

        猜你喜歡
        舌象舌苔分類
        574例新型冠狀病毒肺炎康復(fù)者舌象特征分析
        基于Citespace的國(guó)內(nèi)腫瘤舌象研究可視化分析(2001-2020年)
        基于Citespace糖尿病舌象研究的文獻(xiàn)計(jì)量與可視化分析
        分類算一算
        舌象儀臨床應(yīng)用研究的方法學(xué)及報(bào)告質(zhì)量評(píng)價(jià)
        寶寶需要清潔舌苔嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        刷牙別忘清理舌苔
        国产精品国产三级国产专区51区| 日韩人妻无码一区二区三区久久99 | 国产内射视频在线免费观看| 国模无码一区二区三区不卡| 少妇的丰满3中文字幕| 白白色发布永久免费观看视频| 免费国产一区二区视频| 国产福利永久在线视频无毒不卡 | 精品午夜福利无人区乱码一区 | 免费人成视网站在线剧情| 欧美成人片在线观看| 亚洲综合色秘密影院秘密影院| 五月天亚洲av优女天堂| 激情亚洲一区国产精品| 朝鲜女人大白屁股ass| 男女一级毛片免费视频看| 最新国产成人自拍视频| 亚洲成av人片一区二区密柚| 无码人妻一区二区三区在线视频| 国产精品亚洲片夜色在线| 国产激情视频高清在线免费观看 | 久久综合给日咪咪精品欧一区二区三| 色青青女同性恋视频日本熟女| 男女视频在线观看一区| 久久人与动人物a级毛片| 中国精品视频一区二区三区 | 91久久精品国产综合另类专区| 55夜色66夜色国产精品视频| 久久久综合九色合综国产| 亚洲乱熟妇一区二区三区蜜桃| 国产精品videossex国产高清| 韩国三级中文字幕hd久久精品| 亚洲成片在线看一区二区| 一本久道高清视频在线观看 | 精品亚洲一区二区三区四区五| 国产办公室沙发系列高清| 久久久亚洲经典视频| 亚洲女人天堂成人av在线| 婷婷色香五月综合缴缴情| 中国精品久久精品三级| 在线日韩中文字幕乱码视频|