顏建軍,徐 姿,郭 睿,燕海霞,王憶勤**
(1. 華東理工大學(xué)機(jī)械與動力工程學(xué)院 上海 200237;2. 上海中醫(yī)藥大學(xué)交叉科學(xué)研究院 上海 201203;3. 上海中醫(yī)藥大學(xué)四診信息綜合實(shí)驗(yàn)室 上海 201203)
中醫(yī)通過“望、聞、問、切”以獲得體征和癥狀等相關(guān)信息,經(jīng)過綜合分析歸納后,提取病機(jī),從而進(jìn)行相應(yīng)的論治。舌診作為一種中醫(yī)診斷方法,主要通過觀察舌苔、舌質(zhì)等的舌像特征來了解人體生理病理的變化,在中醫(yī)診斷中具有重要的應(yīng)用價(jià)值。舌診存在的問題是主觀性較強(qiáng),無法精確量化,結(jié)果難以記錄,使其發(fā)展受到了限制。因此,運(yùn)用機(jī)器視覺技術(shù)進(jìn)行舌圖像的分析處理,實(shí)現(xiàn)中醫(yī)舌診客觀化和定量化,是現(xiàn)代中醫(yī)舌診發(fā)展的重要工作。其中舌圖像分割是中醫(yī)舌診客觀化的基礎(chǔ),舌體分割準(zhǔn)確程度會直接影響舌診系統(tǒng)中舌色苔色識別以及形態(tài)分析診斷[1][2]。
當(dāng)前舌圖像分割方法主要包括閾值分割算法、主動輪廓模型及圖分割算法等。劉關(guān)松等[3]提出基于閾值分割的舌體分割方法;Zhai X 等[4]提出基于雙Snake的舌像分割方法;Pang B、Zhang H 和Fu Z 等提出主動輪廓模型與雙橢圓形可變模板等檢測器結(jié)合法[5][6][7];吳佳等[8]提出分水嶺變換與主動輪廓模型組合法;Yan Z 等[9]采用基于圖分割的GrabCut 算法進(jìn)行舌圖像分割。這些方法在一定程度上改進(jìn)了舌圖像分割結(jié)果,但都存在不足:基于閾值分割方法對采集舌像的光照要求較高且分割輪廓不太精確;利用主動輪廓模型的分割方法容易受到嘴唇干擾而存在分割誤差;采用GrabCut算法進(jìn)行舌圖像分割,計(jì)算量大且速度較慢。
在舌圖像分割過程中,當(dāng)舌體周圍的嘴唇或皮膚顏色較接近舌體時(shí),會導(dǎo)致分割的難度增大,所以容易造成分割效率低、準(zhǔn)確度不高的結(jié)果,對后續(xù)的舌圖像分析產(chǎn)生較大影響。但是現(xiàn)有的舌圖像分割方法均不能很好地解決這一問題,因此,舌圖像的準(zhǔn)確分割仍然是舌診客觀化中的一個(gè)難點(diǎn),這在一定程度上影響了舌診客觀化的進(jìn)程。
近年來,越來越多的學(xué)者著手進(jìn)行基于像素的圖像分割研究。對舌圖像分割而言,像素特征的提取雖然容易實(shí)現(xiàn),但很難表達(dá)舌體的位置信息,且當(dāng)舌體與背景之間顏色相近、邊界模糊時(shí),兩者的像素特征可能會重合。故僅提取舌像的像素特征較難全面地表達(dá)舌體信息,還需要進(jìn)一步提取圖像的深層語義信息,得到更完整的特征以實(shí)現(xiàn)舌圖像的精確分割。而基于深度學(xué)習(xí)的圖像分割方法能夠通過模擬人腦的階層式結(jié)構(gòu)進(jìn)行信息傳遞,實(shí)現(xiàn)從像素級原始數(shù)據(jù)到抽象語義特征的轉(zhuǎn)換,在醫(yī)學(xué)圖像處理等領(lǐng)域取得了較好效果[10][11]。特別是在Faster R-CNN 的基礎(chǔ)上提出的Mask R-CNN 目標(biāo)實(shí)例分割框架[12],能夠解決以往網(wǎng)絡(luò)不能被很好優(yōu)化的退化問題,可以進(jìn)行有效目標(biāo)探測、準(zhǔn)確分類和高質(zhì)量分割,得到的準(zhǔn)確率遠(yuǎn)高于HyperColumns、FCIS和SIS等經(jīng)典實(shí)例分割方法[13-15]。
本研究提出基于Mask R-CNN 的舌圖像分割方法,在較大樣本舌圖像標(biāo)注的基礎(chǔ)上,建立舌圖像分割的深度學(xué)習(xí)模型,并對分割效果進(jìn)行評估和分析。
近年來,實(shí)例分割已經(jīng)逐漸發(fā)展成為一項(xiàng)支持各種基于內(nèi)容的多媒體應(yīng)用不可或缺的關(guān)鍵技術(shù)[16]。目前,深度學(xué)習(xí)的發(fā)展尤為突出,已經(jīng)在圖像識別領(lǐng)域的應(yīng)用取得了較好的成果。和傳統(tǒng)的方法相比,深度學(xué)習(xí)有以下三大優(yōu)點(diǎn):①在計(jì)算機(jī)視覺領(lǐng)域識別率最高;②充分利用大數(shù)據(jù)的優(yōu)勢進(jìn)行特征的自動學(xué)習(xí);③可最大程度發(fā)揮特征表示和分類器聯(lián)合優(yōu)化的性能。深度學(xué)習(xí)在實(shí)例分割上的應(yīng)用逐漸成為一個(gè)研究熱點(diǎn),特別是基于Faster R-CNN 模型改進(jìn)的Mask R-CNN 實(shí)例分割網(wǎng)絡(luò)模型在圖像分割領(lǐng)域取得了不錯(cuò)的效果。因此,本研究采用Mask R-CNN 實(shí)例分割網(wǎng)絡(luò)模型進(jìn)行舌圖像的分割。
Mask R-CNN 在Faster R-CNN 的基礎(chǔ)上主要進(jìn)行三點(diǎn)改進(jìn):①在邊界框識別分支上添加一個(gè)用于預(yù)測目標(biāo)掩碼的并行分支;②為每個(gè)類別分別進(jìn)行二元掩碼的預(yù)測;③提出簡潔非量化層RoIAlign,該層不但可以保留大致的空間位置,還能將掩碼精確度相對提高10%-50%。因此,Mask R-CNN可以在更嚴(yán)格的評價(jià)指標(biāo)下得到更好的結(jié)果,具有框架簡潔靈活、訓(xùn)練和分割速度較快以及分割精確度較高的優(yōu)點(diǎn)。
Mask R-CNN 采用RoIAlign 層替換了Faster RCNN 中原有的RoIPool 層這一策略是其一大亮點(diǎn)。RoIPool 層基于的原理是從每個(gè)感興趣區(qū)域(Region of Interest,RoI)中提取小的特征圖(如7 × 77 × 7),基于其選擇的特征圖區(qū)域,會與原圖中的區(qū)域有輕微出入。相對應(yīng)具體的做法是先對浮點(diǎn)數(shù)RoI 進(jìn)行量化,再提取分塊的直方圖,最后進(jìn)行最大池化(Max pooling)操作。Max pooling 會先將整個(gè)圖像不重疊地分割成若干個(gè)同樣大小的小塊(pooling size),然后每個(gè)小塊內(nèi)只取最大的數(shù)字,再舍棄其他節(jié)點(diǎn)后,最終保持原有的平面結(jié)構(gòu)得出輸出結(jié)果。由此可見,RoIPool層是基于stride 間隔來取整從原圖RoI 得到特征圖RoI,這會使得在把特征圖RoI 映射回原圖RoI 時(shí),出現(xiàn)stride間隔造成的誤差,導(dǎo)致原圖RoI和提取特征RoI間的不重合,該不重合性在max pooling 后特征圖的RoI 與原RoI 間的空間不對齊時(shí)更加明顯。這一點(diǎn)對于精確的像素級masks 預(yù)測和分割具有較大的負(fù)影響,因此需要像素級的空間對齊。
RoIAlign 能夠去除RoIPool 引入的不重合性,準(zhǔn)確地對齊輸入的提取特征,以此來避免RoI 邊界或bins進(jìn)行量化的發(fā)生,如采用x/16x/16 來替代rounding(x/16)rounding(x/16)[四舍五入處理];根據(jù)每個(gè)RoI bin的四個(gè)采樣點(diǎn),采用雙線性插入來計(jì)算輸入特征的精確值,并采用取最大值或平均值來組合結(jié)果。假設(shè)點(diǎn)(x,y)(x,y),取其周圍最近的四個(gè)采樣點(diǎn),在Y方向進(jìn)行兩次插值,再在X方向進(jìn)行兩次插值,以得到新的插值。這種處理方式完全不會影響RoI的空間布局。假設(shè)一個(gè)128×128 的圖像,25×25 的特征圖,其原始圖像的每一個(gè)像素與特征圖上的25/128 個(gè)像素對應(yīng)。想要得到與原始圖像左上角15×15位置對應(yīng)的特征區(qū)域,就要在特征圖上需要選擇15×25/128 ≈2.93 個(gè)像素。對于這種情形,RoIPool 會舍去零頭選擇兩個(gè)像素,從而導(dǎo)致排列問題。但是RoIAlign避免使用去掉小數(shù)點(diǎn)后取整的方式,而是使用雙線性插值直接準(zhǔn)確地獲得2.93像素位置的信息,避免了排列錯(cuò)誤。
因此,RoIAlign 既確保mask 分支的每一網(wǎng)絡(luò)層均可保持m×mm×m 的object 空間布局,而不采用會導(dǎo)致空間信息損失的壓扁拉伸成向量表示形式,又保證RoI 特征圖的對齊性,從而不影響pixel-to-pixel 操作,以保留per-pixel空間對應(yīng)關(guān)系。
Mask R-CNN 是 基 于Python 3,Keras 以 及TensorFlow 平臺實(shí)現(xiàn)的,是以ResNeXt101 神經(jīng)網(wǎng)絡(luò)作主結(jié)構(gòu)、特征金字塔網(wǎng)絡(luò)(FPN)作輔結(jié)構(gòu)的ResNeXt-101-FPN 特征提取網(wǎng)絡(luò)。用于實(shí)例分割的Mask RCNN框架,如圖1所示。
基于Mask R-CNN 的舌圖像分割包括舌體輪廓標(biāo)注、模型訓(xùn)練、舌圖像分割及分割結(jié)果評估這四個(gè)主要步驟,具體如圖2所示。
圖1 Mask R-CNN目標(biāo)實(shí)例分割框架
1.1.1 舌體輪廓標(biāo)注
由于深度學(xué)習(xí)需要用到大量標(biāo)注樣本進(jìn)行訓(xùn)練,因此,需要先利用標(biāo)注工具對樣本的舌體輪廓標(biāo)注。
本研究使用標(biāo)注工具labelme 進(jìn)行舌圖像樣本標(biāo)注,該工具基于多邊形框?qū)δ繕?biāo)物體進(jìn)行標(biāo)注。標(biāo)注時(shí)利用標(biāo)注點(diǎn)和標(biāo)注點(diǎn)之間的最短路徑,得到能夠較好貼合舌體輪廓的多邊形,獲得標(biāo)注結(jié)果如圖3所示。
1.1.2 舌圖像分割模型的訓(xùn)練
舌圖像分割的網(wǎng)絡(luò)模型訓(xùn)練在tensorflow 環(huán)境下使用Mask R-CNN目標(biāo)實(shí)例分割框架進(jìn)行的。
Mask R-CNN 整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)為Faster R-CNN +FCN+ROIAlign,不僅在Faster R-CNN 的基礎(chǔ)上增加FCN 產(chǎn)生對應(yīng)的Mask 分支,而且提出采用ROIAlign策略替換ROI Pooling。Faster R-CNN 可以既快又準(zhǔn)地完成目標(biāo)檢測;FCN 能夠精準(zhǔn)地進(jìn)行語義分割;ROIAlign則解決了Faster R-CNN中存在的ROI Pooling像素偏差問題。除此之外,主網(wǎng)絡(luò)ResNeXt-101 網(wǎng)絡(luò)很好地解決了傳統(tǒng)網(wǎng)絡(luò)構(gòu)架中隨著網(wǎng)絡(luò)層數(shù)增加準(zhǔn)確率先上升后飽和最后下降的問題。這些都有益于提高舌圖像分割的分割速度和準(zhǔn)確率。
訓(xùn)練的主要參數(shù)有TRAIN_ROIS_PER_IMAGE、STEPS_PER_EPOCH 和VALIDATION_STEPS。其中,參數(shù)TRAIN_ROIS_PER_IMAGE 代表每張樣本建議的ROI 數(shù)量,并將其作為后續(xù)分類和掩膜網(wǎng)絡(luò)的輸入,一般目標(biāo)占整體比例越大,該值的取值就越大;STEPS_PER_EPOCH 為keras 中 的fit_generator 函數(shù)中的參數(shù),fit_generator 函數(shù)的作用是在訓(xùn)練集太大時(shí)可自動生成batch,該參數(shù)表示每輪迭代次數(shù),因?yàn)閠ensorboard 會自動更新并在每個(gè)epoch 結(jié)束時(shí)保存更新,所以進(jìn)行該參數(shù)設(shè)置時(shí)不需要考慮訓(xùn)練集大小。同時(shí)又由于驗(yàn)證集也在epoch 最后記錄,比較花時(shí)間,因此該參數(shù)不能設(shè)置太小,以免花費(fèi)大量時(shí)間進(jìn)行驗(yàn)證;VALIDATION_STEPS 也是fit_generator 中的參數(shù),表示驗(yàn)證的步數(shù),但此參數(shù)越大驗(yàn)證就越精確,而訓(xùn)練速度越慢。因此,本研究將TRAIN_ROIS_PER_IMAGE、STEPS_PER_EPOCH 和VALIDATION_STEPS分別設(shè)置為300、5000和5。
圖2 基于Mask R-CNN模型的舌圖像分割方法步驟
圖3 labelme標(biāo)注工具標(biāo)注結(jié)果
此外,實(shí)驗(yàn)采用的GPU 顯卡為NVIDIA Tesla V100,CPU 為Intel Core i7-8700K @3.70GHz 六核,內(nèi)存大小32GB。
1.1.3 舌圖像分割的評估指標(biāo)
為了檢驗(yàn)基于Mask R-CNN 的方法進(jìn)行舌圖像分割的效果,本研究將中醫(yī)專家評估和定量指標(biāo)評估結(jié)合起來,進(jìn)行圖像分割結(jié)果評估,這樣能夠更加全面地反映舌圖像分割的結(jié)果。用于定量評估的四個(gè)指標(biāo)分別是均像素準(zhǔn)確度(Mean Pixel Accuracy,MPA)、平均準(zhǔn)確度(Mean Accuracy,MA)、均交并比(Mean Intersection over Union,MIoU)、頻權(quán)交并比(Mean Frequency Weighted Intersection over Union,MFWIoU),
其定義如下:
其中,Ai 為像素準(zhǔn)確預(yù)測的像素點(diǎn);Pn 為圖像像素總數(shù)得到的準(zhǔn)確率;i為像素點(diǎn)的個(gè)數(shù);Bi 為每個(gè)類別被正確分類像素?cái)?shù)目的比例;i 為所有類別Dp - Ap,Ap 為某類別被正確分類像素?cái)?shù)目;Cp 為某類別真實(shí)的像素總數(shù);Dp 為某類別預(yù)測像素總數(shù);IU = Cp + Dp - Ap;Cp 為某類別真實(shí)的像素總數(shù);Dp為某類別預(yù)測像素總數(shù);Ap為某類別被正確分類像素?cái)?shù)目;Ei為圖像像素總數(shù)。
本研究舌圖像樣本由上海中醫(yī)藥大學(xué)四診信息綜合實(shí)驗(yàn)室提供,共計(jì)2870 張,其中1870 張作為訓(xùn)練樣本,1000 張作為測試樣本。舌圖像中大多數(shù)區(qū)域?yàn)樯囿w,還有嘴唇、牙齒、部分面頰以及少量背景。
將標(biāo)注的舌圖像樣本輸入到Mask R-CNN 中進(jìn)行訓(xùn)練,建立舌圖像分割模型,并利用測試樣本進(jìn)行舌體分割及結(jié)果評估。舌圖像分割測試結(jié)果,如圖4所示。
由圖4 可以看出,Mask R-CNN 舌圖像分割模型得到的舌體輪廓較為清晰準(zhǔn)確,能較好地處理舌體周圍嘴唇以及皮膚的干擾,分割結(jié)果得到了中醫(yī)認(rèn)可。
為了進(jìn)一步驗(yàn)證該模型能夠較好地解決舌體周圍嘴唇以及皮膚對舌圖像分割的干擾問題,本研究針對整個(gè)舌圖像樣本,分別進(jìn)行了靠近嘴唇的舌體部分同舌體附近的嘴唇部分及同舌體周邊的皮膚部分的色差計(jì)算統(tǒng)計(jì),并對舌圖像進(jìn)行了邊緣檢測,分析驗(yàn)證模型的魯棒性。
圖4 Mask R-CNN舌圖像分割模型結(jié)果
LAB 空間是基于人的視覺系統(tǒng)對顏色的感覺來設(shè)計(jì)的,能較為貼切地反映人眼視覺系統(tǒng)對顏色的感知,所以此處采用LAB 顏色空間來計(jì)算舌體同周圍嘴唇及皮膚的色差。在該空間中存在L、A、B 三個(gè)通道,其中L 表示明度,A 表示紅綠色差,B 表示藍(lán)黃色差。兩個(gè)顏色之間的相似程度,即色差,其計(jì)算公式如下:
其中,ΔE 表示色差,ΔL/Δa/Δb 分別表示兩個(gè)顏色之間在不同分量的差值。
使用上述LAB 顏色空間色差計(jì)算方法,針對有關(guān)靠近嘴唇的舌體部分同舌體附近的嘴唇部分,本研究的舌圖像樣本得到的色差范圍是0 - 337.29。其中,圖4(a)的兩張舌圖像樣本的兩部分色差值分別為0和1.41,由圖4(b)的舌體分割結(jié)果圖可以直觀地看出:當(dāng)舌體部分的顏色同周圍嘴唇顏色極為接近甚至相同時(shí),該舌體分割模型還是能夠較好地將目標(biāo)舌體分割出來,不受周圍相似顏色嘴唇的干擾。同樣地,針對有關(guān)靠近皮膚的舌體部分同靠近舌體的皮膚部分,本研究的舌圖像樣本得到的色差范圍是0-306.88。其中,圖4(a)的兩張舌圖像樣本的兩部分色差值分別為3.32 和1.41,由圖4(b)的舌體分割結(jié)果圖可以直觀地看出:當(dāng)舌體區(qū)域的顏色同周圍皮膚顏色比較接近時(shí),該舌體分割模型依舊能夠較好地將目標(biāo)舌體分割出來,不受周圍相似顏色皮膚的影響。
圖5 GrabCut算法和Mask R-CNN分割結(jié)果對比
以上LAB 顏色空間色差計(jì)算,主要考慮感興趣區(qū)域同鄰近背景區(qū)域之間的區(qū)域色差接近的情況。但是在舌圖像樣本中,有關(guān)感興趣區(qū)域和鄰近背景區(qū)域的分割還會涉及到舌體區(qū)域邊緣問題。在圖像處理中使用較多的一個(gè)特征就是圖像的邊緣,即灰度值變化劇烈的地方。而邊緣檢測就是對一張圖像的輸入到輸出邊緣信息的整個(gè)處理過程。由于邊緣檢測中的Sobel 算子具有平滑處理降低噪聲的特性,故本研究采用該算子進(jìn)行邊緣檢測。該算子先對輸入圖像的像素做卷積,即求像素的梯度值;然后,對生成的新像素灰度值做閾值運(yùn)算,以此來確定邊緣信息。由于鄰域的像素對當(dāng)前像素產(chǎn)生的影響不是等價(jià)的,距離不同的像素具有不同的卷積核,對算子結(jié)果產(chǎn)生的影響也不同。一般來說,距離越遠(yuǎn),產(chǎn)生的影響越小。
當(dāng)舌體區(qū)域的顏色同周圍嘴唇或皮膚的顏色較為接近,如果舌體的邊緣較為明顯,舌體的分割效果較好且易于實(shí)現(xiàn);當(dāng)舌體區(qū)域的顏色同周圍嘴唇或皮膚的顏色相差較大時(shí),即使舌體區(qū)域的邊緣不太明顯甚至幾乎沒有,也可以較容易得到較好的舌體分割結(jié)果。但是當(dāng)舌體區(qū)域與周圍嘴唇或皮膚的顏色較為接近,并且舌體區(qū)域的邊緣不太明顯時(shí),舌體分割就較難進(jìn)行。但是本研究建立的舌圖像分割模型能夠較好地處理這種情況,得到較為滿意的分割結(jié)果。此外,還與基于GrabCut 的舌圖像分割方法進(jìn)行了結(jié)果對比,舌圖像分割結(jié)果如圖5所示。
由圖5可以看出,當(dāng)嘴唇顏色同舌體較為接近,且舌體邊緣很少甚至幾乎沒有時(shí),利用GrabCut 算法不能夠完全避免嘴唇甚至牙齒的影響,得到包含牙齒和周圍嘴唇部分的舌體分割結(jié)果,致使分割效果不佳;而Mask R-CNN 能夠有效地去除嘴唇及牙齒的影響,較好地從原始舌圖像中分割出準(zhǔn)確的舌體,獲得較為滿意的分割結(jié)果。當(dāng)皮膚與舌體顏色相近,且舌體下半部分邊緣不明顯時(shí),利用GrabCut 算法無法很好地區(qū)分出舌體和同舌體顏色較為接近的皮膚,導(dǎo)致分割得到的舌體下半部分誤將鄰近的部分皮膚分割在內(nèi);而Mask R-CNN 能夠較好地減小皮膚與舌體顏色接近帶來的不利影響,獲得較為準(zhǔn)確的舌體輪廓。
綜上所述,Mask R-CNN 能夠有效地解決舌體周圍的嘴唇和皮膚顏色較接近舌體時(shí)導(dǎo)致舌體分割輪廓不準(zhǔn)確的問題,獲得較好的分割結(jié)果。
為了更加精確地度量Mask R-CNN 的分割結(jié)果,根據(jù)公式(1)-(4),本研究對舌圖像分割結(jié)果進(jìn)行四個(gè)評估指標(biāo)的計(jì)算,其結(jié)果如表1所示。
由表1可以看出,不同舌色、苔色舌圖像分割的均像素準(zhǔn)確度MPA 均達(dá)到92.7%以上,平均為93.03%,其中黃苔舌圖像最高,為93.87%;平均準(zhǔn)確度MA 均達(dá)到93.1%以上,平均為93.44%,其中白苔舌圖像最高,為93.59%;均交并比MIoU 均達(dá)到84.6%以上,平均為86.69%,其中黃苔舌圖像最高,為87.66%;頻權(quán)交并比MFWIoU 均達(dá)到85.8%以上,平均為87.16%,其中黃苔舌圖像最高,為87.74%。綜合來看,黃苔舌圖像的MPA、MIoU 及MFWIoU 三項(xiàng)評估指標(biāo)最高,而紅舌和絳舌的MPA、MA 兩個(gè)評估指標(biāo)均達(dá)到93%以上。因此,采用本文的舌圖像分割方法得到的三類苔色、五類舌色的舌圖像分割結(jié)果,將會給一些疾病診斷提供一定的舌診客觀化基礎(chǔ)。
此外,基于Mask R-CNN 的舌圖像分割方法在分割時(shí)平均每張?zhí)幚頃r(shí)間大約0.21 秒,分割速度較快。這說明了該方法在舌圖像分割上具有準(zhǔn)確率高、速度快的優(yōu)勢。在Mask R-CNN 整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中,F(xiàn)aster R-CNN 作為經(jīng)典的目標(biāo)檢測算法,利用一個(gè)神經(jīng)網(wǎng)絡(luò)將特征提取網(wǎng)絡(luò)、生成ROI、ROI 的分類和ROI 回歸這4 個(gè)模塊結(jié)合起來,進(jìn)行一個(gè)端到端網(wǎng)絡(luò)的訓(xùn)練,實(shí)現(xiàn)了既快又準(zhǔn)地完成目標(biāo)檢測的功能;FCN 能夠生成精準(zhǔn)的像素級掩膜,從而獲得高分割準(zhǔn)確率;ROIAlign策略解決了ROI Pooling 中所存在的像素偏差問題,克服了以往網(wǎng)絡(luò)的退化難題。相比弱監(jiān)督學(xué)習(xí)使用圖像級別或物體級別的標(biāo)注作為數(shù)據(jù)集,Mask R-CNN作為有監(jiān)督的目標(biāo)實(shí)例分割框架使用像素級別的標(biāo)注數(shù)據(jù)集,能夠從含有完善標(biāo)注信息的數(shù)據(jù)集中學(xué)習(xí)規(guī)律,進(jìn)行分割模型建立,最后得到較好的分割效果。
因此,基于Mask R-CNN 的舌圖像分割方法不僅分割速度較快,而且在很大程度上減少了嘴唇或皮膚等對舌體分割結(jié)果的影響,能夠得到了較好的舌體分割效果,證明Mask R-CNN 目標(biāo)實(shí)例分割框架在舌圖像分割中具有較高的實(shí)用價(jià)值。
舌診是中醫(yī)望診的重要內(nèi)容之一,通過對舌苔、舌質(zhì)的觀察,從而了解病變所在,據(jù)以辨證論治。中醫(yī)學(xué)認(rèn)為“舌為心之候,苔乃胃之明徵”“有諸內(nèi)者必形于外”。舌圖像分割是舌診客觀化的重要基礎(chǔ),其分割的準(zhǔn)確性直接影響到后續(xù)舌診分析的結(jié)果。
表1 舌圖像的定量指標(biāo)評估結(jié)果
為了克服已有舌圖像分割算法效率較低、準(zhǔn)確率不高的缺點(diǎn),本研究提出應(yīng)用Mask R-CNN 進(jìn)行舌圖像的分割。先利用標(biāo)注工具labelme 進(jìn)行舌圖像的樣本標(biāo)注,再基于Mask R-CNN 建立了舌圖像分割模型。對1000 張不同舌色和苔色舌圖像進(jìn)行了自動分割和結(jié)果評估,四個(gè)定量評估指標(biāo)均像素準(zhǔn)確度、平均準(zhǔn)確度、均交并比、頻權(quán)交并比均高于84.6%,達(dá)到了較好的舌圖像分割效果,并與GrabCut 算法進(jìn)行了比較,體現(xiàn)了其良好的不受周圍嘴唇及皮膚干擾的特性。因此,基于Mask R-CNN 的舌圖像分割方法速度快、準(zhǔn)確率高,為舌圖像分割研究提供了有益的參考,在舌診客觀化方面具有較好的實(shí)際應(yīng)用價(jià)值。
目前,深度學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)視覺任務(wù)處理的研究熱點(diǎn),在舌圖像處理領(lǐng)域也取得了較為滿意的結(jié)果。但是深度學(xué)習(xí)在該領(lǐng)域的應(yīng)用仍然存在一些挑戰(zhàn)和限制,如高質(zhì)量標(biāo)注訓(xùn)練樣本的不足,深度學(xué)習(xí)模型的可解釋性等。然而,目前存在的挑戰(zhàn)也為深度學(xué)習(xí)在機(jī)器視覺領(lǐng)域的應(yīng)用提供了良好的機(jī)會和廣闊的研究空間。隨著深度學(xué)習(xí)算法的不斷完善、計(jì)算能力的提高和大樣本舌圖像的采集,深度學(xué)習(xí)在舌圖像處理領(lǐng)域的應(yīng)用前景將會更加廣闊。