詹文棟,龔慶悅,朱金陽,萬澤宇,黃 敏,王 銳
(南京中醫(yī)藥大學人工智能與信息技術學院,江蘇 南京 210046)
面診是指中醫(yī)通過望、聞、問、切四診法,對患者面部和五官整體觀察,從而判斷人體局部與整體的病變情況。望診法是中醫(yī)診斷中的診法之一,幾千年來許多中醫(yī)一直沿用此簡單有效的診斷方法。
傳統(tǒng)中醫(yī)望診聚焦于病人的面色及光澤,對于臨床經驗很少的中醫(yī)來說,要基于這些非常有限的面部指標做出診斷是十分困難的。
可見光自動化面診技術受制于人體膚色和季節(jié)變化等因素,導致檢測結果可能出現(xiàn)誤差。相比之下,紅外熱成像技術能夠通過觀察人體表面的溫度分布與變化,將中醫(yī)的陰陽、虛實、寒熱等信息以數(shù)字可視化的方式呈現(xiàn),避免了可見光檢測技術的限制。
面部紅外圖像分割是面診客觀化中去除不規(guī)范操作如頭發(fā)遮擋、佩戴眼鏡、帽子等造成的干擾背景,排除與體質、疾病等分類識別無關的因素的重要步驟,為后續(xù)面部紅外熱成像的疾病識別分類提供基礎。
通過傳統(tǒng)的方法分割人體紅外熱成像,如區(qū)域生長[1]、水平集[2]、聚類[3]、圖割[4]等,需要大量人工干預,無法實現(xiàn)圖像分割自動化。Ronneberger[5]等研究者首次提出了將跳躍連接引入卷積神經網絡的一種U形網絡(U-Net)。Liu[6]等人提出了基于深層U-Net 和圖割的方法并平滑分割結果,此方法加深了特征提取網絡的深度,以便于提取更高層次的特征,在腹部CT 序列肝臟腫瘤圖像上具有較好的分割效果。江智泉[7]等將U-Net 的主干特征提取網絡替換為VGGNet16 的卷積層,并且對特征融合進行優(yōu)化改進,實驗證明該改進方法在舌象分割上取得了較好的分割效果。
本研究對原始U-Net 網絡進行改進,將特征提取表現(xiàn)更好的Resnet50代替U-Net原始的主干特征提取模塊,去除復制和裁剪(Copy and Crop)部分的Crop,改進后的模型優(yōu)化了特征融合,并提高了模型的通用性,在中醫(yī)面部紅外熱成像圖片的分割上取得了較好的結果。
首先借鑒江智泉[7]的方法,改進原始U-Net 模型,下文簡稱為Facial VGG-UNet 模型。將原始U-Net模型的主干特征提取模塊替換為VGGNet16,由5個卷積核和ReLU 激活函數(shù)構成的卷積模塊和四個最大池化模塊不斷堆疊而成。將多個使用3×3 卷積核的卷積層進行串聯(lián),可以看作是對使用一個大尺寸卷積核的卷積層的分解,比如三個3×3卷積核的卷積層串聯(lián)相當于一個7×7 卷積核的層,這么做的優(yōu)勢是,多個小尺寸卷積核堆疊起來的卷積層具有的參數(shù)比直接使用一個大尺寸卷積核的卷積層的參數(shù)少,在感受野相同的情況下,增加了網絡的非線性,使得網絡的判別性更強[8]。但該方法的主干特征提取網絡存在缺陷:主干特征提取網絡是通過對圖像進行多次卷積和池化操作堆疊而成,而大量網絡堆疊容易造成梯度消失和梯度爆炸問題[9]。
同時,對解碼部分進行優(yōu)化:取消了五個初步有效特征層在上采樣過程中的剪切(Crop)操作,直接復制(Copy)特征層,從而提高網絡模型的通用性。最終,改進的U-Net網絡結構如圖1所示。
圖1 Facial VGG-UNet網絡結構
由于存在上文提到的梯度爆炸和梯度消失問題,在Facial VGG-UNet 網絡模型的基礎上,我們又做出了新的改進。
本文提出的改進UNet 模型Facial Res-UNet,采用ResNet50 替換傳統(tǒng)U-Net 的主干特征提取模塊,不僅能因殘差塊避免梯度爆炸和梯度消失的問題,還能保留U-Net 網絡結構簡單和訓練數(shù)據(jù)量需求小的優(yōu)勢,非常契合中醫(yī)面部紅外熱成像圖片的對比度低、邊界模糊等導致的特征提取效果差以及數(shù)據(jù)集量少的特點。再對U-Net 的解碼區(qū)優(yōu)化特征融合,去除初步提取特征層的剪切(Crop)操作,一方面使得輸入圖像與輸出圖像尺寸保持一致,增加模型的通用性,另一方面也能使得模型學習到更多細節(jié)信息,以便進一步對像素進行分類,提高模型的泛化能力。其網絡結構如圖2所示。
圖2 Facial Res-UNet模型結構
圖2 中,主干特征提取網絡Resnet50 由兩個基本模塊組成,分別為Conv Block和Identity Block[10]。前者由于輸入與輸出的維度不同,因此Conv Block 一般可用于改變網絡的維度;后者輸入與輸出維度一致,因此一般選用Identity Block來加深網絡深度。
Conv Block 可以分為主路徑和跳躍路徑兩個部分。主路徑由二次大小分別為1×1 和3×3 的卷積操作和標準化(BatchNorm)、激活函數(shù)ReLU、一次1×1卷積操作和標準化(BatchNorm)組成。跳躍路徑由1×1卷積操作和標準化(BatchNorm)組成。Conv Block 最終由主路徑輸出和跳躍路徑輸出相加,并經過一次ReLU 激活函數(shù)得出,結構如圖3所示。Identity Block也可以分為主路徑和跳躍路徑兩個部分。Identity Block 的主路徑與Conv Block 的主路徑相同,而跳躍路徑直接與主路徑的輸出相加,最后經過一次ReLU激活函數(shù)得出總體輸出結果,結構如圖4所示。
圖3 Conv Block
圖4 Identity Block
本研究按照《中醫(yī)紅外熱成像技術規(guī)范攝像環(huán)境》[11]標準嚴格搭建數(shù)據(jù)采集環(huán)境。數(shù)據(jù)來源有效且符合倫理審查規(guī)范,且僅用于本次學術研究,遵循被采集者意愿。數(shù)據(jù)集包含300 張標準面部紅外熱成像圖片,其中160 張和40 張分別作為訓練集和驗證集,100張作為測試集用于模型泛化性能測試。
本研究使用Labelme 工具對面部紅外熱成像樣本進行標注,該工具基于多邊形框對目標物體進行標注[12],能夠得到圖像有效分割標簽。本研究分割任務究其根源是二分類問題,即對無關背景和面部進行分割,標簽灰色部分和黑色部分分別表示紅外熱成像的面部和無關背景。中醫(yī)紅外熱成像圖片標注過程如圖5所示。
圖5 中醫(yī)紅外熱成像圖片的標注
使用160 張面部紅外熱成像圖片進行模型訓練,Epoch設為100。為了使占用內存更少,計算效率更高,優(yōu)化器選擇Adam,學習率設置為0.0001,最小學習率設置為學習率的0.01倍。動量(Momentum)設置為0.9,這有助于跳出局部最小值,加速模型的收斂。權值衰減(weight_decay)可以防止模型過擬合,但由于采用的優(yōu)化器是Adam,可能會導致權值衰減(weight_decay)發(fā)生錯誤,故weight_decay設為0。
采用相似系數(shù)(LossDice)和交叉熵函數(shù)平均值(LossCE)的和來計算Loss 的組合損失函數(shù),具體計算公式如下:
圖6 分別表示傳統(tǒng)U-Net 模型、Facial VGGUNet 模型和本文提出的Facial Res-UNet 模型在訓練過程中的trainloss、valloss、smooth train loss、smooth val loss與Epoch的關系圖。
圖6 模型訓練過程中損失值的對比
通過觀察loss 在訓練集和驗證集上的表現(xiàn),可以看到三種模型的loss 值最終能逐漸收斂并趨于穩(wěn)定,但很明顯本文提出的模型收斂的速度更快,并且loss值更低,更穩(wěn)定。而傳統(tǒng)的U-Net存在收斂速度慢,最終收斂的loss 值較高的問題。Facial VGG-UNet 模型在50 輪和70 輪出現(xiàn)了大的波動,穩(wěn)定性較差。由此可見本文提出的模型具有更好的魯棒性。
本文使用平均交并比(mean Intersection over Union,mIoU)作為評估指標,計算過程如下:
其中,k為圖像中標簽類別數(shù),i表示真實類別,pij表示屬于i類但被判定為j類的像素數(shù)量,即假陽性像素數(shù)量,pji為假陰性像素數(shù)量,pii為預測正確的像素數(shù)量。
圖7 表示本文提出的改進模型Facial Res-UNet,在訓練集上的mIoU 值隨著Epoch 增大的變化情況。從圖7 可以發(fā)現(xiàn),訓練的前8 輪TrainmIoU 波動很大,擬合度逐漸上升。在第8輪以后,TrainmIoU 就已經上升不太明顯,逐漸穩(wěn)定下來,60 輪以后,模型的TrainmIoU 不再上升,達到了98.19%。圖8 表示驗證集上模型的mIoU 達到了98.20%,由此可見,模型的圖像分割效果較為優(yōu)異。
圖7 訓練集上的mIoU值
圖8 驗證集上的mIoU值
本文使用人工智能實驗室服務器進行實驗,具體的硬件環(huán)境為TELSA-T4,軟件環(huán)境為Window10、Torch1.2.0 深度學習框架和CUDA10.0。表1 對比了傳統(tǒng)U-Net 模型、Facial VGG-UNet 模型和本文改進模型對面部紅外熱成像的圖像分割性能,本文提出的Facial Res-UNet 方法的mIoU 和Accuracy指標優(yōu)于前兩種方法,在訓練時長上稍處于劣勢。
表1 模型性能對比
圖9 為原始U-Net 模型、Facial VGG-UNet 模型和Facial Res-UNet 模型的分割效果對比。通過對比可以發(fā)現(xiàn)傳統(tǒng)U-Net 模型和Facial VGG-UNet 模型對人臉分割都存在邊緣震蕩問題,而本文提出的模型表現(xiàn)更優(yōu)秀,邊緣相比前兩者更加清晰,分割精度更準確。
圖9 模型的圖像分割效果對比
本文介紹了一種基于U-Net 的改進模型Facial Res-UNet,其在面部紅外熱成像數(shù)據(jù)集上的分割效果更優(yōu),分割圖像的均交并比mIoU 達到98.20%。該技術為面部紅外熱成像圖片的自動化分類識別提供了堅實基礎,未來的研究將擴展至人體全身紅外熱成像的圖像分割和分類識別,為中醫(yī)疾病診斷提供更多客觀數(shù)據(jù)支持,打破“中醫(yī)缺乏客觀性”的偏見。