吉 彬,任建君,鄭秀娟,譚 聰,吉 蓉,趙 宇,劉 凱
(1.四川大學 電氣工程學院 自動化系,成都 610065; 2.四川大學華西醫(yī)院 耳鼻咽喉-頭頸外科,成都 610041; 3.成都醫(yī)學院第一附屬醫(yī)院 耳鼻咽喉頭頸外科,成都 610500; 4.西安醫(yī)學院 臨床醫(yī)學院,西安 710021)
喉白斑是喉黏膜上由慢性喉炎、微量元素缺乏等非特殊感染引起的白色病灶[1],呈斑塊或斑片狀[2],因為其多出現(xiàn)于聲帶黏膜,所以也稱為聲帶白斑。喉白斑屬于癌前組織病變[3],給患者帶來極大健康隱患,因此,準確檢測出白斑病灶對于防止該病惡化與及時治療至關重要。
對喉白斑進行分類是當前研究人員工作的重點。文獻[4]將640位臨床病患的喉白斑按照外觀分為光滑平坦、光滑肥厚和粗糙3種,并利用治療方案與結果進行統(tǒng)計學分析。文獻[5]根據形態(tài)學外觀將喉白斑分為平坦、光滑、隆起和粗糙等類型,將分類結果與最終病理等級進行比較。文獻[6]根據顏色、質地、大小、充血程度、厚度和對稱性等形態(tài)特征對喉白班進行分類并打分。目前,研究人員對喉白斑的研究主要是按照臨床觀察結果和統(tǒng)計學方法對其分類,對喉鏡圖像中喉白斑病灶進行檢測與分割的研究較少。由于喉白斑病灶的精確分割能為病變治療和癌變預防提供指導和依據,因此其十分重要。目前,喉白斑病灶的準確分割存在白斑邊界模糊難以準確勾畫、喉部粘膜表面平滑濕潤反光易被誤診為白斑等問題。
如果大量的喉鏡圖像全部采用人工檢視,則會增加醫(yī)生工作量,使用基于機器學習和圖像處理技術的計算機輔助診斷可避免該問題。深度學習是目前醫(yī)療圖像分割主要采用的方法,其中,神經網絡算法應用最廣泛。醫(yī)療圖像分割方法根據訓練方式不同主要分為滑動窗卷積神經網絡(Convolutional Neural Network,CNN)、全卷積神經網絡(Full Convolutional Neural Network,FCN)和遷移學習等方法。其中,滑動窗CNN方法利用圖像的像素塊訓練卷積神經網絡,并用滑動窗的方式進行測試。該方法已成功用于大腦白質分割[7],但是會消耗大量內存且計算時間冗長。文獻[8]采用端到端的FCN方法大幅提高了訓練時間和效率。在此基礎上,文獻[9]提出U-Net模型,由于其結構簡單適用于小數據集,因此在皮膚病分割[10]、肺結節(jié)檢測[11]、肝臟分割[12]及海馬體分割[13]等醫(yī)學圖像分析領域得到廣泛應用?;赨-Net在語義分割任務中的有效性能,研究人員提出許多由U-Net改進的變體,如M-Net[14-15]、U-Net++[16-17]等。遷移學習法廣泛用于乳腺超聲波圖像的疾病診斷[18]。該方法使用非醫(yī)療圖像預訓練模型,以克服醫(yī)療圖像數據量小的問題。上述神經網絡框架分別針對不同醫(yī)療圖像分割任務而提出,對喉鏡圖像中喉白斑病灶分割有良好的借鑒和啟發(fā)意義。
本文針對喉鏡圖像中喉白斑邊界模糊等問題,提出一種采用多尺度循環(huán)卷積神經網絡的喉白斑病灶分割方法,對U-Net進行改進,以多尺度卷積和遞歸卷積層代替編碼和解碼單元卷積層構造新U型結構,并對多尺度輸出層求均值得到最終輸出結果。
改進的U-Net(MRU-Net)結構由U型網絡、多尺度輸入和輸出等部分構成,融合了U-Net[9]、M-Net[14-15]和遞歸卷積層(Recurrent Convolution Layer,RCL)[19]的特點,其整體結構如圖1所示。
U型網絡是MRU-Net的主體結構,其在經典的U-Net[9]基礎上進行改進,具有編碼和解碼單元,在編碼路徑使用2×2最大池化進行下采樣,在解碼單元使用轉置卷積進行上采樣。每次卷積后使用relu函數激活,并利用裁剪和復制操作將特征圖從編碼單元傳遞到解碼單元以傳遞漸層特征。
為獲得較好分割模型,主要采用增加深度(層數)和寬度(神經元數)的方法。在U-Net基礎上利用卷積核替換增加網絡寬度,在編碼單元中使用與inception v3類似的多尺度卷積[20]替換尺度單一的3×3卷積。多尺度卷積由1×1、3×3、5×5和7×7 4種不同尺寸的卷積核構成,其結構如圖2所示。不同尺寸的卷積核可使網絡具有不同大小的感受野,并通過拼接實現(xiàn)特征融合。
圖2 多尺度卷積結構Fig.2 Multi-scale convolution structure
在多尺度卷積中,由于直接使用5×5和7×7的卷積核會帶來巨大計算量,因此使用2個連續(xù)3×3卷積層代替1個5×5卷積核,從而在保持一樣感受野的同時減少參數。此外,使用7×1和1×7卷積層代替1個7×7卷積核,以減少參數并增加1層非線性擴展模型的表達能力[20]。每種卷積核數量設置為輸入特征數量的一半,即n/2,在增加不同感受野特征的同時不會導致參數激增,最終融合輸出特征數為2n。
對于解碼單元,由于文獻[19]提出RCL模塊具有精細分割的優(yōu)點,因此本文用其替換原卷積塊。改進后RCL結構如圖3所示。其中,RCL由多個內部連接的卷積層組成,時間步數為3,隨著時間延長和層數增加,RCL具有更大感受野。在改進后的RCL中:前饋連接和循環(huán)卷積次數t=3處的循環(huán)連接使用1×1卷積核,以減少特征映射維數;中間2層用3×3濾波器的卷積進行循環(huán)連接。為減少參數的數量,僅將RCL中最后1個卷積層的卷積核數量與網絡原始值保持一致,設置為n,其他卷積層卷積核數量均設置為原始值的一半,即n/2,且每個卷積層都合并進行前饋連接和循環(huán)連接。
圖3 RCL結構Fig.3 RCL structure
經典的U-Net只有單一的輸入和輸出,MRU-Net采用了多尺度輸入和輸出。在輸入層,MRU-Net利用輸入數據構建圖像金字塔。在使用輸入數據作為直接輸入的同時,通過平均池化進行下采樣,然后進行1次3×3卷積操作,x最終將不同尺度特征分別與上層輸出特征融合后輸入到對應的編碼單元。MRU-Net使用不同尺寸圖像作為對應編碼層的輸入,使得特征層次更豐富,通過平均池化構建圖像金字塔,使用最大池保留了大量圖像背景信息,并從編碼單元中得到更多紋理信息。
文獻[15]針對視杯和視盤分割提出M-Net,其中采用側邊輸出層構成多尺度輸出層?;诖?在U-Net解碼單元每層上進行采樣后做輸出,再將各輸出層融合的均值作為最終輸出。該結構能將側邊輸出損失反向傳播到解碼器路徑的網絡層,在幫助前一層訓練的同時緩解梯度消失問題,同時,由于側輸出層能監(jiān)督每個尺度的輸出,因此得到更好分割結果。此外,該結構能加快訓練速度,其實際分割效果優(yōu)于單一輸出結構。側邊輸出層的目標函數為:
(1)
Dloss[21]和Eloss是常用的分類損失函數,對Dloss和Eloss求和可得到損失函數Ls,計算公式如下:
(2)
(3)
Ls=Eloss+Dloss
(4)
其中,gi為分割金標準,pi為預測概率,ε為平滑因子,令ε=0.9。
基于華西醫(yī)院耳鼻咽喉疾病分類數據集建立喉白斑病灶分割數據集。喉白斑病灶分割數據集包含正常、聲帶結節(jié)、息肉、白斑和惡性腫瘤等5種喉部疾病類型,共計數千張分辨率為524×480的圖像。從該數據集中選取649張圖像,經多名耳鼻喉專家進行白斑病灶區(qū)域標記與分析后,得到平均白斑邊界圖像作為分割金標準。在649張圖像中,隨機選取450張、100張和99張圖像分別作為訓練集、驗證集和測試集。
由于MRU-Net對圖像對比度較強的邊界更容易準確分割,因此通過對比度受限的自適應直方圖均衡化技術增強圖像對比度[22]。將增強后的圖像和原圖像進行融合,最終合成六通道圖像作為神經網絡的輸入圖像。
為評估MRU-Net模型分割結果的性能,采用精確率(Precision,PR)、召回率(Recall,RE)、F1值、Jaccard相似度(Jaccard Similarity,JS)和平均交并比(Mean Intersection over Union,MIoU)作為評價指標。其中,F1值為召回率和精確率的算術平均數與幾何平均數的商,其綜合反映了兩指標的特性,Jaccard相似度是病變區(qū)域預測結果和金標準之間相似程度,平均交并比代表病變及背景區(qū)域預測結果和金標準之間相似性的均值。上述指標計算公式如下:
(5)
(6)
(7)
(8)
(9)
其中:TP為真正例,即被模型預測為正的正樣本;TN為真負例,即被模型預測為負的負樣本;FP為假正例,即被模型預測為正的負樣本;FN為假負例,即被模型預測為負的正樣本;K+1為包含背景和非病變區(qū)域的總類別數。
MRU-Net模型的訓練、驗證及測試均在Windows 10系統(tǒng)中進行。硬件配置為Intel?i7-5930k CPU和8 GB顯存的 Nvidia GeForce GTX 1080顯卡。軟件環(huán)境為Python 3.5、CUDA 9.0、cuDNN 7.0.5、Tensorflow 1.5.0和Keras 2.0.2。相同實驗環(huán)境下在喉白斑病灶分割數據集上對FCN8[8]、U-Net[9]、M-Net[15]和MRU-Net模型進行訓練與測試,記錄每種模型的最佳分割結果并對比分析。
除了將傳統(tǒng)模型及改進模型用于喉白斑病灶分割外,還設置一組消融實驗:將U-Net編碼單元的卷積替換為多尺度卷積Um-Net,在Um-Net基礎上將U-Net解碼單元卷積替換為RCL模塊Umr-Net,在Umr-Net基礎上加入多尺度輸入模塊Uimr-Net。
采用不同模型得到喉白斑病灶分割結果的對比情況如表1所示??梢钥闯?MRU-Net參數量雖然相較U-Net有所增加,但是和M-Net相比,MRU-Net結構增加而參數量卻略有減少,其原因為多尺度卷積和RCL模塊參數設置為輸入的1/2,同時多尺度輸出使得MRU-Net具有較好收斂能力;和其他模型相比,MRU-Net在F1值、Jaccard相似度和平均交并比上均取得最佳結果。
表1 采用不同模型得到的喉白斑病灶分割結果對比Table 1 Comparison of segmentation results of laryngealleukoplakia by different models
MRU-Net整體性能強于其他模型,主要是因為多尺度輸入和輸出以及RCL等模塊的作用。圖像金字塔提供了不同層次輸入特征,多尺度卷積使模型具有多尺度感受野,讓模型在訓練過程中學習到不同層次特征和多級語義信息,同時RCL使網絡具有更精細的分割能力。表1中消融實驗組的分割結果也反映了各模塊的效果。
采用上述模型得到不同樣例中喉白斑病灶分割結果以及消融實驗的分割結果對比情況分別如圖4、圖5所示。其中,白色區(qū)域為得到的喉白斑病灶區(qū)域,前2列分別為原始圖像與金標準,其他各列從左到右依次為FCN8、U-Net、M-Net和MRU-Net模型的分割結果。可以看出:樣例1和樣例2中不同模型的分割結果近似;樣例3~樣例5中MRU-Net的分割效果最好;樣例6和樣例7中,MRU-Net、FCN8和U-Net均存在過分割情況,MRU-Net過分割較不明顯,M-Net未出現(xiàn)過分割情況,能較準確地分割病灶;FCN8的分割結果輪廓精細度較差,U-Net出現(xiàn)漏分割情況,M-Net易產生小噪點??傮w而言,MRU-Net的分割結果輪廓比其他模型更精確。其原因是多尺度卷積、RCL、多尺度輸入和輸出的應用使MRU-Net模型獲得更豐富的語義信息,從而得到的圖像分割結果更準確。圖4、圖5與表1的結果基本一致。
圖4 不同樣例中喉白斑病灶分割結果對比Fig.4 Comparison of segmentation results of laryngealleukoplakia in different samples
圖5 采用消融實驗對不同樣例中喉白斑病灶分割結果對比Fig.5 Comparison of the segmentation results of laryngealleukoplakia in different samples by ablation experiment
本文設計一種改進U-Net結構進行喉白斑病灶分割。使用已有的喉鏡疾病分類數據集構建喉白斑病灶分割數據集,利用多尺度卷積和遞歸卷積層優(yōu)化U-Net,從而對喉白斑病灶進行準確檢測和分割。實驗結果表明,與U-Net、M-Net等傳統(tǒng)網絡相比,該網絡得到的喉白斑病灶輪廓精度更高。下一步考慮將多種喉部疾病分類與喉白斑病灶分割進行融合,實現(xiàn)喉部疾病的全自動綜合診斷。