沈筱梅 張新穎 王權泳 吳 哲 陳 琴
涎腺的作用是產生唾液,唾液的功能主要是溶解消化食物、潤滑口腔和抑菌等[1-2],涎腺疾病易導致其功能障礙,降低患者的生活質量。涎腺病變包括腫瘤、炎性病變及自身免疫性疾病等[2-5],臨床均可表現(xiàn)為涎腺局部腫塊,其中以腫瘤性疾病最多見,約80%發(fā)生于腮腺[6-7]。涎腺腫瘤首選手術治療,手術方式的選擇取決于其性質及組織學類型[8],當手術標本的組織學病理結果與術前診斷不一致時,易導致手術不徹底或二次手術[9],增加腫瘤復發(fā)甚至惡變的風險。此外,腮腺腫瘤手術易損傷面神經,引發(fā)面神經麻痹、Frey 綜合征等并發(fā)癥,因此術前準確評估腫瘤性質對制定治療方案及預測預后均有重要作用[10]。目前涎腺腫瘤的術前輔助檢查包括超聲、CT、MRI、細針穿刺活檢、PET-CT 等,因有腫瘤細胞種植的風險,涎腺腫瘤術前不宜進行穿刺活檢[11]。超聲因價廉、快捷、方便、無創(chuàng)和無輻射等優(yōu)點,成為涎腺疾病的首選輔助檢查。
涎腺腫瘤的臨床表現(xiàn)多無特異性,腫塊增長迅速、疼痛、破潰、面神經麻痹等多提示惡性,但大多惡性腫瘤的臨床表現(xiàn)與良性腫瘤難以鑒別,尤其在病變早期階段[12]。由于涎腺良性腫瘤的超聲圖像特征差異并不明顯[13],僅根據(jù)單一的超聲征象鑒別診斷其良惡性并不理想,且建立涎腺超聲圖像數(shù)據(jù)庫難度較大。目前已有部分研究人員嘗試應用機器學習算法對涎腺腫瘤的超聲圖像進行智能分析,如Vukicevic 等[14]提出了一種基于深度學習的唾液腺超聲圖像自動分割解決方案來實現(xiàn)病灶圖像的分割,并考慮了4 種體系結構,包括全卷積神經網絡、FCN-DenseNet、U-Net 和LinkNet,該研究納入了1184 張經過注釋的唾液腺超聲圖像,在交叉合并方面,表現(xiàn)最好的FCNDenseNet 較臨床專家間的觀察者間協(xié)議有較大差距[交并比(IoU)=0.85、0.76],略高于臨床專家間的觀察者內協(xié)議(IoU=0.84),考慮到其準確率和速度(24.5 幀/s),該研究認為FCNDenseNet 在臨床實踐中可獲得更廣泛的應用。Prezioso 等[15]提出并討論了一種基于深度學習的涎腺腫瘤自動分割與分類框架和一種可解釋的分割學習方法,通過逐時學習過程分析和注意地圖機制來支持所提框架的有效性,并通過收集涎腺腫瘤的數(shù)據(jù)集對提出的框架進行評估,結果表明該方法在分割和分類方面均取得了較好成績。Gündüz 等[16]認為放射組學和深度學習模型是醫(yī)學圖像計算機輔助診斷的前沿技術,該研究表明智能分析工具能夠以合理的準確性對常見的腮腺腫瘤進行分類?;诖?,本研究提出一種基于卷積神經網絡(convolutional neural network,CNN)的涎腺腫瘤常規(guī)超聲圖像分類方法,并結合腫瘤超聲圖像特征,提高了鑒別涎腺腫瘤良惡性的準確率。
本研究使用的數(shù)據(jù)集由四川省人民醫(yī)院超聲科通過統(tǒng)一的圖像采集標準獲得,且均經臨床病理檢查驗證。使用儀器包括三星RS80A、S80,GE Logiq E9、S8,聲科Aixplorer,百勝MyLab,邁瑞8T、R9S、DC-8 Pro,Philips iU Elite 彩色多普勒超聲診斷儀,探頭頻率7.5~10.0 MHz。圖像采集標準:①存取腫塊縱切面及橫切面圖像各1張,顯示腫塊最不規(guī)則的切面,必要時需多切面斜切并存圖;②聚焦點與腫塊平行;③調節(jié)增益為正常涎腺與正常甲狀腺相同顯示為均勻細密高回聲,周邊肌肉呈低回聲;④深度應完整顯示病灶與下頜骨、周圍組織的關系;⑤彩色多普勒量程為±(5~8)cm/s。本研究共回顧性收集2015年1月至2022年1月208例涎腺腫瘤患者的超聲圖像共984張,包括431張橫切面圖像和553張縱切面圖像,病理歸類為762張良性腫瘤圖像和222 張惡性腫瘤圖像,每張圖均由2 名低年資(2 年以上工作經驗)超聲醫(yī)師及1 名高年資(25 年以上工作經驗)超聲醫(yī)師標注。
軟件工具主體使用Python 3.9 作為開發(fā)語言,深度學習框架使用Pytorch 框架。硬件工具:使用Windows 10 版本的計算機,CPU 型號為i5-8250U,4 核8 線程處理器,主頻為1.60 GHz;顯卡型號為NVIDIA GeForce GTX 1650。
本研究應用圖像處理技術對涎腺腫瘤常規(guī)超聲圖像進行圖像分割、病灶識別、圖像預處理等,并將其作為分類算法的訓練和測試依據(jù),進行進一步的特征提取和良惡性分類。研究[13]表明涎腺良惡性腫瘤超聲圖像特征差異不明顯,僅邊界和鈣化灶方面比較差異有統(tǒng)計學意義(均P<0.05)。為評估涎腺良惡性腫瘤超聲圖像的邊界和鈣化灶的差異,本研究使用病灶邊界模糊度和內部紋理特征分別作為邊界和鈣化灶的衡量指標。
病灶邊界模糊度基于灰度值方差計算,以手動標記病灶的紅圈為界,將病灶邊界附近特征圖分為內、外兩部分。見圖1。兩部分的像素方差之差即為病灶邊界模糊度值(EDscore),邊界越清晰,EDscore越大;邊界越模糊,EDscore越小。EDscore計算方法為:
圖1 標記病灶邊界示意圖
病灶內部紋理特征基于灰度共生矩陣的特征統(tǒng)計量,本研究采用45°掃描灰度共生矩陣得到能量(Asm)、熵(Ent)、對比度(Con)、逆方差(H),并作為病灶內部紋理特征參數(shù)。各參數(shù)計算方法為:
其中,P(i,j)為歸一化后的灰度共生矩陣,i為灰度共生矩陣的行數(shù),j為灰度共生矩陣的列數(shù),N為灰度共生矩陣的維度。
涎腺良惡性腫瘤EDscore及內部紋理特征參數(shù)比較見表1。結果顯示,良惡性腫瘤EDscore、Asm、Ent比較差異均有統(tǒng)計學意義(均P<0.05),推測病灶內部紋理特征和邊界的圖像增強處理對圖像分類有一定的促進作用。
表1 涎腺良惡性腫瘤EDscore及內部紋理特征參數(shù)比較()
表1 涎腺良惡性腫瘤EDscore及內部紋理特征參數(shù)比較()
EDscore:病灶邊界模糊度值;Asm:能量;Ent:熵;Con:對比度;H:逆方差
病理類型EDscore內部紋理特征參數(shù)Ent 1.113±0.440 0.952±0.385 0.024 51.302±17.445 41.218±14.858<0.05 Con 0.417±0.184 0.360±0.175 0.216良性惡性P值0.927±0.030 0.937±0.028 0.202 Asm 0.673±0.134 0.720±0.117 0.044 H
因此,為增強涎腺腫瘤的鈣化灶特征,同時保留原超聲圖像中病灶邊界及內部紋理信息,本研究首先應用濾波算法去除斑點噪聲,再應用圖像處理方法獲得病灶內部掩膜圖、病灶邊界輪廓圖,然后將特征組合圖(由病灶內部特征區(qū)域圖、病灶邊界輪廓圖、去噪后原始圖像組合而來)作為樣本進行神經網絡的訓練。
(1)斑點噪聲:由于斑點噪聲的存在及醫(yī)學超聲圖像自身成像機制的限制,醫(yī)學超聲圖像分辨率較低且噪聲干擾嚴重,故本研究嘗試通過濾波算法減少斑點噪聲對超聲圖像的影響。
雙邊濾波是一種非線性的濾波方式,其在進行低通濾波時考慮了空域信息和鄰近像素相似性信息,其濾波器[17]定義為:
其中Wp是歸一化因子,用來確保像素權重總和為1。
式(7)中,參數(shù)σs和σr表示對圖像I的濾波程度。Gσs和Gσr則分別為空間和尺度高斯因子。相比于高斯濾波,雙邊濾波算法更好地保留了邊緣位置的梯度,因而能夠較好地保留圖像邊緣的高頻信息。對比高斯濾波處理后的圖像,經雙邊濾波處理后的圖像邊緣特征保留更加完好。但由于進行濾波算法時結合了鄰近像素的灰度相似性,故對高頻噪聲的去除效果會因為需要保留圖像邊緣高頻信息而衰弱。應用伽馬變換可對圖像的灰度進行非線性變換,其基本形式如下:
其中r為輸入圖像的灰度值,在經過歸一化處理之后取值范圍為[0,1];S為伽馬變換之后的灰度輸出值;c為灰度縮放系數(shù),通常取1;γ為伽馬因子,控制整個變換的縮放程度。本研究選擇γ=0.5 對圖像進行處理,處理后的圖像較暗區(qū)域被拉伸得更亮,圖像整體更亮、更清晰。見圖2。本研究采用伽馬變換和雙邊濾波算法對已有的數(shù)據(jù)圖像進行處理,以更好地突出圖像紋理特征,使在深度學習中CNN 能提取到更詳細、準確的圖像形態(tài)學特征。
圖2 濾波前后超聲圖像
(2)特征提取與組合圖像:將收集到的涎腺腫瘤超聲原始圖像由專業(yè)超聲醫(yī)師手動標記病灶區(qū)域,得到紅圈標記病灶的圖像,經過邊界像素提取等一系列圖像處理方法,得到病灶內部掩膜圖和病灶邊界輪廓圖;將經過去噪后的原始圖像與病灶內部掩膜圖疊加,得到病灶內部特征區(qū)域圖。見圖3,4。
圖3 特征提取準備圖的生成
圖4 特征提取準備圖的生成步驟示意圖
為使圖像特征得到充分訓練并提取,將3張準備圖(病灶內部特征區(qū)域圖、去噪后原始圖像、病灶邊界輪廓圖)通過RGB三通道且合為1 張圖,作為神經網絡的訓練樣本。為強調病灶內部特征,同時不丟失病灶周圍特征(后方回聲等),設定不同準備圖的通道和權重分別為:病灶內部特征區(qū)域圖為R 通道,權重0.6;去噪后原始圖像為G 通道,權重0.3;病灶邊界輪廓圖為B通道,權重0.1。見圖5。
圖5 RGB三通道特征組合圖
(3)數(shù)據(jù)增強:CNN 的訓練需要大量的數(shù)據(jù)支撐,而實際項目中往往難以找到充足的數(shù)據(jù)。本研究借助空間幾何變換的數(shù)據(jù)增強方法,通過反轉、隨機裁剪、隨機旋轉等操作擴大訓練集。本研究的增強倍數(shù)為2倍,將984張圖像數(shù)據(jù)擴增到1968張,以增強模型的泛化能力,避免過擬合。
CNN 具有很強的表征學習能力,可以通過卷積、池化、激活、全連接等方式提取圖像的特征。相比于人工提取的涎腺腫瘤感興趣區(qū)域的形態(tài)學特征,CNN 既可以反映圖像的整體特征,也可以反映更加細節(jié)的部分特征。這些特征提取均依賴于CNN 中最重要的構成部分:卷積層。一般而言,淺層少量的卷積操作僅能獲取圖像的輪廓、線條等簡單特征,而隨著卷積次數(shù)的增加及卷積核大小的增加,可以捕獲到更復雜的特征表示。
(1)VGG19 模型:VGG 網絡使用3×3 的卷積核代替神經網絡中較大的卷積核,可在具有相同感受野的情況下減少網絡參數(shù),從而提高訓練效率。本研究首先凍結VGG19 的卷積層,并添加全局平均池化層,將原VGG19 輸出的7×7×512 展平成1×1×512。對于全連接層,分別設置節(jié)點為512,128,4,2,同時在每一層全連接層后面添加批歸一化層并使用ReLU 函數(shù)作為激活函數(shù)。對于全連接層輸出的結果使用交叉熵損失函數(shù)計算損失。
(2)ResNet50 模型:ResNet50 模型通過建立前后層之間的短路連接,有助于訓練過程中的反向傳播,避免了梯度消失和梯度爆炸的問題。本研究通過遷移學習,凍結了ResNet50模型的卷積層,展平并歸一化數(shù)據(jù)后,添加了線性層和池化層,對于全連接層輸出的結果使用交叉熵損失函數(shù)計算損失。
(3)基于VGG19 模型改進的OwnNet 模型:本研究結果發(fā)現(xiàn),VGG19模型對涎腺腫瘤良惡性分類的效果較ResNet50模型更好,因此本研究基于VGG19 模型的網絡結構,自主構建了一個CNN,命名為OwnNet,其模型結構見圖6。與VGG19 模型比較,OwnNet 模型的輸入層由224×224×3 更改為256×256×3,增大了單張圖片的數(shù)據(jù)量,從而避免特征丟失;卷積層同樣采用3×3 的卷積核代替神經網絡中較大的卷積核,能夠在具有相同感受野的情況下減少網絡參數(shù),從而提高訓練效率;卷積單元增加了批歸一化函數(shù),保證ReLU 激活函數(shù)的輸入值不會過高或過低。在卷積層輸出部分,與VGG19 模型比較,OwnNet 模型增加了注意力SE 模塊,讓模型更關注有利于良惡性分類的特征通道;同時增加了神經元個數(shù),卷積層的輸出神經元由1×1×4096 增加到1×1×16 384;還增加了全連接層的層數(shù),設置全連接層節(jié)點分別為16 384,128,4,在全連接層后添加批歸一化函數(shù)層和Sigmoid 激活函數(shù)層,最后得到分類結果,并使用交叉熵損失函數(shù)計算損失。由于本研究納入的良惡性樣本分布不均衡,在計算損失時賦予良惡性樣本不同的權重(良性權重∶惡性權重=1∶3.43),使對惡性樣本的錯誤懲罰度更大,從而降低惡性樣本漏診的風險。
圖6 OwnNet模型結構示意圖
在網絡訓練中依據(jù)病理診斷結果對數(shù)據(jù)集添加標簽。本研究共1968 張數(shù)據(jù)集樣本,為保證模型在現(xiàn)實中的表現(xiàn)效果,劃分訓練集、驗證集和測試集時要求其良惡性樣本的比例一致且等于總體樣本中良惡性樣本的比例(1∶3.43),隨機分為訓練集(占比58%)、驗證集(占比15%)和測試集(占比27%)3部分,其中訓練集1150張,驗證集296張,測試集522張。在訓練過程中,綜合考慮計算機性能,將Epoch 設置為500;模型采用Adam優(yōu)化器,其初始學習率設定為0.001,權值衰減(weight_decay)設置為0.0001,防止出現(xiàn)過擬合情況;學習率衰減因子gamma 設置為0.98。將3種模型在相同數(shù)據(jù)集、相同平臺上運行,通過計算在訓練集的最高準確率、訓練集和驗證集20 個Epoches 的平均準確率,以及測試集的準確率、靈敏度、特異度、陽性預測值(PPV)、陰性預測值(NPV),總結模型的效能,結果見表2。
表2 不同網絡模型的訓練效能比較
使用OwnNet 模型對病灶內部掩膜圖數(shù)據(jù)集和特征組合圖數(shù)據(jù)集訓練,結果見表3。通過繪制受試者工作特征(receiver operating characteristic,ROC)曲線評估兩種類型數(shù)據(jù)集在OwnNet 模型上的訓練效能,病灶內部掩膜圖和特征組合圖數(shù)據(jù)集的曲線下面積(area under curve,AUC)分別為0.848 和0.863。見圖7。
表3 兩種類型數(shù)據(jù)集在OwnNet模型上的訓練效能比較
圖7 兩種類型數(shù)據(jù)集在OwnNet模型上訓練的ROC曲線圖
為增強模型的可解釋性,獲取最后一層卷積層,將其在注意力SE 模塊中注意力權重最大的通道圖使用雙線性插值上采樣到原始圖像大小,生成熱圖以證明模型分類的可行性,見圖8。將熱圖與原始圖像合并得到在涎腺腫瘤超聲圖像中模型注意力的大致位置,見圖9。結果發(fā)現(xiàn)模型對涎腺良惡性腫瘤均會關注病灶內部和部分回聲結構,但對惡性病灶的關注范圍相對更廣,并重點注意病灶內部紋理特征。
圖8 熱圖生成模型示意圖
圖9 涎腺良惡性腫瘤熱圖與原始圖像合并得到在涎腺腫瘤超聲圖像中模型注意力的大致位置
本研究針對術前涎腺腫瘤超聲圖像,使用伽馬變換和雙邊濾波算法對已有的數(shù)據(jù)圖像進行處理,更好地突出圖像紋理特征,然后將人工提取特征組合圖作為訓練樣本,分別在VGG19 模型、ResNet50 模型和OwnNet 模型上進行特征提取和分類,并對網絡參數(shù)進行了調整。結果顯示,OwnNet 模型表現(xiàn)出的效果最佳,證明了CNN對涎腺腫瘤超聲圖像進行良惡性分類的可行性,引入注意力機制能夠有效提高分類效果,從而提高人工智能診療效率。
在以上3 種網絡模型中,ResNet50 模型在訓練集的收斂速度最快,但其分類效果不夠理想,平均準確率僅78.07%;在驗證集的分類效果同樣低于VGG19 模型和OwnNet 模型,平均準確率僅73.34%。VGG19 模型在訓練集及驗證集的準確率均較ResNet50 模型高,因此本研究基于VGG19 模型構建了OwnNet模型,結果提示其分類效果最好,在訓練集的最高準確率達92.43%,在測試集的準確率、靈敏度、特異度、PPV、NPV 也較其他模型更高。分析OwnNet 模型分類效果更好的原因主要有:①擴大了模型輸入單張圖像的數(shù)據(jù)量,避免特征丟失;②采用3×3 卷積核,能夠在具有相同感受野的情況下減少網絡參數(shù),提高了訓練效率;③卷積單元增加了批歸一化函數(shù),保證ReLU 激活函數(shù)的輸入值不會過高或過低,使參數(shù)能夠有效更新,提高了模型的穩(wěn)定性;④模型引入注意力SE 模塊,突出對分類有用的通道特征;⑤增加了全連接層的長度和寬度,提高了模型的非線性表達能力和學習能力;⑥對良惡性樣本賦予不同的損失權重,提高了模型對數(shù)量較少的惡性樣本的學習能力。
本研究結果顯示,與病灶內部掩膜圖數(shù)據(jù)集比較,使用特征組合圖數(shù)據(jù)集在OwnNet 模型上訓練得到的準確率、靈敏度、PPV、NPV 均更高,而特異度較低,表明使用特征組合圖數(shù)據(jù)集能夠更好地學習惡性樣本的特征。不同類型數(shù)據(jù)集對應的ROC 曲線分析反映了模型的泛化能力,使用特征組合圖數(shù)據(jù)集得到的AUC較單純病灶內部掩膜圖數(shù)據(jù)集更高,提示前者模型性能更好。分析是由于特征組合圖突出了涎腺腫瘤超聲圖像中病灶邊界和內部特征,也保留了病灶外部特征,從而表現(xiàn)性能更佳。
研究[18]表明根據(jù)超聲圖像特征(包括腫塊形狀、邊緣、后回聲模式、鈣化和局部淋巴結腫大)鑒別唾液腺腫瘤良惡性的準確率約67%~96%;多形性腺瘤是常見的良性上皮腫瘤,但惡性轉化的可能性為5.0%~9.8%,由于大多惡性腫瘤早期缺乏特異性的臨床癥狀和體征,術前難以確定腫瘤性質,穿刺活檢時可能由于取材導致腫瘤轉移;且該研究以組織病理學結果為因變量,臨床和超聲圖像特征為自變量建立的邏輯回歸模型鑒別涎腺腫瘤良惡性的AUC、靈敏度、特異度、準確率、PPV 及NPV 分別為0.893、84.30%、80.00%、83.10%、0.653、0.920。研究[19]使用傳統(tǒng)的應變彈性成像和帶有四模式評分系統(tǒng)的聲輻射力脈沖成像檢查了185 個涎腺腫瘤(包括163 個良性腫瘤和22 個惡性腫瘤),結果顯示二者對其良惡性分類的靈敏度、特異度、準確率分別為54.50%、56.40%、56.20%和77.30%、63.80%、65.40%。以上研究均低于本研究模型在測試集的準確率、靈敏度、特異度(85.44%、86.67%、86.27%),表明該模型在涎腺腫瘤良惡性分類方面具有一定優(yōu)勢。
本研究通過對3 種模型進行分類訓練并測試,證實了CNN對涎腺腫瘤超聲圖像良惡性進行分類的可行性,結果表明VGG19模型效能優(yōu)于ResNet50模型,OwnNet模型效能最佳,且由涎腺腫瘤超聲圖像的特征組合圖訓練得到的分類模型準確率更高,表明VGG深度學習網絡結構更適合涎腺腫瘤超聲圖像的分類,可輔助臨床醫(yī)師診斷,使目標病灶的檢出與鑒別更加直接、清晰且客觀,提高診斷效率。但該模型對于整體樣本的分類效果較其他方法并無明顯優(yōu)勢。由于涎腺腫瘤超聲圖像數(shù)據(jù)的進一步積累較為困難,在一定程度上限制了機器學習訓練的效果。推測擴大涎腺腫瘤超聲圖像數(shù)據(jù)集后,其分類效果還有較大進步空間;同時還需進一步優(yōu)化網絡結構,提高模型的訓練效率和泛化能力。同時,本研究為單中心、回顧性研究,缺乏前瞻性外部驗證,后期仍需進一步完善。