余美慧 袁 泉 曾書娥 程 慧 李 楠 葉華容
2020年全球癌癥統(tǒng)計數(shù)據(jù)顯示乳腺癌已成為威脅女性健康的首位高發(fā)癌癥[1], 精準診斷對改善患者預后和降低死亡率至關重要[2]。超聲具有操作簡便、經(jīng)濟、無輻射、無創(chuàng)等優(yōu)勢, 是目前臨床篩查乳腺癌的首選影像學檢查方法[3]。然而, 超聲醫(yī)師的工作經(jīng)驗、專業(yè)水平等主觀因素, 以及超聲儀器、診療環(huán)境等客觀因素均可能影響診斷準確性。近年來, 深度學習因其在圖像識別和人工智能決策中的優(yōu)異表現(xiàn)而受到廣泛關注, 其可以自動對復雜的醫(yī)學圖像(如超聲圖像)特征進行定量評估, 提取有診斷價值的信息, 并將分析結果作為第二意見或決策支持提供給臨床醫(yī)師[4], 具有客觀、可重復性等特點。遷移學習和卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)模型是目前醫(yī)學領域最有效的深度學習技術, 已被證實優(yōu)于傳統(tǒng)方法[5]?;诖? 本研究旨在探討基于超聲圖像的遷移學習模型在乳腺腫塊良惡性鑒別診斷中的應用價值。
1.患者納入情況:收集2018年5月至2021年3月我院收治的行超聲檢查、手術或穿刺活檢的乳腺腫塊患者, 均為女性。納入標準:①腫塊經(jīng)病理組織學確診;②惡性腫塊經(jīng)病理證實為原發(fā)性乳腺癌;③可獲得標準的術前超聲檢查圖像;④術前未行相關放療、化療或放化療。排除標準:①超聲圖像質量差, 無原始格式;②術前行相關治療。最終納入300例患者, 年齡19~79歲, 平均(46.77±12.41)歲;其中良性144例(146個腫塊), 惡性156例(158個腫塊)。本研究為回顧性研究, 經(jīng)武漢科技大學附屬華潤武鋼總醫(yī)院倫理委員會批準, 免除了書面知情同意的要求。
2.乳腺超聲數(shù)據(jù)集情況:300例患者共582張超聲圖像(良性304張, 惡性278張)隨機分為訓練集和測試集, 訓練集中良性患者96例(98個腫塊, 256張圖像), 惡性患者104例(106個腫塊, 226張圖像);測試集中良性患者48例(48個腫塊, 48張圖像), 惡性患者52例(52個腫塊, 52張圖像)。訓練階段最多提取同一腫塊的4個不同截面圖像和同一患者的2個腫塊, 隨機分配并使用訓練集中200例患者204個腫塊圖像;測試階段僅提取測試集同一患者一個腫塊的一張超聲圖像。
3.乳腺X線攝影篩查數(shù)字數(shù)據(jù)庫的更新和標準化版本(CBIS-DDSM)數(shù)據(jù)集:CBIS-DDSM[6]是乳腺X線攝影篩查數(shù)字數(shù)據(jù)庫的更新和標準化版本, 共包含1590張圖像, 其中良性腫塊圖像845張, 惡性腫塊圖像745張。將此數(shù)據(jù)集中70%的樣本作為訓練集, 30%的樣本作為測試集, 以增強模型在超聲數(shù)據(jù)集上的表現(xiàn)力, 并對模型進行微調和優(yōu)化。
1.乳腺超聲圖像采集:使用Philips EPIQ 7C彩色多普勒超聲診斷儀, 線陣探頭, 頻率3~12 MHz。受檢者取仰臥位, 雙臂外展, 充分暴露乳房, 探頭置于乳房表面, 于平靜呼吸狀態(tài)下以乳頭為中心行放射狀全面掃查, 二維超聲重點掃查病灶區(qū)域, 根據(jù)病灶位置、大小及回聲適當調整深度、焦點位置和增益, 存儲腫塊最大徑超聲圖像。
2.圖像處理與數(shù)據(jù)增強:在完全保留乳腺病變區(qū)域的前提下, 對圖像進行人工裁剪預處理, 具體操作如下:①從每張圖像中裁剪出矩形視圖, 刪除包含無關內容的區(qū)域;②從矩形視圖的左、中、右或上、中、下正方形區(qū)域裁剪3個塊, 選擇包括腫塊在內的最合適的正方形視圖;③在不改變縱橫比的情況下, 重新縮放裁剪后的圖片尺寸為256×256(像素), 見圖1。由于數(shù)據(jù)集中的訓練數(shù)據(jù)量有限, 訓練過程中對圖像進行翻轉、旋轉、平移、對比度增強等數(shù)據(jù)增強操作, 人為地將訓練圖像數(shù)據(jù)集擴充為其原始數(shù)量的4倍。
圖1 人工裁剪預處理后的乳腺腫塊超聲圖像
3.CNN模型選擇:本研究選取了3種具有代表性的深度CNN模型, 即VGG-16、Inception-v3和ResNet-50。
4.遷移學習方法:使用ImageNet數(shù)據(jù)集預訓練網(wǎng)絡作為特征提取器, 即從頭開始學習特征, 然后將訓練模型參數(shù)遷移至3種CNN模型以對其進行初始化。第1次遷移學習利用CBIS-DDSM數(shù)據(jù)集中良惡性乳腺腫塊X線圖像對3種CNN模型進行訓練優(yōu)化并微調卷積層參數(shù);第2次遷移學習使用乳腺超聲數(shù)據(jù)集中隨機挑選的訓練集超聲圖像對3種CNN模型進行二次微調, 得到最優(yōu)的模型參數(shù), 并在測試集中輸出最終分類結果。CNN模型遷移學習流程圖見圖2。
圖2 CNN遷移學習流程圖
5.模型訓練和測試:本研究選取隨機梯度下降為遷移學習的優(yōu)化函數(shù), 損失函數(shù)為交叉熵損失函數(shù)。為了訓練網(wǎng)絡, 每個Batch包含16張圖像, 初始學習率設置為0.0001。最多訓練200個epoch, 當10個epoch的驗證誤差不減少時, 訓練提前結束。最后選擇驗證損失最低的模型用來測試。
應用SPSS 26.0統(tǒng)計軟件, 計量資料以±s表示, 兩組比較采用t檢驗;計數(shù)資料以例或率表示, 兩組比較采用χ2檢驗。以病理結果為金標準, 繪制受試者工作特征(ROC)曲線分析遷移學習后3種模型鑒別診斷乳腺腫塊良惡性的效能, 曲線下面積(AUC)比較行Z檢驗。P<0.05為差異有統(tǒng)計學意義。
良、惡性乳腺腫塊患者平均年齡分別為(41.27±11.64)歲、(51.84±10.86)歲, 腫塊平均最大徑分別為(2.03±1.53)cm、(2.55±1.22)cm, 差異均有統(tǒng)計學意義(均P<0.001)。訓練集和測試集患者平均年齡分別為(46.66±13.05)歲、(46.99±11.06)歲, 腫塊平均最大徑分別為(2.33±1.49)cm、(2.25±1.20)cm, 差異均無統(tǒng)計學意義。
未遷移與遷移學習后3種模型鑒別診斷乳腺腫塊良惡性的準確率、敏感性、特異性、精準率、F1分數(shù)、約登指數(shù)見表1。
表1 未遷移與遷移學習后3種模型對乳腺腫塊良惡性的鑒別診斷效能
1.第1次遷移學習與未遷移學習比較:3種模型第1次遷移學習后鑒別診斷乳腺腫塊良惡性的準確率、敏感性、特異性、精準率、F1分數(shù)及約登指數(shù)均高于未遷移, 差異均有統(tǒng)計學意義(均P<0.05)。
2.第2次遷移學習與第1次遷移學習比較:3種模型第2次遷移學習后鑒別診斷乳腺腫塊良惡性的準確率、敏感性、特異性、精準率、F1分數(shù)及約登指數(shù)均高于第1次遷移學習, 差異均有統(tǒng)計學意義(均P<0.05)。
ROC曲 線 分 析 顯 示, VGG-16、Inception-v3、ResNet-50第2次遷移學習后鑒別診斷乳腺腫塊良惡性的AUC分別為0.841(95%可信區(qū)間0.759~0.916)、0.865(95%可信區(qū)間0.756~0.946)、0.915(95%可信區(qū)間0.869~0.949)。基于ResNet-50建立的遷移學習模型鑒別診斷乳腺腫塊良惡性的AUC高于其他兩種模型, 差異均有統(tǒng)計學意義(均P<0.05)。見圖3。
圖3 第2次遷移學習后3種模型鑒別診斷乳腺腫塊良惡性的ROC曲線圖
近年來, 深度學習在乳腺疾病診斷中的研究越來越多, 但多是應用傳統(tǒng)機器學習通過手動勾畫感興趣區(qū)域進行紋理分析或是基于深度學習的乳腺鉬靶X線診斷, 而應用兩次遷移學習鑒別診斷乳腺腫塊良惡性的報道較少?;诖? 本研究采用深度學習的方法分別比較兩次遷移學習后3種CNN模型(VGG-16、Inception-v3、ResNet-50)對乳腺腫塊良惡性的鑒別診斷效能, 探討基于超聲圖像的遷移學習模型在乳腺腫塊良惡性鑒別診斷中的價值。
在基于深度學習的圖像分類問題中, 數(shù)據(jù)是模型的根本和基礎[7], 雖然可對數(shù)據(jù)進行增強處理, 但用于訓練網(wǎng)絡的樣本仍然較少, 這可能會增加出現(xiàn)過擬合、模型泛化能力差等問題的幾率, 導致在乳腺腫塊良惡性鑒別診斷中無法獲得良好效果。遷移學習是深度學習中一種新的學習方式, 其可在一定程度上緩解數(shù)據(jù)有限的問題, 解決醫(yī)學圖像分析中由于數(shù)據(jù)集較小導致模型不準確的問題[8]。Byra等[9]先在ImageNet數(shù)據(jù)集上對VGG19、Inception-v3及Inception ResNet-v2 3種模型進行預訓練, 經(jīng)過遷移學習后對149例良性和82例惡性乳腺腫塊的超聲圖像進行分類, 其診斷乳腺腫塊良惡性的AUC分別為0.858、0.829及0.860, 表明基于超聲圖像的遷移學習在鑒別診斷乳腺腫塊良惡性中具有較好價值。Hadad等[10]基于乳房X線攝影圖像訓練了一個網(wǎng)絡模型, 直接遷移至乳腺MRI數(shù)據(jù)集上并對其進行微調, 分析3種CNN模型在乳腺MRI圖像病變分類中的表現(xiàn), 結果表明在缺乏足夠訓練數(shù)據(jù)的情況下, 乳腺X線攝影和乳腺MRI之間的跨模態(tài)遷移學習可以顯著提高診斷效能。本研究通過VGG-16、Inception-v3、ResNet-50 3種模型實現(xiàn)乳腺X線攝影和乳腺超聲之間的跨模態(tài)遷移學習, 結果顯示遷移學習后3種CNN模型對乳腺腫塊良惡性的鑒別診斷效能均有所提高, 第1次遷移學習與未遷移學習及第2次遷移學習與第1次遷移學習比較, 準確率、敏感性、特異性均明顯提高, 差異均有統(tǒng)計學意義(均P<0.05), 表明遷移學習算法能有效地在相似圖像之間進行信息共享和遷移。此外, 在第1次遷移的基礎上, 第2次遷移借助少量數(shù)據(jù)就能達到預期較好的診斷效果, 表明兩次遷移學習較一次遷移學習效果更佳, 更適合用于小數(shù)據(jù)集的乳腺腫塊超聲圖像良惡性鑒別診斷, 與Hodad等[10]研究結論一致。
本研究中基于ResNet-50建立的第2次遷移學習模型鑒別診斷乳腺腫塊良惡性的準確率為88.0%, 敏感性為82.7%, 特異性為93.8%, AUC為0.915(95%可信區(qū)間0.869~0.949), 較VGG-16、Inception-v3模型具有更優(yōu)的診斷價值, 分析原因可能為ResNet網(wǎng)絡創(chuàng)新性地引入殘差網(wǎng)絡, 改善了由于網(wǎng)絡深度加深而產(chǎn)生的學習效率降低和準確率無法有效提升的問題[11]。但Zhang等[12]研究顯示, Inception-v3模型在測試集超聲圖像中鑒別診斷乳腺腫塊良惡性的AUC為0.905, 相較于ResNet-50顯示出更高的診斷準確率, 這可能是由訓練數(shù)據(jù)量差異引起的。
年齡是罹患乳腺癌的高危因素之一, 本研究中惡性乳腺腫塊患者平均年齡為(51.84±10.86)歲, 與良性乳腺腫塊患者平均年齡[(41.27±11.64)歲]比較差異有統(tǒng)計學意義(P<0.05), 與以往研究[13-14]顯示我國女性乳腺癌的發(fā)病高峰年齡為45~54歲基本一致。乳腺為多種內分泌激素作用的靶器官, 其中雌激素與乳腺癌的發(fā)病有直接關系, 分析其原因可能與年齡增長后的內分泌失調、卵巢功能紊亂及絕經(jīng)后女性雌激素水平下降有關[15]。
綜上所述, 基于超聲圖像的遷移學習模型能夠提高乳腺腫塊良惡性的鑒別診斷效能, 減少由于樣本數(shù)據(jù)量少對基于深度卷積特征的乳腺超聲圖像應用產(chǎn)生的影響, 可為臨床醫(yī)師提供決策參考, 具有較高的臨床應用價值。但本研究為單中心、回顧性研究, 納入樣本量有限, 圖像來源于不同超聲醫(yī)師, 且缺乏獨立的外部測試集以進一步驗證模型的診斷效能, 未來仍需開展多中心、大樣本研究進一步驗證試驗結果。