王 怡,房文靖,張中正
(1.魯東大學(xué) 生命科學(xué)學(xué)院,山東 煙臺 264025;2.魯東大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)科學(xué)學(xué)院,山東 煙臺 264025;3.魯東大學(xué) 農(nóng)學(xué)院,山東 煙臺 264025)
根據(jù)國際癌癥研究機(jī)構(gòu)(IARC)公布的全球腫瘤流行病的數(shù)據(jù)統(tǒng)計(jì)GLOBOCAN[1],2020全球男女各年齡段(性別)按年齡標(biāo)準(zhǔn)化估計(jì)發(fā)病率中居于首位的是乳腺癌,高達(dá)47.8%,乳腺癌在女性癌癥發(fā)病率中位列首位。全球新增癌癥病例約1 930萬例,其中女性乳腺癌占11.7%,成為全球確診率最高的癌癥[2]。乳腺癌早期治愈率高達(dá)90%[3],因此應(yīng)早發(fā)現(xiàn)、早診斷、早治療[4]。鉬靶圖像獲得成本較低,尤其在伴簇狀鈣化乳腺癌患者中的診斷價(jià)值較高,為疾病診斷提供有效依據(jù)[5]。利用基于深度學(xué)習(xí)的乳腺癌鉬靶圖像進(jìn)行分類診斷,對于輔助醫(yī)生診斷方面具有重要指導(dǎo)意義。
關(guān)于乳腺癌預(yù)測的傳統(tǒng)方法有Cox比例風(fēng)險(xiǎn)回歸模型[6]、L-BFGS算法[7]、Logistic回歸模型[8]、Gail模型[9]、meta分析法[10]和Claus模型[11],這些模型通過回歸進(jìn)行風(fēng)險(xiǎn)預(yù)測,基本都是地區(qū)性的,不具有普適性。
目前人工智能開始應(yīng)用于乳腺癌預(yù)測。刁繼堯[12]基于Spark數(shù)據(jù)集,采用SVM模型準(zhǔn)確率達(dá)到87.8%。陳勝等[13]基于乳腺癌威斯康辛數(shù)據(jù)集,通過sklearn封裝的邏輯回歸算法準(zhǔn)確率為97.9%。海金金[14]采用S-DenseNet數(shù)據(jù)集的乳腺癌病理學(xué)分級算法,AUC達(dá)到80.51%。董永峰等[15]使用BCDR-F03數(shù)據(jù)集,基于特征融合的卷積神經(jīng)網(wǎng)絡(luò)乳腺癌圖像分類,AUC達(dá)到89%。鄭群花等[16]基于乳腺癌病理圖像,采用卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)模型進(jìn)行乳腺癌病理圖像分類,識別率達(dá)99.74%。
本文采用的乳腺鉬靶圖像來自CBIS-DDSM[17](DDSM的乳房成像子集),它是用于篩查乳房X光檢查(DDSM)的數(shù)字?jǐn)?shù)據(jù)庫的更新和標(biāo)準(zhǔn)化版本。DDSM是一個由2 620個掃描膠片乳腺X光檢查研究組成的數(shù)據(jù)庫,它包含正常、良性和惡性病例,并帶有經(jīng)過驗(yàn)證的病理信息。CBIS-DDSM包括由經(jīng)過培訓(xùn)的乳腺技師選擇和策劃的ROI邊界框以及培訓(xùn)數(shù)據(jù)的病理診斷信息。
1.2.1 圖像轉(zhuǎn)換
原始的DDSM乳腺鉬靶數(shù)據(jù)為DIOCM格式,數(shù)據(jù)中既包含乳腺鉬靶影像數(shù)據(jù),也包含一些病人,設(shè)備等參數(shù)信息。在數(shù)據(jù)預(yù)處理過程中,從DICOM數(shù)據(jù)庫中下載乳腺鉬靶鈣化圖像,通過MicroDicom DICOM viewer 3.4.7 x64[18]轉(zhuǎn)換為bmp格式。其中乳腺鉬靶良性鈣化圖像為540張,惡性為554張,如圖1所示。對這些圖像進(jìn)行隨機(jī)旋轉(zhuǎn)平移擴(kuò)充翻倍。
圖1 乳腺鉬靶鈣化影像
1.2.2 圖像去噪——高斯濾波
醫(yī)學(xué)影像中大多噪聲屬于高斯噪聲,而高斯濾波[19]適用于消除高斯噪聲。用一個指定的模板(或稱卷積、掩膜)去掃描圖像中的每一個像素,用模板確定的鄰域內(nèi)像素的加權(quán)平均灰度值去替代模板中心像素點(diǎn)的值。噪聲屬于低能量部分,通過濾波器將能量低的排除達(dá)到平滑效果。采用高斯濾波器,系統(tǒng)函數(shù)為平滑的,避免使用理想濾波器所產(chǎn)生的振鈴現(xiàn)象[20]。
本文以CNN以及Resnet網(wǎng)絡(luò)為模型對乳腺鉬靶鈣化圖像進(jìn)行良惡性分類。
卷積神經(jīng)網(wǎng)絡(luò)[21]結(jié)構(gòu)一般包括卷積層、池層和全連接層。通過局部連接和權(quán)值共享,降低了模型的參數(shù)和復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)算法流程圖如圖2所示。
圖2 卷積神經(jīng)網(wǎng)路算法流程框圖
因深度學(xué)習(xí)網(wǎng)絡(luò)存在“退化”,到達(dá)一定的深度后,層數(shù)的加深導(dǎo)致效果退化。因此產(chǎn)生了Resnet網(wǎng)絡(luò)以解決“退化”問題。Resnet殘差網(wǎng)絡(luò)[22]其內(nèi)部的殘差塊使用跳躍連接來緩解梯度消失問題。不僅避免了退化問題,且錯誤率和計(jì)算復(fù)雜度也降低。通過直接將輸入信息繞道傳到輸出,保證信息完整性,整個網(wǎng)絡(luò)則只需要學(xué)習(xí)輸入、輸出差別的那一部分,簡化了學(xué)習(xí)目標(biāo)和難度。Resnet18由basic block殘差路徑構(gòu)成。Resnet50主要使用“bottleneck block”,先降維再升維,減少了參數(shù)數(shù)目和現(xiàn)實(shí)運(yùn)算量。
本文采用CNN(batch_size=32/64)、Resnet18(batch_s ize=32/64)和Resnet50(batch_size=32/64)6個模型進(jìn)行乳腺癌風(fēng)險(xiǎn)預(yù)測統(tǒng)計(jì)建模。結(jié)果見表1。
表1 各個模型的AUC值及測試集和驗(yàn)證集的準(zhǔn)確率 單位:%
目前最好的模型是CNN_64,測試集準(zhǔn)確率為99.74%,驗(yàn)證集準(zhǔn)確率為53.24%,AUC為59.29%。模型性能較為良好,但是數(shù)據(jù)擴(kuò)充、圖像去噪和模型等可繼續(xù)改進(jìn)。
本文采用的乳腺鉬靶圖像數(shù)量對于訓(xùn)練神經(jīng)網(wǎng)絡(luò)較少,擴(kuò)充后數(shù)量仍有限,下一步計(jì)劃采用GAN等其他方式進(jìn)行數(shù)據(jù)擴(kuò)充,預(yù)計(jì)擴(kuò)充之后會顯著提高模型準(zhǔn)確率。本文實(shí)驗(yàn)是在CNN網(wǎng)絡(luò)和Resnet網(wǎng)絡(luò)上進(jìn)行,CNN和Resnet在圖像識別和分類方面有很大潛力。強(qiáng)大的泛化學(xué)習(xí)能力可以幫助醫(yī)生診斷疾病。計(jì)劃下一步采用其他卷積神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)模型進(jìn)行識別分類,以期獲得更高的準(zhǔn)確率。