亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的乳腺癌分子亞型分類研究

        2020-09-18 09:13:30黃軍豪廖天馳
        現(xiàn)代計(jì)算機(jī) 2020年22期
        關(guān)鍵詞:乳腺癌分類深度

        黃軍豪,廖天馳

        (1.四川農(nóng)業(yè)大學(xué)信息工程學(xué)院,雅安 625014;2.四川農(nóng)業(yè)大學(xué)理學(xué)院,雅安 625014)

        0 引言

        乳腺癌是危害女性健康最常見的一種癌癥[1]。在全球范圍內(nèi),2018 年新診斷的女性乳腺癌病例約210萬例,占女性癌癥病例的近四分之一[2]。乳腺癌是一種異質(zhì)性疾病,可以細(xì)分為不同的乳腺癌亞型,不同亞型的異質(zhì)性是影響治療手段的關(guān)鍵因素之一[3]。因此,乳腺癌分子亞型的鑒定成為了推進(jìn)乳腺癌精準(zhǔn)診斷和治療的重要需求[4]。隨著免疫組織化學(xué)物(IHC)的興起,在醫(yī)學(xué)上將乳腺癌分子亞型分為Luminal A、Luminal B、Her2-enrich 和 Basal-like 4 個(gè)類型,每種不同的分子亞型都與疾病進(jìn)展趨勢相關(guān)[5-6]。乳腺癌分子亞型的高效診斷是分子醫(yī)學(xué)領(lǐng)域一個(gè)尚未滿足的需求,盡管使用IHC 識別乳腺癌分子亞型具有一定的精準(zhǔn)度,但其識別周期較長,于是需要更高效的診斷來幫助制定個(gè)體化的治療方案[7-10]。

        近年來,日益精化的醫(yī)學(xué)圖像和快速發(fā)展的深度學(xué)習(xí)技術(shù)給計(jì)算機(jī)輔助診斷技術(shù)提供了良好的發(fā)展平臺和契機(jī)[11]。深度學(xué)習(xí)模型能夠自動進(jìn)行特征抽象,隨著卷積網(wǎng)絡(luò)的不斷加深,更加抽象且高維度的特征也不斷地被提取,這很好地突破了傳統(tǒng)機(jī)器學(xué)習(xí)算法的性能瓶頸,因此,深度學(xué)習(xí)在圖像識別、圖像分割、語義分析等多個(gè)領(lǐng)域都有著廣泛的應(yīng)用[12-13]。在生物醫(yī)學(xué)領(lǐng)域,深度學(xué)習(xí)也為高效準(zhǔn)確的計(jì)算機(jī)輔助診斷提供了一種新的思路。

        乳腺癌分子亞型的智能分類是一項(xiàng)非常有挑戰(zhàn)性的研究。在國內(nèi),利用深度學(xué)習(xí)技術(shù)進(jìn)行乳腺癌分子亞型分類的研究較少。在國外,已經(jīng)有不少研究將深度學(xué)習(xí)技術(shù)應(yīng)用于乳腺癌分子亞型的智能分類中。Zhu 等人[14]將乳腺癌分子亞型的分類進(jìn)行簡化,將Luminal A 型單獨(dú)作為一類,其他3 種亞型作為一類,利用乳腺的核磁共振成像圖(MRI)作為數(shù)據(jù)集,采用VGG16[15]、GoogLeNet[16]等多種經(jīng)典模型進(jìn)行乳腺癌分子亞型分類,最終將所有的測試結(jié)果取平均值,得到的平均AUC 為0.64。Ha 等人[17]提出了一種定制的14 層卷積神經(jīng)網(wǎng)絡(luò)用于乳腺癌分子亞型的分類,他們采用的數(shù)據(jù)集是216 例乳腺癌患者的MRI,并按照醫(yī)學(xué)上的亞型分類進(jìn)行預(yù)測,最終在四種亞型的分類上,取得了70%的準(zhǔn)確率。

        本文提出了一種基于深度學(xué)習(xí)的乳腺癌分子亞型分類模型,該模型針對乳腺癌病理圖像數(shù)據(jù)的特征,定制了一種深層次卷積神經(jīng)網(wǎng)絡(luò)(DCNN),在一定的精度下,實(shí)現(xiàn)乳腺癌分子亞型的高效分類。

        1 方法與材料

        1.1 數(shù)據(jù)集

        本文使用TCGA-BRCA 數(shù)據(jù)集作為乳腺癌分子亞型分類研究的樣本集,該數(shù)據(jù)集包含1098 位乳腺癌患者的乳腺病理圖像數(shù)據(jù),該數(shù)據(jù)集可以通過TCGA 數(shù)據(jù)庫獲得[18]。

        每位患者平均含有3 張乳腺的病理圖像數(shù)據(jù),病理圖像是彩色圖片,包含了紅綠藍(lán)(RGB)三個(gè)通道,每張病理圖像數(shù)據(jù)的平均像素約為80,000×50,000。本文按照8:1:1 的比例隨機(jī)地將病理圖像樣本分為訓(xùn)練集、驗(yàn)證集和測試集,在隨機(jī)分配的同時(shí),本文也考慮了四種分子亞型所對應(yīng)樣本數(shù)量本身的不均衡性,例如Luminal A 型樣本數(shù)量大約是Her2-enrich 型樣本數(shù)量的6 倍,為了保證測試效果的公平性,本文對四種分子亞型的樣本采用比例不變的分層采樣。詳細(xì)的數(shù)據(jù)劃分如表1 所示。

        表1 全尺寸病理圖像的具體數(shù)據(jù)劃分

        1.2 數(shù)據(jù)預(yù)處理

        每一張?jiān)疾±韴D像像素點(diǎn)數(shù)量的計(jì)量單位上億級,像這樣的大尺寸、超高分辨率的圖像,無法直接作為DCNN 模型的輸入。為了解決這個(gè)問題,本文在盡可能保留原始圖像特征的情況下,對全尺寸圖像進(jìn)行了分塊處理。

        圖像分塊就是將全尺寸圖片按照一定的尺寸進(jìn)行切割,最終將一個(gè)全尺寸圖片切割成為若干小尺寸圖片,以適應(yīng)深度學(xué)習(xí)模型的輸入。本文按照2,048×2,048 的像素區(qū)域?qū)θ叽绮±韴D像進(jìn)行分塊處理,每一子塊的標(biāo)簽與子塊所屬的全尺寸病理圖像的標(biāo)簽保持一致。

        由于全尺寸病理圖像的表現(xiàn)特征具有區(qū)域性,圖像的局部區(qū)域是由特征信息非常少的毛細(xì)組織構(gòu)成,如圖1 所示。這部分區(qū)域整體偏向于無色和白色,本文稱其為“白色”噪音圖像。這些“白色”噪音圖像在圖像分塊的處理過程中,會被當(dāng)作有效信息切割下來,成為圖像分塊的產(chǎn)物。如果將這部分“白色”噪音圖像作為深度卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,會干擾模型的自優(yōu)化,影響模型的特征識別,最終降低網(wǎng)絡(luò)的性能。因此,為了解決這個(gè)問題,本文采用了一種基于灰度值計(jì)算的圖像過濾技術(shù),對“白色”噪音圖像進(jìn)行過濾,具體的步驟如下:

        以一張小尺寸病理圖像數(shù)據(jù)的處理過程為例,利用浮點(diǎn)算法計(jì)算該病理圖像每一個(gè)像素點(diǎn)的灰度值:

        圖1“白色”噪音圖像示意圖

        在計(jì)算出每個(gè)像素點(diǎn)的灰度值后,取得整張圖片的平均灰度值。平均灰度值越大,即其值越接近255,證明圖片所包含的信息越少,則這類圖片可以歸類為“白色”噪音圖片,不宜被選用。

        基于此思想,對于一張全尺寸圖像分塊后的若干小尺寸病理圖像,本文選取其中信息含量最多的50 張圖像作為最終的數(shù)據(jù)集,最終的數(shù)據(jù)集劃分如表2所示。

        表2 小尺寸病理圖像的具體數(shù)據(jù)劃分

        除此之外,為了提高訓(xùn)練效果,打破小樣本的數(shù)據(jù)集的性能限制,本文對每一張小尺寸病理圖像都做了數(shù)據(jù)增強(qiáng)。主要的實(shí)現(xiàn)方法是對圖像進(jìn)行隨機(jī)旋轉(zhuǎn)、鏡面翻轉(zhuǎn)和沿對角線翻轉(zhuǎn)。這樣做可以有效提高DCNN 模型的泛化能力,提高其在測試數(shù)據(jù)集上的表現(xiàn)。

        整個(gè)數(shù)據(jù)預(yù)處理的流程如圖2 所示。

        圖2 數(shù)據(jù)預(yù)處理流程圖

        1.3 模型構(gòu)建

        目前還有沒有一個(gè)較為成熟的乳腺癌病理圖像識別模型,為了提高模型的適應(yīng)性,本文定制了一種DCNN 模型來提取病理圖像數(shù)據(jù)的抽象特征。這個(gè)模型是基于VGG16[15]進(jìn)行改進(jìn)的,改進(jìn)后的DCNN 模型由28 層組成,整體架構(gòu)為:深層次局部特征提取網(wǎng)絡(luò)組合高維特征抽象網(wǎng)絡(luò)。

        輸入層:負(fù)責(zé)將圖像數(shù)據(jù)輸入網(wǎng)絡(luò)進(jìn)行特征提取,并自適應(yīng)圖片大小。本文的輸入層包含3 個(gè)通道,為了進(jìn)一步提高網(wǎng)絡(luò)的提取效率,輸入層會自適應(yīng)壓縮圖像大小,聚合特征信息,以適應(yīng)DCNN 模型的特征提取。

        卷積層[19]:負(fù)責(zé)更加深入地分析圖像的每一個(gè)部分,提取更加抽象的特征,通常經(jīng)過卷積層的輸入矩陣會變得更深,特征信息會更明顯。本文模型中的卷積層過濾器的大小有1×1和3×3 兩種,過濾器的移動步長統(tǒng)一設(shè)置為1。卷積層使用全零填充機(jī)制。

        Inception 層:負(fù)責(zé)進(jìn)一步提取高緯度特征。本文模型中的Inception 層引用自InceptionV3 模型[19]中的倒數(shù)第六層,也是InceptionV3 模型的核心層。引用該層是為了更加深入地分析病理圖像的粗粒度信息,突破特征提取瓶頸。

        池化層:負(fù)責(zé)縮小矩陣的尺寸,減少網(wǎng)絡(luò)中的參數(shù)。池化層可以有效防止過擬合,也能夠加快網(wǎng)絡(luò)的優(yōu)化速度[19]。本文模型的池化層均采用Max Pooling。池化層的過濾器尺寸統(tǒng)一為2×2,移動步長為2,全部采用全零填充機(jī)制。

        為了進(jìn)一步防止過擬合問題,本文在訓(xùn)練網(wǎng)絡(luò)時(shí)也引入了Dropout 技術(shù)[20],并將Dropout 技術(shù)用于第一個(gè)全連接層。

        本文DCNN 模型的激活函數(shù)全部采用ReLU 激活函數(shù)[21]。該激活函數(shù)非常適合DCNN 模型,它能減輕梯度消失的問題[21]。

        本文使用的參數(shù)初始化方法為:Xavier 初始化[22]。該方法可以保證每一層輸出的方差盡量相等,可以一定程度上減少收斂時(shí)間,是一種很高效的DCNN 初始化方法[22]。

        本文定義的損失函數(shù)如下:

        Lt表示樣本的正確標(biāo)簽,其中表示網(wǎng)絡(luò)輸出的結(jié)果,λ為正則化項(xiàng)的權(quán)重。

        本文DCNN 模型的初始學(xué)習(xí)率設(shè)置為0.1,使用Gradient Descent Optimizer 進(jìn)行誤差修正。

        本文DCNN 模型的具體結(jié)構(gòu)見圖3。

        圖3 DCNN網(wǎng)絡(luò)的具體結(jié)構(gòu)

        2 實(shí)驗(yàn)結(jié)果

        本文模型在 Intel Core i7 CPU,NVIDIA GeForce RTX 2080 GPU 上進(jìn)行訓(xùn)練,使用 TensorFlow 框架[23]。DCNN 模型的訓(xùn)練時(shí)長約為8 小時(shí)14 分鐘。

        本文將訓(xùn)練好模型在測試集上進(jìn)行性能驗(yàn)證,DCNN 模型的分類準(zhǔn)確率為70.08%,除此之外,本文還統(tǒng)計(jì)了DCNN 模型在損失函數(shù)上的損失值,DCNN 模型的損失值為0.48633。

        上述準(zhǔn)確率是在原來的測試數(shù)據(jù)集上進(jìn)行一次測試得到的,不具有普適性,不能作為評判模型優(yōu)劣的結(jié)果,為了更進(jìn)一步地得到更為準(zhǔn)確可靠的模型性能結(jié)果,本文對DCNN 模型進(jìn)行了十次十折交叉驗(yàn)證[24],其結(jié)果如圖4 所示。在十次交叉驗(yàn)證中。DCNN 模型的最高分類準(zhǔn)確率為76.49%,平均分類準(zhǔn)確率為71.97%。

        圖4 十次十折交叉驗(yàn)證的具體結(jié)果

        為了評估多模態(tài)融合模型對某一種乳腺癌分子亞型作預(yù)測的性能,本文分別對每一種分子亞型作了ROC 曲線,也計(jì)算了模型在每一種分子亞型預(yù)測工作上的AUC 值。ROC 曲線是反應(yīng)二分類模型性能的一種曲線。對于一個(gè)二分類問題,實(shí)例可以分成Positive或者Negative,但在實(shí)際分類問題中,會出現(xiàn)四種情況:True Positive(TP)、False Negative(FN)、False Positive(FP)和 True Negative(TN)。ROC 曲線的橫軸是 True Positive Rate(TPR)、縱軸是 False Positive Rate(FPR),它們的計(jì)算公式如下:

        ROC 曲線上的每個(gè)點(diǎn)對應(yīng)一個(gè)閾值,ROC 曲線下的面積即為AUC 值,AUC 值越大,則證明當(dāng)前模型的分類性能越出色。

        由于分子亞型的預(yù)測工作本身是多分類問題,ROC 曲線的繪制和AUC 值的計(jì)算需要在二分類問題上進(jìn)行,本文對某一種分子亞型的預(yù)測作性能評估時(shí),將其他種類的分子亞型分為一類,例如:判斷模型對Luminal A 型作預(yù)測的性能時(shí),將其他三個(gè)種類的分子亞型標(biāo)注為一類。不同分子亞型預(yù)測性能評估的ROC曲線如圖5 所示。

        圖5 不同分子亞型的ROC曲線

        3 與其他模型對比

        為了進(jìn)一步驗(yàn)證本文針對乳腺癌病理圖像數(shù)據(jù)所構(gòu)建的DCNN 模型的性能優(yōu)越性,本文選取了經(jīng)典的3 種深度學(xué)習(xí)模型作為對照模型,進(jìn)行性能對比。

        本文選取三種經(jīng)典的深度學(xué)習(xí)模型分別為AlexNet[25]、VGG16[15]和 GoogLeNet[16],對照模型在相同的數(shù)據(jù)集下進(jìn)行復(fù)現(xiàn)實(shí)驗(yàn),實(shí)驗(yàn)的對比結(jié)果如表3 所示。

        表3 與其他模型對比的結(jié)果

        通過廣度上的對比,可以發(fā)現(xiàn)本文構(gòu)建的DCNN模型不論是在分類準(zhǔn)確率上還是AUC 的得分上都要優(yōu)于其他三種經(jīng)典的深度學(xué)習(xí)模型。

        4 結(jié)語

        本文提出了一種改進(jìn)的深度學(xué)習(xí)模型,用于有效地提取乳腺癌病理圖像數(shù)據(jù)的特征信息,解決乳腺癌分子亞型的智能分類問題。本文利用訓(xùn)練好的模型進(jìn)行十次十折交叉驗(yàn)證,在四分類問題上取得了71.97%的預(yù)測準(zhǔn)確率;分別對每種亞型進(jìn)行AUC 檢驗(yàn),四種亞型的平均AUC 值為78.47%。如果將來能在更加優(yōu)質(zhì)、豐富的數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,本文DCNN 模型的性能可能會進(jìn)一步提升。綜上所述,本文的模型可以成為未來乳腺癌分子亞型智能分類的一個(gè)潛在選擇。

        猜你喜歡
        乳腺癌分類深度
        絕經(jīng)了,是否就離乳腺癌越來越遠(yuǎn)呢?
        中老年保健(2022年6期)2022-08-19 01:41:48
        分類算一算
        深度理解一元一次方程
        乳腺癌是吃出來的嗎
        分類討論求坐標(biāo)
        深度觀察
        深度觀察
        胸大更容易得乳腺癌嗎
        深度觀察
        數(shù)據(jù)分析中的分類討論
        亚洲女同性恋激情网站| 日本动态120秒免费| 精品国产av色一区二区深夜久久 | 狠狠丁香激情久久综合| 久久精品亚洲成在人线av| 少妇无套裸按摩呻吟无呜 | 免费无码成人av在线播| 亚洲欧美国产成人综合不卡| 女主播国产专区在线观看| 国产猛烈高潮尖叫视频免费| 无码人妻aⅴ一区二区三区| 中文字幕熟妇人妻在线视频| 国产未成女年一区二区| 亚洲一区二区懂色av| 丁香婷婷激情综合俺也去| 人成午夜免费大片| 91综合久久婷婷久久| 草逼视频污的网站免费| 好男人社区影院www| 亚洲天堂99| 丝袜美腿一区二区在线观看| 国产日产韩国av在线| 中文字幕人妻被公上司喝醉| 精品少妇大屁股白浆无码| 精品国产污黄网站在线观看| 成年av动漫网站18禁| 曰韩亚洲av人人夜夜澡人人爽| 香蕉久久夜色精品国产2020| 亚洲av精品一区二区三| 美女视频在线观看亚洲色图| 国产精品9999久久久久| 国内成人精品亚洲日本语音| 蜜桃成熟时日本一区二区 | 国产一区二区三区日韩在线观看| 国产精品中文久久久久久久| 在线观看免费人成视频| 91成人自拍视频网站| 久久婷婷国产综合精品| 欧美日本国产va高清cabal| 中文字幕亚洲区第一页| 亚洲男人av天堂久久资源|