楊曉玲 王振奇 李嘉
摘 要:癌癥是發(fā)病率和死亡率極高的疾病,癌細(xì)胞正確識別與癌癥等級正確判斷具有極其重要的意義。深度神經(jīng)網(wǎng)絡(luò)(DNN)可用神經(jīng)網(wǎng)絡(luò)模擬大腦識別過程,底層提取初級特征,高層對底層特征進行組合與抽象。以乳腺癌細(xì)胞圖像為例,采用BreaKHis官網(wǎng)數(shù)據(jù)集,在Linux操作系統(tǒng)安裝Pycharm開發(fā)軟件,以Tensorflow為框架,搭載Python2.7編譯環(huán)境,增加現(xiàn)有神經(jīng)網(wǎng)絡(luò)的卷積層數(shù)和全連接層數(shù),提出一種優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)癌細(xì)胞識別方法。實驗結(jié)果表明,該方法能更加準(zhǔn)確地識別癌細(xì)胞圖像特征,有效降低現(xiàn)有神經(jīng)網(wǎng)絡(luò)分類錯誤,對癌細(xì)胞平均識別率達89.58%,對惡性癌細(xì)胞識別率最高可達96.75%。
關(guān)鍵詞:癌細(xì)胞識別;數(shù)據(jù)集;神經(jīng)網(wǎng)絡(luò);訓(xùn)練速度
DOI:10. 11907/rjdk. 191574
中圖分類號:TP303 ? 文獻標(biāo)識碼:A??????????????? 文章編號:1672-7800(2020)003-0065-04
Research Cancer Cell Recognition System Based on Deep Neural Network
YANG Xiao-ling,WANG Zhen-qi,LI Jia
(School of Electronic Information Engineering,Zhuhai College of Jilin University,Zhuhai 519041,China)
Abstract: Cancer has become a major disease with high morbidity and mortality in China. Correct identification of cancer cells and correct judgement of cancer grade are of great significance to the development of Chinese medicine. This system employs official websites BreaKHis Data and takes breast cancer cell image as an example. Pycharm development software was installed on Linux operating system in Python2.7 compiler environment within the framework of Tensorflow to speed up network training and deepen convolutional layers and fully layers of existing neural networks. A cancer cell recognition method based on optimized deep neural network is proposed.? The experimental results show that, this method can recognize the image features of cancer cells more accurately, effectiving reduce the existing neural networks classification errors, the average recognition rate of cancer cells was 89.58%, and the highest recognition rate of malignant cancer cells was 96.75%.
Key Words: cancer cell recognition; data set; neural network; training speed
0 引言
深度學(xué)習(xí)算法是近幾年興起的特征學(xué)習(xí)及分類算法,具有強大的特征學(xué)習(xí)能力,可同時實現(xiàn)特征學(xué)習(xí)與分類。深度學(xué)習(xí)在癌細(xì)胞識別中的應(yīng)用尚不普遍,目前最具代表性的研究是Cruz-Roa等[1]基于深度學(xué)習(xí)網(wǎng)絡(luò)的基底細(xì)胞癌(Basal-Cell Carcinoma Cancer)自動檢測系統(tǒng)。深度學(xué)習(xí)模型不僅能大幅提高圖像識別精度,而且避免消耗大量時間進行人工特征提取,使運行效率大大提升。普通神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)區(qū)別如圖1所示[2]。深度學(xué)習(xí)通過多個處理層組成復(fù)雜的計算模型,自動獲取數(shù)據(jù)的表示與多個抽象級別,利用深度神經(jīng)網(wǎng)絡(luò)具有的網(wǎng)絡(luò)深度和大樣本量訓(xùn)練集,將其應(yīng)用于癌細(xì)胞識別,可以更好地表達癌細(xì)胞圖像特征并區(qū)分細(xì)胞,提高癌細(xì)胞識別率。本文以乳腺癌細(xì)胞識別為例,通過深度學(xué)習(xí)進行癌細(xì)胞識別應(yīng)用,對癌癥的臨床判斷具有極其重要的意義。
1 深度神經(jīng)網(wǎng)絡(luò)模型架構(gòu)
基于經(jīng)典的LeNet-5[3]構(gòu)建深度神經(jīng)網(wǎng)絡(luò),主要包括兩個卷積層、一個池化層和兩個全鏈接層。卷積神經(jīng)網(wǎng)絡(luò)為癌細(xì)胞識別系統(tǒng)的主體部分,通過網(wǎng)絡(luò)中的多個隱含層實現(xiàn)對癌細(xì)胞數(shù)據(jù)更深層次的特征提取。對現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化,通過增加并聯(lián)卷積層擴寬網(wǎng)絡(luò)寬度,生成一個訓(xùn)練樣本學(xué)習(xí)系統(tǒng)。通過增加訓(xùn)練樣本數(shù)量使網(wǎng)絡(luò)學(xué)到更多并且更加準(zhǔn)確。深度神經(jīng)網(wǎng)絡(luò)模型如圖2所示。
2 癌細(xì)胞識別模型
基于深度神經(jīng)網(wǎng)絡(luò)的癌細(xì)胞識別系統(tǒng)流程分為癌細(xì)胞圖像預(yù)處理、癌細(xì)胞特征提取和分類3個部分,實現(xiàn)方案如圖3所示。
癌細(xì)胞圖像預(yù)處理主要對癌細(xì)胞圖像的形態(tài)學(xué)特征進行融合,將融合后的一維向量轉(zhuǎn)化為二維圖像。特征提取由深度卷積神經(jīng)網(wǎng)絡(luò)自動完成,最后使用一種常用的分類器Softmax[4]進行分類并得到識別結(jié)果。癌細(xì)胞識別過程如圖4所示。通過加深卷積層數(shù)和全連接層數(shù),提高訓(xùn)練速度與識別率,圖4右邊為每層網(wǎng)絡(luò)的數(shù)據(jù)結(jié)構(gòu)。
2.1 癌細(xì)胞圖像預(yù)處理
首先通過使用高階中值濾波器算法檢測癌細(xì)胞圖像噪聲,去除癌細(xì)胞圖像漂移噪聲,并利用小波變換算法,選擇合適的小波基函數(shù)和閾值去除信號干擾并重構(gòu)時域信號,得到去噪后的癌細(xì)胞圖像;然后利用融合技術(shù)將癌細(xì)胞圖像的形態(tài)學(xué)特征進行融合,將特征的時間值歸一化到[0,1]之間,實現(xiàn)數(shù)據(jù)的歸一化處理;最后將一維特征融合向量轉(zhuǎn)化為二維的二值圖像,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,利用跳白格和游程編碼對二值圖像進行降維。
2.2 癌細(xì)胞圖像特征提取
癌細(xì)胞圖像特征提取步驟如下:①對特定類型癌細(xì)胞圖像通過特定選擇程序進行預(yù)提取,選擇出更具代表性的癌細(xì)胞圖像作為訓(xùn)練樣本集;②構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)模型,如圖2所示。設(shè)置模型中的特征圖片數(shù)量及各層參數(shù)(卷積核、步長等);③確定訓(xùn)練集、驗證集及樣本集中的癌細(xì)胞數(shù)量;④利用深度卷積神經(jīng)網(wǎng)絡(luò)對輸入自動提取高層特征;⑤利用改進的深度神經(jīng)網(wǎng)絡(luò)方法(如圖4所示)加快訓(xùn)練的收斂速度、提高分類準(zhǔn)確率。
2.3 Softmax分類
使用Softmax分類器進行特征識別,將目標(biāo)變量分為多類算法。分類器利用Logistic 模型[3]對多分類問題進行推廣。假設(shè)有[N]幅輸入圖像[xi,yiNi=1],每幅圖像標(biāo)記[yi∈{1,2,?,k},k2]共[k] 類,本文設(shè)[k=2]。對于給定的測試圖像[xi],用假設(shè)函數(shù)估計出其屬于每個類別[j]的概率值[p(yi=j|xi)],則假設(shè)函數(shù)[hθ(xi)]為:
式(1)中,[1j=1keθTjxi]代表對概率分布進行歸一化,全部概率之和為1。[θ]表示Softmax分類器的參數(shù)。
Softmax分類器損失函數(shù)為:
其中[1(yi=j)]為指示性函數(shù),其取值規(guī)則為:1{值為真的表達式}=1,1{值為假的表達式}=0。最后通過隨機梯度下降法得到最小化誤差loss函數(shù)。
3 方案實現(xiàn)與實驗結(jié)果分析
3.1 數(shù)據(jù)集
本文采用BreaKHis官網(wǎng)公開的數(shù)據(jù)集[5],該數(shù)據(jù)集包含82位患者的7 909幅已標(biāo)注乳腺癌病理圖像,其中良性腫瘤圖像2 480幅,惡性腫瘤圖像5 429幅。每幅癌細(xì)胞圖像均采用4種不同的放大倍數(shù)(40X、100X、200X、400X),固定大小為700×460像素,模式為RGB三通道圖像(24位顏色,每個通道8位)。不同放大倍數(shù)的良、惡性腫瘤圖像分布情況如表1所示。
不同放大倍數(shù)的良性和惡性癌細(xì)胞圖例如圖5所示,肉眼可以直觀看到:隨著放大倍數(shù)的增大,良性癌細(xì)胞和惡性癌細(xì)胞的細(xì)胞核特征區(qū)別很大,惡性癌細(xì)胞明顯呈現(xiàn)顏色深等特點。
3.2 系統(tǒng)設(shè)計與實現(xiàn)
首先讀取圖像數(shù)據(jù)和標(biāo)簽數(shù)據(jù),對封裝的數(shù)據(jù)加載并進行亂序處理,如果不進行亂序處理會有某種特征數(shù)據(jù)連續(xù)出現(xiàn)從而影響訓(xùn)練效果。把相關(guān)數(shù)據(jù)抽象為數(shù)據(jù)類進行處理,包括圖像信息、標(biāo)簽信息、圖像總數(shù)據(jù)、數(shù)據(jù)批次;然后對所得圖像進行訓(xùn)練或預(yù)測,將圖像數(shù)據(jù)傳入卷積層,經(jīng)過處理得到壓縮的圖像數(shù)據(jù)。把數(shù)據(jù)傳入全連接層,經(jīng)過數(shù)據(jù)分析輸出特征,再通過Softmax函數(shù)把特征提取出來,對結(jié)果進行誤差計算以及優(yōu)化,最后打印出訓(xùn)練和預(yù)測結(jié)果。系統(tǒng)實現(xiàn)過程如圖6所示。
3.3 實驗結(jié)果分析
由于每個病變文件夾下都包含40X、100X、200X、400X 等幾種分辨率圖片,進行數(shù)據(jù)提取后得到訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)兩種結(jié)構(gòu)的數(shù)據(jù)集,每部分包含良性和惡性兩種。兩種癌細(xì)胞的召回率、識別精確率和平均識別率如表2所示,可以看到系統(tǒng)對惡性癌細(xì)胞的整體識別效果更好。
隨著訓(xùn)練次數(shù)增加,通過模型預(yù)測的準(zhǔn)確率平均值是89.58%,最高可達96.75%。訓(xùn)練結(jié)束后的準(zhǔn)確率和誤差如圖7所示,可以看出,loss隨訓(xùn)練次數(shù)的增大衰減很快,到訓(xùn)練100次時基本衰減為0.012。第100次訓(xùn)練時,訓(xùn)練集的loss為0.001 1,準(zhǔn)確率為100%;驗證集的loss為0.510 3,準(zhǔn)確率為87.44%。
4 結(jié)語
本文以乳腺癌為例,研究了利用深度神經(jīng)網(wǎng)絡(luò)方法實現(xiàn)癌細(xì)胞圖像識別系統(tǒng),采用加深現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的卷積層和全連層方法,使其具有更深、更復(fù)雜的結(jié)構(gòu),加快網(wǎng)絡(luò)訓(xùn)練速度。系統(tǒng)對乳腺癌癌細(xì)胞圖像識別分類效果良好,識別準(zhǔn)確率最高可達96.75%,改善了現(xiàn)有神經(jīng)網(wǎng)絡(luò)分類識別率不高的問題。后續(xù)將繼續(xù)學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)模型,研究影響模型性能的因素,如染色對于圖片的影響、預(yù)處理方法、分類器改進等,滿足更高臨床要求。
參考文獻:
[1]Y L, Y B, G H. Deep learning [J]. Nature, 2015, 521(7):353-436.
[2]M Y,WANG Y. Research on image classification model based on deep convolution neural network [J]. Springer,2019(1):1186-1191.
[3]AHIALE AKOGO,DARLINGTON,PALMER XAVIER LEWIS. End- to-end learning via a convolutional neural network for cancer cell line classification[J].? ResearchGate,2018(3):889-902.