鄧竹琴,俞永偉
1.中國人民解放軍聯勤保障部隊第901醫(yī)院婦產科,安徽合肥230031;2.安徽省合肥市長榮醫(yī)院普外科,安徽合肥230001
乳腺癌是臨床上常見的癌癥,具有發(fā)病率高、死亡率高和治愈率低等特點。據不完全數據表明,全世界乳腺癌的發(fā)病率在穩(wěn)步上升,其中美國女性乳腺癌的發(fā)病率更是高達12.5%[1-2]。雖然我國乳腺癌的發(fā)病率較低,但最近幾年我國女性患乳腺癌的數量在逐年上升,成為近年來發(fā)病率最高的惡性腫瘤之一[3]。臨床中醫(yī)生根據彩超、X 線、核磁共振等對患者進行診斷,但病理圖像具有更豐富的形態(tài)信息,是醫(yī)生確診的重要方式。目前病理醫(yī)生進行病理圖像分類時主要依靠圖像中細胞形狀和分布進行分類。但診斷結果容易受病理醫(yī)生經驗和學識的影響。近年來,深度學習的興起,使其在醫(yī)學圖像處理方面大放異彩[4-5]。在乳腺癌組織病理圖像分類中深度學習分類方法與傳統(tǒng)分類方法相比準確率提高了6%[6]。雖然識別準確率提高了6%,但識別精度依然不足。針對精度不足的情況,本文通過對Visual Geometry Group-16(VGG-16)卷積神經網絡的模型進行改進,提出基于VGG-16 卷積神經網絡的改進模型(VGG-Improve 卷積神經網絡模型)。該方法可以解決VGG-16網絡過深,參數過多,收斂速度慢,訓練困難等問題。另一方面采用數據增強的方法提高了模型的泛化能力和魯棒性。
VGG-Improve 卷積神經網絡模型由7 個卷積 層和2個全連接層組成;用ReLU函數作為激活函數,在加強網絡非線性映射能力的同時,也可以提高網絡收斂速度[7-8];使用正則化函數,通過對損失函數增加懲罰項,降低過擬合的風險[9];用均值池化層,減少圖像細節(jié)丟失,避免了最大池化丟失局部細節(jié)。
本文使用VGG-Improve 卷積神經網絡模型對乳腺癌病理圖片進行訓練,并與同類型文獻提出的卷積神經網絡進行對比。VGG-Improve 卷積神經網絡模型的結構圖如圖1 所示[10-11]。第1 層為圖像輸入,輸入的尺寸為224×224;第2 層為64×3×3 的卷積核,第3 層為64×3×3 的卷積核;第4 層為均值池化層,池化域為2×2;第5~7 層與第2~4 層相同;第8~10 層由3個64×3×3 的卷積核組成;第11 層為均值池化層,池化域為2×2,每一個卷積核都使用正則化;第12~13層為兩個全連接層,連接參數分別為512和256,每個全連接層后面都進行正則化。最后一層使用Softmax分類器,其中卷積層和全連接層均使用ReLU 激活函數,卷積層的步長為1×1,池化層步長為2×2,全連接層的步長為2×2。
圖1 改進型卷積神經網絡模型Fig.1 Improved convolutional neural network model
訓練神經網絡的過程中,由于數據集不足,模型選取不當等原因,容易造成過擬合。使用正則化能有效防止過擬合,使訓練好的模型在訓練集和測試集上都有很好的準確率。常見的正則化分為L1正則化和L2 正則化。L1 正則化是將權值向量W中各個元素的絕對值求和。L1正則化可以改變權值矩陣W的稀疏性,將W中部分元素變?yōu)榱?。通過改變W的稀疏性減少了計算量,在一定程度上可以減少模型過擬合的概率。L2正則化是將權值向量W中各個元素進行平方和再求平方根。使得模型的解偏向于范數較小的W,通過限制W范數的大小實現了對模型空間的限制,從而在一定程度上避免了過擬合。但L2 正則化不具備稀疏化的特性,計算量并沒有得到改觀,但相較于L1 正則化L2 正則化對過擬合的抑制效果更加明顯。本文采用L2正則化防止出現過擬合情況。L1 正則化和L2 正則化公式定義如式(1)和式(2)所示:
其中,loss 為原始的損失損失值,C為懲罰系數,w為權重參數,lossnew為新生成的損失值。
由于本研究臨床數據集數據較少,無法提供大量帶有標記的樣本,容易在訓練中造成過擬合現象。針對上述問題,本文對原有的樣本進行數據增強,數據增強的方式如下:(1)旋轉,將圖像在0~60°范圍內隨機旋轉。(2)圖像縮放,將圖像按照一定比例進行放大或縮小。(3)平移,將圖像向x 或y 方向移動。(4)增加噪聲,通過加入噪聲數據抵消高頻特征,抑制過擬合發(fā)生。經過數據增強后,不但增加了訓練樣本,還會增加模型的魯棒性。另外本文還對圖像進行歸一化處理,處理后的數據能防止出現“梯度彌散”現象[12-13]。通過數據增強,使樣本擴大為原來的2倍。
選取某醫(yī)院腫瘤科采集的臨床乳腺腫瘤細胞數據集作為研究對象,其中女性病例占83%,男性病例占17%,女性年齡為22~74 歲,平均年齡為45 歲,其中惡性乳腺腫瘤數據為2 170 張,良性乳腺腫瘤數據為1 211 張,乳腺腫瘤細胞圖像見圖2。乳腺腫瘤細胞數據集的分布情況如表1 所示。數據增強后數據集擴充為原來的二倍,增強后數據集分布情況如表2所示。本文訓練和驗證過程所使用的硬件平臺配置為i5-9600k/32G RAM/2T SSD/GPU GeForce RTX 2070 Ti,操作系統(tǒng)為Windows 10(64bit)。本實驗選取keras為實驗框架。
圖2 乳腺腫瘤細胞Fig.2 Breast tumor cells(a,b are benign tumors,c,d are malignant tumor cells)
表1 增強前乳腺腫瘤細胞數據集分布Tab.1 Breast tumor cell dataset before enhancement
訓練模型時采用Adam 優(yōu)化器,訓練批次為32,學習率初始值為4×10-4,學習率根據迭代次數動態(tài)調整。動態(tài)調整學習率公式如下:
其中,Lr為學習率,epoch為迭代次數,Lrnew為新生成學習率。
為了分析實驗數據,本文使用召回率(Recall)和準確率(Acc)對實驗數據進行評價。計算定義如下:
其中,TP表示將良性腫瘤數據分類到良性類別,TN表示將惡性腫瘤分類到惡性類別,TP和TN均表示分類準確;FP表示將惡性腫瘤數據分類到良性類別,FN表示將良性腫瘤數據分類到惡性類別,FP和FN表示分類錯誤。召回率表示樣本中正例被正確預測的比例;準確率表示判定正確的數據在總體數據中的比例。通過上述兩個指標可以反映模型的分類能力,數值越大,分類能力越強。VGG-Improve模型評價結果表3所示。
表2 增強后乳腺腫瘤細胞數據集分布Tab.2 Breast tumor cell dataset after enhancement
表3 同類文獻網絡的評價結果(%)Tab.3 Evaluation results of similar literature networks(%)
本文比較了模型改進前后對腫瘤數據集分類結果的準確率和損失值。其中VGG-Improve 卷積神經網絡模型在測試集上的準確率高于VGG-16 卷積神經網絡模型,損失值小于VGG-16 卷積神經網絡模型。可以看出VGG-Improve 相比于VGG-16 在乳腺癌識別中有更好的表現。表4 中為模型改進前后訓練及測試時各項參數對比。由表4 可知改進后模型測試集上的錯誤率和損失值均低于改進前模型??梢钥闯龈倪M后模型解決了過擬合情況,并且正確率達到96.4%,相較于為改進前擁有更低的錯誤率。
表4 VGG-16改進前后各項參數對比(性能最佳的Epoch)Tab.4 Comparison of various parameters before and after VGG-16 improvement(Best Epoch)
文獻[13]中卷積神經網絡模型由7個卷積層和2個全連接層組成,其中第二、三層卷積層采用兩個卷積并聯的方式。這種做法能夠增加網絡模型寬度,實現多尺度的圖像特征提取,使用該模型可以有效地對宮頸癌細胞進行分類。文獻[14]中卷積神經網絡由4 個卷積層,4 個池化層和2 個全連接層并聯組成,其中池化層選用最大池化。
通過表5 可以看出在相同的乳腺腫瘤細胞測試集下,本文提出的方法相較于文獻[13]和文獻[14]的模型都有很大的提升,正確率明顯提升。經上述對比可以看出,本文提出的VGG-Improve 卷積神經網絡模型相較于同類文獻提出的模型在相同數據集的情況下擁有更好的準確率。通過表3 和圖3 可以看出VGG-Improve 卷積神經網絡模型準確率和召回率都高于其他兩種方法。證明了VGG-Improve 卷積神經網絡模型具有良好的泛化性。
表5 本文與同類相關文獻準確率對比Tab.5 Comparison of the accuracy between related literatures and the paper
圖3 測試集準確率與迭代次數的關系Fig.3 Relationship between test set accuracy and number of iterations
國外在癌癥分類方面,Jiang 等[16]提出一種基于卷積神經網絡的新型識別系統(tǒng),該系統(tǒng)可以對圖像進行預處理并對神經祖細胞(NPC)和非NPC 進行分類。Pansombut 等[17]使用多種機器學習算法對淋巴細胞進行分類,通過對比得出CNN 能更好的對淋巴細胞進行分類。李正義[18]通過對細胞邊緣紋路、曲率、大小等特征的提取,使用一種改進的隨機森林分類器對宮頸癌細胞進行識別。在信息化時代的背景下各種機器學習算法愈發(fā)重要,人工智能算法在醫(yī)學診斷中已經廣泛應用。本文提出的模型可以輔助醫(yī)生對乳腺腫瘤進行良惡性分析。未來訓練樣本量足夠時,可以代替醫(yī)生進行腫瘤細胞良惡性識別。通過人工智能算法代替人工進行醫(yī)學診斷可以大大縮短醫(yī)生診斷時間,提高就醫(yī)效率[19-20]?,F階段人工神經網絡是圖像分類中重要的分支,使用人工神經網絡搭建針對特定疾病的自動化醫(yī)學診斷系統(tǒng)是未來發(fā)展的趨勢。由于本文使用的數據集為乳腺腫瘤細胞,目前在乳腺腫瘤識別中有很好的效果,但尚未對其他類型腫瘤細胞進行辨別,后續(xù)將考慮建立其他類型腫瘤細胞良惡性辨識模型。