唐李文, 曹依琳, 汪雅莉, 平斯羽, 胡文靜, 趙 林
(湖南理工學(xué)院 信息科學(xué)與工程學(xué)院, 湖南 岳陽 414006;湖南理工學(xué)院 機器視覺及人工智能研究中心, 湖南 岳陽 414006)
癌癥是全世界第二大死亡原因, 其發(fā)病率每年都在提高, 其中前列腺癌是男性群體發(fā)病率增長最快的癌癥.有數(shù)據(jù)表明, 2018年歐洲男性發(fā)病率最高的癌癥部位為前列腺, 發(fā)病率為21.8%, 并且其死亡率為10%[1].雖然我國男性前列腺癌發(fā)病率低于歐洲國家, 但是近年來具有明顯上升的趨勢.同時前列腺癌會對患者造成阻礙排尿、損害器官等傷害.由此可見, 前列腺癌是嚴(yán)重危害男性健康的一種疾病.在前列腺癌的早期, 由于腫瘤局限, 大多數(shù)前列腺病人無明顯癥狀.目前只有前列腺特異抗原法、直腸指診法、經(jīng)直腸超聲法、前列腺穿刺活檢法等檢測方法[2], 但是以上方法存在準(zhǔn)確性較低、耗時費力、需要特殊標(biāo)記等問題.因此, 臨床醫(yī)學(xué)上迫切需要一種準(zhǔn)確高效的前列腺疾病早期診斷新方法.
近年來, 光散射技術(shù)已逐漸成為生物分析和醫(yī)學(xué)診斷的有效方法之一.由于細(xì)胞當(dāng)中的各細(xì)胞器對光的折射率不同, 所以光透過細(xì)胞時會發(fā)生散射, 散射光隱含了細(xì)胞的空間結(jié)構(gòu)信息.當(dāng)細(xì)胞發(fā)生病變時,其內(nèi)部細(xì)胞結(jié)構(gòu)也會發(fā)生變化, 因此病變細(xì)胞與正常細(xì)胞的光散射圖像也會有所差異[3].宛棟[4]等將非偏振激光射入人宮頸癌細(xì)胞后獲取光散射分布信息, 對其分析得知, 不同時期細(xì)胞核中的DNA 含量導(dǎo)致細(xì)胞的光散射特性不同.該研究為光散射技術(shù)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用提供了重要的理論基礎(chǔ).喬向彬[5]等在手術(shù)前采用超聲光散射成像技術(shù)獲得乳腺癌細(xì)胞光散射成像參數(shù), 并整理了術(shù)后確診的乳腺癌患者信息,采用回顧性分析法對其進(jìn)行分析, 證明了使用光散射成像技術(shù)是一種評估乳腺癌病情的有效方法.葉坤濤[6]等建立了不同形態(tài)紅細(xì)胞的光學(xué)模型, 通過T 矩陣散射理論分析了異常形態(tài)紅細(xì)胞的散射特性.該方法對紅細(xì)胞的無損檢測和病況分析具有一定指導(dǎo)意義.
上述方法表明生物醫(yī)學(xué)領(lǐng)域中已廣泛采用光散射圖像, 但在使用過程中仍需要人工分析特征.卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)中極具代表性的方法之一, 由于其強大的特征提取能力, 已經(jīng)在圖像分析和處理領(lǐng)域取得了廣泛應(yīng)用[7,8].李希[9]等提出一種基于生成對抗網(wǎng)絡(luò)的浮選加藥過程建模方法, 通過提取泡沫圖像深層特征模擬生成加藥后的泡沫, 并與實際工業(yè)加藥泡沫變化情況對比, 證明了該方法可以準(zhǔn)確還原實際加藥過程中的泡沫變化情況, 對礦物浮選自動加藥具有指導(dǎo)意義.易嘉聞[10]等通過采用注意力機制對不同光譜波段進(jìn)行加權(quán), 并在PaviaU 和Salinas 數(shù)據(jù)集進(jìn)行了分類實驗, 較其他深度學(xué)習(xí)加權(quán)方法具有更佳的分類性能.楊勃[11]等提出了一種基于生成模型的圖像風(fēng)格遷移系統(tǒng), 該方法通過VGG19 網(wǎng)絡(luò)對圖像進(jìn)行特征提取并遷移, 可以精確、高效地完成風(fēng)格遷移.但以上方法都是基于圖片數(shù)量較多的數(shù)據(jù)集進(jìn)行試驗, 沒有考慮實際問題中少樣本數(shù)據(jù)集的情況.
本研究首先采用正交偏振衍射成像流式細(xì)胞儀系統(tǒng), 使用線性偏振激光束照射細(xì)胞并發(fā)生散射, 最后經(jīng)相機收集得到細(xì)胞的偏振衍射圖像.根據(jù)光散射理論, 由于散射光的光強分布與細(xì)胞結(jié)構(gòu)的折射率高度相關(guān), 所以衍射圖像隱含了豐富的細(xì)胞空間結(jié)構(gòu)信息.但由于實驗中前列腺細(xì)胞數(shù)據(jù)不易獲取, 獲得的衍射圖像數(shù)量較少, 因此, 本文提出一種基于遷移學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的前列腺細(xì)胞識別方法, 先在其他數(shù)據(jù)量豐富的癌細(xì)胞衍射圖像上訓(xùn)練擬合程度良好的網(wǎng)絡(luò)模型, 然后在前列腺細(xì)胞衍射圖像基礎(chǔ)上進(jìn)行微調(diào), 實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)對少樣本前列腺細(xì)胞數(shù)據(jù)的準(zhǔn)確分類.
實驗中采用的細(xì)胞是由采自于人體的脾臟組織培養(yǎng)而來, PC3 為前列腺癌細(xì)胞, PCS 為正常前列腺細(xì)胞.由于PC3 和PCS都來源于前列腺組織的上皮細(xì)胞, 為了維持其活性, 將其放置于添加了10%胎牛血清的RPMI-1640 培養(yǎng)液中進(jìn)行培養(yǎng).在活力良好的細(xì)胞生長對數(shù)期使用胰蛋白酶-EDTA 溶液分離貼壁細(xì)胞,形成用來衍射成像的細(xì)胞懸浮樣品.
實驗中所使用的細(xì)胞衍射成像流式細(xì)胞儀實驗系統(tǒng)如圖1 所示.成像過程中首先使用電機將細(xì)胞懸浮樣品作為核心流體推入流體室, 并使其勻速流動.再使用532 nm 波長的線性偏振激光束作為入射光,通過聚焦鏡將激光束聚焦到流體室中的細(xì)胞上.由于細(xì)胞內(nèi)各細(xì)胞器及細(xì)胞質(zhì)的折射率不同, 激光透過細(xì)胞時會發(fā)生散射, 散射光由顯微物鏡收集并經(jīng)分光鏡分為光方向互相垂直的兩束散射光.最后這兩束散射光分別在兩個CCD 相機上成像, 并將兩幅圖像和一張同等大小像素全0 的圖片分別作為單通道的圖片進(jìn)行疊加, 構(gòu)成一張RGB 細(xì)胞衍射圖像.
圖1 細(xì)胞衍射成像系統(tǒng)
監(jiān)督學(xué)習(xí)往往需要大量的已標(biāo)注數(shù)據(jù), 但數(shù)據(jù)標(biāo)注需要花費大量的人力與時間.為了解決少數(shù)據(jù)量、少標(biāo)注的問題, 遷移學(xué)習(xí)[12]作為機器學(xué)習(xí)的一個新分支應(yīng)景而生, 并在計算機視覺、文本分類、行為識別等方面起到了重要的作用.遷移學(xué)習(xí)的主要思想就是利用數(shù)據(jù)、任務(wù)、模型等之間的相似性, 將在舊領(lǐng)域?qū)W習(xí)過的知識應(yīng)用于新領(lǐng)域.遷移學(xué)習(xí)主要有基于樣本、基于特征、基于模型和基于關(guān)系四種學(xué)習(xí)方法.
卷積神經(jīng)網(wǎng)絡(luò)主要使用基于模型的遷移, 利用源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)中可以共享模型的參數(shù)來訓(xùn)練網(wǎng)絡(luò)參數(shù).在分類任務(wù)上的具體過程為: 首先在具有一定相似性且圖片數(shù)量充足的數(shù)據(jù)集上訓(xùn)練好一個神經(jīng)網(wǎng)絡(luò)模型, 其次根據(jù)任務(wù)的不同修改網(wǎng)絡(luò)模型結(jié)構(gòu), 最后凍結(jié)淺層網(wǎng)絡(luò)模型參數(shù), 在圖片數(shù)量少的數(shù)據(jù)集上使用更低的學(xué)習(xí)率等參數(shù)重新訓(xùn)練來達(dá)到理想的實驗結(jié)果, 主要流程如圖2 所示.
圖2 遷移學(xué)習(xí)流程
與標(biāo)準(zhǔn)的RGB 數(shù)據(jù)集相比, 細(xì)胞偏振衍射圖像是通過相干散射光光強分布反應(yīng)細(xì)胞的空間結(jié)構(gòu), 圖像的信息不如RGB 圖像復(fù)雜, 所以本文使用較淺的網(wǎng)絡(luò)結(jié)構(gòu).目前, DINet[13]已在細(xì)胞偏振衍射圖像分類上取得了較好的成果.為了充分利用各層網(wǎng)絡(luò)提取到的特征, 本文采用了殘差塊[14]來替換DINet 的中間兩個卷積層, 記為細(xì)胞殘差卷積神經(jīng)網(wǎng)絡(luò)(Cell Residual Convolutional Neural Networks, CR-CNN).為了避免網(wǎng)絡(luò)過擬合以及加速網(wǎng)絡(luò)收斂, 實驗中在第一層卷積和殘差塊中的卷積后面添加了批規(guī)范化層, 并在全連接層后添加了Dropout 操作.本文所使用的CR-CNN 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示.
圖3 CR-CNN 的網(wǎng)絡(luò)結(jié)構(gòu)
CR-CNN 網(wǎng)絡(luò)中主要使用到了均值池化層、最大值池化層、卷積層、全連接層等網(wǎng)絡(luò)結(jié)構(gòu), 其結(jié)構(gòu)參數(shù)設(shè)置見表1.
表1 網(wǎng)絡(luò)層參數(shù)
實驗中, 通過構(gòu)建經(jīng)全連接層輸出的分類概率與輸入圖像的真實標(biāo)簽之間的交叉熵函數(shù)作為網(wǎng)絡(luò)的目標(biāo)函數(shù):
其中pk(X)是輸入細(xì)胞衍射圖像X后經(jīng)網(wǎng)絡(luò)得到的分成k類的概率分布; 當(dāng)X的標(biāo)簽Y為k時,yk的值為1, 否則為0.網(wǎng)絡(luò)預(yù)測的概率分布與真實分布越相似時, 交叉熵函數(shù)值越小, 所以在網(wǎng)絡(luò)訓(xùn)練過程中以最小化其值為目標(biāo)更新網(wǎng)絡(luò)模型參數(shù).
實驗中, 采用準(zhǔn)確率(Accuracy)作為評價指標(biāo)來評估網(wǎng)絡(luò)的分類性能.準(zhǔn)確率是分類任務(wù)中最常見的指標(biāo), 指的是預(yù)測正確的樣本占樣本總數(shù)的比例, 用來評價全局的預(yù)測分類效果, 其計算公式為
其中T為所有分類正確的圖片數(shù),F為所有分類錯誤的圖片數(shù).
本實驗采用五類細(xì)胞株偏振衍射圖像數(shù)據(jù)集, 分別為前列腺癌細(xì)胞(PC3)、正常前列腺上皮細(xì)胞(PCS)、人體淋巴癌的T細(xì)胞(Jurkat)、人體淋巴癌的B細(xì)胞(Ramos)和乳腺癌組織的上皮細(xì)胞(MCF-7), 總共有4450張細(xì)胞衍射圖像.其中Jurkat、Ramos 和MCF-7 三類細(xì)胞圖片較多, 共有3935 張圖片, 將其作為源域數(shù)據(jù)集.而前列腺細(xì)胞圖片較少, 只有515 張圖片, 使用遷移三類細(xì)胞分類的網(wǎng)絡(luò)參數(shù)來進(jìn)行學(xué)習(xí).為了減小實驗結(jié)果的偶然性, 在實驗中采用五折交叉驗證法, 將細(xì)胞圖片平均分成五份數(shù)據(jù)集.在五折交叉驗證實驗中保證每份數(shù)據(jù)都被當(dāng)作過測試集來計算網(wǎng)絡(luò)的分類效果, 以保證實驗結(jié)果的可靠性.數(shù)據(jù)集分組情況見表2.
表2 衍射圖像分組
本實驗采用的設(shè)備為Intel(R) Core(TM) i9-10900X CPU @ 3.70GHz, 操作系統(tǒng)為Windows 10, 操作環(huán)境為Python 3.7.6.基于CR-CNN 網(wǎng)絡(luò)的細(xì)胞衍射圖像分類實驗中, 模型訓(xùn)練迭代次數(shù)為60, 學(xué)習(xí)率初始化為0.01, 且隨著訓(xùn)練次數(shù)的增加而減小, 在模型訓(xùn)練迭代至20 和40 次時學(xué)習(xí)率減小為當(dāng)前值的10%.優(yōu)化器選擇SGD, 動量設(shè)置為0.9, 權(quán)重衰減為 5 × 1 0-4.
實驗中首先使用CR-CNN 對三類細(xì)胞數(shù)據(jù)集進(jìn)行訓(xùn)練和測試, 五折交叉驗證法所得的分類準(zhǔn)確率見表3.
由表3 可以看出, CR-CNN 對三類細(xì)胞衍射圖像具有較強的學(xué)習(xí)能力, 可以有效地提取衍射圖像的特征信息, 平均分類準(zhǔn)確率達(dá)到99.80%.所以本實驗保存了CR-CNN 在三類細(xì)胞數(shù)據(jù)上訓(xùn)練完成的模型參數(shù)作為源域模型以供對前列腺細(xì)胞數(shù)據(jù)遷移學(xué)習(xí)使用.本文進(jìn)行了微調(diào)源域模型中不同網(wǎng)絡(luò)層參數(shù)的四組實驗, 分類準(zhǔn)確率見表4.
表3 三類細(xì)胞分類準(zhǔn)確率
由表4 可知, 使用四種方案得到了不同的分類效果, 其中微調(diào)FC + Conv2 + ResidualBlock2 網(wǎng)絡(luò)層的參數(shù)在前列腺細(xì)胞數(shù)據(jù)上分類的準(zhǔn)確率達(dá)到96.190%, 比不使用遷移學(xué)習(xí)高出近8 個百分點,為最佳方案.為了驗證網(wǎng)絡(luò)模型的收斂情況, 實驗中在每輪迭代訓(xùn)練結(jié)束時將損失值記錄下來并繪制成折線圖, 如圖4 所示.
表4 遷移學(xué)習(xí)前列腺分類準(zhǔn)確率
由圖4 可看出, 隨著迭代次數(shù)的增加, 在0~40代期間, 損失值快速下降, 并在第40 代之后趨于穩(wěn)定, 這表示網(wǎng)絡(luò)已經(jīng)處于收斂狀態(tài), 整個網(wǎng)絡(luò)訓(xùn)練過程約18 min.綜上可知, 本文提出的基于遷移學(xué)習(xí)的CR-CNN 前列腺細(xì)胞分類方法具有效率高、分類準(zhǔn)確的優(yōu)點.
圖4 損失值變化
本文同時將基于遷移學(xué)習(xí)的CR-CNN 分類結(jié)果與ResNet18、ResNet50、Alexnet、DINet 進(jìn)行對比, 不同模型的分類準(zhǔn)確率對比結(jié)果見表5.
由表5 可知, 基于遷移學(xué)習(xí)的CR-CNN 對少樣本量的前列腺細(xì)胞數(shù)據(jù)集具有良好的學(xué)習(xí)能力, 分類準(zhǔn)確率明顯高于其他方法.在前列腺篩查的臨床診斷上, 可以更有效地識別出前列腺癌, 減少誤診情況的發(fā)生, 在醫(yī)學(xué)領(lǐng)域具有較好的應(yīng)用價值.
表5 不同方法分類準(zhǔn)確率對比
本文針對傳統(tǒng)前列腺細(xì)胞識別方法存在的需要熒光標(biāo)記、染色處理且效率低、需手動操作等問題, 采用正交偏振衍射成像流式細(xì)胞儀系統(tǒng)獲得前列腺細(xì)胞衍射圖像, 并提出一種基于遷移學(xué)習(xí)的細(xì)胞殘差卷積神經(jīng)網(wǎng)絡(luò), 對少樣本的前列腺細(xì)胞衍射圖像進(jìn)行特征學(xué)習(xí), 在只有515 張圖片的情況下進(jìn)行了分類實驗.實驗結(jié)果表明, 該方法可以有效地解決深度學(xué)習(xí)中數(shù)據(jù)量少的問題, 實現(xiàn)了對前列腺細(xì)胞的準(zhǔn)確識別, 分類準(zhǔn)確率達(dá)到了96.190%, 是一種高效準(zhǔn)確的免標(biāo)記前列腺細(xì)胞分類方法, 對生物醫(yī)學(xué)和臨床前列腺癌診斷具有重要意義.