雷 偉,李智偉,芮東升,張 眉,郭玉娟,擺文麗,王 奎
急性髓系白血病(acute myeloid leukemia,AML)是成人最常見的白血病類型之一,在各類急性白血病中,AML患者生存率最低[1]。流式細胞術(shù)(flow cytometry,FCM)被廣泛的應(yīng)用于AML的診斷、免疫分型和微小殘留病監(jiān)測等方面[2]。在FCM應(yīng)用過程中會產(chǎn)生高維數(shù)據(jù),傳統(tǒng)數(shù)據(jù)分析方法通常由分析者根據(jù)經(jīng)驗在可視化軟件中進行設(shè)門操作,得到細胞亞群信息后結(jié)合相應(yīng)標(biāo)準(zhǔn)診斷AML[3]。這種依靠人工設(shè)門的數(shù)據(jù)分析方法存在主觀性強、效率低、分析維度局限等問題,已經(jīng)成為FCM應(yīng)用中的瓶頸[4],因此,提出FCM數(shù)據(jù)的自動分析方法輔助臨床診斷AML具有實用價值。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)常用于醫(yī)學(xué)圖像的分類問題,可以代替醫(yī)師進行重復(fù)的視覺工作,成為了某些疾病自動化診斷的最好方法[5]。該研究旨在提出一種基于圖像矩陣原理的FCM數(shù)據(jù)結(jié)構(gòu),并建立CNN模型,實現(xiàn)對AML的自動識別,證明CNN應(yīng)用在FCM數(shù)據(jù)分析中的可行性。
1.1 資料來源本研究使用兩組數(shù)據(jù):數(shù)據(jù)1來源于FlowRepository數(shù)據(jù)庫[6],編號為FR-FCM-ZZYA,包括359例骨髓FCM數(shù)據(jù),其中正常人316例,AML患者43例。數(shù)據(jù)2來源于2016-2017年新疆維吾爾自治區(qū)人民醫(yī)院臨床檢測中心存檔數(shù)據(jù),納入的病例組為臨床上按照MIC分型標(biāo)準(zhǔn)[7]確診的AML初診患者,對照組為非白血病貧血患者或健康志愿者,排除白血病以外所有患有與免疫系統(tǒng)相關(guān)疾病或其他重大疾病的參與者。數(shù)據(jù)為骨髓FCM數(shù)據(jù),由專家分析后給予診斷結(jié)果,其中正常人50例,AML患者22例。兩組數(shù)據(jù)中,每個數(shù)據(jù)均為8管,數(shù)據(jù)格式為FCS,并且在專家分析階段完成了粘黏細胞、死細胞等非有效數(shù)據(jù)的清除。本項目已獲得石河子大學(xué)醫(yī)學(xué)院倫理委員會批準(zhǔn)(批準(zhǔn)號:2018-015-01),參與者已簽署知情同意書。
1.2 數(shù)據(jù)讀取采用R中Bioconducter-flowcore工具包讀取FCS文件和補償矩陣,對各抗體熒光強度進行補償。分別對側(cè)向散射光(side scatter,SSC)和各抗原表達水平進行對數(shù)和雙指數(shù)轉(zhuǎn)化提高數(shù)據(jù)對稱性[8]。提取SSC及各管中與AML初診相關(guān)的抗原表達水平[9],包括CD45、CD34、CD117、HLA-DR、CD13和CD33,將各變量以CSV格式存儲。
1.3 歸一化為了更好實現(xiàn)歸一化,定義數(shù)據(jù)中各變量處于極端為異常值,設(shè)定異常值細胞占各管總細胞的0.1%,將異常值去除。對納入的變量進行離差標(biāo)準(zhǔn)化,處理后變量會被映射到[0,1]之間(公式1)。
(公式1)
式中,vmin和vmax分別表示一組變量的最小值和最大值;x和x*分別表示處理前后的變量值。
1.4 數(shù)據(jù)重構(gòu)在AML流式診斷中,對SSC和CD45的設(shè)門通常作為一種初始策略,為區(qū)分主要的造血細胞提供一個起點,再結(jié)合其他標(biāo)志物進一步分析。基于以上原則,本研究提出一種數(shù)據(jù)結(jié)構(gòu)(圖1A),以圖像數(shù)據(jù)結(jié)構(gòu)作為參照,定義SSC和CD45作為圖像矩陣像素的定位點,將數(shù)據(jù)中SSC和CD45的值分別乘以矩陣寬度(w)和高度(h)后取整,以SSC和CD45為坐標(biāo)可將二維空間劃分為w×h個區(qū)域,對其余5個抗原表達分別構(gòu)建圖像矩陣的顏色通道。本研究中矩陣的尺寸為32×32×5(對應(yīng)深度學(xué)習(xí)經(jīng)典圖像數(shù)據(jù)集Cifar-10數(shù)據(jù)尺寸:32×32×3)。該數(shù)據(jù)結(jié)構(gòu)的特點是在不改變原模型架構(gòu)的情況下能夠直接作為圖像CNN的輸入,因而可以兼容目前多數(shù)CNN模型。
圖1 CNN自動分析FCM數(shù)據(jù)流程圖A:數(shù)據(jù)結(jié)構(gòu)示意圖;B:FCM數(shù)據(jù)寫入過程;C:LeNet-5架構(gòu)
1.5 數(shù)據(jù)集建立將數(shù)據(jù)1中AML組和正常組按照6 ∶2 ∶2劃分數(shù)據(jù)集,包括訓(xùn)練集215例(AML 25例,正常人190例),驗證集72例(AML 9例,正常人63例),測試集72例(AML 9例,正常人63例),數(shù)據(jù)劃分按照FlowRepository數(shù)據(jù)庫中給定的順序進行。數(shù)據(jù)2中的72例數(shù)據(jù)全部作為測試集(AML 22例,正常人50例)。在訓(xùn)練集上,從同一個人的各管數(shù)據(jù)中隨機抽取細胞,各抗原表達水平按照SSC/CD45為定位寫入矩陣的對應(yīng)通道內(nèi)(圖1B),當(dāng)矩陣中對應(yīng)位置已被寫入,則此次細胞抽取無效,進行下一次抽取,直至矩陣中的全部位置被寫入,抽取將停止,該矩陣作為一個訓(xùn)練樣本。重復(fù)上述過程,可以持續(xù)產(chǎn)生訓(xùn)練樣本,以滿足CNN對大樣本的需求。為盡可能保證訓(xùn)練集中正負樣本均衡,對25例AML和190例正常人數(shù)據(jù)分別進行190輪和25輪抽取,最終得到25×190+190×25=9 500 個訓(xùn)練樣本。為增強CNN模型的泛化能力,防止過擬合,對所有訓(xùn)練樣本進行數(shù)據(jù)增強,隨機進行各方向上20%的平移和縮放。在驗證集和測試集上,從同一個人各管數(shù)據(jù)依次選擇全部細胞,將抗原表達信息按照SSC/CD45為定位寫入矩陣的對應(yīng)通道內(nèi),對矩陣中相同位置的抗原表達水平取均值,該矩陣作為一個驗證或測試樣本。
1.6 模型的構(gòu)建本研究中CNN模型選擇LeNet-5架構(gòu),該架構(gòu)是現(xiàn)代CNN的起源架構(gòu)之一,具有代表性(圖1C)。為保證客觀性,除調(diào)整模型的輸入和輸出尺寸外,不改變模型其他參數(shù)。訓(xùn)練時,用訓(xùn)練集和驗證集分別進行模型的訓(xùn)練和調(diào)參,損失函數(shù)選擇交叉熵函數(shù)(公式2)。
(公式2)
式中,N代表樣本總數(shù);yi表示樣本i的標(biāo)簽,正類為1,負類為0;pi表示樣本i預(yù)測為正類的概率。
采用隨機梯度下降法(stochastic gradient descent,SGD)作為優(yōu)化器在訓(xùn)練中更新參數(shù),訓(xùn)練完畢后模型以h5格式存儲。測試時,將測試集輸入模型,信號在模型中向前傳播后通過sigmoid函數(shù)(公式3)計算得到二分類概率值,模型定義0.5為截斷值以區(qū)分AML和正常人。
(公式3)
式中,x為分類器前網(wǎng)絡(luò)的輸出,S(x)取值范圍在[0,1]之間,當(dāng)x=0時,S(x)=0.5。
對模型在測試集上的性能進行評價,評價指標(biāo)包括準(zhǔn)確率、靈敏度(查全率)、特異度、查準(zhǔn)率和F1分數(shù)(公式4)。
(公式4)
式中,P表示查準(zhǔn)率,R表示查全率,F1分數(shù)取值范圍在[0,1]之間,是用來綜合評價二分類模型精確度的指標(biāo)。
1.7 統(tǒng)計學(xué)處理采用R 4.0.2 軟件中Bioconducter-flowcore工具包實現(xiàn)FCS數(shù)據(jù)的信息提取。采用Python 3.7.1軟件中sklearn、numpy工具包實現(xiàn)數(shù)據(jù)集的建立,模型框架的搭建及訓(xùn)練和測試的全過程均使用keras工具包實現(xiàn),文中與模型相關(guān)但未說明的參數(shù)均為keras中的默認參數(shù)。采用matplotlib工具包繪制受試者工作曲線(receiver operator characteristic curve,ROC),計算曲線下面積(area under curve,AUC)評價模型的優(yōu)劣。
2.1 FCM數(shù)據(jù)各抗原表達水平單因素分析對FCM數(shù)據(jù)各抗原表達水平進行單因素分析,見表1。在數(shù)據(jù)1中,正常人和AML患者在CD33、HLA-DR、CD117、CD34抗原表達水平差異有統(tǒng)計學(xué)意義;在數(shù)據(jù)2中,正常人與AML患者在CD45、HLA-DR、CD117、CD34抗原表達水平差異有統(tǒng)計學(xué)意義。
表1 各抗原表達水平與AML患者的關(guān)系
2.2 CNN模型訓(xùn)練過程設(shè)置初始學(xué)習(xí)率為0.005,訓(xùn)練輪次為30,在CNN模型的訓(xùn)練過程中(圖2),訓(xùn)練集上損失函數(shù)不斷下降并趨于平緩,表明模型能夠從訓(xùn)練集上學(xué)習(xí)到特征。以驗證集損失函數(shù)作為模型泛化性能評價指標(biāo),為避免模型出現(xiàn)過擬合,在驗證集損失函數(shù)達到最低點時終止訓(xùn)練,訓(xùn)練時驗證集損失函數(shù)在第18輪訓(xùn)練時達到最低點,將訓(xùn)練完成后的模型保存。
圖2 CNN訓(xùn)練中損失函數(shù)變化圖
2.3 CNN模型性能評估運用多個指標(biāo)評價模型在測試集上的性能(表2),在數(shù)據(jù)1、數(shù)據(jù)2和合并后數(shù)據(jù)的AUC分別為0.940(0.922~0.958)、0.917(0.885~0.949)和0.932(0.916~0.948),見圖3。
表2 CNN在測試集上的性能
圖3 CNN模型在測試集上的ROC曲線
AML的精確診斷是其治療和預(yù)后判斷的關(guān)鍵,目前MICM分型依據(jù)是國際上通用的診斷方法,即細胞形態(tài)學(xué)、免疫學(xué)、細胞遺傳學(xué)和分子生物學(xué)分型,其中免疫學(xué)分型是由FCM來實現(xiàn)的。隨著對疾病的認識逐漸加深,越來越多的生物標(biāo)志物被應(yīng)用于AML的流式診斷中,給數(shù)據(jù)分析工作帶來更大挑戰(zhàn),探究FCM數(shù)據(jù)自動分析成為近年來的研究熱點[10-12]。Cheung et al[13]對現(xiàn)有的自動分析方法進行了使用調(diào)查后指出,雖然一些方法已經(jīng)被證明有不錯的效果,但仍然存在問題。例如許多軟件通常只針對特定來源的數(shù)據(jù)進行自動分析,軟件的跨平臺使用問題依然難以解決,并且目前還沒有針對白血病診斷的軟件出現(xiàn),已提出多數(shù)自動分析方法以無監(jiān)督的機器學(xué)習(xí)為主,得到的結(jié)果需要人工進行二次分析,難以實現(xiàn)完全的自動化。因此尚沒有任何一種自動分析方法能夠被普遍接受,在實際臨床工作中仍以人工分析為主。
傳統(tǒng)的數(shù)據(jù)分析方法已經(jīng)證明了將FCM數(shù)據(jù)轉(zhuǎn)化為圖像是一種切實可行的策略,其局限性產(chǎn)生原因是人類視覺的限制,而CNN模型已經(jīng)成為代替人類視覺進行圖像分析的最好方法,被廣泛的應(yīng)用于醫(yī)學(xué)圖像分類和識別方面,并證明在很多問題上與專業(yè)醫(yī)師相當(dāng)[14-15]。本研究針對AML提出了一種FCM數(shù)據(jù)結(jié)構(gòu),該結(jié)構(gòu)參考了圖像數(shù)據(jù)的存儲方式,以常作為骨髓細胞類型判斷依據(jù)的SSC和CD45作為像素的定位點,將其余與AML初步診斷相關(guān)抗原的表達水平寫入圖像數(shù)據(jù)的顏色通道。這種結(jié)構(gòu)的優(yōu)點是顯而易見的,首先,該結(jié)構(gòu)能夠?qū)CM多管數(shù)據(jù)整合在同一矩陣中,可以通過調(diào)整矩陣的尺寸改變分辨率和納入抗原的數(shù)量,有利于形成統(tǒng)一的標(biāo)準(zhǔn);其次,該結(jié)構(gòu)可以體現(xiàn)各抗原表達水平間的交互關(guān)系,有助于發(fā)現(xiàn)人工設(shè)門中可能遺漏的信息;另外,該結(jié)構(gòu)可以在不改變模型參數(shù)的情況下兼容多數(shù)CNN架構(gòu),便于后續(xù)的自動化研究。本研究中選擇了兩組不同來源的數(shù)據(jù),用公開數(shù)據(jù)進行建模后直接對本地數(shù)據(jù)進行測試,在本地數(shù)據(jù)上的測試結(jié)果與公開數(shù)據(jù)相似,均具有較高準(zhǔn)確率,證明模型不僅能夠準(zhǔn)確識別AML,還具有很強的魯棒性,可以解決軟件跨平臺使用的問題,相較于其他算法更具有臨床應(yīng)用價值。
同時,本研究還存在一些局限性。由于本研究中使用的數(shù)據(jù)僅提供了AML患者和正常人的標(biāo)簽,缺乏更詳細的疾病信息,因此僅探討了CNN模型在AML初步診斷中的應(yīng)用,對于免疫分型和微小殘留病等問題并未提及。本研究僅納入7個參數(shù),且數(shù)據(jù)為二分類,因此選擇了結(jié)構(gòu)相對簡單的LeNet-5架構(gòu),如果后續(xù)需要納入更多變量或解決更加復(fù)雜的多分類問題,也可以選擇深度更大的CNN模型。在本研究中對訓(xùn)練集采用了細胞隨機抽樣和數(shù)據(jù)增強,雖然一定程度上能彌補小樣本對模型的不良影響,但是無法從根本上解決數(shù)據(jù)缺乏導(dǎo)致的模型訓(xùn)練中有效特征遺漏問題,如需進一步提高模型性能,擴大數(shù)據(jù)量是必須的途徑。為了保證結(jié)果的客觀性,本研究沒有深入探討模型參數(shù)的選擇,而是盡可能的選擇工具包默認參數(shù),可能導(dǎo)致得到的模型并不是最優(yōu)的,可在將來實用過程中進一步完善。
綜上所述,本研究提出了一種FCM數(shù)據(jù)結(jié)構(gòu),并用CNN模型實現(xiàn)了AML的自動識別,表明CNN在FCM數(shù)據(jù)分析中具有一定的應(yīng)用價值。