賈曉冬,汲珊珊,劉 蕊,楚玉蘭
(1.天津醫(yī)科大學研究生院 300070;2.天津醫(yī)科大學人民醫(yī)院臨床學院 300121;3.天津金域醫(yī)學檢驗實驗室有限公司 300392)
運用流式細胞術(shù)檢測淋巴細胞亞群(LS)觀察機體細胞免疫水平,了解在不同疾病狀態(tài)下患者的細胞免疫功能狀態(tài),對惡性腫瘤、自身免疫性疾病、免疫缺陷病、血液系統(tǒng)疾病的診治、預后判斷均具有重要意義[1-5],已在臨床得到廣泛應用。但傳統(tǒng)流式細胞術(shù)人工分析主要依靠分析者手動圈門和熒光表達強度的判讀,檢測靈敏度和準確性取決于分析者經(jīng)驗[6-7]。近年來,隨著人工智能(AI)技術(shù)在醫(yī)療領域的探索與發(fā)展,AI輔助多參數(shù)流式細胞術(shù)(MFC)可通過聚類、降維、自動分群等分析方法自動判斷并進行統(tǒng)計分析,實現(xiàn)對待測細胞群的分類和快速判定,提高了檢測的靈敏度和準確性[8]。本研究應用人外周血LS流式檢測數(shù)據(jù)建立了AI模型,并評價了AI輔助MFC檢測LS免疫表型與人工分析結(jié)果的一致性,現(xiàn)報道如下。
選取2020年6-7月天津金域醫(yī)學檢驗實驗室收集的1 263例患者外周血樣本作為研究對象,其中男588例,女675例;年齡0~81歲,中位年齡55歲。
1.2.1實驗步驟
采用美國BD公司FACS canto型流式細胞儀,檢測用單克隆抗體購自同生時代公司,溶血素購自美國BD公司。按文獻[9]步驟操作進行樣本制備,熒光素標記單克隆抗體組合:CD3-FITC/CD16+CD56-PE/CD45-PerCP-cy5.5/CD4-PC-7/CD19-APC/CD8-APC-cy7。
1.2.2數(shù)據(jù)分析
待測樣本混勻后檢測并獲取,使用Kaluza Analysis軟件分析數(shù)據(jù),傳統(tǒng)人工分析應用Kaluza Analysis軟件進行分析并結(jié)合抗原表達情況分析淋巴細胞各亞群百分比。AI分析應用AI模型分析,計算淋巴細胞各亞群百分比,并生成可視化結(jié)果。檢測前校準流式細胞儀并調(diào)整電壓、補償?shù)葏?shù),淋巴細胞總數(shù)小于5 000個的FCS數(shù)據(jù)不納入本研究。
1.2.3實驗流程
AI輔助MFC檢測LS免疫表型的流程圖見圖1。
圖1 AI輔助MFC檢測LS免疫表型流程
1.2.4AI模型建立
1.2.4.1無效細胞清除
(1)去除粘連體:根據(jù)非粘連體的線性分布特點建立線性回歸模型:y=ax+b,得到線性分布主軸的位置參數(shù)a、b,以此參數(shù)為基準并參照人工分析特點去除粘連體。(2)去除死細胞和細胞碎片:根據(jù)細胞碎片前向散射(FSC)、側(cè)向散射(SSC)極小,同時CD45陰性的特征去除細胞碎片。采用核密度估計模型計算FSC、SSC、CD45核密度概率密度函數(shù)。見公式1。
(公式1)
其中,f為核密度概率密度函數(shù),fi1,fi2…fin為n個流式細胞的指定熒光標記的熒光強度值;h為帶寬,默認設為10;K為核函數(shù),采用高斯核函數(shù)(公式2)
(公式2)
得到細胞在FSC、SSC以及CD45上的密度分布曲線,并參照人工分析經(jīng)驗尋找極值來確定碎片在FSC、SSC以及CD45上的分布界限,從而去除細胞碎片。
1.2.4.2AI模型數(shù)據(jù)處理
采用高斯混合模型(GMM)為基礎的聚類分析[10]對數(shù)據(jù)進行高斯分布擬合。見公式3。
(公式3)
帶入特定變量x,求得在該分布下對應的概率N。其中μ代表總體均值,σ代表該分布的標準差,σ越大分群數(shù)越少;反之,σ越小分群數(shù)越多。不符合高斯分布的數(shù)據(jù)采用改進的歐氏距離進行分析。見公式4。
(公式4)
其中d(x,y)代表目的細胞坐標位置(x,y)與固定點的距離。按最小距離原則將所有細胞點歸入與其距離最小的細胞群內(nèi),從而將有效細胞分為若干個細胞群。
1.2.4.3抗體強度內(nèi)對照模型
根據(jù)LS特征將粒細胞作為淋巴細胞特異性抗體的陰性內(nèi)對照,通過粒細胞平均熒光強度確認淋巴細胞各亞群的陰性表達范圍。
1.2.4.4淋巴細胞模型
根據(jù)淋巴細胞整體在SSC/CD45上的分布特征,以GMM聚類結(jié)果為基礎,初步篩選淋巴細胞。參照粒細胞陰性內(nèi)對照,綜合人工分析的診斷標準,利用核密度分析方法對淋巴細胞熒光表達強度分布進行分析并分群[11]。
1.2.5AI分析數(shù)據(jù)
經(jīng)標本制作獲取FCS數(shù)據(jù),將FCS數(shù)據(jù)輸入AI模型并解析成與原始數(shù)據(jù)相匹配且AI模型可讀數(shù)據(jù)。AI模型采用多維度聚類算法(pheno-graph、KNN、K-means等)將細胞分為多個集群,再利用自動分類器在多維空間中對細胞集群進行初步分類和定義。建立抗體強度內(nèi)對照模型,參照粒細胞陰性內(nèi)對照,綜合人工分析的診斷標準,利用核密度分析方法對淋巴細胞熒光表達強度分布進行分析,確定淋巴細胞各亞群類型并輸出各類細胞群百分比。
1.2.6AI分析重復性試驗
用AI 模型對1 263份樣本進行3次日間重復性分析,比較各細胞群的細胞數(shù)和熒光強度差值的變異系數(shù)(CV)。
1.2.7AI分析與人工分析檢測速度比較
比較AI模型分析單個樣本并生成的可視化結(jié)果的平均時間與傳統(tǒng)人工分析方法的平均時間。
1.2.8AI模型性能評估
以人工分析結(jié)果為參照,對LS免疫表型FCS數(shù)據(jù)進行AI分析,AI模型分析與人工分析診斷結(jié)果按下述標準判定是否一致,并計算檢測通過比例。判斷標準:絕對誤差允許±3%的允差、細胞占父類比例大于5%、相對誤差小于15%為合格;細胞占父類比例小于或等于5%、相對誤差小于40%為合格。符合上述標準即判定為一致,否則判定為不一致。由高年資醫(yī)師對結(jié)果不一致者進行人工復核,綜合判斷結(jié)果差異的原因。
1.2.9AI分析與人工分析一致性比較
計算1 263例樣本兩種分析方法各項淋巴細胞計數(shù)百分比平均差值,采用SPSS17統(tǒng)計軟件通過配對t檢驗對LS細胞百分比進行統(tǒng)計學分析,并計算P值,以評價兩種方法結(jié)果的一致性,以P<0.05為差異有統(tǒng)計學意義。計算兩種方法質(zhì)控平均值,以判定兩種分析方法差異性的原因。運用MedCalc19.2.1統(tǒng)計軟件對兩種方法進行比對,通過Bland-Altman圖分析95%置信區(qū)間(95%CI)。計算AI分析方法質(zhì)控的重復系數(shù)(CR)評價該方法的可重復性。
AI分析可快速檢測出外周血中LS的數(shù)量和百分比,可通過降維自動輸出二維圖,清晰展現(xiàn)多維空間細胞群分布及抗原表達水平。見圖2。
a:NK細胞;b:TCRγδ+T淋巴細胞;c:輔助性T淋巴細胞;d:細胞毒性T淋巴細胞;e:B淋巴細胞。
細胞分群類別、各群細胞的細胞數(shù)、百分比及每群細胞表達抗原的平均熒光強度均相同,各項差值的CV均為0。
AI分析單個樣本平均時間為(1.36±0.25)s,而人工分析單個樣本的平均時間約為60 s,分析疑難病例需7~8 min。AI分析較人工分析速度提高50倍以上。
1 263例樣本中1 199例結(jié)果與人工結(jié)果一致,檢測通過比例為94.93%。64例樣本的80個差異項與人工分析結(jié)果有差異。差異項病例數(shù)分別為:CD3+5例、CD3+CD4+9例、CD3+CD8+23例、CD3-CD19+11例、CD3-CD16+CD56+32例。
兩種方法CD3+、CD3+CD8+、CD3+CD4+/CD3+CD8比值、CD3-CD19+4項平均差值比較,差異均有統(tǒng)計學意義(P<0.05)。經(jīng)高年資醫(yī)師復核,AI分析也會因異常T淋巴細胞的存在導致結(jié)果分析的差異。其余CD3+CD4+和CD3-CD16+/CD56+2項平均差值比較,差異均無統(tǒng)計學意義(P>0.05),兩項指標檢測具有良好的一致性,可相互替代。見表1。人工分析質(zhì)控的平均值為1.414,AI分析質(zhì)控的平均值為0.384,提示AI分析比人工分析質(zhì)量控制(QC)更趨向于0。AI分析方法質(zhì)控的CR為2.833 1%,95%CI:2.726 8~2.948 1%,均小于臨床可接受的臨界值范圍±5%,表明AI分析方法可重復性好。
表1 淋巴細胞各亞群細胞百分比比較
本研究初步建立了AI輔助MFC檢測人外周血LS含量及百分比的診斷方法,基于多維空間聚類細胞群進行分析,可快速檢測人外周血中LS百分比并降維后生成可視化結(jié)果。AI分析效率較人工分析提升約50倍以上,極大地減少了臨床診斷工作量、壓縮了檢測周轉(zhuǎn)時間,初步滿足了臨床診斷的需求,并可將多維分析結(jié)果以二維散點圖形式輸出,提高了可視化效果,并對異常群示警允許人工訂正,避免了偶然因素引起的錯、誤診。日間重復性試驗結(jié)果顯示,CV為0,AI分析不受人員疲勞程度、精神狀態(tài)、人為失誤等主觀因素的影響。
研究發(fā)現(xiàn),當總LS占比之和結(jié)果超過5%~10%時考慮樣本中可能包含大量異常T淋巴細胞亞群,如TCRγδ+T淋巴細胞、雙陰性CD4-CD8-或雙陽性CD4+CD8+T淋巴細胞。如外周血樣本中存在γδT淋巴細胞時為滿足“(CD4++CD8+)%=(CD3+±5)%”的檢測標準[12],而AI分析會出現(xiàn)圈門不準確。在人工分析CD3/CD4細胞分群時由于單核細胞與淋巴細胞在二維散點圖上界限不清,人工分析將部分單核細胞納入淋巴細胞計數(shù)范圍內(nèi),導致人工分析較AI分析數(shù)據(jù)百分比降低,而AI會多方位空間劃分,將CD3-CD4+細胞群剔除整體淋巴細胞群。見圖3。對大部分單一LS分析表現(xiàn)出較好的分析速度和準確率,但對個別復雜病例仍沒有達到與人工分析完全相同的診斷效果,仍需高年資醫(yī)師結(jié)合臨床其他檢測指標進行綜合診斷,AI分析模型的建立是基于醫(yī)師的分析方法而建立的,在機器學習算法方面雖然可通過數(shù)據(jù)進行訓練,但仍受制于單一檢測手段分析結(jié)果而缺乏思維靈活性,進而無法完全替代高年資醫(yī)師檢測結(jié)果。但該AI模型仍可作為一種臨床決策支持系統(tǒng)和輔助診斷工具用于臨床,可為低年資醫(yī)師樹立信心。
A:CD45圈出LS;B:人工分析的CD3+CD4+二維散點圖,人工分析圈出的淋巴細胞中可能含有部分單核細胞(粉色);C:AI分析的CD8+CD4+二維散點圖。
AI借助強大的數(shù)據(jù)分析能力和計算能力用于醫(yī)學各領域,尤其是多維圖像解讀及大數(shù)據(jù)分析[13-14]。研究者在疾病診斷領域挖掘AI輔助分析更快、更準、更便捷的方法,以滿足臨床疾病診斷的需要[15]。但AI輔助MFC分析方法的相關研究較少見,不同領域和疾病診斷類型對算法的要求不盡相同,且大多研究均基于小樣本量的探索性研究[16-17],在臨床實際應用中尚存在不足[18]。有研究對比了7 784例淋巴細胞淋巴瘤患者和8 493例健康對照者的FCS數(shù)據(jù),利用神經(jīng)網(wǎng)絡算法和10倍交叉驗證建立了AI診斷模型,診斷準確率高達97%[19]。KO等[20]分析了1 742例 急性髓系白血病(AML)患者和5 333例 骨髓增生異常綜合征(MDS)患者的FCS數(shù)據(jù),通過對機器學習算法訓練,使AML和MDS患者診斷率提高至84.9%~92.4%,診斷準確率達84.6%~89.7%,平均數(shù)據(jù)處理時間為7 s,極大地提高了檢測效率。周麗娜等[17]以多維空間密度分布的非監(jiān)督學習分群聚類算法為基礎,應用決策樹和隨機森林等監(jiān)督學習算法辨別細胞分類,并以二維圖、降維t-分布領域嵌入算法和熱圖進行可視化呈現(xiàn),提高了AI輔助診斷微小殘留病的靈敏度和準確度。本研究基于聚類算法和核密度估計方法在AI輔助流式細胞術(shù)檢測LS方面進行了初步探索及應用研究,AI模型使用的機器學習算法與其他算法比較,其優(yōu)勢:(1)計算伸縮性。該算法使用多個高斯分布的組合刻畫數(shù)據(jù)分布,計算伸縮性好。(2)參數(shù)依賴性??烧{(diào)整參數(shù)為數(shù)據(jù)分布的均值和標準差。(3)普適性能力。描述能力和泛化能力均優(yōu)于其他算法。(4)抗噪聲能力。優(yōu)于K均值聚類算法。(5)結(jié)果解釋性。模型和結(jié)果均具有解釋性。該算法能更好地捕捉流式細胞數(shù)據(jù)的分布特點進行細胞聚類和分群。
盡管近年來AI技術(shù)在醫(yī)學領域取得了一定的成功,AI機器學習方法在診療過程中的局限性和解決方案也被廣泛地討論[21-23]。但探索過程中仍面臨AI輔助診斷不流暢、檢驗結(jié)果重復性不夠、檢測機構(gòu)間水平差異等諸多問題,從而阻礙了AI模型的推廣應用。同時AI算法導致的醫(yī)療責任歸屬及其“黑匣子”“可解釋性”等諸多問題也使AI輔助診斷在臨床應用中受限而破壞了其應用價值。因此,仍需在臨床更多領域、更多算法進行驗證,并建立基于AI模型的診療指南和行業(yè)標準,以確保檢測流程標準化和結(jié)果的準確性和靈敏度。本研究通過1 263例患者淋巴細胞百分比數(shù)據(jù)進行分析建立了AI輔助診斷模型,未來希望能應用LS絕對計數(shù)的AI分析輔助臨床提供更可靠、快速的結(jié)果,并有更多的機會對算法進行優(yōu)化與訓練,使診斷更精確,希望通過機器學習算法的優(yōu)化和人工分析思路的高度融合不斷提升AI模型識別復雜細胞群的能力。未來隨著人類對AI的認知逐漸加深,AI模型識別流式細胞數(shù)據(jù)能力將會隨著不斷深入的研究和探索成為醫(yī)師的左膀右臂,大幅提升診斷效率。