張金杰,梁玉芳,王清濤,2,王哲,馮祥,韓澤文,宋彪,4,高志琪,周睿,2(.首都醫(yī)科大學(xué)附屬北京朝陽醫(yī)院檢驗科,北京00020;2.北京市臨床檢驗中心,北京00020;.內(nèi)蒙古衛(wèi)數(shù)數(shù)據(jù)科技有限公司,呼和浩特00000;4.內(nèi)蒙古財經(jīng)大學(xué),呼和浩特0005)
實驗室分析前誤差會引起臨床決策錯誤,進而引發(fā)醫(yī)療事故。常見分析前誤差有患者識別錯誤、樣本識別錯誤、采血管錯誤、標(biāo)本污染、標(biāo)本不完整、標(biāo)本中存在干擾物質(zhì)等,其中,因各種因素所致標(biāo)本混淆屬嚴(yán)重的分析前差錯。1974年,首次提出差值校驗(delta check,DC),通過計算同一個患者2次結(jié)果之間的差值(delta),判斷標(biāo)本是否發(fā)生混淆[1]。文獻報道傳統(tǒng)的DC方法主要包括經(jīng)驗法[2]、參考變化值法(reference change value,RCV)[3]、加權(quán)累計delta指數(shù)(weighted cumulative delta index,WCDI)[4],其目的是準(zhǔn)確設(shè)置控制限。美國臨床和實驗室標(biāo)準(zhǔn)協(xié)會(Clinical and Laboratory Standards Institute, CLSI)EP33詳細(xì)描述了使用RCV方法確定DC限的步驟[5]。目前傳統(tǒng)基于統(tǒng)計學(xué)的DC方法由于方法本身的局限性,無法根本解決臨床混淆標(biāo)本假陽性或假陰性過高的問題。支持向量機(support vector machine,SVM)是機器學(xué)習(xí)的經(jīng)典算法,應(yīng)用于復(fù)雜數(shù)據(jù)關(guān)系下的回歸和分類問題[6]。如果可以把樣本的正配和錯配看作SVM的二分類問題,將同一患者2次檢測數(shù)據(jù)的delta值判斷為正樣本,不同患者數(shù)據(jù)的delta值判斷為負(fù)樣本,便可以實現(xiàn)樣本數(shù)據(jù)的核查目標(biāo)。本研究嘗試?yán)没颊邭v史對比數(shù)據(jù),基于機器SVM算法建立一種識別臨床混淆樣本的高敏方法,并通過與RCV方法比較,驗證該方法的臨床有效性。
1.1數(shù)據(jù)收集 采集北京朝陽醫(yī)院實驗室信息系統(tǒng)(LIS)的血液學(xué)分析儀Sysmex XN-9000信息,提取2018年45萬患者血常規(guī)報告結(jié)果,將前10個月的患者結(jié)果用于訓(xùn)練數(shù)據(jù),后2個月的用于測試數(shù)據(jù)。數(shù)據(jù)按以下規(guī)則進行清洗:剔除同一患者前后2次結(jié)果為不同患者標(biāo)識號的樣本;剔除研究時段內(nèi)結(jié)果少于2次的患者樣本;同一患者的多次測試結(jié)果只保留前2次數(shù)據(jù);剔除存在離群值或異常值的患者結(jié)果;將DC取值范圍限定在1個月內(nèi);剔除經(jīng)清洗處理后樣本測試數(shù)不足2次的患者樣本。
1.2數(shù)據(jù)處理 計算22個常規(guī)項目的delta絕對值,計算方式為:
△x絕對=|x1-x2|
其中,x1和x2表示某項目的前后2次數(shù)值。為盡可能涵蓋臨床中不同程度的錯配場景,讓樣本的分布種類多樣化,采取國際上認(rèn)可的方式[2]進行數(shù)據(jù)模擬。規(guī)定匹配樣本集為同一個患者的2次數(shù)據(jù)配對計算delta值;對于錯配的樣本集,讓每一個患者的第一次數(shù)據(jù)與其他人的第二次數(shù)據(jù)隨機配對計算delta值。最終的樣本量為:匹配樣本123 365對,標(biāo)記“0”標(biāo)簽;不匹配樣本123 365對,標(biāo)記“1”標(biāo)簽,以此將混淆樣本的檢測轉(zhuǎn)換為機器學(xué)習(xí)的二分類問題。分別從2組樣本集中各抽取20%合并為49 346對樣本作為測試集,在不同方法上進行驗證。
1.3基于SVM模型的構(gòu)建 數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)化的歸一處理后,樣本數(shù)量按8∶2隨機劃分為訓(xùn)練集和測試集。給定超參數(shù),確定最優(yōu)分界面[7],構(gòu)建SVM模型,用GridSearchCV函數(shù)代碼工具對SVM涉及的核函數(shù)kernel、C、核函數(shù)系數(shù)g超參數(shù)[8-9]進行調(diào)優(yōu),通過測試樣本驗證模型。
1.4利用RCV值作為DC界限方法[3]
1.4.1項目選取 按CLSI EP33[5]標(biāo)準(zhǔn)推薦的方法,結(jié)合文獻報道,分析前樣本相關(guān)錯誤識別選擇根據(jù)個體指數(shù)(index of individuality)=CVi/CVg計算。選擇部分臨床檢測項目作為研究對象開展實驗,見表1。
表1 各項目指標(biāo)特征
1.5評估指標(biāo) 通過以下指標(biāo)對模型性能進行評估:統(tǒng)計真陽性(true positive,TP)、真陰性(true negative,TN)、假陽性(false positive,FP)、假陰性(false negative,FN)4個數(shù)量。再計算真陽性率(true positive rate,TPR)=TP/(TP+FN)×100%;真陰性率(true negative rate,TNR)=TN/(TN+FP)×100%;假陽性率(false positive rate,F(xiàn)PR)=FP/(FP+TN)×100%;假陰性率(false negative rate,F(xiàn)NR)=FN/(FN+TP)×100%;準(zhǔn)確率(accuracy rate,ACC)=(TP+TN)/(TP+TN+FP+FN)×100%;ROC曲線以及ROC曲線下的面積(AUC)。見圖1。
圖1 實驗流程
1.6統(tǒng)計學(xué)分析 使用python3.7實現(xiàn),采用統(tǒng)計的基本函數(shù)庫工具有numpy、pandas等,機器學(xué)習(xí)通過sklearn框架,從而減少搭建模型所用的代碼行數(shù),簡化算法實現(xiàn)過程。模型訓(xùn)練硬件環(huán)境Windows 7、64位操作系統(tǒng)的臺式計算機,軟件運行環(huán)境Pycharm;RCV算法使用python語言編程,軟件環(huán)境Anaconda3。
2.1SVM模型的訓(xùn)練及調(diào)優(yōu) 設(shè)置C的尋優(yōu)范圍是2-2、2-1、1、2、22,gamma參數(shù)的尋優(yōu)范圍是2-3~22。圖2A為2個參數(shù)的部分組合下模型的評估結(jié)果,通過評估每組排列組合的ACC值與AUC值,選取最佳參數(shù)組合。通過觀察整體評估值,本文最終確定最佳參數(shù)為:kernel=′rbf′,C=1,gamma=0.25。依次判定,該參數(shù)下的模型性能最佳。
注:A,通過GridSearchCV法對SVM的C和gamma的尋優(yōu)過程;B,構(gòu)建的SVM模型的測試ROC曲線;C,SVM算法原理圖。
2.2SVM模型評價 機器學(xué)習(xí)算法使用22個項目作為數(shù)據(jù)維度,在49 346對測試樣本下,陽性樣本量和陰性樣本量均為24 673,測試后的TR、TN、FP、FN值分別為22 847、22 674、1 999、1 826;TPR為92.60%,TNR為91.90%,F(xiàn)PR為8.12%,F(xiàn)NR為7.48%,ACC為92.21%。ROC曲線如圖2B所示,其中AUC為0.96;SVM算法原理見圖2C。
2.3利用RCV值作為DC界限方法的實驗結(jié)果 在該過程中,分別進行了4次實驗,第1次對全部樣本進行實驗,準(zhǔn)確率為79.62%;第2次通過剔除2次都在參考范圍內(nèi)的,準(zhǔn)確率為81.51%,與第1次結(jié)果比較,準(zhǔn)確率提高了2.37%;第3次和第4次并沒有達到理想結(jié)果。4次實驗準(zhǔn)確度最高的項目均為紅細(xì)胞平均血紅蛋白量。
樣本混淆直接影響患者安全,其識別準(zhǔn)度與患者樣本數(shù)據(jù)分布和發(fā)生概率有關(guān),特別是要在大量樣本流中識別出不規(guī)律、散發(fā)的樣本混淆錯誤,這對方法的精準(zhǔn)度要求非常高。有文獻提出,采用項目組合方式替代原有的單一項目方式的識別方法,以此增加維度,提高識別精準(zhǔn)度[4],例如采用血常規(guī)項目組合、常規(guī)生化檢測項目組合等,但仍限于統(tǒng)計學(xué)方法。本研究選擇了血常規(guī)項目,采用機器學(xué)習(xí)SVM算法,嘗試建立一種超敏、高精的識別混淆樣本新方法,準(zhǔn)確率可達92.21%,相比傳統(tǒng)DC法81.51%,本文建立的模型識別準(zhǔn)確度提升了10.7%。主要原因是該模型將血常規(guī)22項作為一個機器學(xué)習(xí)樣本,機器學(xué)習(xí)方法可借助不同檢測項目間的未知關(guān)聯(lián)性,改進識別的準(zhǔn)確度。另外,有別于用RCV值作為DC界限方法,即:通過控制限區(qū)分正類和負(fù)類樣本,機器學(xué)習(xí)方法是針對數(shù)據(jù)空間分布的相似程度計算所屬樣本類別的概率,如果某delta樣本在“異?!鳖悇e下計算出較高的概率,則判定為可能是負(fù)類樣本,反之,判定為正類樣本,該方法較少受到人群個體內(nèi)變異與個體間變異影響。通常情況下,正類樣本被誤判為負(fù)類樣本稱為假陽,負(fù)類樣本誤判為正類樣本稱為假陰。出現(xiàn)假陽性時,會額外增加臨床實驗室的工作量,影響報告的時效性;而出現(xiàn)假陰性時,可能會因為未能識別出混淆樣本導(dǎo)致臨床決策錯誤。我們模型的假陽率為8.12%,假陰率7.48%,而參比利用RCV值作為DC界限方法的假陽性率為23.42%,假陰性率為41.03%。實驗結(jié)果證實,不僅降低了方法的假陽性率和假陰性率,同時由于機器學(xué)習(xí)方法準(zhǔn)確度顯著高于用RCV值作為DC界限方法,所以出現(xiàn)的極低概率假陰性結(jié)果,很可能發(fā)生在不同患者相同或極其相近的測量值情況,故不會影響臨床診療決策。通過和利用RCV值作為DC界限方法模型比較,SVM分類算法具有較高的分類性能,準(zhǔn)確率更高。
綜上所述,通過對血常規(guī)結(jié)果信息進一步挖掘,建立的機器學(xué)習(xí)混淆樣本識別模型,顯著改善了方法的準(zhǔn)確度。隨著實驗室自動化、信息化發(fā)展,報告自動審核模式應(yīng)用越來越多,實施有效的檢驗全過程質(zhì)量控制十分重要,而目前分析前階段質(zhì)量控制主要采用質(zhì)量指標(biāo)進行監(jiān)控,基于機器學(xué)習(xí)的混淆樣本識別模型構(gòu)建為分析前質(zhì)控提供了新思路。
致謝:感謝內(nèi)蒙古衛(wèi)數(shù)數(shù)據(jù)科技有限公司陳超,在本研究中負(fù)責(zé)人員組織、協(xié)調(diào),提供必要的硬件保障。