亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機器學(xué)習(xí)和差值校驗的識別混淆樣本方法的建立及評價*

2021-02-13 12:36:06張金杰梁玉芳王清濤王哲馮祥韓澤文宋彪高志琪周睿首都醫(yī)科大學(xué)附屬北京朝陽醫(yī)院檢驗科北京00020北京市臨床檢驗中心北京00020內(nèi)蒙古衛(wèi)數(shù)數(shù)據(jù)科技有限公司呼和浩特00000內(nèi)蒙古財經(jīng)大學(xué)呼和浩特0005

臨床檢驗雜志 2021年12期

關(guān)鍵詞：方法模型

張金杰，梁玉芳，王清濤，2，王哲，馮祥，韓澤文，宋彪，4，高志琪，周睿，2(.首都醫(yī)科大學(xué)附屬北京朝陽醫(yī)院檢驗科，北京00020；2.北京市臨床檢驗中心，北京00020；.內(nèi)蒙古衛(wèi)數(shù)數(shù)據(jù)科技有限公司，呼和浩特00000；4.內(nèi)蒙古財經(jīng)大學(xué)，呼和浩特0005)

實驗室分析前誤差會引起臨床決策錯誤，進而引發(fā)醫(yī)療事故。常見分析前誤差有患者識別錯誤、樣本識別錯誤、采血管錯誤、標(biāo)本污染、標(biāo)本不完整、標(biāo)本中存在干擾物質(zhì)等，其中，因各種因素所致標(biāo)本混淆屬嚴(yán)重的分析前差錯。1974年，首次提出差值校驗(delta check，DC)，通過計算同一個患者2次結(jié)果之間的差值(delta)，判斷標(biāo)本是否發(fā)生混淆[1]。文獻報道傳統(tǒng)的DC方法主要包括經(jīng)驗法[2]、參考變化值法(reference change value，RCV)[3]、加權(quán)累計delta指數(shù)(weighted cumulative delta index，WCDI)[4]，其目的是準(zhǔn)確設(shè)置控制限。美國臨床和實驗室標(biāo)準(zhǔn)協(xié)會(Clinical and Laboratory Standards Institute, CLSI)EP33詳細(xì)描述了使用RCV方法確定DC限的步驟[5]。目前傳統(tǒng)基于統(tǒng)計學(xué)的DC方法由于方法本身的局限性，無法根本解決臨床混淆標(biāo)本假陽性或假陰性過高的問題。支持向量機(support vector machine，SVM)是機器學(xué)習(xí)的經(jīng)典算法，應(yīng)用于復(fù)雜數(shù)據(jù)關(guān)系下的回歸和分類問題[6]。如果可以把樣本的正配和錯配看作SVM的二分類問題，將同一患者2次檢測數(shù)據(jù)的delta值判斷為正樣本，不同患者數(shù)據(jù)的delta值判斷為負(fù)樣本，便可以實現(xiàn)樣本數(shù)據(jù)的核查目標(biāo)。本研究嘗試?yán)没颊邭v史對比數(shù)據(jù)，基于機器SVM算法建立一種識別臨床混淆樣本的高敏方法，并通過與RCV方法比較，驗證該方法的臨床有效性。

1 資料和方法

1.1數(shù)據(jù)收集采集北京朝陽醫(yī)院實驗室信息系統(tǒng)(LIS)的血液學(xué)分析儀Sysmex XN-9000信息，提取2018年45萬患者血常規(guī)報告結(jié)果，將前10個月的患者結(jié)果用于訓(xùn)練數(shù)據(jù)，后2個月的用于測試數(shù)據(jù)。數(shù)據(jù)按以下規(guī)則進行清洗：剔除同一患者前后2次結(jié)果為不同患者標(biāo)識號的樣本；剔除研究時段內(nèi)結(jié)果少于2次的患者樣本；同一患者的多次測試結(jié)果只保留前2次數(shù)據(jù)；剔除存在離群值或異常值的患者結(jié)果；將DC取值范圍限定在1個月內(nèi)；剔除經(jīng)清洗處理后樣本測試數(shù)不足2次的患者樣本。

1.2數(shù)據(jù)處理計算22個常規(guī)項目的delta絕對值，計算方式為：

△x絕對=|x1-x2|

其中，x1和x2表示某項目的前后2次數(shù)值。為盡可能涵蓋臨床中不同程度的錯配場景，讓樣本的分布種類多樣化，采取國際上認(rèn)可的方式[2]進行數(shù)據(jù)模擬。規(guī)定匹配樣本集為同一個患者的2次數(shù)據(jù)配對計算delta值；對于錯配的樣本集，讓每一個患者的第一次數(shù)據(jù)與其他人的第二次數(shù)據(jù)隨機配對計算delta值。最終的樣本量為：匹配樣本123 365對，標(biāo)記“0”標(biāo)簽；不匹配樣本123 365對，標(biāo)記“1”標(biāo)簽，以此將混淆樣本的檢測轉(zhuǎn)換為機器學(xué)習(xí)的二分類問題。分別從2組樣本集中各抽取20%合并為49 346對樣本作為測試集，在不同方法上進行驗證。

1.3基于SVM模型的構(gòu)建數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)化的歸一處理后，樣本數(shù)量按8∶2隨機劃分為訓(xùn)練集和測試集。給定超參數(shù)，確定最優(yōu)分界面[7]，構(gòu)建SVM模型，用GridSearchCV函數(shù)代碼工具對SVM涉及的核函數(shù)kernel、C、核函數(shù)系數(shù)g超參數(shù)[8-9]進行調(diào)優(yōu)，通過測試樣本驗證模型。

1.4利用RCV值作為DC界限方法[3]

1.4.1項目選取按CLSI EP33[5]標(biāo)準(zhǔn)推薦的方法，結(jié)合文獻報道,分析前樣本相關(guān)錯誤識別選擇根據(jù)個體指數(shù)(index of individuality)=CVi/CVg計算。選擇部分臨床檢測項目作為研究對象開展實驗，見表1。

表1 各項目指標(biāo)特征

1.5評估指標(biāo) 通過以下指標(biāo)對模型性能進行評估:統(tǒng)計真陽性(true positive，TP)、真陰性(true negative,TN)、假陽性(false positive,FP)、假陰性(false negative,FN)4個數(shù)量。再計算真陽性率(true positive rate，TPR)=TP/(TP+FN)×100%；真陰性率(true negative rate，TNR)=TN/(TN+FP)×100%；假陽性率(false positive rate，F(xiàn)PR)=FP/(FP+TN)×100%；假陰性率(false negative rate，F(xiàn)NR)=FN/(FN+TP)×100%；準(zhǔn)確率(accuracy rate，ACC)=(TP+TN)/(TP+TN+FP+FN)×100%；ROC曲線以及ROC曲線下的面積(AUC)。見圖1。

圖1 實驗流程

1.6統(tǒng)計學(xué)分析使用python3.7實現(xiàn)，采用統(tǒng)計的基本函數(shù)庫工具有numpy、pandas等，機器學(xué)習(xí)通過sklearn框架，從而減少搭建模型所用的代碼行數(shù)，簡化算法實現(xiàn)過程。模型訓(xùn)練硬件環(huán)境Windows 7、64位操作系統(tǒng)的臺式計算機，軟件運行環(huán)境Pycharm；RCV算法使用python語言編程，軟件環(huán)境Anaconda3。

2 結(jié)果

2.1SVM模型的訓(xùn)練及調(diào)優(yōu) 設(shè)置C的尋優(yōu)范圍是2-2、2-1、1、2、22，gamma參數(shù)的尋優(yōu)范圍是2-3～22。圖2A為2個參數(shù)的部分組合下模型的評估結(jié)果，通過評估每組排列組合的ACC值與AUC值，選取最佳參數(shù)組合。通過觀察整體評估值，本文最終確定最佳參數(shù)為：kernel=′rbf′，C=1，gamma=0.25。依次判定，該參數(shù)下的模型性能最佳。

注：A，通過GridSearchCV法對SVM的C和gamma的尋優(yōu)過程；B，構(gòu)建的SVM模型的測試ROC曲線；C，SVM算法原理圖。

2.2SVM模型評價機器學(xué)習(xí)算法使用22個項目作為數(shù)據(jù)維度，在49 346對測試樣本下，陽性樣本量和陰性樣本量均為24 673，測試后的TR、TN、FP、FN值分別為22 847、22 674、1 999、1 826；TPR為92.60%，TNR為91.90%，F(xiàn)PR為8.12%，F(xiàn)NR為7.48%，ACC為92.21%。ROC曲線如圖2B所示，其中AUC為0.96；SVM算法原理見圖2C。

2.3利用RCV值作為DC界限方法的實驗結(jié)果在該過程中，分別進行了4次實驗，第1次對全部樣本進行實驗，準(zhǔn)確率為79.62%；第2次通過剔除2次都在參考范圍內(nèi)的，準(zhǔn)確率為81.51%，與第1次結(jié)果比較，準(zhǔn)確率提高了2.37%；第3次和第4次并沒有達到理想結(jié)果。4次實驗準(zhǔn)確度最高的項目均為紅細(xì)胞平均血紅蛋白量。

3 討論

樣本混淆直接影響患者安全，其識別準(zhǔn)度與患者樣本數(shù)據(jù)分布和發(fā)生概率有關(guān)，特別是要在大量樣本流中識別出不規(guī)律、散發(fā)的樣本混淆錯誤，這對方法的精準(zhǔn)度要求非常高。有文獻提出，采用項目組合方式替代原有的單一項目方式的識別方法，以此增加維度，提高識別精準(zhǔn)度[4]，例如采用血常規(guī)項目組合、常規(guī)生化檢測項目組合等，但仍限于統(tǒng)計學(xué)方法。本研究選擇了血常規(guī)項目，采用機器學(xué)習(xí)SVM算法，嘗試建立一種超敏、高精的識別混淆樣本新方法，準(zhǔn)確率可達92.21%，相比傳統(tǒng)DC法81.51%，本文建立的模型識別準(zhǔn)確度提升了10.7%。主要原因是該模型將血常規(guī)22項作為一個機器學(xué)習(xí)樣本，機器學(xué)習(xí)方法可借助不同檢測項目間的未知關(guān)聯(lián)性，改進識別的準(zhǔn)確度。另外，有別于用RCV值作為DC界限方法，即：通過控制限區(qū)分正類和負(fù)類樣本，機器學(xué)習(xí)方法是針對數(shù)據(jù)空間分布的相似程度計算所屬樣本類別的概率，如果某delta樣本在“異?！鳖悇e下計算出較高的概率，則判定為可能是負(fù)類樣本，反之，判定為正類樣本，該方法較少受到人群個體內(nèi)變異與個體間變異影響。通常情況下，正類樣本被誤判為負(fù)類樣本稱為假陽，負(fù)類樣本誤判為正類樣本稱為假陰。出現(xiàn)假陽性時，會額外增加臨床實驗室的工作量，影響報告的時效性；而出現(xiàn)假陰性時，可能會因為未能識別出混淆樣本導(dǎo)致臨床決策錯誤。我們模型的假陽率為8.12%，假陰率7.48%，而參比利用RCV值作為DC界限方法的假陽性率為23.42%，假陰性率為41.03%。實驗結(jié)果證實，不僅降低了方法的假陽性率和假陰性率，同時由于機器學(xué)習(xí)方法準(zhǔn)確度顯著高于用RCV值作為DC界限方法，所以出現(xiàn)的極低概率假陰性結(jié)果，很可能發(fā)生在不同患者相同或極其相近的測量值情況，故不會影響臨床診療決策。通過和利用RCV值作為DC界限方法模型比較，SVM分類算法具有較高的分類性能，準(zhǔn)確率更高。

綜上所述，通過對血常規(guī)結(jié)果信息進一步挖掘，建立的機器學(xué)習(xí)混淆樣本識別模型，顯著改善了方法的準(zhǔn)確度。隨著實驗室自動化、信息化發(fā)展，報告自動審核模式應(yīng)用越來越多，實施有效的檢驗全過程質(zhì)量控制十分重要，而目前分析前階段質(zhì)量控制主要采用質(zhì)量指標(biāo)進行監(jiān)控，基于機器學(xué)習(xí)的混淆樣本識別模型構(gòu)建為分析前質(zhì)控提供了新思路。

致謝：感謝內(nèi)蒙古衛(wèi)數(shù)數(shù)據(jù)科技有限公司陳超，在本研究中負(fù)責(zé)人員組織、協(xié)調(diào)，提供必要的硬件保障。