亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學習的心電圖診斷研究

        2020-09-08 08:12:10王官軍吳婷汪龍唐祖勝
        實用心電學雜志 2020年4期
        關鍵詞:模型

        王官軍 吳婷 汪龍 唐祖勝

        心電圖作為臨床最常用的檢查手段之一,在心肌梗死、心律失常等疾病的診斷中有不可替代的作用。但在臨床應用中,心電圖診斷易受判讀醫(yī)師個人經(jīng)驗及主觀因素影響而出現(xiàn)差錯,因此,越來越多的研究聚焦于心電圖信號的自動判讀[1-3]。傳統(tǒng)心電圖輔助診斷技術易受干擾因素影響,存在魯棒性不佳、泛化性能不強的缺點,難以適用于臨床[4-5]。近年來,人工智能在醫(yī)療應用領域高度滲透[2],在圖像識別、智能診斷等方面取得了可喜的成績[3],而基于人工智能的心電診斷正是今后心電報告的發(fā)展方向[6]。中國優(yōu)質(zhì)醫(yī)療資源過度集中于大中型城市及大型教學醫(yī)院,偏遠落后地區(qū)及基層醫(yī)療機構診療水平較低,心電圖判讀準確性不高一直是亟待解決的問題;同時,醫(yī)院大量心電圖均依靠人工診斷,耗時費力,這種落后的心電圖判讀方式制約著中國心電事業(yè)的發(fā)展[7],因此,中國亟須建立人工智能心電診斷系統(tǒng)。

        圖1 訓練集心電圖可視化Fig.1 Visualization of a case of training set ECG

        機器學習是人工智能領域最主要的分支,通過提取數(shù)據(jù)特征進行數(shù)學建模來自動學習數(shù)據(jù)的內(nèi)在規(guī)律[8-9]。常見的機器學習模型包括K-近鄰(K-nearest neighbor, KNN)、決策樹、隨機森林(random forest, RF)、支持向量機(support vector machine, SVM)、Logistic回歸等[9-10]??焖佟蚀_的心電圖輔助診斷技術成為當前醫(yī)療領域研究的熱點[5,11-12]。然而,目前針對心電圖診斷的機器學習算法技術尚不成熟,自動報告錯漏百出,臨床應用存在局限性,很多醫(yī)院不得不關掉心電圖人工智能輔助診斷系統(tǒng)[7,13-14];此外,目前關于各種機器學習算法性能對比的研究很少[15-17]。鑒于上述應用及研究現(xiàn)狀,本文利用公共數(shù)據(jù)平臺上的大量心電圖記錄,對比4種常見的機器學習分類算法的性能,為進一步的算法研究提供理論依據(jù)。

        1 研究方法

        本文利用公共心電數(shù)據(jù)庫心電圖記錄,進行4種常見機器學習分類算法的心電圖診斷研究。對心電信號進行預處理并通過主成分分析(principal component analysis, PCA)降維提取特征,針對4種常見的心電圖診斷,分別采用K-近鄰算法、隨機森林、Logistic回歸和支持向量機算法進行二分類預測算法研究,并評估4種算法的預測表現(xiàn)。利用Python 3.7.4編程,開發(fā)環(huán)境為JupyterLab,并采用Numpy 1.18.1、Pandas 1.0.1及Sklearn 0.22.2包進行科學計算。

        1.1 數(shù)據(jù)獲取

        數(shù)據(jù)來源于PTB-XL心電圖數(shù)據(jù)庫。該數(shù)據(jù)庫(https://physionet.org/content/ptb-xl/1.0.1)是國際公認的大型心電數(shù)據(jù)庫,且公開免費,截至2020年7月,共包含21 837條心電圖記錄。每條心電圖記錄包含10 s的心電數(shù)據(jù),采樣率為500 Hz;每條記錄的總樣本點為6萬,均為標準12導聯(lián)心電圖(Ⅰ—Ⅲ、aVR、aVL、aVF、V1—V6),以專有壓縮格式存儲。該數(shù)據(jù)庫2019年發(fā)布時對數(shù)據(jù)進行了簡化,提升了機器學習的可訪問性及可用性。

        1.2 數(shù)據(jù)預處理

        使用PTB-XL心電圖數(shù)據(jù)庫提供的Python工具提取心電圖數(shù)據(jù),并按照推薦方案劃分訓練集(train set)、測試集(test set)。經(jīng)劃分,訓練集共有19 634例(89.9%)樣本,測試集有2203例(10.1%)樣本。

        1.2.1 缺失值處理 刪除訓練集中367例(1.9%)缺少標簽的心電圖數(shù)據(jù),共得到19 267例訓練樣本;測試集數(shù)據(jù)無缺失值。對1例訓練集心電圖進行可視化處理,如圖1所示。

        1.2.2 心電圖截取 心電圖波形形態(tài)的異常往往體現(xiàn)在每個心電導程中,因此,可以對心電信號進行逐導程分割。心電圖截取長度是影響分類結(jié)果的重要因素,截取1 s的心電數(shù)據(jù)基本可包含所有的波形特征[18]。本文以Ⅱ?qū)?lián)R波最高點來確定截取范圍(R波最高點之前150個數(shù)據(jù)點,之后350個數(shù)據(jù)點),截取1 s的心電圖片段進行分類研究,如圖2所示,圖中加粗部分為下采樣后的心電圖。

        1.2.3 去基線 由于基線偏移會對特征值提取造成很大障礙,尤其是在心肌梗死、ST-T改變的預測中,基線偏移會對模型預測造成很大干擾,導致特征無法被有效識別,因此,在分析心電圖數(shù)據(jù)前需要通過預處理消除信號基線。通過采用插值方法,可先在心動周期中找到基線,再用所有數(shù)據(jù)減去基線,即可得到去基線的心電圖數(shù)據(jù)[18-19]。如圖3所示(圖中虛線為基線),本研究的心電數(shù)據(jù)存在明顯的基線漂移。采用PR段作為基線,先取每個導聯(lián)PR段上10個數(shù)據(jù)點的均值作為基線的近似值,然后用所有數(shù)據(jù)減去該近似值,即可得到去基線的心電圖數(shù)據(jù),如圖4所示。

        1.2.4 主成分分析降維 心電圖數(shù)據(jù)經(jīng)裁剪,合成一個6000(500×12)維的特征矩陣。由于特征維數(shù)太大,計算開銷過大,且存在過擬合風險,因此需要進一步減少特征向量維數(shù),本文采用PCA方法。PCA通過正交線性變換進行降維,用方差來衡量信息量,可在顯著降低特征維度的同時,保留絕大部分方差,并在一定程度上降低噪音[20]。訓練集特征矩陣經(jīng)PCA降維后,累積可解釋方差貢獻率曲線如圖5所示,圖中n為降維后保留的特征個數(shù)。在保留150個降維后特征的同時,僅損失少量信息(2.82%)。PCA降維前的心電圖如圖6所示。經(jīng)PCA降維后,再將降維后的主成分映射到原特征矩陣所在的特征空間,并進行可視化處理(圖7)。對比降維前后的心電圖,發(fā)現(xiàn)降維后的心電圖保留了絕大部分原心電圖特征,僅在少數(shù)細節(jié)處與原心電圖稍有不同。后續(xù)所有心電圖數(shù)據(jù)均采用PCA方法處理,將特征矩陣降至150維。

        圖2 截取1 s心電圖數(shù)據(jù)

        圖3 原始心電圖信號

        圖4 去基線后的心電圖信號

        圖5 累積可解釋方差貢獻率曲線

        圖6 主成分分析降維前心電圖

        圖7 主成分分析降維后映射到原特征空間的心電圖

        1.2.5 樣本不平衡問題處理 近年來,不平衡學習問題作為機器學習的研究領域之一得到密切關注,其本質(zhì)是數(shù)據(jù)分布不均衡,導致很多機器學習分類算法的性能被削弱。機器學習算法在不平衡數(shù)據(jù)集上訓練時,傾向于將樣本預測為多數(shù)類。盡管如此可以得到較高的準確率,但會導致很低的召回率,從而出現(xiàn)預測模型無法將正樣本準確分類的情況,甚至造成預測模型完全失效。數(shù)據(jù)不平衡問題廣泛存在于機器學習的各個領域。相對于多數(shù)類樣本,少數(shù)類樣本通常攜帶更為重要的信息,具有更高的錯判代價。因此,多數(shù)情況下,我們應當更加關注少數(shù)類樣本的分類準確性。要處理樣本不平衡問題,通常是從數(shù)據(jù)、算法和集成三方面著手。數(shù)據(jù)層面的方法通常為上采樣、下采樣和混合采樣[21-22]。就醫(yī)學數(shù)據(jù)而言,很多數(shù)據(jù)集都是不平衡樣本,正負樣本比例差異較大,敏感性、特異性差異較大,導致模型的魯棒性較差,而心電數(shù)據(jù)往往存在樣本數(shù)量不平衡問題[2]。本研究存在樣本不均衡問題,所有分類中正樣本比例均顯著低于負樣本比例。欠采樣使最終的訓練集丟失部分數(shù)據(jù);而過采樣會導致一個數(shù)據(jù)點在高維空間中出現(xiàn)多次,增加過擬合風險,很多研究通過在過采樣中加入少量隨機噪聲來減少這類風險。本文基于心電圖多導程特點,利用過采樣方法采集不同的心電導程,如圖8中加粗部分所示。由于心電采集過程中背景噪音的存在,不會出現(xiàn)完全一致的數(shù)據(jù)點,因此避免了上述簡單復制所帶來的問題。表1為訓練集過采樣前后的正樣本比例數(shù)據(jù),經(jīng)過采樣后,訓練集正負樣本比例大致相同。

        圖8 利用心電圖多導程特點進行過采樣

        表1 過采樣前后訓練集正樣本比例 n(%)Tab.1 Positive sample ratio of training set beforeand after oversampling

        2 結(jié)果

        為降低模型預測的結(jié)構風險,本研究采用K-折交叉驗證方法估計模型誤差。K-折交叉驗證是機器學習領域應用最多的泛化誤差估計方法。它通過將訓練集等分為K份,依次使用其中的K-1份數(shù)據(jù)作為訓練集訓練模型,剩下的數(shù)據(jù)作為驗證集測試模型,各得到K個訓練集和驗證集,將這K個模型的平均誤差作為泛化誤差的估計[23]。

        圖9 4種算法的準確率對比

        本研究采用5-折交叉驗證,通過反復繪制學習曲線,不斷優(yōu)化模型超參數(shù),選擇對驗證集平均預測準確率最高的模型。采用K-近鄰、隨機森林、Logistic回歸、高斯核函數(shù)支持向量機這4種經(jīng)典的機器學習算法,分別針對傳導阻滯、心肌梗死、ST-改變和心肌肥厚進行二分類預測;通過對比測試集的模型預測準確率、召回率和精準率,評價模型的優(yōu)劣。不同算法針對測試集的預測準確率、召回率和精準率分別如圖9—圖11所示。針對傳導阻滯、心肌梗死、ST-T改變、心肌肥厚這4類心電圖,支持向量機算法預測的準確率分別為84.8%、81.3%、82.0%和88.1%;召回率分別為55.0%、52.6%、62.9%和39.1%;精準率分別為69.8%、65.3%、64.1%和49.6%。支持向量機算法預測的準確率、召回率明顯高于其他3種算法;其精準率與K-近鄰算法相當,均明顯高于其他兩種算法。綜合來看,以預測準確率、召回率及精準率來評估模型優(yōu)劣,支持向量機對上述4種常見心電圖分類的預測表現(xiàn)總體上優(yōu)于其他3種算法。

        圖10 4種算法的召回率對比

        圖11 4種算法的精準率對比

        為了進一步評價模型優(yōu)度,選取不同的判定閾值,得到不同的假陽性率(false positive rate,F(xiàn)PR)、真陽性率(true positive rate,TPR),再以FPR為x軸、TPR為y軸,繪制不同算法針對不同心電圖診斷的工作者特征(receiver operating characteristic,ROC)曲線,并計算曲線下面積(area under curve, AUC)。由FPR和TPR的定義可知,曲線越靠近左上,AUC值越大,模型預測效果越好[19]。上述4種算法針對不同心電圖分類的ROC曲線對比如圖12—圖15所示。由圖12—圖15可見,支持向量機算法的ROC曲線在4種心電圖類別上均最靠近左上角,且AUC值均高于其他3種算法,因此,支持向量機算法在ROC曲線評價指標上優(yōu)于其他3種算法。

        圖12 4種算法針對傳導阻滯的ROC曲線對比

        圖13 4種算法針對心肌梗死的ROC曲線對比

        圖14 4種算法針對ST-T改變的ROC曲線對比

        圖15 4種算法針對心肌肥厚的ROC曲線對比

        綜合預測準確率、召回率、精準率,以及ROC曲線模型評價指標來看,支持向量機在模型預測中的表現(xiàn)優(yōu)于其他3種算法。需要注意的是,盡管支持向量機算法的預測準確率較高,但召回率、精準率尚達不到臨床應用的要求,導致模型預測敏感性低、錯判風險高,有待通過進一步研究改進模型,提升模型的預測表現(xiàn),從而更好地服務于臨床。

        3 討論

        本研究利用PTB-XL公共心電數(shù)據(jù)庫的21 837條心電圖記錄,進行4種常見機器學習分類算法的心電圖診斷對比研究。首先,對心電信號進行缺失值刪除、裁剪、去基線等預處理;然后,通過PCA降維提取特征,針對傳導阻滯、心肌梗死、ST-T改變、心肌肥厚這4類心電圖,分別采用K-近鄰算法、隨機森林、Logistic回歸和支持向量機算法進行二分類預測算法研究。具體步驟如下:先通過PTB-XL數(shù)據(jù)庫推薦的方法劃分訓練集、測試集,選擇5-折交叉驗證方法,運用上述4種分類算法,利用訓練集數(shù)據(jù)訓練模型并不斷優(yōu)化模型參數(shù),再用測試集來進行模型優(yōu)度評價。研究結(jié)果表明:綜合預測準確率、召回率、精準率,以及ROC曲線模型評價指標來看,支持向量機在模型預測中的表現(xiàn)優(yōu)于其他3種算法。

        但是,本研究仍然存在局限性。雖然支持向量機算法在上述4種常見心電圖分類診斷中有較高的準確率,但因召回率不高導致診斷敏感性較低,因精準率不高造成錯判風險較大,因此,該算法尚不能直接應用于臨床診斷。鑒于此,我們需要預測精度更高的模型。在下一步研究中,可通過以下3種方法提升模型的預測表現(xiàn),① 擴大樣本量:目前,中國各大醫(yī)院逐步實現(xiàn)了心電圖等醫(yī)療信息的電子化,心電圖獲取成本降低,使獲得海量心電圖成為可能。利用海量心電圖訓練模型可避免過擬合,從而得到魯棒性及泛化性能更佳的預測模型。② 改進數(shù)據(jù)預處理方式:心電信號的預處理直接影響到模型的預測表現(xiàn),也是極為重要的環(huán)節(jié)。研究表明,小波變換在心電圖預處理中有極其重要的地位,其可以有效濾過基線漂移、工頻干擾、肌電干擾等噪聲,顯著提升模型的預測表現(xiàn)。③ 深度學習算法:在圖像識別領域,深度學習算法往往優(yōu)于傳統(tǒng)的機器學習算法。近年來,深度學習運用于心電圖診斷的研究越來越多。卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)是深度學習的一種經(jīng)典算法。CNN采用不同的卷積核提取不同心電圖的特征,通過池化層下采樣降低特征維度,并可以通過加大卷積層的深度來提取深層次特征,再將池化層降維后的特征接入全連接層,最終通過Softmax層輸出二分類結(jié)果的概率分布。CNN有平移不變性等優(yōu)良特性,能夠直接處理原始信號,其魯棒性、泛化性能更好。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        亚洲天堂av黄色在线观看| 亚洲AV日韩AV永久无码电影| 精品一精品国产一级毛片| 日韩国产自拍成人在线| 一本久道竹内纱里奈中文字幕 | 被黑人猛烈30分钟视频| 夜色阁亚洲一区二区三区| 无码AⅤ最新av无码专区| 91国产自拍精品视频| 在线观看的网站| 久久久久亚洲av无码a片软件| 国产精品反差婊在线观看| 青青草视频在线观看精品在线| 永久免费a∨片在线观看 | 狠狠色狠狠色综合| 一级午夜视频| 国产一区二区黑丝美女| 久久精品av在线观看| a级毛片免费完整视频| 国产香蕉尹人在线视频播放| 在线视频一区二区三区中文字幕| 在线观看视频日本一区二区| 国产精品你懂的在线播放| 亚洲AV无码一区二区三区天堂网| 亚洲欧美日韩中文综合在线不卡| 国内精品毛片av在线播放| 西西午夜无码大胆啪啪国模| 好男人视频在线视频| 国产传媒剧情久久久av| 亚洲国产成人久久精品不卡| 久久亚洲精品无码va白人极品| 国产在线无码免费视频2021 | 亚洲国产精品久久电影欧美 | 少妇人妻av一区二区三区| 在线中文字幕乱码英文字幕正常| 亚洲va在线∨a天堂va欧美va| 久久无码中文字幕东京热| 在线免费看91免费版.| 帮老师解开蕾丝奶罩吸乳视频 | 免费视频无打码一区二区三区| 成年免费视频黄网站zxgk|