亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)在卒中相關(guān)研究中的應(yīng)用

        2018-08-29 03:00:12娜迪熱艾孜熱提艾力劉煜敏
        中國(guó)卒中雜志 2018年8期
        關(guān)鍵詞:特征選擇數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)

        娜迪熱·艾孜熱提艾力,劉煜敏

        目前全球卒中疾病負(fù)擔(dān)呈顯著增長(zhǎng)趨勢(shì),中國(guó)卒中死亡率和疾病負(fù)擔(dān)居全球之首[1]。卒中相關(guān)臨床數(shù)據(jù)分析可以更加明確卒中流行病學(xué)特點(diǎn),提出診斷及分型依據(jù),評(píng)估療效和預(yù)后,為卒中防治提供更為準(zhǔn)確的證據(jù)和方向[2]。隨著信息技術(shù)的發(fā)展和醫(yī)院信息系統(tǒng)的改善,各大醫(yī)院積累了大量卒中住院患者臨床數(shù)據(jù),如何有效地利用這些珍貴的數(shù)據(jù)已成為國(guó)內(nèi)外的研究熱點(diǎn)。數(shù)據(jù)挖掘方法作為智能時(shí)代的產(chǎn)物,可以高效處理大規(guī)模、高維度的數(shù)據(jù),不僅有利于發(fā)現(xiàn)更多新的潛在危險(xiǎn)因素,還能建立疾病預(yù)測(cè)模型,指導(dǎo)卒中防治。本文將介紹利用數(shù)據(jù)挖掘技術(shù)分析臨床數(shù)據(jù)的基本步驟,以及數(shù)據(jù)挖掘技術(shù)在卒中相關(guān)研究中的應(yīng)用。

        1 數(shù)據(jù)挖掘技術(shù)基本步驟

        數(shù)據(jù)挖掘是指利用機(jī)器學(xué)習(xí)的方法發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律,以及從數(shù)據(jù)中抽取知識(shí)。為了發(fā)揮數(shù)據(jù)挖掘方法的優(yōu)勢(shì),需要有大量高質(zhì)量的數(shù)據(jù)。為了利用數(shù)據(jù)挖掘技術(shù)深入研究卒中,國(guó)內(nèi)外創(chuàng)建了專業(yè)數(shù)據(jù)庫(kù),比如國(guó)內(nèi)有中國(guó)國(guó)家卒中數(shù)據(jù)庫(kù),國(guó)外以美國(guó)國(guó)家卒中研究所數(shù)據(jù)庫(kù)為代表。研究人員利用這些數(shù)據(jù)庫(kù)研究并發(fā)表了有關(guān)卒中療效、并發(fā)癥以及危險(xiǎn)因素的論文[3-4]。這些數(shù)據(jù)庫(kù)和醫(yī)院信息系統(tǒng)為卒中數(shù)據(jù)分析提供了數(shù)據(jù)來源。利用數(shù)據(jù)挖掘技術(shù)分析卒中數(shù)據(jù)的基本步驟如圖1所示。

        1.1 卒中臨床數(shù)據(jù)收集和預(yù)處理 根據(jù)研究主題從數(shù)據(jù)庫(kù)或者醫(yī)院信息系統(tǒng)中選出需要分析的卒中相關(guān)臨床數(shù)據(jù),構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集。

        臨床數(shù)據(jù)中含有大量的缺失值、不規(guī)范值以及噪音。如果數(shù)據(jù)來源不同,則需要進(jìn)行格式轉(zhuǎn)換,統(tǒng)一數(shù)據(jù)的格式。其中最嚴(yán)重的問題在于存在缺失值,臨床數(shù)據(jù)涉及到個(gè)人隱私,無法收集所有數(shù)據(jù),或者在錄入數(shù)據(jù)時(shí)漏記或者錄入錯(cuò)誤等都有可能產(chǎn)生缺失值。文獻(xiàn)[5]在處理缺失值時(shí),針對(duì)不同類型的特征采用不同的統(tǒng)計(jì)量對(duì)缺失值進(jìn)行填充。對(duì)于數(shù)值型特征,利用特征的平均值填充;對(duì)于有序名義值,利用特征的中位數(shù)填充;對(duì)于無序名義值,利用特征的眾數(shù)填充。該文獻(xiàn)還提出利用線性回歸的方法來填充缺失值,該方法將缺失值作為目標(biāo),其余的因素作為特征,構(gòu)建一個(gè)線性回歸模型,將模型的預(yù)測(cè)值作為缺失值的替代值。缺失值處理方法的合理性可通過最終模型的預(yù)測(cè)性能來評(píng)價(jià),也可以通過均方根誤差(root mean square deviation)、平均絕對(duì)離差(mean absolute deviation)、偏差(bias)等統(tǒng)計(jì)量來評(píng)價(jià)。Xiang Li等[6]用數(shù)據(jù)挖掘技術(shù)分析中國(guó)心房顫動(dòng)登記數(shù)據(jù)庫(kù)中數(shù)據(jù),建立了心房顫動(dòng)患者2年內(nèi)卒中風(fēng)險(xiǎn)預(yù)測(cè)模型。該文獻(xiàn)處理缺失值時(shí),首先刪除缺失值過多的特征,如二元特征的缺失值超過80%,多元特征的缺失值超過60%時(shí),將這些特征全部刪除。

        圖1 數(shù)據(jù)挖掘的基本步驟圖

        數(shù)據(jù)預(yù)處理另一個(gè)重要步驟是將非數(shù)值數(shù)據(jù)轉(zhuǎn)化為數(shù)值數(shù)據(jù),文獻(xiàn)[7]制訂了統(tǒng)一的轉(zhuǎn)換規(guī)則,將同一種疾病或者相同治療方法的不同名稱轉(zhuǎn)化成統(tǒng)一的名稱,進(jìn)而轉(zhuǎn)化為方便分析的數(shù)值代碼。

        1.2 特征選擇及相關(guān)因素分析 數(shù)據(jù)庫(kù)或者醫(yī)院信息系統(tǒng)中往往包含患者的基本信息、病史、治療方案等眾多信息,若在分析時(shí)將全部數(shù)據(jù)納入實(shí)驗(yàn)中,不僅會(huì)造成信息冗余,還會(huì)減慢模型的訓(xùn)練速度,降低模型的性能,提高對(duì)硬件的要求。因此,需要從所有的數(shù)據(jù)中選出對(duì)目標(biāo)影響最大的數(shù)據(jù),即需要進(jìn)行特征選擇。

        特征選擇一般有兩種方法,即利用專家經(jīng)驗(yàn)的人工選擇方法和機(jī)器自動(dòng)選擇方法。人工選擇方法會(huì)提高預(yù)測(cè)模型的敏感度,而機(jī)器自動(dòng)選擇方法會(huì)提高模型的準(zhǔn)確率[8]。人工選擇方法的缺點(diǎn)是嚴(yán)重依賴專家的經(jīng)驗(yàn)和能力,而機(jī)器自動(dòng)選擇方法的缺點(diǎn)是依賴訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的劃分,不同的劃分方法可以得到不同的結(jié)果。不過,該問題可以通過加大數(shù)據(jù)的規(guī)模來解決。機(jī)器自動(dòng)選擇方法的最大優(yōu)點(diǎn)是不依賴專家知識(shí),不僅可以自動(dòng)識(shí)別重要的特征,還能發(fā)現(xiàn)專家仍未發(fā)現(xiàn)的潛在的因素。因此,數(shù)據(jù)挖掘方法中往往使用機(jī)器自動(dòng)選擇方法,專家知識(shí)可以用于驗(yàn)證機(jī)器自動(dòng)選擇方法選出的特征。

        特征選擇算法分3種[9],分別為過濾式、包裹式、嵌入式。過濾式特征選擇方法通過一個(gè)特征重要性的函數(shù)對(duì)每一個(gè)特征進(jìn)行打分,按照分?jǐn)?shù)將特征進(jìn)行排序,選擇重要的特征,常見的評(píng)價(jià)特征重要性的函數(shù)有CHI、信息增益(information gain)、t-test、基于相關(guān)性的特征選擇方法等。過濾式特征選擇方法的優(yōu)點(diǎn)是跟模型無關(guān),計(jì)算復(fù)雜度比較低,能夠處理大規(guī)模的數(shù)據(jù),適用范圍最廣,缺點(diǎn)是忽略特征之間的關(guān)系,也忽略特征與預(yù)測(cè)模型之間的關(guān)系。包裹式特征選擇方法將模型的預(yù)測(cè)性能當(dāng)作評(píng)價(jià)特征重要性的函數(shù),從而選出最重要的特征子集。嵌入式特征選擇方法將特征選擇與模型的訓(xùn)練結(jié)合在一起。

        特征選擇方法選出的特征均為對(duì)目標(biāo)結(jié)果相關(guān)性最大的特征,因此選出的特征子集就是跟目標(biāo)結(jié)果相關(guān)性最大的因素。特征選擇不僅是模型預(yù)測(cè)的子過程,還能用于相關(guān)因素分析中。相關(guān)因素分析是模型預(yù)測(cè)的附帶結(jié)果。

        1.3 預(yù)測(cè)模型的構(gòu)建及評(píng)價(jià)1.3.1 預(yù)測(cè)模型的構(gòu)建 將納入研究的全部數(shù)據(jù)集的80%作為訓(xùn)練數(shù)據(jù),剩余數(shù)據(jù)作為測(cè)試數(shù)據(jù),利用特征選擇算法從訓(xùn)練數(shù)據(jù)集中選出重要特征(相關(guān)因素),然后在此特征集中利用數(shù)據(jù)挖掘的分類算法訓(xùn)練出模型,常見的預(yù)測(cè)模型有決策樹(decision tree)模型、隨機(jī)森林(random forest)模型、樸素貝葉斯(na?ve bayes)模型、k最近鄰(k-nearest neighbor)模型、邏輯回歸(logistic regression)模型、支持向量機(jī)(support vector machine)模型、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network)模型等。各模型需要調(diào)節(jié)的參數(shù)、優(yōu)缺點(diǎn)以及在卒中數(shù)據(jù)分析中的應(yīng)用見表1。

        決策樹模型指的是根據(jù)訓(xùn)練數(shù)據(jù)集利用決策樹算法構(gòu)建出的樹狀結(jié)構(gòu)的決策模型[10]。決策樹根據(jù)生成方式的不同有以下的幾種算法:ID3、C4.5以及CART,其中CART既可以用于分類,又可以用于回歸。而隨機(jī)森林算法通過訓(xùn)練多個(gè)決策樹并且在數(shù)據(jù)采樣中加入一定的隨機(jī)性有效地避免了過擬合現(xiàn)象,因此在隨機(jī)森林模型的誤差率往往比決策樹低[11]。

        樸素貝葉斯模型指的是根據(jù)貝葉斯公式和獨(dú)立性假設(shè)將后驗(yàn)概率轉(zhuǎn)化為前驗(yàn)概率的模型。該模型計(jì)算目標(biāo)特征每一個(gè)值的概率,并將概率最大的值作為該目標(biāo)特征的最終結(jié)果[12]。K最近鄰模型通過一個(gè)數(shù)據(jù)點(diǎn)周圍最近的K個(gè)鄰居來確定數(shù)據(jù)點(diǎn)的類型,因此K值的確定很重要。邏輯回歸模型在線性回歸的基礎(chǔ)上使用Sigmoid函數(shù)將數(shù)據(jù)分成兩個(gè)部分。支持向量機(jī)模型改善了邏輯回歸模型,因此準(zhǔn)確率比大部分?jǐn)?shù)據(jù)挖掘模型都高,而且適用范圍最廣。人工神經(jīng)網(wǎng)絡(luò)模型是根據(jù)人腦的特點(diǎn)設(shè)計(jì)的,是目前最流行的深度學(xué)習(xí)方法。人腦中成千上萬個(gè)神經(jīng)元相互連接生成一個(gè)很復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)認(rèn)知。神經(jīng)網(wǎng)絡(luò)模型中激活函數(shù)類似于神經(jīng)元,激活函數(shù)之間的輸入輸出關(guān)系類似于神經(jīng)元之間的連接關(guān)系,數(shù)據(jù)類似于神經(jīng)元之間的電信號(hào)。

        表1 常用預(yù)測(cè)模型

        1.3.2 模型性能的評(píng)價(jià) 一般的數(shù)據(jù)挖掘任務(wù)中直接使用準(zhǔn)確率或者錯(cuò)誤率作為模型預(yù)測(cè)性能的評(píng)價(jià),但卒中臨床數(shù)據(jù)分析中,數(shù)據(jù)的分布往往是不平衡的,準(zhǔn)確率無法全面地評(píng)價(jià)模型的性能,因此需要使用敏感度、特異度、受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)值等評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果的分布見表2。

        敏感度(真陽性率)=真陽性(TP)/真陽性(TP)+假陰性(FN)

        特異度=真陰性(TN)/真陰性(TN)+假陽性(FP)

        假陽性率=假陽性(FP)/假陽性(FP)+真陰性(TN)

        AUC指的是ROC曲線(橫坐標(biāo)為假陽性率,縱坐標(biāo)為真陽性率的曲線)下的面積,一般情況下0.5<AUC<1。AUC值越大表示模型的預(yù)測(cè)性能越好。

        表2 結(jié)果分布表

        2 數(shù)據(jù)挖掘在卒中相關(guān)研究中的應(yīng)用舉例

        目前大多數(shù)卒中相關(guān)臨床性研究中,對(duì)醫(yī)院信息系統(tǒng)的利用僅僅在于最基本的數(shù)據(jù)儲(chǔ)存、錄用等層面。本文將介紹如何高效地利用醫(yī)院信息系統(tǒng)或卒中數(shù)據(jù)庫(kù)中的海量信息資源為卒中預(yù)防、診斷、評(píng)估療效及判斷預(yù)后提供更科學(xué)的依據(jù)。

        2.1 卒中危險(xiǎn)因素研究中的應(yīng)用 卒中危險(xiǎn)因素分析是卒中預(yù)防很重要的一部分。探索卒中危險(xiǎn)因素、建立卒中發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型可以及時(shí)篩選高危患者,進(jìn)行卒中預(yù)防。前文介紹數(shù)據(jù)挖掘基本步驟時(shí)提到,數(shù)據(jù)挖掘技術(shù)中特征選擇方法可以用于相關(guān)因素分析,因此這種方法也可用于卒中危險(xiǎn)因素研究。有研究者利用特征選擇選出了16種卒中相關(guān)因素,同時(shí)使用支持向量機(jī)、邏輯回歸等方法建立了卒中風(fēng)險(xiǎn)預(yù)測(cè)模型,并且通過準(zhǔn)確度、敏感度、特意度、AUC等指標(biāo)評(píng)價(jià)了各種模型的性能,認(rèn)為此類問題中支持向量機(jī)模型的預(yù)測(cè)性能最佳[17]。

        2.2 卒中患者病情嚴(yán)重程度評(píng)估研究中的應(yīng)用 數(shù)據(jù)挖掘技術(shù)可用于卒中患者病情嚴(yán)重程度預(yù)測(cè),對(duì)卒中重癥治療給予一定的提示,也能用于根據(jù)病情嚴(yán)重程度自動(dòng)計(jì)算報(bào)銷額度,對(duì)醫(yī)保費(fèi)用管理也有積極作用。有研究使用數(shù)據(jù)挖掘技術(shù)分析社會(huì)醫(yī)療保險(xiǎn)數(shù)據(jù)庫(kù)中急性缺血性卒中患者信息,發(fā)現(xiàn)了影響卒中患者病情嚴(yán)重程度的7種影響因素,并以這7種因素作為特征,建立病情嚴(yán)重程度預(yù)測(cè)模型[18]。

        2.3 卒中療效評(píng)估方面應(yīng)用 通過分析“是否接受某項(xiàng)治療”這一特征與結(jié)果事件的關(guān)聯(lián),巧妙利用數(shù)據(jù)挖掘技術(shù)進(jìn)行療效評(píng)估,還可以建立接受某項(xiàng)治療的患者預(yù)后預(yù)測(cè)模型。Yuling Yang等[19]將牛津郡社區(qū)卒中數(shù)據(jù)庫(kù)分類系統(tǒng)用于評(píng)價(jià)卒中患者靜脈溶栓治療安全性和有效性。Matthew McNabb等[20]利用數(shù)據(jù)挖掘技術(shù)預(yù)測(cè)接受介入取栓術(shù)的急性腦梗死患者90 d內(nèi)預(yù)后,介紹了這種新的方法在卒中療效評(píng)估中的應(yīng)用。

        2.4 卒中預(yù)后影響因素研究中的應(yīng)用 探討卒中患者預(yù)后影響因素是卒中診治的重要部分,尤其在大面積腦梗死等重癥患者中提前預(yù)測(cè)卒中預(yù)后獲益頗大。Jonathan F. Easton等[15]用數(shù)據(jù)挖掘技術(shù)分析急性腦梗死后不同時(shí)期預(yù)后影響因素,分別從用藥種類、既往病史、卒中亞分型、卒中量表得分及住院期間化驗(yàn)結(jié)果等方面選出了與結(jié)果相關(guān)性最高的因素,并分別建立了卒中后短期(7 d內(nèi))、中期(8~93 d)的預(yù)后預(yù)測(cè)模型。文獻(xiàn)[21]中研究者從國(guó)家級(jí)疾病數(shù)據(jù)庫(kù)中獲取卒中患者(19 603例)信息,用決策樹C4.5算法建立了卒中后運(yùn)動(dòng)障礙預(yù)測(cè)模型,并用特征選擇方法從397種潛在影響因素中選出了70種與卒中后運(yùn)動(dòng)障礙關(guān)系最明顯的因素,顯然這種從大量患者信息中尋找潛在關(guān)聯(lián)因素的方法可以為后期研究提供新方向。

        2.5 研究卒中疾病負(fù)擔(dān)方面的應(yīng)用 卒中不僅損害患者身體健康,降低生存質(zhì)量,也為患者家庭帶來巨額的治療費(fèi)用和長(zhǎng)期護(hù)理方面的負(fù)擔(dān)。我國(guó)研究者利用神經(jīng)網(wǎng)絡(luò)技術(shù)建立腦梗死患者住院費(fèi)用擬合模型,在此基礎(chǔ)上進(jìn)行影響因素敏感度分析發(fā)現(xiàn)住院天數(shù)對(duì)費(fèi)用影響最大,其次為“治療結(jié)果”“是否搶救”“年齡”等因素[22]。

        2.6 卒中病因分型研究中的應(yīng)用 卒中病因分型涉及到患者治療及二級(jí)預(yù)防方案的制定,因此準(zhǔn)確地進(jìn)行卒中病因診斷、確定分型很重要,但臨床上卒中老年患者多種疾病共存的情況對(duì)確定卒中病因分型造成困擾。數(shù)據(jù)挖掘中分類算法可以用于卒中病因分型,國(guó)外已有此類嘗試。文獻(xiàn)[23]介紹了韓國(guó)學(xué)者分析多中心卒中數(shù)據(jù)庫(kù)中急性腦梗死患者(6624例)信息后,建立基于磁共振成像的卒中病因分型系統(tǒng),作者認(rèn)為此分型系統(tǒng)有望用于卒中臨床診斷。作為最新的疾病診斷形式,這類研究成果用于臨床仍需更多研究人員進(jìn)行探索。

        【點(diǎn)睛】本文闡述數(shù)據(jù)挖掘在卒中相關(guān)研究中的應(yīng)用,為卒中臨床研究提供一種全新的數(shù)據(jù)分析技術(shù)。

        猜你喜歡
        特征選擇數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)庫(kù)
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        伊人久久大香线蕉综合网站| 日本亚洲视频免费在线看| 后入丝袜美腿在线观看| 伊人久久大香线蕉综合影院首页| 亚洲人成网站77777在线观看| 无码制服丝袜中文字幕| 国产丝袜美腿在线播放| 特黄熟妇丰满人妻无码 | 狠狠色丁香婷婷综合潮喷| 国产欧美日韩综合精品二区| 久热香蕉av在线爽青青| 亚洲少妇一区二区三区老| 中国娇小与黑人巨大交| 欧洲人妻丰满av无码久久不卡 | 精品人妻69一区二区三区蜜桃| 日本大骚b视频在线| 最近高清中文在线字幕观看| 亚洲精品无人区一区二区三区| 日本一区二区免费在线看| 免费无码中文字幕a级毛片| 久久国产自偷自免费一区100| av资源在线播放网站| 成人女同av在线观看网站| 国产高清一区二区三区视频| 青草网在线观看| 亚洲最大不卡av网站| 麻豆网神马久久人鬼片| 精品无码一区二区三区爱欲九九| 久久国产亚洲中文字幕| 一本久道高清视频在线观看| 2020年国产精品| 欧洲日韩视频二区在线| 蓝蓝的天空,白白的云| 正在播放强揉爆乳女教师| 色综合久久天天综线观看| av男人的天堂手机免费网站 | 久久狼人国产综合精品| 国产精品妇女一二三区| 在线成人福利| 亚洲一区二区三区在线激情 | 97在线视频免费|