亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于PCA-SVM的醫(yī)療衛(wèi)生數(shù)據(jù)挖掘分類方法

        2016-09-08 10:30:46戴炳榮王曉麗施天行
        計算機應用與軟件 2016年8期
        關鍵詞:醫(yī)療衛(wèi)生數(shù)據(jù)挖掘預處理

        戴炳榮 王曉麗 李 超 陳 潔 施天行

        1(上海計算機軟件技術(shù)開發(fā)中心 上海 201112)2(上海市浦東衛(wèi)生發(fā)展研究院 上海 200129)

        ?

        一種基于PCA-SVM的醫(yī)療衛(wèi)生數(shù)據(jù)挖掘分類方法

        戴炳榮1王曉麗2*李超1陳潔2施天行2

        1(上海計算機軟件技術(shù)開發(fā)中心上海 201112)2(上海市浦東衛(wèi)生發(fā)展研究院上海 200129)

        當前醫(yī)療衛(wèi)生數(shù)據(jù)呈現(xiàn)量大、種類多、特征混雜等特點,為數(shù)據(jù)挖掘分類帶來一定的挑戰(zhàn)。針對醫(yī)療衛(wèi)生數(shù)據(jù)的這些特點,提出一種基于主成分分析和支持向量機相結(jié)合的數(shù)據(jù)挖掘分類方法,重點研究該方法的算法模型,以及在醫(yī)療衛(wèi)生領域的具體實現(xiàn),并在MATLAB環(huán)境下利用Cardiotocography數(shù)據(jù)集和Breast Cancer數(shù)據(jù)集進行了仿真實驗。實驗結(jié)果表明,該方法的分類效果較好,為當前醫(yī)療數(shù)據(jù)挖掘分類提供了一種可行的思路。

        醫(yī)療衛(wèi)生數(shù)據(jù)數(shù)據(jù)挖掘主成分分析支持向量機

        0 引 言

        隨著醫(yī)療衛(wèi)生信息化建設的快速發(fā)展,數(shù)字化的醫(yī)療儀器及設備越來越多地投入使用。信息化建設的系統(tǒng)在各級醫(yī)院、社區(qū)衛(wèi)生服務中心以及其他各類醫(yī)療衛(wèi)生服務機構(gòu)鋪展開來,使得醫(yī)療機構(gòu)累積了大量的病人信息、治療檢驗、病史等數(shù)據(jù)。這些混雜的海量醫(yī)療衛(wèi)生數(shù)據(jù)中蘊含著許多有價值的信息,亟需挖掘和提取。如何從這些醫(yī)療衛(wèi)生數(shù)據(jù)中挖掘出有價值的信息,成為了當前醫(yī)療衛(wèi)生領域的研究熱點[1]。

        目前,數(shù)據(jù)挖掘在醫(yī)療衛(wèi)生領域建立了較多應用,主要集中在醫(yī)學質(zhì)量管理、藥物的研發(fā)以及輔助診斷等方面。研究者從整個流程的不同階段及角度分別進行了相應研究,如數(shù)據(jù)挖掘過程中的預處理、分類和分析等。文獻[2]研究了數(shù)據(jù)挖掘過程中的預處理技術(shù),其有助于識別及篩選出較為可靠的數(shù)據(jù),根據(jù)這些預處理后的數(shù)據(jù)進行統(tǒng)計分析,從而得到的結(jié)果較為真實和準確。文獻[3]利用K-means算法,從醫(yī)院病案庫信息系統(tǒng)中挖掘病人住院醫(yī)療費用、年齡和住院時間的相互內(nèi)在聯(lián)系,進而尋找其中的規(guī)律知識。文獻[4]建立了基于SPRINT算法的疾病復發(fā)危險因素分析模型,通過該模型運算及分析,尋找和得出疾病的臨床診斷、治療和預后之間的關系。但是,從醫(yī)療衛(wèi)生數(shù)據(jù)分析挖掘過程來看,這些研究分別聚焦在數(shù)據(jù)噪聲的預處理和后續(xù)的挖掘分析算法等方面,未能從分析挖掘模型的整體結(jié)構(gòu)和流程上進行梳理、研究、應用。

        如何在面向醫(yī)療衛(wèi)生領域數(shù)據(jù)挖掘的整個過程中,對數(shù)據(jù)集進行特征降維,減少醫(yī)療衛(wèi)生數(shù)據(jù)本身的噪聲、去除數(shù)據(jù)集中冗余信息,同時結(jié)合有效的數(shù)據(jù)挖掘方法進行分類分析是值得研究的問題。

        1 醫(yī)療衛(wèi)生領域數(shù)據(jù)挖掘過程分析

        面向醫(yī)療領域的數(shù)據(jù)挖掘分為醫(yī)療衛(wèi)生數(shù)據(jù)采集匯聚、醫(yī)療衛(wèi)生數(shù)據(jù)抽取、醫(yī)療衛(wèi)生數(shù)據(jù)預處理、數(shù)據(jù)分析處理以及結(jié)果分析展示等過程,如圖1所示。

        圖1 面向醫(yī)療衛(wèi)生領域的數(shù)據(jù)挖掘流程圖

        醫(yī)療衛(wèi)生數(shù)據(jù)來源是各醫(yī)療衛(wèi)生服務機構(gòu)建設的信息化系統(tǒng),主要有HIS(醫(yī)院信息系統(tǒng))、LIS(實驗室信息系統(tǒng))、PACS(醫(yī)學影像存檔與通信系統(tǒng))等。這些系統(tǒng)收集和記錄著詳細的病人信息、疾病診斷治療等數(shù)據(jù),是醫(yī)療衛(wèi)生信息化建設的重要成果。

        經(jīng)過數(shù)據(jù)的采集匯聚,各信息化系統(tǒng)的醫(yī)療衛(wèi)生數(shù)據(jù)匯聚到一系列醫(yī)療衛(wèi)生數(shù)據(jù)庫中。這些數(shù)據(jù)按照業(yè)務在同一邏輯架構(gòu)下進行管理,包括病人信息、疾病診斷說明、檢驗檢測數(shù)據(jù)等,需要進行降噪等預處理以及后續(xù)的分類分析后才能得到更有用的信息。

        數(shù)據(jù)抽取轉(zhuǎn)換是醫(yī)療衛(wèi)生數(shù)據(jù)分析挖掘的重要基礎。醫(yī)療衛(wèi)生機構(gòu)各個子系統(tǒng)匯聚了各種各樣的數(shù)據(jù),針對特定的醫(yī)療問題分析或挖掘場景,需要抽取相關的數(shù)據(jù)信息,這些數(shù)據(jù)來自于各個子系統(tǒng)匯聚到的醫(yī)療衛(wèi)生數(shù)據(jù)庫。經(jīng)過對匯聚的醫(yī)療衛(wèi)生數(shù)據(jù)進行抽取,形成面向主題的醫(yī)療衛(wèi)生主題數(shù)據(jù)庫。這些數(shù)據(jù)按照主題進行存儲和管理,能夠更好更方便地支持分析挖掘應用。

        數(shù)據(jù)預處理是決定整個醫(yī)療衛(wèi)生知識探求成功與否的重要一步。醫(yī)療衛(wèi)生數(shù)據(jù)庫數(shù)據(jù)量較大,結(jié)構(gòu)多樣化,有結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù),且經(jīng)常不完整,有數(shù)據(jù)缺失,還包含有冗余信息,所以在進行數(shù)據(jù)挖掘工作前,需要數(shù)據(jù)的預處理操作。數(shù)據(jù)預處理的方法主要有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換以及數(shù)據(jù)特征降維等操作。

        數(shù)據(jù)分析處理是醫(yī)療衛(wèi)生數(shù)據(jù)挖掘的關鍵步驟。數(shù)據(jù)分析處理的核心是數(shù)據(jù)挖掘算法模型的建立,常用的數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡、決策樹、邏輯回歸、K-means聚類算法、SVM等[5]。K-means、決策樹、BP神經(jīng)網(wǎng)絡理論等算法在醫(yī)療衛(wèi)生數(shù)據(jù)挖掘中已有較多應用,文獻[6-8]分別對這三種算法在醫(yī)療衛(wèi)生領域的應用開展了相關研究并取得了一定成果。

        2 面向醫(yī)療衛(wèi)生領域的PCA-SVM算法模型

        醫(yī)療衛(wèi)生數(shù)據(jù)挖掘過程的核心步驟是數(shù)據(jù)挖掘算法模型。數(shù)據(jù)挖掘算法在醫(yī)療衛(wèi)生領域已有較多的應用,較為常見的有神經(jīng)網(wǎng)絡算法、決策樹算法以及SVM算法等。如何找出相對最優(yōu)數(shù)據(jù)域處理與挖掘算法模型是本文關注的重點。本節(jié)將結(jié)合醫(yī)療衛(wèi)生數(shù)據(jù)的特點,重點分析在數(shù)據(jù)預處理階段的PCA算法以及面向數(shù)據(jù)分析處理階段的SVM算法,并結(jié)合這兩種方法提出了一種面向醫(yī)療衛(wèi)生領域的PCA-SVM算法模型。

        2.1PCA算法簡介

        主成分分析PCA是一種對數(shù)據(jù)樣本中的信息進行處理、壓縮和抽提的方法。PCA的思想是將原始數(shù)據(jù)樣本的n維特征映射到k維上(k

        通過主成分分析,原先高維的醫(yī)療衛(wèi)生數(shù)據(jù)集可以根據(jù)需要進行降維,提取數(shù)據(jù)中相對影響較大的主要的那部分特征,有利于提高后續(xù)數(shù)據(jù)挖掘的質(zhì)量。

        2.2SVM算法簡介

        支持向量機SVM是一個有監(jiān)督的學習模型,主要應用在模式識別、分類以及回歸分析等領域。它的建立基于結(jié)構(gòu)風險最小化原則,基礎則是統(tǒng)計學習理論。支持向量機在樣本信息有限的情況下,在模型的復雜性和學習能力之間尋找最佳折中,從而獲得最優(yōu)的推廣性能[10]。支持向量機建立一個決策曲面,該決策曲面即為分類超平面,進而最大化正例和反例之間的隔離邊緣,實現(xiàn)決策效果。

        學習機器在測試數(shù)據(jù)上的誤差率是以兩個參數(shù)的和為界。這兩個參數(shù)一個稱為訓練誤差率,另一個為依賴項,該項依賴于VC維數(shù)。在數(shù)據(jù)可分的情況下,對于前一項,支持向量機把它置為零,后一項則被最小化。支持向量機泛化能力較好,這個特性使得其在模式分類的問題上更有競爭力,是當前應用較多的數(shù)據(jù)挖掘分類方法。

        2.3PCA-SVM模型概述

        醫(yī)療衛(wèi)生數(shù)據(jù)不僅量大,而且有些維數(shù)較高,直接進行處理不僅較為不便,而且有些數(shù)據(jù)特征并不會對數(shù)據(jù)挖掘的結(jié)果起到積極的作用。PCA方法可以很好地起到數(shù)據(jù)降維等作用,去除這些影響小的特征有利于更好地進行數(shù)據(jù)挖掘工作,提高數(shù)據(jù)挖掘質(zhì)量和效率。SVM算法根據(jù)預處理后的訓練樣本訓練得到數(shù)據(jù)挖掘模型,在此過程中,通過參數(shù)的調(diào)節(jié)等得到最優(yōu)算法模型。然后可以利用此模型進行數(shù)據(jù)挖掘工作,進行結(jié)果評估和展示。

        本文結(jié)合這兩種算法的特點,在醫(yī)療衛(wèi)生數(shù)據(jù)的調(diào)研分析基礎上,提出了一種基于PCA-SVM的算法模型。首先利用PCA算法對樣本數(shù)據(jù)集進行降維處理,選取合適的樣本特征得到新的樣本數(shù)據(jù)集;然后使用SVM算法進行分類分析。整個流程如圖2所示。

        圖2 基于PCA-SVM的分類方法流程圖

        由圖2可知,原始數(shù)據(jù)的p維特征經(jīng)PCA算法預處理后降為k維特征,得到維數(shù)低、數(shù)據(jù)量小的新數(shù)據(jù)集。新數(shù)據(jù)集通過SVM分類器的處理后得出最終的分類計算結(jié)果。SVM分類器的分類模型具有學習機制,在啟動分類分析前需要使用一定量的樣本數(shù)據(jù)對SVM分類器進行訓練,從而得到最優(yōu)SVM分類器。

        3 PCA-SVM算法在醫(yī)療衛(wèi)生領域的應用分析

        3.1采用PCA進行醫(yī)療衛(wèi)生數(shù)據(jù)預處理操作

        我們采集n個病人的某種疾病數(shù)據(jù)樣本,每個樣本有p項診斷或檢查指標。這些指標數(shù)量較多,需要進行預處理,降低數(shù)據(jù)冗余,同時可以降低數(shù)據(jù)計算量,提高數(shù)據(jù)處理效率。通過主成分分析進行降維的步驟如下:

        (1) 原始指標數(shù)據(jù)的標準化

        現(xiàn)有采集到的n個某種疾病的病人診斷或檢查樣本,每個樣本有p項疾病指標,可得原始數(shù)據(jù)矩陣X=(Xij)n×p,i=1,2,…,n表示n個病人樣本,j=1,2,…,p表示p個疾病指標項,xij是具體的值,它表示的是第i個病人樣本的第j項疾病指標值。

        對數(shù)據(jù)進行標準化變換,這里我們采用Z-score法,變換公式如下:

        (2) 求指標數(shù)據(jù)的相關矩陣

        R=(rjk)p×p,j=1,2,…,p;k=1,2,…,p,rjk是一個相關系數(shù),表示的是疾病指標j與疾病指標k的相關系數(shù)。

        其中:

        (2)

        (3)

        (4)

        (5)

        有rii=1,rjk=rkj,i=1,2,…,n;j=1,2,…,p;k=1,2,…,p。

        (3) 根據(jù)相關矩陣,確定各個主成分

        由特征方程式|λIp-R|=0,可知其p個特征根。這p個特征根為λg(g=1,2,…,p),將這些特征根按遞減的順序排列為λ1≥λ2≥…≥λp≥0,它表示的是主成分的方差,它的大小表示的是這些主成分在描述被評價對象上所起作用的大小。由特征方程式可得,每一個特征根相對應一個特征向量Lg(Lg=lg1,lg2,…,lgp),g=1,2,…,p。

        這里我們得到主成分由標準化之后的指標變量得來:Fg=lg1Z1+lg2Z2+…+lgpZp(g=1,2,…,p) ,這里F1、F2、Fp分別稱為第一、第二、第p主成分。

        (4) 主成分個數(shù)的確定

        (5) 綜合評價k個主成分

        我們首先求出每一個主成分的線性加權(quán)值,如下所示:

        Fg=lg1Z1+lg2Z2+…+lgpZp

        (6)

        3.2利用SVM算法實現(xiàn)分類

        假設X為預處理后的醫(yī)療衛(wèi)生數(shù)據(jù)集,也稱為輸入向量,xi為支持向量,K為核函數(shù)。構(gòu)造SVM學習算法的關鍵是支持向量和輸入向量的內(nèi)積核。SVM是由小的子集構(gòu)成,這些子集由算法從訓練數(shù)據(jù)中來抽取。SVM算法步驟為:

        (1) 數(shù)據(jù)集的準備

        首先按照其軟件包所要求的格式準備好數(shù)據(jù)集,把樣本數(shù)據(jù)集分為訓練集和測試集以及訓練集標簽和測試集標簽。

        (2) 數(shù)據(jù)預處理,對數(shù)據(jù)進行簡單的縮放操作

        為提高分類準確度,需要對訓練集和測試集進行數(shù)據(jù)歸一化預處理,采用如下公式所示的歸一化映射:

        (7)

        式中,x,y∈Rn,xmin=min(x),xmax=max(x)。這一步使得原始數(shù)據(jù)被規(guī)整到[0,1]范圍內(nèi),即y∈[0,1],這種歸一化方式稱之為[0,1]區(qū)間歸一化。

        (3) 考慮選用核函數(shù)類型

        SVM的核函數(shù)有多種,這里我們選擇RBF(徑向基)核函數(shù)。函數(shù)公式如下:

        K(x,xi)=exp(-γ‖x-xi‖2)γ>0

        (8)

        (4) 選擇分類器的最佳參數(shù)c和g

        我們在K-CV情況下獲得c和g的最佳參數(shù),這里K取5,就是嘗試各種可能的(c,g)組合值,然后進行交叉驗證,找出使交叉驗證精讀最高的(c,g)組合。

        (5) 帶入訓練樣本集獲取SVM模型

        參數(shù)c和g得到后,帶入到軟件包中,便可以訓練出SVM模型。

        (6) 利用獲取的模型進行挖掘分析,得到結(jié)果

        利用訓練好的最優(yōu)算法模型,對PCA處理后的數(shù)據(jù)集進行挖掘分析,并對結(jié)果進行評估和展示。

        4 實驗結(jié)果及結(jié)論

        4.1實驗環(huán)境及數(shù)據(jù)

        本文實驗環(huán)境采用Windows操作系統(tǒng),在Matlab 2010b環(huán)境下使用LIBSVM軟件包進行仿真實驗。數(shù)據(jù)集采用了Cardiotocography數(shù)據(jù)集和Breast Cancer 數(shù)據(jù)集,可在http://archive.ics.uci.edu/ml/datasets.html上獲取。兩個數(shù)據(jù)集的說明如下:

        Cardiotocography數(shù)據(jù)集來自波爾圖醫(yī)學院,共有2126個樣本數(shù)據(jù),每個數(shù)據(jù)集有23個特征。取1600個樣本作為訓練數(shù)據(jù)集,其余的作為測試集,測試分類效果。數(shù)據(jù)集中的數(shù)據(jù)是測量胎心產(chǎn)力圖的胎心率和宮縮得到的,由專業(yè)的產(chǎn)科醫(yī)師對其進行了分類。最終根據(jù)胎兒的情況這些樣本數(shù)據(jù)被分成了3類,分別為normal(正常的)、suspect(疑似的)、pathologic(病態(tài)的)。Cardiotocography數(shù)據(jù)集可視化如圖3所示。

        圖3 Cardiotocography 數(shù)據(jù)集可視化圖

        Breast Cancer數(shù)據(jù)集來自威斯康星大學,共有569個樣本。其中取469個樣本作為訓練樣本,訓練SVM分類器,其余100個樣本作為測試樣本,測試分類效果。該數(shù)據(jù)集的每個樣本代表一個乳腺癌病例的隨訪數(shù)據(jù),這些病例數(shù)據(jù)分為malignant(惡性)、benign(良性)兩種。Breast Cancer數(shù)據(jù)集可視化如圖4所示。

        圖4 Breast Cancer數(shù)據(jù)集可視化圖

        4.2實驗過程及結(jié)果

        針對兩個數(shù)據(jù)集,利用主成分分析法分別對數(shù)據(jù)集進行預處理。每個數(shù)據(jù)集上選取k個主成分,k值由方差貢獻率來確定,這里我們選取方差貢獻率不小于85%的k個指標,完成了主成分分析,得到兩個新的數(shù)據(jù)集。接下來分別對兩個數(shù)據(jù)集進行劃分,分別拆分為訓練集和測試集。為提高效率,首先要對訓練集和測試集統(tǒng)一進行歸一化處理,之后就是用訓練集對SVM分類器進行訓練,用得到的SVM模型對測試集進行標簽測試。最后對Cardiotocography 數(shù)據(jù)集和Breast Cancer數(shù)據(jù)集進行分類。

        在進行1000次循環(huán)實驗的情況下,Cardiotocography 數(shù)據(jù)集和Breast Cancer數(shù)據(jù)集分類的平均準確率分別為91.5%和97.8%。每個數(shù)據(jù)集的詳細分類信息如表1和表2所示。

        表1 Cardiotocography data set詳細分類信息

        表2 Breast Cancer data set詳細分類信息

        表1中每個值代表該數(shù)據(jù)集中的三類數(shù)據(jù)(正常、疑似、病態(tài))經(jīng)過上述1000次循環(huán)實驗后被分到相應類別數(shù)據(jù)中的概率。例如:“正?!鳖悇e的數(shù)據(jù)被成功識別分到“正常”類別的概率為99.2%,錯分到“疑似”類別的概率為0.6%,錯分到“病態(tài)”類別的概率為0.1%。通過表1可知,在本文仿真實驗循環(huán)1000次的測試下,Cardiotocography data set中樣本類別為正常的數(shù)據(jù)樣本分類正確率為99.2%,類別為疑似的數(shù)據(jù)樣本分類正確率為90.3%,而類別為病態(tài)的數(shù)據(jù)樣本分類正確率為88%。

        表2中每個值代表該數(shù)據(jù)集中的兩類數(shù)據(jù)(惡性、良性)經(jīng)過上述1000次循環(huán)實驗后被分到相應類別數(shù)據(jù)中的概率。例如:“惡性”類別的數(shù)據(jù)被成功識別分到“惡性”類別的概率為95.5%,錯分到“良性”類別的概率為4.5%。通過表2可知,在本文仿真實驗循環(huán)1000次的測試下,Breast Cancer dataset中乳腺病例類別為惡性的數(shù)據(jù)樣本分類正確率為95.5%,而類別為良性的數(shù)據(jù)樣本分類正確率為99.1%。

        5 結(jié) 語

        本文基于醫(yī)療衛(wèi)生數(shù)據(jù)的數(shù)據(jù)量大、特征復雜、維數(shù)高等特點,提出了一種基于PCA-SVM的數(shù)據(jù)挖掘分類方法。該方法從數(shù)據(jù)分析挖掘的整個過程進行了分析,首先對數(shù)據(jù)進行主成分分析,選取具有代表性的特征,其次利用SVM算法對數(shù)據(jù)集進行建模,利用分類模型獲得最后的分類計算結(jié)果。通過對Cardiotocography數(shù)據(jù)集和Breast Cancer數(shù)據(jù)集的分類仿真實驗表明,本方法分類準確率較高,為醫(yī)療數(shù)據(jù)挖掘分類研究提供了一種新的思路和方法。

        [1] 王學松,郭強.醫(yī)療數(shù)據(jù)分析及數(shù)據(jù)挖掘方法的應用[J].電子技術(shù)與軟件工程,2014,21(2):218-219.

        [2] 陳霞,邱桃榮,魏玲玲,等.基于數(shù)據(jù)挖掘的病例數(shù)據(jù)預處理[J].計算機與現(xiàn)代化,2007,32(5):23-24.

        [3] 戴子卿,陳俐,鄒郢,等.基于聚類方法的醫(yī)療費用數(shù)據(jù)挖掘研究[J].中國病案,2014,15(10):66-68.

        [4] 鄭丹青.基于SPRINT算法的胃癌臨床醫(yī)療數(shù)據(jù)挖掘研究[J].吉林師范大學學報:自然科學版,2012,5(2):121-124.

        [5] 鄒志文,朱金偉.數(shù)據(jù)挖掘算法研究與綜述[J].計算機工程與設計,2005,26(9):2304-2307.

        [6] 韓紅霞. 醫(yī)療費用支付影響因素差異性研究[D].吉林:吉林大學,2014.

        [7] 劉昆,劉業(yè)政.基于決策樹的醫(yī)療數(shù)據(jù)分析[J].計算機工程,2002,28(2):41-43.

        [8] 楊超.基于BP神經(jīng)網(wǎng)絡的健康保險欺詐識別研究[D].青島:青島大學,2014.

        [9] Sch?lkopf B, Smola A, Müller K R. Nonlinear component analysis as a kernel eigenvalue problem[J].Neural Computation, 1998,10(5):1299-1319.

        [10] Graziella Orrù, PetterssonYeo W, Marquand A F, et al. Using Support Vector Machine to identify imaging biomarkers of neurological and psychiatric disease: A critical review[J].Neuroscience & Biobehavioral Reviews,2012,36(4):1140-1152.

        A MINING AND CLASSIFICATION METHOD FOR MEDICAL DATA BASED ON PCA-SVM

        Dai Bingrong1Wang Xiaoli2*Li Chao1Chen Jie2Shi Tianxing2

        1(ShanghaiDevelopmentCenterofComputerSoftwareTechnology,Shanghai201112,China)2(ShanghaiPudongResearchInstituteofHeathDevelopment,Shanghai200129,China)

        Current medical data presents the characteristics of large amount, various categories and complicated features, which bring certain challenge to data mining. According to these characteristics of medical data, we propose a data mining and classification method which is based on principal component analysis (PCA) and support vector machine (SVM), and elaborately study the algorithm model of this method and its specific implementation in medical and health sector. In the MATLAB environment we use two datasets of Cardiotocography dataset and Breast Cancer dataset to carry out simulation experiments. It is indicated by experimental results that the method has good classification effect provides a feasible thought for current medical data mining and classification.

        Medical dataData miningPrincipal component analysisSupport vector machine

        2015-03-04。浦東新區(qū)衛(wèi)生系統(tǒng)學科帶頭培養(yǎng)計劃(PWRd2014-12);上海市科技創(chuàng)新行動計劃項目(13dz1508500);院地合作專項(13DZ1512103,13DZ1512101);上海市軟科學研究計劃項目(14692103000)。戴炳榮,碩士,主研領域:云計算,大數(shù)據(jù),數(shù)據(jù)中心自動化。王曉麗,高工。李超,助理工程師。陳潔,助理工程師。施天行,助理工程師。

        TP3

        A

        10.3969/j.issn.1000-386x.2016.08.015

        猜你喜歡
        醫(yī)療衛(wèi)生數(shù)據(jù)挖掘預處理
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        為了醫(yī)療衛(wèi)生事業(yè)健康發(fā)展
        人大建設(2018年12期)2018-03-21 06:00:30
        基于預處理MUSIC算法的分布式陣列DOA估計
        制導與引信(2017年3期)2017-11-02 05:16:56
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        淺談PLC在預處理生產(chǎn)線自動化改造中的應用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        京津冀醫(yī)療衛(wèi)生合作之路
        京津冀醫(yī)療衛(wèi)生大聯(lián)合
        絡合萃取法預處理H酸廢水
        基于自適應預處理的改進CPF-GMRES算法
        手机看片福利一区二区三区| 日韩av在线手机免费观看| 抖射在线免费观看视频网站| 大又黄又粗又爽少妇毛片| 干日本少妇一区二区三区| 国产精品麻豆va在线播放| 一进一出一爽又粗又大| 粗一硬一长一进一爽一a级| 一区五码在线| 国产精品一区二区三区色| 国产一区二区资源在线观看| 中文字幕精品一区久久| 成在线人av免费无码高潮喷水| 性一乱一搞一交一伦一性| 伊人一道本| 成人性生交大片免费看7| 蜜桃传媒免费在线播放| 欧美成人猛交69| 色伦专区97中文字幕| 国产美女免费国产| 日本岛国一区二区三区| 人妻有码av中文幕久久| 潮喷失禁大喷水aⅴ无码| 国产女精品视频网站免费| 一本色道久久综合中文字幕| 国产视频一区二区三区久久亚洲| 亚洲精品乱码久久久久蜜桃| 久久久久99精品成人片试看| 无码伊人66久久大杳蕉网站谷歌| 蜜桃av一区二区三区| 九九久久精品国产免费av| 成年女人色毛片| 艳妇乳肉豪妇荡乳av无码福利 | 久久久久国产一级毛片高清版A| 日本在线一区二区在线| 免费观看a级毛片| 国产mv在线天堂mv免费观看| 极品人妻少妇一区二区| 激情五月开心五月av| 人妻少妇乱子伦无码视频专区| 性夜夜春夜夜爽aa片a|