亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大數(shù)據(jù)的腦卒中復(fù)發(fā)預(yù)測模型的構(gòu)建

2019-07-29 01:12:33陳莉平宋立冉

物聯(lián)網(wǎng)技術(shù) 2019年6期

陳莉平宋立冉?

摘要：我國臨床資料表明腦卒中具有較高的復(fù)發(fā)率，采用風(fēng)險預(yù)測模型及時對腦卒中患者進(jìn)行智能化的復(fù)發(fā)風(fēng)險篩查，識別腦卒中高復(fù)發(fā)人群具有重要意義。文中提出基于腦卒中患者數(shù)據(jù)建立腦卒中大數(shù)據(jù)應(yīng)用平臺，通過采集和集成腦卒中患者的數(shù)據(jù)，提取導(dǎo)致腦卒中復(fù)發(fā)的重要危險因素，在此基礎(chǔ)上，采用基于機(jī)器學(xué)習(xí)的集成學(xué)習(xí)框架在平臺的數(shù)據(jù)分析層構(gòu)建腦卒中復(fù)發(fā)風(fēng)險評估模型。目前已開發(fā)了腦卒中復(fù)發(fā)預(yù)測模型的原型系統(tǒng)，腦卒中平臺業(yè)務(wù)管理人員可利用平臺的預(yù)測模型對腦卒中初患人群進(jìn)行復(fù)發(fā)風(fēng)險預(yù)測。

關(guān)鍵詞：腦卒中;復(fù)發(fā);大數(shù)據(jù);機(jī)器學(xué)習(xí);集成學(xué)習(xí)算法;危險因素;預(yù)測模型;原型系統(tǒng)

中圖分類號：TP274 文獻(xiàn)標(biāo)識碼：A 文章編號：2095-1302（2019）06-00-05

0 引言

腦卒中是由腦血管病變發(fā)展到一定程度導(dǎo)致的，具有較高發(fā)病率、致殘率和死亡率，已成為當(dāng)今世界嚴(yán)重危害人類健康和生命安全的重大疾病。中國卒中協(xié)會2015年首次發(fā)布的中國卒中報告顯示，目前我國腦卒中發(fā)生率正以每年8.7%的速度上升[1]，每年死于腦卒中的患者達(dá)到130萬，腦卒中在我國已成為第一位死亡原因[2]。因此，若能及時采用有效的風(fēng)險評估工具對患者進(jìn)行復(fù)發(fā)危險因素篩查，識別高復(fù)發(fā)風(fēng)險患者，提高高?；颊叩娘L(fēng)險意識并積極控制危險因素，對降低腦卒中復(fù)發(fā)率、致殘率和死亡率有重大意義[3]。目前在臨床上用于篩查及預(yù)測腦卒中復(fù)發(fā)風(fēng)險的工具較多，但均是基于外國人群研發(fā)的評估模型。在國內(nèi)也有學(xué)者采用回顧性隊列研究方法，通過對腦卒中患者進(jìn)行隨訪，構(gòu)建復(fù)發(fā)的預(yù)測模型[4]，但是選擇的樣本量偏少，在實際應(yīng)用中對臨床決策指導(dǎo)意義不大。隨著大數(shù)據(jù)處理技術(shù)的出現(xiàn)，醫(yī)療及健康數(shù)據(jù)也不斷增加，醫(yī)療、健康、衛(wèi)生等領(lǐng)域也進(jìn)入了大數(shù)據(jù)時代[5]，當(dāng)前已有采用大數(shù)據(jù)對患者慢病進(jìn)行危險因素評估和個性化干預(yù)的研究出現(xiàn)[6]?；谝陨蠋c，我們對腦卒中國內(nèi)外復(fù)發(fā)風(fēng)險評估模型的應(yīng)用情況進(jìn)行了詳細(xì)分析，研究并初步建立了腦卒中大數(shù)據(jù)平臺，并以此為基礎(chǔ)構(gòu)建腦卒中復(fù)發(fā)預(yù)測原型系統(tǒng)，以期在臨床上幫助醫(yī)生對高復(fù)發(fā)風(fēng)險患者進(jìn)行早期、準(zhǔn)確、快速地識別，同時幫助患者和家屬將患者病情轉(zhuǎn)化成積極有效的二級預(yù)防干預(yù)，這對減少腦卒中的復(fù)發(fā)具有現(xiàn)實意義。

1 基于大數(shù)據(jù)模型構(gòu)建需求

1.1 國外評估模型

針對腦卒中患者的復(fù)發(fā)風(fēng)險評估，當(dāng)前臨床主要采用ABCD評分系統(tǒng)、Essen量表和SPI-II量表等評測工具，其提出的時間較早，且都是基于外國人群研發(fā)的評估模型。隨著國人生活方式的改變和生活節(jié)奏的加快，卒中患者有年輕化的趨勢，基于不同的人群組，各危險因素的賦分權(quán)重是否合理尚未被證實，因此，針對國人來說，這些模型的預(yù)測作用較為有限，進(jìn)一步建立和完善適合國人的腦卒中預(yù)測風(fēng)險評估模型，發(fā)現(xiàn)新的危險因素具有重要意義。

1.2 本土評估模型

國內(nèi)學(xué)者主要采用回顧性隊列研究方法構(gòu)建腦卒中復(fù)發(fā)的預(yù)測模型，將符合腦卒中診斷標(biāo)準(zhǔn)，且首次卒中，并在一定時間內(nèi)入院的患者作為研究對象，研究過程如下：

（1）記錄患者個人信息、既往史、家族史、生活習(xí)慣、入院時的臨床量表評分、入院幾小時內(nèi)的血壓檢測結(jié)果、入院幾天內(nèi)的實驗室檢查結(jié)果;

（2）設(shè)計患者隨訪量表，包括患者出院后用藥、血壓、血糖、血脂和康復(fù)情況;

（3）隨訪采用電話隨訪和信訪等形式，以患者發(fā)病時間為起點，患者腦卒中復(fù)發(fā)，失訪或死亡為終點;

（4）運用統(tǒng)計學(xué)方法進(jìn)行建模和驗證。構(gòu)建這類模型所采用的樣本較少，不具有代表性，且樣本來源僅限于研究者所選定的地區(qū)，覆蓋面較窄，所構(gòu)建的預(yù)測模型在實際應(yīng)用中對臨床決策指導(dǎo)意義不大。

1.3 卒中患者數(shù)據(jù)存儲存在的問題

在當(dāng)前我國腦卒中防治體系中，不同機(jī)構(gòu)會間接或直接涉入到對同一患者的治療和康復(fù)管理過程中，并對患者在院前、院中、院后各個治療階段和康復(fù)過程中產(chǎn)生的數(shù)據(jù)各自存儲。在數(shù)據(jù)來源和記錄方面，不同機(jī)構(gòu)所采用的記錄類型和規(guī)則也不同，從而導(dǎo)致數(shù)據(jù)的共享極度困難，更無法自動從卒中患者完整的數(shù)據(jù)信息中挖掘出有價值的預(yù)測模型。因此，迫切需要構(gòu)建腦卒中大數(shù)據(jù)平臺，采集和集成腦卒中患者數(shù)據(jù)（患者個人信息，臨床特征、既往史、家族史、生活習(xí)慣、實驗室數(shù)據(jù)、住院診療情況，卒中后二次復(fù)發(fā)等信息），基于這些信息構(gòu)建用于國人腦卒中復(fù)發(fā)預(yù)測的評估模型，并將達(dá)到一定成熟度和預(yù)測性能指標(biāo)的模型自動地對系統(tǒng)新采集進(jìn)來的既往腦卒史患者實施及時和有效的篩查是建立腦卒中大數(shù)據(jù)管理分析平臺的現(xiàn)實需求。

2 腦卒中健康大數(shù)據(jù)管理平臺構(gòu)建

2.1 平臺的功能架構(gòu)

采用Hadoop作為基本的分布式執(zhí)行架構(gòu)，構(gòu)建腦卒中大數(shù)據(jù)平臺，并在該架構(gòu)上配置R與Spark等分析工具，形成集腦卒中患者數(shù)據(jù)采集、存儲、分析、模型學(xué)習(xí)、風(fēng)險預(yù)測等應(yīng)用服務(wù)系統(tǒng)。平臺功能主要由患者卒中后五年內(nèi)數(shù)據(jù)采集與存儲管理系統(tǒng)、基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析系統(tǒng)和腦卒中復(fù)發(fā)預(yù)測應(yīng)用服務(wù)等構(gòu)成。數(shù)據(jù)采集與數(shù)據(jù)存儲系統(tǒng)主要對來自不同機(jī)構(gòu)患者的數(shù)據(jù)進(jìn)行采集、異構(gòu)數(shù)據(jù)的集成、數(shù)據(jù)存儲、數(shù)據(jù)加密和權(quán)限認(rèn)證等;數(shù)據(jù)分析系統(tǒng)對大數(shù)據(jù)進(jìn)行分析和處理，篩選腦卒中復(fù)發(fā)危險影響因素，并在此基礎(chǔ)上部署機(jī)器學(xué)習(xí)算法，通過對危險因素元組數(shù)據(jù)集進(jìn)行訓(xùn)練學(xué)習(xí)，以構(gòu)建腦卒中復(fù)發(fā)風(fēng)險評估模型;應(yīng)用服務(wù)系統(tǒng)主要基于訓(xùn)練完成的復(fù)發(fā)風(fēng)險評估模型自動、快速對新集成的卒中患者的復(fù)發(fā)風(fēng)險進(jìn)行預(yù)測、預(yù)警和識別，為決策支持、科研應(yīng)用、健康服務(wù)和智能輔助診斷提供應(yīng)用支持，功能架構(gòu)如圖1所示。數(shù)據(jù)分析與機(jī)器學(xué)習(xí)算法部署是平臺的核心，包括構(gòu)建算法學(xué)習(xí)接口，調(diào)用R平臺機(jī)器學(xué)習(xí)算法庫等。

2.2 腦卒中大數(shù)據(jù)管理

腦卒中大數(shù)據(jù)管理服務(wù)主要解決平臺腦卒中大數(shù)據(jù)采集、讀取、存儲、集成及安全性等問題，為后期的數(shù)據(jù)建模、分析及預(yù)測提供穩(wěn)定、及時和智能化的支持。

2.2.1 數(shù)據(jù)采集??腦卒中患者大數(shù)據(jù)管理平臺實現(xiàn)以腦卒中患者為采集對象，利用數(shù)據(jù)接入及導(dǎo)入工具對分散在基地醫(yī)療機(jī)構(gòu)、社區(qū)衛(wèi)生中心、保健機(jī)構(gòu)、體檢機(jī)構(gòu)、醫(yī)院等不同腦卒中數(shù)據(jù)源所在的各級機(jī)構(gòu)中的患者信息進(jìn)行采集和集成，最終形成一個研究型和結(jié)構(gòu)化的卒中患者病歷信息庫。采集內(nèi)容涉及患者個人信息、既往史、家族史、實驗室數(shù)據(jù)、住院診療數(shù)據(jù)、階段性隨訪數(shù)據(jù)、體檢數(shù)據(jù)等。數(shù)據(jù)導(dǎo)入針對腦卒中各類異構(gòu)數(shù)據(jù)源提供可兼容的異構(gòu)數(shù)據(jù)采集接口，實現(xiàn)對不同來源，不同機(jī)構(gòu)下的SQL Server Oracle，MySQL，PostgreSQL等多種關(guān)系數(shù)據(jù)庫數(shù)據(jù)的數(shù)據(jù)導(dǎo)入;在數(shù)據(jù)采集策略上，支持全量、批量、實時數(shù)據(jù)的接入及導(dǎo)入;在離線數(shù)據(jù)獲取方面，支持HDFS，F(xiàn)TP，文本文件等日志類數(shù)據(jù)文件;也可對Flume，Kafka等流式數(shù)據(jù)實現(xiàn)實時入。

2.2.2 數(shù)據(jù)存儲與管理

在平臺數(shù)據(jù)的存儲和管理端，針對數(shù)據(jù)集成后患者信息的保密性和涉及患者隱私的數(shù)據(jù)安全性制定管理策略，同時保證能對集成后的數(shù)據(jù)執(zhí)行高效的數(shù)據(jù)部署、讀寫和存儲，平臺所采用的技術(shù)集中在以下方面：

（1）數(shù)據(jù)脫敏。在應(yīng)對數(shù)據(jù)安全性的策略上，平臺對集成的患者個人信息中的姓名、社保卡號、出生日期、身份證號、家庭住址、聯(lián)系方式、家族病史、個人病史等，根據(jù)不同信息的隱私保密程度和后期使用要求，采用重要信息遮蔽、混合屏蔽、確定性屏蔽等方式進(jìn)行去隱私化處理。針對其他重要數(shù)據(jù)信息，根據(jù)數(shù)據(jù)的類型，采用數(shù)據(jù)變形、數(shù)據(jù)范化等抽象處理策略，在保證用戶數(shù)據(jù)安全的同時，更好地保留數(shù)據(jù)特征及關(guān)聯(lián)關(guān)系，以服務(wù)于下一步數(shù)析。

（2）數(shù)據(jù)高效存儲。針對結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)，就診記錄、病程記錄、住院記錄等文本半結(jié)構(gòu)化數(shù)據(jù)，圖像及影像非結(jié)構(gòu)化等異構(gòu)數(shù)據(jù)進(jìn)行集成后，在數(shù)據(jù)的存儲策略上，平臺采用基于Hadoop架構(gòu)下的（HDFS）分布式文件系統(tǒng)等技術(shù)實現(xiàn)數(shù)據(jù)的存儲，根據(jù)不同的數(shù)據(jù)類型，采用分布式存儲方式將數(shù)據(jù)部署在集群各DataNode中，并由DataNode對這些數(shù)據(jù)進(jìn)行統(tǒng)一管理，形成一個具有廣闊擴(kuò)展能力、在不同地點部署及同步處理能力、可管理海量級別數(shù)據(jù)文件，消除傳統(tǒng)數(shù)據(jù)存儲中存儲元數(shù)據(jù)困擾的分布式數(shù)據(jù)存儲系統(tǒng)。

2.3 腦卒中大數(shù)據(jù)分析

疾病風(fēng)險預(yù)測的構(gòu)建思想，通常是把人群中臨床事件發(fā)生前收集的相關(guān)危險因素信息與最終是否發(fā)病等臨床結(jié)果建立聯(lián)系，以形成風(fēng)險預(yù)測評估模型[7-8]，在腦卒中大數(shù)據(jù)平臺數(shù)據(jù)分析層，基于風(fēng)險預(yù)測評估模型的這種實現(xiàn)思想，結(jié)合集群的分布式處理功能，以R為分析工具，利用其靈活和易于使用的腳本語言，對腦卒中大數(shù)據(jù)經(jīng)過預(yù)處理后的數(shù)據(jù)進(jìn)行深入分析，提取腦卒中患者復(fù)發(fā)的重要影響因素，在平臺的數(shù)據(jù)分析層部署基于機(jī)器學(xué)習(xí)的集成學(xué)習(xí)算法以構(gòu)建腦卒中復(fù)發(fā)風(fēng)險評估模型，用于腦卒中管理業(yè)務(wù)中腦卒中復(fù)發(fā)高危人群的識別。

2.3.1 數(shù)據(jù)預(yù)處理腦卒中患者的管理數(shù)據(jù)來源廣泛，數(shù)據(jù)形式多樣，涉及種類較多，為了實現(xiàn)腦卒中大數(shù)據(jù)的挖掘和分析，平臺對患者數(shù)據(jù)中的性別、年齡、冠心病、房顫、收縮壓、舒張壓、甘油三酯、同型半胱氨酸、低密度脂蛋白、高密度脂蛋白、C-反應(yīng)蛋白、血糖、總膽固醇、吸煙史、飲酒史、二次卒中情況、體力活動、脂蛋白、體重指數(shù)、尿酸、高血壓家族史、糖尿病家族史、高血壓病史、糖尿病病史、卒中家族史等涉及腦卒中危險因素的相關(guān)數(shù)據(jù)進(jìn)行清洗、插補缺失值、規(guī)范數(shù)據(jù)格式、不合理樣本去除等操作，并將常規(guī)腦卒中影響因素作為建模變量進(jìn)行賦值，使數(shù)據(jù)格式和質(zhì)量符合建模的要求，數(shù)據(jù)處理后的結(jié)果見表1所列。

2.3.2 腦卒中危險因素重要屬性篩選將平臺上腦卒中大數(shù)據(jù)集群中經(jīng)過數(shù)據(jù)預(yù)處理后的腦卒中危險因素數(shù)據(jù)集進(jìn)行隨機(jī)采樣，并根據(jù)數(shù)據(jù)集中危險因素的數(shù)據(jù)類型（分類屬性或數(shù)值屬性），采用不同的單因素分析方法對影響腦卒中復(fù)發(fā)的顯著性因素進(jìn)行篩選。具體篩選方式：將患者的性別、高血壓病病史、糖尿病病史、冠心病病史、房顫史、吸煙史、飲酒史、體力活動、高血壓家族史、卒中家族史、糖尿病家族史等具有分類屬性的變量與卒中復(fù)發(fā)史進(jìn)行卡方檢驗;將年齡、同型半胱氨酸、收縮壓、舒張壓、甘油三酯、低密度脂蛋白、高密度脂蛋白、C反應(yīng)蛋白、血糖、總膽固醇、體重指數(shù)、尿酸等具有連續(xù)屬性的變量在二次卒中組和非卒中組間進(jìn)行獨立樣本T檢驗。通過單因素分析，最終獲取各個集群中具有顯著意義的腦卒中影響指標(biāo)，并基于顯著性指標(biāo)形成腦卒中元組數(shù)據(jù)集，用作后續(xù)的數(shù)據(jù)分析及建模。

2.3.3 腦卒中復(fù)發(fā)風(fēng)險學(xué)習(xí)模型部署

機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以及完成編程無法完成的功能的方法，通過利用學(xué)習(xí)算法對數(shù)據(jù)進(jìn)行訓(xùn)練，并將滿足性能要求的模型對數(shù)據(jù)進(jìn)行范化預(yù)測，該方法已成功被運用在健康管理、疾病風(fēng)險預(yù)測等領(lǐng)域[9]。因考慮到平臺所集成的卒中數(shù)據(jù)量級，卒中患者在卒中后五年內(nèi)具有很高的復(fù)發(fā)率，各個數(shù)據(jù)維度基本不存在嚴(yán)重的稀疏性，數(shù)據(jù)在集成學(xué)習(xí)前也已做過預(yù)處理，因此在針對平臺數(shù)據(jù)學(xué)習(xí)算法的部署上，機(jī)器學(xué)習(xí)集成算法應(yīng)用場景較多，將決策樹作為基分類器，在大部分分類器上的AdaBoost[10]器集成學(xué)習(xí)算法框架。該框架能基于多個學(xué)習(xí)器創(chuàng)建一個較強學(xué)習(xí)器，相比其他學(xué)習(xí)框架，集成學(xué)習(xí)不會對數(shù)據(jù)過度擬合，可顯著降低泛化錯誤率，具有更強的容錯和抗擾動能力，在達(dá)到同等性能的情況下，所用學(xué)習(xí)時間最短。算法原理如圖2所示。

在算法的執(zhí)行端，平臺結(jié)合數(shù)據(jù)集群的分布式處理功能，以R為分析工具，調(diào)用其內(nèi)置的AdaBoost集成學(xué)習(xí)算法庫，對平臺上經(jīng)過處理后分布存儲的腦卒中元組數(shù)據(jù)集進(jìn)行學(xué)習(xí)和建模，學(xué)習(xí)算法如下：

具體的學(xué)習(xí)方案：

（1）從腦卒中指標(biāo)數(shù)據(jù)集中隨機(jī)抽取75%的樣本數(shù)據(jù)集用來訓(xùn)練模型，余下25%的數(shù)據(jù)作為測試集用以評估模型的性能;

（2）對訓(xùn)練數(shù)據(jù)集的權(quán)值分布進(jìn)行初始化處理，每一個訓(xùn)練樣本初始賦予相同的權(quán)重;

（3）第一個分類器嘗試使用決策樹對訓(xùn)練數(shù)據(jù)建模，并根據(jù)預(yù)測結(jié)果調(diào)整其在下一個分類器訓(xùn)練數(shù)據(jù)中樣本的權(quán)重，如果在上一個分類器的預(yù)測中，一個卒中復(fù)發(fā)/無復(fù)發(fā)被執(zhí)行錯誤分類成無復(fù)發(fā)/復(fù)發(fā)，那么在下次分類器的訓(xùn)練樣本采樣過程中，該錯誤樣本就會被賦予較高的權(quán)重，以使其能夠以較高的概率被抽中納入到本次分類器，反之，降低上次被正確預(yù)測樣本的權(quán)重到本次分類器，以提高樣本被正確分類的概率，再用調(diào)整權(quán)重后的樣本對下一個分類器進(jìn)行訓(xùn)練，從而依此迭代訓(xùn)練數(shù)據(jù)集。具體的迭代次數(shù)取決于十折交叉驗證的結(jié)果;

（4）在各類分類器的訓(xùn)練過程結(jié)束后，加大分類誤差率小的分類器的權(quán)重，使其在最終的分類函數(shù)中起決定作用，降低分類誤差率大的分類器的權(quán)重，并最終將多個訓(xùn)練得到的分類器組合成決策型強分類器;

（5）隨著平臺上新卒中患者數(shù)據(jù)的不斷采集，更新訓(xùn)練集并重復(fù)以上過程，直到模型的預(yù)測性能不再提高為止。

3 腦卒中復(fù)發(fā)預(yù)測原型系統(tǒng)

目前已完成腦卒中數(shù)據(jù)平臺的初步搭建，實現(xiàn)了腦卒中患者數(shù)據(jù)的采集和存儲，集成了多達(dá)上萬例腦卒中患者數(shù)據(jù)，平臺在對當(dāng)前腦卒中患者數(shù)據(jù)進(jìn)行預(yù)處理后，從腦卒中影響因素中篩查得出，患者的年齡、高血壓、甘油三酯、冠心病、高血壓家族史、體重指數(shù)、總膽固醇、同型半胱氨酸、高密度脂蛋白等指標(biāo)是導(dǎo)致腦卒中復(fù)發(fā)的前9項顯著性影響因素，影響腦卒中復(fù)發(fā)的前9位因素重要性對比如圖3所示。

平臺執(zhí)行已部署完成的AdaBoosting機(jī)器集成算法，針對當(dāng)前平臺上萬例腦卒中患者數(shù)據(jù)，將腦卒中元組數(shù)據(jù)集中的7 000例用作腦卒中復(fù)發(fā)風(fēng)險評估模型構(gòu)造的訓(xùn)練數(shù)據(jù)集，將剩下的3 000多例數(shù)據(jù)作為模型的測試集，運用準(zhǔn)確率、敏感性、特異性、Kappa、Auc等指標(biāo)參數(shù)和ROC曲線來評估平臺當(dāng)前模型的預(yù)測性能。

當(dāng)前模型性能參數(shù)包括準(zhǔn)確性：0.83，靈敏度：0.85，特異性：0.81，陽性預(yù)測度：0.93，陰性預(yù)測度：0.81，Kappa：0.66，Auc=0.88。準(zhǔn)確性為0.83，表明平臺當(dāng)前所采集和集成的數(shù)據(jù)集訓(xùn)練得到的預(yù)測模型能夠?qū)δX卒中患者是否復(fù)發(fā)的預(yù)測準(zhǔn)確性達(dá)到83%;靈敏度為0.85，說明患者被正確分類的比例達(dá)到85%;陽性預(yù)測度為0.93，意味著模型在預(yù)測時，患者極有可能像陽性才會預(yù)測為陽性，其可以仔細(xì)定位到陽性患者，同時忽略非陽性患者，說明模型不太容易因無意義的噪聲而減弱其預(yù)測準(zhǔn)度;Kappa達(dá)到0.66，也表明腦卒中患者是否復(fù)發(fā)的預(yù)測結(jié)果與其實際結(jié)果之間達(dá)到不錯的一致性。當(dāng)前預(yù)測模型的ROC曲線如圖4所示，圖中ROC曲線離45°的分類器基準(zhǔn)線距離較遠(yuǎn)，ROC曲線下面積Auc達(dá)到0.88，說明分類器分類效果良好。

4 結(jié) 語

本文對腦卒中患者大數(shù)據(jù)的應(yīng)用需求進(jìn)行了分析，并采用大數(shù)據(jù)技術(shù)對卒中患者在治療過程中相關(guān)醫(yī)療記錄進(jìn)行集成和存儲，已初步完成了腦卒中數(shù)據(jù)平臺的搭建，并在平臺的數(shù)據(jù)分析層部署了腦卒中重要危險因素篩查和基于機(jī)器學(xué)習(xí)AdaBoost學(xué)習(xí)算法。根據(jù)平臺原型從當(dāng)前采集到的數(shù)據(jù)篩查結(jié)果來看，年齡、高血壓、甘油三酯、冠心病、高血壓家族史、體質(zhì)指數(shù)、總膽固醇、同型半胱氨酸、高密度脂蛋白等指標(biāo)是導(dǎo)致腦卒中復(fù)發(fā)的顯著因素。從算法針對7 000多例腦卒中患者數(shù)據(jù)訓(xùn)練出的結(jié)果來看，模型具有較好的泛化能力（準(zhǔn)確性：0.83，靈敏度：0.85，特異性：0.81，陽性預(yù)測度：0.93，陰性預(yù)測度：0.81，Kappa：0.66，Auc=0.88），當(dāng)前數(shù)據(jù)所建立的模型能夠?qū)δX卒中初次患病后的人群進(jìn)行復(fù)發(fā)風(fēng)險預(yù)測。隨著采集和接入更多的卒中患者數(shù)據(jù)，模型可達(dá)到更為準(zhǔn)確的預(yù)測效果。根據(jù)未來平臺應(yīng)用者使用需求深度的增強，可在平臺上部署其他數(shù)據(jù)分析算法，以對卒中數(shù)據(jù)做更深層次的挖掘，為決策支持、科研應(yīng)用、健康服務(wù)和智能輔助診斷提供更加準(zhǔn)確的參考依據(jù)。

參考文獻(xiàn)

[1]廖美容，周義杰，蘇丹.自擬中經(jīng)2號方治療中風(fēng)急性期的療效評價[J].右江醫(yī)學(xué)，2013，41（4）：573-575.

[2] WU X，ZHU B，F(xiàn)U L.Prevalence，incidience，and mortality of stroke in the Chinese island populations：a systematic review[J].PLoS One，2013，8（11）：67-69.

[3] PADHUKASAHASRAM B，HALPERIN E，WESSEL J，et al.Presymptomatic risk assessment for chronic non-communicable disease[J].PloS one，2010，5（12）：96-99

[4]安雅臣，王玉潯，張江，等.缺血性腦卒中復(fù)發(fā)預(yù)測模型的構(gòu)建[J].中國康復(fù)理論與實踐，2013，19（3）：210-213.

[5]潘驚萍，張子武.醫(yī)療衛(wèi)生大數(shù)據(jù)探索[J].中國衛(wèi)生信息管理雜志，2016，13（4）：187-189.

[6] STEINBERG G B，CHURCH B W，MCCALL C J，et al.Novel predictive models for metabolic syndrome risk：a“big data”analytic approach[J].The American journal of managed care，2014，20（6）：211-218.

[7]鄧乃揚.支持向量機(jī)-理論、算法與擴(kuò)展[D].北京：科學(xué)出版社，2009.

[8]劉建平，程錦泉.應(yīng)用分類樹模型構(gòu)建缺血性腦卒中發(fā)病風(fēng)險的預(yù)測模型[J].中國慢性病預(yù)防與控制，2012，20 （3）：257.

[9]宗慧，趙韡.應(yīng)用機(jī)器學(xué)習(xí)算法構(gòu)建心梗患者風(fēng)險預(yù)測模型[J].中國數(shù)字醫(yī)學(xué)，2016（4）：36.

[10] ALFARO E，GAMEZ M，GARCIA N.Adabag-an R packages for classif-ication with boosting and bagging[J].Journal of statistical software，2013（54）：1-35.