健康大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域中的應用與挑戰(zhàn)
孟潤堂,羅藝,宇傳華,邱杰,周達
作者單位:430071湖北省武漢市,武漢大學公共衛(wèi)生學院(孟潤堂,宇傳華);寧波衛(wèi)生職業(yè)技術(shù)學院護理學院(羅藝);武漢大學全球健康研究中心(宇傳華);湖北省衛(wèi)生計生信息中心(邱杰,周達)
通信作者:宇傳華,430071湖北省武漢市,武漢大學公共衛(wèi)生學院,武漢大學全球健康研究中心;E-mail:yuchua@163.com
【摘要】隨著衛(wèi)生信息化建設(shè)進程的提速,醫(yī)療衛(wèi)生與大數(shù)據(jù)正發(fā)生激烈“碰撞”,交叉形成了健康大數(shù)據(jù)這一新興概念,健康大數(shù)據(jù)必將對未來民眾健康產(chǎn)生深遠影響。本文介紹了健康大數(shù)據(jù)的基本概念和特點,簡要闡明了健康大數(shù)據(jù)的處理相關(guān)技術(shù),重點闡述了健康大數(shù)據(jù)在疾病預測與預防、循證公共衛(wèi)生決策、健康管理、健康監(jiān)測與個性化醫(yī)療服務(wù)等方面的應用,指出了健康大數(shù)據(jù)當前所面臨的諸如醫(yī)學倫理學、關(guān)鍵技術(shù)突破、“誤差”甄別等方面的挑戰(zhàn)。以期為更好地推動大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域中的應用發(fā)揮積極指導作用。
【關(guān)鍵詞】數(shù)據(jù)挖掘;公共衛(wèi)生信息學;健康大數(shù)據(jù)
基金項目:湖北省衛(wèi)計委2014年“湖北省人口健康信息平臺相關(guān)管理規(guī)范研究”子課題;湖北省衛(wèi)計委“衛(wèi)生計生統(tǒng)計工作規(guī)范研究”
【中圖分類號】R-056
收稿日期:(2015-06-20;
孟潤堂,羅藝,宇傳華,等.健康大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域中的應用與挑戰(zhàn)[J].中國全科醫(yī)學,2015,18(35):4388-4392.[www.chinagp.net]
Meng RT,Luo Y,Yu CH,et al.Application and challenges of healthy big data in the field of public health[J].Chinese General Practice,2015,18(35):4388-4392.
Application and Challenges of Healthy Big Data in the Field of Public HealthMENGRun-tang,LUOYi,YUChuan-hua,etal.SchoolofPublicHealth,WuhanUniversity,Wuhan430071,China
Abstract【】With the speeding process of medical health informatization construction,"Fierce Collision" occurs between public health and big data,forming an emerging concept which is healthy big data.It will produce a profound influence on people′s health in the future.This paper introduced the basic concepts and characteristics of healthy big data,briefly described the correlative technique of processing healthy big data in the area of public health,emphasized on the prediction and prevention of disease,evidence-based decision-making in public health,health management,health monitoring,personalized medical service and other aspects,and pointed out the main challenges,such as medical ethics,key technology breakthroughs,"errors" identification and so on,with a view to better promote big data application to play a positive guiding role in public health.
【Key words】Data mining;Public health informatics;Healthy big data
大數(shù)據(jù)正在改變?nèi)藗兊纳罴袄斫馐澜绲姆绞?,且更多的改變正蓄勢待發(fā)[1]。2012-03-22,奧巴馬政府宣布投資2億美元拉動大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家戰(zhàn)略,認為大數(shù)據(jù)為“未來的新石油”。2014-03-05,“大數(shù)據(jù)”首次進入我國政府工作報告;2014-11-15,李克強總理提出在疾病防治、災害預防、社會保障、電子政務(wù)等領(lǐng)域開展大數(shù)據(jù)應用示范。2015-08-19,國務(wù)院通過《關(guān)于促進大數(shù)據(jù)發(fā)展的行動綱要》(簡稱《綱要》),在全社會引起廣泛影響?!犊茖W》雜志于2014年底和2015年初分別刊登了“公共衛(wèi)生遇上了大數(shù)據(jù)”和“將大數(shù)據(jù)納入公共衛(wèi)生系統(tǒng)[2-3]”兩篇文章,指出“強大的流行病學基礎(chǔ)、穩(wěn)健的知識整合、循證醫(yī)學原
圖1 大數(shù)據(jù)的4V特點
注:虛線框表示數(shù)據(jù)搜集過程可以簡化省略,如自由自愿貢獻數(shù)據(jù)的眾包(CrowdSouring)搜集形式;SQL=關(guān)系數(shù)據(jù)庫,NoSQL=非關(guān)系數(shù)據(jù)庫,HDFS= Hadoop分布式文件系統(tǒng);HBASE=Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)
圖2大數(shù)據(jù)平臺技術(shù)架構(gòu)
Figure 2Technology framework of big data
則以及拓展的轉(zhuǎn)化研究議程”可以推動大數(shù)據(jù)在公共衛(wèi)生方面的應用,這些均預示著公共衛(wèi)生大數(shù)據(jù)研究的春天即將來臨。大數(shù)據(jù)給人們帶來的最直接利益就是對未來的預見,其可指導民眾規(guī)避健康風險、預防疾病、提升生命質(zhì)量。我國作為世界人口基數(shù)最大國,具有其他國家難以比擬的基礎(chǔ)數(shù)據(jù)優(yōu)勢,海量公共衛(wèi)生大數(shù)據(jù)亟待挖掘、整合、利用。
1概念與特點
“大數(shù)據(jù)”是指成批大規(guī)模的、復雜的、可鏈接的數(shù)據(jù)信息。除基因組學信息外,還包括醫(yī)療信息、環(huán)境信息、金融信息、地理信息和社會媒體信息等[2]。健康大數(shù)據(jù)是與維持機體健康或引起機體發(fā)生疾病/亞健康狀態(tài)有關(guān)聯(lián)的生活行為方式、遺傳、社會環(huán)境因素及醫(yī)療過程中可以測量記錄的數(shù)據(jù)信息,涉及某地區(qū)的所有人群?;诮】荡髷?shù)據(jù)可對全人群進行健康測量與評價,以形成正確的干預措施,促進人群健康。
大數(shù)據(jù)的特點可總結(jié)為海量(Volume)、多樣(Variety)、快速(Velocity)、價值(Value)4個V[4-5],即大、雜、快、疑等四個特點,具體解釋見圖1。
2相關(guān)技術(shù)
大數(shù)據(jù)作為一種基礎(chǔ)性資源,被處理后才能顯現(xiàn)其潛在價值,那么如何更好地處理和利用大數(shù)據(jù)就顯得非常重要。傳統(tǒng)數(shù)據(jù)分析包括聚類分析、因子分析、相關(guān)分析、回歸分析、數(shù)據(jù)挖掘算法等方法,通過挖掘、萃取、提煉以及整合數(shù)據(jù),以最大化發(fā)揮數(shù)據(jù)的效用。
在分析大數(shù)據(jù)時傳統(tǒng)數(shù)據(jù)分析方法依然適用[6],但在處理較大規(guī)模的數(shù)據(jù)集時,效率跟不上用戶預期,且處理非結(jié)構(gòu)和半結(jié)構(gòu)化復雜數(shù)據(jù)時面臨一定困難。為了解決上述大數(shù)據(jù)問題,需采用非關(guān)系數(shù)據(jù)庫(NoSQL)及云計算、云存儲技術(shù)[7-8]。如果數(shù)據(jù)是財富,那么大數(shù)據(jù)就是寶藏,而云計算就是挖掘和利用寶藏的利器。云計算的模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)的并行、分布式處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲、訪問和計算。
在生物醫(yī)學與健康研究中,Hadoop是可靠、高效、可伸縮的分布式處理軟件框架,在目前大數(shù)據(jù)挖掘中最受歡迎且應用廣泛[9]。Map Reduce則是一種可以用來并行處理大數(shù)據(jù)的編程模型,同一程序在Hadoop的框架下可以用各種不同語言(Java,Ruby,Python等)按Map Reduce的編程模型進行編寫和運行。
大數(shù)據(jù)是一種新現(xiàn)象和新理念,是近年研究的一個技術(shù)熱點。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別見表1。大數(shù)據(jù)技術(shù)被設(shè)計用于在成本可承受的條件下,通過非??焖俚乃鸭⒋鎯?、整理、分析,從海量、多樣的數(shù)據(jù)中提取價值。其大數(shù)據(jù)平臺技術(shù)架構(gòu)見圖2。
3應用領(lǐng)域
目前,大數(shù)據(jù)在若干領(lǐng)域的運用中取得了較大成功,如天文學(斯隆數(shù)字巡天望遠鏡)、零售業(yè)(沃爾瑪巨額交易量)、搜索引擎(Google基于已有網(wǎng)絡(luò)數(shù)據(jù)的個人定制搜索),以及政治競選(關(guān)
表1大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)特征比較
Table 1Characteristics comparison between big data and traditional data
特征大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)數(shù)據(jù)容量不斷增長中(TB、PB、ZB……)MB、GB處理時效非常迅速(以s為單位)較慢(以h或d為單位)數(shù)據(jù)結(jié)構(gòu)半結(jié)構(gòu)或非結(jié)構(gòu)化結(jié)構(gòu)化數(shù)據(jù)來源完全分布式、云存儲中心式數(shù)據(jù)整合比較困難相對容易存儲架構(gòu)Hadoop分布式文件系統(tǒng)(HDFS),非關(guān)系數(shù)據(jù)庫(NoSQL)關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)接入方式批處理或接近實時交互式分析對象全體數(shù)據(jù)樣本數(shù)據(jù)分析方法描述分析為主描述與推斷相結(jié)合分析結(jié)果關(guān)聯(lián)度、模式可信區(qū)間、P值
注競選者最有可能基于網(wǎng)絡(luò)搜索他們的支持候選人)等[10],但在公共衛(wèi)生領(lǐng)域的應用卻遠遠不足,這使得健康大數(shù)據(jù)有非常廣闊的應用前景。
3.1疾病預測與預防健康大數(shù)據(jù)可以幫助人們更好地預測、預防疾病。據(jù)估計,目前衛(wèi)生保健工作者能確定的健康影響因素只有10%~15%,剩下85%~90%(包括健康行為、遺傳、自然和社會經(jīng)濟環(huán)境因素等)尚未知曉[11]。一直以來預測未來疾病的發(fā)生極為困難,但利用大數(shù)據(jù)技術(shù),基于處方藥和非處方藥的銷售量、衛(wèi)生服務(wù)咨詢中心接到患者電話的數(shù)量和內(nèi)容、關(guān)鍵詞的點擊量或搜索次數(shù)、社交網(wǎng)絡(luò)瀏覽偏好等,使人群疾病預測成為可能。通過對全人群全程的信息跟蹤,Google 曾于2008 年底推出了一項大數(shù)據(jù)處理的“流感趨勢”應用服務(wù),該服務(wù)通過搜索引擎對關(guān)鍵詞的監(jiān)測,幫助人們了解美國境內(nèi)不同地區(qū)的流感病例爆發(fā)情況[12]。Gittelman等[13]利用Facebook上的“喜好”數(shù)據(jù),探討了潛在健康結(jié)局的影響因素及其行為原因。通過主成分分析法和回歸分析,控制年齡、種族、社會經(jīng)濟地位等變量后預測行為與健康狀況的關(guān)系,顯示“喜好”數(shù)據(jù)能提供更可靠、更及時和更具有成本-效益比的疾病預測結(jié)果,可作為傳統(tǒng)公共衛(wèi)生監(jiān)測系統(tǒng)的補充。美國北卡羅萊納州采用大數(shù)據(jù)技術(shù)開發(fā)的綜合癌癥信息與監(jiān)測系統(tǒng)(Integrated Cancer Information and Surveillance System,ICISS),將不同的數(shù)據(jù)、方法和系統(tǒng)有機結(jié)合起來,可從個人、健康服務(wù)商和地區(qū)衛(wèi)生服務(wù)機構(gòu)(如該州癌癥登記處、醫(yī)療保健、醫(yī)療救助、美國人口普查、疾控中心社區(qū)衛(wèi)生指標和私人健康保險計劃中心)等不同途徑,有效、及時、完整、準確地收集、整合和更新腫瘤相關(guān)資料。該系統(tǒng)不僅促進了人群腫瘤登記的發(fā)展,也為不同領(lǐng)域研究人員開展基于人群的腫瘤研究提供了可能和便利[14]。通過人群健康大數(shù)據(jù)資料,可以實現(xiàn)疾病的預測與預防,減少重大疾病的發(fā)生和診療成本,全方位減緩疾病、促進健康。
3.2循證公共衛(wèi)生決策浩如煙海的研究論文與研究報告蘊含著大量數(shù)據(jù)、證據(jù)、評論和概要,利用大數(shù)據(jù)技術(shù)與方法可為循證公共衛(wèi)生決策提供準確有效的支持。我國尚無獨立的、專業(yè)的循證公共衛(wèi)生決策數(shù)據(jù)庫,目前主要依靠Cochrane 協(xié)作網(wǎng)的循證決策數(shù)據(jù)庫進行循證決策研究,并于2005年參與了全球第一個循證衛(wèi)生決策網(wǎng)絡(luò)——亞洲循證衛(wèi)生決策網(wǎng)絡(luò)(EVIPNet-Asia)的建設(shè)[15]。近年來,循證醫(yī)學的概念已經(jīng)深入人心,其理論和方法已滲透到衛(wèi)生決策和臨床實踐諸多方面,醫(yī)療衛(wèi)生決策逐漸受到重視,但是國內(nèi)循證公共衛(wèi)生意識仍然很微弱,循證公共衛(wèi)生思維難以形成,由于多種因素導致循證公共衛(wèi)生決策的研究非常少?!读~刀》上有文章指出,目前在中國推動循證公共衛(wèi)生政策遇到的最大障礙是研究者和政策制定者之間在許多認識上存在差異[16]。系統(tǒng)評價的最大特征就是可重復性,是通過系統(tǒng)搜索和整合的方法產(chǎn)生結(jié)果,其中整合的過程是采用定量整合分析來進行。將個人數(shù)據(jù)集加入大數(shù)據(jù)能為循證醫(yī)學提供最堅實的證據(jù),能發(fā)現(xiàn)小樣本無法發(fā)現(xiàn)的細微差別,為公共衛(wèi)生決策者提供最新證據(jù),指導衛(wèi)生政策的制定或臨床實踐。例如,某研究者將飲用咖啡的生活習慣對前列腺癌的影響進行了劑量反應關(guān)系的Meta 分析,結(jié)果表明:每天多飲2杯咖啡者患前列腺癌的風險降低了2.5%〔RR=0.975,95%CI(0.957,0.995)〕[17]。此外,美國華盛頓大學健康測量與評價研究所(IHME)進行的全球疾病負擔(GBD)研究項目,是利用大數(shù)據(jù)對世界人群進行全面健康測量與評價的最好案例,其數(shù)據(jù)庫來源廣泛(包括WHO、各國疾控中心、民政、統(tǒng)計、公安等部門,醫(yī)療機構(gòu)以及專項調(diào)查等數(shù)據(jù))[18],可為政府合理分配衛(wèi)生資源、形成正確公共衛(wèi)生決策提供有價值的信息。但是,循證公共衛(wèi)生決策領(lǐng)域的研究多為觀察性研究或半試驗性研究,從干預到結(jié)果出現(xiàn)的時間較長,且不可否認存在隨機化不足或者不可行的問題[19-20],在決策評價中通過引入工具變量、傾向評分匹配等方法,或者聯(lián)系相關(guān)領(lǐng)域?qū)<耀@取專業(yè)建議,將定性與定量研究相結(jié)合,可以使研究更為可信、可靠。國內(nèi)建立完善的、專業(yè)的循證公共衛(wèi)生決策數(shù)據(jù)庫還有相當長的路要走,不能因為證據(jù)不多或干預取得效果的時間長而不去努力。利用大數(shù)據(jù)技術(shù)與方法無疑會加快循證公共衛(wèi)生決策數(shù)據(jù)庫建設(shè)的進程。
3.3健康管理、健康監(jiān)測與個性化醫(yī)療服務(wù)利用健康大數(shù)據(jù)可以使研究者比以往任何時候都更好地對個體或人群進行健康管理、健康監(jiān)測,并對不同個體提供差異化的醫(yī)療服務(wù)。健康管理是對個體或群體的健康進行全面的監(jiān)測、分析、評估,提供健康咨詢和指導以及對健康危險因素進行干預的全過程;健康檔案承載著各種形式的健康大數(shù)據(jù),并針對個體提供個體化健康管理服務(wù)[21]。目前健康大數(shù)據(jù)的重要來源主要有兩種,即電子健康檔案(Electronic Health Record,EHR)和電子病歷(Electronic Medical Record,EMR)[22-23],但不局限于以上兩種形式[21]。利用健康大數(shù)據(jù)技術(shù)與方法可將傳統(tǒng)的健康數(shù)據(jù)(如電子和紙質(zhì)病歷等)與其他來源的個人數(shù)據(jù)(如飲食、睡眠、鍛煉習慣、生活方式、社交媒體和休閑、收入、教育等)聯(lián)系起來進行健康管理和監(jiān)測[21,24]。通過收集人體生理和行為的監(jiān)測數(shù)據(jù),積累構(gòu)成含有健康狀況和疾病風險重要信息的個體健康大數(shù)據(jù),上傳至云平臺。這些數(shù)據(jù)包括智能的生理生化及行為傳感器數(shù)據(jù)、求診咨詢用藥數(shù)據(jù)、瀏覽和討論數(shù)據(jù)、日常生活作息數(shù)據(jù)等。挖掘分析這些數(shù)據(jù)可以得到個人較為完整的健康狀態(tài)及疾病預警信息(尤其是針對個體在某一時期可能發(fā)生的重大疾病進行預警),結(jié)合個人基因譜和完整病史數(shù)據(jù),將健康危險因素進行關(guān)聯(lián)比對分析,跟蹤病程進展、判斷短期風險和長期預后,能夠獲得比臨時求診更準確的信息,從而進行更有效、更個性化的臨床干預和健康指導。
健康監(jiān)測是對個人健康進行全生命周期的管理,無論何時何地都可以訪問相關(guān)信息,從而保證健康信息的完整性、連續(xù)性、實時性和預見性。例如微軟開發(fā)的HealthVault網(wǎng)絡(luò)平臺健康云服務(wù)、蘋果開發(fā)的HealthKit平臺以及內(nèi)置健康監(jiān)測功能的Apple Watch等。人群健康信息以個體電子健康檔案為載體轉(zhuǎn)譯進入公共衛(wèi)生報告系統(tǒng)聚合成一定人口規(guī)模的健康大數(shù)據(jù)[25]。
個性化醫(yī)療服務(wù)的最大特點是在個人實施健康管理基礎(chǔ)上,通過對個人健康危險因素進行全面評估,制定具有差異化的健康促進計劃。Map Reduce和Hadoop分布式系統(tǒng)應用于臨床大數(shù)據(jù)處理和分析,給疾病診斷和個性化治療開辟了新的途徑,被認為是當前醫(yī)學界的重大進展[26]。如在腫瘤個性化治療方面,美國臨床腫瘤學會的“腫瘤學快速研究系統(tǒng)的多階段計劃(Cancer Lin Q)”使用可獲得的開源和專有軟件,對1萬例乳腺癌患者的電子病歷進行22項專項評估,內(nèi)容包括10項腫瘤診療質(zhì)量倡議(quality oncology practice initiative,QOPI)及其在治療中應用的循證治療方案。評估完成后,通過瀏覽和檢索病歷、產(chǎn)生假設(shè)、評價質(zhì)量,為臨床醫(yī)生實時提供循證信息和治療進展,并確定臨床試驗的參與資格,針對不同患者進行差異化治療[27]。但是,利用大數(shù)據(jù)不能固定個性化醫(yī)療服務(wù),不能代替衛(wèi)生保健專業(yè)人員來解釋甚至簡化診療程序,必須結(jié)合患者的教育程度、文化背景、社會支持系統(tǒng)及個人意愿來選擇治療方案[28]。醫(yī)務(wù)工作者只是提供個性化醫(yī)療服務(wù)項目,最終的選擇仍然需要基于患者自身的具體情況。
4面臨的挑戰(zhàn)與展望
Gartner發(fā)布的2014年新興技術(shù)成熟度曲線顯示,未來5~10年大數(shù)據(jù)技術(shù)將會成熟應用于各個領(lǐng)域[29],健康大數(shù)據(jù)也將會快速應用到公共衛(wèi)生領(lǐng)域之中,同時也面臨一些挑戰(zhàn)。
4.1健康大數(shù)據(jù)使用中的安全、保密、共享、開放等醫(yī)學倫理學問題健康大數(shù)據(jù)不可避免地涉及人群的隱私信息,包括身體現(xiàn)況、健康史、個人信息,甚至基因、蛋白數(shù)據(jù)等,如若泄露,極可能會使患者個體的日常生活遭到難以預料的侵擾[30]。個人隱私易被竊聽的問題一直未能得到很好解決[24]。若將數(shù)據(jù)加入到大數(shù)據(jù)庫之前,通過電腦程序?qū)⒛軌虮蛔R別的患者個人信息從醫(yī)療記錄中去除,理論上講可以克服這個問題[11,31]。但由于缺乏個體的識別信息,其他數(shù)據(jù)將無法和研究樣本整合,難以證實因果行為和健康狀況的關(guān)系,不能進行某類人群大范圍的研究。通過特殊處理(如去識別化、數(shù)字身份加密等)可以較好地解決此問題,但仍繞不開信息識別,去識別化本身也需要處理可識別的信息,可能造成患者健康信息在不知情、未授權(quán)的情況下被他人盜用[32];同樣,數(shù)字身份加密在解密過程中也存在泄密盜用的可能。隨著信息時代的深入,健康大數(shù)據(jù)更為專注于電子數(shù)據(jù)的來源和信息技術(shù)手段,導致面臨的倫理學問題挑戰(zhàn)更為復雜多樣[33]。
此外,健康大數(shù)據(jù)的收集、存儲、維護及使用方面,不僅涉及個人隱私問題,由于國家人口規(guī)模十分龐大、信息量巨大,還牽涉公眾利益甚至國家安全?!毒V要》中反復提及共享和開放的戰(zhàn)略,強調(diào)由政府主導共享和開放數(shù)據(jù),降低公眾獲取和利用政府數(shù)據(jù)資源的難度及成本,為公共衛(wèi)生健康大數(shù)據(jù)研究鋪平道路。與此同時,大數(shù)據(jù)意味著大責任、大倫理,任何單位或個人使用大規(guī)模健康大數(shù)據(jù)時均應該嚴格申請審查并備案,在法律允許的框架內(nèi)使用相關(guān)數(shù)據(jù),承擔風險責任[34]。健康大數(shù)據(jù)的使用過程既要破除壁壘,讓信息互聯(lián)互通;又要充分隱私保密,杜絕隱患。
4.2突破大數(shù)據(jù)的關(guān)鍵技術(shù),推動其在公共衛(wèi)生中的應用半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量呈幾何級數(shù)增長,傳統(tǒng)的分析技術(shù)面臨著較大的沖擊和挑戰(zhàn)。數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來越多地以不同的形式散布于不同的系統(tǒng)和平臺之中[35]。為了便于進行健康大數(shù)據(jù)分析,需要解決數(shù)據(jù)的多源異構(gòu)性、數(shù)據(jù)的質(zhì)量問題,各方面產(chǎn)生的大數(shù)據(jù)有待進行有效的整合。特別需要指出的是,在大數(shù)據(jù)時代雖然允許不精確的出現(xiàn),但最基本、最重要的任務(wù)還是應該盡可能減少錯誤,保障質(zhì)量。除上述技術(shù)挑戰(zhàn)外,還有數(shù)據(jù)信息孤島問題普遍存在,標準化難以實施等技術(shù)和非技術(shù)困難尚未得到有效徹底地解決?!毒V要》指出,政府將推動公共數(shù)據(jù)互聯(lián)共享、消除信息孤島,避免重復建設(shè)和數(shù)據(jù)“打架”,整合各級平臺。
4.3甄別健康大數(shù)據(jù)使用中的“誤差”,提高精度大數(shù)據(jù)也會產(chǎn)生“大錯誤(Big Error)”[2],流感在2013年最先襲擊美國且造成十分嚴重的危害。當時科學家們先利用大數(shù)據(jù)技術(shù),之后又采用傳統(tǒng)的公共衛(wèi)生監(jiān)測方法分析流感的影響程度并進行估計,結(jié)果顯示前者對流感的高峰期影響水平明顯高估?!按髷?shù)據(jù)”可以作為有效的工具來評估疾病負擔和傳播,Google流感趨勢(Google Flu Trends,GFT)結(jié)合疾控中心的數(shù)據(jù)網(wǎng)絡(luò)可以大幅提高預測性能,在流感傳播和流行期間這一改進的模型可以更準確預測未來1周的感染情況[36]。同樣,衛(wèi)生服務(wù)人員需要認識到存在垃圾數(shù)據(jù)以及有責任維護數(shù)據(jù)的完整性和準確性[28]。健康大數(shù)據(jù)使用者應認識到大數(shù)據(jù)本身不可能替代其他數(shù)據(jù);雖然其彌補了很多以前數(shù)據(jù)的缺陷,但只是彌補性而不是取代性的功能,在疾病與健康預測方面甄別健康大數(shù)據(jù)的“誤差”尤為重要。
一直以來,公共衛(wèi)生與預防醫(yī)學學科強調(diào)“三級預防”,但作為政府行為的“零級預防”非常關(guān)鍵。從星羅云布的大數(shù)據(jù)中通過分析快速獲得有效信息,并及時為公共衛(wèi)生決策提供依據(jù),是一項基礎(chǔ)的、長遠的工作,需要政府層面的長期鼎力支持。健康大數(shù)據(jù)框架需要國家層次進行頂層設(shè)計,擔負相應責任。建議政府加以科學引導,開放平臺邀請更多社會資本參與,整合力量共建國家健康大數(shù)據(jù)研究中心。
通過數(shù)據(jù)的開放將醫(yī)療信息大數(shù)據(jù)直接傳遞給患者,從而改變目前將患者的記錄存儲在醫(yī)療機構(gòu),置患者于被動位置的模式??梢灶A見,在不久的將來,患者也會越來越多地參與到自己的健康管理之中,且在其中占主導地位。大數(shù)據(jù)無疑會對公共衛(wèi)生領(lǐng)域有革命性的影響,通過大數(shù)據(jù)來識別健康影響因素,并采取相應干預措施促進人群健康,為個人或群體提供最適合的預防保健和治療方式[37];利用大數(shù)據(jù)能夠促進新的發(fā)現(xiàn),優(yōu)化治療效果,減少衛(wèi)生支出。
為了實現(xiàn)健康大數(shù)據(jù)的巨大價值,公共衛(wèi)生領(lǐng)域需要全面實現(xiàn)數(shù)據(jù)信息的標準化,增強數(shù)據(jù)的互用性,促進信息的共享,建立有效的數(shù)據(jù)管理方式,改進分析技術(shù)和方法,培養(yǎng)擁有公共衛(wèi)生背景的數(shù)據(jù)分析專業(yè)人才。早日突破并解決上述挑戰(zhàn),大力推進健康大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域中的應用。
參考文獻
[1]Mayer-Schonberger V,Cukier K.Big data:a revolution that will transform how we live,work,and think[M].Boston:Houghton Mifflin Harcourt,2013.
[2]Khoury MJ,Ioannidis JP.Medicine.Big data meets public health[J].Science,2014,346(6213):1054-1055.
[3]Fung IC,Tse ZT,Fu KW.Converting big data into public health[J].Science,2015,347(6222):620.
[4]Luna DR,Mayan JC,García MJ,et al.Challenges and potential solutions for big data implementations in developing countries[J].Yearb Med Inform,2014,9(1):36-41.
[5]Gantz J,Reinsel D.Extracting value from chaos[J].IDC Iview,2011 (1142):9-10.
[6]Chen M,Mao S,Liu Y.Big data:a survey[J].Mobile Netw Appl,2014,19(2):171-209.
[7]Merelli I,Pérez-Sánchez H,Gesing S,et al.Managing,analysing,and integrating big data in medical bioinformatics:open problems and future perspectives[J].Biomed Res Int,2014,2014:134023.doi:10.1155/2014/134023.
[8]Fan JH,Han F,Liu H.Challenges of big data analysis[J].Natl Sci Rev,2014,1(2):293-314.
[9]Peek N,Holmes J,Sun J.Technical challenges for big data in biomedicine and health:data sources,infrastructure,and analytics[J].Yearb Med Inform,2014,9(1):42-47.
[10]Murdoch TB,Detsky AS.The inevitable application of big data to health care[J].JAMA,2013,309(13):1351-1352.
[11]El-Emam K,Gray J,Grealy M,et al.A policy forum on the use of big data in health care[EB/OL].[2013-12-03].http://bipartisanpolicy.org/library/policy-forum-use-big-data-health-care/.
[12]Ginsberg J,Mohebbi MH,Patel RS,et al.Detecting influenza epidemics using search engine query data[J].Nature,2009,457(7232):1012-1014.
[13]Gittelman S,Lange V,Gotway Crawford CA,et al.A new source of data for public health surveillance:facebooklikes[J].J Med Internet Res,2015,17(4):e98.
[14]Meyer AM,Olshan AF,Green L,et al.Big data for population-based cancer research[J].NC Med J,2014,75(4):265-269.
[15]WHO.EVIPNet Asia,Evidence-informedpolicy-making[EB/OL].http://www.who.int/evidence/resources/country_reports/asia/en/.
[16]Jiang F,Zhang J,Shen X.Towards evidence-based public health policy in China[J].Lancet,2013,381(9882):1962-1964.
[17]Liu H,Hu GH,Wang XC,et al.Coffee consumption and prostate cancer risk:a meta-analysis of cohort studies[J].Nutr Cancer,2015,37(3):392-400.
[18]宇傳華,崔芳芳.全球疾病負擔研究及其對我國的啟示[J].公共衛(wèi)生與預防醫(yī)學,2014,25(2):1-5.
[19]Brownson RC,Baker EA,Leet TL,et al.Evidence-based public health[M].2nd Revised ed.Oxford:Oxford University Press Inc,2011:10-11.
[20]Tanaka S,Tanaka S,Kawakami K.Methodological issues in observational studies and non-randomized controlled trials in oncology in the era of big data[J].Jpn J Clin Oncol,2015,45(4):323-327.
[21]Kuziemsky CE,Monkman H,Petersen C,et al.Big Data in healthcare-defining the digital persona through user contexts from the micro to the macro:contribution of the IMIA Organizational and Social Issues WG[J].Yearb Med Inform,2014,9(1):82-89.
[22]Ross MK,Wei W,Ohno-Machado L."Big Data" and the electronic health record[J].Yearb Med Inform,2014,9(1):97.
[23]Lissovoy G.Big data meets the electronic medical record:a commentary on "identifying patients at increased risk for unplanned readmission"[J].Med Care,2013,51(9):759-760.
[24]Hill S,Merchant R,Ungar L.Lessons learned about public health from online crowd surveillance[J].Big Data,2013,1(3):160-167.
[25]Chute CG,Ullman-Cullere M,Wood GM,et al.Some experiences and opportunities for big data in translational research[J].Genet Med,2013,15(10):802-809.
[26]Mohammed EA,Far BH,Naugler C.Applications of the MapReduce programming framework to clinical big data analysis:current landscape and future trends[J].Bio Data Mining,2014,7(1):22.
[27]Sledge Jr GW,Miller RS,Hauser R.Cancer Lin Q and the future of cancer care[C]//American Society of Clinical Oncology educational book.American Society of Clinical Oncology,2012:430-434.
[28]Ward JC.Oncology reimbursement in the era of personalized medicine and big data[J].J Oncol Pract,2014,10(2):83-86.
[29]Gartner.Gartner′s 2014 hype cycle for emerging technologies maps the journey to digital business[EB/OL].[2014 -08-11].http://www.gartner.com/newsroom/id/2819918.
[30]Bellazzi R.Big data and biomedical informatics:a challenging opportunity[J].Yearb Med Inform,2014,9(1):8-13.
[31]Ward JC.Oncology reimbursement in the era of personalized medicine and big data[J].J Oncol Pract,2014,10(2):83-86.
[32]Rothstein MA.Is deidentification sufficient to protect health privacy in research?[J].Am J Bioeth,2010,10(9):3-11.
[33]Vayena E,Salathé M,Madoff LC,et al.Ethical challenges of big data in public health[J].PLoS Comput Biol,2015,11(2):e1003904.
[34]Dove ES,?zdemir V.What role for law,human rights,and bioethics in an age of big data,consortia science,and consortia ethics? The Importance of Trustworthiness[J].Laws,2015,4(3):515-540.
[35]Khan N,Yaqoob I,Hashem IAT,et al.Big data:survey,technologies,opportunities,and challenges[J].Scientific World J,2014,2014:712826.
[36]Davidson MW,Haim DA,Radin JM.Using networks to combine "Big Data" and traditional surveillance to improve influenza predictions[J].Sci Rep,2015(5):8154.
[37]Mooney SJ,Westreich DJ,El-Sayed AM.Commentary:epidemiology in the era of big data[J].Epidemiology,2015,26(3):390-394.
修回日期:2015-10-20)
(本文編輯:趙躍翠)