許浪 趙國光 張建宇 劉丹 曾燕
(1武漢科技大學醫(yī)學院,湖北 武漢 430065;2武漢科技大學醫(yī)學院腦與認知功能研究所)
2011年,第11屆美國易安信公司(EMC)世界年度大會,大數據概念被正式提出〔1〕,標志著人類進入大數據時代。目前比較認同的大數據定義有5V特征,即數據容量巨大(Volume)、生成速度極快(Velocity)、模態(tài)多樣(Variety)、可變性大(Variability)和真?zhèn)坞y辨(Veracity)〔2〕,此定義可能會進一步擴增,比如增加可視化 (Visualisation)和科學價值(Value)〔3〕。在滿足大數據基本特征的前提下,與醫(yī)療健康服務目的、過程、結果相關的大數據可以稱之為醫(yī)療健康大數據。 2016年是我國醫(yī)療健康大數據元年:3月8日,國家啟動精準醫(yī)學研究重點專項,目標是構建百萬人以上自然人群健康隊列和重大疾病專病隊列〔4〕;6月24日,國務院辦公廳印發(fā)《關于促進和規(guī)范健康醫(yī)療大數據應用發(fā)展的指導意見》〔5〕;8月26日,中共中央政治局審議通過“健康中國2030”規(guī)劃綱要;8月29日,中國衛(wèi)生信息學會健康醫(yī)療大數據產業(yè)發(fā)展與信息安全專業(yè)委員會成立大會在南京召開,這是首個聚焦大數據產業(yè)與信息安全的全國性專業(yè)委員會。與密集出臺的政策和指導意見相呼應,復旦大學、北京大學和清華大學等多所高校和科研機構相繼成立生物或醫(yī)療健康大數據研究中心,由大數據引領的醫(yī)療健康領域發(fā)展將會深刻影響醫(yī)療健康服務模式。
在人口急速老齡化的社會大背景下,與老年相關的神經認知功能障礙(NCD,也叫癡呆疾病)在中國快速蔓延,成為影響國人健康的重大慢性病。本文主要概述癡呆和阿爾茨海默病(AD)研究現狀和面對的困難,分析了我國醫(yī)療健康大數據資源的來源和基礎,探討了大數據應用于癡呆和AD研究的機會與挑戰(zhàn),提出了大數據應用于癡呆和AD研究未來的發(fā)展方向。
流行病學研究資料表明中國癡呆患者總數已經超過919萬〔6〕,到2030年將達1 200萬,2040年將達到2 200萬,是所有發(fā)達國家癡呆患者人數的總和〔7〕,其中以AD為最高發(fā),占所有癡呆病例的60%~70%〔6〕。據估計,目前全球癡呆疾病所耗費的直接醫(yī)療資源有55 289.32億元人民幣(8 200億美元),還不包括家庭照顧所造成的人力成本和其他間接費用〔8〕,而以中國為首的低收入和中等收入國家,90%以上的癡呆癥患者只能選擇家庭照顧〔9〕。雖然中國是世界上老年人口數最多的國家,目前60歲以上人口為2.14億人〔10〕,并且還是癡呆癥患者人數最多的國家〔7〕,但是我國人群癡呆知曉率、就診率、治療率及控制率都處在相當低的水平〔11〕。我國目前還沒有一家從事老年期癡呆研究的專門機構和醫(yī)院;癡呆并未被納入到慢病管理國家基本公共衛(wèi)生服務項目;相比發(fā)達國家和國際組織制定的模型、防治指南和建立的數據庫〔8,9〕,我國在該領域的工作尚處于空白階段,難以與國際接軌。
為了解AD的危險因素、保護因素和疾病進程,國際上一些長期跟蹤癡呆和AD的人群隊列研究做出了卓越貢獻。 其中比較著名的隊列有 Alzheimer Disease Neuroimaging Initiative (ADNI)〔12〕、10/66 Population-Based Study隊列〔13〕、Mayo Clinic Study of Aging〔14〕和Framingham Heart Study Offspring〔15〕。 但是,我國的老年人群隊列研究才剛剛起步,目前國內從事AD相關危險因素的隊列有:(1)2009年由復旦大學華山醫(yī)院神經內科洪震教授領銜的科研團隊在國內建立了第1個老年認知功能障礙研究的社區(qū)人群隊列,開展了社區(qū)AD和帕金森病流行病學調查〔16〕;(2)首都醫(yī)科大學宣武醫(yī)院神經內科賈建平教授團隊聯合北京、上海、廣州、長春、貴陽等7個地區(qū)城鄉(xiāng)臨床隊列進行過AD輕度認知障礙診斷與干預等研究工作,發(fā)表了一批有影響力的論文,但隊列的人數有限,只有幾百例,主要在AD藥物的早期干預研究上;(3)2016年6月同濟大學校長裴鋼倡導發(fā)起的上海老年腦健康隊列研究才剛剛啟動。
相比于在AD的危險因素研究方面所取得的成果,國際上的AD新藥研究卻多以失敗告終,2002~2012年,99.6%的治療AD新藥的臨床試驗宣告失敗〔17〕。目前僅僅只有3種藥物加1種聯合治療方案先后獲得美國食品和藥品管理局(FDA)批準,更為無奈的是這些上市藥物僅僅只能緩解部分癥狀,并不能減緩、治愈老年癡呆〔8〕。因此,癡呆和AD研究面臨的困難特別巨大〔18〕。
2.1我國醫(yī)療健康大數據主要來源和特點 我國搭上“互聯網+”的列車,各級醫(yī)療機構正行進在醫(yī)療信息數字化的軌道上,海量的醫(yī)療健康數據正在產生。臨床醫(yī)療:電子健康檔案,電子病歷,電子處方,診療數據,醫(yī)學影像數據,病案管理,醫(yī)療設備和儀器數據,醫(yī)院信息系統 (HIS)數據等;醫(yī)學研究:全基因組,全外顯子組,轉錄組,蛋白質組,DNA甲基化,微生物組,單細胞水平基因型和表型研究,人類健康相關微生物群落研究,生物醫(yī)學圖像研究腫瘤生物學特性,分子標記,藥物靶標的鑒定和特征描述等;制藥企業(yè):新藥臨床試驗,藥理學,藥物化學,新型藥物的設計,藥品供應等;人口健康信息:運動監(jiān)測、膳食監(jiān)測,個體健康教育,兒童青少年心理衛(wèi)生問題,中國兒童青少年血壓,生殖健康,學生體質健康監(jiān)測,居民健康狀況調查等;數字健康醫(yī)療設備:實時視頻,智能穿戴設備及相關微型傳感器件,遠程監(jiān)控系統,數字醫(yī)療設備等;公共衛(wèi)生和流行病學研究:電子健康檔案,慢病監(jiān)測,傳染病監(jiān)測,疾病與死亡登記,公共衛(wèi)生監(jiān)測,腫瘤登記,計劃生育等;基本公共衛(wèi)生服務:城鄉(xiāng)居民健康檔案管理,健康教育,預防接種,0~6歲兒童健康管理,孕產婦健康管理,老年人健康管理,慢性病患者健康管理 (高血壓、糖尿病),重性精神疾病患者管理、結核病患者健康管理,傳染病及突發(fā)公共衛(wèi)生事件報告和處理服務,中醫(yī)藥健康管理,衛(wèi)生監(jiān)督協管服務等;社會人口學:人口普查,社保,國家、省市級統計決策庫,醫(yī)療保險,生育保險,經濟數據,養(yǎng)老保險等;環(huán)境健康:環(huán)境質量監(jiān)測網,污染源監(jiān)測,企業(yè)環(huán)境信息,休閑場所等;社會媒體:健康網站,搜索引擎,通訊運營商,微博,微信,論壇,QQ,客服上網話單等;醫(yī)療消費:醫(yī)療服務費用,醫(yī)療設備銷售,藥店銷售,醫(yī)療保險,藥品消費數據,醫(yī)療消費等;個體行為:手機上網行為,社交網絡行為,健身記錄,體力活動記錄,缺勤記錄,即時通訊等;健康消費:保健品,健身設施數據,智能健康產品,中醫(yī)功能狀態(tài)檢測與養(yǎng)生保健儀器設備等。其中不僅包括臨床數據和基因組數據,也包括環(huán)境暴露、日常生活習慣、地理位置信息、社交媒體及其他多種多樣的數據。在這些數據基礎上,中國每年或每幾年就會產生醫(yī)學數據分析報告,諸如:中國心血管病報告、中國糖尿病行業(yè)發(fā)展趨勢及預測報告、中國腫瘤登記年報、中國居民營養(yǎng)與慢性病狀況報告、中國出生缺陷報告、中國青少年生殖健康可及性調查基礎數據報告、中國疾病預防控制中心數據、全國學生體質健康監(jiān)測報告和中國城市居民健康狀況調查白皮書。雖然數據量越來越大,但是數據質量堪憂,大數據基礎還比較薄弱??偨Y起來,我國醫(yī)療衛(wèi)生領域的大數據具有如下特點。①多態(tài)性。區(qū)別于其他領域數據,醫(yī)療大數據有多模態(tài)性,比如:純數據 (如化驗、體檢結果)、信號(如腦電、心電和肌電信號等)、圖像〔如磁共振成像(MRI)、正電子發(fā)射型計算機斷層成像(PET)、X線、B超等〕、文字(如主訴、現/往病史、過敏史、檢測報告等)及動畫、視頻和語音信息等多種形態(tài)的數據。 ②不完整性。因為醫(yī)療數據的搜集和處理過程經常相互脫節(jié),使得醫(yī)療數據庫不可能對任何疾病信息都能全面反映。 且有大量數據來源于人工記錄,導致數據記錄的偏差和殘缺,許多數據的表達、記錄本身也具有不確定性,病例和病案尤為突出,這些都造成了醫(yī)療數據的不完整性。 ③時間性。疾病的發(fā)生、發(fā)展和患者的就診有一個過程,在時間上有一個進度,醫(yī)學檢測的波形、圖像都是時間函數。 患者隨訪、跟蹤也有一個時間跨度,這些都具有一定的時序性。 ④冗余性。每天的日常醫(yī)療過程都伴有大量醫(yī)療信息產生,導致醫(yī)學數據量特別龐大,其中可能會包含重復、無關緊要甚至是相互矛盾的記錄。 ⑤低透明性。由于我國還沒有健全的醫(yī)療健康大數據應用準入制度和實名認證等控制系統,一方面難以保護個人隱私和信息安全,另一方面導致數據透明度低。 ⑥沉重性。與其他行業(yè)的數據具有時效性及數據很輕、易于解析所不同,醫(yī)療健康大數據普遍很“重”、信息量超大、不同的解析策略可能得出豐富的結果。
2.2我國醫(yī)療健康大數據相關學科平臺 醫(yī)療健康大數據研究的發(fā)展離不開科學平臺的支撐,成立醫(yī)療健康大數據研究中心成為推動醫(yī)學大數據研究的重點,在政策利好和現實需求的雙重驅動下,中國各大高校在醫(yī)療健康大數據領域頻頻出招,多個健康大數據研究中心成立:中科院深圳先進院成立健康大數據研究中心(2014年);復旦大學大數據學院和大數據研究院(2015年);北京大學健康醫(yī)療大數據研究中心(2016年);清華大學數據科學研究院醫(yī)療健康大數據研究中心(2016年);湘雅臨床大數據系統建設項目(2014年);華東理工大學信息學院生物醫(yī)療開放大數據研究中心(2016年);電子科技大學醫(yī)療健康大數據研究院(2016年);哈爾濱工業(yè)大學電子健康研究所(2013年);上海生物信息技術研究中心(2002年);春雨·中國科學院大學健康大數據聯合實驗室(2015年)。以大數據研究中心吸引優(yōu)秀大數據研究團隊,形成一個水到渠成的牽引。
2.3我國政府層面已經制定健康大數據近期發(fā)展目標 根據國務院辦公廳6月24日印發(fā)《關于促進和規(guī)范健康醫(yī)療大數據應用發(fā)展的指導意見》(下稱“意見”),我國近幾年在大數據發(fā)展方面將達到如下目標〔5〕:第一步:在2017年年底建立國際級、省級、市、縣及社區(qū)多層次的人口健康信息平臺并與各級藥品招標采購業(yè)務應用平臺互聯互通。第二步:在2020年實現建立國家醫(yī)療衛(wèi)生信息分級開放應用平臺;100個區(qū)域臨床醫(yī)學數據示范中心;城鄉(xiāng)居民擁有規(guī)范化的電子健康檔案和功能完備的健康卡。
3.1癡呆和AD研究領域已開始利用大數據 一些國際組織和機構正在組織專家,形成一股研究大數據的驅動力〔19〕。 如美國國家AD協作研究中心、ADNI、歐洲醫(yī)學信息學架構、全球老年癡呆癥協作互動組織,顯性遺傳性AD研究組織、AD預防組織和歐洲委員會等正是這股力量的中流砥柱〔20〕。其中,ADNI已經走在AD大數據研究前列,他們有很好的數據共享和發(fā)表文章的記錄,同時也能從廠家吸引投資和資助,迄今已有共 2 億美元的投入〔19〕。2014年,來自英美兩國的研究員,運用兩個世界上最大的科學數據集合ENIGMA聯盟的腦掃描數據和小鼠腦庫的遺傳信息數據,比較小鼠和人類基因,識別出能調節(jié)小鼠和人大腦中海馬尺寸的新基因微粒體谷胱甘肽S轉移酶(MGST)3,而海馬的尺寸與神經退行性疾病有關〔21〕。2015年,美國國立健康研究院(NIH)發(fā)起“加速醫(yī)藥研究合作者計劃”(AMP),即集合政府和民間力量,利用大數據加速AD藥物研究〔22〕。來自于美國FDA、企業(yè)界和學術界的科學家們集成各方面來源的醫(yī)療健康大數據,加快AD藥物研發(fā),尋找新的治療〔22〕。 同年,澳大利亞新南威爾士大學宣布該校啟動一項針對癡呆癥的大數據研究項目,名為“癡呆癥行動計劃”〔23〕,目標是聯合科研人員與社會各方的力量研究癡呆癥發(fā)病機制,尋求新的治療方法。其研究重點是AD,此外也包括其他類型的癡呆癥。希望將全球研究資源整合到一起,創(chuàng)建出“大數據集合”,綜合癡呆癥的多種風險因素,建立更可靠的統計模型、做出更精確的預測〔23〕。
這些機構和組織正在向癡呆和AD大數據夢想挑戰(zhàn)〔24〕,建立大型的數據庫,開發(fā)分析工具以便更有效地利用這些數據,希望實現數據、信息和知識的無縫集成。的確,大數據的優(yōu)點體現在能將不同水平、不同形式的數據集中到一起,從基因到分子,從影像到認知功能,為癡呆和AD研究提供一個洞悉重點和管中窺豹的機會。
3.2政府作為大數據研究的催化劑 健康醫(yī)療大數據的發(fā)展目前面臨一系列障礙,包括技術的限制、成本高昂、處理及分析數據對于多學科知識的要求等。前面提到的政府層面的支持措施密集出臺體現了政府作為大數據研究催化劑的作用,增加了大數據公共話語影響面,并且政府在召集人才方面具有更大的優(yōu)勢,能夠建立起更加強大的網絡,特別是外交網絡,為中國的癡呆和AD研究和健康管理提供新機會。
3.3大數據應用于癡呆和AD研究有方法學上的特色 大數據正在催生科學研究方法的巨大轉變,從假設驅動的方法轉向數據驅動的方法。傳統科學方法遵循提出假設,分析論證為主的路徑,而大數據研究,遵循的是收集數據,再假設,然后發(fā)現有價值的數據模式。傳統科學研究中,生物醫(yī)學界傾向于認為“噪音數據”不好,研究人員往往把實驗條件限制在可以嚴格測量的問題上,但強調數據純度就意味著可供研究的病人或者樣本數量減少,也就會導致數據集的規(guī)模比較小,從而限制了研究的“功效”〔25〕。大數據技術可能在“噪音數據”分析方面有更強的能力,可以從海量的數據出發(fā),來尋找模式和關聯,從而反轉醫(yī)學研究模型〔24〕。
3.4國內生物樣本庫初具規(guī)模 國家《“十二五”生物技術發(fā)展規(guī)劃》中,明確要求建設國家生物信息科技基礎設施—國家生物信息中心,包括基因組、蛋白質組、代謝組和國家生物技術管理信息庫等生物信息庫及大型生物樣本、標本、病例資源和人類遺傳資源庫及共享服務體系;建設若干實驗動物和模式生物基礎設施和生物醫(yī)學資源基礎設施。目前國內主要的生物樣本庫有:北京市老年病醫(yī)療研究中心老年疾病遺傳資源樣本庫、生物芯片上海國家工程研究中心生物樣本庫分中心、中國醫(yī)藥生物技術協會組織生物樣本庫分會中醫(yī)藥學組。 由國家基因庫發(fā)起的E-BioBank資源信息共享平臺 (簡稱“E-BioBank平臺”)已整合人類、動物、植物、微生物等樣本資源55.6萬份,共享科研項目信息10余項,分享行業(yè)技術性文件400余份〔26〕。 另外,中國每一家三甲醫(yī)院都建立了生物樣本庫,一些大型腫瘤研究所、疾病控制與預防中心也建立了專攻方向上的樣本庫。這將大大有助于我國醫(yī)療健康大數據技術的發(fā)展。
4.1人群大數據面臨整合上的問題 大數據為導向的人群隊列研究成為癡呆和AD研究熱點,經過長期隨訪能夠產出大量人群數據〔26〕,如何收集數據是此類研究需要解決的問題。比如:(1)如何整合家庭醫(yī)療信息? 諸如母親健康、懷孕情況、養(yǎng)老保險、醫(yī)療保險、失業(yè)保險、工傷保險、生育保險和住房公積金。(2)如何使用可穿戴設備和移動智能設備來檢測毒物和化學物接觸? (3)如何計算研究對象被他人或家庭照顧時間? 藍牙傳感器和智能手機如何用于此項研究? (4)如何計算研究對象的運動時間? 智能手機,健康數據記錄App是否可以完成? (5)研究對象使用數字設備時間?
4.2醫(yī)療健康大數據應用于癡呆研究面臨的方法學問題 利用大數據研究癡呆類疾病時,可能會面臨一些方法學上的問題〔27〕,比如:(1)樣本消耗/樣本選擇,包括選擇性生存,如何選擇縱向研究隊列、數據庫、合作研究網絡或其他研究聯盟? (2)測量和診斷標準的不確定性,在人工評估神經心理時產生的測量誤差,重復檢測方法的不一致性;(3)當隨訪研究對象數月、數年甚至幾十年時,如何規(guī)范化縱向數據模型;(4)如何監(jiān)測隨時間變化的測量;(5)如何處理高維數據〔27〕? (6)不全面或偏頗的數據會產生歧義性的結果。
4.3合作的問題 我國健康醫(yī)療行業(yè)的海量數據迅速形成,但相對于國外大量開放鏈接數據集來說,國內的醫(yī)療健康行業(yè)數據封閉、分散且描述方式不一致,制約了整個行業(yè)的發(fā)展。癡呆和AD 研究領域急需建立多個國際、國內合作項目,實現數據、信息和知識的無縫集成,建立國際化的數據收集規(guī)范和標準。建立健全幾個機構牽頭,科技管理部門協調,政府、科研院校、企業(yè)等管理部門配合的協調機制,做好人員配備和工作保障,建立醫(yī)療健康大數據生態(tài)體系和深度合作所需要的政策法規(guī)。
4.4安全問題 與任何技術一樣,揚長避短十分重要。醫(yī)療健康大數據領域的快速推進已經引發(fā)了在各種不同的情況下部署這些系統的安全性問題,需要通過嚴謹的工程研究找出這些問題的解決方案,以提供大數據分析系統的創(chuàng)作者在解決這些問題時有切實可用的方法和工具,避免數據的缺口。構建安全標準并基于戰(zhàn)略互操作性及隱私管理規(guī)范進行數據共享是進一步增大醫(yī)療健康數據量的重要手段。因此醫(yī)療衛(wèi)生領域的癡呆疾病研究專家們應該帶頭為醫(yī)療健康大數據的安全、運營及其他產品領域的基礎設施制定新的規(guī)則以及制定特定用途的調控方法。
神經認知功能障礙疾病受遺傳和環(huán)境因素的影響,種族、生存環(huán)境、生活習慣、醫(yī)療保障條件等均可一定程度改變神經精神疾患的構成與發(fā)生發(fā)展。此研究領域的幾個重點問題特別需要利用大數據來解決:(1)腦健康的代級傳遞問題 (例如,母親的健康和妊娠期腦健康;生命早期母親與子女互動和早期建立的“認知儲備”等對個體神經認知功能的影響)。(2)教育程度、認知刺激和積極的認知活動 (閱讀、使用智能手機和互聯網接觸等)與腦健康和老年期認知能力下降的風險關聯問題。(3)主要的心血管危險因素,比如高血壓、糖尿病、血管疾病和身體活動不足對老年期認知功能下降的影響。(4)豐富的社交活動與多彩的社會生活與大腦健康和老年期認知能力下降的相關性。 (5)應用中醫(yī)中藥與腦健康和認知功能變化的相關性。中醫(yī)中藥在中國具有廣泛的群眾基礎,有數以億萬計的人使用過諸如針灸、刮痧、推拿按摩、中成藥、湯劑、中醫(yī)養(yǎng)生等中醫(yī)適宜技術,那么這些措施讓使用者獲得了哪些健康益處? 與神經認知功能變化的關系? 是如一些文獻所說的改善認知功能還是療效不確定?(6)中國正處于社會轉型時期,經濟轉型、社會轉型、人群遷徙、氣候變化和環(huán)境污染物在個體神經功能變化中占有多大的權重,對腦功能的影響也需要大數據研究來支撐。(7)日常選擇與認知功能的關系。人們每天做出各種選擇、吃東西、服藥、做這樣那樣的事情——產生所謂的“數據廢氣”,挖掘這樣的大型數據集來找到有用的關聯,如何利用購物籃分析,找到有意義的關聯。(8)腦庫構建問題。人腦組織庫建設和對人腦組織的研究是認識人腦疾病的基本條件,在發(fā)達國家受到高度重視,其相關學術成果推動了神經疾病病因學和病理學機制認識、為建立和完善對這些疾病的預防和治療提供了新的理論基礎和探索方向。另外,針對癡呆和AD的臨床數據庫缺乏,如果能有兩三個具體的癡呆或AD大數據研究的實操案例,就能給其他的研究者提供思路。
癡呆和AD是伴隨著人口老年化出現的重大慢性病,病因復雜,需要依靠大數據技術來解決一些傳統技術不能解決的問題,而醫(yī)療健康大數據為生物學家、臨床醫(yī)生、流行病學家及醫(yī)療衛(wèi)生政策制定專家提供了有效的工具,使得數據驅動的決策制定成為可能,并最終對患者及整個人群產生有益影響,希望能借助于大數據研究突破目前AD和癡呆新藥開發(fā)所面臨的窘境。