虞銘明,張迺英,李月娥
(同濟大學浙江學院經(jīng)濟與管理系,浙江 嘉興 314051)
大數(shù)據(jù)分析正在快速推動學術、產(chǎn)業(yè)和公共治理各個領域的發(fā)展,在醫(yī)療健康領域也不例外。隨著電子醫(yī)療健康記錄(EHR)、個人傳感器記錄(各種電子穿戴設備)的普遍使用,以及眾多網(wǎng)絡社交媒介資源信息的可獲得,與醫(yī)療健康有關的大量數(shù)據(jù)隨之產(chǎn)生[1]。只要我們找到適用的方法,PB級的原始信息可以提供任何方面的線索,無論從預防結核到削減醫(yī)療費用[2]。美國醫(yī)藥機構的一篇報道顯示,目前美國花在醫(yī)療護理費上的1/3 (大約7500億美元)是浪費的,花錢并不能改善醫(yī)療護理的結果[3],而Mckinsey公司估計通過大數(shù)據(jù)分析,醫(yī)療健康產(chǎn)業(yè)可以省下3000億~4500億美元[4]。除了減少成本外,醫(yī)療健康數(shù)據(jù)的相互連接和利用在其它方面也獲得了顯著收益,包括高效的行政管理、減少的工作負荷、節(jié)省的咨詢時間以及在早期識別疾病、更快更高效的識別醫(yī)療欺詐、更恰當?shù)墓芾韨€人和人群的健康等[5]。
收益的產(chǎn)生首先需要數(shù)據(jù)的獲得,而數(shù)據(jù)共享與合并是大數(shù)據(jù)獲得的前提。目前,一些國家和機構已經(jīng)開始著手有關醫(yī)療健康領域宏觀層面大數(shù)據(jù)技術下的數(shù)據(jù)共享及數(shù)據(jù)統(tǒng)一應用平臺的搭建。美國政府大力提倡大數(shù)據(jù)在醫(yī)療健康上的應用,從2009年以后,開放式政府指令和美國衛(wèi)生與人類服務部(HHS)開始公開醫(yī)療保險和醫(yī)療補助服務中心(CMS)、食品和藥物管理局(FDA)及疾病控制中心(CDC)的數(shù)據(jù),更為明顯的是,美國在2010年頒布的患者保護與可承擔的醫(yī)療行動(ACA)規(guī)定讓HHS的數(shù)據(jù)對研究機構和公眾開放。隨著國家數(shù)據(jù)的可獲得,各種研究應用在美國紛紛開展。其他國家如印度的信息管理及電子病歷系統(tǒng)已經(jīng)被指定的第三級醫(yī)院合并生成了一個歷史數(shù)據(jù)的電子倉庫中心,可以利用該中心進行數(shù)據(jù)挖掘、研究和分析來提高醫(yī)療質量[6]。我國目前越來越多的各種醫(yī)療健康數(shù)據(jù)雖然產(chǎn)生出來,但對之的利用和分析還處在初步階段。因為數(shù)據(jù)的產(chǎn)生和管理分散,很少有真正意義上的國家甚至省級層面基于醫(yī)療健康數(shù)據(jù)的共享與統(tǒng)一應用平臺的開發(fā)。盡管近幾年國際上發(fā)表了大量中國學者關于醫(yī)療健康大數(shù)據(jù)研究的學術文章,但研究機構之間合作缺乏,從引用度和學術影響力來看質量還有待提高[7]。本文正是在這樣的背景下,綜合國內(nèi)外相關文獻,總結出醫(yī)療健康大數(shù)據(jù)分析面臨的兩大主要問題——關鍵技術和決策支持,并分別對其進行論述及分析。
在我國,隨著人們收入水平的增加、人口的老齡化、不斷增長的健康意識和對待預防醫(yī)療態(tài)度的轉變已經(jīng)在很大程度上提升了對于醫(yī)療健康服務的需求,所以目前即使記錄的數(shù)字化還是處于初級階段(因為醫(yī)療和健康數(shù)據(jù)生長和變動的快速使醫(yī)療健康組織以當前的水平很難消化),但醫(yī)療健康數(shù)據(jù)卻呈指數(shù)倍的增長,符合大數(shù)據(jù)的4V特征。首先,人類的身體是醫(yī)療健康大數(shù)據(jù)的重要來源,大量的數(shù)據(jù)被各種EHR系統(tǒng)、個人傳感器記錄和網(wǎng)絡社交媒介信息產(chǎn)生;此外,醫(yī)療保險索賠管理系統(tǒng)和醫(yī)療設備的數(shù)據(jù)在尺寸上比傳統(tǒng)數(shù)據(jù)更大,Galloro稱醫(yī)療健康數(shù)據(jù)大規(guī)模增長的一個主要原因就是醫(yī)療圖像的增多[8],所以醫(yī)療健康數(shù)據(jù)能滿足大數(shù)據(jù)的第一個V(Volume體積)特征。其次,在臨床內(nèi)外從患者就診、監(jiān)控及電子穿戴設備產(chǎn)生和需要處理的醫(yī)療健康數(shù)據(jù)的速度增長很快,視為滿足大數(shù)據(jù)第二個V(Velocity速率)特征。然后,據(jù)文獻表示超過80%的醫(yī)療數(shù)據(jù)存在于非結構模式里,比如醫(yī)生記錄的病歷、圖像,從監(jiān)控設備中獲得的圖表,此視為滿足大數(shù)據(jù)第三個V(Variety多樣化)特征。非結構化的臨床數(shù)據(jù)不容易處理、儲存和分析,研究指出分析非結構化數(shù)據(jù)的能力對于大數(shù)據(jù)分析在醫(yī)療健康領域的成功扮演著關鍵性的角色[9]。最后,大數(shù)據(jù)第四個V(Veracity真實性)的特征是處理不確定或模糊的數(shù)據(jù),大多數(shù)從臨床或醫(yī)院記錄里獲得的醫(yī)療數(shù)據(jù)有很多錯誤,因為進入某個患者數(shù)據(jù)的技術程序經(jīng)常附著其他患者的記錄信息或拷貝不正確的信息。
醫(yī)療健康大數(shù)據(jù)的體積、速率、多樣化的快速增加,創(chuàng)造出重要的和可分析的見解。許多文獻描述了大規(guī)模量的數(shù)據(jù)支持廣泛的醫(yī)療和健康服務范圍,包括臨床決策支持、傳感器為基礎的健康狀態(tài)呈現(xiàn)、食品安全監(jiān)督和疾病監(jiān)控、人口健康管理[10]。
上述醫(yī)療健康大數(shù)據(jù)的四個V特征,使得對之的數(shù)據(jù)分析、聚合與模型生成成為醫(yī)療健康信息學研究的瓶頸,數(shù)據(jù)處理的技術也成為醫(yī)療健康大數(shù)據(jù)研究主要集中的問題,而如何從復雜的醫(yī)療健康大數(shù)據(jù)中發(fā)展有效的數(shù)據(jù)挖掘模型和工具來快速找到正確的知識以及支持醫(yī)療健康決策制定,成為醫(yī)療健康大數(shù)據(jù)研究的最大挑戰(zhàn)之一[7]。有證據(jù)表明,盡管在研究及醫(yī)療領域有大幅度的技術進步,癌癥仍然是一個主要的挑戰(zhàn)。原因是癌癥的分析需要分散在臨床及研究的PB級數(shù)據(jù)集中,這些數(shù)據(jù)集是有高維的尺度和闡釋度來識別疾病的狀態(tài)和患者生存可能的[11]。具體挑戰(zhàn)為:①缺少電子化。與電信、金融等行業(yè)相比,醫(yī)療行業(yè)的信息電子化水平相對較低,不能滿足當前衛(wèi)生事業(yè)發(fā)展和深化醫(yī)改工作的需要;同時,衛(wèi)生信息化建設存在區(qū)域發(fā)展不平衡的特點,中西部、農(nóng)村發(fā)展滯后于東部、城市地區(qū),大醫(yī)院信息化水平遠遠高于基層醫(yī)院[12]。②異質化。從患者復雜多樣和異質化的資源里推斷知識并利用在縱向記錄中有關聯(lián)的患者數(shù)據(jù)是一個巨大的挑戰(zhàn)。其中,面對大量異質的數(shù)據(jù),僅僅記錄數(shù)據(jù)并把它們放到倉庫是遠遠不夠的,這個階段首先需要聚合不同格式的數(shù)據(jù)并最終以一個共同的格式呈現(xiàn)。③交互操作(分享數(shù)據(jù))。醫(yī)療健康領域另外一個挑戰(zhàn)就是數(shù)據(jù)的碎片化和分散在不同的所有者中形成自己的數(shù)據(jù)孤島,包括支付者、提供者、實驗室。因為考慮到隱私和財產(chǎn),所以數(shù)據(jù)很難被合并,很難合并還因為數(shù)據(jù)復雜、碎片化的特性以及數(shù)據(jù)表面下很難統(tǒng)一的格式和標準,并且每個孤島中缺少元數(shù)據(jù)。④高的投資成本和進入門檻。需要有IT基礎設施和專門的技術水平,而且管理大數(shù)據(jù)是很費成本的。在金融和醫(yī)療領域,數(shù)據(jù)經(jīng)常被刪除只是因為沒有足夠的空間來儲存它們[5]。⑤建立標準和監(jiān)管。醫(yī)療護理的數(shù)據(jù)很少被標準化,它經(jīng)常在IT的數(shù)據(jù)源系統(tǒng)中以不可兼容的格式被分割或創(chuàng)造。醫(yī)療健康系統(tǒng)中數(shù)據(jù)的標準化需要被定義及執(zhí)行來促使數(shù)據(jù)的一致性,并消除差異和增加對它的使用,如交互操作和統(tǒng)一監(jiān)管。EHR的一些標準除非強制,否則是很難關聯(lián)這些數(shù)據(jù)的。⑥數(shù)據(jù)隱私和安全。目前醫(yī)療健康行業(yè)開始大規(guī)模廣泛應用的EHR、臨床數(shù)據(jù)庫、家庭監(jiān)控和遠程醫(yī)療都有很大的概率發(fā)生數(shù)據(jù)泄露或欺詐、身份盜竊從而造成醫(yī)療欺詐和糾紛案件,從而抬高醫(yī)療總費用并產(chǎn)生重大負面影響;另外網(wǎng)絡社交媒介(包括醫(yī)患交互信息平臺)的不正當運用也將增加患者隱私的泄露和安全風險。Gosain等建議使用三個重要的方法來確保隱私和保證大數(shù)據(jù)的安全:數(shù)據(jù)匿名、告知同意和有差別的隱私[13]。
大數(shù)據(jù)分析結構源于信息生命周期管理的概念:收集、儲存、處理、傳播。經(jīng)過多種領域長期的運用和在不斷嘗試、總結錯誤的基礎上,SAS系統(tǒng)提供了包括以下幾個大數(shù)據(jù)分析的技術過程和生命周期:①識別和構造問題;②準備數(shù)據(jù)、定位和數(shù)據(jù)清洗;③數(shù)據(jù)探索(摘要統(tǒng)計、圖形分析等);④數(shù)據(jù)轉換和選擇(挑選范圍和數(shù)據(jù)分組);⑤開發(fā)、校正和運行統(tǒng)計模型;⑥評價和監(jiān)控模型結果,呈現(xiàn)和提煉分析模型。這些步驟需求四個主要角色,即數(shù)據(jù)管理者、系統(tǒng)管理者、分析者和數(shù)據(jù)挖掘者。雖然以上是大數(shù)據(jù)分析的一般過程,但它高度適用于醫(yī)療健康大數(shù)據(jù)分析領域[14],見圖1。
主要分析過程如下:①需要識別和構造醫(yī)療健康需要解決的問題。不斷進行的醫(yī)療健康大數(shù)據(jù)研究主要集中在處理技術上的問題,然而,除非能在良好的管理下識別出關鍵問題,并有效應對管理上的挑戰(zhàn)、謹慎進行戰(zhàn)略選擇和資源配置,否則醫(yī)療實踐者很難集中優(yōu)勢和精力通過大數(shù)據(jù)分析獲得全部利益,并且沒有足夠的證據(jù)表明大數(shù)據(jù)分析的投資成本能夠收回[15-16]。問題有效識別和構造后,數(shù)據(jù)獲取工具需要從外部資源和整個醫(yī)療健康系統(tǒng)體系中收集和提取數(shù)據(jù),包括病歷、醫(yī)學影像、基因圖譜、傳感數(shù)據(jù)、網(wǎng)絡微博等。②數(shù)據(jù)轉換工具能夠移動、清洗、分割、解釋、聚合、分類與核實數(shù)據(jù),這些轉換工具能使數(shù)據(jù)標準化或一致、看得見和利于分析[17]。③開發(fā)、校正、運行適合分析數(shù)據(jù)的軟件和模型工具并評價、監(jiān)控和呈現(xiàn)其模型結果成為大數(shù)據(jù)分析重要的過程。④模型和工具分析完后,數(shù)據(jù)的分析結果要以可視化的形式呈現(xiàn)出來并傳播。在醫(yī)療領域,實時報告比如像警告和主動告知、實時數(shù)據(jù)導航和操作的關鍵績效指標(KPIs)可以被送達感興趣的使用者或者實時以儀表盤的形式呈現(xiàn)[18]。
圖1 醫(yī)療健康大數(shù)據(jù)分析的生命周期及四個角色
醫(yī)療健康大數(shù)據(jù)增長快速、半結構和非結構化,以及來源于多個位點等這些現(xiàn)狀,使得用傳統(tǒng)的數(shù)據(jù)管理工具(比如RDBMS關系型數(shù)據(jù)庫管理系統(tǒng))變得非常困難。這些系統(tǒng)首先存儲能力不夠,且一般都是獨立的,不能分享與合并數(shù)據(jù),而任何集中式的數(shù)據(jù)庫系統(tǒng)仍然要面對如單一的控制點、瓶頸問題等,但這些問題可以通過使用分布式系統(tǒng)的設想來解決。云計算(一種分布式計算模式)、Hadoop、MapReduce和MongoDB等分布式系統(tǒng)在一些醫(yī)療健康研究單位對于存儲和計算大量數(shù)據(jù)的使用已經(jīng)變得很常見。
(1)云計算。研究者近來在互聯(lián)網(wǎng)為基礎的醫(yī)療健康云上投入了大量關注。醫(yī)療健康實踐者為了診斷患者在實時時間分享信息是必要的,但通過集中式的系統(tǒng)不能滿足,因為在這樣的系統(tǒng)中交互操作和觀點分享很慢。云計算和服務技術對于解決“數(shù)據(jù)碎片化以致不能分享信息”這個問題可能有效,它能夠提供使用者以共同的程序使用資源[7]。在技術上,云有能力儲存大量的數(shù)據(jù),并且它的計算部分提供一個IT平臺來削減電子醫(yī)療系統(tǒng)記錄的成本。另外,云環(huán)境使得患者、醫(yī)療健康計劃服務和實踐者容易進入數(shù)據(jù)記錄。Kuo報道云計算在信息交流技術(ICT)領域逐步發(fā)展,已經(jīng)獲得醫(yī)療健康組織持續(xù)的關注來克服許多互聯(lián)網(wǎng)醫(yī)療障礙[19]。Sultan提出互聯(lián)網(wǎng)醫(yī)療云系統(tǒng)對于醫(yī)療健康組織來說只需要更少的技術[20]。Peddi提出了移動互聯(lián)網(wǎng)醫(yī)療多媒體運用的基于智慧云數(shù)據(jù)處理經(jīng)紀人的模型。通過設定動態(tài)云分配機制,該模型在智慧云經(jīng)紀人上主要關注單一的、混合的和多個目標食物圖像[21]。
在數(shù)據(jù)信息的安全問題上,醫(yī)療健康信息系統(tǒng)(HIS)中分布式云計算結構的使用可能會造成信息的泄露,因為云掌握著患者的信息并能提供不同的服務給授權的使用者。所以患者的數(shù)據(jù)(特別是敏感的數(shù)據(jù))應當通過采用綜合的物理安全、數(shù)據(jù)加密、使用者的真實驗證等來保護。在HIS中一個比較簡單和通用的方框圖模式為在安全使用和容易進入患者數(shù)據(jù)之間提供連接,模式結構包含了四個基本的模塊也就是使用者的登錄系統(tǒng)、患者的數(shù)據(jù)庫、醫(yī)生的數(shù)據(jù)庫和醫(yī)院醫(yī)生的登錄系統(tǒng),出于安全的考慮這些模塊可以阻止一些重要和敏感的患者信息進入。
(2)其它分布式系統(tǒng)。除了云計算外,由Hadoop、MongoDB等分布式數(shù)據(jù)庫構成的數(shù)據(jù)網(wǎng)絡可以分享和共用多個位點和資源的數(shù)據(jù),包括并且不限于已經(jīng)獲得的臨床實驗、基因庫或社交媒體資源,所以其分析的規(guī)模和統(tǒng)計能力都大大增強,又因為數(shù)據(jù)合作者始終保持數(shù)據(jù)的使用權所以數(shù)據(jù)隱私和安全可以得到保障[22]。據(jù)大數(shù)據(jù)醫(yī)療公司介紹,目前醫(yī)療健康大數(shù)據(jù)的分析過程面臨最多的問題還是數(shù)據(jù)獲取與聚合,另外如果沒有一個有效的平臺集中儲存及處理大規(guī)模多源異構的醫(yī)療健康數(shù)據(jù),有價值的挖掘就仍只能手工作坊式的進行[23]。Hadoop分布式系統(tǒng)平臺在醫(yī)療健康背景下識別出問題后,可以從EHR等系統(tǒng)中提取數(shù)據(jù),獲取的數(shù)據(jù)再被數(shù)據(jù)轉換工具轉變?yōu)槿缁颊咝彰?、地址和醫(yī)療歷史記錄等具體準則的數(shù)據(jù)標準格式;接著,被轉換過的數(shù)據(jù)被下載進入目標數(shù)據(jù)庫,比如Hadoop分布文件系統(tǒng)(HDFS)中存儲或進入能進一步加工和分析的Hadoop云系統(tǒng),在其數(shù)據(jù)平臺上進行軟件和挖掘模型分析。
美國喬治梅森大學Feras等[24]就是利用了Hadoop開拓性的進行了國家層面醫(yī)療健康大數(shù)據(jù)的研究,他們創(chuàng)建的CHESS(醫(yī)療健康電子軟件綜合系統(tǒng))平臺可以把用戶上傳的各種數(shù)據(jù)集移到Hadoop開源平臺上(不需要數(shù)據(jù)清洗和結構化)進行工具分析,還可在CHESS上進行Tableau、R、Excel和國家層面數(shù)據(jù)的SQL DB分析,見圖2。
圖2 CHESS系統(tǒng)平臺及其使用者的工具
另外,美國FDA主持的 “哨兵系統(tǒng)”也是一個Hadoop搭建的分布式數(shù)據(jù)網(wǎng)絡,通過數(shù)據(jù)和分析工具的分享來監(jiān)管醫(yī)藥產(chǎn)品的安全。“哨兵系統(tǒng)”的一般數(shù)據(jù)模型(SCDM)是一套幾個圖表組成的標準化數(shù)據(jù)格式和圖表,核心圖表存在和位于所有數(shù)據(jù)合作者的位點上,見圖3。此外,“哨兵系統(tǒng)”主要使用SAS作為基礎的分析系統(tǒng),分析SCDM格式化了的數(shù)據(jù),從中抽取想要識別的患者群,圖4是其中一種圖表分析方法,有分析的一致性、可重復、靈活性、大規(guī)模、透明化、再生性六種優(yōu)點[25]。
在Hadoop的基礎上,MongoDB(一種能支持NoSQL查詢的基于分布式文件存儲的數(shù)據(jù)庫)的出現(xiàn)增強了分布式系統(tǒng)的功能。以Hadoop為框架,MongoDB可以把不同結構的文件儲存在同一個數(shù)據(jù)庫里,并通過加強MapReduce來完成復雜的聚合任務。Antony[26]選擇糖尿病作為MongoDB分析的對象,因為糖尿病具有復雜龐大的數(shù)據(jù)。他的研究首先把各種資源處實時產(chǎn)生的數(shù)據(jù)集收集上來,手工輸入到MongoDB的數(shù)據(jù)庫中。MongoDB可以實現(xiàn)快速儲存和查詢,輸入結果由MapReduce程序自動產(chǎn)生。Antony首先通過MapReduce得到了糖尿病人信息的詳細描述,如每個患者的ID、膽固醇水平等,這些信息片段儲存在MongoDB中,然后再用機器學習中的Naive Bayes(樸素貝葉斯分類器)篩選出信息特征,再對這些特征進行概率分類,最后得出各種特征的風險評估概率,得出預測結果,如年齡46歲發(fā)生糖尿病的風險概率是80%,見圖5。
圖3 “哨兵系統(tǒng)”的六個核心數(shù)據(jù)模型SCDM
圖4 圖表分析工具方法
圖5 糖尿病風險評估模型
由前所述,數(shù)據(jù)轉換和分析工具瞄準對所有種類的醫(yī)療健康數(shù)據(jù)進行處理并且進行恰當?shù)姆治鰜慝@得見解,這對于把患者的數(shù)據(jù)轉化為有意義的信息是特別重要的,這些信息能夠支持以證據(jù)為基礎的決策制定和有價值的醫(yī)療健康組織活動。
Delen[27]進一步把其分為三種主要的技術分析:描述、預測和規(guī)范分析,屬于哪一種分析依據(jù)于數(shù)據(jù)的種類以及分析的問題或目的。①描述分析提供用總結的形式探究問題的見解,回答比如說“過去發(fā)生了什么”的問題。在醫(yī)院系統(tǒng)中描述性分析是有用的,因為它能使醫(yī)療實踐者知道患者過去的行為,以及這些蘊藏于EHR數(shù)據(jù)庫中的行為可能怎樣影響了結果[18]。②預測分析則幫助使用者根據(jù)可能性估計來預測有一定變數(shù)的未來,不僅可以利用大規(guī)模的臨床數(shù)據(jù)從而提供更多關于臨床決策制定程序的想法,還能幫助醫(yī)療管理者解開臨床成本復雜的結構,以及獲得基于患者生活方式、疾病管理和監(jiān)控知識對于未來醫(yī)療健康趨勢更深的理解。雖然預測分析很有用,但目前在醫(yī)療健康領域預測分析的應用還是處在很初期的地步,很多研究顯露出它的難處[28]。MapReduce可以作為預測分析的工具之一,它綜合了各種分析的方法例如自然語言處理(NLP)、文本挖掘和在大規(guī)模并行處理計算機(MPP)中的自然網(wǎng)絡[29]。③規(guī)范分析是相對較新的分析種類,它聯(lián)合了以優(yōu)化、仿真、啟發(fā)為基礎的預測模型技術,例如商業(yè)規(guī)則、算法、機器學習和計算模式程序[27]。然而預測分析如果暗示“今后將要發(fā)生什么”,規(guī)范分析則提供最優(yōu)的解決辦法或者可能的原因或行動來幫助使用者理解未來應該做什么[17]。規(guī)范分析能夠通過吸收新的數(shù)據(jù)集(聯(lián)合患者結構化、非結構化的數(shù)據(jù)以及商業(yè)規(guī)則)不斷的再預測和自動改善預測的精確性,從而發(fā)展更多完善的與診斷和治療等相關的決策內(nèi)容[30]。
Feras等[24]應用CHESS進行了上述三種類型的分析:第一種分析描述了從2005—2015年,美國五大州的患者訪問醫(yī)生的次數(shù)以及各個州的健康數(shù)據(jù)——用體重指數(shù)和得糖尿病、高血壓的患者數(shù)量來衡量,分析顯示五大州患者訪問醫(yī)生的次數(shù)全部在上升以及各個州健康狀況的比較;第二種預測分析是根據(jù)歷史數(shù)據(jù)預測2015年后美國各州患者訪問醫(yī)生的數(shù)量趨勢及健康狀況的比較,采用了線性回歸預測;第三種規(guī)范分析揭示了最近的健康趨勢是怎樣影響各州對于醫(yī)療護理領域政策的定位。Mohit[31]也對印度的醫(yī)療健康數(shù)據(jù)進行描述性分析,還是利用Hadoop的框架,用Pig Latin工具執(zhí)行一系列MapReduce的操作(該工具無需MapReduce要對數(shù)據(jù)進行很多預處理、轉換及程序的編寫,開發(fā)和測試時間較短),其中一個結果見圖6,具體步驟如下:下載醫(yī)療數(shù)據(jù)集;對1950—2015年的醫(yī)院數(shù)量進行聚合;計算每個年度醫(yī)院的總和。
圖6 1950—2015年印度醫(yī)院數(shù)量總和
大數(shù)據(jù)分析可以在大量的數(shù)據(jù)中用文本分析、機器學習、統(tǒng)計、自語言程序、數(shù)據(jù)挖掘和預測分析等先進的分析技巧來了解個人當前的身體狀況、患者的治療效果以及預測疾病的發(fā)生發(fā)展等。以此為出發(fā)點可以作為精準醫(yī)療和預防決策的依據(jù),可以通過在大量數(shù)據(jù)中尋找有意義的過程模式和未知系統(tǒng)的關聯(lián)性來支持臨床決策或預防干預的制定。Duggal等嘗試研究從不同的系統(tǒng)中匹配患者記錄,并使用大數(shù)據(jù)分析技術如Fuzzy比較積分和MapReduce做更好的臨床決策支持[32]。
目前我國醫(yī)療機構使用的臨床信息系統(tǒng)有圍繞服務患者診療的HIS業(yè)務系統(tǒng)、臨床醫(yī)生的CIS系統(tǒng)、護士的NIS系統(tǒng)以及醫(yī)技的LIS、RIS、PACS等主要業(yè)務系統(tǒng),這些不同的系統(tǒng)需要應用集成平臺和數(shù)據(jù)服務平臺對數(shù)據(jù)和服務進行集成及聚合,以此來滿足醫(yī)院業(yè)務和管理的需求。以臨床決策分析產(chǎn)品為例,為實現(xiàn)不同臨床信息系統(tǒng)數(shù)據(jù)的共享從而服務醫(yī)療機構,可以在臨床數(shù)據(jù)庫的基礎上構建服務臨床決策的大數(shù)據(jù)平臺,將原來分散在各個臨床業(yè)務系統(tǒng)包括患者院內(nèi)全生命周期的數(shù)據(jù)進行集中整合,通過一系列的NLP、機器學習、文本挖掘等技術構建大規(guī)模基于臨床大數(shù)據(jù)驅動的知識圖譜[23],如上海交大-耶魯聯(lián)合生物統(tǒng)計中心呂暉教授帶領開展的關于聚合基因公共數(shù)據(jù)集、量化的影像等醫(yī)療數(shù)據(jù)進行的肺癌分型、甲狀腺腫瘤識別等多疾病的組學數(shù)據(jù)聚合分析[33]。
另外,國外先進的研究機構早已進入“專家系統(tǒng)”——基于知識的智能系統(tǒng)的研究。專家系統(tǒng)和傳統(tǒng)的軟件系統(tǒng)和數(shù)據(jù)分析系統(tǒng)不同,因為他們在醫(yī)療決策的制定上更多使用啟發(fā)(探索)式手段而不是算法。一般問題解決者(GPS)的思想以后將發(fā)展成制造醫(yī)療專家系統(tǒng)的思想,該系統(tǒng)使用一般的搜索技術加上啟發(fā)性的知識來解決問題。“專家系統(tǒng)”最常用的建模方式包括基于規(guī)則的系統(tǒng)、基于案例的系統(tǒng)、基于邏輯的系統(tǒng)、基于框架的系統(tǒng)、基于目標的系統(tǒng)。斯坦福大學發(fā)展的MYCIN就是一個基于醫(yī)療規(guī)則的專家系統(tǒng)工具,被用來診斷血液病,被視為第一個“專家系統(tǒng)”[34]。美國最大的醫(yī)療保險公司W(wǎng)ellpoint已經(jīng)開始運用IBM的超級計算機Watson治療疾病。在現(xiàn)今的癌癥治療領域,往往需要一個月或更長時間才能制定出適合的藥物治療方案,而利用Watson的認知計算技術則可以將周期縮短至一天,極大的提高癌癥患者的治愈率[35]。
隨著醫(yī)療護理對患者和國家造成的負擔和成本變得難以為繼,預防醫(yī)療越來越為大家所重視。美國CDC已開始利用大數(shù)據(jù)來預防流感,其每年奪走數(shù)百萬人的生命。CDC把從全國得到的流感報告數(shù)據(jù)進行特征提取分析后制成清晰的地圖,顯示流感如何以接近實時的速度在全國傳播,從而采取有針對性的預防決策[36]。另外,社交媒體也能提供追蹤流感病毒的工具,一家醫(yī)藥公司設計的“幫助,我有流感”就是利用了社交媒體的優(yōu)點來搜尋傳播病毒的源頭。
公共衛(wèi)生是在一個地區(qū)甚至全國范圍內(nèi)對重大疾病尤其是傳染病的預防、監(jiān)控和醫(yī)治,以及對醫(yī)藥、食品、公共環(huán)境衛(wèi)生的監(jiān)督管制[37];醫(yī)療管理則是對醫(yī)療機構或醫(yī)生的質量管理和績效管理等[38]。兩者都強調通過有效率的管理用最低的成本獲得整個地區(qū)或國家人民滿意的健康水平。目前我國的醫(yī)療健康數(shù)據(jù)雖然不斷產(chǎn)生,但由于數(shù)據(jù)較少公開和分享,要進行分析的話從單個位點來的數(shù)據(jù)資源則受限于它們的范圍、規(guī)模和統(tǒng)計能力;而如果可以分享和共用多個位點和資源的話,數(shù)據(jù)又存在行政的、管理的、分析的和患者隱私的挑戰(zhàn)[39],所以大數(shù)據(jù)分析目前難以為整個地區(qū)甚至全國性的公共衛(wèi)生與醫(yī)療管理決策所利用。美國政府正是看到了這點,不僅加大公開發(fā)布醫(yī)療以及業(yè)務數(shù)據(jù)、醫(yī)療質量和績效數(shù)據(jù)的力度[3],而且加大科研力量來攻克技術上的難題。如Feras[24]通過聚合大數(shù)據(jù)的分析提出美國不同州對于ACA政策的不同執(zhí)行力度將會導致州健康的總體水平出現(xiàn)差異,體現(xiàn)了決策效果的精準。
大數(shù)據(jù)分析在精準的醫(yī)療管理決策方面也顯露出重要的作用。Yichuan[18]揭示了醫(yī)療健康5種大數(shù)據(jù)的分析能力帶來的5種不同的收益,其中之一就是管理的收益,管理收益指的是醫(yī)療機構從醫(yī)療管理活動中獲得的包括分派和處理醫(yī)療機構的資源、操作監(jiān)控和戰(zhàn)略決策制定實施等帶來的收益。Ghosh等案例研究也顯示退役軍人衛(wèi)生管理局(VHA)的大數(shù)據(jù)分析系統(tǒng)能夠幫助醫(yī)療機構管理者聚合患者的數(shù)據(jù)來實現(xiàn)可以測量的資源分配的改善,比如說通過決定資源如何利用來支持服務患者所需要的設施和地理的分布;以及選擇未來的治療與方案或者評價初始治療的效果與改進醫(yī)療方案[40]。
在質量和績效管理決策方面,針對醫(yī)療服務過程中產(chǎn)生的海量醫(yī)療健康數(shù)據(jù),運用數(shù)據(jù)挖掘技術精準的分析醫(yī)生的診治行為、實施的臨床路徑以及患者評分等相關指標是否遵守衛(wèi)生部頒布的臨床指南以及監(jiān)控或比較醫(yī)院、醫(yī)生的質量將是今后研究的熱點[41],因為分析的結果不僅可以幫助患者做出更明智的健康護理決策,也將幫助醫(yī)療服務提供方為提高總體績效、增加競爭力提供決策支持。研究表明,對同一患者來說,醫(yī)療服務提供方不同,醫(yī)療護理方法和效果就不同,成本上也存在著很大的差異。
大數(shù)據(jù)分析技術可以通過檢測醫(yī)療保險欺詐的行為,為醫(yī)療保險管理提供精準決策支持。在印度,假的醫(yī)療保險索賠大約占了所有醫(yī)療保險索賠的15%,每年因此損失600千萬~800千萬盧比[42]。如果利用機器學習的預測模型如決策樹、神經(jīng)網(wǎng)絡和線性回歸等,能預測和預防交易時刻的欺詐[43]。在實時檢測中,模型的自動化系統(tǒng)可以在支付發(fā)生前就識別出欺詐,避免重大損失[44]。
醫(yī)療健康是富含數(shù)據(jù)的一個領域,當越來越多的數(shù)據(jù)被收集,大數(shù)據(jù)分析的需求就增多了,然而醫(yī)療健康大數(shù)據(jù)的4V特征決定了對之分析面臨著諸多挑戰(zhàn)。分布式數(shù)據(jù)系統(tǒng)和Hadoop平臺的應用可以部分解決該挑戰(zhàn),隨著醫(yī)療健康數(shù)據(jù)進一步開放和統(tǒng)一數(shù)據(jù)分析和管理平臺的搭建,這些新技術和工具的應用可以在儲存大量數(shù)據(jù)的基礎上對其實行規(guī)范化和標準化,并對其實行統(tǒng)一分析和應用。在如何通過數(shù)據(jù)分析獲得見解方面,描述、預測和規(guī)范分析通過不同的分析方法實現(xiàn)了因果關系及解決途徑的探究。