好的,如果把數(shù)據(jù)采集的難題先放一放,我們放眼觀望一下醫(yī)療數(shù)據(jù)從采集到使用的中間處理環(huán)節(jié)……似乎也不是那么樂(lè)觀。如果說(shuō)原始醫(yī)療數(shù)據(jù)是小麥,能使用的數(shù)據(jù)是面粉,那么我們現(xiàn)在還沒(méi)有一個(gè)完善的磨坊。
2011年IBM發(fā)布了一款叫“沃森”的超級(jí)醫(yī)生助手,數(shù)以千萬(wàn)G的醫(yī)學(xué)資料被“灌”進(jìn)了“沃森”的大腦,包括病人的臨床表現(xiàn)、實(shí)驗(yàn)室檢查、治療方案等,能夠?yàn)獒t(yī)生提供很好的疾病診斷及治療決策支持。自然語(yǔ)言理解、找到證據(jù)、判斷,是“沃森”所具備的的三大能力,這種“認(rèn)知計(jì)算”能力讓“沃森”在當(dāng)前的大數(shù)據(jù)浪潮中大有用武之地。 “沃森”從不同的信息來(lái)源采集數(shù)據(jù)并且提煉,給醫(yī)院,或者是醫(yī)師、醫(yī)生提供醫(yī)療采購(gòu)方面的建議和咨詢意見(jiàn)。在美國(guó)德克薩斯大學(xué)MD Anderson癌癥中心,“沃森”為醫(yī)生提供建議,以助于治療復(fù)雜的疾病和癌癥。
“沃森”的工作過(guò)程實(shí)際上是一個(gè)完整的大數(shù)據(jù)分析過(guò)程,是醫(yī)療健康大數(shù)據(jù)的成功應(yīng)用。大數(shù)據(jù),顧名思義就是數(shù)量極其龐大的數(shù)據(jù)資料。醫(yī)療大數(shù)據(jù)的積累非旦夕之功可達(dá)。早期,大部分醫(yī)療相關(guān)數(shù)據(jù)是以紙張化的形式存在。隨著強(qiáng)大的數(shù)據(jù)存儲(chǔ)、計(jì)算平臺(tái)以及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,醫(yī)療數(shù)據(jù)正在進(jìn)行大量爆發(fā)及快速的電子數(shù)字化。
醫(yī)療領(lǐng)域的數(shù)據(jù)量巨大,數(shù)據(jù)類型復(fù)雜。到2020年,醫(yī)療數(shù)據(jù)將增至35ZB,相當(dāng)于2009年數(shù)據(jù)量的44倍。醫(yī)療數(shù)據(jù)里包含了病人基本信息、個(gè)體化診療信息、預(yù)后診斷、生化檢查、多種影像或病理切片檢查的生物學(xué)信息等數(shù)據(jù),類型復(fù)雜。
要想在醫(yī)療領(lǐng)域使用大數(shù)據(jù)技術(shù),足夠的信息是數(shù)據(jù)分析的基礎(chǔ)。但我國(guó)的數(shù)據(jù)質(zhì)量尚不足以支撐“沃森”級(jí)別的科研需求。
一方面,目前我們積累的數(shù)據(jù)數(shù)量及質(zhì)量都存在較大的問(wèn)題。例如,醫(yī)療數(shù)據(jù)來(lái)源方或多或少存在顧慮,比如病人擔(dān)心個(gè)人隱私問(wèn)題,藥企因商業(yè)利益不愿共享某些敏感信息等。更為關(guān)鍵的是各個(gè)醫(yī)院及機(jī)構(gòu)的醫(yī)療信息、軟件及硬件服務(wù)都各自獨(dú)立,缺乏合理接口,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一。在專家看來(lái),目前我國(guó)醫(yī)療大數(shù)據(jù)就像一大塊“蜂窩煤”,大數(shù)據(jù)收集的渠道并不暢通。我國(guó)目前還沒(méi)有一個(gè)完整的醫(yī)療標(biāo)準(zhǔn)化體系,大量醫(yī)療數(shù)據(jù)沉睡在醫(yī)院系統(tǒng)里,利用率不高。
另一方面,大數(shù)據(jù)的有效應(yīng)用是一個(gè)系統(tǒng)性的工程,需要一系列專業(yè)技能來(lái)保證大數(shù)據(jù)分析的成功。在獲得足夠的信息后,需要由相關(guān)領(lǐng)域的專業(yè)人士與信息技術(shù)專家一起對(duì)數(shù)據(jù)進(jìn)行有針對(duì)性地歸納和分析,得出由大量新興技術(shù)(如Hadoop Map Reduce、內(nèi)存數(shù)據(jù)庫(kù)等)組成的高性能的專業(yè)的分析技術(shù)架構(gòu)解決方案,而這種跨學(xué)科、跨領(lǐng)域合作能否順利實(shí)現(xiàn),是大數(shù)據(jù)技術(shù)實(shí)際應(yīng)用中的重要問(wèn)題。我國(guó)在發(fā)展醫(yī)療大數(shù)據(jù)的過(guò)程中,人才隊(duì)伍建設(shè)也亟待加強(qiáng)。
關(guān)于數(shù)據(jù)交易的話題,討論得已經(jīng)越來(lái)越多,包括各地也在推交易所,常常能看到類似“醫(yī)療大數(shù)據(jù)公開(kāi)賣啦”等新聞標(biāo)題。
但是與討論熱度相反的是,交易這個(gè)詞現(xiàn)在被提得越來(lái)越少。一方面原因是,數(shù)據(jù)擁有方和數(shù)據(jù)需求方很難對(duì)接,并不是通過(guò)物流和傳遞就可以產(chǎn)生交易。實(shí)際上有數(shù)據(jù)和需要數(shù)據(jù)的是兩方,中間要經(jīng)過(guò)很多才能把他們的需求對(duì)接起來(lái),這是數(shù)據(jù)處理的一部分。 另一方面,因?yàn)獒t(yī)療數(shù)據(jù)太過(guò)龐大,原始的數(shù)據(jù)集不可能直接進(jìn)行交易,而且醫(yī)療數(shù)據(jù)缺乏一個(gè)統(tǒng)一的標(biāo)準(zhǔn),不同的醫(yī)院和不同的機(jī)構(gòu)收集的數(shù)據(jù)格式也不太一樣。
醫(yī)療大數(shù)據(jù)除了包含了大數(shù)5個(gè)V——Volume(大體量)、Variety(多樣性)、Velocity(時(shí)效性)、Veracity(準(zhǔn)確性)、Value(大價(jià)值)的特點(diǎn)之外,還有多態(tài)性、時(shí)效性、不完整性、冗余性、隱私性等特點(diǎn)。多態(tài)性指醫(yī)師對(duì)病人的描述具有主觀性而難以達(dá)到標(biāo)準(zhǔn)化;時(shí)效性指數(shù)據(jù)僅在一段時(shí)間內(nèi)有用;不完整性指醫(yī)療分析對(duì)病人的狀態(tài)描述有偏差和缺失;冗余性指醫(yī)療數(shù)據(jù)存在大量重復(fù)或無(wú)關(guān)的信息;隱私性指用戶的醫(yī)療健康數(shù)據(jù)具有高度的隱私性,泄漏信息會(huì)造成嚴(yán)重后果。
因?yàn)獒t(yī)療數(shù)據(jù)的這些特性,對(duì)數(shù)據(jù)進(jìn)行清洗是很重要的,包括脫敏、去躁,即使已經(jīng)拿到大量醫(yī)院和機(jī)構(gòu)的數(shù)據(jù),甚至是國(guó)家部門的數(shù)據(jù),還得進(jìn)行去蕪存菁(不少基層醫(yī)院的數(shù)據(jù)大面積缺失、混亂、不實(shí)),當(dāng)然,還涉及到去隱私。做醫(yī)療數(shù)據(jù)的跟做醫(yī)療的人不是同一批,拿到數(shù)據(jù)以后,首先要做數(shù)據(jù)清洗,這是很累的活就不提了,而清洗數(shù)據(jù)的人往往不懂醫(yī)療,這就不僅是累了,簡(jiǎn)直是一出活生生的天書奇談。
互聯(lián)網(wǎng)公司做醫(yī)療沒(méi)那么簡(jiǎn)單,醫(yī)院和醫(yī)生做互聯(lián)網(wǎng)的應(yīng)用反而簡(jiǎn)單得多。有位院長(zhǎng)說(shuō)過(guò),你們互聯(lián)網(wǎng)公司把三甲公立醫(yī)院的院長(zhǎng)們吵醒了,吵明白了,他們一旦行動(dòng)起來(lái)去做互聯(lián)網(wǎng)的應(yīng)用,去開(kāi)互聯(lián)網(wǎng)醫(yī)院,你們的空間和機(jī)會(huì)就不大了。不過(guò)請(qǐng)別緊張,多數(shù)的三甲公立醫(yī)院院長(zhǎng)的心思根本不在互聯(lián)網(wǎng)上,多數(shù)人也是吵不醒的。
“醫(yī)院沒(méi)這個(gè)心思”和“有心思的不專業(yè)”,導(dǎo)致了數(shù)據(jù)清洗的環(huán)節(jié)沒(méi)有合格的清潔工。