許 茜 黃子杰 蔡 晶 劉志臻 俞向梅 陳桂芬 陳 林 葛 亮 張钘銘
·綜述·
基于大數(shù)據(jù)研究的醫(yī)學(xué)數(shù)據(jù)可視化*
許 茜1,2黃子杰2△蔡 晶1,2劉志臻1,2俞向梅1,2陳桂芬2,3陳 林2,3葛 亮2,4張钘銘2,5
數(shù)據(jù)可視化是指利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)大數(shù)據(jù)中的隱藏信息與內(nèi)在規(guī)律,并將研究結(jié)果采用圖形圖像形式進(jìn)行表達(dá)的處理過程[1]。數(shù)據(jù)可視化的目的主要是借助于直觀易懂的圖形化手段,清晰有效地傳達(dá)與溝通信息,從而實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)集的深入洞察。隨著電子計(jì)算機(jī)的普及應(yīng)用、跨區(qū)域的網(wǎng)絡(luò)連接,現(xiàn)代醫(yī)學(xué)數(shù)據(jù)呈爆發(fā)式增長(zhǎng),而且數(shù)據(jù)格式多種多樣,已然超出了傳統(tǒng)統(tǒng)計(jì)圖表的表現(xiàn)能力,需要借助數(shù)據(jù)可視化來展示,是大數(shù)據(jù)挖掘的必然發(fā)展趨勢(shì)。
數(shù)據(jù)可視化領(lǐng)域的起源,可以追溯到20世紀(jì)50年代計(jì)算機(jī)圖形學(xué)的早期?;厮輸?shù)據(jù)可視化的發(fā)展過程,大體可以分為以下三個(gè)階段[2-3]:
1.第一階段:科學(xué)可視化。1987年,由布魯斯·麥考梅克、托馬斯·德房蒂和瑪克辛·布朗共同編寫的美國(guó)國(guó)家科學(xué)基金會(huì)報(bào)告《Visualization in Scientific Computing》(科學(xué)計(jì)算的可視化),強(qiáng)調(diào)了新的基于計(jì)算機(jī)的可視化技術(shù)方法的必要性,引發(fā)并促進(jìn)了可視化這一新的研究領(lǐng)域的發(fā)展。
2.第二階段:信息可視化。隨著計(jì)算機(jī)運(yùn)算能力的迅速提升,人們建立了規(guī)模越來越大、復(fù)雜程度越來越高的數(shù)值模型,并將保存的文本、數(shù)值以及多媒體資料進(jìn)行整合,從而造就了形形色色體積龐大的各種類型的信息集。20世紀(jì)90年代初期,一個(gè)新的被稱為“信息可視化”的研究領(lǐng)域誕生了。在許多應(yīng)用領(lǐng)域,信息可視化可以對(duì)異質(zhì)性數(shù)據(jù)集(既有數(shù)據(jù)形式,也有文本、圖形、圖像等其他形式)的抽象分析結(jié)果提供形象化的閱讀與理解支持。1995年,IEEE Information Visualization(國(guó)際信息可視化組織)正式創(chuàng)立,標(biāo)志著信息可視化作為獨(dú)立的學(xué)科被正式確立。
3.第三階段:數(shù)據(jù)可視化。21世紀(jì),面對(duì)愈來愈龐大復(fù)雜的數(shù)據(jù)庫(kù),人們發(fā)現(xiàn)僅僅依靠數(shù)據(jù)分析技術(shù)并不能讓公眾充分理解數(shù)據(jù)處理結(jié)果的正確含義,因此借助于信息可視化的概念,提出了數(shù)據(jù)可視化。數(shù)據(jù)可視化指的是利用圖形、圖像處理、計(jì)算機(jī)視覺以及用戶界面,通過表達(dá)、建模以及對(duì)立體、表面、屬性以及動(dòng)畫的顯示,對(duì)數(shù)據(jù)分析結(jié)果加以可視化解釋。與科學(xué)可視化、信息可視化方法相比,純粹建立在大數(shù)據(jù)挖掘結(jié)果之上的數(shù)據(jù)可視化,其所涵蓋的技術(shù)方法不僅廣泛而且復(fù)雜。
2001年,愛德華·塔夫特的經(jīng)典著作《The Visual Display of Quantitative Information》(定量信息的可視化展示)首次提出了數(shù)據(jù)可視化的目的是讓讀者能快速獲取真實(shí)而豐富的信息;優(yōu)秀的圖表形式,是對(duì)有用數(shù)據(jù)的完美表達(dá)。目前,數(shù)據(jù)可視化已經(jīng)提出了許多技術(shù)方法,可以根據(jù)可視化原理的不同劃分為基于幾何的技術(shù)、面向像素的技術(shù)、基于圖標(biāo)的技術(shù)、基于層次的技術(shù)、基于圖像的技術(shù)和分布式技術(shù)等等[4]。
可視化的理論與實(shí)踐自20世紀(jì)70年代傳入中國(guó),到2000年開始了蓬勃發(fā)展。近10年來,醫(yī)學(xué)領(lǐng)域引入了數(shù)據(jù)可視化研究。
1.數(shù)據(jù)可視化在醫(yī)學(xué)領(lǐng)域應(yīng)用情況
隨著數(shù)據(jù)可視化在各學(xué)科領(lǐng)域的良好發(fā)展,醫(yī)學(xué)領(lǐng)域?qū)ζ溲芯亢吞接懸踩找嬖龆唷J紫缺憩F(xiàn)在臨床醫(yī)學(xué)研究方面。面對(duì)臨床數(shù)據(jù)量的增長(zhǎng),許多有用的臨床信息以零散的無序的方式存在于異構(gòu)臨床信息系統(tǒng)中。臨床醫(yī)療數(shù)據(jù)的可視化,向臨床醫(yī)生和健康提供者展現(xiàn)以患者為中心的數(shù)據(jù)組織模式、方法以及可視化分析技術(shù),可以實(shí)現(xiàn)臨床信息數(shù)據(jù)的直觀展現(xiàn);以醫(yī)療事件時(shí)間軸為次序,將臨床事件及相關(guān)數(shù)據(jù)、報(bào)告進(jìn)行可視化,有利于醫(yī)療機(jī)構(gòu)進(jìn)行醫(yī)療質(zhì)量控制,實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下的醫(yī)療質(zhì)量精細(xì)化管理[4]。醫(yī)學(xué)數(shù)據(jù)可視化的具體應(yīng)用,目前主要涉及醫(yī)院管理系統(tǒng)、醫(yī)療保險(xiǎn)管理平臺(tái)、醫(yī)療過程中海量數(shù)據(jù)挖掘與展示、醫(yī)學(xué)經(jīng)濟(jì)學(xué)實(shí)時(shí)監(jiān)控等等[5]。其次在基礎(chǔ)醫(yī)學(xué)研究中,大數(shù)據(jù)可視化技術(shù)也一次次震撼了人們的想象。如科學(xué)家通過功能性核磁共振和聽讀實(shí)驗(yàn),對(duì)許多常用詞匯在大腦中的反應(yīng)區(qū)進(jìn)行了定位,發(fā)現(xiàn)了很多詞匯之間有趣的關(guān)聯(lián),通過可視化建模手段,將其繪制成了動(dòng)態(tài)地圖:semantic maps(語義地圖)[6]。實(shí)際上,醫(yī)學(xué)科學(xué)的方方面面,從日常醫(yī)療行為到宏觀衛(wèi)生管理,從調(diào)查與實(shí)驗(yàn)中收集的研究數(shù)據(jù)到匯集多機(jī)構(gòu)多源頭的超大數(shù)據(jù)倉(cāng)庫(kù),均可利用數(shù)據(jù)可視化的技術(shù)手段,獲得富有價(jià)值的直觀知識(shí)[7-9]。
2.醫(yī)學(xué)數(shù)據(jù)可視化研究的不足
目前,醫(yī)學(xué)數(shù)據(jù)可視化研究的不足主要體現(xiàn)在三個(gè)方面:①應(yīng)用范圍有待拓展。盡管近10年來相關(guān)研究有上升趨勢(shì),但相對(duì)于其他領(lǐng)域的熱烈響應(yīng),醫(yī)學(xué)領(lǐng)域?qū)?shù)據(jù)可視化的反應(yīng)稍顯平淡,在中文科技期刊數(shù)據(jù)庫(kù)(維普)中按檢索條件:“任意字段=醫(yī)學(xué)可視化”(1989-2015年)共檢索到不足4000條記錄。②行業(yè)特征不夠鮮明。數(shù)據(jù)可視化涉及多學(xué)科知識(shí),是典型的交叉學(xué)科。目前醫(yī)學(xué)領(lǐng)域數(shù)據(jù)可視化的研究主要來自計(jì)算機(jī)專業(yè)的軟件應(yīng)用,尚缺乏醫(yī)學(xué)行業(yè)本身對(duì)數(shù)據(jù)可視化在本學(xué)科的應(yīng)用研究和深入?yún)⑴c[10],未能充分突顯醫(yī)學(xué)的專業(yè)特征。③理論體系急需完善。可視化研究本身的發(fā)展不過半個(gè)多世紀(jì),尤其是數(shù)據(jù)可視化,發(fā)展時(shí)間更短,尚未形成完整的理論體系[11]。圖形、動(dòng)畫、色彩、結(jié)構(gòu)、路徑等元素對(duì)數(shù)據(jù)可視化結(jié)果的閱讀與理解至關(guān)重要,但是目前尚未有學(xué)者從人群心理特點(diǎn)出發(fā),深入研究人類圖形認(rèn)知特征,更缺乏對(duì)數(shù)據(jù)可視化所必須依從的原則、方法、評(píng)價(jià)手段的研究。因此,醫(yī)學(xué)數(shù)據(jù)可視化也缺乏完善的理論指導(dǎo)。
3.數(shù)據(jù)可視化的錯(cuò)誤使用
數(shù)據(jù)可視化目前尚缺乏完善的理論指導(dǎo),難免出現(xiàn)一些錯(cuò)誤使用的現(xiàn)象。常見的誤用如:①比例失當(dāng)。如坐標(biāo)軸的錯(cuò)誤裁剪,可造成差異的放大或縮小,引起視覺誤差,誤導(dǎo)人們對(duì)數(shù)據(jù)的理解;在展示數(shù)據(jù)的相對(duì)數(shù)如率、百分比等數(shù)值時(shí),人們往往注意率、百分比本身的大小,卻忽略了不同的率所來源的基數(shù)大小是否一致。②文圖不配。數(shù)據(jù)可視化包含的數(shù)據(jù)信息容量大,缺乏必要的解釋文句而單純依靠標(biāo)題常常容易造成對(duì)數(shù)據(jù)內(nèi)容的描述不足,或過度概括,引出不必要的誤讀。③繁復(fù)難懂。片面追求外形、色彩和構(gòu)圖的美感,簡(jiǎn)單問題復(fù)雜化或復(fù)雜問題過于藝術(shù)化,導(dǎo)致過多非核心信息的展示,引起閱讀者的疑惑。因此,醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)可視化還需要和醫(yī)學(xué)知識(shí)相結(jié)合,從專業(yè)知識(shí)角度進(jìn)一步審視數(shù)據(jù)可視化正確與否,避免數(shù)據(jù)可視化的錯(cuò)誤使用[12]。
1.數(shù)據(jù)可視化突破了傳統(tǒng)統(tǒng)計(jì)圖的局限性
近半個(gè)世紀(jì)以來,醫(yī)學(xué)領(lǐng)域采用傳統(tǒng)的統(tǒng)計(jì)圖形式表達(dá)相關(guān)數(shù)據(jù),如直方圖、折線圖、餅圖等。這些傳統(tǒng)的統(tǒng)計(jì)圖簡(jiǎn)單直觀,在展示數(shù)據(jù)時(shí)取得了較好的效果。但是隨著數(shù)據(jù)量的增大,這些傳統(tǒng)統(tǒng)計(jì)圖的局限性越來越突出了。傳統(tǒng)統(tǒng)計(jì)圖的局限性主要表現(xiàn)在:①表現(xiàn)力不足,不能表達(dá)數(shù)值-文字-圖形交錯(cuò)的非常規(guī)數(shù)據(jù)集,多種異質(zhì)性數(shù)據(jù)沒有對(duì)應(yīng)的統(tǒng)計(jì)圖來表現(xiàn)。②信息量有限。傳統(tǒng)統(tǒng)計(jì)圖構(gòu)建的一般都是平面二維的圖形,無法承載同時(shí)帶有時(shí)間-空間的多維的數(shù)據(jù)信息。③新穎性欠缺,偏離與人們視聽閱讀的喜好。研究表明,彩色圖形、聲音、空間方位、觸覺識(shí)別等綜合的感知,更容易吸引人們的注意力,并且有利于人們對(duì)該事物的記憶和理解[13-14]。
數(shù)據(jù)可視化是傳統(tǒng)統(tǒng)計(jì)圖的升級(jí),它的優(yōu)勢(shì)體現(xiàn)在:①花樣繁多,沒有固定模式,可以一事一圖、多事一圖、一事多圖等。②信息密集,可視化不僅展示了復(fù)雜分析的直觀性結(jié)果,而且能夠傳遞豐富的相關(guān)知識(shí),幫助讀者深入了解問題的來龍去脈。③多元交互。擺脫了傳統(tǒng)統(tǒng)計(jì)圖的二維限制后,數(shù)據(jù)可視化能夠在多維空間立體層面展示數(shù)據(jù),不僅具有更好的表現(xiàn)力,而且能夠展示多個(gè)變量之間的交互作用,提高讀者的理解程度。如王微等[15]利用可視化地圖形式,展現(xiàn)了新疆地區(qū)結(jié)核病空間分布特征及其影響因素;郝世超[16]等構(gòu)建了中國(guó)東中西部老年人的健康期望壽命的年齡序列左右對(duì)稱條形圖,在傳統(tǒng)圖表的基礎(chǔ)上進(jìn)行了美化改造,使得有限的版面內(nèi)展現(xiàn)出更為豐富的數(shù)據(jù)信息。
2.數(shù)據(jù)可視化適應(yīng)了醫(yī)學(xué)大數(shù)據(jù)的時(shí)代要求
醫(yī)學(xué)數(shù)據(jù)涵蓋醫(yī)療工作的各個(gè)方面,包括了結(jié)構(gòu)化和非結(jié)構(gòu)化的各種數(shù)據(jù)類型。大致來說,可以分為臨床數(shù)據(jù)(有數(shù)值型資料、定性或半定量資料、文本資料等)、衛(wèi)生經(jīng)濟(jì)學(xué)數(shù)據(jù)(人均/次均診療費(fèi)用、醫(yī)療糾紛費(fèi)用等)、生理病理藥理研究科研數(shù)據(jù)、醫(yī)患關(guān)系中雙方的個(gè)人行為和情感數(shù)據(jù)等[17-18]。如此復(fù)雜的數(shù)據(jù)類型、龐大的數(shù)據(jù)記錄,其內(nèi)在規(guī)律已經(jīng)不能用單純的統(tǒng)計(jì)分析技術(shù)加以解決,必須在數(shù)據(jù)挖掘的基礎(chǔ)上應(yīng)用數(shù)據(jù)可視化的理念和技術(shù)輔助進(jìn)行深入的解讀。如有研究者對(duì)大量、變化、即時(shí)、多維的移動(dòng)醫(yī)療數(shù)據(jù)(運(yùn)動(dòng)健身軟件中的數(shù)據(jù)、用戶身體健康指標(biāo)數(shù)據(jù))進(jìn)行可視化設(shè)計(jì)分析,在精準(zhǔn)表達(dá)信息的基礎(chǔ)上使得用戶體驗(yàn)不斷提升[19]。
3.計(jì)算機(jī)技術(shù)進(jìn)步提升了醫(yī)學(xué)數(shù)據(jù)可視化的實(shí)現(xiàn)程度
數(shù)據(jù)可視化將一大堆密密麻麻的數(shù)字或非數(shù)字的信息轉(zhuǎn)成直觀形式,其實(shí)是對(duì)知識(shí)的一種壓縮[20]。與立體建模之類的特殊技術(shù)方法相比,數(shù)據(jù)可視化所涵蓋的技術(shù)方法要廣泛得多[21-22]。數(shù)據(jù)可視化的核心價(jià)值不在于獲得海量的數(shù)據(jù),也不僅僅是對(duì)海量數(shù)據(jù)的簡(jiǎn)單描述而是通過數(shù)據(jù)挖掘等方式對(duì)其展開專業(yè)的、系統(tǒng)的分析來實(shí)現(xiàn)數(shù)據(jù)的“增值”。數(shù)據(jù)可視化將整合數(shù)據(jù)管理、數(shù)據(jù)挖掘、數(shù)據(jù)展示多學(xué)科知識(shí),實(shí)現(xiàn)對(duì)大數(shù)據(jù)的整合、存儲(chǔ)、挖掘、檢索、決策生成,發(fā)現(xiàn)醫(yī)學(xué)領(lǐng)域內(nèi)在的規(guī)律性,從而跨越傳統(tǒng)的數(shù)據(jù)處理,達(dá)到精準(zhǔn)醫(yī)學(xué)、精準(zhǔn)管理的目的。
綜上所述,醫(yī)學(xué)大數(shù)據(jù)的分析、挖掘、有效管理和利用是使其體現(xiàn)出巨大科學(xué)與產(chǎn)業(yè)價(jià)值的關(guān)鍵,現(xiàn)擁有的大數(shù)據(jù)處理技術(shù)是否能夠充分分析、挖掘數(shù)據(jù)蘊(yùn)藏的價(jià)值,應(yīng)對(duì)共享醫(yī)療數(shù)據(jù)后數(shù)據(jù)集中爆發(fā)局面是現(xiàn)今面臨的挑戰(zhàn)[23]?;诖髷?shù)據(jù)挖掘的醫(yī)學(xué)數(shù)據(jù)可視化研究和探索,就是將大數(shù)據(jù)管理的理念和思路引入醫(yī)學(xué)領(lǐng)域,實(shí)現(xiàn)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)管理的新發(fā)展。
[1]陸少珍,張貴,張瑞秋,等.從用戶研究到產(chǎn)品概念設(shè)計(jì)的數(shù)據(jù)可視化研究.新技術(shù)新工藝,2015,(2):102-105.
[2]張浩,郭燦.數(shù)據(jù)可視化技術(shù)應(yīng)用趨勢(shì)與分類研究.軟件導(dǎo)刊,2012,11(5):169-172.
[3]高玥.大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)可視化概念研究.電子技術(shù)與軟件工程,2014,(19):216-216.
[4]鄭西川.實(shí)踐臨床數(shù)據(jù)可視化.中國(guó)醫(yī)院院長(zhǎng),2014,19:72-73.
[5]Santos M,Eriksson H.Making quality registers supporting improvements:a systematic review of the data visualization in 5 quality registries.QualManag Health Care,2014,23(2):119-28.
[6]Alexander GH,Wendy AH,Thomas LG,et al.Natural speech reveals the semantic maps that tile human cerebral cortex.Nature,2016,532(7600):453-458.
[7]齊晨虹,高生鵬.醫(yī)院信息數(shù)據(jù)挖掘及數(shù)據(jù)可視化.中國(guó)科技信息,2014(22):115-116.
[8]房強(qiáng).基于數(shù)據(jù)可視化的農(nóng)民工異地醫(yī)療分析系統(tǒng).信息技術(shù),2014(7):136-139.
[9]Chaim TM,Schaufelberger MS,Ferreira LK,et al.Volume reduction of the corpus callosum and its relationship with deficits in interhemispheric transfer of information in recent-onset psychosis.Psychiatry Research:Neuroimaging,2010,(184):1-9.
[10]鄒北驥.大數(shù)據(jù)分析及其在醫(yī)療領(lǐng)域中的應(yīng)用.計(jì)算機(jī)教育,2014,7:24-29.
[11]蔡佳慧,張濤,宗文紅.醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)及思考.中國(guó)衛(wèi)生信息管理雜志,2013,4:292-295.
[12]張振,周毅,杜守洪,等.醫(yī)療大數(shù)據(jù)及其面臨的機(jī)遇與挑戰(zhàn).醫(yī)學(xué)信息學(xué)雜志,2014,6:2-8.
[13]王光榮.發(fā)展心理學(xué)研究的兩種范式--皮亞杰與維果茨基認(rèn)知發(fā)展理論比較研究.華中師范大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2014,53(5):164-169.
[14]姚強(qiáng),張耀光,徐玲,等.國(guó)家衛(wèi)生服務(wù)調(diào)查學(xué)術(shù)貢獻(xiàn)和影響力定量研究.中國(guó)衛(wèi)生信息管理雜志,2014,3:199-205.
[15]王微,靳圓圓,王澤,等.新疆地區(qū)結(jié)核病空間分布特征及其影響因素研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2016,8(33):672-674.
[16]郝世超,符健,周鼒,等.中國(guó)老年人健康期望壽命及其影響因素研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2016,6(33):408-411.
[17]李靜麗,馬霞,甄天民,等.基本公共衛(wèi)生服務(wù)文獻(xiàn)計(jì)量分析.醫(yī)學(xué)信息學(xué)雜志,2014,35(5):47-50.
[18]Lee S,Kim E,Monsen KA.Public health nurse perceptions of Omaha System data visualization.Int J Med Inform,2015,S1386-5056(15):30017-30024.
[19]胡安妮,許懋琦.移動(dòng)醫(yī)療數(shù)據(jù)可視化研究.設(shè)計(jì),2016(5):138-139.
[20]李田丁,王莉.淺談大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘和數(shù)據(jù)可視化.圖書情報(bào)導(dǎo)刊,2016,1(1):100-104.
[21]羅旭,劉友江.醫(yī)療大數(shù)據(jù)研究現(xiàn)狀及其臨床應(yīng)用.醫(yī)學(xué)信息學(xué)雜志,2015,5:10-14.
[22]孫品一,周峰.探討大數(shù)據(jù)時(shí)代下的數(shù)據(jù)可視化.設(shè)計(jì),2016(7):136-137.
[23]Fan J,Han F,Liu H.Challenges of Big Data analysis.NatlSci Rev,2014,1(2):293-314.
(責(zé)任編輯:劉 壯)
福建省自然科學(xué)基金面上項(xiàng)目(2016J01665)
1.福建中醫(yī)藥大學(xué)中西醫(yī)結(jié)合學(xué)院統(tǒng)計(jì)生物醫(yī)學(xué)教研室(350122)
2.福建中醫(yī)藥大學(xué)醫(yī)學(xué)大數(shù)據(jù)研究室
3.福建中醫(yī)藥大學(xué)人文與管理學(xué)院計(jì)算機(jī)科學(xué)與信息管理教研室
4.福建中醫(yī)藥大學(xué)人文與管理學(xué)院管理學(xué)教研室
5.福建中醫(yī)藥大學(xué)人文與管理學(xué)院心理學(xué)教研室
△通信作者:黃子杰,E-mail:2015003@fjtcm.edu.cn
中國(guó)衛(wèi)生統(tǒng)計(jì)2017年2期