馮嵩,胡建中
(1.中南大學(xué)湘雅醫(yī)院 網(wǎng)絡(luò)信息中心,湖南 長沙 410008;2.“移動醫(yī)療”教育部-中國移動聯(lián)合實驗室,湖南 長沙 410008)
·醫(yī)工園地·
基于大數(shù)據(jù)的個性化診療系統(tǒng)研究與探索*
馮嵩1,胡建中2
(1.中南大學(xué)湘雅醫(yī)院 網(wǎng)絡(luò)信息中心,湖南 長沙 410008;2.“移動醫(yī)療”教育部-中國移動聯(lián)合實驗室,湖南 長沙 410008)
將醫(yī)療大數(shù)據(jù)的挖掘分析應(yīng)用于典型疾病的診斷和預(yù)測,是實現(xiàn)個性化疾病診療的基礎(chǔ)。本文在圍繞大數(shù)據(jù)個性化醫(yī)療診斷模型研究與實踐的基礎(chǔ)上,提出在大數(shù)據(jù)平臺上開展個性化診療的建設(shè)思路、實現(xiàn)方法和研究內(nèi)容的初步設(shè)想,探索一種新的疾病診斷和預(yù)測的方法。
大數(shù)據(jù);個性化診療;診斷模型
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展及其與不同領(lǐng)域的融合,信息對全球社會經(jīng)濟(jì)發(fā)展和科學(xué)進(jìn)步產(chǎn)生了深刻的影響。目前,大數(shù)據(jù)伴隨著物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興技術(shù)的發(fā)展,已經(jīng)滲透到各行各業(yè)中。大數(shù)據(jù)促進(jìn)了信息和產(chǎn)業(yè)跨界融合,成為加快智慧城市建設(shè),促進(jìn)信息消費(fèi),推動經(jīng)濟(jì)社會轉(zhuǎn)型發(fā)展的新引擎,將對經(jīng)濟(jì)社會發(fā)展帶來深刻變革。近年來,大數(shù)據(jù)在醫(yī)藥研發(fā)、臨床診療、疾病管理、公共衛(wèi)生和健康管理等方面逐漸突顯出優(yōu)勢。美、英等發(fā)達(dá)國家已先后投入巨資開展區(qū)域醫(yī)療健康信息化建設(shè),希望借助更多、更新的信息化技術(shù),使得醫(yī)療健康信息化系統(tǒng)能夠最大限度地輔助公民醫(yī)療質(zhì)量和安全,以提升整體醫(yī)療服務(wù)質(zhì)量,提高醫(yī)療服務(wù)可及性,降低醫(yī)療費(fèi)用,減少醫(yī)療風(fēng)險[1]。
2012年9月,美國紐約Metalled公司提出以大數(shù)據(jù)、人工智能以及眾多專家為支持打造個性化醫(yī)療的想法,通過全方位了解患者的相關(guān)信息,為其提供更匹配、康復(fù)幾率更高的治療手段[2]。在臨床決策支持系統(tǒng)與電子病歷相結(jié)合的研究層面,Emory大學(xué)生物信息學(xué)中心的Andrew等人建立了基于電子病歷的決策支持平臺,該平臺可以將電子病歷中所有不同形式的數(shù)據(jù)標(biāo)準(zhǔn)化為統(tǒng)一的模型并實現(xiàn)不同治療方案的治療效果對比,提高醫(yī)療質(zhì)量[3];Shah等[4]設(shè)計了一套文本自動匹配程序,該程序可以從非結(jié)構(gòu)化的電子病歷信息中提取諸如疾病診斷名稱和患者死亡原因之類的數(shù)量;Siddiqui等[5]則在電子病歷的基礎(chǔ)上,結(jié)合離散小波變換、主成分分析和支持向量機(jī)建立了對大腦磁共振掃描圖像的結(jié)果分類,實現(xiàn)對醫(yī)療檢驗結(jié)果的智能區(qū)分。2014年1月,我國中南大學(xué)啟動“湘雅臨床大數(shù)據(jù)建設(shè)”項目,以促進(jìn)智慧醫(yī)療、個體化醫(yī)療、醫(yī)院精細(xì)化管理、臨床科研、轉(zhuǎn)化醫(yī)學(xué)和基礎(chǔ)醫(yī)學(xué)的發(fā)展[6]。本研究是基于中南大學(xué)大數(shù)據(jù)項目展開。
初步設(shè)計的個性化診療模型分為五個過程,關(guān)系如圖1所示:①提取高層次的語義特征 醫(yī)療數(shù)據(jù)往往具有海量、異構(gòu)等特點(diǎn),特別是包含了大量的非結(jié)構(gòu)化文本數(shù)據(jù)和圖像數(shù)據(jù),首要是如何從這些數(shù)據(jù)中提取高層次的語義特征,從而建立統(tǒng)一的數(shù)據(jù)表達(dá)。②預(yù)測模型的建立 醫(yī)學(xué)中的疾病診斷和預(yù)測問題本身極為復(fù)雜,同一種病往往具有不同的臨床癥狀,而類似的癥狀也有可能是不同的病或者是多種病引起的。此外,經(jīng)過多年的發(fā)展,臨床醫(yī)學(xué)積累了大量的醫(yī)學(xué)先驗知識。如何對這一復(fù)雜的實際問題進(jìn)行建模,并將這些先驗知識融入到該模型中,建立并訓(xùn)練準(zhǔn)確、快速的多分類與預(yù)測模型,是平臺能否提供智能服務(wù)特別是個性化自動診療的關(guān)鍵。③醫(yī)療數(shù)據(jù)的特征提取 根據(jù)語義分析技術(shù),對文本數(shù)據(jù)和影像數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,提取統(tǒng)一語義特征用于后續(xù)的疾病診斷和預(yù)測。④分類模型的建 立 從當(dāng)前醫(yī)院實際診斷的流程出發(fā),結(jié)合各種疾病的先驗知識建立疾病診斷的層次分類模型。⑤模型的訓(xùn)練 從數(shù)據(jù)并行化和模型并行化出發(fā)設(shè)計快速的優(yōu)化算法,完成對模型的有效訓(xùn)練。
圖1 個性化診療模型關(guān)系圖
基于大數(shù)據(jù)應(yīng)用的個性化診療平臺前端連接各醫(yī)療機(jī)構(gòu)、區(qū)域醫(yī)療數(shù)據(jù)中心以及第三方檢驗檢查/影像診斷中心等醫(yī)療資源,后端為這些醫(yī)療機(jī)構(gòu)、健康管理服務(wù)人群以及其他各種用戶提供服務(wù)。
按平臺邏輯功能來劃分,基于大數(shù)據(jù)應(yīng)用的個性化診療平臺的存儲內(nèi)容分為三個區(qū)塊,即原始數(shù)據(jù)區(qū)、整合后的數(shù)據(jù)區(qū)以及服務(wù)應(yīng)用區(qū),如圖2所示。三個區(qū)塊對應(yīng)不同的數(shù)據(jù)處理要求,在工藝上具有時序的特性,其中服務(wù)應(yīng)用區(qū)必須具備大數(shù)據(jù)運(yùn)算和處理能力。
圖2 個性化診療平臺存儲內(nèi)容分區(qū)示意圖
原始數(shù)據(jù)區(qū)對各接入的醫(yī)療機(jī)構(gòu)、區(qū)域數(shù)據(jù)中心以及第三方檢驗檢查、影像診斷中心等機(jī)構(gòu)產(chǎn)生的數(shù)據(jù)進(jìn)行收集并集中存儲。
數(shù)據(jù)整合區(qū)按照國家規(guī)范、地方規(guī)范、平臺要求以及面向領(lǐng)域的應(yīng)用方向,將數(shù)據(jù)整合和梳理,成為大數(shù)據(jù)運(yùn)算架構(gòu)的數(shù)據(jù)源。
服務(wù)應(yīng)用區(qū)以互聯(lián)網(wǎng)技術(shù)為基礎(chǔ),利用大數(shù)據(jù)存儲和分析等工具,以互聯(lián)網(wǎng)應(yīng)用、領(lǐng)域應(yīng)用等作為應(yīng)用方向,分別設(shè)計和存儲。
總體架構(gòu)分為接入點(diǎn)與信息平臺建設(shè),包含了網(wǎng)絡(luò)與安全、中心核心數(shù)據(jù)服務(wù)器、應(yīng)用服務(wù)器及接入端的前置服務(wù)器等,如圖3所示。
3.2.1 接入點(diǎn) 每個接入點(diǎn)由以下幾個部分構(gòu)成:①硬件部分 前置計算機(jī)和防火墻,收集原始接入機(jī)構(gòu)的數(shù)據(jù),并成為與醫(yī)療機(jī)構(gòu)信息交互特定通道的信息轉(zhuǎn)接點(diǎn)。②軟件部分 數(shù)據(jù)采集軟件,包含適合該醫(yī)療機(jī)構(gòu)信息化特征的接入和采集策略。③網(wǎng)絡(luò)環(huán)境 連接到基于大數(shù)據(jù)應(yīng)用的綜合健康服務(wù)平臺的業(yè)務(wù)專網(wǎng)、因特網(wǎng)、無線網(wǎng)和3G網(wǎng)絡(luò)等。
3.2.2 平臺 硬件部分:數(shù)據(jù)整合所需的服務(wù)器,及基于大數(shù)據(jù)處理技術(shù)的服務(wù)器集群。軟件部分:數(shù)據(jù)整合所需的軟件,包括數(shù)據(jù)標(biāo)準(zhǔn)化處理、臨床文檔架構(gòu)(clinical document architecture,CDA)、影像縮略圖處理、二維/三維影像高級處理、關(guān)鍵詞抽取、知識庫構(gòu)建、應(yīng)用服務(wù)、公共服務(wù)接入以及大數(shù)據(jù)處理架構(gòu)工具等。網(wǎng)絡(luò)環(huán)境:云存儲架構(gòu)。
圖3 系統(tǒng)總體架構(gòu)圖
基于醫(yī)療大數(shù)據(jù)應(yīng)用的疾病診斷和預(yù)測是一項全新的疾病診斷方法。由于醫(yī)療大數(shù)據(jù)來源真實、量大、涉及面廣,并應(yīng)用現(xiàn)代機(jī)器學(xué)習(xí)中的數(shù)據(jù)挖掘技術(shù)實現(xiàn),對于疾病的診斷和預(yù)測具有很強(qiáng)的客觀性和較高的準(zhǔn)確性,是實現(xiàn)個性化治療的一項關(guān)鍵技術(shù)。具體研究路線如圖4所示。
現(xiàn)有的臨床大數(shù)據(jù)來源于電子病歷、檢驗數(shù)據(jù)和影像數(shù)據(jù)等,具有多種數(shù)據(jù)類型和存儲格式,包含大量文本和影像等非結(jié)構(gòu)化數(shù)據(jù),難以量化。為了全面地對這些數(shù)據(jù)進(jìn)行分析,首先必須對這些數(shù)據(jù)建立統(tǒng)一的表達(dá)方式。從文本語義分析和圖像語義分析出發(fā),研究臨床大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化方法,從數(shù)據(jù)中獲取所有與疾病相關(guān)的特征,為后續(xù)的疾病診斷和預(yù)測提供數(shù)據(jù)。
選擇典型疾病,對提取的所有特征進(jìn)行綜合分析,基于現(xiàn)有的先驗知識和大規(guī)模機(jī)器學(xué)習(xí)算法設(shè)計和訓(xùn)練合適的分類器,完成對疾病的自動診斷。由于數(shù)據(jù)來源的多樣性,導(dǎo)致所提取出的特征可能同時包含布爾型、離散和連續(xù)等多種類型,而且由于對圖像和文本的結(jié)構(gòu)化往往會產(chǎn)生高維特征,對于每個具體的患者在數(shù)據(jù)的收集和處理過程中可能出現(xiàn)的數(shù)據(jù)不完整性問題,因此疾病診斷模型的設(shè)計與訓(xùn)練就變成一個大規(guī)模稀疏異構(gòu)數(shù)據(jù)的多分類問題甚至是一個多標(biāo)簽的識別問題。
很多疾病是一種終身性疾病,甚至目前的醫(yī)療技術(shù)不能徹底治愈,如青光眼治療目的是保留現(xiàn)有的視功能和視神經(jīng)狀態(tài),需要患者定期進(jìn)行檢查。因此臨床數(shù)據(jù)的另一個特點(diǎn)是時序性或者動態(tài)性。有經(jīng)驗的醫(yī)生能跟蹤患者的數(shù)據(jù)來預(yù)測疾病的可能性和若干時間后的嚴(yán)重性以及療效,嘗試采樣大規(guī)模機(jī)器學(xué)習(xí)算法從大量的病例中來自動學(xué)習(xí)這種預(yù)測模型。
圖4 研究路線圖
將醫(yī)療大數(shù)據(jù)的挖掘分析應(yīng)用于典型疾病的診斷和預(yù)測,是實現(xiàn)個性化疾病診療的基礎(chǔ)和關(guān)鍵。它通過采集千百萬患者的醫(yī)療數(shù)據(jù)建立診斷與預(yù)測模型,并以特定患者的個性數(shù)據(jù)輸入到該診斷模型中,可以更準(zhǔn)確地診斷患者的疾病,獲得更好的治療方案,提高患者的疾病治愈率。通過大數(shù)據(jù)建立疾病的預(yù)測模型,不僅可以預(yù)測流行病爆發(fā)的可能性,而且可以提前采取預(yù)防措施,防治流行病的爆發(fā)。
醫(yī)療數(shù)據(jù)是典型的大數(shù)據(jù),數(shù)據(jù)量大,數(shù)據(jù)類型多,增長速度極快。為了有效地利用好醫(yī)療大數(shù)據(jù),設(shè)計一種新的數(shù)據(jù)存儲機(jī)制,為實現(xiàn)醫(yī)療大數(shù)據(jù)的存取、分析和信息的共享提供良好的支撐。
未來,隨著醫(yī)療衛(wèi)生信息化的不斷深入,個性化診療服務(wù)模式將可能完全取代以前的經(jīng)驗醫(yī)學(xué)模式,新醫(yī)療服務(wù)模式將充分體現(xiàn)“數(shù)據(jù)驅(qū)動、個性化、預(yù)約性、流程集成、協(xié)同服務(wù)、效果驅(qū)動”的顯著特點(diǎn),發(fā)展基因測序、個性化藥物、個人健康管理等多方面醫(yī)療個性化服務(wù)[7],通過知識系統(tǒng)主動推薦診療協(xié)議,是推動臨床過程規(guī)范化的有效手段[8],由于疾病診斷預(yù)測中醫(yī)療數(shù)據(jù)的特殊性和復(fù)雜性以及在提供分析決策的準(zhǔn)確性方面有更高的要求,使得基于醫(yī)療大數(shù)據(jù)的挖掘分析面臨更多的挑戰(zhàn)性難題。
[1]高炬,劉珉,殷亦超,等.面向心血管及腫瘤疾病的中醫(yī)臨床大數(shù)據(jù)挖掘與分析[J].中國信息界-e醫(yī)療,2014(6):52-53.
[2]創(chuàng)業(yè)之家.醫(yī)療O2O案例:MetaMed主打個性化醫(yī)療[EB/OL].[2015-02-11].http://www.cy211.cn/2015/02/11870.html.
[3]Post AR,Kurc T,Cholleti S,et al.The Analytic Information Warehouse (AIW):a platform for analytics using electronic health record data[J].Journal of Biomedical Informatics,2013,46(3):410- 424.
[4]Shah AD,Martinez C,Hemingway H.The freetext matching algorithm:a computer program to extract diagnoses and causes of death from unstructured text in electronic health records[J].BMC Medical Informatics & Decision Making,2012,12:88.
[5]Siddiqui MF,Reza AW,Kanesan J.An automated and intelligent medical decision support system for brain MRI scans classification[J].Plos One,2015,10(8):e0135875.
[6]俞國培,包小源,黃新霆, 等.醫(yī)療健康大數(shù)據(jù)的種類、性質(zhì)及有關(guān)問題[J].醫(yī)學(xué)信息學(xué)雜志,2014,35 (6):9-10.
[7]許德泉,楊慧清.大數(shù)據(jù)在醫(yī)療個性化服務(wù)中的應(yīng)用[J].中國衛(wèi)生信息管理雜志,2013,10(4):301-304.
[8]Jones JB,Stewart WF,Darer JD,et al.Beyond the threshold:realtime use of evidence in practice[J].BMC Medical Informatics and Decision Making,2013,13(1):47-59.
Personalized diagnosis and treatment system based on big data
FENG Song1,HU Jianzhong2
(1.Network Information Center,Xiangya Hospital of Central South University,Changsha,Hunan 410008,China;2.Mobile Telemedicine Joint Laboratory of Ministry of Education and China Mobile,Changsha,Hunan 410008,China)
The application of medical big data mining and analysis in the diagnosis and prediction of typical diseases is the foundation to realize individualized diagnosis and treatment of diseases.In this paper,based on the research and practice of large data personalized medicine diagnostic model,the preliminary plan of construction ideas,implementation method and research contents of individualized treatment in the big data platform were put forward,and a new method for disease diagnosis and prediction was explored.
big data; personalized treatment; diagnosis model
R319;TP392
B
10.19338/j.issn.1672-2019.2017.09.012
2017-04-08
湖南省科技基礎(chǔ)條件平臺建設(shè)專項項目(2010TP1001)
(李異凡 編輯)