王 蓓 張 晴 李潔莉 朱家沐*
隨著國(guó)家醫(yī)改政策不斷深入,區(qū)域醫(yī)療以健康檔案為中心的信息化工作被放到首要位置[1]。醫(yī)療健康大數(shù)據(jù)的管理成為關(guān)注的焦點(diǎn),智慧醫(yī)院信息化、數(shù)字化和現(xiàn)代化的發(fā)展,相比傳統(tǒng)的信息化醫(yī)院,有主動(dòng)感知和智能調(diào)控能力[2]。智慧醫(yī)院擁有強(qiáng)大的計(jì)算機(jī)軟硬件網(wǎng)絡(luò)平臺(tái),以WiFi技術(shù)、傳感器技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和虛擬化存儲(chǔ)來(lái)實(shí)現(xiàn)醫(yī)院日常醫(yī)療數(shù)據(jù)的集中管理。海量醫(yī)療大數(shù)據(jù)源源不斷儲(chǔ)存到醫(yī)療機(jī)構(gòu)的核心數(shù)據(jù)中心,形成了優(yōu)質(zhì)的醫(yī)療資源池,科研、臨床與數(shù)據(jù)倉(cāng)庫(kù)三位一體的健康醫(yī)療大數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生。為全面提高健康醫(yī)療大數(shù)據(jù)的管理水平和數(shù)據(jù)利用率,依托物聯(lián)網(wǎng),采用先進(jìn)的醫(yī)療大數(shù)據(jù)分析工具,研究出最優(yōu)應(yīng)用解決方案,深層挖掘這些數(shù)據(jù)的潛力和內(nèi)涵,指導(dǎo)臨床和科研工作,為患者的健康管理和精準(zhǔn)醫(yī)療提供支撐。
物聯(lián)網(wǎng)(internet of things,LOT)是以互聯(lián)網(wǎng)和信息專網(wǎng)等為網(wǎng)絡(luò)骨架,按照標(biāo)準(zhǔn)網(wǎng)絡(luò)協(xié)議對(duì)客觀存在對(duì)象或信息數(shù)據(jù)實(shí)現(xiàn)網(wǎng)絡(luò)尋址訪問(wèn)的網(wǎng)絡(luò),有智能、先進(jìn)及互聯(lián)三個(gè)顯著特點(diǎn),能夠?qū)崿F(xiàn)醫(yī)療業(yè)務(wù)數(shù)據(jù)采集、加工、傳遞和儲(chǔ)存,能通過(guò)射頻識(shí)別(radio frequency identification,RFID)技術(shù)、紅外感應(yīng)器及全球定位系統(tǒng)(global positioning system,GPS)等信息傳感設(shè)備,實(shí)現(xiàn)被跟蹤對(duì)象的智能識(shí)別、精準(zhǔn)定位、數(shù)據(jù)跟蹤和行為監(jiān)控[3]。
物聯(lián)網(wǎng)在醫(yī)療機(jī)構(gòu)應(yīng)用中,最早用于醫(yī)院各種物資材料的物流供應(yīng)管理。近年來(lái),由于人工智能(artificial intelligence,AI)、移動(dòng)互聯(lián)網(wǎng)、可穿戴設(shè)備及便攜式醫(yī)療儀器的廣泛使用,現(xiàn)代醫(yī)學(xué)基礎(chǔ)科學(xué)研究快速發(fā)展,誕生了很多人工智能和跨地區(qū)、跨應(yīng)用平臺(tái)的新應(yīng)用,如針對(duì)社區(qū)患者的慢性病健康保健管理平臺(tái)、分級(jí)診療的三級(jí)聯(lián)通系統(tǒng)、家庭醫(yī)生信息管理系統(tǒng)、人體醫(yī)療健康大數(shù)據(jù)、公共衛(wèi)生疾病預(yù)防、醫(yī)療保健、藥品保障信息系統(tǒng)、遠(yuǎn)程自助健康服務(wù)及個(gè)性化診療服務(wù)等[4]。
物聯(lián)網(wǎng)由于基于先進(jìn)移動(dòng)網(wǎng)絡(luò),可通過(guò)掃描RFID識(shí)別碼快速獲取被查詢對(duì)象的相關(guān)信息和追溯根源,對(duì)醫(yī)療機(jī)構(gòu)的醫(yī)療設(shè)備、醫(yī)用耗材的監(jiān)管,有得天獨(dú)厚的優(yōu)勢(shì),可根據(jù)醫(yī)院設(shè)備信息系統(tǒng)的設(shè)備檔案數(shù)據(jù)進(jìn)行快速查詢,清楚地掌握設(shè)備生產(chǎn)、購(gòu)銷和啟用情況,還可對(duì)醫(yī)療活動(dòng)中醫(yī)療設(shè)備的使用、保養(yǎng)、維修、不良事件上報(bào)及報(bào)廢等全過(guò)程進(jìn)行監(jiān)控和處理,同時(shí)實(shí)現(xiàn)患者使用各種儀器和高值耗材時(shí),保證“一物一碼,信息透明,費(fèi)用明晰”。如患者神經(jīng)外科手術(shù)后,安裝鈦板或支架,醫(yī)院就可以通過(guò)物聯(lián)網(wǎng)對(duì)其使用的醫(yī)療耗材或器械進(jìn)行RFID的智能識(shí)別跟蹤,一旦出現(xiàn)有產(chǎn)品的使用問(wèn)題,醫(yī)院可快速查明原因和及時(shí)處理問(wèn)題[5-6]。
在日常的醫(yī)療活動(dòng)中,系統(tǒng)中會(huì)生成各種各樣的實(shí)時(shí)數(shù)據(jù),其數(shù)據(jù)按結(jié)構(gòu)類型分,有來(lái)源于甲骨文公司(Oracle)、微軟公司SQL server等數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),這些不同結(jié)構(gòu)的數(shù)據(jù)通過(guò)物聯(lián)網(wǎng)匯聚在一起,形成了龐大的醫(yī)療健康數(shù)據(jù)集。2014年的中國(guó)信息學(xué)學(xué)術(shù)年度會(huì)議上已經(jīng)明確聲明,國(guó)內(nèi)醫(yī)療機(jī)構(gòu)的數(shù)據(jù)規(guī)模已經(jīng)從GB達(dá)到PB的數(shù)量級(jí),醫(yī)院的大數(shù)據(jù)管理重點(diǎn)已經(jīng)從粗放型快速建設(shè)轉(zhuǎn)化為精細(xì)化管理階段,數(shù)據(jù)日益增加,甚至可能出現(xiàn)數(shù)據(jù)大爆發(fā)的情況。
目前,常用的大數(shù)據(jù)分析工具有MapReduce、Hadoop分布式文件系統(tǒng)(hadoop distributed file system,HDFS)、HBas及Zookeeper等,本研究主要采用HDFS工具從大數(shù)據(jù)挖掘的采集、分類、歸檔和分析整合4個(gè)階段分析醫(yī)療大數(shù)據(jù)[7]。
健康醫(yī)療大數(shù)據(jù)的采集主要采用生物識(shí)別技術(shù)(biometrics technology,BT),通過(guò)人體的指紋、指靜脈、人臉及虹膜等生理特性和筆跡、聲音、步態(tài)等行為特征鑒定個(gè)人身份。①患者在醫(yī)院就診時(shí),通過(guò)醫(yī)院的感應(yīng)識(shí)別系統(tǒng)記錄患者的特征,與其身份證、社保卡信息連接形成身份確認(rèn),方便病歷歸檔和就診記錄的追蹤;②患者在社區(qū)就診,通過(guò)醫(yī)院的醫(yī)聯(lián)體或社區(qū)服務(wù)終端進(jìn)行遠(yuǎn)程身份登記,跨區(qū)進(jìn)行實(shí)時(shí)就診情況的記錄和傳送,保證數(shù)據(jù)的有效性、準(zhǔn)確性;③患者在家中或是與簽約的家庭醫(yī)生就診過(guò)程中,通過(guò)移動(dòng)互聯(lián)網(wǎng)、便攜式醫(yī)療儀器及可穿戴式醫(yī)療設(shè)備進(jìn)行實(shí)時(shí)采集生理數(shù)據(jù),由網(wǎng)絡(luò)傳送到醫(yī)療機(jī)構(gòu)的服務(wù)器中。
健康醫(yī)療大數(shù)據(jù)在數(shù)據(jù)挖掘時(shí),采集得到的數(shù)據(jù)主要是醫(yī)院信息系統(tǒng)(hospital information system,HIS)、檢驗(yàn)信息系統(tǒng)(laboratory information system,LIS)、影像歸檔及傳輸系統(tǒng)(picture archiving and communication systems,PACS)及放射學(xué)信息系統(tǒng)(radiology information system,RIS)等系統(tǒng)數(shù)據(jù)和基于電子病歷(electronic medical record,EMR)的處方管理、居民健康保健管理、婦幼保健信息、干部健康管理、公共衛(wèi)生傳染病預(yù)警、慢性病預(yù)防治療、遠(yuǎn)程自助健康服務(wù)、腫瘤個(gè)性化診療服務(wù)、人體基因數(shù)據(jù)及醫(yī)學(xué)科研實(shí)驗(yàn)數(shù)據(jù)等[8]。這些系統(tǒng)產(chǎn)生的數(shù)據(jù)按照異構(gòu)數(shù)據(jù)處理,直接利用是無(wú)法進(jìn)行分析的,將這些數(shù)據(jù)庫(kù)中索引表里的關(guān)鍵字段進(jìn)行關(guān)聯(lián),采用數(shù)據(jù)異構(gòu)同化處理工具二次鏈接,保證數(shù)據(jù)的可用性和完整性。不同類別的數(shù)據(jù)形成許多具有共同屬性的集合,分為文字、數(shù)據(jù)包、圖像、文檔及數(shù)據(jù)表等。
采集的數(shù)據(jù)分門別類后,歸類進(jìn)入數(shù)據(jù)存儲(chǔ)單元。將數(shù)據(jù)資源進(jìn)行數(shù)據(jù)聚類分析、關(guān)聯(lián)分析、元素因子分析、主成分分析、數(shù)據(jù)定義、數(shù)據(jù)歸類和數(shù)據(jù)聚合分析專家系統(tǒng)等過(guò)程處理,然后開始數(shù)據(jù)屬性標(biāo)簽及數(shù)據(jù)項(xiàng)分解操作,大數(shù)據(jù)分析工具對(duì)數(shù)據(jù)完成標(biāo)準(zhǔn)化歸檔,主要流程分別為數(shù)據(jù)一級(jí)歸檔、數(shù)據(jù)標(biāo)簽分析、數(shù)據(jù)二級(jí)歸檔、數(shù)據(jù)項(xiàng)元素分解、數(shù)據(jù)項(xiàng)設(shè)計(jì)。數(shù)據(jù)聚合分析模型如圖1所示。
圖1 數(shù)據(jù)聚合分析模型圖
大數(shù)據(jù)的特點(diǎn)與傳統(tǒng)的數(shù)據(jù)相比有很大區(qū)別,需要高效的計(jì)算機(jī)運(yùn)行單元和分析處理工具HDFS才能完成大規(guī)模并行計(jì)算。健康醫(yī)療大數(shù)據(jù)的分析整合主要有下述5個(gè)步驟。
圖2 大數(shù)據(jù)系統(tǒng)性數(shù)據(jù)采集指標(biāo)體系圖
(1)針對(duì)前端不同渠道進(jìn)行數(shù)據(jù)堆棧標(biāo)記,采集多維多源數(shù)據(jù),并保證數(shù)據(jù)不丟失。
(2)得到多維度數(shù)據(jù)后,采用分析工具HDFS,用數(shù)據(jù)工具的抽取交互轉(zhuǎn)化加載(extract transform load,ETL)對(duì)其進(jìn)行結(jié)構(gòu)化處理和存入數(shù)據(jù)庫(kù)。
(3)由ETL處理后的標(biāo)準(zhǔn)化結(jié)構(gòu)數(shù)據(jù),送入數(shù)據(jù)存儲(chǔ)管理池,轉(zhuǎn)運(yùn)到底層的數(shù)據(jù)倉(cāng)庫(kù)中,進(jìn)行分類分片存放。
(4)根據(jù)分類的數(shù)據(jù)集,用R函數(shù)包對(duì)其進(jìn)行數(shù)據(jù)建模和算法設(shè)計(jì)。
(5)按照建立的各種類數(shù)據(jù)模型及架構(gòu)算法,結(jié)合前端不同醫(yī)療業(yè)務(wù)特征,由事件觸點(diǎn)的標(biāo)記來(lái)對(duì)應(yīng)相關(guān)的位置。大數(shù)據(jù)系統(tǒng)性數(shù)據(jù)采集指標(biāo)體系如圖2所示。
面對(duì)海量而珍貴的健康醫(yī)療大數(shù)據(jù),缺乏好的管理方法和優(yōu)秀的分析工具,是無(wú)法充分利用好這些寶貴的資源。使用好數(shù)據(jù),就一定要對(duì)數(shù)據(jù)進(jìn)行深層次的分析和挖掘。數(shù)據(jù)挖掘(data mining,DM)是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏其中信息的過(guò)程[9]。國(guó)際上有研究機(jī)構(gòu)先后對(duì)大數(shù)據(jù)的挖掘利用做了相關(guān)研究,Active Health Management通過(guò)收集用戶健康方面的數(shù)據(jù)完善和建立健康管理;CancerIQ通過(guò)整合臨床數(shù)據(jù)和基因數(shù)據(jù)預(yù)測(cè)癌癥風(fēng)險(xiǎn)評(píng)估、預(yù)防和治療;CliniCast用大數(shù)據(jù)預(yù)測(cè)治療效果和降低花費(fèi);麥肯錫全球研究院預(yù)計(jì)使用大數(shù)據(jù)分析技術(shù)每年為美國(guó)節(jié)省3000億美元開支[5]。
醫(yī)院健康醫(yī)療大數(shù)據(jù)以“健康管理和患者為中心”的宗旨系統(tǒng)設(shè)計(jì),充分利用采集的數(shù)據(jù)進(jìn)行有效分析,在系統(tǒng)應(yīng)用初期,就可對(duì)分散無(wú)序的醫(yī)療健康信息數(shù)據(jù)進(jìn)行整合,按照機(jī)器學(xué)習(xí)和人工智能模式自動(dòng)分析,形成透明直觀數(shù)據(jù)分析報(bào)告[10]。經(jīng)過(guò)近2年的實(shí)際使用和研究,采用醫(yī)院醫(yī)患通APP手機(jī)平臺(tái)問(wèn)卷調(diào)查評(píng)價(jià)系統(tǒng),客觀調(diào)查醫(yī)務(wù)人員和患者滿意度,從大數(shù)據(jù)的數(shù)據(jù)挖掘及其統(tǒng)計(jì)分析數(shù)據(jù)工具的使用前后對(duì)比,居民健康管理檔案建檔率由原來(lái)的56%上升到了91%,患者來(lái)院的就診滿意度由原來(lái)的83%上升到了95%,相關(guān)疾病預(yù)警與早篩檢出率由原來(lái)的50%上升到了75%。利用大數(shù)據(jù)技術(shù)不僅能有效降低醫(yī)療成本,還可以整合患者基因信息指導(dǎo)個(gè)性化治療,利用大數(shù)據(jù)技術(shù)分析人口健康數(shù)據(jù)還可以預(yù)防疾病爆發(fā)等。
通過(guò)對(duì)醫(yī)院管理系統(tǒng)和院外社區(qū)健康管理平臺(tái)的醫(yī)療健康大數(shù)據(jù)深層挖掘分析,以物聯(lián)網(wǎng)技術(shù)平臺(tái)將多源的移動(dòng)互聯(lián)設(shè)備、可穿戴醫(yī)療設(shè)備及智慧醫(yī)院信息系統(tǒng)中的數(shù)據(jù)集中管理[11-12]。經(jīng)過(guò)數(shù)據(jù)篩選分類以及數(shù)據(jù)異構(gòu)中間件的處理,進(jìn)行多參數(shù)統(tǒng)計(jì)學(xué)分析,實(shí)現(xiàn)醫(yī)生實(shí)時(shí)診斷查詢、疾病情況預(yù)測(cè)、疾控預(yù)警服務(wù)、患者健康管理和基因檢測(cè)結(jié)果的應(yīng)用。通過(guò)物聯(lián)網(wǎng),與省級(jí)疾病預(yù)防控制中心的公共衛(wèi)生傳染病預(yù)警和慢性病預(yù)防治療系統(tǒng)互聯(lián),開放網(wǎng)絡(luò)數(shù)據(jù)資源,逐步建立居民健康保健管理、婦幼保健信息、干部健康管理、遠(yuǎn)程自助健康服務(wù)、腫瘤個(gè)性化診療服務(wù)、人體基因數(shù)據(jù)及醫(yī)學(xué)科研實(shí)驗(yàn)數(shù)據(jù),為精準(zhǔn)醫(yī)療和保健管理現(xiàn)代化奠定基礎(chǔ)[13]。