黃玉蕾 孫龍華 常 安 魏云龍(西安培華學(xué)院,陜西 西安710125)
隨著我國Internet 的飛速發(fā)展,諸如“互聯(lián)網(wǎng)+”、大數(shù)據(jù)、數(shù)據(jù)和人工智能(AI)的技術(shù)越來越多地涉及醫(yī)療領(lǐng)域。智慧醫(yī)療的概念,最早是IBM 在2009 年提出的智慧地球中誕生出來的。根據(jù)IBM 的統(tǒng)計結(jié)果,在上海,每天能產(chǎn)生一百萬條數(shù)據(jù),已經(jīng)建立三千萬的電子檔案,調(diào)閱次數(shù)達到一億次每天,總的數(shù)據(jù)量達到了二十億。隨著大數(shù)據(jù)時代的到來,醫(yī)療行業(yè)也從傳統(tǒng)的醫(yī)療方式進入到了智慧醫(yī)療時代。
在現(xiàn)有的技術(shù)中,騰訊的人工智能實驗室提出了基于AI 來輔助帕金森氏病診斷。其他方面,也有很多在線的診斷服務(wù)。如丁香醫(yī)生、谷歌醫(yī)生,這些平臺技術(shù)上很專業(yè),具有較高的準確性,但與此同時,由于其專業(yè)性太強,導(dǎo)致受眾面狹窄。并且,即使通過了線上的問診,后續(xù)患者還得到醫(yī)院繼續(xù)進行物理治療及手術(shù)輔助治療等。本文設(shè)計基于數(shù)據(jù)挖掘算法的智能醫(yī)療服務(wù)系統(tǒng),以改善醫(yī)療環(huán)境,并提高治療服務(wù)水平。
整體的系統(tǒng)架構(gòu)如圖1 所示,分為四層:數(shù)據(jù)采集層、數(shù)據(jù)存儲層、信息分析層、應(yīng)用服務(wù)層。數(shù)據(jù)采集層,主要應(yīng)用物聯(lián)網(wǎng)技術(shù)和移動無線技術(shù),對醫(yī)用器械的進行信息采集,然后將數(shù)據(jù)傳輸?shù)紿adoop 大數(shù)據(jù)存儲層。在數(shù)據(jù)存儲層,使用HDFS和HBase 完成對非關(guān)系型的數(shù)據(jù)存儲,使用MapReduce 算法,將數(shù)據(jù)處理后,部分數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),存儲到Greenplum 分布式數(shù)據(jù)庫中。相關(guān)的數(shù)據(jù),經(jīng)過Datax 數(shù)據(jù)集成服務(wù),將數(shù)據(jù)整合到數(shù)據(jù)倉中,支持上面的數(shù)據(jù)挖掘和數(shù)據(jù)分析,將結(jié)果提供給應(yīng)用服務(wù)。
圖1 系統(tǒng)架構(gòu)圖
標簽信息的數(shù)據(jù)采集,主要來自RFID 的標簽數(shù)據(jù)采。通過采集RFID 數(shù)據(jù),可以實現(xiàn)各種醫(yī)療器械的信息采集。醫(yī)療設(shè)備的標簽信息采集,在整個流程上必須嚴格遵守醫(yī)院的相關(guān)管理規(guī)定。從這些器材的入庫、登記、存儲、到器材的出庫、使用等,都需要完整的跟蹤。
對標簽信息的數(shù)據(jù)存儲,主要采用Hadoop 進行存儲。采用這種分布式的存儲架構(gòu),可以滿足多個院室的數(shù)據(jù)存儲需求,并可借助hadoop 的高可用架構(gòu)設(shè)計,為數(shù)據(jù)的安全性提供保證。這些非關(guān)系型的數(shù)據(jù),使用MapReduce 算法處理后,將部分的數(shù)據(jù),轉(zhuǎn)換成關(guān)系型數(shù)據(jù),導(dǎo)入到分布式計算引擎Greenplum 集群中,以便整合各個分析主題,構(gòu)建出數(shù)據(jù)倉庫。
整個信息分析層分為兩個部分:第一部分是醫(yī)療數(shù)據(jù)倉庫,第二部分是數(shù)據(jù)挖掘和數(shù)據(jù)分析模塊。
本平臺采用的是星型架構(gòu)設(shè)計數(shù)據(jù)倉庫,所謂的星型架構(gòu),就是多個維表圍繞著一個事實表來進行數(shù)據(jù)查詢的架構(gòu)。在數(shù)據(jù)倉庫中,一個數(shù)據(jù)集市中,有多個分析主題。在此,通過績效管理的主題來說明整個數(shù)據(jù)倉庫集市的構(gòu)建及數(shù)據(jù)組織,以醫(yī)院管理數(shù)據(jù)集市模型的實例:結(jié)合醫(yī)院信息作為事實表,與它們關(guān)聯(lián)的有多個維度,如:科室維度、醫(yī)生維度、時間維度、費用類別等(表1-5)。
表1 費用事實表
表2 成本事實表
表3 醫(yī)生維度表
表4 時間維度表
表5 部門維度表
名稱:最近鄰算法 輸入:預(yù)處理后的數(shù)據(jù)集
過程:(1)設(shè)定參數(shù)k。(2)建立用于存儲最近鄰訓(xùn)練元組的隊列A,其大小為k 順序按距離由大到小排列。(3)從數(shù)據(jù)集中隨機地選k 個元組。(4)分別計算測試元組到這k 個元組的距離,將標號和距離存入A。(5)遍歷訓(xùn)練元組集,計算與測試元組的距離,若不小于A 中的最大距離,則 舍棄:否則,刪除A 中最大距離的元組,將當(dāng)前訓(xùn)練元組存入A。(6)統(tǒng)計A 中各個分類的出現(xiàn)次數(shù)將最為頻繁的分類作為測試元組的分類。
整個系統(tǒng)的軟件環(huán)境是采用運行在Windows Server Enterprise 上的信息管理系統(tǒng)來支持前端的信息系統(tǒng)展示。智慧醫(yī)療服務(wù)系統(tǒng)測試所需要的硬件設(shè)備包括運行用戶終端的普通PC 機和運行服務(wù)程序的服務(wù)器。其具體配置情況如服務(wù)器:CPU 主頻3.6GHz、內(nèi)存 8GB DDR4、硬盤2TB 7200r/min。用戶終端:CPU 主頻3.6GHz、內(nèi)存4GB、硬盤2TB 7200r/min。在用戶檔案模塊中如圖2 所示,提供了病人的基本信息、健康信息、歷史病歷照片,為后面決策判斷病人病情提供依據(jù)。
圖2 用戶檔案管理模塊
本文設(shè)計并實現(xiàn)了基于大數(shù)據(jù)存儲引擎Hadoop 以及分布式計算引擎Greenplum,由經(jīng)典分類挖掘算法構(gòu)成的智慧醫(yī)療服務(wù)系統(tǒng)。實現(xiàn)了醫(yī)療數(shù)據(jù)的采集、存儲、計算、建模、分析、挖掘、前端交互式展示等功能。