廣東工業(yè)大學 沈 明 邱耀儒
近年來,隨著物聯(lián)網(wǎng)、云計算技術的高速發(fā)展,數(shù)據(jù)量的快速增長為許多行業(yè)帶來嚴峻挑戰(zhàn)的同時,也帶來了寶貴的機遇。對于醫(yī)療行業(yè),如何將數(shù)據(jù)應用于醫(yī)療上,來改變傳統(tǒng)的就醫(yī)形式,一直是科學家所希望解決的問題。目前各個國家都在致力于構建國家醫(yī)療數(shù)據(jù)平臺,實現(xiàn)就醫(yī)簡單化、效率化的進程。醫(yī)療行業(yè)所產(chǎn)生的數(shù)據(jù)來自于PACS影像、B超、病例分析等業(yè)務所產(chǎn)生的非結構化數(shù)據(jù)。如何將這些數(shù)據(jù)整合起來進行利用,正是目前大數(shù)據(jù)應用于醫(yī)療服務上的關鍵問題所在。
隨著存儲和連接費用的降低,在因特網(wǎng)上使用非常大的數(shù)據(jù)庫已經(jīng)成為可能,再加上廉價的計算,已經(jīng)使得在大數(shù)據(jù)上運行學習算法成為可能[1]對于醫(yī)療數(shù)據(jù)的存儲,需要建設中心機房、健康醫(yī)療數(shù)據(jù)目錄庫建設和中心平臺建設。關于平臺的維護可以交由專門的互聯(lián)網(wǎng)公司進行管理與維護,這樣在保證數(shù)據(jù)安全的同時降低了成本。大數(shù)據(jù)的大不等于海量數(shù)據(jù),而是海量數(shù)據(jù)加上復雜類型的數(shù)據(jù)。通過圖1所示,我們可以看到大數(shù)據(jù)的4V特性,這也是醫(yī)療數(shù)據(jù)的特性。
圖1 大數(shù)據(jù)的4V特性
大量的醫(yī)療數(shù)據(jù)來源醫(yī)務人員的人工輸入,由于在此之前沒有進行統(tǒng)一化的標準,不同醫(yī)療機構之間所記錄的醫(yī)療數(shù)據(jù)可能千差萬別,于是在平臺收集數(shù)據(jù)時可能得到各種各樣非結構、參差不齊的數(shù)據(jù)。如表1所示,可以看到數(shù)據(jù)來源的多樣性。如果一個病人在不同的醫(yī)院就診就會產(chǎn)生多份醫(yī)療數(shù)據(jù),這樣會造成數(shù)據(jù)的冗余,因此,需要進行實時的更新數(shù)據(jù),完善患者個人病歷資料信息。醫(yī)院每天都會產(chǎn)生新的醫(yī)療數(shù)據(jù),這也是大數(shù)據(jù)醫(yī)療中心最主要的數(shù)據(jù)來源,需要醫(yī)院實時的向醫(yī)療中心平臺共享新的醫(yī)療數(shù)據(jù)。
表1 數(shù)據(jù)來源
收集到醫(yī)療數(shù)據(jù)之后,需要將數(shù)據(jù)進行歸一化整理,提取病患病歷中的關鍵信息,去除無用信息后進行存儲。通過這樣的方式來減少中心平臺的存儲壓力,同時為模型的預測進行了初步的特征篩選。平臺通過對收集到的數(shù)據(jù)進行分析,訓練出預測模型供各大醫(yī)療服務機構使用。醫(yī)療個人數(shù)據(jù)是一種極具特殊性及敏感的個人數(shù)據(jù),其使用面臨一系列法律和倫理問題[2]需要妥善的隱私保護。
只有解決了數(shù)據(jù)的采集與管理問題后,才能進行數(shù)據(jù)分析,充分發(fā)掘數(shù)據(jù)背后的價值。通過各個醫(yī)療服務平臺的數(shù)據(jù)連通,將海量大數(shù)據(jù)有序整合,運用合適的算法進行自動分析與挖掘,才能真正的為公眾提供更好的醫(yī)療服務。各個醫(yī)療機構可以根據(jù)獲得的分析結果對就診的病人進行初步的病情判斷與了解,提高了患者就醫(yī)效率。
大數(shù)據(jù)對于醫(yī)療衛(wèi)生領域產(chǎn)生了巨大的推動作用,只有在技術、政策與資金的同時推進,才能構建出完整、高效的醫(yī)療服務中心平臺。