鄭秀娟
摘要:隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等新興技術的迅猛發(fā)展,現(xiàn)代社會活動產生的數(shù)據(jù)的規(guī)模與種類不斷增長,對這些數(shù)據(jù)進行有效管理與應用已成為各行各業(yè)的研究重點,其中醫(yī)療行業(yè)也不例外。目前我國醫(yī)療領域的信息化程度不斷提高,所有醫(yī)院需要定期向衛(wèi)健委資源數(shù)據(jù)中心上傳各自的醫(yī)療數(shù)據(jù),這些數(shù)據(jù)的聚集也為數(shù)據(jù)挖掘技術的應用奠定了基礎?;诖?,本文將主要針對數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用展開研究,希望能為相關從業(yè)人員提供參考借鑒。
關鍵詞:數(shù)據(jù)挖掘技術;醫(yī)療大數(shù)據(jù);應用
中圖分類號: TP391? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)32-0026-02
早在2015年,國家衛(wèi)健委通過建設醫(yī)院監(jiān)管系統(tǒng),要求委屬醫(yī)院通過數(shù)據(jù)采集軟件且按照標準規(guī)范將數(shù)據(jù)上傳至衛(wèi)健委資源數(shù)據(jù)中心,對醫(yī)療大數(shù)據(jù)展開統(tǒng)一化的管理,為數(shù)據(jù)挖掘提供支撐環(huán)境。過去各大醫(yī)院的醫(yī)療大數(shù)據(jù)均為獨自存儲與管理,要想查看病歷數(shù)據(jù)則需要進入到各個醫(yī)院的系統(tǒng),再加上各醫(yī)院使用的系統(tǒng)可能不一樣,也導致醫(yī)療數(shù)據(jù)收集難度增加[1]。從這一點來看,醫(yī)療領域的信息化程度相較于如今日新月異的互聯(lián)網(wǎng)生活來講,顯得較為落后,所以整個醫(yī)療行業(yè)急需抓緊信息化建設步伐。
而在醫(yī)療行業(yè),每天都會產生大量的數(shù)據(jù)信息,所以在數(shù)據(jù)挖掘技術應用上該技術必然會在醫(yī)療行業(yè)中得到應用。醫(yī)療大數(shù)據(jù)主要在醫(yī)療服務中所產生,其來源范圍較為廣泛,例如有些數(shù)據(jù)來自制藥企業(yè)、有些數(shù)據(jù)信息則來自臨床方面的數(shù)據(jù),還有的數(shù)據(jù)信息來自醫(yī)院與醫(yī)保費用管理方面。相關數(shù)據(jù)表明,通常醫(yī)療機構每年產生數(shù)據(jù)存儲量為1TB~20TB,在這些海量數(shù)據(jù)中蘊含著豐富知識與規(guī)律,倘若能夠從中獲取價值性知識,對于推動現(xiàn)代醫(yī)學研究而言意義重大[2]。隨著數(shù)據(jù)挖掘技術逐漸發(fā)展成熟,在醫(yī)療大數(shù)據(jù)中也得到了充分應用,本文便針對此展開深入研究。
1 數(shù)據(jù)挖掘技術概述
信息化背景下,無論是自然科學、工程技術,還是醫(yī)療服務等領域,數(shù)據(jù)體量呈爆炸式增長,而在這些數(shù)據(jù)之中,有許多的數(shù)據(jù)信息非常的關鍵,非常的具有價值,如果將這些數(shù)據(jù)轉化為知識則有著重要的意義,也正是因為有這種需求,所以才有了數(shù)據(jù)挖掘理論的出現(xiàn)。數(shù)據(jù)挖掘,其實就是從海量的信息中、從那些看似無規(guī)律的數(shù)據(jù)中提取隱性價值信息,需要用到基礎算法以及人工智能、機器學習、特征提取、統(tǒng)計分析等多學科知識。
通常來講,完整的數(shù)據(jù)挖掘過程逐漸分為三個步驟:①數(shù)據(jù)準備。在該階段需要將干擾數(shù)據(jù)精準剔除,所以可分為以下幾個任務:第一,數(shù)據(jù)清理;第二,數(shù)據(jù)集成;第三,數(shù)據(jù)選擇。先結合數(shù)據(jù)挖掘目的生成數(shù)據(jù)集,然后再進行數(shù)據(jù)降噪,最后再根據(jù)任務的目標來找出有用特征去代表數(shù)據(jù);②發(fā)現(xiàn)規(guī)律。該階段作為數(shù)據(jù)挖掘過程中發(fā)現(xiàn)知識的關鍵步驟,通過應用各種算法對數(shù)據(jù)集進行分析,從而提出對決策形成支持的規(guī)律;③表示規(guī)律。規(guī)律發(fā)現(xiàn)之后需要用直觀可視的手段進行表示,主要是規(guī)則與模式的可視化表示。具體流程如圖1所示。
2 數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用
對醫(yī)療大數(shù)據(jù)進行深度挖掘才能體現(xiàn)出數(shù)據(jù)的價值,通過收集、整理與分析海量數(shù)據(jù),探尋蘊含其中的隱性知識,能夠為醫(yī)學研究、臨床護理、疾病診療等方面的發(fā)展形成巨大推動作用。對于病患來講,通過對醫(yī)療大數(shù)據(jù)的全面分析,能夠享受到更加精準且高效的醫(yī)療服務,減少不必要的檢查,從而控制醫(yī)療費用,避免不合理的醫(yī)療支出;對于醫(yī)學研究來講,醫(yī)療大數(shù)據(jù)的深度挖掘分析能夠為藥物研制、疾病診斷等工作提供全新途徑,從而有利于解決大量過去無法解決的醫(yī)學難題;對于整個醫(yī)療領域來講,通過對醫(yī)療大數(shù)據(jù)進行挖掘分析,能夠為以下幾方面提供全新的思路:第一,醫(yī)療成本評估;第二,醫(yī)療質量管理等[3]。另外,對群眾的醫(yī)療大數(shù)據(jù)展開深入挖掘,能夠對實現(xiàn)對民眾健康狀況的密切監(jiān)測,從中分辨出疾病高危人群,對疾病發(fā)展走向有精準預測,從而對制定公共衛(wèi)生政策提供支持。
對醫(yī)療大數(shù)據(jù)進行分析與利用,數(shù)據(jù)挖掘技術是其中的關鍵。而隨著科技的不斷進步,數(shù)據(jù)挖掘技術也得到了較大的發(fā)展,研究方向有所拓寬,包括以下幾方面:第一,關聯(lián)規(guī)則挖掘;第二,異常挖掘等,同時衍生出來多種算法,這些都是分析醫(yī)療大數(shù)據(jù)應用的基礎,是建構醫(yī)療大數(shù)據(jù)應用的基礎。具體而言,該技術在醫(yī)療大數(shù)據(jù)中的應用主要體現(xiàn)在如下幾個方面。
2.1 關聯(lián)規(guī)則挖掘
這種挖掘技術指的是先對不同事件進行分析,然后對其之間有一定關聯(lián)或依賴的知識進行分析與收集,在數(shù)據(jù)挖掘技術應用中屬于關鍵性問題。該研究方向一經提出,我國以及國外一些國家便展開了深入研究,并經過不斷地研究設計出來眾多關聯(lián)規(guī)則挖掘算法。比如,Apriori算法,該算法較為出名,乃是首個有效果的關聯(lián)規(guī)則挖掘算法。還有分塊挖掘Patition算法等[4]。在醫(yī)療行業(yè)內,會產生的大量的數(shù)據(jù),而這些數(shù)據(jù)之間并不是無聯(lián)系的,而是聯(lián)系非常的密切,通過對關聯(lián)規(guī)則挖掘算法進行應用,就能夠對數(shù)據(jù)中的具有關聯(lián)的知識予以提取,進而對疾病診療、致病因素總結、公共衛(wèi)生與健康監(jiān)測等工作形成推動。比如,借助海量電子病歷數(shù)據(jù),可以對傳統(tǒng)危險因素與心血管病死亡率之間的關聯(lián)規(guī)則進行挖掘,然后在這些數(shù)據(jù)分析中從中總結出了肥胖與心血管病死亡有著密切關系。又如,通過對優(yōu)化后的Apriori算法進行應用,可以實現(xiàn)對海量乳腺疾病數(shù)據(jù)的分析,然后基于SQLServer2005數(shù)據(jù)挖掘工具,就可以構建起腫瘤復發(fā)與其他屬性之間的關聯(lián)規(guī)則。
在醫(yī)學科研工作中,大部分情況下需要對病因學進行分析,比如某種新出現(xiàn)的并發(fā)癥是不是另一種并發(fā)癥的誘因,這時便可應用到數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則,從大量隨機并發(fā)個例中去找尋強關聯(lián)現(xiàn)象。關聯(lián)規(guī)則的優(yōu)點就在于其單向性,更容易識別因果關系,倘若前后時間互推均有較高可信度,則可說明為雙向,換而言之則是互為因果。
2.2 分類挖掘分析
分類模型能夠在數(shù)據(jù)挖掘上能夠發(fā)揮重要的作用,其可以將數(shù)據(jù)集中數(shù)據(jù)對象映射成某一個既定類別,從而便于模型去進行預測,以實現(xiàn)對未知對象的具體類別的預測。上述所提到的訓練數(shù)據(jù)集,乃是由一組數(shù)據(jù)對象組成。在這組數(shù)據(jù)中,每個對象都可視作為由多種特性構成的向量,另外訓練樣本需要帶有類別標記。對于不同數(shù)據(jù)類別與應用背景,現(xiàn)如今已有多種多樣的分類挖掘方法,最常見的為神經網(wǎng)絡法、機器學習法、統(tǒng)計法等。結合醫(yī)療行業(yè)來看,分類挖掘分析主要用在以下幾方面:第一,應用于醫(yī)療事件智能預測方面;第二,應用于疾病的智能預測上,其中智能輔助診斷便是最典型的應用?,F(xiàn)如今,在醫(yī)療服務中,在對大多數(shù)疾病進行診斷時,大多停留在“經驗性診斷”方面,之所以存在這一問題,主要是因為不同的病患,其個體之間的差異較大。此外,復合疾病數(shù)量較多。并且關系較為復雜,因此,在診斷工作中,對于部分疑難雜癥,醫(yī)生難以給出精準的診斷。而通過對某類疾病的正確診斷病例進行數(shù)據(jù)搜集,然后對這些大數(shù)據(jù)進行分析,再結合所有病例中的癥狀進行分析,深入研究病癥與病型之間的關系。在臨床診療服務中,可以根據(jù)患者所提供的癥狀信息,然后將這些信息輸入系統(tǒng)之后,就能即時給出確診信息,這樣一來就實現(xiàn)智能輔助診斷的效果。目前,國內有許多醫(yī)學專家在大數(shù)據(jù)與人工智能的技術支持下,通過對醫(yī)療大數(shù)據(jù)的分類挖掘分析,逐漸構建起了以慢性病早期預防為目的的慢性病預控體系。
2.3 聚類分析
聚類是將個體按屬性類似規(guī)律歸總成多個類別,目的在于盡可能縮小同類別個體的距離,以及拉大不同類別個體的距離?,F(xiàn)如今,在許多領域之中,該技術都得到了廣泛應用,如在人工智能領域中應用廣泛。與分類學習相比,聚類分析對象并沒有類別標記,其需按照學習算法去自動化確定,但是分類學習的訓練集對象則不同,其有類別標記。近些年,聚類分析在大數(shù)據(jù)挖掘領域屬于較為熱門的課題,經過不斷地研究與分析,使得其研究方向有所拓展,如開發(fā)了K均值聚類、DBSCAN、BIRCH等聚類算法[5]。聚類分析,主要針對數(shù)據(jù)集存在的未知分布規(guī)律進行挖掘,還可以針對其代表的事件集之間進行挖掘。通過那些被應用到醫(yī)療中的大數(shù)據(jù)來看,最典型的應用有以下幾方面:第一,在醫(yī)療費用;第二,疾病的分布分析等。
過去的臨床科研一般會以醫(yī)院病患為研究對象,通過分析病患的基本變量與臨床指標展開研究。通常來講,年齡與性別存在差異的病患存在相異的醫(yī)學特征,所以要對病患按照年齡與性別進行分組,但采取人工劃分的做法(比如以十年的年齡為一組)難以科學反映出研究人群的客觀年齡分布規(guī)律。而應用聚類分析技術便能實現(xiàn)對研究對象性別與年齡的合理劃分,同時也能實現(xiàn)對不同年齡與性別組別下病患臨床指標的深度分析。
2.4 異常挖掘分析
部分數(shù)據(jù)對象在所處的數(shù)據(jù)集中會顯得“格格不入”,與數(shù)據(jù)集中的一般行為或模型不匹配,這類數(shù)據(jù)對象為離群點,在數(shù)據(jù)挖掘分析過程中需要將離群點這種異常數(shù)據(jù)事先剔除,不過在部分領域的數(shù)據(jù)挖掘分析中,偶然罕見的實例會比大概率發(fā)生的正常案例更具研究意義,這其中針對離群點數(shù)據(jù)的分析還有另一種說法,其也被稱作為異常挖掘。而在異常挖掘領域中,研究人員需要研究清楚以下幾個問題:第一,在數(shù)據(jù)集中,究竟什么樣的數(shù)據(jù)才能被定義為異常;第二,研究人員需要如何確定異常點的挖掘方法?,F(xiàn)如今,發(fā)展較為成熟的異常挖掘分析方法有以下幾種:一種是基于統(tǒng)計的方法,一種是基于距離的方法,還有一種是基于偏差的方法。比如,有國外專家學生針對心電圖時間的歷史數(shù)據(jù)展開異常挖掘分析,主要對ECG時間序列數(shù)據(jù)當中的異常模式進行檢測,進而實現(xiàn)疾病診斷效果。另外,在對醫(yī)保行業(yè)進行分析時,為了找出醫(yī)療保險中可能存在的欺詐行為,則可將醫(yī)療賬單作為數(shù)據(jù)源,通過對數(shù)據(jù)挖掘技術進行應用,利用其對賬單中的異常數(shù)據(jù)進行挖掘分析。如此,就可以發(fā)掘出其中所存在的問題,這一方法在醫(yī)療騙保檢測與控制方面效果明顯。當然,值得注意的是上述幾種數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用方法更傾向于理論,在實踐應用中還需結合醫(yī)院實際情況予以合理調整。
2.5 流行病監(jiān)測與預報
數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用同樣能夠用在對流行病的監(jiān)測與預報方面?,F(xiàn)如今,國家傳染病與突發(fā)公共衛(wèi)生事件網(wǎng)絡直報系統(tǒng)已投入運行多年,每年會有海量個案信息從各地區(qū)上報,范圍覆蓋到了全國縣級以上的疾控機構。對海量數(shù)據(jù)應用數(shù)據(jù)挖掘技術進行分析,能夠實現(xiàn)對疫情的全面監(jiān)測,同時借助于集成疾病監(jiān)測與響應程序,能夠對傳播途徑與傳播時間精準預測,從而有效降低流行病的感染概率。在利用數(shù)據(jù)挖掘技術對流行病的預測方面,谷歌公司有著成功案例,該公司將美國民眾檢索頻率最高的詞條與美國疾控中心數(shù)據(jù)進行比對,能夠在流感傳播時期精準辨別是否有民眾感染流感,因為有感染可能的民眾往往會通過谷歌搜索去檢索“治療咳嗽與發(fā)燒的藥物”等詞條,通過對這些檢索詞條的使用頻率進行挖掘分析,能夠預測出流感傳播路徑,為疾控中心的及時響應爭取時間。
綜上,在當前移動互聯(lián)網(wǎng)時代,各行各業(yè)在發(fā)展與運行中產生的數(shù)據(jù)體量也不斷增大,尤其是隨著醫(yī)療行業(yè)信息化程度的不斷提高,越來越多的醫(yī)療大數(shù)據(jù)不斷聚集,也為數(shù)據(jù)挖掘技術打下了堅實的基礎。在對醫(yī)療大數(shù)據(jù)的分析中,數(shù)據(jù)挖掘技術是獲取其中隱藏性知識的有效渠道。當然,從現(xiàn)狀來看醫(yī)療大數(shù)據(jù)應用數(shù)據(jù)挖掘技術還存在基礎性問題,一方面是因為醫(yī)院數(shù)據(jù)來源并不復雜,所以數(shù)據(jù)挖掘技術中的異構數(shù)據(jù)處理優(yōu)勢并未發(fā)揮;另一方面是因為各大醫(yī)院系統(tǒng)沒有形成互聯(lián)互通,而單個醫(yī)院的數(shù)據(jù)量尚未達到大數(shù)據(jù)入門量級。不過隨著社會時代的快速發(fā)展與信息技術的高速進步,醫(yī)療數(shù)據(jù)體量一定會呈現(xiàn)跨越式增長,屆時數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用優(yōu)勢將會更加明顯,從而帶來更大的經濟效益與社會效益。
參考文獻:
[1] 諶秋香.基于數(shù)據(jù)挖掘技術的醫(yī)療大數(shù)據(jù)分析方法[J].當代護士(下旬刊),2020(5):184-186.
[2] 陳萌.遺傳算法的數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用研究[J].中國管理信息化,2019,22(8):173-174.
[3] 陳閩韜,匡芳君.數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用研究[J].電腦與電信,2017(11):34-36,39.
[4] 呂峰,楊宏,普奕,等.遺傳算法的數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用[J].電子技術與軟件工程,2017(5):203.
[5] 羅堃,代冕.數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用研究[J].信息與電腦(理論版),2016(6):45-47.
【通聯(lián)編輯:唐一東】