牟冬梅 馮 超 王 萍
(吉林大學(xué)公共衛(wèi)生學(xué)院 長(zhǎng)春130021)
?
數(shù)據(jù)挖掘方法在醫(yī)學(xué)領(lǐng)域的應(yīng)用及SWOT分析*
牟冬梅 馮 超 王 萍
(吉林大學(xué)公共衛(wèi)生學(xué)院 長(zhǎng)春130021)
闡述關(guān)聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)和聚類分析4種數(shù)據(jù)挖掘方法在醫(yī)學(xué)領(lǐng)域的應(yīng)用情況,運(yùn)用SWOT分析法,得出各方法的優(yōu)勢(shì)及劣勢(shì)、面臨的機(jī)會(huì)及威脅并做出策略分析。指出4種數(shù)據(jù)挖掘方法的適用范圍和協(xié)同應(yīng)用情況,對(duì)方法的應(yīng)用選取提出建議。
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;人工神經(jīng)網(wǎng)絡(luò);決策樹(shù);聚類分析;SWOT分析
數(shù)據(jù)挖掘(Data Mining)是一個(gè)多學(xué)科交叉研究領(lǐng)域,融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、知識(shí)工程、面向?qū)ο蠓椒ā⑿畔z索、高性能計(jì)算以及數(shù)據(jù)可視化等最新技術(shù)的研究結(jié)果。應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中提取人們感興趣的信息和知識(shí),這些知識(shí)是隱含的,事先未知而潛在有用的,提取的知識(shí)表示為概念、規(guī)律、模式等。醫(yī)學(xué)領(lǐng)域數(shù)據(jù)量龐大、生成速度快、結(jié)構(gòu)復(fù)雜多樣且價(jià)值大[1-2],利用數(shù)據(jù)挖掘技術(shù)處理這些信息,可以取得事半功倍之效。數(shù)據(jù)挖掘方法較多也比較復(fù)雜,針對(duì)醫(yī)學(xué)數(shù)據(jù)的隱私性、多樣性、不完整性及冗余性[3],及不同數(shù)據(jù)結(jié)構(gòu)、不同需要、不同目的,選擇相適應(yīng)的數(shù)據(jù)挖掘方法至關(guān)重要。本文針對(duì)4種常用的數(shù)據(jù)挖掘方法[4]——關(guān)聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)及聚類分析進(jìn)行探討。
2.1 關(guān)聯(lián)規(guī)則
4種數(shù)據(jù)挖掘方法是數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn),隨著其發(fā)展進(jìn)步,應(yīng)用領(lǐng)域不斷擴(kuò)展,涵蓋了商業(yè)、教育、工程、科研及醫(yī)學(xué)等領(lǐng)域。在醫(yī)學(xué)領(lǐng)域,關(guān)聯(lián)規(guī)則用來(lái)發(fā)現(xiàn)數(shù)據(jù)間隱含的關(guān)聯(lián)關(guān)系,基于醫(yī)學(xué)數(shù)據(jù)非結(jié)構(gòu)化、無(wú)序化及數(shù)量龐大的特點(diǎn),應(yīng)用關(guān)聯(lián)規(guī)則挖掘未知的知識(shí)顯得尤其重要?,F(xiàn)已有多項(xiàng)醫(yī)學(xué)領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究:(1)發(fā)現(xiàn)疾病與癥狀間的關(guān)聯(lián)規(guī)則,如王華等[5]用其研究某癥狀可能伴隨發(fā)生其他癥狀,這些癥狀可能是由某疾病引發(fā)。(2)疾病并發(fā)癥的關(guān)聯(lián)研究,如余輝等[6]研究幾種病癥同時(shí)發(fā)生時(shí)糖尿病并發(fā)的概率,糖尿病引發(fā)某并發(fā)癥的風(fēng)險(xiǎn)。(3)用藥和方劑配伍規(guī)律研究,如吳嘉瑞等[7]用關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類分析治療腹痛用藥規(guī)律。(4)病癥-辨證-處方關(guān)聯(lián)研究,歐鳳霞等[8]用關(guān)聯(lián)規(guī)則判斷癥狀組合出現(xiàn)時(shí)使用某種藥物的概率,是何種辨證及會(huì)用某處方的概率。(5)分析藥物間相互作用,如胡雙[9]用關(guān)聯(lián)規(guī)則分析心血管藥物的相互作用,包括避免合用、謹(jǐn)慎合用、可以合用的作用關(guān)系。(6)藥品分類和劑型關(guān)聯(lián)分析,如鄭銀麗等[10]通過(guò)藥品分類和劑型的關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)用戶用藥需求、習(xí)慣及劑型偏好。關(guān)聯(lián)規(guī)則在臨床醫(yī)療領(lǐng)域有著出色的效用,在疾病、癥狀、并發(fā)癥、用藥等方面都做出了卓越貢獻(xiàn)。
2.2 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)模擬大腦神經(jīng)組織機(jī)制,由節(jié)點(diǎn)相互聯(lián)接的輸入、輸出結(jié)構(gòu),具有出色的學(xué)習(xí)能力,在醫(yī)療和金融領(lǐng)域都有良好的預(yù)測(cè)效果。人工神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域有以下幾方面應(yīng)用:(1)危險(xiǎn)因素分析,如錢玲[11]用BP神經(jīng)網(wǎng)絡(luò)分析影響糖尿病并發(fā)癥發(fā)生的因素。(2)疾病診斷,如吳擁軍等[12]建立了基于BP 網(wǎng)絡(luò)的肺癌智能化診斷模型系統(tǒng)。(3)疾病預(yù)測(cè),如溫變珍[13]針對(duì)原發(fā)大腸癌手術(shù)病例,建立經(jīng)測(cè)試后效果良好的生存期預(yù)測(cè)模型。(4)基因型分類,如Rena等[14]嘗試用BP神經(jīng)網(wǎng)絡(luò)對(duì)樣品3種基因型(GG、AA、GA)進(jìn)行分類。臨床和基礎(chǔ)醫(yī)學(xué)中人工神經(jīng)網(wǎng)絡(luò)都有很好的應(yīng)用,在臨床預(yù)測(cè)方面發(fā)揮了重要作用。
2.3 決策樹(shù)
決策樹(shù)奉行自頂向下,分而治之,以樹(shù)狀圖來(lái)使結(jié)果可視化,是典型的分類方法,能發(fā)現(xiàn)分類規(guī)則,在醫(yī)學(xué)領(lǐng)域有重要應(yīng)用:(1)疾病的分類,如楊開(kāi)明[15]用決策樹(shù)對(duì)糖尿病病例數(shù)據(jù)辨證分類,可指導(dǎo)醫(yī)生臨床診斷。(2)致病規(guī)律,如蘇亞丁[16]提出一種基于決策樹(shù)的口腔診療方法,試圖利用其研究口腔疾病的致病規(guī)律。(3)疾病預(yù)測(cè),如陳偉等[17]使用決策樹(shù)對(duì)絕經(jīng)綜合征者預(yù)測(cè)便秘和腰酸。(4)疾病診斷,如王劍[18]用決策樹(shù)診斷慢性乙型肝炎不同型別,診斷肝炎肝硬化和原發(fā)性肝細(xì)胞癌,發(fā)現(xiàn)慢性乙肝患者中的高危人群;通過(guò)移動(dòng)醫(yī)療設(shè)備疾病決策樹(shù)可以幫助患者一定程度上自己診斷和處理病情[19]。
2.4 聚類分析
聚類分析基于相似性將對(duì)象分類,主要用于模式識(shí)別和數(shù)據(jù)挖掘,在醫(yī)學(xué)領(lǐng)域主要有以下應(yīng)用:(1)方劑配伍規(guī)律分析,如吳磊等[20]雙向聚類分析治療中風(fēng)病方劑配伍規(guī)律,得到針對(duì)不同證型配伍用藥特點(diǎn)、治法和常用藥組。(2)基因表達(dá)數(shù)據(jù)分析,如Bittner等[21]于基因?qū)哟卫镁垲惙治龊谏亓鰳颖?,找出其間相關(guān)性。(3)疾病診斷,如景麗俊[22]對(duì)治療小兒抽動(dòng)穢語(yǔ)綜合征的處方及腫瘤醫(yī)案聚類研究,發(fā)現(xiàn)方劑間及方劑和病證間關(guān)聯(lián),確定腫瘤證型。(4)辨證論治,如李賽[23]聚類分析慢性腎衰竭癥狀,顯示隨著聚類次數(shù)的增加慢性腎衰竭的演變過(guò)程,對(duì)病機(jī)、臨床表現(xiàn)特點(diǎn)及發(fā)展變化的規(guī)律有整體觀念,指導(dǎo)論治。(5)用藥規(guī)律分析,如李健等[24]對(duì)治療肺癰的方劑聚類分析,發(fā)現(xiàn)方劑中藥物的關(guān)聯(lián)、核心組合及新方劑組合。(6)臨床癥狀、證型分析,如林蘭等[25]對(duì)癥狀聚類得到最常見(jiàn)癥狀,對(duì)證型聚類得到主要證型。(7)致病危險(xiǎn)因素分析,如魏林節(jié)等[26]聚類分析影響高原地區(qū)發(fā)生高血壓腦出血的危險(xiǎn)因素,得到危險(xiǎn)因素的分類結(jié)果。(8)發(fā)現(xiàn)臨床數(shù)據(jù)異常點(diǎn),如蔣小群等[27]對(duì)2型糖尿病患者分層聚類分析,發(fā)現(xiàn)指標(biāo)異常點(diǎn),輔助臨床診斷和治療。
SWOT(Strengths,Weakness,Opportunity,Threats)分析法又稱態(tài)勢(shì)分析法或優(yōu)劣勢(shì)分析法,是由哈佛商學(xué)院的K.J.安德魯斯教授于1921年在其《公司戰(zhàn)略概念》一書(shū)中提出的,用于客觀分析研究對(duì)象所處的現(xiàn)實(shí)情況。本文使用此方法將數(shù)據(jù)挖掘方法的內(nèi)部?jī)?yōu)勢(shì)、劣勢(shì)、外部機(jī)會(huì)及面臨的威脅4個(gè)要素按矩陣排列并做出分析,明確4種數(shù)據(jù)挖掘方法的優(yōu)勢(shì)和存在的問(wèn)題,找出解決辦法,協(xié)助對(duì)方法的選擇,見(jiàn)表1。
續(xù)表1
4.1 適用范圍
4種數(shù)據(jù)挖掘方法由于各自的特點(diǎn)、功能、限制,應(yīng)用情況有所不同。關(guān)聯(lián)規(guī)則反映變量間相互依存和關(guān)聯(lián),主要挖掘數(shù)據(jù)的項(xiàng)目或?qū)傩蚤g關(guān)系,如病癥-辨證-處方之間關(guān)系、用藥規(guī)律、方劑配伍關(guān)聯(lián),發(fā)現(xiàn)潛在、未知的規(guī)則和關(guān)聯(lián)度較強(qiáng)的規(guī)則。由于對(duì)數(shù)據(jù)預(yù)處理要求低,無(wú)需考慮數(shù)據(jù)的復(fù)雜度,可處理規(guī)范程度不高、結(jié)構(gòu)不規(guī)整的數(shù)據(jù)。人工神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)訓(xùn)練樣本,主要用于疾病預(yù)測(cè)、診斷和分類及危險(xiǎn)因素分析等;可完成分類、聚類、特征挖掘等任務(wù);挖掘因變量、自變量、輸出結(jié)果間關(guān)系。最好給出權(quán)重系數(shù)的可信區(qū)間、訓(xùn)練樣本的標(biāo)準(zhǔn)及最優(yōu)隱含層數(shù)。決策樹(shù)主要用于疾病診斷、分類、預(yù)測(cè)、致病規(guī)律研究等,可以通過(guò)挖掘臨床數(shù)據(jù)對(duì)是否會(huì)患病、患病概率、疾病類型等做出分析和判定;可挖掘內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)的屬性和類間關(guān)系;處理離散型數(shù)據(jù)及連續(xù)型數(shù)據(jù);對(duì)異常值、缺失值有良好處理效果。考慮局部最優(yōu),于全局最優(yōu)上有所欠缺。聚類分析用于基因表達(dá)分析,可確定有相似表達(dá)模式的基因,提示未知基因功能;用于疾病分類、診斷;方劑配伍及用藥規(guī)律;藥物與癥狀間關(guān)聯(lián);分析臨床癥狀、證型、證候間關(guān)聯(lián)及常見(jiàn)情況;分析致病危險(xiǎn)因素及影響程度;可發(fā)現(xiàn)異常臨床數(shù)據(jù),輔助診斷。聚類分析主要用于分類,可根據(jù)數(shù)據(jù)特征將樣本分類,根據(jù)數(shù)據(jù)屬性間相似度挖掘數(shù)據(jù)集類的情況及數(shù)據(jù)間關(guān)聯(lián)。對(duì)“臟數(shù)據(jù)”敏感,所以研究數(shù)據(jù)集最好沒(méi)有過(guò)多“臟數(shù)據(jù)”。
4.2 協(xié)同應(yīng)用
在數(shù)據(jù)挖掘過(guò)程中,4種方法各有其側(cè)重,它們的功能在特定時(shí)有關(guān)聯(lián),所以在一定程度上可以協(xié)同應(yīng)用。關(guān)聯(lián)規(guī)則和聚類分析都可用于用藥規(guī)律和方劑配伍研究,人工神經(jīng)網(wǎng)絡(luò)和決策樹(shù)都可以用于疾病預(yù)測(cè)、診斷、分類研究,所以可在進(jìn)行數(shù)據(jù)挖掘分析時(shí)采用多種方法,以提高準(zhǔn)確度和可信度。聚類分析可用于分類,在聚類的基礎(chǔ)上對(duì)數(shù)據(jù)屬性進(jìn)行分析,關(guān)聯(lián)規(guī)則支持挖掘多個(gè)屬性間關(guān)聯(lián)并且不用考慮變量間復(fù)雜關(guān)系,對(duì)挖掘?qū)ο笠蟮?,聚類分析可用于群分類,然后?yīng)用關(guān)聯(lián)規(guī)則對(duì)分類結(jié)果進(jìn)行關(guān)聯(lián)挖掘。將數(shù)據(jù)先用聚類分析處理,使其更規(guī)范化,而后進(jìn)行關(guān)聯(lián)分析,關(guān)聯(lián)分析在運(yùn)行上時(shí)間開(kāi)銷比較大,而在聚類操作后減輕了這種壓力,兩種方法可以互相彌補(bǔ)不足之處。決策樹(shù)可用于疾病分類,而后可用關(guān)聯(lián)規(guī)則從決策樹(shù)中提取規(guī)則。研究發(fā)現(xiàn)決策樹(shù)和人工神經(jīng)網(wǎng)絡(luò)結(jié)合使用可以產(chǎn)生較好的預(yù)測(cè)模型[4]。決策樹(shù)模型效率高,可處理較大數(shù)據(jù)集,具有較高分類精度,決策樹(shù)先對(duì)數(shù)據(jù)做出處理,刪除不必要的數(shù)據(jù),將有必要且符合要求的數(shù)據(jù)合并,再使用關(guān)聯(lián)規(guī)則分析。
4種數(shù)據(jù)挖掘方法,能一定程度上滿足醫(yī)學(xué)研究及臨床醫(yī)療的需要,在醫(yī)學(xué)領(lǐng)域有較大發(fā)展空間及前景,但同時(shí)自身存在缺點(diǎn)及局限性,應(yīng)重視克服其缺陷,以便能在醫(yī)學(xué)領(lǐng)域乃至大數(shù)據(jù)環(huán)境得到更好的發(fā)展。數(shù)據(jù)挖掘方法各自分析側(cè)重點(diǎn)不同,方法的選取對(duì)研究結(jié)果是否有效、是否可信影響巨大。已有的對(duì)數(shù)據(jù)挖掘方法的應(yīng)用可為以后的使用者、研究者提供參考。數(shù)據(jù)挖掘方法在醫(yī)學(xué)領(lǐng)域應(yīng)用于不同研究方向,可根據(jù)研究目的和需要對(duì)方法進(jìn)行選擇,并且數(shù)據(jù)挖掘方法可以協(xié)同應(yīng)用,有助于提高分析研究的準(zhǔn)確性。
1 肖輝,周征奇,肖革新,等.公共衛(wèi)生領(lǐng)域中的數(shù)據(jù)挖掘[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(12):2-5.
2 高漢松,肖凌,許德瑋,等.基于云計(jì)算的醫(yī)療大數(shù)據(jù)挖掘平臺(tái)[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(5):7-12.
3 石曉敬.?dāng)?shù)據(jù)挖掘及其在醫(yī)學(xué)信息中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(5):2-6.
4 沈培.基于數(shù)據(jù)挖掘的甲肝醫(yī)療費(fèi)用影響因素與控制策略研究[D].武漢:華中科技大學(xué),2012.
5 王華,胡學(xué)鋼.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在臨床上的應(yīng)用[J].安徽大學(xué)學(xué)報(bào):自然科學(xué)版,2006,30(2):21-25.
6 余輝,張力新,劉文耀,等.醫(yī)學(xué)數(shù)據(jù)挖掘系統(tǒng)研究——糖尿病并發(fā)癥流行病學(xué)知識(shí)發(fā)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2006,(18):229-232.
7 吳嘉瑞,張曉朦,張冰,等.基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類的顏正華教授治療腹痛用藥規(guī)律[J].中華中醫(yī)藥雜志,2013,28(10):2884-2887.
8 歐鳳霞,王宗殿.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在中醫(yī)診斷中的應(yīng)用[J].河南工程學(xué)院學(xué)報(bào):自然科學(xué)版,2011,23(2):53-58.
9 胡雙.關(guān)聯(lián)規(guī)則挖掘研究及其在藥物相互作用中的應(yīng)用[D].昆明:昆明理工大學(xué),2013.
10 鄭銀麗,相秉仁,趙國(guó)明.關(guān)聯(lián)規(guī)則技術(shù)在醫(yī)藥零售業(yè)藥品營(yíng)銷組合中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2011,32(4):55-58.
11 錢玲.人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于糖尿病并發(fā)癥的影響因素研究[J].現(xiàn)代預(yù)防醫(yī)學(xué),2005,32(12):1625-1628.
12 吳擁軍,吳逸明.人工神經(jīng)網(wǎng)絡(luò)技術(shù)在肺癌診斷中的應(yīng)用研究[J].中華微生物學(xué)和免疫學(xué)雜志,2003,23(8):646-649.
13 溫變珍.BP神經(jīng)網(wǎng)絡(luò)在大腸癌預(yù)后分析中的應(yīng)用[D].太原:山西醫(yī)科大學(xué),2010.
14 Rena L,Wang WP,Gao YZ, et al.Typing SNP based on the Near-infrared Spectroscopy and Artificial Neural Network[J].Spectrochim Acta a Mol Biomol Sepectrosc,2009,73(1):106-111.
15 楊開(kāi)明.糖尿病中醫(yī)臨床數(shù)據(jù)挖掘技術(shù)研究[D].昆明:昆明理工大學(xué),2013.
16 蘇亞丁.基于決策樹(shù)的數(shù)據(jù)挖掘技術(shù)在口腔診療中的應(yīng)用[D].石家莊:河北科技大學(xué),2010.
17 陳偉,沈亞誠(chéng),蔡永銘,等.基于Web的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)及其在絕經(jīng)綜合征中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2012,33(7):33-36,44.
18 王劍.乙型病毒性肝炎及相關(guān)疾病蛋白質(zhì)組學(xué)及臨床診斷的研究[D].石家莊:河北醫(yī)科大學(xué),2009.
19 吳民.移動(dòng)醫(yī)療的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2012,33(11):2-5.
20 吳磊,李舒.基于雙向聚類方法的中醫(yī)治療中風(fēng)病方劑配伍規(guī)律知識(shí)發(fā)現(xiàn)[J].中國(guó)中醫(yī)藥信息雜志,2013,20(11):16-18.
21 Bittner M, Meltzer P, Chen Y, et al. Molecular Classification of Cutaneous Malignant Melanoma by Gene Expression Profiling[J].Nature, 2000, 406(6795):536-540.
22 景麗?。诰垲惡完P(guān)聯(lián)規(guī)則的名醫(yī)臨證思維及方藥應(yīng)用規(guī)律挖掘方法[D].廣州:暨南大學(xué),2011.
23 李賽.慢性腎衰竭中醫(yī)證治規(guī)律研究[D].北京:中國(guó)中醫(yī)科學(xué)院,2010.
24 李健,盧朋,唐仕歡,等.基于中醫(yī)傳承輔助系統(tǒng)的治療肺癰方劑組合方規(guī)律分析[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2012,18(2):254-257.
25 林蘭,倪青,龐健麗,等.基于數(shù)據(jù)挖掘技術(shù)的2型糖尿病辯證規(guī)范前瞻性研究[J].中國(guó)中醫(yī)藥信息雜志,2011,18(7):9-11.
26 魏林節(jié),馮國(guó)君,董紅讓,等.聚類分析在高原地區(qū)高血壓腦出血危險(xiǎn)因素分類中的應(yīng)用[J].中國(guó)實(shí)用神經(jīng)疾病雜志,2013,16(13):43-44.
27 蔣小群,匡金石,李艾紅.聚類分析在糖尿病中的應(yīng)用[J].中國(guó)現(xiàn)代醫(yī)藥雜志,2008,10(2):100-101.
Application of Data Mining Methods in Medical Field as Well as SWOT Analysis
MUDong-mei,FENGChao,WANGPing,
InstituteofPublicHealth,JilinUniversity,Changchun130021,China
The paper elaborates the application status of four data mining methods in the medical field, including the association rules, artificial neural networks, decision trees and clustering analysis. It utilizes SWOT method to analyze the data mining methods from the perspectives of strengths, weaknesses, opportunities, threats and makes strategic analysis. The application scope and the synergy of the four data mining methods are pointed out, suggestions on the selection of data mining methods are put forward.
Data mining;Association rules; Artificial neural networks;Decision tree; Clustering analysis; SWOT analysis
2014-09-18
牟冬梅,教授,發(fā)表論文60余篇。
吉林大學(xué)基本科研業(yè)務(wù)種子基金項(xiàng)目“面向知識(shí)服務(wù)的領(lǐng)域多維知識(shí)庫(kù)構(gòu)建研究”(項(xiàng)目編號(hào):2014ZZ026)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.01.012