亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于決策樹算法的醫(yī)療大數(shù)據(jù)填補及分類仿真

2021-11-18 04:09:18岳根霞劉金花

計算機仿真 2021年1期

岳根霞，劉金花，劉峰

(山西醫(yī)科大學(xué)汾陽學(xué)院，山西汾陽 032200)

1 引言

醫(yī)學(xué)界面臨著海量、非結(jié)構(gòu)化數(shù)據(jù)處理的嚴峻挑戰(zhàn)，如何處理醫(yī)療海量數(shù)據(jù)成為研究熱點。醫(yī)療大數(shù)據(jù)中涵蓋了各類疾病的發(fā)病原因、發(fā)病歷程、患病癥狀、治療方案、實際案例等大量數(shù)據(jù)。由于醫(yī)療行業(yè)正在逐漸發(fā)展，醫(yī)療技術(shù)也在不斷提高，因此治療方案以及治療結(jié)果產(chǎn)生的數(shù)據(jù)都不盡相同，而醫(yī)療大數(shù)據(jù)是按照時間順序存儲的，未經(jīng)過整合處理的醫(yī)療大數(shù)據(jù)需要消耗大量的時間調(diào)取，為此提出醫(yī)療大數(shù)據(jù)的分類方法。醫(yī)療大數(shù)據(jù)分類方法的運行建立在數(shù)據(jù)完整的基礎(chǔ)上，當(dāng)醫(yī)療大數(shù)據(jù)不完整時極易出現(xiàn)數(shù)據(jù)分類偏差的情況，導(dǎo)致數(shù)據(jù)的分類結(jié)果混亂，失去了醫(yī)療大數(shù)據(jù)分類的意義。數(shù)據(jù)挖掘與處理的首要問題是數(shù)據(jù)缺失，數(shù)據(jù)集的完整是數(shù)據(jù)挖掘的成功與否的關(guān)鍵，通過填補缺失數(shù)據(jù)，得到一個完整的數(shù)據(jù)集。

在數(shù)據(jù)填補完成的基礎(chǔ)上，利用數(shù)據(jù)分類方法處理大量混亂而復(fù)雜的醫(yī)療數(shù)據(jù)，可以提升數(shù)據(jù)的邏輯性，方便數(shù)據(jù)的查找。在數(shù)據(jù)分類計數(shù)發(fā)展歷程中，使用范圍較廣的幾個計數(shù)包括神經(jīng)網(wǎng)絡(luò)下的分類方法[1]和遺傳算法下的分類方法[2]。在醫(yī)療大數(shù)據(jù)的分類過程中分別使用不同的技術(shù)可以針對不同的分類需求得到更加符合數(shù)據(jù)特點的分類結(jié)果，然而經(jīng)過長時間的應(yīng)用研究發(fā)現(xiàn)，現(xiàn)階段使用的分類方法均存在迭代時間長的問題。為了解決上述問題，提出在決策樹算法下的醫(yī)療大數(shù)據(jù)分類處理方法。這種算法通過構(gòu)建決策樹，利用已知各種情況的發(fā)生概率來求取凈現(xiàn)值在有效范圍內(nèi)的期望值的概率，最后判斷分類的可行性。決策樹算法具有更高的分類精確度，因此將該技術(shù)應(yīng)用到醫(yī)療數(shù)據(jù)的分類中，使其更好地服務(wù)于醫(yī)療大數(shù)據(jù)的處理，從患者數(shù)據(jù)中挖掘出有用的信息輔助醫(yī)生為病人診斷。

2 初始醫(yī)療數(shù)據(jù)處理與大數(shù)據(jù)填補

醫(yī)療大數(shù)據(jù)填補與分類方法的設(shè)計目的是為了給醫(yī)療人員和醫(yī)療行業(yè)提供完整且準(zhǔn)確的醫(yī)療數(shù)據(jù)，通過數(shù)據(jù)的分類可以實現(xiàn)指定數(shù)據(jù)的快速查找[3]。醫(yī)療大數(shù)據(jù)的填補與分類方法的實現(xiàn)，需要建立在大量的醫(yī)療數(shù)據(jù)的基礎(chǔ)上，因此首先在醫(yī)療管理系統(tǒng)中挖掘需要的醫(yī)療數(shù)據(jù)，數(shù)據(jù)挖掘的具體流程如圖1所示。

圖1 數(shù)據(jù)挖掘流程圖

圖1的數(shù)據(jù)挖掘流程表明，數(shù)據(jù)挖掘的基本步驟是通過以下幾個迭代組成的，其中包括數(shù)據(jù)的清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變化、挖掘?qū)崿F(xiàn)、模式評估以及知識表示。其中數(shù)據(jù)清洗的目的是過濾掉海量數(shù)據(jù)中的無效值和差異值，通過數(shù)據(jù)集成將不同來源、不同格式的數(shù)據(jù)整合，數(shù)據(jù)選擇主要是按照數(shù)據(jù)的處理要求，選擇數(shù)據(jù)挖掘范圍與數(shù)據(jù)類型，知識表示是利用可視化技術(shù)將數(shù)據(jù)挖掘的結(jié)果顯示到屏幕上[4]。另外數(shù)據(jù)挖掘的實現(xiàn)是在特定的挖掘算法和挖掘規(guī)則下進行的，在此次醫(yī)療大數(shù)據(jù)填補及分類方法設(shè)計中，為了保證分類結(jié)果的應(yīng)用價值建立適用于醫(yī)療大數(shù)據(jù)的挖掘關(guān)聯(lián)規(guī)則，選擇適配度更強的數(shù)據(jù)挖掘方式。

2.1 建立關(guān)聯(lián)規(guī)則

從海量的不完備醫(yī)療數(shù)據(jù)中檢索滿足最低支持度的項目數(shù)據(jù)集，定義初始海量醫(yī)療數(shù)據(jù)集為Dmis，定義任意一個項目數(shù)據(jù)集為Ijk[5]。項目數(shù)據(jù)集Ijk下搜索到的滿足最低置信度要求的規(guī)則集表示為

Rj={Rj1，Rj2，…，Rjk，}

(1)

并記錄相應(yīng)的置信度C(Rj)。利用置信度建立關(guān)聯(lián)規(guī)則，可以通過式(2)表示

(2)

式(2)中A(Rj)和B(Rj)分別表示的是A和B兩個數(shù)據(jù)包對應(yīng)關(guān)聯(lián)規(guī)則所包含的項目，變量Support_count(A(Rj))為海量數(shù)據(jù)項集中包含A的項數(shù)。那么假設(shè)T為醫(yī)療大數(shù)據(jù)的初始海量數(shù)據(jù)集，則可以得到關(guān)聯(lián)規(guī)則的具體表達式為

(3)

式(3)中σai表示醫(yī)療大數(shù)據(jù)集的標(biāo)準(zhǔn)差，γmin為最小置信度[6]。上述三個變量的計算方法如式(4)所示

(4)

式(4)中ai表示大數(shù)據(jù)基本屬性，aik為第k個數(shù)據(jù)屬性值[7]。當(dāng)ai在類xi中存在不同于其它類的行為，且具有統(tǒng)一行為時，將式(4)的變量求解結(jié)果代入到式(3)當(dāng)中，便可以得出數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則。

2.2 選擇數(shù)據(jù)挖掘方式

在關(guān)聯(lián)規(guī)則的約束下，選擇符合醫(yī)療大數(shù)據(jù)的數(shù)據(jù)挖掘方式?，F(xiàn)階段數(shù)據(jù)挖掘算法包括Apriori和FP-Growth兩種，通過兩種關(guān)聯(lián)規(guī)則算法來挖掘數(shù)據(jù)中藥品和疾病、疾病和癥狀的相關(guān)對，進而得出醫(yī)療數(shù)據(jù)的挖掘結(jié)果。

2.2.1 Apriori算法挖掘數(shù)據(jù)

Apriori數(shù)據(jù)挖掘算法的應(yīng)用原理是基于廣度優(yōu)先搜索的方式，也就是逐層掃描醫(yī)療大數(shù)據(jù)，通過層層迭代統(tǒng)計出各個候選項集的支持度與最小支持度，再根據(jù)建立的關(guān)聯(lián)規(guī)則，找出符合要求的醫(yī)療挖掘數(shù)據(jù)[8]。一般來講Apriori算法的實現(xiàn)分為兩個階段，首先生成待挖掘數(shù)據(jù)的頻繁項集，并通過不斷的循環(huán)迭代確定候選項集的統(tǒng)計數(shù)量，進而得出醫(yī)療數(shù)據(jù)挖掘的頻繁項集[9]。接著在關(guān)聯(lián)規(guī)則的約束下分別計算兩個關(guān)聯(lián)規(guī)則之間的支持度和置信度，并根據(jù)計算結(jié)果調(diào)整頻繁項集。

2.2.2 FP-Growth算法挖掘數(shù)據(jù)

使用FP-Growth算法進行數(shù)據(jù)挖掘。

過程為：首先遍歷海量醫(yī)療數(shù)據(jù)庫，統(tǒng)計其中所有數(shù)據(jù)的頻數(shù)，選擇符合最小支持度計數(shù)的數(shù)據(jù)項，接著按照遞減的順序排列符合要求的數(shù)據(jù)項，得到頻繁項列表，即為FList。以空節(jié)點為根節(jié)點創(chuàng)建FP-tree，按照得出的FList的順序?qū)?shù)據(jù)插入到每一個節(jié)點上[10]。需要注意的是在數(shù)據(jù)對應(yīng)的過程中，要保證FList中的數(shù)據(jù)項在FP-tree中有且僅有一次出現(xiàn)在節(jié)點上。設(shè)置數(shù)據(jù)挖掘的初始值為空，調(diào)用FP-Growth算法中搭建完成的FP-tree，便可以獲得對應(yīng)數(shù)據(jù)全部挖掘結(jié)果。

2.2.3 對比兩種算法挖掘結(jié)果

Apriori算法和FP-Growth算法都可以在醫(yī)療大數(shù)據(jù)庫中挖掘到滿足要求的數(shù)據(jù)。然而Apriori算法需要多次掃描數(shù)據(jù)庫，因此會花費大量的挖掘時間，導(dǎo)致算法的整體性能降低。而FP-Growth算法在挖掘大規(guī)模數(shù)據(jù)集時會出現(xiàn)無法構(gòu)造FP-tree的情況，導(dǎo)致數(shù)據(jù)挖掘失敗。為了解決兩個傳統(tǒng)算法存在的問題，以FP-Growth算法的運行原理為基礎(chǔ)，采用Apriori算法來代替FP-tree的構(gòu)建與迭代，實現(xiàn)數(shù)據(jù)挖掘算法的改進優(yōu)化，同時也獲取到整體性更強的醫(yī)療初始數(shù)據(jù)。

2.3 醫(yī)療大數(shù)據(jù)填補

對于一條記錄中包含一個缺失值，可以按照單一缺失值的方式來處理，選擇貢獻度最大的缺失屬性值作為醫(yī)療大數(shù)據(jù)的填補值。提取搭建完成的關(guān)聯(lián)規(guī)則集，求出每一個缺失屬性值di的貢獻度，計算公式為

(5)

式(5)中參量Match(xi，Rjk)表示的是關(guān)聯(lián)規(guī)則的匹配度。最后選擇最大貢獻度的di作為填補值[11]。

3 決策樹算法處理醫(yī)療數(shù)據(jù)

決策樹算法是典型的分類算法，在醫(yī)療大數(shù)據(jù)填補完成的基礎(chǔ)上，構(gòu)建決策樹，并根據(jù)決策樹思想采用自頂向下遞歸的方式處理醫(yī)療數(shù)據(jù)訓(xùn)練集。決策樹算法的基本實現(xiàn)流程如圖2所示。

圖2 決策樹算法基本實現(xiàn)步驟圖

按照圖2中的算法實現(xiàn)流程，以醫(yī)療數(shù)據(jù)填補處理結(jié)果為基礎(chǔ)，由數(shù)據(jù)訓(xùn)練集及相關(guān)類標(biāo)號生成可讀規(guī)則和決策樹。數(shù)據(jù)訓(xùn)練集在決策樹的算法下，遞歸成多個較小的子集。由于醫(yī)療數(shù)據(jù)類型復(fù)雜且數(shù)據(jù)量較多，因此在此次數(shù)據(jù)分類的過程中建立多個決策樹同步實現(xiàn)算法分類，在保證分類結(jié)果的同時提高算法的分類速度[12]。一般來講構(gòu)建決策樹可以分為五個步驟，首先將醫(yī)療大數(shù)據(jù)的處理結(jié)果作為采集數(shù)據(jù)，并平均分為i個組別，形成數(shù)據(jù)集，用于建立決策樹分類器。以數(shù)據(jù)記錄作為決策樹節(jié)點，分析變量的全部分割方式，確定其中的最優(yōu)分割點。若確定的樣本數(shù)據(jù)為同一類別，則該節(jié)點為決策樹中的樹葉節(jié)點，反之當(dāng)前決策樹的節(jié)點為最優(yōu)分類能力的屬性。計算屬性增益率，并將最大增益率屬性進行分裂處理。經(jīng)過屬性的分裂將單一節(jié)點分割成了兩個節(jié)點，再按照上述步驟繼續(xù)分裂和分割，當(dāng)決策樹的分裂過程滿足停止條件時，則決策樹停止分類。

3.1 遞歸創(chuàng)建單個決策樹

由于此次醫(yī)療數(shù)據(jù)的分類項目需要處理和分類的數(shù)量較為龐大，因此在分類過程中首先建立多個單一的決策樹，融合多個單一決策樹的處理結(jié)果，便得出了決策樹算法對醫(yī)療數(shù)據(jù)的處理結(jié)果。假設(shè)經(jīng)過數(shù)據(jù)填補處理后得出的醫(yī)療數(shù)據(jù)結(jié)果中包含n個樣本，且樣本中的醫(yī)療數(shù)據(jù)分別屬于x個不同的數(shù)據(jù)類別。定義屬性F為測試屬性，F(xiàn)具有v個不同的離散值，將E劃分為v個子集，Ei中包括第j類樣本的個數(shù)為Pij，則E的信息熵可以用式(6)來計算

(6)

以D為根節(jié)點的決策樹信息增益可以表示為

gain(D)=I(E)-E(D)

(7)

式(7)中參量E(D)表示的是屬性D對應(yīng)的期望信息熵，其計算公式為

(8)

將式(6)、式(7)和式(8)聯(lián)立求解，得出單個決策樹信息的增益率函數(shù)為

(9)

并測試最大信息增益率的屬性。

3.2 構(gòu)建適應(yīng)度函數(shù)

構(gòu)建適應(yīng)度函數(shù)的目的分為兩個方面，一個是可以將創(chuàng)建的單個決策樹與醫(yī)療大數(shù)據(jù)結(jié)合在一起，保證創(chuàng)建的決策樹可以適用于處理醫(yī)療數(shù)據(jù)，另一個方面就是利用適應(yīng)度函數(shù)來衡量決策樹的分類性能，保證分類結(jié)果的精度。適應(yīng)度函數(shù)的具體表達式如式(10)所示

(10)

式(10)中變量N為測試醫(yī)療數(shù)據(jù)集上的用例總數(shù)，NMi和Mi分別表示的決策樹正確分類測試用例的總數(shù)和正確分類數(shù)量與總分類數(shù)量的比值。

3.3 ID3/C4.5算法合并多個決策樹

在適應(yīng)度函數(shù)的控制約束下，分別利用ID3和C4.5的交叉變異運算合并多個決策樹。ID3算法通過一系列測試將數(shù)據(jù)訓(xùn)練集迭代劃分為多個子集，并盡量使每個子集中為同一類別的對象。而C4.5算法在ID3的基礎(chǔ)上使連續(xù)型屬性、屬性值空缺的處理更加完善，同時也對單一決策樹進行剪枝處理，實現(xiàn)信息量的分割，總而得到醫(yī)療數(shù)據(jù)的分類結(jié)果。融合ID3算法與C4.5算法，并使用交叉變異的運算方法將創(chuàng)建的多個單一決策樹合并在一起，保證多個決策樹可以協(xié)同運行。最終合并決策樹在醫(yī)療大數(shù)據(jù)的分類處理中的應(yīng)用運行原理如圖3所示。

圖3 決策樹工作原理圖

運用決策樹算法及其工作原理，遵循醫(yī)療大數(shù)據(jù)的分類方法與關(guān)聯(lián)規(guī)范，實現(xiàn)數(shù)據(jù)的合理分類。

4 仿真研究

為了驗證基于決策樹算法的醫(yī)療大數(shù)據(jù)填補及分類方法的性能，并比較決策樹算法在醫(yī)療大數(shù)據(jù)處理方面的應(yīng)用效果，將算法應(yīng)用到一個醫(yī)療實例中，構(gòu)造一個基于大數(shù)據(jù)的醫(yī)療決策模型，并對其進行分析。

4.1 配置仿真環(huán)境

在開始實驗之前首先搭建并配置仿真環(huán)境，為了給設(shè)計的填補與分類方法提供充足的醫(yī)療數(shù)據(jù)，選擇醫(yī)療大數(shù)據(jù)平臺作為仿真環(huán)境，將基于決策樹算法的醫(yī)療大數(shù)據(jù)填補及分類方法對應(yīng)的程序代碼輸入到仿真環(huán)境的主控計算機中，并與醫(yī)療大數(shù)據(jù)平臺形成后臺鏈路，保證大數(shù)據(jù)平臺采集到的數(shù)據(jù)可以實時傳輸?shù)结t(yī)療決策模型當(dāng)中。此外，為了驗證決策樹算法在處理醫(yī)療大數(shù)據(jù)的有效性，設(shè)置神經(jīng)網(wǎng)絡(luò)算法作為仿真的對比方法，以相對獨立的方式在相同的實驗環(huán)境下運行，以保證實驗結(jié)果的真實性。

4.2 準(zhǔn)備醫(yī)療案例實驗數(shù)據(jù)

選擇醫(yī)療大數(shù)據(jù)平臺中的腦卒中相關(guān)案例作為仿真數(shù)據(jù)。從數(shù)據(jù)平臺中提取相關(guān)診治完整數(shù)據(jù)共計5000條記錄。其中案例初始數(shù)據(jù)包括性別，現(xiàn)病史，既往史，入院查體，輔助檢查，入院診斷，治療用藥等屬性。每一個案例對應(yīng)的數(shù)據(jù)量約為49MB，其中部分案例存在數(shù)據(jù)缺失的狀況。

4.3 實驗指標(biāo)

1)醫(yī)療大數(shù)據(jù)的填補效果

在醫(yī)療大數(shù)據(jù)的處理過程中，為了保證處理效果的完整性和連續(xù)性，必須對全部數(shù)據(jù)進行缺失填補，實驗選擇對基于神經(jīng)網(wǎng)絡(luò)算法和基于決策樹算法的醫(yī)療大數(shù)據(jù)填補效果進行對比分析。以填補后的容量大小與案例原始容量大小做對比，分析其填補效果差異。

2)醫(yī)療大數(shù)據(jù)的分類效果

醫(yī)療大數(shù)據(jù)的填補是為了更有效的進行分類，分類方法的精準(zhǔn)度也是醫(yī)療大數(shù)據(jù)處理的一個重要的指標(biāo)，分析分類精準(zhǔn)度以判斷分類方法的合理性，其計算公式為

(11)

式(11)中VA表示經(jīng)過分類處理的類別頻數(shù)。V0表示未經(jīng)處理的類別數(shù)量。

4.4 實驗結(jié)果分析

4.4.1 醫(yī)療大數(shù)據(jù)填補效果對比

通過對案例數(shù)據(jù)進行填補處理，不同方法下其填補率對比如表1所示。

表1 填補效果對比/MB

初始測試樣本的初始數(shù)據(jù)量為190MB。經(jīng)過基于神經(jīng)網(wǎng)絡(luò)算法和決策樹的醫(yī)療大數(shù)據(jù)填補及分類方法的填補，樣本數(shù)據(jù)量填補至217MB、221MB和244MB，即填補量分別為14%、16%和28%，本文方法將缺失數(shù)據(jù)全部補充完整，比另兩種方法提高了50%左右。

4.4.2 醫(yī)療大數(shù)據(jù)分類精度對比

將原始數(shù)據(jù)使用三種方法進行重新分類，得出分類精度，三種分類精度對比情況如圖4。傳統(tǒng)數(shù)據(jù)處理方法的平均分類精度為83.92%、80.52%，而設(shè)計方法的平均分類精度為95.32%，相比之下提高了11.40%、14.80%，本文方法的分類精度最高。

圖4 三種分類精度對比圖

5 結(jié)束語

通過本文的設(shè)計方法，可以從醫(yī)院現(xiàn)有的病人數(shù)據(jù)中挖掘出有用的信息輔助醫(yī)生為病人診斷。綜合來看，提出的決策樹算法在處理醫(yī)療大數(shù)據(jù)中具有較好的填補效果，可根據(jù)不同的數(shù)據(jù)選擇不同設(shè)置來提高填補正確率，在數(shù)據(jù)的分類方面也具有較高的應(yīng)用性能。