亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹算法的醫(yī)療大數(shù)據(jù)填補及分類仿真

        2021-11-18 04:09:18岳根霞劉金花
        計算機仿真 2021年1期
        關(guān)鍵詞:數(shù)據(jù)挖掘規(guī)則分類

        岳根霞,劉金花,劉 峰

        (山西醫(yī)科大學(xué)汾陽學(xué)院,山西 汾陽 032200)

        1 引言

        醫(yī)學(xué)界面臨著海量、非結(jié)構(gòu)化數(shù)據(jù)處理的嚴峻挑戰(zhàn),如何處理醫(yī)療海量數(shù)據(jù)成為研究熱點。醫(yī)療大數(shù)據(jù)中涵蓋了各類疾病的發(fā)病原因、發(fā)病歷程、患病癥狀、治療方案、實際案例等大量數(shù)據(jù)。由于醫(yī)療行業(yè)正在逐漸發(fā)展,醫(yī)療技術(shù)也在不斷提高,因此治療方案以及治療結(jié)果產(chǎn)生的數(shù)據(jù)都不盡相同,而醫(yī)療大數(shù)據(jù)是按照時間順序存儲的,未經(jīng)過整合處理的醫(yī)療大數(shù)據(jù)需要消耗大量的時間調(diào)取,為此提出醫(yī)療大數(shù)據(jù)的分類方法。醫(yī)療大數(shù)據(jù)分類方法的運行建立在數(shù)據(jù)完整的基礎(chǔ)上,當(dāng)醫(yī)療大數(shù)據(jù)不完整時極易出現(xiàn)數(shù)據(jù)分類偏差的情況,導(dǎo)致數(shù)據(jù)的分類結(jié)果混亂,失去了醫(yī)療大數(shù)據(jù)分類的意義。數(shù)據(jù)挖掘與處理的首要問題是數(shù)據(jù)缺失,數(shù)據(jù)集的完整是數(shù)據(jù)挖掘的成功與否的關(guān)鍵,通過填補缺失數(shù)據(jù),得到一個完整的數(shù)據(jù)集。

        在數(shù)據(jù)填補完成的基礎(chǔ)上,利用數(shù)據(jù)分類方法處理大量混亂而復(fù)雜的醫(yī)療數(shù)據(jù),可以提升數(shù)據(jù)的邏輯性,方便數(shù)據(jù)的查找。在數(shù)據(jù)分類計數(shù)發(fā)展歷程中,使用范圍較廣的幾個計數(shù)包括神經(jīng)網(wǎng)絡(luò)下的分類方法[1]和遺傳算法下的分類方法[2]。在醫(yī)療大數(shù)據(jù)的分類過程中分別使用不同的技術(shù)可以針對不同的分類需求得到更加符合數(shù)據(jù)特點的分類結(jié)果,然而經(jīng)過長時間的應(yīng)用研究發(fā)現(xiàn),現(xiàn)階段使用的分類方法均存在迭代時間長的問題。為了解決上述問題,提出在決策樹算法下的醫(yī)療大數(shù)據(jù)分類處理方法。這種算法通過構(gòu)建決策樹,利用已知各種情況的發(fā)生概率來求取凈現(xiàn)值在有效范圍內(nèi)的期望值的概率,最后判斷分類的可行性。決策樹算法具有更高的分類精確度,因此將該技術(shù)應(yīng)用到醫(yī)療數(shù)據(jù)的分類中,使其更好地服務(wù)于醫(yī)療大數(shù)據(jù)的處理,從患者數(shù)據(jù)中挖掘出有用的信息輔助醫(yī)生為病人診斷。

        2 初始醫(yī)療數(shù)據(jù)處理與大數(shù)據(jù)填補

        醫(yī)療大數(shù)據(jù)填補與分類方法的設(shè)計目的是為了給醫(yī)療人員和醫(yī)療行業(yè)提供完整且準(zhǔn)確的醫(yī)療數(shù)據(jù),通過數(shù)據(jù)的分類可以實現(xiàn)指定數(shù)據(jù)的快速查找[3]。醫(yī)療大數(shù)據(jù)的填補與分類方法的實現(xiàn),需要建立在大量的醫(yī)療數(shù)據(jù)的基礎(chǔ)上,因此首先在醫(yī)療管理系統(tǒng)中挖掘需要的醫(yī)療數(shù)據(jù),數(shù)據(jù)挖掘的具體流程如圖1所示。

        圖1 數(shù)據(jù)挖掘流程圖

        圖1的數(shù)據(jù)挖掘流程表明,數(shù)據(jù)挖掘的基本步驟是通過以下幾個迭代組成的,其中包括數(shù)據(jù)的清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變化、挖掘?qū)崿F(xiàn)、模式評估以及知識表示。其中數(shù)據(jù)清洗的目的是過濾掉海量數(shù)據(jù)中的無效值和差異值,通過數(shù)據(jù)集成將不同來源、不同格式的數(shù)據(jù)整合,數(shù)據(jù)選擇主要是按照數(shù)據(jù)的處理要求,選擇數(shù)據(jù)挖掘范圍與數(shù)據(jù)類型,知識表示是利用可視化技術(shù)將數(shù)據(jù)挖掘的結(jié)果顯示到屏幕上[4]。另外數(shù)據(jù)挖掘的實現(xiàn)是在特定的挖掘算法和挖掘規(guī)則下進行的,在此次醫(yī)療大數(shù)據(jù)填補及分類方法設(shè)計中,為了保證分類結(jié)果的應(yīng)用價值建立適用于醫(yī)療大數(shù)據(jù)的挖掘關(guān)聯(lián)規(guī)則,選擇適配度更強的數(shù)據(jù)挖掘方式。

        2.1 建立關(guān)聯(lián)規(guī)則

        從海量的不完備醫(yī)療數(shù)據(jù)中檢索滿足最低支持度的項目數(shù)據(jù)集,定義初始海量醫(yī)療數(shù)據(jù)集為Dmis,定義任意一個項目數(shù)據(jù)集為Ijk[5]。項目數(shù)據(jù)集Ijk下搜索到的滿足最低置信度要求的規(guī)則集表示為

        Rj={Rj1,Rj2,…,Rjk,}

        (1)

        并記錄相應(yīng)的置信度C(Rj)。利用置信度建立關(guān)聯(lián)規(guī)則,可以通過式(2)表示

        (2)

        式(2)中A(Rj)和B(Rj)分別表示的是A和B兩個數(shù)據(jù)包對應(yīng)關(guān)聯(lián)規(guī)則所包含的項目,變量Support_count(A(Rj))為海量數(shù)據(jù)項集中包含A的項數(shù)。那么假設(shè)T為醫(yī)療大數(shù)據(jù)的初始海量數(shù)據(jù)集,則可以得到關(guān)聯(lián)規(guī)則的具體表達式為

        (3)

        式(3)中σai表示醫(yī)療大數(shù)據(jù)集的標(biāo)準(zhǔn)差,γmin為最小置信度[6]。上述三個變量的計算方法如式(4)所示

        (4)

        式(4)中ai表示大數(shù)據(jù)基本屬性,aik為第k個數(shù)據(jù)屬性值[7]。當(dāng)ai在類xi中存在不同于其它類的行為,且具有統(tǒng)一行為時,將式(4)的變量求解結(jié)果代入到式(3)當(dāng)中,便可以得出數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則。

        2.2 選擇數(shù)據(jù)挖掘方式

        在關(guān)聯(lián)規(guī)則的約束下,選擇符合醫(yī)療大數(shù)據(jù)的數(shù)據(jù)挖掘方式?,F(xiàn)階段數(shù)據(jù)挖掘算法包括Apriori和FP-Growth兩種,通過兩種關(guān)聯(lián)規(guī)則算法來挖掘數(shù)據(jù)中藥品和疾病、疾病和癥狀的相關(guān)對,進而得出醫(yī)療數(shù)據(jù)的挖掘結(jié)果。

        2.2.1 Apriori算法挖掘數(shù)據(jù)

        Apriori數(shù)據(jù)挖掘算法的應(yīng)用原理是基于廣度優(yōu)先搜索的方式,也就是逐層掃描醫(yī)療大數(shù)據(jù),通過層層迭代統(tǒng)計出各個候選項集的支持度與最小支持度,再根據(jù)建立的關(guān)聯(lián)規(guī)則,找出符合要求的醫(yī)療挖掘數(shù)據(jù)[8]。一般來講Apriori算法的實現(xiàn)分為兩個階段,首先生成待挖掘數(shù)據(jù)的頻繁項集,并通過不斷的循環(huán)迭代確定候選項集的統(tǒng)計數(shù)量,進而得出醫(yī)療數(shù)據(jù)挖掘的頻繁項集[9]。接著在關(guān)聯(lián)規(guī)則的約束下分別計算兩個關(guān)聯(lián)規(guī)則之間的支持度和置信度,并根據(jù)計算結(jié)果調(diào)整頻繁項集。

        2.2.2 FP-Growth算法挖掘數(shù)據(jù)

        使用FP-Growth算法進行數(shù)據(jù)挖掘。

        過程為:首先遍歷海量醫(yī)療數(shù)據(jù)庫,統(tǒng)計其中所有數(shù)據(jù)的頻數(shù),選擇符合最小支持度計數(shù)的數(shù)據(jù)項,接著按照遞減的順序排列符合要求的數(shù)據(jù)項,得到頻繁項列表,即為FList。以空節(jié)點為根節(jié)點創(chuàng)建FP-tree,按照得出的FList的順序?qū)?shù)據(jù)插入到每一個節(jié)點上[10]。需要注意的是在數(shù)據(jù)對應(yīng)的過程中,要保證FList中的數(shù)據(jù)項在FP-tree中有且僅有一次出現(xiàn)在節(jié)點上。設(shè)置數(shù)據(jù)挖掘的初始值為空,調(diào)用FP-Growth算法中搭建完成的FP-tree,便可以獲得對應(yīng)數(shù)據(jù)全部挖掘結(jié)果。

        2.2.3 對比兩種算法挖掘結(jié)果

        Apriori算法和FP-Growth算法都可以在醫(yī)療大數(shù)據(jù)庫中挖掘到滿足要求的數(shù)據(jù)。然而Apriori算法需要多次掃描數(shù)據(jù)庫,因此會花費大量的挖掘時間,導(dǎo)致算法的整體性能降低。而FP-Growth算法在挖掘大規(guī)模數(shù)據(jù)集時會出現(xiàn)無法構(gòu)造FP-tree的情況,導(dǎo)致數(shù)據(jù)挖掘失敗。為了解決兩個傳統(tǒng)算法存在的問題,以FP-Growth算法的運行原理為基礎(chǔ),采用Apriori算法來代替FP-tree的構(gòu)建與迭代,實現(xiàn)數(shù)據(jù)挖掘算法的改進優(yōu)化,同時也獲取到整體性更強的醫(yī)療初始數(shù)據(jù)。

        2.3 醫(yī)療大數(shù)據(jù)填補

        對于一條記錄中包含一個缺失值,可以按照單一缺失值的方式來處理,選擇貢獻度最大的缺失屬性值作為醫(yī)療大數(shù)據(jù)的填補值。提取搭建完成的關(guān)聯(lián)規(guī)則集,求出每一個缺失屬性值di的貢獻度,計算公式為

        (5)

        式(5)中參量Match(xi,Rjk)表示的是關(guān)聯(lián)規(guī)則的匹配度。最后選擇最大貢獻度的di作為填補值[11]。

        3 決策樹算法處理醫(yī)療數(shù)據(jù)

        決策樹算法是典型的分類算法,在醫(yī)療大數(shù)據(jù)填補完成的基礎(chǔ)上,構(gòu)建決策樹,并根據(jù)決策樹思想采用自頂向下遞歸的方式處理醫(yī)療數(shù)據(jù)訓(xùn)練集。決策樹算法的基本實現(xiàn)流程如圖2所示。

        圖2 決策樹算法基本實現(xiàn)步驟圖

        按照圖2中的算法實現(xiàn)流程,以醫(yī)療數(shù)據(jù)填補處理結(jié)果為基礎(chǔ),由數(shù)據(jù)訓(xùn)練集及相關(guān)類標(biāo)號生成可讀規(guī)則和決策樹。數(shù)據(jù)訓(xùn)練集在決策樹的算法下,遞歸成多個較小的子集。由于醫(yī)療數(shù)據(jù)類型復(fù)雜且數(shù)據(jù)量較多,因此在此次數(shù)據(jù)分類的過程中建立多個決策樹同步實現(xiàn)算法分類,在保證分類結(jié)果的同時提高算法的分類速度[12]。一般來講構(gòu)建決策樹可以分為五個步驟,首先將醫(yī)療大數(shù)據(jù)的處理結(jié)果作為采集數(shù)據(jù),并平均分為i個組別,形成數(shù)據(jù)集,用于建立決策樹分類器。以數(shù)據(jù)記錄作為決策樹節(jié)點,分析變量的全部分割方式,確定其中的最優(yōu)分割點。若確定的樣本數(shù)據(jù)為同一類別,則該節(jié)點為決策樹中的樹葉節(jié)點,反之當(dāng)前決策樹的節(jié)點為最優(yōu)分類能力的屬性。計算屬性增益率,并將最大增益率屬性進行分裂處理。經(jīng)過屬性的分裂將單一節(jié)點分割成了兩個節(jié)點,再按照上述步驟繼續(xù)分裂和分割,當(dāng)決策樹的分裂過程滿足停止條件時,則決策樹停止分類。

        3.1 遞歸創(chuàng)建單個決策樹

        由于此次醫(yī)療數(shù)據(jù)的分類項目需要處理和分類的數(shù)量較為龐大,因此在分類過程中首先建立多個單一的決策樹,融合多個單一決策樹的處理結(jié)果,便得出了決策樹算法對醫(yī)療數(shù)據(jù)的處理結(jié)果。假設(shè)經(jīng)過數(shù)據(jù)填補處理后得出的醫(yī)療數(shù)據(jù)結(jié)果中包含n個樣本,且樣本中的醫(yī)療數(shù)據(jù)分別屬于x個不同的數(shù)據(jù)類別。定義屬性F為測試屬性,F(xiàn)具有v個不同的離散值,將E劃分為v個子集,Ei中包括第j類樣本的個數(shù)為Pij,則E的信息熵可以用式(6)來計算

        (6)

        以D為根節(jié)點的決策樹信息增益可以表示為

        gain(D)=I(E)-E(D)

        (7)

        式(7)中參量E(D)表示的是屬性D對應(yīng)的期望信息熵,其計算公式為

        (8)

        將式(6)、式(7)和式(8)聯(lián)立求解,得出單個決策樹信息的增益率函數(shù)為

        (9)

        并測試最大信息增益率的屬性。

        3.2 構(gòu)建適應(yīng)度函數(shù)

        構(gòu)建適應(yīng)度函數(shù)的目的分為兩個方面,一個是可以將創(chuàng)建的單個決策樹與醫(yī)療大數(shù)據(jù)結(jié)合在一起,保證創(chuàng)建的決策樹可以適用于處理醫(yī)療數(shù)據(jù),另一個方面就是利用適應(yīng)度函數(shù)來衡量決策樹的分類性能,保證分類結(jié)果的精度。適應(yīng)度函數(shù)的具體表達式如式(10)所示

        (10)

        式(10)中變量N為測試醫(yī)療數(shù)據(jù)集上的用例總數(shù),NMi和Mi分別表示的決策樹正確分類測試用例的總數(shù)和正確分類數(shù)量與總分類數(shù)量的比值。

        3.3 ID3/C4.5算法合并多個決策樹

        在適應(yīng)度函數(shù)的控制約束下,分別利用ID3和C4.5的交叉變異運算合并多個決策樹。ID3算法通過一系列測試將數(shù)據(jù)訓(xùn)練集迭代劃分為多個子集,并盡量使每個子集中為同一類別的對象。而C4.5算法在ID3的基礎(chǔ)上使連續(xù)型屬性、屬性值空缺的處理更加完善,同時也對單一決策樹進行剪枝處理,實現(xiàn)信息量的分割,總而得到醫(yī)療數(shù)據(jù)的分類結(jié)果。融合ID3算法與C4.5算法,并使用交叉變異的運算方法將創(chuàng)建的多個單一決策樹合并在一起,保證多個決策樹可以協(xié)同運行。最終合并決策樹在醫(yī)療大數(shù)據(jù)的分類處理中的應(yīng)用運行原理如圖3所示。

        圖3 決策樹工作原理圖

        運用決策樹算法及其工作原理,遵循醫(yī)療大數(shù)據(jù)的分類方法與關(guān)聯(lián)規(guī)范,實現(xiàn)數(shù)據(jù)的合理分類。

        4 仿真研究

        為了驗證基于決策樹算法的醫(yī)療大數(shù)據(jù)填補及分類方法的性能,并比較決策樹算法在醫(yī)療大數(shù)據(jù)處理方面的應(yīng)用效果,將算法應(yīng)用到一個醫(yī)療實例中,構(gòu)造一個基于大數(shù)據(jù)的醫(yī)療決策模型,并對其進行分析。

        4.1 配置仿真環(huán)境

        在開始實驗之前首先搭建并配置仿真環(huán)境,為了給設(shè)計的填補與分類方法提供充足的醫(yī)療數(shù)據(jù),選擇醫(yī)療大數(shù)據(jù)平臺作為仿真環(huán)境,將基于決策樹算法的醫(yī)療大數(shù)據(jù)填補及分類方法對應(yīng)的程序代碼輸入到仿真環(huán)境的主控計算機中,并與醫(yī)療大數(shù)據(jù)平臺形成后臺鏈路,保證大數(shù)據(jù)平臺采集到的數(shù)據(jù)可以實時傳輸?shù)结t(yī)療決策模型當(dāng)中。此外,為了驗證決策樹算法在處理醫(yī)療大數(shù)據(jù)的有效性,設(shè)置神經(jīng)網(wǎng)絡(luò)算法作為仿真的對比方法,以相對獨立的方式在相同的實驗環(huán)境下運行,以保證實驗結(jié)果的真實性。

        4.2 準(zhǔn)備醫(yī)療案例實驗數(shù)據(jù)

        選擇醫(yī)療大數(shù)據(jù)平臺中的腦卒中相關(guān)案例作為仿真數(shù)據(jù)。從數(shù)據(jù)平臺中提取相關(guān)診治完整數(shù)據(jù)共計5000條記錄。其中案例初始數(shù)據(jù)包括性別,現(xiàn)病史,既往史,入院查體,輔助檢查,入院診斷,治療用藥等屬性。每一個案例對應(yīng)的數(shù)據(jù)量約為49MB,其中部分案例存在數(shù)據(jù)缺失的狀況。

        4.3 實驗指標(biāo)

        1)醫(yī)療大數(shù)據(jù)的填補效果

        在醫(yī)療大數(shù)據(jù)的處理過程中,為了保證處理效果的完整性和連續(xù)性,必須對全部數(shù)據(jù)進行缺失填補,實驗選擇對基于神經(jīng)網(wǎng)絡(luò)算法和基于決策樹算法的醫(yī)療大數(shù)據(jù)填補效果進行對比分析。以填補后的容量大小與案例原始容量大小做對比,分析其填補效果差異。

        2)醫(yī)療大數(shù)據(jù)的分類效果

        醫(yī)療大數(shù)據(jù)的填補是為了更有效的進行分類,分類方法的精準(zhǔn)度也是醫(yī)療大數(shù)據(jù)處理的一個重要的指標(biāo),分析分類精準(zhǔn)度以判斷分類方法的合理性,其計算公式為

        (11)

        式(11)中VA表示經(jīng)過分類處理的類別頻數(shù)。V0表示未經(jīng)處理的類別數(shù)量。

        4.4 實驗結(jié)果分析

        4.4.1 醫(yī)療大數(shù)據(jù)填補效果對比

        通過對案例數(shù)據(jù)進行填補處理,不同方法下其填補率對比如表1所示。

        表1 填補效果對比/MB

        初始測試樣本的初始數(shù)據(jù)量為190MB。經(jīng)過基于神經(jīng)網(wǎng)絡(luò)算法和決策樹的醫(yī)療大數(shù)據(jù)填補及分類方法的填補,樣本數(shù)據(jù)量填補至217MB、221MB和244MB,即填補量分別為14%、16%和28%,本文方法將缺失數(shù)據(jù)全部補充完整,比另兩種方法提高了50%左右。

        4.4.2 醫(yī)療大數(shù)據(jù)分類精度對比

        將原始數(shù)據(jù)使用三種方法進行重新分類,得出分類精度,三種分類精度對比情況如圖4。傳統(tǒng)數(shù)據(jù)處理方法的平均分類精度為83.92%、80.52%,而設(shè)計方法的平均分類精度為95.32%,相比之下提高了11.40%、14.80%,本文方法的分類精度最高。

        圖4 三種分類精度對比圖

        5 結(jié)束語

        通過本文的設(shè)計方法,可以從醫(yī)院現(xiàn)有的病人數(shù)據(jù)中挖掘出有用的信息輔助醫(yī)生為病人診斷。綜合來看,提出的決策樹算法在處理醫(yī)療大數(shù)據(jù)中具有較好的填補效果,可根據(jù)不同的數(shù)據(jù)選擇不同設(shè)置來提高填補正確率,在數(shù)據(jù)的分類方面也具有較高的應(yīng)用性能。

        猜你喜歡
        數(shù)據(jù)挖掘規(guī)則分類
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        教你一招:數(shù)的分類
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        TPP反腐敗規(guī)則對我國的啟示
        亚洲国产91高清在线| 99精品电影一区二区免费看| 欧美人妻少妇精品久久黑人| 欧美大屁股xxxx| 国产欧美日韩综合在线一区二区| 亚洲午夜久久久精品国产| 91桃色在线播放国产| 国产激情在线观看免费视频| 少妇做爰免费视频了| 伴郎粗大的内捧猛烈进出视频观看 | 一区二区三区四区四色av| 亚洲中文av中文字幕艳妇| 国产freesexvideos中国麻豆 | 国产无卡视频在线观看| 欧美日韩精品乱国产| 性色做爰片在线观看ww| 亚洲男人精品| 在线视频日韩精品三区| 五月开心六月开心婷婷网| 欧美颜射内射中出口爆在线| 少妇aaa级久久久无码精品片| 精品人无码一区二区三区 | av毛片亚洲高清一区二区| 伊人中文字幕亚洲精品乱码| 丰满少妇高潮惨叫久久久一| 国产精品一区二区久久精品| 日本精品人妻在线观看| 国产一区二区三区精品乱码不卡| 国产99视频精品免视看7| 久久精品国内一区二区三区| 伊人久久一区二区三区无码| 日韩精品综合在线视频| 美女视频一区二区三区在线| 国内精品卡一卡二卡三| 无码成人片一区二区三区| 女人天堂av免费在线| 人人妻人人做人人爽| 人人妻人人玩人人澡人人爽| 亚洲国产日韩精品综合| 日韩女优精品一区二区三区| 成年女人粗暴毛片免费观看|