亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于WEKA平臺的乳腺癌分類及早期預(yù)測

        2019-09-10 07:22:44賴碟
        信息技術(shù)時代·上旬刊 2019年2期
        關(guān)鍵詞:數(shù)據(jù)挖掘乳腺癌預(yù)測

        賴碟

        摘要:由于電子的醫(yī)療數(shù)據(jù)爆發(fā)式地增長和現(xiàn)今的機器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)的演進,深度學(xué)習(xí)方法在醫(yī)療行業(yè)的分量也越來越重。人們利用數(shù)據(jù)對患者的病情進行預(yù)測、檢測不良藥物、檢測不良反應(yīng)等等,通過挖掘的數(shù)據(jù)源、方法和案例研究,來進行知識發(fā)現(xiàn),并將挖掘出的知識呈現(xiàn)給醫(yī)學(xué)專家,從而進行更加快速準確的判斷。醫(yī)學(xué)數(shù)據(jù)挖掘是提高醫(yī)療信息管理水平,為疾病的診斷和治療提供科學(xué),準確的決策,促進醫(yī)療事業(yè)的發(fā)展。本文使用了一些數(shù)據(jù)集,基于WEKA數(shù)據(jù)挖掘平臺,簡單分析了乳腺癌數(shù)據(jù)的分類并比較了不同挖掘算法的分類準確性。目的是基于WEKA數(shù)據(jù)挖掘平臺尋找最適合乳腺癌診斷和醫(yī)學(xué)數(shù)據(jù)早期預(yù)測的算法,為后期醫(yī)療行業(yè)的大數(shù)據(jù)分析和挖掘提供新思路。

        關(guān)鍵詞:數(shù)據(jù)挖掘;WEKA平臺;乳腺癌;預(yù)測;分類器比較

        研究背景

        隨著電子信息技術(shù)的發(fā)展,以及“互聯(lián)網(wǎng)+”的廣泛應(yīng)用,電子病歷和醫(yī)療記錄、醫(yī)療設(shè)備和儀器也實現(xiàn)了數(shù)字化,大多醫(yī)院在自己的數(shù)據(jù)庫系統(tǒng)中積累了大量的有關(guān)患者病例,診斷,檢查和治療的臨床信息。通過大量文獻調(diào)查,發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)可以應(yīng)用于預(yù)測與心臟,癌癥和腎臟相關(guān)的一些主要身體疾病。數(shù)據(jù)挖掘技術(shù)是指利用一種或多種計算機學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動分析并提供信息的過程。目的是尋找和發(fā)現(xiàn)數(shù)據(jù)中潛在的有價值的信息、知識、規(guī)律、聯(lián)系和模式。數(shù)據(jù)挖掘與計算機科學(xué)有關(guān),通常使用機器學(xué)習(xí)、統(tǒng)計學(xué)、聯(lián)機分析處理、專家系統(tǒng)和模式識別等多種方式來實現(xiàn)。醫(yī)學(xué)數(shù)據(jù)挖掘是提高醫(yī)學(xué)信息管理水平,為疾病的診斷和治療提供科學(xué)準確的決策,促進醫(yī)療發(fā)展的需要。

        近年乳腺癌的發(fā)病率在不斷升高,中國更是乳腺癌發(fā)病率增長最快的國家之一,但總體死亡率有不斷下降的趨勢,這離不開乳腺癌的早期診斷、預(yù)防工作以及乳腺癌綜合治療的進步。在乳腺癌危險因素研究的基礎(chǔ)上,很多國家和醫(yī)學(xué)組織都在構(gòu)建風(fēng)險評估模型,旨在確定高危人群范圍,以便采取更為積極的篩查或預(yù)防措施。乳腺癌的風(fēng)險評估模型是建立在不同國家和學(xué)術(shù)組織的研究基礎(chǔ)上的,所以適用的人群不同,側(cè)重基因檢測及流行病學(xué)資料也各有不同。

        因此,掌握醫(yī)學(xué)數(shù)據(jù)挖掘的能力越成為開展基礎(chǔ)醫(yī)學(xué)和臨床醫(yī)學(xué)等醫(yī)學(xué)課題的先決條件。本文在WEKA數(shù)據(jù)挖掘平臺的基礎(chǔ)上,對乳腺癌數(shù)據(jù)進行挖掘分析,并比較不同挖掘算法的分類準確性。旨在基于WEKA數(shù)據(jù)挖掘平臺尋找最適合醫(yī)學(xué)數(shù)據(jù)乳腺癌診斷和早期預(yù)測的算法,為后期醫(yī)療行業(yè)的大數(shù)據(jù)分析及挖掘提供新思路。

        1 確定KDD目標

        使用以下流程,通過構(gòu)建幾種不同乳腺癌分類模型,對病人的病情分別進行評估預(yù)測,判斷是否患有乳腺癌,并分析模型的好壞。

        2 數(shù)據(jù)準備

        2.1獲取數(shù)據(jù)

        通過http://archive.ics.uci.edu/獲取數(shù)據(jù)集

        2.2數(shù)據(jù)信息

        本實驗是針對威斯康辛州(原始)的乳腺癌數(shù)據(jù)集進行分類,該數(shù)據(jù)集共有699個數(shù)據(jù)實例,其中類分布:良性458個,惡性241個。

        該數(shù)據(jù)集的數(shù)據(jù)屬性如下:

        attribute? domain

        Sample code number(樣本代碼)?????? id number

        Clump Thickness(叢厚度) 1-10

        Uniformity of Cell Size(均勻的細胞大小) 1-10

        Uniformity of Cell Shape(均勻的細胞形狀)????? 1-10

        Single Epithelial Cell Size(單個上皮細胞大?。?1-10

        Bare Nuclei(裸核)????? 1-10

        Normal Nucleoli(正常核仁)??? ?? 1-10

        Mitoses(有絲分裂)?? 1-10

        Class(類型)???????? 良性2個,惡性4個

        2.3數(shù)據(jù)預(yù)處理

        數(shù)據(jù)集中有16條缺失數(shù)據(jù),這里我們直接將16條數(shù)據(jù)刪除,由于總共有699個實例,占比十分小,所以刪除的實例對結(jié)果不會有太大的影響。

        對于有指導(dǎo)學(xué)習(xí),刪除缺失后的數(shù)據(jù)總共683條數(shù)據(jù),我們這里將前400個實例作為訓(xùn)練數(shù)據(jù)集,后283個實例作為測試數(shù)據(jù)集。

        3 確定KDD模型及評估指標

        3.1分類器

        使用WEKA數(shù)據(jù)挖掘工具實現(xiàn)了各種算法,用于實驗分析,選取的算法介紹如下。

        J48:用于對數(shù)據(jù)進行分類的簡單決策樹算法。J48是以分類為目的的監(jiān)督學(xué)習(xí)方法。它是基于分而治之的方法。它將整個數(shù)據(jù)分成一個子范圍,是基于樣本訓(xùn)練數(shù)據(jù)集中已經(jīng)可用的值的當(dāng)前屬性值

        基本思想是選擇具有最大增益率的屬性作為分支節(jié)點來分類實例數(shù)據(jù)。信息增益表示當(dāng)x取屬性x_i值時,其對降低x的熵的貢獻大小。信息增益越大,越適宜對x進行分類。計算屬性A的增益率公式如下:

        根據(jù)信息熵的公式,可以很容易得出 。 為當(dāng)前數(shù)據(jù)集所有實例所表達的信息量, 為根據(jù)屬性A的k個可能取值分類I中實例之后所表達的信息量。計算 和 的公式如下所示:

        其中,n為實例集合I被分為可能的類的個數(shù),k為屬性A具有k個輸出結(jié)果。

        最后, 是對A屬性的增益值的標準化,目的是消除屬性選擇上的偏差,即在所有實例的屬性A的取值只有一個時,該屬性總被優(yōu)先選取的情況。計算 的公式如下:

        隨機樹:是指隨機過程建立的樹或者樹狀圖,是一種隨機決策樹。

        隨機森林(RF):RF是一種通常適用于隨機樹的集成方法。在數(shù)據(jù)集的基礎(chǔ)上形成許多分類樹,根據(jù)分類樹每個輸入向量,最終分類一個新對象。介紹RF之前,我們需要了解一下Bagging思想。

        Bagging是bootstrap aggregating。就是從總體樣本當(dāng)中隨機取一部分樣本進行訓(xùn)練,通過多次這樣的結(jié)果,進行投票獲取平均值作為結(jié)果輸出,這就極大可能的避免了不好的樣本數(shù)據(jù),從而提高準確度。因為有些是不好的樣本,相當(dāng)于噪聲,模型學(xué)入噪聲后會使準確度不高。RandomForest(隨機森林)是一種基于樹模型的Bagging的優(yōu)化版本,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機森林,解決決策樹泛化能力弱的特點。同一批數(shù)據(jù),用同樣的算法只能產(chǎn)生一棵樹,這時Bagging策略可以幫助我們產(chǎn)生不同的數(shù)據(jù)集,從樣本集(假設(shè)樣本集N個數(shù)據(jù)點)中重采樣選出N個樣本(有放回的采樣,樣本數(shù)據(jù)點個數(shù)仍然不變?yōu)镹),在所有樣本上,對這n個樣本建立分類器,重復(fù)以上兩步m次,獲得m個分類器,最后根據(jù)這m個分類器的投票結(jié)果,決定數(shù)據(jù)屬于哪一類。

        總的來說就是隨機選擇樣本數(shù),隨機選取特征,隨機選擇分類器,建立多顆這樣的決策樹,然后通過這幾課決策樹來投票,決定數(shù)據(jù)屬于哪一類。

        K-Means:隨機選擇一個K值,用來確定簇的總數(shù),在數(shù)據(jù)集中任意選擇K個實例,將他們作為初始的簇中心,計算在K個簇中心與其他剩余實例的簡單歐式距離,用這個距離作為實例之間相似性的度量,將與某個簇相似度高實例劃分到該簇中,成為其成員之一。使用每個簇中的實例來計算該簇新的簇中心。如果計算得到新的簇中心等于上次迭代的簇中心,終止算法過程。否則用新的簇中心作為簇中心并重復(fù)步驟。

        神經(jīng)網(wǎng)絡(luò): 本文使用weka中的BP神經(jīng)網(wǎng)絡(luò)模型。反向傳播學(xué)習(xí)(Backpropagation Learning)是前饋神經(jīng)網(wǎng)絡(luò)的有指導(dǎo)學(xué)習(xí)方法,和所有的有指導(dǎo)學(xué)習(xí)過程一樣,它包括訓(xùn)練和檢驗兩個階段。在訓(xùn)練階段中,訓(xùn)練實例重復(fù)通過網(wǎng)絡(luò),對于每個訓(xùn)練實例,計算網(wǎng)絡(luò)輸出值,根據(jù)輸出值修改各個權(quán)值。這個權(quán)值的修改方向是從輸出層開始,反向移動到隱層。改變連接權(quán)值的目的是最小化訓(xùn)練集錯誤率。訓(xùn)練過程是個迭代過程,網(wǎng)絡(luò)訓(xùn)練直到滿足一個特定的終止條件為止,終止條件可以是網(wǎng)絡(luò)收斂到最小的錯誤值,可以是一個訓(xùn)練時間標準,也可以是最大迭代次數(shù)。

        貝葉斯分類器:貝葉斯分類器時一種簡單,但功能強大的有指導(dǎo)分類技術(shù)。模型假定所有輸入屬性的重要性相等,且彼此是獨立的。盡管這些假定很可能是假的,但貝葉斯分類器實際上仍然可以工作的很好。分類器是基于貝葉斯定理的,其定義如下:

        其中:H為要檢驗的假設(shè);E為與假設(shè)相關(guān)的數(shù)據(jù)樣本

        從分類的角度考察,假設(shè)H就是因變量,代表著預(yù)測類;數(shù)據(jù)樣本E是輸入實例屬性值的集合:P(H|E)是給定數(shù)據(jù)樣本E時,假設(shè)H為真的條件概率;P(H)為先驗概率,表示在任何數(shù)據(jù)樣本E出現(xiàn)之前假設(shè)的概率。條件概率和先驗概率可以通過訓(xùn)練數(shù)據(jù)計算出來。

        3.2性能指標

        這里我們使用分類正確度和混淆矩陣確定模型的正確度:

        分類準確度=正確預(yù)測的實例/測試總實例數(shù)

        通過混淆矩陣進行正確度分析:

        其中,i為矩陣行數(shù),j為矩陣列數(shù)。

        4 分類器結(jié)果的比較

        綜合以上分類器,使用weka數(shù)據(jù)挖掘平臺進行分析,得出了乳腺癌數(shù)據(jù)集的分類模型正確度如下:

        5 結(jié)論

        為了實現(xiàn)基于WEKA數(shù)據(jù)挖掘平臺的醫(yī)學(xué)數(shù)據(jù)分類及乳腺癌的早期預(yù)測,使用六種分類器進行WEKA數(shù)據(jù)挖掘工具的實驗。通過對分類器進行比較,并利用模型分類正確度來確定各模型分類精度。對比實驗結(jié)果表明,較于其他分類器,Random Forest分類器對乳腺癌數(shù)據(jù)集具有較好的分類準確性。隨機森林建立了多個決策樹,并將它們合并在一起能獲得更準確和穩(wěn)定的預(yù)測。隨機森林的一大優(yōu)勢在于它既可用于分類,也可用于回歸問題,這兩類問題恰好構(gòu)成了當(dāng)前的大多數(shù)機器學(xué)習(xí)系統(tǒng)所需要面對的。未來,通過在分類器精度性能調(diào)整方面的優(yōu)化,包括應(yīng)用裝袋(Bagging)、提升(Lift)和參數(shù)優(yōu)化等技術(shù),以及特定疾病的測試數(shù)據(jù)的加入,可以開發(fā)更準確的預(yù)測模型。

        猜你喜歡
        數(shù)據(jù)挖掘乳腺癌預(yù)測
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        絕經(jīng)了,是否就離乳腺癌越來越遠呢?
        中老年保健(2022年6期)2022-08-19 01:41:48
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        乳腺癌是吃出來的嗎
        胸大更容易得乳腺癌嗎
        別逗了,乳腺癌可不分男女老少!
        祝您健康(2018年5期)2018-05-16 17:10:16
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        不必預(yù)測未來,只需把握現(xiàn)在
        国产剧情国产精品一区| 久久无码人妻精品一区二区三区| 久久伊人精品色婷婷国产| 国产精品18久久久久网站| 久久亚洲欧美国产精品| 国产成人精品一区二区日出白浆| 欧美粗大无套gay| 亚洲人成综合第一网站| 欧美综合自拍亚洲综合百度| 国产美女露脸口爆吞精| 丝袜美腿国产一区精品| 超短裙老师在线观看一区| 亚州综合激情另类久久久| 伊人激情av一区二区三区| 日韩亚洲精品中文字幕在线观看| 97激情在线视频五月天视频| 国产小视频网址| 巨人精品福利官方导航| 国产成人自拍视频播放| 日本一区二区国产高清在线播放| 中文在线а√天堂官网| 麻豆╳╳╳乱女另类| 成人国产av精品麻豆网址 | 国产午夜精品视频在线观看| 国产福利小视频91| 国产96在线 | 亚洲| 成人精品视频一区二区三区尤物| 国产亚洲熟妇在线视频| 一本久道久久综合狠狠操| 好吊妞人成免费视频观看| 亚洲国产色一区二区三区| 国产中文字幕亚洲综合| 人妻熟女翘屁股中文字幕| 亚洲中文字幕无码一久久区| 成人免费xxxxx在线视频| 国产黑色丝袜在线观看网站91| 国语对白福利在线观看| 亚洲午夜精品久久久久久人妖| 中文精品久久久久中文| 手机免费高清在线观看av| 久久久久亚洲av成人无码|