亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Spark和隨機森林的乳腺癌風(fēng)險預(yù)測分析

        2019-08-22 09:26:28苗立志刁繼堯崔進東
        計算機技術(shù)與發(fā)展 2019年8期
        關(guān)鍵詞:乳腺癌分析模型

        苗立志,刁繼堯,婁 沖,崔進東

        (1.南京郵電大學(xué) 地理與生物信息學(xué)院,江蘇 南京 210023;2.南京郵電大學(xué) 江蘇省智慧健康大數(shù)據(jù)分析與位置服務(wù)工程實驗室,江蘇 南京 210023;3.南京郵電大學(xué) 泛在網(wǎng)絡(luò)健康服務(wù)系統(tǒng)教育部工程研究中心,江蘇 南京 210003;4.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)

        0 引 言

        近年來,隨著以深度學(xué)習(xí)為代表的大數(shù)據(jù)分析技術(shù)的不斷發(fā)展和成熟,出現(xiàn)了大數(shù)據(jù)分析技術(shù)與醫(yī)療健康領(lǐng)域開始深度結(jié)合的跡象??萍季揞^搶占市場、各路資本大量涌入,癌癥成為了熱點方向。眾多智能健康項目興起,如IBM的沃森人工智能系統(tǒng)研究提高護理水平[1]、谷歌風(fēng)投資金的1/3進入醫(yī)療健康與生命科學(xué)領(lǐng)域[2-3]、微軟的最新醫(yī)療健康項目Hanover[3]等。

        隨著社會和經(jīng)濟的發(fā)展,由于不健康的生活方式和飲食習(xí)慣,以及電離輻射等因素,在中國,癌癥的健康負擔(dān)逐年增長,每年超過160萬人診斷為癌癥,12萬因癌癥而死亡。與其他大多數(shù)國家一樣,乳腺癌也成為了中國女性最常見的癌癥;每年中國乳腺癌新發(fā)數(shù)量和死亡數(shù)量分別占全世界的 12.2%和9.6%。針對這一嚴重的社會現(xiàn)實,迫切需要開展有關(guān)乳腺癌發(fā)病風(fēng)險的研究,包括發(fā)病原因分析和基于歷史數(shù)據(jù)進行乳腺癌風(fēng)險的預(yù)測。

        現(xiàn)如今大數(shù)據(jù)分析技術(shù)日趨成熟,應(yīng)用逐漸廣泛。大數(shù)據(jù)分析是在強大的支撐平臺上運行分析算法發(fā)現(xiàn)隱藏在大數(shù)據(jù)中潛在價值的過程[4]。從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成了數(shù)據(jù)分析的原始數(shù)據(jù),而大數(shù)據(jù)分析的核心問題是如何對這些數(shù)據(jù)進行有效的表達、解釋和學(xué)習(xí)[5]。

        大數(shù)據(jù)分析相關(guān)內(nèi)容包括可視化分析、數(shù)據(jù)挖掘、預(yù)測分析、語義分析及數(shù)據(jù)質(zhì)量管理。文中主要采用大數(shù)據(jù)分析中的預(yù)測分析,目前常見的預(yù)測方法主要有兩類:分析預(yù)測法[6]和技術(shù)預(yù)測法[7]。國內(nèi)已有使用分析預(yù)測法開展的相關(guān)研究,并取得了較好的效果。如徐兵河等[8]利用分析預(yù)測法,對石蠟包埋組織的基因表達譜,分析預(yù)測局部晚期乳腺癌的化療反應(yīng),對ER相關(guān)基因、細胞增殖及免疫相關(guān)基因的表達水平定量分析可預(yù)測接受新輔助化療的女性乳腺癌患者獲得pCR的可能性。李秀央等[9]利用分析預(yù)測法探討流行性乙型腦炎發(fā)生率與預(yù)測因子的關(guān)系,最終得到預(yù)測值與實際發(fā)生率很接近,僅相差0.026 4/10萬,準(zhǔn)確率為97.94%。張愛霞等[10]利用回歸分析預(yù)測法對傷亡事故進行了預(yù)測,證明了回歸分析預(yù)測法是一種有效的事故發(fā)生趨勢預(yù)測法。技術(shù)預(yù)測法是一種通過相關(guān)技術(shù)進行預(yù)測的方法。如林毅超[11]利用基于人工神經(jīng)網(wǎng)絡(luò)的技術(shù)預(yù)測法對股價做出預(yù)測,選用股市實時指標(biāo)作為人工神經(jīng)網(wǎng)絡(luò)的輸入變量,經(jīng)過循環(huán)13次訓(xùn)練96組數(shù)據(jù)和預(yù)測1個股價,結(jié)果顯示平均預(yù)測誤差率為3.4%,絕對偏差在USD0.27-1.94之間。王興旺等[12]提出了一種基于多種類型信息計量分析的前沿技術(shù)預(yù)測方法,通過設(shè)定不同權(quán)值的計算方式,獲得更為精準(zhǔn)的預(yù)測結(jié)果,并以車聯(lián)網(wǎng)技術(shù)為例進行了實證。

        文中采用技術(shù)預(yù)測法范疇的隨機森林算法,構(gòu)建通過基于Spark技術(shù)的大數(shù)據(jù)預(yù)測機制;選取乳房部位細胞屬性,創(chuàng)建相應(yīng)的數(shù)據(jù)集,并提取相應(yīng)的特征向量來建立分類模型。將數(shù)據(jù)集分為兩部分:70%作為訓(xùn)練數(shù)據(jù)訓(xùn)練模型,30%作為測試數(shù)據(jù)測試模型;其中采用管道學(xué)習(xí)方法來訓(xùn)練數(shù)據(jù)。

        1 Spark模型與隨機森林算法

        1.1 Spark模型

        Spark[13]是加州大學(xué)伯克利分校的AMP實驗室所開發(fā)的集群模式的計算平臺,其框架的構(gòu)建以內(nèi)存計算為基礎(chǔ)。Hadoop中的計算平臺是MapReduce[14],缺點是運行緩慢,運行程序時需要復(fù)制額外的信息序列化和磁盤I/O,帶來的時間和空間開銷代價比較大;但適合對離線的任務(wù)進行分解。Spark模型基于內(nèi)存計算,而且每一個Job的執(zhí)行是基于構(gòu)建的stage有向無環(huán)圖。Spark模型運行速度快,且適合進行大規(guī)模信息處理。文中利用彈性分布式數(shù)據(jù)集(resilient distributed dataset,RDD)[15]對數(shù)據(jù)進行相應(yīng)的操作,選取Spark Standalone[16]集群模式開發(fā),具有較高的容錯性和較快的開發(fā)速度。

        1.2 隨機森林算法

        為了避免單棵決策樹容易出現(xiàn)過擬合的現(xiàn)象,并提高預(yù)測精度,文中采取了隨機森林算法:利用機器學(xué)習(xí)的集成學(xué)習(xí)思想,通過構(gòu)造多個弱分類器最終合成為一個強分類器,在有效減少過擬合現(xiàn)象的同時,提高預(yù)測精度。

        隨機森林是用多棵決策樹對樣本進行訓(xùn)練并預(yù)測的一種分類器。每個決策樹模型h(X,βk)都有一票投票權(quán)來選擇最終的分類結(jié)果。分類決策公式如下:

        其中,H(X)表示隨機森林分類結(jié)果;hi(x)表示單個分類結(jié)果;Y表示分類目標(biāo);I(·)表示示性函數(shù)。

        該式為隨機森林的分類問題,即取各個決策樹結(jié)果的多數(shù)為最終結(jié)果。而對于隨機森林的回歸問題,則可以選取各個決策樹結(jié)果的期望作為最終結(jié)果。

        2 預(yù)測模型構(gòu)建

        2.1 建模流程

        為實現(xiàn)多個乳腺癌影響因子中,對權(quán)重較大的因子,首先需要構(gòu)建預(yù)測模型。具體方法如下:設(shè)置K個弱分類器,使用Gini系數(shù)[17]計算類別純度,將相似的樣本放在同一個弱分類器中,采用K-means聚類算法[18]進行訓(xùn)練,并使用均值組合方式。在模型訓(xùn)練完成后,使用另外一組構(gòu)建好特征的樣本,經(jīng)過模型訓(xùn)練,最后評估模型。

        整個建模過程分為兩步:訓(xùn)練和測試,如圖1所示。在訓(xùn)練階段,主要是根據(jù)計算好特征的樣本,劃分好K個弱分類樣本后,再進行隨機森林訓(xùn)練。訓(xùn)練完成后,測試數(shù)據(jù)應(yīng)用訓(xùn)練好的預(yù)測模型可得到預(yù)測值,將預(yù)測值與實際值做運算可得到模型的精度值,進而評估模型的性能。

        圖1 建模流程

        2.2 模型構(gòu)建

        針對乳腺癌發(fā)病的多個影響因素展開研究,數(shù)據(jù)采用威斯康星臨床科學(xué)中心的相關(guān)原始數(shù)據(jù)(http://dataju.cn/Dataju/web/datasetInstanceDetail/21)。該數(shù)據(jù)包含了細胞核特征的10個屬性,主要包括:Radius、Texture、Perimeter等,如表1所示。其中用fractal dimension屬性值來表示乳腺癌的陰性、陽性。

        表1 細胞核特征變量

        (1)影響因子特征向量構(gòu)建。

        數(shù)據(jù)集中每條樣本采用兩個類別進行標(biāo)記:-1(陰性)和1(陽性),每個樣本的特征包含如下字段:

        在數(shù)據(jù)的屬性中fractal dimension[19](分形維數(shù))表示是否患病(-1或1)。

        特征:{“radius”,“texture”,“perimeter”,“area”,“smoothness”,“compactness”,“concavity”,“concave points”,“symmetry”,“fractal dimension”},并基于VectorAssembler方法對每個維度的特征做變換,使用StringIndexer方法返回Dataframe,并增加標(biāo)簽列l(wèi)abel。其中數(shù)值1表示陽性,數(shù)值0表示陰性,如表2所示。

        (2)訓(xùn)練隨機森林分類器。

        按照樹訓(xùn)練一個隨機森林分類器,主要有以下參數(shù):

        表2 數(shù)據(jù)文件

        maxDepth:每棵樹的最大深度。增加樹的深度可以調(diào)高模型的效果,但會延長訓(xùn)練時間。

        maxBins:連續(xù)特征離散化時選用的最大分桶個數(shù),并且決定每個節(jié)點如何分裂。

        Impurity:計算信息增益的指標(biāo)。

        auto:在每個節(jié)點參與分裂時是否自動選擇參與特征的個數(shù)。

        Seed:隨機數(shù)生成種子。

        文中參數(shù)設(shè)置為:maxDepth:3;maxBins:20;auto:“auto”;Seed:5 043。

        3 實驗分析

        3.1 乳腺癌影響因子相關(guān)度分析

        實驗數(shù)據(jù)集共有683條數(shù)據(jù),其fractal dimension屬性值表示乳腺癌的陰/陽性。為了分析影響因素與致病性之間的相關(guān)度,選取皮爾遜相關(guān)系數(shù)[20]和Spearman等級相關(guān)系數(shù)[21]來分別表征,并將各個屬性的相關(guān)程度進行排序,如表3所示。

        表3 屬性相關(guān)度排序

        通過計算各個屬性與致病性的相關(guān)度,從表3可以看出,Perimeter、Texture、Concave points影響因子對于乳腺癌的影響程度較大。細胞核周長、紋理組織和凹點對于乳腺癌的致病性具有較好的特征表述,將對乳腺癌的檢測與發(fā)病機制相關(guān)研究具有較好的借鑒意義。

        3.2 訓(xùn)練預(yù)測

        文中采用管道學(xué)習(xí)訓(xùn)練模型,管道在參數(shù)網(wǎng)格上不斷爬行,自動完成模型優(yōu)化。用管道訓(xùn)練得到的最優(yōu)模型進行預(yù)測,預(yù)測結(jié)果有683條數(shù)據(jù),其中rawPrediction是特征和系數(shù)的組合值,probability是每個類別計算出來的概率,prediction是最終的類分配,如表4所示。將label標(biāo)簽值與prediction標(biāo)簽值進行比較得到模型的預(yù)測精度值是99.01%,其中包含準(zhǔn)確預(yù)測條數(shù)677條。

        3.3 結(jié)果分析

        根據(jù)預(yù)測結(jié)果可以計算預(yù)測模型的相關(guān)指標(biāo)值,其中MSE實驗值為2.5%,表明預(yù)測數(shù)據(jù)與實際值之間的誤差較小;MAE實驗值為2.5%,表明平均絕對誤差較??;RMSE實驗值為15.9%,表明預(yù)測值與原始數(shù)據(jù)值的誤差為0.159,誤差值較?。籖-Squared值為89.3%,與1較接近,表明預(yù)測數(shù)據(jù)與原始數(shù)據(jù)擬合度較高。

        表4 實驗預(yù)測結(jié)果

        4 結(jié)束語

        采用基于Spark和隨機森林算法的機器學(xué)習(xí)訓(xùn)練方法,研究了管道學(xué)習(xí)訓(xùn)練預(yù)測方法,并將其用于乳腺癌的預(yù)測場景,實現(xiàn)分析管道訓(xùn)練模型預(yù)測精度值為99.01%,表明對于乳腺癌的預(yù)測有著較高的準(zhǔn)確率。同時,通過相關(guān)度分析獲得了與乳腺癌相關(guān)度較高的三個影響因子Perimeter、Texture、Concave points,可以用來作為乳腺癌預(yù)防和防復(fù)發(fā)的重要指標(biāo)。通過分析乳房細胞核的特征變量的方法,可以在很大程度上降低醫(yī)患雙方的醫(yī)療成本,提高醫(yī)院的工作效率,具有較高的準(zhǔn)確率。

        猜你喜歡
        乳腺癌分析模型
        一半模型
        絕經(jīng)了,是否就離乳腺癌越來越遠呢?
        中老年保健(2022年6期)2022-08-19 01:41:48
        隱蔽失效適航要求符合性驗證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        乳腺癌是吃出來的嗎
        胸大更容易得乳腺癌嗎
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        別逗了,乳腺癌可不分男女老少!
        祝您健康(2018年5期)2018-05-16 17:10:16
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        免费无码又爽又刺激网站直播 | 亚洲人妻中文字幕在线视频| 国产一区二区三区18p| 国语自产精品视频在线看| 欧美精品中文字幕亚洲专区| 亚洲AV秘 无码一区二区三区1| 国产91熟女高潮一曲区| 亚洲最近中文字幕在线| 一本色道无码道在线观看| 国产精品搭讪系列在线观看| 亚洲一区二区三区品视频| 亚洲精品视频中文字幕| 末成年女a∨片一区二区| 久久精品波多野结衣中文字幕| 一区二区av日韩免费| 国产自产二区三区精品| 久久精品无码av| 免费av在线国模| 国产免费一区二区三区三| 色综合久久网| 九月婷婷人人澡人人添人人爽| 亚洲AV秘 无码一区二区三| 男女打扑克视频在线看| 无码gogo大胆啪啪艺术| 漂亮人妻被黑人久久精品| 男女在线免费视频网站| 精品国产a一区二区三区v| 狠狠色噜噜狠狠狠狠7777米奇| 久久久久久久妓女精品免费影院| 久久亚洲av熟女国产| 国产97色在线 | 国产| 玩弄人妻少妇500系列网址| 激情综合网缴情五月天| 中文字幕有码人妻在线| 桃花影院理论片在线| 国产成人一区二区三区免费观看| 女同舌吻互慰一区二区| 精品国产麻豆免费人成网站| 国产天堂在线观看| 日本一本二本三本道久久久| 琪琪色原网站在线观看 |