亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Apriori算法的個人醫(yī)療費用關(guān)聯(lián)規(guī)則分析

        2019-03-24 08:25:50
        中華醫(yī)學圖書情報雜志 2019年11期
        關(guān)鍵詞:挖掘出置信度數(shù)據(jù)挖掘

        醫(yī)療保健相關(guān)問題是當今世界最重要的社會問題之一,醫(yī)療費用的激增更是加劇了這一問題。因此,在眾多與醫(yī)療費用相關(guān)的因素中,如何甄選出最核心的影響因素[1],有效控制醫(yī)療費用持續(xù)上漲,提高醫(yī)療資源的利用效率,進而提高全民健康水平就變得尤為重要。由于醫(yī)療領(lǐng)域所涉及的相關(guān)因素眾多、數(shù)據(jù)類型復(fù)雜,傳統(tǒng)的統(tǒng)計分析、調(diào)查研究方法耗時巨大[2],以及人工處理大量數(shù)據(jù)時出錯等原因,應(yīng)用新技術(shù)手段解決這一問題十分必要。數(shù)據(jù)挖掘技術(shù)能從大量雜亂數(shù)據(jù)中高效、準確地挖掘出隱含信息[3]。關(guān)聯(lián)規(guī)則中Apriori算法能夠在大量數(shù)據(jù)中挖掘出與高醫(yī)療費用有強關(guān)聯(lián)的因素,同時將結(jié)果可視化,提高數(shù)據(jù)的可讀性,便于直觀理解醫(yī)療費用與各因素之間的關(guān)系及關(guān)聯(lián)強度。

        國內(nèi),李江平采用不同模式的數(shù)據(jù)挖掘方法,對基層醫(yī)藥衛(wèi)生工作展開研究,通過對保健數(shù)據(jù)的研究驗證,給提高農(nóng)村衛(wèi)生水平提供了有價值的意見[4];余嵐通過為學生定制個人體育鍛煉計劃提高學生身體素質(zhì)的研究,應(yīng)用數(shù)據(jù)挖掘的方法,對干預(yù)措施的有效性進行驗證從而得出了關(guān)聯(lián)緊密的因素[5];王帥通過研究居民健康管理決策和患者臨床合理用藥的依據(jù),對基層醫(yī)療衛(wèi)生機構(gòu)門診用藥規(guī)律進行了研究,利用關(guān)聯(lián)算法對高頻用藥和高頻合并用藥進行的研究,促使了基層醫(yī)療合理用藥[6]。孫健對影響我國健康保健費用支出進行的研究,運用數(shù)據(jù)挖掘法發(fā)現(xiàn)了相關(guān)強關(guān)聯(lián)因素[7]。

        國外,Gosain、Kumar采用不同數(shù)據(jù)挖掘模式挖掘醫(yī)療保健數(shù)據(jù),研究了決策樹和關(guān)聯(lián)規(guī)則如何在大量衛(wèi)生健康數(shù)據(jù)中的應(yīng)用;Sivagowry、Durairaj、Persia 對數(shù)據(jù)挖掘技術(shù)在心臟病分析和預(yù)測中的應(yīng)用進行了實證研究,通過應(yīng)用數(shù)據(jù)挖掘技術(shù),從醫(yī)療保健系統(tǒng)中獲得隱藏的信息[8];Nagavelli、Guru Rao通過對疾病可能性程度的研究和在醫(yī)療保健數(shù)據(jù)挖掘中疾病預(yù)測統(tǒng)計測量方法的研究,發(fā)現(xiàn)能夠通過對已有病例記錄的分析能預(yù)測可能發(fā)生的疾病。

        本文擬在前人的研究基礎(chǔ)上,將關(guān)聯(lián)規(guī)則應(yīng)用于醫(yī)療費用研究領(lǐng)域中,利用Apriori算法在大量數(shù)據(jù)中挖掘出與高醫(yī)療費用有強關(guān)聯(lián)的因素,并分析不同屬性之間的潛在關(guān)聯(lián)性,為醫(yī)藥衛(wèi)生領(lǐng)域相關(guān)政策的制定和相關(guān)科研人員的未來研究提供參考。

        1 關(guān)聯(lián)分析概述

        關(guān)聯(lián)分析可以發(fā)現(xiàn)大量數(shù)據(jù)集合中某些事務(wù)(屬性)的關(guān)聯(lián)關(guān)系[9],通常用支持度和置信度2個指標為依據(jù)判斷一條關(guān)聯(lián)規(guī)則的左項與右項之間是否存在強關(guān)聯(lián)。如果一個事務(wù)集合的左右項既能滿足最低支持度又能滿足最低置信度要求,則可將其稱之為“左右項存在強關(guān)聯(lián)關(guān)系”,它同時具有頻繁項集和關(guān)聯(lián)規(guī)則[10]。頻繁項集是指滿足最小支持度的、頻繁出現(xiàn)的事務(wù)集合,一般以支持度作為衡量指標。在得到頻繁項集的基礎(chǔ)上,再設(shè)置一定置信度為篩選條件進而挖掘出關(guān)聯(lián)規(guī)則;關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間的關(guān)聯(lián)或相互關(guān)系,可以根據(jù)一個事務(wù)項的出現(xiàn)推導(dǎo)出其他事務(wù)項的出現(xiàn)[11]。

        2 數(shù)據(jù)與方法

        2.1 數(shù)據(jù)來源與預(yù)處理

        本文數(shù)據(jù)來源于DataFountain平臺(https://www.datafountain.cn/)提供的2016年美國醫(yī)療費用數(shù)據(jù)集,該數(shù)據(jù)集共有1 338行。數(shù)據(jù)集合名稱為“醫(yī)療費用個人數(shù)據(jù)集”,數(shù)據(jù)類型包括字符串、數(shù)值型數(shù)據(jù),有7個字段,沒有缺失值。7個字段分別是age(年齡)、 sex(性別)、BMI(身體質(zhì)量指數(shù))、children(保險覆蓋的兒童數(shù)量)、smoker(是否吸煙)、region(居住地)、charges(保險承擔的醫(yī)療費用)[12]。

        以影響高額醫(yī)療費用的因素為探究內(nèi)容,首先用Excel電子表格打開源數(shù)據(jù),進行初步整理分析,清洗變換,完成數(shù)據(jù)預(yù)處理。部分原始數(shù)據(jù)如表1所示。數(shù)據(jù)完整,無缺失值、異常值,未發(fā)現(xiàn)重復(fù)數(shù)據(jù)。

        表1 2016年美國醫(yī)療費用原始數(shù)據(jù)

        2.2 離散化處理

        Apriori算法可以用于數(shù)據(jù)類型為0/1的布爾類型[13],也可以用于分類數(shù)據(jù)類型。由于數(shù)據(jù)集中部分屬性的取值是連續(xù)型變量數(shù)據(jù)(如年齡、醫(yī)療費用),無法直接運用算法進行挖掘,因此對這類數(shù)據(jù)要進行分層和離散化處理[14]。此外,為了便于后期數(shù)據(jù)處理及關(guān)聯(lián)挖掘,我們使用代碼代替分層離散后的數(shù)據(jù)。

        Age(年齡):將年齡分為5層,用A1代表18~29歲人群,用A2代表30~39歲人群,用A3代表40~49歲人群,用A4代表50~59歲人群,用A5代表60~64歲人群。

        比較兩組冠心病心絞痛患者對護理服務(wù)滿意度;住院的時間、患者舒適度(0-100分,得分越高則舒適度越高);護理前后患者焦慮情緒評分(20-80分,得分越高則焦慮程度越高)、心功能等級。

        Sex(性別):用B1代表男性,B2代表女性。

        BMI(身體質(zhì)量指數(shù)):用C1代替低體重人群,用C2代替正常體重人群,用C3代替過重人群,用C4代替一類肥胖人群,用C5代替二類肥胖人群,用C6代替三類肥胖人群。

        Children(保險覆蓋的兒童數(shù)量):用D0、D1、D2、D3、D4、D5分別替代保險覆蓋的兒童數(shù)量為0、1、2、3、4、5的人群。

        Smoker(是否吸煙):用E1、E2分別替代不吸煙人群和吸煙人群。

        Region(居住地):用F1、F2、F3、F4分別替代東北區(qū)居民、西北區(qū)居民、東南區(qū)居民、西南區(qū)居民。

        Charges(保險承擔的醫(yī)療費用):2016年美國人均醫(yī)療費用為9535.9美元,假定以該人均醫(yī)療費用為界定標準,用G1、G2分別代替較低醫(yī)療費用和高額醫(yī)療費用。

        2016年美國醫(yī)療費用離散化處理后的部分數(shù)據(jù)如表2所示。

        表2 2016年美國醫(yī)療費用離散化后數(shù)據(jù)

        3 關(guān)聯(lián)分析及可視化

        3.1 關(guān)聯(lián)分析

        經(jīng)過運算挖掘出45條符合當前設(shè)置支持度和置信度的關(guān)聯(lián)規(guī)則,調(diào)用函數(shù)可以展示出所有挖掘出的關(guān)聯(lián)規(guī)則,結(jié)果如表3所示。

        表3 根據(jù)當前閾值所產(chǎn)生的關(guān)聯(lián)規(guī)則

        續(xù)表3

        其中,“LHS(left-hand side)”表示左側(cè)屬性項目集,“RHS(right-hand side)”表示右側(cè)屬性項目集,“support”為支持度,“confidence”為置信度,“l(fā)ift”為提升度。用“count”統(tǒng)計該事務(wù)集合在數(shù)據(jù)集中出現(xiàn)的總頻次[17]。部分規(guī)則具有較高置信度和提升度,如規(guī)則3:{smoker=E2}=>{charges=G2};部分規(guī)則具有較高支持度,如規(guī)則10:{charges=G1}=>{smoker=E1},所挖掘出的規(guī)則的提升度均大于1。

        3.2 結(jié)果可視化

        由于挖掘出的關(guān)聯(lián)規(guī)則較多,難以直接讀出核心信息[18],因此調(diào)用R軟件中的可視化繪圖函數(shù),將挖掘結(jié)果繪制成散點圖、氣泡圖和基于圖形的可視化結(jié)果,便于快速準確讀取信息。

        根據(jù)45條規(guī)則繪制的散點圖如圖1所示,圖中的橫軸表示支持度,縱軸表示置信度,彩色條帶用顏色表示提升度的大小。

        圖1 基于45條規(guī)則的散點圖繪制效果

        通過觀察圖1可以獲得挖掘出的全部規(guī)則在總體上的分布特征,提升度較高的規(guī)則往往置信度也更加趨近于1,但這些規(guī)則在支持度的分布上并無明顯特征。同樣,提升度較低的規(guī)則在支持度的分布上也未發(fā)現(xiàn)明顯趨勢。此外,部分規(guī)則偏離總體分布趨勢,可能為不合理規(guī)則。在分析挖掘結(jié)果時應(yīng)關(guān)注到這些異常點,排除潛在的對結(jié)論的不良影響。但從散點圖中無法獲得具體關(guān)聯(lián)規(guī)則中左右側(cè)分別是哪些屬性,以及它們之間關(guān)聯(lián)程度的信息。

        氣泡圖如圖2所示,其中每個有顏色的氣泡表示一個規(guī)則,顏色深淺表示提升度,氣泡大小表示支持度,支持度越大,氣泡尺寸越大[19]。LHS表示左側(cè)屬性項目集,RHS表示右側(cè)屬性項目集。

        在圖2所示的氣泡圖中,可以獲取各組規(guī)則中左右側(cè)項之間關(guān)聯(lián)強弱比較,其中規(guī)則{sex =B1,age=A1}=>{smoker=E1}支持度最高,而規(guī)則{smoker=E2,sex=B1}=>{charges=G2}提升度最高。右項中,支持度smoker=E1>charges=G1>charges=G2,提升度charges=G2>charges=G1>smoker=E1。各組關(guān)聯(lián)規(guī)則的提升度從左上方到右下方呈現(xiàn)遞減趨勢,各組關(guān)聯(lián)規(guī)則的支持度從左上方到右下方呈現(xiàn)遞增趨勢。此外,左側(cè)屬性項目集(LHS)和右側(cè)屬性項目集(RHS)中所示條件可以讓我們快速了解數(shù)據(jù)中有代表的屬性,如吸煙、年齡等因素均是頻繁出現(xiàn)的項目集,其重要性更為顯著。因此在對挖掘結(jié)果進行分析時應(yīng)首先關(guān)注這些因素,但氣泡圖未能反映各條規(guī)則的相互關(guān)系以及屬性的共享情況。

        圖 2 基于45條規(guī)則的氣泡圖繪制效果

        45條關(guān)聯(lián)規(guī)則的圖形可視化結(jié)果如圖3所示。在圖3中,圓形代表各項集,箭頭代表規(guī)則間關(guān)系,圓形大小表示支持度,圓形越大支持度越高,顏色深淺表示提升度,顏色越深提升度越大。

        圖3 45條關(guān)聯(lián)規(guī)則的圖形可視化結(jié)果

        圖形可視化既能顯示各強關(guān)聯(lián)規(guī)則由哪些屬性組成,又能顯示這些規(guī)則共享了哪些屬性。通過這些共享的屬性可以找出相似規(guī)則,從而得出更為穩(wěn)健的結(jié)論,便于我們從另一個角度理解挖掘出的關(guān)聯(lián)規(guī)則,以不同視角展現(xiàn)數(shù)據(jù)特征。

        4 討論

        對挖掘出的45條規(guī)則進行分析,選取具有代表性的幾條規(guī)則為例,示范分析過程。

        規(guī)則1:{age=A4}=>{charges=G2}支持度為0.1868460,置信度為0.9225092,提升度為1.873016,在整個事務(wù)集中出現(xiàn)頻次為250次。該規(guī)則的含義為:1 338人中約有18.68%的人同時具有50~59歲和高額醫(yī)療費用的特征;在年齡為50~59歲的前提下,約有92.25%概率會出現(xiàn)高額醫(yī)療費用的特征;年齡為50~59歲這一特征出現(xiàn)后,高額醫(yī)療費用的出現(xiàn)概率較原來提升了1.873016倍。這條規(guī)則的支持度、置信度、提升度3個指標值均為較高水平,因此認為這是一條強關(guān)聯(lián)規(guī)則,年齡50~59歲與高額醫(yī)療費用之間有較強潛在關(guān)聯(lián)。

        規(guī)則23:{sex=B2,region=F2}=>{smoker=E1}支持度為0.1008969,置信度為0.8231707,提升度為1.035153,在整個事務(wù)集中出現(xiàn)頻次為135次。該規(guī)則含義是:1 338人中約有10.09%的人同時具有女性、居住在西北區(qū)以及不吸煙的特征;在居住在西北區(qū)的女性中,約有82.31%的概率不吸煙,但該規(guī)則的提升度十分趨近與1,說明居住在西北區(qū)的女性的不吸煙屬性不顯著。因此這一規(guī)則并不是強關(guān)聯(lián)規(guī)則,西北區(qū)的女性與不吸煙無明顯關(guān)聯(lián)。

        采取上述方法,對全部45條關(guān)聯(lián)規(guī)則進行分析,得到強關(guān)聯(lián)規(guī)則30條,非強關(guān)聯(lián)規(guī)則15條,綜合30條強關(guān)聯(lián)規(guī)則得出研究結(jié)論。結(jié)論顯示,高齡、吸煙與高額醫(yī)療費用有較為顯著關(guān)聯(lián)的屬性(規(guī)則1、3、10、15),低齡人群中低醫(yī)療費用者往往不吸煙(規(guī)則11、12、32、33、39),且在高齡人群中女性比男性更容易具備高額醫(yī)療費用這個屬性(規(guī)則1、13),男性中的吸煙者有較高概率出現(xiàn)高額醫(yī)療費用(規(guī)則16)。

        5 結(jié)語

        本文運用R軟件中的關(guān)聯(lián)算法研究1 338條個人醫(yī)療費用數(shù)據(jù)集中與高額醫(yī)療費用有強關(guān)聯(lián)的屬性。通過設(shè)置支持度和置信度篩選強關(guān)聯(lián)規(guī)則,挖掘出的關(guān)聯(lián)規(guī)則基本合理,可以作為醫(yī)療費用數(shù)據(jù)研究的新方法,對該領(lǐng)域今后的研究發(fā)展具有參考和借鑒意義。本文仍然存在某些缺點和不足,如受數(shù)據(jù)來源中原有變量種類和數(shù)據(jù)數(shù)量的限制,只是在有限的數(shù)據(jù)特征中發(fā)現(xiàn)與醫(yī)療費用的關(guān)聯(lián)規(guī)則,而這些數(shù)據(jù)特征可能不是醫(yī)療費用的重要影響因素或與之具有因果關(guān)系;數(shù)據(jù)所反映的情況可能與真實情況間存在一定偏差;在數(shù)據(jù)預(yù)處理階段的數(shù)據(jù)離散化步驟中,一些屬性數(shù)據(jù)的分層離散處理可能不盡合理。此外,怎樣合理設(shè)定用于挖掘的支持度和置信度也是值得探討的問題,閾值設(shè)定的高低會導(dǎo)致挖掘結(jié)果的質(zhì)量。

        猜你喜歡
        挖掘出置信度數(shù)據(jù)挖掘
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        從唱片里面挖掘出更多的細節(jié) Thorens多能士| TD 905黑膠唱盤
        正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        三次實地采訪,挖掘出暖新聞背后的超暖細節(jié)
        傳媒評論(2018年5期)2018-07-09 06:05:20
        感悟生活,拓展思維空間
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        干日本少妇一区二区三区| av无码天堂一区二区三区| 特黄三级一区二区三区| 亚洲熟女熟妇另类中文| 欧美伦费免费全部午夜最新| 国产精品嫩草影院av| 女高中生自慰污免费网站| 丰满人妻一区二区三区免费| 97cp在线视频免费观看| 亚洲精品午夜无码专区| 亚洲区小说区图片区qvod伊| 久久久精品人妻一区二| 国产精品久久久亚洲第一牛牛| 久久这黄色精品免费久| 插上翅膀插上科学的翅膀飞| 男人激烈吮乳吃奶视频免费| 乱伦一区二| 91精品啪在线观看国产色| 精品无码av无码专区| 97伦伦午夜电影理伦片| 国产亚洲欧洲AⅤ综合一区| 最新国产精品国产三级国产av | 二区久久国产乱子伦免费精品| 东京热日本道免费高清| 大地资源网在线观看免费官网 | 欧美俄罗斯40老熟妇| 日韩在线看片| 久久这黄色精品免费久| 色噜噜亚洲男人的天堂 | 久久伊人影院| 精品女同av一区二区三区| 丰满人妻一区二区三区视频| 久久婷婷成人综合色| 国产精品麻豆A啊在线观看| 91九色极品探花内射| 国产午夜福利精品一区二区三区| 岛国av无码免费无禁网站下载| 精品人妻一区二区蜜臀av| 国产精品黑丝美女啪啪啪| 久久综合精品国产二区无码| 真实国产网爆门事件在线观看|