醫(yī)療保健相關(guān)問題是當今世界最重要的社會問題之一,醫(yī)療費用的激增更是加劇了這一問題。因此,在眾多與醫(yī)療費用相關(guān)的因素中,如何甄選出最核心的影響因素[1],有效控制醫(yī)療費用持續(xù)上漲,提高醫(yī)療資源的利用效率,進而提高全民健康水平就變得尤為重要。由于醫(yī)療領(lǐng)域所涉及的相關(guān)因素眾多、數(shù)據(jù)類型復(fù)雜,傳統(tǒng)的統(tǒng)計分析、調(diào)查研究方法耗時巨大[2],以及人工處理大量數(shù)據(jù)時出錯等原因,應(yīng)用新技術(shù)手段解決這一問題十分必要。數(shù)據(jù)挖掘技術(shù)能從大量雜亂數(shù)據(jù)中高效、準確地挖掘出隱含信息[3]。關(guān)聯(lián)規(guī)則中Apriori算法能夠在大量數(shù)據(jù)中挖掘出與高醫(yī)療費用有強關(guān)聯(lián)的因素,同時將結(jié)果可視化,提高數(shù)據(jù)的可讀性,便于直觀理解醫(yī)療費用與各因素之間的關(guān)系及關(guān)聯(lián)強度。
國內(nèi),李江平采用不同模式的數(shù)據(jù)挖掘方法,對基層醫(yī)藥衛(wèi)生工作展開研究,通過對保健數(shù)據(jù)的研究驗證,給提高農(nóng)村衛(wèi)生水平提供了有價值的意見[4];余嵐通過為學生定制個人體育鍛煉計劃提高學生身體素質(zhì)的研究,應(yīng)用數(shù)據(jù)挖掘的方法,對干預(yù)措施的有效性進行驗證從而得出了關(guān)聯(lián)緊密的因素[5];王帥通過研究居民健康管理決策和患者臨床合理用藥的依據(jù),對基層醫(yī)療衛(wèi)生機構(gòu)門診用藥規(guī)律進行了研究,利用關(guān)聯(lián)算法對高頻用藥和高頻合并用藥進行的研究,促使了基層醫(yī)療合理用藥[6]。孫健對影響我國健康保健費用支出進行的研究,運用數(shù)據(jù)挖掘法發(fā)現(xiàn)了相關(guān)強關(guān)聯(lián)因素[7]。
國外,Gosain、Kumar采用不同數(shù)據(jù)挖掘模式挖掘醫(yī)療保健數(shù)據(jù),研究了決策樹和關(guān)聯(lián)規(guī)則如何在大量衛(wèi)生健康數(shù)據(jù)中的應(yīng)用;Sivagowry、Durairaj、Persia 對數(shù)據(jù)挖掘技術(shù)在心臟病分析和預(yù)測中的應(yīng)用進行了實證研究,通過應(yīng)用數(shù)據(jù)挖掘技術(shù),從醫(yī)療保健系統(tǒng)中獲得隱藏的信息[8];Nagavelli、Guru Rao通過對疾病可能性程度的研究和在醫(yī)療保健數(shù)據(jù)挖掘中疾病預(yù)測統(tǒng)計測量方法的研究,發(fā)現(xiàn)能夠通過對已有病例記錄的分析能預(yù)測可能發(fā)生的疾病。
本文擬在前人的研究基礎(chǔ)上,將關(guān)聯(lián)規(guī)則應(yīng)用于醫(yī)療費用研究領(lǐng)域中,利用Apriori算法在大量數(shù)據(jù)中挖掘出與高醫(yī)療費用有強關(guān)聯(lián)的因素,并分析不同屬性之間的潛在關(guān)聯(lián)性,為醫(yī)藥衛(wèi)生領(lǐng)域相關(guān)政策的制定和相關(guān)科研人員的未來研究提供參考。
關(guān)聯(lián)分析可以發(fā)現(xiàn)大量數(shù)據(jù)集合中某些事務(wù)(屬性)的關(guān)聯(lián)關(guān)系[9],通常用支持度和置信度2個指標為依據(jù)判斷一條關(guān)聯(lián)規(guī)則的左項與右項之間是否存在強關(guān)聯(lián)。如果一個事務(wù)集合的左右項既能滿足最低支持度又能滿足最低置信度要求,則可將其稱之為“左右項存在強關(guān)聯(lián)關(guān)系”,它同時具有頻繁項集和關(guān)聯(lián)規(guī)則[10]。頻繁項集是指滿足最小支持度的、頻繁出現(xiàn)的事務(wù)集合,一般以支持度作為衡量指標。在得到頻繁項集的基礎(chǔ)上,再設(shè)置一定置信度為篩選條件進而挖掘出關(guān)聯(lián)規(guī)則;關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間的關(guān)聯(lián)或相互關(guān)系,可以根據(jù)一個事務(wù)項的出現(xiàn)推導(dǎo)出其他事務(wù)項的出現(xiàn)[11]。
本文數(shù)據(jù)來源于DataFountain平臺(https://www.datafountain.cn/)提供的2016年美國醫(yī)療費用數(shù)據(jù)集,該數(shù)據(jù)集共有1 338行。數(shù)據(jù)集合名稱為“醫(yī)療費用個人數(shù)據(jù)集”,數(shù)據(jù)類型包括字符串、數(shù)值型數(shù)據(jù),有7個字段,沒有缺失值。7個字段分別是age(年齡)、 sex(性別)、BMI(身體質(zhì)量指數(shù))、children(保險覆蓋的兒童數(shù)量)、smoker(是否吸煙)、region(居住地)、charges(保險承擔的醫(yī)療費用)[12]。
以影響高額醫(yī)療費用的因素為探究內(nèi)容,首先用Excel電子表格打開源數(shù)據(jù),進行初步整理分析,清洗變換,完成數(shù)據(jù)預(yù)處理。部分原始數(shù)據(jù)如表1所示。數(shù)據(jù)完整,無缺失值、異常值,未發(fā)現(xiàn)重復(fù)數(shù)據(jù)。
表1 2016年美國醫(yī)療費用原始數(shù)據(jù)
Apriori算法可以用于數(shù)據(jù)類型為0/1的布爾類型[13],也可以用于分類數(shù)據(jù)類型。由于數(shù)據(jù)集中部分屬性的取值是連續(xù)型變量數(shù)據(jù)(如年齡、醫(yī)療費用),無法直接運用算法進行挖掘,因此對這類數(shù)據(jù)要進行分層和離散化處理[14]。此外,為了便于后期數(shù)據(jù)處理及關(guān)聯(lián)挖掘,我們使用代碼代替分層離散后的數(shù)據(jù)。
Age(年齡):將年齡分為5層,用A1代表18~29歲人群,用A2代表30~39歲人群,用A3代表40~49歲人群,用A4代表50~59歲人群,用A5代表60~64歲人群。
比較兩組冠心病心絞痛患者對護理服務(wù)滿意度;住院的時間、患者舒適度(0-100分,得分越高則舒適度越高);護理前后患者焦慮情緒評分(20-80分,得分越高則焦慮程度越高)、心功能等級。
Sex(性別):用B1代表男性,B2代表女性。
BMI(身體質(zhì)量指數(shù)):用C1代替低體重人群,用C2代替正常體重人群,用C3代替過重人群,用C4代替一類肥胖人群,用C5代替二類肥胖人群,用C6代替三類肥胖人群。
Children(保險覆蓋的兒童數(shù)量):用D0、D1、D2、D3、D4、D5分別替代保險覆蓋的兒童數(shù)量為0、1、2、3、4、5的人群。
Smoker(是否吸煙):用E1、E2分別替代不吸煙人群和吸煙人群。
Region(居住地):用F1、F2、F3、F4分別替代東北區(qū)居民、西北區(qū)居民、東南區(qū)居民、西南區(qū)居民。
Charges(保險承擔的醫(yī)療費用):2016年美國人均醫(yī)療費用為9535.9美元,假定以該人均醫(yī)療費用為界定標準,用G1、G2分別代替較低醫(yī)療費用和高額醫(yī)療費用。
2016年美國醫(yī)療費用離散化處理后的部分數(shù)據(jù)如表2所示。
表2 2016年美國醫(yī)療費用離散化后數(shù)據(jù)
經(jīng)過運算挖掘出45條符合當前設(shè)置支持度和置信度的關(guān)聯(lián)規(guī)則,調(diào)用函數(shù)可以展示出所有挖掘出的關(guān)聯(lián)規(guī)則,結(jié)果如表3所示。
表3 根據(jù)當前閾值所產(chǎn)生的關(guān)聯(lián)規(guī)則
續(xù)表3
其中,“LHS(left-hand side)”表示左側(cè)屬性項目集,“RHS(right-hand side)”表示右側(cè)屬性項目集,“support”為支持度,“confidence”為置信度,“l(fā)ift”為提升度。用“count”統(tǒng)計該事務(wù)集合在數(shù)據(jù)集中出現(xiàn)的總頻次[17]。部分規(guī)則具有較高置信度和提升度,如規(guī)則3:{smoker=E2}=>{charges=G2};部分規(guī)則具有較高支持度,如規(guī)則10:{charges=G1}=>{smoker=E1},所挖掘出的規(guī)則的提升度均大于1。
由于挖掘出的關(guān)聯(lián)規(guī)則較多,難以直接讀出核心信息[18],因此調(diào)用R軟件中的可視化繪圖函數(shù),將挖掘結(jié)果繪制成散點圖、氣泡圖和基于圖形的可視化結(jié)果,便于快速準確讀取信息。
根據(jù)45條規(guī)則繪制的散點圖如圖1所示,圖中的橫軸表示支持度,縱軸表示置信度,彩色條帶用顏色表示提升度的大小。
圖1 基于45條規(guī)則的散點圖繪制效果
通過觀察圖1可以獲得挖掘出的全部規(guī)則在總體上的分布特征,提升度較高的規(guī)則往往置信度也更加趨近于1,但這些規(guī)則在支持度的分布上并無明顯特征。同樣,提升度較低的規(guī)則在支持度的分布上也未發(fā)現(xiàn)明顯趨勢。此外,部分規(guī)則偏離總體分布趨勢,可能為不合理規(guī)則。在分析挖掘結(jié)果時應(yīng)關(guān)注到這些異常點,排除潛在的對結(jié)論的不良影響。但從散點圖中無法獲得具體關(guān)聯(lián)規(guī)則中左右側(cè)分別是哪些屬性,以及它們之間關(guān)聯(lián)程度的信息。
氣泡圖如圖2所示,其中每個有顏色的氣泡表示一個規(guī)則,顏色深淺表示提升度,氣泡大小表示支持度,支持度越大,氣泡尺寸越大[19]。LHS表示左側(cè)屬性項目集,RHS表示右側(cè)屬性項目集。
在圖2所示的氣泡圖中,可以獲取各組規(guī)則中左右側(cè)項之間關(guān)聯(lián)強弱比較,其中規(guī)則{sex =B1,age=A1}=>{smoker=E1}支持度最高,而規(guī)則{smoker=E2,sex=B1}=>{charges=G2}提升度最高。右項中,支持度smoker=E1>charges=G1>charges=G2,提升度charges=G2>charges=G1>smoker=E1。各組關(guān)聯(lián)規(guī)則的提升度從左上方到右下方呈現(xiàn)遞減趨勢,各組關(guān)聯(lián)規(guī)則的支持度從左上方到右下方呈現(xiàn)遞增趨勢。此外,左側(cè)屬性項目集(LHS)和右側(cè)屬性項目集(RHS)中所示條件可以讓我們快速了解數(shù)據(jù)中有代表的屬性,如吸煙、年齡等因素均是頻繁出現(xiàn)的項目集,其重要性更為顯著。因此在對挖掘結(jié)果進行分析時應(yīng)首先關(guān)注這些因素,但氣泡圖未能反映各條規(guī)則的相互關(guān)系以及屬性的共享情況。
圖 2 基于45條規(guī)則的氣泡圖繪制效果
45條關(guān)聯(lián)規(guī)則的圖形可視化結(jié)果如圖3所示。在圖3中,圓形代表各項集,箭頭代表規(guī)則間關(guān)系,圓形大小表示支持度,圓形越大支持度越高,顏色深淺表示提升度,顏色越深提升度越大。
圖3 45條關(guān)聯(lián)規(guī)則的圖形可視化結(jié)果
圖形可視化既能顯示各強關(guān)聯(lián)規(guī)則由哪些屬性組成,又能顯示這些規(guī)則共享了哪些屬性。通過這些共享的屬性可以找出相似規(guī)則,從而得出更為穩(wěn)健的結(jié)論,便于我們從另一個角度理解挖掘出的關(guān)聯(lián)規(guī)則,以不同視角展現(xiàn)數(shù)據(jù)特征。
對挖掘出的45條規(guī)則進行分析,選取具有代表性的幾條規(guī)則為例,示范分析過程。
規(guī)則1:{age=A4}=>{charges=G2}支持度為0.1868460,置信度為0.9225092,提升度為1.873016,在整個事務(wù)集中出現(xiàn)頻次為250次。該規(guī)則的含義為:1 338人中約有18.68%的人同時具有50~59歲和高額醫(yī)療費用的特征;在年齡為50~59歲的前提下,約有92.25%概率會出現(xiàn)高額醫(yī)療費用的特征;年齡為50~59歲這一特征出現(xiàn)后,高額醫(yī)療費用的出現(xiàn)概率較原來提升了1.873016倍。這條規(guī)則的支持度、置信度、提升度3個指標值均為較高水平,因此認為這是一條強關(guān)聯(lián)規(guī)則,年齡50~59歲與高額醫(yī)療費用之間有較強潛在關(guān)聯(lián)。
規(guī)則23:{sex=B2,region=F2}=>{smoker=E1}支持度為0.1008969,置信度為0.8231707,提升度為1.035153,在整個事務(wù)集中出現(xiàn)頻次為135次。該規(guī)則含義是:1 338人中約有10.09%的人同時具有女性、居住在西北區(qū)以及不吸煙的特征;在居住在西北區(qū)的女性中,約有82.31%的概率不吸煙,但該規(guī)則的提升度十分趨近與1,說明居住在西北區(qū)的女性的不吸煙屬性不顯著。因此這一規(guī)則并不是強關(guān)聯(lián)規(guī)則,西北區(qū)的女性與不吸煙無明顯關(guān)聯(lián)。
采取上述方法,對全部45條關(guān)聯(lián)規(guī)則進行分析,得到強關(guān)聯(lián)規(guī)則30條,非強關(guān)聯(lián)規(guī)則15條,綜合30條強關(guān)聯(lián)規(guī)則得出研究結(jié)論。結(jié)論顯示,高齡、吸煙與高額醫(yī)療費用有較為顯著關(guān)聯(lián)的屬性(規(guī)則1、3、10、15),低齡人群中低醫(yī)療費用者往往不吸煙(規(guī)則11、12、32、33、39),且在高齡人群中女性比男性更容易具備高額醫(yī)療費用這個屬性(規(guī)則1、13),男性中的吸煙者有較高概率出現(xiàn)高額醫(yī)療費用(規(guī)則16)。
本文運用R軟件中的關(guān)聯(lián)算法研究1 338條個人醫(yī)療費用數(shù)據(jù)集中與高額醫(yī)療費用有強關(guān)聯(lián)的屬性。通過設(shè)置支持度和置信度篩選強關(guān)聯(lián)規(guī)則,挖掘出的關(guān)聯(lián)規(guī)則基本合理,可以作為醫(yī)療費用數(shù)據(jù)研究的新方法,對該領(lǐng)域今后的研究發(fā)展具有參考和借鑒意義。本文仍然存在某些缺點和不足,如受數(shù)據(jù)來源中原有變量種類和數(shù)據(jù)數(shù)量的限制,只是在有限的數(shù)據(jù)特征中發(fā)現(xiàn)與醫(yī)療費用的關(guān)聯(lián)規(guī)則,而這些數(shù)據(jù)特征可能不是醫(yī)療費用的重要影響因素或與之具有因果關(guān)系;數(shù)據(jù)所反映的情況可能與真實情況間存在一定偏差;在數(shù)據(jù)預(yù)處理階段的數(shù)據(jù)離散化步驟中,一些屬性數(shù)據(jù)的分層離散處理可能不盡合理。此外,怎樣合理設(shè)定用于挖掘的支持度和置信度也是值得探討的問題,閾值設(shè)定的高低會導(dǎo)致挖掘結(jié)果的質(zhì)量。