代曉彤 謝學(xué)勤 康曉平△ 陳卓然 劉福榮
基于AdaBoost和分類(lèi)樹(shù)的北京市高血壓患者就診機(jī)構(gòu)選擇的影響因素分析
代曉彤1謝學(xué)勤2康曉平1△陳卓然1劉福榮3
目的 通過(guò)對(duì)2013年“北京市第五次國(guó)家衛(wèi)生服務(wù)調(diào)查”中高血壓患者兩周就診數(shù)據(jù)的分析,探討高血壓患者兩周就診機(jī)構(gòu)的選擇及影響因素。方法 使用AdaBoost和分類(lèi)樹(shù)組合分類(lèi)器對(duì)高血壓患者兩周首次就診機(jī)構(gòu)進(jìn)行分類(lèi),獲得變量相對(duì)重要性排序結(jié)果,利用十折交叉驗(yàn)證法計(jì)算錯(cuò)分率,錯(cuò)分率的可接受程度為0~0.3,選擇錯(cuò)分率最小的模型進(jìn)行結(jié)果解釋。結(jié)果 本次1128例患者中,兩周首次就診選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)的占75.7%。選用的AdaBoost和分類(lèi)樹(shù)組合分類(lèi)器的模型錯(cuò)分率為0.177。經(jīng)AdaBoost和分類(lèi)樹(shù)組合分類(lèi)器對(duì)10個(gè)自變量按照相對(duì)重要性進(jìn)行排序,其中排名最高的三個(gè)變量依次為受教育程度、家庭人均收入、家人常去醫(yī)療機(jī)構(gòu),并繪制能夠分別說(shuō)明這三個(gè)變量的分類(lèi)樹(shù)。結(jié)論 對(duì)于北京市兩周就診的高血壓病患者來(lái)說(shuō),首診選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)的比例較高,受教育程度、家庭人均收入和家人常去醫(yī)療機(jī)構(gòu)是影響其是否選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)的最重要因素。
AdaBoost 分類(lèi)樹(shù) 高血壓 兩周患病率 就診機(jī)構(gòu) 影響因素
高血壓病是現(xiàn)今城市居民常見(jiàn)的慢性非傳染性疾病(noninfectious chronic disease,NCD),也是北京市醫(yī)療衛(wèi)生系統(tǒng)的一個(gè)重要負(fù)擔(dān)。2008年中國(guó)大城市的高血壓兩周就診率為30.5%[1],2013年北京市15歲以上人群高血壓患病率為15.5%,位居北京市兩周患病首位,其兩周就診率卻僅為24.6%。明確高血壓患者的就診方式,了解影響其就診機(jī)構(gòu)選擇的因素,有利于提出能夠改善高血壓病控制情況的政策,為促進(jìn)醫(yī)療系統(tǒng)滿(mǎn)足如此龐大的醫(yī)療需求提供借鑒。本研究利用2013年“北京市第五次國(guó)家衛(wèi)生服務(wù)調(diào)查”中高血壓患者兩周就診的數(shù)據(jù),探討高血壓患者兩周就診機(jī)構(gòu)的選擇及影響因素,以期為針對(duì)性的政策指導(dǎo)提供理論依據(jù)。而AdaBoost和分類(lèi)樹(shù)組合分類(lèi)器,是一種不必對(duì)想納入的自變量進(jìn)行特征篩選,能夠直觀獲得變量重要性排序情況的方法,適用于該衛(wèi)生政策管理問(wèn)題的研究。
1.對(duì)象
本研究選取2013年“北京市第五次國(guó)家衛(wèi)生服務(wù)調(diào)查”數(shù)據(jù),研究對(duì)象為:調(diào)查前兩周內(nèi)患有高血壓病,且因該病首次前往醫(yī)療機(jī)構(gòu)接受過(guò)醫(yī)生的診斷和治療的北京市15歲以上常住居民,有效樣本共1128例。
2.方法
(1) 變量定義
因變量為兩周患病首次就診地點(diǎn),分為基層醫(yī)療衛(wèi)生機(jī)構(gòu)和區(qū)縣級(jí)及以上醫(yī)療衛(wèi)生機(jī)構(gòu)。
基層醫(yī)療衛(wèi)生機(jī)構(gòu)指符合下列情況之一者:①診所/村衛(wèi)生室,②社區(qū)衛(wèi)生服務(wù)站,③衛(wèi)生院,④社區(qū)衛(wèi)生服務(wù)中心。區(qū)縣級(jí)及以上醫(yī)療衛(wèi)生機(jī)構(gòu)指符合下列情況之一者:①縣/縣市級(jí)/省轄市區(qū)屬衛(wèi)生機(jī)構(gòu),②省轄市/地區(qū)/直轄市區(qū)屬衛(wèi)生機(jī)構(gòu),③省/自治區(qū)/直轄市屬及以上衛(wèi)生機(jī)構(gòu)。所有變量賦值情況見(jiàn)表1。
表1 變量賦值表
(2) AdaBoost組合分類(lèi)器原理和步驟
AdaBoost是adaptive boosting的簡(jiǎn)寫(xiě),是一種自適應(yīng)Boosting算法,由Freund和Schapire在1995年提出[2]。R語(yǔ)言中的adabag包主要應(yīng)用于對(duì)數(shù)據(jù)集進(jìn)行的AdaBoost.M1和SAMME 算法。本文描述和調(diào)用的是AdaBoost.M1[3]。
分類(lèi)與回歸樹(shù)(classification and regression tree,CART)的結(jié)果直觀,易于解釋?zhuān)切l(wèi)生政策管理方向常用的一種分析方法。但是分類(lèi)與回歸樹(shù)容易發(fā)生過(guò)擬合的情況。Adaboost.M1算法無(wú)需任何先驗(yàn)知識(shí),具有自適應(yīng)性[4],不僅能夠避免過(guò)擬合的問(wèn)題,還可以有效降低模型的錯(cuò)分率,提高模型的精度。
該組合分類(lèi)器的分類(lèi)過(guò)程為:
更新各樣本的權(quán)重,加大分類(lèi)錯(cuò)誤的樣本權(quán)重,減小分類(lèi)正確樣本的權(quán)重,進(jìn)而生成新的CART。本研究按照程序默認(rèn),更新100次,產(chǎn)生100棵分類(lèi)樹(shù)。
所有訓(xùn)練完成后,采用加權(quán)投票機(jī)制將產(chǎn)生的若干個(gè)分類(lèi)樹(shù)進(jìn)行組合,形成強(qiáng)分類(lèi)器。變量重要性的計(jì)算考慮到最終分類(lèi)樹(shù)中變量的Gini系數(shù)和這個(gè)分類(lèi)樹(shù)的權(quán)重,也就是說(shuō)某變量的相對(duì)重要性越大,其對(duì)選擇就診機(jī)構(gòu)的影響就越大。因此本研究篩選出變量相對(duì)重要性最大的前三個(gè)變量進(jìn)行結(jié)果解釋?zhuān)L制能夠分別說(shuō)明這三個(gè)變量的分類(lèi)樹(shù)。
公式如下:
訓(xùn)練樣本數(shù)記為N,第n個(gè)樣本的權(quán)重為Wn,迭代次數(shù)記為M,第m個(gè)分類(lèi)樹(shù)記為Ym(xn)。
(3)模型評(píng)價(jià)
錯(cuò)分率,即測(cè)試樣本中被模型錯(cuò)誤分類(lèi)的比例。根據(jù)不同的研究目的,錯(cuò)分率的可接受程度不同。本研究最終模型錯(cuò)分率的可接受程度為0~0.3。
本研究使用十折交叉驗(yàn)證法(ten-foldcross-validation)計(jì)算錯(cuò)分率,用來(lái)測(cè)試算法準(zhǔn)確性。具體操作為,將1128例樣本隨機(jī)平均分成10份,將其中的1份(113例)作為測(cè)試樣本,剩余9份(1015例)作為訓(xùn)練樣本進(jìn)行試驗(yàn),共計(jì)算10次,計(jì)算出平均錯(cuò)分率。選取10次中錯(cuò)分率最小的最終模型的結(jié)果進(jìn)行影響因素討論。
(4) 統(tǒng)計(jì)軟件
使用SAS9.3進(jìn)行數(shù)據(jù)庫(kù)的清理、單因素分析,使用R語(yǔ)言中的adabag、caret程序包進(jìn)行分類(lèi)樹(shù)和AdaBoost的分析。
1.基本情況
在1128例高血壓患者中,男性508人,女性620人;年齡在65歲及以上的人占46.9%,35~64歲的占52.1%,15~34歲僅占1.0%,年齡最小者為27歲;選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)就診的有854(75.7%)人,區(qū)縣級(jí)及以上醫(yī)療衛(wèi)生機(jī)構(gòu)的274(24.3%)人。按不同就診機(jī)構(gòu)對(duì)人口統(tǒng)計(jì)學(xué)特征(年齡、性別、地區(qū)),社會(huì)經(jīng)濟(jì)特征(戶(hù)口、受教育程度、職業(yè)、家庭人均收入),衛(wèi)生服務(wù)可及性(到最近的衛(wèi)生服務(wù)機(jī)構(gòu)的時(shí)間),醫(yī)療保險(xiǎn)情況、家庭就診習(xí)慣等進(jìn)行描述,見(jiàn)表2。
表2 高血壓病患者選擇不同就診機(jī)構(gòu)的基本情況
2.AdaBoost結(jié)果
對(duì)1128例樣本使用十折交叉驗(yàn)證法計(jì)算出10次的錯(cuò)分率范圍為0.177~0.274,均符合判定標(biāo)準(zhǔn)0~0.3,平均錯(cuò)分率為0.213,表示對(duì)本資料,使用該方法精確度較高,見(jiàn)表3。
表3 十折交叉驗(yàn)證法逐次錯(cuò)分率
選取錯(cuò)分率最小的模型進(jìn)行結(jié)果解釋。分類(lèi)任務(wù)中每個(gè)變量的相對(duì)重要性見(jiàn)表4。結(jié)果顯示:10個(gè)變量中相對(duì)重要性最高的三個(gè)變量依次為受教育程度。家庭人均收入、家人常去醫(yī)療機(jī)構(gòu)。繪制能夠說(shuō)明受教育程度影響決策情況的第99棵樹(shù),顯示當(dāng)受教育程度為初中及以下或本科及以上時(shí),患者選擇基層醫(yī)療機(jī)構(gòu)就診的比例由原來(lái)的0.51增加到0.54(圖1)。能夠說(shuō)明家庭人均收入影響決策情況的第92棵樹(shù),顯示當(dāng)家庭人均收入最低、適中、較高時(shí),患者選擇基層醫(yī)療機(jī)構(gòu)就診的比例由0.49增加到0.52(圖2)。繪制能夠說(shuō)明家人常去醫(yī)療機(jī)構(gòu)影響決策情況的第1棵樹(shù),顯示當(dāng)家人常去醫(yī)療機(jī)構(gòu)為非基層醫(yī)療機(jī)構(gòu)時(shí),患者選擇基層醫(yī)療機(jī)構(gòu)就診的比例由0.25增加到0.58(圖3)。
表4 變量相對(duì)重要性
圖1 第99棵決策樹(shù)
從總體來(lái)看,本研究顯示高血壓患者選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)就診的比例較高(75.7%)。國(guó)內(nèi)外研究表明,對(duì)于高血壓病的控制,最有效的方法就是社區(qū)防治[5]。朱梅等研究顯示,社區(qū)就診的高血壓居民服藥依從率,血壓控制率均高于二、三級(jí)醫(yī)院[6]。按照中國(guó)醫(yī)療保險(xiǎn)報(bào)銷(xiāo)政策,慢性病、常見(jiàn)病在基層醫(yī)療衛(wèi)生服務(wù)機(jī)構(gòu)的報(bào)銷(xiāo)比例要高于二、三級(jí)醫(yī)院。充分發(fā)揮基層衛(wèi)生服務(wù)的作用,是現(xiàn)今慢性病控制衛(wèi)生政策的導(dǎo)向。本研究提示,北京高血壓患者選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)就診的情況在現(xiàn)有水平可持續(xù)發(fā)展。
圖2 第92棵決策樹(shù)
圖3 第1棵決策樹(shù)
表2顯示,不同特征的北京市高血壓患者兩周首次就診選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)的比例均較高,但還是有差別的,AdaBoost與分類(lèi)樹(shù)組合分類(lèi)器的方法可以在對(duì)自變量進(jìn)行排序的過(guò)程將這些差別展示出來(lái),找出影響高血壓患者就診選擇的最重要因素。
在以往研究中,經(jīng)濟(jì)因素始終是影響衛(wèi)生服務(wù)利用的關(guān)鍵因素[7],收入越低的患者更多地選擇醫(yī)療費(fèi)用更低的醫(yī)療機(jī)構(gòu)。本次研究的部分結(jié)果與之一致。如圖1所示,沒(méi)上過(guò)學(xué)、小學(xué)、初中和本科及以上學(xué)歷的高血壓患者基層醫(yī)療衛(wèi)生機(jī)構(gòu)就診的比例增加。圖2中家庭人均收入最低、適中和較高的患者,選擇區(qū)縣屬醫(yī)療衛(wèi)生機(jī)構(gòu)的比例增加。家庭人均收入和受教育
程度具有交互作用,受教育程度較低的人家庭人均收入也較低。本科及以上學(xué)歷和家庭人均收入較高的高血壓患者,傾向于選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)就診,這可能與其較高的健康素養(yǎng)有關(guān)。Dennison等的研究提示,更高的受教育水平有利于高血壓病的治療[8]。受教育程度越高,具備健康素養(yǎng)的比例也越高[9]。健康素養(yǎng)的高低也會(huì)影響勞動(dòng)人口對(duì)衛(wèi)生服務(wù)的利用[10]。這是受教育程度影響就診機(jī)構(gòu)選擇的一條途徑。高學(xué)歷的高血壓病患者似乎更傾向于選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)就診,這在一定程度上反映了健康素養(yǎng)較高的居民對(duì)基層醫(yī)療服務(wù)的利用更加充足。本研究結(jié)果表明,北京市常住居民高血壓病就診機(jī)構(gòu)的選擇在基層導(dǎo)向還是有空間的,深化基層衛(wèi)生服務(wù)對(duì)于高血壓病管理的作用,健康教育是必不可少的。
家人常去基層醫(yī)療衛(wèi)生機(jī)構(gòu)就診,患者也更多地選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu),這體現(xiàn)了家庭就診的習(xí)慣也會(huì)影響高血壓患者的就診傾向。培養(yǎng)就診習(xí)慣,對(duì)于貫徹衛(wèi)生政策的實(shí)施,有著積極的推動(dòng)作用。
綜上,對(duì)于北京市有兩周就診的高血壓病患者來(lái)說(shuō),首診選擇基層醫(yī)療衛(wèi)生機(jī)構(gòu)的比例較高,受教育程度、家庭人均收入和家人常去醫(yī)療機(jī)構(gòu)是影響其就診選擇的最重要因素。
[1]衛(wèi)生部統(tǒng)計(jì)信息中心.2008中國(guó)衛(wèi)生服務(wù)調(diào)查研究第四次家庭健康詢(xún)問(wèn)調(diào)查分析報(bào)告.第1版.北京:中國(guó)協(xié)和醫(yī)科大學(xué)出版社,2009.
[2]Freund YSRE.A decision-theoretic generalization of on-line learning and an application to boosting.In:Proceedings of IEEE Second European Conference on Computational Learning Theory.Barcelona,Spain:1995.
[3]Alfaro E,Gamez MAGN,Guo WCFL.Applies Multiclass AdaBoost.M1,SAMME and Bagging.https://cran.r-project.org/web/packages/adabag/adabag.pdf.
[4]吳杰法.基于整體特征的行人檢測(cè)方法研究.湖南大學(xué),2012.
[5]吳兆蘇.我國(guó)高血壓流行情況及如何開(kāi)展高血壓社區(qū)防治.心肺血管病雜志,1999,(3):18-20.
[6]朱梅,高俊嶺,金桂勤,等.不同就診方式的社區(qū)高血壓患者血壓控制效果及費(fèi)用的比較研究.中國(guó)全科醫(yī)學(xué),2016,(1):96-99.
[7]衛(wèi)生部統(tǒng)計(jì)信息中心.中國(guó)衛(wèi)生服務(wù)調(diào)查研究第三次國(guó)家衛(wèi)生服務(wù)調(diào)查分析報(bào)告.第1版.北京:中國(guó)協(xié)和醫(yī)科大學(xué)出版社,2004.
[8]Dennison CR,Peer N,Steyn K,et al.Determinants of hypertension care and control among peri-urban Black South Africans:the HiHi study.Ethn Dis,2007,17(3):484-491.
[9]衛(wèi)生部婦幼保健與社區(qū)衛(wèi)生司,衛(wèi)生部新聞宣傳中心中國(guó)健康教育中心.首次中國(guó)居民健康素養(yǎng)調(diào)查報(bào)告.北京:2009.
[10]孫亞慧,謝興偉,曾慶奇,等.健康素養(yǎng)對(duì)某高校部分勞動(dòng)力人口基本公共衛(wèi)生服務(wù)利用的影響研究.中國(guó)健康教育,2015,(3):243-246.
(責(zé)任編輯:劉 壯)
The Influencing Factors Regarding Choosing Medical Institutions among Hypertension Patients in Beijing on AdaBoost and Classification Tree
Dai Xiaotong,Xie Xueqin,Kang Xiaoping,et al
(SchoolofPublicHealth,PekingUniversity(100191),Beijing)
Objective By analyzing the two-week prevalence and outpatient service data of 2013 Beijing Health Service Survey,this study aims at clearing and defining influence factors of choosing hospitals at different levels among hypertension patients in Beijing.Methods The first medical institutions selection of hypertension patients in two weeks were classified using Ada Boost and classification tree combination classifier,and the variables were sorted according to the relative importance of the variables.The error rate was calculated by ten-fold cross-validation method.The acceptability of the error rate was 0~0.3.The model with the smallest error rate was explained.Results The patients who chose primary health care institutions as the first medical institution in two weeks from the 1128 cases of hypertension patients,was 75.7%.The error rate of the selected AdaBoost and classification tree combination classifier was 0.177.The 10 variables was sorted according to the relative importance.The 3 highest rank variables were education level,family income per capita and the medical institutions family often went to.The classification trees,which could illustrate the three variables,were drawn separately.Conclusion For the first medical institutions selection of hypertension patients in two weeks the city of Beijing,the proportion of primary health care institutions was high.Education level,family income per capita and the medical institutions family often went to were the most important factors that affected the choice of primary health care institutions.
AdaBoost;Classification tree;Hypertension;Two-week prevalence;Medical institutions;Influence factors
1.北京大學(xué)公共衛(wèi)生學(xué)院(100191)
2.北京市公共衛(wèi)生信息中心
3.鄭州大學(xué)第一附屬醫(yī)院
△通信作者:康曉平
中國(guó)衛(wèi)生統(tǒng)計(jì)2017年1期