新疆醫(yī)科大學(xué)護(hù)理學(xué)院(830011)
樊瓊玲 張雪蓮 楊 菲 曹雪梅 朱紅梅 由淑萍△
【提 要】 目的 探討隨機(jī)森林(random forest,RF)和支持向量機(jī)(support vector machine,SVM)算法在農(nóng)村老年人養(yǎng)老需求服務(wù)預(yù)測(cè)中的應(yīng)用價(jià)值。方法 運(yùn)用分層整群抽樣對(duì)烏魯木齊1652名農(nóng)村老年人進(jìn)行問卷調(diào)查,采用RF算法和SVM算法構(gòu)建模型預(yù)測(cè)農(nóng)村老年人的日常生活照料、醫(yī)療保健服務(wù)、精神慰藉服務(wù)和休閑娛樂服務(wù)等四類養(yǎng)老服務(wù)需求,通過準(zhǔn)確率、特異度、召回率和ROC曲線進(jìn)行模型評(píng)估。結(jié)果 日常生活照料、精神慰藉服務(wù)需求中RF模型ROC曲線下面積更大;醫(yī)療保健服務(wù)需求中SVM模型的ROC曲線下的面積更大;休閑娛樂服務(wù)需求中兩個(gè)模型的ROC曲線下面積相等。結(jié)論 RF算法和SVM算法構(gòu)建的老年人養(yǎng)老服務(wù)需求預(yù)測(cè)模型,各有其優(yōu)勢(shì),在養(yǎng)老事業(yè)的精準(zhǔn)預(yù)測(cè)工作中有一定的價(jià)值。
《2019年國民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)》提示,我國老年人數(shù)量已超過2.5億,約占我國總?cè)丝?8.1%[1]。2015年到2050年,我國老年人口將持續(xù)增長,至2050年老年人口預(yù)計(jì)達(dá)4.98億[2]。隨著我國老齡化加劇和經(jīng)濟(jì)發(fā)展,老年人的養(yǎng)老服務(wù)需求越來越大,養(yǎng)老服務(wù)需求種類也越來越多樣化。對(duì)未來不同類別養(yǎng)老服務(wù)的需求和趨勢(shì)進(jìn)行分析,對(duì)促進(jìn)養(yǎng)老事業(yè)的精細(xì)化管理、有效解決養(yǎng)老服務(wù)的民生問題具有重要意義。目前,我國對(duì)老年人養(yǎng)老需求預(yù)測(cè)的關(guān)注度不足,尚未發(fā)現(xiàn)適合模型。近年來,機(jī)器學(xué)習(xí)在經(jīng)濟(jì)、醫(yī)療等行業(yè)中展現(xiàn)了深度數(shù)據(jù)挖掘、資源配置等優(yōu)勢(shì)[3-4]。隨機(jī)森林(random forest,RF)、支持向量機(jī)(supprt vector machine,SVM)等機(jī)器學(xué)習(xí)算法能否在構(gòu)建老年人養(yǎng)老服務(wù)需求預(yù)測(cè)模型中具有較好的性能尚未知。因此,本研究基于烏魯木齊農(nóng)村老年人的養(yǎng)老服務(wù)調(diào)查數(shù)據(jù),探索RF算法和SVM算法在烏魯木齊農(nóng)村老年人養(yǎng)老服務(wù)需求預(yù)測(cè)中的應(yīng)用價(jià)值。
2019年1月至2020年6月,采用分層整群抽樣方法,第1階段:隨機(jī)抽取烏魯木齊縣為調(diào)研區(qū)域;第2階段:烏魯木齊縣下轄三鎮(zhèn)三鄉(xiāng),根據(jù)各鄉(xiāng)鎮(zhèn)人口比例,在各層內(nèi)隨機(jī)抽取具有代表性的行政村,每個(gè)鎮(zhèn)各抽取7~8個(gè)村,每個(gè)鄉(xiāng)各抽取3~4個(gè)村,一共抽取36個(gè)村;第3階段:在每個(gè)抽中的行政村內(nèi),按照簡單隨機(jī)抽樣抽取≥60歲的常住老年人40~50人。共計(jì)發(fā)放1700份問卷,回收有效問卷1652份,有效回收率97.2%。
調(diào)查問卷參考茍曉玲[5]的《安州區(qū)居家養(yǎng)老服務(wù)問卷調(diào)查表》并自行修訂而成《烏魯木齊農(nóng)村居民養(yǎng)老服務(wù)問卷調(diào)查表》,問卷的第一部分為一般資料(包括年齡、性別、民族、文化程度、婚姻狀況、子女個(gè)數(shù)、子女關(guān)愛情況、居住狀況、月收入水平、自評(píng)自理能力和身體健康狀況);第二部分為養(yǎng)老服務(wù)需求(包括日常生活照料、醫(yī)療保健服務(wù)、精神慰藉服務(wù)、休閑娛樂服務(wù)等4項(xiàng))。經(jīng)檢驗(yàn),該問卷克朗巴赫值為0.87,具有較好的信度。
經(jīng)統(tǒng)一培訓(xùn)的調(diào)查小組包括5名學(xué)生,1名少數(shù)民族翻譯,以面對(duì)面訪談法進(jìn)行調(diào)查。收集問卷的人員按照統(tǒng)一的指導(dǎo)語向老年人解釋題目。調(diào)查結(jié)束當(dāng)天每小組對(duì)當(dāng)天問卷進(jìn)行復(fù)核,剔除有漏項(xiàng)、錯(cuò)項(xiàng)及邏輯性錯(cuò)誤問卷,討論當(dāng)天調(diào)查中的問題,總結(jié)相應(yīng)解決方案,控制調(diào)查員偏倚。
采用Python 3.7軟件和scikit-learn機(jī)器學(xué)習(xí)包進(jìn)行分析。本研究將1652個(gè)樣本集分為兩部分:訓(xùn)練集70%(1156人)和測(cè)試集30%(496人)。具體建模過程如下:
(1)進(jìn)行數(shù)據(jù)預(yù)處理:根據(jù)統(tǒng)計(jì)學(xué)知識(shí),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,自變量賦值見表1。
(2)RF模型構(gòu)建:經(jīng)過網(wǎng)格搜索后確定最優(yōu)算法模型,樹的棵數(shù)ntree設(shè)置為200,最大深度為6層,計(jì)算每個(gè)節(jié)點(diǎn)的基尼不純度(Gini impurity)和子節(jié)點(diǎn)的基尼不純度的下降,作為各自變量的重要性得分并進(jìn)行排序。
(3)SVM模型構(gòu)建:分別比較了四種核函數(shù),線性核函數(shù),多項(xiàng)式核函數(shù),gamma取值分別為0.5和0.1的高斯核函數(shù)(徑向基函數(shù)),經(jīng)過網(wǎng)格搜索比較后,選取預(yù)測(cè)結(jié)果更佳的 gamma 值為0.5的高斯核函數(shù),作為SVM模型的核函數(shù)。
表1 賦值表
(4)模型的評(píng)估與比較:采用三個(gè)機(jī)器學(xué)習(xí)的常用指標(biāo),包括準(zhǔn)確率、特異度和召回率,基于測(cè)試集數(shù)據(jù)對(duì)RF和SVM模型對(duì)老年人各項(xiàng)養(yǎng)老需求的預(yù)測(cè)效果進(jìn)行了評(píng)價(jià)。還應(yīng)用ROC曲線和曲線下面積AUC值對(duì)模型的效果再進(jìn)行評(píng)價(jià)。
入選研究對(duì)象共計(jì)1652例,平均年齡為(67.3±10.7)歲,包含男性797例,占48.2%,女性855例,占51.8%;漢族607例,占36.7%,少數(shù)民族1045例,占63.3%。
四類養(yǎng)老服務(wù)影響因素的重要性排序如圖1所示。各類養(yǎng)老服務(wù)需求中評(píng)分較高的前3項(xiàng)分別為:日常生活照料需求為自評(píng)自理能力、年齡、自評(píng)健康狀況;醫(yī)療保健服務(wù)需求為自評(píng)健康狀況、自評(píng)自理能力、年齡;精神慰藉服務(wù)為子女關(guān)愛、子女個(gè)數(shù)、婚姻狀況;休閑娛樂服務(wù)為自評(píng)自理能力、每月收入水平、文化程度。
圖1 RF模型中四類養(yǎng)老服務(wù)需求的影響因素重要性排序
采用Python的scikit-learn庫中RF模塊,構(gòu)建RF模型,通過gamma 值為0.5的高斯核函數(shù)建立模型,將養(yǎng)老服務(wù)需求的選擇結(jié)果作為因變量,其他變量為自變量。RF模型及SVM模型預(yù)測(cè)結(jié)果可見表2。
表2 測(cè)試集中RF和SVM模型分類預(yù)測(cè)結(jié)果
RF模型和SVM模型的準(zhǔn)確率、特異度和召回率見表3。在日常生活照料、醫(yī)療保健需求、精神慰藉服務(wù)需求中,RF模型的AUC值分別為0.75、0.69、0.64,SVM模型的AUC值分別為0.74、0.67、0.63,RF模型的預(yù)測(cè)效果稍優(yōu)于SVM模型;在休閑娛樂服務(wù)需求中,兩模型的AUC值均為0.85,其預(yù)測(cè)效果相近,見圖2。
表3 RF模型和SVM模型的準(zhǔn)確率、特異度和召回率(%)
圖2 四類養(yǎng)老服務(wù)需求預(yù)測(cè)的ROC曲線圖
隨著老齡化加劇,建設(shè)養(yǎng)老產(chǎn)業(yè)、精準(zhǔn)預(yù)測(cè)養(yǎng)老需求已是我國重要民生問題。基于科學(xué)模型算法得出的老年人養(yǎng)老服務(wù)需求預(yù)測(cè),可更好地對(duì)養(yǎng)老服務(wù)的建設(shè)和推廣提供依據(jù),促進(jìn)相關(guān)配套政策和設(shè)施的制定。
目前,我國的老年人養(yǎng)老服務(wù)需求預(yù)測(cè)側(cè)重于對(duì)失能老年人的養(yǎng)老服務(wù)需求或護(hù)理需求。周元鵬等[6]通過比例測(cè)算法,結(jié)合日常生活活動(dòng)能力,計(jì)算不同年齡、不同功能障礙等級(jí)的老年人口比例來預(yù)測(cè)居家養(yǎng)老服務(wù)的需求規(guī)模。鄉(xiāng)汝浩等[7]通過國際人口預(yù)測(cè)軟件PADIS-INT預(yù)測(cè)老齡化進(jìn)程,以失能率為基礎(chǔ),結(jié)合失能老人的入住意愿和我國實(shí)際情況,對(duì)未來醫(yī)養(yǎng)結(jié)合養(yǎng)老服務(wù)需求進(jìn)行預(yù)測(cè)。于歡[8]通過灰色理論模型以老年殘疾人居家養(yǎng)老總數(shù)與各項(xiàng)需求百分比的成績計(jì)算出各項(xiàng)預(yù)測(cè)需求總?cè)藬?shù)。由于老年人口總量預(yù)測(cè)的影響因素眾多,各因素間關(guān)系復(fù)雜,幾個(gè)指標(biāo)難以完全解釋清楚,且老年人口數(shù)據(jù)具有歷史不完整、信息不全等特點(diǎn),傳統(tǒng)預(yù)測(cè)模型無法較好地實(shí)現(xiàn)對(duì)養(yǎng)老服務(wù)需求的預(yù)測(cè)。
機(jī)器學(xué)習(xí)技術(shù)具備強(qiáng)大的特征識(shí)別分類及預(yù)測(cè)的能力,提供了從不同數(shù)據(jù)推斷數(shù)據(jù)項(xiàng)之間重要聯(lián)系的可能性[9]。一部分機(jī)器學(xué)習(xí)算法已應(yīng)用于臨床工作中,已被證明比傳統(tǒng)方法能更準(zhǔn)確預(yù)測(cè)結(jié)局[10-11]。RF算法由Leo Breiman[12]于2001年提出,該算法以“袋裝法”整合多棵決策樹,是一種較為實(shí)用的集成學(xué)習(xí)法。與logistic回歸相比,RF算法通過隨機(jī)特征選擇了樣本誤差,比單一測(cè)試樣本進(jìn)行擬合的logistic模型結(jié)果更有說服力[13]。SVM算法是以統(tǒng)計(jì)學(xué)理論為基礎(chǔ),以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則,在小樣本條件下?lián)碛休^好的推廣和泛化能力[14]。通過核函數(shù),SVM算法可以將線性不可分的數(shù)據(jù)轉(zhuǎn)化為線性數(shù)據(jù)。
RF模型和SVM模型在老年人養(yǎng)老事業(yè)預(yù)測(cè)方面的研究,目前仍較少。吳帥等[15]以RF模型對(duì)老年人的居住偏好進(jìn)行預(yù)測(cè)表明,老年人的特征數(shù)據(jù)可以較好地預(yù)測(cè)其居住偏好。本研究通過構(gòu)建RF模型和SVM模型,對(duì)烏魯木齊農(nóng)村老年人的日常生活照料、醫(yī)療保健服務(wù)、精神慰藉服務(wù)和休閑娛樂服務(wù)四類養(yǎng)老服務(wù)需求進(jìn)行預(yù)測(cè)并評(píng)價(jià)兩個(gè)模型的性能。結(jié)果表明,RF模型和SVM模型各有優(yōu)勢(shì)。因本研究對(duì)象為烏魯木齊農(nóng)村老年人,模型在其他特征人群中是否適用,需進(jìn)一步求證。
綜上,本研究基于RF算法和SVM算法構(gòu)建的模型對(duì)烏魯木齊農(nóng)村老年人養(yǎng)老服務(wù)需求均有較好的預(yù)測(cè)能力,各有優(yōu)勢(shì)。實(shí)際工作中,我們可結(jié)合不同情況,選擇合適模型預(yù)測(cè)老年人的養(yǎng)老服務(wù)需求,為養(yǎng)老事業(yè)提供參考。