郭在金 周羅晶
1 揚(yáng)州大學(xué)公共衛(wèi)生學(xué)院,225009 江蘇 揚(yáng)州; 2 江蘇省蘇北人民醫(yī)院管理研究所,225001 江蘇 揚(yáng)州
如何降低平均住院日,不斷優(yōu)化衛(wèi)生資源配置,提升醫(yī)院運(yùn)行效率,既是現(xiàn)代醫(yī)院管理制度的要求,也是醫(yī)院管理者必須充分重視和著力解決的問題之一。因此,對醫(yī)院平均住院日進(jìn)行科學(xué)預(yù)測,可以為合理配置醫(yī)療資源,提高醫(yī)療服務(wù)質(zhì)量和醫(yī)院精細(xì)化管理水平提供科學(xué)依據(jù)。差分自回歸滑動平均模型(autoregressive integrated moving average model,ARIMA)是一種經(jīng)典的時(shí)間序列分析方法,可以較好地獲取時(shí)間序列中的線性特征以及周期性和趨勢性,被廣泛地應(yīng)用于傳染病預(yù)測[1]、衛(wèi)生資源預(yù)測[2]等方面,預(yù)測效果較為準(zhǔn)確,并且在平均住院日預(yù)測方面也有較好的應(yīng)用[3]。本研究利用江蘇省某三甲醫(yī)院的平均住院日逐月數(shù)據(jù)構(gòu)建ARIMA模型,對醫(yī)院的平均住院日進(jìn)行預(yù)測,為醫(yī)院醫(yī)療資源的優(yōu)化配置提供參考。
通過江蘇省某三甲醫(yī)院的數(shù)據(jù)中心,獲取2013年1月至2022年5月共113個(gè)月的逐月平均住院日數(shù)據(jù)。其中2013年1月至2021年6月的數(shù)據(jù)作為訓(xùn)練集建立模型,2021年7月至2022年5月共11個(gè)月的數(shù)據(jù)作為驗(yàn)證集驗(yàn)證模型。
ARIMA模型最早由美國統(tǒng)計(jì)學(xué)家Box和Jenkins于1972年提出[4],是時(shí)間序列中預(yù)測精度相對較高的一種模型,其由自回歸AR和移動平均MA組成。AR表示根據(jù)自身的滯后值或先前值進(jìn)行回歸,MA則是依據(jù)時(shí)間序列資料,逐項(xiàng)推移,依次計(jì)算包含一定相數(shù)的序時(shí)平均值。ARIMA模型包括不具有季節(jié)性的ARIMA(p,d,q)和具有季節(jié)性的ARIMA(p,d,q)(P,D,Q)s,其中,p、d、q分別是自回歸階數(shù)、差分次數(shù)和移動平均階數(shù);P、D、Q則是具有季節(jié)性的自回歸階數(shù)、差分次數(shù)和移動平均階數(shù);s是季節(jié)周期。ARIMA模型的原理是將預(yù)測值由過去數(shù)值和隨機(jī)誤差的線性函數(shù)來表達(dá)[5]。
ARIMA模型主要包括以下步驟:①數(shù)據(jù)的預(yù)處理,首先確定時(shí)間序列是否為穩(wěn)定的平穩(wěn)時(shí)間序列,如果為非平穩(wěn)時(shí)間序列則要通過差分或數(shù)據(jù)轉(zhuǎn)化使其變?yōu)槠椒€(wěn)的時(shí)間序列。②模型的識別與選擇,通過繪制自相關(guān)系數(shù)圖(autocorrelation function,ACF)和偏自相關(guān)系數(shù)圖(partial autocorrelation function,PACF)來確定備選模型的參數(shù)p、q;P、Q的確定一般是通過高階到低階逐個(gè)嘗試,還可以通過R語言中auto.arima函數(shù)來確定多個(gè)備選模型,最后通過赤池信息準(zhǔn)則(AIC)和貝葉斯信息準(zhǔn)則(BIC)最小原則來確定最佳模型。③模型的參數(shù)診斷,通過Ljung-Box檢驗(yàn)對模型進(jìn)行白噪聲檢驗(yàn),判斷殘差是否滿足白噪聲序列,檢查殘差是否獨(dú)立且正態(tài)分布,從而驗(yàn)證所建立序列模型的充分性。在模型建立后,通過MAPE(平均相對誤差)和RMSE(均方根誤差)來評價(jià)模型的擬合程度,其值越低表示擬合效果越好。
本研究使用Excel 2016建立數(shù)據(jù)庫,應(yīng)用R 4.1.3軟件進(jìn)行統(tǒng)計(jì)分析,建立ARIMA模型。檢驗(yàn)水準(zhǔn)α雙側(cè)=0.05。
繪制2013年1月至2021年6月該院平均住院日逐月時(shí)間序列圖,并對時(shí)間序列進(jìn)行趨勢性、季節(jié)性、周期性分解。observed為該院平均住院日值,trend是序列的趨勢性,由trend處可見該院平均住院日整體上呈現(xiàn)下降的趨勢,seasonal處可看出該序列有一定的周期性。用adf.test函數(shù)對原始序列進(jìn)行ADF檢驗(yàn)后,Dickey-Fuller值為-2.32,P=0.44,提示該序列為非平穩(wěn)時(shí)間序列,需要進(jìn)行差分。見圖1。
圖1 2013年1月至2021年6月該院平均住院日時(shí)間序列分解圖
原始時(shí)間序列為非平穩(wěn)的時(shí)間序列,并且具有一定的周期性,因此需進(jìn)行季節(jié)性差分。經(jīng)1階12步季節(jié)性差分后(d=1,D=1,s=12),再進(jìn)行ADF檢驗(yàn),Dickey-Fuller值為 -6.26,P<0.01,提示差分后的序列為平穩(wěn)的時(shí)間序列。差分后的序列中,原序列的季節(jié)性趨勢被消除,初步判斷該模型的參數(shù)為ARIMA(p,1,q)(P,1,Q)12。
對差分后的數(shù)據(jù)繪制ACF圖和PACF圖,見圖2、圖3。由ACF圖可以看出,自相關(guān)系數(shù)在一階后截尾,而偏自相關(guān)系數(shù)圖拖尾,同時(shí)結(jié)合R語言中的auto.arima函數(shù),尋找最佳參數(shù),最終確定p=0,q=1。而對于季節(jié)性的參數(shù)P、Q而言,根據(jù)文獻(xiàn)[6-7],不會超過2,一般是通過從高階到低階逐個(gè)嘗試,根據(jù)赤池信息準(zhǔn)則(AIC)和貝葉斯信息準(zhǔn)則(BIC)最小原則來確定最佳模型。通過篩選,最終確定3個(gè)備選模型,分別是ARIMA(0,1,1)(0,1,1)12、ARIMA(0,1,1)(0,1,2)12、ARIMA(0,1,1)(1,1,0)12,見表1。再利用Box.test函數(shù)對3個(gè)備選模型進(jìn)行白噪聲檢驗(yàn),計(jì)算在滯后階數(shù)6、12處的Ljung-Box統(tǒng)計(jì)量,結(jié)果見表2。3個(gè)模型均通過了白噪聲檢驗(yàn),即原始序列中所有信息均被提取充分,所建立的模型有效。3個(gè)模型中ARIMA(0,1,1)(0,1,1)12的AIC=39.04,BIC=46.50,均最小,并且各項(xiàng)參數(shù)都具有統(tǒng)計(jì)學(xué)意義,最終確定ARIMA(0,1,1)(0,1,1)12為最佳模型。
圖2 差分后自相關(guān)系數(shù)圖
圖3 差分后偏自相關(guān)系數(shù)圖
表1 備選模型參數(shù)估計(jì)
表2 備選模型殘差白噪聲檢驗(yàn)
使用accuracy函數(shù)對ARIMA(0,1,1)(0,1,1)12擬合效果進(jìn)行評價(jià),其MAPE為1.78%,RMSE為0.24。利用建立好的ARIMA(0,1,1)(0,1,1)12模型對2021年7月—2022年5月11個(gè)月的平均住院日進(jìn)行預(yù)測,結(jié)果見表3、圖4。其中2021年8月份的相對誤差較大,其他月份的相對誤差較小,且所有月份預(yù)測值均在95%置信區(qū)間之內(nèi),RMSE為1.49,MAPE為7.78%,預(yù)測結(jié)果較為理想。
表3 2021年7月—2022年5月平均住院日ARIMA(0,1,1)(0,1,1)12模型預(yù)測結(jié)果
圖4 ARIMA(0,1,1)(0,1,1)12模型擬合及預(yù)測圖
本研究以江蘇省某三甲醫(yī)院為樣本醫(yī)院,建立ARIMA模型對平均住院日進(jìn)行預(yù)測,預(yù)測結(jié)果總體可靠,為該院平均住院日的預(yù)測提供了科學(xué)依據(jù),有利于該院合理優(yōu)化醫(yī)療資源配置。
ARIMA模型在建模時(shí)綜合考慮了趨勢因素、周期因素及隨機(jī)誤差等因素的影響,可以很好地對未來一段時(shí)間內(nèi)的平均住院日進(jìn)行預(yù)測。平均住院日的長短,往往也受臨床疾病的影響。該院平均住院日整體呈下降趨勢,并且在2018年年中下降坡度明顯陡峭,可能與該院自2018年7月起成立圍手術(shù)期管理中心,大力開展日間手術(shù)有關(guān)。圍手術(shù)期管理中心集中了入院前的檢查、采血化驗(yàn)、預(yù)約檢查和麻醉評估等4大功能,并對全院的床位實(shí)行統(tǒng)一調(diào)度使用,加快了床位周轉(zhuǎn),因此平均住院日得到進(jìn)一步縮短。從長期數(shù)據(jù)來看,該院平均住院日呈現(xiàn)遞減的時(shí)間序列,說明該院醫(yī)療質(zhì)量以及醫(yī)院運(yùn)營效率在不斷提升。
本研究也存在著一定的局限性。醫(yī)院平均住院日受諸多方面的影響,如病種、術(shù)前待床日、手術(shù)占比、床位使用率、三四級手術(shù)率等[8],而ARIMA模型在建模過程中僅依靠歷史數(shù)據(jù),未能深入分析以上因素對平均住院日的影響。此外,ARIMA模型還忽視了突發(fā)事件或公共政策變化帶來的影響,如研究中2021年8月份的相對誤差較大,當(dāng)月平均住院日出現(xiàn)顯著升高,與當(dāng)時(shí)暴發(fā)的新冠肺炎德爾塔病毒疫情明顯相關(guān)。8月份正值疫情的高發(fā)期,嚴(yán)格的疫情管控措施以及核酸檢測排查要求,加上轉(zhuǎn)運(yùn)病人的異常艱難導(dǎo)致病人滯留院中,使平均住院日顯著升高。在以后的預(yù)測過程中,應(yīng)加強(qiáng)對醫(yī)院平均住院日的監(jiān)測收集,不斷更新數(shù)據(jù),從而提高預(yù)測的準(zhǔn)確性和可靠性。