魏 杰 張 璇 王 柳 汪麗萍
(安徽蚌埠醫(yī)學(xué)院數(shù)理教研室 蚌埠 233030)
頸椎病又稱頸椎綜合征,是頸椎骨關(guān)節(jié)炎、增生性頸椎炎、頸神經(jīng)根綜合征、頸椎間盤(pán)脫出癥的總稱,是一種以退行性病理改變?yōu)榛A(chǔ)的疾患。改革開(kāi)放以來(lái),隨著人民生活水平的提高,頸椎病等慢性疾病越來(lái)越受到人們的關(guān)注。由有關(guān)數(shù)據(jù)可知頸椎病在各年齡段的分布差異較大,在41~50歲之間出現(xiàn)分布高峰;性別分布有差異,女性患者約為男性患者的兩倍;受季節(jié)的影響較大,在夏季高發(fā),冬季相對(duì)較少。且隨著經(jīng)濟(jì)和科技的迅猛發(fā)展,生活便捷,腦力勞動(dòng)占據(jù)人們的時(shí)間日漸增長(zhǎng),身體活動(dòng)隨之減少,頸椎病等退行性疾病威脅著人們的健康。
數(shù)據(jù)來(lái)源:國(guó)家中醫(yī)藥管理局十二五重點(diǎn)???康復(fù)醫(yī)學(xué)科)科研大數(shù)據(jù)。
模型假設(shè):(1)假設(shè)科研大數(shù)據(jù)所給的數(shù)據(jù)真實(shí)可信,不含有人為修改或虛報(bào)的數(shù)據(jù);(2)假設(shè)數(shù)據(jù)處理時(shí)沒(méi)有數(shù)據(jù)的重復(fù)和有效數(shù)據(jù)的丟失,保證數(shù)據(jù)的單一性和完整性;(3)假設(shè)疾病的發(fā)生與其他因素?zé)o關(guān),不考慮生活和行為習(xí)慣的影響。
針對(duì)頸椎病的年發(fā)病密度,建立灰色預(yù)測(cè)模型,預(yù)測(cè)頸椎病在2014~2016年的發(fā)病密度,得出頸椎病發(fā)病密度呈逐年增長(zhǎng)的趨勢(shì)。首先把原始數(shù)據(jù)加工成生成數(shù),得累加生成序列,再次經(jīng)過(guò)緊鄰生成得出緊鄰生成序列和時(shí)間響應(yīng)序列,用最小二乘法估算發(fā)展系數(shù)和灰作用量,通過(guò)估計(jì)值求出預(yù)測(cè)方程,根據(jù)方程得出原始數(shù)據(jù)的擬合值,進(jìn)行殘差檢驗(yàn)、后驗(yàn)差檢驗(yàn)和關(guān)聯(lián)度檢驗(yàn),預(yù)測(cè)方程可靠,從而得出預(yù)測(cè)值。
現(xiàn)如今,人們的生活水平日漸提高,頸椎病的發(fā)病密度有顯著變化。本模型是在數(shù)據(jù)預(yù)處理基礎(chǔ)上,建立灰色預(yù)測(cè)模型,運(yùn)用灰色預(yù)測(cè)法和 MATLAB 軟件編程進(jìn)行數(shù)據(jù)分析和處理,推斷頸椎病 2014~2016 年的發(fā)展趨勢(shì)。 模型基本流程為:
(1)
及時(shí)間響應(yīng)序列
(2)
其中(-a)為發(fā)展系數(shù),b為灰作用量。a和b可通過(guò)最小二乘法來(lái)估算,方法如下:
當(dāng)K≥n時(shí),(2)式為預(yù)測(cè)方程,其計(jì)算結(jié)果為預(yù)測(cè)值。
本題中由數(shù)據(jù)整理可得2009年~2013年的頸椎病患病人數(shù)分別為42,26,78,141,142(由查閱資料可得2014年數(shù)據(jù)不合理,因此舍去),因此X(0)=(42 26 78 141 142)。
此時(shí),通過(guò)matlab計(jì)算(程序見(jiàn)附錄)可得原始數(shù)據(jù)的擬合值為(42,54,78,112,162),而其預(yù)測(cè)出的2014~2016年的頸椎病人數(shù)分別為234、339、490人。
針對(duì)頸椎病月發(fā)病密度,建立自回歸積分滑動(dòng)平均模型(ARIMA 模型),預(yù)測(cè)頸椎病的月發(fā)病密度,對(duì)原始數(shù)據(jù)進(jìn)行平穩(wěn)性檢驗(yàn),不能通過(guò),進(jìn)行差分處理,使數(shù)據(jù)能通過(guò)平穩(wěn)性檢驗(yàn)后,進(jìn)行自相關(guān)和偏自相關(guān)分析和 ARIMA 模型識(shí)別,確定p、q值,建立模型。對(duì)模型進(jìn)行殘差檢驗(yàn)和擬合預(yù)測(cè),模型預(yù)測(cè)可靠。
ARIMA模型是對(duì) ARMA 模型進(jìn)行優(yōu)化得來(lái)的,屬于線性模型,非常適合于預(yù)測(cè)平穩(wěn)時(shí)間序列。它的基本思想是將預(yù)測(cè)對(duì)象隨時(shí)間推移而形成的數(shù)據(jù)序列視為一個(gè)隨機(jī)序列, 用一定的數(shù)學(xué)模型來(lái)近似描述這個(gè)序列,這個(gè)模型一旦被識(shí)別后就可以從過(guò)去值及現(xiàn)在值來(lái)預(yù)測(cè)觀察值。模型基本流程為:
3.2.1獲取數(shù)據(jù)和預(yù)處理
3.2.2ARIMA模型的識(shí)別
圖的自相關(guān)函數(shù)
圖的偏自相關(guān)函數(shù)
表1 模型識(shí)別原則
模型AR(p)MA(q)ARIMA(p,q)自相關(guān)函數(shù)拖尾,指數(shù)衰減或振蕩有限長(zhǎng)度,截尾(q 步)拖尾,指數(shù)衰減或振蕩偏自相關(guān)函數(shù)有限長(zhǎng)度,截尾(q 步) 拖尾,指數(shù)衰減或振蕩拖尾,指數(shù)衰減或振蕩
3.2.3參數(shù)估計(jì)
表2 Model Statistics
ModelNumber of PredictorsModel Fit StatisticsLjung-Box Q(18)Stationary R-squaredR-squaredStatisticsDFSig.Number of Outliers人數(shù)-Model_110.3420.64416.24540.0030
R的平方達(dá)到0.644,擬合度還好,顯著性水平小于0.05,因此系數(shù)都顯著不為0。
當(dāng)K≥n時(shí),(2)式為預(yù)測(cè)方程,預(yù)測(cè)方程是否可靠,需對(duì)其精度進(jìn)行檢驗(yàn)。本文采用殘差檢驗(yàn),關(guān)聯(lián)度檢驗(yàn),后驗(yàn)差檢驗(yàn)和小誤差概率模型進(jìn)行檢驗(yàn),其步驟如下:
(1)殘差檢驗(yàn):即對(duì)模型值和實(shí)際值的殘差進(jìn)行逐點(diǎn)檢驗(yàn)。
分別計(jì)算殘差:
相對(duì)殘差:
(2)后驗(yàn)差檢驗(yàn):即對(duì)殘差分布的統(tǒng)計(jì)特性進(jìn)行檢驗(yàn)。
分別計(jì)算:
由后驗(yàn)差比值和小誤差概率初步推斷預(yù)測(cè)精度等級(jí),見(jiàn)表3。
表3 后驗(yàn)差比值和小誤差概率初步推斷預(yù)測(cè)精度等級(jí)
預(yù)測(cè)精度等級(jí)PC好>0.95<0.35合格>0.80<0.45勉強(qiáng)>0.70<0.50不合格<=0.70>=0.65
經(jīng)過(guò)matlab計(jì)算精度檢驗(yàn)可得:
①關(guān)聯(lián)度為61.2585%;
②小概率誤差P=1;
③方差比c=0.405581;
④合曲線見(jiàn)圖3。
圖3 頸椎病MATLAB年份擬合曲線
由此可得此預(yù)測(cè)合格,該預(yù)測(cè)具有一定的可靠性。
(1)殘差檢驗(yàn)
圖4 殘差的ACF和PACF圖
由圖4可以看出基本上都是平穩(wěn)的,因此ARIMA(5,1,9)模型是合理的。
(2)擬合預(yù)測(cè)
圖5 ARIMA(5,1,9)模型擬合效果
由圖5可知,觀測(cè)值都在預(yù)測(cè)值的置信區(qū)間內(nèi),擬合效果好。
本文針對(duì)頸椎病發(fā)病密度在未來(lái)幾年的發(fā)展趨勢(shì)問(wèn)題,運(yùn)用灰色預(yù)測(cè)模型分析出患有頸椎病的人群在未來(lái)幾年將逐年增多,運(yùn)用ARIMA模型進(jìn)一步分析出患有頸椎病的人群在未來(lái)幾個(gè)月的發(fā)展趨勢(shì),通過(guò)調(diào)整ARIMA模型參數(shù)使預(yù)測(cè)結(jié)果更加真實(shí)可靠,并對(duì)兩個(gè)模型分別用靈敏度分析和殘差檢驗(yàn)進(jìn)行判別其預(yù)測(cè)結(jié)果是否可靠。