卓小康,郭振友
(桂林醫(yī)學(xué)院人文與管理學(xué)院,廣西 桂林 541000)
廣西是我國(guó)艾滋病高發(fā)地區(qū),相關(guān)統(tǒng)計(jì)顯示[1],到2017 年10 月為止,生活在廣西的艾滋病患者共計(jì)報(bào)告8 萬多例。隨著老齡化社會(huì)的發(fā)展,艾滋病傳播流行呈現(xiàn)出新特征,其中以老年男性HIV 感染人數(shù)快速增長(zhǎng)為顯著特征之一[2-4],這充分表明老年人群現(xiàn)已成為艾滋病感染的高危群體。既往艾滋病預(yù)測(cè)研究主要以ARIMA 模型、灰色模型為主,用BP 神經(jīng)網(wǎng)絡(luò)模型的較少。因此,本研究基于ARIMA模型和BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)2005-2017 年廣西老年人艾滋病月發(fā)病率數(shù)據(jù)建立預(yù)測(cè)模型,并擬合形成最優(yōu)預(yù)測(cè)模型,為制定老年人艾滋病防控政策、措施提供參考。
1.1 資料來源 相關(guān)數(shù)據(jù)來源于廣西疾病預(yù)防控制中心法定傳染病報(bào)告收集的廣西艾滋病發(fā)病人數(shù)數(shù)據(jù)以及廣西統(tǒng)計(jì)局2005-2017 年廣西統(tǒng)計(jì)年鑒收集的廣西總?cè)丝跀?shù)據(jù),進(jìn)而計(jì)算得出廣西壯族自治區(qū)2005-2017 年老年人艾滋病月發(fā)病率數(shù)據(jù)。
1.2 ARIMA 模型建模
1.2.1 數(shù)據(jù)預(yù)處理 將2005-2016 年廣西老年人艾滋病月發(fā)病率形成包含144 個(gè)數(shù)據(jù)的時(shí)間序列,然后檢驗(yàn)2005-2016 年廣西老年人艾滋病月發(fā)病率時(shí)間序列的平穩(wěn)性(圖1)。因原始數(shù)據(jù)波動(dòng)幅度較大,在2011 年達(dá)到最大值,序列明顯不平穩(wěn),因此做差分使其平穩(wěn)化,經(jīng)過一階差分后(圖2),數(shù)據(jù)在一定范圍內(nèi)上下波動(dòng),相對(duì)穩(wěn)定,視為平穩(wěn)序列。
圖1 差分前時(shí)間序列圖
圖2 差分后時(shí)間序列圖
1.2.2 模型識(shí)別 根據(jù)自相關(guān)圖和偏自相關(guān)圖,判斷樣本p 值和q 值,通過顯示出來的特點(diǎn),將全部可能的模型進(jìn)行擬合與建模,綜合各個(gè)模型的統(tǒng)計(jì)量、AIC、BIC 等值進(jìn)行比較,最終選擇最佳模型。
1.2.3 模型檢驗(yàn) 用白噪聲檢驗(yàn)判斷模型的顯著性,用參數(shù)檢驗(yàn)判斷參數(shù)的顯著性[5]。若為非白噪聲序列,說明模型不具代表性,需考慮擬合其他模型。反之,模型顯著有效。
1.3 BP 神經(jīng)網(wǎng)絡(luò)模型建模
1.3.1 數(shù)據(jù)預(yù)處理 訓(xùn)練前使數(shù)據(jù)規(guī)范化,以快速獲得最佳模型。2005-2017 年廣西老年人艾滋病月發(fā)病率均大于1,不符合規(guī)范,予以歸一化處理,將月發(fā)病率通過mapminmax 函數(shù)運(yùn)算映射到[-1,1]區(qū)間。
1.3.2 確定參數(shù) 將2005-2016 年廣西老年人艾滋病月發(fā)病率數(shù)據(jù)作為訓(xùn)練集,2017 年1 月-12 月廣西老年人艾滋病月發(fā)病率數(shù)據(jù)作為測(cè)試集。用2005年1 月、2006 年1 月、2007 年1 月的廣西老年人艾滋病月發(fā)病率預(yù)測(cè)2008 年1 月的廣西老年人艾滋病月發(fā)病率,最后分別形成3×108 的輸入矩陣和1×108 的輸出矩陣。數(shù)據(jù)集分割之后,確定參數(shù),如網(wǎng)絡(luò)層數(shù)、各層神經(jīng)元節(jié)點(diǎn)數(shù)、激活函數(shù)、目標(biāo)誤差、訓(xùn)練函數(shù)等[6,7]。
1.4 統(tǒng)計(jì)學(xué)方法 利用SPSS 26.0 統(tǒng)計(jì)學(xué)軟件進(jìn)行分析,借助R 4.0.3 軟件完成ARIMA 模型建模,應(yīng)用MATLAB 2018b 軟件實(shí)現(xiàn)BP 神經(jīng)網(wǎng)絡(luò)模型建模及預(yù)測(cè),應(yīng)用WPS Excel 軟件進(jìn)行誤差分析。采用均方誤差(mean square error,MSE)、平均絕對(duì)誤差(mean absolute error,MAE)和平均絕對(duì)誤差百分比(mean absolute percent error,MAPE)3 個(gè)誤差指標(biāo)評(píng)價(jià)2個(gè)模型的預(yù)測(cè)效果,數(shù)值越小,表明模型預(yù)測(cè)效果越佳[8]。計(jì)數(shù)資料以(n)表示,采用字2檢驗(yàn)。以P<0.05表示差異有統(tǒng)計(jì)學(xué)意義。
2.1 ARIMA 建模結(jié)果
2.1.1 模型識(shí)別 使用auto.arima 函數(shù)進(jìn)行ARIMA模型自動(dòng)識(shí)別,R 軟件根據(jù)函數(shù)自動(dòng)的擬合所有可能的模型,篩選掉AIC 較大的模型,選出AIC 最小的模型為最優(yōu)模型,即ARIMA(2,1,2)(2,0,0)12。
2.1.2 模型檢驗(yàn)結(jié)果 模型檢驗(yàn)結(jié)果中P值均大于0.05,屬于白噪聲序列,擬合模型有效。用P值函數(shù)對(duì)模型參數(shù)做t檢驗(yàn),結(jié)果顯示6 個(gè)參數(shù)的P值均小于0.05,參數(shù)顯著有效,該模型可定為最優(yōu)模型,見表1。
表1 ARIMA 模型殘差序列白噪聲檢驗(yàn)
2.2 BP 神經(jīng)網(wǎng)絡(luò)建模結(jié)果 經(jīng)反復(fù)訓(xùn)練網(wǎng)絡(luò)發(fā)現(xiàn),隱含層節(jié)點(diǎn)數(shù)為9 時(shí),訓(xùn)練函數(shù)用trainlm,目標(biāo)誤差為0.01,模型經(jīng)過6 次迭代訓(xùn)練后誤差達(dá)到目標(biāo)值,模型決定系數(shù)R2=0.8858,此時(shí)訓(xùn)練得到的模型最優(yōu),即LM算法3-9-1 結(jié)構(gòu)的BP 神經(jīng)網(wǎng)絡(luò)模型。
2.3 模型預(yù)測(cè)效果比較 利用訓(xùn)練好的ARIMA(2,1,2)(2,0,0)12模型和LM算法3-9-1 結(jié)構(gòu)的BP 神經(jīng)網(wǎng)絡(luò)模型分別預(yù)測(cè)2017 年1 月-12 月廣西老年人艾滋病發(fā)病率,結(jié)果顯示兩種模型的預(yù)測(cè)值與實(shí)際值趨勢(shì)吻合,虛線、點(diǎn)線均在實(shí)線下方,見圖3。與2017 年發(fā)病率的實(shí)際平均值相比,兩種模型的預(yù)測(cè)平均值均小于實(shí)際平均值,但BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)值較接近實(shí)際,見表2。BP 神經(jīng)網(wǎng)絡(luò)模型的MSE=0.0822、MAE=0.2352、MAPE=0.1510%均小于ARIMA 模型的MSE=0.1198、MAE=0.3775、MAPE=0.2368%。
表2 ARIMA(2,1,2)(2,0,0)12 模型與LM算法3-9-1 結(jié)構(gòu)的BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)比較
圖3 2017 年預(yù)測(cè)值與實(shí)際值對(duì)比時(shí)序圖
老年人是我國(guó)艾滋病流行新出現(xiàn)的重點(diǎn)人群,相關(guān)研究表明[9,10],廣西老年人群艾滋病發(fā)病率較高,尤其是空巢老年男性以嫖娼感染為主。做好艾滋病疫情的監(jiān)測(cè),能助力建設(shè)健康中國(guó)和實(shí)現(xiàn)健康老齡化。目前關(guān)于各類傳染病發(fā)病率預(yù)測(cè)的模型十分豐富,包括BP 神經(jīng)網(wǎng)絡(luò)模型、ARIMA 模型、GM(1,1)模型、Elman 模型、Prophet 模型、Spectrum/EPP模型等。
就模型的適用條件而言,ARIMA 模型和GM(1,1)模型都是傳統(tǒng)的線性模型,前者要求數(shù)據(jù)資料是平穩(wěn)的時(shí)間序列,可充分體現(xiàn)趨勢(shì)性和季節(jié)性,同時(shí)也能把復(fù)雜的影響因素化繁為簡(jiǎn),統(tǒng)一規(guī)劃到時(shí)間變量中[11],以時(shí)間這一線性變量做研究,后者對(duì)于波動(dòng)性較大數(shù)據(jù)不適用。Prophet 模型在ARIMA 模型的基礎(chǔ)上加入了節(jié)日這一因素,適用于處理受節(jié)日影響的數(shù)據(jù)資料。受人腦神經(jīng)元學(xué)習(xí)能力的啟發(fā)出現(xiàn)了基于機(jī)器語言的人工神經(jīng)網(wǎng)絡(luò),它不受主觀因素的影響,并且能根據(jù)輸入數(shù)據(jù)自主學(xué)習(xí),具有極強(qiáng)的非線性映射能力。BP 神經(jīng)網(wǎng)絡(luò)模型是典型的非線性模型,對(duì)數(shù)據(jù)資料無特殊要求,更擅長(zhǎng)處理數(shù)據(jù)資料中的非線性信息。Elman 模型是一種比BP 神經(jīng)網(wǎng)絡(luò)多一層承接層動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò),使用范圍更廣。Spectrum/EPP 模型則是需要輸入分類指標(biāo)的艾滋病疫情預(yù)測(cè)模型[12]。就預(yù)測(cè)精度而言,郭玉秀[13]和程燕等[14]在發(fā)病率預(yù)測(cè)研究中發(fā)現(xiàn),ARIMA 模型比GM(1,1)模型預(yù)測(cè)精度高。孫錦峰等[15]在流感發(fā)病率研究中發(fā)現(xiàn),ARIMA 模型比Elman 模型精度高。李順勇等[16]在艾滋病發(fā)病率研究中發(fā)現(xiàn),Prophet 模型較ARIMA 模型的預(yù)測(cè)效果更優(yōu)。陳遠(yuǎn)方等[17]在乙肝發(fā)病率研究中發(fā)現(xiàn),當(dāng)樣本量較大時(shí),ARIMA模型預(yù)測(cè)精度略高于BP 神經(jīng)網(wǎng)絡(luò)模型,反之BP神經(jīng)網(wǎng)絡(luò)模型精度更高。由此可見,在線性模型中ARIMA 模型預(yù)測(cè)效果更好,而BP 神經(jīng)網(wǎng)絡(luò)模型在小樣本中具有良好的適用性。
本研究結(jié)果顯示,廣西老年人艾滋病月發(fā)病率是不穩(wěn)定的,隨著影響因素的變化而上下波動(dòng),其影響因素包括民族風(fēng)俗習(xí)慣、交通發(fā)展水平、經(jīng)濟(jì)水平、人口流動(dòng)、文化程度、國(guó)家方針政策及其它相關(guān)影響因素等[18-20],這些因素錯(cuò)綜復(fù)雜,大部分以非線性關(guān)系形式存在,簡(jiǎn)單的線性模型難以解釋清楚。綜合模型的適用條件、預(yù)測(cè)精度和本文數(shù)據(jù)自身的特點(diǎn)進(jìn)行雙向選擇,嘗試選用傳統(tǒng)的線性模型ARIMA模型和基于機(jī)器學(xué)習(xí)的非線性模型BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)2005-2017 年廣西老年人艾滋病月發(fā)病率進(jìn)行研究,模型間形成對(duì)照,擇優(yōu)應(yīng)用于廣西老年人艾滋病月發(fā)病率預(yù)測(cè),結(jié)果表明LM算法3-9-1 結(jié)構(gòu)的BP 神經(jīng)網(wǎng)絡(luò)的MSE、MAE、MAPE 均小于ARIMA(2,1,2)(2,0,0)12模型,前者預(yù)測(cè)精度更高,與陳婷[9]的研究結(jié)果一致,證實(shí)在艾滋病發(fā)病率預(yù)測(cè)方面,BP 神經(jīng)網(wǎng)絡(luò)模型優(yōu)于其他預(yù)測(cè)模型,預(yù)測(cè)結(jié)果說服力更強(qiáng),可信度更高,因此LM算法3-9-1 結(jié)構(gòu)的BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)精度更好,更適合用于廣西老年人艾滋病月發(fā)病率的預(yù)測(cè);同時(shí),其可以用來預(yù)測(cè)廣西老年人艾滋病未來的發(fā)病趨勢(shì),利于衛(wèi)生部門及時(shí)把握艾滋病的流行狀況,制定應(yīng)對(duì)策略,合理使用衛(wèi)生資源。但本研究只考慮了時(shí)間與發(fā)病率之間的關(guān)系,并沒有將影響廣西老年人艾滋病發(fā)病率的具體因素作為變量納入模型中,后期研究將進(jìn)一步收集具體影響因素的數(shù)據(jù)資料放入模型中綜合分析,優(yōu)化模型,提高預(yù)測(cè)性能。
總之,本文構(gòu)建的模型是基于歷史報(bào)告數(shù)據(jù)所構(gòu)建的,訓(xùn)練好的最優(yōu)模型LM算法3-9-1 結(jié)構(gòu)的BP 神經(jīng)網(wǎng)絡(luò)模型具有一定的時(shí)效性。若建模環(huán)境發(fā)生變化影響艾滋病疫情,模型的參數(shù)也會(huì)隨著數(shù)據(jù)的改變而改變。此時(shí),在相對(duì)穩(wěn)定的大環(huán)境背景下,訓(xùn)練好的最優(yōu)模型則不再適用,需要及時(shí)補(bǔ)充新的月發(fā)病率數(shù)據(jù),重新訓(xùn)練建模擬合新模型,利用新模型做后續(xù)時(shí)間的預(yù)測(cè),這樣預(yù)測(cè)結(jié)果更具科學(xué)性和參考價(jià)值。