馮一鉑
(喀什大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,新疆喀什 844000)
隨著我國經(jīng)濟的繁榮發(fā)展,保險行業(yè)在國家的政策下發(fā)展迅速,人們對于保險了解的更加深入,這使得越來越多人愿意給自己及家人一份保障。因此壽險保費收入的預(yù)測,在國家、地區(qū)、公司對于下一階段政策的制定具有重要的指導(dǎo)意義。
基于傳統(tǒng)的保費收入預(yù)測方法,使用單一預(yù)測模型對保費收入進行預(yù)測。孫景云等[1]對2004-2010 年兩家保險公司的壽險和財險保費收入進行預(yù)測和分析,證明了ARIMA 乘積季節(jié)模型在保費收入預(yù)測上有良好的適宜性;尹成遠等[2]對1980-2010 年我國保費收入進行預(yù)測分析,通過模型預(yù)測我國“十二五”期間每年保費收入,并結(jié)合《中國保險業(yè)發(fā)展“十二五”規(guī)劃綱要》做出展望;張鑫等[4]基于灰色最優(yōu)化模型以東北三省為例,對保費收入進行預(yù)測,證明了經(jīng)過創(chuàng)新改進的灰色最優(yōu)模型極大地提高了預(yù)測準(zhǔn)確度;何淑菁等[5]運用BP 神經(jīng)網(wǎng)絡(luò)對我國人身保費收入進行預(yù)測,表明神經(jīng)網(wǎng)絡(luò)模型與計量經(jīng)濟模型相比具有更高的預(yù)測精度。
通過查閱相關(guān)文獻以及學(xué)習(xí),發(fā)現(xiàn)傳統(tǒng)模型的預(yù)測雖然有著操作簡單、運行速度快的優(yōu)點,但未考慮保費收入時間序列數(shù)據(jù)是線性和非線性的組合,僅是單一的進行線性或非線性預(yù)測。傳統(tǒng)的時間序列模型只能擬合保費收入的線性時間序列部分,而神經(jīng)網(wǎng)絡(luò)算法可以任意地逼近非線性數(shù)據(jù),所以本文將傳統(tǒng)的時間序列模型與神經(jīng)網(wǎng)絡(luò)算法進行組合,構(gòu)建線性模型和非線性模型的組合模型對保費收入進行預(yù)測,并證明組合模型的預(yù)測準(zhǔn)確率比使用單個模型更準(zhǔn)確。神經(jīng)網(wǎng)絡(luò)算法可以很好地擬合非線性數(shù)據(jù),在眾多深度學(xué)習(xí)模型中,LSTM 神經(jīng)網(wǎng)絡(luò)[5-6]在時序數(shù)據(jù)分析中較BP 神經(jīng)網(wǎng)絡(luò)[5-6]表現(xiàn)出更強的適應(yīng)性,所以本文提出ARIMA 與LSTM 組合預(yù)測的方法,并利用銀保監(jiān)會公布的北京、天津、上海三個地區(qū)2006 年1月至2020 年12 月,共180 個月的壽險保費收入月度數(shù)據(jù)證明模型的有效性。
ARIMA(p,d,q)模型[1-3]叫差分自回歸移動平均模型,AR 是自回歸,p 是自回歸項,MA 是移動平均,q 為移動平均項,d 為時間序列成為平穩(wěn)時所需做的差分次數(shù)。ARIMA 模型就是指將非平穩(wěn)時間序列轉(zhuǎn)化為平穩(wěn)時間序列,然后將因變量僅對它的滯后值以及隨機誤差項的現(xiàn)值和滯后值進行回歸所建立的模型。ARIMA 模型的通用表達[8]式為:
其中yt為時間序列y 的當(dāng)期值,yt-1為yt前一期的值,yt-2則為yt-1前一期的值,依次類推,Φ1,Φ2,……,Φp是自回歸系數(shù),p 是自回歸階數(shù),Θ1,Θ2,……,Θp是移動平均系數(shù),q 是移動平均階數(shù),{εt}是白噪聲序列。
長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),是遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的變型。RNN 進行訓(xùn)練時采用通過時間反向傳播算法,為了解決在處理長期依賴時的消失梯度問題,Hochreiter&Schmidhuber 提出長短期記憶網(wǎng)絡(luò)模型,LSTM(長短期記憶網(wǎng)絡(luò))相比傳統(tǒng)的RNN,有著更為精細的信息傳遞機制,能有效的解決長時間的依賴問題。同時,作為Encoder-Decoder 框架中的基本細成單元,也能實現(xiàn)時間序列數(shù)據(jù)的編碼和解碼,用記憶單元代替RNN 中隱含層的LSTM 神經(jīng)元實現(xiàn)對過去信息的記憶,每個記憶單元中包含一個或多個記憶細胞和三個門控制器,LSTM 的核心是一個記憶單元,由遺忘門(Forget Gate)、輸入門(Input Gate)和輸出門(Output Gate)組成,“門”結(jié)構(gòu)能夠控制信息在網(wǎng)絡(luò)中的狀態(tài)?!伴T”結(jié)構(gòu)依賴于Sigmoid 激活函數(shù),當(dāng)輸出為0 時,表示丟棄信息,當(dāng)輸出為1時,表示完全保留信息,其他情況表示保留部分信息。
由于壽險保費收入時間序列數(shù)據(jù)比較復(fù)雜,既有線性趨勢又有非線性趨勢,使用單一的ARIMA 模型或LSTM 神經(jīng)網(wǎng)絡(luò)預(yù)測誤差都會比較大。所以,先利用ARIMA 模型預(yù)測各地區(qū)壽險保費收入的時間序列線性部分,時間序列的非線性部分就包含在了ARIMA 模型的誤差部分,然后利用LSTM 神經(jīng)網(wǎng)絡(luò)對ARIMA 的誤差序列進行預(yù)測,將ARIMA 的預(yù)測值和LSTM 神經(jīng)網(wǎng)絡(luò)的預(yù)測值求和,則可得到最終的組合模型預(yù)測值。
ARIMA 模型以2017 年1 月至2020 年12 月48 個月的數(shù)據(jù)作為測試集,其他月份的數(shù)據(jù)為訓(xùn)練集,該模型利用Python構(gòu)建。
2.1.1 壽險保費收入時間序列平穩(wěn)化
在使用ARIMA 模型對數(shù)據(jù)進行預(yù)測前,先通過ADF 檢驗即單位根檢驗來判斷差分前后的序列是否平穩(wěn)。在0.05 的顯著性水平下,原始序列不平穩(wěn)。分別對不同地區(qū)數(shù)據(jù)進行差分,可以看出北京、天津和上海的數(shù)據(jù)都在進行12 階差分后數(shù)據(jù)趨于平穩(wěn),故d北京=2、d天津=2、d上海=2。隨后利用自相關(guān)(ACF)圖和偏自相關(guān)(PACF)圖,以及AIC 最小的準(zhǔn)則來確定p 和q 的值。
最終通過實驗確定三個地區(qū)的ARIMA 模型,北京壽險保費收入的模型為ARIMA(0,2,1),天津壽險保費收入的模型為ARIMA(1,2,1),上海壽險保費收入的模型為ARIMA(0,2,1)。
2.1.2 參數(shù)估計及模型的檢驗
利用最大似然法進行各個階數(shù)的參數(shù)估計,得到各階的系數(shù)估計以及標(biāo)準(zhǔn)誤差。估計結(jié)果如表1 所示。
表1 ARIMA 系數(shù)估計結(jié)果(注:括號內(nèi)數(shù)值為標(biāo)準(zhǔn)誤差)
對三個模型的殘差序列進行Ljung_Box 檢驗,得到北京、天津、上海三個地區(qū)ARIMA 模型得殘差序列的Ljung_Box 檢驗結(jié)果的p 值分別為0.983、0.369、0.479,在0.05 的顯著性水平下,可以判斷三個殘差序列均為白噪聲,表明所構(gòu)建的模型是有效的。
通過Python 的keras 庫實現(xiàn)LSTM 神經(jīng)網(wǎng)絡(luò)的構(gòu)建。使用LSTM 神經(jīng)網(wǎng)絡(luò)對各地區(qū)殘差序列進行預(yù)測,同樣使用2017 年1 月至2020 年12 月的數(shù)據(jù)作為測試集,并對數(shù)據(jù)進行歸一化處理。選用滾動式的神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)的時間步長(time step)都設(shè)置為12,即以前某年的12 個月為輸入,第二年的第一個月為輸出。考慮到壽險保費收入序列較簡單,所以本文構(gòu)建的LSTM神經(jīng)網(wǎng)絡(luò),在隱藏層中使用雙曲正切函數(shù)(tanh)為激活函數(shù),迭代次數(shù)為400 次,批大小(batch size)統(tǒng)一設(shè)置為10。
為驗證LSTM 神經(jīng)網(wǎng)絡(luò)在時序數(shù)據(jù)上的擬合效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò),BP 神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置與LSTM 神經(jīng)網(wǎng)絡(luò)一致。通過計算指標(biāo)的均方誤差(RMSE)和平均誤差百分比(MAPE)來判斷,其結(jié)果越小越好。結(jié)果如表2 所示。
表2 LSTM 神經(jīng)網(wǎng)絡(luò)和BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果對照
通過表3 可知LSTM 神經(jīng)網(wǎng)絡(luò)中的RMSE 和MAPE 都比BP 神經(jīng)網(wǎng)絡(luò)中的值低,表明了LSTM 神經(jīng)網(wǎng)絡(luò)在時序預(yù)測中較BP 神經(jīng)網(wǎng)絡(luò)更精確。故使用LSTM 神經(jīng)網(wǎng)絡(luò)對北京、天津、上海三個地區(qū)壽險保費收入的ARIMA 模型的殘差序列進行訓(xùn)練和預(yù)測。
表3 ARIMA 模型和組合模型的預(yù)測結(jié)果對照
組合模型先利用北京、天津、上海三個地區(qū)ARIMA 模型進行預(yù)測,再利用LSTM 神經(jīng)網(wǎng)絡(luò)對三個殘差序列進行預(yù)測,將ARIMA 模型的預(yù)測結(jié)果與LSTM 神經(jīng)網(wǎng)絡(luò)對殘差的預(yù)測結(jié)果進行相加得到最終的預(yù)測結(jié)果,預(yù)測結(jié)果如表3 所示。
通過表3 可知,組合模型較傳統(tǒng)ARIMA 模型在RMES 和MAPE 都有明顯的下降:北京地區(qū)MAPE 下降了9.8%、RMSE 下降了51.97;天津地區(qū)分別下降了4.5%、28.49;上海地區(qū)分別下降了18.7%、57.56。同時組合模型的擬合的精確度得到了提升:北京、天津、上海三個地區(qū)分別提升了33.79%、28.7%、18.77%。
本文主要運用ARIMA 模型以及LSTM 神經(jīng)網(wǎng)絡(luò)構(gòu)建了對時序數(shù)據(jù)進行預(yù)測的組合模型。利用北京、天津、上海三個地區(qū)壽險保費收入數(shù)據(jù)對模型進行驗證,主要結(jié)論如下:動態(tài)神經(jīng)網(wǎng)絡(luò)LSTM 較靜態(tài)網(wǎng)絡(luò)BP 神經(jīng)網(wǎng)絡(luò)在時序預(yù)測上更精確;組合模型保持ARIMA 模型實操簡單、運行速度快的基礎(chǔ)上提升了模型的預(yù)測精度;組合模型是基于處理線性與非線性問題提出的,具有一定的可適用性,也可處理其他時序預(yù)測。
本文將傳統(tǒng)的統(tǒng)計方法與深度學(xué)習(xí)技術(shù)融合,在保險金融方向利用深度學(xué)習(xí)前沿技術(shù)進行了積極探索。但本文也有值得改進的方向,包括建立的ARIMA 模型較簡單,未考慮季節(jié)因素;在對ARIMA 模型和LSTM 神經(jīng)網(wǎng)絡(luò)進行組合時,組合方法不夠創(chuàng)新,后來學(xué)者可在模型的組合上做更好的優(yōu)化。