李媛
摘要 將數(shù)據(jù)挖掘技術(shù)中的時(shí)間序列分析方法應(yīng)用于職工平均工資預(yù)測中,以中國勞動(dòng)統(tǒng)計(jì)年鑒1985-2010年的數(shù)據(jù)為研究對(duì)象,基于ARIMA模型的時(shí)間序列方法對(duì)平均工資進(jìn)行預(yù)測,通過對(duì)數(shù)據(jù)序列進(jìn)行平穩(wěn)性檢驗(yàn)、單位根檢驗(yàn),運(yùn)用差分的方法將序列轉(zhuǎn)化為平穩(wěn)序列,分析模型建立的可行性。對(duì)模型進(jìn)行參數(shù)估計(jì),運(yùn)用AIC準(zhǔn)則篩選合適模型,預(yù)測2 011-2 015年我國城鎮(zhèn)就業(yè)人員平均工資,將預(yù)測值在合理誤差范圍內(nèi)的模型進(jìn)行殘差白噪聲檢驗(yàn),得出最終模型,從實(shí)用層面評(píng)估了預(yù)測模型的建模方法和預(yù)測數(shù)據(jù)的可信度。
【關(guān)鍵詞】工資預(yù)測 時(shí)間序列分析 ARIMA模型 數(shù)據(jù)挖掘
工資是勞動(dòng)者勞動(dòng)收入的主要組成部分,是衡量收入、分配與勞動(dòng)力發(fā)展水平的重要指標(biāo),也是國家宏觀經(jīng)濟(jì)調(diào)控的杠桿,是勞動(dòng)力布局、產(chǎn)業(yè)結(jié)構(gòu)調(diào)整的參考依據(jù)。有效進(jìn)行平均工資預(yù)測,為勞動(dòng)經(jīng)濟(jì)決策提供依據(jù),對(duì)研究勞動(dòng)經(jīng)濟(jì)發(fā)展趨勢有重要意義,因此,必須進(jìn)行工資預(yù)測?,F(xiàn)如今很多專家學(xué)者運(yùn)用多種方法對(duì)工資進(jìn)行預(yù)測,如線性回歸法、指數(shù)平滑法、Logistic模型等。將就業(yè)人員平均工資按年計(jì),構(gòu)成一個(gè)時(shí)間序列,稱為工資時(shí)間序列,對(duì)其可用時(shí)間序列分析的方法建模和預(yù)測。
時(shí)間序列是系統(tǒng)中某變量的觀測值按時(shí)間順序(時(shí)間間隔相同)排列成一個(gè)數(shù)值序列,展示研究對(duì)象在一定時(shí)期內(nèi)的變動(dòng)過程。通過處理預(yù)測目標(biāo)本身的時(shí)間序列數(shù)據(jù),獲得事物隨時(shí)間的演變特性與規(guī)律,進(jìn)而預(yù)測事物的未來發(fā)展。時(shí)間序列分析就是從中尋找和分析事物的變化特征、發(fā)展趨勢和規(guī)律,它是系統(tǒng)中某一變量受其他各種因素影響的總結(jié)果。時(shí)間序列數(shù)據(jù)區(qū)別于普通資料的本質(zhì)特征是相鄰觀測值之間的依賴性,或稱自相關(guān)性。本文嘗試運(yùn)用時(shí)間序列數(shù)據(jù)分析中常用的ARIMA模型對(duì)我國城鎮(zhèn)單位就業(yè)人員平均工資進(jìn)行分析并做出預(yù)測。
1 ARIMA模型
1.1 平穩(wěn)性檢驗(yàn)
根據(jù)ARIMA算法的建模步驟,可知ARIMA模型是以平穩(wěn)隨機(jī)序列為前提的,因此需先檢驗(yàn)平均工資的平穩(wěn)性。本文選用1980到2010年的數(shù)據(jù)建立模型,以此對(duì)2011-2015年平均工資進(jìn)行預(yù)測,并與實(shí)際值進(jìn)行比較。
建立ARIMA模型前,先做序列圖,分析發(fā)現(xiàn)因我國平均工資逐年增加,為非平穩(wěn)時(shí)間序列。
1.2 單位根檢驗(yàn)
接下來進(jìn)行單位根檢驗(yàn),采用ADF檢驗(yàn)法,得出序列相應(yīng)的檢驗(yàn)式是:
AYt= 0.1940Yt_1+0.2700AYt_1 - 0.7257AYt_1
因?yàn)锳DF=4.8889,分別大于1%、5%、10%三個(gè)顯著性水平的臨界值-2.6501、.1.9534、-1.6098,表明我國1980-2010年平均工資序列yt存在單位根,是一個(gè)非平穩(wěn)序列。
在此情況下,繼續(xù)對(duì)平均工資的一階差分進(jìn)行單位根檢驗(yàn),得出ADF=2.7545,分別大于1%、5%、10%三個(gè)顯著性水平的臨界值-3.6999、-2.9763、-2.6274,表明我國1980-2010年平均工資一階差分序列D(Y)存在單位根,是一個(gè)非平穩(wěn)序列。
因此,繼續(xù)對(duì)平均工資的二階差分進(jìn)行單位根檢驗(yàn),得圖1。
因?yàn)锳DF=-5.9091, 分別小于1%、5%、10%三個(gè)顯著性水平的臨界值-4.3393、.3.5875、-3.2292。判斷平均工資二階差分序列D(Y-2)是一個(gè)平穩(wěn)序列。
1.3 ARIMA時(shí)間序列模型建立
由于我國平均工資水平一直增長,因此判定為無周期,可采用ARMA(p,q)模型。需計(jì)算平穩(wěn)時(shí)間序列的樣本自相關(guān)系數(shù)(ACF)和偏自相關(guān)系數(shù)( PACF),然后依此來估計(jì)p、q值。
做出二階差分后序列D(Y,2)滯后12期的ACF圖和PACF圖,得圖2。
由圖2可看出自相關(guān)系數(shù)和偏相關(guān)系數(shù)均為拖尾,初步識(shí)別該模型ARMA(p,q)。
1.4 ARIMA模型參數(shù)估計(jì)
選用最佳準(zhǔn)則函數(shù)定階法,即AIC準(zhǔn)則,在模型參數(shù)極大似然估計(jì)的基礎(chǔ)上,對(duì)模型的階數(shù)和相應(yīng)參數(shù)給出一組最佳估計(jì)。AIC準(zhǔn)則是在給出不同模型的AIC計(jì)算公式基礎(chǔ)上,選取使AIC達(dá)到最小的那一組階數(shù)為理想階數(shù)。列舉比較選擇法知,可能擬合的模型為ARMA(p,q)。
因此對(duì)差分序列D(Y,2)分別估計(jì)下面若干模型:
AR(1) AR(2) AR(3) MA(1) MA(2) MA(3)MA(4) MA(5) MA (6) ARMA(1,1) ARMA(1,2)ARMA(1,3) ARMA(1,4) ARMA(1,5)ARMA(1,6) ARMA(2,1) ARMA(2,2) ARMA(2,3) ARMA(2,4) ARMA(2,5) ARMA(2,6)ARMA(3,1) ARMA(3,2) ARMA(3,3) ARMA(3,4)ARMA(3,5) ARMA(3,6)
對(duì)AR(1)模型進(jìn)行擬合,從模型的整體擬合效果來看,調(diào)整后的決定性系數(shù),AIC和sc準(zhǔn)則都是選擇模型的重要標(biāo)準(zhǔn)。得出AIC=14.84753, SC=14.94269。
同理,對(duì)其他模型進(jìn)行相應(yīng)參數(shù)估計(jì),得到模型參數(shù)估計(jì)的AIC和SC如表1所示。
由表1可知, 模型ARMA(1,1)、ARMA(2,2)、ARMA(3,4)、ARMA(3,5)、ARMA(3,6)的AIC和SC值比較小。由于原始序列做了二階差分后才平穩(wěn),因此,選擇對(duì)ARIMA(1,2,1)、ARIMA(2,2,2)、ARIMA(3,2,4)、ARIMA(3,2,5)、ARIMA (3,2,6)這5個(gè)模型進(jìn)行預(yù)測。
1.5 模型預(yù)測結(jié)果
各模型對(duì)應(yīng)的預(yù)測值及誤差如表2。
由表2可看出,模型ARIMA(1,2,1)、ARIMA(2,2,2)、ARIMA(3,2,4)、ARIMA(3,2,5)相對(duì)誤差較少,因此,初步選定這4個(gè)模型作為預(yù)測模型。
1.6 殘差白噪聲檢驗(yàn)
參數(shù)估計(jì)后,需對(duì)模型殘差序列進(jìn)行白噪聲檢驗(yàn),若殘差序列不是白噪聲序列,意味著殘差序列還存在有用信息沒有提取,需進(jìn)一步改進(jìn)。
檢驗(yàn)?zāi)P虯RIMA(1,2,1),生成殘差序列的自相關(guān)分析圖,存在P值小于0.05,不是白噪聲序列,則不平穩(wěn)。
再檢驗(yàn)?zāi)P虯RIMA(3,2,4),生成殘差序列的自相關(guān)分析圖,發(fā)現(xiàn)所有P值大于0.05,是白噪聲序列,則平穩(wěn)。
同理, 檢驗(yàn)?zāi)P虯RIMA(2,2,2)、ARIMA(3,2,5),均存在P值小于0.05,不是白噪聲序列,則不平穩(wěn)。
因此,最終選擇模型ARIMA(3,2,4)做為預(yù)測模型,其對(duì)應(yīng)的2011至2015年平均工資預(yù)測值依次為:41609、46722、51994、57915. 64232。
2 結(jié)論
運(yùn)用模型ARIMA(3,2,4)對(duì)2011-2015年的平均工資進(jìn)行預(yù)測,并與實(shí)際值比較,發(fā)現(xiàn)其誤差介于-0.4546%至3.5516%之間,證明此模型具有較高精準(zhǔn)性。當(dāng)然,任何一種預(yù)測方法都是建立在一定假設(shè)條件基礎(chǔ)之上,而任何一種假設(shè)條件都難以包含現(xiàn)實(shí)世界中的所有復(fù)雜關(guān)系,相對(duì)而言,此模型對(duì)于中短期平均工資預(yù)測精確度較高。
本文所建模型是依靠滯后信息建立的平均工資預(yù)測模型,可以不用考慮數(shù)據(jù)采集成本。最終所選模型的p為3,q為4,是符合模型建立的簡單原則的。但在采用列舉比較選擇法時(shí),所選模型數(shù)據(jù)有限,因此在更加精準(zhǔn)的預(yù)測平均工資水平上,還需要進(jìn)一步嘗試、思考和研究。
參考文獻(xiàn)
[1]國家統(tǒng)計(jì)局人口和就業(yè)統(tǒng)計(jì)司,人力資源和社會(huì)保障部規(guī)劃財(cái)務(wù)司,中國勞動(dòng)統(tǒng)計(jì)年鑒2016 [M].北京:中國統(tǒng)計(jì)出版社.2017.
[2]馬慧慧.Eviews統(tǒng)計(jì)分析與應(yīng)用[M].北京:電子工業(yè)出版社,2016.
[3]周英,卓金武,卞月青,大數(shù)據(jù)挖掘系統(tǒng)方法與實(shí)例分析[M],北京:機(jī)械工業(yè)出版社,2016.
[4]韓紹庭,周雨欣,多元線性回歸與ARIMA在中國人口預(yù)測中的比較研究[J].中國管理信息化,2014,17 (22):100-102.
[5]張良均,楊坦,肖剛,徐圣兵.MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版社,2015.
[6]池啟水,劉曉雪.ARIM模型在煤炭消費(fèi)預(yù)測中的應(yīng)用分析[J].能源研究與信息,2007,23(02):117-123.
[7]易丹輝.時(shí)間序列分析:方法與應(yīng)用[M],北京:中國人民大學(xué)出版社,2 011.
[8]湯志浩,張璐,基于平均工資預(yù)測的數(shù)學(xué)模型[J],湖南工程學(xué)院學(xué)報(bào),2015,25 (03): 42-45.
[9][美] Daniel T.Larose, ChantalD. Larose著,王念濱,宋敏.裴大茗譯.數(shù)據(jù)挖掘與預(yù)測分析(第2版)[M].北京:清華大學(xué)出版社,2017.
[10]李生彪.基于阻滯增長模型的山東省職工的年平均工資預(yù)測[J].時(shí)代金融,2013,543:124-125.