李婧文 朱毅
摘要:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與進(jìn)步,網(wǎng)絡(luò)技術(shù)已經(jīng)滲透到人們生活的各方各面。借助于網(wǎng)絡(luò)平臺,網(wǎng)絡(luò)招聘以其高效便捷、范圍廣、無地域限制等優(yōu)點,逐漸超越人才招聘會等傳統(tǒng)招聘方式,成為現(xiàn)今求職的首要渠道。該文以北京市python開發(fā)工程師這一職位的需求量為例,運(yùn)用時間序列預(yù)測模型(ARIMA模型),對未來該職位需求量進(jìn)行預(yù)測,利用創(chuàng)新型招聘技術(shù)提高求職效率、提升網(wǎng)絡(luò)招聘的服務(wù)質(zhì)量。
關(guān)鍵詞:網(wǎng)絡(luò)招聘;時間序列;預(yù)測
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)15-0022-02
1引言
中國勞動人口眾多,就業(yè)形勢日趨嚴(yán)峻,網(wǎng)絡(luò)招聘和求職沒有時間、地域的限制,節(jié)省了時間、精力和費(fèi)用,越來越受到廣大求職者的青睞。對于高校畢業(yè)生來講,選擇一個前景廣闊的行業(yè)十分重要,目前網(wǎng)絡(luò)招聘信息繁雜,而且相當(dāng)多的招聘網(wǎng)站提供的是網(wǎng)絡(luò)中介服務(wù),功能過于單一,用戶滿意度不高,跟不上市場需求的變化。因此為求職者提供直觀數(shù)據(jù),是現(xiàn)今網(wǎng)絡(luò)招聘服務(wù)網(wǎng)站的發(fā)展目標(biāo)。
2原理與統(tǒng)計方法
2.1 ARIMA模型的基本原理
ARIMA模型的全稱叫作自回歸移動平均模型,是統(tǒng)計模型中最常見的一種用來進(jìn)行時間序列預(yù)測的模型,是由博克思(Box)、詹金斯(Jenkins)于20世紀(jì)70年代初提出的著名時間序列預(yù)測模型,又稱為Box-Jenk ins模型。其中AR是自回歸,p為自回歸項;MA為移動平均,q為移動平均項數(shù),d為時間序列成為平穩(wěn)時間序列時所做的差分次數(shù)。ARIMA(p d,q)模型的實質(zhì)就是差分運(yùn)算與ARMA(p,q)模型的組合,即ARMA(p,q)模型經(jīng)d次差分后,即為ARIMA(p,d,q)模型。
2.2數(shù)據(jù)獲取與統(tǒng)計方法
以“北京市python開發(fā)工程師”的職位為例,分別對智聯(lián)招聘、百度招聘等招聘網(wǎng)站中該職位的招聘信息進(jìn)行調(diào)查。選取2018年4月~2018年10月的數(shù)據(jù),用于模型的建立;2018年11月至2019年1月的數(shù)據(jù),用于模型檢驗。對于缺失數(shù)據(jù),取各月份職位需求量的平均值。
受到經(jīng)濟(jì)、企業(yè)招聘周期等制約因素影響,職位信息具有非平穩(wěn)性、非線性的屬性。以職位的需求量為例,其數(shù)據(jù)隨著時間的推移而產(chǎn)生變化,呈現(xiàn)一定的規(guī)律性。使用ARIMA模型來擬合,采用自相關(guān)分析與偏相關(guān)分析的方法來確定模型的類別,即進(jìn)行模型結(jié)構(gòu)辨識;采用差分的方式進(jìn)行數(shù)據(jù)平穩(wěn)化。如果時間序列的不平穩(wěn)是由于存在趨勢特征時,如數(shù)值總體上逐漸增加或者減少,則進(jìn)行一次差分運(yùn)算,將差分后的序列作為模型的輸入序列。如果一次差分后仍不平穩(wěn),則繼續(xù)進(jìn)行差分運(yùn)算,直到序列平穩(wěn)為止。經(jīng)過差分運(yùn)算后,可將帶有趨勢特征的非平穩(wěn)序列轉(zhuǎn)化到一個較為平穩(wěn)的時序數(shù)據(jù)。
3模型擬合過程與結(jié)果
3.1模型的辨識
將實驗數(shù)據(jù)處理,進(jìn)行對數(shù)變換后,發(fā)現(xiàn)非平穩(wěn)性并未消除,則需要通過差分將數(shù)據(jù)平穩(wěn)化。數(shù)據(jù)進(jìn)行一次差分后仍為非平穩(wěn)序列,則進(jìn)行二次差分。經(jīng)過二次差分后的數(shù)據(jù)(如圖1所示),近似平穩(wěn)。對進(jìn)一步對其進(jìn)行單位根檢驗(ADF檢驗),檢測值小于5%時的臨界值,顯示為平穩(wěn)序列。將處理后的數(shù)據(jù),進(jìn)行自相關(guān)分析及偏相關(guān)分析(如圖2、圖3所示),偏自相關(guān)系數(shù)一階截尾,自相關(guān)圖顯示拖尾性。根據(jù)上述結(jié)論,判斷為ARMA(p,q)模型。
3.2模型的參數(shù)估計與檢驗
由3.1可知,觀察自相關(guān)圖及偏相關(guān)圖,偏自相關(guān)系數(shù)一階截尾,自相關(guān)圖顯示拖尾性,初步判定p=1、q=0。為精確起見,選用p,q=0、1為模型參數(shù)進(jìn)行擬合。
為彌補(bǔ)根據(jù)自相關(guān)圖和偏自相關(guān)圖定階的主觀性,在模型擬合優(yōu)度的問題上,本文采用AIC定階準(zhǔn)則。該準(zhǔn)則在極大似然值的基礎(chǔ)上對模型的階數(shù)和參數(shù)給出一組最佳估計。AIC準(zhǔn)則是在給出不同模型的AIC計算公式的基礎(chǔ)上,選取使AIC值最小的那一組階數(shù)為最佳階數(shù)。對于模型ARMA(0,1)、ARMA(1,0),通過計算取得他們的AIC值為3.2245和3.2386。根據(jù)AIC定階準(zhǔn)則,ARMA(0,1)模型的AIC值小于ARMA(1,0)模型的AIC值,因此選擇ARMA(0,1)模型。
模型的檢驗主要是進(jìn)行殘差項的白噪聲檢驗。由于AR—MA(p,g)模型的識別與估計是在假設(shè)隨機(jī)擾動項是在白噪聲的基礎(chǔ)上進(jìn)行的,因此,如果估計的模型確認(rèn)正確的話,殘差應(yīng)代表白噪聲序列。如果通過所估計的模型計算的樣本殘差不是白噪聲,則說明模型的識別與估計有誤,需重新識別與估計。觀察ARMA(0,1)模型的殘差序列,并未存在明顯特征,可看作是無規(guī)律的隨機(jī)白噪聲,即模型擬合成功。
應(yīng)用該模型對2018年4月至2019年1月北京市python開發(fā)工程師職位需求量進(jìn)行預(yù)測,預(yù)測結(jié)果如圖3-4所示。該模型得到的預(yù)測值與真實值平均誤差率在1.03%。從數(shù)據(jù)及圖形上,該模型預(yù)測結(jié)果較為合理。
4結(jié)論
ARIMA模型適用于數(shù)據(jù)量小的短期預(yù)測,預(yù)測結(jié)果精確程度較高。當(dāng)數(shù)據(jù)量增大時,為提高預(yù)測準(zhǔn)確度,可根據(jù)補(bǔ)充的數(shù)據(jù)修正該模型。但隨著預(yù)測期的延長,模型的預(yù)測誤差將逐漸增大,故可使用該模型進(jìn)行短期預(yù)測。
本文利用ARIMA模型針對某一地區(qū)某一職位的需求量進(jìn)行預(yù)測,并取得了較好的預(yù)測效果,為網(wǎng)絡(luò)招聘服務(wù)提供巨大的發(fā)展空間。對于該領(lǐng)域其他方面的預(yù)測,可以把影響因素作為輸入變量,進(jìn)行多變量的時序分析,擬合出更加合理精確的模型。