王書鵬 迮恒鵬 王 濤 黃素珍 劉桂蘭
(1.鹽城工學院經(jīng)管學院;2.鹽城工學院電氣學院;3.鹽城工學院數(shù)理學院)
針對汽車銷量預測研究問題,目前大多數(shù)建立的是傳統(tǒng)的時間序列分析模型[1-7]。它們存在兩點不足:(1)僅利用汽車歷史銷售數(shù)據(jù)解決汽車銷量預測問題,事實上存在眾多銷量影響汽車銷量預測的因素,比如原材料因素、消費者因素、網(wǎng)絡傳播因素、宏觀經(jīng)濟因素等;(2)需要事先假定歷史銷量和銷量之間呈線性關(guān)系,事實上銷量和歷史銷量以及其他影響因素之間存在高度非線性的關(guān)系。本文將利用機器學習技術(shù)[8],建立多因素非線性自回歸汽車銷量預測模型。
選取本月汽車銷量作為因變量,解釋變量包括歷史汽車銷量、鋼材產(chǎn)量、橡膠輪胎產(chǎn)量、貨幣供應量、百度搜索指數(shù)、居民消費價格指數(shù)等,為了方便表述,文中采用表1中的符號建立銷量預測模型。
為前k月因素矩陣。
表1 符號說明
如果僅僅考慮歷史銷量數(shù)據(jù)對銷量的影響,則得到無因素非線性自回歸模型為
假設銷量不僅與歷史銷量有關(guān),還與鋼材產(chǎn)量、橡膠輪胎產(chǎn)量、貨幣供應量、百度搜索指數(shù)、居民消費價格指數(shù)等有關(guān),則得到多因素非線性自回歸模型為
利用機器學習技術(shù),以大眾品牌汽車為例建立銷量預測的多因素非線性自回歸模型。
采用2011年1月至2018年12月共96個月的數(shù)據(jù)。
大眾品牌汽車月銷量數(shù)據(jù),來源于車主之家網(wǎng)站https://www.16888.com。
鋼材產(chǎn)量、橡膠輪胎產(chǎn)量、貨幣供應量、居民消費價格指數(shù)的月度數(shù)據(jù),來源于國家統(tǒng)計局網(wǎng)站http://www.stats.gov.cn/。
百度搜索指數(shù)月度數(shù)據(jù),來源于百度指數(shù)網(wǎng)站http://index.baidu.com。
為了消除數(shù)據(jù)量綱的影響,將上述數(shù)據(jù)作歸一化處理:
非線性自回歸的神經(jīng)網(wǎng)絡主要有輸入層、隱含層和輸出層、輸入輸出延時層構(gòu)成。選取隱含層為25,延遲數(shù)d為12,其基本結(jié)構(gòu)如圖1。
圖1 非線性自回歸神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)
將96個樣本數(shù)據(jù)劃分如下:訓練數(shù)據(jù)占70%,驗證數(shù)據(jù)占15%,測試數(shù)據(jù)占15%。
選擇訓練算法Levenberg-Marquardt,該算法要求樣本容量足夠大,但是記憶速度快,當驗證數(shù)據(jù)均方誤差不再增長,訓練自動停止。
本文建立的大眾品牌銷量預測模型的結(jié)果如表2。
表2 大眾品牌銷量預測模型的結(jié)果
表2中MSE為預測銷量和實際銷量之間的均方誤差,MSE越小預測效果越好,當MSE=0時,預測銷量=實際銷量。R為預測銷量和實際銷量的相關(guān)系數(shù),當R=1時,則預測銷量和實際銷量完全相關(guān),當R=0時,則預測銷量和實際銷量完全不相關(guān)。該模型測試數(shù)據(jù)MSE=0.0694,小于0.1,但R=0.2182,小于0.5,預測效果一般。這是因為樣本數(shù)據(jù)量偏少,只有增加樣本容量,才能提高機器學習預測的精度。