張文雅,范雨強(qiáng),韓 華,張 斌,崔曉鈺
1(上海理工大學(xué) 能源與動(dòng)力工程學(xué)院,上海 200093)
2(上海交通大學(xué) 機(jī)械與動(dòng)力工程學(xué)院,上海 200240)
21世紀(jì)的飛速發(fā)展,人們生活水平得到了極大提高,越來(lái)越多的家庭購(gòu)買(mǎi)汽車(chē)作為代步工具,我國(guó)汽車(chē)市場(chǎng)已進(jìn)入品牌營(yíng)銷(xiāo)時(shí)代,市場(chǎng)競(jìng)爭(zhēng)也從傳統(tǒng)的產(chǎn)品和價(jià)格競(jìng)爭(zhēng)轉(zhuǎn)移到品牌和渠道的競(jìng)爭(zhēng)[1].汽車(chē)制造企業(yè)若能在生產(chǎn)、制造、銷(xiāo)售等環(huán)節(jié)實(shí)現(xiàn)定量化預(yù)測(cè),為其決策提供必要依據(jù),則可在滿(mǎn)足客戶(hù)個(gè)性化需求的同時(shí),使其在日益激烈的市場(chǎng)競(jìng)爭(zhēng)中占得先機(jī).
前人已經(jīng)進(jìn)行了一些銷(xiāo)售預(yù)測(cè)的嘗試.2011年,Yu Y 等[2]提出了一種最大程度學(xué)習(xí)機(jī)制對(duì)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行了優(yōu)化,并通過(guò)對(duì)某品牌銷(xiāo)量數(shù)據(jù)的學(xué)習(xí)訓(xùn)練,在給定時(shí)間內(nèi)精準(zhǔn)的預(yù)測(cè)了服裝產(chǎn)品的月銷(xiāo)量.張闖等[3]采用后向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法,通過(guò)新浪微博數(shù)據(jù)預(yù)測(cè)電影票房,模型擬合效果較佳,但因存在數(shù)據(jù)不完全和干擾數(shù)據(jù)的情況,使預(yù)測(cè)精度不夠.嚴(yán)洪森等[4,5]分別采用了混沌ν-支持向量機(jī)和擴(kuò)展的徑向基函數(shù)核支持向量機(jī)建立了產(chǎn)品銷(xiāo)售預(yù)測(cè)模型,在預(yù)測(cè)精度上具有一定的優(yōu)勢(shì),但也增加了模型的復(fù)雜度、需要優(yōu)化的參數(shù)個(gè)數(shù)和最優(yōu)參數(shù)組合的獲取難度,使模型難以推廣.本文擬采用支持向量機(jī)這種先進(jìn)的機(jī)器學(xué)習(xí)方法,在盡可能不增加參數(shù)及少量增加模型復(fù)雜度的情況下,對(duì)模型進(jìn)行優(yōu)化,以期實(shí)現(xiàn)較為精準(zhǔn)的汽車(chē)產(chǎn)品的銷(xiāo)售預(yù)測(cè).
支持向量機(jī)(Support Vector Machine,SVM)是近幾年來(lái)發(fā)展起來(lái)的基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)方法[6].它以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),直接從小樣本出發(fā),放棄了傳統(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization,ERM)準(zhǔn)則,而采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structural Risk Minimization,SRM)準(zhǔn)則,在最小化樣本誤差的同時(shí),考慮模型的結(jié)構(gòu)因素,從根本上提高了泛化能力.支持向量機(jī)解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì),它既能夠有限的訓(xùn)練樣本得到小的誤差,又能夠保證對(duì)獨(dú)立的測(cè)試集仍保持小的誤差,而且支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題.因此,局部最優(yōu)解一定是全局最優(yōu)解.在支持向量機(jī)的具體應(yīng)用中,懲罰系數(shù)C和核函數(shù)參數(shù)g的選取對(duì)預(yù)測(cè)性能具有關(guān)鍵性的影響[7].目前,支持向量機(jī)的參數(shù)選擇方法主要有:網(wǎng)格搜索法、遺傳算法和混沌優(yōu)化等,其思想主要是在初始化范圍內(nèi)進(jìn)行尋優(yōu)以獲得模型最佳效果時(shí)的參數(shù)[8].王寧等[9]在訓(xùn)練過(guò)程中采用網(wǎng)格搜索法對(duì)支持向量機(jī)回歸模型參數(shù)進(jìn)行優(yōu)化,提出基于支持向量機(jī)回歸組合模型的中長(zhǎng)期降溫負(fù)荷預(yù)測(cè)方法,成功的把預(yù)測(cè)值與真實(shí)值的誤差控制在5%以下,且該模型得到了實(shí)際應(yīng)用.Gao 和Hou[10]為了提高SVM 預(yù)測(cè)的精度和減少計(jì)算負(fù)荷,采用了網(wǎng)格搜索(GS)算法優(yōu)化SVM 參數(shù),進(jìn)而預(yù)測(cè)田納西伊斯曼(TE)過(guò)程的狀態(tài),發(fā)現(xiàn)GS 方法比產(chǎn)生類(lèi)似分類(lèi)精度的遺傳算法(GA)和粒子群優(yōu)化算法(PSO)效率更高.Gencoglu MT 等[11]將混沌理論與SVM 結(jié)合,通過(guò)重構(gòu)相空間的飽和嵌入維數(shù)確定SVM 最佳輸入變量的選取,以混沌序列的最大Lyapunov 指數(shù)確定SVM 預(yù)測(cè)模型的最大有效預(yù)測(cè)步數(shù),但所處理的時(shí)間序列必須具有混沌性.本文所處理的是小樣本汽車(chē)銷(xiāo)售數(shù)據(jù),時(shí)間序列的混沌性并不顯著,采用基本的SVM 并采用GS 算法進(jìn)行參數(shù)優(yōu)化進(jìn)行銷(xiāo)售預(yù)測(cè)是可行的.
為了增加模型的魯棒性,有效地避免過(guò)學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,使得到的結(jié)果更加可靠,所以在優(yōu)化過(guò)程中結(jié)合了K-fold 交叉驗(yàn)證[12],降低了支持向量機(jī)參數(shù)選擇隨機(jī)所帶來(lái)的誤差,提高了模型的推廣能力.本文提出了基于交叉驗(yàn)證網(wǎng)格尋優(yōu)的支持向量機(jī)方法,分別建立了采用每3個(gè)月、6個(gè)月、9個(gè)月、12個(gè)月、18個(gè)月和24個(gè)月的汽車(chē)銷(xiāo)售額數(shù)據(jù)預(yù)測(cè)下一個(gè)月銷(xiāo)售額的預(yù)測(cè)模型,對(duì)預(yù)測(cè)結(jié)果進(jìn)行詳細(xì)的比較分析,以期找到最佳的預(yù)測(cè)模型,為汽車(chē)制造商及銷(xiāo)售商提供可信度更高的銷(xiāo)售預(yù)測(cè)數(shù)據(jù),作為決策參考.
支持向量機(jī)(Support Vector Machine,SVM)由Cortes 和Vapnik 等于1995年提出,此后,Vapnik 又提出引入ε不敏感損失函數(shù)[6]的ε-SVR 算法,將支持向量機(jī)應(yīng)用于回歸領(lǐng)域.ε-SVR 通過(guò)事先確定ε來(lái)控制算法大致希望達(dá)到的精度.ε不敏感損失函數(shù)的用途在于能夠用稀疏數(shù)據(jù)點(diǎn)來(lái)表達(dá)如下要找的回歸函數(shù).
設(shè)樣本向量為{(x0,y0),(x1,y1),···(xk,kk)} (xi∈Rn,yi∈R,i=1,2,···,k),其中k為樣本個(gè)數(shù).支持向量機(jī)回歸的基本思想是通過(guò)一個(gè)非線性映射Φ,將數(shù)據(jù)xi映射到高維空間F中,并在這個(gè)高維空間中構(gòu)造最優(yōu)線性回歸函數(shù):
式中,ω 和φ(x)為m維向量,b為偏置量.支持向量機(jī)采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則(SRM)[13]確定參數(shù) ω和b的值,即:
式中,Rreg為正則化風(fēng)險(xiǎn);‖ω‖2為控制模型的復(fù)雜度;雜度較大,易造成過(guò)學(xué)習(xí);C為懲罰系數(shù),用來(lái)調(diào)節(jié)模型復(fù)雜度和訓(xùn)練誤差,C越大,對(duì)數(shù)據(jù)的擬合程度越高,但過(guò)大時(shí)會(huì)使機(jī)器學(xué)習(xí)復(fù)為誤差控制函數(shù),通常采用ε-不敏感函數(shù)來(lái)度量,定義如下:
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,考慮在數(shù)據(jù)集上獲得的回歸模型的復(fù)雜度,持向量機(jī)回歸本質(zhì)上就是求解一個(gè)優(yōu)化問(wèn)題[11]:
式中,ξi和為松弛變量,此問(wèn)題稱(chēng)為支持向量機(jī)的原始問(wèn)題.由于ω 維數(shù)很大,為了便于求解,根據(jù)強(qiáng)對(duì)偶定理引入Lagrange 乘子 αi和,建立Lagrange 函數(shù),將這一優(yōu)化問(wèn)題轉(zhuǎn)化到對(duì)偶空間中得到原始問(wèn)題的對(duì)偶問(wèn)題[14]:
式中,K(xi,xj)為核函數(shù),可將原問(wèn)題通過(guò)非線性變換,映射為某個(gè)高維特征空間上的線性問(wèn)題,進(jìn)行求解.本文采用的汽車(chē)銷(xiāo)售數(shù)據(jù)屬于非線性數(shù)據(jù),故需采用核函數(shù).,αi是對(duì)偶問(wèn)題的解,由此可得回歸函數(shù)為:
在高維特征空間中,線性問(wèn)題中內(nèi)積運(yùn)算可以用核函數(shù)來(lái)代替,即
支持向量機(jī)不同的內(nèi)積核函數(shù)將形成不同的算法,回歸支持向量機(jī)常用的核函數(shù)有三種,即多項(xiàng)式核函數(shù)、徑向基核函數(shù)和Sigmoid 核函數(shù).對(duì)于多項(xiàng)式核函數(shù),當(dāng)特征空間位數(shù)很高時(shí),其計(jì)算量將大大增加,甚至對(duì)某些情況無(wú)法得到正確的結(jié)果,而徑向基函數(shù)不存在這個(gè)問(wèn)題.另外,徑向基函數(shù)的選取是隱含的,每個(gè)支持向量機(jī)產(chǎn)生一個(gè)以其為中心的局部徑向基函數(shù),使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,能找到全局的徑向基函數(shù)參數(shù)[15].對(duì)某些參數(shù),RBF 與Sigmoid 核函數(shù)具有相似的性能,在一般情況下,首先考慮的是RBF[16].因此本文選取徑向基核函數(shù)(RBF)建立預(yù)測(cè)模型[17-19],即:式中,σ為徑向基函數(shù)的寬度,σ越小,徑向基函數(shù)的寬度越小,越有選擇性.是徑向基核參數(shù),g越大,徑向基函數(shù)越有選擇性.把徑向基核函數(shù)代入(6)式得到完整的回歸函數(shù),即:
研究發(fā)現(xiàn),支持向量機(jī)計(jì)算過(guò)程中涉及到的兩個(gè)參數(shù):懲罰系數(shù)C和核函數(shù)參數(shù)g,是影響支持向量機(jī)回歸模型的主要因素.
在本案例中支持向量機(jī)(SVM)的核函數(shù)采用的是徑向基核函數(shù)(RBF),徑向基函數(shù)中的參數(shù)g和懲罰系數(shù)C的選擇對(duì)汽車(chē)銷(xiāo)售量的預(yù)測(cè)值有著很大的影響,為了尋找最佳的參數(shù)C和g,本文根據(jù)前文和樣本特性選擇的是網(wǎng)格搜索法(grid search).網(wǎng)格搜索法首先是要把所有的可能的參數(shù)值做統(tǒng)計(jì)然后進(jìn)行分組,分組的依據(jù)是由步距決定的網(wǎng)絡(luò).然后對(duì)逐個(gè)網(wǎng)絡(luò)中可能的最優(yōu)參數(shù)值進(jìn)行計(jì)算,并驗(yàn)證觀察結(jié)果是否最優(yōu),即找到的最優(yōu)參數(shù)[19].
交叉驗(yàn)證(cross validation)是一種消除取樣隨機(jī)性所帶來(lái)的訓(xùn)練偏差的統(tǒng)計(jì)學(xué)方法.常用的交叉驗(yàn)證方法有重復(fù)隨機(jī)抽樣法、K-fold 交叉驗(yàn)證法、留一法等.基于支持向量機(jī)原始預(yù)測(cè)模型,C和g的初始值均為1,預(yù)測(cè)精度較低,當(dāng)使用交叉驗(yàn)證網(wǎng)格尋優(yōu)的方法以后,C和g值在設(shè)定的范圍內(nèi)進(jìn)行尋優(yōu),對(duì)每個(gè)預(yù)測(cè)模型均進(jìn)行MSE 值得比較,這樣可以建立最佳的預(yù)測(cè)模型,保證MSE 值為最小,避免原始模型預(yù)測(cè)精度低的問(wèn)題.所以本文將交叉驗(yàn)證與網(wǎng)格搜索相結(jié)合,以MSE 最小化為參數(shù)優(yōu)選的目標(biāo),提高了參數(shù)優(yōu)選的效率和準(zhǔn)確性,同時(shí)極大規(guī)避了樣本的抽樣隨機(jī)性對(duì)模型性能的影響[20,21].網(wǎng)格搜索法參數(shù)優(yōu)化的基本流程如下,流程圖見(jiàn)圖1所示.
(1)先初始化網(wǎng)格搜索中懲罰系數(shù)C和核函數(shù)參數(shù)g的搜索范圍和搜索步長(zhǎng),本文在尋優(yōu)時(shí)分為粗略選擇和精細(xì)選擇.
(2)進(jìn)行粗略選擇,粗略選擇時(shí)C的取值范圍是[2-8,28],當(dāng)輸入變量(C的取值范圍、g的取值范圍、交叉驗(yàn)證的折數(shù)等)個(gè)數(shù)小于8,則指數(shù)的步長(zhǎng)為0.8,g的取值范圍是[2-8,28],指數(shù)的步長(zhǎng)為0.8.得到粗略選擇的C和g.
(3)根據(jù)粗略選擇結(jié)果再進(jìn)行精確選擇,C和g的取值范圍是粗略選擇后確定的范圍,指數(shù)步長(zhǎng)為0.5.
圖1 基于交叉驗(yàn)證網(wǎng)格尋優(yōu)的支持向量機(jī)預(yù)測(cè)模型
圖2 給出Model-12m模型(每12個(gè)月預(yù)測(cè)下一個(gè)月)精細(xì)選擇參數(shù)后的等高線圖和3 D 視圖.以log2C為橫坐標(biāo),log2g為縱坐標(biāo),MSE(下文公式求得)為Z 軸(見(jiàn)下文公式).如圖1所示,圖中紅點(diǎn)就是精細(xì)選擇時(shí)找到的最佳參數(shù)點(diǎn),此時(shí)log2C=1/2,log2g=1/2,所以得到最佳參數(shù),.
進(jìn)行銷(xiāo)售預(yù)測(cè)時(shí),由于預(yù)測(cè)對(duì)象可能是產(chǎn)品銷(xiāo)售數(shù)量、銷(xiāo)售價(jià)格、銷(xiāo)售金額,預(yù)測(cè)的地域、客戶(hù)、時(shí)間長(zhǎng)度等的不同,可以有不同的預(yù)測(cè)方法分類(lèi).本文案例主要研究某汽車(chē)公司的銷(xiāo)售額預(yù)測(cè),適用于這種場(chǎng)合的常用預(yù)測(cè)方法分為兩大類(lèi):定性預(yù)測(cè)方法和定量預(yù)測(cè)方法,見(jiàn)圖3.
第一類(lèi)是(qualitative)預(yù)測(cè)方法.依據(jù)人們對(duì)過(guò)去及現(xiàn)在的經(jīng)驗(yàn)、判斷和直覺(jué)作預(yù)測(cè).一般常用的定性銷(xiāo)售預(yù)測(cè)方法有四種:高級(jí)經(jīng)理意見(jiàn)法、銷(xiāo)售人員意見(jiàn)法、購(gòu)買(mǎi)者期望法和德?tīng)柗品?
第二類(lèi)是定量預(yù)測(cè)方法.包括時(shí)間序列分析法和(causal)預(yù)測(cè)方法.本文提出的基于支持向量機(jī)優(yōu)化模型的預(yù)測(cè)方法屬于時(shí)間序列分析方法.
圖4 亦可見(jiàn),銷(xiāo)售預(yù)測(cè)及其預(yù)測(cè)方法的選擇受到諸多內(nèi)部因素及外部因素的交互影響,相當(dāng)復(fù)雜.某汽車(chē)公司當(dāng)前的銷(xiāo)售預(yù)測(cè)模型是建立在汽車(chē)行業(yè)預(yù)測(cè)的基礎(chǔ)上,是定性與定量相結(jié)合的預(yù)測(cè)模型,而汽車(chē)行業(yè)的經(jīng)濟(jì)預(yù)測(cè)是建立在宏觀經(jīng)濟(jì)預(yù)測(cè)的基礎(chǔ)上的.某汽車(chē)公司通過(guò)對(duì)中國(guó)車(chē)市的發(fā)展階段、增長(zhǎng)潛力、國(guó)家補(bǔ)助政策、各地區(qū)的引導(dǎo)政策、消費(fèi)者收入與開(kāi)支、出口、利率、企業(yè)車(chē)型開(kāi)發(fā)進(jìn)度、企業(yè)投資和與整車(chē)有關(guān)的其他重要因素和事件進(jìn)行預(yù)測(cè),得到公司未來(lái)某一階段的產(chǎn)出/銷(xiāo)售預(yù)測(cè).定性預(yù)測(cè)模型預(yù)測(cè)流程圖如圖3所示,可見(jiàn)該方法包含一些簡(jiǎn)單的定量分析,但更多地依賴(lài)于上級(jí)決策者的決定及銷(xiāo)售人員的建議,偏重于定性方法.
圖2 Model-12m模型參數(shù)精細(xì)選擇等高線圖和3D 視圖
按照該流程,以2 0 0 9年的實(shí)際銷(xiāo)售額預(yù)測(cè)2010年到2015年共計(jì)72個(gè)月的銷(xiāo)售額,示于圖5中.圖中,Sales 為實(shí)際銷(xiāo)售額,PredSales 為某汽車(chē)公司當(dāng)前預(yù)測(cè)模型預(yù)測(cè)的銷(xiāo)售額.L 汽車(chē)公司的預(yù)測(cè)銷(xiāo)售額與實(shí)際銷(xiāo)售額的絕對(duì)誤差相差幅度較大,絕對(duì)誤差最大值如圖中紅圈所示,是2013年12月(約14 萬(wàn)元),最小值是2014年11月(約8.4 萬(wàn)元),最大值是最小值的160 倍.
圖3 銷(xiāo)售預(yù)測(cè)內(nèi)在的邏輯關(guān)系圖
圖4 某公司當(dāng)前的銷(xiāo)售預(yù)測(cè)方法流程圖
將該預(yù)測(cè)的相對(duì)誤差示于圖6中.相對(duì)誤差最大值是2015年8月,達(dá)61.4%;最小值是2014年11月,為0.27%,前者是后者的200 倍.在72個(gè)月的總樣本中,有15個(gè)月的相對(duì)誤差在30%以上,占樣本總數(shù)的21%;8個(gè)月的相對(duì)誤差在20%和30%之間,占樣本總數(shù)的11%;其余49個(gè)月的相對(duì)誤差小于20%,占樣本總數(shù)的68%.可見(jiàn),某公司目前所采用模型的預(yù)測(cè)并不理想.下文將采用基于網(wǎng)格搜索交叉驗(yàn)證的SVM 優(yōu)化算法對(duì)某公司的銷(xiāo)售額進(jìn)行預(yù)測(cè),以期獲得更加準(zhǔn)確的銷(xiāo)售預(yù)測(cè)模型,為某公司的生產(chǎn)及銷(xiāo)售決策提供更為可靠的參考與指導(dǎo).
采用基于網(wǎng)格搜索和交叉驗(yàn)證的SVM 回歸模型對(duì)某公司2009年到2015年共計(jì)7年(84個(gè)月)的銷(xiāo)售額進(jìn)行預(yù)測(cè),選取2010年到2015年共計(jì)72個(gè)月的預(yù)測(cè)數(shù)據(jù)與實(shí)際銷(xiāo)售額進(jìn)行比較分析.多次嘗試的結(jié)果表明,采用一個(gè)季度(3個(gè)月)或多個(gè)季度的銷(xiāo)售數(shù)據(jù)進(jìn)行預(yù)測(cè)較其他不以季度為周期的預(yù)測(cè)模型預(yù)測(cè)效果更佳.假定每3個(gè)月數(shù)據(jù)預(yù)測(cè)下一個(gè)月銷(xiāo)售額的模型為Model-3m,其他各模型名稱(chēng)見(jiàn)表1.
圖5 某公司預(yù)測(cè)銷(xiāo)售額和實(shí)際銷(xiāo)售額比較圖
圖6 某公司預(yù)測(cè)銷(xiāo)售額和實(shí)際銷(xiāo)售額的相對(duì)誤差值
為了說(shuō)明所建預(yù)測(cè)模型的優(yōu)劣,將預(yù)測(cè)模型的預(yù)測(cè)值和真實(shí)值的均方誤差(Mean Squared Error,MSE)、絕對(duì)誤差(Absolute Error,AE)和相對(duì)誤差(Relative Error,RE)作為評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)模型,其中均方誤差主要評(píng)價(jià)預(yù)測(cè)模型的整體性能,相對(duì)誤差和絕對(duì)誤差可用于評(píng)價(jià)預(yù)測(cè)模型的局部性能[22],以季度為周期的預(yù)測(cè)模型的絕對(duì)誤差相較別的預(yù)測(cè)模型更小,對(duì)整體性能亦可作為參考.
表1 各模型名稱(chēng)
式中,yi為原始銷(xiāo)售額,yi′為預(yù)測(cè)銷(xiāo)售額.
參見(jiàn)圖1 交叉驗(yàn)證網(wǎng)格尋優(yōu)的支持向量機(jī)預(yù)測(cè)模型流程圖,使用原始C,g建立原始預(yù)測(cè)模型Model-3m-original,此時(shí)C=1,g=1.模型的平均相對(duì)誤差為11.849%,均方誤差為9.232×10-2,決定系數(shù)為0.509 73.其預(yù)測(cè)性能雖優(yōu)于Model-X,但較下文所提的經(jīng)過(guò)交叉驗(yàn)證與網(wǎng)格搜索的Model-3m 預(yù)測(cè)性能仍顯不足,所以證明經(jīng)過(guò)交叉驗(yàn)證與網(wǎng)格搜索的支持向量機(jī)預(yù)測(cè)模型得到改進(jìn),提升了預(yù)測(cè)精度和可靠性.
經(jīng)網(wǎng)格搜索與交叉驗(yàn)證尋優(yōu),采用三個(gè)月數(shù)據(jù)預(yù)測(cè)下一個(gè)月銷(xiāo)售額的Model-3m模型的最優(yōu)SVM 參數(shù)組合為C=2-3/2,g=2,預(yù)測(cè)結(jié)果見(jiàn)圖7.圖中,絕對(duì)誤差最大值是2015年12月(約1,1.57 萬(wàn)元),最小值是2011年3月(7.8 萬(wàn)元),最大值是最小值的150 倍.相較于某公司當(dāng)前采用的Model-X模型,實(shí)際銷(xiāo)售額和預(yù)測(cè)銷(xiāo)售額之間相差幅度有所減小.Model-3m模型預(yù)測(cè)結(jié)果的相對(duì)誤差示于圖8中,相對(duì)誤差最大值為38.02% (2015年8月),比Model-X的最大相對(duì)誤差61.4%小23.38%;最小值為0.23% (2011年3月),且75%的樣本(54個(gè)月)相對(duì)誤差在20% 以下,比Model-X 增加了5個(gè)月;相對(duì)誤差在20%和30%之間的有14個(gè)月,占樣本總數(shù)的19.4%,比Model-X 增加了6個(gè)月;相對(duì)誤差30%的僅有4個(gè)月,占樣本總數(shù)的5.6%,比Model-X 減少了11個(gè)月.可見(jiàn),Model-3m模型對(duì)銷(xiāo)售額的預(yù)測(cè)效果明顯優(yōu)于Model-X模型,后文將對(duì)基于優(yōu)化SVM的其他模型進(jìn)行研究,以期獲得更優(yōu)的預(yù)測(cè)效果.
圖7 Model-3m 預(yù)測(cè)模型實(shí)際銷(xiāo)售額和預(yù)測(cè)銷(xiāo)售額對(duì)比圖
圖8 Model-X模型和Model-3m模型相對(duì)誤差對(duì)比圖
采用6個(gè)月數(shù)據(jù)預(yù)測(cè)下一個(gè)月銷(xiāo)售額的Model-6m模型優(yōu)化后的SVM 參數(shù)組合為C=2,g=4.該模型預(yù)測(cè)銷(xiāo)售額與實(shí)際銷(xiāo)售額的絕對(duì)誤差較Model-X模型和Model-3m模型均有大幅下降,絕對(duì)誤差最大值約為14 萬(wàn)元(2010年2月),最小值是約為4.6 萬(wàn)元(2010年1月),前者僅為后者的3 倍,而非200 倍(Model-X)或150 倍(Model-3m).Model-6m的絕對(duì)誤差主要集中在13 萬(wàn)元到14 萬(wàn)元之間,幅度比較穩(wěn)定.
由Model-6m 預(yù)測(cè)模型的相對(duì)誤差圖9 可見(jiàn),該模型的相對(duì)誤差基本以0.45% 為中心上下浮動(dòng),落在0.15%到0.75%之間,最大相對(duì)誤差是2014年1月的0.724%,最小的相對(duì)誤差值是2010年1月的0.18%,二者較為接近.
將Model-6m 與Model-3m的相對(duì)誤差示于圖10中進(jìn)行比較分析.與Model-3m模型相比,Model-6m模型的相對(duì)誤差緊貼著橫軸,總體上明顯較小,除3個(gè)月的相對(duì)誤差略有上升外(2011年3月,2013年4月,2014年8月),其余月份的相對(duì)誤差均大幅下降,降幅最大的是2015年8月,達(dá) 37.39%;降幅超過(guò)10%的有33個(gè)月,占樣本總數(shù)的45%.表明,Model-6m模型的預(yù)測(cè)效果較Model-3m模型有顯著提高.
圖9 Model-6m 預(yù)測(cè)模型的相對(duì)誤差圖
圖10 Model-3m模型和Model-6m模型相對(duì)誤差對(duì)比圖
采用9個(gè)月數(shù)據(jù)預(yù)測(cè)下一個(gè)月銷(xiāo)售額的Model-9m模型,其優(yōu)化后的SVM的最優(yōu)參數(shù)組合為,g=2.以一年(12個(gè)月)數(shù)據(jù)作為預(yù)測(cè)基準(zhǔn)的Model-12m模型,優(yōu)化后的SVM的參數(shù)組合為,.
Model-9m模型和Model-12m模型預(yù)測(cè)銷(xiāo)售額與實(shí)際銷(xiāo)售額絕對(duì)誤差相差較小.Model-9m模型絕對(duì)誤差最大值是2012年10月的14 萬(wàn)元,最小值是2011年6月的12 萬(wàn)元;Model-12m模型絕對(duì)誤差最大值是2010年10月的12.8 萬(wàn)元,最小值是2013年4月的7.45 萬(wàn)元.將Model-9m模型、Model-12m模型與前述最佳模型Model-6m的相對(duì)誤差共同示于圖11中.可見(jiàn),Model-6m的相對(duì)誤差在0.15%~0.75%之間,Model-9m模型的相對(duì)誤差在0.25%~0.75% 之間,Model-12m模型的相對(duì)誤差在0.25%~0.65%之間.三個(gè)模型相對(duì)誤差低于0.45%的月份數(shù)分別為29個(gè)月,29個(gè)月和42個(gè)月,分別占樣本總數(shù)的40%,40% 和58%.相對(duì)于Model-9m模型,Model-12m模型每一個(gè)月的相對(duì)誤差均有所下降;相對(duì)于Model-6m模型,Model-12m模型除了2010年1月、2015年1月相對(duì)誤差分別增大了0.286%和0.152%,其余的月份均有不同程度下降.表明,以6個(gè)月、9個(gè)月、12個(gè)月的數(shù)據(jù)進(jìn)行銷(xiāo)售額預(yù)測(cè),效果均較佳,其中Model-12m模型的整體性能更好.數(shù)據(jù)有限時(shí),Model-6m模型亦可實(shí)現(xiàn)較為準(zhǔn)確的銷(xiāo)售額預(yù)測(cè).
圖11 Model-6m,Model-9m 和Model-12m 三種模型的相對(duì)誤差對(duì)比圖
總體上,圖11中的3 種模型在中間段預(yù)測(cè)能力較好,尤其是2013年和2014年,相對(duì)誤差多在0.45%附近,而2011年和2015年的預(yù)測(cè)能力相對(duì)較差.2011年正處于全球金融危機(jī),大部分消費(fèi)者有危機(jī)感,更愿意把錢(qián)存在銀行,對(duì)投資買(mǎi)車(chē)可能處于觀望狀態(tài),不同月份銷(xiāo)售的汽車(chē)數(shù)量波動(dòng)較大,因而影響預(yù)測(cè).而2013年和2014年,金融危機(jī)緩和,國(guó)家大力提倡人民消費(fèi),每個(gè)月的銷(xiāo)售量都較為平穩(wěn),有利于預(yù)測(cè).2015年國(guó)家出臺(tái)限制公車(chē)購(gòu)買(mǎi)量的政策,一定程度上影響了每個(gè)月的銷(xiāo)售額,增加了預(yù)測(cè)難度.
Model-18m模型優(yōu)化后的SVM 參數(shù)組合為C=1,g=0.707107.該模型在2013年12月的相對(duì)誤差達(dá)到了3.10%,比Model-6m、Model-9m 和Model-12m的最大相對(duì)誤差均大三倍以上,此處不加詳細(xì)討論.
采用24個(gè)月數(shù)據(jù)預(yù)測(cè)下一個(gè)月銷(xiāo)售額的Model-24m模型,其優(yōu)化后的SVM 參數(shù)組合為C=1,g=0.5.Model-24m模型的相對(duì)誤差在0.25%~0.65%之間,相對(duì)于Model-12m模型,有38個(gè)月的相對(duì)誤差減小,22個(gè)月的相對(duì)誤差增大.與Model-6m 和Model-9m模型一樣,Model-24m模型在中間月份,即2013年和2014年的預(yù)測(cè)性能較好,而在起始和末端月份的預(yù)測(cè)性能較差.
圖12 Model-12m 和Model-24m 相對(duì)誤差對(duì)比圖
綜合以上可知,以年(12個(gè)月)的數(shù)據(jù)為周期的模型預(yù)測(cè)效果最佳,因Model-24m模型所需數(shù)據(jù)量較為龐大,性能提高卻并不明顯,Model-12m模型即可進(jìn)行較為準(zhǔn)確的銷(xiāo)售預(yù)測(cè).
決定系數(shù)R2是預(yù)測(cè)值擬合程度的指標(biāo)[23],R2的數(shù)值大小可以反映實(shí)際銷(xiāo)售額與預(yù)測(cè)銷(xiāo)售額之間的擬合程度,R2越大,數(shù)據(jù)擬合程度越高,預(yù)測(cè)銷(xiāo)售額的可靠性就越高.
表2 列出了各模型的決定系數(shù),平方相對(duì)誤差和均方誤差三項(xiàng)評(píng)價(jià)指標(biāo).Model-24m模型的決定系數(shù)最大,平均相對(duì)誤差最??;Model-12m模型均方誤差最小,決定系數(shù)和平均相對(duì)誤差與Model-24m 相近.在基于優(yōu)化SVM的模型中,采用三個(gè)月數(shù)據(jù)進(jìn)行預(yù)測(cè)的Model-3m模型,決定系數(shù)是某公司當(dāng)前采用的Model-X模型的近3 倍,平均相對(duì)誤差小4.67%,而Model-24m 和Model-12m的平均相對(duì)誤差更是Model-X的1/25(即4%),充分說(shuō)明基于交叉驗(yàn)證網(wǎng)格搜索的SVM 預(yù)測(cè)模型整體性能非常好,最佳模型是Model-12m 和Model-24m,當(dāng)數(shù)據(jù)有限時(shí),亦可以采用Model-6m模型進(jìn)行預(yù)測(cè).為了驗(yàn)證經(jīng)過(guò)交叉驗(yàn)證和網(wǎng)格搜索后的支持向量機(jī)預(yù)測(cè)模型的優(yōu)越性,對(duì)最佳模型Model-12m 隨機(jī)選取銷(xiāo)售數(shù)據(jù)進(jìn)行測(cè)試,并計(jì)算其各項(xiàng)評(píng)價(jià)指標(biāo),列于表2中:平均相對(duì)誤差為0.446%,均方誤差1.012×10-4,決定系數(shù)為0.99970,各項(xiàng)指標(biāo)與Model-12m模型性能相差不大,可見(jiàn)經(jīng)過(guò)交叉驗(yàn)證和網(wǎng)格搜索后的支持向量機(jī)預(yù)測(cè)模型預(yù)測(cè)精度高,魯棒性強(qiáng).
表2 各模型評(píng)價(jià)指標(biāo)
本文針對(duì)汽車(chē)銷(xiāo)售預(yù)測(cè)問(wèn)題的特點(diǎn),運(yùn)用了交叉驗(yàn)證和網(wǎng)格搜索方法優(yōu)化了支持向量機(jī)的懲罰系數(shù)和核函數(shù)參數(shù)的選擇,建立了改進(jìn)支持向量機(jī)汽車(chē)銷(xiāo)售預(yù)測(cè)模型,提高了汽車(chē)銷(xiāo)售的預(yù)測(cè)精度.盡管預(yù)測(cè)效果可能受到國(guó)家政策、消費(fèi)模式等的影響,但本文提出的基于改進(jìn)支持向量機(jī)優(yōu)化的預(yù)測(cè)模型仍然可達(dá)到較小的預(yù)測(cè)誤差,預(yù)測(cè)數(shù)據(jù)可靠性高,可給汽車(chē)企業(yè)在日常生產(chǎn)、 銷(xiāo)售管理中,提供科學(xué)有效的預(yù)測(cè)方法,從而為決策者制定或調(diào)整相關(guān)計(jì)劃提供可靠的理論依據(jù),具有一定現(xiàn)實(shí)意義及應(yīng)用價(jià)值.