周方軍,呂文元
(上海理工大學(xué) 管理學(xué)院,上海 200093)
預(yù)測(cè)是國(guó)家、企業(yè)等組織制定政策和計(jì)劃的主要依據(jù),因而預(yù)測(cè)的準(zhǔn)確度是政策與計(jì)劃制定是否科學(xué)的前提。預(yù)測(cè)的方法有傳統(tǒng)的多元回歸預(yù)測(cè),以及近幾年來(lái)發(fā)展起來(lái)的人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[1]、灰色預(yù)測(cè)[2]。多元回歸預(yù)測(cè)模型簡(jiǎn)單、易用性強(qiáng),但難以處理高維、非線性模式;人工神經(jīng)網(wǎng)絡(luò)雖然能夠較好地解決高維非線性預(yù)測(cè)的難題,但它需要大量的訓(xùn)練樣本,且泛化能力不強(qiáng),所以當(dāng)可得到的預(yù)測(cè)樣本是小樣本,或者獲得大量樣本的成本很高時(shí),就難免影響其實(shí)用性和經(jīng)濟(jì)性;灰色預(yù)測(cè)雖具有短期預(yù)測(cè)能力強(qiáng),可檢驗(yàn)等優(yōu)點(diǎn),但其長(zhǎng)期預(yù)測(cè)能力較差。Vapnik等人提出的支持向量機(jī)[3-4]是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來(lái)的一種新的機(jī)器學(xué)習(xí)算法,是目前針對(duì)小樣本統(tǒng)計(jì)和預(yù)測(cè)學(xué)習(xí)的最佳理論,支持向量機(jī)具有完美的數(shù)學(xué)形式、直觀的幾何解釋和良好的泛化性能,解決了模型選擇與欠學(xué)習(xí)、過(guò)學(xué)習(xí)及非線性等問(wèn)題,克服了收斂速度慢,易陷入局部最優(yōu)解等缺點(diǎn),因此支持向量機(jī)在分類和回歸中均表現(xiàn)出優(yōu)越的性能。
支持向量回歸機(jī)[5],主要由Vapnik提出的ε-支持向量回歸機(jī)(ε-SVR)和Scholkopf等提出ν-的支持向量回歸機(jī)(ν-SVR)等。本文采用Vapnik的ε-SVR支持向量回歸機(jī)。
支持向量機(jī)回歸實(shí)質(zhì)是要在Rn空間尋找一個(gè)超平面函數(shù)y=wT·x+b,并使得該超平面與各樣本點(diǎn)的偏離最小,其中w是超平面n-1維法向量。考慮一個(gè)樣本集T={(x1T,y1),…(xlT,yl)}∈(X×Y),l為樣本數(shù),xi是 n 維向量,y∈Rn。如果采用ε不靈敏函數(shù)作為誤差函數(shù),當(dāng)所有的樣本點(diǎn)到所求的超平面的距離都不超過(guò)ε時(shí),如圖1所示,中間的實(shí)線表示ε的超平面,超平面兩邊的ε區(qū)域?yàn)槌矫娴摩艓А?/p>
可以想象,一個(gè)最優(yōu)的超平面應(yīng)該是能夠以最小的ε帶包含訓(xùn)練集中所有樣本點(diǎn)的超平面。為求得最優(yōu)超平面,借鑒支持向量機(jī)分類的思想,可將其轉(zhuǎn)化為一個(gè)二分類的問(wèn)題:選擇合適的 ε(ε≥minε),分別給每個(gè)樣本點(diǎn)的y值加上ε或減去ε,構(gòu)造新的正負(fù)兩類樣本點(diǎn):D+=(,yi+ε;zi=+1)(i=1,2, …l),D-=(,yi-ε;zi=-1)(i=1,2,…l)??紤]會(huì)有個(gè)別樣本點(diǎn)到超平面距離大于ε影響求解最優(yōu)超平面的情況,引入松弛變量 ξi,ξ*i和懲罰參數(shù)C,構(gòu)造并求解問(wèn)題:
引 入 Lagrange 乘 子 ,a(*)=(a1,a*1…al,a*l)≥0, 構(gòu) 造Lagrange函數(shù),求式(1)的對(duì)偶問(wèn)題得:
其中
式(2)~ 式(4)中 K(xi,xj)是 核 函 數(shù) , 其 值 為 向 量 xi和xj在特征空間的 φ(xi)和 φ(xj)中的內(nèi)積,φ(xi),φ(xj)為映射函數(shù)。核函數(shù)的作用是當(dāng)樣本點(diǎn)在原空間線性不可分時(shí),可以通過(guò)映射函數(shù)映射到高維空間,從而達(dá)到線性可分的目的,但實(shí)際應(yīng)用中映射函數(shù)的顯式表達(dá)式很難找到,觀察式(2)~式(4)中只用到了映射在高維空間的點(diǎn)積,而核函數(shù)的特點(diǎn)就是能使變量在低維空間核函數(shù)值等于其映射到高維空間的點(diǎn)積值,從而實(shí)現(xiàn)不需要知道顯式映射函數(shù)達(dá)到向高維空間映射的目的。任何滿足Mercer條件的函數(shù)均可作為核函數(shù)。
微粒群算法最早是在1995年由美國(guó)社會(huì)心理學(xué)家Kennedy和Russell[6]共同提出,其基本思想是受鳥群覓食行為的啟發(fā)而形成的。PSO算法把優(yōu)化問(wèn)題的解看作是D維空間中一個(gè)沒有體積沒有質(zhì)量的飛行粒子,所有的粒子都有一個(gè)被優(yōu)化目標(biāo)函數(shù)決定的適應(yīng)度值,而速度決定每個(gè)粒子的飛行方向和距離,粒子根據(jù)自己先前達(dá)到的最優(yōu)位置和整個(gè)群體達(dá)到的最優(yōu)位置來(lái)更新自己的位置和速度,從而向全局最優(yōu)位置聚集。粒子根據(jù)以下公式來(lái)更新自己的速度和位置:
式中,下標(biāo)i代表第i個(gè)粒子,下標(biāo)d代表速度或位置的第 d維,t代表迭代代數(shù),w代表慣性權(quán)重系數(shù),c1和 c2是學(xué)習(xí)因子, 通常 c1,c2∈[0,4],r1,r2是介于[0,1]之間的隨機(jī)數(shù),Pid是粒子Pi在第 d維個(gè)體極值坐標(biāo),Pgd是粒子群體在第j維的全局極值坐標(biāo)。從式(5)可知,w越大全局探測(cè)能力越強(qiáng);w越小則局部探測(cè)能力越強(qiáng)。因此可以讓w隨著迭代次數(shù)的增加,而動(dòng)態(tài)地減少,以保證算法有較大的機(jī)率收斂于全局最優(yōu)解。但是在算法執(zhí)行過(guò)程中,隨著w的減少,也在一定程度上導(dǎo)致后期收斂速度降低,從而影響全局收斂性能。為了克服這種缺陷,Clerk構(gòu)造了帶收縮因子K的改進(jìn) PSO模型[7],試驗(yàn)結(jié)果表明收縮因子K比慣性權(quán)重系數(shù)w能更有效地控制微粒的飛行速度,同時(shí)增強(qiáng)了算法的局部搜索能力,模型如下:
經(jīng)檢驗(yàn),兩組護(hù)生操作考試成績(jī)不符合正態(tài)分布,故采用非參數(shù)檢驗(yàn)Wilcoxon秩和檢驗(yàn),對(duì)照組護(hù)生成績(jī)中位數(shù)為83.37分,試驗(yàn)組護(hù)生成績(jī)中位數(shù)為89.73分,兩組比較:Z=-6.501,P=0.000。
主成分析[8]是利用數(shù)學(xué)上處理降維的思想,將實(shí)際問(wèn)題中的多個(gè)相關(guān)性較高的指標(biāo)設(shè)法重新組合成一組新的少數(shù)幾個(gè)互不相關(guān)的綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)的一種多元統(tǒng)計(jì)方法,通常把轉(zhuǎn)化生成的綜合指標(biāo)稱為主成份,其中每個(gè)主成份都是原始變量的線形組合。主成份要盡可能多地反映原來(lái)指標(biāo)的信息,而且要有較好的解釋意義。降維的步驟:(1)將原始數(shù)據(jù)標(biāo)準(zhǔn)化以消除量綱影響;(2)計(jì)算變量的相關(guān)系數(shù)矩陣 R=(rij)p′p,其中 rij(i,j=1,2,…,p)為原來(lái)變量 xi與 xj的相關(guān)系數(shù);(3)計(jì)算R的特征值及相應(yīng)的特征向量,即 λ1≥λ2,…≥λp≥0然后分別求出對(duì)應(yīng)于特征值 λi的特征向量 ai(i=1,2,…,p),且 ai是正交單位特征向量;(4)寫出主成份 Fi=a1iX1+a2iX2+…+apiXp(i=1,…,p)。
試驗(yàn)從UCI上選取美國(guó)波斯頓地區(qū)1993年城鎮(zhèn)住房數(shù)據(jù)作為試驗(yàn)數(shù)據(jù)[9]。試驗(yàn)步驟如下:
(1)應(yīng)用主成分析法降維
由于統(tǒng)計(jì)軟件SPSS提供了主成份分析功能,而且具有采用交互式、圖形化操作界面、結(jié)果圖形化輸出、直觀性強(qiáng)等優(yōu)點(diǎn),故本文采用SPSS16.0作為降維工具,表1為最大方差旋轉(zhuǎn)后的因子載荷圖,從表中可以看出,7個(gè)主成份都有很好的解釋意義(載荷絕對(duì)值>0.5,說(shuō)明變量與主成份存在相關(guān)性)。主成份1為城鎮(zhèn)生活環(huán)境,主成份2為治安環(huán)境,主成份3為人口密度,主成份4為人口層次,主成份5為是否有河流,主成份6為商業(yè)環(huán)境,主成份7為教育發(fā)展水平。
表1 主成份載荷旋轉(zhuǎn)
(2)應(yīng)用粒子群算法優(yōu)化支持量機(jī)參數(shù)
支持量機(jī)回歸待優(yōu)化的參數(shù)有懲罰參數(shù)C和e帶參數(shù) e,采用高斯徑向基函數(shù) K(xi,xj)=exp(-γ‖xi,xj‖2)作為SVM模型的核函數(shù)。選取降維后試驗(yàn)數(shù)據(jù)前352個(gè)樣本作為訓(xùn)練樣本,后100個(gè)樣本作為預(yù)測(cè)樣本。設(shè)C ∈[1,500],ε∈[0.01,10],Vid_max=Xid_max,c1=2.8,c2=1.3,種群規(guī)模為30,最大迭代次數(shù)為30,采用3折交叉驗(yàn)證模式下的均方誤差(MSRE)作為評(píng)估粒子的適應(yīng)度函數(shù)。優(yōu)化后得到最優(yōu)C=375.754,ε=0.175,最優(yōu)目標(biāo)函數(shù)的適應(yīng)度值MSRE=7.4801。
(3)應(yīng)用e-SVM進(jìn)行回歸預(yù)測(cè)
本文把量子群優(yōu)化算法和主成分析降維的方法應(yīng)用于支持向量機(jī)的回歸預(yù)測(cè)中,試驗(yàn)結(jié)果表明此法能顯著提高支持向量機(jī)的預(yù)測(cè)精度,同時(shí)也表明了支持向量機(jī)在非線性、高維模式下的良好預(yù)測(cè)性能。
[1]閻平凡,張長(zhǎng)水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算[M].北京:清華大學(xué)出版社,2006.
[2]韋康南,姚立綱等.基于灰色理論的產(chǎn)品壽命預(yù)測(cè)研究[J].計(jì)算機(jī)集成制造系統(tǒng),2005(10):1491-1495.
[3]VAPNIK V N.The nature of statistic learning theory[M].New York: Springer, 2005.
[4]VAPNIK V N.Estimation of dependencies based on empiric[M].Berlin Springer-Verlag,2003.
[5]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法-支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[6]KENNEDY J,EBERHART R.Particle swarm optimizat[A].Proc IEEE IntConf.on Neural[C].Perth,1995.1942-1948.
[7]CLERK, M.The swarm and the queen: Towards a deterministic and adaptive particle swarm optimization[A].1951-1957.1990.Proc.CEC 1999.
[8]林海明.對(duì)主成分分析法運(yùn)用中的十個(gè)問(wèn)題的解析[J].統(tǒng)計(jì)與決策(理論版),2007(8):16-18.
[9]http://archive.ics.uci.edu/ml/index.html 1993.07.