萬(wàn)媛媛
摘要:本文主要運(yùn)用數(shù)據(jù)挖掘所學(xué)的各種模型對(duì)德國(guó)信貸評(píng)價(jià)數(shù)據(jù)集做了具體的分析,首先通過(guò)分析數(shù)據(jù)各變量之間的關(guān)系,運(yùn)用R軟件,然后用主成分分析,回歸分析,BP神經(jīng)網(wǎng)絡(luò),支持向量機(jī)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),最后比較不同預(yù)測(cè)模型的準(zhǔn)確性,通過(guò)幾種模型的對(duì)比可看出各種模型預(yù)測(cè)的好壞。
關(guān)鍵詞:主成分分析 回歸分析 BP神經(jīng)網(wǎng)絡(luò) 支持向量機(jī)
一、數(shù)據(jù)分析
(一)主成份分析
主成分分析(Principal Component Analysis,PCA), 將多個(gè)變量通過(guò)線(xiàn)性變換以選出較少個(gè)數(shù)重要變量的一種多元統(tǒng)計(jì)分析方法。
前19個(gè)成分的累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到90%,另外其他的主成分可以舍去,達(dá)到降維的目的,觀察各成份的比例,會(huì)發(fā)現(xiàn)成份增加時(shí),所占比例沒(méi)有明顯增加,各成份沒(méi)有明顯的主次之分。下面是碎石圖:
圖像下降得較為平滑,沒(méi)有明顯的“陡峭”。
同時(shí)也考慮了一下,相關(guān)系數(shù)矩陣進(jìn)行分析,得到圖如下:
從以上分析,大致可知各變量所占比重較平均,沒(méi)有特別地偏重哪個(gè)變量。
(二)回歸分析
多元回歸分析:表現(xiàn)在線(xiàn)性回歸模型中的解釋變量有多個(gè)。一
般表現(xiàn)形式:
對(duì)訓(xùn)練集進(jìn)行多元回歸分析,并用測(cè)試集進(jìn)行檢測(cè),得到的準(zhǔn)確率是0.742。
(三)逐步回歸分析
上面的多元回歸分析中涉及變量較多,為了簡(jiǎn)化模型,進(jìn)行逐步回歸分析,選取其中十一個(gè)變量。
得到結(jié)果如下:
對(duì)訓(xùn)練集進(jìn)行逐步回歸分析,并用測(cè)試集進(jìn)行檢測(cè),得到的準(zhǔn)確率是逐步回歸分析的準(zhǔn)確率為0.753。
1、BP神經(jīng)網(wǎng)絡(luò)
算法。令1:good 2:bad先對(duì)數(shù)據(jù)進(jìn)行處理,調(diào)用r.studio 中的AMORE包。
每一百次輸出一次,共顯示10次:
index.show: 1 LMS 0.672420016008633
index.show: 2 LMS 0.682084907905352
index.show: 3 LMS 0.699954664285038
index.show: 4 LMS 0.700077412246174
index.show: 5 LMS 0.700084847039235
index.show: 6 LMS 0.700079842363825
index.show: 7 LMS 0.700037627521291
index.show: 8 LMS 0.685135487222039
index.show: 9 LMS 0.682417548537964
index.show: 10 LMS 0.679170941744628
從結(jié)果可以看出準(zhǔn)確率在0.68左右。
2、支持向量機(jī)
支持向量機(jī)(SVM)是一種線(xiàn)性和非線(xiàn)性數(shù)據(jù)的分類(lèi)方法,它使用非線(xiàn)性映射將原始數(shù)據(jù)映射到高維空間,在該空間內(nèi)搜索最佳分離超平面。
Parameters:
SVM-Type: eps-regression
SVM-Kernel: radial
cost: 1
gamma: 0.04166667
epsilon: 0.1
Number of Support Vectors: 414
得到的準(zhǔn)確率是0.752。
二、結(jié)論以及建議
在主成份分析中,對(duì)每個(gè)變量間的關(guān)系進(jìn)行了分析,發(fā)現(xiàn)25個(gè)變量的選取很好,彼此間相關(guān)性比較小,也從側(cè)面證明了,評(píng)價(jià)機(jī)構(gòu)選取的評(píng)測(cè)依據(jù)是有代表性的。
用了四種方法對(duì)德國(guó)信貸評(píng)價(jià)進(jìn)行了訓(xùn)練預(yù)測(cè),結(jié)果準(zhǔn)確率由高到低為:逐步回歸的準(zhǔn)確率0.753、支持向量機(jī)的準(zhǔn)確率0,752、多元線(xiàn)性回歸的準(zhǔn)確率0.742、BP神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率0.68。
如果希望盡量用少的變量對(duì)數(shù)據(jù)結(jié)果進(jìn)行預(yù)測(cè)的話(huà),可以做回歸分析,選取更具代表性的特征進(jìn)行分析。
參考文獻(xiàn):
[1]郭娟,基于BP神經(jīng)網(wǎng)絡(luò)的中國(guó)鐵礦石需求量預(yù)測(cè)[J].國(guó)土資源情報(bào),2009.1
[2]王磊,基于主成分分析的支持向量機(jī)回歸預(yù)測(cè)模型[J].信息技術(shù),2008.12
[3]薛毅,陳立萍,R統(tǒng)計(jì)建模與R軟件[M].清華大學(xué)出版社,2009
[4]梁文光,廣東省GDP時(shí)間序列預(yù)測(cè)-基于神經(jīng)網(wǎng)絡(luò)與ARIMA模型[J].技術(shù)與市場(chǎng),2010