石昀 凱里學(xué)院 大數(shù)據(jù)工程學(xué)院
關(guān)于小樣本數(shù)據(jù)預(yù)測模型,前人在此之前進行過大量的研究,如Delphi 法、TOPISIS 法、AHP 法、BP 法、DEA 法、GRA 等[1,2,3]。上述方法存在著如下不足:一是過于依賴定量數(shù)據(jù)[4],如DEA、AHP等;二是主觀因素影響過大[4],如Delphi法、模糊評價法等[5][6]。三是容易出現(xiàn)收斂速度慢以及過擬合的情況,如BP 法、SVM 法[6]。
相關(guān)向量機(Relevance Vector Machine, RVM)是Tipping在SVM(支持向量機)的基礎(chǔ)上提出的一種新的機器學(xué)習(xí)算法,它具有以下優(yōu)點:
(1).通過引入超參數(shù)α以及計算超參數(shù)的權(quán)重后驗分布迭代計算出最優(yōu)權(quán)值,最終獲得稀疏化模型[3];
(2).顯著提升了核函數(shù)的運算效率,增強了解的稀疏性[8];
(3).整個訓(xùn)練無需調(diào)整過多的參數(shù);
(4).核函數(shù)不需要滿足正定條件。
算法執(zhí)行過程可以概括為如下幾步:
1)選擇核函數(shù),并設(shè)置相關(guān)參數(shù),通過核函數(shù)創(chuàng)建核矩陣;
6)重復(fù)步驟4,5 直至所有訓(xùn)練樣本均代入算法執(zhí)行完畢。
為對比RVM、SVM 以及BP 三種算法的性能,使用公開數(shù)據(jù)集網(wǎng)站UCI(http://archive.ics.uci.edu/ml/datasets.html)中汽車油耗量數(shù)據(jù)集進行性能對比實驗。使用RVM、SVM、BP 三種算法來對汽車油耗量數(shù)據(jù)集進行模型訓(xùn)練,通過運行時間以及測試結(jié)果誤差率來得出實驗結(jié)論。汽車油耗量數(shù)據(jù)集如表3-1 所示。
其中,數(shù)據(jù)一共392 條,mpg 為油耗量,數(shù)值范圍[9,46.4];cyl為氣缸數(shù),數(shù)值范[3,8];dis為行駛距離,數(shù)值范圍[68,455];hor 為馬力,數(shù)值范圍[46,230];wei 為汽車自重,數(shù)值范圍[1613,5140];acc 為加速度,數(shù)值范圍[8,24.8];ye為制造廠年份,數(shù)值范圍[70,82];or為產(chǎn)地,數(shù)值范圍[1,3]。
首先,將表一數(shù)據(jù)通過min-max方法[9]進行歸一化處理。第二,歸一化處理完成后,將歸一化后的392 條數(shù)據(jù)分為兩個集合,前352條作為訓(xùn)練集,后40 條作為測試集。第三,使用訓(xùn)練集進行樣本訓(xùn)練,使用數(shù)據(jù)集進行結(jié)果測試,計算出運行時間以及測試結(jié)果誤差率。其中,誤差率為平均相對誤差[10],同時,平均相對誤差不超過5%時為可接受誤差[11]。上述實驗結(jié)果如表2 所示。
實驗結(jié)果表明RVM 模型預(yù)測出的結(jié)果明顯優(yōu)于BP,相比SVM 則大致相當(dāng)。但是RVM 模型是用極少數(shù)相關(guān)向量即可得到最終評價結(jié)果,因此從效率上來說明顯優(yōu)于SVM 算法,更適用于小樣本數(shù)據(jù)分析。
本本文將RVM 算法成功應(yīng)用于小樣本數(shù)據(jù)預(yù)測分析中,實驗結(jié)果表明,相比于BP 算法以及SVM 算法,RVM 在精確性上優(yōu)于BP。在運行效率上優(yōu)于SVM,精度與SVM 大致相當(dāng)。同時實例分析表明,RVM 算法動態(tài)地對各因素間權(quán)重參數(shù)進行調(diào)整,使得無需過多關(guān)注評價模型內(nèi)各指標相互間的關(guān)系,從而驗證了該理論模型應(yīng)用于小樣本數(shù)據(jù)預(yù)測分析領(lǐng)域的可行性。