王 玚
(哈爾濱師范大學(xué)附屬中學(xué),黑龍江 哈爾濱 150004)
?
基于SVM的小樣本數(shù)據(jù)分析
王玚
(哈爾濱師范大學(xué)附屬中學(xué),黑龍江 哈爾濱150004)
摘要:可靠性工程中,樣本數(shù)據(jù)越多,其分析、計(jì)算結(jié)果越可靠。而對(duì)于某些樣本容量較小的小樣本數(shù)據(jù),如何有效利用小樣本數(shù)據(jù)的潛在信息進(jìn)行分析,并保證分析結(jié)果的有效性就尤為重要。采用基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法——支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM),根據(jù)有限的樣本信息,在最小化樣本點(diǎn)誤差的同時(shí),提高模型的泛化能力,從而得到可靠的小樣本數(shù)據(jù)的分析結(jié)果。
關(guān)鍵詞:小樣本數(shù)據(jù);SVM;數(shù)據(jù)分析
1引言
可靠性工程中,樣本數(shù)據(jù)越多,其分析、計(jì)算結(jié)果越可靠。而在不同的物理背景下,由于影響因素眾多或科學(xué)量測(cè)手段有限等原因,造成采集到的數(shù)據(jù)樣本容量較少。依據(jù)統(tǒng)計(jì)理論,這種小樣本數(shù)據(jù)由于數(shù)量少,反映出的信息量不足,不能明確其分布規(guī)律,無(wú)法判斷是否存在數(shù)據(jù)異常情況,若直接按傳統(tǒng)方法進(jìn)行分析計(jì)算,其結(jié)果的可靠性難以保證,可能存在較大的統(tǒng)計(jì)誤差。
目前,對(duì)于小樣本數(shù)據(jù)的處理,一般有兩種思路。一種是提高小樣本數(shù)據(jù)的精度。常用的有Bayes方法,雖然該方法可以根據(jù)小樣本的先驗(yàn)信息得到較好的數(shù)據(jù)概率估值,但在缺少先驗(yàn)信息或數(shù)據(jù)可靠度不高等特殊情況下,其分析結(jié)果將出現(xiàn)較大的偏差。另一種是擴(kuò)大小樣本數(shù)據(jù)的容量。常用的有Bootstrap方法。但該方法由于過(guò)分依賴原始樣本,將容易產(chǎn)生參數(shù)偏移,進(jìn)而影響參數(shù)估計(jì)的穩(wěn)健性。因此,為了彌補(bǔ)上述這些不足,本文采用的是同樣屬于擴(kuò)大小樣本容量的SVM方法,這是針對(duì)小樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和預(yù)測(cè)的一個(gè)可行的方法。
2SVM原理
傳統(tǒng)統(tǒng)計(jì)學(xué)是樣本數(shù)目趨于無(wú)窮大時(shí)的漸近理論,而實(shí)際上這是滿足不了的,因?yàn)闃颖緮?shù)目往往是有限的。因此,現(xiàn)代智能應(yīng)用技術(shù)中出現(xiàn)了一種基于機(jī)器學(xué)習(xí)的方法,其主要研究如何從一些樣本出發(fā)得出目前不能通過(guò)原理分析得到的規(guī)律,利用這些規(guī)律去分析客觀對(duì)象,進(jìn)而對(duì)未來(lái)數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
統(tǒng)計(jì)學(xué)習(xí)理論(Statistic Learning Theory:SLT)是一種專門(mén)研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的基本理論和數(shù)學(xué)構(gòu)架,也是小樣本統(tǒng)計(jì)估計(jì)和預(yù)測(cè)學(xué)習(xí)的最佳理論。
SVM法就是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法——支持向量機(jī)(Support Vector Machine)的簡(jiǎn)稱。
SVM最初是在研究線性可分問(wèn)題時(shí)提出的。其基本思路是:假設(shè)大小為l的訓(xùn)練樣本集{(x,y),i=1,2,…,l}由兩個(gè)類別組成。若xi屬于第一類,則記yi=1;若xi屬于第二類,則yi=-1記。如圖1所示。
圖1 線性可分示意圖
圖2 分類超平面優(yōu)劣示意圖
若存在一分類超平面(wx+b=0), 能夠?qū)颖菊_地劃分成兩類,即相同類別的樣本落在分類超平面的同一側(cè),則稱該樣本集是線性可分的,即滿足方程(1)。
(1)
此時(shí),所有樣本點(diǎn)到該分類超平面的幾何間隔距離就組成了間隔距離集合,此集合中存在一個(gè)樣本點(diǎn),其到分類超平面的幾何間隔距離最短。這個(gè)最小間隔距離,影響著樣本分類的結(jié)果。根據(jù)統(tǒng)計(jì)理論,此過(guò)程中樣本的誤分次數(shù)N與該最小間隔距離δ 之間的關(guān)系滿足方程(2),為反比關(guān)系,即距離越大,樣本誤分次數(shù)越小。
(2)
式中:N為樣本的誤分次數(shù);R為樣本集中向量長(zhǎng)度最長(zhǎng)的值,R=max││xi││,i=1,2,…,l;δ為樣本集中與分類超平面最近的樣本點(diǎn)的幾何間隔距離。
由公式(2)可知,誤分次數(shù)N的上界由δ決定。因此,在樣本分類過(guò)程中,滿足方程(1)的分類超平面是任意的,則對(duì)于同一批數(shù)據(jù)樣本,可以有無(wú)數(shù)個(gè)分類超平面,也就有無(wú)數(shù)個(gè)最小間隔距離。因此,能夠在無(wú)數(shù)個(gè)分類超平面中找到一個(gè)最優(yōu)分類面,使得此時(shí)對(duì)應(yīng)的最小間隔距離是其它情況中最大的,其誤分次數(shù)是最小的。例如,有一組數(shù)據(jù)由星形和圓形組成,其分布如圖3所示,圖中有三個(gè)分類超平面A、B、C,若選擇能更好區(qū)分兩種數(shù)據(jù)類別的超平面,則B要優(yōu)于A、C。
一般,如果一組數(shù)據(jù)中的絕大多數(shù)樣本是線性可分的,僅有少數(shù)幾個(gè)樣本(可能是異常數(shù)據(jù))可能出現(xiàn)尋找不到最優(yōu)分類平面的情況,此時(shí),可以引入松弛變量(又稱懲罰函數(shù))來(lái)實(shí)現(xiàn)分類。
若對(duì)于非線性問(wèn)題,則不能直接應(yīng)用線性可分的SVM,需要將樣本數(shù)據(jù)進(jìn)行非線性映射,通過(guò)使用非線性映射將低維輸入空間的樣本映射到高維特征空間使其變?yōu)榫€性情況(這個(gè)過(guò)程將應(yīng)用到核函數(shù)),再在高維特征空間中尋找使訓(xùn)練樣本誤差最小的最優(yōu)分類超平面。這個(gè)最優(yōu)分類面的數(shù)學(xué)函數(shù)即SVM訓(xùn)練模型。
對(duì)于小樣本數(shù)據(jù),若進(jìn)行回歸擬合分析時(shí),則此時(shí)SVM的基本思想不再是尋找一個(gè)最優(yōu)分類面使得兩類樣本分開(kāi),而是尋找一個(gè)最優(yōu)分類面,使得所有訓(xùn)練樣本離該最優(yōu)分類面的誤差最小。
SVM的求解問(wèn)題最終將轉(zhuǎn)化為一個(gè)帶約束的二次規(guī)劃問(wèn)題,這樣就得到了有限樣本情況下的全局最優(yōu)解(模型)。又由于SVM分析是基于統(tǒng)計(jì)學(xué)習(xí)理論中結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,即由有限的訓(xùn)練樣本得到的小的誤差能夠保證使獨(dú)立的測(cè)試集仍保持小的誤差,這就使這個(gè)全局最優(yōu)解(模型)具有良好的泛化能力。
3SVM應(yīng)用步驟
SVM中機(jī)器學(xué)習(xí)的過(guò)程可以這樣理解:存在一個(gè)未知的系統(tǒng)S(因?yàn)樾颖緮?shù)據(jù)量小,信息不足,故小樣本內(nèi)部的規(guī)律認(rèn)為是未知的。)給定的輸入樣本空間X和這些輸入樣本通過(guò)S處理后的輸出Y。利用機(jī)器學(xué)習(xí)的方法,根據(jù)給定和(利用前述尋找最優(yōu)分類面的方法)得到一個(gè)學(xué)習(xí)機(jī)(即模型),學(xué)習(xí)機(jī)(模型)在接受訓(xùn)練、測(cè)試樣本X以外的樣本X′后得到的輸出Y′可以被認(rèn)為是未知系統(tǒng)S針對(duì)X′輸入所得到的輸出的近似,這個(gè)過(guò)程就可以增加小樣本數(shù)據(jù)的容量。故這個(gè)學(xué)習(xí)機(jī)(模型)可以認(rèn)為是對(duì)S的內(nèi)在規(guī)律的近似,尋找這個(gè)學(xué)習(xí)機(jī)(模型)的過(guò)程就變成了從這個(gè)函數(shù)集合中找出能最佳逼近輸入樣本的函數(shù)的過(guò)程。
針對(duì)研究問(wèn)題,利用SVM建立模型并對(duì)模型的性能進(jìn)行評(píng)價(jià),大體上可以分為四個(gè)步驟,如圖3所示。
圖3 模型建立步驟
(1)產(chǎn)生訓(xùn)練集/測(cè)試集
將樣本分成兩類,一類是訓(xùn)練集,一類是測(cè)試集。在產(chǎn)生訓(xùn)練集及測(cè)試集時(shí),要求所產(chǎn)生的樣本數(shù)不宜太小,且應(yīng)具有代表性。
(2)創(chuàng)建/訓(xùn)練SVM模型
根據(jù)訓(xùn)練集樣本進(jìn)行訓(xùn)練,得到SVM訓(xùn)練模型。創(chuàng)建模型之前,如若需要,還應(yīng)對(duì)數(shù)據(jù)進(jìn)行歸一化,并需要確定核函數(shù)類型及選擇較好的參數(shù)。
(3)仿真測(cè)試
將測(cè)試樣本輸入SVM訓(xùn)練模型,得到模型預(yù)測(cè)值及相對(duì)應(yīng)的評(píng)判參數(shù)值。一般回歸模型將得到測(cè)試集中的均方誤差和決定系數(shù)。
(4)性能評(píng)價(jià)
若模型的性能沒(méi)有達(dá)到預(yù)期,則需要通過(guò)重新選擇訓(xùn)練集、修改模型參數(shù)或核函數(shù)類型等方法重新建立模型,重復(fù)(3)、(4)步驟,直至滿足預(yù)期要求。
4結(jié)語(yǔ)
本文分析了小樣本數(shù)據(jù)的特點(diǎn),揭示了目前小樣本數(shù)據(jù)常用分析方法中存在的不足,并較為詳盡的介紹了SVM的原理及分析思路,給出了基于SVM的小樣本數(shù)據(jù)分析方法的應(yīng)用步驟,為相關(guān)從業(yè)人員進(jìn)行小樣本數(shù)據(jù)的分析研究提供了一種行之有效的方法。
參考文獻(xiàn):
[1]瓦普尼克.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].北京:清華大學(xué)出版社,2000.
[2]Vapnik VN. The Nature of Statistical Learning Theory[M]. NewYork: Springer-Verlag, 1995.
[3]鄧乃揚(yáng),田英杰.支持向量機(jī)[M].北京:科學(xué)出版社,2009.
收稿日期:2016-02-15
作者簡(jiǎn)介:王玚(1998-),女,哈爾濱師范大學(xué)附屬中學(xué)學(xué)生。
中圖分類號(hào):U415.1
文獻(xiàn)標(biāo)識(shí)碼:C
文章編號(hào):1008-3383(2016)04-0149-02