亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SVM的小樣本數(shù)據(jù)分析

2016-06-14 03:21:44王玚

黑龍江交通科技 2016年4期

關(guān)鍵詞：數(shù)據(jù)分析

王　玚

(哈爾濱師范大學(xué)附屬中學(xué)，黑龍江哈爾濱　150004)

基于SVM的小樣本數(shù)據(jù)分析

王玚

(哈爾濱師范大學(xué)附屬中學(xué)，黑龍江哈爾濱150004)

摘要：可靠性工程中，樣本數(shù)據(jù)越多，其分析、計(jì)算結(jié)果越可靠。而對(duì)于某些樣本容量較小的小樣本數(shù)據(jù)，如何有效利用小樣本數(shù)據(jù)的潛在信息進(jìn)行分析，并保證分析結(jié)果的有效性就尤為重要。采用基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法——支持向量機(jī)(Support Vector Machine，簡(jiǎn)稱SVM)，根據(jù)有限的樣本信息，在最小化樣本點(diǎn)誤差的同時(shí)，提高模型的泛化能力，從而得到可靠的小樣本數(shù)據(jù)的分析結(jié)果。

關(guān)鍵詞：小樣本數(shù)據(jù)；SVM；數(shù)據(jù)分析

1引言

可靠性工程中，樣本數(shù)據(jù)越多，其分析、計(jì)算結(jié)果越可靠。而在不同的物理背景下，由于影響因素眾多或科學(xué)量測(cè)手段有限等原因，造成采集到的數(shù)據(jù)樣本容量較少。依據(jù)統(tǒng)計(jì)理論，這種小樣本數(shù)據(jù)由于數(shù)量少，反映出的信息量不足，不能明確其分布規(guī)律，無(wú)法判斷是否存在數(shù)據(jù)異常情況，若直接按傳統(tǒng)方法進(jìn)行分析計(jì)算，其結(jié)果的可靠性難以保證，可能存在較大的統(tǒng)計(jì)誤差。

目前，對(duì)于小樣本數(shù)據(jù)的處理，一般有兩種思路。一種是提高小樣本數(shù)據(jù)的精度。常用的有Bayes方法，雖然該方法可以根據(jù)小樣本的先驗(yàn)信息得到較好的數(shù)據(jù)概率估值，但在缺少先驗(yàn)信息或數(shù)據(jù)可靠度不高等特殊情況下，其分析結(jié)果將出現(xiàn)較大的偏差。另一種是擴(kuò)大小樣本數(shù)據(jù)的容量。常用的有Bootstrap方法。但該方法由于過(guò)分依賴原始樣本，將容易產(chǎn)生參數(shù)偏移，進(jìn)而影響參數(shù)估計(jì)的穩(wěn)健性。因此，為了彌補(bǔ)上述這些不足，本文采用的是同樣屬于擴(kuò)大小樣本容量的SVM方法，這是針對(duì)小樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和預(yù)測(cè)的一個(gè)可行的方法。

2SVM原理

傳統(tǒng)統(tǒng)計(jì)學(xué)是樣本數(shù)目趨于無(wú)窮大時(shí)的漸近理論，而實(shí)際上這是滿足不了的，因?yàn)闃颖緮?shù)目往往是有限的。因此，現(xiàn)代智能應(yīng)用技術(shù)中出現(xiàn)了一種基于機(jī)器學(xué)習(xí)的方法，其主要研究如何從一些樣本出發(fā)得出目前不能通過(guò)原理分析得到的規(guī)律，利用這些規(guī)律去分析客觀對(duì)象，進(jìn)而對(duì)未來(lái)數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

統(tǒng)計(jì)學(xué)習(xí)理論(Statistic Learning Theory：SLT)是一種專門(mén)研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的基本理論和數(shù)學(xué)構(gòu)架，也是小樣本統(tǒng)計(jì)估計(jì)和預(yù)測(cè)學(xué)習(xí)的最佳理論。

SVM法就是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法——支持向量機(jī)(Support Vector Machine)的簡(jiǎn)稱。

SVM最初是在研究線性可分問(wèn)題時(shí)提出的。其基本思路是：假設(shè)大小為l的訓(xùn)練樣本集{(x,y),i=1,2,…,l}由兩個(gè)類別組成。若xi屬于第一類，則記yi=1；若xi屬于第二類，則yi=-1記。如圖1所示。

圖1　線性可分示意圖

圖2　分類超平面優(yōu)劣示意圖

若存在一分類超平面(wx+b=0)，能夠?qū)颖菊_地劃分成兩類，即相同類別的樣本落在分類超平面的同一側(cè)，則稱該樣本集是線性可分的，即滿足方程(1)。

(1)

此時(shí)，所有樣本點(diǎn)到該分類超平面的幾何間隔距離就組成了間隔距離集合，此集合中存在一個(gè)樣本點(diǎn)，其到分類超平面的幾何間隔距離最短。這個(gè)最小間隔距離，影響著樣本分類的結(jié)果。根據(jù)統(tǒng)計(jì)理論，此過(guò)程中樣本的誤分次數(shù)N與該最小間隔距離δ 之間的關(guān)系滿足方程(2)，為反比關(guān)系，即距離越大，樣本誤分次數(shù)越小。

(2)

式中：N為樣本的誤分次數(shù)；R為樣本集中向量長(zhǎng)度最長(zhǎng)的值，R=max││xi││，i=1，2，…，l；δ為樣本集中與分類超平面最近的樣本點(diǎn)的幾何間隔距離。

由公式(2)可知，誤分次數(shù)N的上界由δ決定。因此，在樣本分類過(guò)程中，滿足方程(1)的分類超平面是任意的，則對(duì)于同一批數(shù)據(jù)樣本，可以有無(wú)數(shù)個(gè)分類超平面，也就有無(wú)數(shù)個(gè)最小間隔距離。因此，能夠在無(wú)數(shù)個(gè)分類超平面中找到一個(gè)最優(yōu)分類面，使得此時(shí)對(duì)應(yīng)的最小間隔距離是其它情況中最大的，其誤分次數(shù)是最小的。例如，有一組數(shù)據(jù)由星形和圓形組成，其分布如圖3所示，圖中有三個(gè)分類超平面A、B、C，若選擇能更好區(qū)分兩種數(shù)據(jù)類別的超平面，則B要優(yōu)于A、C。

一般，如果一組數(shù)據(jù)中的絕大多數(shù)樣本是線性可分的，僅有少數(shù)幾個(gè)樣本(可能是異常數(shù)據(jù))可能出現(xiàn)尋找不到最優(yōu)分類平面的情況，此時(shí)，可以引入松弛變量(又稱懲罰函數(shù))來(lái)實(shí)現(xiàn)分類。

若對(duì)于非線性問(wèn)題，則不能直接應(yīng)用線性可分的SVM，需要將樣本數(shù)據(jù)進(jìn)行非線性映射，通過(guò)使用非線性映射將低維輸入空間的樣本映射到高維特征空間使其變?yōu)榫€性情況(這個(gè)過(guò)程將應(yīng)用到核函數(shù))，再在高維特征空間中尋找使訓(xùn)練樣本誤差最小的最優(yōu)分類超平面。這個(gè)最優(yōu)分類面的數(shù)學(xué)函數(shù)即SVM訓(xùn)練模型。

對(duì)于小樣本數(shù)據(jù)，若進(jìn)行回歸擬合分析時(shí)，則此時(shí)SVM的基本思想不再是尋找一個(gè)最優(yōu)分類面使得兩類樣本分開(kāi)，而是尋找一個(gè)最優(yōu)分類面，使得所有訓(xùn)練樣本離該最優(yōu)分類面的誤差最小。

SVM的求解問(wèn)題最終將轉(zhuǎn)化為一個(gè)帶約束的二次規(guī)劃問(wèn)題，這樣就得到了有限樣本情況下的全局最優(yōu)解(模型)。又由于SVM分析是基于統(tǒng)計(jì)學(xué)習(xí)理論中結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則，即由有限的訓(xùn)練樣本得到的小的誤差能夠保證使獨(dú)立的測(cè)試集仍保持小的誤差，這就使這個(gè)全局最優(yōu)解(模型)具有良好的泛化能力。

3SVM應(yīng)用步驟

SVM中機(jī)器學(xué)習(xí)的過(guò)程可以這樣理解：存在一個(gè)未知的系統(tǒng)S(因?yàn)樾颖緮?shù)據(jù)量小，信息不足，故小樣本內(nèi)部的規(guī)律認(rèn)為是未知的。)給定的輸入樣本空間X和這些輸入樣本通過(guò)S處理后的輸出Y。利用機(jī)器學(xué)習(xí)的方法，根據(jù)給定和(利用前述尋找最優(yōu)分類面的方法)得到一個(gè)學(xué)習(xí)機(jī)(即模型)，學(xué)習(xí)機(jī)(模型)在接受訓(xùn)練、測(cè)試樣本X以外的樣本X′后得到的輸出Y′可以被認(rèn)為是未知系統(tǒng)S針對(duì)X′輸入所得到的輸出的近似，這個(gè)過(guò)程就可以增加小樣本數(shù)據(jù)的容量。故這個(gè)學(xué)習(xí)機(jī)(模型)可以認(rèn)為是對(duì)S的內(nèi)在規(guī)律的近似，尋找這個(gè)學(xué)習(xí)機(jī)(模型)的過(guò)程就變成了從這個(gè)函數(shù)集合中找出能最佳逼近輸入樣本的函數(shù)的過(guò)程。

針對(duì)研究問(wèn)題，利用SVM建立模型并對(duì)模型的性能進(jìn)行評(píng)價(jià)，大體上可以分為四個(gè)步驟，如圖3所示。

圖3　模型建立步驟

(1)產(chǎn)生訓(xùn)練集/測(cè)試集

將樣本分成兩類，一類是訓(xùn)練集，一類是測(cè)試集。在產(chǎn)生訓(xùn)練集及測(cè)試集時(shí)，要求所產(chǎn)生的樣本數(shù)不宜太小，且應(yīng)具有代表性。

(2)創(chuàng)建/訓(xùn)練SVM模型

根據(jù)訓(xùn)練集樣本進(jìn)行訓(xùn)練，得到SVM訓(xùn)練模型。創(chuàng)建模型之前，如若需要，還應(yīng)對(duì)數(shù)據(jù)進(jìn)行歸一化，并需要確定核函數(shù)類型及選擇較好的參數(shù)。

(3)仿真測(cè)試

將測(cè)試樣本輸入SVM訓(xùn)練模型，得到模型預(yù)測(cè)值及相對(duì)應(yīng)的評(píng)判參數(shù)值。一般回歸模型將得到測(cè)試集中的均方誤差和決定系數(shù)。

(4)性能評(píng)價(jià)

若模型的性能沒(méi)有達(dá)到預(yù)期，則需要通過(guò)重新選擇訓(xùn)練集、修改模型參數(shù)或核函數(shù)類型等方法重新建立模型，重復(fù)(3)、(4)步驟，直至滿足預(yù)期要求。

4結(jié)語(yǔ)

本文分析了小樣本數(shù)據(jù)的特點(diǎn)，揭示了目前小樣本數(shù)據(jù)常用分析方法中存在的不足，并較為詳盡的介紹了SVM的原理及分析思路，給出了基于SVM的小樣本數(shù)據(jù)分析方法的應(yīng)用步驟，為相關(guān)從業(yè)人員進(jìn)行小樣本數(shù)據(jù)的分析研究提供了一種行之有效的方法。

參考文獻(xiàn)：

[1]瓦普尼克.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].北京：清華大學(xué)出版社，2000.

[2]Vapnik VN. The Nature of Statistical Learning Theory[M]. NewYork: Springer-Verlag, 1995.

[3]鄧乃揚(yáng)，田英杰.支持向量機(jī)[M].北京：科學(xué)出版社，2009.

收稿日期：2016-02-15

作者簡(jiǎn)介：王玚(1998-)，女，哈爾濱師范大學(xué)附屬中學(xué)學(xué)生。

中圖分類號(hào)：U415.1

文獻(xiàn)標(biāo)識(shí)碼：C

文章編號(hào)：1008-3383(2016)04-0149-02