亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM的小樣本數(shù)據(jù)分析

        2016-06-14 03:21:44
        黑龍江交通科技 2016年4期
        關(guān)鍵詞:數(shù)據(jù)分析

        王 玚

        (哈爾濱師范大學(xué)附屬中學(xué),黑龍江 哈爾濱 150004)

        ?

        基于SVM的小樣本數(shù)據(jù)分析

        王玚

        (哈爾濱師范大學(xué)附屬中學(xué),黑龍江 哈爾濱150004)

        摘要:可靠性工程中,樣本數(shù)據(jù)越多,其分析、計(jì)算結(jié)果越可靠。而對(duì)于某些樣本容量較小的小樣本數(shù)據(jù),如何有效利用小樣本數(shù)據(jù)的潛在信息進(jìn)行分析,并保證分析結(jié)果的有效性就尤為重要。采用基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法——支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM),根據(jù)有限的樣本信息,在最小化樣本點(diǎn)誤差的同時(shí),提高模型的泛化能力,從而得到可靠的小樣本數(shù)據(jù)的分析結(jié)果。

        關(guān)鍵詞:小樣本數(shù)據(jù);SVM;數(shù)據(jù)分析

        1引言

        可靠性工程中,樣本數(shù)據(jù)越多,其分析、計(jì)算結(jié)果越可靠。而在不同的物理背景下,由于影響因素眾多或科學(xué)量測(cè)手段有限等原因,造成采集到的數(shù)據(jù)樣本容量較少。依據(jù)統(tǒng)計(jì)理論,這種小樣本數(shù)據(jù)由于數(shù)量少,反映出的信息量不足,不能明確其分布規(guī)律,無(wú)法判斷是否存在數(shù)據(jù)異常情況,若直接按傳統(tǒng)方法進(jìn)行分析計(jì)算,其結(jié)果的可靠性難以保證,可能存在較大的統(tǒng)計(jì)誤差。

        目前,對(duì)于小樣本數(shù)據(jù)的處理,一般有兩種思路。一種是提高小樣本數(shù)據(jù)的精度。常用的有Bayes方法,雖然該方法可以根據(jù)小樣本的先驗(yàn)信息得到較好的數(shù)據(jù)概率估值,但在缺少先驗(yàn)信息或數(shù)據(jù)可靠度不高等特殊情況下,其分析結(jié)果將出現(xiàn)較大的偏差。另一種是擴(kuò)大小樣本數(shù)據(jù)的容量。常用的有Bootstrap方法。但該方法由于過(guò)分依賴原始樣本,將容易產(chǎn)生參數(shù)偏移,進(jìn)而影響參數(shù)估計(jì)的穩(wěn)健性。因此,為了彌補(bǔ)上述這些不足,本文采用的是同樣屬于擴(kuò)大小樣本容量的SVM方法,這是針對(duì)小樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和預(yù)測(cè)的一個(gè)可行的方法。

        2SVM原理

        傳統(tǒng)統(tǒng)計(jì)學(xué)是樣本數(shù)目趨于無(wú)窮大時(shí)的漸近理論,而實(shí)際上這是滿足不了的,因?yàn)闃颖緮?shù)目往往是有限的。因此,現(xiàn)代智能應(yīng)用技術(shù)中出現(xiàn)了一種基于機(jī)器學(xué)習(xí)的方法,其主要研究如何從一些樣本出發(fā)得出目前不能通過(guò)原理分析得到的規(guī)律,利用這些規(guī)律去分析客觀對(duì)象,進(jìn)而對(duì)未來(lái)數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

        統(tǒng)計(jì)學(xué)習(xí)理論(Statistic Learning Theory:SLT)是一種專門(mén)研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的基本理論和數(shù)學(xué)構(gòu)架,也是小樣本統(tǒng)計(jì)估計(jì)和預(yù)測(cè)學(xué)習(xí)的最佳理論。

        SVM法就是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法——支持向量機(jī)(Support Vector Machine)的簡(jiǎn)稱。

        SVM最初是在研究線性可分問(wèn)題時(shí)提出的。其基本思路是:假設(shè)大小為l的訓(xùn)練樣本集{(x,y),i=1,2,…,l}由兩個(gè)類別組成。若xi屬于第一類,則記yi=1;若xi屬于第二類,則yi=-1記。如圖1所示。

        圖1 線性可分示意圖

        圖2 分類超平面優(yōu)劣示意圖

        若存在一分類超平面(wx+b=0), 能夠?qū)颖菊_地劃分成兩類,即相同類別的樣本落在分類超平面的同一側(cè),則稱該樣本集是線性可分的,即滿足方程(1)。

        (1)

        此時(shí),所有樣本點(diǎn)到該分類超平面的幾何間隔距離就組成了間隔距離集合,此集合中存在一個(gè)樣本點(diǎn),其到分類超平面的幾何間隔距離最短。這個(gè)最小間隔距離,影響著樣本分類的結(jié)果。根據(jù)統(tǒng)計(jì)理論,此過(guò)程中樣本的誤分次數(shù)N與該最小間隔距離δ 之間的關(guān)系滿足方程(2),為反比關(guān)系,即距離越大,樣本誤分次數(shù)越小。

        (2)

        式中:N為樣本的誤分次數(shù);R為樣本集中向量長(zhǎng)度最長(zhǎng)的值,R=max││xi││,i=1,2,…,l;δ為樣本集中與分類超平面最近的樣本點(diǎn)的幾何間隔距離。

        由公式(2)可知,誤分次數(shù)N的上界由δ決定。因此,在樣本分類過(guò)程中,滿足方程(1)的分類超平面是任意的,則對(duì)于同一批數(shù)據(jù)樣本,可以有無(wú)數(shù)個(gè)分類超平面,也就有無(wú)數(shù)個(gè)最小間隔距離。因此,能夠在無(wú)數(shù)個(gè)分類超平面中找到一個(gè)最優(yōu)分類面,使得此時(shí)對(duì)應(yīng)的最小間隔距離是其它情況中最大的,其誤分次數(shù)是最小的。例如,有一組數(shù)據(jù)由星形和圓形組成,其分布如圖3所示,圖中有三個(gè)分類超平面A、B、C,若選擇能更好區(qū)分兩種數(shù)據(jù)類別的超平面,則B要優(yōu)于A、C。

        一般,如果一組數(shù)據(jù)中的絕大多數(shù)樣本是線性可分的,僅有少數(shù)幾個(gè)樣本(可能是異常數(shù)據(jù))可能出現(xiàn)尋找不到最優(yōu)分類平面的情況,此時(shí),可以引入松弛變量(又稱懲罰函數(shù))來(lái)實(shí)現(xiàn)分類。

        若對(duì)于非線性問(wèn)題,則不能直接應(yīng)用線性可分的SVM,需要將樣本數(shù)據(jù)進(jìn)行非線性映射,通過(guò)使用非線性映射將低維輸入空間的樣本映射到高維特征空間使其變?yōu)榫€性情況(這個(gè)過(guò)程將應(yīng)用到核函數(shù)),再在高維特征空間中尋找使訓(xùn)練樣本誤差最小的最優(yōu)分類超平面。這個(gè)最優(yōu)分類面的數(shù)學(xué)函數(shù)即SVM訓(xùn)練模型。

        對(duì)于小樣本數(shù)據(jù),若進(jìn)行回歸擬合分析時(shí),則此時(shí)SVM的基本思想不再是尋找一個(gè)最優(yōu)分類面使得兩類樣本分開(kāi),而是尋找一個(gè)最優(yōu)分類面,使得所有訓(xùn)練樣本離該最優(yōu)分類面的誤差最小。

        SVM的求解問(wèn)題最終將轉(zhuǎn)化為一個(gè)帶約束的二次規(guī)劃問(wèn)題,這樣就得到了有限樣本情況下的全局最優(yōu)解(模型)。又由于SVM分析是基于統(tǒng)計(jì)學(xué)習(xí)理論中結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,即由有限的訓(xùn)練樣本得到的小的誤差能夠保證使獨(dú)立的測(cè)試集仍保持小的誤差,這就使這個(gè)全局最優(yōu)解(模型)具有良好的泛化能力。

        3SVM應(yīng)用步驟

        SVM中機(jī)器學(xué)習(xí)的過(guò)程可以這樣理解:存在一個(gè)未知的系統(tǒng)S(因?yàn)樾颖緮?shù)據(jù)量小,信息不足,故小樣本內(nèi)部的規(guī)律認(rèn)為是未知的。)給定的輸入樣本空間X和這些輸入樣本通過(guò)S處理后的輸出Y。利用機(jī)器學(xué)習(xí)的方法,根據(jù)給定和(利用前述尋找最優(yōu)分類面的方法)得到一個(gè)學(xué)習(xí)機(jī)(即模型),學(xué)習(xí)機(jī)(模型)在接受訓(xùn)練、測(cè)試樣本X以外的樣本X′后得到的輸出Y′可以被認(rèn)為是未知系統(tǒng)S針對(duì)X′輸入所得到的輸出的近似,這個(gè)過(guò)程就可以增加小樣本數(shù)據(jù)的容量。故這個(gè)學(xué)習(xí)機(jī)(模型)可以認(rèn)為是對(duì)S的內(nèi)在規(guī)律的近似,尋找這個(gè)學(xué)習(xí)機(jī)(模型)的過(guò)程就變成了從這個(gè)函數(shù)集合中找出能最佳逼近輸入樣本的函數(shù)的過(guò)程。

        針對(duì)研究問(wèn)題,利用SVM建立模型并對(duì)模型的性能進(jìn)行評(píng)價(jià),大體上可以分為四個(gè)步驟,如圖3所示。

        圖3 模型建立步驟

        (1)產(chǎn)生訓(xùn)練集/測(cè)試集

        將樣本分成兩類,一類是訓(xùn)練集,一類是測(cè)試集。在產(chǎn)生訓(xùn)練集及測(cè)試集時(shí),要求所產(chǎn)生的樣本數(shù)不宜太小,且應(yīng)具有代表性。

        (2)創(chuàng)建/訓(xùn)練SVM模型

        根據(jù)訓(xùn)練集樣本進(jìn)行訓(xùn)練,得到SVM訓(xùn)練模型。創(chuàng)建模型之前,如若需要,還應(yīng)對(duì)數(shù)據(jù)進(jìn)行歸一化,并需要確定核函數(shù)類型及選擇較好的參數(shù)。

        (3)仿真測(cè)試

        將測(cè)試樣本輸入SVM訓(xùn)練模型,得到模型預(yù)測(cè)值及相對(duì)應(yīng)的評(píng)判參數(shù)值。一般回歸模型將得到測(cè)試集中的均方誤差和決定系數(shù)。

        (4)性能評(píng)價(jià)

        若模型的性能沒(méi)有達(dá)到預(yù)期,則需要通過(guò)重新選擇訓(xùn)練集、修改模型參數(shù)或核函數(shù)類型等方法重新建立模型,重復(fù)(3)、(4)步驟,直至滿足預(yù)期要求。

        4結(jié)語(yǔ)

        本文分析了小樣本數(shù)據(jù)的特點(diǎn),揭示了目前小樣本數(shù)據(jù)常用分析方法中存在的不足,并較為詳盡的介紹了SVM的原理及分析思路,給出了基于SVM的小樣本數(shù)據(jù)分析方法的應(yīng)用步驟,為相關(guān)從業(yè)人員進(jìn)行小樣本數(shù)據(jù)的分析研究提供了一種行之有效的方法。

        參考文獻(xiàn):

        [1]瓦普尼克.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].北京:清華大學(xué)出版社,2000.

        [2]Vapnik VN. The Nature of Statistical Learning Theory[M]. NewYork: Springer-Verlag, 1995.

        [3]鄧乃揚(yáng),田英杰.支持向量機(jī)[M].北京:科學(xué)出版社,2009.

        收稿日期:2016-02-15

        作者簡(jiǎn)介:王玚(1998-),女,哈爾濱師范大學(xué)附屬中學(xué)學(xué)生。

        中圖分類號(hào):U415.1

        文獻(xiàn)標(biāo)識(shí)碼:C

        文章編號(hào):1008-3383(2016)04-0149-02

        猜你喜歡
        數(shù)據(jù)分析
        我校如何利用體育大課間活動(dòng)解決男生引體向上這個(gè)薄弱環(huán)節(jié)
        Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
        淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營(yíng)銷策略
        新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
        淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷模式的影響
        基于讀者到館行為數(shù)據(jù)分析的高校圖書(shū)館服務(wù)優(yōu)化建議
        科技視界(2016年22期)2016-10-18 14:37:36
        又爽又黄又无遮挡网站动态图| 色av色婷婷18人妻久久久| 国产精品日本一区二区三区在线 | 国产精品一区二区av片| 亚洲精品亚洲人成在线下载 | 极品少妇一区二区三区四区| 看国产黄大片在线观看| 亚洲韩国在线| av在线手机中文字幕| 麻豆国产精品一区二区三区| 国产69精品久久久久9999apgf| 日韩精品区一区二区三vr| 一道久在线无码加勒比| 丰满人妻AV无码一区二区三区 | 国产蜜桃传媒在线观看| 日本少妇又色又爽又高潮| 久久久久久亚洲av无码蜜芽| 亚洲国产精品久久久久秋霞1| 亚洲无线码一区在线观看| 国产三级精品三级在专区中文 | 五月婷婷开心六月激情| 亚洲精品一区二区三区麻豆| 久久综合国产乱子伦精品免费 | 国产女人精品视频国产灰线| 久久99精品国产麻豆不卡| 免费jjzz在线播放国产| 视频一区中文字幕日韩| 白白白在线视频免费播放| 亚洲av无码专区在线播放 | av无码天堂一区二区三区| 蜜臀av一区二区三区精品| 国产三级黄色免费网站| 少妇愉情理伦片| 又污又黄又无遮挡的网站| 国产精品一区二区午夜久久| 新视觉亚洲三区二区一区理伦| 中文字幕日韩精品有码视频| 欧美大黑帍在线播放| 国产做床爱无遮挡免费视频| 国内精品毛片av在线播放| 未发育成型小奶头毛片av|