劉銘 吳朝霞
【摘 要】支持向量機(jī)(support vector machine,SVM)是基于統(tǒng)計(jì)學(xué)理論的一種典型的機(jī)器學(xué)習(xí)方法,具有堅(jiān)實(shí)的理論基礎(chǔ),較強(qiáng)的推廣能力,在解決小樣本、非線性、高維度的問題上SVM表現(xiàn)出較好的學(xué)習(xí)性能。隨著研究的深入,SVM被廣泛應(yīng)用于各個(gè)領(lǐng)域,本文介紹了統(tǒng)計(jì)學(xué)和支持向量機(jī)的基本理論,支持向量機(jī)的相關(guān)應(yīng)用研究及未來研究方向和發(fā)展前景。
【關(guān)鍵詞】支持向量機(jī);統(tǒng)計(jì)學(xué)習(xí)理論;應(yīng)用
中圖分類號(hào): TP18 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)23-0068-002
DOI:10.19694/j.cnki.issn2095-2457.2018.23.027
【Abstract】Support vector machine(SVM)is a typical machine learning method based on statistical theory,It has a solid theoretical foundation and strong promotion ability.SVM Shows excellent performance on small sample,nonlinear and high dimensional problems.With the deepening of the research,SVM is widely used in various fields.This paper introduces the basic theory of statistics and SVM,the related application research of SVM and future research directions and development prospects.
【Key words】Support vector machine(SVM);Statistical learning theory(SLT);Application
0 概述
支持向量機(jī)(support vector machine,SVM)[1] 由Vapnik等提出,以統(tǒng)計(jì)學(xué)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理為基礎(chǔ)的通用有效的機(jī)器學(xué)習(xí)方法,具有簡(jiǎn)潔的數(shù)學(xué)形式、標(biāo)準(zhǔn)快捷的訓(xùn)練方法,被廣泛應(yīng)用于模式識(shí)別、函數(shù)估計(jì)、時(shí)間序列預(yù)測(cè)等領(lǐng)域。
SVM在解決小樣本、非線性、高維度的問題上較其它算法表示出優(yōu)異性,國內(nèi)外學(xué)者對(duì)SVM進(jìn)行了大量深入的研究,并對(duì)一些算法進(jìn)行了改進(jìn)和優(yōu)化,使支持向量機(jī)的性能不斷得到改進(jìn),如針對(duì)訓(xùn)練時(shí)間長(zhǎng),占用內(nèi)存大的缺點(diǎn)相繼提出了快算法、分解算法、序列最小優(yōu)化算法(SMO)、最小二乘SVM等快速算法。支持向量機(jī)最早被應(yīng)用于模式識(shí)別中,隨著SVM相關(guān)理論的不斷完善,之后被廣泛應(yīng)用于工作生活中的各個(gè)領(lǐng)域。
1 SVM理論
1.1 統(tǒng)計(jì)學(xué)習(xí)理論
統(tǒng)計(jì)學(xué)習(xí)理論[2]是一種專門研究小樣本的學(xué)習(xí)理論,通過一定的學(xué)習(xí)方法,找到數(shù)據(jù)的內(nèi)在依賴關(guān)系,從而對(duì)數(shù)據(jù)進(jìn)行相關(guān)的預(yù)測(cè)。在統(tǒng)計(jì)學(xué)習(xí)理論中VC維表示機(jī)器學(xué)習(xí)的復(fù)雜性。對(duì)VC維一個(gè)直觀的定義:假設(shè)一個(gè)有h個(gè)樣本的樣本集,它能夠被一個(gè)函數(shù)集中的函數(shù)按照所有可能的2h種組合分開,則此函數(shù)集能將該樣本集打散。函數(shù)集能夠打散的最大樣本數(shù)目h就表示函數(shù)集的VC維。VC維越大表示機(jī)器學(xué)習(xí)能力越強(qiáng)。
統(tǒng)計(jì)學(xué)習(xí)理論系統(tǒng)地研究了對(duì)于各種類型的函數(shù)集、經(jīng)驗(yàn)風(fēng)險(xiǎn)和期望風(fēng)險(xiǎn)之間的關(guān)系,即推廣性的界[3]。對(duì)于兩類的分類問題,函數(shù)集中所有函數(shù)、經(jīng)驗(yàn)風(fēng)險(xiǎn)Remp(w)和期望風(fēng)險(xiǎn)R(w)之間的關(guān)系可簡(jiǎn)化表示為:
2 支持向量機(jī)應(yīng)用
SVM具有良好的泛化能力,較強(qiáng)的理論作支撐,國內(nèi)外學(xué)者對(duì)支持向量機(jī)算法做了大量深入的研究,并在此基礎(chǔ)上對(duì)算法進(jìn)行了優(yōu)化,使支持向量機(jī)的性能不斷得到改進(jìn)。支持向量機(jī)被廣泛地應(yīng)用于各個(gè)領(lǐng)域,如模式識(shí)別方面的人臉識(shí)別、圖像分類、筆記鑒別、語音識(shí)別等和病毒檢測(cè)、垃圾郵件過濾、網(wǎng)絡(luò)入侵檢測(cè)等諸多數(shù)據(jù)分析領(lǐng)域。
2.1 人臉識(shí)別
人臉識(shí)別的核心思想是用知識(shí)的或統(tǒng)計(jì)的方法對(duì)人臉建模,在復(fù)雜的背景中比較可能的待檢區(qū)域和人臉模型的匹配度,判斷是否存在人面像并分離。
目前人臉識(shí)別檢測(cè)技術(shù)已經(jīng)較成熟并應(yīng)用到各個(gè)領(lǐng)域,Osuna最早提出將SVM方法用于人臉識(shí)別技術(shù)中,通過訓(xùn)練非線性SVM分類器對(duì)人臉和非人臉進(jìn)行檢測(cè)分類。文獻(xiàn)[5]中提出基PCA+LDA+SVM的人臉識(shí)別改進(jìn)框架,文獻(xiàn)[6]利用粒子群優(yōu)化算法對(duì)SVM兩個(gè)重要餐宿懲罰參數(shù)和核函數(shù)進(jìn)行全局優(yōu)化得到最優(yōu)解,用于訓(xùn)練最終的分類器進(jìn)行人臉識(shí)別,得到更高的識(shí)別準(zhǔn)確率。
2.2 圖像分類
圖像在人們的生活和工作中已經(jīng)成為傳遞和獲取信息的一種重要手段,快速定位圖像,合理分類圖像對(duì)提高基于內(nèi)容的圖像檢索準(zhǔn)確性非常重要。文獻(xiàn)[7]提出基于SVM的簡(jiǎn)單圖像和復(fù)雜圖像分類方法,文獻(xiàn)[8]將半監(jiān)督學(xué)習(xí)的思想和支持向量機(jī)有效的結(jié)合,提出基于均值漂移的標(biāo)簽均值半監(jiān)督SVM的圖小分類方法,算法參數(shù)的取值方法通過均值漂移結(jié)果進(jìn)行改進(jìn),使圖像分類結(jié)果得到較高的分類正確率和時(shí)間效率。
2.3 網(wǎng)絡(luò)入侵檢測(cè)
入侵檢測(cè)技術(shù)通過在計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的關(guān)鍵節(jié)點(diǎn)上收集信息并進(jìn)行分析,對(duì)系統(tǒng)中違反安全策略的行為及時(shí)作出響應(yīng)。網(wǎng)絡(luò)入侵檢測(cè)中的數(shù)據(jù)非常龐大復(fù)雜,具有高維、小樣本、線性不可分的特性。SVM作為一種在小樣本機(jī)器學(xué)習(xí)的基礎(chǔ)上發(fā)展起來的方法,通過風(fēng)險(xiǎn)最小化原理來解決小樣本、非線性、高維度等問題,并且能夠在先驗(yàn)知識(shí)不足的情況下仍然保持較高的分類準(zhǔn)確率,非常適合應(yīng)用于網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)。
3 總結(jié)與展望
支持向量機(jī)以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),有完備的理論依據(jù),SVM被應(yīng)用于很多領(lǐng)域并取得良好效果。但傳統(tǒng)支持向量機(jī)學(xué)習(xí)算法的研究側(cè)重對(duì)方法的探索而對(duì)數(shù)據(jù)集本身特點(diǎn)關(guān)注不夠,算法學(xué)習(xí)效率與數(shù)據(jù)規(guī)模有關(guān),處理這類問題有可能導(dǎo)致算法運(yùn)行較慢無法求解,在實(shí)際應(yīng)用中沒有價(jià)值。因此,如何從實(shí)際問題出發(fā)探索支持向量機(jī)算法的建模和改進(jìn)是一個(gè)值得深入研究的問題。
【參考文獻(xiàn)】
[1]CRISTIANINI N,TAYLOR J S.支持向量機(jī)導(dǎo)論[M].李國正,王猛,曾華軍,譯.北京:電子工業(yè)出版社,2004.
[2]Vapnik V.The nature of statistical learning theory[M]. Springer Science & Business Media,2013.
[3]mola A J,Williamson R C,Sch?觟lkopf B.Generalization bounds for convex combinations of kernel functions[J].1998.
[4]馬蕾,汪西莉.基于支持向量機(jī)協(xié)同訓(xùn)練的半監(jiān)督回歸[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(3):177-180.
[5]袁程波,基于PCA和SVM的人臉識(shí)別關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2017.
[6]廖周宇,王鈺婷,謝曉蘭,劉建明基于粒子群優(yōu)化的支持向量機(jī)人臉識(shí)別[J].計(jì)算機(jī)工程,2017,43(12),248-254.
[7]田云.基于二次分割的多特征圖像分類方法研究[D].太原,山西大學(xué),2011.
[8]王朔琛.基于半監(jiān)督支持向量機(jī)的圖像分類方法研究[D].西安:陜西師范大學(xué),2015.