亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進的SMO分類算法

        2016-06-22 08:01:52劉曉瑩楊寶華
        滁州學院學報 2016年2期
        關鍵詞:支持向量機

        劉曉瑩,楊寶華

        一種改進的SMO分類算法

        劉曉瑩,楊寶華

        摘要:針對序列最小優(yōu)化(SMO)算法對大規(guī)模數(shù)據(jù)集訓練速度慢、分類精度不夠高的問題,提出了一種改進方法。該方法對SMO算法的核函數(shù)進行改進,通過增大二次項系數(shù)的絕對值提高分類正確率,并結(jié)合網(wǎng)格搜索法優(yōu)化基于核函數(shù)改進的SMO算法的有關參數(shù)。實驗結(jié)果表明,該算法顯著提高了分類的正確性,縮短了算法的建模時間。

        關鍵詞:支持向量機;SMO算法;核函數(shù);參數(shù)尋優(yōu)

        隨著人類社會的快速發(fā)展,信息技術、互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)等諸多領域的突破,使大量的數(shù)據(jù)在急劇膨脹,因此迫切需要更加快速、精確的方法對收集到的海量數(shù)據(jù)進行分類,以便從中提取出有效的、新穎的、精煉的、可理解的知識?,F(xiàn)有的分類算法[1]有很多種,比如經(jīng)典的有決策樹、人工神經(jīng)網(wǎng)絡、貝葉斯、支持向量機等方法。

        近年來,SMO算法[2]已經(jīng)受到越來越多研究者的關注。項堃[3]等人提出一種運用刪減部分支持向量,提前結(jié)束循環(huán)條件的策略;王越[4]等人選取優(yōu)化步長最大的違反KKT條件的樣本和其配對樣本;王朝輝[5]等人通過改變存儲策略,將算法中的五個工作集替換成三個工作集;駱世廣[6]等人提出將算法的終止條件改為目標函數(shù)值的改變量,并改變SMO后期迭代循環(huán)條件。

        上述算法僅在縮短訓練時間方面已經(jīng)取得了一定的改進,但當訓練大規(guī)模數(shù)據(jù)集時,SMO分類效果還不夠明顯,分類正確率也需要進一步的提高。本文提出一種改進方法,通過增大二次項系數(shù)的絕對值提高分類正確率,通過實驗結(jié)果驗證,該方法可以大幅度降低建模時間,提高分類精度。

        1序列最小優(yōu)化算法

        1.1支持向量機概述

        式中:αi為拉格朗日乘子,C為懲罰因子。

        根據(jù)上述問題得到的對偶問題為

        (1)

        分類決策函數(shù)為:

        (2)

        式中:α*為最優(yōu)解;b*為閾值,它由任一個支持向量求出也可通過兩類中任意一對支持向量取中值求得。

        1.2SMO算法

        SMO算法[8]是目前SVM處理大數(shù)據(jù)集十分有效的方法。整個SMO算法包括兩個步驟:

        步驟一:求解兩個變量的二次規(guī)劃的解析方法

        經(jīng)過推導可得:

        (3)

        其中:

        經(jīng)過修剪后的α2

        (4)

        步驟二:選擇變量的啟發(fā)式方法。

        SMO選擇第一個變量的過程稱為外層循環(huán),外層循環(huán)在訓練樣本中選取違反KKT條件最為嚴重的樣本點,并將其對應的變量作為第一個變量。具體地,檢驗訓練樣本點是否滿足KKT條件,即

        SMO算法的優(yōu)點在于通過兩個變量的二次規(guī)劃問題的解析來求解,不需要進行巨大的矩陣運算,但其在面對大規(guī)模數(shù)據(jù)時,出現(xiàn)訓練速度慢、分類正確率不夠高的問題。

        SMO算法的大部分訓練時間主要集中在最有可能違反KKT條件的非邊界樣本上。該算法訓練速度慢的主要原因在于它需要計算和存儲核函數(shù)矩陣,隨著數(shù)據(jù)樣本的增加,所需的內(nèi)存空間也增大。因此,可通過減少計算核函數(shù)矩陣的方法來加快算法的速度。

        1.3核函數(shù)

        核函數(shù)的基本思想就是通過一個非線性變換將輸入空間映射到一個高維特征空間,在這個特征空間中求解最優(yōu)分類面。每個中間節(jié)點對應一個支持向量,輸出的決策函數(shù)是中間節(jié)點的線性組合。

        不同的核函數(shù)及其參數(shù)的選擇對于SMO算法具有重要的影響。核函數(shù)的引入避免了“維數(shù)災難”,大大減小了特征空間的計算量,無需知道非線性變換函數(shù)φ的形式和參數(shù)。核函數(shù)可以和不同的算法相結(jié)合,形成多種不同的基于核函數(shù)技術的方法[9]。目前常用的核函數(shù)[10]主要有三類:

        1)多項式核函數(shù):

        (5)

        2)高斯核函數(shù):

        (6)

        3)Sigmoid核函數(shù):

        (7)

        2SMO算法的改進

        2.1核函數(shù)的改進

        Vapnik等人提出測試樣本分類誤差率的期望上界

        (8)

        選取SMO算法的某個核函數(shù)與系數(shù)(1+m)(m>0)相乘,以高斯核函數(shù)為例,如(9)式:

        (9)

        由(9)式可知,核函數(shù)與一個系數(shù)(1+m)(m>0)相乘可增大LD中二次項系數(shù)的絕對值,從而減小了αi的最優(yōu)值及支持向量個數(shù),減少分類誤差率,提高支持向量機的分類精度和推廣能力。

        2.2參數(shù)尋優(yōu)

        在核函數(shù)改進方法中,參數(shù)m的取值直接影響了基于核函數(shù)改進的SMO算法的分類性能,因此選擇合適的參數(shù)也是非常重要的。本文選用網(wǎng)格搜索法[11]優(yōu)化核函數(shù)的參數(shù)m和懲罰因子C。用基于核函數(shù)改進的SMO算法計算整體的分類精度,直到得到滿意的分類結(jié)果為止。其具體步驟如圖1所示。

        圖1結(jié)合網(wǎng)格搜索法的SMO參數(shù)尋優(yōu)步驟

        3實驗結(jié)果與分析

        3.1實驗一

        為驗證本文方法的有效性,在加州大學厄文分校(UCI)的機器學習數(shù)據(jù)庫中選用兩組數(shù)據(jù)集Labor和Sensor_reading_4進行測試,Labor數(shù)據(jù)集包含57個實例,16個屬性,2個類別,屬于小數(shù)據(jù)集。Sensor_reading_4數(shù)據(jù)集包含5458個實例,4個屬性,4個類別,屬于大數(shù)據(jù)集。本文方法用Java語言實現(xiàn),在實驗中,選用RBF核函數(shù),利用十折交叉驗證法評價分類器,對于Labor數(shù)據(jù)集,C取1,m取111;對于Sensor_reading_4數(shù)據(jù)集,C取1,m取147。實驗結(jié)果如表1所示。

        表1 RBF核函數(shù)改進前后實驗結(jié)果對比

        表1顯示了基于核函數(shù)改進的SMO算法和SMO算法分類結(jié)果比較,從表中可以看出,以Sensor_reading_4大數(shù)據(jù)集為例,在建模時間上,基于核函數(shù)改進的SMO算法差不多只用了21.15s,大幅度降低了建模時間,其分類正確率為81.8732%,與SMO相比,提高了近30%。實驗結(jié)果表明,基于核函數(shù)改進的SMO算法,具有更高的分類正確率,且大大縮減了算法的建模時間,尤其是對大規(guī)模數(shù)據(jù)集而言,效果更顯著,同時也驗證了本文方法的可行性和有效性。在Sensor_reading_4數(shù)據(jù)集上,基于核函數(shù)改進的SMO算法的誤分可視化結(jié)果如圖2所示。

        圖2Sensor_reading_4數(shù)據(jù)集的誤分可視化結(jié)果

        Sensor_reading_4數(shù)據(jù)集包含四個類別屬性:Slight-right-turn、Sharp-right-turn、Move-forward、Slight-left-turn。X軸為實際類別,Y軸為預測類別,圖中方塊表示分類錯誤的樣本,叉表示分類正確的樣本。

        3.2實驗二

        為尋找上述實驗中參數(shù)m的最優(yōu)值,本文采用網(wǎng)格搜索法優(yōu)化基于核函數(shù)改進的SMO算法的參數(shù)m和懲罰因子C。以Sensor_reading_4數(shù)據(jù)集為例,實驗過程如下:

        (1)選定一組C,m的取值范圍和搜索步長,設C的初始范圍為[1,8],步長為1;m的初始范圍為[0,50],步長為1。

        (2)用基于核函數(shù)改進的SMO算法計算整體的分類正確率和搜索時間,實驗結(jié)果得到使分類正確率最高的最優(yōu)參數(shù)C=1,m=45。

        (3)根據(jù)得到的最優(yōu)參數(shù),在其附近選擇不同的取值范圍進行二次尋優(yōu),并計算出搜索時間和分類正確率,比較不同的取值范圍對分類正確率的影響,實驗結(jié)果如表2所示。

        從表2可以看出,第三組的搜索時間最短,且分類正確率最高,選擇此組參數(shù)作為最優(yōu)參數(shù),即最優(yōu)值C=1,m=147。同樣,對于Labor數(shù)據(jù)集,采用網(wǎng)格搜索法得到的最優(yōu)參數(shù)C=1,m=111。

        表2 不同取值范圍內(nèi)參數(shù)尋優(yōu)結(jié)果對比

        4結(jié)束語

        本文在對Vapnik等人提出測試樣本分類誤差率的期望上界的分析的基礎上,通過減少支持向量數(shù)的方法來減小分類誤差率,提出了核函數(shù)改進方法,提高了分類正確率,且大幅度降低了建模時間。結(jié)合網(wǎng)格搜索法,優(yōu)化基于核函數(shù)改進的SMO算法的有關參數(shù)。實驗結(jié)果證明,在大數(shù)據(jù)情況下,該方法能有效的克服SMO算法的缺陷,并獲得較好的分類效果。

        網(wǎng)格搜索法對于大數(shù)據(jù)集的搜索時間過長,該方法需要進一步的改進研究,參數(shù)的尋優(yōu)方法可作為今后的研究方向。

        [參考文獻]

        [1]羅可,林睦綱,郗東妹.數(shù)據(jù)挖掘中分類算法綜述[J].計算機工程,2005,31(1):3-5.

        [2]Platt J C. Fast training of support vector machines using sequential minimal optimization[C]//Advances in Kernel Methods-Support Vector Learning. Cambridge, MA: MIT Press, 1999: 185-208.

        [3]項堃,喻瑩.一種改進序貫最小優(yōu)化算法的方法[J]. 現(xiàn)代電子技術, 2013, 36( 8) : 17-19.

        [4]王越,呂奇峰,王泉等.一種改進的支持向量機序列最小優(yōu)化算法[J].重慶理工大學學報(自然科學),2013,27(3):76-79.[5]駱世廣,駱昌日,周業(yè)明.針對大規(guī)模樣本集的SMO訓練策略[J].廣東技術師范學院學報,2008,9:30-33.

        [6]王朝輝,黎鑫.基于WEKA的序列最小化算法的改進研究[J].工業(yè)控制計算機,2012,25(8):81-84.

        [7]顧亞祥,丁世飛.支持向量機研究發(fā)展[J].計算機科學,2011,38(2):14-17.

        [8]張宏灝.準線性支持向量機及序列最小優(yōu)化算法[D].西安:西安電子科技大學,2013.

        [9]張倩,楊耀權.基于支持向量機核函數(shù)的研究[J].電子科學與工程,2012,28(5):42-45.

        [10]鄔嘯,魏延,吳瑕.基于混合核函數(shù)的支持向量機[J].重慶理工大學學報(自然科學),2011,25(10):66-70.

        [11]王健峰,張磊,陳國興等.基于改進的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J].應用科技,2012,39(3):28-31.

        責任編輯:王與

        中圖分類號:TP301.6

        文獻標識碼:A

        文章編號:1673-1794(2016)02-0030-03

        作者簡介:劉曉瑩,安徽農(nóng)業(yè)大學信息與計算機學院碩士研究生;通信作者:楊寶華,農(nóng)業(yè)部農(nóng)業(yè)物聯(lián)網(wǎng)技術集成與應用重點實驗室,安徽農(nóng)業(yè)大學信息與計算機學院副教授(合肥 230036)。

        基金項目:國家自然科學基金項目(61203217),安徽農(nóng)業(yè)大學學科骨干培育項目(2014XKPY-62)

        收稿日期:2015-11-15

        猜你喜歡
        支持向量機
        基于支持向量回歸機的電能質(zhì)量評估
        基于智能優(yōu)化算法選擇特征的網(wǎng)絡入侵檢測
        數(shù)據(jù)挖掘技術在電廠經(jīng)濟性分析系統(tǒng)中的應用Q
        基于改進支持向量機的船舶縱搖預報模型
        中國水運(2016年11期)2017-01-04 12:26:47
        基于SVM的煙草銷售量預測
        軟件導刊(2016年11期)2016-12-22 21:52:38
        動態(tài)場景中的視覺目標識別方法分析
        論提高裝備故障預測準確度的方法途徑
        價值工程(2016年32期)2016-12-20 20:36:43
        基于熵技術的公共事業(yè)費最優(yōu)組合預測
        價值工程(2016年29期)2016-11-14 00:13:35
        基于支持向量機的金融數(shù)據(jù)分析研究
        管理類研究生支持向量機預測決策實驗教學研究
        考試周刊(2016年53期)2016-07-15 09:08:21
        天堂av一区一区一区| 国产综合久久久久| 波多野结衣aⅴ在线| 亚洲AV秘 片一区二区三区 | 久久精品国产熟女亚洲av麻豆| 免费成人电影在线观看| 无码少妇a片一区二区三区| 亚洲自拍愉拍| 国成成人av一区二区三区| 高清午夜福利电影在线| 内射少妇36p九色| 日韩在线不卡一区在线观看| 91久久精品一区二区三区大全| 久久亚洲精品情侣| 最近中文字幕视频高清| 激情亚洲的在线观看| 成人爽a毛片在线播放| 亚洲精品久久7777777| 97精品国产一区二区三区| 毛片在线播放a| 国产精品va在线观看一| 开心五月骚婷婷综合网| 色狠狠色噜噜av天堂一区| 精品无码国产污污污免费| 日韩精品一区二区亚洲av性色| 91精品国产乱码久久中文| 免费毛片a线观看| 久久久久亚洲av无码专区网站| 无码人妻中文中字幕一区二区| 久久久人妻精品一区bav| 少妇愉情理伦片| 无码的精品免费不卡在线| 国产免费99久久精品| 国产三级a三级三级| 女人做爰高潮呻吟17分钟| 久久精品有码中文字幕1| 中文字幕人妻少妇伦伦| 日本道精品一区二区三区| 日韩欧美在线观看成人| 91精品人妻一区二区三区水蜜桃| 亚洲精品国偷拍自产在线观看|