亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于不等距超平面距離的模糊支持向量機(jī)①

        2020-11-13 07:12:18李村合
        關(guān)鍵詞:超平面準(zhǔn)確率向量

        李村合,姜 宇,李 帥

        (中國石油大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)

        支持向量機(jī)是常見的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的分類算法,核心是結(jié)構(gòu)風(fēng)險(xiǎn)最小化和VC 維理論.其主旨是在高維空間中尋找一個最優(yōu)分類面,將樣本正確分類且保證分類間隔最大化[1].隨著人工智能時代的到來,支持向量機(jī)成功應(yīng)用至許多方面,尤其是在分類問題的解決上已經(jīng)成為了主流方法,如網(wǎng)頁分類[2],手寫識別[3]等.

        但在實(shí)際生活及現(xiàn)實(shí)應(yīng)用中,許多常見的數(shù)據(jù)往往具有極大的不平衡性,如缺陷數(shù)據(jù)[4],文本數(shù)據(jù)[5]、疾病數(shù)據(jù)[6]等.當(dāng)利用支持向量機(jī)處理不平衡數(shù)據(jù)時,往往會出現(xiàn)分類結(jié)果具有一定傾向性的現(xiàn)象,即分類器對多數(shù)類的分類準(zhǔn)確度較高,而對少數(shù)類的分類準(zhǔn)確度較低.另外超平面的位置對支持向量機(jī)的性能有很大的影響,并且超平面的確定極易受樣本中噪點(diǎn)的影響[7].所以為了解決上述問題,提高支持向量機(jī)的分類性能成為眾多學(xué)者亟待解決的問題[8].

        在支持向量機(jī)的決策過程中,決策面位置的選取取決于樣本空間的分布.由于不平衡數(shù)據(jù)集的類不平衡性較大,許多樣本點(diǎn)對決策面的確定貢獻(xiàn)度不大,容易識別為噪聲并對分類器的性能造成影響.模糊向量機(jī)可以改善噪聲數(shù)據(jù)造成的分類精度下降現(xiàn)象,通過為樣本點(diǎn)賦予不同的隸屬度來確定樣本點(diǎn)的性質(zhì).但傳統(tǒng)的模糊支持向量機(jī)在確定樣本隸屬度時,僅考慮了類內(nèi)距離,應(yīng)用于不平衡數(shù)據(jù)集分類時容易出現(xiàn)較大誤差[9].故本文提出一種應(yīng)用不等距超平面距離的改進(jìn)模糊支持向量機(jī).文中將樣本數(shù)量多的類規(guī)定為正類,將樣本數(shù)量少的類規(guī)定為負(fù)類.通過向標(biāo)準(zhǔn)模糊支持向量機(jī)中引入?yún)?shù) λ,以控制超平面與樣本之間的距離.在構(gòu)造隸屬度函數(shù)時,不僅取決于樣本之間的距離,還考慮了樣本之間的互距離,更精準(zhǔn)的表示樣本分布,以減小不平衡的樣本分布給分類準(zhǔn)確度帶來的影響.

        1 相關(guān)工作

        在不平衡樣本集上進(jìn)行訓(xùn)練時,相關(guān)的修改算法主要在兩個方面上進(jìn)行相關(guān)的改進(jìn),樣本數(shù)據(jù)上和訓(xùn)練算法上[10].在訓(xùn)練樣本數(shù)據(jù)上進(jìn)行的改進(jìn),主要有兩種方法,分別是增加負(fù)類樣本數(shù)量和減少正類樣本數(shù)量,如欠采樣和過采樣.但采樣方法容易造成分類模型在訓(xùn)練和測試過程中具有較大的誤差,無法獲得較準(zhǔn)確的分類結(jié)果.文獻(xiàn)[11,12]中解釋了減少正類樣本數(shù)量雖然可以改善數(shù)據(jù)的不平衡性,但會使樣本所含信息丟使,分類效果降低;文獻(xiàn)[13]證明了增加負(fù)樣本也會出現(xiàn)過擬合現(xiàn)象,令噪聲數(shù)據(jù)對模型分類準(zhǔn)確度的影響更顯著.

        在用于不平衡數(shù)據(jù)分類的支持向量機(jī)訓(xùn)練算法中,不斷有學(xué)者提出改進(jìn)的算法.在文獻(xiàn)[14]中,算法引用補(bǔ)償因子以修正超平面的偏移量,利用支持向量的決策值估計(jì)補(bǔ)償因子的數(shù)值,文獻(xiàn)中所做的實(shí)驗(yàn)表明引用的補(bǔ)償因子,訓(xùn)練樣本離超平面的間隔可以在一定程度上得到正確的修正.但是,當(dāng)不平衡樣本集中正負(fù)類的訓(xùn)練樣本有很大的交叉區(qū)域和有噪音數(shù)據(jù)時,算法的分類性能有很大的下降.在文獻(xiàn)[15]中,算法在支持向量機(jī)訓(xùn)練過程中的為正負(fù)類樣本分別設(shè)置了各自的懲罰因子,并將約束條件中加入新的參數(shù)控制分類間隔.將改進(jìn)的近似支持向量機(jī)應(yīng)用到不平衡樣本的分類,減小樣本數(shù)量對分類面的影響,提高了算法精度.但這種方法的改善效果受到KKT 條件的限制,KKT條件將懲罰參數(shù)作為其上限條件,而不是下限條件,同時尋找合適的懲罰參數(shù)是比較困難的.在文獻(xiàn)[16],算法對相關(guān)的核函數(shù)進(jìn)行修改并將其應(yīng)用于不平衡樣本集中,在黎曼幾何結(jié)構(gòu)上對核函數(shù)優(yōu)化,提高了不平衡數(shù)據(jù)的分類準(zhǔn)確率.在文獻(xiàn)[17–20]中,介紹了SVM相關(guān)的改進(jìn)算法,將其應(yīng)用于不平衡樣本,從各種方面使得負(fù)類樣本的分類結(jié)果得到優(yōu)化.

        在文獻(xiàn)[21]中,介紹了模糊支持向量機(jī),它在處理分類和預(yù)測等現(xiàn)實(shí)問題時表現(xiàn)出了十分出色的性能,相較支持向量機(jī)而言,它可以減輕噪聲數(shù)據(jù)對分類器性能的影響.隸屬度函數(shù)的確定影響著模糊支持向量機(jī)分類性能,已有許多算法應(yīng)用于解決隸屬度函數(shù)的選擇問題,如聚類算法[22,23]、啟發(fā)式算法[24]等,但至今為止,模糊隸屬度函數(shù)的確立尚無系統(tǒng)的理論規(guī)定和準(zhǔn)則.

        通過計(jì)算類內(nèi)距離確定樣本隸屬度,是構(gòu)造隸屬度函數(shù)的經(jīng)典方法.計(jì)算樣本到其類中心點(diǎn)的距離,若距離小則判定該樣本點(diǎn)屬于該類的可能性較大,為該其賦予一個較大的隸屬度值;若距離過大則判定該樣本點(diǎn)為噪聲數(shù)據(jù),并賦予該點(diǎn)一個較小的隸屬度值.以此作為樣本貢獻(xiàn)度的衡量指標(biāo),可能會令分類器對噪聲的辨識度降低[25],使分類器訓(xùn)練時誤差較大,降低分類器的分類精度和泛化性能.

        2 不等距超平面距離改進(jìn)的模糊支持向量機(jī)(IFD-FSVM)

        模糊支持向量機(jī)模型為:訓(xùn)練集為{(xi,yi,ui)|i=1,2,···,l},xi為樣本集,yi為樣本xi的標(biāo)簽且yi∈{+1,?1},ui為模糊隸屬度,反映了不同的類對分類面形成的貢獻(xiàn)度,參數(shù) εi為 松弛變量,參數(shù)C為懲罰參數(shù).通常將類到超平面之間的分類間隔成為超平面距離,利用支持向量機(jī)求解分類問題的本質(zhì)就是使超平面距離最大化.

        其數(shù)學(xué)模型用公式表示為:

        不等式約束條件為:

        式中,ω為決定超平面方向的法向量,b表示該決策面到坐標(biāo)軸原點(diǎn)的距離.

        模糊支持向量機(jī)的決策函數(shù)為:

        K(x,xi)為核函數(shù),常見的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、高斯核函數(shù)等,在求解過程中核函數(shù)的選擇要視數(shù)據(jù)集性質(zhì)而定.

        利用不等距超平面距離改進(jìn)后的模糊支持向量機(jī).當(dāng)0<λ<1,超平面距離正類樣本較近;反之則超平面距離負(fù)類樣本較近.改進(jìn)后的模糊支持向量機(jī)最優(yōu)決策面即為下列公式的最優(yōu)解:

        不等式約束條件變?yōu)?

        通過引入拉格朗日乘子求解上述不等式約束的凸優(yōu)化問題:

        其中,ai為拉格朗日因子

        求解的關(guān)鍵變?yōu)榈玫?7)的最小值,故對(7)式中的ω,b,ε分別求偏導(dǎo)得到:

        將式(8)中得到的結(jié)果代入到式(7),利用拉格朗日對偶性可以將求解原問題滿足約束條件的極小值轉(zhuǎn)化為:

        將上面列出的凸優(yōu)化問題求解完畢,得到改進(jìn)的模糊支持向量機(jī)的決策函數(shù):

        λ的值影響超平面與類之間的空間距離,若0<λ<1,則超平面與正類間的空間距離較小;若 λ>1,則超平面與負(fù)類之間的空間距離較小;若 λ=1 該算法等同于標(biāo)準(zhǔn)的模糊支持向量機(jī).

        從式(11)、式(12)可以得到改進(jìn)后的模糊支持向量機(jī)和標(biāo)準(zhǔn)的模糊支持向量機(jī)的基本原理相同的結(jié)論,可以將標(biāo)準(zhǔn)模糊支持向量機(jī)的訓(xùn)練方法應(yīng)用于改進(jìn)的模糊支持向量機(jī)上.

        3 確定隸屬度函數(shù)

        在超平面的確定過程中,并不是所有的樣本點(diǎn)都能起到?jīng)Q定性作用的,樣本貢獻(xiàn)度就是度量求解超平面所需的樣本點(diǎn)的性質(zhì).圖1展示了樣本空間的分布狀態(tài),其中深色區(qū)域中的樣本貢獻(xiàn)度較大,區(qū)域外的樣本貢獻(xiàn)度法較小,在求解過程中更有被識別為噪聲數(shù)據(jù)的可能性,影響超平面位置的選取.另外,大部分的支持向量樣本位于陰影部分.本文提出一種確定隸屬度函數(shù)的方法,既考慮到了樣本內(nèi)的距離關(guān)系,又考慮到了樣本之間的相互關(guān)系.

        圖1 樣本的空間分布

        通常定義隸屬度函數(shù)如下:

        定義1.類中心:一類樣本的平均樣本特征定義為該類的中心.如訓(xùn)練樣本標(biāo)記為:{x1,x2,···,xn},類中心記為正類樣本的類中心記為m+,負(fù)類樣本的類中心記為m?.

        定義2.兩類樣本之間的距離:兩類樣本的類中心之間的距離為兩類樣本之間的距離,記為d,d=|m+?m?|.

        定義3.兩類樣本之間的互距離:規(guī)定所有正類樣本到正類中心的距離=|xi?m+|,到負(fù)類中心的距離=|xi?m?|.同樣地,規(guī)定所有負(fù)類樣本到負(fù)類中心的距離=|xi?m?|,到正類中心的距離=|xi?m+|.

        由于支持向量機(jī)是通過將樣本映射到高維空間尋找最優(yōu)決策面,依據(jù)上文給出的定義,各類的樣本距離和樣本互距離在高維空間中求解過程為:

        為此提出了隸屬度函數(shù)的設(shè)計(jì)算法如算法1.

        算法1.利用樣本距離確定隸屬度函數(shù)算法d?ip 1)計(jì)算樣本中心點(diǎn)之間的距離,計(jì)算正類樣本的互距離 ;d?ip>d d?ip≤d d 2)比較樣本距離與樣本互距離的大小:若,樣本大都位于圖1深色區(qū)域外部分,若,樣本大都位于圖1深色區(qū)域內(nèi)部分;d?ip≤dd+ipR+3)取 的樣本點(diǎn)計(jì)算其,將其中的最大值記為.R?4)同理得到負(fù)類樣本的.

        最終得到兩類樣本的隸屬度函數(shù):

        4 實(shí)驗(yàn)結(jié)果與分析

        當(dāng)分類問題應(yīng)用到現(xiàn)實(shí)生活中時,往往對負(fù)類的分類結(jié)果有更高的要求.本文應(yīng)用兩種評價準(zhǔn)則來驗(yàn)證改進(jìn)算法的分類效果,即準(zhǔn)確率和召回率.其中準(zhǔn)確率描述的是分類結(jié)果,表示負(fù)類分類結(jié)果中實(shí)際負(fù)類樣本的比例.召回率描述的是原有樣本的分類覆蓋率,表示的是原有樣本中的負(fù)類被正確分類的比例.其表達(dá)式分別為:

        準(zhǔn)確率Precision=TN/TN+FN

        召回率Recall=TN/TN+FP

        TN代表實(shí)為負(fù)類且分類結(jié)果為負(fù)類的樣本,FN代表實(shí)為負(fù)類但分類結(jié)果為正類的樣本,FP代表實(shí)為正類但分類結(jié)果為負(fù)類的樣本.

        實(shí)驗(yàn)基于UCI 數(shù)據(jù)集,并選出4 種不平衡率不同的訓(xùn)練樣本集,樣本不平衡率如表1所示.

        表1 樣本訓(xùn)練集

        實(shí)驗(yàn)將IFD-FSVM 算法應(yīng)用于UCI 數(shù)據(jù)集驗(yàn)證算法性能,并將實(shí)驗(yàn)結(jié)果與SVM、FSVM 在相同場景下的分類結(jié)果進(jìn)行比較.

        SVM 算法:等距超平面且沒有將隸屬度函數(shù)應(yīng)用于支持向量機(jī).

        FSVM 算法:等距超平面線性隸屬度函數(shù)的模糊支持向量機(jī).

        IFD-FSVM 算法:應(yīng)用不等距超平面距離的改進(jìn)模糊支持向量機(jī).

        首先,將4 種樣本集的參數(shù)分別設(shè)置為 λIrist=0.8,λBalance=0.7,λYeast=0.63,λAbalone=0.37,δ=0.2 時,各樣本集的負(fù)類分類結(jié)果如表2所示.

        表2 各數(shù)據(jù)集在3 種算法下的分類準(zhǔn)確率與回歸率(%)

        由表2可以看出,相比其他算法,IFD-FSVM 算法明顯提高了分類準(zhǔn)確率與回歸率.在Irist 數(shù)據(jù)集上應(yīng)用IFD-FSVM 算法進(jìn)行分類,準(zhǔn)確率分別比應(yīng)用標(biāo)準(zhǔn)SVM 和FSVM 提高了15.68%和7.29%.在Balance Scale 數(shù)據(jù)集上應(yīng)用本文算法進(jìn)行分類,準(zhǔn)確率分別比應(yīng)用標(biāo)準(zhǔn)SVM 和FSVM 提高了14.83%和10.46%.而在Yeast 數(shù)據(jù)集上,IFD-FSVM 算法的分類準(zhǔn)確率比其他兩種算法分別提高了19.31%和7.01%,在Abalone數(shù)據(jù)集上則具有較大的準(zhǔn)確度改善,較其他兩種算法分別提高了26.92%和15.93%.

        各樣本集的負(fù)類分類效果如圖2、圖3所示.

        圖2 負(fù)類樣本分類準(zhǔn)確率對比

        圖3 負(fù)類樣本回歸率對比

        圖2和圖3分別展示了3 種算法在4 種樣本集上負(fù)類的分類的準(zhǔn)確率和召回率.可以看出,IFD-FSVM算法的分類效果明顯優(yōu)于另外兩個標(biāo)準(zhǔn)算法.且樣本數(shù)據(jù)不平衡比例越高,分類效果的改善越明顯,在Abalone數(shù)據(jù)集上的負(fù)樣本分類準(zhǔn)確率和召回率都有較大幅度提升.

        雖然參數(shù) λ對分類器性能有著至關(guān)重要的影響,當(dāng)參數(shù) λ<1 時,負(fù)類的分類效果有明顯改善,但并不是參數(shù) λ的設(shè)置越小越好.當(dāng)參數(shù) λ過小時,正類的分類效果受到影響.如將4 種樣本集的參數(shù)分別設(shè)置為 λIrist=0.21,λBalance=0.19,λYeast=0.12,λAbalone=0.08 時,各樣本集的正類分類準(zhǔn)確率如圖4所示.

        圖4 正類樣本分類準(zhǔn)確率對比

        從圖4中可以看出,若將參數(shù) λ的值設(shè)置為如上,相較于標(biāo)準(zhǔn)的模糊支持向量機(jī),IFD-FSVM 算法對正類分類效果明顯下降.由于參數(shù) λ過小,超平面與正類樣本距離過小,負(fù)類樣本被識別為噪聲的概率增加,導(dǎo)致正類分類準(zhǔn)確率受到影響.

        5 結(jié)論與展望

        通過對不平衡支持向量機(jī)的研究,本文提出了應(yīng)用不等距超平面距離改進(jìn)的模糊支持向量機(jī)IFDFSVM.算法通過改進(jìn)原有的模糊支持向量機(jī),引入?yún)?shù) λ以調(diào)節(jié)超平面到正類的距離,實(shí)驗(yàn)時規(guī)定 λ<1,令超平面接近正類樣本.利用樣本之間的互距離確定模糊隸屬度函數(shù),有利于確定貢獻(xiàn)度大的樣本數(shù)據(jù),更好的反映了訓(xùn)練樣本對超平面形成的貢獻(xiàn)作用,降低了噪聲數(shù)據(jù)給分類器性能帶來的影響.最后利用UCI 數(shù)據(jù)集來驗(yàn)證IFD-FSVM 算法的有效性,實(shí)驗(yàn)結(jié)果說明IFD-FSVM 算法能夠有效提高不平衡樣本的分類準(zhǔn)確率.

        猜你喜歡
        超平面準(zhǔn)確率向量
        向量的分解
        全純曲線的例外超平面
        涉及分擔(dān)超平面的正規(guī)定則
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        聚焦“向量與三角”創(chuàng)新題
        以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問題
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
        向量垂直在解析幾何中的應(yīng)用
        国产精品亚洲综合天堂夜夜| 熟妇激情内射com| 国产96在线 | 欧美| 久热香蕉精品视频在线播放| 亚洲国产精品成人av| 精品人妻av区乱码色片| 国产亚洲日本精品无码| 女同亚洲女同精品| 最新亚洲av日韩av二区一区| 亚洲va视频一区二区三区| 成人精品视频一区二区三区尤物| 亚洲国产成人久久综合一区77 | 亚洲精品乱码久久久久久蜜桃图片| 精品无码AV无码免费专区| 黄色国产一区在线观看| 91九色成人蝌蚪首页| 极品新婚夜少妇真紧| 男人的天堂在线无码视频| 亚洲精品国产第一区三区| 国产精品无码制服丝袜| 国产精品久久久久影院嫩草| 丝袜欧美视频首页在线| 久久精品国产一区老色匹| 免费网站内射红桃视频| 欧美成人一区二区三区在线观看| 香蕉久久夜色精品国产| 女同一区二区三区在线观看| 国产精品无码无在线观看| 五月天综合在线| 亚洲影院在线观看av| 精品欧美一区二区三区久久久 | 亚洲国产精品第一区二区三区 | 一区二区三区在线免费av | 三级全黄的视频在线观看 | 蜜臀av在线一区二区尤物| 久久久亚洲精品一区二区三区| 亚洲熟妇少妇任你躁在线观看| av中文字幕在线资源网| 久久精品国产91精品亚洲| 精品一区二区三区无码免费视频| 亚洲欧美在线视频|