亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的FSVM算法用于非平衡情感數(shù)據(jù)分類

        2018-11-17 01:48:10張雪英陳桂軍
        計算機工程與設(shè)計 2018年11期
        關(guān)鍵詞:超平面權(quán)值向量

        張雪英,張 波,陳桂軍

        (太原理工大學 信息工程學院,山西 晉中 030600)

        0 引 言

        計算機語音情感識別[1]能力應(yīng)用多樣,在多媒體分段與檢索、測謊儀、疾病診斷等方面有著廣泛的用途。SVM在解決小樣本以及維數(shù)災難問題中有著良好的分類效果。但是它也有缺陷,在分類的過程中有些區(qū)域不可分,影響分類結(jié)果。當數(shù)據(jù)集中的正負樣本不平衡性較大時,SVM對少數(shù)類的識別效果很差。同時,支持向量機對噪聲和孤立點也比較敏感,影響最終的分類結(jié)果。

        針對以上缺陷,文獻[2]用FSVM對不同的不平衡率樣本集進行分類,但忽略了樣本點附近的樣本分布情況造成了誤分。文獻[3]在模糊支持向量機的基礎(chǔ)上引入了不平衡調(diào)節(jié)因子,對少數(shù)類樣本賦予較大的權(quán)值,多數(shù)類樣本賦予較小的權(quán)值,有效解決了樣本分布不均勻的問題。文獻[4]設(shè)置了參數(shù)值調(diào)整選取訓練樣本的范圍,有效地避免了孤立點對最優(yōu)的分類超平面所造成的影響。文獻[5]提出了DEC算法分別給兩類樣本賦權(quán)重,但這種方法沒有考慮到樣本點周圍的疏密性對分類超平面的影響。文獻[6]提出了一種近似支持向量機(Proximal SVM),將模型轉(zhuǎn)化為簡單的二次規(guī)劃問題,提高了學習速度。文獻[7]通過對支持向量上采樣提出了一種不平衡數(shù)據(jù)分類方法。文獻[8]提出了一種核函數(shù)選取和欠采樣相結(jié)合的算法來提高少類樣本的準確率。本文提出一種FSVM算法,考慮到每個樣本臨近區(qū)域的樣本分布狀況以及樣本集的不平衡程度,設(shè)定控制值靈活的控制樣本集的范圍,減弱野值點的影響并有效突出支持向量的作用,提高了識別準確率。

        1 模糊支持向量機

        1.1 改進FSVM算法

        (1)

        式中:C+,C-為常數(shù),分別代表正負類樣本的懲罰因子,為求解式(1),通過拉格朗日函數(shù),出其對偶規(guī)劃為

        (2)

        約束條件為

        (3)

        其中,k(xi·xj)=φ(xi)φ(xi)T為核函數(shù)。模糊因子si的確定是模糊支持向量機工作性能好壞的關(guān)鍵,本文重心在于如何精確的對模糊因子si賦值。

        1.2 DEC算法

        SVM對不平衡的大數(shù)據(jù)樣本集做分類,超平面會偏移,優(yōu)化性能很差,具體表現(xiàn)在多數(shù)樣本分類遠遠優(yōu)于少數(shù), DEC算法通過對不同類別樣本分別給予重要程度,優(yōu)化分類超平面,使偏移性降低,增強分類結(jié)果,文獻[5]表明當C-/C+的比率等于n+/n-(n+,n-分別表示正樣本和負樣本的數(shù)量)時,算法最優(yōu),能實現(xiàn)最好的分類?;敬蠖鄻颖绢悇e數(shù)目相差懸殊的時候都用此算法,一定范圍上可以提高準確性,但并未考慮樣本分布情況的影響,若是空間復雜性樣本分布或者不規(guī)則分布時,算法便不能優(yōu)化分類超平面了。本文將模糊隸屬度與懲罰因子結(jié)合起來,根據(jù)對分類超平面的貢獻值為每個樣本分配不同的權(quán)重,使分類器分類偏移幅度盡可能的小。

        2 面向非平衡數(shù)據(jù)集的FSVM隸屬度設(shè)計

        2.1 傳統(tǒng)隸屬度函數(shù)設(shè)計

        為了減少異常值和噪聲點對最優(yōu)分類超平面的影響,傳統(tǒng)的隸屬函數(shù)主要是根據(jù)從樣本到類中心的距離來設(shè)計的。如圖1所示,H1與H2上各有3個支持向量,每個支持向量到屬于本類的類中心間距不一,這6個支持向量對于確定H這個分類超平面起著決定性作用,如果根據(jù)間距賦重要性程度,那么每個支持向量被給予的權(quán)值都不同,但實際情況,它們重要性是一樣的,傳統(tǒng)方法賦值存在很大漏洞,不能單靠與類中心間隔比較來確定重要與否。只有將這些不足之處填補,才能優(yōu)化分類器的性能,減小數(shù)據(jù)偏移,大數(shù)據(jù)氛圍下,有大量數(shù)據(jù)樣本點需要做處理、做賦值,必須優(yōu)化算法才能解決這一問題。

        圖1 根據(jù)樣本到類中心的距離進行隸屬度函數(shù)設(shè)計

        2.2 根據(jù)樣本分布情況進行設(shè)計

        (4)

        (5)

        圖2 帶有一個噪聲點的橢圓分布數(shù)據(jù)

        wx++b1=1;wx-+b2=-1

        (6)

        (7)

        兩類樣本到各自類中心的距離

        (8)

        正樣本到過負樣本中心超平面的距離

        (9)

        負樣本到過正樣本中心超平面的距離

        (10)

        計算兩類類中心的距離

        (11)

        D+=max{di+},D-=max{di-}

        (12)

        隸屬度函數(shù)計算公式為

        (13)

        (14)

        圖3 新型不平衡隸屬度函數(shù)設(shè)計

        將樣本點到過負類中心超平面的距離d1i+和T值進行比較,可以彰顯H1和H2線上支持向量點效果,突出其對分類超平面的貢獻,DEC算法能大幅度降低分類超平面偏移幅度,另外結(jié)合緊密度能夠確定噪聲點將其剔除。

        3 實驗與結(jié)果分析

        實驗選取兩種情感庫,CASIA漢語語料庫包括5類情感,空間分布規(guī)則,不重疊,情感色彩鮮明。太原理工大學TYUT2.0庫包括4種情感,由多名學生錄制判別,選取大多趨向定義情感類,具有可靠性,兩種庫比較適合用來做情感識別實驗。

        實驗選取MFCC特征,音質(zhì)特征還有韻律特征,歸一化,分別用CASIA庫,情感類為生氣的樣本,以及TYUT2.0,感受為高興的樣本,默認為正類樣本,其余看作一類,不平衡比體現(xiàn),數(shù)據(jù)集的介紹見表1。

        表1 情感語音數(shù)據(jù)集

        3.1 參數(shù)對算法準確率Gm的影響

        對于非平衡情感數(shù)據(jù)集,本文采用不平衡數(shù)據(jù)學習中的Se,Sp,和Gm來評價[10],其定義為

        (15)

        TP、FN、TN、FP分別代表分類正確的正樣本、分類錯誤的負類樣本、分類正確的負類樣本、以及分類錯誤的正類樣本的個數(shù),用Gm對分類器性能進行評價,Gm越大分類效果越好。

        本節(jié)用不同C值做實驗,比較文獻[4]中的HFSVM、文獻[11]中LFSVM方法,取 0,0.1,1,10,20,…,100,圖4、圖5分別給出了兩種情感庫數(shù)據(jù)集的實驗結(jié)果。

        圖4 C值的改變對CASIA漢語情感語料庫Gm的影響

        圖5 C值的改變對TYUT2.0情感語料庫Gm的影響

        3.2 算法準確率Gm對比分析

        將文獻[4]中的HFSVM方法、文獻[11]中LFSVM設(shè)方法與本文方法對比,選取最高C值。表2為對CASIA漢語庫,TYUT2.0情感庫做識別的最終結(jié)果。

        表2 3種算法的比較結(jié)果

        圖6 3種算法對CASIA漢語情感語料庫的Gm值比較

        圖7 3種算法對TYUT2.0情感語音庫的Gm值比較

        比較圖6,圖7可以看出,ZFSVM在對不平衡率為14.28的CASIA漢語庫做識別時,Gm值為91.70%,對不平衡率為4.89的柏林庫做識別時的Gm值為83.65%,算法性能的好壞受樣本的不平衡程度影響。不平衡程度越厲害,算法對樣本做處理的精確度越高,說明本文所提算法的有效性,造成最優(yōu)超平面偏移程度很小。此外相比其它兩種方法,本文方法的準確性也有增長,因為對每個樣本所配權(quán)值更加精準了,隨著樣本數(shù)增多前面兩種方法會將部分對超平面貢獻相同的樣本賦予不同的權(quán)值,甚至會給部分對超平面貢獻較大而距離類中心較遠的樣本賦予小的隸屬度值,一定程度上減弱了支持向量的作用,影響分類結(jié)果。

        4 結(jié)束語

        為了解決SVM分類的缺陷,通過DEC算法,及樣本點附近樣本分布,對每個樣本點到類中心超平面的距離設(shè)計權(quán)值賦予方式,確定噪聲點。按照樣本點重要與否、程度大小各自賦值,大大減小了非支持向量點影響,去除了噪聲點干擾,某種意義上提高了支持向量機的抗噪性。實驗結(jié)果表明,本文所提算法對不平衡語音情感數(shù)據(jù)庫的識別性能有顯著提高。但是,此方法需要設(shè)置參數(shù)重復實驗以選擇優(yōu)值。下一步是更詳細地研究參數(shù)和隸屬函數(shù)之間的關(guān)系,并找到更方便的參數(shù)設(shè)置方法。

        猜你喜歡
        超平面權(quán)值向量
        一種融合時間權(quán)值和用戶行為序列的電影推薦模型
        向量的分解
        全純曲線的例外超平面
        涉及分擔超平面的正規(guī)定則
        聚焦“向量與三角”創(chuàng)新題
        CONTENTS
        以較低截斷重數(shù)分擔超平面的亞純映射的唯一性問題
        基于權(quán)值動量的RBM加速學習算法研究
        自動化學報(2017年7期)2017-04-18 13:41:02
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        337p日本欧洲亚洲大胆| 久久精品一区二区三区不卡牛牛 | 国产成人av综合色| 精品福利视频一区二区三区 | 日韩精品久久不卡中文字幕| 亚洲中文字幕乱码第一页| 无码视频在线观看| 久久无码人妻一区二区三区午夜 | 久久半精品国产99精品国产 | 欧美成人午夜免费影院手机在线看| 无码人妻丰满熟妇区毛片| 亚洲三级香港三级久久| 精品日韩在线观看视频| 天天做天天摸天天爽天天爱| 性色av 一区二区三区| 久久综合给合久久狠狠狠9| 射进去av一区二区三区| 最新国产毛2卡3卡4卡| 国产精品无套内射迪丽热巴| 久久久国产精品ⅤA麻豆百度| 在线视频观看一区二区| 性生交片免费无码看人| 欧美性群另类交| 日韩人妻高清福利视频| 色婷婷久久亚洲综合看片| v一区无码内射国产| 亚洲AV无码精品色午夜超碰| 日本女同av在线播放| 麻豆免费观看高清完整视频| 久久久噜噜噜久久中文字幕色伊伊| 亚洲av毛片成人精品| 国产亚洲一区二区三区综合片| 人妻中文无码久热丝袜| 久久免费视亚洲无码视频| 97人妻中文字幕总站| 亚洲av色香蕉一区二区三区老师| 精品人妻伦九区久久AAA片69| 日韩精品一区二区三区影音视频 | 成人免费播放视频777777| 国产乱人伦av在线a| 国产伦码精品一区二区|