亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樣本空間分布距離的支持向量機

        2016-11-19 06:10:36于波李海峰馬琳
        智能計算機與應(yīng)用 2016年5期

        于波 李海峰 馬琳

        (1 哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 哈爾濱 150080;2 哈爾濱理工大學(xué) 軟件學(xué)院,哈爾濱 150040)

        摘要:由于支持向量機(Support Vector Machine,SVM)在處理樣本不平衡分布時會有偏向性,使少數(shù)類別的分類錯誤率的上界高于多數(shù)樣本類別。分析總結(jié)了針對該問題當(dāng)前的研究方法,并指出存在問題。研究分析針對不平衡樣本SVM分類識別率的傾向性問題。考慮全局樣本信息,提出了三種針對所有樣本空間分布距離信息的方法。在UCI數(shù)據(jù)集上進(jìn)行實驗,結(jié)果證明MSEDR-SVM(Mean Sample Euclidean Distance Ratio-SVM)能夠有效增加少數(shù)樣本類別的F-值。從而改善標(biāo)準(zhǔn)的SVM只依靠支持向量樣本構(gòu)建分類超平面的局限性。

        關(guān)鍵詞:SVM; 不平衡樣本分布;MSEDR-SVM

        中圖分類號:TP309 文獻(xiàn)標(biāo)識碼:A

        Support Vector Machine based on the sample spatial distance

        YU Bo1,2 , LI Haifeng1 , MA Lin1

        (1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150080, China;2 Software College, Harbin University of Science and Technology, Harbin 150040, China)

        Abstract: As the support vector machine deals with imbalanced sample distribution, there is some tendency,

        making the upper boundary of the misclassification rate of the minority above the majority. The research solutions to the problem are analyzed and summarized, and the problems existing in the current research are pointed out.

        Accordingly, the paper analyzes the tendency problem of the imbalanced sample distribution on the Classification accuracy. Considering the whole sample information, the three methods based on sample spatial distribution distance information are proposed. The experiment on UCI data sets verifies that the new classier MSEDR-SVM (Mean Sample Euclidean Distance Ratio-SVM) can effectively increase the F-value of the minority.

        The method improves the limitation of standard support vector machine only relying Support Vectors to construct classification hyperplane.

        Key words: Support Vector Machine; imbalanced sample distribution; MSEDR-SVM

        0 引言

        1995年,Vpnik首次于研究中引入了支持向量機(Support Vector Machine,SVM)[1]。SVM是基于統(tǒng)計學(xué)習(xí)理論VC維度和結(jié)構(gòu)風(fēng)險最小化原則構(gòu)建提出的,并具有良好的泛化性能,因而能夠解決小樣本、非線性和維數(shù)災(zāi)難等問題。SVM有著廣泛的應(yīng)用,如:語音識別[2]、腦電識別[3]、疾病檢測[4- 5]、故障檢測[6- 7]等。綜合如上應(yīng)用領(lǐng)域,當(dāng)各類樣本分布數(shù)量幾乎相等時,SVM通常表現(xiàn)出優(yōu)良的性能。但在實際進(jìn)程中,樣本的分類信息多數(shù)情況下都是不對稱的,對于少數(shù)類別(如:疾病、故障等)的識別機會顯得尤為重要。可見例證就是:若將一個癌癥患者錯誤識別為健康患者的代價則將高過對于健康患者的誤診。基于此,針對少數(shù)類別樣本識別準(zhǔn)確率的應(yīng)用,不平衡分布樣本的識別問題研究顯然具備了現(xiàn)實重要意義。但是,對于不平衡樣本分布,標(biāo)準(zhǔn)SVM的分類識別帶有偏向性,導(dǎo)致少數(shù)類別將出現(xiàn)更高的分類錯誤。相關(guān)研究已經(jīng)提出SVM針對不平衡樣本分布的解決方法。具體分析論述如下:

        第一類解決偏向性問題的方法是對于訓(xùn)練樣本進(jìn)行了重采樣。這種方法的主要思想就是使不平衡分布的樣本轉(zhuǎn)變?yōu)槠胶夥植嫉臉颖尽4藭r,有兩種策略可供選取,主要內(nèi)容為:

        1)增采樣(Over Sampling):增加合成樣本到少數(shù)類別。Chawla等人提出SMOTE(Synthetic Minority Over-sampling Technique)方法[8]。該方法在少數(shù)類的每個樣本以及離其最近的樣本之間插入合成的樣本,從而增加少數(shù)類樣本的數(shù)量。Wu等人提出通過遺傳交叉運算生成新的樣本,彌補不平衡樣本引起的不利影響[9]。只是,利用增采樣添加的合成樣本卻難以保證和原有樣本保持一致的分布信息。因此,這些方法只是增加一些重復(fù)的樣本,可能會產(chǎn)生過擬合的情況。

        2)降采樣(Under Sampling):減少多數(shù)類樣本的數(shù)量。Kubat等人提出減少多數(shù)類的噪聲和冗余樣本的單邊選擇方法[10],從而彌補2類樣本的差異。通過降采樣的方法失去了樣本隨機性和原來有價值的信息。由于沒有充分利用原有樣本信息,分類超平面的方向可能發(fā)生變化。

        第二類解決偏向性問題的方法是修改標(biāo)準(zhǔn)的支持向量機。Veropoulos等人改進(jìn)了標(biāo)準(zhǔn)的SVM,主要體現(xiàn)在給出了2類不同的懲罰因子[11]。針對標(biāo)準(zhǔn)SVM的樣本分布不平衡的問題,Chew等人提出兩類的懲罰因子反比于樣本的數(shù)量,從而減少樣本不平衡分布對于分類器的影響[12]。文獻(xiàn)[12]提出一種新方法,通過聯(lián)合加權(quán)平衡和采樣平衡來設(shè)置標(biāo)準(zhǔn)SVM的參數(shù)C[10]。在只有少數(shù)類的極端情況下,這個方法獲得了較好的性能。研究可知,前述這些改進(jìn)方法主要是對分類參數(shù)施加影響,但是未能從根本上解決SVM的偏側(cè)性問題。Liu提出平均距離比的方法(MDR: Method of Average Distance Ratio)[13]。雖然MDR進(jìn)一步完善了SVM,但是該方法的主要缺點局限卻是僅考慮了支持向量到超平面的空間距離,而未考慮內(nèi)點(非支持向量)。

        綜上分析可得,以上方法均未充分融合利用所有樣本的分布信息,僅是依據(jù)支持向量來構(gòu)造分類超平面。對于不平衡樣本分布的問題,有必要改進(jìn)SVM,從而亟需提出更有效的方法。針對這一問題,本文提出了基于樣本空間分布信息的支持向量機,在歐氏空間考慮所有樣本到超平面的分布距離信息?;谄骄鶚颖練W式距離比(MSEDR:Mean Sample Euclidean Distance Ratio),給出新分類器MSEDR-SVM。最后,通過幾種分類器的實驗對比證明了MSEDR-SVM的客觀可行和現(xiàn)實有效性。

        4 結(jié)束語

        本文提出基于樣本空間分布信息的SVM分類識別方法。該方法主要是使少數(shù)類樣本點到超平面的距離大于多數(shù)類,降低少數(shù)類的錯分類的上界,充分利用樣本的空間分布距離信息,沒有增加或減少樣本點。實驗結(jié)果顯示了提出的3種方法中,MSEDR-SVM在處理不平衡樣本分布時,得到了最佳有效性。不平衡樣本分布的信息還包括,樣本分布的離散程度、分布趨勢等,下一步工作將針對這些情況展開后續(xù)研究。

        參考文獻(xiàn)

        [1] VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer, 1995.

        [2] GEORGOULAS G, GEORGOPOULOS V C , STYLIOS C D. Speech sound classification and detection of articulation disorders with support vector machines and wavelets[C]//Conf Proc IEEE in Medicine and Biology Society. New York, USA:IEEE, 2006: 2199-2202.

        [3] LI S, ZHOU W, YUAN Q, et al. Feature extraction and recognition of ictal EEG using EMD and SVM[J]. Computers in Biology and Medicine, 2013,43(7): 807-816.

        [4] LIU Y, ZHOU W, YUAN Q, et al. Automatic seizure detection using wavelet transform and SVM in long-term intracranial EEG[J].IEEE Trans Neural Syst Rehabil Eng, 2012, 20(6):749-755.

        [5] LI B, MENG M Q. Tumor recognition in wireless capsule endoscopy images using textural features and SVM-based feature selection[J].IEEE Trans Inf Technol Biomed,2012,16(3):323-329.

        [6] ZHANG Y X, CHENG Z F, XU Z P, et al. Application of optimized parameters SVM based on photoacoustic spectroscopy method in fault diagnosis of power transformer[J]. Spectroscopy & Spectral Analysis, 2015,35(1):10-13.

        [7] SANTOS, PRDRO, VILLA, et al. An SVM-based solution for fault detection in wind turbines Sensors[J].Sensors (Basel), 2015,15(3): 5627-5648.

        [8] CHAWLA N V, BOWYER K W, HALL L O, et al.SMOTE: Synthetic minority over-sampling technique[J]. Journal of Articial Intelligence Research, 2002,16:321-357.

        [9] WU H X, PENG Y, PENG X Y. A new support vector machine method for unbalanced data treatment[J].Chinese Journal of Electronics, 2006,34: 2395-2398.

        [10] KUBAT M, MATWIN S. Addressing the course of imbalanced training sets: One-sided Selection[C]//Proc. 14th International Conference on Machine Learning. Nashville, TN, USA:ICML, 1997: 179-186.

        [11] VEROPOULOS K , CAMPBELL C, CRISTIANINI N. Controlling the Sensitivity of Support Vector Machine[C]//International Joint Conference on AI. Stockholm, Swede:IJCAI, 1999: 55-60.

        [12] CHEW H G, CRISP D J, BOGNER R Er,et al. Target detection in radar imagery using Support Vector Machines with training size biasing[J].Southern Medical Journal, 2000, 90(10):959–963.

        [13] LIU W H. Study of Support Vector Machine algorithms on unbalanced dataset[D].Qingdao:Shandong University of Science and Technology, 2010.

        [14] A Frank, A Asuncion. UCI Machine Learning Repository[EB/OL].[2010-06-13] .http://archive.ics.uci.edu/ml.

        [15] CHANG C C, LIN C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3):389-396 .

        少妇激情高潮视频网站| 久久狠狠高潮亚洲精品暴力打| 欧洲国产精品无码专区影院| 在线高清亚洲精品二区| 日本xxxx色视频在线观看免费| 亚洲色在线v中文字幕| 无码毛片高潮一级一免费| 国产伦精品一区二区三区在线| 亚洲国产美女高潮久久久| 免费观看的av毛片的网站| 国产欧美精品一区二区三区–老狼 | 久久丫精品国产亚洲av不卡| 中文字幕无码人妻丝袜| 久久综合加勒比东京热| 日本亲近相奷中文字幕| 国产白丝无码视频在线观看| 丰满人妻无套中出中文字幕| 国产亚洲精品在线播放| 亚洲欧洲成人a∨在线观看| 久久久久亚洲av无码a片软件| 亚洲色AV天天天天天天| 护士人妻hd中文字幕| 少妇被粗大的猛烈进出69影院一| 一级毛片60分钟在线播放| 久久久精品国产亚洲av网| 白嫩人妻少妇偷人精品| 激情综合一区二区三区| 999久久66久6只有精品| 日本久久大片中文字幕| 国产日韩av在线播放| 99久久久无码国产精品9| 久久伊人精品只有这里有| 国产亚洲一区二区三区 | 欧美日韩亚洲精品瑜伽裤| 国产精品一级av一区二区| 久久中文字幕人妻淑女| 中文字幕一区二区三区乱码| 2020国产精品久久久久| 高潮精品熟妇一区二区三区| 亚洲av综合永久无码精品天堂| 国产综合色在线视频|