亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        核函數選擇方法研究

        2018-12-26 12:28:52王振武何關瑤
        湖南大學學報·自然科學版 2018年10期
        關鍵詞:支持向量機

        王振武 何關瑤

        摘 要:核函數的選擇對支持向量機的分類結果有著重要的影響,為了提高核函數選擇的客觀性,提出了一種以錯分實例到支持向量所在界面的距離來表示錯分程度,并基于此進行秩和檢驗的核函數選擇方法.通過與K折交叉驗證、配對t測試等參數檢驗的統(tǒng)計方法進行對比分析,對9種常用核函數的分類能力在15個數據集進行了定量研究.與參數檢驗方法不同,秩和檢驗并未假定數據的分布情況(很多情況下數據并不滿足假定的分布),而且數據實驗證明,秩和檢驗不但能夠對核函數的分類能力進行客觀評估,而且在某些數據集上還能產生更好的核函數選擇效果.

        關鍵詞:核函數;支持向量機; 秩和檢驗; K折交叉驗證; 配對t測試

        中圖分類號:TP301.6 文獻標志碼:A

        Abstract:The selection of kernel functions has an important influence on the classification results of support vector machines. This paper proposed a kernel functions selection method based on rank sum test in order to enhance the selection objectivity, where the error degree adopted in the rank sum test was represented by the distance between the error instance and the interface of support vectors. By comparing with other statistical methods, such as Kfolding cross validation and paired t test, the classification abilities of nine common kernel functions were quantitatively studied based on 15 datasets. Different from parameter test methods, the rank sum test does not assume the data distribution(in some cases data cannot satisfy the assumed distribution), the experimental data proves that the rank sum test not only can objectively evaluate the classification abilities of kernel functions, but also can produce better selection results on some data sets.

        Key words:kernel function; support vector machines; rank sum test; K folding cross validation; paired t test

        支持向量機(Support Vector Machine,SVM)[1]的使用與核函數的正確選擇是密不可分的,核函數技術巧妙地解決了在高維特征空間中計算的“維數災難”等問題,直接決定了SVM的非線性處理能力[2].當前對核函數選擇方法的研究主要集中在構造新的核函數[3-7]、核函數參數選擇[8-13]以及核函數的評估[1,14-16]上.由于在使用SVM進行分類的過程中只定義了核函數(并不顯式地定義映射函數),所以在同一分類問題上選擇不同的核函數對分類效果影響較大,另外映射函數的類型是多變的,在沒有先驗知識的情況下人們更多地是憑借主觀經驗進行核函數的選擇,具有較大的隨意性.

        諸多文獻從不同的角度給出了構造核函數的新方法.文獻[3]針對多標簽數據集的特點構造了新的核函數,文獻[45]結合切比雪夫多項式構造出新的核函數并以此解決回歸問題,而文獻[6]對RBF核進行極分解,并結合全局多項式核構造混合核函數,文獻[7]則針對電力系統(tǒng)的風速概率估計這一具體問題,構造了一種由若干核密度和權重系數組成的混合核函數,消除了傳統(tǒng)核密度模型選擇最優(yōu)帶寬的問題.核函數的參數選擇方法研究也較多,有些文獻[8]針對具體應用問題對核函數參數進行選擇,有些文獻則致力于研究通用的核函數選擇方法.例如,文獻[9]提出了基于代價函數最大化的核函數參數選擇方法,文獻[10]通過研究邊緣正態(tài)樣本和內部正態(tài)樣本之間重構誤差的差異來尋找滿足條件的核函數參數,文獻[11]則通過每個樣本的最遠和最近鄰信息來選擇核函數參數的方法,文獻[12]采用梯度下降法將類內散度矩陣的退化問題轉化為跡運算準則,以此來尋找最優(yōu)參數,而文獻[13]則提出了廣義核極化準則用來解決分類問題中的高斯核參數優(yōu)化問題.

        一般來說,核函數的評估指標分為四類:一類來自理論分析所給出的界[1],一類是通過考慮數據的分布特征進行核函數的選擇[14],第三類是通過研究核函數核矩陣的特征信息來指引核函數的選擇[15],第四類則是通過實際數據的驗證結果來指導核函數的選擇[16].遺憾的是,目前還沒有成熟的理論來計算推廣性的界的范圍,只能給出估計值,因此理論分析在實際應用中并不實用;考慮數據的分布特征來選擇核函數也有較大的局限性,例如,如果數據的分布特征不符合特定的幾何特征(如類圓特征和類球特征)便無法對核函數進行選擇;而通過研究核矩陣的特征信息能給出估計的泛化誤差界,但算法過于復雜,在實踐中很難被應用,因此通過實驗結果來評估核函數是最常用的核函數選擇方法.文獻[16]采用參數檢驗的方法對SVM分類結果的準確率、召回率等性能評估準則進行分析,通過將其他核函數與徑向基核函數(Radial Basis Function,RBF)進行對比,來完成對核函數的綜合評估,但文獻[16]的方法有兩個明顯的缺陷:1)由于采用參數檢驗的方法,需要假定分類結果服從正態(tài)分布,而實際上并不是所有數據集都滿足此假定;2)對數據集中某一實例的分類結果判斷均是非對即錯,并沒有考慮被錯誤分類的實例的錯分程度,因此對核函數的比較粒度較粗.針對上述問題,本文提出了一種以錯分實例到支持向量所在界面的距離來表示錯分程度,并基于此進行秩和檢驗的核函數選擇評估方法.

        本文第1節(jié)對比地分析了三種模型預測性能評估的統(tǒng)計方法,即K折交叉驗證[17],配對t測試[18]與秩和檢驗[19],并對秩和檢驗進行預測性能評估的優(yōu)勢進行了討論;核函數選擇的實驗結果在第2節(jié)進行了詳細分析和討論;第3節(jié)對研究內容進行了總結.

        1 模型預測評估方法

        文獻[16]指出不同評估準則在具體數值上存在差異,但應用統(tǒng)計方法所獲得的核函數排序大體上是一致的,這說明傳統(tǒng)的性能評估準則(如準確率、召回率和Fmeasure等)對核函數分類性能的影響不大,因此本文主要對模型評估方法進行比較.

        在3種模型預測評估方法的實驗中,K折交叉驗證采用的10折交叉驗證,配對t測試和秩和檢驗則是在每個數據集上分別進行核函數的兩兩對比實驗.另外,所有實驗的統(tǒng)計顯著性水平均為5%,實驗結果會出現某核函數在某數據集上得不到實驗結果的情況,此時判定為“無”.

        對3種模型預測評估方法實驗結果的處理方式為:K折交叉驗證統(tǒng)計9個核函數在15個數據集上的排名順序并將其累計求和,排名依據為:置信區(qū)間有重疊則判斷相等,“無”則被判斷為排名最后,否則按錯誤率Errcv(T,D)大小來排序.而配對t測試和秩和檢驗則是根據兩兩對比獲勝的次數相加,其中“相等”次數均增加,“無”次數均不增加,統(tǒng)計結果如表5所示,括號內的數字是經統(tǒng)計后該核函數在當前檢驗方法下的排名.

        根據表5的統(tǒng)計結果可以看出,三種方法對核函數的分類能力進行排序時存在一定差異,但大體是一致的,核函數可以大致分為三級:RBF、Linear、CF效果最好,PF、SF其次,STF、LF、HSF、FTF效果最差.

        雖然3種方法對9種核函數的分類能力在15個數據集上得到了大體一致的綜合排名結果,但如果針對具體的數據集做仔細分析,會發(fā)現K折交叉驗證和配對t測試方法存在較大的局限性.例如,如圖2和圖3所示,在處理數據集monks2.train和monks3.train時,使用K折交叉驗證在所有的核函數上得出的錯誤率的置信區(qū)間都十分接近,全部存在重合的情況,在統(tǒng)計核函數排名時只能判定它們排名一樣,而使用配對t測試則得出所有核函數的兩兩對比結果全為“相等”,這說明對于此類數據使用參數檢驗的方法無法給出比較結果,針對這種情況,秩和檢驗卻能夠很好的處理.

        如圖4和5所示,9個核函數(用編號表示)被兩兩對比,順序為(1,2),(1,2),(1,3),…,(8,9),依次對應橫坐標中的36個點(1~36).對于上述括號中的兩個核函數,若前者更好則標記為“1”,若后者更好則標記為“-1”,若兩者相等則標記為“0”, HTF核函數參與對比的點的橫坐標為8,15,21,26,30,33,35,36 ,而這些橫坐標的值均為“-1”,這說明在monks2.train和monks3.train數據集上分類效果最好的為HTF核函數,而且基于錯誤距離的秩和檢驗在絕大多數的核函數兩兩對比實驗中均能給出明確的判定結果,這是配對t測試和K折交叉驗證方法所無法得到的.

        根據上面的分析,由表5和圖4~5可以得出:1)K折交叉驗證、配對t測試與秩和檢驗得到的核函數的綜合排序在大體上是一致的,說明秩和檢驗可以對核函數的分類能力進行客觀評估;2)在數據集的Errcv(T,D)不適合使用參數檢驗方法的情況下,秩和檢驗卻可以對核函數分類能力進行更好的評估.因此,與K折交叉驗證和配對t測試等方法相比,基于錯分實例到支持向量所在界面的距離的秩和檢驗方法具有更高的可行性.

        3 結 論

        核函數的選擇是核方法研究及應用的核心內容,選擇的準則和方法目前并沒有成型的理論方法,研究人員更多地是憑借主觀經驗進行選擇,因此具有較大的隨意性.通過實際數據的驗證結果來指導核函數的選擇是最常用的方法之一,本文針對參數檢驗方法的局限性,將秩和檢驗這一非參數檢驗方法引入核函數選擇中,提出了基于分類錯誤的實例與支持向量所在的決策界面的距離進行秩和檢驗的核函數選擇方法,實驗結果驗證了該方法的合理性,并在某些數據集上給出了更好的選擇效果.

        參數檢驗方法需要對總體分布進行假定,因此可能會引起推斷結果的錯誤.本文提出的以錯分實例到支持向量所在界面的距離來表示錯分程度,并基于此進行秩和檢驗的核函數選擇方法,并不需要考慮樣本期望和方差,而只需比較其總體位置,因此與參數檢驗方法相比其適應性更強.另外,錯分程度也是參數檢驗中所沒有考慮的因素,在數據集的Errcv(T,D)不適合使用參數檢驗方法的情況下,所提方法能得到較好的結果.另外,本文的方法可以和其他參數檢驗(如K折交叉驗證、配對t測試等)方法配合使用、相互驗證核函數選擇的準確性,并且可以在參數檢驗方法無法分辨核函數優(yōu)劣的情況下進一步區(qū)分核函數的分類性能.

        參考文獻

        [1] VAPNIK V. The nature of statistical learning theory [M]. The second edition. New York: SpringerVerlag, 2000:1-314.

        [2] 丁世飛,齊丙娟,譚紅艷. 支持向量機理論與算法研究綜述[J]. 電子科技大學學報,2011, 40(1):2-10.

        DING S F, QI B J, TAN H Y. An overview on theory and algorithm of support vector machines [J]. Journal of University of Electronic Science and Technology of China, 2011, 40(1):2-10.(In Chinese)

        [3] GHOUTI L. A new kernelbased classification algorithm for multilabel datasets [J]. Arabian Journal for Science and Engineering, 2016, 41(3):759-771.

        [4] 趙金偉,馮博琴,閆桂榮. 泛化的統(tǒng)一切比雪夫多項式核函數[J]. 西安交通大學學報, 2012,46(8):43-48.

        ZHAO J W, FENG B Q, YAN G R. Generalized uniform Chebyshev polynomial kernel[J]. Journal of Xian Jiaotong University, 2012,46(8):43-48. (In Chinese)

        [5] ZHAO J W, YAN G R. FENG B Q, et al. An adaptive support vector regression based on a new sequence of unified orthogonal polynomials[J]. Pattern Recognition, 2013, 46(3):899-913.

        [6] 業(yè)巧林,業(yè)寧,張訓華. 基于極分解下的混合核函數及改進[J]. 模式識別與人工智能, 2009,22(3):366-373.

        YE Q L, YE N, ZHANG X H. Extremun decom position based mixteres of kernels and its improvement[J]. Pattern Recognition and Artificial Intelligence, 2009,22(3):366-373. (In Chinese)

        [7] MIAO S W, XIE K G, YANG H J, et al. A mixture kernel density model for wind speed probability distribution estimation [J]. Energy Conversion and Management, 2016, 126(15):1066-1083.

        [8] TIAN J, YU W Y, XIE S L. On the kernel function selection of nonlocal filtering for image denoising[C]// Proceedings of the Seventh International Conference on Machine Learning and Cybernetics. Kunming, 2008:2964-1969.

        [9] ZHU B, CHENG Z D, WANG H. A kernel function optimization and selection algorithm based on cost function maximization[C]// 2013 IEEE International Conference on Imaging Systems and Techniques (IST). 2013:259-263.

        [10]WANG S F, NIE B, YUE K, et al. Protein subcellular localization with Gaussian kernel discriminant analysis and its kernel parameter selection[J]. International Journal of Molecular Sciences, 2017, 18(12):1-16.

        [11]XIAO Y C, WANG H G, ZHANG L, et al. Two methods of selecting Gaussian kernel parameters for oneclass SVM and their application to fault detection[J]. Knowledgebased System, 2014, 59:75-84.

        [12]XIONG H L, SWAMY M N S, AHMAD M O. Optimizing the kernel in the empirical feature space[J]. IEEE Transactions on Neural Networks, 2005, 16(2):460-474.

        [13]田萌,王文劍. 高斯核函數選擇的廣義核極化準則[J]. 計算機研究與發(fā)展, 2015,52(8):1722-1734.

        TIAN M, WANG W J. Generalized kernel polarization criterion for optimizing Gaussian kernel[J]. Journal of Computer Research and Development, 2015,52(8):1722-1734. (In Chinese)

        [14]梁禮明,馮新剛,陳云嫩,等. 基于樣本分布特征的核函數選擇方法研究[J]. 計算機仿真, 2013, 30(1):323-328.

        LIANG L M, FENG X G, CHEN Y N, et al. Method of selection kernel function based on distribution characteristics of samples [J]. Computer Simulation, 2013, 30(1):323-328. (In Chinese)

        [15]LIU Y, LIAO S Z. Kernel selection with spectral perturbation stability of kernel matrix [J]. Science China(Information Sciences),2014,57(11):112103.

        [16]胡包鋼,王泳. 應用統(tǒng)計方法綜合評估核函數分類能力的研究[J]. 計算機學報,2008,31(6): 942-952.

        HU B G, WANG Y. A study on integrated evaluating kernel classification performance using statistical methods [J]. Chinese Journal of Computers, 2008,31(6):942-952. (In Chinese)

        [17]BROWNE M W. Crossvalidation methods [J]. Journal of Mathematical Psychology, 2000, 4(1):108-132.

        [18]SINCICH T. Business statistics by example [M]. The fifth edition. New Jersey: Prentice Hall, 1996:1-1179.

        [19]茆詩松,程依明,濮曉龍. 概率論與數理統(tǒng)計 [M].第二版.北京:高等教育出版社, 2011:1-523.

        MAO S S, CHENG Y M, PU X L. Probability theory & mathematical statistics [M]. The second edition. Beijing: Higher Education Press, 2011:1-523. (In Chinese)

        [20]NEWMAN D J, HETTICH S, BLAKE C L, et al. UCI repository of machine learning databases[D]. Department of Information and Computer Science, University of California, Irvine, CA, 1998.

        [21]Statlib—Data, Software and News from the Statistics Community. [http://lib.stat.cmu.edu/datasets/]

        猜你喜歡
        支持向量機
        基于支持向量回歸機的電能質量評估
        基于智能優(yōu)化算法選擇特征的網絡入侵檢測
        數據挖掘技術在電廠經濟性分析系統(tǒng)中的應用Q
        基于改進支持向量機的船舶縱搖預報模型
        中國水運(2016年11期)2017-01-04 12:26:47
        基于SVM的煙草銷售量預測
        軟件導刊(2016年11期)2016-12-22 21:52:38
        動態(tài)場景中的視覺目標識別方法分析
        論提高裝備故障預測準確度的方法途徑
        價值工程(2016年32期)2016-12-20 20:36:43
        基于熵技術的公共事業(yè)費最優(yōu)組合預測
        價值工程(2016年29期)2016-11-14 00:13:35
        基于支持向量機的金融數據分析研究
        管理類研究生支持向量機預測決策實驗教學研究
        考試周刊(2016年53期)2016-07-15 09:08:21
        欧美肥胖老妇做爰videos| 精品一区二区三区亚洲综合| 日韩av在线播放人妻| 人人妻人人澡人人爽欧美一区九九| 996久久国产精品线观看| 亚州五十路伊人网| 久久精品国产9久久综合| 天堂中文а√在线| 久久婷婷国产剧情内射白浆| 啊v在线视频| 日本不卡一区二区三区久久精品| 日韩人妻ol丝袜av一二区| 亚洲av无码一区二区乱子伦as| 亚洲日韩成人无码不卡网站| 不卡视频在线观看网站| 人妻丰满熟妇无码区免费| 国产三级a三级三级| 三男一女吃奶添下面| 亚洲韩国在线| 日本女同av在线播放| 亚洲午夜成人精品无码色欲| 亚洲精品久久久久中文字幕一福利| 香蕉视频一级片| 午夜无码熟熟妇丰满人妻| 天堂av一区二区在线| 偷拍一区二区视频播放器| 成人区人妻精品一熟女| 欧美成人高清手机在线视频| 国产中文色婷婷久久久精品| 午夜裸体性播放| 亚洲人免费| 国产少妇一区二区三区| 亚洲av精二区三区日韩| 99久久人人爽亚洲精品美女| 99久久综合国产精品免费| 日本按摩偷拍在线观看| 成年女人色毛片| 欧美伊人亚洲伊人色综| 看全色黄大色大片免费久久久| 人妻一区二区三区av| 青青草原精品99久久精品66|