亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        SVM在文本分類中的應(yīng)用研究

        2007-01-01 00:00:00
        計(jì)算機(jī)教育 2007年2期

        摘要:本文研究了支持向量機(jī)(SVM)在文本分類中的應(yīng)用,闡述了支持向量機(jī)及核函數(shù)等理論,并就文本的性能進(jìn)行了實(shí)驗(yàn)證明。

        關(guān)鍵詞:文本分類;支持向量機(jī);核函數(shù)

        中圖分類號(hào): TP391; TP18 文獻(xiàn)標(biāo)識(shí)碼:B文章編號(hào):1672-5913(2007)02-0072-04

        支持向量機(jī)(Support Vector Machine,簡稱SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。傳統(tǒng)統(tǒng)計(jì)模式識(shí)別的方法都是在樣本數(shù)目足夠多的前提下進(jìn)行研究,所提出的各種方法只有在樣本數(shù)趨于無窮大時(shí)其性能才有理論上的保證,而在多數(shù)實(shí)際應(yīng)用中,樣本數(shù)目通常是有限的,很多傳統(tǒng)方法都難以取得理想的效果。Vapnik等人早在20世紀(jì)60年代就開始研究有限樣本情況下的機(jī)器學(xué)習(xí)問題。20世紀(jì)90年代,有限樣本情況下的機(jī)器學(xué)習(xí)理論研究逐漸成熟起來,形成了一個(gè)較完善的理論體系——統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory)。1992年到1995年,在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新的模式識(shí)別方法——支持向量機(jī)。隨著WWW的迅猛發(fā)展,文本分類成為處理和組織大量文檔數(shù)據(jù)的關(guān)鍵技術(shù)。SVM是繼k-近鄰、神經(jīng)網(wǎng)絡(luò)、相素貝葉斯等方法之后被用于文本分類,并且是在Reuter語料(包括21450版本和Apte給出的集合)上能取得非常好的結(jié)果的文本分類算法之一。

        本文重點(diǎn)研究SVM在兩個(gè)不同的語料集上,選擇不同的特征維數(shù),采用四種不同的核函數(shù)的分類性能比較。實(shí)驗(yàn)結(jié)果表明,這種方法削弱了訓(xùn)練樣本分布的不均勻性對(duì)分類性能的影響,可以將微平均準(zhǔn)確率提高大約1%~2%。

        本文第1節(jié)將闡述支持向量機(jī)算法的基本思想;第2節(jié)介紹目前廣泛應(yīng)用的三種核函數(shù);第3節(jié)給出了在著名的英文語料集Reuters-21578上的實(shí)驗(yàn)結(jié)果與分析;第4節(jié)是結(jié)論和進(jìn)一步工作展望。

        1統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)

        統(tǒng)計(jì)學(xué)習(xí)理論就是研究小樣本統(tǒng)計(jì)估計(jì)和預(yù)測的理論,具有很好的泛化能力,為解決有限樣本學(xué)習(xí)問題提供了一個(gè)統(tǒng)一的框架。它能將很多現(xiàn)有方法納入其中,有望幫助解決許多原來難以解決的問題(比如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇問題、局部極小點(diǎn)問題等);同時(shí),在這一理論基礎(chǔ)上發(fā)展了一種新的通用學(xué)習(xí)方法——支持向量機(jī)(SVM) 。

        SVM是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,有較好的推廣性能和較高的分類準(zhǔn)確率。該算法基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,將數(shù)據(jù)集合壓縮到支持向量集合(通常為前者的3%~5%),學(xué)習(xí)得到分類決策函數(shù)。其基本思想是構(gòu)造一個(gè)超平面作為決策平面,使正負(fù)模式之間的間隔最大。

        SVM方法是從線性可分情況下的最優(yōu)分類面提出的。如圖1所示,圓圈和實(shí)心點(diǎn)分別代表兩類的訓(xùn)練樣本,H為把兩類沒有錯(cuò)誤地分開的分類線,H1、H2分別為過各類樣本中離分類線最近的點(diǎn)且平行于分類線的直線,H1和H2之間的距離叫做兩轉(zhuǎn)類的分類間隔(Margin)。支持向量與超平面之間的距離為1/‖ω‖,則支持向量間距為2/‖ω‖尋找超平面的問題,可化為求解以下二次規(guī)劃問題:

        3.3實(shí)驗(yàn)結(jié)果與分析

        為了考察算法的效果,我們采用了VC++6.0實(shí)現(xiàn)本文算法,部分源代碼采用復(fù)旦大學(xué)計(jì)算機(jī)與信息技術(shù)系李榮陸提供的文本分類器系統(tǒng)源代碼。實(shí)驗(yàn)分為三個(gè)階段。

        表1、表2實(shí)驗(yàn)結(jié)果表明,不論是在英文語料集還是中文語料集,使用SVM分類系統(tǒng)均能達(dá)到較好的分類效果,而實(shí)驗(yàn)中采用多項(xiàng)式核函數(shù)和Sigmoid函數(shù)進(jìn)行比較,經(jīng)證明,在多數(shù)情況下前者優(yōu)于后者。

        4結(jié)束語

        本文就文本分類的過程和關(guān)鍵技術(shù)進(jìn)行了論述,并就不同核函數(shù)下文本分類的效果進(jìn)行了實(shí)驗(yàn)驗(yàn)證,證明SVM是一種行之有效的文本分類方法。在今后的研究中,如何提高SVM算法的效率將是工作的重點(diǎn)。

        參考文獻(xiàn):

        [1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.

        [2] Therson Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In European Conference on Machine Learning(ECML)[J]. Springer,Berlin, 1998.

        投稿日期:2006-10-01

        作者簡介:劉霞(1981-),女(漢),北京,碩士研究生。

        男女上床视频免费网站| 色八区人妻在线视频免费| 人人妻人人玩人人澡人人爽 | 国产中文字幕一区二区视频| 大地资源网在线观看免费官网| 无码人妻精品一区二区在线视频| 草莓视频一区二区精品| 日韩人妻有码中文字幕| 日本高清一道本一区二区| 欧美午夜刺激影院| 日本一本久道| 国产成人久久综合第一区| 一区二区国产av网站| 亚洲国产精品综合久久网各| 国产无线乱码一区二三区 | av网站不卡的av在线| 日本丰满熟妇videossexhd| 99精品视频在线观看免费| 偷拍熟女亚洲另类| 国产三级精品三级男人的天堂| 未满十八勿入av网免费| 亚洲色图+国产精品| 精品少妇人妻久久免费| 国产精品视频自拍在线| 国产真实老熟女无套内射| 亚洲精品国产品国语在线app| 99麻豆久久精品一区二区| 国产激情视频在线观看的| 色妺妺在线视频| 精品熟妇av一区二区三区四区| 成人影院视频在线免费观看| 国产精品福利自产拍在线观看| 久久亚洲AV无码精品色午夜| 亚洲精品视频一区二区三区四区| 国产精品亚洲色婷婷99久久精品| 精品少妇ay一区二区三区| 69搡老女人老妇女老熟妇| 2020国产在视频线自在拍| 日日摸日日碰夜夜爽无码| 对白刺激的老熟女露脸| 亚洲一区二区三区重口另类|