摘要:本文研究了支持向量機(SVM)在文本分類中的應用,闡述了支持向量機及核函數等理論,并就文本的性能進行了實驗證明。
關鍵詞:文本分類;支持向量機;核函數
中圖分類號: TP391; TP18 文獻標識碼:B文章編號:1672-5913(2007)02-0072-04
支持向量機(Support Vector Machine,簡稱SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優(yōu)勢,并能夠推廣應用到函數擬合等其他機器學習問題中。傳統(tǒng)統(tǒng)計模式識別的方法都是在樣本數目足夠多的前提下進行研究,所提出的各種方法只有在樣本數趨于無窮大時其性能才有理論上的保證,而在多數實際應用中,樣本數目通常是有限的,很多傳統(tǒng)方法都難以取得理想的效果。Vapnik等人早在20世紀60年代就開始研究有限樣本情況下的機器學習問題。20世紀90年代,有限樣本情況下的機器學習理論研究逐漸成熟起來,形成了一個較完善的理論體系——統(tǒng)計學習理論(Statistical Learning Theory)。1992年到1995年,在統(tǒng)計學習理論的基礎上發(fā)展出了一種新的模式識別方法——支持向量機。隨著WWW的迅猛發(fā)展,文本分類成為處理和組織大量文檔數據的關鍵技術。SVM是繼k-近鄰、神經網絡、相素貝葉斯等方法之后被用于文本分類,并且是在Reuter語料(包括21450版本和Apte給出的集合)上能取得非常好的結果的文本分類算法之一。
本文重點研究SVM在兩個不同的語料集上,選擇不同的特征維數,采用四種不同的核函數的分類性能比較。實驗結果表明,這種方法削弱了訓練樣本分布的不均勻性對分類性能的影響,可以將微平均準確率提高大約1%~2%。
本文第1節(jié)將闡述支持向量機算法的基本思想;第2節(jié)介紹目前廣泛應用的三種核函數;第3節(jié)給出了在著名的英文語料集Reuters-21578上的實驗結果與分析;第4節(jié)是結論和進一步工作展望。
1統(tǒng)計學習理論與支持向量機
統(tǒng)計學習理論就是研究小樣本統(tǒng)計估計和預測的理論,具有很好的泛化能力,為解決有限樣本學習問題提供了一個統(tǒng)一的框架。它能將很多現有方法納入其中,有望幫助解決許多原來難以解決的問題(比如神經網絡結構選擇問題、局部極小點問題等);同時,在這一理論基礎上發(fā)展了一種新的通用學習方法——支持向量機(SVM) 。
SVM是一種建立在統(tǒng)計學習理論基礎上的機器學習方法,有較好的推廣性能和較高的分類準確率。該算法基于結構風險最小化原理,將數據集合壓縮到支持向量集合(通常為前者的3%~5%),學習得到分類決策函數。其基本思想是構造一個超平面作為決策平面,使正負模式之間的間隔最大。
SVM方法是從線性可分情況下的最優(yōu)分類面提出的。如圖1所示,圓圈和實心點分別代表兩類的訓練樣本,H為把兩類沒有錯誤地分開的分類線,H1、H2分別為過各類樣本中離分類線最近的點且平行于分類線的直線,H1和H2之間的距離叫做兩轉類的分類間隔(Margin)。支持向量與超平面之間的距離為1/‖ω‖,則支持向量間距為2/‖ω‖尋找超平面的問題,可化為求解以下二次規(guī)劃問題:
3.3實驗結果與分析
為了考察算法的效果,我們采用了VC++6.0實現本文算法,部分源代碼采用復旦大學計算機與信息技術系李榮陸提供的文本分類器系統(tǒng)源代碼。實驗分為三個階段。
表1、表2實驗結果表明,不論是在英文語料集還是中文語料集,使用SVM分類系統(tǒng)均能達到較好的分類效果,而實驗中采用多項式核函數和Sigmoid函數進行比較,經證明,在多數情況下前者優(yōu)于后者。
4結束語
本文就文本分類的過程和關鍵技術進行了論述,并就不同核函數下文本分類的效果進行了實驗驗證,證明SVM是一種行之有效的文本分類方法。在今后的研究中,如何提高SVM算法的效率將是工作的重點。
參考文獻:
[1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.
[2] Therson Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In European Conference on Machine Learning(ECML)[J]. Springer,Berlin, 1998.
投稿日期:2006-10-01
作者簡介:劉霞(1981-),女(漢),北京,碩士研究生。