唐喆,曹旭東
(中國(guó)石油大學(xué)(北京)地球物理與信息工程學(xué)院,北京 102249)
網(wǎng)頁(yè)分類(lèi)中特征選擇方法的研究
唐喆,曹旭東
(中國(guó)石油大學(xué)(北京)地球物理與信息工程學(xué)院,北京102249)
準(zhǔn)確的網(wǎng)絡(luò)分類(lèi)對(duì)于健康的網(wǎng)絡(luò)環(huán)境至關(guān)重要,本文基于這樣的目的,采用了效果理想SVM分類(lèi)技術(shù),考慮到不同的特征選擇方法造成的分類(lèi)結(jié)果的差異,分別在相同和不同的分類(lèi)樣本的條件下測(cè)試了4種特征選擇方法,研究得出TFIDF方法的突出優(yōu)點(diǎn),并總結(jié)了合適的特征選擇方法對(duì)于應(yīng)用到不同的分類(lèi)系統(tǒng)的重要性。
文本分類(lèi);SVM;特征選擇;TFIDF
支持向量機(jī)SVM[1]是一種可訓(xùn)練的機(jī)器學(xué)習(xí)方法,它對(duì)小樣本進(jìn)行學(xué)習(xí),得到一個(gè)分類(lèi)函數(shù),再將待測(cè)文本代入此分類(lèi)函數(shù)中判定文本所屬的類(lèi)別。SVM的特點(diǎn)是:SVM可以通過(guò)映射把低維樣本空間映射到高維特征空間中,成功地將非線性可分問(wèn)題轉(zhuǎn)化為線性可分的問(wèn)題,并且在特征空間中構(gòu)造線性函數(shù),實(shí)現(xiàn)對(duì)文本的自動(dòng)分類(lèi)。SVM將非線性問(wèn)題轉(zhuǎn)化成線性可分問(wèn)題,巧妙地解決維災(zāi)難和過(guò)學(xué)習(xí)現(xiàn)象。特征選擇是整個(gè)分類(lèi)模塊中的重要部分,選擇合適的特征提取方法對(duì)分類(lèi)的效果有很大的影響。
如表1,從表1的結(jié)果可以得出:選擇每一種分類(lèi)算法的時(shí)候要從樣本量的大小、樣本數(shù)據(jù)的維度、樣本數(shù)據(jù)的線性可分情況3種情況來(lái)考慮,對(duì)不同形式的訓(xùn)練樣本采用不同的分類(lèi)算法會(huì)大大提高分類(lèi)的效率和準(zhǔn)確率,節(jié)省開(kāi)銷(xiāo)。
基于本論文所處理的分類(lèi)數(shù)據(jù)是web文本,而SVM分類(lèi)算法處理非線性和高維度的數(shù)據(jù)能力強(qiáng),從樣本量的大小和數(shù)據(jù)維度兩方面來(lái)考慮,選擇了SVM分類(lèi)算法。
它具有以下3個(gè)特點(diǎn):
第一,SVM可以避免“維數(shù)災(zāi)難”,其最終決策函數(shù)僅僅是由少數(shù)的支持向量來(lái)確定,它的計(jì)算困難程度由支持向量的數(shù)目決定,與樣本空間特征的維數(shù)無(wú)關(guān)。
第二,SVM擁有“魯棒”性,只需通過(guò)少數(shù)樣本特征,即關(guān)鍵特征,來(lái)實(shí)現(xiàn)分類(lèi),所以“剔除”了大多數(shù)冗余樣本信息。
第三,SVM擁有堅(jiān)固的理論基礎(chǔ),通過(guò)新的高效的統(tǒng)計(jì)方法,來(lái)預(yù)測(cè)樣本類(lèi)別,使實(shí)現(xiàn)分類(lèi)的原理和過(guò)程得到簡(jiǎn)化。
表1 5種分類(lèi)算法優(yōu)缺點(diǎn)比較Tab.1 The advantages and disadvantages compared five classification algorithm
文中選用了能夠?qū)崿F(xiàn)SVM算法的LABSVM軟件平臺(tái),經(jīng)過(guò)人工標(biāo)注的樣本數(shù)據(jù)不能滿足LABSVM分類(lèi)器的格式要求,樣本數(shù)據(jù)不能識(shí)別,我們要通過(guò)樣本的預(yù)處理將數(shù)據(jù)轉(zhuǎn)化成分類(lèi)器能識(shí)別的格式[2]。
2.1文本分詞
分詞方法因?yàn)檎Z(yǔ)種的不同而不同,一般的分詞方法有3種:基于理解的分詞方法,基于詞典的分詞方法和基于統(tǒng)計(jì)的分詞方法。
2.2特征選擇
經(jīng)過(guò)文本分詞處理以后,要進(jìn)行特征選擇標(biāo)記相關(guān)的文檔。文本特征是指對(duì)文本主題歸類(lèi)貢獻(xiàn)較大的具有實(shí)際意義的詞。通過(guò)選取這些特征,可以構(gòu)造出更精確的模型[3]。
特征選擇方法有很多,譬如:TFIDF、信息增益、互信息,卡方等,其中最著名的是TFIDF算法。特征選擇是網(wǎng)頁(yè)分類(lèi)過(guò)程中的關(guān)鍵技術(shù)。特征選擇的過(guò)程實(shí)質(zhì)上是一個(gè)從特征集合中選取特征子集的過(guò)程。
3.1TFIDF
TF-IDF算法[4]是依據(jù)詞或者短語(yǔ)在文本中出現(xiàn)的頻率為測(cè)度,以此來(lái)判斷該特征詞區(qū)別不同類(lèi)別文本的能力大小的一種方法。TF-IDF算法的假設(shè)基礎(chǔ):對(duì)區(qū)別文檔作用比較大的特征詞語(yǔ)應(yīng)該是那些在分類(lèi)文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文檔中出現(xiàn)頻率少的詞語(yǔ)。
詞頻TF是指一個(gè)特征詞在某個(gè)文檔中出現(xiàn)的次數(shù)。
反向詞頻IDF是指在所有文本的集合中,特征詞出現(xiàn)的次數(shù)。
TF-IDF方法的計(jì)算公式如下。
3.2信息增益
信息增益(IG)[5]是用來(lái)衡量某個(gè)文本中的某個(gè)詞語(yǔ)是否被當(dāng)選為特征項(xiàng)的標(biāo)準(zhǔn)。從信息論角度來(lái)講,當(dāng)用IG進(jìn)行特征選擇時(shí),以各個(gè)特征項(xiàng)取值情況來(lái)劃分學(xué)習(xí)樣本空間,如果某個(gè)詞出現(xiàn)對(duì)判斷某個(gè)文本屬于某個(gè)類(lèi)別的信息量大,則該詞就被選為特征項(xiàng),否則不被當(dāng)選為特征項(xiàng)。評(píng)價(jià)函數(shù)為:
其中,P(Ci|t)表示文本中出現(xiàn)某個(gè)特征t時(shí),文本屬于類(lèi)別Ci的概率;表示文本中不出現(xiàn)某個(gè)特征t時(shí),文本屬于類(lèi)別Ci的概率;P(Ci)表示類(lèi)別出現(xiàn)的概率;P(t)表示特征t在整個(gè)訓(xùn)練文本集中出現(xiàn)的概率。
3.3互信息
互信息(MI)[6]:在進(jìn)行特征選擇時(shí),互信息是用來(lái)衡量t特征和類(lèi)別Ci之間的相關(guān)程度的。具有較高的互信息的特征項(xiàng)是在某個(gè)類(lèi)別Ci中出現(xiàn)的概率高而在其它類(lèi)別中出現(xiàn)概率低的特征t,其評(píng)價(jià)函數(shù)為:
但是互信息存在一個(gè)很大的缺點(diǎn)就是當(dāng)兩個(gè)詞語(yǔ)具有相同的條件概率P(t|Ci)時(shí),出現(xiàn)次數(shù)多的詞語(yǔ)會(huì)比出現(xiàn)次數(shù)少的詞語(yǔ)具有較小的MI值。
3.4卡方法
卡方(χ2)統(tǒng)計(jì)法[7]:在進(jìn)行特征選擇時(shí),用χ2統(tǒng)計(jì)法來(lái)衡量詞語(yǔ)與類(lèi)別之間的相關(guān)性,它基于的假設(shè)如下:在某個(gè)類(lèi)別中出現(xiàn)頻率高的詞語(yǔ)對(duì)判斷該文本的類(lèi)別有幫助。其評(píng)價(jià)函數(shù)為:
在文本分類(lèi)中如何對(duì)分類(lèi)結(jié)果進(jìn)行評(píng)價(jià)至關(guān)重要,對(duì)單個(gè)類(lèi)的分類(lèi)性能評(píng)估指標(biāo):對(duì)單個(gè)類(lèi)的分類(lèi)性能的評(píng)估中普遍使用的分類(lèi)性能評(píng)估指標(biāo)有召回率和查準(zhǔn)率[8]。下面使用鄰接表來(lái)表示準(zhǔn)確率和召回率。如表2所示。
表2 二值分類(lèi)鄰接表Tab.2 Binary classification adjacency list
查準(zhǔn)率用公式表示如下:
召回率用公式表示如下:
采用性能評(píng)價(jià)方法是Fβ,F(xiàn)β將召回率和查準(zhǔn)率結(jié)合起來(lái),其計(jì)算公式為:
其中,β一個(gè)調(diào)整召回率和查準(zhǔn)率權(quán)重的參數(shù),即當(dāng)β=1時(shí),召回率和查準(zhǔn)率同等重要;
我們從互聯(lián)網(wǎng)抓取網(wǎng)頁(yè),實(shí)驗(yàn)將對(duì)于6個(gè)類(lèi)別進(jìn)行,保證訓(xùn)練集與測(cè)試集的樣本不重疊。為了考察不同的特征選擇方法對(duì)準(zhǔn)確率的影響,我們觀察對(duì)同一個(gè)類(lèi)別的網(wǎng)頁(yè)的分類(lèi)準(zhǔn)確率。實(shí)驗(yàn)條件見(jiàn)表3。
表3 各類(lèi)文本分布表Tab.3 All kinds of text distribution table
實(shí)驗(yàn)方案:
1)對(duì)已經(jīng)抽取的樣本數(shù)據(jù)進(jìn)行樣本訓(xùn)練與分類(lèi)預(yù)測(cè)。
2)在原有的訓(xùn)練集內(nèi)增加1 000條人工標(biāo)注的網(wǎng)頁(yè),其中體育類(lèi)為50%,再對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練。
3)在第二次實(shí)驗(yàn)的基礎(chǔ)上,在訓(xùn)練集內(nèi)增加1 500條人工標(biāo)注的網(wǎng)頁(yè),其中體育類(lèi)占50%,再進(jìn)行訓(xùn)練。
實(shí)驗(yàn)結(jié)果見(jiàn)表4,表5和表6。
從表4,表5和表6可以得出結(jié)論:
表4 方案1的分類(lèi)結(jié)果Tab.4 Classification results of Plan 1
表5 方案2的分類(lèi)結(jié)果Tab.5 Classification results of Plan 2
表6 方案3的分類(lèi)結(jié)果Tab.6 Classification results of Plan 3
1)對(duì)樣本量相對(duì)較小且樣本特征不明顯的樣本可以選擇TFIDF和卡方特征選擇算法;
2)對(duì)樣本量相對(duì)較大且樣本特征較明顯的樣本可以選擇互信息和信息增益特征選擇算法;
3)對(duì)樣本量較大且特征很明顯的樣本四組特征選擇的算法都能提高分類(lèi)的準(zhǔn)確率;
通過(guò)對(duì)不同數(shù)量的測(cè)試文本集合進(jìn)行分類(lèi)訓(xùn)練,研究得出在文本分類(lèi)方案的預(yù)處理過(guò)程中,可以針對(duì)樣本的特征和樣本量的大小來(lái)選擇特征提取的算法,無(wú)論樣本量的大小還是樣本特征明顯與否,TFIEF方法相較與其他3種常用分類(lèi)方法更為適用。
[1]匡春臨,夏清強(qiáng).基于SVM—KNN的文本分類(lèi)算法及其分析[J].計(jì)算機(jī)時(shí)代,2010(8):29-31.
[2]郝春風(fēng),王忠民.一種用于大規(guī)模文本分類(lèi)的特征表示方法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(15):170-172.
[3]陸景輝.基于信息理論的特征選擇算法研究 [D].北京:北京交通大學(xué),2007.
[4]許曉昕,李安貴.一種基于TFIDF的網(wǎng)絡(luò)聊天關(guān)鍵詞提取算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006(3):122-123.
[5]秦進(jìn),陸汝占.文本分類(lèi)中的特征提?。跩].計(jì)算機(jī)應(yīng)用,2003(2):45-46.
[6]王濤,何聚厚,張嬌艷.Naive Bayes郵件過(guò)濾模型的特征詞選取方法研究[J].航空計(jì)算技術(shù),2008(2):131-134.
[7]張治國(guó).中文文本分類(lèi)反饋學(xué)習(xí)研究[D].西安:西安電子科技大學(xué),2009.
[8]劉懷亮.基于SVM與KNN的中文文本分類(lèi)比較實(shí)證研究[D].西安:西安電子科技大學(xué),2008.
Research of feature selection methods of web page classification system
TANG Zhe,CAO Xu-dong
(The Earth Physics and Information Engineering Institute,China University of Petroleum(Beijing)Beijing 102249,China)
Accurate classification for a healthy network environment is of crucial importance.Based on the above background,we choose an ideal effect of the SVM classification technique.Considering the different feature selection methods of the classification results of difference,respectively under the condition of the same and different classification samples tested four feature selection methods,research the prominent importance of TFIDF.And we include that selecting the appropriate feature selection method for application to the different classification system is very important.
text classification;SVM;feature selection;TFIDF
TN91
A
1674-6236(2016)05-0120-03
2015-03-27稿件編號(hào):201503391
唐 喆(1990—),女,江蘇泰州人,碩士研究生。研究方向:信息安全,數(shù)據(jù)挖掘。