賈宏云 群諾 蘇慧婧 次仁羅增 巴桑卓瑪
摘要 利用SVM(支持向量機(jī))技術(shù)對復(fù)雜繁瑣的漢文文本資源進(jìn)行快速分類已經(jīng)相當(dāng)?shù)某墒?,但其在藏文文本分類中的?yīng)用還處于研究階段,因此實(shí)驗(yàn)?zāi)康脑谟跍y試該方法是否在藏文文本分類中具有良好的性能。主要過程包括:文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比,最后與Logis tic回歸分類器進(jìn)行同等條件下的實(shí)驗(yàn)對比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類中具有良好的分類效果。
【關(guān)鍵詞】藏文文本分類 支持向量機(jī)Logis tic回歸
1 引言
由于文本記錄著時(shí)代變遷的痕跡,文本的數(shù)量在歷史的長河中不斷增加,因人們在查閱和學(xué)習(xí)的過程中對相關(guān)文本的尋找顯得十分麻煩,所以文本分類的有效性對上述問題的解決具有重要作用。同時(shí)伴隨著科學(xué)技術(shù)的發(fā)展,人們開始利用計(jì)算機(jī)的高效性進(jìn)行文本自動(dòng)分類,因此對分類數(shù)學(xué)模型的選擇變得更為重要。
目前,機(jī)器學(xué)習(xí)算法已成為主流的方法,尤其在中文文本分類算法的研究上已經(jīng)相當(dāng)成熟,特別是SVM算法利用最小結(jié)構(gòu)風(fēng)險(xiǎn)的原理使得分類性能更加優(yōu)異,在武漢理工大學(xué)熊浩勇[1]的碩士畢業(yè)論文中已經(jīng)詳細(xì)描述,雖然其具有對模型參數(shù)的設(shè)置相當(dāng)復(fù)雜并且耗費(fèi)時(shí)間長等不足之處,但所獲取的模型參數(shù)十分精確。由于SVM的核函數(shù)很多,因此不同結(jié)構(gòu)的文本使用的核函數(shù)具有差異性,藏文文本也存在這種情況。因此實(shí)驗(yàn)?zāi)康脑谟跍y試該方法是否在藏文文本分類中具有良好的性能。主要過程包括:文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比,最后與Logistic回歸分類器進(jìn)行同等條件下的實(shí)驗(yàn)對比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類中具有良好的分類效果。
2 SVM模型分類原理
SVM是一種二分類模型,但可以在多分類中進(jìn)行多次二分類,它的基本模型定義在樣本特征數(shù)據(jù)空間上的間隔最大的線性分類器,有效的解決樣本特征數(shù)據(jù)在低維空間中非線性(線性也是非線性的特殊情況)的情況下,通過核函數(shù)把樣本數(shù)據(jù)映射到高維空間中,利用經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理找到線性超平面實(shí)現(xiàn)樣本分類。由于藏文文本特征的高稀疏性和低維空間中樣本的不可分類性,所以本文選擇一定的懲罰參數(shù)C和核函數(shù)來構(gòu)造SVM分類器。
2.1 SVM分類器構(gòu)建算法
2.1.1 確定目標(biāo)函數(shù)
3 文本語料的收集和預(yù)處理
本次基于SVM模型的藏文文本分類實(shí)現(xiàn)的語料來源于對中國西藏新聞網(wǎng)(藏文版),人民網(wǎng)(藏文版),西藏日報(bào)(藏文版)等網(wǎng)站相關(guān)文章信息的收集而成共77000篇,主要以剔除文本數(shù)據(jù)較小的文本并適當(dāng)組合形成新語料的方式進(jìn)行預(yù)處理,語料數(shù)據(jù)數(shù)據(jù)如表1。
4 建立向量空間模型
向量空間模型是對文本信息的組合,通常以特征項(xiàng)的權(quán)重作為向量空間元素,向量空間模型對分類模型的運(yùn)算較為便捷。
4.1 特征項(xiàng)定義
特征項(xiàng)是文本的屬性包含著文本的信息,在藏文文本中字是其屬性的一個(gè)元素,字與字之間主要由音節(jié)點(diǎn)來分離,字可分為一個(gè)字符、多個(gè)字符,多個(gè)音節(jié)點(diǎn)之間又有一定的關(guān)聯(lián),為了統(tǒng)計(jì)的方便和對模型的測試,本次試驗(yàn)選擇一個(gè)音節(jié)點(diǎn)里包含的藏字作為特征項(xiàng),并且假設(shè)每個(gè)音節(jié)點(diǎn)之間的藏字相互獨(dú)立。
4.2 特征項(xiàng)權(quán)重設(shè)置與選擇
特征項(xiàng)的權(quán)重設(shè)置方法很多,通常以該特征項(xiàng)在樣本中出現(xiàn)的頻度作為其特征權(quán)重,首先統(tǒng)計(jì)出上述類別文本中各個(gè)字出現(xiàn)頻率fn,使藏字特征數(shù)據(jù)化成Xl向量,對特征項(xiàng)進(jìn)行選擇時(shí),可以選擇相對高頻字與相對低頻字作為待選特征集,并利用信息增益算法對待選特征集降維,從待選特征集中選擇部分信息增益相對大的特征項(xiàng)作為待提取特征集。最后利用歐氏距離算法對待提取特征集中的特征進(jìn)行聚類,使待提取特征集中的特征形成特征簇,并加權(quán)平均特征簇內(nèi)特征,最終得到文本類別分類特征項(xiàng)。本次基于SVM模型的藏文文本分類實(shí)現(xiàn)共分7個(gè)類別,共使用36個(gè)特征構(gòu)成分類特征項(xiàng)向量x=(融w,島,i函,孰;,孛w,R黽,甲;“坪】,q,釃,o{,iF,B‘,氙_E,為,q,目1“,8訇q,i,1S,R自一,9_‘,“1·7‘,wx,15一,掣,南,a;,91幣i,ic,ac,&),數(shù)據(jù)化特征向量Xl=(fl,f2,...f35,86),Xl∈Xn,n為樣本數(shù)量,類別向量集合Y=(教育類:1,人文類:2,政務(wù)類:3,時(shí)政類:4,經(jīng)濟(jì)類:5,法律類:6,民生類:7)標(biāo)記所有樣本成X= (Xl∈Xn,Yl∈Y),構(gòu)成整個(gè)完整的樣本向量空間模型數(shù)據(jù)集。
5 實(shí)驗(yàn)結(jié)果與評價(jià)
實(shí)驗(yàn)前需要把所有文本進(jìn)行向量空間模型化,形成樣本數(shù)據(jù)集,本次實(shí)驗(yàn)由三部分內(nèi)容組成,分別是分類模型對訓(xùn)練集樣本數(shù)據(jù)進(jìn)行訓(xùn)練獲取模型參數(shù)、對測試樣本數(shù)據(jù)進(jìn)行分類預(yù)測、對實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià)。
5.1 模型訓(xùn)練與參數(shù)獲取
通常分類模型對訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練是獲取該模型參數(shù)的主要途徑,訓(xùn)練樣本數(shù)據(jù)越多,對模型參數(shù)的獲取就越精確,對訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練有效性對后續(xù)測試結(jié)果有著直接的影響,訓(xùn)練樣本集如表2。
5.1.1 獲取核函數(shù)參數(shù)
實(shí)驗(yàn)中,把線性函數(shù)、多項(xiàng)式函數(shù)、RBF函數(shù)和SIGMOID函數(shù)作為模型的核函數(shù),通過對訓(xùn)練樣本集構(gòu)成的訓(xùn)練樣本數(shù)據(jù)集進(jìn)行多次訓(xùn)練和10折交叉驗(yàn)證法進(jìn)行評估,獲得核函數(shù)參數(shù)如下:
5.2 模型測試
5.2.1 SVM模型下不同核函數(shù)實(shí)驗(yàn)對比
模型測試是對模型訓(xùn)練學(xué)習(xí)性能的一種檢測,模型從訓(xùn)練數(shù)據(jù)集中獲取到參數(shù)后,在其它參數(shù)相同的條件下,分別對懲罰系數(shù)C取不同的值,并在表3測試樣本集構(gòu)成的測試樣本數(shù)據(jù)集下進(jìn)行測試,表4、表5‘-記號符表示當(dāng)前值為零。
5.2.2 SVM與Logistic回歸模型測試結(jié)果對比
Logistic回歸模型在以前的文本分類實(shí)驗(yàn)中,分類效果較好,因此本次實(shí)驗(yàn)選擇Logistic回歸模型與SVM模型對藏文文本分類性能進(jìn)行對比,其中實(shí)驗(yàn)的平臺、語料、文本特征項(xiàng)、特征項(xiàng)權(quán)重以及測試和訓(xùn)練數(shù)據(jù)集完全相同。
5.3 實(shí)驗(yàn)結(jié)果評價(jià)
(1)從上述表4與表5實(shí)驗(yàn)數(shù)據(jù)可以看出,當(dāng)核函數(shù)選擇LINEAR和POLY時(shí)比選擇RBF和SIGMOID的分類效果好,并且選擇核函數(shù)LINEAR和POLY自身分類效果較好。
(2)設(shè)定不同的懲罰參數(shù)C對分類效果具有一定影響,LINEAR和POLY變化趨勢相似。
(3)由選擇的特征向量中的值比較大,使特征向量內(nèi)積和差值相對很大,因此RBF和SIGMOID的分類效果不好。
(4)從表6測試結(jié)果可以看出,當(dāng)SVM核函數(shù)選擇為LINEAR和POLY并且在上述參數(shù)下,從整體參考值上看SVM的藏文本分類效果好于Logistic回歸文本分類效果。
6 總結(jié)
本文采用基于SVM模型的藏文文本分類實(shí)現(xiàn)過程中,為了降低模型的復(fù)雜度,對藏文文本特征提取時(shí),忽略詞與詞之間聯(lián)系,因此假定詞與詞之間的互信息為零。實(shí)驗(yàn)驗(yàn)證了SVM模型對藏文文本具有良好的效果,因此后期會(huì)繼續(xù)研究藏文文本結(jié)構(gòu)形式,增大特征信息量,提高分類的效果。
參考文獻(xiàn)
[1]熊浩勇,基于SVM的中文文本分類算法研究與實(shí)現(xiàn)[D].武漢理工大學(xué),2008.
[2]李航,統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[3]崔建明,劉建明,廖周宇.基于SVM算法的文本分類技術(shù)研究[J].計(jì)算機(jī)仿真,2013.
[4]高定國,珠杰,藏文信息處理的原理與應(yīng)用[M].成都:西南交通大學(xué)出版社,2015.
[5]楊玉珍,劉培玉,朱振方,邱燁,應(yīng)用特征項(xiàng)分布信息的信息增益改進(jìn)方法研究[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2009.
[6]楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].吉林大學(xué),2013.