亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SVM藏文文本分類的研究與實(shí)現(xiàn)

2018-02-25 06:21:08賈宏云群諾蘇慧婧次仁羅增巴桑卓瑪

電子技術(shù)與軟件工程 2018年9期

賈宏云群諾蘇慧婧次仁羅增巴桑卓瑪

摘要利用SVM（支持向量機(jī)）技術(shù)對復(fù)雜繁瑣的漢文文本資源進(jìn)行快速分類已經(jīng)相當(dāng)?shù)某墒?，但其在藏文文本分類中的?yīng)用還處于研究階段，因此實(shí)驗(yàn)?zāi)康脑谟跍y試該方法是否在藏文文本分類中具有良好的性能。主要過程包括：文本向量空間模型化，獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比，最后與Logis tic回歸分類器進(jìn)行同等條件下的實(shí)驗(yàn)對比，驗(yàn)證了支持向量機(jī)模型在藏文文本分類中具有良好的分類效果。

【關(guān)鍵詞】藏文文本分類支持向量機(jī)Logis tic回歸

1 引言

由于文本記錄著時(shí)代變遷的痕跡，文本的數(shù)量在歷史的長河中不斷增加，因人們在查閱和學(xué)習(xí)的過程中對相關(guān)文本的尋找顯得十分麻煩，所以文本分類的有效性對上述問題的解決具有重要作用。同時(shí)伴隨著科學(xué)技術(shù)的發(fā)展，人們開始利用計(jì)算機(jī)的高效性進(jìn)行文本自動(dòng)分類，因此對分類數(shù)學(xué)模型的選擇變得更為重要。

目前，機(jī)器學(xué)習(xí)算法已成為主流的方法，尤其在中文文本分類算法的研究上已經(jīng)相當(dāng)成熟，特別是SVM算法利用最小結(jié)構(gòu)風(fēng)險(xiǎn)的原理使得分類性能更加優(yōu)異，在武漢理工大學(xué)熊浩勇[1]的碩士畢業(yè)論文中已經(jīng)詳細(xì)描述，雖然其具有對模型參數(shù)的設(shè)置相當(dāng)復(fù)雜并且耗費(fèi)時(shí)間長等不足之處，但所獲取的模型參數(shù)十分精確。由于SVM的核函數(shù)很多，因此不同結(jié)構(gòu)的文本使用的核函數(shù)具有差異性，藏文文本也存在這種情況。因此實(shí)驗(yàn)?zāi)康脑谟跍y試該方法是否在藏文文本分類中具有良好的性能。主要過程包括：文本向量空間模型化，獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比，最后與Logistic回歸分類器進(jìn)行同等條件下的實(shí)驗(yàn)對比，驗(yàn)證了支持向量機(jī)模型在藏文文本分類中具有良好的分類效果。

2 SVM模型分類原理

SVM是一種二分類模型，但可以在多分類中進(jìn)行多次二分類，它的基本模型定義在樣本特征數(shù)據(jù)空間上的間隔最大的線性分類器，有效的解決樣本特征數(shù)據(jù)在低維空間中非線性（線性也是非線性的特殊情況）的情況下，通過核函數(shù)把樣本數(shù)據(jù)映射到高維空間中，利用經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理找到線性超平面實(shí)現(xiàn)樣本分類。由于藏文文本特征的高稀疏性和低維空間中樣本的不可分類性，所以本文選擇一定的懲罰參數(shù)C和核函數(shù)來構(gòu)造SVM分類器。

2.1 SVM分類器構(gòu)建算法

2.1.1 確定目標(biāo)函數(shù)

3 文本語料的收集和預(yù)處理

本次基于SVM模型的藏文文本分類實(shí)現(xiàn)的語料來源于對中國西藏新聞網(wǎng)（藏文版），人民網(wǎng)（藏文版），西藏日報(bào)（藏文版）等網(wǎng)站相關(guān)文章信息的收集而成共77000篇，主要以剔除文本數(shù)據(jù)較小的文本并適當(dāng)組合形成新語料的方式進(jìn)行預(yù)處理，語料數(shù)據(jù)數(shù)據(jù)如表1。

4 建立向量空間模型

向量空間模型是對文本信息的組合，通常以特征項(xiàng)的權(quán)重作為向量空間元素，向量空間模型對分類模型的運(yùn)算較為便捷。

4.1 特征項(xiàng)定義

特征項(xiàng)是文本的屬性包含著文本的信息，在藏文文本中字是其屬性的一個(gè)元素，字與字之間主要由音節(jié)點(diǎn)來分離，字可分為一個(gè)字符、多個(gè)字符，多個(gè)音節(jié)點(diǎn)之間又有一定的關(guān)聯(lián)，為了統(tǒng)計(jì)的方便和對模型的測試，本次試驗(yàn)選擇一個(gè)音節(jié)點(diǎn)里包含的藏字作為特征項(xiàng)，并且假設(shè)每個(gè)音節(jié)點(diǎn)之間的藏字相互獨(dú)立。

4.2 特征項(xiàng)權(quán)重設(shè)置與選擇

特征項(xiàng)的權(quán)重設(shè)置方法很多，通常以該特征項(xiàng)在樣本中出現(xiàn)的頻度作為其特征權(quán)重，首先統(tǒng)計(jì)出上述類別文本中各個(gè)字出現(xiàn)頻率fn，使藏字特征數(shù)據(jù)化成Xl向量，對特征項(xiàng)進(jìn)行選擇時(shí)，可以選擇相對高頻字與相對低頻字作為待選特征集，并利用信息增益算法對待選特征集降維，從待選特征集中選擇部分信息增益相對大的特征項(xiàng)作為待提取特征集。最后利用歐氏距離算法對待提取特征集中的特征進(jìn)行聚類，使待提取特征集中的特征形成特征簇，并加權(quán)平均特征簇內(nèi)特征，最終得到文本類別分類特征項(xiàng)。本次基于SVM模型的藏文文本分類實(shí)現(xiàn)共分7個(gè)類別，共使用36個(gè)特征構(gòu)成分類特征項(xiàng)向量x=（融w，島，i函，孰;，孛w，R黽，甲;“坪】，q，釃，o{，iF，B‘，氙_E，為，q，目1“，8訇q，i，1S，R自一，9_‘，“1·7‘，wx，15一，掣，南，a;，91幣i，ic，ac，&），數(shù)據(jù)化特征向量Xl=（fl，f2，...f35，86），Xl∈Xn，n為樣本數(shù)量，類別向量集合Y=（教育類：1，人文類：2，政務(wù)類：3，時(shí)政類：4，經(jīng)濟(jì)類：5，法律類：6，民生類：7）標(biāo)記所有樣本成X= （Xl∈Xn，Yl∈Y），構(gòu)成整個(gè)完整的樣本向量空間模型數(shù)據(jù)集。

5 實(shí)驗(yàn)結(jié)果與評價(jià)

實(shí)驗(yàn)前需要把所有文本進(jìn)行向量空間模型化，形成樣本數(shù)據(jù)集，本次實(shí)驗(yàn)由三部分內(nèi)容組成，分別是分類模型對訓(xùn)練集樣本數(shù)據(jù)進(jìn)行訓(xùn)練獲取模型參數(shù)、對測試樣本數(shù)據(jù)進(jìn)行分類預(yù)測、對實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià)。

5.1 模型訓(xùn)練與參數(shù)獲取

通常分類模型對訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練是獲取該模型參數(shù)的主要途徑，訓(xùn)練樣本數(shù)據(jù)越多，對模型參數(shù)的獲取就越精確，對訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練有效性對后續(xù)測試結(jié)果有著直接的影響，訓(xùn)練樣本集如表2。

5.1.1 獲取核函數(shù)參數(shù)

實(shí)驗(yàn)中，把線性函數(shù)、多項(xiàng)式函數(shù)、RBF函數(shù)和SIGMOID函數(shù)作為模型的核函數(shù)，通過對訓(xùn)練樣本集構(gòu)成的訓(xùn)練樣本數(shù)據(jù)集進(jìn)行多次訓(xùn)練和10折交叉驗(yàn)證法進(jìn)行評估，獲得核函數(shù)參數(shù)如下：

5.2 模型測試

5.2.1 SVM模型下不同核函數(shù)實(shí)驗(yàn)對比

模型測試是對模型訓(xùn)練學(xué)習(xí)性能的一種檢測，模型從訓(xùn)練數(shù)據(jù)集中獲取到參數(shù)后，在其它參數(shù)相同的條件下，分別對懲罰系數(shù)C取不同的值，并在表3測試樣本集構(gòu)成的測試樣本數(shù)據(jù)集下進(jìn)行測試，表4、表5‘-記號符表示當(dāng)前值為零。

5.2.2 SVM與Logistic回歸模型測試結(jié)果對比

Logistic回歸模型在以前的文本分類實(shí)驗(yàn)中，分類效果較好，因此本次實(shí)驗(yàn)選擇Logistic回歸模型與SVM模型對藏文文本分類性能進(jìn)行對比，其中實(shí)驗(yàn)的平臺、語料、文本特征項(xiàng)、特征項(xiàng)權(quán)重以及測試和訓(xùn)練數(shù)據(jù)集完全相同。

5.3 實(shí)驗(yàn)結(jié)果評價(jià)

（1）從上述表4與表5實(shí)驗(yàn)數(shù)據(jù)可以看出，當(dāng)核函數(shù)選擇LINEAR和POLY時(shí)比選擇RBF和SIGMOID的分類效果好，并且選擇核函數(shù)LINEAR和POLY自身分類效果較好。

（2）設(shè)定不同的懲罰參數(shù)C對分類效果具有一定影響，LINEAR和POLY變化趨勢相似。

（3）由選擇的特征向量中的值比較大，使特征向量內(nèi)積和差值相對很大，因此RBF和SIGMOID的分類效果不好。

（4）從表6測試結(jié)果可以看出，當(dāng)SVM核函數(shù)選擇為LINEAR和POLY并且在上述參數(shù)下，從整體參考值上看SVM的藏文本分類效果好于Logistic回歸文本分類效果。

6 總結(jié)

本文采用基于SVM模型的藏文文本分類實(shí)現(xiàn)過程中，為了降低模型的復(fù)雜度，對藏文文本特征提取時(shí)，忽略詞與詞之間聯(lián)系，因此假定詞與詞之間的互信息為零。實(shí)驗(yàn)驗(yàn)證了SVM模型對藏文文本具有良好的效果，因此后期會(huì)繼續(xù)研究藏文文本結(jié)構(gòu)形式，增大特征信息量，提高分類的效果。

參考文獻(xiàn)

[1]熊浩勇，基于SVM的中文文本分類算法研究與實(shí)現(xiàn)[D].武漢理工大學(xué)，2008.

[2]李航，統(tǒng)計(jì)學(xué)習(xí)方法[M].北京：清華大學(xué)出版社，2012.

[3]崔建明，劉建明，廖周宇.基于SVM算法的文本分類技術(shù)研究[J].計(jì)算機(jī)仿真，2013.

[4]高定國，珠杰，藏文信息處理的原理與應(yīng)用[M].成都：西南交通大學(xué)出版社，2015.

[5]楊玉珍，劉培玉，朱振方，邱燁，應(yīng)用特征項(xiàng)分布信息的信息增益改進(jìn)方法研究[J].山東大學(xué)學(xué)報(bào)（理學(xué)版），2009.

[6]楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].吉林大學(xué)，2013.

電子技術(shù)與軟件工程2018年9期

電子技術(shù)與軟件工程的其它文章: 單片機(jī)系統(tǒng)中復(fù)位電路的可靠性分析與設(shè)計(jì); 兩地雙重聯(lián)鎖控制電動(dòng)機(jī)正反轉(zhuǎn)電路分析; CT設(shè)備的應(yīng)用與維護(hù)方法; 醫(yī)療電子設(shè)備故障診斷技術(shù); 航空安全信息處理技術(shù); 基于改進(jìn)的Page Rank算法的網(wǎng)頁主題相關(guān)度分析研究