亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM藏文文本分類的研究與實(shí)現(xiàn)

        2018-02-25 06:21:08賈宏云群諾蘇慧婧次仁羅增巴桑卓瑪
        電子技術(shù)與軟件工程 2018年9期

        賈宏云 群諾 蘇慧婧 次仁羅增 巴桑卓瑪

        摘要 利用SVM(支持向量機(jī))技術(shù)對復(fù)雜繁瑣的漢文文本資源進(jìn)行快速分類已經(jīng)相當(dāng)?shù)某墒?,但其在藏文文本分類中的?yīng)用還處于研究階段,因此實(shí)驗(yàn)?zāi)康脑谟跍y試該方法是否在藏文文本分類中具有良好的性能。主要過程包括:文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比,最后與Logis tic回歸分類器進(jìn)行同等條件下的實(shí)驗(yàn)對比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類中具有良好的分類效果。

        【關(guān)鍵詞】藏文文本分類 支持向量機(jī)Logis tic回歸

        1 引言

        由于文本記錄著時(shí)代變遷的痕跡,文本的數(shù)量在歷史的長河中不斷增加,因人們在查閱和學(xué)習(xí)的過程中對相關(guān)文本的尋找顯得十分麻煩,所以文本分類的有效性對上述問題的解決具有重要作用。同時(shí)伴隨著科學(xué)技術(shù)的發(fā)展,人們開始利用計(jì)算機(jī)的高效性進(jìn)行文本自動(dòng)分類,因此對分類數(shù)學(xué)模型的選擇變得更為重要。

        目前,機(jī)器學(xué)習(xí)算法已成為主流的方法,尤其在中文文本分類算法的研究上已經(jīng)相當(dāng)成熟,特別是SVM算法利用最小結(jié)構(gòu)風(fēng)險(xiǎn)的原理使得分類性能更加優(yōu)異,在武漢理工大學(xué)熊浩勇[1]的碩士畢業(yè)論文中已經(jīng)詳細(xì)描述,雖然其具有對模型參數(shù)的設(shè)置相當(dāng)復(fù)雜并且耗費(fèi)時(shí)間長等不足之處,但所獲取的模型參數(shù)十分精確。由于SVM的核函數(shù)很多,因此不同結(jié)構(gòu)的文本使用的核函數(shù)具有差異性,藏文文本也存在這種情況。因此實(shí)驗(yàn)?zāi)康脑谟跍y試該方法是否在藏文文本分類中具有良好的性能。主要過程包括:文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比,最后與Logistic回歸分類器進(jìn)行同等條件下的實(shí)驗(yàn)對比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類中具有良好的分類效果。

        2 SVM模型分類原理

        SVM是一種二分類模型,但可以在多分類中進(jìn)行多次二分類,它的基本模型定義在樣本特征數(shù)據(jù)空間上的間隔最大的線性分類器,有效的解決樣本特征數(shù)據(jù)在低維空間中非線性(線性也是非線性的特殊情況)的情況下,通過核函數(shù)把樣本數(shù)據(jù)映射到高維空間中,利用經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理找到線性超平面實(shí)現(xiàn)樣本分類。由于藏文文本特征的高稀疏性和低維空間中樣本的不可分類性,所以本文選擇一定的懲罰參數(shù)C和核函數(shù)來構(gòu)造SVM分類器。

        2.1 SVM分類器構(gòu)建算法

        2.1.1 確定目標(biāo)函數(shù)

        3 文本語料的收集和預(yù)處理

        本次基于SVM模型的藏文文本分類實(shí)現(xiàn)的語料來源于對中國西藏新聞網(wǎng)(藏文版),人民網(wǎng)(藏文版),西藏日報(bào)(藏文版)等網(wǎng)站相關(guān)文章信息的收集而成共77000篇,主要以剔除文本數(shù)據(jù)較小的文本并適當(dāng)組合形成新語料的方式進(jìn)行預(yù)處理,語料數(shù)據(jù)數(shù)據(jù)如表1。

        4 建立向量空間模型

        向量空間模型是對文本信息的組合,通常以特征項(xiàng)的權(quán)重作為向量空間元素,向量空間模型對分類模型的運(yùn)算較為便捷。

        4.1 特征項(xiàng)定義

        特征項(xiàng)是文本的屬性包含著文本的信息,在藏文文本中字是其屬性的一個(gè)元素,字與字之間主要由音節(jié)點(diǎn)來分離,字可分為一個(gè)字符、多個(gè)字符,多個(gè)音節(jié)點(diǎn)之間又有一定的關(guān)聯(lián),為了統(tǒng)計(jì)的方便和對模型的測試,本次試驗(yàn)選擇一個(gè)音節(jié)點(diǎn)里包含的藏字作為特征項(xiàng),并且假設(shè)每個(gè)音節(jié)點(diǎn)之間的藏字相互獨(dú)立。

        4.2 特征項(xiàng)權(quán)重設(shè)置與選擇

        特征項(xiàng)的權(quán)重設(shè)置方法很多,通常以該特征項(xiàng)在樣本中出現(xiàn)的頻度作為其特征權(quán)重,首先統(tǒng)計(jì)出上述類別文本中各個(gè)字出現(xiàn)頻率fn,使藏字特征數(shù)據(jù)化成Xl向量,對特征項(xiàng)進(jìn)行選擇時(shí),可以選擇相對高頻字與相對低頻字作為待選特征集,并利用信息增益算法對待選特征集降維,從待選特征集中選擇部分信息增益相對大的特征項(xiàng)作為待提取特征集。最后利用歐氏距離算法對待提取特征集中的特征進(jìn)行聚類,使待提取特征集中的特征形成特征簇,并加權(quán)平均特征簇內(nèi)特征,最終得到文本類別分類特征項(xiàng)。本次基于SVM模型的藏文文本分類實(shí)現(xiàn)共分7個(gè)類別,共使用36個(gè)特征構(gòu)成分類特征項(xiàng)向量x=(融w,島,i函,孰;,孛w,R黽,甲;“坪】,q,釃,o{,iF,B‘,氙_E,為,q,目1“,8訇q,i,1S,R自一,9_‘,“1·7‘,wx,15一,掣,南,a;,91幣i,ic,ac,&),數(shù)據(jù)化特征向量Xl=(fl,f2,...f35,86),Xl∈Xn,n為樣本數(shù)量,類別向量集合Y=(教育類:1,人文類:2,政務(wù)類:3,時(shí)政類:4,經(jīng)濟(jì)類:5,法律類:6,民生類:7)標(biāo)記所有樣本成X= (Xl∈Xn,Yl∈Y),構(gòu)成整個(gè)完整的樣本向量空間模型數(shù)據(jù)集。

        5 實(shí)驗(yàn)結(jié)果與評價(jià)

        實(shí)驗(yàn)前需要把所有文本進(jìn)行向量空間模型化,形成樣本數(shù)據(jù)集,本次實(shí)驗(yàn)由三部分內(nèi)容組成,分別是分類模型對訓(xùn)練集樣本數(shù)據(jù)進(jìn)行訓(xùn)練獲取模型參數(shù)、對測試樣本數(shù)據(jù)進(jìn)行分類預(yù)測、對實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià)。

        5.1 模型訓(xùn)練與參數(shù)獲取

        通常分類模型對訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練是獲取該模型參數(shù)的主要途徑,訓(xùn)練樣本數(shù)據(jù)越多,對模型參數(shù)的獲取就越精確,對訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練有效性對后續(xù)測試結(jié)果有著直接的影響,訓(xùn)練樣本集如表2。

        5.1.1 獲取核函數(shù)參數(shù)

        實(shí)驗(yàn)中,把線性函數(shù)、多項(xiàng)式函數(shù)、RBF函數(shù)和SIGMOID函數(shù)作為模型的核函數(shù),通過對訓(xùn)練樣本集構(gòu)成的訓(xùn)練樣本數(shù)據(jù)集進(jìn)行多次訓(xùn)練和10折交叉驗(yàn)證法進(jìn)行評估,獲得核函數(shù)參數(shù)如下:

        5.2 模型測試

        5.2.1 SVM模型下不同核函數(shù)實(shí)驗(yàn)對比

        模型測試是對模型訓(xùn)練學(xué)習(xí)性能的一種檢測,模型從訓(xùn)練數(shù)據(jù)集中獲取到參數(shù)后,在其它參數(shù)相同的條件下,分別對懲罰系數(shù)C取不同的值,并在表3測試樣本集構(gòu)成的測試樣本數(shù)據(jù)集下進(jìn)行測試,表4、表5‘-記號符表示當(dāng)前值為零。

        5.2.2 SVM與Logistic回歸模型測試結(jié)果對比

        Logistic回歸模型在以前的文本分類實(shí)驗(yàn)中,分類效果較好,因此本次實(shí)驗(yàn)選擇Logistic回歸模型與SVM模型對藏文文本分類性能進(jìn)行對比,其中實(shí)驗(yàn)的平臺、語料、文本特征項(xiàng)、特征項(xiàng)權(quán)重以及測試和訓(xùn)練數(shù)據(jù)集完全相同。

        5.3 實(shí)驗(yàn)結(jié)果評價(jià)

        (1)從上述表4與表5實(shí)驗(yàn)數(shù)據(jù)可以看出,當(dāng)核函數(shù)選擇LINEAR和POLY時(shí)比選擇RBF和SIGMOID的分類效果好,并且選擇核函數(shù)LINEAR和POLY自身分類效果較好。

        (2)設(shè)定不同的懲罰參數(shù)C對分類效果具有一定影響,LINEAR和POLY變化趨勢相似。

        (3)由選擇的特征向量中的值比較大,使特征向量內(nèi)積和差值相對很大,因此RBF和SIGMOID的分類效果不好。

        (4)從表6測試結(jié)果可以看出,當(dāng)SVM核函數(shù)選擇為LINEAR和POLY并且在上述參數(shù)下,從整體參考值上看SVM的藏文本分類效果好于Logistic回歸文本分類效果。

        6 總結(jié)

        本文采用基于SVM模型的藏文文本分類實(shí)現(xiàn)過程中,為了降低模型的復(fù)雜度,對藏文文本特征提取時(shí),忽略詞與詞之間聯(lián)系,因此假定詞與詞之間的互信息為零。實(shí)驗(yàn)驗(yàn)證了SVM模型對藏文文本具有良好的效果,因此后期會(huì)繼續(xù)研究藏文文本結(jié)構(gòu)形式,增大特征信息量,提高分類的效果。

        參考文獻(xiàn)

        [1]熊浩勇,基于SVM的中文文本分類算法研究與實(shí)現(xiàn)[D].武漢理工大學(xué),2008.

        [2]李航,統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.

        [3]崔建明,劉建明,廖周宇.基于SVM算法的文本分類技術(shù)研究[J].計(jì)算機(jī)仿真,2013.

        [4]高定國,珠杰,藏文信息處理的原理與應(yīng)用[M].成都:西南交通大學(xué)出版社,2015.

        [5]楊玉珍,劉培玉,朱振方,邱燁,應(yīng)用特征項(xiàng)分布信息的信息增益改進(jìn)方法研究[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2009.

        [6]楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].吉林大學(xué),2013.

        久久精品国产99久久无毒不卡| 黑丝美女被内射在线观看| 人妻无码一区二区在线影院| 亚洲韩国在线| 中文片内射在线视频播放| 人妻少妇被粗大爽视频| 亚洲国产精品一区二区久久恐怖片| 日本一本免费一二区| 亚洲第一av导航av尤物| 欧美午夜精品久久久久免费视| 亚洲色AV天天天天天天| 午夜在线观看一区二区三区四区 | 五月天综合网站| 精品亚亚洲成av人片在线观看 | 青青青国产精品一区二区| 国产美女在线一区二区三区| 国产精品国产自线拍免费| 免费观看在线一区二区| 中文字幕一区二区三区久久网| av色综合久久天堂av色综合在| 国产免费又色又爽又黄软件| 中国产无码一区二区三区| 亚洲最大一区二区在线观看 | 忘忧草社区www日本高清| 伊人色网站| 亚洲小少妇一区二区三区| 在线国人免费视频播放| 欧美人伦禁忌dvd放荡欲情 | 国精品无码一区二区三区在线看| 中国老太老肥熟女视频| 亚洲乱码av中文一区二区第八页| 亚洲av中文无码乱人伦在线视色 | 国产在线视频一区二区天美蜜桃| 中文字幕网伦射乱中文| 玩弄少妇高潮ⅹxxxyw| 在线综合网| 熟妇与小伙子露脸对白| 青青草免费观看视频免费| 中文精品久久久久人妻不卡| 女人被爽到呻吟gif动态图视看 | 亚洲av激情一区二区|