亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新的維吾爾文文本分類特征選擇方法

        2016-05-05 00:59:04哈力旦阿布都熱依木阿麗亞艾爾肯吳冰冰
        關(guān)鍵詞:維吾爾文特征選擇

        何 燕,哈力旦·阿布都熱依木,阿麗亞·艾爾肯,吳冰冰

        (新疆大學 電氣工程學院,新疆 烏魯木齊 830047)

        ?

        一種新的維吾爾文文本分類特征選擇方法

        何燕,哈力旦·阿布都熱依木,阿麗亞·艾爾肯,吳冰冰

        (新疆大學 電氣工程學院,新疆 烏魯木齊 830047)

        摘要:針對傳統(tǒng)卡方統(tǒng)計量方法對特征項的頻數(shù)和類別分布考慮不足的缺陷,提出了一種結(jié)合余弦相似度的卡方統(tǒng)計量特征選擇方法。該方法首先使用均值詞頻-逆文檔頻率表示特征項,通過引入一個調(diào)整公式來平衡類間選取的特征項數(shù),從而對傳統(tǒng)卡方統(tǒng)計量方法進行修正,然后結(jié)合余弦相似度進一步消除噪聲文本。在收集的維吾爾文數(shù)據(jù)集上進行實驗論證。實驗結(jié)果表明:改進的卡方統(tǒng)計量方法具有較好的魯棒性,且分類性能優(yōu)于傳統(tǒng)的卡方統(tǒng)計量方法。

        關(guān)鍵詞:維吾爾文;卡方統(tǒng)計量;余弦相似度;特征選擇

        0引言

        文本分類是從一系列數(shù)字文檔中找到相關(guān)和及時信息的關(guān)鍵技術(shù)。隨著新疆地區(qū)信息化建設(shè)的飛速發(fā)展,網(wǎng)絡(luò)上包括維吾爾文等少數(shù)民族語種的大量數(shù)字化信息呈現(xiàn)指數(shù)級增長趨勢。如何有效管理和利用這些紛繁雜蕪的海量信息,并對大量少數(shù)民族語種文本數(shù)據(jù)進行自動歸類,是當前重要的研究課題之一[1]。

        特征選擇是將能夠有效表達文本內(nèi)容的特征挑選出來建立學習樣本,保留重要的信息,去除冗余信息,以降低特征空間維度的過程。一個好的學習樣本是訓練分類器的關(guān)鍵,樣本中是否含有不相關(guān)或冗余信息直接影響著分類器的分類精度和泛化性能[2]。因此,尋求一種好的特征選擇方法是提高文本分類性能的有效途徑。

        卡方統(tǒng)計量(chi-square statistic,CHI)方法以其時間復(fù)雜度低、便于理解和應(yīng)用方便等優(yōu)點已經(jīng)成為文本分類中常用的特征選擇模型。目前,針對CHI模型進行的改進研究受到了越來越多的關(guān)注[3-4]。文獻[5]通過引入最大詞頻和采樣方差對傳統(tǒng)CHI方法進行修正,針對特征數(shù)目的不同,提出了兩種基于詞頻和特征項分布的CHI特征選擇方法。文獻[6]通過設(shè)置最低詞頻閾值去除部分低頻詞對CHI的干擾,并將改進后的CHI特征選擇公式引入特征權(quán)重計算中,不僅使文本表示更合理,而且有效提高了文本分類的準確率。文獻[7]在不平衡的維吾爾文數(shù)據(jù)集上,提出了一種結(jié)合逆文檔頻率的改進卡方統(tǒng)計量方法。這些改進方法在中英文的文本分類中取得了很好的效果,但維吾爾文的語種特點[8]與中英文不同,采用該類方法不能達到很好的分類效果。因此,針對CHI的優(yōu)缺點和維吾爾文語種特點進行深入研究,建立針對維吾爾文文本分類的新模型具有重要意義。本文通過分析傳統(tǒng)CHI的優(yōu)缺點,提出了一種新的結(jié)合余弦相似度的CHI特征選擇方法,不僅克服了傳統(tǒng)算法對低頻詞的偏袒以及特征項的類別分布不均勻問題,而且提高了分類性能。

        1卡方統(tǒng)計量方法

        卡方統(tǒng)計量(CHI)方法就是通過觀察實際值與理論值的偏差來確定理論的正確與否。假設(shè)詞條tk與類ci之間的獨立關(guān)系服從具有一個自由度的χ2分布[9]。

        假定T={tk|k=1,2,…,m}為訓練樣本集的特征集;ci為第i類訓練樣本,i=1,2,…,n。tk對于類ci的卡方統(tǒng)計量可表示為:

        (1)

        當特征項tk與類ci越相關(guān)時,其對應(yīng)的CHI(tk,ci)值越大,代表特征項tk對分類的貢獻越大;反之,特征項tk與類ci相互獨立時,其對應(yīng)的CHI(tk,ci)=0,代表特征項tk不包含任何有關(guān)類ci的信息。

        對于多個類別的問題,應(yīng)分別計算特征項tk對于每個類別的CHI(tk,ci),再對計算結(jié)果進行綜合。綜合的方式一般有兩種:一種是加權(quán)平均,另一種是取最大值。本文選擇取最大值的方式進行綜合。

        由式(1)可知CHI方法是基于文檔頻率(document frequency,DF)的特征選擇方法,只考慮特征項在文檔中是否出現(xiàn),會更加偏向于將DF值高的詞作為特征。

        同時,在對多個類別進行分類時,若設(shè)定的閾值不合適,CHI容易選擇對某特定類別區(qū)分度低而對其他類別具有強區(qū)分度的特征項,會導(dǎo)致某些類別選擇的特征項過多或過少。

        2改進的CHI特征選擇方法

        2.1特征項頻數(shù)的改進

        為解決傳統(tǒng)卡方統(tǒng)計量容易忽略文檔頻數(shù)低而詞頻高的缺陷,在傳統(tǒng)的CHI特征選擇的基礎(chǔ)上,引入均值詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)特征權(quán)重計算來進行調(diào)節(jié)。

        TF×IDF(k,j)=tfkj×idfj=tfkj×log(N/nj) ,

        (2)

        其中:tfkj為特征項tk在文檔dj中出現(xiàn)的次數(shù);idfj為包含特征項tk的逆文檔頻率;N為總文檔數(shù);nj為出現(xiàn)特征項tk的文檔數(shù)。

        本文采用均值TF-IDF來表征每個特征項,如下所示:

        (3)

        其中:Count(j)為數(shù)據(jù)集中文檔的總數(shù)目。此時,可將式(1)改進為式(4):

        (4)

        2.2特征項類別分布的改進

        一般而言,具有較強類別表現(xiàn)能力的特征項在該類別內(nèi)的頻數(shù)不僅應(yīng)該較大,而且這些特征項的數(shù)目在其相應(yīng)的類內(nèi)應(yīng)保持均衡,這樣不會使得某一個類別中最終保留的特征項過多或者過少。

        引入以下公式,使得各個類中選取的特征項數(shù)均等,以保留更多的具有強區(qū)分度的特征項。

        (5)

        (6)

        其中:CHIL(tk)為最終保留的特征項;CHI↓(tk)為文檔集中降序排列的卡方值;N(ci)為ci類中包含保留的特征項tk的個數(shù);FC為每個類中預(yù)選擇的特征個數(shù);R為整個語料庫中縮減的特征項數(shù)目;C為類別的數(shù)目。

        文獻[10]提出使用CHI方法去權(quán)衡相似度,以及使用CHI測試來確定文本分類中兩個隨機樣本中詞向量的同質(zhì)性,發(fā)現(xiàn)CHI和余弦相似性相結(jié)合可以提供更加可靠和有效的分類機制。文獻[11]在改進的CHI的基礎(chǔ)上采用余弦相似度計算阿拉伯文本間相似度,分類準確率明顯提高。

        因此,為了進一步消除文本噪聲,引入余弦(Cosine)相似定理來計算文本間的相似度。計算公式如下:

        (7)

        其中:Di=(wi1,wi2,…,wiN);Dk=(wk1,wk2,…,wkN);wij,wkj分別為文本Di,Dk中的第j個特征詞的TF-IDF權(quán)值;N為特征向量的維數(shù)。每篇文檔作為一個向量,向量中的每一維就是文本中每個特征詞的權(quán)重。計算兩篇文檔的相似度,當向量夾角的余弦值越接近于1,表明兩篇文檔越相似;反之,兩篇文檔越不相關(guān)。

        為了解決個別噪聲文檔對分類準確率的影響,引入以下公式:

        (8)

        (9)

        (10)

        其中:S1為類內(nèi)文檔余弦相似度的平均值,這里忽略文檔Di的自身余弦相似度值;Ncj為類Cj中包含的文檔數(shù);S2為文檔Di與其他類中文檔余弦相似度平均值。假設(shè)S1低于閾值α并且S2高于閾值β,那么文檔Di不能有效表達所屬類的信息,卻與其他類相關(guān),即認為該文檔不適合用來表征所屬類別的信息,應(yīng)刪除以減小帶給分類器的噪聲。

        3實驗與分析

        圖1 改進的CHI方法的具體實現(xiàn)流程圖

        實驗是在Intel(R) Core(TM) i5-4200U處理器、4 GB內(nèi)存,操作系統(tǒng)為Windows 7的PC機上進行的,使用eclipse作為開發(fā)環(huán)境。

        為了考察CHI的改進效果,在相同的實驗條件下,將改進的CHI(CHI+Cosine)方法與傳統(tǒng)卡方統(tǒng)計量(CHI)方法進行實驗對比。改進的CHI方法的具體實現(xiàn)流程如圖1所示。

        3.1實驗數(shù)據(jù)集

        目前,針對中英文的文本分類研究,國內(nèi)外已經(jīng)有相對標準的、開放的文本分類語料庫作為參考,可以在相同的數(shù)據(jù)集上比較不同的特征選擇和分類方法的性能。由于維吾爾語文本分類的研究仍然處于起步階段,因而目前并沒有標準的、開放的維吾爾語文本集作為統(tǒng)一的參考。實驗中所使用的維吾爾文文本數(shù)據(jù)為本實驗室采集,數(shù)據(jù)來源于新疆政府網(wǎng)、天山網(wǎng)和Ulinix等主要維吾爾語門戶網(wǎng)站[12]。實驗數(shù)據(jù)描述見表1。

        表1 維吾爾文文本數(shù)據(jù)集信息描述

        3.2分類性能評估

        本文選取常用的準確率、召回率和F1值作為實驗評價指標[13]。這里假設(shè)a為屬于類Ci而被分至類Ci的文檔數(shù);b為屬于類Ci而被分至非類Ci的文檔數(shù);c為不屬于類Ci而被分至類Ci的文檔數(shù);d為不屬于類Ci而被分至非類Ci的文檔數(shù)。那么,準確率p和召回率r定義為:

        (11)

        F1值為關(guān)于r和p的函數(shù),是兩者的調(diào)和平均值,具體計算公式為:

        (12)

        宏平均F1值 (Macro-F1)是每個類別性能指標F1值的算術(shù)平均值,計算公式為:

        (13)

        本文采用宏平均F1值來綜合衡量分類效果。

        3.3實驗結(jié)果

        維吾爾文與中文不同,卻相似于英文。對于維吾爾文來說,不存在分詞的問題,因為詞語之間已經(jīng)自然地用空格隔開。通過去除非維吾爾語文本以及停用詞等預(yù)處理之后,建立了由77 591個特征項組成的候選特征項集合。分別采用兩種算法(CHI方法和CHI+Cosine方法)對預(yù)處理后的數(shù)據(jù)集進行特征選擇,最后采用開放數(shù)據(jù)挖掘WEKA平臺的LibSVM分類算法進行分類。其中,α取值為0.2,β取值為0.7。為測試算法的準確性,這里采用十折交叉驗證方法。

        特征維數(shù)為3 000的情況下,CHI方法以及CHI+Cosine方法在每個類別中的分類準確率,如表2所示。

        表2 兩種方法的分類準確率對比 %

        在表2的4類實例數(shù)據(jù)中,CHI+Cosine方法與CHI方法相比,除了社會時事類別,其他類別維吾爾文文本分類的準確率均有不同程度的提高,尤其是體育類和生活與健康類提高效果顯著。由表2數(shù)據(jù)可知:CHI方法在特征項數(shù)目保留過低時,如體育類和生活與健康類的特征包含較少,因而導(dǎo)致其分類準確率過低,而CHI+Cosine方法剛好克服了這一缺點。

        圖2是支持向量機(support vector machine,SVM)分類器采用CHI和CHI+Cosine兩種特征選擇方法,在實驗數(shù)據(jù)集上的Macro-F1曲線。從圖2a中可以看出:在特征數(shù)低于4 000時,CHI+Cosine方法的分類性能已經(jīng)遠遠高于CHI方法。這是因為改進的CHI+Cosine方法在選取的特征數(shù)目較低時,明顯克服了傳統(tǒng)CHI方法選擇的特征項在某些類別中過多,而在其他類別的特征項數(shù)目過少的不足。從圖2b中可以看出:CHI+Cosine方法在特征數(shù)為45 000時,使分類器的性能達到最優(yōu)并趨于穩(wěn)定;CHI方法在選取35 000個特征時,分類器的Macro-F1值達到最高(0.930)。而且隨著特征數(shù)目的變化,CHI+Cosine方法使得分類器的性能始終優(yōu)于CHI方法。

        圖2 采用兩種不同特征選擇方法的SVM分類器性能比較

        4結(jié)束語

        本文提出了一種結(jié)合余弦相似度的卡方統(tǒng)計量方法,分別從特征項出現(xiàn)的頻數(shù)以及類別分布對CHI算法進行修正。通過引入一個調(diào)整公式來平衡類間選擇的特征數(shù)目,避免某一個類別中最終保留的特征項過多或者過少,解決了傳統(tǒng)CHI方法對低頻詞的偏倚以及特征項的類別分布的問題。在開放數(shù)據(jù)挖掘平臺WEKA中,使用LibSVM對收集的維吾爾文數(shù)據(jù)集進行分類,改進的CHI+Cosine方法使得分類器性能優(yōu)于傳統(tǒng)的CHI方法,具有很好的魯棒性,有效地克服了傳統(tǒng)CHI方法在選擇較少特征數(shù)目時分類性能過低的問題。

        參考文獻:

        [1]艾海麥提江·阿布來提,吐爾地·托合提,艾斯卡爾·艾木都拉.基于Naive Bayes的維吾爾文文本分類算法及其性能分析[J].計算機應(yīng)用與軟件,2012,29(12):27-29.

        [2]姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166,192.

        [3]邱云飛,王威,劉大有,等.基于方差的CHI特征選擇方法[J].計算機應(yīng)用研究,2012,29(4):1304-1306.

        [4]王光,邱云飛,史慶偉.集合CHI與IG的特征選擇方法[J].計算機應(yīng)用研究,2012,29(7):2454-2456.

        [5]JIN C,MA T,HOU R,et al.Chi-square statistics feature selection based on term frequency and distribution for text categorization[J].IETE journal of research,2015,61(4):1-12.

        [6]肖雪,盧建云,余磊,等.基于最低詞頻CHI的特征選擇算法研究[J].西南大學學報(自然科學版),2015,37(6):137-142.

        [7]董瑞,周喜.面向維吾爾文不平衡數(shù)據(jù)分類的特征選擇方法[J].計算機工程與設(shè)計,2013,34(1):349-352.

        [8]李敏強,哈力旦·阿布都熱依木,閆軻.一種改進型局部二值模式的維吾爾文定位算法[J].河南科技大學學報(自然科學版),2015,36(3):43-47.

        [9]李明江.結(jié)合類詞頻的文本特征選擇方法的研究[J].計算機應(yīng)用研究,2014,31(7):2024-2026.

        [10]CHEN Y T,CHEN M C.Using chi-square statistics to measure similarities for text categorization[J].Expert systems with applications,2011,38(4):3085-3090.

        [11]HAEASHIN B,MANSOUR A M,ALJAWARNEH S.An efficient feature selection method for Arabic text classification[J].International journal of computer applications,2013,83(17):1-6.

        [12]陳洋,哈力旦·阿布都熱依木,伊力亞爾·達吾提,等.基于加權(quán)改進貝葉斯算法的維吾爾文文本分類[J].計算機工程與設(shè)計,2014,35(6):1999-2003.

        [13]伍洋,鐘鳴,姜艷,等.面向?qū)徲嬵I(lǐng)域的短文本分類技術(shù)研究[J].微電子學與計算機,2015,32(1):5-10.

        中圖分類號:TP391.1

        文獻標志碼:A

        收稿日期:2015-09-02

        作者簡介:何燕(1991-),女,新疆塔城人,碩士生;哈力旦·阿布都熱依木(1959-),女,維吾爾族,新疆烏魯木齊人,教授,碩士生導(dǎo)師,主要從事圖像處理、數(shù)據(jù)挖掘等方面的研究.

        基金項目:國家自然科學基金項目(61163026,60865001)

        文章編號:1672-6871(2016)03-0042-05

        DOI:10.15926/j.cnki.issn1672-6871.2016.03.010

        猜你喜歡
        維吾爾文特征選擇
        初探《習近平談治國理政》維吾爾語譯本的翻譯特點
        脫機手寫維吾爾文單詞的過拆分方法
        西部少數(shù)民族語言對阿拉伯文獻的譯介及其特點
        北方文學(2017年36期)2018-01-18 13:10:40
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        基于GA和ELM的電能質(zhì)量擾動識別特征選擇方法
        聯(lián)合互信息水下目標特征選擇算法
        基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
        維吾爾文研究與Android維文閱讀器的實現(xiàn)?
        察合臺維吾爾文古籍的主要特點
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        永久免费观看的毛片手机视频| 免费人成视网站在线剧情| 国产a级三级三级三级| 无码任你躁久久久久久| 欧美色图50p| 国产在线视频一区二区三| 日本在线视频www色| 亚洲欧美成人一区二区在线电影| 一本色道久久综合亚洲精品小说| 国产三级av在线播放| 五月天中文字幕日韩在线| 色avav色av爱avav亚洲色拍| 久久亚洲精品成人| 国产日韩精品视频一区二区三区| 亚洲处破女av日韩精品中出| 五月综合激情婷婷六月色窝| 亚洲国产麻豆综合一区| 白色白色在线视频播放平台| 国产免费又色又爽粗视频| 色婷婷综合久久久久中文| 午夜福利不卡无码视频| 国产91极品身材白皙| 国产超碰人人做人人爽av大片| 亚洲日韩欧美一区二区三区| 精品国产成人一区二区不卡在线| av免费在线播放视频| 欧美黑人性暴力猛交喷水黑人巨大| 久久精品国产亚洲不av麻豆| 国产黄色三级三级三级看三级| 在厨房被c到高潮a毛片奶水| 亚洲综合久久成人a片| 国产精品亚洲综合色区丝瓜| 国产高清在线一区二区不卡| 国产激情电影综合在线看| 国产小屁孩cao大人| 国产成人精品一区二三区在线观看| 免费国产在线精品一区| 蜜臀av免费一区二区三区| 一区二区三区在线蜜桃| 国产极品少妇一区二区| 久久久久久免费毛片精品|