亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特征提取算法在KNN中的比較

        2013-09-22 14:04:08
        赤峰學院學報·自然科學版 2013年7期
        關(guān)鍵詞:特征提取分類特征

        丁 瓊

        (華東交通大學 軟件學院,江西 南昌 330013)

        文本分類指將文本按照其內(nèi)容含義劃分到不同的類型中去.自動分類的一般做法是,預先確定好文本的類別,并且對每個文本類別提供一批預先分好類的文本(稱為訓練文本集),分類系統(tǒng)通過訓練文本集學習分類知識,在實際分類時,再根據(jù)學習到的分類知識為需要分類的文本確定一個或者多個文檔類別.國外的自動分類研究大體上可以分為三個階段:第一階段(1958年-1964年)主要進行了自動分類可行性研究;第二階段(1965年-1974年),自動分類的實驗研究;第三階段(1975年-至今),自動分類的實用化階段.國內(nèi)自動分類研究起步較晚,始于20世紀80年代初期.國內(nèi)的研究基本上是在英文文本分類研究的基礎(chǔ)上采取相應策略,結(jié)合中文文本的特定知識,然后應用于中文之上,繼而形成中文文本自動分類研究體系.[1]

        1 特征提取算法

        在文本處理中,一些常用特征提取評估函數(shù)有文檔頻數(shù)(document frequency)、信息增益(information gain)、期望交叉熵(expected cross entropy)、互信息(mutual information)、χ2統(tǒng)計(CHI)、文本證據(jù)權(quán)(the weight of evidence for text)等.[2,3,4]

        1.1 文檔頻數(shù)DF

        它是最簡單的評估函數(shù),值為訓練集合中該單詞發(fā)生的文本數(shù).DF評估函數(shù)理論假設(shè)稀有單詞可能不包含有用信息,也可能太少而不足以對分類產(chǎn)生影響,也可能是噪音,因此可以刪去.顯然它在計算量上比其他評估函數(shù)小很多,但是實踐運用中它的效果卻很好.DF的缺點是稀有單詞可能在某一類文本中并不稀有,也可能包含著重要的判斷信息,錯誤的舍棄,可能影響分類器的精度.因此,在實際運用中一般并不直接使用DF.

        1.2 信息增益(Information Gain)

        信息增益表示文檔中包含某一特征值時文檔類的平均信息量.它定義為某一特征在文檔中出現(xiàn)前后的信息熵之差.

        1.3 互信息(Mutual Information)[5]

        MI是信息論中的概念,用于衡量一個消息中兩個信號之間的相互依賴程度.在特征選擇領(lǐng)域中,文檔類別c和特征f的互信息體現(xiàn)了特征和類別的相關(guān)程度,在某個類別中出現(xiàn)的概率高,而在其他類別中出現(xiàn)概率低的特征f將獲得較高的互信息.

        1.4 χ2統(tǒng)計[6]

        統(tǒng)計也是表征兩個變量間的相互關(guān)性,但是它比互信息更強,因為它同時考慮了特征存在和不存在時的情況.

        1.5 交叉熵(Cross Entropy)[7]

        交叉熵和信息增量相似,不同之處在于信息增量中同時考慮到了特征在文本中發(fā)生與不發(fā)生時的兩種情況,而交叉熵只考慮特征在文本中發(fā)生一種情況.

        1.6 證據(jù)權(quán)值(Weight of Evidence)

        證據(jù)權(quán)值反映的是類概率與在給定某一特征值下的類概率的差.

        2 KNN分類方法簡介

        KNN分類方法把文本表示為D(T1,W1;T2,W2;…TN,WN)形式的加權(quán)向量.對于測試文本,計算該文本向量和訓練樣本集中每個樣本的相似度,找出K個最相似的文本,在這K個近鄰中,依次計算每類的權(quán)重,最后把測試文本分到權(quán)重最大的類中.

        3 特征提取在KNN中的性能比較

        實驗目的:我們用KNN分類器比較常用的文本特征提取方法:IG、CE、MI、χ2、WE及 DF特征提取方法.訓練集樣本數(shù)為1882.我們采用開放性測試,即訓練數(shù)據(jù)不同的測試集進行測試,測試集樣本數(shù)為934.

        實驗環(huán)境:分類算法KNN,特征預處理采用禁用詞表,權(quán)重計算公式TF*IDF,K值取35,特征數(shù)目從50到10000.為評價分類效果我們采用最通用的性能評價方法:準確率(Precision)來對各種提取方法進行比較.

        實驗結(jié)果:

        表1 特征提取方法在KNN中的比較

        圖1 特征提取方法在KNN中的比較

        用KNN分類器比較常用的文本特征提取方法,比較結(jié)果見表1和圖1.各種方法的分類準確率表現(xiàn)出隨特征數(shù)的增加先增加后降低的變化曲線.對于中文文本分類來說,特征向量空間過大或過小時,分類準確度都不高.選用的特征詞過少時,不能反映各個類別的特征,不能準確地區(qū)分各個類別的文檔;而選用的特征詞過多時,一些區(qū)分度很低的冗余詞匯也被加了進來,這樣那些區(qū)分度較高的詞在其中被“稀釋”了,不能有效地為區(qū)分文檔做貢獻.IG、CE、χ2、WE、DF五種特征提取方法在 KNN分類器中性能接近,并且在特征空間維度為1000時,分類正確率達到最大.互信息(MI)特征提取方法隨著特征數(shù)的提高分類性能提高得較快,當特征數(shù)目較小時分類性能極差.原因可能是互信息沒有考慮特征詞出現(xiàn)的頻度,導致互信息評價函數(shù)不選擇高頻的有用詞而有可能選擇稀有詞做文本的最佳特征.此外MI是基于類別信息的特征提取方法.當訓練語料庫未達一定規(guī)模時,特征空間中必然存在相當數(shù)量的出現(xiàn)頻率很低(如低于三次)的特征.而因它們較低的出現(xiàn)頻率,必然只屬于較少的類別.而使用類別信息的統(tǒng)計方法認為這些低頻詞攜帶較為強烈類別信息,從而對他們有不同程度的倚重.但是研究發(fā)現(xiàn),這些低頻詞中只有不到20%的詞確實帶有較強的類別信息,大多數(shù)都是噪音詞,不應成為特征.當選擇較少數(shù)目的特征時,選取的大多是低頻詞,這些詞對分類并無很大作用,所以當特征數(shù)目較少時分類的正確率很低,隨著特征數(shù)目的增加性能一步一步的提高.最后因我們訓練集的文本都不太長,故當特征數(shù)目達到100000時,基本上所有特征都包含進去,故最后分類效果趨于相同.

        〔1〕李榮陸.文本分類若干關(guān)鍵技術(shù)研究[D].上海:復旦大學,2005.20-25.

        〔2〕龐劍鋒,卜東波,白碩.基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J].計算機應用研究,2001,21(9):23-26.

        〔3〕朱華宇,孫正興,張福炎.一個基于向量空間模型的中文文本自動分類系統(tǒng) [J].計算機工程,2001,27(2):36-40.

        〔4〕孫健,等.基于K一最近距離的自動文本分類研究[J].北京郵電大學學報,2001,24(1):41-44.

        〔5〕田文穎.文本特征提取方法研究.http://blog.csdn.net/tvetve/archive/2008/04/14/2292111.aspx.

        〔6〕于瑞萍,張明.中文文本自動分類中特征詞選擇算法研究[J].硅谷,2009(12):61.

        猜你喜歡
        特征提取分類特征
        分類算一算
        如何表達“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        久久亚洲精品成人AV无码网址| 久久无码av一区二区三区| a级毛片成人网站免费看 | 国产精品人成在线765| 国产桃色一区二区三区| 久久久久久九九99精品| 97精品伊人久久大香线蕉app| 爆乳无码AV国内| 久久精品国产亚洲av四区| 男女性杂交内射女bbwxz| 亚洲精品97久久中文字幕无码| 国产va精品免费观看| 美利坚亚洲天堂日韩精品| 久久99亚洲精品久久久久| 麻豆高清免费国产一区| 精品91精品91精品国产片| 蓝蓝的天空,白白的云| 成人a级视频在线播放| 最近中文字幕视频高清| AV熟妇导航网| 一级老熟女免费黄色片| 精品国产这么小也不放过| 最新69国产成人精品视频免费| 国产精品亚洲美女av网站| 午夜大片在线播放观看| 99视频30精品视频在线观看| 亚洲国产福利精品一区二区| 一个人看的在线播放视频| 亚洲一区二区二区视频| 中文字幕乱伦视频| 国产激情无码Av毛片久久| 综合激情五月三开心五月| 久久久www成人免费毛片| 中文字幕福利视频| 青青草视频国产在线观看| 伊人久久这里只有精品| 骚小妹影院| 狠狠色欧美亚洲综合色黑a| 国产亚洲精品90在线视频| 国产性生大片免费观看性| 亚洲丁香五月激情综合|