亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于優(yōu)化類中心分類算法的文本分類研究

        2011-08-30 06:11:42邵華清
        科技傳播 2011年18期
        關(guān)鍵詞:類別分類器文檔

        王 斌,邵華清,劉 振

        1.佳木斯大學(xué)信息電子技術(shù)學(xué)院,黑龍江佳木斯 154007

        2.佳木斯大學(xué)經(jīng)濟(jì)管理學(xué)院,黑龍江佳木斯 154007

        3.桂林理工大學(xué),廣西桂林 541004

        0 引言

        當(dāng)前,隨著計算機技術(shù)的飛速發(fā)展,各類電子郵件和電子文檔以前所未有速度的迅速增長,用戶如何能從海量文本中快速準(zhǔn)確的獲取有效的信息,是人們普遍關(guān)注的問題。文本形式是互聯(lián)網(wǎng)上大部分信息的載體,文本的識別的速度決定了是否能高效獲取信息的速度。文本分類識別技術(shù)可以把海量但缺乏結(jié)構(gòu)的文本數(shù)據(jù)組織成規(guī)范的文本數(shù)據(jù),以達(dá)到提高檢索信息和利用信息的效率的目的。文本分類已經(jīng)成為組織和管理文本數(shù)據(jù)的重要形式。傳統(tǒng)的人工分類已經(jīng)不能滿足如今的需要,它耗費大量的人力、物力和精力,并且分類結(jié)果一致性不高。本文針對傳統(tǒng)類中心分類算法由于訓(xùn)練文檔分散,不能準(zhǔn)確的表示各類別的中心向量,提出了優(yōu)化算法,從而提高分類準(zhǔn)確度。

        1 類中心分類算法

        文本分類的訓(xùn)練集是已經(jīng)分類好的文本,這些分類好的文本都具有各自類別的特點,我們可以通過學(xué)習(xí)這些分類好的文本,提取出代表每一類別各自的特點,這些特點能唯一的代表一個類別。在用向量空間模型表示的文本中,可以通過提取能代表該類別的特征項來表示類別。類中心分類算法是典型的應(yīng)用代表類別特點的特征項來表示類別的算法。它具有容易理解、思路清晰、分類效果好等優(yōu)點。類中心分類算法思路比較簡單,將訓(xùn)練集中的每個文本應(yīng)用一定的特征權(quán)重算法表示成一個特征權(quán)重的向量 :為了對不同長度的文檔統(tǒng)一描述,每一篇文檔都被規(guī)范化為統(tǒng)一的長度,例如:然后根據(jù)平均算法為每類文本生成代表該類的中心向量。令表示預(yù)定義的類別集合,類別Ci的中心向量定義為:

        類中心分類算法是從訓(xùn)練集中得到類別的中心向量,它對訓(xùn)練集依賴性比較大,對訓(xùn)練集的集中程度和規(guī)模非常敏感,一般情況下訓(xùn)練集文本代表性越強、規(guī)模越大分類效果會越好。

        2 優(yōu)化的類中心分類算法

        在類中心文本分類算法中,類別的中心向量是由該類別文本特征向量的簡單算術(shù)平均得到。在訓(xùn)練集中,就分類而言,文檔一般比較分散,所以在空間上,有些分類與其它類就會有重疊的區(qū)域,如果直接用這些文檔來計算各個類別的中心向量,就會出現(xiàn)模型偏差,因此不能達(dá)到理想的分類結(jié)果。研究一種優(yōu)化的類中心分類算法,以修正這種模型偏差。即用當(dāng)前的中心向量對訓(xùn)練集進(jìn)行分類,然后用訓(xùn)練錯誤文檔來更新中心向量,并假設(shè)文檔集中的每一篇文檔都只屬于一個類別。它的中心思想為:在進(jìn)行的每一次迭代過程中用規(guī)范化中心向量對訓(xùn)練文本進(jìn)行分類,其目的是為了找出所有訓(xùn)練錯誤文檔。并對它進(jìn)行歸類。但因為文檔分散原因的影響,不少文檔的分類弄錯,可以適當(dāng)增加中心向量中這些文檔特征項的權(quán)重,相反,應(yīng)該減少中心向量中misin-ofi的各文檔特征權(quán)重大的特征項的權(quán)重。利用這些分類錯誤文檔,更新類中心向量,并規(guī)范化,得到迭代后的規(guī)范化中心向量。

        3 實驗方法與結(jié)果

        3.1 實驗樣本

        在文本自動分類系統(tǒng)中,用于實驗的文本集一般分為兩個部分:訓(xùn)練集和測試集。訓(xùn)練集是由一組文本組成,并且這些文本已經(jīng)分好類,用于歸納出各個類別的特性以構(gòu)造分類器。根據(jù)分類體系的設(shè)定,每一個類別都應(yīng)含有一定數(shù)量的訓(xùn)練文本;測試集是用于測試分類效果的文檔的集合。其中每個文本都通過分類器分類,然后與正確決策的分類結(jié)果相對比,從而得到對分類器效果的評價,但測試集并不參與分類器的建設(shè)。

        3.2 結(jié)果評測標(biāo)準(zhǔn)

        評估分類準(zhǔn)確程度的依據(jù)是通過專家對文本的正確分類結(jié)果的比較,與人工分類結(jié)果越相近,分類的準(zhǔn)確程度就越高。文本分類中常用的評測指標(biāo)有:準(zhǔn)確率和查全率。本文使用如下的評估標(biāo)準(zhǔn):

        查準(zhǔn)率:是在所有輸入系統(tǒng)中,進(jìn)行分類處理的文本中與專家分類結(jié)果完全吻合的文本所占的比率,即:被正確分到類別i的文本數(shù)與所有被分到類別i的文本數(shù)的比值。

        查全率:是在分類系統(tǒng)中,分類正確的文本所占的比率,即:被正確分到類別i的文本數(shù)與實際屬于類別i的文本數(shù)的比值。

        查準(zhǔn)率和查全率反映了分類質(zhì)量的兩個不同方面,兩者必須綜合考慮,不可偏廢。因此,存在一種新的評估指標(biāo),F(xiàn)l測試值,其數(shù)學(xué)公式如下:

        從對比中可以看到,類中心分類算法在任何類別的分類效果都不如優(yōu)化后的類中心分類算法。

        [1]旺建華.中文文本分類技術(shù)研究[D].吉林大學(xué),2007,9.

        [2]王小燕.文本分類相關(guān)技術(shù)應(yīng)用與研究[D].西北大學(xué),2007,4.

        猜你喜歡
        類別分類器文檔
        有人一聲不吭向你扔了個文檔
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        基于RI碼計算的Word復(fù)制文檔鑒別
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        国产人妻久久精品二区三区老狼| 少妇人妻精品一区二区三区视 | 男人天堂插插综合搜索| 日日麻批免费40分钟无码| 极品美女aⅴ在线观看| 无码电影在线观看一区二区三区| 丝袜美腿av免费在线观看| 综合色免费在线精品视频| 国产探花在线精品一区二区| 欧美精品中文字幕亚洲专区| 热热久久超碰精品中文字幕| 麻豆最新国产av原创| 久久99精品九九九久久婷婷| 日韩乱码视频| 久久亚洲精精品中文字幕早川悠里| 国产精品主播在线一区二区| 激情航班h版在线观看| 九九精品无码专区免费| 91国内偷拍一区二区三区 | 特级精品毛片免费观看| 精品久久久久久亚洲综合网| 国产成人午夜精华液| 亚洲成在人网av天堂| 国产一区二区三区精品乱码不卡| 97人伦影院a级毛片| 丰满五十六十老熟女hd| 欧美巨大xxxx做受中文字幕| 亚洲中文字幕久久精品色老板| 少妇厨房愉情理伦bd在线观看 | 国产99久久久国产精品免费 | 天堂新版在线资源| 午夜毛片午夜女人喷潮视频| 四虎在线中文字幕一区| 欧美性猛交aaaa片黑人| 无码中文字幕人妻在线一区二区三区| 91精品在线免费| gg55gg国产成人影院| 老妇女性较大毛片| 人妻中出精品久久久一区二| 大尺度极品粉嫩嫩模免费| 国产精品久久久久9999吃药|