亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于優(yōu)化類中心分類算法的文本分類研究

        2011-08-30 06:11:42邵華清
        科技傳播 2011年18期
        關(guān)鍵詞:類別分類器文檔

        王 斌,邵華清,劉 振

        1.佳木斯大學(xué)信息電子技術(shù)學(xué)院,黑龍江佳木斯 154007

        2.佳木斯大學(xué)經(jīng)濟(jì)管理學(xué)院,黑龍江佳木斯 154007

        3.桂林理工大學(xué),廣西桂林 541004

        0 引言

        當(dāng)前,隨著計算機技術(shù)的飛速發(fā)展,各類電子郵件和電子文檔以前所未有速度的迅速增長,用戶如何能從海量文本中快速準(zhǔn)確的獲取有效的信息,是人們普遍關(guān)注的問題。文本形式是互聯(lián)網(wǎng)上大部分信息的載體,文本的識別的速度決定了是否能高效獲取信息的速度。文本分類識別技術(shù)可以把海量但缺乏結(jié)構(gòu)的文本數(shù)據(jù)組織成規(guī)范的文本數(shù)據(jù),以達(dá)到提高檢索信息和利用信息的效率的目的。文本分類已經(jīng)成為組織和管理文本數(shù)據(jù)的重要形式。傳統(tǒng)的人工分類已經(jīng)不能滿足如今的需要,它耗費大量的人力、物力和精力,并且分類結(jié)果一致性不高。本文針對傳統(tǒng)類中心分類算法由于訓(xùn)練文檔分散,不能準(zhǔn)確的表示各類別的中心向量,提出了優(yōu)化算法,從而提高分類準(zhǔn)確度。

        1 類中心分類算法

        文本分類的訓(xùn)練集是已經(jīng)分類好的文本,這些分類好的文本都具有各自類別的特點,我們可以通過學(xué)習(xí)這些分類好的文本,提取出代表每一類別各自的特點,這些特點能唯一的代表一個類別。在用向量空間模型表示的文本中,可以通過提取能代表該類別的特征項來表示類別。類中心分類算法是典型的應(yīng)用代表類別特點的特征項來表示類別的算法。它具有容易理解、思路清晰、分類效果好等優(yōu)點。類中心分類算法思路比較簡單,將訓(xùn)練集中的每個文本應(yīng)用一定的特征權(quán)重算法表示成一個特征權(quán)重的向量 :為了對不同長度的文檔統(tǒng)一描述,每一篇文檔都被規(guī)范化為統(tǒng)一的長度,例如:然后根據(jù)平均算法為每類文本生成代表該類的中心向量。令表示預(yù)定義的類別集合,類別Ci的中心向量定義為:

        類中心分類算法是從訓(xùn)練集中得到類別的中心向量,它對訓(xùn)練集依賴性比較大,對訓(xùn)練集的集中程度和規(guī)模非常敏感,一般情況下訓(xùn)練集文本代表性越強、規(guī)模越大分類效果會越好。

        2 優(yōu)化的類中心分類算法

        在類中心文本分類算法中,類別的中心向量是由該類別文本特征向量的簡單算術(shù)平均得到。在訓(xùn)練集中,就分類而言,文檔一般比較分散,所以在空間上,有些分類與其它類就會有重疊的區(qū)域,如果直接用這些文檔來計算各個類別的中心向量,就會出現(xiàn)模型偏差,因此不能達(dá)到理想的分類結(jié)果。研究一種優(yōu)化的類中心分類算法,以修正這種模型偏差。即用當(dāng)前的中心向量對訓(xùn)練集進(jìn)行分類,然后用訓(xùn)練錯誤文檔來更新中心向量,并假設(shè)文檔集中的每一篇文檔都只屬于一個類別。它的中心思想為:在進(jìn)行的每一次迭代過程中用規(guī)范化中心向量對訓(xùn)練文本進(jìn)行分類,其目的是為了找出所有訓(xùn)練錯誤文檔。并對它進(jìn)行歸類。但因為文檔分散原因的影響,不少文檔的分類弄錯,可以適當(dāng)增加中心向量中這些文檔特征項的權(quán)重,相反,應(yīng)該減少中心向量中misin-ofi的各文檔特征權(quán)重大的特征項的權(quán)重。利用這些分類錯誤文檔,更新類中心向量,并規(guī)范化,得到迭代后的規(guī)范化中心向量。

        3 實驗方法與結(jié)果

        3.1 實驗樣本

        在文本自動分類系統(tǒng)中,用于實驗的文本集一般分為兩個部分:訓(xùn)練集和測試集。訓(xùn)練集是由一組文本組成,并且這些文本已經(jīng)分好類,用于歸納出各個類別的特性以構(gòu)造分類器。根據(jù)分類體系的設(shè)定,每一個類別都應(yīng)含有一定數(shù)量的訓(xùn)練文本;測試集是用于測試分類效果的文檔的集合。其中每個文本都通過分類器分類,然后與正確決策的分類結(jié)果相對比,從而得到對分類器效果的評價,但測試集并不參與分類器的建設(shè)。

        3.2 結(jié)果評測標(biāo)準(zhǔn)

        評估分類準(zhǔn)確程度的依據(jù)是通過專家對文本的正確分類結(jié)果的比較,與人工分類結(jié)果越相近,分類的準(zhǔn)確程度就越高。文本分類中常用的評測指標(biāo)有:準(zhǔn)確率和查全率。本文使用如下的評估標(biāo)準(zhǔn):

        查準(zhǔn)率:是在所有輸入系統(tǒng)中,進(jìn)行分類處理的文本中與專家分類結(jié)果完全吻合的文本所占的比率,即:被正確分到類別i的文本數(shù)與所有被分到類別i的文本數(shù)的比值。

        查全率:是在分類系統(tǒng)中,分類正確的文本所占的比率,即:被正確分到類別i的文本數(shù)與實際屬于類別i的文本數(shù)的比值。

        查準(zhǔn)率和查全率反映了分類質(zhì)量的兩個不同方面,兩者必須綜合考慮,不可偏廢。因此,存在一種新的評估指標(biāo),F(xiàn)l測試值,其數(shù)學(xué)公式如下:

        從對比中可以看到,類中心分類算法在任何類別的分類效果都不如優(yōu)化后的類中心分類算法。

        [1]旺建華.中文文本分類技術(shù)研究[D].吉林大學(xué),2007,9.

        [2]王小燕.文本分類相關(guān)技術(shù)應(yīng)用與研究[D].西北大學(xué),2007,4.

        猜你喜歡
        類別分類器文檔
        有人一聲不吭向你扔了個文檔
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        基于RI碼計算的Word復(fù)制文檔鑒別
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        国产91中文| 国产精品免费观看调教网| 又爽又黄又无遮挡的视频| 精品丝袜人妻久久久久久| AV无码系列一区二区三区| 国产激情综合五月久久| 久久久中日ab精品综合| 99久久免费看少妇高潮a片特黄| 国产乱人视频在线播放| 亚洲久无码中文字幕热| 自拍偷拍另类三级三色四色| 中文字幕一区二区三区久久网| 99国产精品无码| 国产婷婷丁香五月麻豆| 日韩女同一区二区三区久久| 精品天堂色吊丝一区二区| 亚洲欧美激情精品一区二区 | 亚洲九九九| 国产在线视频网友自拍| 精品国产第一国产综合精品| 少妇内射视频播放舔大片| 日本人妻少妇精品视频专区| 91三级在线观看免费| 中文字幕丰满伦子无码| 国产成人无码精品久久99| 亚洲国产天堂av成人在线播放| 色窝窝无码一区二区三区| 国产精品亚洲综合色区韩国| 2021最新久久久视精品爱| 久久亚洲精品国产av| 欧美乱妇高清无乱码在线观看| 少妇人妻真实偷人精品视频| 亚洲欧洲日产国码无码| 国内自拍视频一区二区三区| 白丝兔女郎m开腿sm调教室| 91精品国产丝袜在线拍| 日本视频一区二区这里只有精品| 五月天激情电影| 亚洲精品无码人妻无码| 久久亚洲精品一区二区| 日本亚洲国产精品久久|