亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貝葉斯分類器的中文文本分類

        2016-12-26 12:56:34鐘磊
        電子技術(shù)與軟件工程 2016年22期
        關(guān)鍵詞:文本分類遺傳算法

        鐘磊

        摘 要

        在數(shù)據(jù)挖掘領(lǐng)域中,文本分類備受關(guān)注。本文研究了基于貝葉斯分類器的中文文本分類的相關(guān)問題,提出了一種以遺傳算法為基礎(chǔ)的樸素貝葉斯分類器,分析了分類器的設(shè)計流程和功能實現(xiàn)過程,驗證表明,本文提出的貝葉斯分類器在中文文本分類中的應(yīng)用效果良好,分類精度較高。

        【關(guān)鍵詞】貝葉斯分類器 文本分類 遺傳算法

        貝葉斯分類器在文本分類中有著重要的應(yīng)用,其中樸素貝葉斯分類器是一種簡單有效的概率分類方法。但需要注意的是,樸素貝葉斯分類器模型在實際應(yīng)用的過程中往往會出現(xiàn)一定的問題,例如條件假設(shè)難以實現(xiàn),屬性約簡影響分類效果等。

        1 文本分類

        事先定義好文本類別,以文本內(nèi)容為基礎(chǔ),計算機根據(jù)相關(guān)自動分類算法,對文本進行預(yù)先定義好的類別劃分就是文本分類。文本分類一般可以分為三個步驟,分別是文本向量模型表示、選擇文本特征及分類器訓(xùn)練。

        2 遺傳算法基本思想

        遺傳算法是以遺傳思想為基礎(chǔ)的一種算法,一定數(shù)量的個體經(jīng)過基因編碼之后會組成一個種群,而遺傳算法就從代表問題可能潛在解集的種群開始。

        3 基于遺傳算法的樸素貝葉斯分類器

        本文提出了一種應(yīng)用于中文文本分類的貝葉斯分類器,其以自適應(yīng)遺傳算法為基礎(chǔ),具體設(shè)計方案如下:

        3.1 設(shè)計思路

        (1)進行數(shù)據(jù)采樣、收集、整理等預(yù)處理工作,必要時進行數(shù)據(jù)的離散化。

        (2)對實體樣本數(shù)據(jù)進行分類,之后將其隨機劃分為兩個集合,分別是驗證集和訓(xùn)練集,在訓(xùn)練集中生成S個子集,每一個子集的屬性隨機,針對每一個隨機屬性子集,對應(yīng)的構(gòu)建一個NBC。

        (3)將構(gòu)建的NBC作為初始種群,以上文中提到的遺傳算法選擇最優(yōu)解,在整個遺傳操作中,選擇的最優(yōu)解就是要求的gNBC,gNBC對應(yīng)的屬性集則是所需要的最優(yōu)屬性集。

        3.2 gNBC設(shè)計

        3.2.1 數(shù)據(jù)預(yù)處理

        在知識獲取系統(tǒng)中,數(shù)據(jù)預(yù)處理是關(guān)鍵步驟,這是因為取得的原始數(shù)據(jù)不能夠直接進行知識獲取,需要進行一定的預(yù)處理加工才能夠滿足知識獲取條件,原始數(shù)據(jù)的采樣、收集及整理等都屬于數(shù)據(jù)預(yù)處理的范疇。

        3.2.2 編碼

        在遺傳算法中,編碼的過程就是基因型與表現(xiàn)型的映射工作,保證二者的一一對應(yīng),實質(zhì)上就是解的遺傳表示過程。

        3.2.3 分類器差異度

        差異度指的是空間中分布程度,將分類精度設(shè)為R,數(shù)據(jù)集中分類精度數(shù)量為m,則有R1,R2,…,Rm,用P代表數(shù)據(jù)集記錄個數(shù),則每一類記錄數(shù)為P1,P2,…,Pm,則可以得出以下公式:

        P=P1+P2…+Pm

        R=P1R1+P2R2…+PmRm/P

        Ri為第i類正確分類記錄數(shù)與所有劃分到第i類的記錄數(shù)之間的比值,則可以得出分類器差異度D的計算公式:

        D=R1R2…Rm/Rm

        由上述公式可知,分類器差異度D的取值范圍為(0,1),D的值越大,即越接近于1,代表分類器差異性越好。

        3.2.4 適應(yīng)度函數(shù)

        適應(yīng)度是度量群體中個體優(yōu)化計算中接近找到最優(yōu)解的優(yōu)良程度的重要標(biāo)準(zhǔn),利用適應(yīng)度函數(shù)能夠?qū)€體適應(yīng)度進行評估,從而對群體中個體優(yōu)良程度進行評價。

        3.2.5 遺傳操作

        (1)選擇操作,即個體的優(yōu)勝劣汰,選擇適應(yīng)性更強的染色體,將這些染色體組成新的種群。

        (2)遺傳運算,主要包括交叉運算和變異運算,形成新的個體并產(chǎn)生相應(yīng)后代。

        4 算法驗證

        4.1 數(shù)據(jù)預(yù)處理

        為了對本文提出方法的有效性和可行性進行驗證,本文以搜狗實驗室文本分類數(shù)據(jù)為語料庫,選取五類中文文檔,分別是汽車類、教育類、體育類、文化類及旅游類,每類文檔中包含新聞報1990篇,文檔數(shù)量為9950。

        4.2 驗證結(jié)果分析

        將數(shù)據(jù)庫分為驗證集和訓(xùn)練集,前者30%,后者70%,測試驗證集,對NBC和gNBC的分類精度進行比較,結(jié)果如表1所示。

        由表1可知,相較于NBC來說,gNBC分類精度普遍更優(yōu)良,在同一數(shù)據(jù)集中,差異度影響系數(shù)取值不同,gNBC分類精度也有著一定多個差異性,因此,適當(dāng)對差異度進行考慮有助于提升文本分類能力。但同時也需要注意,實驗過程中,如果增加特征數(shù)目,會一定程度影響分查速度,在應(yīng)用的過程中需要平衡速度和效率,這是本方法需要改進之處。

        5 結(jié)論

        綜上所述,貝葉斯分類器在中文文本分類中有著重要的應(yīng)用,本文提出了一種以遺傳算法為基礎(chǔ)的樸素貝葉斯分類器,分析了分類器的設(shè)計流程和功能實現(xiàn),通過實例驗證表明,本文提出的貝葉斯分類器在中文文本分類中的應(yīng)用效果良好,分類精度較高,但在實際應(yīng)用的過程中需要平衡分類效率和速度,這也是需要進一步改善之處。

        參考文獻

        [1]羅海蛟.數(shù)據(jù)挖掘中分類算法的研究及其應(yīng)用[J].微機發(fā)展,2013,13(02):48-50.

        [2]王灝,黃厚寬,田盛豐.文本分類實現(xiàn)技術(shù)[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版,2013,21(01):173-179.

        [3]秦進,陳笑蓉,汪維家,等.文本分類中的特征抽取[J].計算機應(yīng)用,2015,23(02):45-46.

        作者單位

        杭州電子科技大學(xué)通信工程學(xué)院 浙江省杭州市 310002

        猜你喜歡
        文本分類遺傳算法
        遺傳算法對CMAC與PID并行勵磁控制的優(yōu)化
        基于自適應(yīng)遺傳算法的CSAMT一維反演
        一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
        基于遺傳算法和LS-SVM的財務(wù)危機預(yù)測
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        協(xié)同進化在遺傳算法中的應(yīng)用研究
        基于蟻群智能算法的研究文本分類
        基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
        基于K—means算法的文本分類技術(shù)研究
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        国产激情在观看| 国产99久久久久久免费看| 国产在线无码一区二区三区视频| 亚洲中文字幕无码爆乳app| 国产成人精品午夜二三区波多野 | 免费人成黄页网站在线观看国产| 男人的天堂av网站一区二区| 中文字幕日本一区二区在线观看| 日本免费三级一区二区 | 亚洲日韩成人无码| 东北少妇不带套对白| 少妇放荡的呻吟干柴烈火动漫| 国自产偷精品不卡在线| 久久99精品久久久66| 久久亚洲精品一区二区| 国产一区二区av免费观看| 亚洲精品一区二区三区麻豆| 国产精品毛片完整版视频| 亚洲日韩精品国产一区二区三区 | 久久精品国产成人午夜福利| 久久精品亚洲熟女九色| 偷拍一区二区三区四区视频| 中文字幕人成乱码熟女| 国产特级毛片aaaaaaa高清| 亚洲色大成网站www永久一区| 人妻久久999精品1024| 日本一级二级三级在线| 蜜桃臀av一区二区三区| 凹凸国产熟女精品视频app| 国产肉丝袜在线观看| 亚洲VA中文字幕欧美VA丝袜| 日本道免费一区日韩精品| 强迫人妻hd中文字幕| 我和丰满妇女激情视频| av 日韩 人妻 黑人 综合 无码| 醉酒后少妇被疯狂内射视频 | 国产精品午夜福利亚洲综合网| 亚洲av手机在线网站| 18禁黄污吃奶免费看网站 | 亚洲人成网站在线播放观看| 无码制服丝袜中文字幕|