亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進樸素貝葉斯算法在文本分類中的應用

        2019-03-13 13:00:16黃勇羅文輝張瑞舒
        科技創(chuàng)新與應用 2019年5期
        關鍵詞:文本分類特征向量

        黃勇 羅文輝 張瑞舒

        摘? 要:樸素貝葉斯算法是一種基于概率統(tǒng)計的分類算法,廣泛應用于機器學習中分類問題的求解中。文本分類是自然語言處理和數(shù)據(jù)挖掘領域中的研究熱點有著廣泛的應用前景。樸素貝葉斯算法已經(jīng)在文本分類中取得了較好的分類效果,但是由于文本詞向量的特征向量維度高,很多分類算法的求解效率和準確率都不高。文章提出一種基于詞向量間余弦相似度的改進樸素貝葉斯算法,有效的降低了特征向量的數(shù)據(jù)冗余和計算復雜性。

        關鍵詞:文本分類;樸素貝葉斯算法;特征向量;余弦相似度

        中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2019)05-0024-02

        1 概述

        在文本分類任務中,目前采用的主要方法是將文本分詞,通過詞向量技術進行特征提取文本被表示成一個高維度的文本向量集合。然后通過分類器進行文本類別的學習。目前很多主流的機器學習分類算法都取得了較好的分類效果。但是由于文本數(shù)據(jù)特征表示復雜,分類效率和精度還沒有取得較大的提高,樸素貝葉斯算法是在傳統(tǒng)貝葉斯算法上假定待分類特征的分量之間相互獨立,這使得貝葉斯這種分類方法的工程化應用得以實現(xiàn)[1]。但是文本中的數(shù)據(jù)由于上下文的語義關系,各個詞組的特征向量之間并不都是相互獨立的,這給分類器增加了很大的計算和求解負擔,參數(shù)學習效率低數(shù)據(jù)特征冗余度大,如果考慮到利用各個上下文詞組之間的概率相關性,利用詞向量[2]之間的相似度有選擇的剔除一些語義近似的詞向量將大大簡化分類過程。余弦相似度就能夠很好的度量特征詞向量之間的相關性程度,很好的表征了上下文詞組之間的相似程度,可以利用這一相似性指數(shù)簡化文本特征表示集合的大小,簡化分類器的學習過程,提高分類效率。

        3 文本分類實驗

        在此使用谷歌訓練好的開源詞向量模型,利用開源IMDB、文本數(shù)據(jù)集來對改進模型進行分類實驗和效果評估。IMDB數(shù)據(jù)集包含來自互聯(lián)網(wǎng)的50000條嚴重兩極分化的評論[3],該數(shù)據(jù)被分為用于訓練分類模型的25000條評論文本和用于測試分類效果的25000條評論文本,訓練集和測試集都包含50%的正面評價和50%的負面評價。實驗利用開源的深度學習框架TensorFlow和Keras。實驗過程為文本數(shù)據(jù)導入、文本預處理、文本特征轉換、分類器實現(xiàn)、參數(shù)初始化、參數(shù)迭代、結果輸出,利用Keras提供的樸素貝葉斯分類器[4],在此基礎上實現(xiàn)了改進的分類算法模型。同時也在傳統(tǒng)樸素貝葉斯模型上進行實驗過程,實驗在測試集上得到分類效果如下表所示:

        比較傳統(tǒng)樸素貝葉斯分類算法和改進樸素貝葉斯分類算法模型在實驗中的結果可以發(fā)現(xiàn),基于文本詞向量余弦相似度的改進樸素貝葉斯文本分類算法有著更好的分類精度和更低的迭代時間,大大降低了文本高維度的特征帶來的計算復雜度。

        4 結束語

        本文分析了傳統(tǒng)樸素貝葉斯算法在文本分類問題上存在的問題,針對傳統(tǒng)文本分類中存在的數(shù)據(jù)冗余度大、特征表示復雜、分類效率低下的問題提出了基于上下文詞向量之間余弦相似度的改進樸素貝葉斯算法,有效降低了文本特征向量的數(shù)據(jù)冗余度和模型計算復雜性通過實驗驗證了該改進算法的有效性,分類效果得到極大提升。

        參考文獻:

        [1]趙文濤,孟令軍,趙好好,等.樸素貝葉斯算法的改進與應用[J].測控技術,2016(02).

        [2]唐明,朱磊,鄒顯春.基于Word2Vector的一種文檔向量表示[J].計算機科學,2016,43(6):14-217.

        [3]林士敏,田鳳占,陸玉呂.貝葉斯學習、貝葉斯網(wǎng)絡與數(shù)據(jù)采掘[J].計算機科學,2005,27(10):69-72.

        [4]Y.-L. Boureau, J. Ponce, and Y. LeCun. A theoretical analysis of feature pooling in visual recognition.In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 111-118,2010.

        猜你喜歡
        文本分類特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
        克羅內克積的特征向量
        一類三階矩陣特征向量的特殊求法
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
        中華建設(2017年1期)2017-06-07 02:56:14
        基于組合分類算法的源代碼注釋質量評估方法
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        基于樸素貝葉斯分類的Java課程網(wǎng)絡答疑反饋系統(tǒng)
        基于K—means算法的文本分類技術研究
        亚洲av日韩片在线观看| 国产欧美日韩一区二区三区| 亚洲产国偷v产偷v自拍色戒| 99热精品国产三级在线观看| 性感人妻av在线播放| 亚洲精品久久区二区三区蜜桃臀| 射精专区一区二区朝鲜| 日本强好片久久久久久aaa| 高潮社区51视频在线观看| 国产人妖在线视频网站| 欧美日韩精品久久久久| 黄 色 人 成 网 站 免 费| 国产一区二区三区最新视频| 国内免费自拍9偷1拍| 极品少妇小泬50pthepon| 色爱区综合激情五月综合小说 | 午夜毛片不卡免费观看视频| 99国产超薄丝袜足j在线观看| 日韩精品av在线一区二区| 极品人妻少妇av免费久久| 国产中文欧美日韩在线| 成黄色片视频日本秘书丝袜| 青青草视频网站免费看| 波多野结衣在线播放| 国产熟女高潮视频| 波多吉野一区二区三区av| 日本二区在线视频观看| 一本色道无码道在线观看| 久久狠狠高潮亚洲精品暴力打| 一区二区三区日本久久| 亚洲国产精品成人精品无码区在线 | 国产一区二区美女主播| 插鸡网站在线播放免费观看| 丰满人妻被中出中文字幕| 亚洲日日噜噜噜夜夜爽爽| 91成人黄色蘑菇视频| 四虎影视永久在线观看| 亚洲欧洲日产国码久在线观看| 一区二区三区观看视频在线| 三a级做爰片免费观看| 中文文精品字幕一区二区|