亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進樸素貝葉斯算法在文本分類中的應(yīng)用

        2019-03-13 13:00:16黃勇羅文輝張瑞舒
        科技創(chuàng)新與應(yīng)用 2019年5期
        關(guān)鍵詞:文本分類特征向量

        黃勇 羅文輝 張瑞舒

        摘? 要:樸素貝葉斯算法是一種基于概率統(tǒng)計的分類算法,廣泛應(yīng)用于機器學(xué)習(xí)中分類問題的求解中。文本分類是自然語言處理和數(shù)據(jù)挖掘領(lǐng)域中的研究熱點有著廣泛的應(yīng)用前景。樸素貝葉斯算法已經(jīng)在文本分類中取得了較好的分類效果,但是由于文本詞向量的特征向量維度高,很多分類算法的求解效率和準確率都不高。文章提出一種基于詞向量間余弦相似度的改進樸素貝葉斯算法,有效的降低了特征向量的數(shù)據(jù)冗余和計算復(fù)雜性。

        關(guān)鍵詞:文本分類;樸素貝葉斯算法;特征向量;余弦相似度

        中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2019)05-0024-02

        1 概述

        在文本分類任務(wù)中,目前采用的主要方法是將文本分詞,通過詞向量技術(shù)進行特征提取文本被表示成一個高維度的文本向量集合。然后通過分類器進行文本類別的學(xué)習(xí)。目前很多主流的機器學(xué)習(xí)分類算法都取得了較好的分類效果。但是由于文本數(shù)據(jù)特征表示復(fù)雜,分類效率和精度還沒有取得較大的提高,樸素貝葉斯算法是在傳統(tǒng)貝葉斯算法上假定待分類特征的分量之間相互獨立,這使得貝葉斯這種分類方法的工程化應(yīng)用得以實現(xiàn)[1]。但是文本中的數(shù)據(jù)由于上下文的語義關(guān)系,各個詞組的特征向量之間并不都是相互獨立的,這給分類器增加了很大的計算和求解負擔(dān),參數(shù)學(xué)習(xí)效率低數(shù)據(jù)特征冗余度大,如果考慮到利用各個上下文詞組之間的概率相關(guān)性,利用詞向量[2]之間的相似度有選擇的剔除一些語義近似的詞向量將大大簡化分類過程。余弦相似度就能夠很好的度量特征詞向量之間的相關(guān)性程度,很好的表征了上下文詞組之間的相似程度,可以利用這一相似性指數(shù)簡化文本特征表示集合的大小,簡化分類器的學(xué)習(xí)過程,提高分類效率。

        3 文本分類實驗

        在此使用谷歌訓(xùn)練好的開源詞向量模型,利用開源IMDB、文本數(shù)據(jù)集來對改進模型進行分類實驗和效果評估。IMDB數(shù)據(jù)集包含來自互聯(lián)網(wǎng)的50000條嚴重兩極分化的評論[3],該數(shù)據(jù)被分為用于訓(xùn)練分類模型的25000條評論文本和用于測試分類效果的25000條評論文本,訓(xùn)練集和測試集都包含50%的正面評價和50%的負面評價。實驗利用開源的深度學(xué)習(xí)框架TensorFlow和Keras。實驗過程為文本數(shù)據(jù)導(dǎo)入、文本預(yù)處理、文本特征轉(zhuǎn)換、分類器實現(xiàn)、參數(shù)初始化、參數(shù)迭代、結(jié)果輸出,利用Keras提供的樸素貝葉斯分類器[4],在此基礎(chǔ)上實現(xiàn)了改進的分類算法模型。同時也在傳統(tǒng)樸素貝葉斯模型上進行實驗過程,實驗在測試集上得到分類效果如下表所示:

        比較傳統(tǒng)樸素貝葉斯分類算法和改進樸素貝葉斯分類算法模型在實驗中的結(jié)果可以發(fā)現(xiàn),基于文本詞向量余弦相似度的改進樸素貝葉斯文本分類算法有著更好的分類精度和更低的迭代時間,大大降低了文本高維度的特征帶來的計算復(fù)雜度。

        4 結(jié)束語

        本文分析了傳統(tǒng)樸素貝葉斯算法在文本分類問題上存在的問題,針對傳統(tǒng)文本分類中存在的數(shù)據(jù)冗余度大、特征表示復(fù)雜、分類效率低下的問題提出了基于上下文詞向量之間余弦相似度的改進樸素貝葉斯算法,有效降低了文本特征向量的數(shù)據(jù)冗余度和模型計算復(fù)雜性通過實驗驗證了該改進算法的有效性,分類效果得到極大提升。

        參考文獻:

        [1]趙文濤,孟令軍,趙好好,等.樸素貝葉斯算法的改進與應(yīng)用[J].測控技術(shù),2016(02).

        [2]唐明,朱磊,鄒顯春.基于Word2Vector的一種文檔向量表示[J].計算機科學(xué),2016,43(6):14-217.

        [3]林士敏,田鳳占,陸玉呂.貝葉斯學(xué)習(xí)、貝葉斯網(wǎng)絡(luò)與數(shù)據(jù)采掘[J].計算機科學(xué),2005,27(10):69-72.

        [4]Y.-L. Boureau, J. Ponce, and Y. LeCun. A theoretical analysis of feature pooling in visual recognition.In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 111-118,2010.

        猜你喜歡
        文本分類特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        一類三階矩陣特征向量的特殊求法
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
        基于K—means算法的文本分類技術(shù)研究
        久久久精品亚洲一区二区国产av | 成人无码av免费网站| 天天综合网天天综合色| 男人天堂免费视频| 少妇被搞高潮在线免费观看| 丰满的少妇av一区二区三区| 亚洲av综合永久无码精品天堂| 岛国av无码免费无禁网站下载| 亚洲最大av免费观看| 亚洲精品久久蜜桃av| 久久婷婷人人澡人人爽人人爱| 亚洲欧美日韩在线观看一区二区三区 | 伊人久久综合无码成人网| 亚洲综合区图片小说区| 久久久久亚洲精品天堂| 青青草好吊色在线视频| 精品无码av一区二区三区不卡| 欧美两根一起进3p做受视频| 波多野结衣一区二区三区视频| 国产不卡一区二区av| 日本视频一区二区三区在线观看 | 美女被男人插得高潮的网站| 亚洲av中文无码乱人伦在线播放 | 日日噜狠狠噜天天噜av| 亚洲成在人网av天堂| 精品国产三区在线观看| 国产无套粉嫩白浆在线| 国产精品视频一区国模私拍| 久久迷青品着产亚洲av网站| 女同精品一区二区久久| 亚洲国产日韩欧美一区二区三区 | 国产亚洲欧洲AⅤ综合一区| 国产精品美女主播在线| 久久96国产精品久久久| 久久天天躁夜夜躁狠狠躁2022| 久草91这里只有精品| 丰满人妻久久中文字幕| 亚洲乱亚洲乱妇50p| 欧美激情五月| 91久久精品一二三区色| 天天摸天天做天天爽水多 |