黃勇 羅文輝 張瑞舒
摘? 要:樸素貝葉斯算法是一種基于概率統(tǒng)計的分類算法,廣泛應用于機器學習中分類問題的求解中。文本分類是自然語言處理和數(shù)據(jù)挖掘領域中的研究熱點有著廣泛的應用前景。樸素貝葉斯算法已經(jīng)在文本分類中取得了較好的分類效果,但是由于文本詞向量的特征向量維度高,很多分類算法的求解效率和準確率都不高。文章提出一種基于詞向量間余弦相似度的改進樸素貝葉斯算法,有效的降低了特征向量的數(shù)據(jù)冗余和計算復雜性。
關鍵詞:文本分類;樸素貝葉斯算法;特征向量;余弦相似度
中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2019)05-0024-02
1 概述
在文本分類任務中,目前采用的主要方法是將文本分詞,通過詞向量技術進行特征提取文本被表示成一個高維度的文本向量集合。然后通過分類器進行文本類別的學習。目前很多主流的機器學習分類算法都取得了較好的分類效果。但是由于文本數(shù)據(jù)特征表示復雜,分類效率和精度還沒有取得較大的提高,樸素貝葉斯算法是在傳統(tǒng)貝葉斯算法上假定待分類特征的分量之間相互獨立,這使得貝葉斯這種分類方法的工程化應用得以實現(xiàn)[1]。但是文本中的數(shù)據(jù)由于上下文的語義關系,各個詞組的特征向量之間并不都是相互獨立的,這給分類器增加了很大的計算和求解負擔,參數(shù)學習效率低數(shù)據(jù)特征冗余度大,如果考慮到利用各個上下文詞組之間的概率相關性,利用詞向量[2]之間的相似度有選擇的剔除一些語義近似的詞向量將大大簡化分類過程。余弦相似度就能夠很好的度量特征詞向量之間的相關性程度,很好的表征了上下文詞組之間的相似程度,可以利用這一相似性指數(shù)簡化文本特征表示集合的大小,簡化分類器的學習過程,提高分類效率。
3 文本分類實驗
在此使用谷歌訓練好的開源詞向量模型,利用開源IMDB、文本數(shù)據(jù)集來對改進模型進行分類實驗和效果評估。IMDB數(shù)據(jù)集包含來自互聯(lián)網(wǎng)的50000條嚴重兩極分化的評論[3],該數(shù)據(jù)被分為用于訓練分類模型的25000條評論文本和用于測試分類效果的25000條評論文本,訓練集和測試集都包含50%的正面評價和50%的負面評價。實驗利用開源的深度學習框架TensorFlow和Keras。實驗過程為文本數(shù)據(jù)導入、文本預處理、文本特征轉換、分類器實現(xiàn)、參數(shù)初始化、參數(shù)迭代、結果輸出,利用Keras提供的樸素貝葉斯分類器[4],在此基礎上實現(xiàn)了改進的分類算法模型。同時也在傳統(tǒng)樸素貝葉斯模型上進行實驗過程,實驗在測試集上得到分類效果如下表所示:
比較傳統(tǒng)樸素貝葉斯分類算法和改進樸素貝葉斯分類算法模型在實驗中的結果可以發(fā)現(xiàn),基于文本詞向量余弦相似度的改進樸素貝葉斯文本分類算法有著更好的分類精度和更低的迭代時間,大大降低了文本高維度的特征帶來的計算復雜度。
4 結束語
本文分析了傳統(tǒng)樸素貝葉斯算法在文本分類問題上存在的問題,針對傳統(tǒng)文本分類中存在的數(shù)據(jù)冗余度大、特征表示復雜、分類效率低下的問題提出了基于上下文詞向量之間余弦相似度的改進樸素貝葉斯算法,有效降低了文本特征向量的數(shù)據(jù)冗余度和模型計算復雜性通過實驗驗證了該改進算法的有效性,分類效果得到極大提升。
參考文獻:
[1]趙文濤,孟令軍,趙好好,等.樸素貝葉斯算法的改進與應用[J].測控技術,2016(02).
[2]唐明,朱磊,鄒顯春.基于Word2Vector的一種文檔向量表示[J].計算機科學,2016,43(6):14-217.
[3]林士敏,田鳳占,陸玉呂.貝葉斯學習、貝葉斯網(wǎng)絡與數(shù)據(jù)采掘[J].計算機科學,2005,27(10):69-72.
[4]Y.-L. Boureau, J. Ponce, and Y. LeCun. A theoretical analysis of feature pooling in visual recognition.In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 111-118,2010.