亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于支持向量機的微博情感分析方法研究

        2022-12-08 17:03:16李首政
        現(xiàn)代計算機 2022年19期
        關(guān)鍵詞:文本情感方法

        李首政,王 琪,王 力

        (1.南陽理工學院信息工程學院,南陽 473000;2.南陽理工學院土木工程學院,南陽 473000)

        0 引言

        微博作為國內(nèi)最大的社交媒體之一,是一種極其豐富的文本來源,具有內(nèi)容精煉、時效性強、簡短、通俗等特點,研究專門的情感分析技術(shù)有利于決策者分配業(yè)務(wù)及合理的決策[1]。

        過去人工監(jiān)控和分析的方法不僅需要耗費大量的人力成本,而且產(chǎn)生了很大的滯后性。目前對微博數(shù)據(jù)進行情感分析的方法主要包括兩大類,基于情感詞典的方法和基于機器學習的方法?;谠~典的方法雖然設(shè)計思想簡單,準確率較高,但需依賴于專業(yè)人士的詞典構(gòu)造,人工工作量巨大,且受限于詞典先驗知識,普遍性不強[2]?;贙NN 的分類方法雖然算法簡單,但準確率較低且內(nèi)存占用量較大[3]。Krishnaveni 等[4]提出面向文本的樸素貝葉斯分類器的基本思想,然而經(jīng)典的回歸思想和貝葉斯方法都是基于一個假設(shè),即概率分布及分布模型是先驗的,但實際數(shù)據(jù)集往往并不同分布,因此準確率較低。基于深度學習的方法采用RNN 的方法雖然準確率較高,但需大量數(shù)據(jù)進行模型訓練,且參數(shù)較大,實際應用中小樣本數(shù)據(jù)存在過擬合問題[5]。支持向量機(SVM)方法采用監(jiān)督方式學習數(shù)據(jù)的分布模型,從而有效避免了先驗模型與實際模型差距較大的問題[6-7]。

        本文分析微博文本數(shù)據(jù),提出了一種基于支持向量機的微博文本分析方法,首先爬取微博文本數(shù)據(jù)并進行預處理,然后采用TF-IDF 算法進行文本向量化,通過詞袋模型獲得文本特征向量,設(shè)計高斯核支持向量機分類模型對文本特征向量進行分類器訓練,最終,獲得微博文本數(shù)據(jù)的情感分類結(jié)果,通過實驗分析本文支持向量機方法的準確性,總體流程如圖1所示。

        圖1 總體結(jié)構(gòu)

        1 文本預處理及特征獲取

        通過微博數(shù)據(jù)爬取工具Weibo Spider 爬取微博平臺個人發(fā)布數(shù)據(jù),獲得微博文本原始數(shù)據(jù)。然而,直接爬取的數(shù)據(jù)存在大量冗余和無效內(nèi)容,且計算機并不能直接處理文本信息,因此需要對文本數(shù)據(jù)進行預處理,使得文本特征向量更準確,從而達到提高訓練準確性的目的。文本預處理包含文本清洗、情感標注、文本分詞、去除停用詞四部分。預處理后的文本計算機并不能直接處理,本文提出基于關(guān)鍵詞的詞袋模型,獲得文本特征矩陣降低文本特征矩陣稀疏性,最終,構(gòu)建了實驗數(shù)據(jù)為10000條的訓練集和500條的測試集數(shù)據(jù)。

        1.1 文本預處理

        1.1.1 文本清洗和情感標注

        由于爬取程序是直接復制博主發(fā)布的內(nèi)容,導致爬取的數(shù)據(jù)中包含了“#”開頭和“#”結(jié)尾的Tag等較多無效內(nèi)容,因此需要對無效信息進行清洗。同時,由于微博短文本的特點,爬取信息中包含較多表情符號,而這些表情符號可以很好地體現(xiàn)人的情感,因此將表情符號轉(zhuǎn)換為同義文本表示,比如微博常見的允悲表情,用文字“允悲”表示。文本分類是有監(jiān)督學習,因此清洗后的訓練集文本需進行情感標注,根據(jù)自然語言知識及人類普遍認知對爬取的文本逐條進行情感標注,本文設(shè)計的情感分為積極和消極兩種情感,積極情感用標簽“1”表示,消極情感用標簽“0”表示。

        1.1.2 文本分詞和去除停用詞

        文本由詞語組成,而與英文句子相比,中文句子中若沒有空格則無法簡單地識別詞語,因此需要分詞。本文采用jieba 分詞工具進行文本分詞。停用詞是指一些無意義詞的中文詞,比如“你,我,他”,“如果,那么”。去除停用詞是常見的NLP 預處理的一個步驟,能幫助減少特征矩陣的大小,從而減少特征矩陣的計算消耗,實現(xiàn)減少計算時間和成本的目的。清洗后的文本標注“積極”或“消極”情感標簽,用于構(gòu)建數(shù)據(jù)集及模型訓練。

        1.2 基于關(guān)鍵詞的詞袋模型

        本文采用詞袋模型將文本進行向量化。但傳統(tǒng)詞袋模型獲得的文本向量稀疏性較強,存在很大冗余且不能體現(xiàn)句子關(guān)鍵詞,因此本文提出基于關(guān)鍵詞的詞袋模型,從而獲得文本特征向量,算法通過IF-IDF 方法獲得,包括三個步驟。

        第一步,通過TF-IDF 算法提取文本特征詞,由特征詞構(gòu)建新的文本詞袋,從而解決了傳統(tǒng)詞袋模型高冗余性的問題,同時能夠體現(xiàn)詞的權(quán)重概率。

        特征詞提取主要是指提取出有利于情感分析分類的情感詞,本文采取TF-IDF 算法計算每個詞的IF-IDF 值,并采用L2 范數(shù)進行標準化,選取文檔權(quán)值最高前20 個詞作為特征詞。TF 是詞出現(xiàn)的頻率,TF-IDF 的基本思想是如果某個單詞在一篇文章中出現(xiàn)的頻率TF 高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合作為特征詞,算法見式(1)—(4)。

        第二步,運用新建的詞袋表計算句子的詞袋向量,并將每個詞的TF-IDF值替代傳統(tǒng)詞袋向量中詞出現(xiàn)的次數(shù)。

        第三步,數(shù)據(jù)標準化的目的是通過標準化得到均值為0 和標準差為1 的服從標準正態(tài)分布的數(shù)據(jù),此外,標準化能提升分類器擬合的速度,同時縮小可能的異常值的影響。本文采用數(shù)據(jù)標準化的方法是減去均值然后除以方差或標準差,經(jīng)過這種數(shù)據(jù)標準化方法處理過的數(shù)據(jù)符合標準正態(tài)分布。

        2 分類器構(gòu)建

        2.1 線性分類器

        支持向量機算法的基本思想是尋找一個分類器,使得超平面和最近的數(shù)據(jù)點之間的分類邊緣(超平面和最近的數(shù)據(jù)點之間的間隔)最大。對于SVM 算法,通常認為分類邊緣越大,平面越優(yōu),通常定義具有最大間隔的決策面就是SVM 要尋找的最優(yōu)解。因為支持向量到?jīng)Q策邊界有一定的距離,因此支持向量機容許一定的誤差,算法的魯棒性得到一定的提高。對線性可分樣本集T=,其中x(m)∈?n,y(m)∈{-1,1};選擇懲罰參數(shù)C>0,構(gòu)造并求解凸二次規(guī)劃。

        其中ɑj為拉格郎日乘子,得到最優(yōu)解a*=(a1

        *,a2*,…,aN

        *)T。

        計算ω*=yixi,b*=yj-yi(xi·xj),得到超平面ω*x + b*= 0,則分類決策函數(shù):

        可見,SVM 分類問題需求解樣本的內(nèi)積,然而實際樣本往往線性不可分,因而需引入核函數(shù),核函數(shù)可將樣本向量映射到高維核空間,使得原本線性不可分的樣本變?yōu)榫€性可分,核函數(shù)一般包括線性核函數(shù)、多項式核函數(shù)和高斯核函數(shù)。

        2.2 高斯核函數(shù)

        高斯核函數(shù)可以將輸入特征映射到無限多維,不僅可以解決樣本線性不可分的問題,而且能夠突出樣本特征的相似性,同時相比多項式核函數(shù)計算量更小,因其僅需一個參數(shù)σ,所以調(diào)參較易。

        引入高斯核函數(shù)后分類器優(yōu)化問題變?yōu)?/p>

        3 實驗與分析

        采用本文方法爬取數(shù)據(jù)并進行文本處理后構(gòu)建了10000 條數(shù)據(jù)作為訓練集,500 條作為測試集。統(tǒng)計出訓練集的文本長度分布如圖2 所示,文本長度集中在31—151區(qū)間,更接近于真實語料環(huán)境。訓練集經(jīng)過標注后得到1 標簽和0標簽的文本數(shù)量分布如圖3 所示。圖3 橫坐標的0 代表著文本的情感是消極的;橫坐標1 代表著文本的情感是積極的。由圖3可見訓練樣本中積極情感占比54.96%,消極情感占比45.04%,積極情感略高于消極情感,但整體數(shù)量相當,合理的數(shù)據(jù)分布有利于提高分類器訓練的準確性。

        圖2 微博訓練集文本長度統(tǒng)計

        圖3 微博訓練集情感極性分布

        通過基于關(guān)鍵詞的詞袋模型對10000條訓練集文本進行特征詞提取,共提取出61949個特征詞,并獲得(10000,61949)大小的文本特征矩陣,500條測試集特征矩陣大小為(500,1949)。利用本文高斯核SVM 的方法對訓練集數(shù)據(jù)進行訓練,學習曲線如圖4 所示,由圖4 中準確率的變化趨勢可見,訓練集和驗證集的準確率隨著樣本數(shù)的增大能夠較好地擬合,最終穩(wěn)定在較高準確率,說明本文方法獲得的訓練模型有較好的泛化能力。與通過傳統(tǒng)詞袋模型采用多項式SVM、線性SVM、樸素貝葉斯、KNN 和決策樹五種方法的訓練集和測試集得分進行對比,結(jié)果如表1 所示,SVM 三種分類器表現(xiàn)出較理想的效果,其中本文高斯核的SVM 方法在訓練集和驗證集上都取得了較高的準確率,且擬合度較好,KNN 方法和樸素貝葉斯方法的準確率不高,決策樹方法出現(xiàn)了較嚴重的過擬合現(xiàn)象。采用本文高斯核SVM 方法和上述五種方法分別建立分類器對測試集進行驗證,其預測的準確率如圖5所示。

        圖4 高斯SVM分類器學習曲線

        表1 各種方法的準確率對比結(jié)果

        圖5 分類器準確率對比圖

        圖5可見,使用小樣本訓練支持向量機分類器已經(jīng)取得不錯的準確率,與同等樣本數(shù)訓練的其他分類器相比有明顯的優(yōu)勢,隨著樣本數(shù)的增加,六種分類器的準確率均有所提高,且KNN 和樸素貝葉斯分類器與SVM 分類器準確率差距有所縮小,其中本文高斯SVM 的方法準確率最高。決策樹方法由于存在過擬合現(xiàn)象導致總體效果不佳。由此可見,本文采用的高斯SVM 方法在微博情感分析中能取得較高的準確率,且相比KNN、樸素貝葉斯等方法,本文方法在小樣本數(shù)據(jù)集上有較明顯優(yōu)勢。

        4 結(jié)語

        針對當前需要對內(nèi)容精煉、時效性強、通常包含簡短且非正式縮寫詞的微博短文本情感分析問題,本文提出一種更適合微博文本情感分析的方法,通過weibo Spider 爬取微博數(shù)據(jù)并進行人工標注,構(gòu)建數(shù)據(jù)集,TF-IDF 算法和詞袋模型構(gòu)建基于關(guān)鍵詞的詞袋模型,獲得文本特征矩陣,最后采用了高斯核的支持向量機方法進行分類器訓練,通過測試集驗證準確率,對比多項式支持向量機、KNN、樸素貝葉斯決策樹等方法,實驗結(jié)果顯示本文方法準確率較高,在小樣本數(shù)據(jù)的情況下可獲得較高的準確率。

        猜你喜歡
        文本情感方法
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产嫩草av一区二区三区| 日韩丝袜亚洲国产欧美一区| 亚洲AV秘 无码一区二区在线| 白嫩少妇高潮喷水av| 国产亚洲精品第一综合另类| 中文字幕日本特黄aa毛片| 97精品国产91久久久久久久| 日本一本二本三本道久久久| 亚洲天堂丰满人妻av| 又粗又粗又黄又硬又深色的| 精品国产亚洲一区二区在线3d| 亚洲精品国产精品系列| 91成人自拍国语对白| 亚洲av日韩综合一区在线观看| 国产精品自产拍在线观看免费| 国产免费99久久精品| 第一次处破女18分钟高清| 亚洲精品黑牛一区二区三区| 久久精品国产亚洲婷婷| 情头一男一女高冷男女| 日韩精品有码中文字幕在线| 麻婆视频在线免费观看| 欧美人与禽2o2o性论交| 欧美性猛交xxxx乱大交蜜桃| 九九日本黄色精品视频| 99精品国产一区二区三区| 日韩亚洲欧美中文在线| 伊人久久大香线蕉在观看| 中文字幕精品久久一区二区三区 | 中文字幕亚洲视频一区| 日本黄网站三级三级三级| 96精品在线| 一区二区国产视频在线| 亚洲中文字幕无码av永久| 亚洲av日韩av永久无码色欲| 亚洲中文字幕不卡无码| 久久久中文字幕日韩精品| 蜜臀久久99精品久久久久久| 国产国语熟妇视频在线观看| 国产永久免费高清在线观看视频| 日本久久精品视频免费|