郝 苗,陳臨強(qiáng)
(杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)
近年來,隨互聯(lián)網(wǎng)技術(shù)、移動(dòng)終端技術(shù)的迅速發(fā)展,我國微博用戶數(shù)量激增,尤其以新浪微博為主,產(chǎn)生的微博文本數(shù)量也迅速增長。Web2.0的提出與興起使互聯(lián)網(wǎng)賦予網(wǎng)民更多主動(dòng),社交媒體成為用戶獲取、分享、發(fā)表信息的平臺(tái)。據(jù)第43次“中國互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告”,到2018年12月為止,中國網(wǎng)民數(shù)量高達(dá)8.29億,滲透率約59.6%,移動(dòng)互聯(lián)網(wǎng)用戶數(shù)達(dá)到8.17億,網(wǎng)民接入互聯(lián)網(wǎng)比例高達(dá)98.6%,移動(dòng)互聯(lián)網(wǎng)已滲透到生活的各個(gè)方面[1]。2019年3月中旬,相關(guān)部門發(fā)布“2018年微博用戶發(fā)展報(bào)告”,報(bào)告顯示,截至2018年4月底,微博中每月活躍人口總數(shù)為4.62億,每日活躍用戶則達(dá)到2億,相比較去年同期增長了25%[2]。數(shù)量龐大的微博文本,已經(jīng)能夠作為情感分析的重要數(shù)據(jù)來源。“情感分析”也稱意見挖掘,通過處理文本獲得情感傾向,從而獲得人群網(wǎng)絡(luò)文本的情感傾向,為輿情監(jiān)控、預(yù)測(cè)、引導(dǎo)提供了重要指導(dǎo)意見,也有助于改進(jìn)產(chǎn)品服務(wù)及預(yù)測(cè)信息走勢(shì)。情感分析研究所面臨的困難源于兩個(gè)方面:(1)文本情感分析技術(shù)涉及領(lǐng)域廣,例如數(shù)據(jù)挖掘、自然語言處理、機(jī)器學(xué)習(xí)等,這些技術(shù)理論知識(shí)復(fù)雜,難以掌握;(2)現(xiàn)有文本情感分析技術(shù)準(zhǔn)確度不高。因此,有必要提出一個(gè)準(zhǔn)確、有效的方法來提高文本情感分析準(zhǔn)確性。
本文的主要貢獻(xiàn)有:利用 Hownet 相似度整合現(xiàn)有詞典;利用 PMI(Pointwise Mutual Information) 算法對(duì)現(xiàn)有詞典擴(kuò)充,構(gòu)建符合新浪微博短文本表達(dá)特點(diǎn)的微博專用情感詞典;收集新浪微博“熱點(diǎn)”部分微博,對(duì)微博進(jìn)行清洗、過濾、分詞等預(yù)處理;結(jié)合微博專用情感詞典訓(xùn)練Bayes分類器得到情感分析模型。
情感分析是對(duì)公眾在社交媒體中發(fā)表的評(píng)論性文本進(jìn)行主觀意見挖掘,情感分析的結(jié)果能夠判斷研究對(duì)象的情感傾向。最早的情緒分析研究始于國外,基于情感詞典的分析方法,其結(jié)果準(zhǔn)確性取決于詞典涵蓋某領(lǐng)域的完整程度,以及詞典標(biāo)注的準(zhǔn)確程度。微博文本中的新詞是無窮無盡的,新的在線詞匯迅速出現(xiàn)對(duì)情緒分析的準(zhǔn)確性產(chǎn)生了重要影響。同時(shí)中文表達(dá)的含義豐富多樣,僅依靠情感詞典難以得到準(zhǔn)確的情感分析結(jié)果?;诒O(jiān)督學(xué)習(xí)的方法能夠避免人工帶來的誤差,其準(zhǔn)確性依賴于文本特征的提取,但是需要大量標(biāo)注訓(xùn)練集才能得到準(zhǔn)確的訓(xùn)練結(jié)果[3-5]。文本情感分析的關(guān)鍵是找到情感詞提取關(guān)鍵字并建立情感分析模型,最后對(duì)文本進(jìn)行情感傾向的分析。
文本情感分析從3個(gè)層次出發(fā),分別是詞語級(jí)、句子級(jí)、篇章級(jí)。對(duì)于詞語級(jí)別的情感分析,文獻(xiàn)[6]提出形容詞在句子情感分析中占主導(dǎo),在句子級(jí)的極性傾向計(jì)算中有較好的體現(xiàn)。例如句子是由詞語組成的,通過提取其中的關(guān)鍵詞,進(jìn)行語義情感分析,從而得到詞語的極性傾向值,這個(gè)傾向值就是整個(gè)句子的語義極性傾向。但實(shí)際上對(duì)于句子級(jí)情感分析,僅通過對(duì)單個(gè)詞語分析來確定句子整體傾向并不是最好的方式。文獻(xiàn)[7]提出通過詞組進(jìn)行分析,因?yàn)橄鄬?duì)于單一詞語,用詞組表現(xiàn)情感更準(zhǔn)確、直觀。他們也通過相關(guān)的實(shí)驗(yàn),如抽取語料庫中的詞組,系統(tǒng)根據(jù)這些詞組進(jìn)行分析,得出對(duì)應(yīng)的語義傾向,最后計(jì)算這些傾向值的平均值,用均值代表整句情感。除此之外,文獻(xiàn)[8]提出另外一種基于情感詞典的無監(jiān)督方法。該方法最初應(yīng)用于句子的情感分析[9],通過計(jì)算情感詞典中情感強(qiáng)度和情感詞匯的關(guān)聯(lián)度獲得情感分值,以及文本情感分析。
文獻(xiàn)[10]在文本情感分析方面做了大量實(shí)驗(yàn)。實(shí)驗(yàn)以表情符號(hào)為基礎(chǔ),首先采集大量的表情符號(hào)構(gòu)建情感詞典,然后將詞典應(yīng)用于社交網(wǎng)絡(luò)平臺(tái),最后經(jīng)試驗(yàn)得到較準(zhǔn)確的分析結(jié)果。利用傳統(tǒng)的特征提取方法,或者詞向量與機(jī)器學(xué)習(xí)算法相的組合,是情感分析領(lǐng)域的熱點(diǎn)問題之一。文獻(xiàn)[11]針對(duì)網(wǎng)上在線招聘廣告,建立薪水預(yù)測(cè)模型幫助求職者選擇合適職位,利用文本深度表示模型Doc2vec計(jì)算文本的特征向量,更深入地表示文本語義特征。此外,其結(jié)合隨機(jī)森林、支持向量機(jī)(Support Vector Machine, SVM),例如使用SVM建立薪資預(yù)測(cè)模型,將 Doc2vec模型與詞頻逆向文件頻率模型(Term Frequency-Inverse Document Frequency,TF-IDF)、Word2vec 進(jìn)行比較,發(fā)現(xiàn)Doc2vec 可以在薪資預(yù)測(cè)中取得更令人滿意的預(yù)測(cè)效果。文獻(xiàn)[12]使用 Word2vec 模型,并在此基礎(chǔ)上將其與TF-IDF 權(quán)重計(jì)算方法相結(jié)合,將微博轉(zhuǎn)換為文本向量的形式,用 K-means 聚類算法對(duì)微博數(shù)據(jù)聚類處理,得到文本的相關(guān)主題。文獻(xiàn)[13]提出了詞向量(Word Embedding 或者 Distributed Representation)的思想?!霸~向量”是一個(gè)向量,是低維稠密的特征表達(dá)形式,用于解決維數(shù)災(zāi)難問題。由于向量本身具有信息量,使用詞向量時(shí),可使用向量余弦距離表示詞語之間的語義距離[14]。
本文所提出解決微博文本情感分析問題的整體框架,由兩部分組成:第一構(gòu)建微博專用情感詞典;第二結(jié)合貝葉斯分類算法訓(xùn)練分類器對(duì)微博文本進(jìn)行情感分析。整體框架如圖1所示。
圖1 微博情感分析整體框架
情感分析研究中常用的詞典有:近義詞及其褒貶詞詞典、清華大學(xué)褒貶義詞典、NTUSD臺(tái)灣大學(xué)中文情感詞典、知網(wǎng)Hownet情感詞典[15]、情感詞典及其分類、漢語極性詞極值表、情感詞匯本體,各詞典特征如表1所示。本文將5個(gè)標(biāo)注極性分類的詞典直接合并,沒有極性標(biāo)注的詞典利用下述規(guī)則合并,并添加網(wǎng)絡(luò)新詞構(gòu)建完整詞典。
表1 情感詞典
(1)利用知網(wǎng)(Hownet)相似度合并詞典。對(duì)于多類別情感詞典,使用Hownet相似度進(jìn)行合并,文獻(xiàn) [16]是對(duì)中英文單詞所代表的概念的描述。Hownet提供很多有關(guān)文本處理的功能,例如詞性標(biāo)注、文本相似度計(jì)算等,其中語義相似度計(jì)算和語義相關(guān)場(chǎng)的計(jì)算在本研究中尤為重要,且使用語義相似度計(jì)算文本情緒值準(zhǔn)確度更高?!罢Z義相似度”反映語義的近似程度,可以理解為兩個(gè)詞語在不同語句中能夠相互替換且不改變句子原本意義的程度。詞語的情感傾向由它與基準(zhǔn)詞的語義相似度決定,與積極詞典中的基準(zhǔn)詞相似度大表示傾向積極,反之傾向于消極。
待分析詞語計(jì)算得到的情感值用so_Hownet(Word)表示,調(diào)用Hownet相似度接口計(jì)算詞語相似度,情感傾向計(jì)算式為式(1)。
(1)
用Hownet相似度計(jì)算情感值,首先選取褒義詞、貶義詞兩組基準(zhǔn)詞,調(diào)用Hownet API計(jì)算相似度,根據(jù)相似度對(duì)詞語進(jìn)行情感極性判斷。其中,sim(Word,posi)和sim(Word,negi)代表Word與褒義詞、貶義詞的相似度。so_Hownet(Word)的值為“正”表示詞語褒義。為“負(fù)”表示貶義,設(shè)置相似度閾值為θ1,以詞語相似度為標(biāo)準(zhǔn)將詞語劃分進(jìn)詞典;
(2)利用PMI添加網(wǎng)絡(luò)新詞。將PMI用在情感極性計(jì)算上,擴(kuò)充情感詞典,PMI是一種基于統(tǒng)計(jì)的計(jì)算方法。該算法計(jì)算語料庫中目標(biāo)詞與基準(zhǔn)詞之間的關(guān)聯(lián)程度,并計(jì)算目標(biāo)詞的情感值[17-18]。情緒基準(zhǔn)詞集合為Pi={P1,P2,P3,…,Pn}(i= 1,2,3,…),n表示基準(zhǔn)詞個(gè)數(shù)。目標(biāo)詞集合為C,其中每個(gè)目標(biāo)詞cj(j=1,2,3,…)與基準(zhǔn)詞的PMI值計(jì)算式為
(2)
計(jì)算詞語概率
(3)
(4)
(5)
其中,count(pi,cj)、count(pi)、count(cj)分別表示cj與pi共同出現(xiàn)的次數(shù)、pi出現(xiàn)的次數(shù),cj出現(xiàn)的次數(shù)、q表示語料庫文本總條數(shù)。將式(3)~式(5)帶入式(2)得式(6)。
(6)
為防止目標(biāo)詞與基準(zhǔn)詞在同一文本中次數(shù)為0沒有意義,引入拉普拉斯平滑因子
(7)
引入平滑因子后PMI計(jì)算式如下。
(8)
SO_PMI(pi,Bi)=PMI(pi,Bpi)-PMI(pi,Bni)
(9)
計(jì)算目標(biāo)詞與兩極性基準(zhǔn)詞Bpi及Bni的PMI,求得的差值結(jié)果為正,表示待計(jì)算網(wǎng)絡(luò)詞為積極詞語,為負(fù)表示該網(wǎng)絡(luò)詞為消極詞語,差值的絕對(duì)值大小表示傾向強(qiáng)度。設(shè)傾向性閾值θ2,將閾值劃分的詞語分別加入pos詞典(褒義詞典)、neg詞典(貶義詞典)。專用詞典構(gòu)建流程如圖2所示。
圖2 情感詞典構(gòu)建流程
樸素貝葉斯分類器[18]算法簡單,對(duì)待分類項(xiàng)目給定輸出,將各類別出現(xiàn)概率的大小認(rèn)定為分類項(xiàng)目所屬類別。樸素貝葉斯分類模型參數(shù)少,且對(duì)缺失值不敏感,適應(yīng)微博短文本表達(dá)特點(diǎn),適合用于微博情感分析中。貝葉斯算法原理如下
(10)
其中,w表示文本,由文本特征值{F1,F(xiàn)2,F(xiàn)3,…}描述,特征值由TF-IDF統(tǒng)計(jì)得到;c表示文本所屬類別;P(C)表示某一類別出現(xiàn)的概率;P(W|C)表示某類別情況下文本出現(xiàn)的概率。計(jì)算式如下
P(W|Ci)=P(F1|Ci)P(F2|Ci)P(F3|Ci)…
P(Fi|Ci)
(11)
(12)
(13)
式中,Nj表示特征文本在Ci類中出現(xiàn)的次數(shù);N表示屬于Ci類的文本出現(xiàn)的總次數(shù);Mj表示某種類別出現(xiàn)的次數(shù);M表示所有類別出現(xiàn)的總次數(shù)。另外,由于進(jìn)行分類時(shí)只比較概率大小,不再對(duì)分母P(W)進(jìn)行計(jì)算。
貝葉斯算法對(duì)文本分類問題的描述為
(14)
式中,F(xiàn)i表示微博文本特征詞語。為避免在計(jì)算特征詞類別概率為0的情況,概率公式引入Laplace平滑因子
(15)
其中,α表示特征的個(gè)數(shù),同理可得式(16)。
(16)
(1)微博文本進(jìn)行分詞預(yù)處理,本文采用Jieba分詞技術(shù)獲取中文分詞結(jié)果;
(2)逐個(gè)查找并匹配詞典中分詞的結(jié)果,在相應(yīng)詞典中找到詞語以及標(biāo)簽,直到句子結(jié)束;
(3)根據(jù)識(shí)別到的情緒詞計(jì)算微博情感值,根據(jù)情感值的大小判斷微博所屬分類。
將情感分析的研究用于解決文本情感識(shí)別和分類問題時(shí),需要大量真實(shí)微博數(shù)據(jù)進(jìn)行試驗(yàn)。本文使用八爪魚(Octopus)數(shù)據(jù)采集器設(shè)置采集字段進(jìn)行數(shù)據(jù)采集,并刪除沒有情感分析價(jià)值的微博。
收集微博文本是情緒分類實(shí)驗(yàn)的數(shù)據(jù)基礎(chǔ),采集新浪微博 “熱門”部分的微博,采集字段為 “微博內(nèi)容” 、“微博發(fā)布時(shí)間”、 “點(diǎn)贊數(shù)”、 “轉(zhuǎn)發(fā)數(shù)”、“評(píng)論數(shù)”等,按照設(shè)置規(guī)則獲取“熱門”部分的全部微博。
由于獲得的微博數(shù)量龐大,采集時(shí)適當(dāng)延長數(shù)據(jù)返回時(shí)間,設(shè)置自動(dòng)翻頁循環(huán),減少操作次數(shù)和時(shí)間。如圖3所示,微博文本按照指定字段得到采集結(jié)果,并導(dǎo)出采集結(jié)果。
圖3 數(shù)據(jù)采集過程
獲取到新浪微博“熱點(diǎn)”部分的微博不能直接被使用,需要對(duì)這些數(shù)據(jù)進(jìn)行清洗、分詞等預(yù)處理。首先,清除含有異常字符的微博;然后清除沒有情感分析價(jià)值的微博,例如用于營銷、活動(dòng)推廣的帶有網(wǎng)絡(luò)鏈接的博文,出現(xiàn)“領(lǐng)取”“紅包”等詞語的微博,或者單純圖片轉(zhuǎn)發(fā)微博等。經(jīng)過清洗與篩選之后得到的一部分?jǐn)?shù)據(jù),如表2所示。
表2 微博數(shù)據(jù)清洗結(jié)果
數(shù)據(jù)清洗部分完成對(duì)微博數(shù)據(jù)的粗略篩選,去掉沒有分析價(jià)值的微博;然后進(jìn)行分詞處理,本文使用Python版本 Jieba進(jìn)行分詞。
為增加網(wǎng)絡(luò)詞的識(shí)別情況,載入網(wǎng)絡(luò)詞典,載入詞典的核心代碼:jieba.load_userdict(“%vlogdic.txt”)。分詞處理得到的結(jié)果如表3所示。
表3 分詞結(jié)果
載入網(wǎng)絡(luò)詞典之后,微博文本網(wǎng)絡(luò)詞識(shí)別能力有所提高,應(yīng)用在情感極性計(jì)算上也更加合理。
本實(shí)驗(yàn)用3個(gè)真實(shí)微博數(shù)據(jù)集來測(cè)試情感分析模型的性能,數(shù)據(jù)集包括:4月上旬連續(xù)半個(gè)月的微博數(shù)據(jù)、4月下旬連續(xù)半個(gè)月的微博數(shù)據(jù)及標(biāo)準(zhǔn)集(NLPCC2013會(huì)議提供的微博情感測(cè)試數(shù)據(jù)集)。本文從準(zhǔn)確率和網(wǎng)絡(luò)詞識(shí)別度來評(píng)價(jià)模型性能。實(shí)驗(yàn)環(huán)境為Intel(R)Core(TM)i7-2600 ,Windows 7系統(tǒng), 4 GB內(nèi)存。
將現(xiàn)有的基礎(chǔ)詞典融合構(gòu)建微博專用情感詞典,其中二分類詞典包括積極、消極兩種詞典;多分類詞典按照其分類標(biāo)準(zhǔn)分成多個(gè)類。對(duì)詞典中詞語的信息進(jìn)行統(tǒng)計(jì),具體內(nèi)容如表4所示。
表4 基礎(chǔ)詞典內(nèi)容
首先合并二分類詞典;然后合并多分類詞典,調(diào)用Hownet詞語相似度接口。先計(jì)算“類別詞”與基準(zhǔn)情緒詞的相似度,將相似度大于0.95的直接劃分進(jìn)詞典中,若類別詞相似度低,則逐個(gè)計(jì)算分類中詞語相似度,直接舍棄相似度低于0.95的詞語。然后添加網(wǎng)絡(luò)詞,篩選出有情感傾向的網(wǎng)絡(luò)新詞添加到詞典中。從情感詞中分別挑選積極、消極情緒值絕對(duì)值最大的12對(duì)詞,并將有情感傾向的網(wǎng)絡(luò)詞作為基準(zhǔn)詞,在語料庫中計(jì)算從網(wǎng)詞網(wǎng)獲取的400個(gè)詞語情緒傾向(語料庫使用的是“網(wǎng)詞網(wǎng)”中所有網(wǎng)絡(luò)詞的解析數(shù)據(jù))。最后,按照計(jì)算結(jié)果將網(wǎng)絡(luò)詞添加到詞典中。
對(duì)微博主題情感分析的研究是當(dāng)前研究的熱點(diǎn)問題。微博平臺(tái)上數(shù)據(jù)量巨大,然而,在科學(xué)研究中用于實(shí)驗(yàn)比較的標(biāo)準(zhǔn)數(shù)據(jù)集很少,因此,本實(shí)驗(yàn)自行構(gòu)造了數(shù)據(jù)集擴(kuò)充數(shù)據(jù)。
使用NLPCC2013會(huì)議提供的微博情感測(cè)試數(shù)據(jù)集以及采集得到的4月微博文本(分為上半月、下半月)兩類數(shù)據(jù)進(jìn)行試驗(yàn),3個(gè)數(shù)據(jù)集記為First-Three、Mid- Three、Last- Three。
本文采用最直接的準(zhǔn)確率作為分析指標(biāo),并特別抽出具有網(wǎng)絡(luò)詞的微博文本,使用不同詞典以及純監(jiān)督學(xué)習(xí)方法進(jìn)行情感分析準(zhǔn)確率比較。訓(xùn)練模型對(duì)文本進(jìn)行情感分析得到的結(jié)果為(0,1)范圍的情感值,情感值絕對(duì)值越大表明極性越積極,反之消極。根據(jù)情緒值大小將情緒細(xì)分為“重度積極”、“ 一般積極”、“ 中性”、“一般消極”以及“重度消極”。然后計(jì)算分析的準(zhǔn)確率。載入不同情感詞典,比較準(zhǔn)確率,其中“dic1”代表褒貶義及其近義詞詞典,“dic2”表示清華大學(xué)中文詞典,“dic3” 表示NTUSD臺(tái)灣大學(xué)中文詞典,“dic4”代表知網(wǎng)Hownet詞典,“dic5”代表變形極性詞匯本體,“dic6”代表本文提出的微博專用詞典,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 不同詞典準(zhǔn)確率比較
使用6個(gè)不同詞典測(cè)試同一數(shù)據(jù)集情感并分析結(jié)果的準(zhǔn)確性,實(shí)驗(yàn)表明用文本提出方法構(gòu)建的微博專用情感詞典(“dic6”)準(zhǔn)確性最好。
針對(duì)文本情感分析問題研究標(biāo)準(zhǔn)數(shù)據(jù)集(NLPCC2013會(huì)議提供的情感分析數(shù)據(jù)集),使用5-折交叉驗(yàn)證的方式,比較結(jié)合詞典和貝葉斯分類算法與單獨(dú)使用貝葉斯分類算法訓(xùn)練得到的分類效果,實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 監(jiān)督學(xué)習(xí)和詞典結(jié)合方法與監(jiān)督學(xué)習(xí)方法準(zhǔn)確率比較
圖5中詞典和貝葉斯結(jié)合的分類方法效果優(yōu)于單獨(dú)使用貝葉斯分類。使用采集得到的3條極性不同且?guī)в芯W(wǎng)絡(luò)詞的微博文本,以及情感極性明顯的3條微博文本進(jìn)行試驗(yàn),載入不同詞典得到的試驗(yàn)結(jié)果如表5所示。
表5 文本分析樣例
其中,“文本1”代表“我很高興”(重度積極,用“++”表示),“文本2”代表“我很難過”(重度消極,用“--”),“文本3”代表“好嗨呦,離開閔行已經(jīng)十天了”( 重度積極,用“++”表示),“文本4”代表“藍(lán)瘦,剪頭發(fā)第一天”(消極,用“-”表示),“文本5”代表“高數(shù)考試啊,使出洪荒之力了”( 消極,用“-”表示),“文本6”代表“造飛機(jī)導(dǎo)彈尼瑪當(dāng)玩具啊?!”(消極,用“-”表示)。
對(duì)比上述6種詞典的分析結(jié)果,“文本4”顯然是消極的,但是由于常用詞典對(duì)網(wǎng)絡(luò)詞沒有識(shí)別能力,對(duì)情感判斷存在誤差。僅用本文提出的方法構(gòu)建專用情感詞典對(duì)含有網(wǎng)絡(luò)詞的微博具有識(shí)別能力,得到了更為準(zhǔn)確的分析結(jié)果。
實(shí)驗(yàn)所用的數(shù)據(jù)采集自新浪微博“熱點(diǎn)”部分,用本文提出的微博文本情感分析方法計(jì)算博文情感值,并將結(jié)果記錄下來。實(shí)驗(yàn)以天為單位記錄整月微博的文本情緒分析情況,如圖6所示。
圖6 整月熱點(diǎn)微博文本情緒走向
通過對(duì)微博文本進(jìn)行情緒分析能夠了解網(wǎng)民情緒趨勢(shì),可以作為輿情監(jiān)控的基礎(chǔ),情緒正負(fù)的極值點(diǎn)表明當(dāng)日有特殊事件發(fā)生。
本文對(duì)數(shù)據(jù)量龐大的微博“熱點(diǎn)”部分真實(shí)數(shù)據(jù)進(jìn)行情感分析,使用Hownet相似度計(jì)算方法整合現(xiàn)有詞典,采用PMI算法構(gòu)建網(wǎng)絡(luò)詞典,識(shí)別網(wǎng)絡(luò)詞的情緒傾向,使所構(gòu)建詞典更加適應(yīng)微博文本短小、新穎、時(shí)代性強(qiáng)的特點(diǎn)。本文利用Bayes算法,將詞典與Bayes相結(jié)合,詳細(xì)介紹了詞典構(gòu)建的過程,并對(duì)多種詞典進(jìn)行文本情感分析的結(jié)果進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,采用本文所提方法進(jìn)行情緒分析可以有效提高準(zhǔn)確度。情感分析在輿情分析等方面具有重要的理論和應(yīng)用價(jià)值,其中分類的準(zhǔn)確性作為重要基礎(chǔ),有決定性作用。未來有兩個(gè)方向還需要繼續(xù)研究:一個(gè)是收集網(wǎng)絡(luò)新詞,完善現(xiàn)有詞典;另一個(gè)是訓(xùn)練細(xì)粒度的分類模型,使分析模型細(xì)化為多種情緒模型,從而產(chǎn)生更加直觀的效果。