亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

文本情感分析綜述

2018-09-04 09:37:16劉爽趙景秀楊紅亞徐冠華

軟件導刊 2018年6期

劉爽趙景秀楊紅亞徐冠華

摘要：近年來，隨著互聯(lián)網(wǎng)和社交網(wǎng)絡的發(fā)展，網(wǎng)絡上文本信息迅速增長，對文本情感進行分析成為研究熱點。根據(jù)文本情感分析方法的不同，總結了近年來文本情感分析的研究進展。將文本情感分析分為基于詞典的方法和基于機器學習的方法兩大類：基于詞典的文本情感分析方法分為人工構建和自動構建兩種；基于機器學習的文本情感分析方法分為基于貝葉斯算法、基于最大熵算法和基于SVM的文本情感分析3種。通過梳理國內外研究現(xiàn)狀，對兩類情感分析方法進行了深入分析，對文本情感分析進行了總結和展望。

關鍵詞：文本情感分析；詞典構建；機器學習；貝葉斯算法；最大熵算法；SVM

DOI：10.11907/rjdk.172640

中圖分類號：TP3-0

文獻標識碼：A 文章編號：1672-7800（2018）006-0001-04

Abstract：In recent years， with the development of the internet and social networks， text information on the Internet has been increased rapidly， and sentiment analysis has become a research hotspot. According to the different methods of sentiment analysis， the research progress of sentiment analysis in recent years is summarized.Sentiment analysis is divided into dictionary-based methods and machine learning-based methods. The dictionary-based sentiment analysis methods are divided into two kinds： artificial construction and automatic construction. Machine learning-based sentiment analysis methods are divided into three kinds based on Bayesian algorithm， based on maximum entropy algorithm and sentiment analysis based on SVM. Through the research status at home and abroad， two kinds of sentiment analysis methods are deeply analyzed， and the sentiment analysis is summarized and forecasted.

Key Words：sentiment analysis； dictionary construction； machine learning； Bayesian algorithm； maximum entropy algorithm； SVM

0 引言

近年來，隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的飛速發(fā)展，文本情感分析已經(jīng)廣泛應用于多個領域。例如，文本情感分析對于增加銷售額和改善公司營銷策略（通過跟蹤客戶評論和調查反饋），識別意識形態(tài)轉變和分析政治戰(zhàn)略規(guī)劃趨勢，甚至預測世界股票市場動態(tài)是有價值的。

文本情感分析通常利用額外文本資源（例如詞表、基于情緒的詞典、復雜的詞典和詞匯本體），采用自然語言處理（NLP）過程（例如特征提取、詞性標記等）分析獲取的文檔[1]。文本情感分析的根本是識別文檔中重要的文本特征（詞語強度、詞性和詞頻率、意見/情緒詞和短語，以及否定和增強詞等）。接下來進行情感識別，利用文本信息的極性（正面、負面或中性情感）表征文本文檔。如在無監(jiān)督情況下，經(jīng)常使用基于詞典的方法，利用詞匯資源將極性分數(shù)分配給單個詞以檢測文檔的整體情緒。另一方面，受監(jiān)督的情況通常遵循機器學習方法，其中情感檢測任務通過采用諸如支持向量機（Support Vector Machine，SVM）算法對情感進行分類。本文對近幾年來文本情感分析的研究成果進行了分析、概括、總結和展望。

1 文本情感分析簡介

近年來針對文本情感分析的研究有很多，文獻[2]中將文本情感分析分為三大任務，即文本情感特征提取、文本情感特征分類以及文本情感特征檢索與歸納。

針對基于詞典的方法，文獻[3]將情感詞典的構建分為4種方法，即啟發(fā)式規(guī)則方法、基于圖的方法、基于詞對齊模型的方法和基于表示學習的方法。

對基于機器學習的情感分析方法，主要針對分類方法在情感分析中的應用進行研究，即對諸如樸素貝葉斯、最大熵和SVM分類器進行研究。文獻[4]對上述3種機器學習方法進行了實驗。

2 文本情感分析技術分類

本文將文本情感分析技術主要分為基于詞典的技術和基于機器學習的技術兩大類。其中，基于詞典的技術，根據(jù)人工參與程度不同，可分為人工構建情感詞典和自動構建情感詞典兩類；基于機器學習的技術，根據(jù)情感分類方法不同，可分為基于樸素貝葉斯的方法、基于最大熵的方法和基于SVM的方法3類。

2.1 基于詞典的技術

情感詞典是文本情感分析的基礎。利用構建的文本情感詞典，并對情感詞典進行極性和強度標注，進而進行文本情感分類，能夠有效地對文本進行情感分析?；谠~典的文本情感分析，構建情感詞典是關鍵。本文根據(jù)人工在情感詞典構建過程中的參與程度不同，分為人工構建情感詞典和自動構建情感詞典。圖1是基于詞典的文本情感分析過程。

2.1.1 人工構建情感詞典

人工構建情感詞典的方式，主要是利用大量現(xiàn)有的情感資源對前人總結的情感資源進行擴充標注，進而形成各種基礎情感詞典。其優(yōu)點是便于創(chuàng)建更為豐富的詞條信息，并且便于控制。

其中，大連理工大學徐琳宏等[5]通過手工情感分類和自動獲取強度兩種方法，構造了情感詞匯本體。手工情感分類主要采取基于轉換的錯誤驅動學習方法，自動獲取詞匯的情感強度用的是點互信息（Pointwise Mutual Information，PMI）方法，計算公式如下：

其中，Wu表示具有u類情感的詞，Sui表示具有u類情感的第i個標準詞，計算W與所有具有u類情感的標準詞之間的互信息，選擇互信息最大標準詞的強度作為詞匯W在u類情感上的強度。

王勇等[7]為了對中文微博進行情感分類，構建了中文微博的極性詞典。在各大微博網(wǎng)站隨機抓取100 000條微博，通過多次人工標注和校對，將2 199個情感詞進行正負向和強弱程度區(qū)分，根據(jù)微博表達的多樣性，還構建了表情符號詞典、否定詞典和雙重否定詞典。

目前通過人工構建的情感詞典主要有：哈佛大學的General Inquirer Lexicon、匹茲堡大學提供的OpinionFinder主觀情感詞典、伊利諾伊大學Bing Liu提供的詞典資源、普林斯頓大學構建的英文情感詞典WordNet、臺灣大學的中文情感極性詞典（NTUSD）、知網(wǎng)情感詞典HowNet等。

人工構建情感詞典在擴充詞條信息和操控便利性方面有一定優(yōu)勢，但是大大增加了人工開銷，并且擴充范圍有限，因此不適合跨領域研究。近年來自動構建情感詞典的方法逐漸成為研究方向。

2.1.2 自動構建情感詞典

通過自動構建情感詞典，能很好地降低人工成本，并在一定程度上增強領域適用性，所以，近年來研究人員更多地致力于情感詞典的自動構建工作。自動構建情感詞典的方法主要有基于知識庫的方法、基于語料庫的方法以及基于知識庫與語料庫相結合的方法。

基于知識庫的方法主要通過對現(xiàn)有知識庫（如英文的WordNet、中文的HowNet）進行語義分析或擴展構成情感詞典，以判斷未知文本信息的情感傾向。如對WordNet進行擴展，加入名詞、動詞和副詞，使情感詞典更加全面。

基于語料庫的方法主要是通過從大量語料中自動學習得到情感詞典，并且通過對不同領域的語料進行提取，可以得到特定領域的情感詞典。

如Hatzivassiloglou和McKeown[8]提出一種從大型語料庫收集的間接信息自動檢索語義取向信息的方法。該方法依賴于語料庫，實現(xiàn)了高精度（超過90%），考慮了情感詞或短語和特征詞域的依賴關系，并在語料庫更改時自動適應新域，可以直接應用于其它單詞類。

Turney等[9]使用PMI方法擴展基本的正、負詞匯，然后使用語義極性（ISA）算法分析情感文本，處理一般語料庫數(shù)據(jù)的準確性率達到74%?？紤]到用戶行為，Yang等[10]利用拉普拉斯平滑技術對SO-PMI算法進行改進，建立了中文酒店評論情感詞典。其中PMI如式（1），然后引入語義取向（SO），算法如下：

周詠梅等[11]提出了一種中文微博情感詞典構建方法。該方法利用上下文熵對微博中的網(wǎng)絡用語進行判定，公式如下：

利用基于SO-PMI算法的情感強度計算方法篩選含有網(wǎng)絡用語的微博，對這些微博進行人工標注，并計算情感極性和強度，構成詞典。

Bravo-Marquez等[12]利用自動注釋的推文構建Twitter意見詞典，使用點互信息語義取向（PMI-SO）建模，并使用隨機梯度下降語義取向（SGD-SO）學習詞與情感之間的線性關系。

近年來由于互聯(lián)網(wǎng)中的文本信息增長速度過快，一些網(wǎng)絡詞語出現(xiàn)，使得單純利用原有知識庫或互聯(lián)網(wǎng)中的語料構建情感詞典不能滿足現(xiàn)有文本信息的要求，因此研究人員更傾向于利用知識庫與語料庫相結合的方法構建情感詞典。通過將擴充的情感知識庫及從語料庫中提取的情感詞匯引入情感詞典，使構成的情感詞典更加豐富。

楊小平等[13]利用Word2Vec工具，從海量的語料庫中訓練出一套詞向量，并通過綜合篩選NTUSD詞典、知網(wǎng)情感詞典和大連理工大學開發(fā)的情感本體庫，構成SentiRuc詞典，通過機器學習對情感色彩進行消歧，并對詞典進行了同義關系優(yōu)化、反義關系優(yōu)化和句子級描述力優(yōu)化，在通用領域數(shù)據(jù)集上取得了較好的實驗結果。

基于詞典的文本情感分析技術由于構建的詞典往往只針對某個領域，對于跨領域情感分析的效果不夠好，而且詞典中的情感詞可能不夠豐富，對于短文本和特定領域文本進行情感分析的效果更好。因此，對于長文本來說，更好的解決方法是利用機器學習方法。

2.2 機器學習方法

利用機器學習方法進行文本情感分析是近幾年比較流行的研究方向，通過訓練數(shù)據(jù)對測試數(shù)據(jù)進行識別，然后進行特征提取。通過模型訓練生成文本情感分析模型，然后進行文本情感分析，過程如圖2所示。

根據(jù)分類算法不同，將文本情感分析分為基于樸素貝葉斯（Naive Bayes，NB）的方法、基于最大熵（Maximum Entropy，ME）的方法和基于支持向量機（SVM）的方法。

Pang等[4]2002年利用樸素貝葉斯、最大熵和支持向量機在文本情感分析中進行比較，發(fā)現(xiàn)利用SVM進行文本情感分析能達到最優(yōu)效果。以下內容總結了近年來基于樸素貝葉斯、最大熵和SVM進行文本情感分析的研究成果。

2.2.1 基于樸素貝葉斯的方法

樸素貝葉斯是概率模型，在許多領域都能令人滿意地工作。貝葉斯分類提供了實用的學習算法和先驗知識，觀察到的數(shù)據(jù)可以相結合。在樸素貝葉斯技術中，基本思想是通過使用單詞和類別的聯(lián)合概率找出給定文本文檔類別的概率。該算法被廣泛用于文本情感分析。

綜合框架應用于情感分類任務，有效地整合不同特征集和分類算法，以合成更精確的分類程序。通過對廣泛應用的電影評論進行情感分析，證明了該方法的可行性。

基于樸素貝葉斯算法的文本情感分析可以應用于許多領域，Soelistio等[15]提出了一種使用樸素貝葉斯分類法分析數(shù)字報紙情感極性的簡單模型，將其應用在數(shù)字報紙上進行政治情緒分析，從數(shù)字新聞文章中獲取有關特定政治家積極或消極的情緒信息。

Wikarsa等[16]研究了一種使用樸素貝葉斯方法對Twitter用戶進行情感分類的應用。Dey等[17]利用樸素貝葉斯算法和K-NN算法對電影評論和酒店評論進行情感分析，發(fā)現(xiàn)在電影評論中樸素貝葉斯比K-NN效果好，但在酒店評論中，兩者準確度差別不大。

基于樸素貝葉斯的文本情感分析技術是通過計算概率對文本情感進行分類，適合增量式訓練，而且算法比較簡單，對小規(guī)模數(shù)據(jù)表現(xiàn)良好。但該方法對輸入數(shù)據(jù)的表達形式很敏感，而且需要計算先驗概率，因此會在分類決策方面存在錯誤率。

2.2.2 基于最大熵的方法

最大熵分類器屬于指數(shù)模型類的概率分類器?；谧畲箪卦?，并且從適合訓練數(shù)據(jù)的所有模型中，選擇具有最大熵的模型。近年部分學者基于最大熵構建情感分析模型，對文本情感進行了分析。

Berger、Vincent和Stephen[18]提出了自動構建最大熵模型的最大似然方法，并在自然語言處理中有效地實現(xiàn)這種方法，證明最大熵在許多自然語言處理應用中是一種有效的技術。Fei、Wang等[19]為了解決詞典中存在的詞語有時不能在特定語境中表達情感傾向這一問題，提出了一種基于最大熵分類模型的方法以識別給定評論語句的情緒詞。Lee等[20]將最大熵分類用于估計給定電子產(chǎn)品評論的極性。Batista和Ribeiro[21]在2013年提出了一種基于二元最大熵分類器的策略，用于西班牙語Twitter數(shù)據(jù)的自動情緒分析和主題分類。Yan等[22]在2015年根據(jù)統(tǒng)計學方法從中英文情緒分析中得出藏語句子情緒分析方法，建立了基于最大熵模型的藏語句子情緒分析系統(tǒng)，并對該系統(tǒng)進行了測試。

基于最大熵的文本情感分析只要得到一些訓練數(shù)據(jù)，然后進行迭代，就可以得到所需模型，進行自收斂，方法簡單。但是由于最大熵往往只能得到局部最佳解而非全局最優(yōu)解，因此運用該方法進行情感分析準確率有待提高。

2.2.3 基于支持向量機的方法

支持向量機（SVM）最初由Vapnik[23]提出，是一種相對較新的機器學習方法。它通過尋求結構化風險最小以提高學習機泛化能力，實現(xiàn)經(jīng)驗風險和置信范圍的最小化，從而達到在統(tǒng)計樣本量較少的情況下，亦能獲得良好統(tǒng)計規(guī)律的目的。以下是對近年來研究人員基于SVM進行文本情感分析的介紹。

Sharma和Dey[24]在2013年提出了基于Boosted SVM的混合情緒分析模型。該模型利用兩種技術（Boosting[25]和SVM）對2 000條電影和酒店評論語料庫進行情感分析，結果表明，基于Boosting算法的SVM混合情緒分析模型，性能顯著優(yōu)于單獨的SVM模型。

其中，SVM尋求一個決策表面，將訓練數(shù)據(jù)點分成兩類，并根據(jù)被選為訓練集中唯一有效元素的支持向量進行決策。 SVM（雙重形式）的優(yōu)化是將SVM拉格朗日方程最小化為：

Hajmohammadi[26]利用標準機器學習技術SVM和樸素貝葉斯將波斯語言的電影評論自動分類為正面和負面，發(fā)現(xiàn)SVM分類器在波斯語言的電影評論中達到了比樸素貝葉斯更高的準確度。Karanasou等[27]在2015年對Twitter中的比喻句進行了情感分析，采用語法和形態(tài)特征，標注了比喻和非比喻推文中的情感極性，并利用結構化知識資源，如SentiWordNet情緒詞典，將情緒評分分配給單詞和WordNet并計算單詞相似度。該實驗通過具有線性核函數(shù)的SVM分類器實現(xiàn)了最好的結果。Huang等[28]基于金融部門的特點，利用結合斯坦福語言依賴關系的SVM分類法，對金融部門用戶生成的文本進行情緒分析。

基于SVM的文本情感分析方法被認為是最好的情感分析方法，該方法泛化錯誤率低，計算開銷不大，而且對于訓練樣本較小的文本可以得到很好的情感分析效果，對高維數(shù)據(jù)的處理效果良好，能夠得到較低的錯誤率，但該方法對參數(shù)調節(jié)和核函數(shù)的選擇敏感。

3 結語

隨著互聯(lián)網(wǎng)的飛速發(fā)展，人們通過互聯(lián)網(wǎng)進行交流、參與評論增加，文本情感分析對于客戶體驗、市場研究、客戶洞察、數(shù)字分析和媒體評測等變得越來越重要。文本情感分析是一個新興的研究方向，而且前期工作都是以長文本為研究重點。近年來由于Facebook、Twitter、新浪微博等短文本社交平臺流行，對短文本進行情感分析的研究越來越多。但是對于短文本的情感分析研究主要集中在通過情感分析挖掘其存在的商業(yè)價值，且對情感的分析類別研究比較寬泛，缺乏對某方面情感的進一步研究，如通過互聯(lián)網(wǎng)用戶產(chǎn)生的文本信息判斷其情緒消極程度，從而進一步判斷其患有抑郁癥的可能性。接下來，對互聯(lián)網(wǎng)用戶文本情感進行細化研究成為一個值得探索的方向。

參考文獻：

[1] PRABOWO R，THELWALL M. Sentiment analysis： a combined approach[J]. Journal of Informetrics，2009，3（2）：143-157.

[2] 趙妍妍，秦兵，劉挺.文本情感分析[J].軟件學報，2010，21（8）：1834-1848.

[3] 梅莉莉，黃河燕，周新宇，等.情感詞典構建綜述[J].中文信息學報，2016，30（5）：19-27.

[4] PANG B， LEE L， VAITHYANATHAN S. Thumbs up： sentiment classification using machine learning techniques[C]. Acl-02 Conference on Empirical Methods in Natural Language Processing，2002：79-86.

[5] 徐琳宏，林鴻飛，潘宇，等.情感詞匯本體的構造[J].情報學報，2008，27（2）：180-185.

[6] EKMAN P. Facial expression and emotion [J]. American Psychologist，1993，48（4）：384.

[7] 王勇，呂學強，姬連春，等.基于極性詞典的中文微博客情感分類[J].計算機應用與軟件，2014（1）：34-37.

[8] HATZIVASSILOGLOU V， MCKEOWN K R. Predicting the semantic orientation of adjectives[J]. Proceedings of the Acl，1997：174-181.

[9] TURNEY P D， LITTMAN M L. Measuring praise and criticism：Inference of semantic orientation from association[J]. Acm Transactions on Information Systems，2003，21（4）：315-346.

[10] YANG A M， LIN J H， ZHOU Y M， et al. Research on building a Chinese sentiment lexicon based on SO-PMI[J]. Applied Mechanics & Materials，2012（12）：1688-1693.

[11] 周詠梅，陽愛民，林江豪.中文微博情感詞典構建方法[J].山東大學學報：工學版，2014，44（3）：36-40.

[12] BRAVO-MARQUEZ F， FRANK E， PFAHRINGER B. Building a twitter opinion lexicon from automatically-annotated tweets[M]. Amsterdam：Elsevier Science Publishers B V：2016.

[13] 楊小平，張中夏，王良，等.基于Word2Vec的情感詞典自動構建與優(yōu)化[J].計算機科學，2017，44（1）：42-47.

[14] GOVINDARAJAN M. Sentiment analysis of movie reviews using hybrid method of Naive Bayes and genetic algorithm[J]. International Journal of Advanced Computer Research，2013，3（4）：139.

[15] SOELISTIO Y E， SURENDRA M R S. Simple text mining for sentiment analysis of political figure using Naive Bayes classifier method[C]. The Proceedings of the 7th Icts，2015：99-104.

[16] WIKARSA L， THAHIR S N. A text mining application of emotion classifications of Twitter's users using Nave Bayes method[C].International Conference on Wireless and Telematics，2015：1-6.

[17] DEY L， CHAKRABORTY S， BISWAS A， et al. Sentiment analysis of review datasets using Naive Bayes and K-NN classifier[J]. Information Retrieval，2016，8（4）：54-62.

[18] BERGER A L， PIETRA V J D， PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational Linguistics，1996，22（1）：39-71.

[19] FEI X， WANG H， ZHU J. Sentiment word identification using the maximum entropy model[C].International Conference on Natural Language Processing and Knowledge Engineering，2010：1-4.

[20] LEE， HBHD C. Chinese sentiment analysis using maximum entropy[C]. Proceedings of the Workshop on Sentiment Analysis Where AI Meets Psychology（SAAIP），2011：89-93.

[21] BATISTA F， RIBEIRO R. Sentiment analysis and topic classification based on binary maximum entropy classifiers[J]. Procesamiento de lenguaje natural，2013，50：77-84.

[22] YAN X， HUANG T. Tibetan sentence sentiment analysis based on the maximum entropy model[C].International Conference on Broadband and Wireless Computing， Communication and Applications，2015：594-597.

[23] VAPNIK V. SVM method of estimating density， conditional probability， and conditional density[C]. IEEE International Symposium on Circuits and Systems，2000：749-752.

[24] SHARMA A， DEY S. A boosted SVM based sentiment analysis approach for online opinionated text[C]. Research in Adaptive and Convergent Systems，2013：28-34.

[25] KEAMS M J， VALIANTL G. Cryptographic limitations on learning Boolean formulae and finite automata[J]. Journal of the Acm，1994，41（1）：433-444.

[26] HAJMOHAMMADI M S. A SVM-based method for sentiment analysis in Persian language[C].International Conference on Graphic and Image Processing，2013：1-5.

[27] KARANASOU M， DOULKERIDIS C， HALKIDI M. DsUniPi： an SVM-based approach for sentiment analysis of figurative language on twitter[C].International Workshop on Semantic Evaluation，2015：709-713.

[28] HUANG J，TONG R， JIANG R.Sentiment analysis in financial domain based on SVM with dependency syntax[J]. Computer Engineering & Applications，2015，51（23）：230-235.

（責任編輯：何麗）