亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web文本情感分析研究綜述

        2014-08-08 03:53:37李光敏許新山熊旭輝
        現(xiàn)代情報 2014年5期
        關(guān)鍵詞:情感分析

        李光敏+許新山+熊旭輝

        基金項目:湖北省教育廳青年科學(xué)技術(shù)研究項目(項目編號:Q20132503);湖北師范學(xué)院文理學(xué)院2012教學(xué)研究項目(項目編號:XJ201219)。

        作者簡介:李光敏(1979-),男,講師,碩士,研究方向:文本挖掘、情感分析?綜述?

        〔摘要〕隨著Web20的迅速發(fā)展,互聯(lián)網(wǎng)成為人們表達(dá)觀點、抒發(fā)情感的重要工具,如何有效地從Web文本中提取、歸納出用戶的情感觀點是研究者所面臨的重要問題。本文首先提出對日益增多的Web文本進(jìn)行情感分析的必要性。然后從文本主客觀性分類、情感極性分類和主題及觀點持有者抽取等方面介紹文本情感分析在國內(nèi)外的研究進(jìn)展;最后總結(jié)出今后需深入研究的問題。

        〔關(guān)鍵詞〕情感分析;主客觀分類;情感極性;情感信息抽取

        DOI:10.3969/j.issn.1008-0821.2014.05.037

        〔中圖分類號〕TP18〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2014)05-0173-04

        An Overview of Research on Web Text Sentiment AnalysisLi GuangminXu XinshanXiong Xuhui

        (College of Computer Science and Technology,Hubei Normal University,Huangshi 435000,China)

        〔Abstract〕With the rapid development of Web20 technology,Internet has become an important tool for people to express their opinion and emotion.It is a challenge for researchers how to extract and summarize user opinions expressed in web text.Firstly,this paper presented the necessity of sentiment analysis on the growing Web text.Then it introduced the research progress both at home and abroad of text sentiment analysis from the prospect of emotional information classification and information extraction.Finally,it summarized the sentiment analysis application status,existing problems and deficiencies of it.

        〔Keywords〕sentiment analysis;subjective classification;sentiment polarity;information extraction

        隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web文本成為交流情感、發(fā)表觀點的主要載體和熱點話題的信息源。用戶通過社會化媒體(論壇、博客、微博)分享對所購商品的使用感受、新上映電影的評論、當(dāng)前熱點新聞的個人看法等,這些言論往往包含有喜、怒、哀、樂、肯定、否定、中立等個人豐富的情感和觀點。

        正是這些包含豐富情感的Web評論文本的涌現(xiàn),一方面幫助生產(chǎn)廠商通過網(wǎng)絡(luò)口碑(Electronic Word-of-mouth)了解產(chǎn)品優(yōu)勢和不足,以改進(jìn)產(chǎn)品設(shè)計和服務(wù),調(diào)整廣告投放策略,獲得市場競爭優(yōu)勢;另一方面幫助消費者了解產(chǎn)品性能,縮短購買決策時間。如果僅靠手工對這些日益增長的海量信息進(jìn)行歸納、分類,顯然是不現(xiàn)實的。因此結(jié)合信息檢索、自然語言處理、機(jī)器學(xué)習(xí)等領(lǐng)域知識對非結(jié)構(gòu)化的文本進(jìn)行提取和分類的情感分析技術(shù)(Sentiment Analysis)便應(yīng)運而生。

        1文本情感分類

        廣義上講,文本信息主要用來描述客觀性事實和表達(dá)主觀性觀點[1],當(dāng)前的文本信息處理大多通過關(guān)鍵詞抽取文本描述中特定事件發(fā)生的時間、地點、人物、屬性等客觀信息。文本情感分類則先對文本進(jìn)行主客觀分類,然后對主觀性文本中的情感信息劃分極性。極性劃分是指對主觀性文本進(jìn)行情感極性的識別,并分別標(biāo)注為正面(Positive)的肯定、負(fù)面(Negative)的否定和中性(Neutral),即完成情感信息分類的第二大任務(wù)。

        11主客觀分類國內(nèi)外研究現(xiàn)狀

        Wiebe[2]等人較早將形容詞、副詞等和標(biāo)點及句子位置作為特征,設(shè)計了樸素貝葉斯(Nave Bayes)分類器,采用10折交叉驗證的測試方法,并通過實驗證明平均分類準(zhǔn)確率達(dá)到815%。Wiebe[3]又在此基礎(chǔ)上加入詞性和基于詞典的語義詞兩類特征項,使得分類效果提升明顯。Ortega[4]通過無監(jiān)督粗粒度的詞義消岐方式來區(qū)分每個詞的客觀、主觀、強(qiáng)主觀性用法,從而完成句子級的主客觀分類。

        由于中文表達(dá)的復(fù)雜性和特殊性,國內(nèi)在該方面的研究成果不多。Yao[5]較早通過預(yù)選特征項(情感形容詞、第一或第二人稱代詞、標(biāo)點符號、感嘆詞、動詞、數(shù)字和日期),使用Weka中多種分類算法進(jìn)行性能測試,最后采用6種穩(wěn)定特征項和用于支持向量分類的連續(xù)最小優(yōu)化算法(SMO)能達(dá)到最高F度量為938%的分類效果。Wang[6]通過對比實驗分析了上下文信息對主客觀分類的影響。

        從國內(nèi)外研究現(xiàn)狀來看,通過分類器和特征項選取是完成文本主客觀分類的主要方法,那么今后采用更深層、更具針對性的特征項更能提高分類效果。

        12主觀性文本中的情感極性分類研究

        主觀性文本中的情感極性分類目前主要有兩種研究思路:基于情感知識的情感詞典建立[7]和基于機(jī)器學(xué)習(xí)的特征選取。

        121基于情感知識

        Tong[8]通過人工抽取與影評相關(guān)的詞匯(great acting、uneven editing)進(jìn)行情感極性(positive或negative)標(biāo)記后建立專門的情感詞典。Hu[7]通過使用已標(biāo)注極性的形容詞,結(jié)合WordNet中詞間的同義、近義關(guān)系來判斷新詞的情感極性的方法來判斷主觀性文本的情感極性,該方法解決了Tong建立的情感詞典只針對特定領(lǐng)域(影評)的問題。2008年Bitext[9]團(tuán)隊不使用統(tǒng)計學(xué)知識而通過計算語言學(xué)(Computational Linguistics)實現(xiàn)了6種語言的短語級文本的情感極性分類,并公布了他們的API。

        中文文本情感極性研究方面,李鈍[10]等人從語言學(xué)角度出發(fā),分析詞典中對詞語義定義的特點,采用“情感傾向定義”權(quán)重優(yōu)先的計算方法獲得短語中各詞的語義傾向度,然后分析短語中各詞組合方式的特點,提出中心詞概念對各詞的傾向性進(jìn)行計算來識別短語的極性和強(qiáng)度。Meng[11]通過定義關(guān)鍵詞類別、建立關(guān)鍵詞詞庫和關(guān)鍵詞模板庫,設(shè)計模板匹配算法和文本褒貶傾向值算法來實現(xiàn)中文文本的情感極性分類。

        通過情感知識進(jìn)行文本極性分類主要存在如下問題:(1)該類方法從詞匯角度出發(fā),如果文本中含有否定詞、雙重否定詞、轉(zhuǎn)折詞、比較詞會對句子級和篇章級的情感極性分類造成影響;(2)字典中所選情感詞大多是情感特征比較明顯的詞語(形容詞或副詞),但其他詞語也含有褒貶情感,如“做人不能太CNN”,“‘延遲退休讓‘以房養(yǎng)老,草泥馬你何時給老百姓分過房了?”中的“CNN”和“草泥馬”暗示負(fù)面情感。這類網(wǎng)絡(luò)新詞也增加了情感詞典建立的難度。

        endprint

        122基于機(jī)器學(xué)習(xí)算法

        基于機(jī)器學(xué)習(xí)算法方式主要使用訓(xùn)練集對統(tǒng)計模型進(jìn)行訓(xùn)練,最后用訓(xùn)練好的分類器預(yù)測新輸入文本中的情感極性。

        Pang[12]使用支持向量機(jī)(SVM)、最大熵(ME)和樸素貝葉斯(NB)3種分類器對篇章級的電影評論文本進(jìn)行分類對比,發(fā)現(xiàn)機(jī)器學(xué)習(xí)方法比基于人工標(biāo)注特征的方法更有效,并且SVM在3種分類器中平均表現(xiàn)最好。Thelwall[13]結(jié)合研究用戶書寫習(xí)慣(含感嘆號、重復(fù)標(biāo)點符號、單詞中字母重復(fù)等)實現(xiàn)SentiStrength算法對MySpace評論進(jìn)行極性分類,實驗結(jié)果表明正向預(yù)測準(zhǔn)確率達(dá)到606%,負(fù)向準(zhǔn)確率達(dá)到728%。

        國內(nèi)方面,Liu[14]提出了基于層疊式CRFs模型的句子褒貶度分析方法能在有效識別句子褒貶度的同時,提高了句子褒貶強(qiáng)度判別的準(zhǔn)確度。徐軍[15]等人利用樸素貝葉斯和最大熵方法進(jìn)行新聞及評論語料的情感分類,其準(zhǔn)確率最高能達(dá)到90%,同時選擇具有語義傾向的詞匯作為特征項、對否定詞正確處理和采用二值作為特征項權(quán)重能提高分類的準(zhǔn)確率。

        從前人的研究不難看出,使用機(jī)器學(xué)習(xí)算法對于主觀性文件進(jìn)行情感極性分類的關(guān)鍵在于領(lǐng)域語料庫的完善程度、特征選取及權(quán)重計算方法和分類算法的選擇。

        2情感信息抽取

        Kim[16]認(rèn)為情感信息抽取主要從主觀性文本中確定主題、觀點持有者、陳述和情感以及它們之間的關(guān)系,抽取出有價值的情感信息。這一階段的主要任務(wù)有:(1)識別評價對象或主題,如手機(jī)產(chǎn)品評論中的產(chǎn)品屬性(“外觀”,“通話質(zhì)量”)或新聞事件中某個話題(“延遲退休”);(2)識別觀點持有者(包括個人、機(jī)構(gòu)),如“中方對中國駐敘使館落入炮彈感到震驚,予以強(qiáng)烈譴責(zé)”中觀點持有者為“中方”。(3)陳述選擇,主要針對文本的主客觀分類;(4)情感分析,決定主觀陳述中的情感極性。其中(3)(4)已在11和12節(jié)中進(jìn)行綜述。

        21主題抽取

        目前主題抽取任務(wù)的研究主要歸結(jié)為如下方法:

        (1)通過詞性標(biāo)注器查找常見的名詞和名詞短語,Hu[17]根據(jù)主題與指標(biāo)詞的共現(xiàn)特征來識別常現(xiàn)和非?,F(xiàn)的主題,隨后Popescu[18]基于如下假設(shè):共現(xiàn)的次數(shù)越多的兩個詞,則它們之間的聯(lián)系也越大,提出點互信息(Point-wise Mutual Information,PMI)方法提高了Hu算法的精度。

        (2)分析觀點和評價對象之間的關(guān)系,Blair-Goldensohn[19]認(rèn)為因為同樣的情感詞可以用來描述或修改不同的評價對象,如果句子中只含情感詞而沒有常見的評價對象,那就把抽取出距離情感詞最近的名詞或名詞短語做評價對象。如“這家客廳布置得美輪美奐?!薄懊垒喢缞J”表示褒義的情感詞,距離最近的名詞“客廳”就是抽取的評價對象。Stoyanov[20]通過主題消解(Topic Coreference Resolution)完成抽取。

        (3)使用監(jiān)督學(xué)習(xí)算法,其中最突出的方法是基于序列學(xué)習(xí)(Sequential Learning),這類方法需要手工將語料庫中的數(shù)據(jù)標(biāo)注為主題詞和非主題詞后進(jìn)行訓(xùn)練,Li[21]合并兩種條件隨機(jī)場變體(Skip-CRF和Tree-CRF)進(jìn)行主題和觀點抽取。其他的方法如Yu[22]通過只標(biāo)記主題詞而不考慮非主題詞的單值分類支持向量機(jī)(One-class SVM)完成主題抽取。Kovelamudi[23]提出監(jiān)督式獨立的域模型,利用Wikipedia和Web語料來從用戶評論中識別產(chǎn)品屬性,實驗表明F1值達(dá)到073。

        22觀點持有者抽取

        Kim[16]認(rèn)為新聞中的觀點持有者占有重要的位置,因為它們經(jīng)常明確表示持有該觀點的人或組織,可以借助于命名實體識別技術(shù)來獲取觀點持有者。Choi[24]通過條件隨機(jī)場模型結(jié)合選取的各類特征完成這一任務(wù)。近年來其他學(xué)者對此任務(wù)也有所研究,如Elarnaoty[25]基于條件隨機(jī)場和半監(jiān)督模式識別技術(shù)實現(xiàn)阿拉伯語新聞中的觀點持有者識別,Johansson[26]使用含有一系列特征項的支持向量機(jī)(Support Vector Machine)完成觀點持有者抽取任務(wù)。

        考慮到觀點的表達(dá)總是離不開觀點持有者這一關(guān)系,可以同步完成觀點持有者和觀點抽取的任務(wù)。Bethard[27]完成主觀句中情感短語抽取后,分析觀點和動詞的句法關(guān)系,最后同步識別出觀點持有者。

        3結(jié)束語

        本文在研究相關(guān)文本情感分析領(lǐng)域文獻(xiàn)的基礎(chǔ)上,從技術(shù)實現(xiàn)角度綜述了國內(nèi)外文本情感分析的發(fā)展歷程。情感分析這一新興的研究方向除了取得較為成熟的研究成果外,尚有如下的問題需要深入研究:

        (1)微博類社交方式導(dǎo)致文本書寫的隨意性、口語化,如:簡寫、拼寫錯誤、標(biāo)點符號錯用等情況,這仍是大多情感分析系統(tǒng)面臨的挑戰(zhàn)。

        (2)反諷的表達(dá)方式,如果不熟悉觀點持有者的語言風(fēng)格,就無法識別出正確的情感極性。如:“你真是太有才了!”需要結(jié)合觀點持有者所表達(dá)的上下文語境來識別該句是褒義還是貶義。

        (3)產(chǎn)品評論中針對短語級的情感分析,如何對評價對象進(jìn)行歸類問題。如:“電池使用時間”和“電量使用情況”均表示手機(jī)產(chǎn)品的同一特性。

        參考文獻(xiàn)

        [1]Ding X,Liu B,Yu P S.A holistic lexicon-based approach to opinion mining[C].Proceedings of the international conference on Web search and web data mining,ACM,2008:231-240.

        [2]Wiebe J M,Bruce R F,OHara T P.Development and use of a gold-standard data set for subjectivity classifications[C].Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics,Association for Computational Linguistics,1999:246-253.

        [3]Wiebe J.Learning subjective adjectives from corpora[C].AAAI/IAAI,2000:735-740.

        [4]Ortega R,Fonseca A,Gutiérrez Y,Montoyo A.Improving Subjectivity Detection using Unsupervised Subjectivity Word Sense Disambiguation[J].Procesamiento del Lenguaje Natural,2013,51:179-186.

        [5]Yao T,Peng S.A study of the classification approach for Chinese subjective and objective texts[J].Proc of the NCIRCS,2007:117-123.

        [6]Wang G,Zhao J.Sentence Sentiment Analysis Based on Multi-redundant-labeled CRFs[J].Journal of Chinese information processing,2007,(5):51-56.

        endprint

        [7]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.

        [8]Tong R M.An operational system for detecting and tracking opinions in on-line discussion[C].Working Notes of the ACM SIGIR 2001 Workshop on Operational Text Classification,2001:6.

        [9]Schindler U,Diepenbroek M.Generic XML-based framework for metadata portals[J].Computers & Geosciences,2008,34:1947-1955.

        [10]李鈍,曹付元,曹元大,等.基于短語模式的文本情感分類研究[J].計算機(jī)科學(xué),2008,35(4):132-134.

        [11]Meng F-b,Cai L-h,Chen B,Wu P.Research on the recognition of text valence[J].Journal of Chinese Computer Systems,2008,28(2007):1-4.

        [12]Pang B,Lee L,Vaithyanathan S.Thumbs up?:sentiment classification using machine learning techniques[C].Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10,Association for Computational Linguistics,2002:79-86.

        [13]Thelwall M,Buckley K,Paltoglou G,Cai D,Kappas A.Sentiment strength detection in short informal text[J].Journal of the American Society for Information Science and Technology,2010,61(12):2544-2558.

        [14]Liu K,Zhao J.Sentence Sentiment Analysis Based on Cascaded CRFs Model[J].Journal of Chinese information processing,2008,(1):123-128.

        [15]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動分類[J].中文信息學(xué)報,2007,21(6):95-100.

        [16]Kim S-M,Hovy E.Determining the sentiment of opinions[C].Proceedings of the 20th international conference on Computational Linguistics,Association for Computational Linguistics,2004:1367.

        [17]Hu M,Liu B.Mining opinion features in customer reviews[C].AAAI,2004:755-760.

        [18]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer,2007:9-28.

        [19]Blair-Goldensohn S,Hannan K,McDonald R,Neylon T,Reis G A,Reynar J.Building a sentiment summarizer for local service reviews[C].WWW Workshop on NLP in the Information Explosion Era,2008.

        [20]Stoyanov V,Cardie C.Topic identification for fine-grained opinion analysis[C].Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1,Association for Computational Linguistics,2008:817-824.

        [21]Li F,Huang M,Zhu X.Sentiment Analysis with Global Topics and Local Dependency[C].AAAI,2010.

        [22]Yu J,Zha Z-J,Wang M,Chua T-S.Aspect Ranking:Identifying Important Product Aspects from Online Consumer Reviews[C].ACL,Citeseer,2011:1496-1505.

        [23]Kovelamudi S,Ramalingam S,Sood A,Varma V.Domain Independent Model for Product Attribute Extraction from User Reviews using Wikipedia[C].IJCNLP,2011:1408-1412.

        [24]Choi Y,Cardie C,Riloff E,Patwardhan S.Identifying sources of opinions with conditional random fields and extraction patterns[C].Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2005:355-362.

        [25]Elarnaoty M,AbdelRahman S,Fahmy A.A Machine Learning Approach For Opinion Holder Extraction In Arabic Language[J].arXiv preprint arXiv:12061011,2012.

        [26]Johansson R,Moschitti A.Reranking models in fine-grained opinion analysis[C].Proceedings of the 23rd International Conference on Computational Linguistics,Association for Computational Linguistics,2010:519-527.

        [27]Bethard S,Yu H,Thornton A,Hatzivassiloglou V,Jurafsky D.Automatic extraction of opinion propositions and their holders[C].2004 AAAI Spring Symposium on Exploring Attitude and Affect in Text,2004:2224.

        (本文責(zé)任編輯:孫國雷)

        endprint

        猜你喜歡
        情感分析
        基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究
        面向應(yīng)用比較的用戶評論挖掘工具的設(shè)計與實現(xiàn)
        基于微博文本的情感傾向分析
        軟件工程(2016年12期)2017-04-14 02:05:53
        基于word2vec擴(kuò)充情感詞典的商品評論傾向分析
        基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評論情感屬性的動態(tài)變化
        預(yù)測(2016年5期)2016-12-26 17:16:57
        歌曲《我的深情為你守候》的情感分析與演唱詮釋
        经典女同一区二区三区| 99国产精品无码专区| 91白浆在线视频| 久久99国产亚洲高清观看韩国| 四虎永久免费影院在线| 亚洲av日韩片在线观看| 国产小车还是日产的好| 黑丝美女被内射在线观看| 视频一区二区免费在线观看| 亚洲一区二区三区视频免费| 日韩av一区二区三区高清| 日本一道本加勒比东京热| 蜜桃视频在线免费视频| 中文有码人妻字幕在线| 日韩av一区二区观看| 国产亚洲精品美女久久久m| 国产乱了真实在线观看| 免费a级毛片出奶水| 日本成人久久| 欧美激情国产亚州一区二区| 亚洲最黄视频一区二区| 亚洲精品国产第一区三区| 日本刺激视频一区二区| 天天做天天爱夜夜爽女人爽| 孕妇特级毛片ww无码内射| 狠狠躁夜夜躁人人爽天天天天97| 亚洲精品国精品久久99热一| 亚洲AV无码成人品爱| 国产精品一区二区三区色| 中文文精品字幕一区二区| 日韩女同视频在线网站| 人妻丰满熟妇aⅴ无码| 久久99国产精一区二区三区| 久久久久国产综合av天堂| 黄色视频在线免费观看| 亚洲国产一区二区三区亚瑟| 国产精品密播放国产免费看| 亚洲AV一二三四区四色婷婷| 日韩精品永久免费播放平台| 久久精品亚洲成在人线av| 日本一区二区三区高清视|