亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        情感分類(lèi)綜述

        2016-11-14 03:27:46李超男
        現(xiàn)代計(jì)算機(jī) 2016年29期
        關(guān)鍵詞:聚類(lèi)分類(lèi)領(lǐng)域

        李超男

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        情感分類(lèi)綜述

        李超男

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

        隨著電子商務(wù)和媒體社交工具的普及,互聯(lián)網(wǎng)上充斥著極其豐富的信息資源。商業(yè)界、政界和學(xué)術(shù)界敏感的認(rèn)識(shí)到這些數(shù)據(jù)的寶貴,大批研究者開(kāi)始分析抽取這些數(shù)據(jù)中的信息。情感分類(lèi)受到研究者們的密切關(guān)注,因?yàn)橛行У那楦蟹治隹梢砸龑?dǎo)人們消費(fèi)、幫助商家改進(jìn)研究新產(chǎn)品、對(duì)社會(huì)輿情進(jìn)行監(jiān)控等。介紹情感分類(lèi)的機(jī)器學(xué)習(xí)方法和側(cè)重解決的問(wèn)題,并對(duì)目前情感分類(lèi)的研究進(jìn)展進(jìn)行總結(jié)歸納。

        情感分類(lèi);情感分析;評(píng)價(jià)指標(biāo);特征選擇

        0 引言

        目前,隨著媒體社交工具如微博、微信等的蓬勃發(fā)展,人們?cè)絹?lái)越喜歡在網(wǎng)上發(fā)表自己的情感和觀點(diǎn)。因此,對(duì)網(wǎng)絡(luò)上這些大量的帶有情感的數(shù)據(jù)進(jìn)行分析分類(lèi)對(duì)于電子商務(wù)中用戶決策和輿情監(jiān)控等有重要的意義。情感分類(lèi)是一種特殊的文本分類(lèi),它對(duì)包含有主觀傾向性的文本進(jìn)行分析整理得到文本發(fā)表者對(duì)某種觀點(diǎn)的支持與否,如人們對(duì)于“衣服”的“尺碼、布料、做工、設(shè)計(jì)”等屬性的情感傾向。本文從機(jī)器學(xué)習(xí)方法和情感分類(lèi)側(cè)重關(guān)注要解決的問(wèn)題對(duì)情感分類(lèi)研究工作進(jìn)展進(jìn)行分析、闡述、總結(jié)。

        1 情感分類(lèi)的機(jī)器學(xué)習(xí)方法

        1.1有監(jiān)督學(xué)習(xí)的情感分類(lèi)

        監(jiān)督學(xué)習(xí)是一種根據(jù)給定標(biāo)簽的數(shù)據(jù)集不斷調(diào)整函數(shù)參數(shù)使其達(dá)到期望目標(biāo)的機(jī)器學(xué)習(xí)任務(wù)。Pang首次運(yùn)用監(jiān)督學(xué)習(xí)方式進(jìn)行情感分類(lèi);他在文獻(xiàn)[1]中比較了樸素貝葉斯、最大熵和支持向量機(jī)三種分類(lèi)算法及特征選擇策略(Bigram、Unigram、Parts-of-Speech)及詞位置和特征權(quán)重的選擇在情感分類(lèi)中的效果,證明了情感分類(lèi)任務(wù)比主題分類(lèi)要復(fù)雜困難[1]。

        此后,很多研究者致力于提高監(jiān)督學(xué)習(xí)的情感分類(lèi)研究。如Kim和Hovy借助主題來(lái)進(jìn)行英語(yǔ)詞和句子的情感分類(lèi),后來(lái)他們利用使用語(yǔ)義角色標(biāo)注的語(yǔ)義結(jié)構(gòu)從網(wǎng)絡(luò)新聞媒體中分析文本發(fā)布者和該文本主題的觀點(diǎn)[2]。Balamurali and Joshi使用詞義特征(WordNet中的同義反義詞集)進(jìn)行情感分類(lèi),實(shí)驗(yàn)結(jié)果表明比基于詞特征的分類(lèi)效果要好得多[3]。不同于傳統(tǒng)詞袋模型,Bespalov等將文檔看做BON (bag-ofngram,(n>3))并使用latent n-grams解決這種方法引發(fā)的維度災(zāi)難[4]。

        1.2半監(jiān)督學(xué)習(xí)的情感分類(lèi)

        半監(jiān)督學(xué)習(xí)是在大量沒(méi)有標(biāo)注的數(shù)據(jù)集(US)和少量已標(biāo)注數(shù)據(jù)集 (LS)上進(jìn)行學(xué)習(xí)的問(wèn)題。協(xié)同學(xué)習(xí)(Co-training)、自學(xué)習(xí)、Transductive SVM和EM是最常見(jiàn)的算法。Co-training是用在數(shù)聚集特征劃分到的不同特征集上獨(dú)立學(xué)習(xí)到的分類(lèi)器在無(wú)標(biāo)注數(shù)據(jù)集上進(jìn)行分類(lèi)或者標(biāo)注。Wan就采用Co-training方法使用少量有標(biāo)注的英文語(yǔ)料在大量的無(wú)標(biāo)注中文語(yǔ)料上進(jìn)行了高效的中文情感分類(lèi)[5]。Li和Huang也采用了協(xié)同學(xué)習(xí)方法對(duì)分成個(gè)人和非個(gè)人兩種類(lèi)別的文本清醒半監(jiān)督情感分類(lèi)[6]。Dasgupta和Ng采用以將明確的容易提煉的和模糊的難以分類(lèi)的評(píng)論區(qū)分開(kāi)來(lái)為主要思想的半監(jiān)督方法進(jìn)行極性分類(lèi)[7]。

        另外值得一提的是,Sindhwani和Melville采用基于文章和詞的二部圖即用詞的先驗(yàn)知識(shí)結(jié)合未標(biāo)記語(yǔ)料進(jìn)行情感分類(lèi)[8]。形、音、義是語(yǔ)言的三個(gè)屬性,其中義尤其重要。研究文本的詞義語(yǔ)義信息無(wú)疑對(duì)于自然語(yǔ)言處理數(shù)據(jù)挖掘有很重要的意義。隨著深度學(xué)習(xí)算法的日益成熟,自然語(yǔ)言處理研究者們將深度學(xué)習(xí)算法逐漸引入NLP任務(wù)中并取得較好效果。Zhou和Chen提出了一種由RBM和無(wú)監(jiān)督學(xué)習(xí)方法結(jié)合構(gòu)造的半監(jiān)督學(xué)習(xí)算法AND[9]。

        1.3無(wú)監(jiān)督學(xué)習(xí)的情感分類(lèi)

        無(wú)監(jiān)督學(xué)習(xí)的情感分類(lèi)僅在未標(biāo)注的數(shù)據(jù)集上進(jìn)行學(xué)習(xí),他們提取未標(biāo)注數(shù)據(jù)集的情感傾向特征然后根據(jù)這些特征給數(shù)據(jù)集打上情感類(lèi)別的標(biāo)簽。最典型的無(wú)監(jiān)督學(xué)習(xí)是聚類(lèi),聚類(lèi)使得數(shù)據(jù)集中的數(shù)據(jù)按照某些相似的特征分類(lèi)組織。聚類(lèi)類(lèi)型有劃分聚類(lèi)(K-means、CLARA、PCM)、層 次 聚 類(lèi) (CURE、ROCK、CHEMALOEN)、基于密度聚類(lèi)(DBSCAN、FDC、OPTICS)、基于網(wǎng)格聚類(lèi)(SING、CLIQUE)和基于模型聚類(lèi)(COBWEB、CLASSIT)。以往的無(wú)監(jiān)督情感分類(lèi)大多數(shù)都是借助種子詞集實(shí)現(xiàn),例如:Turney抽取含有形容詞和副詞短語(yǔ)的語(yǔ)料,之后計(jì)算這些短語(yǔ)與種子詞“poor”及“excellent”的點(diǎn)互信息,然后用得到的點(diǎn)互信息計(jì)算短語(yǔ)的情感傾向得分[10]。

        只考慮每個(gè)單詞的極性然后通過(guò)計(jì)算該詞語(yǔ)在各個(gè)極性中頻數(shù)的多少?zèng)Q定文檔的情感傾向效率是很低的,如:“完美”一詞表現(xiàn)出了直觀的積極性,但若是“完美的混亂”這個(gè)短語(yǔ)所表達(dá)的情感傾向就不同了;基于單個(gè)詞的向量空間模型雖在學(xué)習(xí)詞法信息方面取得很大成功,但它們不能準(zhǔn)確捕捉長(zhǎng)短語(yǔ)或句子多表達(dá)的綜合信息。Weichselbraun and Poria就在句子層面即結(jié)合上下文環(huán)境進(jìn)行情感分類(lèi)[11]。Richard Socher團(tuán)隊(duì)依次提出向量矩陣空間,遞歸神經(jīng)網(wǎng)絡(luò)RNN,MV-RNN和RNTN等基于語(yǔ)義分析樹(shù)結(jié)構(gòu)的方法進(jìn)行句子層面語(yǔ)義分析[12]。

        2 情感分類(lèi)任務(wù)研究的問(wèn)題

        2.1領(lǐng)域適應(yīng)性

        情感分類(lèi)具有領(lǐng)域相關(guān)性,研究者發(fā)現(xiàn)監(jiān)督學(xué)習(xí)的情感分類(lèi)方法在訓(xùn)練測(cè)試集分屬不同領(lǐng)域的數(shù)據(jù)集上分類(lèi)效果較差。Hu和Liu研究發(fā)現(xiàn)對(duì)產(chǎn)品的評(píng)論分類(lèi)結(jié)果與在新聞和文學(xué)上的評(píng)論分類(lèi)結(jié)果是不同的[13]。所以解決領(lǐng)域適應(yīng)性問(wèn)題是情感分類(lèi)的重要研究方向。研究者們一直在尋找一種有效的映射方法,使得一個(gè)領(lǐng)域的數(shù)據(jù)集特征可以映射到另一個(gè)領(lǐng)域的數(shù)據(jù)集特征,即找到這些特征的相關(guān)性。領(lǐng)域適應(yīng)中的訓(xùn)練集的選取、特征選擇和各種分類(lèi)器的融合是具體的研究?jī)?nèi)容。Alec Go和Richa Bhayani用推特上的博文進(jìn)行情感分類(lèi),這種數(shù)據(jù)集對(duì)于模型的建立非常重要,訓(xùn)練出來(lái)的模型適用于其他領(lǐng)域[14]。吳瓊和劉悅提出基于熱傳導(dǎo)模型思想的框架進(jìn)行跨領(lǐng)域情感分類(lèi)[15]。

        跨領(lǐng)域要求有大的涉及多領(lǐng)域的訓(xùn)練數(shù)據(jù)集,如果采用有監(jiān)督的方式就會(huì)耗費(fèi)大量人工去標(biāo)注數(shù)據(jù)集,所以絕大多數(shù)采取半監(jiān)督或者無(wú)監(jiān)督方法去自動(dòng)學(xué)習(xí)數(shù)據(jù)集的特征。Deschacht and Moens提出了隱含詞語(yǔ)言模型,這個(gè)模型是無(wú)監(jiān)督的,它通過(guò)對(duì)詞匯進(jìn)行聚類(lèi)減少了語(yǔ)義角色標(biāo)注中詞匯化特征的稀疏性[16]。聚類(lèi)緩解了詞匯化特征的稀疏性,但是在句法結(jié)構(gòu)上提取的特征的稀疏性幾乎沒(méi)有方法進(jìn)行有效的解決。在圖形處理計(jì)算視覺(jué)領(lǐng)域可以有效地自動(dòng)學(xué)習(xí)發(fā)現(xiàn)圖片數(shù)據(jù)集的高層次特征并取得巨大成功的深度學(xué)習(xí)算法引起了NLP學(xué)者們的視線。莊濤就采用可以學(xué)習(xí)到兩個(gè)領(lǐng)域的公共特征的DBN模型減少了領(lǐng)域特征之間的稀疏性。Glorot和Bordes采用一種疊加自動(dòng)去噪編碼器(Stacked Denoising Auto-Encoders)和稀疏整流裝置單元結(jié)合的深度學(xué)習(xí)方法用于情感分類(lèi),而他們?cè)O(shè)計(jì)的模型在含有22個(gè)領(lǐng)域的評(píng)論上效果很好[17]。

        2.2數(shù)據(jù)不平衡

        數(shù)據(jù)不平衡就是指收集的數(shù)據(jù)集中各類(lèi)數(shù)據(jù)分布及其不均勻,如二分類(lèi)問(wèn)題,屬于正例和負(fù)例的數(shù)據(jù)比例為500:1,這種現(xiàn)象就屬于數(shù)據(jù)不平衡。在情感分類(lèi)問(wèn)題中,實(shí)際收集到的語(yǔ)料集大多是不均勻的,傳統(tǒng)的分類(lèi)方法將會(huì)將類(lèi)別偏向多數(shù)的類(lèi)別降低分類(lèi)器的分類(lèi)性能。解決數(shù)據(jù)不平衡問(wèn)題有兩種思路:第一種是數(shù)據(jù)層面,既然數(shù)據(jù)平衡那么就尋找適當(dāng)?shù)某闃铀惴ㄗ寯?shù)據(jù)達(dá)到平衡,具有代表性的抽樣方法有重采樣(欠采樣和過(guò)采樣)、SMOTE、Informed Undersampling等;第二種是算法層面,主要考慮數(shù)據(jù)錯(cuò)分即多的一類(lèi)被分為少數(shù),少數(shù)被分為多數(shù)這種誤分類(lèi)所導(dǎo)致的代價(jià)函數(shù),最主要的算法思想就是代價(jià)敏感學(xué)習(xí)。

        3 情感分類(lèi)評(píng)價(jià)指標(biāo)

        一般情感分類(lèi)器采用以下三個(gè)評(píng)價(jià)指標(biāo):正確率和召回率(查全率)以及F-score。

        表1

        正確率P和召回率R的計(jì)算公式分別如下:

        F-score表示準(zhǔn)確率和查全率的調(diào)和平均值。

        4 結(jié)語(yǔ)

        情感分類(lèi)作為自然語(yǔ)言處理中文本分類(lèi)的一種,在商界和學(xué)術(shù)界都得到了很大關(guān)注,是科研工作者們的研究熱點(diǎn)也在研究過(guò)程中獲得很大進(jìn)展。本文從機(jī)器學(xué)習(xí)方法和情感分類(lèi)側(cè)重研究的問(wèn)題出發(fā),介紹了一系列的相關(guān)工作。情感分類(lèi)技術(shù)中文本的表示(VSM、詞組、概念)、文本特征選擇方法(信息增益、χ2統(tǒng)計(jì)量、互信息……)、特征權(quán)重計(jì)算(TF-IDF、TFC、ITC、熵……)、分類(lèi)器設(shè)計(jì)這些因素的選擇至關(guān)重要。目前的研究工作主要側(cè)重于文本特征的提取和分類(lèi)模型的創(chuàng)建。

        [1]Pang B,Lee L,Vaithyanathan S.Thumbs up:Sentiment Classification Using Machine Learning Techniques[C].Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10.Association for Computational Linguistics,2002:79-86.

        [2]Kim S M,Hovy E.Determining the Sentiment of Opinions[C].Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:1367.

        [3]Balamurali A R,Joshi A,Bhattacharyya P.Harnessing Wordnet Senses for Supervised Sentiment Classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1081-1091.

        [4]Bespalov D,Qi Y,Bai B,et al.Sentiment classification with Supervised Sequence Embedding[C].Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Springer Berlin Heidelberg,2012:159-174.

        [5]Wan X.Co-training for Cross-Lingual Sentiment Classification[C].Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 1-Volume 1.Association for Computational Linguistics,2009:235-243.

        [6]Li F,Huang M,Zhu X.Sentiment Analysis with Global Topics and Local Dependency[C].AAAI.2010,10:1371-1376.

        [7]Dasgupta S,Ng V.Mine the Easy,Classify the Hard:a Semi-Supervised Approach to Automatic Sentiment Classification[C].Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2.Association for Computational Linguistics,2009:701-709.

        [8]Sindhwani V,Melville P.Document-Word Co-Regularization for Semi-Supervised Sentiment Analysis[C].2008 Eighth IEEE International Conference on Data Mining.IEEE,2008:1025-1030.

        [9]Zhou S,Chen Q,Wang X.Active Deep Networks for Semi-Supervised Sentiment Classification[C].Proceedings of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:1515-1523.

        [10]Turney P D.Thumbs up or Thumbs Down:Semantic Orientation Applied to Unsupervised Classification of Reviews[C].Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002:417-424.

        [11]Weichselbraun A,Gindl S,Scharl A.Extracting and Grounding Context-Aware Sentiment Lexicons[J].IEEE Intelligent Systems,2013,28(2):39-46.

        [12]Socher R,Perelygin A,Wu J Y,et al.Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank[C].Proceed

        ings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).2013,1631:1642.

        [13]Hu Y,Lu R,Li X,et al.Research on Language Modeling Based Sentiment Classification of Text[J].Journal of Computer Research& Development,2007,44(9):1469-1475.

        [14]Go A,Bhayani R,Huang L.Twitter Sentiment Classification Using Distant Supervision[J].CS224N Project Report,Stanford,2009,1:12.

        [15]吳瓊,劉悅,沈華偉,等.面向跨領(lǐng)域情感分類(lèi)的統(tǒng)一框架[J].計(jì)算機(jī)研究與發(fā)展,2013,50(8):1683-1689.

        [16]Deschacht K,Moens M F.Semi-Supervised Semantic Role Labeling Using the Latent Words Language Model[C].Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing:Volume 1-Volume 1.Association for Computational Linguistics,2009:21-29.

        [17]Glorot X,Bordes A,Bengio Y.Domain Adaptation for Large-Scale Sentiment Classification:A Deep Learning Approach[C].Proceedings of the 28th International Conference on Machine Learning(ICML-11).2011:513-520.

        Sentiment Classification;Sentiment Analysis;Evaluation Index;Feature Selection

        Overview of Sentiment Classification

        LI Chao-nan
        (College of Computer Science,Sichuan University,Chengdu 610065)

        With the popularity of e-commerce and social media tools,Internet is full of extremely abundant source of information.Businessman,government staff and academia realized the great value of these data,which many researchers have begun to extract information from these data.Sentiment classification attract the attention of researchers,because the effective sentiment analysis can guide consumption,help to developing new products and monitoring public opinion and so on.Introduces the machine learning methods and key problems of the sentiment classification,and gives a summary to the research progress of the sentiment classification.

        1007-1423(2016)29-0041-04

        10.3969/j.issn.1007-1423.2016.29.009

        李超男(1991-),女,河南濮陽(yáng)人,研究生碩士,研究方向?yàn)閿?shù)據(jù)挖掘

        2016-07-12

        2016-10-10

        猜你喜歡
        聚類(lèi)分類(lèi)領(lǐng)域
        分類(lèi)算一算
        領(lǐng)域·對(duì)峙
        青年生活(2019年23期)2019-09-10 12:55:43
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        教你一招:數(shù)的分類(lèi)
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
        一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
        自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
        精品午夜一区二区三区| 亚洲av无码乱码国产精品久久| 亚洲av成人综合网成人| 欧美牲交a欧美牲交aⅴ免费真| 日韩人妻无码精品久久| 无套内射蜜桃小视频| 欧美性猛交xxxx乱大交丰满| 91手机视频在线| 蜜桃av多人一区二区三区| 亚洲av乱码国产精品观看麻豆| 精品国产三区在线观看| 国产亚洲精品90在线视频| 国产乱人伦av在线a麻豆| 8888四色奇米在线观看| 老色鬼永久精品网站| 亚洲大片一区二区三区四区| 精品国产一区二区三区三级| 国产特黄级aaaaa片免| 国产探花在线精品一区二区| 日日干夜夜操高清视频| 欧亚精品无码永久免费视频| 人日本中文字幕免费精品| 国产av一区二区三区性入口| 又粗又大又硬毛片免费看| 色老汉免费网站免费视频| 国产偷国产偷高清精品| 亚洲熟妇夜夜一区二区三区| 日本一区二区免费在线看| 北条麻妃国产九九九精品视频 | 欧洲乱码伦视频免费| 精品久久香蕉国产线看观看亚洲| 亚洲熟女乱色一区二区三区| 午夜免费福利一区二区无码AV| 久久99人妖视频国产| 免费观看18禁无遮挡真人网站| 色一情一乱一伦一区二区三区| 亚洲综合性色一区| 91亚洲国产成人久久精品网站| 久久无码高潮喷水抽搐| 国产人与zoxxxx另类| 91老司机精品视频|