亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于復(fù)雜句式短文本情感分類研究

        2018-11-13 05:31:20李毅捷段利國李愛萍
        現(xiàn)代電子技術(shù) 2018年22期
        關(guān)鍵詞:情感分析

        李毅捷 段利國 李愛萍

        摘 要: 目前,網(wǎng)絡(luò)文本中主觀內(nèi)容的情感傾向性識別成為文本信息處理的研究熱點(diǎn)。針對漢語中復(fù)雜句式的結(jié)構(gòu)特點(diǎn)以及對多種復(fù)雜句式的有效分析,基于word2vec進(jìn)行情感詞典的擴(kuò)建,將擴(kuò)充后的情感詞典、關(guān)聯(lián)詞表、否定詞表進(jìn)行特征提取,得到有效的特征詞序列,構(gòu)建新的復(fù)雜句式模型并結(jié)合SVM進(jìn)行訓(xùn)練和預(yù)測,完成復(fù)雜句式情感分類。實(shí)驗(yàn)結(jié)果表明,提出的復(fù)雜句式情感分類模型在處理精度方面比傳統(tǒng)的句子級情感分類方法有了明顯的提高,獲得良好的情感分析效果。

        關(guān)鍵詞: 文本信息處理; 情感分析; 復(fù)雜句式; word2vec; 情感分類模型; SVM

        中圖分類號: TN911?34; TP391.1 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2018)22?0182?05

        Abstract: The sentiment tendency recognition of the subjective content in the current network text is a hot research topic of text information processing. In allusion to the structure characteristics of complex sentence patterns in Chinese and effective analysis of various complex sentence patterns, the sentiment dictionary is expanded based on the word2vec. Feature extraction is conducted for the expanded sentiment dictionary, associated word list, and negative word list, so as to obtain the effective sequence of feature words. The new model of complex sentence patterns is established, which is trained and predicted by combining with the SVM, so as to complete sentiment classification of complex sentence patterns. The experimental results show that, in comparison with the traditional sentence?level sentiment classification method, the proposed sentiment classification model of complex sentence patterns has a significant improvement in processing accuracy and can obtain a good sentiment analysis effect.

        Keywords: text information processing; sentiment analysis; complex sentence patterns; word2vec; sentiment classification model; SVM

        隨著互聯(lián)網(wǎng)的興起及迅速普及,開放性不斷提高,人們通過微博等網(wǎng)絡(luò)平臺和電子商務(wù)等網(wǎng)站發(fā)表對時(shí)事新聞、熱門話題、各種商品的觀點(diǎn)和看法,用戶龐大而穩(wěn)固。交互的便捷使網(wǎng)絡(luò)成為了人們越來越喜歡表達(dá)自己觀點(diǎn)和相互交流的主要方式之一。隨之而來網(wǎng)絡(luò)上產(chǎn)生的主觀性文本包含大量有用情感信息[1],因此對復(fù)雜句式的情感分析需要不斷探索與學(xué)習(xí)。

        1 研究現(xiàn)狀

        目前,對復(fù)雜句式的情感傾向性分析主要是基于機(jī)器學(xué)習(xí)的方法[2],吳曉吟研究了基于篇章情感分析中條件句、轉(zhuǎn)折句、比較句對情感分析的影響,提出這三種句型的情感分析算法使篇章級情感分析準(zhǔn)確率有所提高[3]。楊富平等人提出基于SVM和復(fù)雜句式的情感分類方法,通過分析漢語復(fù)雜句的結(jié)構(gòu)特點(diǎn),比較各類特征組合的情感分類正確率[4]。Song Rui等人通過建立比較句式模型利用條件隨機(jī)場(CRF)進(jìn)行比較句提取與分析[5]。Ramanathan Narayanan等人研究條件句情感分析,建立基于主題的監(jiān)督學(xué)習(xí)模型從5個(gè)不同領(lǐng)域的條件句證明所提方法的有效性[6]。針對目前文本表達(dá)方式自由與多樣等問題造成的復(fù)雜句式影響句子級情感分析的問題,本文對各種中文復(fù)雜句式進(jìn)行詳細(xì)情感分析,提出一種針對復(fù)雜句式的情感分類準(zhǔn)則以及基于word2vec的情感詞典擴(kuò)展方法,結(jié)合SVM分類器完成復(fù)雜句式的情感分類。

        2 復(fù)雜句式

        2.1 復(fù)雜句式簡介

        漢語中復(fù)雜句由幾個(gè)分句組成,含有多個(gè)主謂(賓)結(jié)構(gòu)陳述兩件或兩件以上事情,重點(diǎn)在主句陳述的事情而分句的出現(xiàn)是為了更全面地闡釋主句的含義,總結(jié)常見復(fù)雜句式:假設(shè)句式是某種情況下所產(chǎn)生的結(jié)果。例句:“如果不隨便扔垃圾,環(huán)境就會變好?!卑x詞“變好”影響句子情感極性,假設(shè)條件或特定條件下子句表達(dá)的情況不一定會發(fā)生。常用關(guān)聯(lián)詞:如果,只要……就;只有……才;即便、即使、就算、哪怕、縱使……還,也等。條件句式提出特定條件產(chǎn)生特定結(jié)果,或不管任何條件都產(chǎn)生某種結(jié)果。例句“不管這條道路多艱苦,我都會付出我的熱情?!敝小捌D苦”與“熱情”褒貶情感詞的出現(xiàn)對分類的判定產(chǎn)生影響,后一分句中的情感詞是重點(diǎn)。常用關(guān)聯(lián)詞:無論、不管、不論……都。

        轉(zhuǎn)折句式前后分句意思完全相對或部分相對。例句:“雖然生活水平提高,但是不能奢侈浪費(fèi)?!鞭D(zhuǎn)折句中“雖然”引導(dǎo)的分句不是整句話的重點(diǎn),“但是”引導(dǎo)的分句情感是整句話的重點(diǎn)。常用關(guān)聯(lián)詞:雖然、雖說、雖是、盡管……但、但是、然而、可是、不過……。

        說明因果句式前后分句分別闡明原因和闡釋結(jié)果,前后分句都是客觀真相。推論因果句式前后分句分別提出一個(gè)前提和由該前提推導(dǎo)出的結(jié)論,結(jié)論句中的情感詞更能代表句子的情感傾向。常用關(guān)聯(lián)詞:因?yàn)椤裕辉瓉?、因此……;既然……就?/p>

        并列句式由多個(gè)簡單句不分主次不分從屬關(guān)系并列組成,前后分句都是客觀事實(shí)。常用關(guān)聯(lián)詞:又……又……;既……又……;一邊……一邊……;那么……那么……。

        選擇句式分句分別列舉多種情況并從中選出一種情況,例句:“你喜歡游泳,還是喜歡打球?!卑x情感詞“喜歡”對情感分類的判定產(chǎn)生影響。常用關(guān)聯(lián)詞:是……還是……;與其……不如……;或者……要么……。遞進(jìn)句式前后分句的關(guān)系在意義上進(jìn)一層次,前后分句都是客觀事實(shí)。常用關(guān)聯(lián)詞:不但、不僅……。

        2.2 復(fù)雜句式處理

        本文根據(jù)各種復(fù)雜句式的特點(diǎn),將引導(dǎo)復(fù)雜句式的關(guān)聯(lián)詞歸納為三類,如表1所示。

        若復(fù)雜句式包含否定詞,則前后分句分別統(tǒng)計(jì)否定詞數(shù)量,句中含有奇數(shù)重否定會改變句子的情感傾向,含有偶數(shù)重否定與句子表達(dá)情感傾向相同[7]。本文總結(jié)常見否定詞:未、從未、難以、絕非、不宜、沒有、非、不曾、莫、不夠、毋、否、不大、不太、顛覆、不、未曾、并非、未必、休、不要、沒、否認(rèn)、勿、沒法、無、無法、不便、別、不許、不是。本文不僅通過關(guān)聯(lián)詞識別,還考慮關(guān)聯(lián)詞的詞性、復(fù)雜句式模型來識別復(fù)雜句。根據(jù)表1對復(fù)雜句式的分類,結(jié)合否定詞,將第一、二、三類關(guān)聯(lián)詞用[WA,WB,WC]表示,奇數(shù)和偶數(shù)重否定分別用[DO,DE]表示,情感詞用[WS]表示,總結(jié)復(fù)雜句式匹配模型如下:

        3 資源構(gòu)建

        3.1 情感詞典

        情感詞典的建立和擴(kuò)展是文本情感分析研究工作的基礎(chǔ)。情感詞典[8]的完善對提高情感分析準(zhǔn)確率有很大幫助。中文情感分析領(lǐng)域當(dāng)前沒有統(tǒng)一標(biāo)準(zhǔn)化的情感詞典,本文選取的中文情感詞典:將HowNet中文情感詞典進(jìn)行整理有褒義詞(4 566個(gè))貶義詞(4 370個(gè))。大連理工大學(xué)情感詞典對中文詞匯、短語進(jìn)行詳細(xì)描述,將詞語情感分為7大類21小類,本文選取11 229個(gè)褒義詞匯、10 783個(gè)貶義詞匯以及5 375個(gè)中性詞匯。網(wǎng)絡(luò)文本中大量帶有情感傾向的新詞會影響分詞的性能,進(jìn)而影響文本情感分類結(jié)果。為了提高文本情感分類的準(zhǔn)確率,本文經(jīng)收集整理網(wǎng)絡(luò)資源摘選出464個(gè)帶有情感傾向的網(wǎng)絡(luò)詞匯構(gòu)建網(wǎng)絡(luò)熱點(diǎn)詞情感詞典,如表2所示。

        3.2 word2vec原理

        word2vec(word to vector)能夠?qū)W習(xí)含有上億條語句的語料庫并輸出適度維度空間中的詞向量,通過這些詞向量之間的運(yùn)算完成各種自然語言處理的計(jì)算任務(wù),許多文本處理把詞語作為原子單位,但詞語之間沒有語義相似這一概念,使處理文本任務(wù)時(shí)有一定局限性,word2vec能從龐大數(shù)據(jù)集中計(jì)算出高維詞向量空間中包含上下文語義信息,有利于挖掘更多情感信息。本文采用基于Hierarchical Softmax的CBOW模型進(jìn)行訓(xùn)練,該模型比傳統(tǒng)神經(jīng)概率語言模型去掉了投影層,輸出層對應(yīng)一個(gè)二叉樹,改用了Huffman樹,降低了計(jì)算復(fù)雜度,提高了計(jì)算速度[9]。

        通過分析有些詞語不是輸入詞語的相近詞,例如“疼痛”“狀態(tài)”“疾病”等,為了將更精確的相近詞擴(kuò)充到基礎(chǔ)情感詞典,本文使用改進(jìn)的基于《知網(wǎng)》的詞匯語義相似度計(jì)算方法[10]。對上一步產(chǎn)生的詞語集進(jìn)行過濾,計(jì)算輸入情感詞與相近詞集中每個(gè)詞的語義相似度,定義語義相似度取值為[0,1]內(nèi)實(shí)數(shù),當(dāng)兩個(gè)情感詞相似度值等于1則語義完全相同。本文設(shè)定閾值為1,保留和種子詞語義相似度值為1的詞語作為最終入選的相近詞,如表4所示。

        將已構(gòu)建的基礎(chǔ)情感詞典中情感詞作種子詞,通過上述方法,去除基礎(chǔ)情感詞典中已存在的重復(fù)詞,經(jīng)過人工整理,最終褒義情感詞擴(kuò)充465個(gè),貶義情感詞擴(kuò)充510個(gè),中性情感詞擴(kuò)充105個(gè)。

        3.3 復(fù)雜句式情感分析

        4 實(shí)驗(yàn)結(jié)果及分析

        本文使用了豆瓣電影七大分類各100部電影共20 000條影評作為數(shù)據(jù)集,除去重復(fù)和無價(jià)值數(shù)據(jù),剩余17 542條影評,進(jìn)行情感極性標(biāo)注,將分類數(shù)據(jù)集按比例1∶1用于訓(xùn)練與測試。本文將情感傾向分為褒貶中三類,實(shí)驗(yàn)分別使用傳統(tǒng)SVM分類器和加入本文構(gòu)建的復(fù)雜句式情感評判規(guī)則進(jìn)行情感傾向性研究,本文以準(zhǔn)確率、召回率、F值作為實(shí)驗(yàn)的評價(jià)指標(biāo),單位為%,實(shí)驗(yàn)結(jié)果如表5和圖1所示。

        根據(jù)實(shí)驗(yàn)結(jié)果得出7種復(fù)雜句式在準(zhǔn)確率、召回率、F值三方面都有不同程度的提高,遞進(jìn)句式和并列句式提高程度略低。本文繼續(xù)驗(yàn)證擴(kuò)展后情感詞典對情感傾向性影響,設(shè)基礎(chǔ)詞典:關(guān)聯(lián)詞典+否定詞典+網(wǎng)絡(luò)熱點(diǎn)詞詞典。特征詞典1:HowNet詞典+基礎(chǔ)詞典。特征詞典2:大連理工大學(xué)情感詞典+基礎(chǔ)詞典。特征詞典3:HowNet詞典+大連理工大學(xué)情感詞典+基礎(chǔ)詞典。特征詞典4:擴(kuò)展后情感詞典+基礎(chǔ)詞典。實(shí)驗(yàn)結(jié)果如表6所示。

        通過實(shí)驗(yàn)結(jié)果分析,擴(kuò)充后的情感詞典在情感分類準(zhǔn)確率、召回率、F值三方面都有明顯提高,擴(kuò)充后情感詞典包含了豐富的語義信息,挖掘到詞語間更多的語義關(guān)系,可以得到更完善的領(lǐng)域詞、網(wǎng)絡(luò)新詞、情感詞。綜合以上優(yōu)勢本文提出的復(fù)雜句式情感傾向性分析方法有更好的分類效果,展現(xiàn)出優(yōu)良的性能。

        5 結(jié) 語

        中文文本中涵蓋豐富的情感信息,情感分析所使用的方法要考慮是否能正確判斷出作者要傳達(dá)的所有情感,有些詞語同時(shí)具備褒貶性,例如“好事”,可以表示一件令人快樂的事件,也可以表示對他人的貶責(zé)。分詞對情感傾向性的判別也很重要,例如“我與其余人不同”,若沒識別出“其余”而識別成“與其”則影響情感分析結(jié)果。有些關(guān)聯(lián)詞的識別,例如“他不如你好看”中“不如”分詞系統(tǒng)標(biāo)注是動(dòng)詞,不是連詞,例如“她不管你了”中“不管”雖標(biāo)注成連詞,但不符合復(fù)雜句式的匹配模式。有些日常詞語單獨(dú)使用不具備情感,搭配后具有情感傾向,例如“成績上漲”表達(dá)快樂,“物價(jià)上漲”表達(dá)不滿。這些問題都會影響情感傾向性的判斷,未來工作要繼續(xù)對文本情感分析進(jìn)行更加深入的學(xué)習(xí)與研究。

        參考文獻(xiàn)

        [1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834?1848.

        ZHAO Yanyan, QIN Bing, LIN Ting. Text sentiment analysis [J]. Journal of software, 2010, 21(8): 1834?1848.

        [2] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? sentiment classification using machine learning techniques [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia: Association for Computational Linguistics, 2002: 79?86.

        [3] 吳曉吟.中文復(fù)雜句型的情感分析研究[EB/OL]. [2013?03?15].http://www.doc88.com/p?1738770331623.html.

        WU Xiaoyin. Sentiment analysis of complex sentences for Chinese document [EB/OL]. [2013?03?15]. http://www.doc88.com/p?1738770331623.html.

        [4] 楊富平,黃志勇.基于SVM和復(fù)雜句式的中文微博情感分析[EB/OL].[2016?01?12].http://www.doc88.com/p?3317610703317.html.

        YANG Fuping, HUANG Zhiyong. Chinese micro?blog sentiment classification based on SVM and complex phrasing [EB/OL]. [2016?01?12]. http://www.doc88.com/p?3317610703317.html.

        [5] 宋銳,林鴻飛,常富洋.中文比較句識別及比較關(guān)系抽取[J].中文信息學(xué)報(bào),2009,23(2):102?107.

        SONG Rui, LIN Hongfei, CHANG Fuyang. Chinese comparative sentences identification and comparative relations extraction [J]. Journal of Chinese information processing, 2009, 23(2): 102?107.

        [6] NARAYANAN R, LIU B, CHOUDHARY A. Sentiment analysis of conditional sentences [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 180?189.

        [7] 李愛萍,邸鵬,段利國.基于句子情感加權(quán)算法的篇章情感分析[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(10):2252?2256.

        LI Aiping, DI Peng, DUAN Liguo. Document sentiment orientation analysis based on sentence weighted algorithm [J]. Journal of Chinese computer systems, 2015, 36(10): 2252?2256.

        [8] BACCIANELLA S, ESULI A, SEBASTIANI F. SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining [C]// Proceedings of the International Conference on Language Resources and Evaluation. Valletta: European Language Resources Association, 2010: 2200?2204.

        [9] LILLEBERG J, ZHU Y, ZHANG Y. Support vector machines and word2vec for text classification with semantic features [C]// Proceedings of 14th International Conference on Cognitive Informatics & Cognitive Computing. Beijing: IEEE, 2015: 136?140.

        [10] 江敏,肖詩斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語語義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,22(5):84?89.

        JIANG Min, XIAO Shibin, WANG Hongwei, et al. An improved word similarity computing method based on HowNet [J]. Journal of Chinese information processing, 2008, 22(5): 84?89.

        [11] 邸鵬,段利國.基于復(fù)雜句式的文本情感傾向性分析[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(11):57?61.

        DI Peng, DUAN Liguo. Text sentiment polarity analysis based on complex sentences [J]. Computer applications and software, 2015, 32(11): 57?61.

        猜你喜歡
        情感分析
        基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價(jià)對象抽取研究
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評論情感屬性的動(dòng)態(tài)變化
        預(yù)測(2016年5期)2016-12-26 17:16:57
        文本觀點(diǎn)挖掘和情感分析的研究
        亚洲av日韩综合一区在线观看| 国产亚洲av综合人人澡精品| 国产高颜值女主播在线| 久久人妻少妇嫩草av无码专区| 国产精品后入内射日本在线观看| 国产成社区在线视频观看| 大香蕉视频在线青青草| 狠狠色噜噜狠狠狠777米奇| 水蜜桃无码视频在线观看| 国产AV国片精品有毛| 日本一区二区午夜视频| 免费a级毛片又大又粗又黑| 乌克兰粉嫩xxx极品hd| 女女同性黄网在线观看| 色综合中文字幕综合网| 中文区中文字幕免费看| 无码粉嫩虎白一线天在线观看| 亚洲欧美日韩国产精品网| 亚洲一区二区日韩精品| 国产成人综合日韩精品无码| 国产成人久久精品77777综合| 亚洲午夜无码视频在线播放| 日本免费看一区二区三区| 伊人精品久久久久中文字幕| 久久97精品久久久久久久不卡| 亚洲美女性生活一级片| 中文字幕乱码在线人妻| 国产台湾无码av片在线观看| 亚洲中文av一区二区三区| 久久精品国产亚洲av试看| 成年美女黄的视频网站| 亚洲国产精品久久久久秋霞1 | 亚洲精品无码久久久久| 99精品国产闺蜜国产在线闺蜜| av天堂网手机在线观看| 日本午夜精品一区二区三区电影| 欧美国产小视频| 性色av一区二区三区四区久久| 隔壁老王国产在线精品| 成人天堂资源www在线| 日韩精品中文字幕人妻中出|