亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文文本情感分析方法研究

        2018-02-03 14:06:30徐小龍
        電腦知識(shí)與技術(shù) 2018年2期
        關(guān)鍵詞:情感分析機(jī)器學(xué)習(xí)

        徐小龍

        摘要:隨著互聯(lián)網(wǎng)技術(shù)的普及與應(yīng)用,微博類社交媒體吸引了大量的用戶,每天產(chǎn)生大量的文本信息,包括用戶身邊各類事件的報(bào)道、表達(dá)觀點(diǎn)、記錄個(gè)人心情等信息。對(duì)中文文本的分析研究具有重要的理論及應(yīng)用價(jià)值。其中,情感分析是中文文本分析的一項(xiàng)重要的研究方向。然而,目前英文的情感分析方法得到了較大發(fā)展,由于中文與英文在詞法、句法等方面存在較大差異,英文情感分析的方法應(yīng)用于中文情感分析取得的效果并不理想。該文意在研究目前中文文本情感分析的方法及研究現(xiàn)狀,總結(jié)中文情感分析的發(fā)展趨勢(shì)。

        關(guān)鍵詞:主觀性判定;情感分析;機(jī)器學(xué)習(xí);情感字典

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)02-0149-03

        A Review of Sentiment Analysis of Chinese Text

        XU Xiao-long

        (School of Software Engineering,Tongji University, Shanghai 201800, China)

        Abstract: With the popularization and application of Internet technology, Weibo media social media has attracted a large number of users, generating a large amount of textual information every day, including the coverage of various types of events around users, expressing opinions and recording personal feelings and other information. The analysis of Chinese texts has important theoretical and practical value. Emotional analysis is an important research direction in Chinese text analysis. However, at present, the method of emotion analysis in English has been greatly developed. Due to the great differences between Chinese and English in lexical and syntactic aspects, the effect of the method of English emotional analysis applied to Chinese emotion analysis is not satisfactory. This article aims to study the current Chinese text emotion analysis methods and research status, summarizes the development trend of Chinese emotion analysis.

        Key words: Subjectivity Identification; Sentiment Analysis; Machine Learning; Sentiment Lexica

        1 背景

        隨著互聯(lián)網(wǎng)技術(shù)在日常生活中多方面的滲透以及移動(dòng)智能終端廣泛普及,新浪微博、電子商務(wù)平臺(tái)等熱門(mén)互聯(lián)網(wǎng)應(yīng)用吸引了大量的用戶,每天會(huì)有大量用戶在微博平臺(tái)產(chǎn)生海量的用戶數(shù)據(jù),包括個(gè)人發(fā)表的觀點(diǎn)、發(fā)布的身邊事件、記錄的用戶心情等各類數(shù)據(jù)信息,面對(duì)如此海量的數(shù)據(jù)采用人工處理的方式采集分析出有價(jià)值的數(shù)據(jù)是一件人員成本、時(shí)間成本很高的任務(wù),甚至是不可能通過(guò)人工方式完成的任務(wù)。通過(guò)機(jī)器自動(dòng)獲取、并處理海量的文本數(shù)據(jù)能夠輔助數(shù)據(jù)分析人員研究例如影評(píng),商品評(píng)價(jià)就是一類蘊(yùn)含巨大商業(yè)價(jià)值的用戶數(shù)據(jù)。情感分析是文本分析的一個(gè)重要研究方向。 情感分析是一個(gè)自然語(yǔ)言處理的集合研究,它包括很多子問(wèn)題,例如“概念提取”、“主觀性提取”、“命名實(shí)體抽取”、“諷刺手法辨識(shí)”等。針對(duì)英文文本的情感分析進(jìn)行了大量的研究,并取得了一定程度的研究成果,值得注意的是近年來(lái),越來(lái)越多的研究人員針對(duì)中文的情感分析問(wèn)題進(jìn)行了大量的研究[1-5]。目前中文文本情感分析主要分為兩大類方法,一類是直接針對(duì)中文文本進(jìn)行處理分析,另一類是使用機(jī)器翻譯工具將中文翻譯成英文,然后采用針對(duì)英文的分析方法進(jìn)行分析。本文主要討論的方法是針對(duì)基于第一類方法的文本分析方法。

        1.1 情感分析

        “情感”在中文語(yǔ)境下,包括態(tài)度、意見(jiàn)、感覺(jué)和情緒等幾個(gè)方面的定義。情感分析目標(biāo)的不同分為單詞層次、句子層次及文檔層次,本文主要關(guān)注的文檔層次的情感分析問(wèn)題。情感分析問(wèn)題可以認(rèn)為是確定感情分類(積極情感或消極情感)、或者為文本標(biāo)注情感標(biāo)簽(憤怒、喜悅、悲傷等)的問(wèn)題。

        目前情感分析的重點(diǎn)還是在于情感極性的判斷。中文語(yǔ)言不同于英文的一些特性,導(dǎo)致中文文本的情感分類也有別于英文情感分類。中文不同于英文的最明顯的特征是字與字之間沒(méi)有空格分隔,一段中文文本就是又一批等距的單字組成;其次是許多中文單詞是由多個(gè)單字組成的,分開(kāi)或者組合錯(cuò)誤就會(huì)失去原有的意義,因此在分析中文文本之前需要進(jìn)行分詞處理。另一個(gè)重要的區(qū)別是中文的句法結(jié)構(gòu)跟英文存在較大的差異。在進(jìn)行文本情感極性分類時(shí),無(wú)論采用那類情感極性判斷方法,都需要用依賴于中文情感語(yǔ)料庫(kù)或中文情感詞典。

        1.2 語(yǔ)料庫(kù)與情感詞典endprint

        情感標(biāo)注語(yǔ)料庫(kù)與情感詞典看似相似,實(shí)際上是兩種不同的語(yǔ)言表達(dá)結(jié)構(gòu)。在情感分析中的應(yīng)用對(duì)應(yīng)了兩類不同的分析方法,標(biāo)注情感的語(yǔ)料庫(kù)一般應(yīng)用于基于機(jī)器學(xué)習(xí)方法中,而情感詞典一般應(yīng)用于常識(shí)的情感分析方法依賴于情感詞典。

        語(yǔ)料庫(kù)是文本的集合,其中不僅包含單詞或詞匯,還包含了其他可以表征目標(biāo)語(yǔ)言特性的表達(dá)形式,例如真實(shí)的篇章等,而且一般是機(jī)器可讀的形式保存在計(jì)算機(jī)中。在基于機(jī)器學(xué)習(xí)的情感分類中,包含了大量的情感表達(dá)的語(yǔ)料庫(kù)是訓(xùn)練情感分類器的重要保障。由于目前缺乏標(biāo)注良好龐大的中文語(yǔ)料庫(kù),因而影響了中文情感分析的研究。因此,有大量語(yǔ)言學(xué)研究者從事了中文語(yǔ)料庫(kù)的研究相關(guān)工作,試圖擴(kuò)展及改進(jìn)現(xiàn)有的中文語(yǔ)料庫(kù), Li C, Bo X,等人采用深度學(xué)習(xí)算法對(duì)13550條影評(píng)數(shù)據(jù)進(jìn)行了標(biāo)注[6]。

        與基于語(yǔ)料庫(kù)的情感分析方法不同,基于情感詞典方法的情感分析方法更加直接。情感詞典是可以表達(dá)主觀感受、情感或者意見(jiàn)的詞匯或短語(yǔ)的集合。根據(jù)情感詞典的標(biāo)注信息的不同,可以分為三類。一類是只包含情感詞的詞典(NELL),第二類是包含情感詞和情感詞的情感極性信息的詞典(NTUSD、HowNet),第三類是包含情感詞和情感詞情感極性值的詞典(Senti Word Net)。然而,不同于英語(yǔ)語(yǔ)言,中文單詞多具有語(yǔ)義和語(yǔ)法歧義,因此不容易簡(jiǎn)單地確定情感詞的極性,導(dǎo)致可用的中文情感詞典也是有限的,限制了中文的情感分析的研究。因此,構(gòu)建中文情感詞典在中文情感研究中占有重要意義。構(gòu)建中文情感詞典的方式大致可以歸納為三種,一種是通過(guò)手工方式構(gòu)建,但需要花費(fèi)大量的人力物力;另一種是基于詞典的方式,從一個(gè)較小的情感詞集合,在詞典中尋找它們的近義詞和反義詞,然后逐漸擴(kuò)充情感詞典的包含的情感詞集合;第三種構(gòu)建情感詞典的方式是基于語(yǔ)料庫(kù)的方式,該方式又有兩種方法,一種是根據(jù)某個(gè)領(lǐng)域語(yǔ)料庫(kù)中部分詞匯的情感極性,可以通過(guò)語(yǔ)料庫(kù)計(jì)算出其他詞匯的情感極性,從而達(dá)到構(gòu)建情感詞典的目標(biāo);另一種方法是將一個(gè)普適的情感詞典利用特定領(lǐng)域的情感分類器調(diào)整為一個(gè)特定領(lǐng)域的情感詞典。

        1.3 情感分析方法總結(jié)

        中文情感分析的第一步是要對(duì)文本進(jìn)行分詞處理,然后根據(jù)后續(xù)采用方法不同可以將中文情感分析的方法總結(jié)為兩類,如圖1所示,一類是基于機(jī)器學(xué)習(xí)算法的分析方式;另一種是基于先驗(yàn)知識(shí)的方式。基于機(jī)器學(xué)習(xí)的方式,將中文情感分析的問(wèn)題,轉(zhuǎn)化成判別文本情感類別的二或多分類問(wèn)題(積極情緒、消極情緒);基于先驗(yàn)知識(shí)的方式,采用情感詞典進(jìn)行分析,利用情感詞典中標(biāo)注的單詞或短語(yǔ)的清晰來(lái)標(biāo)注文本中出現(xiàn)的情感詞的極性,然后根據(jù)一定的計(jì)算公式(例如,代數(shù)求和)得到文本的最終情感極性。

        2 基于機(jī)器學(xué)習(xí)的情感分類方法

        基于機(jī)器學(xué)習(xí)算法的情感分析通常采用有監(jiān)督分類器算法進(jìn)行情感分析,該方法不需要預(yù)先定義語(yǔ)義規(guī)則,但需要用到良好標(biāo)注的情感語(yǔ)料庫(kù)用來(lái)訓(xùn)練分類模型。

        2.1 基于監(jiān)督機(jī)器學(xué)習(xí)算法的流程

        基于機(jī)器學(xué)習(xí)的情感分析方法的一般流程分成分類器模型訓(xùn)練階段和分類器驗(yàn)證與應(yīng)用階段,如圖2所示,在模型訓(xùn)練階段,在完成文本預(yù)處理后,首先提取文本的詞匯特征、語(yǔ)法特征以及語(yǔ)義等征,例如否定詞提取、詞性標(biāo)注、n-gram特征(單元gram、二元Gram);接下來(lái),運(yùn)用語(yǔ)料庫(kù)文本數(shù)據(jù)訓(xùn)練分類器模型,常用的分類算法有樸素貝葉斯(NB)、支持向量(SVM)、多層神經(jīng)網(wǎng)絡(luò)等。訓(xùn)練模型完成后,在待分析文本上應(yīng)用訓(xùn)練好的分類器應(yīng),可以得到文本的情感分類信息。

        2.2 基于機(jī)器學(xué)習(xí)的情感分析研究方向

        機(jī)器學(xué)習(xí)算法在處理分類問(wèn)題上具有優(yōu)異的處理能力,因此被普遍用來(lái)解決文本情感分類問(wèn)題。以往的研究工作主要集中在三個(gè)研究方向。1)提取更加有效的特征,該研究方向解決兩類問(wèn)題,一類是通過(guò)提取更復(fù)雜的特征來(lái)達(dá)到比簡(jiǎn)單的特征更高的分類效果;另一個(gè)問(wèn)題是判斷哪些特征對(duì)最終分類更有價(jià)值。Zhai等人在自己的研究中,指出除了一些簡(jiǎn)單特征(ngarm),情感詞、子句以及一些子句組合也可以用來(lái)提取特征[7]。 蘇等人在自己的研究中考慮了語(yǔ)義特征,采用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)單詞的向量表示,最終應(yīng)用SVM進(jìn)行文本情感分類,最終情感分類準(zhǔn)確率達(dá)到90%。2)研究更加有效的模型,例如李等人提出一種新穎的遞歸神經(jīng)深度模型(RNDM),可以基于遞歸深度學(xué)習(xí)算法預(yù)測(cè)情感信息,該模型關(guān)注于用句子層次的情感二分類問(wèn)題,性能比樸素貝葉斯(NB)、支持向量更加優(yōu)良[6]。3)第三個(gè)研究方向是研究者試圖采用新的適用于中文情感分類的機(jī)器學(xué)習(xí)方法,例如高等人[10],提出了一種基于聚類算法的中文情感分析方法。從微博等中文文本中提取出情感詞序列,利用最大公共情感序列長(zhǎng)度計(jì)算兩兩情感序列間的距離,最后采用k-medoids聚類算法將不同的文本按照情感進(jìn)行聚類,該算法不需要標(biāo)記訓(xùn)練樣本并針對(duì)短文本具有較好的處理效果,但該方法對(duì)預(yù)處理的分詞準(zhǔn)確度比較敏感。

        3基于情感詞的情感分析

        除基于機(jī)器學(xué)習(xí)的情感分類方法外,另一類稱為基于情感詞的無(wú)監(jiān)督方法。針對(duì)預(yù)處理分詞后得到的單詞序列,有兩種不同的處理方式,

        第一種方式是最簡(jiǎn)單直接的代數(shù)運(yùn)算分析方式,即將文檔分詞處理后的結(jié)果,逐個(gè)詞在情感詞典查找對(duì)應(yīng)的情感極性值,然后將所有的值進(jìn)行求和。如果最終結(jié)果大于零,則文檔情感極性為積極的,否則,為消極情感。第二種處理方式,會(huì)考慮語(yǔ)言的語(yǔ)法規(guī)格等,采用更復(fù)雜的分析模型。

        為了獲得更好的分類效果,第二類分析方式是研究者關(guān)注的重點(diǎn)。例如,采用位置索引敏感的算法計(jì)算每個(gè)分詞的情感傾向,然后計(jì)算各位置情感傾向值的平均值作為最終的情感傾向。此外,Zagibalov等人提出一種不依賴任何標(biāo)注訓(xùn)練樣本僅僅需要輸入少量常用情感詞和副詞[8],該方法在識(shí)別語(yǔ)句級(jí)別情感的效果能達(dá)到監(jiān)督分類器的效果。該研究中將情感的情感分析和主客觀判斷作為連續(xù)的問(wèn)題討論而非一個(gè)分類問(wèn)題。由于中文詞匯具有歧義性,許多研究工作集中在判斷中文的隱喻。李等人提出中文情感的多意思及判別強(qiáng)度服從正態(tài)分布,因此提出基于正態(tài)分布的中文情感詞的語(yǔ)義判斷的量化分析方法。endprint

        到目前為止,我們已經(jīng)看到了中文的情感分析研究將基本組件限制在單字或單詞級(jí)別。即使先進(jìn)的算法(基于機(jī)器學(xué)習(xí)的或基于情感詞典的)取得了較好的判別效果,然而字或詞級(jí)別的分析可能不能夠推理出真實(shí)的情感?;诟拍罴?jí)別的情感分析需要研究人員更多的關(guān)注,有研究證明概念層次的情感分析更能夠接近文本背后的真實(shí)情感,這跟我們的知識(shí)世界是由大量概念之間關(guān)聯(lián)組成的不無(wú)關(guān)系。圖3[9]表明,自然語(yǔ)言的研究正在逐漸從基于詞匯語(yǔ)義分析發(fā)展到基于詞組語(yǔ)義分析。目前位置,中文的情感分析研究工作中還沒(méi)有基于概念層次的工作。

        4 結(jié)束語(yǔ)

        隨著國(guó)內(nèi)電子商務(wù)、社交網(wǎng)絡(luò)的發(fā)展,每天產(chǎn)生海量的用戶數(shù)據(jù)。如此海量的數(shù)據(jù)靠手動(dòng)的分析處理幾乎是一項(xiàng)不可能完成的工作。準(zhǔn)確高效地識(shí)別這些文本中蘊(yùn)含的用戶情感對(duì)于企業(yè)、政府部門(mén)都具有重大價(jià)值?;谟⑽牡那楦蟹治龇椒ㄒ呀?jīng)取得了較大的發(fā)展,但是由于中文與英文在語(yǔ)言特性上的差異,針對(duì)英文的情感分析方法并不能直接遷移到針對(duì)中文的情感分析中。

        通過(guò)本文對(duì)以往針對(duì)中文情感分析方法的總結(jié)發(fā)現(xiàn),目前針對(duì)中文的情感分析中沒(méi)有充分應(yīng)用文本中的包含的概念層次知識(shí)。

        參考文獻(xiàn):

        [1] Zhao Y, Qin B, Liu T. Creating a fine-grained corpus for chinesesentiment analysis[J]. IEEE Intell Syst., 2014, 30(5):36-43.

        [2] Liu L, Lei M, Wang H. Combining domain-specific sentimentlexicon with hownet for chinese sentiment analysis[J]. J Comput.2013, 8(4):878-83.

        [3] Zengcai S, Hua X, Zhang D, et al. Chinese sentimentclassification using a neural network tool - word2vec[C]// 2014.

        International conference on multisensor fusion and informationintegration for intelligent systems (MFI). IEEE, 2014: 1-6.

        [4] Li R, Shi S, Huang H, Chao S, et al. A method ofpolarity computation of chinese sentiment words Based on Gaussiandistribution[C]// Computational linguistics and intelligent textprocessing. Springer, 2014: 53-61.

        [5] Zhuo S, Xing W, Luo X. Chinese text sentiment analysis basedon fuzzy semantic model[C]// 2014 IEEE 13th International conferenceon cognitive informatics & cognitive computing (ICCI*CC). IEEE, 2014: 535-540.

        [6] Li C, Bo X, Gaowei W, He S, et al. Recursive deeplearning for sentiment analysis over social data[C]// Proceedings of the 2014 IEEE/WIC/ACM international joint conferences on web intelligence (WI) and intelligent agent technologies (IAT)-volume 02. IEEE Computer Society, 2014: 180-185.

        [7] Zhai Z, Hua X, Kang B, et al. Exploiting effective featuresfor chinese sentiment classification[J]. Expert Syst Appl.2011, 38(8):9139-46.

        [8] Zagibalov T, Carroll J. Unsupervised classification of sentimentand objectivity in chinese text[C]//Third international jointconference on natural language processing, p. 304. 2008.

        [9] Cambria E, White B. Jumping nlp curves: a review of naturallanguage processing research[J]. IEEE Comput Intell Mag.,2014, 9(2):48-57.

        [10] Wei G, An H, Dong T,et al. A novel micro-blog sentimentanalysis approach by longest common sequence and k-medoids[C].PACIS, 2014: 38. .endprint

        猜你喜歡
        情感分析機(jī)器學(xué)習(xí)
        基于語(yǔ)義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
        基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評(píng)論情感屬性的動(dòng)態(tài)變化
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        色狠狠色狠狠综合一区 | 精品国产自在现线看久久| 日韩国产人妻一区二区三区| a级毛片高清免费视频就| 四虎精品影视| 中文字幕乱码亚洲美女精品一区| 手机久草视频福利在线观看| 人妻中文字幕无码系列| 中文字幕影片免费在线观看| 99RE6在线观看国产精品| 少妇被粗大的猛进69视频| 国产麻豆剧果冻传媒一区| 色狠狠一区二区三区香蕉| 熟妇人妻不卡中文字幕| 麻豆成人久久精品一区| 国产成人精品2021| 免费人成再在线观看网站| 国产精品美女久久久久浪潮AVⅤ | 国产美女在线精品免费观看| 男人的天堂av网站| 天天干夜夜操| 亚洲A∨日韩Av最新在线| 尤物蜜桃视频一区二区三区 | 国产丝袜爆操在线观看| 久久精品国产亚洲av影院| 国产精品久久久久久久久KTV| 国产大陆av一区二区三区| 在线观看国产激情视频| 亚洲av鲁丝一区二区三区黄| 亚洲精品456| 91国语对白在线观看| 亚洲国产成人极品综合| 国产美女自慰在线观看 | 免费人成黄页网站在线观看国产 | 午夜福利理论片在线观看| 岛国AV一区二区三区在线观看| 日韩精品有码中文字幕在线| 岛国熟女精品一区二区三区| 又粗又粗又黄又硬又深色的| 精品少妇爆乳无码aⅴ区| 亚洲熟女av在线观看|