摘 要:對(duì)評(píng)論進(jìn)行情感傾向分析,就是對(duì)評(píng)論文本表達(dá)的態(tài)度和情感進(jìn)行分析,判斷評(píng)論文本對(duì)產(chǎn)品的情感傾向性,是肯定該產(chǎn)品還是否定該產(chǎn)品。本文對(duì)情感分析的概念以及研究?jī)?nèi)容作了明確的分析,并且對(duì)情感分析的研究現(xiàn)狀進(jìn)行了探討。為情感分析的進(jìn)一步研究提供了理論基礎(chǔ)。
關(guān)鍵詞:網(wǎng)絡(luò)評(píng)論;情感分析;傾向性判斷
如今社會(huì)越來越多的人開始通過網(wǎng)絡(luò)展示自己的心聲。他們通過論壇,博客,微博等發(fā)表自己對(duì)商品,服務(wù),事件的關(guān)注和看法,表現(xiàn)形式多為半結(jié)構(gòu)化或者非結(jié)構(gòu)化的評(píng)論文本。人們?cè)诎l(fā)表自己對(duì)某產(chǎn)品服務(wù)的看法或者評(píng)論的時(shí)候,常常都會(huì)帶有比較明顯的情感傾向性。從這些評(píng)論文本中準(zhǔn)確的提取出這些有用的傾向性觀點(diǎn),成為了人們的迫切需求。
1 情感分析的概念
情感分析,又名情感分類,它的主要任務(wù)是讓計(jì)算機(jī)自動(dòng)識(shí)別評(píng)論內(nèi)容的主觀情感傾向性。自動(dòng)判定出作者對(duì)評(píng)論內(nèi)容的態(tài)度是積極的還是消極的,即作者是支持該評(píng)論內(nèi)容,還是反對(duì)該評(píng)論內(nèi)容。評(píng)論內(nèi)容可以是某個(gè)觀點(diǎn),也可能是某個(gè)事物。情感分析是一種特殊的文本分類問題。它不同于傳統(tǒng)的基于主題的自動(dòng)文本分類?;谥黝}的自動(dòng)文本分類依據(jù)的是文本的主題性質(zhì),而情感分析主要目的是判別自然語言中所表達(dá)的觀點(diǎn)、喜好和態(tài)度等相關(guān)信息。
2 情感分析的應(yīng)用
從大量的評(píng)論文本中提取其中包含的情感信息在許多方面都有廣闊的應(yīng)用前景,例如:
在商務(wù)智能領(lǐng)域中,情感分析技術(shù)通過分析消費(fèi)者在電子商務(wù)網(wǎng)站中針對(duì)客戶滿意度評(píng)價(jià)、服務(wù)質(zhì)量評(píng)價(jià),向其他用戶推薦受到好評(píng)的產(chǎn)品、服務(wù)。同時(shí),還可以幫助商家高效的利用用戶的評(píng)論反饋信息,綜合得出這些客戶對(duì)該種產(chǎn)品或服務(wù)的普遍看法,進(jìn)行消費(fèi)市場(chǎng)分析,合理尋找廣告對(duì)象和分析消費(fèi)走勢(shì),達(dá)到增強(qiáng)企業(yè)的綜合競(jìng)爭(zhēng)力這個(gè)商務(wù)智能最終目標(biāo);在政府智能領(lǐng)域中,可以使用情感傾向分析技術(shù)建立網(wǎng)絡(luò)評(píng)價(jià)檢測(cè)系統(tǒng),定期對(duì)敵對(duì)觀點(diǎn)和負(fù)面評(píng)價(jià)的增長(zhǎng)與否進(jìn)行監(jiān)測(cè)和分析。對(duì)政府掌握社會(huì)發(fā)展的動(dòng)向、建立官民之間互動(dòng)和溝通的渠道、探索解決問題的新思路等都有很大幫助;在社交網(wǎng)絡(luò)領(lǐng)域中,情感分析工具可以用來對(duì)微博等評(píng)論進(jìn)行情感傾向分析。如根據(jù)個(gè)人一段時(shí)間內(nèi)的微博,統(tǒng)計(jì)和分析其最近的情感狀態(tài)、情緒波動(dòng)曲線等;針對(duì)某一事件的評(píng)論微博,分析統(tǒng)計(jì)網(wǎng)絡(luò)輿論的情感狀態(tài)等。
3 情感分析的研究?jī)?nèi)容
在目前這個(gè)網(wǎng)絡(luò)盛行的時(shí)代中,從網(wǎng)絡(luò)中存在的評(píng)論去挖掘客戶的感知信息是新興的研究方向。Popescu將網(wǎng)絡(luò)評(píng)論挖掘研究工作劃分為以下四個(gè)子任務(wù):⑴挖掘用戶對(duì)于產(chǎn)品特征的主觀意見;⑵判斷評(píng)論內(nèi)容的情感傾向;⑶挖掘重要的產(chǎn)品特征;⑷依據(jù)評(píng)論意見的重要性進(jìn)行排名。研究包括主客觀內(nèi)容識(shí)別,情感傾向分析以及產(chǎn)品特征挖掘等。
3.1 主客觀內(nèi)容識(shí)別
主客觀分析,就是判斷某個(gè)語言單位表達(dá)的是評(píng)論者的主觀觀點(diǎn)還是評(píng)論者陳述的客觀事實(shí)。其中的語言單位可以有不同的粒度,如:篇章、段落、句子、短語或詞。
主觀性文本,是指對(duì)非事實(shí)進(jìn)行描述的文本,是基于斷言或評(píng)論的帶有個(gè)人情感傾向的文本。如:這個(gè)手機(jī)外觀漂亮,手感好,挺好用,很喜歡!主觀性文本在用詞、語法和句型上沒有嚴(yán)格的限制。這樣的主觀性文本中常常出現(xiàn)非規(guī)范性的詞語和語法不規(guī)范的句子結(jié)構(gòu),甚至?xí)霈F(xiàn)非規(guī)范的網(wǎng)絡(luò)語言。因此,相對(duì)于規(guī)范的傳統(tǒng)文本,主觀性文本的處理更加困難和復(fù)雜。
客觀性文本,是對(duì)事實(shí)進(jìn)行描述的文本,具有客觀性、穩(wěn)定性、確定性和唯一性等特點(diǎn)。如:該手機(jī)是直板機(jī)。
3.2 情感傾向分析
情感傾向分析的目的,是判斷給定的文本片段中所體現(xiàn)的說話者的情感傾向,通??煞譃檎妫?fù)面兩種情感。例如:手機(jī)外觀造型獨(dú)特,做工精湛。對(duì)手機(jī)做出了正面的評(píng)價(jià)。這手機(jī)操作時(shí)很慢,沒有一點(diǎn)速度感!對(duì)手機(jī)做出了負(fù)面評(píng)價(jià)。
3.3 產(chǎn)品特征提取
網(wǎng)絡(luò)評(píng)論中的產(chǎn)品特征提取是指通過計(jì)算機(jī)從大量的網(wǎng)絡(luò)客戶產(chǎn)品評(píng)論中自動(dòng)地獲取備受關(guān)注的重要產(chǎn)品特征,產(chǎn)品的特征通常是產(chǎn)品或其部件的屬性、功能等。通過這項(xiàng)技術(shù)可以分析用戶對(duì)于產(chǎn)品具體特征的具體喜好情況,其準(zhǔn)確性和全面性是非常重要的。
4 情感分析的研究方法以及目前的研究現(xiàn)狀
情感傾向分析的主要方法分為有監(jiān)督機(jī)器學(xué)習(xí)方法[1-2],無監(jiān)督算法以及半監(jiān)督算法。有監(jiān)督機(jī)器學(xué)習(xí)算法就是產(chǎn)生一個(gè)聯(lián)系數(shù)據(jù)實(shí)例集合A和情感傾向類標(biāo)集合C的分類/預(yù)測(cè)函數(shù),這個(gè)函數(shù)可以用于預(yù)測(cè)新的屬性集合的情感傾向類標(biāo)。由于不同領(lǐng)域的特征差異較大及沒有公開的有標(biāo)注的數(shù)據(jù)信息等,該方法目前難以滿足現(xiàn)實(shí)的要求。無監(jiān)督算法是指人們事先對(duì)分類過程不施加任何的先驗(yàn)知識(shí),依賴大規(guī)模語料庫(kù)來進(jìn)行學(xué)習(xí),在英文領(lǐng)域,無監(jiān)督情感傾向分析已經(jīng)初步取得了一些成果,然而,對(duì)于中文領(lǐng)域的研究還處于起步階段,而且由于中文與英語之間有很多不同之處,使得很多英文領(lǐng)域取得的分析方法和成果,不能直接應(yīng)用于中文處理中。半監(jiān)督學(xué)習(xí)是一種介于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間的學(xué)習(xí)方式,使用大量的未知類別標(biāo)記的樣本數(shù)據(jù),同時(shí)使用少量已知類別標(biāo)記數(shù)據(jù),進(jìn)行模式識(shí)別工作。當(dāng)使用半監(jiān)督學(xué)習(xí)時(shí),將會(huì)要求盡量少的人工參與,同時(shí),準(zhǔn)確性較高。近幾年來,基于半監(jiān)督學(xué)習(xí)的情感分類方法也受到很大程度的重視。
[參考文獻(xiàn)]
[1]唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J].中文信息學(xué)報(bào).2007,21(6):88-94.
[2]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J].中文信息學(xué)報(bào).2007,21(6):95-100.