宋云生
深圳聯(lián)友科技有限公司,廣東 深圳 518031
一種情感判別分析體系在汽車品牌輿情管理中的應(yīng)用
宋云生
深圳聯(lián)友科技有限公司,廣東 深圳 518031
品牌輿情管理涉及文本、語音等自然語言產(chǎn)物的處理,如挖掘文本內(nèi)涵的情感、觀點(diǎn)等并對其量化,才能進(jìn)一步分析品牌所處的輿論環(huán)境。對自然語言中情感的量化即情感判別分析,針對傳統(tǒng)的基于詞典的情感分析和基于監(jiān)督模型的情感分析存在的不足,提出了一種新的情感分析系統(tǒng),并結(jié)合樸素貝葉斯分類算法,提高了情感分析的準(zhǔn)確率,并增強(qiáng)了量化分析情感強(qiáng)度的能力。經(jīng)測試,提出的文本情感分析引擎的情感判別準(zhǔn)確率高于常見的分析方法,且不具有非常明顯的行業(yè)特異性。
情感分析;監(jiān)督模型;樸素貝葉斯;自然語言處理
隨著互聯(lián)網(wǎng)以及各類新興網(wǎng)絡(luò)社交媒體的快速發(fā)展與普及,由用戶發(fā)表的文字信息也在暴增,如論壇帖子、微博、博客、產(chǎn)品評論等。如何有效地對這些海量文本信息進(jìn)行挖掘,識別其中的情感傾向,并加以合理有效地利用,是非常值得探討的問題。情感分析又稱傾向性分析,是人們對事物以及事物的屬性持有的意見、情緒和情感的計(jì)算研究[1]。事物可以是產(chǎn)品、服務(wù)、組織、個(gè)人、事件、問題或者話題。情感分析也可以被定義為通過自然語言處理(natural language processing,NLP)技術(shù)從文本、演講、微博等數(shù)據(jù)源中自動(dòng)挖掘態(tài)度、觀點(diǎn)、意見和情緒的過程[2]。文本情感分析就是分析一段文字的情感傾向,作為輿情監(jiān)控的基礎(chǔ)工作,用途廣泛。社交網(wǎng)絡(luò)越來越火,“意見領(lǐng)袖”越來越多,允許用戶對商品和服務(wù)評價(jià)打分的站點(diǎn)更是如雨后春筍,用戶的評價(jià)和建議可以全網(wǎng)傳播。這些文本類型的數(shù)據(jù)毫無疑問是精準(zhǔn)營銷的動(dòng)力來源。企業(yè)可以根據(jù)情感分析建立自己的數(shù)字形象,識別新的市場機(jī)會,做好市場細(xì)分,進(jìn)而推動(dòng)產(chǎn)品成功上市,但抓住這些評論的價(jià)值部分也是企業(yè)的巨大挑戰(zhàn)。政府同企業(yè)一樣,需要通過情感分析監(jiān)控、緩解、引領(lǐng)輿情,消弭社會矛盾,上述正是情感分析的應(yīng)用背景。
但與如此重要的背景背道而馳的是中文情感分析系統(tǒng)的弱勢,常見的情感分析分為基于詞典的情感分析和基于監(jiān)督模型的情感分析?;谠~典的情感分析,顧名思義,非常依賴于情感詞典的構(gòu)建,Ku L W等人[3]和Kaji N等人[4]對情感詞典的構(gòu)建開展了深入的研究。通常先將情感詞分為正向(褒義)和負(fù)向(貶義),然后統(tǒng)計(jì)一條待分析的中文文本分詞的正向詞個(gè)數(shù)和負(fù)向詞個(gè)數(shù),如果正向詞個(gè)數(shù)大于負(fù)向詞個(gè)數(shù),則這條文本屬于情感正向,否則屬于情感負(fù)向。有些研究者對情感詞典進(jìn)行了人工加權(quán),比如“愛”和“喜歡”的權(quán)重不一樣,人工給予“愛”更高的權(quán)重。但是無論怎么改變,這種分析方式都存在以下缺陷:首先,準(zhǔn)確率非常低,一般為50%左右,幾乎不能支撐輿情監(jiān)控要求;其次,人工定義情感詞的正負(fù)傾向或權(quán)重,工作量巨大,而且非常武斷;最后,這種方式對于否定句和程度副詞加強(qiáng)的語句幾乎無效,從而喪失了 分析情感細(xì)膩性(程度)的能力。另一種是基于監(jiān)督模型的情感分析,即通過人工標(biāo)注一個(gè)訓(xùn)練集(訓(xùn)練集的每一條文本都要人工將其分為情感正向或情感負(fù)向),然后使用訓(xùn)練集訓(xùn)練模型,模型訓(xùn)練完成后,預(yù)測待分析文本。這種方法雖然基于大 量的訓(xùn)練集暫時(shí)提高了準(zhǔn)確率(一般75%左右),但是標(biāo)注訓(xùn)練集等如此浩繁的工作讓使用者望而卻步,另外,人工標(biāo)注訓(xùn)練集的粒度導(dǎo)致了這種方式同樣不具有分析情感細(xì)膩性的能力,或者能力較弱。
本文構(gòu)建了一種新的情感分析系統(tǒng),解決了這些比較具體的問題,化繁就簡,提高了情感分析的準(zhǔn)確率,并具有細(xì)膩分析情感的能力,為各大行業(yè)的輿情分析提供了一種新的實(shí)踐路徑。
早在互聯(lián)網(wǎng)普及之前,人們就讓朋友推薦一個(gè)汽車修理工或者在地方選舉投票給誰,又或者向消費(fèi)者咨詢買什么樣的洗碗機(jī)。“別人怎么想在我們做決策的過程中是一個(gè)非常重要的信息”[5]。隨著Web2.0平臺的爆發(fā)式增長,博客、論壇、點(diǎn)對點(diǎn)網(wǎng)絡(luò)等其他各種類型的社交媒體的出現(xiàn),個(gè)人用戶在網(wǎng)上表現(xiàn)出對產(chǎn)品和服務(wù)的興趣(積極或消極)會產(chǎn)生一些潛在的影響,通過互聯(lián)網(wǎng)的傳播放大,能夠產(chǎn)生前所未有的影響力,商品供應(yīng)商也越來越關(guān)注網(wǎng)絡(luò)用戶的評論。目前輿情分析已滲透到生活的方方面面,幾乎在各大行業(yè)中都有應(yīng)用,包括政府、高校、企業(yè)、媒體、醫(yī)療、電力等領(lǐng)域。
政府對輿情的分析主要關(guān)注民生民意、行業(yè)動(dòng)態(tài)以及危機(jī)公關(guān),如通過分析網(wǎng)絡(luò)上的評論可以非常準(zhǔn)確地了解大眾對政策的理解和情感傾向。德國慕尼黑大學(xué)的研究表明,推特(Twitter)上的信息能夠非常準(zhǔn)確地反映選民的政治傾向,通過分析2009年德國大選期間選民涉及政黨和政客的10萬條推特,結(jié)論是推特的信息能夠預(yù)示大選的結(jié)果,其準(zhǔn)確性不亞于傳統(tǒng)的民意調(diào)研[6]。
2009年7月,一則《應(yīng)屆畢業(yè)生怒問:誰替我簽的就業(yè)協(xié)議?注水的就業(yè)率!》[7]刷爆網(wǎng)絡(luò),“被就業(yè)”獲得了社會各界的廣泛關(guān)注。通過網(wǎng)絡(luò)輿情分析,能夠獲取廣大師生對高校就業(yè)的觀點(diǎn)和建議,可以監(jiān)測社會民眾的情感走向,及時(shí)采取相應(yīng)的政策引導(dǎo)輿論向有利于構(gòu)建和諧健康的社會主義社會發(fā)展。
輿情分析在企業(yè)中的運(yùn)用主要包括兩個(gè)方面:品牌危機(jī)管理和營銷管理。品牌危機(jī)是指突然發(fā)生的并能對企業(yè)聲譽(yù)和生產(chǎn)經(jīng)營活動(dòng)構(gòu)成重大威脅或造成破壞和損失的緊急事件[8]。通過對社會媒體的監(jiān)測和分析,對危機(jī)發(fā)生前的環(huán)境進(jìn)行監(jiān)測和預(yù)警,第一時(shí)間掌握輿論導(dǎo)向,制定相應(yīng)的對策和方法化解危機(jī)。目前企業(yè)越來越熱衷于使用用戶針對產(chǎn)品留下的評論內(nèi)容等數(shù)據(jù),幫助改進(jìn)市場營銷、品牌定位、產(chǎn)品開發(fā)和制定相應(yīng)的優(yōu)惠政策等活動(dòng)。例如,北京小米科技有限責(zé)任公司想知道客戶對他們的新機(jī)型的評價(jià),在社交媒體和數(shù)據(jù)挖掘興起之前,他們只能通過市場調(diào)研的方式解決。而數(shù)據(jù)分析則可以抓取消費(fèi)者在各大消費(fèi)網(wǎng)站(如亞馬遜、京東、天貓、社交媒體)留下的評論數(shù)據(jù),通過分析這些文本內(nèi)容,從而獲知消費(fèi)者對某個(gè)新機(jī)型的情感傾向。通過機(jī)器學(xué)習(xí)量化文本中消費(fèi)者對品牌或產(chǎn)品屬性喜好的數(shù)據(jù)挖掘方式,即情感分析。情感分析作為一種數(shù)據(jù)挖掘的方式,可以用于采集競爭對手的競爭優(yōu)勢,例如企業(yè)可以輕易地跟蹤社交媒體的情感傾向和社交媒體對競爭對手的情感傾向,了解消費(fèi)者對競爭品牌的印象及對其產(chǎn)品的情感傾向。另外,情感分析的指數(shù)和結(jié)果還可以作為變量應(yīng)用到其他數(shù)據(jù)挖掘項(xiàng)目,例如預(yù)測用戶流失的概率時(shí)就可以添加情感指數(shù)作為變量。
目前,情感分析仍然面臨著很多挑戰(zhàn),其中主要包括:人們表達(dá)態(tài)度的方式非常復(fù)雜,很難識別真正的情感傾向;另外,僅僅使用詞匯并不能非常準(zhǔn)確地識別一條文本表達(dá)的情感傾向;一些修辭手法(如反諷、欲揚(yáng)先抑等)也會給情感分析造成困難。
一般情感分析分為兩個(gè)層次:主/客觀分析(subjectivity/objectivity i d e nt i f i c at i o n)和情感/主體分析(feature/aspect-based sentiment analysis)。前者主要分析一個(gè)文本或片段是主觀表述還是客觀表述,需要注意的是在做這類分析時(shí)同樣面臨挑戰(zhàn),因?yàn)榫唧w的語境可能會改變句子的意思,原本的主觀評價(jià)可能就變成了客觀描述,如“我買的錘子手機(jī)外表像廣告一樣光鮮,但速度就像他的名字一樣,就是個(gè)錘子”。而情感/主體分析將文本中表現(xiàn)的情感和具體的主體聯(lián)系起來,即確定情感的歸屬,顯然 后者對文本情感的分析更加細(xì)膩。
目前情感分析方法主要分為兩大類:基于詞典的情感分析方法、基于機(jī)器學(xué)習(xí)的情感分析方法[9]。
基于詞典的情感分析法起源于基于語法規(guī)則的文本分析,方法比較簡單純樸,首先需要具有語法敏感性的專業(yè)人士構(gòu)建情感分析的詞典:正向情感詞典和負(fù)向情感詞典,即將某語言中用于表達(dá)情感的詞匯分為兩個(gè)類別,然后比對文本中正負(fù)情感詞的個(gè)數(shù)、頻度,評估文本的情感傾向,這種方法非常容易理解。Taboada M等人[10]通過創(chuàng)建帶有語義傾向標(biāo)注的詞典(極性和強(qiáng)度),并應(yīng)用于極性分類任務(wù),即可判斷一個(gè)文本是正向還是負(fù)向。張成功等人[11]通過構(gòu)造極性詞典,包括基礎(chǔ)詞典、領(lǐng)域詞典、網(wǎng)絡(luò)詞詞典以及修飾詞詞典,深入探究了修飾詞對極性詞的影響,提出一種基于極性詞典的情感分析方法,并驗(yàn)證了該方法的有效性。然而情感詞也分輕重緩急,比如喜歡和愛雖然都是正向,但其程度不一樣,因此根據(jù)語言專家的分析,給予情感詞不同的情感級別或權(quán)重,即對上述分析方法的改進(jìn),毫無疑問這種方法包含一定的語法分析的成分,谷歌翻譯的早期版本就是基于語法的方式,其效果可見一斑。
基于機(jī)器學(xué)習(xí)的情感分析過程首先制作一個(gè)規(guī)模龐大的訓(xùn)練集,人工標(biāo)注文本的正負(fù)向,然后通過機(jī)器學(xué)習(xí)或算法等方式訓(xùn)練模型,得出模型后,再用來識別新文本的情感傾向,比較像垃圾郵件的分類方法。首先精挑一些垃圾郵件和正常郵件讓模型學(xué)習(xí),然后再將模型用于垃圾郵件的分選。基于機(jī)器學(xué)習(xí)的情感分析方法本質(zhì)上是一個(gè)監(jiān)督分類的方法,當(dāng)然現(xiàn)在也有非監(jiān)督分類的嘗試。機(jī)器學(xué)習(xí)技術(shù),如樸素貝葉斯(naive Bayes)、最大熵(maximum entropy)、支持向量機(jī)(support vector machine,SVM)等已經(jīng)成功運(yùn)用在情感分析中。Firmino A A等人[12]進(jìn)行了一個(gè)案列研究,對比SVM和樸素貝葉斯分類器的性能,結(jié)果表明SVM性能更優(yōu)。孫建旺等人[13]提出基于特征極性值的位置權(quán)重計(jì)算方法,將SVM作為機(jī)器學(xué)習(xí)模型,能夠有效地對微博文本進(jìn)行情感分類。關(guān)雅夫等人[14]提出了基于主動(dòng)學(xué)習(xí)的微博情感分析,并結(jié)合SVM進(jìn)行二級分類,結(jié)果表明該方法在提高準(zhǔn)確率、降低過擬合及錯(cuò)誤級聯(lián)等方面有著良好的表現(xiàn)。樊娜等人[15]通過對文本結(jié)構(gòu)和情感表達(dá)的特點(diǎn)進(jìn)行分析,提出一種基于K-近鄰的文本情感分析方法,實(shí)驗(yàn)表明該方法優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)。
本文提出了一種新的中文文本情感分析系統(tǒng),主要?jiǎng)?chuàng)造了情感分析訓(xùn)練集的標(biāo)注方式、加權(quán)情感詞典的生成方式、漢語言語法規(guī)則的調(diào)整方式及基于樸素貝葉斯理論的情感得分計(jì)算方法。文本情感傾向值計(jì)算主要包括以下幾個(gè)步驟文本預(yù)處理;文本特征提取,主要包括:提取文本情感主體、情感詞、情感詞前后的程度詞和否定詞;加權(quán)情感詞典構(gòu)建,情感詞匹配;漢語規(guī)則構(gòu)建,調(diào)整情感文本矩陣;模型訓(xùn)練;文本情感值計(jì)算。
文本a進(jìn)入系統(tǒng)后,首先對文本a進(jìn)行分詞,然后將文本分出來的詞匯與加權(quán)情感詞典中的詞匯進(jìn)行匹配,這樣不僅篩選出了文本a中包含的情感詞,而且給情感詞匯添加了正負(fù)向情感權(quán)重,即獲得了文本a帶有權(quán)重的情感詞矩陣。為了分析文本a情感的強(qiáng)度,本文根據(jù)漢語語法構(gòu)建了兩個(gè)比較基本但很重要的規(guī)則:程度副詞加權(quán)規(guī)則和否定詞逆轉(zhuǎn)規(guī)則,用于調(diào)整文本的情感詞矩陣,將經(jīng)過漢語言規(guī)則調(diào)整后的情感詞矩陣輸入算法模型,計(jì)算情感得分。情感得分的區(qū)間為[0,1],越靠近0,負(fù)向情感越強(qiáng);越靠近1,正向情感越強(qiáng)。整個(gè)流程如圖2所示。
隨著漢語的演化,情感詞還在不斷增加。在文本分析的過程中,筆者積累了大量的情感詞,并構(gòu)建了情感詞典,大約包括中文情感詞20000個(gè)左右。原始的情感詞典見表1(其中1代表正向詞匯,-1代表負(fù)向詞匯),其僅僅是武斷地將情感詞匯分為正向和負(fù)向,這樣的詞典除了帶有主觀性以外,而且無法滿足分析情感程度的目的,所以需要一種更加快速、客觀的加權(quán)方式。
在構(gòu)建加權(quán)情感詞典之前,首先要有一個(gè)標(biāo)注的情感分析文本集,這本來是一個(gè)需要人工標(biāo)注的過程,工作量巨大,而且具有行業(yè)局限性。在絕大多數(shù)情況下,人們用于表達(dá)情感的詞匯是相似的,僅僅有個(gè)別詞匯具有行業(yè)特征。而且現(xiàn)在有大量的網(wǎng)站留下了用戶的評論數(shù)據(jù),有些網(wǎng)站,如汽車行業(yè) 的汽車之家要求用戶發(fā)表口碑評論時(shí)分為兩個(gè)部分:最滿意的部分和最不滿意的部分,筆者抓取了大量的評論,并將“最滿意的部分”標(biāo)注為正向文本,把“最不滿意的部分”標(biāo)注為負(fù)向文本(類似的方法還可以使用用戶評分進(jìn)行文本標(biāo)注),加上其他研究者已經(jīng)公布的標(biāo)注文本,共獲得了大約30萬條正負(fù)向文本標(biāo)注訓(xùn)練集,通過這種批量方法可以節(jié)省大量的標(biāo)注時(shí)間,而且擴(kuò)大了文本的行業(yè)來源,還可以隨著數(shù)據(jù)量的增加持續(xù)更新情感分析文本集,進(jìn)而更新加權(quán)情感詞典。
有了標(biāo)注訓(xùn)練集,就需要基于標(biāo)注訓(xùn)練集對情感詞典加權(quán)。
情感加權(quán)規(guī)則:一個(gè)情感詞在正向文本集 出現(xiàn)的文檔頻率(document frequency,DF)作為它的正向權(quán)重,在負(fù)向文本集出現(xiàn)的文檔頻率作為它的負(fù)向權(quán)重,所謂DF,即包含某詞的文檔數(shù)/語料庫的文檔總數(shù)。
圖1 情感分析系統(tǒng)流程
表1 原始的情感詞典樣例
對于一些一般人無法判斷的中性詞,也能非??焖?、合理地獲得正負(fù)向情感權(quán)重,因此依據(jù)以上這種數(shù)據(jù)驅(qū)動(dòng)的規(guī)則獲得情感詞的權(quán)重,不僅工作量銳減,而且更加客觀(見表2)。通過以上方法獲得了加權(quán)情感詞典。
表2 加權(quán)情感詞典樣例
本文系統(tǒng)構(gòu)建了兩種漢語語法規(guī)則,其一用于處理程度副詞出現(xiàn)的情況,比如“我非常喜歡夏天”;其二用于處理否定詞出現(xiàn)的情況,比如“我不喜歡夏天”。一般的基于詞典和監(jiān)督模型的情感分析系統(tǒng)基本上無法有效處理上述兩種現(xiàn)象,而且上述現(xiàn)象是在漢語中非常常見的情感表達(dá)方式,所以針對上述兩種情況本文提出了兩套規(guī)則,按照先后順序調(diào)整情感詞矩陣即可。
4.3.1 程度副詞加權(quán)規(guī)則
程度副詞加權(quán)規(guī)則要求首先準(zhǔn)備一張程度詞加權(quán)詞典,漢語中的程度副詞比較少,通過人工整理并給予相應(yīng)的權(quán)重可得部分詞典,見表3。
程度副詞加權(quán)規(guī)則:如果情感詞前后不遠(yuǎn)處(可以根據(jù)標(biāo)點(diǎn)符號和需求自定義)出現(xiàn)了任意一個(gè)程度副詞,那么在該情感詞的正負(fù)權(quán)重中,較大者加倍。例如“我非常不喜歡喝茶”,“喜歡”這個(gè)詞的正向情感權(quán)重為0.05,負(fù)向情感權(quán)重為0.02,它的前方出現(xiàn)了“非?!背潭雀痹~,所以“喜歡”在本文本里的正負(fù)向權(quán)重就變成了0.1和0.02。
表3 程度副詞加權(quán)詞典樣例
4.3.2 否定詞逆轉(zhuǎn)規(guī)則
一個(gè)文本的情感詞矩陣經(jīng)過程度副詞加權(quán)規(guī)則調(diào)整后,需要根據(jù)否定詞規(guī)則進(jìn)一步調(diào)整,本文構(gòu)建了否定詞逆轉(zhuǎn)規(guī)則。所謂否定詞逆轉(zhuǎn)規(guī)則,即如果情感詞前面不遠(yuǎn)處(可以根據(jù)標(biāo)點(diǎn)符號和需求自定義)出現(xiàn)了否定詞,且否定詞的個(gè)數(shù)為奇數(shù),那么該情感詞的正負(fù)權(quán)重進(jìn)行一次對調(diào)。例如“我非常不喜歡喝茶”,“喜歡”這個(gè)詞的正負(fù)向情感權(quán)重經(jīng)過程度副詞加權(quán)后變成了0.1和0.02,但它的前方出現(xiàn)了“不”字且為否定詞,并只出現(xiàn)了1次,所以“喜歡”的正負(fù)向權(quán)重就變成了0.02和0.1。那么經(jīng)過調(diào)整后,“我非常不喜歡喝茶”的文本情感詞矩陣就變成了表4。
根據(jù)上文的基礎(chǔ)詞庫和規(guī)則,可以獲得任何一條文本的情感詞矩陣,稍作矩陣變換,就可以作為構(gòu)建各種監(jiān)督型機(jī)器學(xué)習(xí)算法的輸入數(shù)據(jù),得出文本情感值,加上強(qiáng)大的訓(xùn)練集標(biāo)注方法,各種監(jiān)督模型(隨機(jī)森林、SVM、邏輯回歸等)均可以使用上述矩陣進(jìn)行模型訓(xùn)練和測試,準(zhǔn)確率相較普通系統(tǒng)大幅提高。經(jīng)過程序測試,本文選擇了樸素貝葉斯分類器算法,并集合汽車行業(yè)特有的標(biāo)注數(shù)據(jù),應(yīng)用于汽車行業(yè)品牌情感分析。
表4 文本情感詞矩陣樣例
本文僅挑選樸素貝葉斯算法作為分類算法演示分類體系,具體實(shí)現(xiàn)流程如圖2所示。所謂樸素貝葉斯分類器在本文中可以通俗地進(jìn)行如下解釋:一條文本中的所有情感詞在正向文本中出現(xiàn)的概率連乘積如果大于這條文本中所有情感詞在負(fù)向文本中出現(xiàn)的概率連乘積,則這條文本屬于正向,否則屬于負(fù)向,計(jì)算式如下:
其中,a表示文本的情感詞正負(fù)向權(quán)重,y代表文本屬于正負(fù)向分類的概率。
本文通過網(wǎng)絡(luò)爬 蟲技術(shù)抓取發(fā) 表在汽車之家、 鳳凰汽車網(wǎng)、太平洋汽車網(wǎng)和新浪汽車網(wǎng)的數(shù)據(jù)約2100萬條,取數(shù)周期為2016年1月1日—4月21日。在進(jìn)行情感分析之前,首先對獲取的數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗[16,17],主要包括刪除特殊符號、分詞、去除停用詞,然后對文本屬性特征進(jìn)行提取,去除不能反映文本主題的詞語。選擇35萬條口碑?dāng)?shù)據(jù)作為標(biāo)注數(shù)據(jù)集,口碑?dāng)?shù)據(jù)具有兩個(gè)非常明顯的模式片段:最滿意的一點(diǎn)和最不滿意的一點(diǎn)。本文將最滿意的一點(diǎn)作為情感正向標(biāo)注,將最不滿意的一點(diǎn)作為負(fù)向標(biāo)注,從而豐富了數(shù)據(jù)標(biāo)注,增加了行業(yè)特異性。
圖2 汽車行業(yè)的情感分析流程
本文將知網(wǎng)、清華大學(xué)①http://nlp.csai.tsinghua.edu.cn/~lj/sentiment.dict.v1.0.zip、臺灣大學(xué)②http://www.datatang.com/data/11837發(fā)布的基礎(chǔ)情感詞典作為基礎(chǔ)詞典,補(bǔ)充汽車行業(yè)情感詞,通過訓(xùn)練汽車行業(yè)評論文本,整理出情感詞詞典。部分情感詞典見表5。
以“我非常不喜歡渦輪增壓,保養(yǎng)貴”這句評論為例。第一步,通過數(shù)據(jù)清洗后,使用分詞結(jié)果與加權(quán)情感詞典進(jìn)行匹配,獲得帶有權(quán)重的情感詞矩陣,流程如圖3所示。
第二步,在帶有權(quán)重的情感詞矩陣中,根據(jù)情感詞的位置,在原文本中向前或向后查找程度副詞。如果找到程度副詞,則根據(jù)規(guī)則調(diào)整情感詞矩陣,如本例在“喜歡”的前面找到了程度副詞“非?!保摇跋矚g”的正(pDF)負(fù)(nDF)情感傾向中較大者為pDF,所以將其乘以程度副詞“非?!钡臋?quán)重2,其nDF不作改變;情感詞“保養(yǎng)貴”前后均未找到程度副詞,所以其權(quán)重不作調(diào)整,這樣就獲得了調(diào)整后的情感詞矩陣1。
表5 情感詞典
圖3 基于樸素貝葉斯算法情感分析流程示例
第三步,調(diào)整后的情感詞矩陣1中,根據(jù)情感詞的位置,在原文本中向前查找否定詞,如果找到否定詞,則根據(jù)規(guī)則調(diào)整情感詞矩陣,如本例在“喜歡”的前面找到了否定詞“不”,“喜歡”的正負(fù)情感傾向進(jìn)行逆轉(zhuǎn),即將喜歡的pDF替換為nDF,nDF替換為pDF,雙方互換在情感詞矩陣中的位置;情感詞“保養(yǎng)貴”前面沒找到否定詞,所以其權(quán)重不作調(diào)整,這樣就獲得了調(diào)整后的情感詞矩陣2。
最后根據(jù)調(diào)整后的情感詞矩陣2,構(gòu)建樸素貝葉斯分類器計(jì)算情感得分,求出所有情感詞pDF的乘積,然后計(jì)算其與所有情感詞pDF的乘積加上所有情感詞nDF的乘積之和的商值作為情感得分,可以得到文本的情感得分為0.01,較嚴(yán)重的負(fù)向傾向。
經(jīng)測試集測試,樸素貝葉斯文本情感分析引擎的情感判別準(zhǔn)確率較高,達(dá)到86.7%,并能準(zhǔn)確應(yīng)對否定句、雙重否定及程度副詞等在網(wǎng)絡(luò)語言中較為普遍的句法、語法類型。
本文提出了一種獲得情感特征詞權(quán)重的量化方法,并設(shè)計(jì)了兩個(gè)比較常見的漢語規(guī)則,用于調(diào)整情感權(quán)重,結(jié)合常見的監(jiān)督型機(jī)器學(xué)習(xí)算法取得了86.7%的分類準(zhǔn)確率。對比其他企業(yè)落地實(shí)施的情感分析引擎,本系統(tǒng)取得了不錯(cuò)的成績。系統(tǒng)弱化了行業(yè)特異性,更加易于移植到其他行業(yè),整個(gè)分析體系弱化了人工干預(yù)和標(biāo)注的工作,更加符合企業(yè)應(yīng)用減少人工的需求,就其分析邏輯而言,很容易與自然語言理解領(lǐng)域其他研究模塊結(jié)合,比如與句法解析結(jié)合,解決情感歸屬問題。
情感分析正在向語義級別發(fā)展,但其在企業(yè)應(yīng)用中的需求至少滿足兩個(gè)方面:其一,情感越來越細(xì)膩;其二,情感歸屬問題。情感越來越細(xì)膩,包括實(shí)際情感的細(xì)化,但隨著品牌輿情管理的細(xì)化,可能需要更加細(xì)粒度的情感分類,比如喜歡、高興、傷心、厭惡、憎恨等。每一種情感背后蘊(yùn)含的看法和觀點(diǎn)存在很大的不同,其中參考文獻(xiàn)[18,19]對情感分析進(jìn)行了更加細(xì)膩的探索研究。不同文本的情感程度是不一樣的,而且其帶來的社會影響也不同,因此除了區(qū)分情感的細(xì)分分類以外,企業(yè)需要更加細(xì)膩的情感程度衡量方式,即傳統(tǒng)的二分類問題或多分類問題,轉(zhuǎn)化為分類和連續(xù)的程度衡量問題。
除了細(xì)膩的情感分析以外,情感歸屬也是一個(gè)亟待解決的問題。情感歸屬正逐步深入自然語言理解的句法分析領(lǐng)域,它不僅要求句法分析做得優(yōu)秀,而且情感分析做得也同樣優(yōu)秀,才能做到準(zhǔn)確的情感歸屬。
[1] ZHAO Y Y, QIN B, LIU T. Sentiment analysis[J]. Journal of Software, 2010,21(8): 1834-1848.
[2] KHARDE V A, SONAWANE S. Sentiment analysis of twitter data: a survey of techniques[J]. Computer Science, 2016:arXiv:1601.06971.
[3] KU L W, LO Y S, CHEN H H. Using polarity scores of words for sentencelevel opinion extraction[C]//The 6th NTCIR-6 Workshop Meeting, May 15-18,2007, Toyko, Japan. [S.l.:s.n.], 2007.
[4] KAJI N, KITSUREGAWA M. Building l e x i c o n f o r s e n t i m e n t a n a l y s i s from massive collection of HTML documents[C]//The 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, June 28-30, 2007,Prague, Czech Republic. [S.l.:s.n.], 2007.
[5] PANG B, LEE L. Opinion mining and sentiment analysis[J]. Foundations amp;Trends in Information Retrieval, 2008,2(1): 459-526.
[6] JUNGHERR A. Twitter use in election campaigns: a systematic literature review[J]. Journal of Information Technology amp; Politics, 2016, 13(1): 72-91.
[7] 宋瑋, 訾紅.“被就業(yè)”事件網(wǎng)絡(luò)輿情分析[J].河北廣播電視大學(xué)學(xué)報(bào), 2010, 15(3):106-108.SONG W, ZI H. Analysis of online public opinion on the “be job hunted”scandal[J]. Journal of Hebei Radio amp; TV University, 2010, 15(3): 106-108.
[8] 趙晉. 淺析網(wǎng)絡(luò)輿情分析在企業(yè)品牌危機(jī)管理中的應(yīng)用[J]. 新聞世界, 2008(12): 97-98.ZHAO J. Analysis of the application of network public opinion in enterprise brand crisis management[J]. News World,2008(12): 97-98.
[9] AKKAYA, C, CONRAD A, WIEBE J, et al.Amazon mechanical Turk for subjectivity wo rd s e n s e d i s a mbi g u at i o n[C]//The NA ACL HLT 2010 Workshop on Creating Speech and Language Dat a w ith A ma z on’s Me cha n ic a l Turk, June 6, 2010, Los Angeles,California. Stroudsburg: Association for Computational Lin guistics, 2010.
[10] TABOADA M, BROOKE J, TOFILOSKI M,et al. Lexicon-based methods for sentiment analysis[J]. Computational Linguistics, 2011, 37(2): 267-307.
[11] 張成功, 劉培玉, 朱振方, 等. 一種基于極性詞典的情感分析方法[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版), 2012, 47(3): 50-53.ZHANG C G, LIU P Y, ZHU Z F, et al.A sentiment analysis method based on a polarity lexicon[J]. Journal of Shandong University, 2012, 47(3): 50-53.
[12] F I R M I NO A A, PA I VA A C D. A comparison of SVM versus naive-Bayes techniques for sentiment analysis in tweets: a case study with the 2013 FIFA confederations cup[C]//The 20th Brazilian Symposium on Multimedia and the Web,November 18-21, 2014, Jo?o Pessoa, Brazil.New York: ACM Press, 2014: 123-130.
[13] 孫建旺, 呂學(xué)強(qiáng), 張雷瀚. 基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(7): 177-181.SU N J W, LV X Q, Z H A NG L H.On sentiment analysis of Chinese m ic ro bl og g i n g b a s e d o n lex ic o n and machine learning[J]. Computer Applications and Software, 2014, 31(7):177-181.
[14] 關(guān)雅夫. 基于主動(dòng)學(xué)習(xí)的微博情感分析方法研究[D]. 長春: 吉林大學(xué), 2017.GUAN Y F. Research on microblog sentiment analysis based on active learning[D].Changchun: Jilin University, 2017.
[15] 樊娜, 安毅生, 李慧賢. 基于K-近鄰算法的文本情感分析方法研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2012, 33(3): 1160-1164.FAN N, AN Y S, LI H X. Research on analyzing sentiment of texts based on k-nearest neighbor algorithm[J].Computer Engineering and Design, 2012,33(3): 1160-1164.
[16] 李英. 基于詞性選擇的文本預(yù)處理方法研究[J]. 情報(bào)科學(xué), 2009, 27(5): 717-719.LI Y. Research on the text pretreatment based on part of speech selection[J].Information Science,2009, 27(5): 717-719.
[17] 張寧. 基于語義的中文文本預(yù)處理研究[D]. 西安: 西安電子科技大學(xué), 2011.ZHANG N. Research of chinese text preprocessing based on semantic[D].Xi’an: Xidian University, 2011.
[18] TOKUHISA R, INUI K, MATSUMOTO Y.Emotion classification using massive examples extracted from the Web[C]//The 22nd International Conference on Computational Linguistics, August 18-22, 2008,Manchester, United Kingdom. Stroudsburg:Association for Computational Linguistics,2008: 881-888.
[19] YANG Y H, LIU C C, CHEN H H.Music emotion classification: a fuzzy approach[C]//The 14th ACM international conference on Multimedia, October 23-27,2006, Santa Barbara, USA. New York:ACM Press, 2006: 81-84.
Application of an emotion discriminant analysis system in the management of automobile brand
SONG Yunsheng
Shenzhen Lan-You Technology Co., Ltd., Shenzhen 518031, China
Brand public opinion management involves text, voice and other natural language processing, such as mining the emotions and views of the text and quantifies it. The quantification of emotion in natural language is the emotion discriminant analysis. Considering the disadvantage in the traditional sentiment analysis that based on emotional dictionary and supervision model based sentiment analysis system, a new sentiment analysis system was proposed, and combined with the Naive Bayesian classification algorithm, the accuracy of sentiment analysis was improved, and the ability of quantitative analysis of emotional strength was enhanced. The sentiment discrimination accuracy of the proposed text sentiment analysis engine is higher than that of the common analysis method, and there is no decent of accuracy in out-ofsample texts from different industries.
sentiment analysis, supervised model, naive Bayes, natural language processing
TP 391
A
10.11959/j.issn.2096-0271.2017061
宋云生(1985-),男,深圳聯(lián)友科技有限公司數(shù)據(jù)挖掘工程師,主要研究方向?yàn)樽匀徽Z言理解及深度學(xué)習(xí)。
2017-09-07