陳 放, 王 顆, 梁 爽,黃永峰
(清華大學(xué) 電子工程系 新一代網(wǎng)絡(luò)技術(shù)與應(yīng)用實(shí)驗(yàn)室,北京 100084)
隨著電子商務(wù)的不斷普及,互聯(lián)網(wǎng)已經(jīng)成為了商品銷(xiāo)售的重要渠道。許多消費(fèi)者在完成交易后會(huì)在購(gòu)物網(wǎng)站上發(fā)表商品評(píng)論。消費(fèi)者可以通過(guò)瀏覽商品評(píng)論,了解商品的總體質(zhì)量、各方面特點(diǎn)、售后服務(wù)和交易風(fēng)險(xiǎn)等信息。商家可以通過(guò)收集商品評(píng)論,獲知商品的用戶(hù)體驗(yàn),從而加快產(chǎn)品升級(jí),改善售后服務(wù),提高核心競(jìng)爭(zhēng)力。電子商務(wù)交易規(guī)模的不斷擴(kuò)大使得網(wǎng)絡(luò)商品評(píng)論的數(shù)量迅速膨脹。海量的商品評(píng)論已經(jīng)超出了人工收集和處理的能力,因此需要計(jì)算機(jī)自動(dòng)從大規(guī)模評(píng)論文本中全面、精煉地篩選出有價(jià)值的信息。
本文主要關(guān)注面向商品評(píng)論的細(xì)粒度情感分析研究。其目標(biāo)是將評(píng)論文本轉(zhuǎn)化為<評(píng)價(jià)對(duì)象,評(píng)價(jià)詞語(yǔ)>形式的結(jié)構(gòu)化表達(dá),并分析其表達(dá)出的情感傾向[1-2]。限制計(jì)算機(jī)理解人類(lèi)語(yǔ)言和情感的一個(gè)重要因素是,計(jì)算機(jī)不具備人類(lèi)社會(huì)的常識(shí)[3]。這里的“常識(shí)”不僅包括常識(shí)性知識(shí),還包括常識(shí)性推理。目前,很多情感分析系統(tǒng)使用大量評(píng)論語(yǔ)料訓(xùn)練情感計(jì)算模型,語(yǔ)料中隱含的知識(shí)通過(guò)訓(xùn)練過(guò)程記憶在模型的參數(shù)中,用戶(hù)無(wú)法直接感知和修正。本文提出的情感認(rèn)知模型與這類(lèi)情感計(jì)算模型有所不同。首先,通過(guò)學(xué)習(xí)大規(guī)模評(píng)論語(yǔ)料,將其中的常識(shí)性知識(shí)保存在知識(shí)庫(kù)中。然后,基于知識(shí)庫(kù)進(jìn)行常識(shí)性推理,分析用戶(hù)的情感傾向。顯式的知識(shí)庫(kù)表達(dá)模式不僅可以讓模型進(jìn)行增量學(xué)習(xí),還方便用戶(hù)修正、重用知識(shí)。
本文首先介紹二元情感認(rèn)知模型的總體設(shè)計(jì);然后,依次闡述“二元情感常識(shí)庫(kù)”和“評(píng)價(jià)體系知識(shí)庫(kù)”的定義和構(gòu)建方法,該部分體現(xiàn)了模型學(xué)習(xí)和記憶常識(shí)性知識(shí)的過(guò)程;最后,展示在上述兩個(gè)知識(shí)庫(kù)的支持下情感分析引擎的應(yīng)用方法,該部分體現(xiàn)了模型應(yīng)用已有知識(shí)進(jìn)行常識(shí)性推理的過(guò)程。
二元情感常識(shí)庫(kù)主要涉及評(píng)價(jià)觀點(diǎn)抽取和情感傾向判別方面的研究。Hu和Liu[4]先使用關(guān)聯(lián)規(guī)則挖掘商品屬性,再利用詞語(yǔ)的共現(xiàn)關(guān)系,將商品屬性附近的形容詞提取出來(lái)作為評(píng)價(jià)詞語(yǔ),最后利用WordNet中形容詞的近義詞和反義詞集,判斷評(píng)價(jià)詞語(yǔ)的情感傾向。該方法的缺點(diǎn)在于沒(méi)有考慮評(píng)價(jià)對(duì)象的領(lǐng)域相關(guān)性以及評(píng)價(jià)搭配之間的語(yǔ)法關(guān)聯(lián),抽取結(jié)果中存在很多噪聲。Popescu和Etzioni[5]首先利用點(diǎn)互信息量(PMI)抽取商品屬性,然后通過(guò)若干人工制定的語(yǔ)法規(guī)則模板識(shí)別評(píng)價(jià)詞語(yǔ),最后使用松弛標(biāo)記算法確定評(píng)價(jià)搭配的情感傾向。如果模板制定合理,評(píng)價(jià)搭配抽取具有較高的準(zhǔn)確率。但由于模板的覆蓋率有限,該方法的召回率相對(duì)偏低。Zhuang等人[6]通過(guò)有標(biāo)注語(yǔ)料學(xué)習(xí)評(píng)價(jià)對(duì)象和評(píng)價(jià)詞語(yǔ)的詞性標(biāo)簽和依存句法關(guān)系,再根據(jù)學(xué)習(xí)到的模板抽取無(wú)標(biāo)注評(píng)論文本中的評(píng)價(jià)搭配。該方法能夠從訓(xùn)練數(shù)據(jù)中自動(dòng)獲得語(yǔ)法規(guī)則模板,但模板的質(zhì)量很大程度上依賴(lài)于訓(xùn)練使用的評(píng)論語(yǔ)料。另一類(lèi)方法將二元搭配抽取建模為一個(gè)序列標(biāo)注任務(wù),使用有標(biāo)注數(shù)據(jù)訓(xùn)練模型,同時(shí)識(shí)別句子中出現(xiàn)的商品屬性和評(píng)價(jià)詞語(yǔ)。Li等人[7]使用詞例、詞性和句法依存關(guān)系等特征構(gòu)建了條件隨機(jī)場(chǎng)(CRF)模型,對(duì)評(píng)價(jià)對(duì)象、評(píng)價(jià)觀點(diǎn)和情感傾向進(jìn)行聯(lián)合抽取。Liu等人[8]使用雙向LSTM網(wǎng)絡(luò)抽取評(píng)價(jià)搭配,該方法的優(yōu)勢(shì)在于無(wú)需人工制定模型特征。然而,基于統(tǒng)計(jì)的方法普遍存在對(duì)文本語(yǔ)義信息利用不足的缺點(diǎn)[9]。同時(shí),為了取得較好的實(shí)驗(yàn)效果,此類(lèi)方法通常需要大量的有標(biāo)注數(shù)據(jù),且跨領(lǐng)域適用性較差。
評(píng)價(jià)體系知識(shí)庫(kù)主要涉及商品屬性層次結(jié)構(gòu)構(gòu)建方面的研究。Yu等人[10]使用樹(shù)形結(jié)構(gòu)描述商品屬性之間的層次關(guān)系。該方法首先利用網(wǎng)絡(luò)上的商品描述等領(lǐng)域先驗(yàn)知識(shí),構(gòu)建出一棵粗粒度的初始屬性樹(shù),然后將其他商品屬性加入樹(shù)結(jié)構(gòu)的過(guò)程建模成一個(gè)函數(shù)優(yōu)化問(wèn)題,通過(guò)最小化屬性樹(shù)的整體誤差得到最終的商品屬性樹(shù)。該方法的優(yōu)點(diǎn)在于構(gòu)建結(jié)果層次結(jié)構(gòu)清晰,能夠看出各個(gè)屬性之間的關(guān)系。但該方法構(gòu)建的精細(xì)屬性樹(shù)的準(zhǔn)確性很大程度上依賴(lài)于初始樹(shù)結(jié)構(gòu)的合理性。此外,由于該方法在初始化屬性樹(shù)時(shí)需要借助領(lǐng)域先驗(yàn)知識(shí),因此不具有很好的跨領(lǐng)域適用性。Shi等人[11]對(duì)屬性詞語(yǔ)向量化后進(jìn)行層次聚類(lèi),得到商品屬性的樹(shù)形結(jié)構(gòu)描述。該方法的優(yōu)點(diǎn)在于不需要領(lǐng)域先驗(yàn)知識(shí),具有很好的通用性。但其構(gòu)建的樹(shù)結(jié)構(gòu)固定為二叉樹(shù),結(jié)構(gòu)不合理,且屬性樹(shù)的準(zhǔn)確性較差,一些不具備從屬關(guān)系的商品屬性也作為父子結(jié)點(diǎn)出現(xiàn)。Kim等人[12]基于Blei等人[13]提出的nCRP模型進(jìn)行屬性樹(shù)抽取。然而,該方法的計(jì)算復(fù)雜度太高,實(shí)用性較差。
本文提出的二元情感認(rèn)知模型旨在從自由文本形式的商品評(píng)論中提取結(jié)構(gòu)化的評(píng)價(jià)觀點(diǎn),進(jìn)而分析消費(fèi)者的情感傾向,模型框架如圖1所示。
圖1 二元情感認(rèn)知模型框架
(1) 情感分析引擎: 以評(píng)論文本作為輸入,在“評(píng)價(jià)體系知識(shí)庫(kù)”和“二元情感常識(shí)庫(kù)”的支持下,識(shí)別評(píng)論文本中的顯式觀點(diǎn),并對(duì)隱式情感進(jìn)行推斷,輸出結(jié)構(gòu)化的評(píng)價(jià)觀點(diǎn)。
(2) 二元情感常識(shí)庫(kù): 記錄了<商品屬性,評(píng)價(jià)詞語(yǔ)>形式的二元情感常識(shí)及其情感傾向,能夠幫助分析引擎進(jìn)行顯式評(píng)價(jià)觀點(diǎn)挖掘。
(3) 評(píng)價(jià)體系知識(shí)庫(kù): 記錄了商品的常見(jiàn)屬性、屬性的層次關(guān)系和評(píng)價(jià)權(quán)重,能夠幫助分析引擎進(jìn)行隱式情感推斷。
模型對(duì)不同類(lèi)型商品的大規(guī)模評(píng)論語(yǔ)料進(jìn)行學(xué)習(xí),將每一類(lèi)商品的情感常識(shí)和評(píng)價(jià)體系知識(shí)保存在兩個(gè)知識(shí)庫(kù)中,提供給情感分析引擎使用。上述學(xué)習(xí)過(guò)程也是知識(shí)庫(kù)的構(gòu)建過(guò)程,知識(shí)庫(kù)中的知識(shí)可以被修正和重用。情感分析引擎利用“二元情感常識(shí)庫(kù)”中的知識(shí)提取消費(fèi)者的評(píng)價(jià)觀點(diǎn),然后按照商品的評(píng)價(jià)體系將其層次化地展示出來(lái)。另外,情感分析引擎還可以借助“評(píng)價(jià)體系知識(shí)庫(kù)”的層次化組織結(jié)構(gòu)對(duì)消費(fèi)者深層情感進(jìn)行推斷。
2.2.1 二元搭配抽取
二元搭配是指消費(fèi)者在商品評(píng)論中談?wù)摰木唧w對(duì)象以及描述它的詞語(yǔ),本文將其定義為<商品屬性,評(píng)價(jià)詞語(yǔ)>。本文首先利用斯坦福句法分析器Stanford Parser得到評(píng)論文本的詞性標(biāo)簽和依存句法關(guān)系,然后按照一定的語(yǔ)法規(guī)則抽取二元搭配。
依存句法分析通過(guò)依存句法樹(shù)來(lái)描述句子的句法結(jié)構(gòu),句子中的詞語(yǔ)作為樹(shù)的結(jié)點(diǎn),詞語(yǔ)間的依存關(guān)系作為樹(shù)的邊。Stanford Parser依存句法分析的輸出格式為“Reln(Gov, Dep)”,其中Gov表示核心詞,Dep表示從屬詞,Reln表示兩者之間的依存關(guān)系。在對(duì)商品評(píng)論完成詞性標(biāo)注和依存句法分析后,本文使用表1中的語(yǔ)法規(guī)則提取評(píng)論文本中出現(xiàn)的二元搭配。其中,POS表示單詞詞性,Reln表示依存關(guān)系,Target表示商品屬性,Modifier表示評(píng)價(jià)詞語(yǔ)。
表1 二元搭配抽取規(guī)則
2.2.2 情感傾向判斷
本文將二元搭配的情感傾向分為積極、消極和中立三類(lèi),結(jié)合通用情感詞典和人機(jī)交互進(jìn)行情感傾向判別。
在二元搭配<商品屬性,評(píng)價(jià)詞語(yǔ)>中,評(píng)價(jià)詞語(yǔ)很大程度上反映了消費(fèi)者的褒貶態(tài)度。一類(lèi)評(píng)價(jià)詞語(yǔ)本身帶有強(qiáng)烈的情感色彩,并且在搭配不同商品屬性時(shí),其情感傾向保持不變,這一類(lèi)評(píng)價(jià)詞語(yǔ)稱(chēng)為“通用情感詞”。例如,“good”總是表達(dá)積極的情感,而“bad”總是表達(dá)消極的情感。本文使用伊利諾伊大學(xué)Bing Liu研究小組提供的通用情感詞典“Opinion Lexicon”進(jìn)行情感傾向判別。該詞典較為完整地收錄了常見(jiàn)的通用情感詞,包括2 006個(gè)積極詞語(yǔ)和4 783個(gè)消極詞語(yǔ)。如果二元搭配中的評(píng)價(jià)詞語(yǔ)屬于通用情感詞,則根據(jù)通用情感詞典將評(píng)價(jià)搭配分類(lèi)為積極或消極;如果評(píng)價(jià)詞語(yǔ)不屬于通用情感詞,則進(jìn)行進(jìn)一步的判斷。
與通用情感詞不同,另一類(lèi)評(píng)價(jià)詞語(yǔ)本身并不帶有情感色彩,但在與特定的商品屬性搭配時(shí),卻能表達(dá)出一定的情感,并且這種情感隨著搭配對(duì)象的變化而改變。例如,“big”本身并沒(méi)有情感傾向,但在手機(jī)領(lǐng)域中,它在描述“screen”時(shí)表達(dá)出積極的情感,而在描述“problem”時(shí)卻表達(dá)出消極的情感。針對(duì)這一現(xiàn)象,本文將包含非通用情感詞的二元搭配挑選出來(lái),人工標(biāo)注其中領(lǐng)域?qū)S卸钆涞那楦袃A向,最后將其余二元搭配分類(lèi)為中立。
至此,二元情感常識(shí)庫(kù)的構(gòu)建全部完成。圖2展示了智能手機(jī)領(lǐng)域二元情感常識(shí)庫(kù)的部分實(shí)例。
圖2 智能手機(jī)領(lǐng)域二元情感常識(shí)庫(kù)實(shí)例
2.3.1 商品屬性及從屬關(guān)系抽取
商品屬性一般為名詞或名詞短語(yǔ)。在評(píng)論文本中,屬性名詞通常與帶有情感色彩的情感詞(常為形容詞)共同出現(xiàn),并被情感詞所修飾。根據(jù)這一特點(diǎn),本文使用Qiu和Liu[14]提出的“Double Propagation”算法提取商品屬性。
為了得到商品屬性之間的關(guān)聯(lián),本文使用Stanford Parser對(duì)評(píng)論語(yǔ)料進(jìn)行依存句法分析,并根據(jù)表2中的語(yǔ)法規(guī)則抽取屬性間的從屬關(guān)系。其中,Reln表示依存關(guān)系,Targets表示商品屬性集合,F(xiàn)ather表示父屬性,Child表示子屬性。使用這樣兩條簡(jiǎn)單的規(guī)則足以抽取出大量從屬關(guān)系,它們基本可以滿(mǎn)足標(biāo)簽抽取及屬性樹(shù)精細(xì)化的需求。因此,本文沒(méi)有采用其他更復(fù)雜的規(guī)則,以免產(chǎn)生過(guò)多噪聲。
表2 從屬關(guān)系抽取規(guī)則
根據(jù)上述規(guī)則抽取出的從屬關(guān)系中,一個(gè)屬性可以存在多個(gè)父屬性和子屬性。從屬關(guān)系整體上較為可靠,但存在較多噪聲。為了避免這些噪聲的影響,本文在利用從屬關(guān)系提取標(biāo)簽詞及校正屬性樹(shù)時(shí)僅使用其共現(xiàn)頻率等統(tǒng)計(jì)特征,詳見(jiàn)2.3.2。
2.3.2 屬性樹(shù)初始化
屬性樹(shù)的初始化過(guò)程將商品屬性構(gòu)建成一個(gè)初步的層次結(jié)構(gòu)。本文首先將屬性詞向量化,并以此為基礎(chǔ)對(duì)屬性進(jìn)行層次聚類(lèi),最后利用抽取的從屬關(guān)系為二叉樹(shù)中的非葉子結(jié)點(diǎn)提取類(lèi)別標(biāo)簽。
本文用語(yǔ)境向量表示屬性詞。具體地,假設(shè)有n個(gè)屬性詞F1,F2,...,Fn,則每個(gè)屬性詞的語(yǔ)境向量是一個(gè)n維向量,F(xiàn)j的語(yǔ)境向量的第k維是評(píng)論語(yǔ)料中同時(shí)包含F(xiàn)j和Fk的句子數(shù)量。
對(duì)于向量化后的屬性詞,使用自頂向下的層次聚類(lèi)方法生成層次結(jié)構(gòu)。本文使用明尼蘇達(dá)大學(xué)George Karypis等人提供的CLUTO聚類(lèi)工具箱進(jìn)行聚類(lèi)操作。為了實(shí)現(xiàn)自適應(yīng)的分類(lèi),本文根據(jù)Shi等人[7]的方法,采用類(lèi)內(nèi)相似度閾值來(lái)控制分類(lèi),并自頂向下二分實(shí)現(xiàn)聚類(lèi)。類(lèi)內(nèi)相似度的定義如下:
具體聚類(lèi)方法如下:
令C1,C2,...,Ck分別表示聚類(lèi)得到的k類(lèi)屬性,C1∪C2∪…∪Ck=F(F為所有屬性詞的集合),記C={C1,C2,…,Ck}是各屬性類(lèi)構(gòu)成的集合。
(0) 令C={C1}={F};
(1) 計(jì)算C中各類(lèi)別的類(lèi)內(nèi)相似度IS;
(2) 設(shè)定閾值th(實(shí)驗(yàn)中取0.7),記C中類(lèi)內(nèi)相似度IS
(3) 對(duì)C′中的m類(lèi)屬性分別用CLUTO工具箱進(jìn)行二分類(lèi),得到新的2m類(lèi)屬性,記作集合C″;
(4) 令C=C-C′+C″;
(5) 重復(fù)1—4步驟,直至集合C不再變化,所得C={C1,C2,...,Ck},即為最終聚類(lèi)結(jié)果。
上述方法得到的二叉屬性樹(shù)中,所有屬性詞均出現(xiàn)在葉子節(jié)點(diǎn),非葉子節(jié)點(diǎn)沒(méi)有定義??紤]到非葉子節(jié)點(diǎn)是其子孫節(jié)點(diǎn)的總體概括,本文提出如下方法提取類(lèi)別標(biāo)簽:
記“主—從”屬性對(duì)集合為R=
(1) 對(duì)某一屬性類(lèi)的屬性詞集合Ck,根據(jù)屬性詞之間的從屬關(guān)系,將該類(lèi)別所有屬性詞的所有主屬性詞加入標(biāo)簽詞候選集合M={m|?s∈Ck,s.t.
(2) 對(duì)每一個(gè)候選詞m∈M,計(jì)算其作為該類(lèi)屬性詞標(biāo)簽的得分,如式(3)所示。
其中,freq(s)freq(s)freq(s)表示屬性詞s在評(píng)論語(yǔ)料庫(kù)中出現(xiàn)的頻次,freq(
(3) 將候選詞按得分從高到低排序,最高得分的候選詞作為該類(lèi)屬性的標(biāo)簽。
2.3.3 屬性樹(shù)精細(xì)化
經(jīng)初始化得到的屬性樹(shù)存在樹(shù)結(jié)構(gòu)不準(zhǔn)確、精確度不高的問(wèn)題。因此,本文提出以下五條規(guī)則,用以對(duì)初始的屬性樹(shù)進(jìn)行校正、完善和修剪,具體如下:
(1) 所有孩子節(jié)點(diǎn)均非葉子節(jié)點(diǎn)的節(jié)點(diǎn),應(yīng)被其孩子節(jié)點(diǎn)取代;
(2) 在非葉子節(jié)點(diǎn)出現(xiàn)的屬性詞,應(yīng)從葉子節(jié)點(diǎn)中刪除;
(3) 刪除與兄弟節(jié)點(diǎn)及父節(jié)點(diǎn)之間均無(wú)從屬關(guān)系的葉子節(jié)點(diǎn);
(4) 僅有一個(gè)孩子節(jié)點(diǎn)的節(jié)點(diǎn),應(yīng)被其孩子節(jié)點(diǎn)取代;
(5) 同名的非葉子兄弟節(jié)點(diǎn)合并。
其中,規(guī)則(1)、(4)、(5)主要用于改善樹(shù)形結(jié)構(gòu),增加屬性樹(shù)的寬度、減少屬性樹(shù)深度;規(guī)則(2)、(3)主要用于剔除可能錯(cuò)誤分類(lèi)的葉子節(jié)點(diǎn),提高屬性樹(shù)的精確性。
2.3.4 屬性權(quán)重設(shè)置
商品具有多方面的屬性,消費(fèi)者對(duì)重要屬性的評(píng)價(jià)很大程度上決定了其對(duì)商品整體的情感態(tài)度,而次要屬性則對(duì)整體評(píng)價(jià)的影響較小。因此,本文通過(guò)對(duì)商品屬性賦予不同的權(quán)值,描述該屬性在評(píng)價(jià)體系中的重要程度。
一般來(lái)說(shuō),某種屬性在評(píng)論語(yǔ)料中被消費(fèi)者提到的次數(shù)越多,則說(shuō)明該屬性受關(guān)注的程度越高,對(duì)消費(fèi)決策的影響越大,其重要性也就越強(qiáng)。因此,本文規(guī)定屬性的權(quán)重正比于其在語(yǔ)料庫(kù)中出現(xiàn)的頻率。同時(shí),考慮到屬性樹(shù)的層次結(jié)構(gòu)特點(diǎn),本文使用歸一化的相對(duì)頻率設(shè)置屬性權(quán)重,屬性Fi的歸一化權(quán)重wFi可以根據(jù)式(4)計(jì)算。
其中,N(Fi)表示Fi在評(píng)論語(yǔ)料中出現(xiàn)的次數(shù),mFi表示Fi的父屬性。上述屬性權(quán)重設(shè)置方式使得同一父節(jié)點(diǎn)下所有子節(jié)點(diǎn)的權(quán)重之和為1,方便進(jìn)行情感推斷。
至此,評(píng)價(jià)體系知識(shí)庫(kù)的構(gòu)建全部完成。圖3展示了智能手機(jī)領(lǐng)域評(píng)價(jià)體系知識(shí)庫(kù)的部分實(shí)例。
圖3 智能手機(jī)領(lǐng)域評(píng)價(jià)體系知識(shí)庫(kù)實(shí)例
2.4 情感分析引擎的應(yīng)用2.4.1 觀點(diǎn)挖掘
商品評(píng)論中最有價(jià)值的信息是消費(fèi)者對(duì)商品各方面屬性的具體評(píng)價(jià)。觀點(diǎn)挖掘通過(guò)分析自由文本形式的商品評(píng)論,輸出結(jié)構(gòu)化的評(píng)價(jià)觀點(diǎn)。這使得評(píng)論文本中重要信息的表達(dá)更加簡(jiǎn)潔、直觀,也簡(jiǎn)化了信息的進(jìn)一步加工處理。本文提出了一種基于“二元情感常識(shí)庫(kù)”的觀點(diǎn)挖掘方法,用于提取出商品評(píng)論中出現(xiàn)的顯式評(píng)價(jià)觀點(diǎn),輸出<商品屬性,評(píng)價(jià)詞語(yǔ)>形式的二元搭配及其情感傾向。例如,從評(píng)論“這款手機(jī)的屏幕很清晰,但電池壽命不長(zhǎng)”中,可以得到積極的評(píng)價(jià)搭配<屏幕,清晰>,以及消極的評(píng)價(jià)搭配<電池壽命,不長(zhǎng)>。
由于“二元情感常識(shí)庫(kù)”記錄了商品相關(guān)的先驗(yàn)知識(shí),本文得以將觀點(diǎn)挖掘簡(jiǎn)化為一個(gè)信息檢索任務(wù)。對(duì)于一條評(píng)論語(yǔ)句,算法首先定位其中出現(xiàn)的商品屬性,然后以屬性詞為中心,考察一定長(zhǎng)度的文本窗口內(nèi)是否存在能與屬性詞組成二元搭配的評(píng)價(jià)詞語(yǔ)。如果這樣的二元搭配在“二元情感常識(shí)庫(kù)”中出現(xiàn),則將其抽取出來(lái)作為評(píng)價(jià)觀點(diǎn),并根據(jù)“二元情感常識(shí)庫(kù)”確定評(píng)價(jià)觀點(diǎn)的情感傾向。
2.4.2 情感推斷
目前的情感分析研究大多只能識(shí)別文本中顯式表達(dá)的情感,無(wú)法對(duì)深層的隱含情感進(jìn)行推斷,從而限制了計(jì)算機(jī)的情感理解能力。情感推斷有著十分重要的意義: 在情感能夠推斷的條件下,計(jì)算機(jī)獲取的信息將更加全面,對(duì)人的情感“理解”將更加深刻。本文提出了一種基于“評(píng)價(jià)體系知識(shí)庫(kù)”的情感推斷方法,對(duì)商品評(píng)論中未出現(xiàn)的屬性進(jìn)行情感傾向推斷。例如,對(duì)于評(píng)論“這款手機(jī)拍攝的照片有些模糊”,如果具備類(lèi)似于“照片清晰度是相機(jī)質(zhì)量的評(píng)價(jià)指標(biāo)之一”的常識(shí)性知識(shí),那么便可以推斷出消費(fèi)者對(duì)手機(jī)“相機(jī)”有負(fù)面的評(píng)價(jià)。
評(píng)價(jià)體系知識(shí)庫(kù)的樹(shù)形結(jié)構(gòu)描述了商品屬性之間的內(nèi)在聯(lián)系,父節(jié)點(diǎn)是子節(jié)點(diǎn)的總體概括,子節(jié)點(diǎn)是父節(jié)點(diǎn)的具體表征。因此,父節(jié)點(diǎn)的情感傾向可以根據(jù)其所有已知情感傾向的子節(jié)點(diǎn)推斷得出。
首先,情感分析引擎提取出評(píng)論中的<商品屬性,評(píng)價(jià)詞語(yǔ)>,并通過(guò)二元情感常識(shí)庫(kù)確定其情感傾向,從而確定該屬性的情感得分,如式(5)所示。
其中,oFi表示已知屬性Fi的情感傾向,1表示積極,0表示中立,-1表示消極。未知屬性的情感傾向通過(guò)其子屬性情感傾向的加權(quán)和得到,如式(6)所示。
其中,F(xiàn)k表示待推斷的商品屬性,mFi表示Fi的父屬性,scoreFi表示屬性的情感得分,wFi表示屬性的權(quán)重。根據(jù)待推斷屬性情感得分的正負(fù),便可以推斷出消費(fèi)者對(duì)商品高層次屬性的潛在情感傾向。
實(shí)驗(yàn)使用的數(shù)據(jù)是從亞馬遜網(wǎng)站上爬取的智能手機(jī)商品評(píng)論,共涉及63件商品,105 978篇評(píng)論文檔,從中抽取出了2 556條二元搭配。
本文分別統(tǒng)計(jì)了包含通用情感詞和非通用情感詞的二元搭配中積極、消極和中立類(lèi)別的比例,結(jié)果如表3所示。
表3 二元搭配的情感傾向分布
從實(shí)驗(yàn)結(jié)果可以看出,絕大多數(shù)包含通用情感詞的二元搭配表現(xiàn)出積極或消極的情感傾向;大部分包含非通用情感詞的二元搭配不帶有情感色彩,但也有一部分二元搭配能夠表達(dá)積極或消極的情感態(tài)度。為了提高知識(shí)庫(kù)的完整性和準(zhǔn)確性,文本對(duì)這部分專(zhuān)有搭配的情感傾向進(jìn)行人工標(biāo)注后加入知識(shí)庫(kù)。情感傾向判別的實(shí)驗(yàn)結(jié)果如表4所示。
表4 情感傾向判別實(shí)驗(yàn)結(jié)果
由于大部分二元搭配包含通用情感詞,且包含非通用情感詞的二元搭配中情感中立類(lèi)別較多,因此僅使用通用情感詞典便可以得到不錯(cuò)的分類(lèi)結(jié)果。結(jié)合人工標(biāo)注的領(lǐng)域?qū)S星楦写钆浜螅钆淝楦蟹诸?lèi)的準(zhǔn)確率進(jìn)一步提升。
實(shí)驗(yàn)使用的數(shù)據(jù)是從亞馬遜網(wǎng)站上爬取的商品評(píng)論,涉及智能手機(jī)和筆記本電腦兩個(gè)領(lǐng)域。數(shù)據(jù)規(guī)模如表5所示。
表5 商品屬性樹(shù)構(gòu)建實(shí)驗(yàn)數(shù)據(jù)規(guī)模
本文根據(jù)商品屬性樹(shù)的各個(gè)父子節(jié)點(diǎn)之間是否符合上下級(jí)關(guān)系來(lái)評(píng)價(jià)樹(shù)結(jié)構(gòu)的準(zhǔn)確性。設(shè)屬性樹(shù)中共有N對(duì)父子節(jié)點(diǎn),其中父節(jié)點(diǎn)是子節(jié)點(diǎn)正確主屬性的有n對(duì),本文以正確父子節(jié)點(diǎn)對(duì)所占的比例n/N來(lái)衡量屬性樹(shù)的整體正確率。本文以Shi等人[7]的方法作為基準(zhǔn),對(duì)比屬性樹(shù)的構(gòu)建效果,結(jié)果如表6、表7所示。
從實(shí)驗(yàn)結(jié)果可以看出,本文提出的屬性樹(shù)構(gòu)建算法在智能手機(jī)和筆記本電腦數(shù)據(jù)集上的準(zhǔn)確率均高于基準(zhǔn)方法。其中,初始屬性樹(shù)采用了Shi的方法對(duì)屬性詞提取語(yǔ)境向量,并二分聚類(lèi)得到樹(shù)形結(jié)構(gòu),因此樹(shù)形結(jié)構(gòu)相同。但本文基于從屬關(guān)系的統(tǒng)計(jì)特征進(jìn)一步提取了類(lèi)別標(biāo)簽,得到了更為準(zhǔn)確的結(jié)果。而精細(xì)屬性樹(shù)則是在初始屬性樹(shù)上基于本文提出的五條規(guī)則進(jìn)行樹(shù)形結(jié)構(gòu)對(duì)的校正和不恰當(dāng)節(jié)點(diǎn)的濾除,因此準(zhǔn)確性進(jìn)一步提高。
表6 智能手機(jī)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表7 筆記本電腦數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)使用的數(shù)據(jù)是從車(chē)主之家網(wǎng)站上爬取的汽車(chē)領(lǐng)域的商品評(píng)論,評(píng)論數(shù)量超過(guò)20萬(wàn)條,每條評(píng)論帶有1~5分的用戶(hù)評(píng)分。本文隨機(jī)選取若干包含二元搭配的評(píng)論,制作了三個(gè)規(guī)模較小的測(cè)試數(shù)據(jù)集,每個(gè)數(shù)據(jù)集約有1萬(wàn)條評(píng)論,每條評(píng)論根據(jù)用戶(hù)評(píng)分標(biāo)注了整體情感傾向(小于3分為消極,大于3分為積極)。
為了驗(yàn)證情感分析引擎的有效性,本文首先對(duì)評(píng)論文本進(jìn)行顯式觀點(diǎn)挖掘,抽取其中出現(xiàn)的二元搭配,并確定其情感傾向。然后根據(jù)情感推斷算法計(jì)算屬性樹(shù)根節(jié)點(diǎn)的情感得分,若得分大于0,則認(rèn)為整條評(píng)論的情感為積極;若得分小于0,則認(rèn)為整條評(píng)論的情感為消極。實(shí)驗(yàn)結(jié)果如表8所示。
表8 情感推斷實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,情感推斷算法得出情感傾向與消費(fèi)者實(shí)際表達(dá)的情感傾向基本一致,從而驗(yàn)證了該算法的有效性。
本文提出了一種面向商品評(píng)論的二元情感認(rèn)知模型。該模型從大規(guī)模評(píng)論文本中學(xué)習(xí)領(lǐng)域先驗(yàn)知識(shí),存儲(chǔ)在知識(shí)庫(kù)中,并可以通過(guò)人機(jī)交互的方式對(duì)知識(shí)進(jìn)行更新和修正。模型中的情感分析引擎在“二元情感常識(shí)庫(kù)”和“評(píng)價(jià)體系知識(shí)庫(kù)”的指導(dǎo)下,能夠?qū)ι唐吩u(píng)論進(jìn)行顯式觀點(diǎn)挖掘和隱式情感推斷。本文還介紹了“二元情感常識(shí)庫(kù)”和“評(píng)價(jià)體系知識(shí)庫(kù)”的具體構(gòu)建流程,以及情感分析引擎的使用方法。實(shí)驗(yàn)驗(yàn)證了知識(shí)庫(kù)構(gòu)建方法的可行性和情感分析引擎的有效性。
本文初步提出了“二元情感常識(shí)庫(kù)”和“評(píng)價(jià)體系知識(shí)庫(kù)”的基本構(gòu)建方法,其中涉及的諸多細(xì)節(jié)還需要進(jìn)一步的改進(jìn)和完善,如二元搭配和從屬關(guān)系的抽取規(guī)則、評(píng)價(jià)單元的情感傾向判別等。另外,未來(lái)還需要在更多領(lǐng)域和更大規(guī)模的數(shù)據(jù)集上對(duì)模型進(jìn)行測(cè)試。