劉新星,姬東鴻,任亞峰
(武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072)
基于神經(jīng)網(wǎng)絡(luò)模型的產(chǎn)品屬性情感分析
劉新星*,姬東鴻,任亞峰
(武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072)
(*通信作者電子郵箱781725130@qq.com)
針對(duì)基于詞向量的神經(jīng)網(wǎng)絡(luò)模型在產(chǎn)品屬性情感分析中效果不佳的問(wèn)題,提出一種集成離散特征和詞向量特征的開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)模型。首先,通過(guò)直接循環(huán)圖為語(yǔ)句建模,采用開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)模型完成產(chǎn)品屬性情感分析任務(wù);然后,在開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)模型中集成離散特征和詞向量特征;最后,分別在流水線、聯(lián)合、折疊三種任務(wù)模型中完成屬性提取和情感分析任務(wù)。以宏觀F1分?jǐn)?shù)作為評(píng)估指標(biāo), 在SemEval- 2014的筆記本電腦和餐館評(píng)論數(shù)據(jù)集上做實(shí)驗(yàn)。開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)模型的F1分?jǐn)?shù)為:48.21%和62.19%,超過(guò)普通遞歸神經(jīng)網(wǎng)絡(luò)模型近1.5個(gè)百分點(diǎn),因而開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)能夠有效捕獲復(fù)雜特征,提升產(chǎn)品屬性情感分析的效果。而集成離散特征和詞向量特征的神經(jīng)網(wǎng)絡(luò)模型的F1分?jǐn)?shù)為:49.26%和63.31%,均超過(guò)基線結(jié)果0.5到1個(gè)百分點(diǎn),表明離散特征和詞向量特征互相促進(jìn),另一方面,也表明僅僅基于詞向量的神經(jīng)網(wǎng)絡(luò)模型仍有提升空間。 三種任務(wù)模型中,流水線模型的F1分?jǐn)?shù)最高,表明應(yīng)將屬性提取和情感分析任務(wù)分開完成。
神經(jīng)網(wǎng)絡(luò);情感分析;產(chǎn)品屬性;開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)
隨著情感分析研究的不斷深入,產(chǎn)品屬性情感分析在自然語(yǔ)言處理領(lǐng)域備受關(guān)注。傳統(tǒng)的情感分析任務(wù)判定給定文本或者句子的極性(負(fù)面、中性、正面),而基于屬性的情感分析旨在識(shí)別給定目標(biāo)實(shí)體的屬性以及各個(gè)屬性所表達(dá)出來(lái)的情感類別。比如:筆記本電腦評(píng)論不僅表達(dá)了對(duì)某個(gè)產(chǎn)品整體的情感,還有諸如硬件、軟件、價(jià)格等特定屬性的情感。甚至一個(gè)評(píng)論可能對(duì)同一個(gè)產(chǎn)品的不同屬性表達(dá)相反的情感。示例如下所示:
·The [software]+that comes with this machine is greatly welcomed compared to what [Windows]-comes with.
·Its [performance]+is ideal, I wish I could say the same about the [price]-.
·MacBook notebooks quickly die out because of their short [battery life]-.
基于屬性的情感分析包含兩個(gè)子任務(wù):1)屬性檢測(cè);2)各個(gè)屬性的情感分類?,F(xiàn)有研究主要集中在屬性已經(jīng)給定[1]的前提下,設(shè)計(jì)分類算法來(lái)直接識(shí)別給定屬性的情感類別;也有少部分研究集中在屬性提取[2]上。然而很少有研究將兩個(gè)任務(wù)同步完成。
基于屬性的情感分析是典型的序列標(biāo)注問(wèn)題,可以通過(guò)當(dāng)前最好的標(biāo)注器比如條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)模型來(lái)解決。然而,CRF的效果嚴(yán)重依賴人工設(shè)計(jì)的特征集。而神經(jīng)網(wǎng)絡(luò)模型能夠有效減少特征工程里面的人工干預(yù)工作量[3-4],已經(jīng)廣泛應(yīng)用于各種各樣的自然語(yǔ)言處理(Natural Language Processing, NLP)任務(wù),并且獲得了優(yōu)異的性能,受上述研究的啟發(fā),本文使用神經(jīng)網(wǎng)絡(luò)模型來(lái)研究基于屬性的情感分析問(wèn)題。本文主要通過(guò)兩種方法來(lái)探索如何提升產(chǎn)品屬性情感分析的效果:1)同步完成屬性提取和情感分類;2)集成離散特征和詞向量特征。實(shí)驗(yàn)中采用2014年國(guó)際語(yǔ)義評(píng)估研討會(huì)(Semantic Evaluation 2014, SemEval- 2014)的筆記本電腦評(píng)論和餐館評(píng)論作為評(píng)測(cè)數(shù)據(jù)集。
序列標(biāo)注任務(wù)有兩種類型的表示方法。如圖1所示,圖1(a)有兩種標(biāo)簽,第二行的B/I/O標(biāo)簽表示屬性邊界,第三行的+、-表示情感極性。上述兩種類型的標(biāo)簽可以看作流水線式任務(wù)或者聯(lián)合的多標(biāo)簽任務(wù)。另外,如圖1(b)所示,兩種類型的標(biāo)簽可以表示為折疊標(biāo)簽:如B+和I+,即正極性屬性的開始和中間位置。通過(guò)聯(lián)合或者折疊設(shè)置,可以在一個(gè)序列標(biāo)注模型中同步研究屬性檢測(cè)和情感分類。
本文中,首先比較流水線、聯(lián)合和折疊三種任務(wù)模型在離散和神經(jīng)網(wǎng)絡(luò)設(shè)置下的不同影響;然后,通過(guò)開關(guān)遞歸單元擴(kuò)展了神經(jīng)網(wǎng)絡(luò)模型,用來(lái)捕獲更加復(fù)雜的特征;最后,通過(guò)融合詞向量特征和離散特征,進(jìn)一步提升模型效果。
圖1 流水線、聯(lián)合和折疊模型
基于屬性的情感分析在近十年來(lái)被廣泛研究。現(xiàn)有工作主要可分為兩類:一類是基于規(guī)則的方法,比如,Hu等[5]首次提出通過(guò)手工定義規(guī)則來(lái)提取產(chǎn)品屬性。Qiu等[6]基于句法信息手動(dòng)定義了產(chǎn)品屬性和觀點(diǎn)詞之間的聯(lián)系;另一類就是機(jī)器學(xué)習(xí)方法。比如,Jin等[7]和 Li等[8]將產(chǎn)品屬性和觀點(diǎn)詞的提取作為一個(gè)序列標(biāo)注問(wèn)題進(jìn)行建模,并且相應(yīng)地通過(guò)隱馬爾可夫模型( Hidden Markov Model, HMM)和CRF模型解決。然而,這些方法都大量依賴手工制定的規(guī)則和特征,需要大量的人工干預(yù)。
由于能夠?qū)W習(xí)到更高級(jí)別的特征,深度學(xué)習(xí)方法已經(jīng)被成功應(yīng)用于各種NLP任務(wù)當(dāng)中。許多模型,例如遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和自動(dòng)編碼等,已經(jīng)被用于從數(shù)據(jù)集中學(xué)習(xí)固有的句法和語(yǔ)義信息,并且在情感分析上取得了很好的效果[3-4,9-10]。這些研究大量聚焦在文檔/句子級(jí)別以及短語(yǔ)/單詞級(jí)別的情感分析,而基于深度學(xué)習(xí)方法的產(chǎn)品屬性情感分析研究較少。
本文中,通過(guò)集成了離散特征和詞向量特征的開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)模型來(lái)同步實(shí)現(xiàn)屬性提取和情感分析。此前,Liu等[2]通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)和詞向量的組合來(lái)實(shí)現(xiàn)基于屬性的情感分析。然而,這個(gè)研究只關(guān)注如何通過(guò)集成標(biāo)準(zhǔn)的遞歸神經(jīng)網(wǎng)絡(luò)和不同的詞向量來(lái)實(shí)現(xiàn)屬性檢測(cè),而本文在此基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)了屬性的情感分析。Zhang等[4]的研究通過(guò)CRF來(lái)擴(kuò)展神經(jīng)網(wǎng)絡(luò)模型,以此來(lái)研究開放領(lǐng)域的目標(biāo)情感分析。該研究采用最基本的詞向量方式來(lái)給語(yǔ)句建模,而本文通過(guò)循環(huán)圖來(lái)給語(yǔ)句建模,并引入開關(guān)遞歸單元,能夠?qū)W習(xí)到更復(fù)雜的特征。
在實(shí)驗(yàn)任務(wù)中,以詞序列作為輸入。給定輸入序列x,在流水線模型任務(wù)和折疊模型任務(wù)中輸出單一標(biāo)簽序列y。在聯(lián)合模型的任務(wù)中,有兩個(gè)標(biāo)簽序列y和z。首先介紹離散CRF模型和基于神經(jīng)網(wǎng)絡(luò)的CRF模型的數(shù)學(xué)描述。然后通過(guò)開關(guān)遞歸單元來(lái)擴(kuò)展基于神經(jīng)網(wǎng)絡(luò)的CRF模型,從而捕獲復(fù)雜的特征。最后,給出整合離散特征和詞向量特征的集成模型。
2.1 離散CRF模型
對(duì)于離散CRF模型,標(biāo)簽和輸入之間的勢(shì)函數(shù)為:
Φ(x,yi)=exp{θ·f(x,yi)}
(1)
其中:f(x,yi)是離散特征向量;θ是模型參數(shù)向量。標(biāo)簽之間的邊緣勢(shì)函數(shù)為:
Ψ(x,yi,yi-1)=exp{τ(yi,yi-1)}
(2)
其中,τ(yi,yi-1)是狀態(tài)轉(zhuǎn)移權(quán)重,也是一個(gè)模型參數(shù)。
對(duì)于流水線模型和折疊模型中,給定輸入序列x,則標(biāo)簽序列y的條件概率可以表示為:
(3)
其中Z(x)是分區(qū)函數(shù)。
對(duì)于聯(lián)合模型,用多標(biāo)簽的CRF結(jié)構(gòu)來(lái)得到兩個(gè)不同的輸出勢(shì)集合Φ1(x,yi)和Φ2(x,zi)以及不同的邊緣勢(shì)集合Ψ1(x,yi,yi-1)和Ψ2(x,zi,zi-1)。
本文在離散CRF模型中使用Viterbi解碼算法,并且引入一種最大化目標(biāo)邊界的訓(xùn)練算法,用來(lái)優(yōu)化訓(xùn)練,提高情感分析模型的識(shí)別效果,該算法細(xì)節(jié)在2.5節(jié)中具體闡述。使用的特征主要包括從Mitchell等[11]和Toh等[12]的研究中借鑒的特征以及語(yǔ)言和情感相關(guān)的特征。
2.2 基于神經(jīng)網(wǎng)絡(luò)的CRF模型
基于神經(jīng)網(wǎng)絡(luò)的CRF模型在序列標(biāo)注任務(wù)中表現(xiàn)出極大的潛力,被廣泛用于NLP任務(wù)[4,13-15]。本節(jié)中,通過(guò)基于神經(jīng)網(wǎng)絡(luò)的CRF模型同步進(jìn)行屬性檢測(cè)和情感分類。
與離散CRF模型相比,基于神經(jīng)網(wǎng)絡(luò)的CRF模型有兩點(diǎn)不同。首先,離散特征被詞向量特征所取代。其次,在輸入節(jié)點(diǎn)x和標(biāo)簽節(jié)點(diǎn)yi之間加入了一個(gè)隱藏層h,并且使用卷積操作來(lái)構(gòu)建輸入節(jié)點(diǎn)x和隱藏層h之間的連接。然后,使用非線性函數(shù)tanh作為激活函數(shù)。
(4)
其中:e是詞向量查找表;⊕是向量級(jí)聯(lián)函數(shù);矩陣W和偏移向量b都是模型參數(shù);xi表示當(dāng)前詞的詞向量,xi-1表示前一個(gè)詞的詞向量,xi+1表示后一個(gè)詞的詞向量。
基于神經(jīng)網(wǎng)絡(luò)的CRF模型中,以yi表示的輸出勢(shì)函數(shù)計(jì)算方法為:
Φ(x,yi)=exp(σ·hi)
(5)
其中σ是一個(gè)模型參數(shù)。注意,邊緣勢(shì)函數(shù)仍然和離散CRF模型的邊緣勢(shì)函數(shù)相同?;谏窠?jīng)網(wǎng)絡(luò)的CRF模型將詞向量作為輸入,通過(guò)隱藏層來(lái)獲取特征的表示,使用和離散CRF模型相同的算法來(lái)進(jìn)行解碼和訓(xùn)練。
2.3 開關(guān)神經(jīng)網(wǎng)絡(luò)模型
對(duì)于基于神經(jīng)網(wǎng)絡(luò)的CRF模型,簡(jiǎn)單地將詞向量在每個(gè)詞的窗口內(nèi)部級(jí)聯(lián)。這種方法有一個(gè)弊端,就是不能夠捕獲到復(fù)雜的特征組合。針對(duì)這個(gè)問(wèn)題,引入開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)(GatedRecurrentNeuralNetwork,GRNN)模型。
2.3.1 網(wǎng)絡(luò)結(jié)構(gòu)
遞歸神經(jīng)網(wǎng)絡(luò)需要一個(gè)諸如語(yǔ)法樹的拓?fù)浣Y(jié)構(gòu)來(lái)給語(yǔ)句建模。本文使用一個(gè)直接的循環(huán)圖來(lái)為輸入詞的組合進(jìn)行建模,如圖2所示。其中,低層級(jí)的兩個(gè)連續(xù)節(jié)點(diǎn)組合成高層級(jí)的單一節(jié)點(diǎn)。但是,這種機(jī)制在實(shí)際中不能充分地利用復(fù)雜組合特征。受Chung等[16]和Chen等[17]的研究啟發(fā),本文引入兩種開關(guān),重置開關(guān)和更新開關(guān),以此作為開關(guān)遞歸神經(jīng)單元來(lái)擴(kuò)展遞歸神經(jīng)網(wǎng)絡(luò)。其中,重置開關(guān)rL和rR分別從左子節(jié)點(diǎn)和右子節(jié)點(diǎn)讀取信息,更新開關(guān)zN、zL和zR在組合子節(jié)點(diǎn)信息時(shí)進(jìn)行取舍。顯而易見(jiàn),這些開關(guān)決定著如何更新和利用組合信息。
圖2 GRNN結(jié)構(gòu)
2.3.2 開關(guān)遞歸單元
(6)
(7)
(8)
其中:U∈R3d×3d是更新開關(guān)的系數(shù);Z∈Rd是歸一化系數(shù)向量。
圖3 開關(guān)遞歸單元
(9)
(10)
(11)
其中:G∈R2d×2d是兩個(gè)重置開關(guān)的系數(shù),以截?cái)嗾龖B(tài)分布進(jìn)行隨機(jī)初始化;σ是sigmoid函數(shù)。
在開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,對(duì)于一個(gè)句子的每個(gè)詞xi,首先通過(guò)詞向量來(lái)表示它的上下文。然后,GRNN的第一層以所有詞向量作為輸入,它的輸出又遞歸地作為更高層單元的輸入,直到輸出一個(gè)固定長(zhǎng)度的向量。最后,以非線性函數(shù)tanh作為激活函數(shù),以激活函數(shù)在這個(gè)固定長(zhǎng)度的向量上的計(jì)算結(jié)果作為CRF層的輸入。
2.4 集成模型
為了進(jìn)一步提升效果,引入一種組合離散特征和詞向量特征的集成模型。已有研究表明集成模型在很多NLP任務(wù)中有更好的表現(xiàn)[3-4,11]。集成模型的結(jié)構(gòu)如圖4所示。與開關(guān)神經(jīng)網(wǎng)絡(luò)的CRF模型相比,集成模型不同的地方在于輸入層,它同時(shí)以詞向量和離散特征作為輸入,左側(cè)節(jié)點(diǎn)表示詞向量特征,右側(cè)節(jié)點(diǎn)表示離散特征。不同類型的輸入節(jié)點(diǎn)使用不同的隱藏層。如圖4所示,詞向量特征對(duì)應(yīng)的隱藏層hi與開關(guān)神經(jīng)網(wǎng)絡(luò)的CRF模型中隱藏層相同。離散特征和節(jié)點(diǎn)yi之間的隱藏節(jié)點(diǎn)gi計(jì)算方法為:
gi=tanh(θ·f(x,yi))
(12)
于是通過(guò)yi表示的輸出勢(shì)函數(shù)為:
Φ(x,yi)=exp{σ·(hi⊕gi)}
(13)
邊緣勢(shì)函數(shù)仍然和離散模型相同,且仍使用同樣的訓(xùn)練和解碼算法。
圖4 集成模型
2.5 訓(xùn)練
在實(shí)驗(yàn)中,通過(guò)最大化目標(biāo)邊界的方法來(lái)訓(xùn)練模型參數(shù)Θ。目標(biāo)函數(shù)表示為:
(14)
(15)
其中:s(xn,y,Θ)=lb(P(y|x))是y的log概率;σ(y,yn)是y和yn之間的漢明距離。本文使用在線學(xué)習(xí)方法來(lái)訓(xùn)練模型參數(shù),通過(guò)Adagrad算法來(lái)更新參數(shù)。
另外,最大似然訓(xùn)練方法常用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)[4],但是實(shí)驗(yàn)結(jié)果表明,最大似然訓(xùn)練方法的效果要比最大化邊界訓(xùn)練方法差,所以選擇了最大化邊界訓(xùn)練方法。
3.1 數(shù)據(jù)集
實(shí)驗(yàn)使用兩個(gè)產(chǎn)品評(píng)論數(shù)據(jù)集:筆記本和餐館數(shù)據(jù)集,來(lái)源于SemEval- 2014任務(wù)4[18]。表1是數(shù)據(jù)集的基本統(tǒng)計(jì)結(jié)果。大部分屬性只有一個(gè)詞,大約三分之一的屬性是由兩個(gè)或更多的詞組成。兩個(gè)數(shù)據(jù)集中,有些句子包含不止一個(gè)屬性。按照SemEval- 2014的規(guī)則,給每個(gè)屬性賦予四類情感標(biāo)簽(正面、負(fù)面、中立、矛盾)中的一個(gè)。
表1 語(yǔ)料統(tǒng)計(jì)
每個(gè)數(shù)據(jù)集都包含訓(xùn)練集和測(cè)試集。訓(xùn)練集再以90/10的比例被隨機(jī)分為用于優(yōu)化每種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)超參數(shù)的訓(xùn)練/開發(fā)集。
3.2 參數(shù)
對(duì)于所有的神經(jīng)網(wǎng)絡(luò)模型,隱藏層的詞向量特征大小都設(shè)置為200,而隱藏層的離散特征大小設(shè)置為30。Adagrad優(yōu)化算法的初始學(xué)習(xí)速率為0.01,正則化參數(shù)設(shè)為10-8,迭代50epoch(epoch表示全量訓(xùn)練樣本掃描一次)?;趤嗰R遜網(wǎng)站的大規(guī)模評(píng)論語(yǔ)料,本文使用Mikolov等[19]的連續(xù)詞袋模型(ContinuousBag-Of-Wordsmodel,CBOW)模型學(xué)習(xí)得到100維的詞向量。
3.3 評(píng)估指標(biāo)
本文使用宏觀F1分?jǐn)?shù)來(lái)評(píng)估屬性檢測(cè)和情感分類,F(xiàn)1分?jǐn)?shù)越高標(biāo)明模型效果越好。對(duì)于屬性檢測(cè)任務(wù),僅僅判斷屬性是否被成功識(shí)別。而對(duì)于情感分類任務(wù),屬性和情感類別都成功識(shí)別才能算正確。
3.4 基線方法
為了驗(yàn)證本文所提出模型的有效性,與以下基線模型進(jìn)行了對(duì)比:
1)IHS_RD:在筆記本評(píng)論數(shù)據(jù)集中表現(xiàn)最好的模型[20]。該模型基于CRF算法,主要是通過(guò)命名實(shí)體識(shí)別、詞性(PartOfSpeech,POS)標(biāo)簽、語(yǔ)法解析和語(yǔ)義分析來(lái)提取特征。
2)DLIREC:在餐館評(píng)論數(shù)據(jù)集中表現(xiàn)最好的模型[12]。同樣基于CRF算法,主要使用POS特征、句法依賴樹特征以及從YELP(美國(guó)著名商戶點(diǎn)評(píng)網(wǎng)站)和亞馬遜商城評(píng)論中獲取到的一些特征。
3)Li等[8]:集成不同的遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)以及詞向量的模型。該模型性能接近于SemEval- 2014中排名靠前的系統(tǒng)效果。
4)Zhang等[4]:用神經(jīng)網(wǎng)絡(luò)來(lái)擴(kuò)展CRF算法的模型,以此來(lái)研究開放領(lǐng)域情感分析。
表2分別是聯(lián)合模型、流水線模型和折疊模型在測(cè)試集上的實(shí)驗(yàn)結(jié)果,三種基線方法都是流水線模型。
表2 基線模型以及不同神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果 %
4.1 離散、神經(jīng)網(wǎng)絡(luò)和集成模型比較
如表2所示,基于神經(jīng)網(wǎng)絡(luò)的CRF模型與離散CRF模型效果相近。離散CRF模型需要大量手工制定的特征,而基于神經(jīng)網(wǎng)絡(luò)的CRF模型僅僅以詞向量作為輸入。詞向量能夠通過(guò)大規(guī)模原始文本訓(xùn)練獲得,這樣不僅能夠避免特征工程中的人力勞動(dòng),而且能在一定程度上緩解所表示數(shù)據(jù)的稀疏性。在實(shí)驗(yàn)中,基于神經(jīng)網(wǎng)絡(luò)的CRF模型效果比離散CRF效果差,主要原因是它只將基本的詞向量作為輸入,而這樣并不能捕獲復(fù)雜特征,所以本文提出通過(guò)開關(guān)遞歸單元來(lái)擴(kuò)展基于神經(jīng)網(wǎng)絡(luò)的CRF模型。
表2的結(jié)果顯示,即使不使用額外的語(yǔ)法樹特征,開關(guān)遞歸神經(jīng)網(wǎng)絡(luò)的宏觀F1分?jǐn)?shù)在聯(lián)合、流水線以及折疊模型中都超過(guò)普通遞歸神經(jīng)網(wǎng)絡(luò)模型近1.5個(gè)百分點(diǎn),表明本文所提模型能夠通過(guò)開關(guān)機(jī)制捕獲到復(fù)雜的特征組合。這個(gè)特性在產(chǎn)品屬性情感分析中很重要。以屬性檢測(cè)為例,對(duì)于某些屬性,最后一個(gè)詞往往比下一個(gè)詞更重要,如果所有的屬性在使用詞向量的時(shí)候都同等對(duì)待,那么噪聲或者無(wú)關(guān)的部分就會(huì)降低檢測(cè)效果;開關(guān)神經(jīng)網(wǎng)絡(luò)模型(流水線和聯(lián)合)在兩個(gè)任務(wù)的餐館評(píng)論數(shù)據(jù)集上宏觀F1分?jǐn)?shù)分別為84.34%、62.19%,比基線模型IHS_RD(79.62%,59.12%)和DLIREC(84.01%,62.07%)的宏觀F1分?jǐn)?shù)表現(xiàn)要好;同時(shí),在兩個(gè)數(shù)據(jù)集的兩個(gè)任務(wù)中,開關(guān)神經(jīng)網(wǎng)絡(luò)模型(流水線)的宏觀F1分?jǐn)?shù)都比Zhang等[4]的模型高。因此,開關(guān)神經(jīng)網(wǎng)絡(luò)模型在基于屬性的情感分析中是有效的。
與基線系統(tǒng)[12,20]相比,集成模型(流水線和聯(lián)合)在兩個(gè)任務(wù)的筆記本數(shù)據(jù)集和餐館數(shù)據(jù)集上的宏觀F1分?jǐn)?shù)均超過(guò)基線結(jié)果0.5到1個(gè)百分點(diǎn),排在第一位,主要原因是自動(dòng)學(xué)習(xí)的詞向量特征和人工定義的離散特征互為補(bǔ)充。因此,在產(chǎn)品屬性情感分析的任務(wù)中,集成模型相比于離散模型或者神經(jīng)網(wǎng)絡(luò)模型有明顯的優(yōu)勢(shì)。
4.2 流水線、聯(lián)合和折疊模型比較
基于表2的數(shù)據(jù),對(duì)于離散CRF模型,流水線任務(wù)和聯(lián)合任務(wù)效果相近,這表明屬性邊界信息和情感類別之間有一種相對(duì)較弱的關(guān)聯(lián)。另一方面,折疊模型的宏觀F1分?jǐn)?shù)比流水線模型低,表明同步進(jìn)行屬性檢測(cè)和情感分類并不能夠有效提升產(chǎn)品屬性情感分析的效果。上述實(shí)驗(yàn)結(jié)果表明,對(duì)于產(chǎn)品屬性情感分析任務(wù),聯(lián)合和流水線模型在宏觀F1分?jǐn)?shù)上表現(xiàn)更好。這個(gè)結(jié)論和Mitchell等[11]以及Zhang等[4]的研究結(jié)論保持一致,它們的研究目標(biāo)是開放領(lǐng)域的情感分析任務(wù)。
本文主要通過(guò)不同的神經(jīng)網(wǎng)絡(luò)模型來(lái)研究產(chǎn)品屬性情感分析,采用直接循環(huán)圖為語(yǔ)句建模,在神經(jīng)網(wǎng)絡(luò)模型中引入開關(guān)遞歸單元,并且通過(guò)聯(lián)合模型和折疊模型來(lái)同步實(shí)現(xiàn)屬性提取和情感分析。實(shí)驗(yàn)結(jié)果表明,同步完成屬性提取和情感分類并不能夠提升產(chǎn)品屬性情感分析的效果。未來(lái)將探索基于依存樹的遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以此來(lái)進(jìn)一步研究產(chǎn)品屬性情感分析。
)
[1]CHENL,WANGWB,NAJARAJANM,etal.Extractingdiversesentimentexpressionswithtarget-dependentpolarityfromtwitter[C]//ProceedingsoftheSixthInternationalAAAIConferenceonWeblogsandSocialMedia.MenloPark:AAAI, 2012: 50-57.
[2]LIUPF,JOTYS,MENGHL.Fine-grainedopinionminingwithrecurrentneuralnetworksandwordembeddings[C]//Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA:ACL, 2015: 1433-1443.
[3]RENYF,ZHANGY,ZHANGMS,etal.Context-sensitivetwittersentimentclassificationusingneuralnetwork[C]//Proceedingsofthe30thAAAIConferenceonArtificialIntelligence.MenloPark:AAAI, 2016: 215-221.
[4]ZHANGMS,ZHANGY,VODT.Neuralnetworksforopendomaintargetedsentiment[C]//Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA:ACL, 2015: 612-621.
[5]HUMQ,LIUB.Miningandsummarizingcustomerreviews[C]//Proceedingsofthe10thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM, 2004:168-177.
[6]QIUG,LIUB,BUJJ,etal.Opinionwordexpansionandtargetextractionthroughdoublepropagation[J].ComputationalLinguistics, 2011, 37(1): 9-27.
[7]JINW,HOHH.AnovellexicalizedHMM-basedlearningframeworkforWebopinionmining[C]//Proceedingsofthe26thAnnualInternationalConferenceonMachineLearning.NewYork:ACM, 2009: 465-472.
[8]LIFF,HANC,HUANGML,etal.Structure-awarereviewminingandsummarization[C]//Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg,PA:ACL, 2010: 653-661.
[9] 梁軍,柴玉梅,原慧斌,等.基于深度學(xué)習(xí)的微博情感分析[J].中文信息學(xué)報(bào),2014,28(5):155-161.(LIANGJ,CHAIYM,YUANHB,etal.DeeplearningforChinesemicro-blogsentimentanalysis[J].JournalofChineseInformationProcessing, 2014, 28(5): 155-161.)
[10] 滕飛,鄭超美,李文.基于長(zhǎng)短期記憶多維主題情感傾向性分析模型[J].計(jì)算機(jī)應(yīng)用,2016,36(8):2252-2256.(TENGF,ZHENGCM,LIW.Multidimensionaltopicmodelfororientedsentimentanalysisbasedonlongshort-termmemory[J].JournalofComputerApplications, 2016, 36(8): 2252-2256.)
[11]MITCHELLM,AGUILARJ,WILSONT,etal.Opendomaintargetedsentiment[C]//Proceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA:ACL, 2013: 1643-1654.
[12]TOHZQ,WANGWT.DLIREC:aspecttermextractionandtermpolarityclassificationsystem[C]//Proceedingsofthe8thInternationalWorkshoponSemanticEvaluation.Stroudsburg,PA:ACL, 2014: 235-240.
[13] 遲呈英,于長(zhǎng)遠(yuǎn),戰(zhàn)學(xué)剛.基于條件隨機(jī)場(chǎng)的中文分詞方法[J].情報(bào)雜志,2008,27(5):79-81.(CHICG,YUCY,ZHANXG.AChinesewordsegmentationapproachusingconditionalrandomfields[J].JournalofInformation, 2008, 27(5): 79-81.)
[14] 馮元勇,孫樂(lè),李文波,等.基于單字提示特征的中文命名實(shí)體識(shí)別快速算法[J].中文信息學(xué)報(bào),2008,22(1):104-110.(FENGYY,SUNL,LIWB,etal.ArapidalgorithmtoChinesenamedentityrecognitionbasedonsinglecharacterhints[J].JournalofChineseInformationProcessing, 2008, 22(1): 104-110.)
[15]PENGJ,BOLF,XUJB.Conditionalneuralfields[C]//NIPS’09:Proceedingsofthe22ndInternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2009: 1419-1427.
[16]CHUNGJY,GULCEHREC,CHOKH,etal.Empiricalevaluationofgatedrecurrentneuralnetworksonsequencemodeling[EB/OL]. [2016- 09- 20].https://arxiv.org/pdf/1412.3555.pdf.
[17]CHENXC,QIUXP,ZHUCX,etal.Sentencemodelingwithgatedrecursiveneuralnetwork[C]//Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA:ACL, 2015:793-798.
[18]PONTIKIM,GALANISD,PAVLOPOULOSJ,etal.SemEval- 2014Task4:aspectbasedsentimentanalysis[C]//Proceedingsofthe8thInternationalWorkshoponSemanticEvaluation.Stroudsburg,PA:ACL, 2014: 27-35.
[19]MIKOLOVT,SUTSKEVERI,CHENK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//Proceedingsofthe2013InternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2013: 3111-3119.
[20]CHERNYSHEVICHM.IHSR&DBelarus:cross-domainextractionofproductfeaturesusingconditionalrandomfields[C]//Proceedingsofthe8thInternationalWorkshoponSemanticEvaluation.Stroudsburg,PA:ACL, 2014: 309-313.
ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61133012).
LIU Xinxing, born in 1989, M. S. candidate. His research interests include text mining, deep learning.
JI Donghong, born in 1967, Ph. D., professor. His research interests include text mining, big data, deep learning, public opinion analysis.
REN Yafeng, born in 1986, Ph. D. candidate. His research interests include text mining, deep learning.
Product property sentiment analysis based on neural network model
LIU Xinxing*, JI Donghong, REN Yafeng
(SchoolofComputer,WuhanUniversity,WuhanHubei430072,China)
Concerning the poor results of product property sentiment analysis by the simple neural network model based on word vector, a gated recursive neural network model of integrating discrete features and word vector embedding was proposed. Firstly, the sentences were modeled with direct recurrent graph and the gated recursive neural network model was adopted to complete product property sentiment analysis. Then, the discrete features and word vector embedding were integrated in the gated recursive neural network. Finally, the feature extraction and sentiment analysis were completed in three different task models: pipeline model, joint model and collapsed model. The experiments were done on laptop and restaurant review datasets of SemEval- 2014, the macroF1scorewasusedastheevaluationindicator.GatedrecursiveneuralnetworkmodelachievedtheF1scoresas48.21%and62.19%,whichweremorethanordinaryrecursiveneuralnetworkmodelbynearly1.5percentagepoints.Theresultsindicatethatthegatedrecursiveneuralnetworkcancapturecomplicatedfeaturesandenhancetheperformanceonproductpropertysentimentanalysis.TheproposedneuralnetworkmodelintegratedwithdiscretefeaturesandwordvectorembeddingachievedtheF1scoresas49.26%and63.31%,whichareallhigherthanbaselinemethodsby0.5to1.0percentagepoints.Theresultsshowthatdiscretefeaturesandwordvectorembeddingcanhelpeachother,ontheotherhand,it’salsoshownthattheneuralnetworkmodelbasedononlywordembeddinghastheroomforimprovement.Amongthethreetaskmodels,thepipelinemodelachievesthehighestF1scores.Thus,it’sbettertocompletefeatureextractionandsentimentanalysisseparately.
neural network; sentiment analysis; product property; Gated Recursive Neural Network (GRNN)
2016- 11- 04;
2017- 01- 18。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61133012)。
劉新星(1989—),男,湖北黃岡人,碩士研究生,主要研究方向:文本挖掘、深度學(xué)習(xí); 姬東鴻(1967—),男,湖北武漢人,教授,博士,主要研究方向:文本挖掘、大數(shù)據(jù)、深度學(xué)習(xí)、輿情分析; 任亞峰(1986—),男,湖北武漢人,博士研究生,主要研究方向:文本挖掘、深度學(xué)習(xí)。
1001- 9081(2017)06- 1735- 06
10.11772/j.issn.1001- 9081.2017.06.1735
TP
A