李德玉,王佳,王素格
(1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
隨著社交媒體、網(wǎng)絡(luò)論壇的流行,消費(fèi)者更多地通過(guò)社交媒體、網(wǎng)絡(luò)論壇來(lái)發(fā)表自己對(duì)于已購(gòu)買(mǎi)產(chǎn)品的評(píng)價(jià),評(píng)論中既包含對(duì)產(chǎn)品整體的評(píng)價(jià),也包含了對(duì)產(chǎn)品某一部件或是某一性能的評(píng)價(jià),而且,一些潛在消費(fèi)者也會(huì)發(fā)表自己對(duì)于新產(chǎn)品的期待。在產(chǎn)品評(píng)論領(lǐng)域中,用戶(hù)評(píng)論經(jīng)常帶有明確的指向,例如,針對(duì)產(chǎn)品的某一部分或某一功能做出評(píng)價(jià)。為了對(duì)這些評(píng)論文本進(jìn)行處理、分析、歸納和推理[1],抽取其評(píng)價(jià)對(duì)象是必不可少的環(huán)節(jié)[2-3],而評(píng)價(jià)對(duì)象在評(píng)價(jià)文本中包括被評(píng)論中產(chǎn)品名稱(chēng)或產(chǎn)品屬性。
對(duì)于評(píng)價(jià)對(duì)象的抽取,目前已經(jīng)有許多相關(guān)工作,大致分為兩大類(lèi):基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法?;谝?guī)則的方法有江騰蛟等人[2]結(jié)合語(yǔ)義角色標(biāo)注與依存句法分析,設(shè)計(jì)了評(píng)價(jià)對(duì)象-情感詞對(duì)抽取規(guī)則,用于解決評(píng)價(jià)對(duì)象構(gòu)成的復(fù)雜性問(wèn)題。Li等人[3]利用情感詞典和主題詞詞典篩選出〈情感詞,評(píng)價(jià)對(duì)象〉的組合,使用該二元組中的評(píng)價(jià)詞與評(píng)價(jià)對(duì)象之間的關(guān)系進(jìn)行抽取。Popescu等人[4]利用互信息算法抽取特性。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法有王榮洋等人[5]采用CRF模型,探索了多種特征在評(píng)價(jià)對(duì)象抽取任務(wù)中的性能,并將特征歸納為詞法、依存關(guān)系、相對(duì)位置、語(yǔ)義四大類(lèi)別,引入語(yǔ)義角色標(biāo)注新特征,表明其提出的語(yǔ)義角色標(biāo)注特征對(duì)評(píng)價(jià)對(duì)象抽取有較好地指示作用。鄭敏潔等人[6]提出了一種基于層疊條件隨機(jī)場(chǎng)的中文句子評(píng)價(jià)對(duì)象抽取方法。該方法首先通過(guò)低層條件隨機(jī)場(chǎng)獲得候選評(píng)價(jià)對(duì)象集,然后通過(guò)降噪模型對(duì)噪聲進(jìn)行過(guò)濾,補(bǔ)充模型對(duì)缺失的候選評(píng)價(jià)對(duì)象進(jìn)行補(bǔ)充,合并模型對(duì)復(fù)合短語(yǔ)候選評(píng)價(jià)對(duì)象進(jìn)行合并,最后抽取出評(píng)價(jià)對(duì)象。實(shí)驗(yàn)結(jié)果顯示,該方法能有效地識(shí)別復(fù)合詞評(píng)價(jià)對(duì)象和未登錄評(píng)價(jià)對(duì)象,從而提高了中文句子評(píng)價(jià)對(duì)象的識(shí)別精度。近年來(lái),研究者不斷將深度學(xué)習(xí)技術(shù)應(yīng)用于評(píng)價(jià)對(duì)象的抽取任務(wù),李盛秋等人[7-8]將長(zhǎng)短期記憶模型(LSTM)應(yīng)用于手機(jī)、筆記本、相機(jī)和汽車(chē)四個(gè)領(lǐng)域評(píng)價(jià)對(duì)象的抽取,實(shí)驗(yàn)證明LSTM在評(píng)價(jià)對(duì)象抽取任務(wù)上有較好的表現(xiàn)。程夢(mèng)等人[9]利用雙向LSTM和注意力機(jī)制,對(duì)句子進(jìn)行了重新表示,并使用CRF模型對(duì)屬性進(jìn)行了標(biāo)注。上述研究是針對(duì)評(píng)價(jià)對(duì)象實(shí)體進(jìn)行單獨(dú)抽取,并沒(méi)有考慮評(píng)價(jià)屬性。若能同時(shí)正確抽取出評(píng)價(jià)對(duì)象實(shí)體與屬性,可以更快捷地獲取到評(píng)價(jià)產(chǎn)品更多的信息。
在產(chǎn)品評(píng)論中,用戶(hù)不僅關(guān)心評(píng)價(jià)產(chǎn)品實(shí)體,同時(shí)也關(guān)注評(píng)價(jià)產(chǎn)品屬性。通過(guò)對(duì)大量真實(shí)產(chǎn)品評(píng)論文本的觀察發(fā)現(xiàn),產(chǎn)品評(píng)價(jià)對(duì)象經(jīng)常以這三種方式出現(xiàn):①產(chǎn)品的整體;②產(chǎn)品的某個(gè)部件;③產(chǎn)品的特性及其外延[10]。例如:在汽車(chē)評(píng)論文本中,被評(píng)價(jià)的對(duì)象通常有:“奔馳依舊是表現(xiàn)最出色的”“豐田的車(chē)型真是好看”“寶馬的安全、質(zhì)量和口碑真是沒(méi)得說(shuō)”。為了敘述的方便,本文對(duì)上述情形不再細(xì)分,我們將第①類(lèi)的評(píng)價(jià)對(duì)象稱(chēng)為“產(chǎn)品名稱(chēng)”,例句中,“奔馳”“豐田”“寶馬”就是評(píng)價(jià)產(chǎn)品名稱(chēng);第②類(lèi)和第③類(lèi)的評(píng)價(jià)對(duì)象統(tǒng)稱(chēng)為“產(chǎn)品屬性”。例句中的“車(chē)型”“安全”“質(zhì)量”“口碑”即為評(píng)價(jià)產(chǎn)品屬性。為了同時(shí)抽取汽車(chē)產(chǎn)品名稱(chēng)和產(chǎn)品屬性,本文引入了挖掘中文內(nèi)部筆畫(huà)信息的cw2vec模型,并將雙向長(zhǎng)短期記憶模型(BiLSTM)結(jié)合CRF模型,構(gòu)建了cw2vec-BiLSTM-CRF模型,用于汽車(chē)產(chǎn)品名稱(chēng)和產(chǎn)品屬性的抽取。通過(guò)在汽車(chē)產(chǎn)品的評(píng)論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,cw2vec模型和BiLSTM-CRF模型的結(jié)合識(shí)別的汽車(chē)產(chǎn)品名稱(chēng)和產(chǎn)品屬性性能更加有效。
目前已經(jīng)存在很多的詞向量模型,但是較多的詞向量模型都是基于西方語(yǔ)言,然而,由于中文書(shū)寫(xiě)和西方語(yǔ)言完全不同,單個(gè)英文字符是不具備語(yǔ)義的,而中文漢字往往具有很強(qiáng)的語(yǔ)義信息,中文詞語(yǔ)包含很少的中文字符,然而,中文字符內(nèi)部包含了較強(qiáng)的語(yǔ)義信息,因此,本文使用了基于漢字筆畫(huà)信息的中文詞向量模型cw2vec[11]來(lái)訓(xùn)練詞向量,以達(dá)到充分利用中文字符內(nèi)部的語(yǔ)義信息的目標(biāo)。
cw2vec模型是使用一種基于n元筆畫(huà)的損失函數(shù),公式如下:
λEw′~P[logsigmoid(-sim(w,w′))]
(1)
其中,w和c分別表示當(dāng)前詞語(yǔ)和上下文的詞語(yǔ),T(w)是當(dāng)前詞語(yǔ)上下文窗口內(nèi)的所有詞語(yǔ)集合,D是訓(xùn)練語(yǔ)料,λ是負(fù)采樣的數(shù)量。Ew′~P[·]是期望,并且選擇的負(fù)采樣w′服從分布P,主要按照詞頻分布,因此,語(yǔ)料中出現(xiàn)次數(shù)越多的詞語(yǔ)越容易被采樣。詞語(yǔ)相似性計(jì)算函數(shù)構(gòu)造如下:
(2)
(1)詞語(yǔ)分割:把中文詞語(yǔ)分割為單個(gè)字。
(2)詞語(yǔ)筆畫(huà)信息獲取:將詞語(yǔ)按照字的筆畫(huà)獲取信息,并將這些筆畫(huà)信息合并,得到詞語(yǔ)的筆畫(huà)信息。
(3)筆畫(huà)特征數(shù)字化:將筆畫(huà)劃分為5類(lèi),利用數(shù)字1-5表示,其對(duì)應(yīng)關(guān)系如表1所示。
表1 筆畫(huà)名稱(chēng)與數(shù)字的對(duì)應(yīng)關(guān)系
(4)N元筆畫(huà)特征獲取:提取詞語(yǔ)筆畫(huà)信息的N-gram特征。
以“寶馬車(chē)型好看”為例,分詞結(jié)果為:寶馬 車(chē)型 好看;以“車(chē)型”為當(dāng)前詞語(yǔ),其上下文詞為:寶馬、好看。cw2vec模型表示如圖1所示。
圖1 以“寶馬車(chē)型好看”為示例的cw2vec模型表示
如圖1所示,對(duì)于“寶馬 車(chē)型 好看”。首先將當(dāng)前詞語(yǔ)“車(chē)型”拆解成n元筆畫(huà),并找出其數(shù)字編碼,然后按照窗口大小得到所有n元筆畫(huà),計(jì)算當(dāng)前詞語(yǔ)的n元筆畫(huà)和上下文詞語(yǔ)的相似度,再根據(jù)損失函數(shù)求梯度,并對(duì)上下文詞向量和n元筆畫(huà)向量進(jìn)行更新。最后,利用上下文詞向量(context word embedding)作為最終cw2vec模型的輸出詞向量。
LSTM是一種基于序列標(biāo)注數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。輸入序列變量(x1,x2, …,xn),返回相對(duì)應(yīng)的另一個(gè)序列(h1,h2,…,hn)。LSTM模型通過(guò)特有的門(mén)結(jié)構(gòu)來(lái)保持和更新?tīng)顟B(tài),以達(dá)到長(zhǎng)期記憶功能,并且已經(jīng)被證明該模型能夠捕獲長(zhǎng)距離依賴(lài)信息[12-14]。短期記憶模型中“三門(mén)”記憶單元計(jì)算公式分別如下:
it=σ(Wxixt+Whiht-1+Wcixt-1+bi,
(3)
ft=σ(Wxfxt+Whfht-1+Wcfxt-1+bf) ,
(4)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) ,
(5)
ot=σ(Wxoxt+Whoht-1+Wcoxt-1+bo) ,
(6)
ht=ottanh(ct) ,
(7)
其中,σ是logistic sigmoid 函數(shù),i表示輸入門(mén),f表示遺忘門(mén),o表示輸出門(mén),c表示神經(jīng)元向量。所有計(jì)算過(guò)程中的向量維度都與隱藏層向量h維度保持一致。其中,Whi表示隱藏層輸入門(mén)矩陣,Wxo表示輸入-輸出門(mén)矩陣等。其中,權(quán)重矩陣是神經(jīng)單元到門(mén)向量的對(duì)角矩陣,因此,每個(gè)元素在每一個(gè)門(mén)單元中只接收當(dāng)前元素的單元向量。
CRF主要綜合了隱馬爾科夫模型和最大熵模型的優(yōu)點(diǎn)。在CRF模型中,已知輸入序列x=x1,…,xn-1,xn的情況下,可求出輸出序列Y的概率p(y|x)最大時(shí)的狀態(tài)序列,因此,CRF模型可用來(lái)解決序列標(biāo)注問(wèn)題[16]。y的條件概率定義如下:
(8)
其中tk(yi-1,yi,x,i),sk(yi,x,i)表示特征函數(shù),λk,μk是其相對(duì)應(yīng)的權(quán)重,Z(x)表示歸一化函數(shù):
為了同時(shí)抽取評(píng)論文本中的評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性,本文利用cw2vec進(jìn)行詞向量表示,再結(jié)合BiLSTM和CRF兩種模型進(jìn)行抽取,其網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。
圖2 BiLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)示意圖
整個(gè)抽取過(guò)程如下:
(1)使用了BIO標(biāo)注法來(lái)對(duì)汽車(chē)領(lǐng)域產(chǎn)品評(píng)論語(yǔ)料進(jìn)行標(biāo)注,標(biāo)注格式見(jiàn)表2所示。
表2 句子序列標(biāo)注格式
(9)
再用softmax層計(jì)算出所有可能標(biāo)簽的概率如公式(10)。
(10)
再將公式進(jìn)行變換得到公式(11)
(11)
(3)多次迭代后,不斷調(diào)整網(wǎng)絡(luò)參數(shù),獲得得分最高的序列作為預(yù)測(cè)標(biāo)記的正確序列。
為了對(duì)模型進(jìn)行有效性評(píng)估,本文收集了汽車(chē)領(lǐng)域6 577條用戶(hù)評(píng)論數(shù)據(jù),并進(jìn)行了手工標(biāo)注。其中5 311條評(píng)論數(shù)據(jù)作為訓(xùn)練集,1 266條評(píng)論數(shù)據(jù)作為測(cè)試集。
產(chǎn)品名稱(chēng)與產(chǎn)品屬性的識(shí)別評(píng)價(jià)指標(biāo)采用準(zhǔn)確率(P)、召回率(R)和綜合指標(biāo)(F值)。
為了對(duì)比各類(lèi)方法在汽車(chē)領(lǐng)域產(chǎn)品名稱(chēng)與屬性抽取任務(wù)中的性能,選取以下幾種方法進(jìn)行比較:
1)CRF:利用條件隨機(jī)場(chǎng)模型,結(jié)合詞特征抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。
2)word2vec-BiLSTM:利用雙向LSTM抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。
3)word2vec-BiLSTM-CRF:結(jié)合BiLSTM和CRF抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。
4)cw2vec-BiLSTM:使用cw2vec進(jìn)行word embedding后,使用雙向LSTM抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。
5)cw2vec-BiLSTM-CRF:使用cw2vec進(jìn)行word embedding后,結(jié)合BiLSTM和CRF抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。
根據(jù)第2.2節(jié)的設(shè)置的實(shí)驗(yàn),列出了5種方法在同一數(shù)據(jù)集上實(shí)驗(yàn)的得到的結(jié)果,實(shí)驗(yàn)結(jié)果見(jiàn)表3,其中,表中的“OB”表示產(chǎn)品名稱(chēng)、“AT”表示產(chǎn)品屬性。
由表3在汽車(chē)領(lǐng)域產(chǎn)品名稱(chēng)與屬性識(shí)別任務(wù)的5種方法的性能,可以看到:
(1)使用cw2vec模型后,相比于僅使用通用word2vec模型,準(zhǔn)確率、召回率、F值都有所提升。
(2)使用CRF模型的F值是最低的。然而無(wú)論是采用word2vec還是cw2vec作為詞表示,再與LSTM模型結(jié)合使用,所有的指標(biāo)均有所提升,說(shuō)明詞向量表示是有效的。
(3)BiLSTM-CRF與BiLSTM相比,產(chǎn)品名稱(chēng)和產(chǎn)品屬性的抽取準(zhǔn)確率都有很大提升,表明融合了CRF模型后,通過(guò)結(jié)合前后標(biāo)簽將有利于預(yù)測(cè)當(dāng)前標(biāo)簽,然而,召回率卻有所降低。
表3 5種方法的性能對(duì)比
(4)5種方法識(shí)別產(chǎn)品名稱(chēng)的指標(biāo)均高于識(shí)別產(chǎn)品屬性的指標(biāo)。主要原因是專(zhuān)業(yè)名詞多集中在產(chǎn)品屬性,例如“渦輪增壓器”“渦輪進(jìn)氣口”等,造成識(shí)別難度較大。
通過(guò)分析識(shí)別出的產(chǎn)品名稱(chēng)與產(chǎn)品屬性,對(duì)實(shí)驗(yàn)結(jié)果的錯(cuò)誤分析如下:
(1)因產(chǎn)品名稱(chēng)與產(chǎn)品屬性之間沒(méi)有明確的界限,對(duì)預(yù)測(cè)結(jié)果產(chǎn)生了一定的影響。例如“2013款本田雅閣”“本田NEWCIVIC”“16.4grand 超跑”等這類(lèi)“品牌+型號(hào)”組合的產(chǎn)品名稱(chēng),在產(chǎn)品名稱(chēng)和屬性識(shí)別時(shí)出現(xiàn)了錯(cuò)誤標(biāo)記。
(2)在線(xiàn)用戶(hù)產(chǎn)品評(píng)論用詞偏口語(yǔ)化,對(duì)汽車(chē)產(chǎn)品名稱(chēng)多有別稱(chēng)、簡(jiǎn)寫(xiě),也給識(shí)別帶來(lái)了困難。例如“benz”(奔馳的別稱(chēng))為產(chǎn)品名稱(chēng),未能正確識(shí)別。
(3)當(dāng)屬性詞前加定語(yǔ)修飾時(shí),例如“后排空間”“品牌價(jià)值”“廣告成本”“配件質(zhì)量”等詞,識(shí)別時(shí)出現(xiàn)漏掉定語(yǔ)的情況,僅抽取出“空間”“價(jià)值”“成本”“質(zhì)量”作為產(chǎn)品屬性。
(4)當(dāng)出現(xiàn)動(dòng)詞性短語(yǔ)時(shí),容易識(shí)別錯(cuò)誤。例如“渦輪進(jìn)氣口松動(dòng)不算大問(wèn)題”,此句中“渦輪進(jìn)氣口松動(dòng)”為一個(gè)整體。
針對(duì)汽車(chē)領(lǐng)域眾多評(píng)論文本的分析,需要明確識(shí)別產(chǎn)品名稱(chēng)產(chǎn)品屬性問(wèn)題。本文采用了BiLSTM-CRF模型,并結(jié)合了能挖掘出中文字符筆畫(huà)特征信息的cw2vec模型,提出了一種基于cw2vec-BiLSTM-CRF深度學(xué)習(xí)模型的實(shí)體識(shí)別方法。該方法利用可以記憶上文信息的LSTM 模型作為隱藏層,融合了 CRF 作為標(biāo)簽推理層,從而解決了文本序列標(biāo)簽依賴(lài)問(wèn)題,同時(shí)采用了cw2vec模型,使得中文字符內(nèi)部包含的語(yǔ)義信息得到有效利用。在汽車(chē)領(lǐng)域數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),驗(yàn)證了cw2vec-Bi-LSTM-CRF模型在中文汽車(chē)領(lǐng)域產(chǎn)品名稱(chēng)和產(chǎn)品屬性識(shí)別任務(wù)中的有效性。