李晉源,康 雁,楊其越,王沛堯,崔國(guó)榮
云南大學(xué) 軟件學(xué)院,昆明650500
隨著人工智能、大數(shù)據(jù)技術(shù)的廣泛使用,網(wǎng)購(gòu)中的在線點(diǎn)評(píng)數(shù)據(jù)包含著巨大的潛在價(jià)值,有助于消費(fèi)者的選擇與企業(yè)在產(chǎn)品開(kāi)發(fā)與銷售環(huán)節(jié)方面的決策。因此在互聯(lián)網(wǎng)數(shù)據(jù)呈爆炸性增長(zhǎng)的背景下,如何從海量數(shù)據(jù)中挖掘有價(jià)值信息成為了急需解決的問(wèn)題。產(chǎn)品具有多維屬性,不同消費(fèi)者購(gòu)買產(chǎn)品時(shí)會(huì)依據(jù)其各自偏好而會(huì)更多關(guān)注某些方面的特征。在線點(diǎn)評(píng)分為數(shù)字評(píng)分和在線評(píng)論,數(shù)字評(píng)分的粒度比較粗且難于細(xì)化,而在線評(píng)論能夠表達(dá)消費(fèi)者對(duì)產(chǎn)品各方面屬性的真實(shí)感受,為其他購(gòu)買者所信賴。因此如何對(duì)在線評(píng)論進(jìn)行分析、挖掘,并將挖掘的信息運(yùn)用到網(wǎng)絡(luò)銷售和顧客選購(gòu)參考標(biāo)準(zhǔn)中,成為在線評(píng)論情感分析的重要方向[1-3]。
在線評(píng)論多為缺乏組織結(jié)構(gòu)的文本信息,導(dǎo)致研究者難以直接獲取評(píng)論文本中所包含的有效信息。因此如何從繁雜無(wú)序的數(shù)據(jù)中獲取有效信息就顯得尤為重要。目前,許多研究者對(duì)情感分析算法進(jìn)行了研究,并取得一定的成果。楊立公等[4]對(duì)使用馬爾科夫邏輯網(wǎng)將句子上下文與情感特征相結(jié)合進(jìn)行情感分析,實(shí)現(xiàn)跨領(lǐng)域文本的情感分析。明均仁[5]將關(guān)聯(lián)規(guī)則方法運(yùn)用到文本挖掘的情感分析中,設(shè)計(jì)出融合語(yǔ)義,關(guān)聯(lián)挖掘的文本數(shù)據(jù)情感分析方法,提高了情感分析的準(zhǔn)確率。Medhat等[6]提出對(duì)商品進(jìn)行情感分析的常規(guī)分析步驟為商品評(píng)論、情緒識(shí)別、特征選擇、情感分類、情緒極性判斷。羅慧欽等[7]提出基于隱樸素貝葉斯方法進(jìn)行商品評(píng)論情感分類。
基于上述背景,本文提出一種深入挖掘評(píng)論信息的有效方法,以用戶需求為導(dǎo)向來(lái)對(duì)產(chǎn)品評(píng)論數(shù)據(jù)進(jìn)行基于方面的更細(xì)粒度情感分析。
本文的主要貢獻(xiàn)如下:
(1)本文使用特征提取效果更好的Bi-LSTM-CRF模型對(duì)IT產(chǎn)品評(píng)論數(shù)據(jù)進(jìn)行分詞,同時(shí)在方面詞的提取上進(jìn)行深入細(xì)致的分析,利用哈工大的句法依存關(guān)系客觀地對(duì)評(píng)論數(shù)據(jù)中的方面詞進(jìn)行抽取。
(2)采用基于self-attention機(jī)制的深度記憶網(wǎng)絡(luò)模型對(duì)從評(píng)論數(shù)據(jù)中提取出的方面詞進(jìn)行情感分類。模型引入多頭注意力(Multi-headed attention)機(jī)制方法對(duì)embeeding層的輸出進(jìn)行編碼,同時(shí)采用共享參數(shù),可以學(xué)習(xí)到每個(gè)上下文單詞的重要性/權(quán)重。
(3)通過(guò)量化情感評(píng)價(jià)指標(biāo),獲取用戶對(duì)IT產(chǎn)品的熱門關(guān)注點(diǎn)以及相應(yīng)的情感評(píng)價(jià)傾向,為以后探索構(gòu)建面向用戶需求的產(chǎn)品評(píng)估體系做基礎(chǔ)。
主題詞抽取是文本主題挖掘的基礎(chǔ)工作之一,本文采用公冶小燕等[8]提出的基于改進(jìn)的TF-IDF算法及共現(xiàn)詞的主題詞抽取算法進(jìn)行IT產(chǎn)品主題詞的抽取,結(jié)合已有的搜狗詞庫(kù)等專業(yè)詞庫(kù)來(lái)構(gòu)建主題詞庫(kù)。
情感分析中分詞結(jié)果的好壞將直接影響后續(xù)信息處理的結(jié)果。由于神經(jīng)網(wǎng)絡(luò)方法能夠極大地減少特征工程的工作量,中文分詞的方法也從傳統(tǒng)的非神經(jīng)網(wǎng)絡(luò)方法遷移到基于神經(jīng)網(wǎng)絡(luò)方法上來(lái)。Chen等[9]提出了一種帶有自適應(yīng)門結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)(Gated Recursive Neural Network,GRNN)。針對(duì)滑動(dòng)窗口的局部性,Chen[10]提出用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory Neural Networks,LSTM)來(lái)捕捉長(zhǎng)距離依賴。本文采用Bi-LSTM-CRF模型[11-12]來(lái)實(shí)現(xiàn)中文分詞任務(wù),對(duì)文本序列采用word2vec方式[13]進(jìn)行字級(jí)別的分布式向量化,既利用了雙向LSTM模型能夠保存上下文信息的優(yōu)勢(shì),同時(shí)也利用了CRF層從句子層面考慮前后標(biāo)注之間的影響,提高中文自動(dòng)分詞的準(zhǔn)確率和召回率。
相比粗粒度的情感分析,更細(xì)粒度的情感分析能實(shí)現(xiàn)對(duì)在線評(píng)論數(shù)據(jù)的深度挖掘。在細(xì)粒度情感分析的任務(wù)上,Kim等[14]基于Word Net建立情感詞典,并以此識(shí)別情感詞與情感極性,再通過(guò)觀點(diǎn)詞探測(cè)出產(chǎn)品特征并計(jì)算情感傾向。Xu等[15]使用主題模型識(shí)別隱式屬性,從而計(jì)算屬性情感傾向。Carenini等[16]使用詞語(yǔ)相似性對(duì)特定領(lǐng)域的產(chǎn)品屬性進(jìn)行屬性分類,以類為標(biāo)準(zhǔn)計(jì)算類情感傾向。鄭安怡等[17]提出了一種新的ITS算法對(duì)文本情感分析領(lǐng)域內(nèi)的特征加權(quán)進(jìn)行研究。傳統(tǒng)的神經(jīng)模型如Tree-LSTM[18]以隱式方式捕獲上下文信息,而且無(wú)法明確地展示出重要的上下文線索,使用相同的方式操作每個(gè)上下文單詞,因此無(wú)法明確顯示每個(gè)上下文單詞的重要性。
本研究旨在深入挖掘產(chǎn)品在線評(píng)論數(shù)據(jù)中有價(jià)值信息,對(duì)用戶所關(guān)注的產(chǎn)品方面詞進(jìn)行情感分類。因此本文主要解決如下兩個(gè)問(wèn)題:
(1)如何從在線評(píng)論數(shù)據(jù)中客觀準(zhǔn)確地抽取反映用戶所關(guān)注的產(chǎn)品方面詞。
(2)基于評(píng)論文本中的方面詞,如何進(jìn)行更細(xì)粒度情感分析,獲取針對(duì)方面詞的情感類別,量化情感指標(biāo)。
特征觀點(diǎn)是指從在線評(píng)論中挖掘出的商品屬性及其相應(yīng)的情感詞所形成的組合。特征觀點(diǎn)對(duì)的抽取,是對(duì)在線評(píng)論進(jìn)行細(xì)粒度情感分析的基礎(chǔ)。Zhao等[19]提出在目標(biāo)極性詞(T-P)搭配提取前,采用情感語(yǔ)句的壓縮步驟(Sent Comp)去除了情感分析中不必要的信息,降低句法分析時(shí)評(píng)論語(yǔ)句信息冗余帶來(lái)難度。
本文采用哈工大的依存句法分析[20]的方法,充分考慮句子的結(jié)構(gòu)信息,并結(jié)合鄰近法作為補(bǔ)充對(duì)評(píng)論數(shù)據(jù)中方面—情感詞對(duì)進(jìn)行抽取。依存句法分析是通過(guò)語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),識(shí)別句子中的“主謂賓”、“定狀補(bǔ)”這些語(yǔ)法成分,用于分析各成分之間的關(guān)系,進(jìn)而提取出每條評(píng)論數(shù)據(jù)中的方面-情感詞對(duì)。LTP的依存句法分析關(guān)系如表1所示,關(guān)系類型表示每對(duì)相互依存的詞之間存在怎樣的句法關(guān)聯(lián)。
表1 句法依存分析標(biāo)注表
通過(guò)對(duì)評(píng)論文本的詞性標(biāo)注與句法分析發(fā)現(xiàn),評(píng)論數(shù)據(jù)中的方面詞通常是名詞和動(dòng)名詞,而體現(xiàn)用戶情感的主要為形容詞和名詞。因此可通過(guò)詞性與依存句法關(guān)系組合的句法模板,對(duì)方面-情感詞對(duì)進(jìn)行抽取。
評(píng)論集具有語(yǔ)法不嚴(yán)謹(jǐn),表達(dá)隨意等特點(diǎn),很多句子沒(méi)有嚴(yán)格按照語(yǔ)法規(guī)則來(lái)表達(dá),因此本文制定以下6條規(guī)則根據(jù)句法依存關(guān)系提取方面-情感詞對(duì),按照語(yǔ)法的規(guī)范性分為一般情況和特殊情況,一般情況包括規(guī)則1、2、3、4,特殊情況為規(guī)則5、6。
規(guī)則1若評(píng)論中方面詞作為主語(yǔ),謂語(yǔ)為情感詞時(shí),則抽取SBV關(guān)系,根據(jù)ADV等關(guān)系,可得到<SBV,主語(yǔ),情感詞>或者<SBV,主語(yǔ),修飾詞,ADV,情感詞>,若謂語(yǔ)為非情感詞,其后關(guān)系為CMP、VOB等,且CMP、VOB所指向的是情感詞,因此可得到<SBV,主語(yǔ),謂語(yǔ),CMP/VOB,情感詞>。
例1“蠻不錯(cuò),外觀很棒”,如圖1(a)所示,評(píng)論中“外觀”作為主語(yǔ),“很”為修飾詞,“棒”作為情感詞,抽?。糞BV,主語(yǔ),修飾詞,ADV,情感詞>,因此可得到方面-情感詞關(guān)系對(duì)(外觀,很棒)。圖1(b)中,“系統(tǒng)”作為主語(yǔ),“反應(yīng)”作為謂語(yǔ),“慢”作為CMP關(guān)系中情感詞,因此可得到(系統(tǒng),慢)。
圖1(b)規(guī)則1示例2
規(guī)則2若評(píng)論中方面詞存在ATT關(guān)聯(lián)時(shí),需要將ATT關(guān)系中的非情感詞和方面詞連接起來(lái),將情感詞作為該方面詞的情感詞,表示為<ATT,方面詞,情感詞>或者<ATT,非情感修飾詞,方面詞ATT,情感詞>。
例2“電腦外觀滿分”,如圖2所示,評(píng)論中方面詞“外觀”關(guān)聯(lián)兩個(gè)“ATT”關(guān)系,方面詞“外觀”前面的ATT關(guān)系中的“電腦”為非情感修飾詞,則方面詞為“電腦外觀”,后面的“滿分”為情感詞,因此可得到方面-情感詞的關(guān)系對(duì)(電腦外觀,滿分)。
圖2 規(guī)則2示例
規(guī)則3若評(píng)論中出現(xiàn)一個(gè)方面詞且核心詞為動(dòng)詞,其賓語(yǔ)為方面詞,則依據(jù)ADV,ATT等關(guān)系找到情感詞,從中選取同一分句中距離不超過(guò)6的情感詞,則可抽?。糣OB,賓語(yǔ),謂語(yǔ)>,其賓語(yǔ),謂語(yǔ)依據(jù)規(guī)則1,2構(gòu)成方面詞和情感詞。
例3“可惜不支持Win7系統(tǒng)?!保鐖D3所示,核心謂詞“支持”,其賓語(yǔ)為“系統(tǒng)”,根據(jù)ATT關(guān)系可得“Win7系統(tǒng)”為方面詞,“不支持”為距離小于6的動(dòng)詞情感詞,因此抽取得到方面-情感詞對(duì)(Win7系統(tǒng),不支持)。
圖3 規(guī)則3示例
規(guī)則4評(píng)論中含有并列關(guān)系,可通過(guò)COO并列結(jié)構(gòu)和規(guī)則1,2,3,抽取方面詞-情感詞對(duì)。
例4“看電影和玩游戲都很順暢”,如圖4所示,存在COO并列結(jié)構(gòu),“電影”和“玩游戲”是并列結(jié)構(gòu),結(jié)合規(guī)則1,抽取得到(電影,很順暢),(玩游戲,很順暢)。
圖4 規(guī)則4示例
規(guī)則5評(píng)論中只含有一個(gè)關(guān)鍵詞且不符合規(guī)則1,2,3,4,因此可根據(jù)距離不超過(guò)6,找到情感詞,再根據(jù)ADV,ATT等關(guān)系找到修飾詞組成新的情感詞。
例5“唯一感到不順暢的就是鼠標(biāo)”,如圖5所示,該句中存在方面詞“鼠標(biāo)”,根據(jù)規(guī)則4找到距離不超過(guò)6的情感詞“順暢”,再依據(jù)ADV找到修飾詞“不”,組成新的情感詞“不順暢”,因此抽取到的方面-情感詞對(duì)為(鼠標(biāo),不順暢)。
圖5 規(guī)則5示例
規(guī)則6若含有明顯情感詞且無(wú)關(guān)鍵詞的情況下,可用比較常見(jiàn)的搭配進(jìn)行關(guān)聯(lián),然后使用ADV,ATT等關(guān)系找到修飾詞。
例6“有明顯顆粒感,看著不舒服”,如圖6所示,該句中無(wú)方面詞,找到一個(gè)名詞情感詞“顆粒感”,通常使用“顆粒感”形容屏幕,然后根據(jù)ATT關(guān)系找到修飾詞“明顯”,因此抽取得到方面-情感詞對(duì)(屏幕,明顯顆粒感)
圖6 規(guī)則6示例
由以上6條規(guī)則可得到其規(guī)則覆蓋率,如表2所示,一般情況中的規(guī)則提取方面-情感詞對(duì)占到90.84%,特殊情況中規(guī)則6使用常用的關(guān)聯(lián)搭配占3.34%,使用規(guī)則6原因是在評(píng)論集中表達(dá)的內(nèi)容往往是人們默認(rèn)為已知的,因此有缺省方面詞。表4統(tǒng)計(jì)出最頻繁搭配表及其出現(xiàn)的次數(shù)。如表3所示,列舉的10個(gè)常用方面-情感詞對(duì)關(guān)聯(lián)搭配。
表2 規(guī)則覆蓋率
表3 常用方面-情感詞對(duì)關(guān)聯(lián)搭配(取10個(gè))
面向方面的情感細(xì)粒度分類是產(chǎn)品評(píng)論情感分析方法的核心部分,本文提出基于self-attention機(jī)制的深度記憶網(wǎng)絡(luò)模型來(lái)對(duì)方面詞進(jìn)行情感分析,如圖7所示。
給定一個(gè)句子m={w1,w2,…,wi,…,wn}和其方面詞(aspectword)wi,采用詞嵌入的方式對(duì)句子的每個(gè)單詞進(jìn)行向量化,方面詞向量和上下文向量,如式(1):
其中,ek=[ ]0,…,0,1,0,…,0是第k個(gè)標(biāo)簽的one-hot編碼形式,通過(guò)embeeding矩陣UE,得到300維的詞向量。
設(shè)置一個(gè)編碼器的模塊,如圖8所示,采用多頭注意力(Multi-headed attention)機(jī)制方法對(duì)embeeding層的輸出進(jìn)行編碼,使得上下文的每個(gè)單詞與句子中的所有單詞進(jìn)行self-attention計(jì)算,學(xué)習(xí)句子內(nèi)部的詞依賴關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu),得到上下文的隱藏狀態(tài),如式(2)、(3):
圖7 基于attention的深度記憶網(wǎng)絡(luò)
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO,
圖8 Multi-headed attention模塊
由于上下文中的每一個(gè)詞不僅對(duì)于句子的表示貢獻(xiàn)度不同,而且不同的上下文詞對(duì)特定方面詞的情感傾向的重要性也是不同的。因此模型有針對(duì)性地處理相對(duì)重要的單詞,即將編碼后的外部存儲(chǔ)器m(m∈Rd×k)和一個(gè)方面詞向量vaspect∈Rd×1作為輸入,由attention(注意力模型)輸出一個(gè)連續(xù)矢量vec(vec∈Rd×1),再計(jì)算輸出向量作為每段記憶(每個(gè)存儲(chǔ)器m)的加權(quán)和,即:
其中K是記憶量的大小,?i∈[0,1]是mi的權(quán)重且
對(duì)于每一份記憶mi,使用前饋神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算它與這個(gè)aspect的語(yǔ)義相關(guān)性。評(píng)分函數(shù)計(jì)算如式(5):
其中Watt∈R1×2d,batt∈R1×1。得到{g1,g2,…,gk}后,將其代入一個(gè)softmax函數(shù)來(lái)計(jì)算最后的重要分?jǐn)?shù){?1,?2,…,?k},如式(6):
最后一層中的文本表示為情感分類的特征。由于每個(gè)組件都是可微的,整個(gè)模型可以通過(guò)梯度下降進(jìn)行端到端的有效訓(xùn)練,其中損失函數(shù)是情感分類的多分類交叉熵(categorical_crossentropy)如式(7):
為了達(dá)到預(yù)期效果,實(shí)驗(yàn)數(shù)據(jù)集使用經(jīng)過(guò)預(yù)處理的40 000條IT產(chǎn)品評(píng)論數(shù)據(jù)以及公共數(shù)據(jù)集Restaurant。深度記憶網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程中,批大?。╞atch_size)設(shè)置為32,迭代次數(shù)設(shè)置為4,同時(shí)使用初始值為0.9,學(xué)習(xí)率為1E-3的Adam優(yōu)化算法來(lái)訓(xùn)練模型。
為驗(yàn)證本文提出的模型在文本分類上的效果,本文采用深度學(xué)習(xí)框架Keras進(jìn)行實(shí)驗(yàn)研究。服務(wù)器配置如下:
14.04-Ubuntu,CP為Intel酷睿i7-5820K處理器,主頻3.30 GHz,32 GB內(nèi)存,GPU為NVIDIAGeForce GTX970,4 GB顯存。
如表4所示,本文提出的面向方面的深度記憶網(wǎng)絡(luò)模型,在公共數(shù)據(jù)集Restaurant[21]的分類準(zhǔn)確率相比模型LSTM、TDLSTM+ATT[22]和ContextAVG模型都所提升。同時(shí),實(shí)驗(yàn)通過(guò)疊加計(jì)算層的層數(shù)來(lái)測(cè)試模型的性能,可知計(jì)算層數(shù)增加時(shí),模型準(zhǔn)確率有明顯下降。
表4 模型在不同計(jì)算層下的準(zhǔn)確率
同時(shí),實(shí)驗(yàn)對(duì)IT產(chǎn)品評(píng)論數(shù)據(jù)集進(jìn)行面向方面的細(xì)粒度情感分析。在依存句法分析獲取的方面-情感詞對(duì)的基礎(chǔ)上進(jìn)行人工處理得到10 000條數(shù)據(jù)用來(lái)訓(xùn)練模型,然后對(duì)余下的數(shù)據(jù)進(jìn)行基于方面詞的情感分類預(yù)測(cè)。實(shí)驗(yàn)部分結(jié)果如圖9與如表5所示,不僅可以得到當(dāng)前用戶對(duì)于IT產(chǎn)品集中關(guān)注點(diǎn),還可以得到具體產(chǎn)品的情感傾向與量化值。譬如“顯示器”的評(píng)價(jià)偏向于正向,而“散熱器”的評(píng)價(jià)尤其是在“風(fēng)扇”屬性方面用戶情感偏向于負(fù)向。因此,根據(jù)用戶對(duì)IT產(chǎn)品的情感需求,未來(lái)在IT產(chǎn)品制造與設(shè)計(jì)方面,需要側(cè)重于散熱方面尤其是在風(fēng)扇上性能的改進(jìn)。
圖9 部分評(píng)價(jià)對(duì)象的情感指標(biāo)
表5 部分評(píng)價(jià)對(duì)象的不同屬性的情感指標(biāo)
本文提出了一種面向方面深度記憶網(wǎng)絡(luò)的細(xì)粒度情感分析方法,通過(guò)引入self-attention機(jī)制來(lái)對(duì)依存句法分析提取的方面詞進(jìn)行情感分類,進(jìn)而量化情感指標(biāo),從中得到用戶對(duì)產(chǎn)品的集中關(guān)注點(diǎn)以及相應(yīng)的情感傾向與量化指標(biāo),實(shí)驗(yàn)表明該方法在IT產(chǎn)品細(xì)粒度情感分析方面有著良好的效果,有助于為產(chǎn)品設(shè)計(jì)者、制造商和管理者提供詳細(xì)的決策信息。
本文僅涉及自然語(yǔ)言處理應(yīng)用和領(lǐng)域需求分析研究的主要部分,這是一個(gè)復(fù)雜而廣泛的主題。未來(lái),不僅將對(duì)產(chǎn)品評(píng)論數(shù)據(jù)的方面詞抽取和分類的準(zhǔn)確性再進(jìn)一步深入的研究,同時(shí)也會(huì)研究構(gòu)建以用戶需求為導(dǎo)向的評(píng)價(jià)體系。將情感和需求分析相結(jié)合并將其應(yīng)用于特定的決策應(yīng)用是一種具有生命力的方向。