陳可嘉,柯永誠,林鴻熙
(1.福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福建 福州 350108;2.莆田學(xué)院 商學(xué)院,福建 莆田 351100)
人們往往會(huì)查閱產(chǎn)品評(píng)論進(jìn)行購買決策,但用戶偏好的不同以及海量評(píng)論易導(dǎo)致信息過載[1]。因此,評(píng)論挖掘技術(shù)應(yīng)運(yùn)而生,產(chǎn)品特征提取作為首要任務(wù),其結(jié)果好壞會(huì)直接影響后續(xù)任務(wù)[2]。產(chǎn)品特征提取可分為顯式和隱式特征提取。顯式特征是以文字形式在評(píng)論出現(xiàn)的特征;隱式特征是不以文字形式出現(xiàn)在評(píng)論的特征,但能通過語境推斷[3],如“太貴了”中“貴”經(jīng)由語境推斷出它修飾特征“價(jià)格”。30%的中文評(píng)論含有隱式特征[4]。因此,深入研究隱式特征提取能獲得更完整的特征信息。
當(dāng)前隱式特征提取的主要策略是通過某種算法提取顯式特征與情感詞,基于其共現(xiàn)關(guān)系為情感詞確定隱式特征[5]。其研究方法包括關(guān)聯(lián)規(guī)則、主題模型、句法關(guān)系、機(jī)器學(xué)習(xí)等。前兩種方法難以發(fā)現(xiàn)低頻詞,機(jī)器學(xué)習(xí)又過于依賴標(biāo)注數(shù)據(jù)集,而句法關(guān)系能利用詞語依存關(guān)系提取出低頻詞,所以近年來有不少研究都融入了句法關(guān)系。但還存在以下不足:一是以名詞為候選特征,并主要考慮主謂關(guān)系[6],但特征詞還有動(dòng)詞、動(dòng)名詞等詞性,在句法關(guān)系上也有動(dòng)補(bǔ)結(jié)構(gòu)、并列關(guān)系等。二是僅考慮形容詞[7,8],或利用情感詞典識(shí)別情感詞[9],前者忽略其它詞性的情感詞,后者是情感詞有限,且與英文詞典資源相比,中文詞典資源較為匱乏。三是由于隱式特征難以觀測,使多數(shù)研究僅關(guān)注顯式特征提取[10,11],少數(shù)隱式特征提取研究也基本上面向英文評(píng)論[3,12],不利于隱式特征提取研究發(fā)展。
針對(duì)上述不足,本文主要考慮中文評(píng)論出現(xiàn)情感詞條件下的隱式特征提取,提出一種基于句法規(guī)則與情感詞的隱式特征提取方法。通過考慮多種特征詞詞性及句法關(guān)系,利用詞向量和中文情感詞典構(gòu)建特征詞典和混合情感詞典,以此定義句法規(guī)則來提取顯式特征-情感詞,并基于其共現(xiàn)情況來提取隱式特征。
目前特征提取研究主要關(guān)注顯式特征提取。邱云飛等[7]使用條件隨機(jī)場和貪婪式特征選擇來提取顯式特征。Wan等[13]將詞匯關(guān)聯(lián)組合及相關(guān)約束融入主題模型來提取顯式特征詞。Lee等[14]改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)來提取關(guān)鍵特征。
在隱式特征提取上的研究相對(duì)較少。最早的隱式特征提取思想是由Liu等[15]提出,利用關(guān)聯(lián)規(guī)則提取顯式特征-情感詞對(duì),根據(jù)其映射關(guān)系提取隱式特征。隨后,Wang等[16]使用頻率、點(diǎn)互信息(pointwise mutual information,PMI)等多種算法計(jì)算共現(xiàn)度,通過規(guī)則選擇來識(shí)別隱式特征。Zainuddin等[17]使用關(guān)聯(lián)規(guī)則和詞性模式提取顯式特征,并結(jié)合句法分析器提取隱式特征。Karagoz等[18]通過匹配候選詞與情感詞,以及情感詞與顯式特征的共現(xiàn)關(guān)系確定隱式特征。Eldin等[19]使用語言及啟發(fā)式模式提取顯式特征,并應(yīng)用布谷鳥搜索算法從候選特征列表識(shí)別隱式特征。在利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)識(shí)別隱式特征方面,Rana等[20]定義規(guī)則來識(shí)別用戶意見的潛在線索,考慮意見詞、隱式特征線索和歸一化谷歌距離的共現(xiàn)關(guān)系提取隱式特征。Feng等[21]利用深度卷積神經(jīng)網(wǎng)絡(luò)提取顯式特征-情感詞,考慮特征詞作為主題及其與情感詞的匹配度提取隱式特征。Afzaal等[22]使用餐廳和酒店領(lǐng)域的決策樹為單詞指定特征類。Mir等[23]使用BiLSTM-CRF來提取顯式特征,并將結(jié)果用于處理各類隱式評(píng)論。
本文提出一種基于句法規(guī)則與情感詞的隱式特征提取方法,包括數(shù)據(jù)收集與預(yù)處理、情感資源構(gòu)建和隱式特征提取3個(gè)階段,其框架流程如圖1所示。首先從數(shù)據(jù)集提取評(píng)論數(shù)據(jù),進(jìn)行分句、分詞等預(yù)處理操作,并基于實(shí)驗(yàn)語料和外部語料訓(xùn)練詞向量;然后,借助中文情感詞典構(gòu)建混合情感詞典,并使用外部語料詞向量實(shí)現(xiàn)情感詞擴(kuò)展;最后,使用實(shí)驗(yàn)語料詞向量構(gòu)建特征詞典,根據(jù)構(gòu)建的兩個(gè)詞典,通過定義句法規(guī)則來提取顯式特征-情感詞,根據(jù)其共現(xiàn)關(guān)系獲得隱式特征詞典,以此提取隱式特征。
圖1 本文方法框架流程
從評(píng)論數(shù)據(jù)集提取實(shí)驗(yàn)語料R={r1,r2,…,rn},同時(shí)收集大規(guī)模文本作為外部語料。后續(xù)預(yù)處理工作包括:
評(píng)論分句。按照標(biāo)點(diǎn)符號(hào)將長評(píng)論ri(1≤i≤n) 切分成多個(gè)單句sij,即ri={si1,si2,…,sij},其中j≥1。
分詞與詞性標(biāo)注。采用jieba分詞對(duì)分句后的實(shí)驗(yàn)語料和外部語料進(jìn)行分詞和詞性標(biāo)注。
依存句法分析。采用哈工大Pyltp[10]進(jìn)行句法分析,獲得詞語的依存句法關(guān)系。
詞向量訓(xùn)練。利用Gensim庫的Word2Vec類分別對(duì)實(shí)驗(yàn)語料和外部語料進(jìn)行向量表示,得到相應(yīng)詞向量。
情感資源構(gòu)建工作包括中文情感資源收集、混合情感詞典構(gòu)建和基于評(píng)論語料的情感詞擴(kuò)展3個(gè)方面。
2.2.1 中文情感資源收集
中文語境的情感詞識(shí)別及極性判斷,一般要借助情感詞典,通過判斷情感詞、否定詞和程度副詞來度量情感極性或強(qiáng)度。具體來說,情感詞表達(dá)積極、中立或消極的觀點(diǎn),否定詞能轉(zhuǎn)變情感方向,程度副詞能增強(qiáng)或減弱情感。為了識(shí)別情感詞及修飾詞,本文使用3種詞典,即混合情感詞典、程度副詞和否定詞詞典。
(1)基礎(chǔ)情感詞典
現(xiàn)有不少公開可用的中文情感詞典資源,如HowNet詞典、NTUSD詞典、大連理工情感詞匯本體[24]、中文褒貶義詞典。這些詞典將作為構(gòu)建混合情感詞典的基礎(chǔ)情感詞典。
(2)程度副詞和否定詞詞典
本文選擇HowNet的程度副詞詞典來識(shí)別副詞,并利用網(wǎng)絡(luò)整理了一份如表1的否定詞詞典。
表1 否定詞詞典
2.2.2 混合情感詞典構(gòu)建
本文結(jié)合情感詞在基礎(chǔ)情感詞典的極性來構(gòu)建混合情感詞典。步驟如下:
步驟1 取出各情感詞典中極性較明顯的情感詞,通過合并去重得到情感詞集E={e1,e2,…,ew}。
步驟2 對(duì)于情感詞ev(1≤v≤w),其極性值pv范圍為[-4,0)∪(0,+4]。通過統(tǒng)計(jì)ev在各情感詞典的極性來確定pv,計(jì)算方式如式(1)所示
pv=∑poscountv-∑negcountv
(1)
式中:∑poscountv為ev在各詞典中極性為積極的總次數(shù),∑negcountv為ev在各詞典中極性為消極的總次數(shù)。
步驟3 根據(jù)極性值pv的大小判斷ev極性。如果pv大于零、小于零或等于零,則ev的情感極性分別為積極、消極或中性,并添加到混合情感詞典的積極詞表DO、消極詞表DB或中性詞表DU。
2.2.3 基于評(píng)論語料的情感詞擴(kuò)展
為進(jìn)一步擴(kuò)展情感詞,本文利用外部語料詞向量,使用詞嵌入模型的相似性功能來搜索實(shí)驗(yàn)語料的情感詞。這里僅考慮形容詞作為擴(kuò)展對(duì)象。步驟如下:
步驟1 對(duì)某個(gè)不在混合情感詞典而在實(shí)驗(yàn)語料的形容詞A,預(yù)設(shè)兩個(gè)空子列表,分別用于存放語義相近的積極、消極情感詞。
步驟2 利用外部語料詞向量計(jì)算A與詞表DO、DB內(nèi)各情感詞的相似度,并設(shè)置閾值。如果A與某積極情感詞的相似度大于閾值,則將該情感詞添加到積極子列表,消極情感詞的添加方式同理。情感分?jǐn)?shù)AC計(jì)算方式如式(2)
(2)
式中:apos>0或aneg>0,apos為積極子列表的詞數(shù),aneg為消極子列表的詞數(shù)。
步驟3 根據(jù)情感分?jǐn)?shù)AC確定A的極性。如果AC大于零、小于零或等于零,則A的情感極性分別為積極、消極或中性,并加入情感詞集E及相應(yīng)極性詞表。
構(gòu)建混合情感詞典是為了有效識(shí)別情感詞,以便在特征提取時(shí)使用。接下來就是通過定義句法規(guī)則提取顯式特征及情感詞,以此實(shí)現(xiàn)隱式特征提取。主要工作包括建立產(chǎn)品特征詞典、顯式特征提取和隱式特征指定。
2.3.1 建立產(chǎn)品特征詞典
建立特征詞典能約束特征提取過程中的句法分析結(jié)果,以減少噪音詞?;谖墨I(xiàn)[10],建立步驟如下:
步驟1 根據(jù)官網(wǎng)、電商平臺(tái)等網(wǎng)站的產(chǎn)品說明,以及用戶評(píng)價(jià)習(xí)慣,將產(chǎn)品特征細(xì)分為一些粗粒度特征和細(xì)粒度特征,得到細(xì)粒度特征集F={f1,f2,…,fk}。
步驟2 統(tǒng)計(jì)實(shí)驗(yàn)語料中名詞、動(dòng)詞、動(dòng)名詞等詞頻,設(shè)置閾值,并為細(xì)粒度特征fh(1≤h≤k) 人工選取代表詞mhl(l≥1),其中mhl表示fh的第l個(gè)代表詞,從而獲得基礎(chǔ)特征詞典。
步驟3 利用實(shí)驗(yàn)語料詞向量歸類剩余詞匯,計(jì)算待歸類詞cword和各細(xì)粒度特征的相似度,即計(jì)算cword和fh下代表詞簇的相似度平均值,將其分配到相似度最高的細(xì)粒度特征。同時(shí)設(shè)置閾值過濾一些噪音詞。待歸類詞cword與fh的相似度計(jì)算如式(3),其中y∈[1,l]且為整數(shù)
(3)
步驟4 人工校驗(yàn)并修正歸類結(jié)果,得到細(xì)粒度特征fh={featureh1,featureh2,…,featurehx},其中featurehx表示fh下屬的第x個(gè)顯式特征詞,由此獲得最終的特征詞典。
2.3.2 顯式特征提取
本文提取的詞對(duì)以[特征詞,情感詞,修飾詞]的形式表示。文中使用的句法關(guān)系見表2。提取方法如下:①定義6種句法規(guī)則,從句法分析結(jié)果提取[特征詞,情感詞]二元組。②根據(jù)情感詞與修飾詞的句法關(guān)系,提取修飾詞,構(gòu)成更為完善的三元組。
表2 句法關(guān)系描述及示例
(1)定義句法規(guī)則提取二元組
本文提出以下6種句法規(guī)則來提取顯式特征,相關(guān)示例的句法分析如圖2所示。
圖2 相關(guān)句法規(guī)則的示例分析
SBV規(guī)則:如果某特征詞featurehx為主語,情感詞ev為謂語,并且兩者存在SBV關(guān)系,則能提取出二元組[featurehx,ev]。以“性價(jià)比比較高”為例,其句法分析如圖2(a)所示。
VOB規(guī)則:如果某特征詞featurehx為賓語,情感詞ev為謂語,并且兩者存在VOB關(guān)系,則能提取出二元組[featurehx,ev]。評(píng)論“包裝太垃圾”的句法分析可見圖2(b)。
FOB規(guī)則:如果某特征詞featurehx作為評(píng)價(jià)對(duì)象,情感詞ev為謂語,并且兩者存在FOB關(guān)系,就能提取出二元組[featurehx,ev]。評(píng)論“價(jià)位也還能接受”的句法分析可見圖2(c)。
ATT規(guī)則:如果某情感詞ev是定語,修飾特征詞featurehx,則能構(gòu)成二元組[featurehx,ev]。評(píng)論“很漂亮的鏡頭”的句法分析可見圖2(d)。
CMP規(guī)則:當(dāng)特征詞為動(dòng)詞時(shí),其情感詞一般為動(dòng)詞補(bǔ)足語。因此,如果情感詞ev是動(dòng)詞補(bǔ)足語,修飾特征詞featurehx,則能構(gòu)成二元組[featurehx,ev]。評(píng)論“成像很好”的句法分析可見圖2(e)。
COO規(guī)則:如果特征詞featurehx、featurebc(b≠h或c≠x)并排出現(xiàn)在評(píng)論中,并且兩者存在COO關(guān)系,而featurehx與情感詞ev又存在某種句法關(guān)系,則認(rèn)為featurebc與ev也有這種關(guān)系,從而提取二元組[featurehx,ev]和[featurebc,ev]。以“外形和手感都不錯(cuò)”為例,其句法分析如圖2(f)所示。
(2)包含修飾詞的三元組提取
僅提取二元組是不夠的,還需要根據(jù)情感詞的句法關(guān)系來識(shí)別修飾詞,形成更為完善的三元組。
ADV規(guī)則:當(dāng)某修飾詞q與[featurehx,ev]的情感詞ev存在ADV關(guān)系時(shí),且該修飾詞在副詞或否定詞詞典中,則能形成三元組[featurehx,ev,q]。以圖2(a)為例,通過SBV規(guī)則能提取出[性價(jià)比,高],同時(shí)“比較”修飾“高”,兩者存在ADV關(guān)系,因此能提取出“比較”,構(gòu)成三元組[性價(jià)比,高,比較]。
CMP規(guī)則:如果某修飾詞q與[featurehx,ev]的情感詞ev存在CMP關(guān)系,且該修飾詞在副詞或否定詞詞典中,則能形成三元組[featurehx,ev,q]。如圖2(g)的示例,根據(jù)SBV規(guī)則能提取[價(jià)格,高],而“一些”修飾“高”,兩者存在CMP關(guān)系,因此,能提取并形成三元組[價(jià)格,高,一些]。
2.3.3 隱式特征指定
根據(jù)2.3.2節(jié)獲得基于實(shí)驗(yàn)語料的情感詞集E’,以此統(tǒng)計(jì)顯式特征與情感詞的搭配次數(shù),根據(jù)其共現(xiàn)關(guān)系提取隱式特征。步驟如下:
步驟1 將E’中情感詞ev與不同特征詞的搭配次數(shù)轉(zhuǎn)化為與其上屬細(xì)粒度特征的共現(xiàn)次數(shù)。即ev與細(xì)粒度特征fh的共現(xiàn)次數(shù)為ev與其下屬特征詞featurehx搭配次數(shù)的總和。
步驟2 以ev對(duì)應(yīng)共現(xiàn)次數(shù)最多的細(xì)粒度特征作為其默認(rèn)特征,推出E’中各情感詞的默認(rèn)特征,獲得{情感詞:隱式特征}形式的隱式特征詞典。
步驟3 重新遍歷評(píng)論,如果評(píng)論有在E’而未被提取的情感詞,則根據(jù)隱式特征詞典推導(dǎo)隱式特征,提取包含隱式特征的元組。
實(shí)驗(yàn)數(shù)據(jù)集來自Zhang等[25]發(fā)布的相機(jī)評(píng)論數(shù)據(jù)集。每條評(píng)論都標(biāo)注了顯式特征及情感詞,示例如圖3所示。其中,[價(jià)格,超值,1,1,N]里“1”表示標(biāo)注詞極性,“N”表示沒有情感否定。本文提取了20 000條用戶評(píng)論作為實(shí)驗(yàn)語料,同時(shí)人工標(biāo)注200條含隱式特征的評(píng)論,共14個(gè)細(xì)粒度特征的297個(gè)結(jié)果。
圖3 相機(jī)數(shù)據(jù)集評(píng)論示例
分句過程以“???。?。.”等標(biāo)點(diǎn)符號(hào)作為分句標(biāo)志。使用jieba分詞進(jìn)行分詞與詞性標(biāo)注,并加入自定義詞典來提高分詞準(zhǔn)確率,包括感光度、遮光罩等。在詞性標(biāo)注去掉了顏表情、無意義字符等字符。在依存句法分析上,則使用Pyltp的依存句法分析模塊,將句法關(guān)系保存為七元組,如[ATT,做工,0,v,手感,1,n],其中第一位表示兩詞的句法關(guān)系,第二至四位分別表示該句法關(guān)系指向的核心詞及其位置、詞性,第五至七位分別表示該句法關(guān)系從屬的修飾詞及其位置、詞性。此外,對(duì)實(shí)驗(yàn)語料和外部語料進(jìn)行詞向量訓(xùn)練的相關(guān)參數(shù)見表3。
表3 詞向量訓(xùn)練語料及參數(shù)
本文以精確率(Precision)、召回率(Recall)和F1值作為評(píng)價(jià)指標(biāo),計(jì)算公式如式(4)~式(6)所示
(4)
(5)
(6)
3.2.1 情感資源構(gòu)建
首先在情感詞選擇上,HowNet選用正負(fù)面的情感詞與評(píng)價(jià)詞表,大連理工情感本體選用極性標(biāo)注為0、1、2的情感詞,NTUSD和中文褒貶義詞典則全部選用。然后,通過合并去重獲得總情感詞表,利用式(1)計(jì)算各情感詞的極性值,由此構(gòu)建混合情感詞典,其中積極詞表、中性詞表、消極詞表分別包含16 037、3324、18 414個(gè)情感詞。最后,利用外部語料詞向量和式(2)進(jìn)行情感詞擴(kuò)展,擴(kuò)展的積極詞、中性詞、消極詞分別為137、19、129個(gè)。另外,構(gòu)建過程不考慮詞長在4以上的情感詞,相似度閾值為0.5。部分?jǐn)U展詞如圖4所示。
圖4 基于實(shí)驗(yàn)語料擴(kuò)展的情感詞
3.2.2 隱式特征提取
首先,基于中關(guān)村、京東等網(wǎng)站的產(chǎn)品說明,結(jié)合用戶評(píng)價(jià)習(xí)慣建立基礎(chǔ)特征詞典,得到價(jià)格、外觀設(shè)計(jì)、曝光控制、鏡頭、電源、拍攝性能、屏幕、基本參數(shù)、服務(wù)這9類粗粒度特征,其下包括價(jià)格、性價(jià)比、顏色、材質(zhì)等21個(gè)細(xì)粒度特征。其次,通過詞頻統(tǒng)計(jì),為各細(xì)粒度特征人工選取3個(gè)詞頻在3以上的代表詞,得到21個(gè)細(xì)粒度特征下的63個(gè)代表詞匯。如“鏡頭配置”選取的代表詞為鏡頭、濾鏡和鍍膜。然后,利用實(shí)驗(yàn)語料詞向量和式(3)計(jì)算待歸類詞與各細(xì)粒度特征的相似度,進(jìn)行特征歸類,相似度閾值為0.5。最后,人工校驗(yàn)歸類結(jié)果,得到255個(gè)顯式特征詞,即相機(jī)特征詞典,部分歸類結(jié)果見表4。
表4 相機(jī)評(píng)論的特征歸類結(jié)果
根據(jù)2.3.2節(jié)定義的句法規(guī)則,以及建立的特征詞典和混合情感詞典,從實(shí)驗(yàn)語料提取了31 966個(gè)元組,包括[耗電量,大,太]、[顏色,美觀]等?;谒迷M,統(tǒng)計(jì)情感詞與顯式特征的搭配次數(shù),并轉(zhuǎn)化為與不同細(xì)粒度特征的共現(xiàn)次數(shù)。將共現(xiàn)次數(shù)最多的細(xì)粒度特征作為情感詞的默認(rèn)特征。例如,根據(jù)圖5發(fā)現(xiàn)情感詞“好看”與細(xì)粒度特征“顏色”、“外觀”、“拍照性能”的共現(xiàn)次數(shù)分別為120、275和14,則可以指定“好看”的默認(rèn)隱式特征為“外觀”。由此獲得隱式特征詞典。最后,重新遍歷評(píng)論,如果評(píng)論有在情感詞集而未被提取的情感詞,則根據(jù)隱式特征詞典確定隱式特征,并提取元組。如評(píng)論“確實(shí)不好看”,“好看”由于缺少相應(yīng)的顯式特征而未被提取,那么重新遍歷時(shí),則能根據(jù)隱式特征詞典查到其隱式特征為“外觀”,并根據(jù)句法關(guān)系,提取三元組[外觀,好看,不]。
圖5 情感詞與細(xì)粒度特征的共現(xiàn)次數(shù)
3.2.3 對(duì)比與分析
本文設(shè)計(jì)了對(duì)比實(shí)驗(yàn)來表明提出方法的有效性。實(shí)驗(yàn)共分3組:第一組是驗(yàn)證加入句法關(guān)系和混合情感詞典的有效性;第二組是與其它顯式特征提取工作的對(duì)比實(shí)驗(yàn);第三組是與其它隱式特征提取工作的對(duì)比實(shí)驗(yàn)。
(1)加入句法關(guān)系和混合情感詞典的有效性驗(yàn)證實(shí)驗(yàn)
為驗(yàn)證句法關(guān)系和混合情感詞典的有效性,本文設(shè)計(jì)一組實(shí)驗(yàn)來比較不同方法的準(zhǔn)確度、召回率和F1值。基礎(chǔ)方法包括:①基于詞向量歸類的特征詞典的特征詞提取,由base_WE表示;②結(jié)合歸類的特征詞典、句法關(guān)系、以形容詞為情感詞的特征提取方法,由base_WE+DE表示;③結(jié)合歸類的特征詞典、句法關(guān)系、以HowNet為情感詞典的特征提取,由base_WE+DE+HN表示;④結(jié)合歸類的特征詞典、句法關(guān)系和以混合情感詞典為情感詞典的特征提取,由base_WE+DE+EW表示,即本文方法。另外,將隱式特征提取表示為Imp_Recogn。結(jié)果見表5。
表5 基礎(chǔ)方法組合及結(jié)果
從表5可知,不同方法的精確率、召回率和F1值存在差異。base_WE的精確率和F1值最低,召回率較低,原因可能是語料標(biāo)注詞沒有本文的特征詞典那么細(xì)致,一些特征詞并不在原標(biāo)注詞內(nèi),如“價(jià)保”、“對(duì)焦”等。加入句法關(guān)系后(即base_WE+DE),其精確率和F1值大幅提高,召回率略降,一個(gè)可能原因是利用句法關(guān)系能有效識(shí)別情感詞,提取更多的特征詞。為提高情感詞識(shí)別能力,將HowNet和混合情感詞典分別融入base_WE,發(fā)現(xiàn)雖然精確率略降,但召回率和F1值都有所提升,其中本文方法(即base_WE+DE+EW)的F1值最高,融入HowNet的base_WE次之,可能原因在于情感詞典的情感詞更多,詞性更豐富,因此能覆蓋更多的語料情感詞,召回更多的特征詞。根據(jù)圖6,基礎(chǔ)情感詞典中NTUSD的情感詞覆蓋率最低,HowNet最高,與其相比,擴(kuò)展的混合情感詞典的情感詞更多,情感詞覆蓋率比HowNet高17.4%,足以體現(xiàn)本文構(gòu)建與擴(kuò)展混合情感詞典方法的有效性。
圖6 各詞典在實(shí)驗(yàn)語料的情感詞覆蓋率
(2)顯式特征提取工作對(duì)比實(shí)驗(yàn)
本文選擇下列3種方法作為對(duì)比方法,以驗(yàn)證本文方法在顯式特征提取的有效性。
(1)詞性標(biāo)記法,記為base-POS。將名詞、動(dòng)詞作為候選特征,提取詞頻在3以上的候選特征詞。
(2)基于FP-growth的提取方法,記為base-FP?;谖墨I(xiàn)[6]的方法,使用FP增長算法提取產(chǎn)品特征的頻繁項(xiàng)集,最小支持度為1%,并進(jìn)行單字剪枝和非特征項(xiàng)過濾。
(3)基于句法規(guī)則的提取方法,記為base-Rule。根據(jù)文獻(xiàn)[26]使用由詞性和句法關(guān)系構(gòu)成的評(píng)價(jià)搭配模板來提取特征詞及評(píng)價(jià)詞。
不同方法的顯式特征提取結(jié)果見表6。
表6 不同方法的顯式特征提取結(jié)果
由表6可以發(fā)現(xiàn),本文方法表現(xiàn)最好,在精確率和F1值上與對(duì)比方法相比有較大提升,說明了本文方法的有效性。詞性標(biāo)注法將所有名詞與動(dòng)詞視為特征詞,召回特征詞的同時(shí)也包含了大量噪音詞,因此雖然召回率最高,但精確率太低,影響最終的F1值。基于FP增長算法的提取方法由于僅考慮高頻詞,排除了低頻詞,導(dǎo)致最終性能受限。而基于句法規(guī)則的提取方法,雖然評(píng)價(jià)搭配模板能提取出較遠(yuǎn)距離的評(píng)價(jià)對(duì)象及評(píng)價(jià)詞,但受用戶表達(dá)習(xí)慣的影響,移植性差,因此最終性能也有限。與上述方法相比,本文方法雖然召回率較低,但在精確率和F1值上取得了更優(yōu)的效果,不僅考慮了句法關(guān)系,同時(shí)兼顧特征詞與情感詞的識(shí)別,利用特征詞典和混合情感詞典約束句法分析結(jié)果,排除一些無效或干擾項(xiàng),使方法的移植性更強(qiáng),更易實(shí)現(xiàn)。
(3)隱式特征提取工作對(duì)比實(shí)驗(yàn)
PMI算法通過計(jì)算兩個(gè)詞在上下文的共現(xiàn)概率來判斷其相關(guān)性,共現(xiàn)概率越高,則相關(guān)性越大。詞w1與詞w2的PMI值計(jì)算如下
(7)
文獻(xiàn)[16]利用PMI算法來獲取評(píng)論的隱式特征,本文以此作為隱式特征提取對(duì)比的基準(zhǔn)方法?;谒锰卣?情感詞元組,使用PMI算法查找實(shí)驗(yàn)語料中顯式特征與情感詞的共現(xiàn)情況,找到各情感詞相應(yīng)PMI值最大的特征詞,并對(duì)應(yīng)到上屬細(xì)粒度特征。實(shí)驗(yàn)結(jié)果在297個(gè)隱式特征標(biāo)注結(jié)果中非“外觀”的有162個(gè),而正確提取的僅35個(gè),其余均為“外觀”,因此結(jié)果并不理想,召回率為19.87%??赡茉蛟谟凇巴庥^”作為常見的細(xì)粒度特征,其相關(guān)特征詞在評(píng)論語料的出現(xiàn)概率很高,導(dǎo)致其最終PMI值偏高。由表5的結(jié)果可知,本文隱式特征提取的召回率為72.05%,遠(yuǎn)高于基準(zhǔn)方法,因此具有一定的有效性。
本文提出了一種基于句法規(guī)則與情感詞的隱式特征提取方法。首先,提取評(píng)論數(shù)據(jù)并進(jìn)行預(yù)處理,再分別利用實(shí)驗(yàn)語料和外部語料訓(xùn)練詞向量。然后,借助中文情感詞典資源、外部語料詞向量構(gòu)建并擴(kuò)展混合情感詞典。最后,使用實(shí)驗(yàn)語料詞向量構(gòu)建特征詞典,根據(jù)兩個(gè)詞典和定義的句法規(guī)則來提取顯式特征及情感詞,根據(jù)其共現(xiàn)關(guān)系獲取隱式特征詞典,通過重新遍歷評(píng)論來發(fā)現(xiàn)隱式特征。實(shí)驗(yàn)結(jié)果表明本文方法具有一定的有效性。不過,本文僅考慮了出現(xiàn)情感詞條件下的隱式特征提取,對(duì)于產(chǎn)品評(píng)論可能不會(huì)出現(xiàn)情感詞的特征提取情況還有待進(jìn)一步探索與研究。