亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于句法規(guī)則與情感詞的隱式特征提取

        2024-03-21 01:48:36陳可嘉柯永誠林鴻熙
        關(guān)鍵詞:細(xì)粒度特征詞語料

        陳可嘉,柯永誠,林鴻熙

        (1.福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福建 福州 350108;2.莆田學(xué)院 商學(xué)院,福建 莆田 351100)

        0 引 言

        人們往往會(huì)查閱產(chǎn)品評(píng)論進(jìn)行購買決策,但用戶偏好的不同以及海量評(píng)論易導(dǎo)致信息過載[1]。因此,評(píng)論挖掘技術(shù)應(yīng)運(yùn)而生,產(chǎn)品特征提取作為首要任務(wù),其結(jié)果好壞會(huì)直接影響后續(xù)任務(wù)[2]。產(chǎn)品特征提取可分為顯式和隱式特征提取。顯式特征是以文字形式在評(píng)論出現(xiàn)的特征;隱式特征是不以文字形式出現(xiàn)在評(píng)論的特征,但能通過語境推斷[3],如“太貴了”中“貴”經(jīng)由語境推斷出它修飾特征“價(jià)格”。30%的中文評(píng)論含有隱式特征[4]。因此,深入研究隱式特征提取能獲得更完整的特征信息。

        當(dāng)前隱式特征提取的主要策略是通過某種算法提取顯式特征與情感詞,基于其共現(xiàn)關(guān)系為情感詞確定隱式特征[5]。其研究方法包括關(guān)聯(lián)規(guī)則、主題模型、句法關(guān)系、機(jī)器學(xué)習(xí)等。前兩種方法難以發(fā)現(xiàn)低頻詞,機(jī)器學(xué)習(xí)又過于依賴標(biāo)注數(shù)據(jù)集,而句法關(guān)系能利用詞語依存關(guān)系提取出低頻詞,所以近年來有不少研究都融入了句法關(guān)系。但還存在以下不足:一是以名詞為候選特征,并主要考慮主謂關(guān)系[6],但特征詞還有動(dòng)詞、動(dòng)名詞等詞性,在句法關(guān)系上也有動(dòng)補(bǔ)結(jié)構(gòu)、并列關(guān)系等。二是僅考慮形容詞[7,8],或利用情感詞典識(shí)別情感詞[9],前者忽略其它詞性的情感詞,后者是情感詞有限,且與英文詞典資源相比,中文詞典資源較為匱乏。三是由于隱式特征難以觀測,使多數(shù)研究僅關(guān)注顯式特征提取[10,11],少數(shù)隱式特征提取研究也基本上面向英文評(píng)論[3,12],不利于隱式特征提取研究發(fā)展。

        針對(duì)上述不足,本文主要考慮中文評(píng)論出現(xiàn)情感詞條件下的隱式特征提取,提出一種基于句法規(guī)則與情感詞的隱式特征提取方法。通過考慮多種特征詞詞性及句法關(guān)系,利用詞向量和中文情感詞典構(gòu)建特征詞典和混合情感詞典,以此定義句法規(guī)則來提取顯式特征-情感詞,并基于其共現(xiàn)情況來提取隱式特征。

        1 相關(guān)工作

        目前特征提取研究主要關(guān)注顯式特征提取。邱云飛等[7]使用條件隨機(jī)場和貪婪式特征選擇來提取顯式特征。Wan等[13]將詞匯關(guān)聯(lián)組合及相關(guān)約束融入主題模型來提取顯式特征詞。Lee等[14]改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)來提取關(guān)鍵特征。

        在隱式特征提取上的研究相對(duì)較少。最早的隱式特征提取思想是由Liu等[15]提出,利用關(guān)聯(lián)規(guī)則提取顯式特征-情感詞對(duì),根據(jù)其映射關(guān)系提取隱式特征。隨后,Wang等[16]使用頻率、點(diǎn)互信息(pointwise mutual information,PMI)等多種算法計(jì)算共現(xiàn)度,通過規(guī)則選擇來識(shí)別隱式特征。Zainuddin等[17]使用關(guān)聯(lián)規(guī)則和詞性模式提取顯式特征,并結(jié)合句法分析器提取隱式特征。Karagoz等[18]通過匹配候選詞與情感詞,以及情感詞與顯式特征的共現(xiàn)關(guān)系確定隱式特征。Eldin等[19]使用語言及啟發(fā)式模式提取顯式特征,并應(yīng)用布谷鳥搜索算法從候選特征列表識(shí)別隱式特征。在利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)識(shí)別隱式特征方面,Rana等[20]定義規(guī)則來識(shí)別用戶意見的潛在線索,考慮意見詞、隱式特征線索和歸一化谷歌距離的共現(xiàn)關(guān)系提取隱式特征。Feng等[21]利用深度卷積神經(jīng)網(wǎng)絡(luò)提取顯式特征-情感詞,考慮特征詞作為主題及其與情感詞的匹配度提取隱式特征。Afzaal等[22]使用餐廳和酒店領(lǐng)域的決策樹為單詞指定特征類。Mir等[23]使用BiLSTM-CRF來提取顯式特征,并將結(jié)果用于處理各類隱式評(píng)論。

        2 隱式特征提取方法

        本文提出一種基于句法規(guī)則與情感詞的隱式特征提取方法,包括數(shù)據(jù)收集與預(yù)處理、情感資源構(gòu)建和隱式特征提取3個(gè)階段,其框架流程如圖1所示。首先從數(shù)據(jù)集提取評(píng)論數(shù)據(jù),進(jìn)行分句、分詞等預(yù)處理操作,并基于實(shí)驗(yàn)語料和外部語料訓(xùn)練詞向量;然后,借助中文情感詞典構(gòu)建混合情感詞典,并使用外部語料詞向量實(shí)現(xiàn)情感詞擴(kuò)展;最后,使用實(shí)驗(yàn)語料詞向量構(gòu)建特征詞典,根據(jù)構(gòu)建的兩個(gè)詞典,通過定義句法規(guī)則來提取顯式特征-情感詞,根據(jù)其共現(xiàn)關(guān)系獲得隱式特征詞典,以此提取隱式特征。

        圖1 本文方法框架流程

        2.1 數(shù)據(jù)收集與預(yù)處理

        從評(píng)論數(shù)據(jù)集提取實(shí)驗(yàn)語料R={r1,r2,…,rn},同時(shí)收集大規(guī)模文本作為外部語料。后續(xù)預(yù)處理工作包括:

        評(píng)論分句。按照標(biāo)點(diǎn)符號(hào)將長評(píng)論ri(1≤i≤n) 切分成多個(gè)單句sij,即ri={si1,si2,…,sij},其中j≥1。

        分詞與詞性標(biāo)注。采用jieba分詞對(duì)分句后的實(shí)驗(yàn)語料和外部語料進(jìn)行分詞和詞性標(biāo)注。

        依存句法分析。采用哈工大Pyltp[10]進(jìn)行句法分析,獲得詞語的依存句法關(guān)系。

        詞向量訓(xùn)練。利用Gensim庫的Word2Vec類分別對(duì)實(shí)驗(yàn)語料和外部語料進(jìn)行向量表示,得到相應(yīng)詞向量。

        2.2 情感資源構(gòu)建

        情感資源構(gòu)建工作包括中文情感資源收集、混合情感詞典構(gòu)建和基于評(píng)論語料的情感詞擴(kuò)展3個(gè)方面。

        2.2.1 中文情感資源收集

        中文語境的情感詞識(shí)別及極性判斷,一般要借助情感詞典,通過判斷情感詞、否定詞和程度副詞來度量情感極性或強(qiáng)度。具體來說,情感詞表達(dá)積極、中立或消極的觀點(diǎn),否定詞能轉(zhuǎn)變情感方向,程度副詞能增強(qiáng)或減弱情感。為了識(shí)別情感詞及修飾詞,本文使用3種詞典,即混合情感詞典、程度副詞和否定詞詞典。

        (1)基礎(chǔ)情感詞典

        現(xiàn)有不少公開可用的中文情感詞典資源,如HowNet詞典、NTUSD詞典、大連理工情感詞匯本體[24]、中文褒貶義詞典。這些詞典將作為構(gòu)建混合情感詞典的基礎(chǔ)情感詞典。

        (2)程度副詞和否定詞詞典

        本文選擇HowNet的程度副詞詞典來識(shí)別副詞,并利用網(wǎng)絡(luò)整理了一份如表1的否定詞詞典。

        表1 否定詞詞典

        2.2.2 混合情感詞典構(gòu)建

        本文結(jié)合情感詞在基礎(chǔ)情感詞典的極性來構(gòu)建混合情感詞典。步驟如下:

        步驟1 取出各情感詞典中極性較明顯的情感詞,通過合并去重得到情感詞集E={e1,e2,…,ew}。

        步驟2 對(duì)于情感詞ev(1≤v≤w),其極性值pv范圍為[-4,0)∪(0,+4]。通過統(tǒng)計(jì)ev在各情感詞典的極性來確定pv,計(jì)算方式如式(1)所示

        pv=∑poscountv-∑negcountv

        (1)

        式中:∑poscountv為ev在各詞典中極性為積極的總次數(shù),∑negcountv為ev在各詞典中極性為消極的總次數(shù)。

        步驟3 根據(jù)極性值pv的大小判斷ev極性。如果pv大于零、小于零或等于零,則ev的情感極性分別為積極、消極或中性,并添加到混合情感詞典的積極詞表DO、消極詞表DB或中性詞表DU。

        2.2.3 基于評(píng)論語料的情感詞擴(kuò)展

        為進(jìn)一步擴(kuò)展情感詞,本文利用外部語料詞向量,使用詞嵌入模型的相似性功能來搜索實(shí)驗(yàn)語料的情感詞。這里僅考慮形容詞作為擴(kuò)展對(duì)象。步驟如下:

        步驟1 對(duì)某個(gè)不在混合情感詞典而在實(shí)驗(yàn)語料的形容詞A,預(yù)設(shè)兩個(gè)空子列表,分別用于存放語義相近的積極、消極情感詞。

        步驟2 利用外部語料詞向量計(jì)算A與詞表DO、DB內(nèi)各情感詞的相似度,并設(shè)置閾值。如果A與某積極情感詞的相似度大于閾值,則將該情感詞添加到積極子列表,消極情感詞的添加方式同理。情感分?jǐn)?shù)AC計(jì)算方式如式(2)

        (2)

        式中:apos>0或aneg>0,apos為積極子列表的詞數(shù),aneg為消極子列表的詞數(shù)。

        步驟3 根據(jù)情感分?jǐn)?shù)AC確定A的極性。如果AC大于零、小于零或等于零,則A的情感極性分別為積極、消極或中性,并加入情感詞集E及相應(yīng)極性詞表。

        2.3 隱式特征提取

        構(gòu)建混合情感詞典是為了有效識(shí)別情感詞,以便在特征提取時(shí)使用。接下來就是通過定義句法規(guī)則提取顯式特征及情感詞,以此實(shí)現(xiàn)隱式特征提取。主要工作包括建立產(chǎn)品特征詞典、顯式特征提取和隱式特征指定。

        2.3.1 建立產(chǎn)品特征詞典

        建立特征詞典能約束特征提取過程中的句法分析結(jié)果,以減少噪音詞?;谖墨I(xiàn)[10],建立步驟如下:

        步驟1 根據(jù)官網(wǎng)、電商平臺(tái)等網(wǎng)站的產(chǎn)品說明,以及用戶評(píng)價(jià)習(xí)慣,將產(chǎn)品特征細(xì)分為一些粗粒度特征和細(xì)粒度特征,得到細(xì)粒度特征集F={f1,f2,…,fk}。

        步驟2 統(tǒng)計(jì)實(shí)驗(yàn)語料中名詞、動(dòng)詞、動(dòng)名詞等詞頻,設(shè)置閾值,并為細(xì)粒度特征fh(1≤h≤k) 人工選取代表詞mhl(l≥1),其中mhl表示fh的第l個(gè)代表詞,從而獲得基礎(chǔ)特征詞典。

        步驟3 利用實(shí)驗(yàn)語料詞向量歸類剩余詞匯,計(jì)算待歸類詞cword和各細(xì)粒度特征的相似度,即計(jì)算cword和fh下代表詞簇的相似度平均值,將其分配到相似度最高的細(xì)粒度特征。同時(shí)設(shè)置閾值過濾一些噪音詞。待歸類詞cword與fh的相似度計(jì)算如式(3),其中y∈[1,l]且為整數(shù)

        (3)

        步驟4 人工校驗(yàn)并修正歸類結(jié)果,得到細(xì)粒度特征fh={featureh1,featureh2,…,featurehx},其中featurehx表示fh下屬的第x個(gè)顯式特征詞,由此獲得最終的特征詞典。

        2.3.2 顯式特征提取

        本文提取的詞對(duì)以[特征詞,情感詞,修飾詞]的形式表示。文中使用的句法關(guān)系見表2。提取方法如下:①定義6種句法規(guī)則,從句法分析結(jié)果提取[特征詞,情感詞]二元組。②根據(jù)情感詞與修飾詞的句法關(guān)系,提取修飾詞,構(gòu)成更為完善的三元組。

        表2 句法關(guān)系描述及示例

        (1)定義句法規(guī)則提取二元組

        本文提出以下6種句法規(guī)則來提取顯式特征,相關(guān)示例的句法分析如圖2所示。

        圖2 相關(guān)句法規(guī)則的示例分析

        SBV規(guī)則:如果某特征詞featurehx為主語,情感詞ev為謂語,并且兩者存在SBV關(guān)系,則能提取出二元組[featurehx,ev]。以“性價(jià)比比較高”為例,其句法分析如圖2(a)所示。

        VOB規(guī)則:如果某特征詞featurehx為賓語,情感詞ev為謂語,并且兩者存在VOB關(guān)系,則能提取出二元組[featurehx,ev]。評(píng)論“包裝太垃圾”的句法分析可見圖2(b)。

        FOB規(guī)則:如果某特征詞featurehx作為評(píng)價(jià)對(duì)象,情感詞ev為謂語,并且兩者存在FOB關(guān)系,就能提取出二元組[featurehx,ev]。評(píng)論“價(jià)位也還能接受”的句法分析可見圖2(c)。

        ATT規(guī)則:如果某情感詞ev是定語,修飾特征詞featurehx,則能構(gòu)成二元組[featurehx,ev]。評(píng)論“很漂亮的鏡頭”的句法分析可見圖2(d)。

        CMP規(guī)則:當(dāng)特征詞為動(dòng)詞時(shí),其情感詞一般為動(dòng)詞補(bǔ)足語。因此,如果情感詞ev是動(dòng)詞補(bǔ)足語,修飾特征詞featurehx,則能構(gòu)成二元組[featurehx,ev]。評(píng)論“成像很好”的句法分析可見圖2(e)。

        COO規(guī)則:如果特征詞featurehx、featurebc(b≠h或c≠x)并排出現(xiàn)在評(píng)論中,并且兩者存在COO關(guān)系,而featurehx與情感詞ev又存在某種句法關(guān)系,則認(rèn)為featurebc與ev也有這種關(guān)系,從而提取二元組[featurehx,ev]和[featurebc,ev]。以“外形和手感都不錯(cuò)”為例,其句法分析如圖2(f)所示。

        (2)包含修飾詞的三元組提取

        僅提取二元組是不夠的,還需要根據(jù)情感詞的句法關(guān)系來識(shí)別修飾詞,形成更為完善的三元組。

        ADV規(guī)則:當(dāng)某修飾詞q與[featurehx,ev]的情感詞ev存在ADV關(guān)系時(shí),且該修飾詞在副詞或否定詞詞典中,則能形成三元組[featurehx,ev,q]。以圖2(a)為例,通過SBV規(guī)則能提取出[性價(jià)比,高],同時(shí)“比較”修飾“高”,兩者存在ADV關(guān)系,因此能提取出“比較”,構(gòu)成三元組[性價(jià)比,高,比較]。

        CMP規(guī)則:如果某修飾詞q與[featurehx,ev]的情感詞ev存在CMP關(guān)系,且該修飾詞在副詞或否定詞詞典中,則能形成三元組[featurehx,ev,q]。如圖2(g)的示例,根據(jù)SBV規(guī)則能提取[價(jià)格,高],而“一些”修飾“高”,兩者存在CMP關(guān)系,因此,能提取并形成三元組[價(jià)格,高,一些]。

        2.3.3 隱式特征指定

        根據(jù)2.3.2節(jié)獲得基于實(shí)驗(yàn)語料的情感詞集E’,以此統(tǒng)計(jì)顯式特征與情感詞的搭配次數(shù),根據(jù)其共現(xiàn)關(guān)系提取隱式特征。步驟如下:

        步驟1 將E’中情感詞ev與不同特征詞的搭配次數(shù)轉(zhuǎn)化為與其上屬細(xì)粒度特征的共現(xiàn)次數(shù)。即ev與細(xì)粒度特征fh的共現(xiàn)次數(shù)為ev與其下屬特征詞featurehx搭配次數(shù)的總和。

        步驟2 以ev對(duì)應(yīng)共現(xiàn)次數(shù)最多的細(xì)粒度特征作為其默認(rèn)特征,推出E’中各情感詞的默認(rèn)特征,獲得{情感詞:隱式特征}形式的隱式特征詞典。

        步驟3 重新遍歷評(píng)論,如果評(píng)論有在E’而未被提取的情感詞,則根據(jù)隱式特征詞典推導(dǎo)隱式特征,提取包含隱式特征的元組。

        3 實(shí)驗(yàn)與分析

        3.1 數(shù)據(jù)收集與預(yù)處理

        實(shí)驗(yàn)數(shù)據(jù)集來自Zhang等[25]發(fā)布的相機(jī)評(píng)論數(shù)據(jù)集。每條評(píng)論都標(biāo)注了顯式特征及情感詞,示例如圖3所示。其中,[價(jià)格,超值,1,1,N]里“1”表示標(biāo)注詞極性,“N”表示沒有情感否定。本文提取了20 000條用戶評(píng)論作為實(shí)驗(yàn)語料,同時(shí)人工標(biāo)注200條含隱式特征的評(píng)論,共14個(gè)細(xì)粒度特征的297個(gè)結(jié)果。

        圖3 相機(jī)數(shù)據(jù)集評(píng)論示例

        分句過程以“???。?。.”等標(biāo)點(diǎn)符號(hào)作為分句標(biāo)志。使用jieba分詞進(jìn)行分詞與詞性標(biāo)注,并加入自定義詞典來提高分詞準(zhǔn)確率,包括感光度、遮光罩等。在詞性標(biāo)注去掉了顏表情、無意義字符等字符。在依存句法分析上,則使用Pyltp的依存句法分析模塊,將句法關(guān)系保存為七元組,如[ATT,做工,0,v,手感,1,n],其中第一位表示兩詞的句法關(guān)系,第二至四位分別表示該句法關(guān)系指向的核心詞及其位置、詞性,第五至七位分別表示該句法關(guān)系從屬的修飾詞及其位置、詞性。此外,對(duì)實(shí)驗(yàn)語料和外部語料進(jìn)行詞向量訓(xùn)練的相關(guān)參數(shù)見表3。

        表3 詞向量訓(xùn)練語料及參數(shù)

        本文以精確率(Precision)、召回率(Recall)和F1值作為評(píng)價(jià)指標(biāo),計(jì)算公式如式(4)~式(6)所示

        (4)

        (5)

        (6)

        3.2 實(shí)驗(yàn)結(jié)果及分析

        3.2.1 情感資源構(gòu)建

        首先在情感詞選擇上,HowNet選用正負(fù)面的情感詞與評(píng)價(jià)詞表,大連理工情感本體選用極性標(biāo)注為0、1、2的情感詞,NTUSD和中文褒貶義詞典則全部選用。然后,通過合并去重獲得總情感詞表,利用式(1)計(jì)算各情感詞的極性值,由此構(gòu)建混合情感詞典,其中積極詞表、中性詞表、消極詞表分別包含16 037、3324、18 414個(gè)情感詞。最后,利用外部語料詞向量和式(2)進(jìn)行情感詞擴(kuò)展,擴(kuò)展的積極詞、中性詞、消極詞分別為137、19、129個(gè)。另外,構(gòu)建過程不考慮詞長在4以上的情感詞,相似度閾值為0.5。部分?jǐn)U展詞如圖4所示。

        圖4 基于實(shí)驗(yàn)語料擴(kuò)展的情感詞

        3.2.2 隱式特征提取

        首先,基于中關(guān)村、京東等網(wǎng)站的產(chǎn)品說明,結(jié)合用戶評(píng)價(jià)習(xí)慣建立基礎(chǔ)特征詞典,得到價(jià)格、外觀設(shè)計(jì)、曝光控制、鏡頭、電源、拍攝性能、屏幕、基本參數(shù)、服務(wù)這9類粗粒度特征,其下包括價(jià)格、性價(jià)比、顏色、材質(zhì)等21個(gè)細(xì)粒度特征。其次,通過詞頻統(tǒng)計(jì),為各細(xì)粒度特征人工選取3個(gè)詞頻在3以上的代表詞,得到21個(gè)細(xì)粒度特征下的63個(gè)代表詞匯。如“鏡頭配置”選取的代表詞為鏡頭、濾鏡和鍍膜。然后,利用實(shí)驗(yàn)語料詞向量和式(3)計(jì)算待歸類詞與各細(xì)粒度特征的相似度,進(jìn)行特征歸類,相似度閾值為0.5。最后,人工校驗(yàn)歸類結(jié)果,得到255個(gè)顯式特征詞,即相機(jī)特征詞典,部分歸類結(jié)果見表4。

        表4 相機(jī)評(píng)論的特征歸類結(jié)果

        根據(jù)2.3.2節(jié)定義的句法規(guī)則,以及建立的特征詞典和混合情感詞典,從實(shí)驗(yàn)語料提取了31 966個(gè)元組,包括[耗電量,大,太]、[顏色,美觀]等?;谒迷M,統(tǒng)計(jì)情感詞與顯式特征的搭配次數(shù),并轉(zhuǎn)化為與不同細(xì)粒度特征的共現(xiàn)次數(shù)。將共現(xiàn)次數(shù)最多的細(xì)粒度特征作為情感詞的默認(rèn)特征。例如,根據(jù)圖5發(fā)現(xiàn)情感詞“好看”與細(xì)粒度特征“顏色”、“外觀”、“拍照性能”的共現(xiàn)次數(shù)分別為120、275和14,則可以指定“好看”的默認(rèn)隱式特征為“外觀”。由此獲得隱式特征詞典。最后,重新遍歷評(píng)論,如果評(píng)論有在情感詞集而未被提取的情感詞,則根據(jù)隱式特征詞典確定隱式特征,并提取元組。如評(píng)論“確實(shí)不好看”,“好看”由于缺少相應(yīng)的顯式特征而未被提取,那么重新遍歷時(shí),則能根據(jù)隱式特征詞典查到其隱式特征為“外觀”,并根據(jù)句法關(guān)系,提取三元組[外觀,好看,不]。

        圖5 情感詞與細(xì)粒度特征的共現(xiàn)次數(shù)

        3.2.3 對(duì)比與分析

        本文設(shè)計(jì)了對(duì)比實(shí)驗(yàn)來表明提出方法的有效性。實(shí)驗(yàn)共分3組:第一組是驗(yàn)證加入句法關(guān)系和混合情感詞典的有效性;第二組是與其它顯式特征提取工作的對(duì)比實(shí)驗(yàn);第三組是與其它隱式特征提取工作的對(duì)比實(shí)驗(yàn)。

        (1)加入句法關(guān)系和混合情感詞典的有效性驗(yàn)證實(shí)驗(yàn)

        為驗(yàn)證句法關(guān)系和混合情感詞典的有效性,本文設(shè)計(jì)一組實(shí)驗(yàn)來比較不同方法的準(zhǔn)確度、召回率和F1值。基礎(chǔ)方法包括:①基于詞向量歸類的特征詞典的特征詞提取,由base_WE表示;②結(jié)合歸類的特征詞典、句法關(guān)系、以形容詞為情感詞的特征提取方法,由base_WE+DE表示;③結(jié)合歸類的特征詞典、句法關(guān)系、以HowNet為情感詞典的特征提取,由base_WE+DE+HN表示;④結(jié)合歸類的特征詞典、句法關(guān)系和以混合情感詞典為情感詞典的特征提取,由base_WE+DE+EW表示,即本文方法。另外,將隱式特征提取表示為Imp_Recogn。結(jié)果見表5。

        表5 基礎(chǔ)方法組合及結(jié)果

        從表5可知,不同方法的精確率、召回率和F1值存在差異。base_WE的精確率和F1值最低,召回率較低,原因可能是語料標(biāo)注詞沒有本文的特征詞典那么細(xì)致,一些特征詞并不在原標(biāo)注詞內(nèi),如“價(jià)保”、“對(duì)焦”等。加入句法關(guān)系后(即base_WE+DE),其精確率和F1值大幅提高,召回率略降,一個(gè)可能原因是利用句法關(guān)系能有效識(shí)別情感詞,提取更多的特征詞。為提高情感詞識(shí)別能力,將HowNet和混合情感詞典分別融入base_WE,發(fā)現(xiàn)雖然精確率略降,但召回率和F1值都有所提升,其中本文方法(即base_WE+DE+EW)的F1值最高,融入HowNet的base_WE次之,可能原因在于情感詞典的情感詞更多,詞性更豐富,因此能覆蓋更多的語料情感詞,召回更多的特征詞。根據(jù)圖6,基礎(chǔ)情感詞典中NTUSD的情感詞覆蓋率最低,HowNet最高,與其相比,擴(kuò)展的混合情感詞典的情感詞更多,情感詞覆蓋率比HowNet高17.4%,足以體現(xiàn)本文構(gòu)建與擴(kuò)展混合情感詞典方法的有效性。

        圖6 各詞典在實(shí)驗(yàn)語料的情感詞覆蓋率

        (2)顯式特征提取工作對(duì)比實(shí)驗(yàn)

        本文選擇下列3種方法作為對(duì)比方法,以驗(yàn)證本文方法在顯式特征提取的有效性。

        (1)詞性標(biāo)記法,記為base-POS。將名詞、動(dòng)詞作為候選特征,提取詞頻在3以上的候選特征詞。

        (2)基于FP-growth的提取方法,記為base-FP?;谖墨I(xiàn)[6]的方法,使用FP增長算法提取產(chǎn)品特征的頻繁項(xiàng)集,最小支持度為1%,并進(jìn)行單字剪枝和非特征項(xiàng)過濾。

        (3)基于句法規(guī)則的提取方法,記為base-Rule。根據(jù)文獻(xiàn)[26]使用由詞性和句法關(guān)系構(gòu)成的評(píng)價(jià)搭配模板來提取特征詞及評(píng)價(jià)詞。

        不同方法的顯式特征提取結(jié)果見表6。

        表6 不同方法的顯式特征提取結(jié)果

        由表6可以發(fā)現(xiàn),本文方法表現(xiàn)最好,在精確率和F1值上與對(duì)比方法相比有較大提升,說明了本文方法的有效性。詞性標(biāo)注法將所有名詞與動(dòng)詞視為特征詞,召回特征詞的同時(shí)也包含了大量噪音詞,因此雖然召回率最高,但精確率太低,影響最終的F1值。基于FP增長算法的提取方法由于僅考慮高頻詞,排除了低頻詞,導(dǎo)致最終性能受限。而基于句法規(guī)則的提取方法,雖然評(píng)價(jià)搭配模板能提取出較遠(yuǎn)距離的評(píng)價(jià)對(duì)象及評(píng)價(jià)詞,但受用戶表達(dá)習(xí)慣的影響,移植性差,因此最終性能也有限。與上述方法相比,本文方法雖然召回率較低,但在精確率和F1值上取得了更優(yōu)的效果,不僅考慮了句法關(guān)系,同時(shí)兼顧特征詞與情感詞的識(shí)別,利用特征詞典和混合情感詞典約束句法分析結(jié)果,排除一些無效或干擾項(xiàng),使方法的移植性更強(qiáng),更易實(shí)現(xiàn)。

        (3)隱式特征提取工作對(duì)比實(shí)驗(yàn)

        PMI算法通過計(jì)算兩個(gè)詞在上下文的共現(xiàn)概率來判斷其相關(guān)性,共現(xiàn)概率越高,則相關(guān)性越大。詞w1與詞w2的PMI值計(jì)算如下

        (7)

        文獻(xiàn)[16]利用PMI算法來獲取評(píng)論的隱式特征,本文以此作為隱式特征提取對(duì)比的基準(zhǔn)方法?;谒锰卣?情感詞元組,使用PMI算法查找實(shí)驗(yàn)語料中顯式特征與情感詞的共現(xiàn)情況,找到各情感詞相應(yīng)PMI值最大的特征詞,并對(duì)應(yīng)到上屬細(xì)粒度特征。實(shí)驗(yàn)結(jié)果在297個(gè)隱式特征標(biāo)注結(jié)果中非“外觀”的有162個(gè),而正確提取的僅35個(gè),其余均為“外觀”,因此結(jié)果并不理想,召回率為19.87%??赡茉蛟谟凇巴庥^”作為常見的細(xì)粒度特征,其相關(guān)特征詞在評(píng)論語料的出現(xiàn)概率很高,導(dǎo)致其最終PMI值偏高。由表5的結(jié)果可知,本文隱式特征提取的召回率為72.05%,遠(yuǎn)高于基準(zhǔn)方法,因此具有一定的有效性。

        4 結(jié)束語

        本文提出了一種基于句法規(guī)則與情感詞的隱式特征提取方法。首先,提取評(píng)論數(shù)據(jù)并進(jìn)行預(yù)處理,再分別利用實(shí)驗(yàn)語料和外部語料訓(xùn)練詞向量。然后,借助中文情感詞典資源、外部語料詞向量構(gòu)建并擴(kuò)展混合情感詞典。最后,使用實(shí)驗(yàn)語料詞向量構(gòu)建特征詞典,根據(jù)兩個(gè)詞典和定義的句法規(guī)則來提取顯式特征及情感詞,根據(jù)其共現(xiàn)關(guān)系獲取隱式特征詞典,通過重新遍歷評(píng)論來發(fā)現(xiàn)隱式特征。實(shí)驗(yàn)結(jié)果表明本文方法具有一定的有效性。不過,本文僅考慮了出現(xiàn)情感詞條件下的隱式特征提取,對(duì)于產(chǎn)品評(píng)論可能不會(huì)出現(xiàn)情感詞的特征提取情況還有待進(jìn)一步探索與研究。

        猜你喜歡
        細(xì)粒度特征詞語料
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        面向文本分類的特征詞選取方法研究與改進(jìn)
        《苗防備覽》中的湘西語料
        友田真希中文字幕亚洲| 成人性做爰aaa片免费看| 亚洲肥老太bbw中国熟女| 99久久精品国产片| 美腿丝袜美腿国产在线| 日本一区二区国产精品| 国产免费一区二区三区免费视频| 欧美黑人性暴力猛交喷水黑人巨大 | 国产精品无码一本二本三本色| 亚洲国产成人91| 国产三级在线观看性色av| 在线观看中文字幕不卡二区| 亚洲中文字幕剧情类别| 亚洲av无码一区二区一二区| 亚洲欧洲偷自拍图片区| 国内精品大秀视频日韩精品| 亚洲av综合色区久久精品天堂 | 日本道精品一区二区三区| 韩国19禁主播深夜福利视频| 久久综合亚洲色社区| 宅男久久精品国产亚洲av麻豆 | 中文字幕亚洲精品专区| 女人被狂躁的高潮免费视频| 日本高清视频xxxxx| 国产自精品| 中文字幕中文字幕人妻黑丝| 国产精品亚洲第一区二区三区| 人妻av乱片av出轨| 亚洲欧美日韩国产综合久| 亚洲中文字幕无线乱码va| 亚洲黄色av一区二区三区| 成人欧美一区二区三区在线观看| 久久99精品久久久久久hb无码| 99国产精品久久久蜜芽| 国产免费人成网站在线播放| 美女与黑人巨大进入免费观看| 无遮挡1000部拍拍拍免费| 亚洲欧美日韩精品久久亚洲区| 爆乳无码AV国内| 国产精品精品国产色婷婷| 日本免费a级毛一片|