王 倩
樂(lè)山職業(yè)技術(shù)學(xué)院
結(jié)合屬性詞和副詞權(quán)重的細(xì)粒度情感分析
王 倩
樂(lè)山職業(yè)技術(shù)學(xué)院
為了提高現(xiàn)有產(chǎn)品評(píng)論挖掘算法的準(zhǔn)確率,通過(guò)計(jì)算細(xì)粒度的詞匯的語(yǔ)義傾向度,設(shè)計(jì)了一種結(jié)合屬性詞和副詞權(quán)重的情感傾向分析方法,采取了細(xì)粒度分析的思想,對(duì)評(píng)論的傾向性進(jìn)行判定。本文設(shè)計(jì)了一種基于消費(fèi)者關(guān)注程度的屬性詞權(quán)重計(jì)算方法,提高同一整句中正反極性同時(shí)存在情形下的極性判別準(zhǔn)確率。結(jié)果表明相較于不考慮屬性詞權(quán)重的方法,結(jié)合屬性詞和程度副詞權(quán)重的情感分析能夠提高準(zhǔn)確率6%左右。
屬性提??;情感分析;權(quán)重;
隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的快速發(fā)展,以淘寶、京東等公司為代表的電子商務(wù)也得到了迅猛發(fā)展,網(wǎng)購(gòu)成為很多人購(gòu)物的重要方式。在實(shí)際應(yīng)用中,利用情感分析技術(shù)能挖掘出顧客對(duì)商品的滿(mǎn)意程度和購(gòu)物喜好以及商品在使用中的缺陷,為商家提高商品和服務(wù)質(zhì)量具有重要促進(jìn)作用。隨著電子商務(wù)網(wǎng)站的發(fā)展,產(chǎn)品評(píng)論挖掘受到越來(lái)越多的關(guān)注,中文評(píng)論觀點(diǎn)挖掘的研究處于起始發(fā)展階段,在中文評(píng)論挖掘中,對(duì)評(píng)論的情感分析一般可以分為基于詞典方式和基于分類(lèi)算法兩大類(lèi)。
本文采用兩者結(jié)合的方法進(jìn)行情感傾向分析,將基于詞典方式的中間結(jié)果作為分類(lèi)器的一個(gè)特征參與到分類(lèi)中去,相當(dāng)于在基于詞典的方法上進(jìn)行二次分類(lèi),提高判定結(jié)果的準(zhǔn)確率。對(duì)于屬性詞的權(quán)重,一般是應(yīng)用在特征選擇過(guò)程中,作為情感傾向分析和屬性詞提取的結(jié)合點(diǎn),屬性詞的權(quán)重問(wèn)題在中文評(píng)論挖掘中較少作為重點(diǎn)進(jìn)行研究,大多研究認(rèn)為屬性詞對(duì)整句的情感傾向同等重要,有研究將TF或TF-IDF改進(jìn)算法作為屬性詞的權(quán)重[2]。使用TF或者TF-IDF算法作為屬性詞權(quán)重的方法忽略了屬性詞與屬性詞之間對(duì)于用戶(hù)而言也存在著不同的重要程度,一般是在整個(gè)文檔上說(shuō)明屬性詞的重要程度。
程度副詞的權(quán)重同樣是研究的重點(diǎn),在目前的研究中,大都直接使用中國(guó)知網(wǎng)發(fā)布的情感詞集bata版[3]中的副詞詞典,通過(guò)根據(jù)語(yǔ)感直接對(duì)其賦值的方式進(jìn)行[4]。此種方法忽略了如果對(duì)應(yīng)的副詞不在程度副詞表中的情況,對(duì)此較少有研究者進(jìn)行分析,在由詞匯的極性擴(kuò)展到句子的情感傾向性的過(guò)程中,容易造成漏檢,從而降低檢測(cè)的準(zhǔn)確率。對(duì)以上問(wèn)題,設(shè)計(jì)了一種基于用戶(hù)關(guān)注程度的屬性詞權(quán)重計(jì)算方法。
評(píng)論是使用網(wǎng)絡(luò)爬蟲(chóng)下載的電商網(wǎng)站的評(píng)論,在評(píng)論中,往往存在著噪聲,需要對(duì)評(píng)論初步去噪,去除明顯不屬于評(píng)論的噪聲如廣告句、不含對(duì)商品評(píng)論的句子等。
2.1 情感詞提取
消費(fèi)者在發(fā)表評(píng)論時(shí),基于自己的主觀感受以短文本形式進(jìn)行描述的反映消費(fèi)者對(duì)產(chǎn)品的主觀感受和評(píng)價(jià)的詞匯,稱(chēng)為情感詞??梢詫⑶楦性~歸納為3類(lèi):
(1)評(píng)價(jià)性的形容詞:表達(dá)消費(fèi)者主觀評(píng)價(jià)的形容性詞匯; (2)情感動(dòng)詞;
(3)網(wǎng)絡(luò)新詞表
2.2 屬性詞提取
屬性詞反映了商品不同的特性,在屬性詞上對(duì)商品有針對(duì)性分析比在所有特性詞上進(jìn)行分析更有效。因此,如何準(zhǔn)確的提取這些屬性詞,成為情感分析的重要任務(wù)之一??紤]到小概率事件對(duì)語(yǔ)料庫(kù)影響較小,濾除次數(shù)少于3次的名詞。根據(jù)中文表達(dá)的慣性,一般屬性詞的附近位置都有對(duì)應(yīng)的評(píng)價(jià)詞,用于評(píng)價(jià)屬性詞的具體特性,因此,在提取屬性詞時(shí),將附近位置存在情感詞的屬性詞提取為候選屬性。實(shí)驗(yàn)表明窗口長(zhǎng)度為5時(shí)準(zhǔn)確率較高,因此閾值選為5。
3.1 屬性詞權(quán)重設(shè)置
為了表示某個(gè)特征對(duì)整個(gè)數(shù)據(jù)集的貢獻(xiàn)程度,通常用數(shù)字來(lái)衡量其重要程度,常用的表示方式有布爾型權(quán)重、頻數(shù)型權(quán)重、信息熵、TF-IDF算法等。一般是在進(jìn)行特征選擇進(jìn)行加權(quán)時(shí)考慮。如對(duì)于評(píng)論句“相機(jī)像素很差,但是價(jià)格很好”類(lèi)型的句子,使用均一的權(quán)重衡量方式就不能正確的檢測(cè)出來(lái),判定的結(jié)果為0;本文設(shè)計(jì)的屬性方法可以判定出其極性?xún)A向值。對(duì)用戶(hù)而言,“像素”之于“相機(jī)”要比“價(jià)格”之于“相機(jī)”重要,因此判定該句極性為負(fù)。
3.2 情感詞極性計(jì)算
情感詞極性計(jì)算時(shí)采取基于極性詞典和語(yǔ)義相似度的極性計(jì)算方法。構(gòu)建的組合的極性詞典是通過(guò)知網(wǎng)的情感用詞集和NTUSD臺(tái)灣大學(xué)的極性詞典去重形成。
在情感詞極性計(jì)算時(shí),首先查找組合的極性詞典,若存在則取其極性,同時(shí)存在或不存在采用基于Hownet的語(yǔ)義相似度計(jì)算極性。詞匯的語(yǔ)義相似度計(jì)算方法采用劉群等人[4]的計(jì)算方法。通過(guò)計(jì)算待定詞與種子集的語(yǔ)義相似度,取top10的和,設(shè)定合適閾值判定詞語(yǔ)的極性。
在驗(yàn)證實(shí)驗(yàn)中發(fā)現(xiàn),若使用全部的Hownet極性詞典作為種子集,極性判定的準(zhǔn)確率明顯不如經(jīng)過(guò)精心選擇的種子集。本文在構(gòu)建種子集時(shí),參考了朱嫣嵐等人在文獻(xiàn)[5]中使用的40對(duì)基準(zhǔn)褒貶詞對(duì)作為種子集,結(jié)合商品評(píng)論信息的特點(diǎn)進(jìn)行適當(dāng)改進(jìn),形成新的種子集。
實(shí)驗(yàn)以數(shù)據(jù)集Dataset 1為例, 其中待定情感詞共計(jì)348個(gè),判定的實(shí)驗(yàn)結(jié)果如表1所示。
表1 情感詞極性計(jì)算結(jié)果
在嚴(yán)格定義的實(shí)驗(yàn)結(jié)果中,發(fā)現(xiàn)單字情感詞大約占判定錯(cuò)誤總數(shù)的1/3,如“高”、“低”、“大”、“小”等詞的極性判定,在基于詞匯粒度的情感分析方法時(shí),準(zhǔn)確率往往不高。原因在于單字情感詞必須要在實(shí)際的句子綜合考慮。
3.3 程度副詞權(quán)重設(shè)置
當(dāng)前研究一般基于知網(wǎng)2007年發(fā)布的“情感分析用詞語(yǔ)集(beta版)的中文程度級(jí)別詞語(yǔ),結(jié)合人的語(yǔ)感進(jìn)行人工賦值。其中程度級(jí)別詞語(yǔ)合計(jì)219個(gè),可分為極量級(jí)、高量級(jí)、中量級(jí)、低量級(jí)四個(gè)量級(jí),分值從大到小,依照人的語(yǔ)感進(jìn)行賦值。有一定的可行性,但過(guò)度依賴(lài)于人工建立的修飾詞詞典。
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 數(shù)據(jù)集簡(jiǎn)介
實(shí)驗(yàn)使用的Dataset1是編寫(xiě)爬蟲(chóng)從某電商網(wǎng)站爬取的關(guān)于相機(jī)的商品評(píng)論信息,經(jīng)過(guò)處理后的評(píng)論有正樣本1869條,負(fù)樣本256條。為了更好的驗(yàn)證結(jié)合屬性詞權(quán)重設(shè)置的情感傾向分析方法,在平衡數(shù)據(jù)集上Dataset 2上進(jìn)行了實(shí)驗(yàn)對(duì)比分析。數(shù)據(jù)集二Dataset2是從本地已下載評(píng)論中隨機(jī)抽取的不同領(lǐng)域商品的評(píng)價(jià)信息,各抽取正負(fù)極性的句子3016條,合計(jì)6132條。
3.4.2 屬性詞權(quán)重設(shè)置對(duì)結(jié)果的影響
為了驗(yàn)證本文提出屬性詞權(quán)重設(shè)置方法,分別在Dataset1做了對(duì)比實(shí)驗(yàn),第一組使用文獻(xiàn)[2]中采用的屬性詞權(quán)重的設(shè)計(jì)方法;第二組將全部屬性賦值為1,表明有同等的重要程度;第三組實(shí)驗(yàn)對(duì)屬性詞的權(quán)重采用本文的衡量方法進(jìn)行設(shè)置,F(xiàn)1-score結(jié)果分別是0.656,0.661,0.667,說(shuō)明本文方法有一定效果。
圖1 副詞權(quán)重改進(jìn)前后在兩個(gè)數(shù)據(jù)集上的結(jié)果對(duì)比
3.4.3 程度副詞權(quán)重設(shè)置對(duì)結(jié)果的影響
使用改進(jìn)后的屬性詞權(quán)重條件下,使用改進(jìn)后的程度副詞的權(quán)重分別在Dataset1、Dataset2上的實(shí)驗(yàn),在Dataset1 上結(jié)果從0.667提升至0.685;(見(jiàn)圖1)
而在Dataset2上使用改進(jìn)前的副詞權(quán)重,F(xiàn)1-score為0.67,使用改進(jìn)后的副詞權(quán)重F1-score為0.731,分類(lèi)結(jié)果準(zhǔn)確率提升了6%。
本文設(shè)計(jì)了一種結(jié)合屬性詞和副詞權(quán)重的情感傾向分析方法;并對(duì)當(dāng)前屬性詞權(quán)重和副詞權(quán)重的設(shè)置方法進(jìn)行了改進(jìn),在不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明改進(jìn)前后的分類(lèi)性能均有所提升。實(shí)驗(yàn)表明本文設(shè)計(jì)的兩種傾向性分析方法是有效的,但仍然存在著不足之處,如在負(fù)面評(píng)價(jià)的判定上有著準(zhǔn)確度不高的問(wèn)題缺點(diǎn),對(duì)多極性的情感分析未能在其他數(shù)據(jù)集上進(jìn)行驗(yàn)證等等問(wèn)題,都需要在下一步的研究中進(jìn)行改進(jìn)。
[1]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]. / /第三屆中文詞匯語(yǔ)義學(xué)研討會(huì)論文集,2002.
[2]朱嫣嵐,閔錦, 周雅倩等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006, 20(1):14-20.
[3]中國(guó)互聯(lián)網(wǎng)信息中心. 2013年中國(guó)網(wǎng)絡(luò)購(gòu)物市場(chǎng)研究報(bào)告[R]. 2014年4月.
[4]施聰鶯,徐朝軍,楊曉江. TFIDF算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用,2009, 29:167-170.
上接(第9 6頁(yè))知此知彼,方能百戰(zhàn)百勝。首先,一定要把網(wǎng)絡(luò)引入到旅游管理中,把每個(gè)子公司和總公司緊密相連,做到信息暢通、快捷,提高工作效率。其次,在經(jīng)營(yíng)中,用高科技手段替代人工操作,既節(jié)省了人力和財(cái)力,又提高了效能,減少了操作中的失誤,更好地為廣大游客服務(wù)。再次,旅行社的發(fā)展跟得上世界形勢(shì),就必須大力發(fā)展網(wǎng)絡(luò)營(yíng)銷(xiāo)。我國(guó)網(wǎng)絡(luò)市場(chǎng)巨大,是一個(gè)非常有潛力的市場(chǎng)。就目前世界排名來(lái)看,我國(guó)上網(wǎng)人數(shù)僅次于美國(guó),位于世界第2。
3.4 樹(shù)立旅行社良好形象,打造知名品牌
在當(dāng)代,企業(yè)文化是展現(xiàn)企業(yè)“軟實(shí)力”的重要指標(biāo),企業(yè)的特色就是靈魂。各旅行社更要視形象為生命,千方百計(jì)打造企業(yè)形象,樹(shù)品牌,提高企業(yè)知名度和信譽(yù)度。主要從以下幾方面入手:
第一,加大宣傳力度,提高旅行社的知名度。通過(guò)合適的媒體,如國(guó)內(nèi)知名報(bào)刊、雜志、廣播等宣傳旅游服務(wù)項(xiàng)目、景點(diǎn)和特色。要從游客的需求出發(fā),進(jìn)行產(chǎn)品設(shè)計(jì)和宣傳。
第二,通過(guò)創(chuàng)意活動(dòng)形式促進(jìn)宣傳,提高旅行社的美譽(yù)度?;ヂ?lián)網(wǎng)讓世界成為“地球村”,創(chuàng)意廣告越來(lái)越熱,旅行社行業(yè)的宣傳手段層出不窮,花樣繁多。
第三,增強(qiáng)旅行社員工的形象意識(shí),樹(shù)立員工的良好形象。良好的儀表總會(huì)給人留下美好的印象,也會(huì)在客觀上促進(jìn)旅行社的整體形象樹(shù)立和發(fā)展。如:邀請(qǐng)專(zhuān)業(yè)人士為企業(yè)員工設(shè)計(jì)制服,無(wú)論是明亮醒目的顏色搭配,還是每一處的細(xì)節(jié)設(shè)置無(wú)一不彰顯了該公司團(tuán)結(jié)協(xié)作、奮發(fā)向上的團(tuán)隊(duì)精神。員工的精神風(fēng)貌,反映了企業(yè)的精神風(fēng)貌,特別是一線(xiàn)員工,直接服務(wù)于游客,因此,員工的良好形象是旅行社整體形象的重要組成部分,員工對(duì)游客的服務(wù)質(zhì)量的高低,將直接影響游客對(duì)企業(yè)的印象。良好的員工形象加上良好的服務(wù),這必將給旅游企業(yè)帶來(lái)一筆無(wú)形資產(chǎn),為企業(yè)的發(fā)展提供經(jīng)濟(jì)效益。
在國(guó)民生活水平日益增長(zhǎng)的今天,我國(guó)人民開(kāi)始追求高質(zhì)量高品位的生活,這對(duì)我國(guó)的旅游業(yè)來(lái)說(shuō),無(wú)疑是迎來(lái)了它的巔峰時(shí)代。旅游企業(yè)應(yīng)抓住這一契機(jī),開(kāi)動(dòng)腦筋,運(yùn)用現(xiàn)代化管理手段,完善市場(chǎng)策略,更健康更穩(wěn)步地發(fā)展。
參考文獻(xiàn):
[1]趙鵬、李享、劉磊.旅行社與汽車(chē)俱樂(lè)部經(jīng)營(yíng)自駕車(chē)旅游的比較研究[J].旅游學(xué)刊,2008年第1期
[2]李蕾蕾.旅游目的地形象策劃[M].人民郵電出版社.北京,2008年 5月第1版
[3]毛勇.北方經(jīng)貿(mào)三峽重慶庫(kù)區(qū)國(guó)際旅游市場(chǎng)營(yíng)銷(xiāo)策略研究[J].北方經(jīng)貿(mào),2001年09期
[4]李天元.市場(chǎng)定位還是形象定位——旅游企業(yè)市場(chǎng)營(yíng)銷(xiāo)中的定位問(wèn)題[J].旅游學(xué)刊,2001年第2期
樂(lè)山職業(yè)技術(shù)學(xué)院校級(jí)科研基金(KY2016001)
王倩(1986-),女,河南商丘人,樂(lè)山職業(yè)技術(shù)學(xué)院助教,碩士,數(shù)據(jù)挖掘、壓縮成像、智能交通。