黃秋義 丁婷婷 楊 帆 浙江傳媒學(xué)院信息管理與信息系統(tǒng) 310018
?
基于商品評(píng)論信息的情感傾向性分析模型
黃秋義 丁婷婷 楊 帆 浙江傳媒學(xué)院信息管理與信息系統(tǒng) 310018
【文章摘要】
為了獲取評(píng)論信息中的客戶(hù)隱藏情感傾向信息,基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)商品評(píng)論信息進(jìn)行抓取,通過(guò)基于語(yǔ)義分解利用數(shù)學(xué)向量空間模型對(duì)信息進(jìn)行情感傾向性分析,構(gòu)建一款針對(duì)電商平臺(tái)中商品和服務(wù)評(píng)論信息的客戶(hù)意見(jiàn)挖掘以及情感傾向性分析的系統(tǒng)模型。
【關(guān)鍵詞】
網(wǎng)絡(luò)爬蟲(chóng);情感傾向性分析;商品評(píng)論;電子商務(wù)
在這個(gè)以互聯(lián)網(wǎng)為代表的新興媒體時(shí)代,電子商務(wù)在其中也迅速崛起,各大電商平臺(tái)如京東、天貓等。平臺(tái)上推出的商品類(lèi)種琳瑯滿(mǎn)目,商品數(shù)量也在層層累積,作為顧客難以抉擇品質(zhì)優(yōu)良的商品,同時(shí)作為電商企業(yè)也無(wú)法準(zhǔn)確捕捉到顧客的興趣。然而在電商交易產(chǎn)生的評(píng)論信息中,往往隱含著顧客的情感傾向。合理有效地分析這些信息,有助于電商企業(yè)及時(shí)地改善產(chǎn)品,并指定恰當(dāng)?shù)臓I(yíng)銷(xiāo)方式,優(yōu)化服務(wù)態(tài)度,從而收益用戶(hù)量。
鑒此,本文將針對(duì)京東、天貓等電子商務(wù)平臺(tái)中的商品評(píng)論信息以及其服務(wù)的態(tài)度和評(píng)價(jià)進(jìn)行情感傾向性分析,研究開(kāi)發(fā)一款針對(duì)電商平臺(tái)中商品及服務(wù)評(píng)價(jià)信息的客戶(hù)意見(jiàn)挖掘并對(duì)其進(jìn)行情感傾向性分析的程序,系統(tǒng)主要功能模塊包括評(píng)論信息采集、情感詞典管理、情感傾向性分析等功能模塊。圍繞系統(tǒng)開(kāi)發(fā),本文將對(duì)面向商品評(píng)論信息的采集技術(shù)、情感傾向性分析模型、面向手機(jī)等商品評(píng)價(jià)情感詞典構(gòu)建等相關(guān)技術(shù)進(jìn)行研究。
1.1京東、天貓等電商平臺(tái)中商品及服務(wù)評(píng)論信息的采集技術(shù)
通過(guò)網(wǎng)頁(yè)的結(jié)構(gòu)特性分析,對(duì)現(xiàn)有的網(wǎng)絡(luò)爬蟲(chóng)程序進(jìn)行合理性的調(diào)整,并加以運(yùn)用,從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿(mǎn)足系統(tǒng)的一定停止條件,從而獲得評(píng)論頁(yè)面的內(nèi)容。
1.2情感詞典構(gòu)建與評(píng)價(jià)短語(yǔ)分析
基于前期已研究過(guò)的情感詞典構(gòu)建技術(shù),構(gòu)建一個(gè)包含基礎(chǔ)情感詞的情感詞典,并對(duì)其進(jìn)行專(zhuān)有情感詞典、情感符號(hào)模塊的擴(kuò)展,從而構(gòu)建一個(gè)針對(duì)手機(jī)等商品及服務(wù)評(píng)價(jià)信息的情感詞典。
由于評(píng)價(jià)短語(yǔ)由情感詞和副詞主導(dǎo)其情感,語(yǔ)句由句子主要的短語(yǔ)以及句子整體主導(dǎo)其情感,通過(guò)情感詞的匹配,對(duì)評(píng)論短語(yǔ)和評(píng)論句子進(jìn)行傾向性分析,并得出文本的情感傾向性分析結(jié)果。
1.3基于情感分析的評(píng)論挖掘
系統(tǒng)將采集的眾多評(píng)論信息文本劃分為句子的集合作為傾向性分析的對(duì)象,并保存在數(shù)據(jù)庫(kù)中,將句子集合中的每個(gè)句子按照句式分類(lèi)并進(jìn)行切詞,抽取句子中的評(píng)價(jià)對(duì)象,依次對(duì)評(píng)價(jià)對(duì)象、短語(yǔ)、句子進(jìn)行情感分析計(jì)算并得出結(jié)果。
1.4情感分析過(guò)程
1.4.1文本特征的分類(lèi)
在中文文本中,一個(gè)詞語(yǔ)往往是包含多重意思的“集合”,多義詞在語(yǔ)言學(xué)中是重要的特征。辨別多義詞詞義并對(duì)其進(jìn)行消除歧義,是眾多情感分析和觀點(diǎn)挖掘的基本研究對(duì)象。在眾多詞匯中,依照詞性可分為名詞、動(dòng)詞、形容詞、副詞、代詞六大基本詞類(lèi),以及具有漢語(yǔ)特色的成語(yǔ)和方言文化形成的慣用詞。較之中文的語(yǔ)法特征,以“主謂賓”的句式為眾,以名詞、動(dòng)詞、形容詞、副詞的組合為首,其中“名詞+副詞+形容詞”、“副詞+形容詞”、“名詞+形容詞”在實(shí)際應(yīng)用中較為廣泛,例如“手機(jī)很好用”、“十分優(yōu)秀”、“性能好”等。
圖1 商品評(píng)論挖掘與情感傾向性分析模型
1.4.2文本預(yù)處理
首先對(duì)評(píng)論文本進(jìn)行基本的情感分析過(guò)程:
(1)對(duì)評(píng)論文本進(jìn)行分句,把長(zhǎng)文本分割成短文本形式的觀點(diǎn)句;
(2)對(duì)觀點(diǎn)句進(jìn)行切詞,并作詞性標(biāo)注;
(3)抽取文本中的評(píng)價(jià)對(duì)象和評(píng)價(jià)短語(yǔ);
1.4.3向量空間模型
利用數(shù)學(xué)里的向量空間作為基本模型框架,將文本中的每一個(gè)特征項(xiàng)與向量空間中的維度一一對(duì)應(yīng),其特征項(xiàng)的權(quán)重即就是向量空間中坐標(biāo)值,記為wij,如此就能用坐標(biāo)點(diǎn)的方式把文本的各項(xiàng)權(quán)重以“圖形化”,從而實(shí)現(xiàn)文本的數(shù)據(jù)化模型。
1.4.4量化分布結(jié)果
商品特征值以及評(píng)論傾向性的基礎(chǔ)是商品評(píng)論集的獲取,通過(guò)爬蟲(chóng)技術(shù)將一個(gè)頁(yè)面的商品評(píng)論信息集合為數(shù)集Ti,其中一共有N條評(píng)論信息,通過(guò)仿向量空間模型,Ti=(w1,i,w2,i,…,Wn,i),i=1,…,N,其中wij表示特征詞的權(quán)重,由此可推出商品評(píng)論信息集的中心向量坐標(biāo)為d(c)=(d1,i,d2,i,…,dn,i),c=1,…,K,其中djr=,r=1,…,s,表某前特征中所有評(píng)論信息中出現(xiàn)詞wj的平均權(quán)重,s表示某特征中信息評(píng)論集的數(shù)目。
通過(guò)向量空間模型對(duì)觀點(diǎn)句進(jìn)行不同情感傾向量化分布的具體步驟為:
(1)依次獲取各個(gè)評(píng)論信息集的中心向量坐標(biāo);
(2)將特征詞兩兩構(gòu)成二維平面獲得若干個(gè)權(quán)重值點(diǎn)分布圖;
(3)選取實(shí)驗(yàn)?zāi)繕?biāo)所需要的特征詞二維權(quán)重分布圖;
(4)通過(guò)離散性隨機(jī)變量算法得出對(duì)某特征和某特征的情感分布。若值越大,則表示該特征的評(píng)論信息的情感傾向?yàn)榭隙ā?/p>
商品評(píng)論挖掘與情感傾向性分析模型見(jiàn)圖,模型共分為五個(gè)部分:文本輸入、信息基本處理、詞表構(gòu)建、情感傾向性分析和結(jié)果可視化。
系統(tǒng)主要模塊包括:
(1)文本輸入模塊:自動(dòng)將所需要進(jìn)行情感傾向性分析的文本導(dǎo)入程序。使用中文自動(dòng)分詞與詞性標(biāo)注工具對(duì)文本進(jìn)行分詞和詞性標(biāo)注。
(2)信息基本處理模塊:對(duì)獲取的句子文本進(jìn)行分句、切詞、抽取評(píng)價(jià)短語(yǔ),抽取評(píng)價(jià)對(duì)象等操作。
(3)情感詞典管理模塊:對(duì)情感詞典的詞條進(jìn)行管理,包括添加、刪除、修改等
(4)情感傾向性分析模塊:通過(guò)在情感詞典中查找該詞語(yǔ),如果匹配則確定極性,如果不匹配則默認(rèn)其極性為中性。計(jì)算詞語(yǔ)極性強(qiáng)度,根據(jù)已經(jīng)確定的極性和修飾程度進(jìn)行計(jì)算。最終得出每個(gè)單句的傾向性并求和作為該文本的傾向性。
(5)分析結(jié)果輸出模塊:輸出該文本的傾向性分析結(jié)果。
將開(kāi)源的句法分析代碼導(dǎo)入Java運(yùn)行環(huán)境中,進(jìn)行評(píng)論的句法分析。將分析結(jié)果按上述的步驟進(jìn)行極性值計(jì)算,主題詞分為三類(lèi)進(jìn)行極性值累加,將結(jié)果用可視化的形式表示出來(lái)。
3.1基于爬蟲(chóng)的信息獲取
所選數(shù)據(jù)來(lái)自京東商城,利用爬蟲(chóng)采集技術(shù),對(duì)京東平臺(tái)中電子產(chǎn)品的URL的網(wǎng)頁(yè)進(jìn)行信息獲取,篩選并識(shí)別出“華為榮耀7 PLKAL10/全網(wǎng)通”手機(jī)評(píng)論信息網(wǎng)頁(yè)的URL,處理HTML的文本信息,最終抽取獲得網(wǎng)頁(yè)中顧客的評(píng)價(jià)內(nèi)容,在所有評(píng)論中隨機(jī)抓取1500條評(píng)論作為試驗(yàn)基礎(chǔ)數(shù)據(jù)。
3.2情感分析過(guò)程
(1)商品特征詞提取。基于關(guān)聯(lián)規(guī)則算法從這1500條評(píng)論信息中提取商品特征,人工剔除無(wú)用詞,最終得到的商品特征為外觀、鍵盤(pán)、觸摸屏、電池、價(jià)格、功能、靈敏度、相機(jī)、分辨率、系統(tǒng)、內(nèi)存。
(2)觀點(diǎn)句子提取與情感得分計(jì)算。本次實(shí)驗(yàn)基于“手機(jī)系統(tǒng)”這一特征進(jìn)行評(píng)論文本篩選,共提取到與系統(tǒng)特征有關(guān)的200 個(gè)觀點(diǎn)句子,并計(jì)算出其情感得分。
(3)不同情感傾向的量化分布。基于這200 個(gè)觀點(diǎn)句子的情感得分,構(gòu)建得分值得向量空間模型,選取特征詞為功能和靈敏度的二維分布圖,利用離散性隨機(jī)變量算法確定關(guān)于功能和靈敏度的情感得分,最終得到這 200個(gè)觀點(diǎn)句子的情感量化分布結(jié)果
同時(shí),對(duì)本文給出的計(jì)算情感傾向量化分布的方法進(jìn)行了驗(yàn)證
從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),中立傾向情感分布的計(jì)算準(zhǔn)確率偏低,主要原因是肯定傾向和中立傾向往往相輔相成,其觀點(diǎn)句也具有很大的相似性,即使是人工判斷都不可避免有所偏差。由此可見(jiàn)數(shù)據(jù)的區(qū)分程度對(duì)實(shí)驗(yàn)結(jié)果也有一定的影響。
事后對(duì)200條觀點(diǎn)句進(jìn)行了人工判斷實(shí)驗(yàn)驗(yàn)證,從實(shí)驗(yàn)結(jié)果分析得知顧客對(duì)于京東平臺(tái)的服務(wù)認(rèn)可度較高,但對(duì)于手機(jī)性能和外觀有較多意見(jiàn)。該結(jié)果與實(shí)驗(yàn)選取的數(shù)據(jù)文本有密切的關(guān)系,本次實(shí)驗(yàn)爬取的是京東平臺(tái)中顧客在購(gòu)買(mǎi)了手機(jī)后的評(píng)論信息文本,評(píng)論中大多是提及手機(jī)產(chǎn)品的不足之處,而對(duì)手機(jī)產(chǎn)品有認(rèn)可態(tài)度的顧客僅選用五星來(lái)評(píng)價(jià),省略了具體描述。而對(duì)服務(wù)的評(píng)論大多針對(duì)的是該購(gòu)物網(wǎng)站本身的服務(wù),比如物流,而較少涉及手機(jī)產(chǎn)品的售后服務(wù)。從結(jié)果來(lái)看,顧客對(duì)于京東平臺(tái)的物流速度廣泛比較認(rèn)可,但對(duì)于退換貨這一服務(wù),大多數(shù)認(rèn)為“處理得不及時(shí)、不主動(dòng)“。
隨著網(wǎng)絡(luò)社會(huì)化趨勢(shì)日益明顯,由用戶(hù)發(fā)布的對(duì)所購(gòu)產(chǎn)品的評(píng)論信息成為企業(yè)競(jìng)爭(zhēng)情報(bào)分析的重要數(shù)據(jù)來(lái)源。該類(lèi)信息有篇幅短小、信息密度大及表達(dá)情感明顯等特點(diǎn),傳統(tǒng)數(shù)據(jù)挖掘方法作用有限,對(duì)其進(jìn)行情感分析能取得較好的分析效果??紤]到一般情感分析方法的不足,本文采用共詞聚類(lèi)和基于句法分析的情感詞極性傳遞法進(jìn)行分析。首先,對(duì)收集的評(píng)論數(shù)據(jù)分詞處理,構(gòu)建語(yǔ)義共詞矩陣。其次,應(yīng)用分析軟件對(duì)其進(jìn)行共詞聚類(lèi),定量分析用戶(hù)關(guān)注的產(chǎn)品維度。再根據(jù)聚類(lèi)結(jié)果人工構(gòu)建分類(lèi)詞表、情感詞表和情感強(qiáng)度詞表。最后,將評(píng)論進(jìn)行句法分析,按照句法結(jié)構(gòu)進(jìn)行主題詞極性值計(jì)算,最終得到產(chǎn)品各維度情感分析的結(jié)果。本文提出的方法在一定程度上實(shí)現(xiàn)了對(duì)評(píng)論信息的處理,但還存在不足。比如,分類(lèi)詞表的構(gòu)建需人工參與,且僅從聚類(lèi)分析中提取主題詞遠(yuǎn)遠(yuǎn)不夠;網(wǎng)絡(luò)上評(píng)論語(yǔ)句的用詞和結(jié)構(gòu)不規(guī)范,中文表達(dá)方式較含蓄,文中總結(jié)的句子結(jié)構(gòu)特征不完全,主題詞極性值計(jì)算規(guī)則有待完善。
【參考文獻(xiàn)】
[1]楊玉珍.基于Web評(píng)論信息的傾向性分析關(guān)鍵技術(shù)研究[D].山東,山東師范大學(xué)博士論文,2014.
[2]唐曉波.基于情感分析的評(píng)論挖掘模型研究[J].中文信息學(xué)報(bào).2013.36(7):100-105.
[3]王祖輝,姜維,李一軍.在線(xiàn)評(píng)論情感分析中固定搭配特征提取方法研究[J].管理工程學(xué)報(bào).2014.28(4)∶180-186.
[4]余文喆.電子商務(wù)中的商品推薦系統(tǒng)[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版).2013.(3)∶46-53.
[5]龐海杰.面向文本情感分析的商品評(píng)價(jià)信息檢測(cè)[J].計(jì)算機(jī)應(yīng)用.2012.32(7)∶2038-2040.
[6]周民.基于商品特征的商品評(píng)論信息挖掘方法[J].計(jì)算機(jī)與現(xiàn)代化.2014(6)∶98-105
黃秋義,女,本科,信息管理與信息系統(tǒng)專(zhuān)業(yè);
丁婷婷,女,本科,信息管理與信息系統(tǒng)專(zhuān)業(yè);
楊帆,女,實(shí)驗(yàn)師,碩士研究生,研究方向:數(shù)據(jù)挖掘。
基金項(xiàng)目:浙江傳媒學(xué)院創(chuàng)新基金立項(xiàng)項(xiàng)目。
【作者簡(jiǎn)介】