王 偉,王洪偉
(1. 華僑大學(xué)工商管理學(xué)院,泉州 362021;2. 同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上海 200092)
?
面向競爭力的特征比較網(wǎng)絡(luò):情感分析方法
王 偉1, 2,王洪偉2*
(1. 華僑大學(xué)工商管理學(xué)院,泉州 362021;2. 同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上海 200092)
比較觀點(diǎn)廣泛存在于在線評論之中,這些比較觀點(diǎn)是用戶表達(dá)情感的常用方式,也是產(chǎn)品競爭力的重要表現(xiàn).依據(jù)在線評論的文本信息,結(jié)合文本挖掘和情感分析技術(shù),提取在線評論中特征級的“比較觀點(diǎn)對”.利用特征比較觀點(diǎn),分別構(gòu)建產(chǎn)品特征的單邊有向、雙邊有向以及多邊有向比較網(wǎng)絡(luò),并根據(jù)情感強(qiáng)度確定網(wǎng)絡(luò)邊的權(quán)重.借助成熟的網(wǎng)絡(luò)分析算法(PageRank和HITS),對特征比較網(wǎng)絡(luò)進(jìn)行計(jì)算.產(chǎn)品特征比較網(wǎng)絡(luò)能夠識別產(chǎn)品的競爭優(yōu)勢,也能分析用戶對每個(gè)特征的關(guān)注度,并量化評價(jià)得分.實(shí)驗(yàn)發(fā)現(xiàn),特征比較網(wǎng)絡(luò)與銷售排名顯著相關(guān),因而有助于銷量的預(yù)測.
競爭力;比較網(wǎng)絡(luò);在線評論;情感分析;產(chǎn)品特征;網(wǎng)絡(luò)分析
比較是人們認(rèn)識事物的基本方法.將多個(gè)事物加以對照,可以發(fā)現(xiàn)它們在某些方面的相似或差異及其原因.尤其在商業(yè)領(lǐng)域,常言“不怕不識貨,就怕貨比貨”,比較更是驗(yàn)證商品競爭力的重要手段.消費(fèi)者認(rèn)識一個(gè)產(chǎn)品常借助于與其他產(chǎn)品比較來實(shí)現(xiàn),因?yàn)橹挥斜容^鑒別,才能對產(chǎn)品的質(zhì)量和性能有更加深入的認(rèn)識.對于商家來說,通過比較能夠體現(xiàn)出與其他產(chǎn)品的競爭優(yōu)勢和不足,為市場營銷策略以及產(chǎn)品改進(jìn)提供依據(jù).
近年來,社會(huì)化媒體日益普及,為消費(fèi)者發(fā)布自己對于產(chǎn)品的觀點(diǎn)和體驗(yàn)提供了前所未有的平臺,其中相當(dāng)一部分觀點(diǎn)是以比較的形式表達(dá)的,這為比較信息的獲取提供了便利的渠道.例如,圖1顯示了中文評論中的特征級比較觀點(diǎn),該評論比較了不同產(chǎn)品的價(jià)格、口碑以及防水性能等.類似的,圖2展示了亞馬遜網(wǎng)站上的一條典型的英文評論,該評論中比較了T4i的圖像分辨率比20D高;G1X的體積比T4i?。籘4i的快門比G1X快等.
圖1 中文在線評論中的產(chǎn)品特征比較
Fig. 1 Feature-level comparison in Chinese online review
圖2 英文在線評論中的產(chǎn)品特征比較
目前,從在線評論中提取比較信息的研究較少,尤其是細(xì)粒度的基于特征級的比較信息研究還未有系統(tǒng)性的解決方法.已有研究主要是以量化指標(biāo)作為分析依據(jù),例如總體評分、有用性投票等[1-4].但是,總體評分難以度量文本中隱含的多維特征情感信息.因此,針對產(chǎn)品特征級的比較信息,進(jìn)行細(xì)粒度情感分析,更有助于評論價(jià)值的挖掘.本文嘗試識別特征級比較觀點(diǎn),并采用網(wǎng)絡(luò)理論進(jìn)行分析,研究成果將有助于商家識別產(chǎn)品競爭力,以及有助于消費(fèi)者做出更為合理的購買決策.本文的貢獻(xiàn)如下:1)針對海量在線評論,提出識別特征級比較觀點(diǎn)的方法;2)根據(jù)特征級比較觀點(diǎn),構(gòu)建特征比較網(wǎng)絡(luò),并應(yīng)用網(wǎng)絡(luò)分析方法,對特征比較網(wǎng)絡(luò)進(jìn)行計(jì)算;3)提出基于特征比較網(wǎng)絡(luò)的實(shí)際應(yīng)用:可視化產(chǎn)品優(yōu)劣,顯示產(chǎn)品競爭優(yōu)勢,便于潛在消費(fèi)者對產(chǎn)品進(jìn)行比較;同時(shí),與同類產(chǎn)品對比的直觀結(jié)果,有益于企業(yè)管理者在產(chǎn)品改進(jìn)、市場營銷、個(gè)性化廣告等領(lǐng)域提供輔助決策.
1.1 在線評論的特征提取和觀點(diǎn)識別
在線評論中往往會(huì)對產(chǎn)品的各種特征進(jìn)行評價(jià),學(xué)者們就如何識別評論文本中的產(chǎn)品特征有了深入的研究.一般有以下幾類方法:基于詞性統(tǒng)計(jì)的方法、基于語法結(jié)構(gòu)的方法、基于語言形態(tài)學(xué)的方法等[5].最樸素的方法是統(tǒng)計(jì)語料中頻繁出現(xiàn)的名詞或其組合,頻繁共現(xiàn)的詞代表了對術(shù)語的規(guī)則描述并以此為模式識別特征[5].基于規(guī)則的特征挖掘算法[6-7]根據(jù)構(gòu)成句子的詞匯規(guī)則,提取類似形容詞修飾名詞的句法結(jié)構(gòu),被修飾的名詞作為候選產(chǎn)品特征,而形容詞作為特征觀點(diǎn).基于規(guī)則的算法忽視了語言的使用習(xí)慣問題,因此有研究在此基礎(chǔ)上提出了具有語法格式的關(guān)聯(lián)規(guī)則挖掘算法[8].一般通過語料訓(xùn)練得到句子模型的特征長度、概率上下限和闕值等用于特征觀點(diǎn)識別的模式[9].機(jī)器學(xué)習(xí)算法首先進(jìn)行分詞和詞性標(biāo)注,然后人工標(biāo)注部分語料作為訓(xùn)練集,對模型訓(xùn)練得到模型參數(shù),最后在測試集上測試.比較典型的算法有:隱馬爾可夫(hidden Markov model,HMM)模型[10]、條件隨機(jī)場(conditional random fields,CRFs)模型[11]、以及支持向量機(jī)(support vector machine,SVM)模型[12].在線評論的特征項(xiàng)會(huì)影響分類結(jié)果,研究發(fā)現(xiàn),不同的語料對于語種、寫作風(fēng)格、文體、句法和內(nèi)容區(qū)分度上存在敏感度差異[13].
產(chǎn)品特征提取往往和情感分析聯(lián)系在一起,識別某一具體特征的情感傾向[14],處理后的結(jié)果是“特征-觀點(diǎn)對”形式.對于不同類別的產(chǎn)品,特征提取的算法也不盡相同,例如酒店評論中會(huì)有設(shè)施、環(huán)境等特征,這顯然與電子產(chǎn)品的特征不一樣,因而需要專門提取不同領(lǐng)域的特征項(xiàng)[15-16].產(chǎn)品特征提取會(huì)出現(xiàn)高維特征項(xiàng),高維特征項(xiàng)本身不影響特征抽取的準(zhǔn)確度,但是會(huì)對特征的計(jì)算產(chǎn)生較大偏差.例如:對于產(chǎn)品特征“顏色”和“色彩”,二者實(shí)際上描述的是同一特征,需要合并.一些研究提出了不同的特征項(xiàng)降維方法,如最大熵模型降維[17]、多階段降維[18]、詞語相似度降維[19-20]以及混合降維方法[21].
1.2 細(xì)粒度情感分析研究
情感分析(sentiment analysis)也稱意見挖掘(opinion mining),是利用文本挖掘技術(shù), 對在線評論進(jìn)行語義分析, 旨在識別用戶的情感趨向是“高興”還是“傷悲”, 或判斷用戶的觀點(diǎn)是“贊同”還是“反對”[22].情感分析涉及多種技術(shù),例如自然語言處理、機(jī)器學(xué)習(xí)、信息抽取等.因此情感分析涵蓋多個(gè)研究任務(wù),例如文本的主客觀檢測[23];不同粒度的情感分析[9,24];產(chǎn)品“特征-觀點(diǎn)對”提取等[25-26].
從分析粒度來看,情感分析包括粗粒度和細(xì)粒度兩種分析方法.粗粒度分析是對文本的整體情感極性進(jìn)行判斷,包含基于模型的方法[27]、無監(jiān)督[28-29]、半監(jiān)督[30]以及監(jiān)督機(jī)器學(xué)習(xí)方法[21,32].細(xì)粒度分析是對特征觀點(diǎn)的詞語級的情感極性和強(qiáng)度分析[33],通常步驟是:首先計(jì)算詞典中詞語的原子極性, 并根據(jù)該原子極性計(jì)算詞語之間的相關(guān)性得出每個(gè)評價(jià)詞的情感, 再綜合詞語的情感得到句子的情感極性和強(qiáng)度, 最后根據(jù)句子情感計(jì)算文本情感[34].從技術(shù)方法來看,有兩種方向:一種是基于語義分析[35-36],另一種是基于機(jī)器學(xué)習(xí)[37-38].而從應(yīng)用上看,情感分析主要應(yīng)用于評論效用分析[39-41]、金融市場輔助決策[42-43]以及社會(huì)輿情監(jiān)督[44-45]等.
極性相同的詞匯所表達(dá)的情感強(qiáng)度可能不同,例如“好”和“優(yōu)秀”,情感極性都是正面,但是后者比前者的強(qiáng)度大得多.已有研究專門探討了詞語的情感強(qiáng)度問題.值得指出的是SentiStrength情感強(qiáng)度識別系統(tǒng)[46],該系統(tǒng)先識別非標(biāo)準(zhǔn)格式文本中可能的情感詞,然后使用SVM進(jìn)行情感極性分類和強(qiáng)度檢測,在社會(huì)化文本中表現(xiàn)優(yōu)異.此外,文本情感傾向也受到社會(huì)因素[47]以及句法結(jié)構(gòu)的影響[48].
1.3 面向在線評論的比較觀點(diǎn)識別
絕大多數(shù)研究忽略了評論中的比較觀點(diǎn).事實(shí)上,人們在交流或者評論時(shí),常常采取比較方法來凸顯自己的觀點(diǎn),因此識別評論文本中的比較信息,能夠真實(shí)地還原評論者的意圖,比較信息能夠體現(xiàn)出評論中細(xì)微的觀點(diǎn)差別.
比較觀點(diǎn)識別辦法是構(gòu)建一套詞語序列規(guī)則,來作為比較觀點(diǎn)表達(dá)方式的匹配模版.然后依次掃描評論文本中的句子,一旦出現(xiàn)與序列規(guī)則匹配的句子,就加入候選比較句子.通過SVM或樸素貝葉斯分類器對候選比較句進(jìn)行識別,提取比較關(guān)系中的比較實(shí)體和特征,最后測定觀點(diǎn)強(qiáng)度[49].但是該模式面臨兩個(gè)問題:1)同一句子可能既滿足比較句子模式又滿足非比較句子模式,該算法很難處理這類問題;2)在線評論的文本格式相當(dāng)不規(guī)范,甚至不符合語法標(biāo)準(zhǔn),對這類自由格式文本的識別,該方法效果較差.典型的改進(jìn)算法有CRFs算法[50]等.
有學(xué)者提出了一種簡單但實(shí)用的方法:先識別領(lǐng)域內(nèi)所有產(chǎn)品名稱,構(gòu)建產(chǎn)品名稱列表.然后掃描評論,如果在產(chǎn)品p1的評論中出現(xiàn)了產(chǎn)品p2的名稱,就認(rèn)為存在p1與p2的比較關(guān)系.經(jīng)過一輪完整的掃描,就可以完成所有產(chǎn)品之間的比較信息識別[51].該方法可以快速識別產(chǎn)品間的比較觀點(diǎn).但遺憾的是,該研究只是產(chǎn)品級的比較,而沒有深入到產(chǎn)品特征級的比較關(guān)系識別.
在應(yīng)用方面,已有研究把評論中的比較信息應(yīng)用于市場結(jié)構(gòu)識別,采用文本挖掘和語義網(wǎng)絡(luò)工具,模擬構(gòu)建了轎車市場和保健品市場的市場結(jié)構(gòu).實(shí)驗(yàn)證明,同傳統(tǒng)的市場銷售和調(diào)研數(shù)據(jù)分析相比,通過在線評論比較信息構(gòu)建的市場結(jié)構(gòu)更有效[52].
1.4 文獻(xiàn)評述及問題定義
為了突顯自己的觀點(diǎn),用戶發(fā)表評論時(shí),常采用比較的方式來表達(dá).但是,現(xiàn)有情感分析大多假設(shè)被評論的對象是某一個(gè)特定的產(chǎn)品,側(cè)重于該產(chǎn)品的特征與觀點(diǎn)提取、情感分類等,忽略了評論中可能包含的多個(gè)產(chǎn)品之間的比較信息.更進(jìn)一步,在線評論常常包含不同產(chǎn)品就某些特征上的比較觀點(diǎn),細(xì)粒度的識別這些關(guān)于產(chǎn)品特征的比較觀點(diǎn),有助于深度挖掘評論的商業(yè)價(jià)值.已有研究中,產(chǎn)品比較網(wǎng)絡(luò)[51]與本文最為相近,該比較網(wǎng)絡(luò)是面向產(chǎn)品級的,難以提取針對產(chǎn)品特征的比較觀點(diǎn).針對現(xiàn)有文獻(xiàn)的不足,本文將利用情感分析技術(shù),結(jié)合網(wǎng)絡(luò)分析方法,構(gòu)建產(chǎn)品特征比較信息的識別模型.
綜合文獻(xiàn)回顧,提出以下研究問題:
1)比較觀點(diǎn)對的識別;
2)根據(jù)比較觀點(diǎn)對構(gòu)建比較網(wǎng)絡(luò)并確定邊的權(quán)重;
3)依據(jù)節(jié)點(diǎn)和邊的重要度指標(biāo),驗(yàn)證特征比較網(wǎng)絡(luò)的有用性.
2.1 模型概述
分析框架如圖3所示,分5步:1)數(shù)據(jù)收集與預(yù)處理;2)特征比較觀點(diǎn)的抽取;3)特征比較網(wǎng)絡(luò)的構(gòu)建以及權(quán)重設(shè)置;4)依據(jù)網(wǎng)絡(luò)理論,對特征比較網(wǎng)絡(luò)進(jìn)行權(quán)威度計(jì)算;5)特征比較網(wǎng)絡(luò)的驗(yàn)證.
圖3 產(chǎn)品特征比較網(wǎng)絡(luò)的總體結(jié)構(gòu)
Fig. 3 Overall structure of feature-level comparative network
2.2 特征比較觀點(diǎn)的表示
在線評論包含的比較觀點(diǎn)有2種形式:
1)綜合比較 例如“總體來說,X230比X220的表現(xiàn)出色”;
2)特征比較 例如“但是,X230的鍵盤舒適性比X220差多了”.
第1句是綜合比較,沒有涉及產(chǎn)品特征;第2句通過與另一款產(chǎn)品(X220)的比較,表明特征“鍵盤”比“X220”差.其中又涉及比較強(qiáng)度,例如 “差多了”就是比較強(qiáng)度.
將比較信息視為網(wǎng)絡(luò)G=〈V,E〉,其中V為產(chǎn)品集,E為產(chǎn)品比較關(guān)系集.給定網(wǎng)絡(luò)G=〈V,E〉,p1,p2為被比較的2個(gè)產(chǎn)品,p1∈V, p2∈V. fi為產(chǎn)品特征,f1∈F,F為特征集.產(chǎn)品特征比較觀點(diǎn)表示為〈fi,p1,p2,C〉,〈fi,p1,p2,C〉∈E,稱其為產(chǎn)品的比較觀點(diǎn)對,指在p1的評論中出現(xiàn)與p2就特征fi方面的比較,C代表特征比較的上下文.
針對每一個(gè)特征,將比較信息表示為特征比較數(shù)組ti,ti=〈p1,p2,cScore〉,其中i=1,2,…,m,m為被比較特征數(shù)量;cScore表示該特征比較強(qiáng)度值,可由情感分類器計(jì)算得到,cScore正負(fù)均可,取決于p1和p2的情感比較方向.cScore> 0表示p1比p2的優(yōu)勢大,cScore< 0表示p1比p2的優(yōu)勢小.
如果出現(xiàn)3個(gè)或3個(gè)以上的產(chǎn)品特征比較,則分別抽取兩兩比較結(jié)果.
2.3 產(chǎn)品特征比較網(wǎng)絡(luò)的構(gòu)建方法
根據(jù)2.2節(jié)提取的特征比較觀點(diǎn),可以構(gòu)建特征比較網(wǎng)絡(luò).假設(shè)提取出n個(gè)特征比較觀點(diǎn)對,每個(gè)觀點(diǎn)對都涉及2個(gè)產(chǎn)品pi,pj的比較,根據(jù)特征比較數(shù)組轉(zhuǎn)換為有向邊的方法[51],考慮如下3種策略.
3)多邊有向圖.基本思路是有多少個(gè)指向關(guān)系,就創(chuàng)建多少條邊,不合并任何邊.當(dāng){cScorei}>0時(shí),新建一條從節(jié)點(diǎn)p2到p1的邊;當(dāng){cScorei}<0時(shí),新建一條從節(jié)點(diǎn)p1到p2的邊;當(dāng){cScorei}=0時(shí),不存在節(jié)點(diǎn)p1與p2之間的邊.也就是,有向邊的條數(shù)等于非零特征比較觀點(diǎn)對的數(shù)量.
2.4 產(chǎn)品特征比較網(wǎng)絡(luò)邊權(quán)重計(jì)算方法
2.3節(jié)定義的特征比較有向圖沒有權(quán)重,或者說,所有邊的權(quán)重均相等.但是在產(chǎn)品特征的比較中,文本信息體現(xiàn)出來的情感強(qiáng)度是不同的,考慮情感強(qiáng)度的有向圖更能體現(xiàn)文字評論中的細(xì)微情感.根據(jù)比較網(wǎng)絡(luò)不同的創(chuàng)建方法,分別采用以下有向邊權(quán)重計(jì)算策略.
1)單邊有向圖邊的權(quán)重計(jì)算.所有特征比較數(shù)組聚合成1條有向邊,其權(quán)重由所有特征比較數(shù)組的情感強(qiáng)度均值(即cScore的均值)決定,如式(1)所示
(1)
2)雙邊有向圖邊的權(quán)重計(jì)算.雙邊有向圖分為類型Ⅰ和類型Ⅱ,如式(2)和式(3)所示
(2)
(3)
式(2)表示所有情感極性為正的特征比較數(shù)組聚合成1條邊,其權(quán)重為該邊的情感強(qiáng)度平均值;式(3)表示所有情感極性為負(fù)的特征比較數(shù)組聚合成1條邊,其權(quán)重為該邊的情感強(qiáng)度絕對平均值.值得注意的是:雙邊有向圖中,節(jié)點(diǎn)p1和p2之間可能存在1條或2條有向邊(類型Ⅰ,類型Ⅱ,或者二者皆有),因此,可能只需計(jì)算式(2)和式(3)的其中1個(gè),也可能二者都需要計(jì)算.
3)多邊有向圖邊的權(quán)重計(jì)算.多邊有向圖不存在合并邊,節(jié)點(diǎn)p1與p2之間如果存在n次比較關(guān)系,就具有n條邊,且每條邊的權(quán)重由比較觀點(diǎn)的情感強(qiáng)度決定.所以每條邊的權(quán)重可以由式(4)計(jì)算
w=|cScorei|
(4)
特征比較網(wǎng)絡(luò)的構(gòu)建及其邊權(quán)重的計(jì)算實(shí)例如下.給定產(chǎn)品p1=“Lenovo Thinkpad X220”和p2=“l(fā)enovo Thinkpad X230”.通過產(chǎn)品特征提取,得到3個(gè)特征比較對:“鍵盤”、“CPU”和“電池”.并得到表1所示的特征比較數(shù)組.
表1 特征比較數(shù)組例子
表2 產(chǎn)品特征比較網(wǎng)絡(luò)的實(shí)例
附表2
產(chǎn)品特征網(wǎng)絡(luò)類型比較關(guān)系邊權(quán)重圖例處理器(CPU)單邊有向圖鏈接1:1+2+(-1)+(-1)>0,從p2到p1鏈接1:權(quán)重=|1+2+(-1)+(-1)|/5=0.20雙邊有向圖鏈接1:1+2>0,從p2到p1鏈接2:-1+(-1)<0,從p1到p2鏈接1:權(quán)重=|1+2|/2=1.5鏈接2:權(quán)重=|-1-1|/2=1多邊有向圖鏈接1:1>0,從p2到p1鏈接2:2>0,從p2到p1鏈接3:-1<0,從p1到p2鏈接4:-1<0,從p1到p2鏈接1:權(quán)重=|1|=1鏈接2:權(quán)重=|2|=2鏈接3:權(quán)重=|-1|=1鏈接4:權(quán)重=|-1|=1電池單邊有向圖鏈接1:(-2)+(-2)+3+2>0,從p2到p1鏈接1:權(quán)重=|(-2)+(-2)+3+2|/5=2.0雙邊有向圖鏈接1:-2+(-2)<0,從p1到p2鏈接2:3+2>0,從p2到p1鏈接1:權(quán)重=|(-2)+(-2)|/2=2鏈接2:權(quán)重=|3+2|/2=2.5多邊有向圖鏈接1:-2<0,從p1到p2鏈接2:-2<0,從p1到p2鏈接3:3>0,從p2到p1鏈接4:2>0,從p2到p1鏈接1:權(quán)重=|-2|=2鏈接2:權(quán)重=|-2|=2鏈接3:權(quán)重=|3|=3鏈接4:權(quán)重=|2|=2
3.1 數(shù)據(jù)采集和預(yù)處理
特征比較觀點(diǎn)廣泛存在于中英文評論中,鑒于亞馬遜網(wǎng)站(www.amazon.com)的在線評論比較規(guī)范和專業(yè),提供了豐富的打分、有用性投票等功能,而且英文語料有深入的研究基礎(chǔ),因此本文實(shí)驗(yàn)語料來自亞馬遜.本文編寫了在線評論爬蟲程序,抓取數(shù)碼相機(jī)這一類別的所有在線評論.抓取的信息包括產(chǎn)品名稱、總體評分、每條評論的文字信息、評論者信息等.亞馬遜網(wǎng)站中,會(huì)出現(xiàn)不同顏色不同型號的商品,雖然使用不同的產(chǎn)品ID,但是產(chǎn)品為同一款,評論列表也是相同的.這種情況下,把這些產(chǎn)品進(jìn)行合并.
亞馬遜網(wǎng)站允許買家對其他評論給予評論或者打分,把這部分評論稱為子評論.之前研究都沒有關(guān)注子評論,但子評論的文字信息蘊(yùn)含了豐富的產(chǎn)品特征比較信息,為此本文把子評論也納入考慮范疇.
共計(jì)抓取數(shù)碼相機(jī)的9 485個(gè)產(chǎn)品,經(jīng)過以下處理,得到最終的實(shí)驗(yàn)樣本:1)數(shù)碼相機(jī)類別中包含大量數(shù)碼相機(jī)的周邊產(chǎn)品:三腳架、相機(jī)包、肩帶、獨(dú)立鏡頭、測距儀、測光儀等,需要過濾這些周邊產(chǎn)品;2)亞馬遜網(wǎng)站中,會(huì)出現(xiàn)同一款產(chǎn)品使用不同的產(chǎn)品ID(因?yàn)轭伾?、型號或者搭配不?,但是評論是相同的,這類產(chǎn)品需要合并;3)刪除沒有購買記錄的產(chǎn)品,同時(shí)刪除沒有評論的產(chǎn)品.經(jīng)過以上處理,得到1 861個(gè)產(chǎn)品;還抓取對這1 861個(gè)產(chǎn)品的155 927條一級評論,平均每個(gè)產(chǎn)品獲得83.79條評論;然后抓取完整的94 494條子評論信息,平均每條評論獲得0.61條子評論.時(shí)間跨度為1999-06-30至2013-06-09.所有評論來自133 381個(gè)用戶,平均每個(gè)用戶發(fā)表1.88條評論.
3.2 產(chǎn)品特征比較觀點(diǎn)的提取方法
亞馬遜網(wǎng)站上的產(chǎn)品標(biāo)題具有明確的層次關(guān)系,為此,構(gòu)建了從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的樹結(jié)構(gòu)來指示產(chǎn)品.根節(jié)點(diǎn)是品牌名稱,2級節(jié)點(diǎn)是系列名稱,3級節(jié)點(diǎn)是型號名稱,樹葉是產(chǎn)品實(shí)體名稱.任何產(chǎn)品只要按照從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的順序查詢,總能找到唯一的樹葉與之對應(yīng),如圖4所示.
產(chǎn)品標(biāo)題樹狀結(jié)構(gòu)圖的生成步驟如下:1)提取相機(jī)品牌,根據(jù)亞馬遜網(wǎng)站上的品牌列表,構(gòu)造品牌層;2)數(shù)碼相機(jī)的名稱通常是“字母+數(shù)字”的組合形式(例如:D70,L310),根據(jù)此規(guī)則識別產(chǎn)品,構(gòu)造產(chǎn)品層;3)根據(jù)品牌和產(chǎn)品名稱,抽取系列層和型號層;4)對剩余部分不能自動(dòng)識別的產(chǎn)品進(jìn)行人工識別和匹配.
圖4 產(chǎn)品標(biāo)題樹狀層次結(jié)構(gòu)圖
在產(chǎn)品標(biāo)題中提取第1個(gè)“字母+數(shù)字”組合作為候選產(chǎn)品名稱.為確保數(shù)據(jù)的準(zhǔn)確,還根據(jù)數(shù)碼相機(jī)品牌列表進(jìn)行核對.亞馬遜網(wǎng)站共有126個(gè)數(shù)碼相機(jī)品牌,同時(shí)采集這126個(gè)品牌,與生成的產(chǎn)品樹根節(jié)點(diǎn)進(jìn)行對比,修正錯(cuò)誤數(shù)據(jù).另外一項(xiàng)需要人工修正的是拼寫錯(cuò)誤,例如把“canon”誤寫為“cannon”.最后收集的數(shù)據(jù)包括29個(gè)品牌,75個(gè)系列,51個(gè)型號,1 861個(gè)產(chǎn)品.
關(guān)于數(shù)碼相機(jī)的產(chǎn)品特征,采用如下的方法提取.首先對頻繁產(chǎn)品特征進(jìn)行自動(dòng)提取,結(jié)合產(chǎn)品使用手冊,并邀請領(lǐng)域?qū)<疫M(jìn)行修正,構(gòu)建了數(shù)碼相機(jī)常見的特征列表(表3).還分別統(tǒng)計(jì)了每個(gè)特征在評論中出現(xiàn)的次數(shù)和比例,比例可以看作是用戶對該特征的重視程度,即客戶越重視某個(gè)特征,那么在評論中提及的次數(shù)會(huì)越多.
表3 數(shù)碼相機(jī)常見的產(chǎn)品特征
特征比較觀點(diǎn)的抽取,采用以下方法進(jìn)行:1)根據(jù)生成的產(chǎn)品樹(見圖4),對在線評論進(jìn)行搜索,如果含有其他產(chǎn)品名稱,則加入候選比較觀點(diǎn)集;2)根據(jù)表3中的產(chǎn)品特征對候選比較觀點(diǎn)集進(jìn)行匹配,如果成功則意味著存在一個(gè)候選特征級比較觀點(diǎn);3)抽取特征比較觀點(diǎn),構(gòu)造
采用SentiStrength計(jì)算特征比較情感值[46].把提取出的特征比較句輸入SentiStrength進(jìn)行查詢,得到情感強(qiáng)度,即fi={p1,p2,cScore}中的cScore.值得注意的是,進(jìn)行查詢時(shí),使用關(guān)鍵詞檢測方式,換句話說,當(dāng)一句話含有2個(gè)以上特征詞時(shí),只需指定1個(gè)特證詞,就可以計(jì)算指定特證詞的情感強(qiáng)度,以避免當(dāng)一句話中存在多個(gè)比較特征時(shí)計(jì)算不準(zhǔn)確的問題.
由于用戶評分習(xí)慣的差異,存在一些極端的評價(jià),對所有cScore值均進(jìn)行了標(biāo)準(zhǔn)化操作,采用下式進(jìn)行標(biāo)準(zhǔn)化
(5)
其中cScore*表示原始情感值;min表示初始情感值的下限;max表示初始情感值的上限.標(biāo)準(zhǔn)化后的所有結(jié)果在區(qū)間[-5,5]之間.標(biāo)準(zhǔn)化后的數(shù)據(jù)呈現(xiàn)了較好的正態(tài)分布,圖5展示了標(biāo)準(zhǔn)化后的特征比較數(shù)組分布圖.可以看到標(biāo)準(zhǔn)化后的數(shù)據(jù)較多集中在中心位置,而對邊沿?cái)?shù)據(jù)進(jìn)行了有效控制.
圖5 標(biāo)準(zhǔn)化后的特征比較數(shù)組統(tǒng)計(jì)圖
借助PageRank算法和HITS定量計(jì)算圖形中每個(gè)節(jié)點(diǎn)的權(quán)重信息.采用R軟件的igraph包實(shí)現(xiàn)PageRank和HITS的計(jì)算.
4.1 單變量相關(guān)性分析
亞馬遜網(wǎng)站不公布銷量數(shù)據(jù),但會(huì)公布銷售排名(SalesRank),因此采納前人的研究方法[51,53-54],以SalesRank作為銷售量近似的度量指標(biāo).SalesRank服從指數(shù)分布,因此,經(jīng)過指數(shù)轉(zhuǎn)化,商品需求量與SalesRank呈現(xiàn)出近似的線性關(guān)系,即
ln(Demand)=α-βln(SalesRank)
(6)
其中α是常量,表示截距;β是相關(guān)系數(shù).由于SalesRank的等級特征,取值越小,則銷售量越大,反之亦然.如果相關(guān)系數(shù)為負(fù),表明自變量對銷量有正向影響;反之,表明有抑制作用.表4展示了不同自變量對因變量(SalesRank)的相關(guān)系數(shù).
從表4看出,在特征級比較網(wǎng)絡(luò)中,PageRank和HITS的權(quán)威度都與產(chǎn)品銷售排名SalesRank呈現(xiàn)出較強(qiáng)的負(fù)相關(guān)關(guān)系,spearman系數(shù)從-0.085到-0.167(均顯著相關(guān)).PageRank比HITS權(quán)威度相關(guān)性更高,這可能是由于HITS算法需要同時(shí)兼顧內(nèi)容權(quán)威度和鏈接權(quán)威度,而PageRank只是針對節(jié)點(diǎn)的計(jì)算.有向比較網(wǎng)絡(luò)圖的PageRank比作為基準(zhǔn)的總體評價(jià)星級相關(guān)性系數(shù)高,評價(jià)星級與SalesRank的系數(shù)為-0.131.作為直接反映網(wǎng)絡(luò)口碑效應(yīng)的評論數(shù)量,其相關(guān)系數(shù)在所有自變量中是最高的(-0.526),表明評論數(shù)量與銷量具有很強(qiáng)的相關(guān)性.本文還考慮包含子評論的比較句數(shù)量和特征比較數(shù)量,這是前人沒有嘗試過的.可以看到,包含子評論的比較句數(shù)量和特征比較數(shù)量比不包含子評論的相關(guān)系數(shù)更高,Spearman系數(shù)分別從-0.469,-0.443分別上升到-0.496,-0.470,這表明模型中包含子評論的效果會(huì)更好.無向圖也能很好的擬合銷售數(shù)據(jù),這表明,除了網(wǎng)絡(luò)口碑,特征比較網(wǎng)絡(luò)的中心度也能對產(chǎn)品銷售形成潛在影響.
實(shí)驗(yàn)顯示多邊有向圖具有更好的優(yōu)勢.但是,不能認(rèn)為多邊有向圖在所有的特征比較網(wǎng)絡(luò)中均能表現(xiàn)更好,還需要更多實(shí)驗(yàn)驗(yàn)證.表4中的相關(guān)系數(shù)均遵循以下排序:無權(quán)重PageRank>有權(quán)重PageRank>無權(quán)重HITS權(quán)威度>有權(quán)重HITS權(quán)威度.這可以從兩方面解釋:1)PageRank和HITS各自適應(yīng)不同環(huán)境:HITS算法需要同時(shí)兼顧內(nèi)容權(quán)威度和鏈接權(quán)威度,而PageRank只是針對節(jié)點(diǎn)的計(jì)算.顯然,在本文數(shù)據(jù)下,PageRank算法(只考慮節(jié)點(diǎn))比兼顧內(nèi)容和鏈接的算法更加有效.這可能是由于文本中比較觀點(diǎn)的特征造成的,HITS算法的適應(yīng)條件是那些只有鏈接而沒有實(shí)質(zhì)內(nèi)容的網(wǎng)站(例如:網(wǎng)址導(dǎo)航),這類網(wǎng)站本身沒有任何內(nèi)容,網(wǎng)站所有的頁面均指向外鏈,而在線評論文本中不存在這種沒有實(shí)質(zhì)內(nèi)容的比較關(guān)系,特征比較觀點(diǎn)
表4 銷售排名與不同變量的相關(guān)系數(shù)
注:***表示p<0.01.
4.2 有用性評估
由于每個(gè)產(chǎn)品在不同的產(chǎn)品特征上可能進(jìn)行多次比較,分別采用以下2種方法進(jìn)行產(chǎn)品特征比較網(wǎng)絡(luò)的合成計(jì)算:1)所有產(chǎn)品特征的權(quán)重相同(均賦值為1);2)產(chǎn)品特征的權(quán)重根據(jù)該特征的比較次數(shù)確定.表5展示了兩種算法的特征比較網(wǎng)絡(luò)計(jì)算結(jié)果與銷售排名的相關(guān)系數(shù)對比(spearman).
表5 兩種算法的特征比較網(wǎng)絡(luò)計(jì)算結(jié)果與銷售排名的相關(guān)系數(shù)對比(Spearman)
注:***表示p<0.01.
可以看到,兩種算法在p<0.01水平上顯著相關(guān),這證明了特征比較網(wǎng)絡(luò)與產(chǎn)品銷量的顯著一致性.更進(jìn)一步,采用相同權(quán)重的算法比根據(jù)評價(jià)次數(shù)確定權(quán)重的算法相關(guān)系數(shù)稍低,這表明根據(jù)評價(jià)次數(shù)確定權(quán)重的特征比較網(wǎng)絡(luò)比相同權(quán)重的特征比較網(wǎng)絡(luò)能夠更好擬合產(chǎn)品銷量,可能的原因在于:產(chǎn)品特征在用戶消費(fèi)決策的影響權(quán)重是不一樣的[53].另一個(gè)可能的原因是:在評論中頻繁提及的產(chǎn)品特征就是用戶最關(guān)心的特征方面.
然而,僅僅依據(jù)相關(guān)系數(shù)并不能有效地評價(jià)特征比較網(wǎng)絡(luò)的有用性,由于變量之間的內(nèi)生性問題(endogenous),本文采用如下的計(jì)量模型來評估:聯(lián)立方程模型以及兩階段最小二乘法.建立的評價(jià)模型如式(7)和式(8)所示.
SalesRanki,t=θ+α1FeatureNetworki,t-1+
α2Pricei,t-1+α3AvgRatingi,t-1+
α4SalesRanki,t-1+φ
(7)
β2NumReviewi,t+β3CompFeaturei,t+
β4FeatureNetworki,t-1+ω
(8)
其中,SalesRanki,t表示產(chǎn)品i在第t期的銷售排名;FeatureNetworki,t-1代表特征比較網(wǎng)絡(luò)在第t-1期的計(jì)算結(jié)果,采用評價(jià)次數(shù)確定權(quán)重;Pricei,t-1,AvgRatingi,t-1分別表示產(chǎn)品i在第t-1期的價(jià)格和平均評分;cScoref,i,t表示產(chǎn)品i的特征f在第t期的評價(jià)得分;NumReviewi,t表示評論次數(shù);CompFeaturei,t表示特征比較次數(shù);φ和ω和是為了捕獲每個(gè)產(chǎn)品的異質(zhì)特征,例如產(chǎn)品定位、市場營銷力度、廣告策略等.采用兩階段最小二乘法估計(jì)聯(lián)立方程式(7)和式(8),具體實(shí)現(xiàn)方法參照文獻(xiàn)[55].表6展示了估計(jì)結(jié)果.
表6 兩階段最小二乘法回歸結(jié)
注:1. 方程式(7):因變量為銷售排名,系數(shù)為負(fù)表示對銷量有促進(jìn)作用.
表6分別展示了最小二乘法和兩階段最小二乘法的估計(jì)結(jié)果,值得注意的是:列出最小二乘法的原因在于對比,最小二乘法估計(jì)本身是不準(zhǔn)確的,因?yàn)榛貧w參數(shù)(自變量與因變量)存在內(nèi)生性:產(chǎn)品銷量越高,帶來的用戶在線評論會(huì)越多[1,3,55],因而根據(jù)在線評論抽取的產(chǎn)品特征比較觀點(diǎn)也會(huì)越豐富,由此構(gòu)建的特征比較網(wǎng)絡(luò)就可能受到產(chǎn)品銷量的影響.而兩階段最小二乘法可以避免這種內(nèi)生性.
兩階段最小二乘法的結(jié)果顯示,特征比較網(wǎng)絡(luò)與產(chǎn)品銷售排名顯著正相關(guān)(顯著性水平p<0.01),證明在排除內(nèi)生性問題后,特征比較網(wǎng)絡(luò)在銷量預(yù)測上仍然有用.
4.3 回歸分析及模型預(yù)測能力
根據(jù)自變量與因變量SalesRank的相關(guān)系數(shù),選擇不同的自變量構(gòu)建線性回歸模型,并比較不同模型的預(yù)測能力.由于多邊有向圖與SalesRank相關(guān)系數(shù)最大,因此選擇多邊有向圖模型.價(jià)格、SalesRank、評論數(shù)量、特征比較數(shù)量等變量,分別取其對數(shù)(ln).構(gòu)建的5個(gè)線性回歸模型如下.
模型 1
模型 2
模型 3
模型 4
模型 5
表7分別展示了5個(gè)模型的回歸系數(shù),其中括號內(nèi)的數(shù)據(jù)表示標(biāo)準(zhǔn)誤差.
表7 線性回歸模型的系數(shù)
從表7可以看出,在線評論數(shù)量(lnNumReview)對產(chǎn)品銷量具有較強(qiáng)的相關(guān)性,這表明網(wǎng)絡(luò)口碑對于消費(fèi)者的購買決策具有參照作用.相比之下,消費(fèi)者總體評分(AvgRating)對銷量的貢獻(xiàn)小得多,這可能是因?yàn)榭傮w評分不能體現(xiàn)出每個(gè)產(chǎn)品特征細(xì)節(jié)上的差異.出乎意料的是價(jià)格對銷量的影響,5個(gè)線性回歸模型中,價(jià)格(lnPrice)對銷量的影響都是正向的.這可能是因?yàn)閿?shù)碼相機(jī)作為中高端產(chǎn)品,用戶對于價(jià)格不敏感.另一個(gè)對SalesRank有較大影響的變量是特征比較對數(shù)量(lnCompFeature),即用戶在評論中提及的產(chǎn)品特征之間的比較信息越多,對銷量的促進(jìn)作用越大.產(chǎn)品的中心度(lnBetweenness)盡管也對銷量有影響,但這種影響微乎其微.從誤差項(xiàng)可以看出,從模型5到模型1誤差逐步減小,分別從0.403 64減小到0.377 07,說明模型5比模型1更加可靠.
使用第t個(gè)季度的數(shù)據(jù)預(yù)測第t+1個(gè)季度的銷售情況,研究模型的預(yù)測能力.在回歸分析預(yù)測中,以季度為單位,從2011年1月開始,3個(gè)月為1個(gè)單位,例如第1季度為2011年1月1日到2011年3月31日,以此類推.統(tǒng)計(jì)最近10個(gè)季度的評論,即從2011年1月到2013年6月的所有評論數(shù)據(jù).表8顯示了最近10個(gè)季度的匯總數(shù)據(jù),從匯總數(shù)據(jù)可以看出,在線評論隨時(shí)間遞增.比如評論數(shù)量從第1季度的9 841條上升到第10季度的12 602條,受評論數(shù)量的影響,其他變量也呈現(xiàn)上升趨勢.
表8 數(shù)據(jù)概
分別使用上面5個(gè)線性回歸模型對表8的數(shù)據(jù)進(jìn)行回歸預(yù)測,然后根據(jù)預(yù)測值和實(shí)際值計(jì)算預(yù)測結(jié)果的均方誤差.表9顯示了5個(gè)線性回歸模型的預(yù)測結(jié)果.
表9 模型預(yù)測能力結(jié)果均方誤差
從表9可以看出,除了模型2和模型3的均方誤差基本持平以外,模型1到模型5的均方誤差是逐步減小的.換句話說,模型1到模型5的預(yù)測能力逐步增強(qiáng).模型2和模型3的預(yù)測能力無顯著提升,進(jìn)一步印證了特征比較網(wǎng)絡(luò)中的節(jié)點(diǎn)中心度對模型的貢獻(xiàn)不大.在加入特征比較數(shù)量,以及特征比較網(wǎng)絡(luò)的PageRank和HITS權(quán)威度后,預(yù)測性能明顯提升,證明了本文提出的特征比較網(wǎng)絡(luò)的實(shí)際效果.當(dāng)然,產(chǎn)品銷售量除了受到本文描述的變量影響外,還受相當(dāng)多其他變量的影響,例如:廣告、促銷等.這可能是導(dǎo)致均方誤差在第9季度增大的原因.
任何企業(yè)都非常關(guān)注產(chǎn)品的預(yù)期銷量,這既會(huì)決定公司的生產(chǎn)計(jì)劃,同時(shí)對物流、供應(yīng)鏈等也有相當(dāng)大影響.本文提出的銷售預(yù)測模型能夠從客戶對產(chǎn)品評論的角度對未來銷售量進(jìn)行預(yù)測,提升了預(yù)測的準(zhǔn)確度.
4.4 產(chǎn)品競爭優(yōu)勢識別
產(chǎn)品競爭比較優(yōu)勢圖是依據(jù)在線評論中體現(xiàn)出來的特征比較信息而構(gòu)建的.圖中頂點(diǎn)代表產(chǎn)品特征,極坐標(biāo)系的圓心表示起點(diǎn)刻度,每個(gè)特征的得分都是0—5分.越接近頂點(diǎn),表明該特征的競爭優(yōu)勢越強(qiáng);反之亦然.
構(gòu)建過程如下:假設(shè)產(chǎn)品pi所有的特征比較數(shù)組記為
限于篇幅,只選擇4個(gè)商品和22個(gè)產(chǎn)品特征進(jìn)行分析.4個(gè)商品分別是:Canon EOS Rebel T3i, Nikon D3100 Digital SLR, Canon EOS 60D和Canon EOS 7D,結(jié)果見圖6所示.從圖6可以看出,Nikon D3100 Digital SLR總體上有較高的滿意度,但是在價(jià)格(price)、無線連接(wireless)、顏色(color)和視頻(video)方面有較大的提升空間.而Canon EOS Rebel T3i有較多特征處于劣勢,但是在有效像素(pixel)、LCD(lcd)、圖片質(zhì)量(imagequality)和去噪(noise)方面有明顯的優(yōu)勢.Canon EOS 60D在菜單(menu)、拍攝速度(shootingspeed)、視頻(video)、無線連接(wireless)和肩屏(touchscreen)等方面有顯著優(yōu)勢.
產(chǎn)品特征比較網(wǎng)絡(luò)能夠?yàn)楣編硪韵率找妫赫故玖伺c市場同類產(chǎn)品相比,各個(gè)特征的競爭優(yōu)勢和劣勢,給企業(yè)的產(chǎn)品改進(jìn)提供了依據(jù),同時(shí)也為市場營銷策略提供了指導(dǎo).圖6只展示4個(gè)產(chǎn)品之間的比較,事實(shí)上可以擴(kuò)展到任意產(chǎn)品.產(chǎn)品特征競爭優(yōu)勢圖是從文本到可視化的分析結(jié)果,這是面向競爭力的產(chǎn)品特征比較網(wǎng)絡(luò)的研究結(jié)果,為消費(fèi)者準(zhǔn)確選擇產(chǎn)品提供支持.
圖6 4個(gè)產(chǎn)品的特征競爭優(yōu)勢圖
Fig. 6 Visualization of competitive advantage for 4 products
4.5 產(chǎn)品綜合競爭力模型以及啟示
在3.2節(jié)表3中,統(tǒng)計(jì)了產(chǎn)品特征在評論中出現(xiàn)的次數(shù)以及比例,可以認(rèn)為某個(gè)產(chǎn)品特征出現(xiàn)的比例越高,消費(fèi)者對該特征關(guān)注度越大.利用該關(guān)注度比例,結(jié)合產(chǎn)品在每個(gè)特征上的競爭力,能夠得到每個(gè)競爭產(chǎn)品的綜合得分.產(chǎn)品綜合得分是從歷史評論中得到的所有消費(fèi)者對產(chǎn)品的總體評分.比較特征得分按照多邊有向圖的PageRank計(jì)算,每個(gè)特征得分規(guī)范化為1分~5分.式(9)展示了如何由特征得分計(jì)算產(chǎn)品綜合得分.
(9)
其中Scorep表示產(chǎn)品p1的總體得分;Wi表示第i個(gè)產(chǎn)品特征的權(quán)重;FSpi表示產(chǎn)品p的第i個(gè)產(chǎn)品特征的比較特征得分.表10顯示了排行榜前15個(gè)產(chǎn)品列表以及綜合得分.為了不被少數(shù)特征太少的評論影響,過濾了特征比較次數(shù)小于100次的商品.
表10 數(shù)碼相機(jī)綜合比較排行榜
從表10可以看出,并非銷售排名高的產(chǎn)品就可以獲得很高的特征比較綜合得分.相反,綜合排名第1的商品“Panasonic DMC-FH25K”銷售排名僅為312位,但用戶在評論中反映出來的滿意度非常高,滿分5分中獲得了4.86分.為了進(jìn)一步驗(yàn)證SalesRank與特征比較綜合得分的關(guān)系,計(jì)算了二者之間的相關(guān)系數(shù),Spearman系數(shù)為-0.403(p<0.001),表明總體上特征比較綜合得分與SalesRank具有強(qiáng)負(fù)相關(guān)性,即特征比較綜合得分與銷量顯著正相關(guān).特征比較綜合得分反映的是從在線評論中抽取的用戶對產(chǎn)品的觀點(diǎn),可能存在的一種情況是:如果用戶對產(chǎn)品滿意的話可能并不發(fā)表評論;相反當(dāng)用戶對產(chǎn)品不太滿意的時(shí)候才發(fā)表評論[56].因此,用戶評論不能嚴(yán)格與產(chǎn)品銷量對等.可以認(rèn)為通過特征比較網(wǎng)絡(luò)計(jì)算的特征比較綜合得分,是用戶對該產(chǎn)品的綜合態(tài)度,不是單純由銷量決定的,而是綜合了用戶觀點(diǎn)的結(jié)果.因此,特征比較綜合得分與銷售排名有較強(qiáng)的負(fù)相關(guān)性,這與人們的經(jīng)驗(yàn)并不沖突,只是從另一個(gè)側(cè)面解釋了該問題.
對商家而言,表10有助于識別競爭對手以及精準(zhǔn)定位市場;對消費(fèi)者而言,可以得出廣大用戶對每個(gè)產(chǎn)品的量化得分,輔助購買決策.
本文以比較信息為研究對象,面向在線評論,借助情感分析技術(shù),提出深度挖掘用戶意見的方法.根據(jù)在線評論中的比較信息,提取評論中的特征比較觀點(diǎn)對.分別采用單邊有向圖、雙邊有向圖和多邊有向圖來構(gòu)建特征比較關(guān)系.把產(chǎn)品抽象為網(wǎng)絡(luò)節(jié)點(diǎn),產(chǎn)品間的比較關(guān)系作為網(wǎng)絡(luò)的邊,構(gòu)建特征比較網(wǎng)絡(luò).采用PageRank和HITS對特征比較網(wǎng)絡(luò)進(jìn)行分析,得到節(jié)點(diǎn)的權(quán)威度.產(chǎn)品特征比較網(wǎng)絡(luò)可以用于識別產(chǎn)品的競爭優(yōu)勢和劣勢,用于產(chǎn)品改進(jìn)和市場營銷.實(shí)驗(yàn)表明,基于特征比較網(wǎng)絡(luò)的分析結(jié)果與產(chǎn)品銷量顯著相關(guān),并且回歸分析驗(yàn)證了本文提出的方法在銷量預(yù)測上的改進(jìn),證明了特征比較網(wǎng)絡(luò)的有用性.特征比較網(wǎng)絡(luò)不但可以用于特征層次的比較,還能夠根據(jù)用戶評論內(nèi)容對市場上同類產(chǎn)品進(jìn)行總體競爭力排序.
未來的研究方向有:1)本文提取的是顯式產(chǎn)品特征,但是在線評論中還存在大量隱式產(chǎn)品特征,隱式特征比較信息的提取有待深入分析;2)對于比較觀點(diǎn)的識別上,本文采用關(guān)鍵字匹配的方法,效率有待提高,未來可以嘗試采用模式識別以更加準(zhǔn)確高效的識別比較觀點(diǎn);3)本文提出的方法只在數(shù)碼相機(jī)評論上進(jìn)行了實(shí)驗(yàn),缺乏對其他產(chǎn)品類別的驗(yàn)證,未來可以嘗試把本文方法擴(kuò)展到其他產(chǎn)品類別,進(jìn)一步驗(yàn)證該方法的有用性;4)除了本文提到的網(wǎng)絡(luò)構(gòu)建方法外,還有很多其他網(wǎng)絡(luò)構(gòu)建和分析算法,例如:二分網(wǎng)絡(luò)、曲面網(wǎng)絡(luò)等,未來可以嘗試更多的網(wǎng)絡(luò)分析算法與情感分析的結(jié)合.
[1]Xie K L, Zhang Z, Zhang Z. The business value of online consumer reviews and management response to hotel performance[J]. International Journal of Hospitality Management, 2014, 43(10): 1-12.
[2]Blal I, Sturman M C. The differential effects of the quality and quantity of online reviews on hotel room sales[J]. Cornell Hospitality Quarterly, 2014, 55(4): 365-375.
[3]Chu W, Roh M, Park K. The effect of the dispersion of review ratings on evaluations of hedonic versus utilitarian products[J]. International Journal of Electronic Commerce, 2015, 19(2): 95-125.
[4]Krishnamoorthy S. Linguistic features for review helpfulness prediction[J]. Expert Systems with Applications, 2015, 42(7): 3751-3759.
[5]Chen L, Qi L, Wang F. Comparison of feature-level learning methods for mining online consumer reviews[J]. Expert Systems with Applications, 2012, 39(10): 9588-9601.
[6]Hai Z, Chang K, Kim J J, et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance[J]. IEEE Transactions on Knowledg Data Engineering, 2014, 26(3): 623-634.
[7]王祖輝, 姜 維, 李一軍. 在線評論情感分析中固定搭配特征提取方法研究[J]. 管理工程學(xué)報(bào), 2014, 28(4): 180-186.
Wang Zuhui, Jiang Wei, Li Yijun. Regular collocation features extraction method in online reviews sentiment analysis[J]. Journal of Industrial Engineering and Engineering Management, 2014, 28(4): 180-186.(in Chinese)
[8]Zhang L, Liu B, Lim S H, et al. Extracting and ranking product features in opinion documents[C]// Proceedings of the 23rd International Conference on Computational Linguistics, Stroudsburg: DIGITL LIBRARY, 2010: 1462-1470.
[9]Wang H W, Yin P, Zheng L J, et al. Sentiment classification of online reviews: Using sentence-based language model[J]. Journal of Experimental & Theoretical Artificial Intelligence, 2014, 26(1): 13-31.
[10]Borrajo L, Vieira A S, Iglesias E L. TCBR-HMM: An HMM-based text classifier with a CBR system[J]. Applied Soft Computing, 2015, 26(1): 463-473.
[11]Chasin R, Woodward D, Witmer J, et al. Extracting and displaying temporal and geospatial entities from articles on historical events[J]. Computer Journal, 2014, 57(3): 403-426.
[12]Liu J F, Zhang P, Lu Y J. Automatic identification of messages related to adverse drug reactions from online user reviews using feature-based classification[J]. Iranian Journal of Public Health, 2014, 43(11): 1519-1527.
[13]Nassirtoussi A K, Aghabozorgi S, Wah T Y, et al. Text mining for market prediction: A systematic review[J]. Expert Systems with Applications, 2014, 41(16): 7653-7670.
[14]Yu Z Z, Zheng N, Xu M. An automatic product features extracting method in Chinese customer reviews[C]// 7th International Conference on System of Systems Engineering, Genova: IEEE, 2012: 455-459.
[16]Kasper W, Vela M. Sentiment analysis for hotel reviews[C]// Computational Linguistics-Applications Conference, Jachrenka: Free Preview, 2011: 45-52.
[17]Wang G, Sun J, Ma J, et al. Sentiment classification: The contribution of ensemble learning[J]. Decision Support Systems, 2014, 57(1): 77-93.
[18]Háva O, Skrbek M, Kordík P. Supervised two-step feature extraction for structured representation of text data[J]. Simulation Modelling Practice and Theory, 2013, 33(4): 132-143.
[19]姚長青, 杜永萍. 降維技術(shù)在專利文本聚類中的應(yīng)用研究[J]. 情報(bào)學(xué)報(bào), 2014, 33(5): 491-497.
Yao Changqing, Du Yongping. Research on the dimension reduction technique in patent text clustering[J]. Journal of the China Society for Scientific and Technical Information, 2014, 33(5): 491-497. (in Chinese)
[20]王 蒙, 林蘭芬, 王 鋒. 基于偽相關(guān)反饋的短文本擴(kuò)展與分類[J]. 浙江大學(xué)學(xué)報(bào): 工學(xué)版, 2014, 48(10): 1835-1842.
Wang Meng, Lin Lanfen, Wang Feng. Short text expansion and classification based on pseudo-relevance feedback[J]. Journal of Zhejiang University(Engineering Science), 2014, 48(10): 1835-1842. (in Chinese)
[21]Bharti K K, Singh P K. Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering[J]. Expert Systems with Applications, 2015, 42(6): 3105-3114.
[22]王洪偉, 鄭麗娟, 尹 裴. 基于句子級情感的中文網(wǎng)絡(luò)評論的情感極性分類[J]. 管理科學(xué)學(xué)報(bào), 2013, 16(9): 64-74.
Wang Hongwei, Zheng Lijuan, Yin Pei. Classification of sentimental polarity for Chinese online reviews based on sentence level sentiment[J]. Journal of Management Sciences in China, 2013, 16(9): 64-74. (in Chinese)
[23]Balahur A, Mihalcea R, Montoyo A. Computational approaches to subjectivity and sentiment analysis: Present and envisaged methods and applications[J]. Computer Speech & Language, 2014, 28(1): 1-6.
[24]冀俊忠, 張玲玲, 吳晨生. 基于知識語義權(quán)重特征的樸素貝葉斯情感分類算法[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2014, 40(12): 1884-1890.
Ji Junzhong, Zhang Lingling, Wu Chensheng. Semantic weight-based naive bayesian algorithm for text sentiment classification[J]. Journal of Beijing University of Technology, 2014, 40(12): 1884-1890.(in Chinese)
[25]Guo J L, Peng J E, Wang H C. An opinion feature extraction approach based on a multidimensional sentence analysis model[J]. Cybernetics and Systems, 2013, 44(5): 379-401.
[26]李 綱, 劉廣興, 毛 進(jìn). 一種基于句法分析的情感標(biāo)簽抽取方法[J]. 圖書情報(bào)工作, 2014, 58(14): 12-20.
Li Gang, Liu Guangxing, Mao Jin. A sentiment label extraction method based on dependency parsing[J]. Library and Information Service, 2014, 58(14): 12-20. (in Chinese)
[27]陸 浩, 牛振東, 張 楠. 基于句法與主題擴(kuò)展的中文微博情感傾向性分析模型[J]. 北京理工大學(xué)學(xué)報(bào), 2014, 34(8): 824-830.
Lu Hao, Niu Zhendong, Zhang Nan. A model for sentiment classification of Chinese microblog based on parsing and theme extension[J]. Transactions of Beijing Institute of Technology, 2014, 34(8): 824-830. (in Chinese)
[28]Chen C C, Chen Z Y, Wu C Y. An unsupervised approach for person name bipolarization using principal component analysis[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(11): 1963-1976.
[29]Paltoglou G, Thelwall M. Twitter, MySpace, Digg: Unsupervised sentiment analysis in social media[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(4): 1-19.
[30]Kim K, Lee J. Sentiment visualization and classification via semi-supervised nonlinear dimensionality reduction[J]. Pattern Recognition, 2014, 47(2): 758-768.
[31]Moraes R, Valiati J F, Gavi?o Neto W P. Document-level sentiment classification: An empirical comparison between SVM and ANN[J]. Expert Systems with Applications, 2013, 40(2): 621-633.
[32]杜 銳, 朱艷輝, 魯 琳. 基于SVM的中文微博觀點(diǎn)句識別算法[J]. 湖南工業(yè)大學(xué)學(xué)報(bào), 2013, 27(2): 89-93.
Du Rui, Zhu Yanhui, Lu Lin. The SVM-based algorithm for Chinese micro-blog opinion sentence identification[J]. Journal of Hunan University of Technology, 2013, 27(2): 89-93. (in Chinese)
[33]Kanayama H, Nasukawa T. Unsupervised lexicon induction for clause-level detection of evaluations[J]. Natural Language Engineering, 2012, 18(1): 83-107.
[34]史 偉, 王洪偉, 何紹義. 基于微博的產(chǎn)品評論挖掘: 情感分析的方法[J]. 情報(bào)學(xué)報(bào), 2014, 32(2): 107-112.
Shi Wei, Wang Hongwei, He Shaoyi. Product reviews mining from microblogging based on sentiment analysis[J]. Journal of the China Society for Scientific and Technical Information, 2014, 32(2): 107-112. (in Chinese)
[35]周 哲, 商 琳. 一種基于動(dòng)態(tài)詞典和三支決策的情感分析方法[J]. 山東大學(xué)學(xué)報(bào) (工學(xué)版), 2015, 45(1): 19-23.
Zhou Zhe, Shang Lin. A sentiment analysis method based on dynamic lexicon and three-way decision[J]. Journal of Shandong University (Engineering Science), 2015, 45(1): 19-23. (in Chinese)
[36]楊佳能, 陽愛民, 周詠梅. 基于語義分析的中文微博情感分類方法[J]. 山東大學(xué)學(xué)報(bào) (理學(xué)版), 2014, 49(11): 14-21.
Yang Jianeng, Yang Aaimin, Zhou Yongmei. Sentiment classification method of Chinese micro-blog based on semantic analysis[J]. Journal of Shandong University (Natural Science), 2014, 49(11): 14-21. (in Chinese)
[37]Zhang Z, Ye Q, Zhang Z, et al. Sentiment classification of internet restaurant reviews written in Cantonese[J]. Expert Systems with Applications, 2011, 38(6): 7674-7682.
[38]曹麗娜, 唐錫晉. 基于主題模型的BBS話題演化趨勢分析[J]. 管理科學(xué)學(xué)報(bào), 2014, 17(11): 109-121.
Cao Lina, Tang Xijin. Trends of BBS topics based on dynamic topic model[J]. Journal of Management Sciences in China, 2014, 17(11): 109-121. (in Chinese)
[39]楊 銘, 祁 巍, 閆相斌, 等. 在線商品評論的效用分析研究[J]. 管理科學(xué)學(xué)報(bào), 2012, 15(5): 65-75.
Yang Ming, Qi W, Yan X B, et al. Utility analysis for online product review[J]. Journal of Management Sciences in China, 2012, 15(5): 65-75. (in Chinese)
[40]李常洪, 高培霞, 韓瑞婧. 消極情緒影響人際信任的線索效應(yīng): 基于信任博弈范式的檢驗(yàn)[J]. 管理科學(xué)學(xué)報(bào), 2014, 17(10): 50-59.
Li Changhong, Gao Peixia, Han Ruijing. Impacts of negative emotions on interpersonal trust: Clues effects based on trust game[J]. Journal of Management Sciences in China, 2014, 17(10): 50-59. (in Chinese)
[41]郝媛媛, 葉 強(qiáng), 李一軍. 基于影評數(shù)據(jù)的在線評論有用性影響因素研究[J]. 管理科學(xué)學(xué)報(bào), 2010, 13(8): 78-88.
Hao Yuanyuan, Ye Qiang, Li Yijun. Research on online impact factors of customer reviews usefulness based on movie reviews data[J]. Journal of Management Sciences in China, 2010, 13(8): 78-88. (in Chinese)
[42]蔣翠清, 梁 坤, 丁 勇, 等. 基于社會(huì)媒體的股票行為預(yù)測[J]. 中國管理科學(xué), 2015, 23(1): 17-24.
Jiang Cuiqing, Liang Kun, Ding Yong, et al. Predicting stock behavior via social media[J]. Chinese Journal of Management Science, 2015, 23(1): 17-24. (in Chinese)
[43]劉 鋒, 葉 強(qiáng), 李一軍. 媒體關(guān)注與投資者關(guān)注對股票收益的交互作用: 基于中國金融股的實(shí)證研究[J]. 管理科學(xué)學(xué)報(bào), 2014, 17(1): 72-85.
Liu Feng, Ye Qiang, Li Yijun. Impacts of interactions between news attention and investor attention on stock returns: Empirical investigation on financial shares in China[J]. Journal of Management Sciences in China, 2014, 17(1): 72-85. (in Chinese)
[44]黃衛(wèi)東, 陳凌云, 吳美蓉. 網(wǎng)絡(luò)輿情話題情感演化研究[J]. 情報(bào)雜志, 2014, 33(1): 102-107.
Huang Weidong, Chen Lingyun, Wu Meirong. Research on sentiment evaluation of online public opinion topic[J]. Journal of Intelligence, 2014, 33(1): 102-107. (in Chinese)
[45]吳方照, 王丙坤, 黃永峰. 基于文本和社交語境的微博數(shù)據(jù)情感分類[J]. 清華大學(xué)學(xué)報(bào) (自然科學(xué)版), 2014, 54(10): 1373-1376.
Wu Fangzhao, Wang Bingkun, Huang Yongfeng. Microblog sentiment classification using both text and social context[J]. Journal of Tsinghua University (Science & Technology), 2014, 54(10): 1373-1376. (in Chinese)
[46]Thelwall M, Buckley K, Paltoglou G. Sentiment strength detection for the social web[J]. Journal of the American Society for Information Science and Technology, 2012, 63(1): 163-173.
[47]殷國鵬. 消費(fèi)者認(rèn)為怎樣的在線評論更有用?——社會(huì)性因素的影響效應(yīng)[J]. 管理世界, 2012, (12): 115-124.
Yin Guopeng. What consumers think of online reviews more useful?: Effects of social factors[J]. Management World, 2012, (12): 115-124. (in Chinese)
[48]邸 鵬, 李愛萍, 段利國. 基于轉(zhuǎn)折句式的文本情感傾向性分析[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(12): 4289-4295.
Di Peng, Li Aiping, Duan Liguo. Text sentiment polarity analysis based on transition sentence[J]. Computer Engineering and Design, 2014, 35(12): 4289-4295. (in Chinese)
[49]Jindal N, Liu B. Mining comparative sentences and relations[C]// The Association for the Advancement of Artificial Intelligence, Boston: AAAI Press, 2006, 22: 1331-1336.
[50]Huang G H, Yao T F, Liu Q. Mining Chinese comparative sentences and relations based on CRF algorithm[J]. Application Research of Computers, 2010, 27(6): 2061-2064.
[51]Zhang Z, Guo C, Goes P. Product comparison networks for competitive analysis of online word-of-mouth[J]. ACM Transactions on Management Information Systems, 2013, 3(4): 1-22.
[52]Netzer O, Feldman R, Goldenberg J, et al. Mine your own business: Market-structure surveillance through text mining[J]. Marketing Science, 2012, 31(3): 521-543.
[53]Archak N, Ghose A, Ipeirotis P G. Deriving the pricing power of product features by mining consumer reviews[J]. Management Science, 2011, 57(8): 1485-1509.
[54]Oestreicher-Singer G, Sundararajan A. Recommendation networks and the long tail of electronic commerce[J]. MIS Quarterly, 2012, 36(1): 65-83.
[55]Duan W, Gu B, Whinston A B. Do online reviews matter?—An empirical investigation of panel data[J]. Decision Support Systems, 2008, 45(4): 1007-1016.
[56]李 杰, 張向前, 陳維軍, 等. C2C電子商務(wù)服裝產(chǎn)品客戶評論要素及其對滿意度的影響[J]. 管理學(xué)報(bào), 2014, 11(2): 261-266.
Li Jie, Zhang Xiangqian, Chen Weijun, et al. Key content elements of online consumer review and effects on customer satisfaction for garments in C2C e-commerce[J]. Chinese Journal of Management, 2014, 11(2): 261-266. (in Chinese)
Comparative network for product competition in feature-levels through sentiment analysis
WANGWei1, 2,WANGHong-wei2
1. College of Business Administration, Huaqiao University, Quanzhou 362021, China; 2. School of Economics and Management, Tongji University, Shanghai 200092, China
Comparative opinions widely exist in online reviews as a common way of expressing consumers’ ideas. Mean while, such online opinions are key proxies for detecting product competitiveness. Firstly, comparative opinion pairs are extracted in feature-levels through text mining and sentiment analysis. Then, based on the comparative opinion pairs, a single-link graph, a dichotomic-link graph and a multi-link graph are built respectively, where the weights of edges are determined by the sentimental strength. Next, a feature-level comparative network is calculated by employing sophisticated network algorithms, including PageRank and Hyperlink-Induced Topic Search. The proposed comparative network can identify the strengths and weaknesses of compared products. Experimental results show that the feature-level comparative networks are correlated with SalesRank significantly, thus enabling the prediction on sales volume.
competitiveness; comparative network; online review; sentiment analysis; product feature; network analysis
2014-05-27;
2015-04-20.
國家自然科學(xué)基金資助項(xiàng)目(71371144);上海市哲學(xué)社會(huì)科學(xué)規(guī)劃課題一般資助項(xiàng)目(2013BGL004);華僑大學(xué)高層次人才科研啟動(dòng)資金資助項(xiàng)目(16SKBS102).
王洪偉(1973—),男,遼寧人,博士,教授,博士生導(dǎo)師. Email: hwwang@#edu.cn
TP18
A
1007-9807(2016)09-0109-18