劉臣 謝法舉 周曉鳴
摘 要:商品評論區(qū)存在很多虛假、偽造或者是垃圾形式的內(nèi)容,往往誘使用戶產(chǎn)生購買意愿,而追加評論是用戶了解商品真實性、可靠性的重要信息渠道。通過對追加評論進行特征提取,形成特征摘要,方便用戶在購物時減少搜索時間與精力,對追加評論進行情感分析,能夠判斷出用戶對商品的總體情感傾向。分析表明,其在準確率與召回率方面都有約10%的提高。追加評論具有很高的研究價值,能夠幫助用戶快速了解產(chǎn)品信息,目前很多用戶會直接鎖定追加評論以作出購買決策。
關(guān)鍵詞:追加評論;特征提取;情感分析;特征摘要
0 引言
追加評論是購物網(wǎng)站的一種用戶評論形式,各大電商平臺都有追加評論區(qū)域,但每個平臺提供的有效時間不同,比如淘寶在原始評論之后3個月內(nèi)可以進行追加評論,超過期限則無法進行。目前很多用戶會直接鎖定追加評論形成購買意愿,所以追加評論具有很高的研究價值,主要表現(xiàn)為:①追加評論能夠更加客觀地反映用戶態(tài)度;②追加評論往往較少,用戶閱讀起來會減少很多時間與精力;③追加評論中往往會出現(xiàn)原始評論中沒有出現(xiàn)過的商品特征,這些特征能夠及時反映當下熱點問題。圖1為京東平臺上的P20手機用戶評論文本。
追加評論是用戶了解商品真實性、可靠性的重要信息渠道,而對于追加評論的研究很少有人關(guān)注。Hearst[1]最早進行情感分析研究,在處理文本問題時主要從情感立場和文本思想兩個方面進行,語料庫優(yōu)點在于提供了更加標準化的信息檢索系統(tǒng),不僅能夠避免理解文本的復(fù)雜性,而且還能減少資源消耗。情感分析概念在2003年正式出現(xiàn),Nasukawa等[2]利用自然語言處理相關(guān)技術(shù)判斷特定主題的情感傾向,包括語義詞典及句法分析等,系統(tǒng)在新聞?wù)Z料中取得了較高準確率,當然該準確率依據(jù)數(shù)據(jù)集;Yan等[3]利用NodeRank算法提取顯式和隱式特征,以識別每個顯式特征與意見詞之間的關(guān)聯(lián),并檢索了具有相同觀點詞的所有特征觀點對;Yi等[4]是較早研究情感分析的一批學(xué)者,隨后,情感分析在數(shù)據(jù)挖掘、Web挖掘和信息檢索中被廣泛研究,并從計算機科學(xué)領(lǐng)域擴展到管理學(xué)領(lǐng)域及電子商務(wù)領(lǐng)域[5-6];Soo-Min等[7]則手工建立了兩個種子集作為極性詞典,一個是褒義詞詞典,另一個是貶義詞詞典,并分別將其作為正向類和負向類;Park等 [8]提出了另一個從新聞文章中產(chǎn)生觀點摘要的方法。
在中文領(lǐng)域,特征提取和情感分析研究也有一定成果。徐林宏等[9]利用知網(wǎng)提供的HowNet詞典,用詞匯與詞庫中已標注情感極性近義詞之間的語義相似度判斷未知極性情感詞的情感傾向;孫曉等[10]采用一種基于條件隨機場和支持向量機模型的聯(lián)合模型,從在線商品評述中挖掘商品特征詞和情感詞;何晶璟[11]主要是從營銷角度分析在線評論中相同評論內(nèi)容放在追加評論位置及放在初始評論位置對購買意愿的影響;汪濤等[12]基于歸因理論研究得出不同類型產(chǎn)品評論時間間隔的有用性感知不同,與原始評論具有很大關(guān)聯(lián)性;劉曉云等[13]主要講述相對于初始評論,追加評論的信息提供參考價值更大,消費者更加傾向于追加評論內(nèi)容的真實性,認為追加評論更加可靠;王洪偉等[14]對文本進行情感分類,主要考慮句子的情感極性以及貢獻度,首先也是采用傳統(tǒng)分類算法判斷在線評論句子的情感傾向,然后采用等權(quán)重、相關(guān)度以及情感假設(shè)三個方面確定句子對段落的貢獻度,最后綜合考慮句子的貢獻度和情感極性以判斷段落的整體情感傾向;唐曉波[15]提出一種基于情感本體和k-近鄰算法的評論文本情感分類方法,首先利用情感本體的情感強度及其極性分別對每一條評論的褒義性和貶義性進行計算,并將計算結(jié)果作為數(shù)據(jù)集的特征項,最后采用k-近鄰算法對訓(xùn)練集進行訓(xùn)練,然后形成分類模型,并用分類模型對相關(guān)評論進行分類研究。
對于隱性特征提取,同樣也有不少學(xué)者進行過研究。Karthikeyan等[16]提出基于關(guān)聯(lián)規(guī)則挖掘的方法,特征詞與觀點詞之間可以共同出現(xiàn),以找到頻繁項之間的關(guān)聯(lián)性;Mankar等[17]從旅游評論中提取了隱性特征,首先在顯性特征詞與觀點詞之間構(gòu)建共生矩陣,以形容詞和副詞作為觀點詞,然后基于該共生矩陣創(chuàng)建一組關(guān)聯(lián)規(guī)則。這些規(guī)則充當對應(yīng)的隱式特征映射函數(shù),實驗同樣也獲得了一定效果,但是實驗僅僅考慮了形容詞與副詞,并沒有考其它詞;Lazhar 等[18]利用本體進行隱性特征提取研究,利用本體概念、屬性和個體之間的語義關(guān)系進行隱性特征提取,其提取的意見表達式與任何顯性特征沒有相關(guān)性,在意見詞和相關(guān)特征中考慮6種類型依賴關(guān)系,然后通過觀點表達式對本體進行引航,找出相應(yīng)的隱性特征詞,以識別隱性特征;Santu等[19]采用概率模型方法進行隱性特征提取研究,用生成概率特征模型對相關(guān)語料評論進行建模,這些評論被表示為使用隱藏變量的句子與特征之間的關(guān)聯(lián),最后利用隱藏變量和計算參數(shù)值提取隱性特征。
相比較而言,本文創(chuàng)新之處在于:①在原始評論基礎(chǔ)上融入追加評論;②考慮追加評論中出現(xiàn)的新特征詞以及特征情感;③形成特征摘要,能夠幫助用戶在購買時快速作出購買決策。
1 追加評論語料獲取
追加評論語料同樣來源于京東商城,利用爬蟲技術(shù)爬取京東商城P20手機追加評論語料。獲取語料后對語料進行優(yōu)化,通過樣本抽樣方式刪除一些虛假、偽造信息,即語料降噪處理,經(jīng)過降噪處理的語料為實驗所需語料。對實驗語料進行分詞處理與詞性標注,提取出文本中的特征詞,如果沒有特征詞,則進入下一條評論,如果有特征詞,則判斷其是否為新的特征詞。將新特征詞錄入特征詞庫中,沒有再出現(xiàn)新的特征詞就直接對特征進行檢測,依據(jù)特征詞周邊的特征詞進行情感判別,并記錄判別結(jié)果,然后進入下一條評論,直到所有追加評論記錄完為止。圖2是追加評論處理具體流程。
1.1 追加評論時間特點
追加評論是指用戶在購買商品后已經(jīng)作出原始評論,因發(fā)現(xiàn)商品相關(guān)屬性具備一些特殊性質(zhì),再次對購買商品進行評論。圖3為爬取數(shù)據(jù)分析結(jié)果顯示的追加評論與原始評論時間間隔,通過分析追加評論數(shù)量可以發(fā)現(xiàn),用戶往往會在原始評論過后10天作出追加評論,這是因為用戶在購買之后前10天基本上對物品有了親身體驗,及時追加評論以反映自己的情感。
1.2 追加評論特征
追加評論作為用戶購買商品后的二次評論,有幾個重要特征:第一,內(nèi)容較短但是蘊含信息量大;第二,情感比較真實,更能反映出用戶態(tài)度,相對于原始評論前后情感差異較大;第三,具備不可刪除性,很多購物平臺的商家會勸說用戶刪除消極的原始評論,但是追加評論卻無法刪除;第四,具有滯后性,因為用戶通常在使用物品一段時間之后才能夠發(fā)現(xiàn)商品優(yōu)缺點(見圖3);第五,往往會出現(xiàn)很多原始評論不具備的新特征詞(見表1)。
2 追加評論與原始評論比較
追加評論與原始評論存在許多差異,最主要的三個維度分別為:評論數(shù)量、評論長度以及情感表達。研究兩者之間差異能夠讓用戶更加具體地了解商品。
2.1 評論數(shù)量
在評論數(shù)量方面,追加評論相對于原始評論數(shù)量明顯減少。一方面,用戶初次購買商品后,通常會及時作出評論,此時評論行為比較積極,而對于追加評論卻很少有人及時關(guān)注,除非是因為用戶體驗過商品且該商品具備一些特質(zhì),用戶才會對原始評論進行補充,追加評論。另一方面,用戶初次評論時給出了消極評價,經(jīng)過客戶溝通后刪除了消極評論,但是使用商品后非常失望,會再次作出追加評論,而追加評論相較于原始評論,句子中蘊含的信息以及特征詞明顯減少。
2.2 評論長度
商品評論越長,信息量往往就越大,對商品的介紹就會越完善,包含特征也就越多,其他用戶購買時能用的信息量就會越大,購買決策就會越清晰準確。評論長度越長也能反映出用戶積極性越高。通過抽樣觀察發(fā)現(xiàn),追加評論的平均長度明顯高于原始評論。對此分析得出以下結(jié)論:第一,對于原始評論而言,用戶并不是很了解該產(chǎn)品,隨意作出評價;對于追加評論而言,用戶通過親身體驗,對商品有足夠了解,這時就會對商品的大部分已知屬性作出評價,因此追加評論的數(shù)量雖然減少了,但是長度會明顯變長。第二,由于追加評論具有滯后性,當用戶在購買商品之后,因各種原因延遲發(fā)表追加評論,在這段時間內(nèi)同類型商品上市,就會給用戶提供一個參考物,通過審視幾個商品之間的區(qū)別,對該商品有更全面了解,從而作出全面評價,因此追加評論就會變長。
2.3 評論質(zhì)量
相對于原始評論,追加評論與用戶使用體驗匹配度更高,因為這些評論基本上都是用戶的親身感觸,能夠直接反映出用戶情感,所以提供的信息更加可靠有用。追加評論的客觀性更強,通過用戶對商品情感的表達更能反映出商品優(yōu)缺點,以便更加有效地幫助未來用戶了解產(chǎn)品。
3 融入追加評論的情感分析
通過分析處理追加評論,一共得到有效句子2 002條,其中顯性句子1 483條、隱性句子519條(見表2)。共提取特征詞45個,新增特征詞8個(信號、后殼、按鈕、卡槽、鎖屏、鏡頭、吃雞、網(wǎng)絡(luò)),另外37個為原始評論句子中的特征詞。產(chǎn)品特征得到肯定的是屏幕、價格、信號以及外觀,同時電池和吃雞兩個特征的負面情感較高,其中問題最大的是電池。這些數(shù)據(jù)統(tǒng)計不僅能夠幫助用戶快速鎖定商品的最大優(yōu)缺點,而且能夠及時幫助商家進行產(chǎn)品調(diào)整與優(yōu)化。
當融入追加評論之后,在原始評論基礎(chǔ)上,用戶情感會有很大變化,如表3所示。如果原始評論為正向情感,追加評論也為正向情感的僅占9%,追加評論為負向情感的為27%;如果原始評論為負向情感,很少有用戶會轉(zhuǎn)變原始評論態(tài)度,而用戶同樣會給出負面情感的比例高達57%。表4為華為手機P20評論融入追加評論后準確率與召回率的變化情況。
4 追加評論與原始評論特征摘要對比分析
4.1 對比結(jié)果
4.2 原始評論對購買意愿的影響
為弄清原始評論對購買意愿的影響,進行了問卷調(diào)查。調(diào)查問卷涉及人群為在校本科生和研究生,共發(fā)放問卷100份,回收有效問卷100份。經(jīng)過整理發(fā)現(xiàn),用戶初次對購買商品作出評價時的評論非常龐大,幾乎涉及產(chǎn)品所有主要特征,特征摘要對未來用戶有很大幫助,使用戶能夠快速鎖定商品屬性,并獲取基本情感。用戶進行購買決策時可以關(guān)注原始評論,但是依靠原始評論就作出購買決策的僅為18%,而未作出購買決策的高達59%。圖7為原始評論對購買意愿的影響。
4.3 融入追加評論后對購買意愿的影響
用戶的購買意愿直接影響產(chǎn)品銷量,而追加評論往往會對購買意愿產(chǎn)生較大影響,所以追加評論的研究意義較大,同樣也要引起商家足夠重視。研究發(fā)現(xiàn),追加評論中大部分評論都是消極評論,消極評論會直接影響消費者購買意愿,進而影響產(chǎn)品銷量,追加評論與原始評論共同決定個人對該商品的情感傾向。圖8顯示,融入追加評論后用戶更加傾向于作出購買決策。
5 結(jié)語
本文在原始評論基礎(chǔ)上融入追加評論進行情感分析。主要從追加評論的數(shù)量、長度以及質(zhì)量3個方面比較分析追加評論與原始評論,最后介紹了追加評論與原始評論的情感文摘分析。通過融入追加評論,能夠提高準確率與召回率約10%。今后將重點考慮在此基礎(chǔ)上以定量與定性相結(jié)合的方式進行研究。
參考文獻:
[1] HEARST M A. Direction-based text interpretation as an information access refinement[C]. Text-Based Intelligent Systems,2002: 257-274.
[2] NASUKAWA T, YI J. Sentiment analysis: capturing favorability using natural language processing[C]. International Conference on Knowledge Capture,2003: 70-77.
[3] YAN Z, XING M, ZHANG D, et al. EXPRS: an extended pagerank method for product feature extraction from online consumer reviews[J]. Information & Management,2015, 52(7):850-858.
[4] YI J,NASUKAWA T,BUNESCU,et a1.Sentiment analyzer:extracting sentiments about a given topicusing natural language processing techniques[C]. Third IEEE International Conference,2003:427-434.
[5] HU N,PAVLOU P A,ZHANG J.Can online reviews reveal a product's true quality:empirical findingsand analytical modeling of online word of mouth communication[C]. Proceedings of the 7th ACMconference on Electronic commerce,2006:324-330.
[6] ARCHAIC N,GHOSE A,IPEIROTIS P G. Show me the money:deriving the pricing power of productfeatures by mining consumer reviews[C]. Proceedings of the 13th ACM SIGKDD Intemational Conference on Knowledge Discovery and Data Raining,2007:56-65.
[7] SOO-MIN K,HOVY E. Determining the sentiment of opinions[C]. Proceedings of the 20th International Conference On Computational Linguistics,2004:1367-1373.
[8] PARK S, LEE K S, SONG J. Contrasting opposing views of news articles on contentious issues[J]. Proceedings of the Association for Computational Linguistics, 2011,33(14): 340-349.
[9] 徐琳宏,林鴻飛,楊志豪. 基于語義理解的文本傾向性識別[J]. 中文信息學(xué)報,2007,21(1):96-100.
[10] 孫曉,唐陳意. 基于層疊模型細粒度情感要素抽取及傾向分析[J]. 模式識別與人工智能, 2015(6): 531-520.
[11] 何晶璟. 追加評論對消費者購買意愿的影響[J]. 知識經(jīng)濟,2014(9):92-94.
[12] 汪濤,王魁,陳厚. 時間間隔何時能夠提高在線評論的有用性感知—基于歸因理論的視角[J]. 商業(yè)經(jīng)濟與管理,2015(2):46-56.
[13] 劉曉云,章艮鳳,徐麗麗. 在線追加評論對消費者網(wǎng)購意愿的影響研究[J].? 經(jīng)營管理者,2015(21):278-279.
[14] 王洪偉, 鄭麗娟, 尹裴, 等. 基于句子級情感的中文網(wǎng)絡(luò)評論的情感極性分類[J]. 管理科學(xué)學(xué)報, 2013, 16(9): 64-74.
[15] 唐曉波, 朱娟, 楊豐華. 基于情感本體和KNN算法的在線評論情感分類研究[J]. 情報理論與實踐, 2016(6): 110-114.
[16] KARTHIKEYAN T, RAVIKUMAR N. A survey on association rule mining[J].? International Journal of Advanced Research in Computer and Communication Engineering,2014,3(1):5223-5227.
[17] MANKAR S A, INGLE M. Implicit sentiment identification using aspect based opinion mining[J].? International Journal on Recent and Innovation Trends in Computing and Communication, 2015, 3(4):2184–2188.
[18] LAZHAR F,YAMINA T-G. Mining explicit and implicit opinions from reviews[J].? International Journal of Data Mining, Modelling and Management, 2016,8(1):75-92.
[19] SANTU K K S, SONDHI P, ZHAI C. Generative feature language models for mining implicit features from customer reviews[C]. Proceedings of the Twenty-Fifth ACM International on Conference on Information and Knowledge Management,2016:929-938.
(責(zé)任編輯:何 麗)