劉 杰 付曉東 劉 驪 劉利軍
(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)
熱門B2C購物門戶用戶評(píng)論質(zhì)量影響因素分析研究
劉 杰 付曉東*劉 驪 劉利軍
(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)
用戶的在線評(píng)論可以有效地幫助用戶選擇在線商品或服務(wù)。然而,熱銷商品的用戶評(píng)論數(shù)量極其龐大,同時(shí),這些評(píng)論的質(zhì)量參差不齊。因此,評(píng)估評(píng)論質(zhì)量并挑選出高質(zhì)量的評(píng)論變得尤為迫切。目前網(wǎng)站采取邀請用戶人工標(biāo)注的方式評(píng)估評(píng)論的質(zhì)量,需耗費(fèi)用戶大量的時(shí)間和精力。為解決這個(gè)問題,提出了一個(gè)自動(dòng)化評(píng)估評(píng)論質(zhì)量的方法。該方法通過應(yīng)用基于評(píng)論與評(píng)論者兩類特征的支持向量機(jī)(SVM)分類器實(shí)現(xiàn)。在國內(nèi)著名在線購物網(wǎng)站京東的評(píng)論數(shù)據(jù)上測試了提出的方法。實(shí)驗(yàn)結(jié)果表明評(píng)估識(shí)別高質(zhì)量評(píng)論的準(zhǔn)確率達(dá)到了87.5%。通過實(shí)驗(yàn)發(fā)現(xiàn),能夠表征評(píng)論信息量的詞語數(shù)量和語句數(shù)量特征很好地評(píng)估了評(píng)論質(zhì)量。而由于來自用戶對商品的反饋信息的貧乏,能夠表征用戶反饋的有用性投票數(shù)量和回復(fù)數(shù)量特征并不能很好地評(píng)估評(píng)論質(zhì)量。在同時(shí)結(jié)合評(píng)論和評(píng)論者特征的基礎(chǔ)上,評(píng)估評(píng)論質(zhì)量的表現(xiàn)最佳。
在線評(píng)論 評(píng)論質(zhì)量 支持向量機(jī)(SVM)
越來越多的網(wǎng)站支持用戶發(fā)表評(píng)論來分享他們的觀點(diǎn)和經(jīng)驗(yàn)。評(píng)論的價(jià)值在于其中所包含的描述商品質(zhì)量與屬性信息。文獻(xiàn)[1-2]研究表明評(píng)論能夠有效地幫助用戶選擇在線商品或服務(wù)。用戶通常在購買商品后就會(huì)發(fā)表評(píng)論。因此,熱銷商品的評(píng)論會(huì)達(dá)到成千上萬條。然而,由于缺乏對評(píng)論內(nèi)容和格式的明確限制,評(píng)論的質(zhì)量也是參差不齊。例如,一些用戶在評(píng)論中虛夸或詆毀一些商品,一些用戶發(fā)表一些與商品無關(guān)的評(píng)論。用戶很難快速地從大量的質(zhì)量不一的評(píng)論中獲取有用信息。因此,網(wǎng)站迫切需要對評(píng)論質(zhì)量進(jìn)行評(píng)估并挑選優(yōu)質(zhì)的評(píng)論以提升用戶的在線體驗(yàn)。大多數(shù)網(wǎng)站通過要求用戶人工標(biāo)記評(píng)論質(zhì)量來解決這個(gè)問題。然而,由于用戶不愿意花費(fèi)大量的時(shí)間和精力去人工標(biāo)記評(píng)論質(zhì)量,很多評(píng)論并沒有用戶的手動(dòng)標(biāo)記結(jié)果。在文獻(xiàn)[3]中還提到了人工手動(dòng)標(biāo)記評(píng)論質(zhì)量的其他缺點(diǎn),如標(biāo)注的不平衡偏向,優(yōu)勝循環(huán)和早循環(huán)偏向。
評(píng)論質(zhì)量的評(píng)估越來越受到重視。文獻(xiàn)[4]為了實(shí)現(xiàn)對亞馬遜的評(píng)論質(zhì)量自動(dòng)評(píng)估,主要考量了元數(shù)據(jù)特征和詞典句法特征等。通過實(shí)驗(yàn)發(fā)現(xiàn),評(píng)論的長度和評(píng)分級(jí)別是影響評(píng)估評(píng)論質(zhì)量的主要特征。文獻(xiàn)[5]用類似的方法研究了在線論壇的評(píng)論質(zhì)量評(píng)估,并發(fā)現(xiàn)了詞匯特征對評(píng)論質(zhì)量評(píng)估影響最大。文獻(xiàn)[6]針對亞馬遜網(wǎng)站的圖書商品,通過比較普通評(píng)論與最佳評(píng)論之間的差距來評(píng)估評(píng)論的質(zhì)量。文獻(xiàn)中的最佳評(píng)論是由一些評(píng)論中的高頻詞匯和表征典型特征的詞匯組成的評(píng)論。文獻(xiàn)[7]通過結(jié)合經(jīng)濟(jì)理論分析和主觀觀點(diǎn)分析去評(píng)估亞馬遜網(wǎng)站的評(píng)論質(zhì)量,并發(fā)現(xiàn)主觀觀點(diǎn)分析能夠有效地幫助評(píng)估評(píng)論的質(zhì)量。文獻(xiàn)[8]將用戶在社交網(wǎng)絡(luò)中的屬性列入了評(píng)估評(píng)論質(zhì)量的特征依據(jù),發(fā)現(xiàn)用戶社交特征能夠提升評(píng)論質(zhì)量評(píng)估的效果。文獻(xiàn)[9]通過人工的有用性標(biāo)注來評(píng)估評(píng)論質(zhì)量。文獻(xiàn)[10]將商品類型作為評(píng)估評(píng)論質(zhì)量的特征依據(jù),發(fā)現(xiàn)對于搜索類商品,評(píng)論的深度對于評(píng)論質(zhì)量評(píng)估的影響效果要?jiǎng)儆谄鋵w驗(yàn)性商品評(píng)論質(zhì)量的評(píng)估。文獻(xiàn)[11]運(yùn)用復(fù)雜網(wǎng)絡(luò)理論分析了評(píng)論有用性與用戶需求的關(guān)系,其基礎(chǔ)仍然是評(píng)論文本的語義。文獻(xiàn)[12]研究了智能移動(dòng)設(shè)備上的評(píng)論內(nèi)容(被定義為輕型評(píng)論)與傳統(tǒng)評(píng)論的異同點(diǎn),得出文本中的情感信息對評(píng)論的質(zhì)量影響最大。
現(xiàn)階段另一方面的研究則集中在低質(zhì)量的評(píng)論檢測。文獻(xiàn)[13]通過語言學(xué)和心理學(xué)特征檢測發(fā)表虛假觀點(diǎn)的欺詐評(píng)論。文獻(xiàn)[14]從欺詐者的角度分析了虛假評(píng)論的特征屬性。文獻(xiàn)[15,16]通過定義的非正常模式檢測由欺詐團(tuán)體發(fā)布的虛假評(píng)論。文獻(xiàn)[17]通過特定時(shí)間模式來識(shí)別單獨(dú)的虛假評(píng)論。
在現(xiàn)有的評(píng)論研究領(lǐng)域,對于評(píng)論質(zhì)量評(píng)估方面,研究大都局限于考慮評(píng)論內(nèi)容本身的詞典或語義等屬性特征,并且存在評(píng)論內(nèi)容特征考慮不全或太過冗雜的情況。而對于低質(zhì)量評(píng)論檢測方面,研究則局限于考慮評(píng)論者的行為屬性特征。
本文提出了同時(shí)考慮評(píng)論內(nèi)容本身和評(píng)論者兩方面屬性特征的,基于支持向量機(jī)(SVM)分類器的自動(dòng)化評(píng)論質(zhì)量評(píng)估方法。而且全面考慮了評(píng)論內(nèi)容本身的各種屬性特征,對于冗雜的屬性特征通過主成分分析進(jìn)行了精簡。本文還在京東網(wǎng)站的數(shù)據(jù)上測試了提出的方法評(píng)估評(píng)論質(zhì)量的效果。并分析了不同屬性特征在評(píng)論質(zhì)量評(píng)估過程中的效果。
為了實(shí)現(xiàn)基于不同屬性特征的評(píng)論質(zhì)量的自動(dòng)化評(píng)估,并分析不同屬性特征在評(píng)估評(píng)論質(zhì)量過程中的效果,本文從評(píng)論和評(píng)論者兩方面考量屬性特征。
1.1 評(píng)論特征
評(píng)論特征是指與評(píng)論相關(guān)的屬性特征,包括與評(píng)論文本內(nèi)容獨(dú)立的元數(shù)據(jù)以及通過文本分析后得到的評(píng)論文本數(shù)據(jù)。
時(shí)間間隔TP(Time Period):用戶選購商品的時(shí)間以及發(fā)表評(píng)論的時(shí)間均被記錄在網(wǎng)站內(nèi)。這里定義用戶發(fā)表評(píng)論與購買商品之間的時(shí)間差作為時(shí)間間隔TP。時(shí)間間隔TP的數(shù)值為天數(shù)的差值。這表明,時(shí)間間隔TP數(shù)值越大,用戶發(fā)表評(píng)論與購買商品之間間隔的時(shí)間越久。通常,用戶在購買并體驗(yàn)商品一段時(shí)間后,才會(huì)發(fā)表出高質(zhì)量的評(píng)論內(nèi)容。
有用回復(fù)數(shù)值HRN(Helpful votes and Reply Numbers):有用性投票(helpful votes)是用戶在閱讀評(píng)論后,認(rèn)為評(píng)論是有用高質(zhì)量的,并對評(píng)論質(zhì)量手動(dòng)標(biāo)注為有用的行為。其數(shù)值是標(biāo)注評(píng)論為有用的用戶的數(shù)量。因此,有用性投票可以作為表征評(píng)論質(zhì)量的一個(gè)屬性特征?;貜?fù)評(píng)論(reply numbers)是用戶在閱讀評(píng)論后,對評(píng)論內(nèi)容感興趣,予以回復(fù)互動(dòng)的行為。其數(shù)值為評(píng)論獲得回復(fù)的數(shù)量。因此,評(píng)論回復(fù)數(shù)量也可以作為表征評(píng)論質(zhì)量的一個(gè)屬性特征。
然而,由于手動(dòng)標(biāo)注需要耗費(fèi)用戶大量的時(shí)間和精力,大量的評(píng)論并沒有獲得任何有用性投票或回復(fù)數(shù)量。在京東數(shù)據(jù)集中,只有38%的評(píng)論獲得了用戶的有用性投票。而且,只有32%的評(píng)論獲得了用戶的評(píng)論回復(fù)。評(píng)論的有用性投票和回復(fù)數(shù)量的分布圖分別如圖1和圖2所示。
圖1 有用性投票分布圖
圖2 回復(fù)數(shù)量分布圖
據(jù)此,猜測有用性投票數(shù)量和回復(fù)數(shù)量具有關(guān)聯(lián)性,并通過在實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行一個(gè)關(guān)聯(lián)測試來驗(yàn)證此猜測。測試結(jié)果如表1所示,該測試結(jié)果表明了有用性投票和回復(fù)數(shù)量具有關(guān)聯(lián)性。對于已經(jīng)獲得有用性投票或評(píng)論回復(fù)的評(píng)論,其有用性投票或回復(fù)數(shù)量數(shù)值大多數(shù)都未超過6。由于有用性投票和回復(fù)數(shù)量具有關(guān)聯(lián)性,而且數(shù)值都較小,定義有用性投票與回復(fù)數(shù)量的和值作為有用回復(fù)數(shù)值HRN。
表1 有用性投票與回復(fù)數(shù)量的關(guān)聯(lián)性測試
詞語與語句數(shù)量WSN(Words numbers and Sentences Numbers):詞語數(shù)量是指評(píng)論中包含的各種詞語的數(shù)量總和。詞語種類包括名詞、形容詞、動(dòng)詞和副詞等,詞語和語句數(shù)量屬性特征的具體定義及含義如表2所示。語句數(shù)量是指評(píng)論中包含的語句數(shù)量。評(píng)論中包含的詞語和語句數(shù)量越多,用戶從中能獲取的信息也越多。
表2 詞語數(shù)量和語句數(shù)量屬性特征
續(xù)表2
由于統(tǒng)計(jì)類型數(shù)據(jù)是由句法類型數(shù)據(jù)計(jì)算得到的,統(tǒng)計(jì)型數(shù)據(jù)與句法型數(shù)據(jù)具有一定的關(guān)聯(lián)性。為了消除這些屬性特征之間的關(guān)聯(lián)性,使其變得獨(dú)立,對這些屬性特征進(jìn)行主成分分析,經(jīng)過分析后的主成分之間具有獨(dú)立性。統(tǒng)計(jì)型和句法型數(shù)據(jù)屬性特征的主成分分析結(jié)果如表3所示。由表可知,統(tǒng)計(jì)型和句法型屬性特征經(jīng)過主成分分析得到兩個(gè)主成分。其中,第一成分為不同詞性詞語數(shù)量與語句數(shù)量成分,第二成分為嘆詞數(shù)量成分。然而,在數(shù)據(jù)集中,超過95%的評(píng)論中并不包含任何嘆詞。因此,我們省掉第二成分(嘆詞數(shù)量成分)對評(píng)估評(píng)論質(zhì)量的影響。對于第一成分(不同詞性詞語數(shù)量和語句數(shù)量成分),詞語數(shù)量WN包含了不同詞性詞語(如名詞數(shù)量MN,形容詞數(shù)量AN和動(dòng)詞數(shù)量VN等)。據(jù)此,定義詞語數(shù)量WN與語句數(shù)量SN的和作為詞語與語句數(shù)量WSN的值。
表3 成分矩陣
1.2 評(píng)論者特征
評(píng)論是由評(píng)論者(用戶)發(fā)表的,因此,評(píng)論的質(zhì)量也與評(píng)論者有著關(guān)聯(lián)性。為了更好地評(píng)估評(píng)論質(zhì)量,需要同時(shí)考量評(píng)論和評(píng)論者兩方面屬性特征。評(píng)論者特征是指與評(píng)論者(用戶)本身有關(guān)的屬性特征。
為了測試基于評(píng)論和評(píng)論者屬性特征的評(píng)論質(zhì)量評(píng)估效果,并分析不同特征在評(píng)估過程中的重要性,本文爬取了京東購物網(wǎng)站的用戶商品評(píng)論數(shù)據(jù)。數(shù)據(jù)的采集是在開源爬蟲軟件Heritrix的輔助下實(shí)現(xiàn)的。首先將包含評(píng)論的頁面以HTML的格式保存下來,然后通過HTMLParser解析頁面中包含的評(píng)論相關(guān)的內(nèi)容,并將其保存到SQL Server數(shù)據(jù)庫中。共采集了來自499 253 件商品的用戶評(píng)論,其中,由14 250名用戶對6 022件商品發(fā)表的21 501條評(píng)論被京東網(wǎng)站標(biāo)記為優(yōu)質(zhì)評(píng)論。
對于每一條評(píng)論,獲取以下相關(guān)數(shù)據(jù):
(1) 用戶對商品的評(píng)分,用于計(jì)算評(píng)分SR
(2) 用戶購買商品以及發(fā)表評(píng)論的時(shí)間,用于計(jì)算時(shí)間間隔TP
(3) 評(píng)論獲得的有用性投票以及回復(fù)數(shù)量,用于計(jì)算有用回復(fù)數(shù)值HRN
(4) 評(píng)論本身的文本內(nèi)容,用于計(jì)算詞語與語句數(shù)量WSN、情感詞語數(shù)量SWN和描述性詞語數(shù)量DWN
(5) 用戶評(píng)價(jià)的商品的優(yōu)點(diǎn)以及缺點(diǎn)
(6) 用戶對商品標(biāo)注的標(biāo)簽
(7) 商品的類別以及名稱(包括商品編號(hào))
(8) 用戶名(包括用戶編號(hào))以及用戶級(jí)別,用于計(jì)算用戶級(jí)別UL
為了獲得評(píng)論文本內(nèi)容的統(tǒng)計(jì)型和句法型數(shù)據(jù),通過ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)對評(píng)論文本進(jìn)行分詞處理。評(píng)論內(nèi)容的情感詞語分析是基于一個(gè)包含情感詞語集的HowNet語料庫實(shí)現(xiàn)的。在該語料庫中,包含積極與消極的感情,以及積極與消極的評(píng)論共四類情感詞語。這里從以下兩個(gè)維度分析評(píng)論的情感:積極的情感詞語(包含積極的感情和評(píng)論)與消極的情感詞語(包含消極的感情與評(píng)論)。
為了分析評(píng)論文本中的描述性詞語,由以下三部分詞語集組成描述詞語庫:用戶評(píng)定的商品優(yōu)缺點(diǎn)文本中包含的名詞、用戶標(biāo)注的商品標(biāo)簽文本中包含的名詞以及評(píng)論文本內(nèi)容中的高頻名詞。這些名詞描述了商品的品質(zhì)特征以及其他用戶關(guān)注的商品屬性。
評(píng)論質(zhì)量的評(píng)估是通過基于評(píng)論和評(píng)論者屬性特征的支持向量機(jī)(SVM)分類器實(shí)現(xiàn)的。支持向量機(jī)(SVM)的基本思想是:對于線性不可分的情況,通過定義適當(dāng)?shù)暮撕瘮?shù),將低維空間線性不可分的樣本轉(zhuǎn)化為高維特征空間,使其線性可分。它是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上,在特征空間中構(gòu)建最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化。核函數(shù)的引入,避免了“維數(shù)災(zāi)難”,減小了計(jì)算量,可以有效處理高維輸入。支持向量機(jī)避免了局部極小點(diǎn),并能夠解決過學(xué)習(xí)問題,具有良好的推廣性和較好的分類精確性。
在數(shù)據(jù)集中,有部分評(píng)論被京東網(wǎng)站標(biāo)記為優(yōu)質(zhì)的。本文假定被京東標(biāo)記為優(yōu)質(zhì)的評(píng)論確實(shí)為高質(zhì)量的評(píng)論,而未被京東標(biāo)記為優(yōu)質(zhì)的評(píng)論不是高質(zhì)量的評(píng)論。在此前提下,評(píng)估京東網(wǎng)站的評(píng)論質(zhì)量轉(zhuǎn)變?yōu)榕袛嘣u(píng)論是否高質(zhì)量的分類任務(wù)。
根據(jù)之前章節(jié)對評(píng)論和評(píng)論者屬性特征的定義,將每一個(gè)評(píng)論都轉(zhuǎn)化為一個(gè)基于評(píng)論及評(píng)論者屬性特征的向量。并將未在定義時(shí)標(biāo)準(zhǔn)化取值范圍為0至1的屬性特征數(shù)值標(biāo)準(zhǔn)化為0至1的取值范圍。
通過網(wǎng)格搜索獲取參數(shù)C(懲罰系數(shù),控制最大分類間隔和最小分類錯(cuò)誤率之間的平衡。C越大,表示主要把重點(diǎn)放在減少分類錯(cuò)誤上;C越小,表示主要把重點(diǎn)放在分離超平面上,避免過學(xué)習(xí)問題)和γ(徑向基核函數(shù)的一個(gè)參數(shù),影響SVM性能優(yōu)劣)的最優(yōu)值并執(zhí)行了十折交叉驗(yàn)證。利用訓(xùn)練獲取的模型進(jìn)行測試與預(yù)測。
在不同屬性特征組合情況下,評(píng)論質(zhì)量評(píng)估交叉驗(yàn)證的平均準(zhǔn)確率如表4所示。從表中結(jié)果可以得到,詞語和語句數(shù)量WSN屬性特征在單個(gè)屬性特征評(píng)估評(píng)論質(zhì)量的過程中表現(xiàn)最佳。說明了評(píng)論文本中包含的信息量最能直接影響評(píng)論質(zhì)量的評(píng)估。在單個(gè)屬性特征評(píng)估評(píng)論質(zhì)量的過程中,評(píng)分SR、情感詞語數(shù)量SWN和用戶級(jí)別UL也表現(xiàn)良好。
表4 不同屬性特征組合情況的評(píng)估正確率
然而,有用性投票和回復(fù)數(shù)量HRN屬性特征相比較其他屬性特征則表現(xiàn)不佳。有用性投票和回復(fù)數(shù)量HRN屬性特征表征著用戶對評(píng)論的回饋情況。由于用戶手動(dòng)標(biāo)注評(píng)論有用性以及回復(fù)評(píng)論行為耗時(shí),評(píng)論獲得的有用性投票以及回復(fù)數(shù)量數(shù)據(jù)稀疏。從而導(dǎo)致有用性投票和回復(fù)數(shù)量HRN屬性特征表現(xiàn)欠佳。將評(píng)論的各元數(shù)據(jù)SR、TP和HRN綜合以及將各文本數(shù)據(jù)WSN、SWN和DWN綜合的情況下,評(píng)論質(zhì)量評(píng)估的效果相比較考慮單獨(dú)屬性特征的效果有所提升。然而,將以上元數(shù)據(jù)與文本數(shù)據(jù)再綜合考慮時(shí),效果卻比單獨(dú)元數(shù)據(jù)或文本數(shù)據(jù)組合的情況要差。其原因是因?yàn)椴糠衷u(píng)論的元數(shù)據(jù)屬性特征與文本屬性特征表征的用戶對商品的態(tài)度有偏差。在綜合評(píng)論和評(píng)論者屬性特征情況下,評(píng)估評(píng)論質(zhì)量的表現(xiàn)有了顯著的提高。說明評(píng)論者屬性特征對于提升評(píng)論質(zhì)量的評(píng)估有顯著效果。
網(wǎng)站中充斥著大量質(zhì)量不一的評(píng)論內(nèi)容。因此,迫切需要評(píng)估評(píng)論的質(zhì)量并挑選出優(yōu)質(zhì)的評(píng)論以改善用戶體驗(yàn)。然而,大多數(shù)網(wǎng)站目前采取了耗時(shí)的邀請用戶人工手動(dòng)標(biāo)注評(píng)論質(zhì)量的方式來解決上述問題。
本文提出了一種自動(dòng)化的評(píng)論質(zhì)量評(píng)估方法。該方法通過基于若干評(píng)論和評(píng)論者屬性特征的支持向量機(jī)(SVM)分類器來實(shí)現(xiàn)。文中通過京東購物網(wǎng)站的部分?jǐn)?shù)據(jù)訓(xùn)練了SVM參數(shù),并在剩余數(shù)據(jù)上做了測試。測試結(jié)果表明,該方法在評(píng)估評(píng)論質(zhì)量方面達(dá)到了87.5%的準(zhǔn)確率。本文還分析了不同屬性特征在評(píng)估評(píng)論質(zhì)量過程中的重要性。經(jīng)過分析得出,單獨(dú)的屬性特征在評(píng)估評(píng)論質(zhì)量過程中,詞語和語句數(shù)量屬性特征表現(xiàn)最佳。其他的評(píng)分、情感詞語數(shù)量和用戶級(jí)別屬性特征也表現(xiàn)良好。然而,有用性投票和回復(fù)數(shù)量屬性特征由于缺乏用戶的回饋而表現(xiàn)一般。總之,在同時(shí)考慮了評(píng)論和評(píng)論者大量屬性特征的情況下,評(píng)估評(píng)論質(zhì)量的表現(xiàn)最優(yōu)。
本文能夠幫助讀者更好地了解不同屬性特征在評(píng)估評(píng)論質(zhì)量過程中的效果?;诓煌瑢傩蕴卣髟谠u(píng)估評(píng)論質(zhì)量過程中的重要性,可以有效地對待評(píng)估的評(píng)論質(zhì)量進(jìn)行評(píng)估。本文主要研究對象為搜索性商品,未來考慮將研究對象轉(zhuǎn)變?yōu)轶w驗(yàn)性商品,并比較評(píng)估體驗(yàn)性商品與搜索性商品的評(píng)論過程中,不同屬性特征的效果。
[1]ChevalierJA,MayzlinD.Theeffectofwordofmouthonsales:Onlinebookreviews[J].Journalofmarketingresearch,2006,43(3):345-354.
[2]DabholkarPA.Factorsinfluencingconsumerchoiceofa“ratingWebsite”:Anexperimentalinvestigationofanonlineinteractivedecisionaid[J].JournalofMarketingTheoryandPractice,2006,14(4):259-273.
[3]LiuJ,CaoY,LinCY,etal.Low-QualityProductReviewDetectioninOpinionSummarization[C]//EMNLP-CoNLL,2007:334-342.
[4]KimSM,PantelP,ChklovskiT,etal.Automaticallyassessingreviewhelpfulness[C]//Proceedingsofthe2006Conferenceonempiricalmethodsinnaturallanguageprocessing.AssociationforComputationalLinguistics,2006:423-430.
[5]WeimerM,GurevychI.Predictingtheperceivedqualityofwebforumposts[C]//ProceedingsoftheConferenceonRecentAdvancesinNaturalLanguageProcessing(RANLP),2007:643-648.
[6]TsurO,RappoportA.RevRank:AFullyUnsupervisedAlgorithmforSelectingtheMostHelpfulBookReviews[C]//ICWSM,2009.
[7] Ghose A,Ipeirotis P G.Designing novel review ranking systems:predicting the usefulness and impact of reviews[C]//Proceedings of the ninth international conference on Electronic commerce.ACM,2007:303-310.
[8] Lu Y,Tsaparas P,Ntoulas A,et al.Exploiting social context for review quality prediction[C]//Proceedings of the 19th international conference on World wide web.ACM,2010:691-700.
[9] Danescu Niculescu Mizil C,Kossinets G,Kleinberg J,et al.How opinions are received by online communities:a case study on amazon.com helpfulness votes[C]//Proceedings of the 18th international conference on World Wide Web.ACM,2009:141-150.
[10] Mudambi S M,Schuff D.What makes a helpful review? A study of customer reviews on Amazon.com[J].MIS quarterly,2010,34(1):185-200.
[11] 姜巍,張莉,戴翼,等.面向用戶需求獲取的在線評(píng)論有用性分析[J].計(jì)算機(jī)學(xué)報(bào),2013,36(1):119-131.
[12] 張林,錢冠群,樊衛(wèi)國,等.輕型評(píng)論的情感分析研究[J].軟件學(xué)報(bào),2014,25(12):2790-2807.
[13] Ott M,Choi Y,Cardie C,et al.Finding deceptive opinion spam by any stretch of the imagination[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1.Association for Computational Linguistics,2011.
[14] Lappas T.Fake reviews:The malicious perspective[M]//Natural Language Processing and Information Systems.Springer Berlin Heidelberg,2012:23-34.
[15] Mukherjee A,Liu B,Wang J,et al.Detecting group review spam[C]//Proceedings of the 20th international conference companion on World Wide Web.ACM,2011:93-94.
[16] Mukherjee A,Liu B,Glance N.Spotting fake reviewer groups in consumer reviews[C]//Proceedings of the 21st international conference on World Wide Web.ACM,2012:191-200.
[17] Xie S,Wang G,Lin S,et al.Review spam detection via temporal pattern discovery[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2012:823-831.
[18] Hsu C W,Chang C C,Lin C J.A practical guide to support vector classification[J].Mehdi Namdari,2003.
ANALYSIS ON QUALITY INFLUENCING FACTORS OF USER REVIEWSON POPULAR B2C SHOPPING SITE
Liu Jie Fu Xiaodong*Liu Li Liu Lijun
(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)
Users’ online reviews are helpful for users to choose products or service online. However, hot sale products hold a large number of reviews which vary considerably in quality. Thus, it’s urgent to assess the quality of reviews and pick out the high-quality ones. It’s a great waste of time and effort for users who are invited by sites to assess the quality manually at present. In order to solve this problem, a method for automatically assessing the quality of reviews is proposed. The method would be implemented with SVM classifier which is based on reviews and reviewers respectively. The review data on popular domestic online retailer JD.com is chosen to be tested. Experimental results show that the accuracy of high-quality reviews assessing has achieved 87.5%. The experiment proves that the quantity feature of words and sentences which can characterize the amount of information could help assess the reviews’ quality well. However, the performance of usable votes and reply quantity feature didn’t help a lot for its lack of feedback from users. It performs the best when combining both review feature and reviewer feature.
Online review Quality of review Support vector machine (SVM)
2016-02-22。國家自然科學(xué)
71161015,61462056,61462051,81560296)。劉杰,碩士生,主研領(lǐng)域:服務(wù)計(jì)算。付曉東,教授。劉驪,副教授。劉利軍,講師。
TP3
A
10.3969/j.issn.1000-386x.2017.03.012