朱娟
〔摘要〕[目的/意義]對在線虛假評論的現(xiàn)有研究進行梳理,分析研究現(xiàn)狀,明確未來研究發(fā)展方向。[方法/過程]以CNKI和Web of Science文獻為研究對象,從文獻分析的視角,采用定性與定量分析相結(jié)合的方法,從虛假評論的識別方法、特征提取以及防治策略的角度,對國內(nèi)外虛假評論研究的現(xiàn)狀進行了分析,總結(jié)和概括了本領(lǐng)域研究的熱點和存在的問題。[結(jié)果/結(jié)論]研究表明,在虛假評論的識別方法上,需加強對半監(jiān)督和無監(jiān)督學習的研究;在特征提取上,可考慮本體技術(shù)的應(yīng)用;在防治策略上,要考慮多學科多領(lǐng)域的合作。
〔關(guān)鍵詞〕在線商品;虛假評論;文獻分析;機器學習;識別方法;防治策略;特征提??;綜述
DOI:10.3969/j.issn.1008-0821.2017.05.028
〔中圖分類號〕F7241〔文獻標識碼〕A〔文章編號〕1008-0821(2017)05-0166-06
A Review of Key Issues in the Opinion Spams of Online ProductsZhu Juan1,2
(1.School of Information Management,Wuhan University,Wuhan 430072,China;
2.School of Information,Jiujiang University,Jiujiang 332005,China)
〔Abstract〕[Purpose/significance]The paper carded existing study about online product opinion spam,summarized research status,and put forward future research direction.[Method/process]From the perspective of document analysis,using a combination of qualitative and quantitative methods to analyze the present status of research on opinion spams,summarized the key issues and problems in the field.[Result/conclusion]This paper presented the existing problems and future direction of field from three aspects:recognition method,feature extraction and prevention strategy,which provided reference to the academic research more deeply.
〔Key words〕online products;opinion spam;literature analysis;machine learning;recognition method;prevention strategy;feature extraction
2014年,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的相關(guān)網(wǎng)購決策的報告指出,用戶評價在現(xiàn)階段的網(wǎng)絡(luò)購物決策中占據(jù)主導(dǎo)地位,375%的網(wǎng)購用戶在決策時主要考慮因素為用戶評價[1]。已購消費者對商品的評論信息在很大程度上影響了潛在消費者的購買決策,已有研究表明,80%的用戶在查詢到大量負面評論之后會放棄之前中意的商品,而87%用戶的購買決策是基于大量的正面評論[2]。在線評論信息在某種程度上會直接影響產(chǎn)品銷量,基于自身利益的考慮,商家會通過各種手段來詆毀或吹捧某些商品或服務(wù)[3]。研究表明,很多在線評論網(wǎng)站,如Amazon.com、Yelp.com等,存在著大量的虛假評論[4],在Yelp.com,16%的酒店評論信息被認為是虛假評論[5],國內(nèi)的淘寶更是如此,刷客橫行。虛假評論的出現(xiàn),淺層次而言,容易誤導(dǎo)消費者做出錯誤的決策;深層次而言,破壞電子商務(wù)市場規(guī)則,不利于公平、有序的市場建立。因此,對虛假評論的研究和識別迫在眉睫,并具有重要意義。
本文以虛假評論為主題,對虛假評論的研究進行了檢索,在分析相關(guān)文獻的基礎(chǔ)上,通過定性與定量分析相結(jié)合的方法,總結(jié)概括了國內(nèi)虛假評論研究的主要對象、關(guān)鍵要素及關(guān)鍵技術(shù)和方法,并對相關(guān)研究進行了評析,以期對我國虛假評論的研究現(xiàn)狀有一個整體把握,為我國學術(shù)界對虛假評論的進一步研究提供借鑒和參考。
1文獻統(tǒng)計數(shù)據(jù)
本文的研究數(shù)據(jù)主要來源于CNKI和Web of Science,檢索時間設(shè)定為2016年6月21日,以“虛假評論”、“垃圾評論”、“Review Spam”、“Fake Review”、“Opinion Spam”、“Fake Opinion”為主題進行高級檢索,共得到中文文獻104篇,剔除掉4個噪聲數(shù)據(jù)《讓人又愛又恨的驗證碼》、《業(yè)者揭秘“偽書”出版鏈條》、《現(xiàn)代偽書現(xiàn)象研究》、《亦愛亦恨驗證碼》,有效文獻國內(nèi)100篇,國外最相關(guān)文獻50篇。從表1可以看出,虛假評論的研究始于2007年,2010年之后呈現(xiàn)出研究的活躍期,期刊數(shù)量呈逐年遞增的趨勢。究其原因,可以從社會和學術(shù)兩個領(lǐng)域來分析,在社會領(lǐng)域,電子商務(wù)經(jīng)歷了1997-2002年的初創(chuàng)期、2003-2007年的快速發(fā)展期,由于支付寶的推出和國家相關(guān)文件的出臺,電子商務(wù)進入了創(chuàng)新發(fā)展期[6],電子商務(wù)的蓬勃發(fā)展為在線評論的研究提供了土壤;在學術(shù)領(lǐng)域,2007年,Jindal首次提出了在線商品垃圾評論檢測(Review Spam Detection)[7]也為國內(nèi)學術(shù)界提供了新的視角。
5在所收集的數(shù)據(jù)中,虛假評論的研究文獻多集中于情報、計算機和經(jīng)濟管理領(lǐng)域,見表2,表中列舉了國內(nèi)發(fā)文量至少兩篇的期刊。其中,情報學領(lǐng)域發(fā)文最多,包括《現(xiàn)代圖書情報技術(shù)》、《中文信息學報》、《現(xiàn)代情報》、《圖書情報工作》共計發(fā)文13篇,主要集中在討論如何將情報學理論與計算機技術(shù)結(jié)合來研究虛假評論。其次是計算機領(lǐng)域,包括《電腦愛好者》、《計算機工程與應(yīng)用》、《計算機應(yīng)用與軟件》、《計算機工程》、《計算機應(yīng)用》、《計算機科學》共計發(fā)文12篇,主要討論虛假評論識別算法及其改進。經(jīng)濟管理領(lǐng)域主要包括《現(xiàn)代經(jīng)濟信息》和《科技創(chuàng)業(yè)月刊》共計發(fā)文4篇,更關(guān)注虛假評論對商務(wù)活動的影響性。國外文獻分布相對分散,其中,《EXPERT SYSTEMS WITH APPLICATIONS》3篇,《Application Research of Computers》2篇,其它期刊均為1篇,但是所涉及的領(lǐng)域基本與國內(nèi)分布一致,計算機、情報和經(jīng)濟管理,但是在心理學領(lǐng)域也有涉及,其中在《JOURNAL OF APPLIED PSYCHOLOGY》發(fā)文1篇。
2計算機科學2
對文獻作者單位進行分析,發(fā)現(xiàn)對虛假評論的研究國內(nèi)主要集中在武漢大學、華中師范大學等科研院所,如表3所示。武漢大學計算機學院姬東鴻教授團隊在虛假評論識別算法方面進行了深入研究,取得了不錯的成果[8-11]。武漢大學信息管理學院張李義團隊在刷客識別方面也給出了創(chuàng)新意見[12],華中師范大學婁策群團隊也在虛假評論的形成路徑和影響因素方面的研究做出了重要貢獻[13-15]。國外則主要集中在伊利諾伊大學的Liu Bing及其團隊,共發(fā)文3篇[7,16-17],新加坡南洋理工大學的Banerjee發(fā)文2篇[18-19],除此以外,來自墨西哥等國家的學者也對虛假評論進行了相關(guān)研究,如表4所示。
22虛假評論概念解析
利用文獻分析工具SATI32提取100篇中文文獻的關(guān)鍵字,構(gòu)建共現(xiàn)矩陣,并用Netdraw畫出其關(guān)系圖,如圖1所示。圖1關(guān)鍵詞共現(xiàn)關(guān)系圖
從國內(nèi)文獻來看,對虛假評論的研究,在概念上對“虛假評論”和“垃圾評論”的區(qū)分是模糊的,但是從研究的實質(zhì)上,基本上一致,即通過互聯(lián)網(wǎng)發(fā)布的不真實的具有欺騙性的評論[20]。從數(shù)量上而言,“虛假評論”作為關(guān)鍵字出現(xiàn)的次數(shù)為23次,“垃圾評論”作為關(guān)鍵字出現(xiàn)的次數(shù)為29次,“虛假評論”略遜一籌,但是就影響性而言,本領(lǐng)域兩大重要學術(shù)圈,武漢大學學術(shù)圈和華中師范大學學術(shù)圈在本領(lǐng)域的探討中,均使用的是“虛假評論”的概念[21-22]。
根據(jù)學術(shù)研究的一般慣例,虛假評論研究的興起起源于國外Liu Bing學術(shù)團隊,并給出了概念Review Spam[23],將其分為3類虛假評論(Untruthful Opinions)、無關(guān)評論(Reviews on Brands Only)以及非評論信息(Non-reviews)。國內(nèi)學者就評論的影響性和價值的角度,普遍將虛假評論(Untruthful Opinions)作為了主要研究對象,但是部分學者從概念上仍然沿用了Jindal的Review Spam,即垃圾評論。
從表達的準確性而言,本文認同武漢大學和華中師范大學學術(shù)圈的觀點,取“虛假評論”作為本文描述的概念界定。
3研究關(guān)鍵問題解析
結(jié)合關(guān)鍵字共現(xiàn)矩陣及其所在相關(guān)論文,可以發(fā)現(xiàn)國外內(nèi)對虛假評論的研究主要集中在以下3個領(lǐng)域:虛假評論形成動機及其對消費者購買意愿影響;虛假評論識別;以及虛假評論防治。
31虛假評論的形成動機及其對消費者購買意愿影響由于在線評論對于消費者購買決策起到了至關(guān)重要的作用,促使商家或個人基于利益的考慮發(fā)布不實評論,從中謀取利益。Kugler、Mukherjee認為虛假評論形成的主要原因是因為評論發(fā)布者試圖影響潛在購買者的決策[24-25]。鄭春東等認為虛假評論的動機主要在于宣傳造勢、以優(yōu)抵差和惡意詆毀3類[26]。討論虛假評論的形成機制,可追溯到發(fā)布虛假評論的人,陳燕方認為虛假評論的發(fā)布者可以分為職業(yè)虛假評論者、一般虛假評論發(fā)布者和正常評論者[27],并將虛假評論的發(fā)布路徑歸結(jié)為5條:①正常評論者——正常評論。消費者在當下作出了客觀真實的評價,但是時移世易,隨著時間的推移,商品發(fā)生了好的或壞的變化,導(dǎo)致先前評價不適宜當下的產(chǎn)品,從而誤導(dǎo)了后來的消費者。②正常評論者——過高/過低評論。由正常評論者的性格屬性決定,過度寬容者習慣給好評,過度完美者習慣給差評。③商家——一般虛假評論者——過高評論。一方面商家通過好評返現(xiàn)等手段誘惑消費者給出過高評價;另一方面商家對給差評者通過騷擾、退款等手段強迫其刪除或修改差評。④商家——一般虛假評論者——過低評論。分兩類,一類是商家和消費者之間在購買過程中出現(xiàn)沖突,導(dǎo)致消費者有意給過低差評報復(fù)商家;另一類是商家故意差評競爭對手,通過惡意競爭謀取利益。⑤商家——中介——職業(yè)虛假評論者——過高/過低評價。商家為短期內(nèi)快速形成較高的信譽度吸引消費者或者打擊競爭對手,利用第三方平臺,在沒有實際成交的情況下,職業(yè)虛假評論者進行虛假的好評或差評。
究其原因,形成這些虛假評論的動因,孟美任將其歸納為推銷、干擾和詆毀[28],具體而言就是:首先,電子商務(wù)中信息不對稱導(dǎo)致消費者過度依賴商家信譽度,而現(xiàn)有電子商務(wù)交易平臺信譽監(jiān)管制度的不完善,導(dǎo)致商家為了利益在提升自己信譽度和打擊競爭對手信譽度上大做文章。其次,根據(jù)口碑傳播理論,負面口碑比正面口碑對消費者購買意向影響更大,使得商家通過各種手段消除負面口碑對自身的影響或者制造負面口碑打擊競爭對手。最后,消費者本身的特征或者情境的改變也會造成虛假評論的產(chǎn)生。
虛假評論的存在,也會影響消費者購買意愿。劉璇認為如果虛假評論大量存在,當消費者對此有所感知的時候,消費者會啟動消費者防御模型,影響其購買意愿和決策[29]。因此,如何識別虛假評論,盡量避免其對電子商務(wù)秩序的破壞就顯得尤為重要。
32虛假評論的識別
關(guān)于虛假評論的識別,目前的研究主要從兩個角度來展開:基于評論文本的角度和基于評論者的角度?;谠u論文本的識別主要通過在線評論的文本、語義特征等屬性來識別虛假評論;而后者主要是針對那些專業(yè)的虛假評論者會模仿真實評論來編寫虛假評論,故認為從評論文本來識別存在缺陷,提出了根據(jù)評論者不同于真實評論者的行為模式和評論特征,通過識別虛假評論者從而間接識別虛假評論。
321基于評論文本的識別
基于評論文本的虛假評論識別模型是目前識別虛假評論的主流方法[30],該模型的基本原理是將虛假評論的識別問題轉(zhuǎn)化為對評論的二分類問題,即根據(jù)評論特征將評論分為真實評論和虛假評論兩類,其算法流程如圖2所示。圖2基于評論的虛假評論識別模型
評論特征主要包括兩部分:文本特征(文本長度、評論回復(fù)數(shù)、問答句數(shù)目、品牌提及度等[31-34]),和語義特征(產(chǎn)品特征詞百分比、正面情感程度、負面情感程度[35])。所用的方法主要是在特征提取的基礎(chǔ)上,將虛假評論識別問題轉(zhuǎn)化為對評論文本的分類問題。常用的有監(jiān)督的分類學習算法有k-近鄰算法、支持向量機算法、樸素貝葉斯等,如表5所示。陳昀通過動態(tài)K值和對距離公式加權(quán)來改進kNN分類器,從而提高虛假評論識別的準確率和識別速[36]。對基于內(nèi)容的虛假評論識別,宋海霞分別利用支持向量機(SVM)、最大熵(ME)、以及貝葉斯(Bayes)分別進行實驗,并且認為支持向量機對虛假評論的識別效果最好[37]。支持向量機作分類在虛假評論識別中獲得了很好的應(yīng)用[38]。表5基于評論文本的特征識別及算法
文獻識別算法〖〗評論特征[31]隨機森林[32]支持向量機[33][34]樸素貝葉斯文本長度,評論回復(fù)數(shù),
問答句數(shù)目,品牌提及度[35]模糊k均值聚類[36]k-最近鄰算法產(chǎn)品特征詞百分比,正面
情感程度,負面情感程度
將評論文本作為研究對象,通過對文本特征進行提取,分析虛假評論文本的特點,利用有監(jiān)督的機器學習算法對評論進行真實評論和虛假評論的分類,雖然對于虛假評論的識別取得了一定成效。但是仍然存在著缺陷:①虛假評論者可能會模仿真實評論特征發(fā)布虛假評論,這種具備真實評論特征的虛假評論通過基于評論特征的識別方法無法識別;②訓練集的人工標注費時費力,還容易出現(xiàn)誤例。
322基于評論者的識別
基于評論者的識別從某種程度上彌補了上述缺陷,避免了可以模仿真實評論的虛假評論的干擾。其原理是通過識別虛假評論者不同于普通用戶的評論行為方式和特征,利用分類和排序技術(shù),識別虛假評論者,從而進一步識別出虛假評論[39]。這一方法的前提條件,是假設(shè)虛假評論者往往是慣犯,或水軍,其自身具有特殊性。于是從評論者角度,獲取其特征構(gòu)建虛假評論者識別指標。邵珠峰認為虛假評論者和一般評論者之間存在情感極性上的差異,因此,將評論信息的情感特征加入識別模型,并結(jié)合用戶與商品之間的關(guān)系,構(gòu)建了一個識別虛假評論者的多邊圖模型[40]。
聶卉等提出了識別虛假評論人的6個特征因子,包括貢獻量、層級、情緒、活躍度、文字素養(yǎng)、評論差異等[41]。其中貢獻量指評論人貢獻和評論人發(fā)文總量,層級指評論人單日最大發(fā)文量、評論人級別以及評論文本內(nèi)容最大相似度,情緒指評論人正面評論占比和負面評論占比,活躍度指網(wǎng)齡和發(fā)文間隔,文字素養(yǎng)指評論文本平均長度,評論差異指評論偏差。并通過回歸分析表明評論人的貢獻度、活躍度以及文字素養(yǎng)對于識別其是否為虛假評論者具有顯著影響。
上述方法雖然從評論者角度來識別虛假,克服了水軍模仿真實評論發(fā)布虛假評論,而基于評論特征的識別方法不能識別的不足,但是其識別的方法仍然是分類,與基于評論的識別類似。
Wang G、徐小婷等人提出了一種全新的識別方法,基于評論圖的網(wǎng)絡(luò)產(chǎn)品虛假評論人的檢測方法[42-43],這種方法通過評論、評論人和店鋪之間的相互影響關(guān)系建立一個互相制約的評論圖結(jié)構(gòu),其中衡量作弊程度的特征指標包括:評論的可信度、評論人的忠實度和店鋪的可靠度。王琢在此基礎(chǔ)上做了改進,將店鋪換成了產(chǎn)品節(jié)點,并對節(jié)點附加了新的特征數(shù)據(jù),評論節(jié)點包括評分等級、與所評產(chǎn)品的其它評論間的差異度、其它評論人對該評論的投票數(shù)以及該評論有幫助的投票數(shù),產(chǎn)品節(jié)點包括產(chǎn)品評論打分值,評論人節(jié)點具有該評論人進行多次評論的產(chǎn)品數(shù)以及在這些多次評論的產(chǎn)品中該評論人的評論數(shù)量等[44]。
基于評論圖的基本原理如圖3所示。圖中各節(jié)點之間具有互相制約的復(fù)雜關(guān)系:某個評論人的可信度取決于其所寫評論的忠實度;某個產(chǎn)品的可靠度取決于所有對其評論的可信評論人的分數(shù);而某條評論的忠實度取決于該評論所評商品的可靠度。經(jīng)過多次迭代后,各節(jié)點的信譽度將收斂到穩(wěn)定值,系統(tǒng)達到最終平衡,最終得分較低的評論人為虛假評論撰寫者。
圖3評論圖的基本原理
33虛假評論的防治
虛假評論的防治,不僅是技術(shù)的事,還是制度和體制的事。陳燕方從虛假評論的治理目標、治理對象以及治理途徑的角度進行了研究,認為虛假評論的防治必須以完善地信用體系制度、健全的法律制度作為外在輔助,以高效的檢測模型作為內(nèi)在動力,具體而言從以下3個方面來進行[45]:①對造成虛假評論的主要責任人加強監(jiān)管,包括商家、虛假評論中介、消費者以及電子商務(wù)交易平臺。②減弱虛假評論形成路徑的促進因素,比如完善標準化的評價體系,建立第三方信用評價機制等。③激勵消費者做出真實有用的評論。
4存在問題及未來研究方向
從上述的分析可以看出,當前對于虛假評論的研究主要集中在計算機、情報以及經(jīng)濟管理領(lǐng)域,其研究的重點主要集中在利用計算機技術(shù)實現(xiàn)對虛假評論的識別,利用情報組織分析理論研究虛假評論特征提高識別率,以及對虛假評論動機及其影響因素進行分析。各領(lǐng)域的研究都取得了一定的進展,但是仍然存在著一些問題,尚需進一步研究。
1)在識別方法上,以KNN、SVM等有監(jiān)督的機器學習算法為主。這些算法在虛假評論識別的查全率和查準率上取得了一定成果,但是由于有監(jiān)督的學習算法,測試集主要通過人工標注實現(xiàn),一是代價大;二是容易出現(xiàn)誤例。因此,半監(jiān)督或無監(jiān)督的學習算法有待進一步研究。
2)在虛假評論的特征提取上,主要采用自然語言處理技術(shù)獲取評論文本、評論人等屬性作為虛假評論特征,將情報組織中的元數(shù)據(jù)、本體論等方法應(yīng)用于虛假評論特征提取及分析還做得不夠,未來可考慮結(jié)合情報領(lǐng)域理論和技術(shù)更準確獲取虛假評論特征。
3)在虛假評論影響因素和防治策略上,目前的研究者還集中在經(jīng)濟管理領(lǐng)域,而缺乏相關(guān)法學領(lǐng)域的介入,我國電商領(lǐng)域相關(guān)法規(guī)制度的不健全,網(wǎng)絡(luò)用戶信用制度的缺失,也是造成虛假評論猖獗的重要因素,未來需要更多領(lǐng)域?qū)<彝度氡绢I(lǐng)域的研究工作,共同構(gòu)建良好的電子商務(wù)環(huán)境和秩序。
參考文獻
[1]中國互聯(lián)網(wǎng)信息中心.2013年中國網(wǎng)絡(luò)購物市場研究報告[R].2014,(4):18-19.
[2]Cone Research.Game Changer:Cone Survey Finds 4-out-of-5 Consumers Reverse Purchase Decisions Based on Negative Online Reviews[EB].Available at:http:∥www.conecomm.com/contentmgr/showdetails.php/id/4008.2011.
[3]Pealver-Martinez I,Garcia-Sanchez F,Valencia-Garcia R,et al.Feature-based opinion mining through ontologies[J].Expert Systems with Applications,2014,41(13):5995-6008.
[4]JOHN BOONE.A Hotel in New York Allegedly Threatened Guests With a 500 Fine If They Wrote Bad Reviews on Yelp[EB/OL].http:∥www.eonline.com/news/566056/a-hotel-in-new-york-allegedly-threatened-guests-with-a-500-fine-if-the-wrote-bad-reviews-on-yelp?utmsource=eonline&utmmedium=rssfeeds&utmcampaign=imdbtopstories,2014-08-05.
[5]Luca M,Zervas G.Fake it till you make it:Reputation,competition,and Yelp review fraud[J].Management Science,2016.
[6]中國電子商務(wù)研究中心.盤點:我國電子商務(wù)發(fā)展歷程、現(xiàn)狀分析[EB/OL].http:∥b2b.toocle.com/detail--6170951.html.
[7]Jindal N,Liu B.Review spam detection[C]∥Proceedings of the 16th international conference on World Wide Web.ACM,2007:1189-1190.
[8]任亞峰,姬東鴻,張紅斌,等.基于PU學習算法的虛假評論識別研究[J].計算機研究與發(fā)展,2015,52(3):639-648.
[9]任亞峰,尹蘭,姬東鴻.基于語言結(jié)構(gòu)和情感極性的虛假評論識別[J].計算機科學與探索,2014,8(3):313-320.
[10]任亞峰,姬東鴻,尹蘭.基于半監(jiān)督學習算法的虛假評論識別研究[J].四川大學學報:工程科學版,2014 (3):62-69.
[11]任亞峰,姬東鴻.基于情感特征和用戶關(guān)系的虛假評論者的識別[J].計算機應(yīng)用與軟件,2016,33(5):158-161.
[12]張李義,張皎.一種基于主成分分析和隨機森林的刷客識別方法[J].現(xiàn)代圖書情報技術(shù),2015,(10):65-71.
[13]李京蔚,婁策群.在線商品虛假評論形成與影響綜述[J].科技創(chuàng)業(yè)月刊,2015,(14):38-39.
[14]李京蔚.在線商品垃圾評論發(fā)布動機影響因素研究[J].企業(yè)技術(shù)開發(fā):中旬刊,2016,35(2):72-72.
[15]楊敏.在線商品虛假評論對交易雙方的影響研究[J].現(xiàn)代經(jīng)濟信息,2016,(1):159.
[16]Mukherjee A,Kumar A,Liu B,et al.Spotting opinion spammers using behavioral footprints[C]∥Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2013:632-640.
[17]Mukherjee A,Liu B,Glance N.Spotting fake reviewer groups in consumer reviews[C]∥Proceedings of the 21st international conference on World Wide Web.ACM,2012:191-200.
[18]Chua A Y K,Banerjee S.Understanding review helpfulness as a function of reviewer reputation,review rating,and review depth[J].Journal of the Association for Information Science and Technology,2015,66(2):354-362.