武雅利,徐勇,焦夢蕾,許崇,汪倩
(安徽財經(jīng)大學管理科學與工程學院,蚌埠233030)
據(jù)2019 年2 月發(fā)布的《第43 次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2018 年底,我國網(wǎng)民規(guī)模達8.29 億,網(wǎng)絡普及率不斷提升,高達59.6%。其中,我國網(wǎng)絡購物用戶高達6.10 億,占網(wǎng)民整體的73.6%。隨著線上購物的興起,網(wǎng)購所產(chǎn)生的在線評論成為研究熱點。
在線評論作為用戶生成內(nèi)容(User Generated Content,UGC)的一種存在形式,一直是電子商務平臺重要的研究對象。在文獻[1]一文中,給出了用戶生成內(nèi)容(UGC)、電子口碑(EWOM)、在線評論和在線推薦的金字塔模型,其概念逐漸地細化,信息的質(zhì)量也在不斷提升。在線評論作為金字塔的中堅力量,對在線推薦奠定了很好的基礎(chǔ),同時也是網(wǎng)絡電子口碑不可分割的一部分。部分網(wǎng)絡商家為營造出虛假的繁榮,會進行“刷單”操作,且雇傭網(wǎng)絡水軍做出虛假評論,而在線評論的真實與否,對整個電商平臺的環(huán)境至關(guān)重要[2]。因此,針對虛假評論和網(wǎng)絡水軍的識別工作至關(guān)重要。創(chuàng)建于2000 年“貓途鷹”(TripAdvisor),是全球領(lǐng)先的旅游點評軟件。2018 年9 月,意大利的Promo Salento公司因雇傭員工在“貓途鷹”中從事虛假好評并出售,被判處9 個月監(jiān)禁,且付出8000 歐元的經(jīng)濟賠償,成為全球首例因虛假評論被判刑的案件。
圖1 UGC、EWOM、在線評論和在線推薦概念圖
電商平臺中,虛假評論通常是指與事實不符的信息,即與商品本身特征不相符的評論。如今,網(wǎng)購在很大程度上便捷了人們的生活,但信息不對稱現(xiàn)象一直存在于賣家與買家之間[3,4],而在線評論的存在就是為了緩解這一矛盾。通過在線評論,顧客之間形成一種交流與互動,有購買意向的潛在消費者可以通過瀏覽已購買用戶的在線評論,從而對自己是否購買做出決定,不再只關(guān)注賣家的一面之詞,大大地降低了購物過程中的風險。在線評論推動了線上和線下業(yè)務逐漸增長,那么商家勢必會采取各種方式提升自己的好評率,虛假評論順勢而生。虛假評論屬于垃圾評論的一種,此外,垃圾評論還包括無關(guān)評論。相較于無關(guān)評論,虛假評論更易被誤認為真實評論,不易鑒別。
網(wǎng)絡水軍是指網(wǎng)絡環(huán)境中,出于利益驅(qū)使、或惡意擾亂網(wǎng)絡環(huán)境的不良動機,經(jīng)常性發(fā)布虛假言論的用戶個體。網(wǎng)絡水軍具有若干特征[5]。首先,網(wǎng)絡水軍進行對商品進行虛假評論往往是為了獲得經(jīng)濟利益,而正常用戶是為了表達真實的購物體驗以及為其他用戶提供幫助;其次,網(wǎng)絡水軍數(shù)量較大,為了取得明顯的效果需要利用水軍軟件、傀儡賬號,或雇傭大量賬號;最后,網(wǎng)絡水軍行為異常,會短時間聚集于目標商品的評論區(qū),并且這些評論通常具有很強的情感傾向。網(wǎng)絡水軍的不斷“進化”,使普通用戶越來越難以辨別,因此網(wǎng)絡水軍的識別工作愈加艱難。
針對用戶生成內(nèi)容、在線評論等研究興起于國外,國內(nèi)起步較晚但研究熱度較高。不同于由獨立單詞構(gòu)成的英文評論文本,針對中文評論文本的研究更為艱難。從語法上來說,構(gòu)成中文語句的基本單位是“詞”,而詞的結(jié)構(gòu)不固定,在分詞階段易出現(xiàn)信息遺漏、歧義等問題[6]。語法分析包括對文本進行詞袋特征分析及詞性特征分析[7]。根據(jù)中文結(jié)構(gòu),文本分析可分為詞匯層、句子層和文本層[8],語法分析在這三個層面上都存在一些問題。如缺少完善的實驗語料、實驗平臺;大多研究僅僅通過主題詞、短語、語法等信息判定語句的極性,未能加入詞語所在語境的硬性;在文本情感分析過程,無法準確地辨別除情感詞外的詞語對語句情感極性是否有影響等。
語義,是指語言的意義。計算機在理解在線評論所包含的意義時,需要將評論文本轉(zhuǎn)換為機器可以識別的語言?,F(xiàn)有的文本表示方法,通常利用谷歌公司于2013 年發(fā)布的Word2Vector 工具,將單條在線評論轉(zhuǎn)化為詞向量。針對每個詞進行語義信息改進,又可生成詞的語義特征向量[9]。
情感作為評論內(nèi)容隱含的因素,可作為區(qū)分正常評論和虛假評論的途徑[10]。通過將LDA 的結(jié)構(gòu)由原來的三層拓為四層,形成文檔、主題、情感、詞四層結(jié)構(gòu),并結(jié)合評論的主題信息,汪建成等將評論提取為6 維特征,提出了一種基于主題對立情感依賴模型(TOSDM)實現(xiàn)對虛假評論的檢測[11]。針對評論情感分析中的文本稀疏問題,M.H.Arif 通過對XCSR 分類器的擴展,改進了評論中帶有情感特定詞的分類效果,但仍存在局限性[12]。
電商平臺中,在線虛假評論的發(fā)起人可能是正常用戶,也可能是網(wǎng)絡水軍。信譽極低的用戶,其發(fā)布的評論也很可能是虛假評論[13-14]。金燕通過挖掘、分析用戶以往信息活動中的UGC 創(chuàng)建、轉(zhuǎn)發(fā)、評論等歷史行為,為用戶建立起個人信息行為動態(tài)信譽評級模型。并根據(jù)用戶的信譽等級,對用戶今后UGC 質(zhì)量進行預判[15]。對虛假評論檢測任務,李璐旸等主要從虛假評論文本、虛假評論發(fā)布者及虛假評論群組三個角度開展研究。該文將依次對三類研究進行歸納分析,具體分別從特征設計、模型方法、數(shù)據(jù)集、評級指標等方面進行了對比總結(jié)?;谖谋痉治龅臋z測研究包含三類檢測方法,分別是基于語法分析、基于語義分析和基于文體元數(shù)據(jù)分析的虛假評論文本檢測。
用戶在網(wǎng)絡中的行為都會被記錄,如瀏覽商品、商品收藏、評價點贊等行為。通過對這些行為進行分析,可以刻畫出用戶的真實畫像。現(xiàn)有學者分別針對股民、社交用戶等網(wǎng)絡用戶群體進行用戶畫像的刻畫,且取得不錯成功[16-17]。以微博平臺為例,齊超等通過對用戶轉(zhuǎn)發(fā)、評論和提及三種行為進行綜合分析,運用統(tǒng)計分析方法就微博用戶的不同行為對傳播影響力的貢獻進行度量,提出一種基于行為權(quán)值分配的PageRank 算法,對傳播影響力大小進行定量的分析。并通過真實數(shù)據(jù)進行實驗,結(jié)果得到了準確率更高的用戶影響力判斷,且分析出轉(zhuǎn)發(fā)行為是用戶影響力判定的重要因素[18]。
類似于現(xiàn)實社會的人際關(guān)系,網(wǎng)絡用戶存在著千絲萬縷的聯(lián)系。微博平臺用戶之間的關(guān)注、評論、點贊、轉(zhuǎn)發(fā)等行為[19];電商平臺中用戶的商品推薦、商品收藏、評論點贊等行為;知識問答社區(qū)的提問、回答、關(guān)注等行為?;凇傲瓤臻g理論”,網(wǎng)絡用戶之間同樣存在著“強關(guān)系”與“弱關(guān)系”[20]。網(wǎng)絡用戶的關(guān)系可視為一個加權(quán)無向圖,其中節(jié)點表示用戶,邊表示用戶之間的關(guān)系,邊的權(quán)值表示用戶之間的關(guān)系強度,徐志明等將用戶關(guān)系強度定義為用戶之間的相似度[21]。王大玲等梳理了“用戶”與“資源”量大兩大實體間的關(guān)系,包括用戶與用戶的聯(lián)系、用戶與資源間的操作利用以及資源間的相似性[22]。從用戶關(guān)系或用戶行為任一孤立的角度解決網(wǎng)絡水軍識別,都是存在缺憾的。因此,將網(wǎng)絡用戶與網(wǎng)絡資源相結(jié)合可以將網(wǎng)絡水軍識別工作更加完善。
《中華人民共和國電子商務法》的立法進程于2013年底正式被啟動,2018 年8 月正式頒布,并與2019 年1 月1 日起正式實施。該法案對信用炒作、虛假交易及限制競爭等行為提出懲戒原則,規(guī)范網(wǎng)絡市場秩序?!斗床徽敻偁幏ā分幸仓赋?,經(jīng)營者不得通過組織虛假交易等方式,幫助其他經(jīng)營者進行虛假或者引人誤解的商業(yè)宣傳??v觀近年來網(wǎng)絡水軍參與的網(wǎng)絡事件,網(wǎng)絡水軍雖然對社會輿論、商業(yè)環(huán)境產(chǎn)生一定不良影響,但未能完全操縱輿論,究其原因是網(wǎng)絡擁有自凈化機制自組織效應[23]。
國家相關(guān)部門頒布的相應法律法規(guī),對在線商品的虛假評論、網(wǎng)絡水軍有一定震懾作用。與此同時,還應加強廣大網(wǎng)民的思想道德建設。網(wǎng)絡環(huán)境中,用戶所發(fā)表的言論具有一定隨機性、匿名性、海量性等特點,致使網(wǎng)民忽視了UGC 的版權(quán)問題[24]。加強全民版權(quán)保護意識、UGC 主體的版權(quán)意識,依靠學校教育、社會教育,以及UGC 網(wǎng)站中對UGC 版權(quán)的宣傳。
本文基于語義、語法和用戶主體角度,總結(jié)了現(xiàn)有虛假評論識別方法?;谟脩粜袨楹陀脩絷P(guān)系兩方面,描述網(wǎng)絡水軍的識別方法。指出凈化網(wǎng)絡環(huán)境和提升用戶素質(zhì)角度,對虛假評論和網(wǎng)絡水軍現(xiàn)象進行治理。虛假評論檢測和網(wǎng)絡水軍識別一直是自然語言處理的研究熱點,除此之外,如何及時發(fā)現(xiàn)虛假評論、實時網(wǎng)絡水軍識別是下一步需要解決的問題。