郭愷強(qiáng) 曹麗
如今在網(wǎng)絡(luò)社會(huì)的高速發(fā)展下,電商平臺(tái)也迎來(lái)了高峰,給人們?nèi)粘I畹馁?gòu)買也提供了較為快捷的方式,人們?cè)絹?lái)越喜歡在網(wǎng)上購(gòu)物,網(wǎng)絡(luò)購(gòu)物如今已成為人們生活的一份子,基于大數(shù)據(jù)時(shí)代的背景下,很多電商網(wǎng)站不僅給人們帶來(lái)了許多的方便,但是由于網(wǎng)絡(luò)的復(fù)雜性與繁多進(jìn)而導(dǎo)致了消費(fèi)者很難對(duì)所要購(gòu)買的商品有一個(gè)真實(shí)的了解性,許多電商網(wǎng)站秉承著消費(fèi)者為上帝這一原則,但是隨著網(wǎng)絡(luò)時(shí)代的發(fā)展,也有許多電商在利益的誘惑下,會(huì)通過(guò)雇傭刷好評(píng)人員對(duì)自家店鋪商品進(jìn)行虛假好評(píng)等多種現(xiàn)象,同時(shí)大部分電商網(wǎng)站也允許消費(fèi)者對(duì)所購(gòu)買的商品進(jìn)行言語(yǔ)評(píng)論,書寫所購(gòu)買到的商品的感想,例如產(chǎn)品質(zhì)量的好壞,物流速度的快慢,客服的態(tài)度進(jìn)行評(píng)價(jià),虛假評(píng)論的識(shí)別方式大部分都是通過(guò)評(píng)論者的言語(yǔ)以及圖像文本的形式特征來(lái)進(jìn)行識(shí)別,網(wǎng)絡(luò)的迅速發(fā)展提高了社會(huì)的經(jīng)濟(jì)發(fā)展,同時(shí)也對(duì)于電商網(wǎng)站也遭受了不平等的形式。
隨著計(jì)算機(jī)科技技術(shù)的發(fā)展,電商時(shí)代也越來(lái)越豐富,很多平臺(tái)為了店鋪的利潤(rùn),對(duì)于消費(fèi)者也開(kāi)放了多種評(píng)論功能,就目前而言,大部分消費(fèi)者的購(gòu)買商品方式多半是源自于評(píng)論區(qū)的評(píng)論, 據(jù)市場(chǎng)研究公司 Jupiter Research 的調(diào)查結(jié)論,超過(guò)75%的消費(fèi)者在線購(gòu)買商品之前,會(huì)參考在線評(píng)論信息。但是,在經(jīng)濟(jì)利益的驅(qū)動(dòng)下,有些用戶會(huì)對(duì)商品發(fā)表欺騙性的評(píng)論信息或者雇傭?qū)iT人員來(lái)撰寫虛假在線評(píng)論,從而蓄意提升自己或打壓、誹謗他人的產(chǎn)品。在對(duì)在線評(píng)論缺乏有效監(jiān)管的情況下,處于各種目的的虛假在線評(píng)論充斥著互聯(lián)網(wǎng),模糊事情的真相,干擾人們的判斷?;诖耍岢龌谡Z(yǔ)義分析的電商虛假評(píng)論識(shí)別方法,在顧客言語(yǔ)評(píng)論的基礎(chǔ)上進(jìn)行評(píng)論語(yǔ)言的語(yǔ)義分析方法,能夠更好的識(shí)別惡意評(píng)論,提升商品的準(zhǔn)確性。
虛假評(píng)論(Fake Review)也稱為Opinion Spam、Review Spam,是由一些用戶蓄意發(fā)表的不真實(shí)的、有欺騙性質(zhì)的評(píng)論,從而提高或者毀壞某一產(chǎn)品的聲譽(yù),誤導(dǎo)潛在消費(fèi)者,使其作出風(fēng)險(xiǎn)性的購(gòu)買決策。虛假評(píng)論包括正面或負(fù)面的不真實(shí)評(píng)論、與產(chǎn)品無(wú)關(guān)的評(píng)論。發(fā)表此類評(píng)論的用戶稱為Review Spammer、Opinion Spammer 或者Fake Reviewer。這一群體則被稱為Spammer Group,他們針對(duì)某一商品共同發(fā)布旨在宣傳或詆毀該商品的虛假言論。
虛假評(píng)論可以分為三類:(1)作弊評(píng)論(Untruthful Opinions),指蓄意提高或毀壞產(chǎn)品聲譽(yù)的不真實(shí)的評(píng)論,過(guò)度吹捧產(chǎn)品的評(píng)論;(2)品牌效應(yīng)評(píng) eviews on Brands Only),指評(píng)論的對(duì)象僅僅是品牌、生產(chǎn)商、銷售商等與產(chǎn)品本身無(wú)關(guān)的評(píng)論;(3)非評(píng)論信息(Non-reviews),如廣告、讀者的問(wèn)題和回復(fù)等。根據(jù)文字層面的相似度,虛假評(píng)論還可以分為重復(fù)評(píng)論(d plicate review)和非重復(fù)評(píng)論(singeltonreview)。根據(jù)語(yǔ)義層面的相似度,可以分為相同語(yǔ)義評(píng)論和不同語(yǔ)義評(píng)論,從語(yǔ)義褒貶層面可以分為贊揚(yáng)性評(píng)論和詆毀性評(píng)論,從語(yǔ)義與主題相關(guān)性層面,可以分為主題相關(guān)評(píng)論和主題無(wú)關(guān)評(píng)論,還可分為宣傳造勢(shì)類、惡意詆毀類、以優(yōu)抵差類。
部分學(xué)者將“虛”和“假”分開(kāi)定義,其中“虛”是指濫發(fā)沒(méi)有任何價(jià)值的評(píng)論信息。等同于無(wú)關(guān)評(píng)論以及非評(píng)論信對(duì)于消費(fèi)者和商家的誤導(dǎo)作用較弱,在平臺(tái)的意見(jiàn)挖掘系統(tǒng)中也極易識(shí)別,并不會(huì)影響評(píng)論的情感分析和效用排序系統(tǒng)的穩(wěn)定性。由于信息具有時(shí)效性,在一個(gè)較長(zhǎng)的時(shí)間段,商家的服務(wù)可能發(fā)生了改善,之前的差評(píng)也失去了對(duì)消費(fèi)者決策的指導(dǎo)意義,這種失效的評(píng)論也構(gòu)成虛假評(píng)論。
一、做好有關(guān)隱含語(yǔ)義分析的電商虛假評(píng)論識(shí)別的相關(guān)工作
顧客對(duì)于所要購(gòu)買的商品參考評(píng)論進(jìn)而決定,是對(duì)于購(gòu)買決策的關(guān)鍵性,當(dāng)然,在這一基礎(chǔ)下,并不是所有的商品評(píng)論都是可信度高的,很有可能是虛假評(píng)論,當(dāng)然也有些評(píng)論是真實(shí)的顧客所書寫的,也有些評(píng)論是刷出來(lái)的虛假評(píng)論,虛假的評(píng)論對(duì)于顧客決定購(gòu)買商品的正確方式是存在一定的誤導(dǎo)性的,因此,針對(duì)虛假評(píng)論這一問(wèn)題的分析是很有必要的,做好虛假評(píng)論的主要識(shí)別方法要從評(píng)論者的特征以及言語(yǔ)來(lái)研究,針對(duì)評(píng)論內(nèi)容的長(zhǎng)度和情感詞等多個(gè)因素,把評(píng)論者和內(nèi)容相互融合進(jìn)行研究虛假評(píng)論是當(dāng)前評(píng)論方法較好一種方式。比如:2012年,學(xué)者便使用基于概率的上下文無(wú)關(guān)文法規(guī)則特征,用支持向量機(jī)分類器進(jìn)行真實(shí)與虛假在線評(píng)論分類,并在標(biāo)準(zhǔn)數(shù)據(jù)集上獲得了驗(yàn)證。還有研究側(cè)重分析文本內(nèi)容中蘊(yùn)含的情感特征,如果情感表現(xiàn)得過(guò)于吹捧或詆毀,則存在虛假在線評(píng)論的可能性。但是 Hu 和 Liu發(fā)現(xiàn)評(píng)論內(nèi)容及情感特征對(duì)識(shí)別其真實(shí)性的作用有限,因?yàn)樘摷僭诰€評(píng)論會(huì)在文辭上模仿真實(shí)評(píng)論。學(xué)者李霄等從評(píng)論、評(píng)論者、商品三個(gè)方面選擇 11 個(gè)特征值,使用支持向量機(jī)模型中的核函數(shù)進(jìn)行虛假在線評(píng)論的識(shí)別,對(duì)識(shí)別效果較好的核函數(shù)中的參數(shù)進(jìn)行優(yōu)化,從而提高了識(shí)別準(zhǔn)確率。
再者就是根據(jù)評(píng)論者的等級(jí)程度,有些評(píng)論者的等級(jí)越高,內(nèi)容也較為全面,感強(qiáng)詞也比較豐富,對(duì)此這一評(píng)論要謹(jǐn)慎結(jié)合,由于評(píng)論中的情感詞個(gè)數(shù)決定了情感的背離度,最后使用邏輯來(lái)分類。具體來(lái)說(shuō),可運(yùn)用聯(lián)結(jié)評(píng)論者、評(píng)論、店家的社會(huì)圖譜來(lái)分析評(píng)論者行為,通過(guò)分析評(píng)論者信譽(yù)水平、評(píng)論內(nèi)容可信度、店家信用度之間的強(qiáng)化關(guān)系,量化評(píng)論者可信度,從而識(shí)別虛假在線評(píng)論者。線評(píng)論者。最后,虛假評(píng)論者會(huì)進(jìn)行分段式的虛假評(píng)論內(nèi)容的提交頻率,每個(gè)時(shí)間段的虛假評(píng)論需要提交夠一定詞數(shù)的虛假評(píng)論才能夠完成任務(wù),對(duì)于虛假評(píng)論內(nèi)容的研究主要是利用評(píng)論者的特征信息,來(lái)顯示確定某一特征的結(jié)合的虛假評(píng)論,針對(duì)虛假評(píng)論這一關(guān)鍵性問(wèn)題,采取利用隱含語(yǔ)義分析的方法來(lái)進(jìn)行特征的隱含選擇條件,主要展現(xiàn)在兩個(gè)方面,第一方面是通過(guò)用戶與評(píng)論的顯示方式來(lái)得到評(píng)論可信度的一個(gè)排序,第二個(gè)方面則是通過(guò)奇異值的分解化進(jìn)而對(duì)評(píng)論內(nèi)容的處理使用概率隱含語(yǔ)義分析方法的隱含識(shí)別的方式,緩解虛假評(píng)論內(nèi)容的高維度和稀疏度。一般來(lái)講,所有的語(yǔ)言都具有它本身相對(duì)獨(dú)立的韻律與詞匯組合等,有些虛假評(píng)論者會(huì)利用詞圖的輸出模式來(lái)夸大商品存在的優(yōu)點(diǎn)之處,較大程度提高商品的利益與消費(fèi)者的好感?;诖耍槍?duì)特征關(guān)鍵詞匯進(jìn)行篩選,減低特征的關(guān)鍵詞匯表達(dá)形式。