亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合情感極性和邏輯回歸的虛假評論檢測方法

2016-06-02 08:25:32趙軍王紅

智能系統(tǒng)學(xué)報(bào) 2016年3期

趙軍，王紅

(1.山東師范大學(xué) 信息科學(xué)與工程學(xué)院，山東濟(jì)南 250014; 2.山東省分布式計(jì)算軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室，山東濟(jì)南 250014)

趙軍1,2，王紅1,2

摘要：在線購物評論為消費(fèi)者比較商品的質(zhì)量和其他一些購買特性提供了有用信息，然而卻有大量的虛假評論者受利益驅(qū)使撰寫虛假或者不公正的評論來迷惑消費(fèi)者。先前的研究一般都是使用文本相似度和評分模式來探測虛假評論，這些算法可以檢測特定類型的攻擊者，在現(xiàn)實(shí)場景中許多虛假評論者刻意模仿正常用戶對商品進(jìn)行評論，因此先前的算法對檢測這類攻擊效果不佳。本文通過分析評論文本的感情極性，抽取不同的特征并使用邏輯回歸模型來檢測虛假評論；首先，借用自然語言處理的相關(guān)技術(shù)來分析評論文本的情感極性，判斷每個(gè)用戶的情感偏離大眾情感的程度，如果偏離越大則說明其是虛假評論者的概率就越大；然后再選取其他幾個(gè)重要特征結(jié)合邏輯回歸模型進(jìn)行虛假檢測；通過實(shí)驗(yàn)對比，表明了該方法取得了較好的效果。

關(guān)鍵詞：電子商務(wù)；虛假評論；購物行為；情感極性；邏輯回歸

互聯(lián)網(wǎng)的迅速崛起帶來了傳統(tǒng)商業(yè)模式的解放，傳統(tǒng)的實(shí)體購物模式在遭遇網(wǎng)上購物模式時(shí)受到了巨大的沖擊。電子購物網(wǎng)站上的商品種類齊全，同時(shí)網(wǎng)上購物方便快捷，可以節(jié)省消費(fèi)者一定的購物時(shí)間，迎合了當(dāng)代人們快速的生活節(jié)奏；但網(wǎng)上購物給我們帶來方便的同時(shí)也存在著自身固有的一些挑戰(zhàn)。最具挑戰(zhàn)性的是消費(fèi)者無法像在實(shí)體店一樣真實(shí)地感受到商量的質(zhì)地、性能等特點(diǎn)，只能通過購物網(wǎng)站展示的圖片和文本描述對商品有一個(gè)大致的了解。由于消費(fèi)者無從得知商品地真實(shí)質(zhì)量，所以他們開始過多的關(guān)注商品的評論，好的評論可以提升該產(chǎn)品的信譽(yù)，這會(huì)誘導(dǎo)更多的顧客購買該商品；相反，較差的評論無疑會(huì)降低商品的信譽(yù)值，這會(huì)大大降低該商品的成交量。正是由于這一原因，商家為了獲得更高的利益，開始雇傭網(wǎng)絡(luò)水軍冒充普通顧客對自己的商品進(jìn)行好評，對競爭對手的產(chǎn)品進(jìn)行差評以達(dá)到提升自己品牌的信譽(yù)、詆毀競爭對手信譽(yù)的目的。這些廣泛存在的不真實(shí)評論不僅會(huì)誤導(dǎo)消費(fèi)者的購物決策，同時(shí)也危害了電子商務(wù)經(jīng)濟(jì)的健康發(fā)展，為了提高消費(fèi)者的購物體驗(yàn)，并保證市場經(jīng)濟(jì)的合理健康發(fā)展，因此迫切需要研究一種方法來發(fā)現(xiàn)并抑制虛假攻擊。

1相關(guān)工作

近年來，國內(nèi)外學(xué)者在垃圾郵件[1]和垃圾網(wǎng)頁[2]的識(shí)別研究上做了大量工作，并取得了較好的效果。美國伊利諾斯大學(xué)的Bing Liu[3]教授團(tuán)隊(duì)于2007年首次提出垃圾檢測，之后垃圾檢測就成為了一個(gè)研究熱點(diǎn)。

Jindal等[4]發(fā)現(xiàn)商品中存在著大量的虛假評論，并且這些評論在本質(zhì)上與垃圾郵件和垃圾網(wǎng)頁截然不同，他們利用產(chǎn)品的評論數(shù)據(jù)，考慮評論文本、評論者和產(chǎn)品特征這3個(gè)因素進(jìn)行建模來區(qū)分復(fù)制觀點(diǎn)和非復(fù)制觀點(diǎn)，若判斷為復(fù)制觀點(diǎn)，則將該評論歸為虛假評論。

WU F等[5]根據(jù)流行度是否被打亂來識(shí)別虛假評論。這兩種方法都是基于啟發(fā)式的策略，過程較為復(fù)雜。Tan等[6]利用電阻距離來判斷評論之間的上下文語義相似性，提出了一種基于電阻距離的無關(guān)虛假評論自動(dòng)檢測方法，該方法取得了不錯(cuò)的實(shí)驗(yàn)效果。

OTT等[7]利用眾包平臺(tái)創(chuàng)造出了一個(gè)用于識(shí)別眾包攻擊的“黃金”數(shù)據(jù)集，該數(shù)據(jù)集包含真實(shí)評論和人為的虛假評論兩部分，在該數(shù)據(jù)集上，他們把虛假探測問題轉(zhuǎn)化為經(jīng)典的文本極性分類問題解決。

任亞峰等[8]提出了一種基于語言結(jié)構(gòu)和情感極性的虛假評論識(shí)別方法，從自然語言處理層面分析評論文本的正面情感和負(fù)面情感影響，最后使用遺傳算法，通過復(fù)制、交叉和變異實(shí)現(xiàn)種群的進(jìn)化，從而提高探測準(zhǔn)確率。

Guan等[9]為了識(shí)別在線商店的虛假評論者提出了一種社交評論圖的方法，他們提出了一種全新的概念——評論圖，他們捕獲了所有與某個(gè)商店相關(guān)聯(lián)的評論者和評論，并把這三者構(gòu)造成了一個(gè)異質(zhì)網(wǎng)絡(luò)，通過交互計(jì)算三者之間的影響來檢測虛假評論，實(shí)驗(yàn)表明他們方法的正確探測率高達(dá)91.24%。

Gao等[10]為了解決網(wǎng)上評分系統(tǒng)中的虛假攻擊行為，提出一種基于群組排序的虛假探測方法，他們把對相同商品評分相同的用戶分為一組，根據(jù)群組的規(guī)模來檢測虛假評論者，實(shí)驗(yàn)表明，他們所提出的方法取得了很好的探測效果。

通過總結(jié)前人已有的工作可以發(fā)現(xiàn)，大部分研究者要么從評論文本著手,利用自然語言處理技術(shù)，分析評論文本的正負(fù)情感極性，從而達(dá)到探測虛假評論的目的；另一種常見的方法是分析商品的評分，通過分類或者聚類算法對不同的評分進(jìn)行分組，挑選出虛假的商品評分；本文提出融合情感極性和邏輯回歸模型來檢測虛假攻擊。

2評論文本情感極性分析

評論文本的情感傾向分析是通過挖掘和分析評論文本中的立場、觀點(diǎn)、情緒等主觀信息，分析出評論者的正面或者負(fù)面情感趨向。

本文主要采用基于情感知識(shí)的情感極性判別方法，通過比較文本中的正負(fù)情感詞個(gè)數(shù)來判斷評論文本的情感極性，情感極性判別方式為

唐波等[11]考慮了否定詞對情感詞極性的影響，通過他們的實(shí)驗(yàn)可以看出，考慮否定詞這一特征對情感傾向性分析具有重大意義。在本文中，也考慮了否定詞這一重要因素，并且構(gòu)建專用于評論文本分析的否定詞詞典.判斷規(guī)則為：統(tǒng)計(jì)一句話中的否定詞個(gè)數(shù)，若個(gè)數(shù)為偶數(shù)則該句的傾向性不變；若否定詞的個(gè)數(shù)為奇數(shù)，那么語句的傾向性發(fā)生逆轉(zhuǎn)。

何鳳英等[12]考慮了程度副詞文本的傾向性影響，提出了程度副詞的4個(gè)量級：極量、高量、中量和低量，其對應(yīng)的權(quán)重依次遞減，考慮程度副詞這一因素也提高了情感極性的分類精度。

邸鵬等[13]曾提出了基于轉(zhuǎn)折句式的文本分析方法，他們的任務(wù)主要是基于長文本的情感分析，所以考慮上下文的轉(zhuǎn)折關(guān)系是很有效的。但是他們的方法直接應(yīng)用于評論文本是不合理的，因?yàn)樵u論文本往往是一兩句話的超短文本，無從考慮上下文信息，所以本文提出了基于關(guān)聯(lián)詞的分析方法，把分析的單位縮小到詞語級別，著重分析關(guān)聯(lián)詞前后的情感極性，其過程如算法1所示。

算法1Review Text Orientation Analysis

輸入Review Text

輸出Review Orientation

While(str.read())

For alli∈str.LengthDO

IF (str.wordsi?Review Dictionary) THEN

SO←0;EXIT;

ELSE {

IF (str.wordsi∈NegDictionary) THEN

IF(count % 2 == 0) THEN

WOi←WOi;

ELSE WOi←-WOi;

IF (str.wordsi∈AdjDictionary)THEN

WOi←WOi*Wadj

IF(str.wordsi∈Adversative)THEN

WOi←-WOi;

END ELSE

END FOR ;

END WHILE；

3邏輯回歸模型

在現(xiàn)實(shí)生活中經(jīng)常需要分析離散變量問題，本文關(guān)心的是，哪些因素對虛假檢測的影響因素更明顯，這類問題實(shí)質(zhì)上是一個(gè)回歸問題，因變量就是上述提到的這些離散變量，自變量X是與之有關(guān)的一些因素。因?yàn)橐蜃兞渴请x散的，不能直接使用線性回歸分析方法解決，這時(shí)最好的解決方案是Logistic回歸模型，它對因變量的分布沒有要求。與線性回歸分析相似，Logistic回歸分析的基本原理就是利用一組數(shù)據(jù)擬合一個(gè)Logistic回歸模型，然后借助這個(gè)模型揭示總體中若干個(gè)自變量與一個(gè)因變量取某個(gè)值的概率之間的關(guān)系。因變量Y是一個(gè)二值變量，取值為

自變量為X1,X2,…,Xm,P表示在m個(gè)自變量作用下事件發(fā)生的概率。想找到P與自變量的關(guān)系，如果用多元線性回歸方程。

(1)

(2)

(3)

我們將所研究的問題轉(zhuǎn)換一個(gè)角度，不是直接分析Y與X的關(guān)系，而是分析Y取某個(gè)值的概率P與X的關(guān)系。令Y為1、0變量，Y=0表示正常評論，Y=1表示虛假評論，X是與虛假評論有關(guān)的因素。如果P表示虛假攻擊的概率，那么研究虛假攻擊的概率P與X有關(guān)因素的關(guān)系就相對簡單一些。

3.1變量選取的衡量標(biāo)準(zhǔn)

優(yōu)勢比OR(odds ratio)是流行病衡量危險(xiǎn)因素作用大小的比數(shù)比例指標(biāo)，其計(jì)算公式為

(4)

式中：P1和P0分別表示在Xj取值為c1及c0存在虛假攻擊的概率，ORj稱作多變量調(diào)整后的優(yōu)勢比，表示扣除了其他自變量影響后的危險(xiǎn)因素的作用。對比某一個(gè)危險(xiǎn)因素兩個(gè)不同暴露水平Xj=c1與Xj=c0的虛假攻擊情況(假設(shè)其他因素的水平相同)，其優(yōu)勢比的自然對數(shù)為式(5)：

(5)

若

c1-c0=1

則

ORj=expβj

(6)

3.2變量選擇

使用邏輯回歸模型時(shí)，主要有3種選擇變量的方式：前向選擇、后向選擇和逐步回歸。本文采用逐步回歸的方式進(jìn)行變量選擇，其基本思想是逐個(gè)引入影響模型的自變量，每次都是引入對Y影響最為顯著的自變量，并對方程中存在的變量逐個(gè)進(jìn)行檢驗(yàn)，把變?yōu)椴伙@著的變量逐個(gè)從模型中刪除，最終，使得模型中存在的變量是對Y影響最為顯著的變量，篩選的步驟如下：首先給出引入變量的顯著性水平αin和剔除變量的顯著性水平αout，然后按下圖1進(jìn)行篩選，篩選過程如下。

圖1　變量篩選流程圖Fig.1　Flow chart of variable selection

3)此時(shí)的模型中已經(jīng)包含Xe1和Xe2兩個(gè)變量，但是我們應(yīng)該注意到，在引入變量Xe2之后，變量Xe1可能不再是顯著性變量，我們應(yīng)該使用Wald檢驗(yàn)分別計(jì)算它們的顯著值和響應(yīng)的P值。如果P值大于αout，則此變量從模型中刪除，否則停止迭代計(jì)算；

4)依次進(jìn)行迭代計(jì)算，每當(dāng)向前選擇一個(gè)變量進(jìn)入后，都進(jìn)行向后刪除的檢查，循環(huán)終止的條件是：模型中的所有自變量的P值都小于αout，被刪除自變量的P值都大于αin。

4評論文本特征工程

這里首先提出可能影響虛假評論的10個(gè)特征，然后使用逐步回歸方法計(jì)算哪個(gè)特征對其影響嚴(yán)重，10個(gè)特征如下。

文本長度(F1)統(tǒng)計(jì)評論文本中的文字個(gè)數(shù)，正常用戶一般懶于評論只給出評分或給出簡短的評論文本，而虛假評論者為了提高或貶低某件商品，需要寫下比較冗長的評論文本。

復(fù)雜度(F2)評論文本的復(fù)雜度是指文本中所使用詞匯的復(fù)雜度，一般認(rèn)為正常用戶所使用的評論詞匯比較簡單，而虛假評論的詞匯相對比較復(fù)雜和專業(yè)。

關(guān)聯(lián)度(F3)評論關(guān)聯(lián)度是指評論文本與被評論商品的相關(guān)程度，有些虛假評論者為了完成評論字?jǐn)?shù)要求，常常會(huì)復(fù)制一些與商品無關(guān)的文本來完成虛假評論任務(wù)。

一致性(F4)一致性評論文本的情感強(qiáng)度與所給評分的相似度，是探測隨機(jī)評論的重要特征。

情感強(qiáng)度(F5)情感強(qiáng)度是指評論文本中的情感極性強(qiáng)度，普通用戶的評論情感比較公正，而虛假評論的情感強(qiáng)度比較激烈。

是否包含轉(zhuǎn)折詞(F6)正常用戶可能對產(chǎn)品的部分性能指標(biāo)是滿意的，而對另外的某些特征是不太滿意的，所以他們的評論中常常包含轉(zhuǎn)折詞，而虛假評論者的情感極性高度一致，很少會(huì)有情感的逆轉(zhuǎn)。

復(fù)制文本(F7)虛假評論者為了快速完成自己的虛假攻擊任務(wù)，往往會(huì)把某個(gè)商品的虛假評論復(fù)制對商品以不同的消費(fèi)者身份進(jìn)行評論。

用戶信譽(yù)(F8)某個(gè)用戶的信譽(yù)是由他所發(fā)表的評論被其他消費(fèi)者采納的數(shù)量決定的，如果采納該用戶的人數(shù)越多，說明其信譽(yù)越高。

初評和追評的一致性(F9)正常評論者在初評時(shí)一般只是從商品的外觀給商品進(jìn)行評分，對該商品使用一定時(shí)間后，可能會(huì)給出更加具有意義的追評；而虛假評論者的初評和追評幾乎是同時(shí)完成的。

附廣告圖片(F10)現(xiàn)在商家為了提高商品信譽(yù)，還會(huì)進(jìn)行“好評曬圖返現(xiàn)”活動(dòng)，普通正常用戶很少拍圖上傳，而虛假評論中往往會(huì)伴隨著圖片的出現(xiàn)，我們認(rèn)為評論附圖的評論很可疑。

5特征選擇

本文主要使用優(yōu)勢比(OR)和逐步回歸變量篩選方法來選擇對邏輯回歸模型影響最為顯著的特征。

5.1數(shù)據(jù)集

在Liu[4]從Amazon收集并整理的415 179條評論數(shù)據(jù)的基礎(chǔ)上，篩選出含有評論文本的13 246條評論作為本文的實(shí)驗(yàn)數(shù)據(jù)，其中包含虛假評論3 412條，真實(shí)評論9 834條，實(shí)驗(yàn)數(shù)據(jù)集如表1。

表1　實(shí)驗(yàn)數(shù)據(jù)表

5.2計(jì)算候選自變量的優(yōu)勢比

為了檢測哪些候選自變量對邏輯回歸模型的影響更為顯著，本文使用式(4)計(jì)算每個(gè)自變量的優(yōu)比,以評論文本長度為例來說明優(yōu)勢比的計(jì)算步驟。

表2　文本長度分布表

表310個(gè)候選特征及OR值

Table 3Ten candidate features and OR

變量賦值說明ORF1文本長度≥50=117.4文本長度<50=0F2復(fù)雜=1,不復(fù)雜=05.31F3不關(guān)聯(lián)=1,關(guān)聯(lián)=00.34F4不一致=1,一致=03.87F5強(qiáng)烈=1,不強(qiáng)烈=07.68F6不含=1,包含=015.6F7是=1,不是=02.87F8高=1,低=00.78F9不一致=1,一致=07.46F10附圖=1,不附圖=04.23

5.3模型檢驗(yàn)

為了判斷選取的模型是否有效，需要對該模型進(jìn)行檢驗(yàn)。邏輯回歸模型主要包含3種假設(shè)檢驗(yàn)方法，分別是似然比檢驗(yàn)、Wald檢驗(yàn)和計(jì)分檢驗(yàn)，其中，似然比檢驗(yàn)既適用于單個(gè)影響因素的假設(shè)檢驗(yàn)，又適用于多個(gè)影響因素的同時(shí)檢驗(yàn)；Wald檢驗(yàn)適合單個(gè)影響因素的檢驗(yàn)；計(jì)分檢驗(yàn)與傳統(tǒng)的Mantelhaenszel檢驗(yàn)結(jié)果相同，在小樣本空間中比似然比檢驗(yàn)更接近χ2分布；本文采用似然比檢驗(yàn)方法對模型進(jìn)行檢驗(yàn)。

似然比檢驗(yàn)的原理是通過分析模型中變量變化對似然比的影響，依此來判斷增加或者去除某個(gè)自變量是否對因變量有顯著影響，檢驗(yàn)統(tǒng)計(jì)量的公式如式(7)所示。

(7)

式中：ln(Lm-1)為不包含檢驗(yàn)變量時(shí)模型的對數(shù)似然值, ln(Lm)為包含檢驗(yàn)變量時(shí)模型的對數(shù)似然值.當(dāng)檢驗(yàn)一個(gè)變量時(shí)G服從自由度為1的χ2分布，當(dāng)對整個(gè)模型進(jìn)行檢驗(yàn)時(shí)，就是相當(dāng)于模型中所有的m個(gè)變量的回歸系數(shù)為0，G服從自由度為m的χ2分布。如果檢驗(yàn)結(jié)果為拒絕H0,則表示該影響因素對回歸模型有統(tǒng)計(jì)學(xué)意義，即對事件發(fā)生有影響。我們分別計(jì)算了所選的6個(gè)特征的似然比，在顯著水平α=0.05的條件下，計(jì)算的結(jié)果如表4所示。

表4　似然比測試表

6實(shí)驗(yàn)分析

本文借用Spss統(tǒng)計(jì)工具對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析，采用對比實(shí)驗(yàn)的方式驗(yàn)證本文方法的有效性，由于數(shù)據(jù)樣本有限，我們采用五折交叉驗(yàn)證，分別與任亞峰等[8]提出的基于語言結(jié)構(gòu)和情感極性的虛假評論識(shí)別方法和Feng等[14]提出的基于句法結(jié)構(gòu)的方法進(jìn)行對比，從而分析本文方法的優(yōu)勢和不足。本文采用最為通用的3個(gè)評判指標(biāo)來判斷虛假檢測的優(yōu)劣，即準(zhǔn)確率、召回率和F1值。從圖中可以發(fā)現(xiàn)融合情感傾向和邏輯回歸模型的虛假攻擊檢測方法表現(xiàn)出了不錯(cuò)的性能。

圖2　準(zhǔn)確率對比Fig.2　Accuracy comparison

任亞峰等認(rèn)為傳統(tǒng)的啟發(fā)式策略或者全監(jiān)督學(xué)習(xí)方法很難有效地解決虛假攻擊的檢測問題，他們分析了虛假評論和真實(shí)評論之間在語言結(jié)構(gòu)和情感極性的差異，借用經(jīng)典的遺傳算法對文本的書寫結(jié)構(gòu)和情感極性兩大主要特征進(jìn)行優(yōu)化選擇，最終選擇出了5個(gè)最為重要的特征，最后又根據(jù)這些特征結(jié)合無監(jiān)督的硬聚類和軟聚類算法實(shí)現(xiàn)了虛假評論的檢測。該方法的檢測準(zhǔn)確率有所提高，主要原因是在考慮情感極性和強(qiáng)度的同時(shí)，融合了評論文本的較為重要的5個(gè)特征，使其分析的更加全面。該方法也有不足之處，即沒有突出哪些特征最為重要，如果能再把不同特征的權(quán)重考慮進(jìn)去，檢測的效果可能會(huì)更好。召回率對比和F1指數(shù)對比見圖3和圖4。

圖3　召回率對比Fig.3　Recall comparison

圖4　F1指數(shù)對比Fig.4　F1_Measure comparison

Feng等提出的基于句法結(jié)構(gòu)的虛假評論檢測算法相比于任亞峰等提出的算法又有明顯的提高，他們認(rèn)為淺層次的句法模式是不可靠的，他們的工作主要研究了深層次的句法模式，并在前人的研究基礎(chǔ)之上加入了一些非常規(guī)的句法模式來構(gòu)建語義樹。他們又從4個(gè)不同數(shù)據(jù)集中利用文本句法樹提取了幾種不常見的語義特征，該方法使其檢測精度達(dá)到了91.2%，召回率也有明顯提高。我們分析工作性能提高的主要原因是，購物評論往往是不規(guī)則的，文本長度極短并且沒有固定的書寫模式，所以任亞峰等提出的基于簡單語法模式的檢測算法受到了一定的限制，而Feng等正是針對評論文本和常規(guī)文本在句法上存在明顯差異的前提下，利用語義樹，挖掘深層的句法關(guān)系，構(gòu)建出了專門用于分析評論短文本的語義樹，使得檢測性能得到大幅度提高。

本文方法相對于二者的研究方法準(zhǔn)確率有所增加，而召回率比Feng等提出的方法的要差一些。本文方法首先提出了基于關(guān)聯(lián)詞(特別是轉(zhuǎn)折詞)的情感極性判別方法，以此來判斷評論的情感是否出現(xiàn)轉(zhuǎn)變、情感強(qiáng)度是否異常極端，然后又提取了10個(gè)候選的評論文本特征，經(jīng)過極大似然檢驗(yàn)后，選取了6個(gè)最為重要的特征，最后使用邏輯回歸模型對評論進(jìn)行檢測，促使檢測的準(zhǔn)確率有所增大。但是在加入更多特征使檢測精度提高的同時(shí)，我們也發(fā)現(xiàn)，召回率比Feng等的要低一些，原因可能是更多的特征被加入了模型中，對數(shù)據(jù)的質(zhì)量提出了更高的要求，如一些文本中可能不存在關(guān)聯(lián)詞這一特征。

7結(jié)束語

隨著電子商務(wù)的蓬勃發(fā)展，研究者們對虛假評論檢測作出了不懈的努力。針對評論文本過短，評論隨意等特點(diǎn)本文提出了融合關(guān)聯(lián)詞的情感傾向分析，然后再此基礎(chǔ)上又分析了影響分類的6個(gè)特征，把這些特征應(yīng)用于邏輯回歸模型中實(shí)現(xiàn)了虛假評論的檢測，該方法取得了不錯(cuò)的效果。但該模型還有待改進(jìn)，首先，文本的極性判別方式過于粗糙，只是考慮了文本中的否定詞和關(guān)聯(lián)詞，沒有特別注重分析程度副詞，只分析了文本的極性，卻沒有定量分析其情感強(qiáng)度；其次，模型中沒有動(dòng)態(tài)地考慮評論情況，研究表明，不誠實(shí)的商家往往在開辦網(wǎng)店的初期雇傭虛假評論人員通過刷單的方式提高自己的信譽(yù)，所以虛假評論往往發(fā)生在電商經(jīng)營的初期。最后，可能評論文本中還隱藏著許多其他的因素可以提高檢測的精度，下一步的工作將主要集中在這3個(gè)方面。

參考文獻(xiàn):

[1]KOLCZ A, ALSPECTOR J. SVM-based filtering of E-mail spam with content specific misclassification costs[C]//Proceedings of ICDM-2001 Workshop on Text Mining. Dallas, USA, 2001: 324-332.

[2]BECCHETTI L, CASTILLO C, DONATO D, et al. Link-based characterization and detection of web spam[C]//Adversarial Information Retrieval on the Web. Washington, USA, 2006: 1012-1021.

[3]JINDAL N, LIU Bing. Review spam detection[C]//Proceedings of the 16th International Conference on World Wide Web. Alberta, Canada, 2007: 1189-1190.

[4]JINDAL N, LIU Bing, et al. Opinion spam and analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining. California, USA, 2008: 219-230.

[5]WU Fang, HUBERMAN B A. Opinion information under costly express[J]. ACM transactions on intelligence systems and technology, 2010, 1(1): 5.

[6]譚文堂, 朱洪, 葛斌, 等. 垃圾評論自動(dòng)過濾方法[J]. 國防科技大學(xué)學(xué)報(bào), 2012, 34(5): 153-157, 168.

TAN Wentang, ZHU Hong, GE Bin, et al. Method of review spam detection[J]. Journal of national university of defense technology, 2012, 34(5): 153-157, 168.

[7]OTT M, CHOI Y, CARIDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: human language technologies. Portland, USA, 2011, 1: 309-319.

[8]任亞峰, 尹蘭, 姬東鴻. 基于語言結(jié)構(gòu)和情感極性的虛假評論識(shí)別[J]. 計(jì)算機(jī)科學(xué)與探索, 2014, 8(3): 313-320.

REN Yafeng, YIN Lan, JI Donghong. Deceptive reviews detection based on language structure and sentiment polarity[J]. Journal of frontiers of computer science and technology, 2014, 8(3): 313-320.

[9]WANG Guan, XIE Sihong, LIU Bing, et al. Identify online store review spammers via social review graph[J]. ACM Transactions on intelligent systems and technology, 2012, 3(4): 61.

[10]GAO Jian, DONG Yuwei, SHANG Mingsheng, et al. Group-based ranking method for online rating systems with spamming attacks[J]. EPL (europhysics letters), 2015, 110(2): 28003.

[11]唐波, 陳光, 王星雅, 等. 微博新詞發(fā)現(xiàn)及情感傾向性判斷分析[J]. 山東大學(xué)學(xué)報(bào)：理學(xué)版, 2015, 50(1): 20-25.

TANG Bo, CHEN Guang, WANG Xingya, et al. Analysis on new word detection and sentiment orientation in Micro-blog[J]. Journal of Shandong university： nature science, 2015, 50(1): 20-25.

[12]何鳳英. 基于語義理解的中文博文傾向性分析[J]. 計(jì)算機(jī)應(yīng)用, 2011, 31(8): 2130-2133, 2137.

HE Fengying. Orientation analysis for Chinese blog text based on semantic comprehension[J]. Journal of computer application, 2011, 31(8): 2130-2133, 2137.

[13]邸鵬, 李愛萍, 段利國. 基于轉(zhuǎn)折句式的文本情感傾向性分析[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(12): 4289-4295.

DI Peng, LI Aiping, DUAN Liguo. Text sentiment polarity analysis based on transition sentence[J]. Computer engineering and design, 2014, 35(12): 4289-4295.

[14]FENG Song, BANERJEE R, CHOI Y. Syntactic stylometry for deception detection[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. Jeju, Korea, 2012: 171-175.

[15]LI Jiwei, CARDIE C, LI Sujian. TopicSpam: a topic-model-based approach for spam detection[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofi, Bulgaria, 2013: 217-221.

[16]JINDAL N, LIU Bing, LIM E P. Finding unusual review patterns using unexpected rules[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management. Ontario, Canada, 2010: 1549-1552.

[17]JO Y, OH A H. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining. New York, USA, 2011: 815-824.

趙軍，男，1989年生，碩士研究生，主要研究方向?yàn)榇髷?shù)據(jù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。

王紅，女，1966年生，教授，博士生導(dǎo)師，主要研究方向?yàn)榇髷?shù)據(jù)、復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘。主持國家自然基金項(xiàng)目1項(xiàng)，參與國家自然基金項(xiàng)目3項(xiàng)，主持省級基金項(xiàng)目6項(xiàng)，發(fā)表學(xué)術(shù)論文43篇。

中文引用格式：趙軍，王紅.融合情感極性和邏輯回歸的虛假評論檢測方法[J]. 智能系統(tǒng)學(xué)報(bào)， 2016, 11(3): 336-342.

英文引用格式：ZHAO Jun,WANG Hong.Detection of fake reviews based on emotional orientation and logistic regression[J]. CAAI transactions on intelligent systems, 2016,11(3): 336-342.

Detection of fake reviews based on emotional orientation and logistic regression

ZHAO Jun1,2, WANG Hong1,2

(1. School of Information Science and Engineering, Shandong Normal University, Jinan 250014, China; 2. Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology, Ji′nan 250014, China)

Abstract：Online shopping reviews provide valuable customer information for comparing the quality of products and several other aspects of future purchases. However, spammers are joining this community to mislead and confuse consumers by writing fake or unfair reviews. To detect the presence of spammers, reviewer styles have been scrutinized for text similarity and rating patterns. These studies have succeeded in identifying certain types of spammers. However, there are other spammers who can manipulate their behaviors such that they are indistinguishable from normal reviewers, and thus, they cannot be detected by available techniques. In this paper, we analyze the orientation of comments, extract different features, and use a logic regression model to detect false comments. First, we utilize natural language processing technology to analyze the orientation of comments and compute the departures of those comments from those of the general public. The greater is the deviation, the greater is the probability of the comment being generated by a spammer. Then, we select several other important features and combine them with the logic regression model to identify fake comments. The experimental results verify the greater accuracy of the proposed method.

Keywords：Electronic commerce; fake review; shopping behavior; emotional polarity; logic regression

作者簡介：

中圖分類號(hào)：TP39

文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1673-4785(2016)03-0336-07

通信作者：王紅.E-mail:wanghong106@163.com.

基金項(xiàng)目：國家自然科學(xué)基金項(xiàng)目(61373149,61472233);山東省科技計(jì)劃項(xiàng)目(2012GGX10118,2014GGX101026);山東省教育科學(xué)規(guī)劃項(xiàng)目(ZK1437B010).

收稿日期：2016-03-17.網(wǎng)絡(luò)出版日期：2016-05-13.

DOI:10.11992/tis.201603027

網(wǎng)絡(luò)出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0911.004.html

智能系統(tǒng)學(xué)報(bào)2016年3期

智能系統(tǒng)學(xué)報(bào)的其它文章: 基于卷積神經(jīng)網(wǎng)絡(luò)和哈希編碼的圖像檢索方法; 基于稠密子圖的社區(qū)發(fā)現(xiàn)算法; 基于決策加權(quán)的聚類集成算法; 個(gè)體最優(yōu)共享GEP算法及其氣象降水?dāng)?shù)據(jù)預(yù)測建模; 一種改進(jìn)的投影孿生支持向量機(jī); 基于相容模糊概念的規(guī)則提取方法