亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于評(píng)論關(guān)系圖的垃圾評(píng)論者檢測(cè)研究

        2015-12-29 05:09:04林秀嬌魏晶晶廖祥文
        關(guān)鍵詞:評(píng)論者商店準(zhǔn)確率

        林秀嬌,魏晶晶,劉 月,廖祥文

        (1.福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州 350116;2.福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福建福州 350116;3.福建江夏學(xué)院電子信息科學(xué)學(xué)院,福建福州 350116)

        0 引言

        隨著電子商務(wù)的高速發(fā)展,越來(lái)越多的用戶會(huì)在購(gòu)買產(chǎn)品后發(fā)表自己對(duì)產(chǎn)品、商店服務(wù)等評(píng)論信息.這些信息對(duì)潛在用戶和商店是一個(gè)很重要的資源.但是有一些用戶為了提升或者詆毀某一產(chǎn)品或某一類產(chǎn)品的聲譽(yù),發(fā)表不真實(shí)的、有欺騙性質(zhì)的垃圾評(píng)論,這些評(píng)論可能會(huì)誤導(dǎo)潛在消費(fèi)者;同時(shí)還可能干擾評(píng)論意見(jiàn)挖掘和情感分析系統(tǒng)的分析[1].因此,對(duì)產(chǎn)品垃圾評(píng)論的識(shí)別很有必要.

        目前,國(guó)內(nèi)外針對(duì)產(chǎn)品垃圾評(píng)論識(shí)別展開(kāi)了很多的研究,并且取得了一定的成果.但是大部分工作集中在文本相似[1-3]、語(yǔ)言特征[4]、評(píng)論者行為[5-6]和評(píng)分模式[5-7]等方面,這些方法只能識(shí)別重復(fù)的垃圾評(píng)論或是寫(xiě)重復(fù)評(píng)論的垃圾評(píng)論者,對(duì)于其他類型則無(wú)法檢測(cè).為此,本研究提出構(gòu)造評(píng)論者、評(píng)論和商店以及回復(fù)者的評(píng)論關(guān)系圖,利用四者的關(guān)系計(jì)算評(píng)論者可信度來(lái)檢測(cè)產(chǎn)品垃圾評(píng)論者.

        1 相關(guān)工作

        1.1 垃圾評(píng)論文本的檢測(cè)

        2007年Jindal等[1-3]首次提出垃圾評(píng)論這個(gè)概念,把它分為三種類型:untruthful opinion,reviews on brands only,non-reviews,然后采用logistic回歸建立機(jī)器學(xué)習(xí)模型來(lái)識(shí)別三種類型的垃圾評(píng)論.Lai等[4]提出一種基于unigram模型的識(shí)別方法,利用句法分析和英文格式上的特征作為分類特征.Ott等[8]將垃圾評(píng)論的識(shí)別看成一個(gè)二元分類問(wèn)題.除此之外,文獻(xiàn)[7,9-10]也利用垃圾評(píng)論文本內(nèi)容檢測(cè)垃圾評(píng)論.

        上述方法需要對(duì)文本內(nèi)容有深度理解和觀點(diǎn)抽?。u(píng)論者為能成功誤導(dǎo)消費(fèi)者,會(huì)使自己的評(píng)論看起來(lái)與正常評(píng)論區(qū)別不大甚至沒(méi)有區(qū)別[11],因此利用評(píng)論文本來(lái)識(shí)別垃圾評(píng)論會(huì)比較困難.

        1.2 垃圾評(píng)論者的檢測(cè)

        這類檢測(cè)方法的基本思想是:垃圾評(píng)論者發(fā)表的評(píng)論多為垃圾評(píng)論.Lim等[5]和邱云飛等[6]利用用戶行為來(lái)檢測(cè)垃圾評(píng)論者.Liu等[12]通過(guò)研究“非期望規(guī)則”來(lái)識(shí)別垃圾評(píng)論者.但是這些方法只能檢測(cè)某種特定的垃圾評(píng)論者,如寫(xiě)重復(fù)評(píng)論的產(chǎn)品垃圾評(píng)論者.Liu等[13-14]認(rèn)為產(chǎn)品垃圾評(píng)論不只是個(gè)人的行為,而是一種團(tuán)體活動(dòng),他們結(jié)合評(píng)論組特征與單個(gè)評(píng)論者特征建立三個(gè)交叉模型識(shí)別垃圾評(píng)論者.Xie等[15-16]利用時(shí)間序列檢測(cè)垃圾評(píng)論者.Li等[17]把垃圾評(píng)論者檢測(cè)和垃圾評(píng)論檢測(cè)兩者結(jié)合起來(lái),但該方法仍然需要抽取評(píng)論文本內(nèi)容.Wang等[18]利用評(píng)論者、評(píng)論和商店三者之間的關(guān)系檢測(cè)垃圾評(píng)論者,不僅避開(kāi)了對(duì)文本內(nèi)容深度理解和觀點(diǎn)的抽取,而且還能檢測(cè)出寫(xiě)非重復(fù)垃圾評(píng)論的垃圾評(píng)論者.但是他們尚未加入回復(fù)者對(duì)評(píng)論的影響,對(duì)于有越多可信度高的回復(fù)者認(rèn)為有用的評(píng)論,有理由相信該評(píng)論的真實(shí)度會(huì)更高.因此,本研究提出構(gòu)造評(píng)論者、評(píng)論、商店以及回復(fù)者的評(píng)論關(guān)系圖,利用四者之間的關(guān)系計(jì)算評(píng)論者可信度檢測(cè)垃圾評(píng)論者.

        2 基于回復(fù)者特征的垃圾評(píng)論者檢測(cè)模型

        為了檢測(cè)垃圾評(píng)論者,用帶有箭頭的實(shí)線將評(píng)論者與其評(píng)論及所在商店相連.如果一條評(píng)論有其他評(píng)論者(回復(fù)者)對(duì)其回復(fù),則用帶有箭頭的虛線將回復(fù)者與評(píng)論相連,形成評(píng)論關(guān)系圖,如圖1所示.

        圖1 評(píng)論關(guān)系圖Fig.1 Review graph

        2.1 問(wèn)題定義

        由圖1可以看出,評(píng)論者與其評(píng)論有關(guān)聯(lián),因此判斷一個(gè)評(píng)論者是否為垃圾評(píng)論者,可以觀察該評(píng)論者的評(píng)論是否真實(shí).假設(shè)一個(gè)評(píng)論者的可信度與其所有評(píng)論的真實(shí)度的總和Hr有關(guān)系.圖1中的評(píng)論者用R={r1,r2,…,rn}表示,T(r)={T(r1),T(r2),T(rn)}表示評(píng)論者r的可信度,K是評(píng)論者可信度的上界,nr是評(píng)論者r的評(píng)論總數(shù)量,αir是評(píng)論者r的第i個(gè)評(píng)論.則問(wèn)題定義為:

        為了方便計(jì)算,將T(r)的值歸一化到[-1,1],則評(píng)論者的可信度為:

        其中:

        明確評(píng)論者可信度T(r)的求解方法后,需要求得公式中的另一個(gè)參數(shù)H(v).

        2.2 評(píng)論真實(shí)度度量

        用戶在判斷一條評(píng)論是否真實(shí)可信,一般會(huì)從以下三個(gè)方面進(jìn)行考慮:①了解商店是否可靠.對(duì)于可靠的商店,用戶會(huì)相信其評(píng)論是真實(shí)可信的,而對(duì)于聲譽(yù)差的商店,用戶一般會(huì)懷疑其評(píng)論的真實(shí)性.②觀察該評(píng)論的周圍評(píng)論,即同一家商店一定時(shí)間內(nèi)Δt的其他評(píng)論.如果周圍評(píng)論都認(rèn)為產(chǎn)品是好的,則用戶會(huì)相信該產(chǎn)品是好的;反之,用戶會(huì)懷疑該產(chǎn)品的質(zhì)量.③觀察這條評(píng)論的回復(fù)者,如果越多可信度高的回復(fù)者認(rèn)為評(píng)論有用,則認(rèn)為評(píng)論的真實(shí)度越高.反之,用戶會(huì)覺(jué)得該評(píng)論不真實(shí).基于以上三方面考慮,評(píng)論真實(shí)度模型有三個(gè)影響因素,即商店的可靠性、周圍評(píng)論的一致性分?jǐn)?shù)以及回復(fù)者的回復(fù)分?jǐn)?shù).因此,將評(píng)論v的真實(shí)度定義為:

        H(v)的值在[-1,1].其中:α是參數(shù),取值為0.3、0.5、0.7、1.0、1.5、2.0;An(v,Δt)是周圍評(píng)論的一致性分?jǐn)?shù);R(Γv)是商店Γv的可靠性分?jǐn)?shù);Γv是評(píng)論v評(píng)論的商店id;U(v)是評(píng)論v的回復(fù)分?jǐn)?shù).

        2.2.1 周圍評(píng)論的一致性分?jǐn)?shù)估計(jì)

        把評(píng)論v的所有周圍評(píng)論的集合記為Sv,即:

        其中:tv是評(píng)論v的評(píng)論時(shí)間.對(duì)于Sv中任意兩條評(píng)論i、j,如果這兩條評(píng)論關(guān)于同一家商店的同一產(chǎn)品的觀點(diǎn)相似,則認(rèn)為這兩條評(píng)論是一致的.由于觀點(diǎn)挖掘需要的代價(jià)大,假設(shè)兩條評(píng)論關(guān)于同一家商店有相似的評(píng)分,則認(rèn)為這兩條評(píng)論對(duì)這家商店有相似的觀點(diǎn).

        因此,根據(jù)假設(shè),如果

        其中:ψv是評(píng)論v的評(píng)分;δ是一個(gè)給定的邊界(本文的評(píng)分有5個(gè)等級(jí),δ取值為1),則表示一致評(píng)論.現(xiàn)把 Sv劃分為兩個(gè)集合,Sv,a和 Sv,d,定義如下:

        同時(shí),考慮評(píng)論者的可信度分?jǐn)?shù).評(píng)論者可信度越高,其評(píng)論越真實(shí),即使它的周圍評(píng)論和它不一致,因?yàn)橹車u(píng)論可能都是不可信評(píng)論者寫(xiě)的.類似地,一條評(píng)論和周圍的評(píng)論都一致也有可能是不真實(shí)的,因?yàn)橹車u(píng)論有可能都是垃圾評(píng)論者寫(xiě)的.因此,定義評(píng)論v在一定時(shí)間內(nèi)的周圍評(píng)論的一致性分?jǐn)?shù)為:

        其中:κv是評(píng)論v的作者id,Δt取發(fā)表這條評(píng)論時(shí)間的前后3個(gè)月.對(duì)周圍的一致性分?jǐn)?shù)歸一化到[-1,1]后得到:

        2.2.2 商店的可靠性計(jì)算

        如果一個(gè)商店有更多可信度高的評(píng)論者寫(xiě)正面的評(píng)論,則認(rèn)為這家商店更可靠.反之,則認(rèn)為這家商店更不可靠.因此定義商店s的可靠性為:

        其中:

        R(s)的值在[-1,1];vs是商店s的評(píng)論集合;u是評(píng)分系統(tǒng)的中間值,故u取3.

        2.2.3 回復(fù)分?jǐn)?shù)估算

        回復(fù)者對(duì)評(píng)論的回復(fù)可反應(yīng)其他人對(duì)這條評(píng)論的認(rèn)可程度,從而間接反應(yīng)出評(píng)論的書(shū)寫(xiě)者是否可信.如果一條評(píng)論有越多的可信度高的回復(fù)者對(duì)其回復(fù),并且認(rèn)為這條評(píng)論有用,則這條評(píng)論的真實(shí)度越高.反之,則認(rèn)為這條評(píng)論不真實(shí).

        依據(jù)回復(fù)者的可信度將回復(fù)者分為可信回復(fù)者和不可信回復(fù)者.根據(jù)不可信評(píng)論者的大部分評(píng)論是不可信的,假設(shè)不可信回復(fù)者的回復(fù)是不可信的.在計(jì)算回復(fù)分?jǐn)?shù)時(shí)只考慮可信回復(fù)者(回復(fù)者的可信度大于零)的回復(fù)對(duì)評(píng)論的影響.同時(shí),在計(jì)算回復(fù)分?jǐn)?shù)時(shí)不考慮評(píng)論者自己對(duì)自己評(píng)論的回復(fù),因?yàn)檫@可能只是評(píng)論者對(duì)自己評(píng)論的補(bǔ)充.

        因此,定義評(píng)論v的回復(fù)分?jǐn)?shù)為:

        U(v)的值在[-1,1].其中,rv是評(píng)論者r認(rèn)為評(píng)論v有用的回復(fù)者.

        2.2.4 迭代算法

        采用迭代算法求解評(píng)論者可信度分?jǐn)?shù),依據(jù)文獻(xiàn)[8],本文的迭代次數(shù)為5,具體算法步驟如下:

        輸入:商店 s={s1,s2,…,st},評(píng)論v={v1,v2,…,vk},評(píng)論者r={r1,r2,…,rn},時(shí)間窗口Δt,評(píng)論相似閾值δ.

        輸出:評(píng)論者可信度T(r),評(píng)論真實(shí)度H(v),商店可靠性R(s).

        Step1:初始化商店可靠性R(s)=1,評(píng)論者可信度T(r)=1,評(píng)分中間值u=3;

        Step2:根據(jù)初始值計(jì)算評(píng)論的周圍分?jǐn)?shù)An(v,Δt)以及回復(fù)分?jǐn)?shù)U(v);

        Step8:重復(fù)迭代上述步驟,當(dāng)?shù)趇次迭代和第i+1次迭代得到的評(píng)論者可信度的向量ξi和ξi+1滿足:1 -cos(ξi,ξi+1)< 5 ×10-4時(shí),迭代結(jié)束.

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集構(gòu)造

        使用文獻(xiàn)[6]提供的亞馬遜網(wǎng)站的評(píng)論作為實(shí)驗(yàn)數(shù)據(jù)集.根據(jù)得到的數(shù)據(jù)集,假設(shè)同一個(gè)品牌的商品為同一家商店出售.

        數(shù)據(jù)集分為評(píng)論數(shù)據(jù)集和回復(fù)數(shù)據(jù)集.對(duì)數(shù)據(jù)集先進(jìn)行預(yù)處理:①刪除在評(píng)論數(shù)據(jù)集中沒(méi)有評(píng)論的回復(fù)者.②刪除重復(fù)的回復(fù)評(píng)論.③刪除評(píng)論者對(duì)自己的回復(fù).經(jīng)過(guò)預(yù)處理后得到的數(shù)據(jù)集如表1所示.

        表1 預(yù)處理后的數(shù)據(jù)集Tab.1 The dataset after preprocessing

        3.2 實(shí)驗(yàn)結(jié)果分析

        為了檢驗(yàn)?zāi)P偷暮侠硇院陀行?,首先用本文算法識(shí)別出前100個(gè)高度可疑的垃圾評(píng)論者作為候選垃圾評(píng)論者,然后對(duì)這100個(gè)候選垃圾評(píng)論者進(jìn)行人工(3個(gè)標(biāo)記人)標(biāo)注,識(shí)別過(guò)程中標(biāo)記人是獨(dú)立的.根據(jù)大多數(shù)投票原則,一個(gè)評(píng)論者如果同時(shí)被2個(gè)或2個(gè)以上的標(biāo)記人標(biāo)記,則認(rèn)為該評(píng)論者是垃圾評(píng)論者.根據(jù)最終人工標(biāo)記的結(jié)果,采用準(zhǔn)確率(precision)來(lái)評(píng)估方法的好壞.

        式(4)中的α 取值為0.3、0.5、0.7、1.0、1.5、2.0.由于篇幅限制,這里只列出實(shí)驗(yàn)效果最好的(α =0.5)人工標(biāo)記結(jié)果,如表2所示.

        表2 人工標(biāo)記結(jié)果Tab.2 Human evaluation result (個(gè))

        表2顯示了人工標(biāo)記的一致性.例如,由算法檢測(cè)的前100個(gè)可疑垃圾評(píng)論者中,標(biāo)記人1認(rèn)為其中48個(gè)可疑垃圾評(píng)論者為真實(shí)的垃圾評(píng)論者,標(biāo)記人2與標(biāo)記人1有36個(gè)可疑垃圾評(píng)論者一致認(rèn)為是真實(shí)的垃圾評(píng)論者,而標(biāo)記人3與標(biāo)記人1有35個(gè)可疑垃圾評(píng)論者一致認(rèn)為是真實(shí)的垃圾評(píng)論者.

        為了驗(yàn)證本文方法的合理性和有效性,設(shè)計(jì)了回復(fù)分?jǐn)?shù)前后的對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果顯示,當(dāng)回復(fù)分?jǐn)?shù)中的 α 取值為0.3、0.5、0.7、1.0、1.5、2.0時(shí),準(zhǔn)確率分別為44%、45%、43%、44%、42%、41%,與基準(zhǔn)的準(zhǔn)確率41%相比都有提高或持平.可以看出,當(dāng)α>1之后,準(zhǔn)確率的提升空間逐漸減小,這說(shuō)明回復(fù)分?jǐn)?shù)對(duì)評(píng)論真實(shí)度有影響,但是其影響力度與商店的可靠性和周圍評(píng)論的一致性對(duì)評(píng)論真實(shí)度的影響力度相比較小,所需要的權(quán)值也應(yīng)該更?。?/p>

        通過(guò)實(shí)驗(yàn)證明,回復(fù)分?jǐn)?shù)對(duì)評(píng)論的真實(shí)度有影響,能夠提高垃圾評(píng)論者識(shí)別的準(zhǔn)確率.例如,正常的評(píng)論者“kanghui35”在基準(zhǔn)實(shí)驗(yàn)下,他的可信度分?jǐn)?shù)為-0.550 420,被認(rèn)為是可疑的垃圾評(píng)論者.而加入回復(fù)數(shù)后“kanghui35”的可信度分?jǐn)?shù)為0.145 761,可信度分?jǐn)?shù)提高了,被正確識(shí)別.

        雖然加入回復(fù)分?jǐn)?shù)之后的準(zhǔn)確率提高了,但是提高的幅度不大,即使在α=0.5實(shí)驗(yàn)效果最好的情況下與基準(zhǔn)的準(zhǔn)確率相比只提高了4個(gè)百分點(diǎn),總的準(zhǔn)確率還有較大的提升空間.影響準(zhǔn)確率的原因可能是:首先,由于回復(fù)的數(shù)據(jù)集較少,一些真實(shí)可靠的評(píng)論并未得到可信度高的回復(fù)者回復(fù);其次,回復(fù)分?jǐn)?shù)中參數(shù)α對(duì)實(shí)驗(yàn)結(jié)果有一定的影響,需要繼續(xù)對(duì)α進(jìn)行優(yōu)化,降低其對(duì)結(jié)果產(chǎn)生的誤差,提高識(shí)別精度;另外,還可能是因?yàn)橐恍├u(píng)論者的特征指標(biāo)尚未被考慮,無(wú)法識(shí)別更多的垃圾評(píng)論者.以上三種可能有待于之后的進(jìn)一步細(xì)致研究.

        致謝:感謝邱云飛,王建坤等為本文提供的亞馬遜網(wǎng)站的評(píng)論數(shù)據(jù)集.

        猜你喜歡
        評(píng)論者商店準(zhǔn)確率
        智珠2則
        二手商店
        軍事文摘(2023年16期)2023-09-04 07:11:12
        人工智能技術(shù)的電子商務(wù)虛假評(píng)論者檢測(cè)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        天邊的白云商店
        大灰狼(2019年10期)2019-12-02 16:44:44
        基于D-S證據(jù)理論的電子商務(wù)虛假評(píng)論者檢測(cè)
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        逛玩具商店
        亚洲综合一区中文字幕| 久久成人国产精品免费软件| 国产超碰人人做人人爽av大片 | 欧美又大粗又爽又黄大片视频 | 天天天天躁天天爱天天碰| 99国内精品久久久久久久| 国产精品亚韩精品无码a在线| 亚洲av无码国产精品麻豆天美 | 毛片无码高潮喷白浆视频| 国产chinese在线视频| 亚洲精品在线观看自拍| 国产大屁股熟女流白浆一区二区 | 中文字幕无码日韩专区免费| 久久精品无码专区东京热| av手机在线天堂网| 亚洲精品白浆高清久久| 丁香婷婷激情俺也去俺来也| 亚洲成人av一区二区| 人妻少妇精品专区性色anvn| 亚洲性无码av中文字幕| 亚洲av无码精品蜜桃| 色综合久久久久久久久五月| 人妻少妇精品视频一区二区三区| 手机免费在线观看日韩av| 国产精品毛片极品久久| 少妇被黑人整得嗷嗷叫视频| 毛片无码国产| 亚洲av永久无码天堂网手机版| 射精情感曰妓女色视频| 亚洲视频一区二区久久久| 激情久久黄色免费网站| 亚洲2022国产成人精品无码区 | 无码av在线a∨天堂毛片| 无码一区二区三区人| 国产一级黄色性生活片| 麻豆最新国产av原创| 奶头又大又白喷奶水av| 4hu四虎永久在线观看| 免费人成视频在线观看视频| 国产成人无精品久久久| 中文亚洲一区二区三区|