亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

虛假評(píng)論檢測(cè)系統(tǒng)的構(gòu)建研究

2015-05-30 13:19:04萬(wàn)世偉

商 2015年26期

萬(wàn)世偉

摘要：本文依據(jù)虛假評(píng)論的檢測(cè)特點(diǎn)，圍繞基于評(píng)論內(nèi)容的虛假評(píng)論、基于評(píng)論者行為的虛假評(píng)論以及融合這兩類特征來(lái)檢測(cè)虛假評(píng)論等方面展開了研究，分析虛假評(píng)論檢測(cè)原型系統(tǒng)的構(gòu)建。

關(guān)鍵詞：虛假評(píng)論；評(píng)論內(nèi)容；評(píng)論者

一、引言

由于存在某些利益關(guān)系，商品在線評(píng)論可能存在一些不真實(shí)或虛假的評(píng)論信息，比如某些人會(huì)刻意的吹捧或者詆毀某些產(chǎn)品，也即在網(wǎng)上存在著很多的評(píng)論數(shù)據(jù)是不真實(shí)的?；ヂ?lián)網(wǎng)上的不真實(shí)評(píng)論來(lái)源于兩部分：一是某些廠商為了推廣自己的產(chǎn)品或者服務(wù)，借助電子商務(wù)平臺(tái)做宣傳。二是評(píng)論者在某些利益的驅(qū)動(dòng)下，發(fā)布虛假的評(píng)論信息，這是由互聯(lián)網(wǎng)的開放性決定的，人們可以無(wú)限制的發(fā)表自己的觀點(diǎn)。此外，消費(fèi)者購(gòu)買商品時(shí)，往往會(huì)參照其他人購(gòu)買該商品的評(píng)論信息，這是因?yàn)橄M(fèi)者希望買到令自己滿意的商品。當(dāng)人們參考其他消費(fèi)者的評(píng)論時(shí)，會(huì)發(fā)現(xiàn)一些讓人產(chǎn)生質(zhì)疑的虛假評(píng)論，這就在一定程度上影響了該評(píng)論信息的參考價(jià)值，從而誤導(dǎo)消費(fèi)者，損害消費(fèi)者的利益。

二、虛假評(píng)論概述

虛假評(píng)論是由消費(fèi)者發(fā)表的不真實(shí)的、不符合實(shí)際的評(píng)論，具有欺騙性，從而誤導(dǎo)并損害消費(fèi)者的利益。由于在線評(píng)論通過(guò)虛假評(píng)論者的掩飾和喬裝，使得垃圾評(píng)論與正常的評(píng)論看起來(lái)是沒(méi)有差別的，這就導(dǎo)致虛假評(píng)論即使采用人工方法也難以完全檢測(cè)。于是相關(guān)學(xué)者不得不針對(duì)虛假評(píng)論檢測(cè)任務(wù)的特點(diǎn)，結(jié)合統(tǒng)計(jì)學(xué)以及機(jī)器學(xué)習(xí)技術(shù)來(lái)對(duì)虛假評(píng)論進(jìn)行檢測(cè)。

（一）基于評(píng)論內(nèi)容的虛假評(píng)論監(jiān)測(cè)

在基于評(píng)論內(nèi)容的虛假在線評(píng)論檢測(cè)方面，Jindal N等人認(rèn)為重復(fù)的評(píng)論即是虛假評(píng)論，利用重復(fù)的在線評(píng)論數(shù)據(jù)集，采用shingle算法識(shí)別重復(fù)的評(píng)論。如果兩條評(píng)論的相似度大于0.9時(shí)，則判定這兩條評(píng)論是重復(fù)性的評(píng)論，然后采用logistic回歸方法建立檢測(cè)學(xué)習(xí)模型對(duì)評(píng)論進(jìn)行分類，分為虛假評(píng)論和非虛假評(píng)論兩大類。Tan等將評(píng)論描述成電路上的電阻，利用電阻距離來(lái)衡量評(píng)論之間的語(yǔ)義相似性，提出了一種基于電阻網(wǎng)絡(luò)的無(wú)關(guān)虛假評(píng)論自動(dòng)檢測(cè)方法。

（二）基于評(píng)論者行為的虛假評(píng)論檢測(cè)

基于評(píng)論者行為的虛假在線評(píng)論檢測(cè)方法是以用戶為中心，采用用戶的行為特征建立分類器的一種檢測(cè)方法。Lim等從用戶評(píng)分行為出發(fā)，依據(jù)經(jīng)驗(yàn)對(duì)虛假評(píng)論者行為進(jìn)行建模，并根據(jù)過(guò)往經(jīng)驗(yàn)設(shè)置各種行為特征的權(quán)重，通過(guò)尋找虛假評(píng)論的制造者繼而達(dá)到檢測(cè)虛假評(píng)論的目的。論文之中重點(diǎn)分析的行為包括虛假評(píng)論者通常會(huì)重點(diǎn)關(guān)注特定的產(chǎn)品或產(chǎn)品組、對(duì)所關(guān)注的產(chǎn)品或服務(wù)所給予的評(píng)價(jià)分?jǐn)?shù)與其他評(píng)論者分?jǐn)?shù)差別很大、對(duì)所關(guān)注的產(chǎn)品可能會(huì)發(fā)表多次評(píng)分級(jí)別相似的評(píng)論分?jǐn)?shù)且與其他評(píng)論者的分?jǐn)?shù)差別較大、在較短時(shí)間內(nèi)對(duì)所關(guān)注的產(chǎn)品做多次評(píng)論、早期參與評(píng)論且嚴(yán)重偏離平均值等。

三、虛假評(píng)論檢測(cè)原型系統(tǒng)

本文計(jì)對(duì)以上的研究問(wèn)題和虛假評(píng)論的檢測(cè)任務(wù)特點(diǎn)，具體研究?jī)?nèi)容分以下幾個(gè)方面：

（一）研究主題-對(duì)立情感依賴模型檢測(cè)方法

針對(duì)評(píng)論信息的內(nèi)容特征，分析評(píng)論內(nèi)容的特性，考慮情感的依賴關(guān)系，研究評(píng)論內(nèi)容與主題對(duì)立情感依賴概率模型的構(gòu)建。在一條評(píng)論語(yǔ)句中可能存在著連接詞，而連接詞往往會(huì)影響情感詞的傾向性，例如，用“和”連接的兩個(gè)情感詞，情感傾向往往是類似的；而用“但是”連接的兩個(gè)情感詞，情感傾向常常是相反的。TOSM模型能夠提取評(píng)論的主題-對(duì)立情感信息，但其假設(shè)詞匯的情感是獨(dú)立的，但在實(shí)際中，情感詞的傾向性是相關(guān)的。因此，我們基于情感詞的情感傾向的相關(guān)性，提出一種主題-對(duì)立情感依賴模型（topic-opposite sentiment dependency model，TOSDM）來(lái)用于提取評(píng)論中的主題以及主題對(duì)應(yīng)的對(duì)立情感信息。該模型在TOSM模型的基礎(chǔ)上，考慮情感詞之間的依賴關(guān)系、詞匯的情感類別形成一個(gè)馬爾科夫鏈的形式，每一個(gè)詞的情感類別和前一個(gè)詞的情感類別是依賴的。TOSM模型是四層，該模型產(chǎn)生評(píng)論中的每一個(gè)詞，先從文檔-主題概率分布中選擇一個(gè)主題，然后從參數(shù)為ξ的Dirichlet分布中產(chǎn)生一個(gè)依賴變量x，由依賴變量x控制詞的情感類別的選擇，如果xi = 1，表明第i個(gè)詞的情感傾向性和第i-1個(gè)詞相同；如果xi = -1，則表明第i個(gè)詞的情感傾向性和第i-1個(gè)詞是相反的；如果xi = 0，則表明第i個(gè)詞和前一個(gè)詞的情感傾向性無(wú)關(guān)。這時(shí)從主題-情感分布中選擇一類情感，可以選擇褒義和貶義兩類情感，最后從選擇的情感詞匯中選擇情感詞，重復(fù)以上規(guī)則從而產(chǎn)生一條評(píng)論。利用該模型提取評(píng)論內(nèi)容主題及對(duì)應(yīng)的情感信息，結(jié)合評(píng)論的主題以及情感信息，研究評(píng)論內(nèi)容特征的提取方法，利用這些評(píng)論內(nèi)容的特征，采用有監(jiān)督的分類器，進(jìn)而研究基于評(píng)論內(nèi)容的虛假評(píng)論檢測(cè)方法。

（二）研究無(wú)監(jiān)督分類模型檢測(cè)方法

基于評(píng)論者行為的研究常是把虛假評(píng)論的識(shí)別看作是一個(gè)分類的過(guò)程，利用有監(jiān)督的支持向量機(jī)SVM、決策樹等分類器在人工標(biāo)注好的虛假評(píng)論集中進(jìn)行學(xué)習(xí)，建立統(tǒng)計(jì)模型來(lái)進(jìn)行虛假評(píng)論檢測(cè)。但是，基于有監(jiān)督的檢測(cè)方法需要大量人工標(biāo)注的評(píng)論數(shù)據(jù)集，人工標(biāo)注評(píng)論數(shù)據(jù)既耗時(shí)又費(fèi)力，因此，如何利用未標(biāo)記數(shù)據(jù)對(duì)虛假評(píng)論進(jìn)行檢測(cè)是另一個(gè)關(guān)鍵問(wèn)題。評(píng)論者的行為數(shù)據(jù)通常表現(xiàn)出評(píng)分較高或者較低、以某一個(gè)產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評(píng)論、以某一類產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評(píng)論等不同的特點(diǎn)，這些評(píng)論數(shù)據(jù)的特點(diǎn)與真實(shí)評(píng)論和虛假評(píng)論之間有很大關(guān)聯(lián)性。我們首先考慮把這些不同特點(diǎn)的評(píng)論數(shù)據(jù)自動(dòng)地歸入不同的類中，如：以某一個(gè)產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評(píng)論的評(píng)論數(shù)據(jù)，把它們歸為一類；之后，對(duì)歸類好的評(píng)論數(shù)據(jù)，以每個(gè)類偏離整體評(píng)論數(shù)據(jù)集的程度，研究基于評(píng)論者行為的虛假評(píng)論檢測(cè)方法。

（三）研究融合評(píng)論內(nèi)容和評(píng)論者行為的半監(jiān)督虛假評(píng)論檢測(cè)方法

在以上兩個(gè)研究方法的基礎(chǔ)上，利用評(píng)論內(nèi)容和評(píng)論者行為特征，融合這兩類特征方面，假設(shè)這兩類特征是相互獨(dú)立，同時(shí)考慮利用未標(biāo)注的數(shù)據(jù)來(lái)提高識(shí)別效果，采用基于Co-Trainning的半監(jiān)督學(xué)習(xí)算法對(duì)虛假評(píng)論進(jìn)行檢測(cè)，設(shè)計(jì)出一種融合這兩類特征的半監(jiān)督虛假評(píng)論識(shí)別方法。訓(xùn)練兩個(gè)學(xué)習(xí)器的樣本集滿足以下兩個(gè)充分冗余的視圖：1、兩個(gè)數(shù)據(jù)集都足以用來(lái)描述該問(wèn)題，即如果訓(xùn)練樣本足夠，分類器能夠分別從兩個(gè)數(shù)據(jù)集上學(xué)習(xí)到強(qiáng)分類器；2、在給定標(biāo)記時(shí)，兩個(gè)數(shù)據(jù)集是相互條件獨(dú)立。Co-training算法就是滿足以上條件的兩個(gè)視圖利用有標(biāo)記樣本分別訓(xùn)練出各自的分類器，然后使用這兩個(gè)分類器分別處理無(wú)標(biāo)記樣本。在協(xié)同訓(xùn)練的迭代過(guò)程中，對(duì)每個(gè)分類器選擇分類結(jié)果之中置信度高的數(shù)據(jù)，再將它們加入到對(duì)方分類器的已標(biāo)記數(shù)據(jù)中，參與新一輪的分類器訓(xùn)練。直到使分類器的性能收斂或者已沒(méi)有未標(biāo)記數(shù)據(jù)為止，迭代終止。Co-training的兩個(gè)分類器分別使用對(duì)方標(biāo)注出的數(shù)據(jù)來(lái)幫助自己進(jìn)一步的來(lái)學(xué)習(xí)訓(xùn)練，以達(dá)到更好的分類效果。

（四）設(shè)計(jì)并實(shí)現(xiàn)虛假評(píng)論檢測(cè)原型系統(tǒng)

結(jié)合以上所討論的評(píng)論內(nèi)容特征、評(píng)論者行為特征，融合評(píng)論內(nèi)容特征和評(píng)論者行為特征構(gòu)建虛假評(píng)論檢測(cè)的原型系統(tǒng)，為虛假評(píng)論檢測(cè)提供重要支撐。（作者單位：南京財(cái)經(jīng)大學(xué)）

參考文獻(xiàn)：

[1]趙妍妍，秦兵，劉挺.文本情感分析[J].軟件學(xué)報(bào)，2010，21（8）：1834-1848.

[2]祁翔宇.虛假評(píng)論檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].大連理工大學(xué)，2013.