萬(wàn)世偉
摘要:本文依據(jù)虛假評(píng)論的檢測(cè)特點(diǎn),圍繞基于評(píng)論內(nèi)容的虛假評(píng)論、基于評(píng)論者行為的虛假評(píng)論以及融合這兩類特征來(lái)檢測(cè)虛假評(píng)論等方面展開了研究,分析虛假評(píng)論檢測(cè)原型系統(tǒng)的構(gòu)建。
關(guān)鍵詞:虛假評(píng)論;評(píng)論內(nèi)容;評(píng)論者
一、引言
由于存在某些利益關(guān)系,商品在線評(píng)論可能存在一些不真實(shí)或虛假的評(píng)論信息,比如某些人會(huì)刻意的吹捧或者詆毀某些產(chǎn)品,也即在網(wǎng)上存在著很多的評(píng)論數(shù)據(jù)是不真實(shí)的?;ヂ?lián)網(wǎng)上的不真實(shí)評(píng)論來(lái)源于兩部分:一是某些廠商為了推廣自己的產(chǎn)品或者服務(wù),借助電子商務(wù)平臺(tái)做宣傳。二是評(píng)論者在某些利益的驅(qū)動(dòng)下,發(fā)布虛假的評(píng)論信息,這是由互聯(lián)網(wǎng)的開放性決定的,人們可以無(wú)限制的發(fā)表自己的觀點(diǎn)。此外,消費(fèi)者購(gòu)買商品時(shí),往往會(huì)參照其他人購(gòu)買該商品的評(píng)論信息,這是因?yàn)橄M(fèi)者希望買到令自己滿意的商品。當(dāng)人們參考其他消費(fèi)者的評(píng)論時(shí),會(huì)發(fā)現(xiàn)一些讓人產(chǎn)生質(zhì)疑的虛假評(píng)論,這就在一定程度上影響了該評(píng)論信息的參考價(jià)值,從而誤導(dǎo)消費(fèi)者,損害消費(fèi)者的利益。
二、虛假評(píng)論概述
虛假評(píng)論是由消費(fèi)者發(fā)表的不真實(shí)的、不符合實(shí)際的評(píng)論,具有欺騙性,從而誤導(dǎo)并損害消費(fèi)者的利益。由于在線評(píng)論通過(guò)虛假評(píng)論者的掩飾和喬裝,使得垃圾評(píng)論與正常的評(píng)論看起來(lái)是沒(méi)有差別的,這就導(dǎo)致虛假評(píng)論即使采用人工方法也難以完全檢測(cè)。于是相關(guān)學(xué)者不得不針對(duì)虛假評(píng)論檢測(cè)任務(wù)的特點(diǎn),結(jié)合統(tǒng)計(jì)學(xué)以及機(jī)器學(xué)習(xí)技術(shù)來(lái)對(duì)虛假評(píng)論進(jìn)行檢測(cè)。
(一)基于評(píng)論內(nèi)容的虛假評(píng)論監(jiān)測(cè)
在基于評(píng)論內(nèi)容的虛假在線評(píng)論檢測(cè)方面,Jindal N等人認(rèn)為重復(fù)的評(píng)論即是虛假評(píng)論,利用重復(fù)的在線評(píng)論數(shù)據(jù)集,采用shingle算法識(shí)別重復(fù)的評(píng)論。如果兩條評(píng)論的相似度大于0.9時(shí),則判定這兩條評(píng)論是重復(fù)性的評(píng)論,然后采用logistic回歸方法建立檢測(cè)學(xué)習(xí)模型對(duì)評(píng)論進(jìn)行分類,分為虛假評(píng)論和非虛假評(píng)論兩大類。Tan等將評(píng)論描述成電路上的電阻,利用電阻距離來(lái)衡量評(píng)論之間的語(yǔ)義相似性,提出了一種基于電阻網(wǎng)絡(luò)的無(wú)關(guān)虛假評(píng)論自動(dòng)檢測(cè)方法。
(二)基于評(píng)論者行為的虛假評(píng)論檢測(cè)
基于評(píng)論者行為的虛假在線評(píng)論檢測(cè)方法是以用戶為中心,采用用戶的行為特征建立分類器的一種檢測(cè)方法。Lim等從用戶評(píng)分行為出發(fā),依據(jù)經(jīng)驗(yàn)對(duì)虛假評(píng)論者行為進(jìn)行建模,并根據(jù)過(guò)往經(jīng)驗(yàn)設(shè)置各種行為特征的權(quán)重,通過(guò)尋找虛假評(píng)論的制造者繼而達(dá)到檢測(cè)虛假評(píng)論的目的。論文之中重點(diǎn)分析的行為包括虛假評(píng)論者通常會(huì)重點(diǎn)關(guān)注特定的產(chǎn)品或產(chǎn)品組、對(duì)所關(guān)注的產(chǎn)品或服務(wù)所給予的評(píng)價(jià)分?jǐn)?shù)與其他評(píng)論者分?jǐn)?shù)差別很大、對(duì)所關(guān)注的產(chǎn)品可能會(huì)發(fā)表多次評(píng)分級(jí)別相似的評(píng)論分?jǐn)?shù)且與其他評(píng)論者的分?jǐn)?shù)差別較大、在較短時(shí)間內(nèi)對(duì)所關(guān)注的產(chǎn)品做多次評(píng)論、早期參與評(píng)論且嚴(yán)重偏離平均值等。
三、虛假評(píng)論檢測(cè)原型系統(tǒng)
本文計(jì)對(duì)以上的研究問(wèn)題和虛假評(píng)論的檢測(cè)任務(wù)特點(diǎn),具體研究?jī)?nèi)容分以下幾個(gè)方面:
(一)研究主題-對(duì)立情感依賴模型檢測(cè)方法
針對(duì)評(píng)論信息的內(nèi)容特征,分析評(píng)論內(nèi)容的特性,考慮情感的依賴關(guān)系,研究評(píng)論內(nèi)容與主題對(duì)立情感依賴概率模型的構(gòu)建。在一條評(píng)論語(yǔ)句中可能存在著連接詞,而連接詞往往會(huì)影響情感詞的傾向性,例如,用“和”連接的兩個(gè)情感詞,情感傾向往往是類似的;而用“但是”連接的兩個(gè)情感詞,情感傾向常常是相反的。TOSM模型能夠提取評(píng)論的主題-對(duì)立情感信息,但其假設(shè)詞匯的情感是獨(dú)立的,但在實(shí)際中,情感詞的傾向性是相關(guān)的。因此,我們基于情感詞的情感傾向的相關(guān)性,提出一種主題-對(duì)立情感依賴模型(topic-opposite sentiment dependency model,TOSDM)來(lái)用于提取評(píng)論中的主題以及主題對(duì)應(yīng)的對(duì)立情感信息。該模型在TOSM模型的基礎(chǔ)上,考慮情感詞之間的依賴關(guān)系、詞匯的情感類別形成一個(gè)馬爾科夫鏈的形式,每一個(gè)詞的情感類別和前一個(gè)詞的情感類別是依賴的。TOSM模型是四層,該模型產(chǎn)生評(píng)論中的每一個(gè)詞,先從文檔-主題概率分布中選擇一個(gè)主題,然后從參數(shù)為ξ的Dirichlet分布中產(chǎn)生一個(gè)依賴變量x,由依賴變量x控制詞的情感類別的選擇,如果xi = 1,表明第i個(gè)詞的情感傾向性和第i-1個(gè)詞相同;如果xi = -1,則表明第i個(gè)詞的情感傾向性和第i-1個(gè)詞是相反的;如果xi = 0,則表明第i個(gè)詞和前一個(gè)詞的情感傾向性無(wú)關(guān)。這時(shí)從主題-情感分布中選擇一類情感,可以選擇褒義和貶義兩類情感,最后從選擇的情感詞匯中選擇情感詞,重復(fù)以上規(guī)則從而產(chǎn)生一條評(píng)論。利用該模型提取評(píng)論內(nèi)容主題及對(duì)應(yīng)的情感信息,結(jié)合評(píng)論的主題以及情感信息,研究評(píng)論內(nèi)容特征的提取方法,利用這些評(píng)論內(nèi)容的特征,采用有監(jiān)督的分類器,進(jìn)而研究基于評(píng)論內(nèi)容的虛假評(píng)論檢測(cè)方法。
(二)研究無(wú)監(jiān)督分類模型檢測(cè)方法
基于評(píng)論者行為的研究常是把虛假評(píng)論的識(shí)別看作是一個(gè)分類的過(guò)程,利用有監(jiān)督的支持向量機(jī)SVM、決策樹等分類器在人工標(biāo)注好的虛假評(píng)論集中進(jìn)行學(xué)習(xí),建立統(tǒng)計(jì)模型來(lái)進(jìn)行虛假評(píng)論檢測(cè)。但是,基于有監(jiān)督的檢測(cè)方法需要大量人工標(biāo)注的評(píng)論數(shù)據(jù)集,人工標(biāo)注評(píng)論數(shù)據(jù)既耗時(shí)又費(fèi)力,因此,如何利用未標(biāo)記數(shù)據(jù)對(duì)虛假評(píng)論進(jìn)行檢測(cè)是另一個(gè)關(guān)鍵問(wèn)題。評(píng)論者的行為數(shù)據(jù)通常表現(xiàn)出評(píng)分較高或者較低、以某一個(gè)產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評(píng)論、以某一類產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評(píng)論等不同的特點(diǎn),這些評(píng)論數(shù)據(jù)的特點(diǎn)與真實(shí)評(píng)論和虛假評(píng)論之間有很大關(guān)聯(lián)性。我們首先考慮把這些不同特點(diǎn)的評(píng)論數(shù)據(jù)自動(dòng)地歸入不同的類中,如:以某一個(gè)產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評(píng)論的評(píng)論數(shù)據(jù),把它們歸為一類;之后,對(duì)歸類好的評(píng)論數(shù)據(jù),以每個(gè)類偏離整體評(píng)論數(shù)據(jù)集的程度,研究基于評(píng)論者行為的虛假評(píng)論檢測(cè)方法。
(三)研究融合評(píng)論內(nèi)容和評(píng)論者行為的半監(jiān)督虛假評(píng)論檢測(cè)方法
在以上兩個(gè)研究方法的基礎(chǔ)上,利用評(píng)論內(nèi)容和評(píng)論者行為特征,融合這兩類特征方面,假設(shè)這兩類特征是相互獨(dú)立,同時(shí)考慮利用未標(biāo)注的數(shù)據(jù)來(lái)提高識(shí)別效果,采用基于Co-Trainning的半監(jiān)督學(xué)習(xí)算法對(duì)虛假評(píng)論進(jìn)行檢測(cè),設(shè)計(jì)出一種融合這兩類特征的半監(jiān)督虛假評(píng)論識(shí)別方法。訓(xùn)練兩個(gè)學(xué)習(xí)器的樣本集滿足以下兩個(gè)充分冗余的視圖:1、兩個(gè)數(shù)據(jù)集都足以用來(lái)描述該問(wèn)題,即如果訓(xùn)練樣本足夠,分類器能夠分別從兩個(gè)數(shù)據(jù)集上學(xué)習(xí)到強(qiáng)分類器;2、在給定標(biāo)記時(shí),兩個(gè)數(shù)據(jù)集是相互條件獨(dú)立。Co-training算法就是滿足以上條件的兩個(gè)視圖利用有標(biāo)記樣本分別訓(xùn)練出各自的分類器,然后使用這兩個(gè)分類器分別處理無(wú)標(biāo)記樣本。在協(xié)同訓(xùn)練的迭代過(guò)程中,對(duì)每個(gè)分類器選擇分類結(jié)果之中置信度高的數(shù)據(jù),再將它們加入到對(duì)方分類器的已標(biāo)記數(shù)據(jù)中,參與新一輪的分類器訓(xùn)練。直到使分類器的性能收斂或者已沒(méi)有未標(biāo)記數(shù)據(jù)為止,迭代終止。Co-training的兩個(gè)分類器分別使用對(duì)方標(biāo)注出的數(shù)據(jù)來(lái)幫助自己進(jìn)一步的來(lái)學(xué)習(xí)訓(xùn)練,以達(dá)到更好的分類效果。
(四)設(shè)計(jì)并實(shí)現(xiàn)虛假評(píng)論檢測(cè)原型系統(tǒng)
結(jié)合以上所討論的評(píng)論內(nèi)容特征、評(píng)論者行為特征,融合評(píng)論內(nèi)容特征和評(píng)論者行為特征構(gòu)建虛假評(píng)論檢測(cè)的原型系統(tǒng),為虛假評(píng)論檢測(cè)提供重要支撐。(作者單位:南京財(cái)經(jīng)大學(xué))
參考文獻(xiàn):
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
[2]祁翔宇.虛假評(píng)論檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].大連理工大學(xué),2013.