亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        虛假評(píng)論檢測(cè)系統(tǒng)的構(gòu)建研究

        2015-05-30 13:19:04萬(wàn)世偉
        2015年26期
        關(guān)鍵詞:評(píng)論者

        萬(wàn)世偉

        摘要:本文依據(jù)虛假評(píng)論的檢測(cè)特點(diǎn),圍繞基于評(píng)論內(nèi)容的虛假評(píng)論、基于評(píng)論者行為的虛假評(píng)論以及融合這兩類特征來(lái)檢測(cè)虛假評(píng)論等方面展開了研究,分析虛假評(píng)論檢測(cè)原型系統(tǒng)的構(gòu)建。

        關(guān)鍵詞:虛假評(píng)論;評(píng)論內(nèi)容;評(píng)論者

        一、引言

        由于存在某些利益關(guān)系,商品在線評(píng)論可能存在一些不真實(shí)或虛假的評(píng)論信息,比如某些人會(huì)刻意的吹捧或者詆毀某些產(chǎn)品,也即在網(wǎng)上存在著很多的評(píng)論數(shù)據(jù)是不真實(shí)的?;ヂ?lián)網(wǎng)上的不真實(shí)評(píng)論來(lái)源于兩部分:一是某些廠商為了推廣自己的產(chǎn)品或者服務(wù),借助電子商務(wù)平臺(tái)做宣傳。二是評(píng)論者在某些利益的驅(qū)動(dòng)下,發(fā)布虛假的評(píng)論信息,這是由互聯(lián)網(wǎng)的開放性決定的,人們可以無(wú)限制的發(fā)表自己的觀點(diǎn)。此外,消費(fèi)者購(gòu)買商品時(shí),往往會(huì)參照其他人購(gòu)買該商品的評(píng)論信息,這是因?yàn)橄M(fèi)者希望買到令自己滿意的商品。當(dāng)人們參考其他消費(fèi)者的評(píng)論時(shí),會(huì)發(fā)現(xiàn)一些讓人產(chǎn)生質(zhì)疑的虛假評(píng)論,這就在一定程度上影響了該評(píng)論信息的參考價(jià)值,從而誤導(dǎo)消費(fèi)者,損害消費(fèi)者的利益。

        二、虛假評(píng)論概述

        虛假評(píng)論是由消費(fèi)者發(fā)表的不真實(shí)的、不符合實(shí)際的評(píng)論,具有欺騙性,從而誤導(dǎo)并損害消費(fèi)者的利益。由于在線評(píng)論通過(guò)虛假評(píng)論者的掩飾和喬裝,使得垃圾評(píng)論與正常的評(píng)論看起來(lái)是沒(méi)有差別的,這就導(dǎo)致虛假評(píng)論即使采用人工方法也難以完全檢測(cè)。于是相關(guān)學(xué)者不得不針對(duì)虛假評(píng)論檢測(cè)任務(wù)的特點(diǎn),結(jié)合統(tǒng)計(jì)學(xué)以及機(jī)器學(xué)習(xí)技術(shù)來(lái)對(duì)虛假評(píng)論進(jìn)行檢測(cè)。

        (一)基于評(píng)論內(nèi)容的虛假評(píng)論監(jiān)測(cè)

        在基于評(píng)論內(nèi)容的虛假在線評(píng)論檢測(cè)方面,Jindal N等人認(rèn)為重復(fù)的評(píng)論即是虛假評(píng)論,利用重復(fù)的在線評(píng)論數(shù)據(jù)集,采用shingle算法識(shí)別重復(fù)的評(píng)論。如果兩條評(píng)論的相似度大于0.9時(shí),則判定這兩條評(píng)論是重復(fù)性的評(píng)論,然后采用logistic回歸方法建立檢測(cè)學(xué)習(xí)模型對(duì)評(píng)論進(jìn)行分類,分為虛假評(píng)論和非虛假評(píng)論兩大類。Tan等將評(píng)論描述成電路上的電阻,利用電阻距離來(lái)衡量評(píng)論之間的語(yǔ)義相似性,提出了一種基于電阻網(wǎng)絡(luò)的無(wú)關(guān)虛假評(píng)論自動(dòng)檢測(cè)方法。

        (二)基于評(píng)論者行為的虛假評(píng)論檢測(cè)

        基于評(píng)論者行為的虛假在線評(píng)論檢測(cè)方法是以用戶為中心,采用用戶的行為特征建立分類器的一種檢測(cè)方法。Lim等從用戶評(píng)分行為出發(fā),依據(jù)經(jīng)驗(yàn)對(duì)虛假評(píng)論者行為進(jìn)行建模,并根據(jù)過(guò)往經(jīng)驗(yàn)設(shè)置各種行為特征的權(quán)重,通過(guò)尋找虛假評(píng)論的制造者繼而達(dá)到檢測(cè)虛假評(píng)論的目的。論文之中重點(diǎn)分析的行為包括虛假評(píng)論者通常會(huì)重點(diǎn)關(guān)注特定的產(chǎn)品或產(chǎn)品組、對(duì)所關(guān)注的產(chǎn)品或服務(wù)所給予的評(píng)價(jià)分?jǐn)?shù)與其他評(píng)論者分?jǐn)?shù)差別很大、對(duì)所關(guān)注的產(chǎn)品可能會(huì)發(fā)表多次評(píng)分級(jí)別相似的評(píng)論分?jǐn)?shù)且與其他評(píng)論者的分?jǐn)?shù)差別較大、在較短時(shí)間內(nèi)對(duì)所關(guān)注的產(chǎn)品做多次評(píng)論、早期參與評(píng)論且嚴(yán)重偏離平均值等。

        三、虛假評(píng)論檢測(cè)原型系統(tǒng)

        本文計(jì)對(duì)以上的研究問(wèn)題和虛假評(píng)論的檢測(cè)任務(wù)特點(diǎn),具體研究?jī)?nèi)容分以下幾個(gè)方面:

        (一)研究主題-對(duì)立情感依賴模型檢測(cè)方法

        針對(duì)評(píng)論信息的內(nèi)容特征,分析評(píng)論內(nèi)容的特性,考慮情感的依賴關(guān)系,研究評(píng)論內(nèi)容與主題對(duì)立情感依賴概率模型的構(gòu)建。在一條評(píng)論語(yǔ)句中可能存在著連接詞,而連接詞往往會(huì)影響情感詞的傾向性,例如,用“和”連接的兩個(gè)情感詞,情感傾向往往是類似的;而用“但是”連接的兩個(gè)情感詞,情感傾向常常是相反的。TOSM模型能夠提取評(píng)論的主題-對(duì)立情感信息,但其假設(shè)詞匯的情感是獨(dú)立的,但在實(shí)際中,情感詞的傾向性是相關(guān)的。因此,我們基于情感詞的情感傾向的相關(guān)性,提出一種主題-對(duì)立情感依賴模型(topic-opposite sentiment dependency model,TOSDM)來(lái)用于提取評(píng)論中的主題以及主題對(duì)應(yīng)的對(duì)立情感信息。該模型在TOSM模型的基礎(chǔ)上,考慮情感詞之間的依賴關(guān)系、詞匯的情感類別形成一個(gè)馬爾科夫鏈的形式,每一個(gè)詞的情感類別和前一個(gè)詞的情感類別是依賴的。TOSM模型是四層,該模型產(chǎn)生評(píng)論中的每一個(gè)詞,先從文檔-主題概率分布中選擇一個(gè)主題,然后從參數(shù)為ξ的Dirichlet分布中產(chǎn)生一個(gè)依賴變量x,由依賴變量x控制詞的情感類別的選擇,如果xi = 1,表明第i個(gè)詞的情感傾向性和第i-1個(gè)詞相同;如果xi = -1,則表明第i個(gè)詞的情感傾向性和第i-1個(gè)詞是相反的;如果xi = 0,則表明第i個(gè)詞和前一個(gè)詞的情感傾向性無(wú)關(guān)。這時(shí)從主題-情感分布中選擇一類情感,可以選擇褒義和貶義兩類情感,最后從選擇的情感詞匯中選擇情感詞,重復(fù)以上規(guī)則從而產(chǎn)生一條評(píng)論。利用該模型提取評(píng)論內(nèi)容主題及對(duì)應(yīng)的情感信息,結(jié)合評(píng)論的主題以及情感信息,研究評(píng)論內(nèi)容特征的提取方法,利用這些評(píng)論內(nèi)容的特征,采用有監(jiān)督的分類器,進(jìn)而研究基于評(píng)論內(nèi)容的虛假評(píng)論檢測(cè)方法。

        (二)研究無(wú)監(jiān)督分類模型檢測(cè)方法

        基于評(píng)論者行為的研究常是把虛假評(píng)論的識(shí)別看作是一個(gè)分類的過(guò)程,利用有監(jiān)督的支持向量機(jī)SVM、決策樹等分類器在人工標(biāo)注好的虛假評(píng)論集中進(jìn)行學(xué)習(xí),建立統(tǒng)計(jì)模型來(lái)進(jìn)行虛假評(píng)論檢測(cè)。但是,基于有監(jiān)督的檢測(cè)方法需要大量人工標(biāo)注的評(píng)論數(shù)據(jù)集,人工標(biāo)注評(píng)論數(shù)據(jù)既耗時(shí)又費(fèi)力,因此,如何利用未標(biāo)記數(shù)據(jù)對(duì)虛假評(píng)論進(jìn)行檢測(cè)是另一個(gè)關(guān)鍵問(wèn)題。評(píng)論者的行為數(shù)據(jù)通常表現(xiàn)出評(píng)分較高或者較低、以某一個(gè)產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評(píng)論、以某一類產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評(píng)論等不同的特點(diǎn),這些評(píng)論數(shù)據(jù)的特點(diǎn)與真實(shí)評(píng)論和虛假評(píng)論之間有很大關(guān)聯(lián)性。我們首先考慮把這些不同特點(diǎn)的評(píng)論數(shù)據(jù)自動(dòng)地歸入不同的類中,如:以某一個(gè)產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評(píng)論的評(píng)論數(shù)據(jù),把它們歸為一類;之后,對(duì)歸類好的評(píng)論數(shù)據(jù),以每個(gè)類偏離整體評(píng)論數(shù)據(jù)集的程度,研究基于評(píng)論者行為的虛假評(píng)論檢測(cè)方法。

        (三)研究融合評(píng)論內(nèi)容和評(píng)論者行為的半監(jiān)督虛假評(píng)論檢測(cè)方法

        在以上兩個(gè)研究方法的基礎(chǔ)上,利用評(píng)論內(nèi)容和評(píng)論者行為特征,融合這兩類特征方面,假設(shè)這兩類特征是相互獨(dú)立,同時(shí)考慮利用未標(biāo)注的數(shù)據(jù)來(lái)提高識(shí)別效果,采用基于Co-Trainning的半監(jiān)督學(xué)習(xí)算法對(duì)虛假評(píng)論進(jìn)行檢測(cè),設(shè)計(jì)出一種融合這兩類特征的半監(jiān)督虛假評(píng)論識(shí)別方法。訓(xùn)練兩個(gè)學(xué)習(xí)器的樣本集滿足以下兩個(gè)充分冗余的視圖:1、兩個(gè)數(shù)據(jù)集都足以用來(lái)描述該問(wèn)題,即如果訓(xùn)練樣本足夠,分類器能夠分別從兩個(gè)數(shù)據(jù)集上學(xué)習(xí)到強(qiáng)分類器;2、在給定標(biāo)記時(shí),兩個(gè)數(shù)據(jù)集是相互條件獨(dú)立。Co-training算法就是滿足以上條件的兩個(gè)視圖利用有標(biāo)記樣本分別訓(xùn)練出各自的分類器,然后使用這兩個(gè)分類器分別處理無(wú)標(biāo)記樣本。在協(xié)同訓(xùn)練的迭代過(guò)程中,對(duì)每個(gè)分類器選擇分類結(jié)果之中置信度高的數(shù)據(jù),再將它們加入到對(duì)方分類器的已標(biāo)記數(shù)據(jù)中,參與新一輪的分類器訓(xùn)練。直到使分類器的性能收斂或者已沒(méi)有未標(biāo)記數(shù)據(jù)為止,迭代終止。Co-training的兩個(gè)分類器分別使用對(duì)方標(biāo)注出的數(shù)據(jù)來(lái)幫助自己進(jìn)一步的來(lái)學(xué)習(xí)訓(xùn)練,以達(dá)到更好的分類效果。

        (四)設(shè)計(jì)并實(shí)現(xiàn)虛假評(píng)論檢測(cè)原型系統(tǒng)

        結(jié)合以上所討論的評(píng)論內(nèi)容特征、評(píng)論者行為特征,融合評(píng)論內(nèi)容特征和評(píng)論者行為特征構(gòu)建虛假評(píng)論檢測(cè)的原型系統(tǒng),為虛假評(píng)論檢測(cè)提供重要支撐。(作者單位:南京財(cái)經(jīng)大學(xué))

        參考文獻(xiàn):

        [1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.

        [2]祁翔宇.虛假評(píng)論檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].大連理工大學(xué),2013.

        猜你喜歡
        評(píng)論者
        智珠2則
        評(píng)論者特征對(duì)酒店在線評(píng)論有用性的影響
        ——基于大數(shù)據(jù)和實(shí)驗(yàn)法的聯(lián)合檢驗(yàn)
        人工智能技術(shù)的電子商務(wù)虛假評(píng)論者檢測(cè)
        網(wǎng)絡(luò)新聞評(píng)論者的倫理責(zé)任問(wèn)題及應(yīng)對(duì)路徑探析
        評(píng)論經(jīng)驗(yàn)與評(píng)論效用之間關(guān)系的實(shí)證研究
        基于D-S證據(jù)理論的電子商務(wù)虛假評(píng)論者檢測(cè)
        新聞評(píng)論的寫作方法討論和研究
        新媒體研究(2016年9期)2016-10-14 23:55:40
        基于情感特征和用戶關(guān)系的虛假評(píng)論者的識(shí)別
        等待被評(píng)論者重拾的“話語(yǔ)權(quán)”
        西江文藝(2016年19期)2016-05-30 13:18:29
        基于評(píng)論關(guān)系圖的垃圾評(píng)論者檢測(cè)研究
        四川少妇大战4黑人| 久久夜色精品亚洲天堂| 97se亚洲国产综合自在线图片| 天天躁日日躁狠狠躁av中文| 在线播放人成午夜免费视频| 成人无码区免费AⅤ片WWW| 国产精品三级av一区二区| 午夜福利不卡无码视频| 久久久久久无中无码| 亚洲精品视频免费在线| 精品国精品自拍自在线| av是男人的天堂免费| 91九色中文视频在线观看| 一本色道无码不卡在线观看| 亚洲精品无码久久久影院相关影片| 国产欧美日韩一区二区三区在线 | 含羞草亚洲AV无码久久精品| 亚洲小说图区综合在线| 欧美人与动牲交片免费播放| 米奇亚洲国产精品思久久| 日本高清在线一区二区| 极品少妇高潮在线观看| 91久久国产香蕉熟女线看| 伊人青青草综合在线视频免费播放 | 新视觉亚洲三区二区一区理伦| 久久99人妖视频国产| 成人影片麻豆国产影片免费观看| 后入内射国产一区二区| 中国丰满熟妇xxxx性| 精品亚洲国产成人av| 中文字幕不卡在线播放| 少妇av免费在线播放| 成人短篇在线视频夫妻刺激自拍| 日产一区日产2区日产| 美女mm131爽爽爽| 中文字幕在线亚洲日韩6页| 国产福利午夜波多野结衣| 国产欧美亚洲精品第二区首页| 天堂精品人妻一卡二卡| 久久精品亚洲94久久精品| 大又大又粗又硬又爽少妇毛片|