亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本分析的虛假評論檢測研究綜述

        2023-08-15 00:49:17鄧秋菊
        現(xiàn)代計算機 2023年7期
        關(guān)鍵詞:語義特征文本

        李 東,鄧秋菊

        (1. 四川晨豹互聯(lián)網(wǎng)科技有限公司研發(fā)部, 達州 635000;2. 重慶移通學(xué)院大數(shù)據(jù)與計算機科學(xué)學(xué)院,合川 401520)

        0 引言

        隨著電子商務(wù)全面融入日常生活,越來越多消費者在電商網(wǎng)站購買商品后樂于將使用心得以商品評論形式發(fā)布和分享,電商網(wǎng)站也以積分方式鼓勵消費者發(fā)表商品評論。商品評論包含消費者對商品整體以及各個功能、屬性的評價,因此對其進行分析,其他消費者購買之前可更加全面了解商品,制造商可了解商品不足以優(yōu)化產(chǎn)品。一些不良商家在電商網(wǎng)站發(fā)表虛假商品評論美化自己的商品,或詆毀對手的商品,從而獲得不正當(dāng)商業(yè)利益。這種行為會對消費者形成欺詐,并且降低消費者在電商網(wǎng)站的購物體驗。目前一些電商網(wǎng)站對發(fā)表在其網(wǎng)站上的商品評論真實性進行檢測以剔除虛假評論。

        人工方式進行虛假評論檢測不具有可行性,原因有二:首先每天發(fā)表的商品評論數(shù)量極其龐大;其次一些虛假評論由專業(yè)水軍編寫,具有較大迷惑性。2006 年Jindal 等[1]提出了虛假評論自動檢測研究,主要考慮基于文本內(nèi)容的內(nèi)部特征和基于與評論相關(guān)元數(shù)據(jù)的外部特征。外部特征方法依賴電商網(wǎng)站內(nèi)部數(shù)據(jù)支持,如:唯一用戶名、用戶注冊時間等,這些數(shù)據(jù)無法通過爬蟲從評論網(wǎng)頁獲取,因此內(nèi)部特征的虛假評論研究是當(dāng)前主流方法。

        基于文本內(nèi)容的虛假評論識別進一步又分為傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)方法。傳統(tǒng)機器學(xué)習(xí)方法依靠人工總結(jié)的語言特征分類并取得了較好結(jié)果,但工作量大、計算復(fù)雜,且不適合在不同語言、不同商品間移植。近年來快速發(fā)展的深度學(xué)習(xí)為虛假評論檢測提供了更靈活、更準(zhǔn)確的方法。

        1 傳統(tǒng)機器學(xué)習(xí)方法

        1.1 特征選擇

        傳統(tǒng)機器學(xué)習(xí)方法依賴于人工對商品評論文本進行分析提取特征,目前主要包括:詞匯特征、句法特征、情感特征、心理學(xué)特征。

        (1)詞匯特征。虛假評論與真實評論的表達在詞匯、n元語法、詞性上存在差異。Jindal等[1]采用評論中肯定詞和否定詞的百分比、品牌出現(xiàn)次數(shù)、數(shù)字出現(xiàn)次數(shù)、大寫字母出現(xiàn)次數(shù)等統(tǒng)計量作為特征。Li等[2]采用評論中的n元語法作為特征,通過使用卡方統(tǒng)計得到評論語料中可用于文本分類的最高100個一元語法特征和100 個二元語法特征,進行虛假評論檢測。Ott 等[3]認(rèn)為文本中單詞詞性的分布可以確定文本體裁,因此分析評論文本中詞性分布與是否為虛假評論之間存在關(guān)系。Ott 等[4]在評論中按照一元語法和二元語法抽取詞語并統(tǒng)計詞頻信息,然后以詞頻為特征采用SVM 分別對正向商品評論和負(fù)向商品評論中存在的虛假評論問題進行了研究。Somayeh 等[5]認(rèn)為評論寫作風(fēng)格可用于虛假評論檢測,而寫作風(fēng)格以詞匯進行體現(xiàn),因此以評論中詞匯出現(xiàn)次數(shù)、句子的平均字符數(shù)、標(biāo)記平均長度、7種標(biāo)點符號出現(xiàn)次數(shù)等多個統(tǒng)計量作為分類特征。

        (2)句法特征。Feng 等[6]認(rèn)為虛假評論與真實評論在句子結(jié)構(gòu)上存在差異,因此在使用詞匯特征和詞性特征的基礎(chǔ)上采用PCFG 算法對評論中的句子進行深度句法分析,并設(shè)計了四種生成式規(guī)則從句法樹中提取特征,這四種規(guī)則分別為:不包含最終節(jié)點的生成規(guī)則、包含最終節(jié)點的生成規(guī)則、非詞匯化但包含父節(jié)點的生成規(guī)則、詞匯化但包含父節(jié)點的生成規(guī)則。

        (3)情感特征。Banerjee 等[7]提出真實評論和虛假評論在文本復(fù)雜度(句法特征)和夸張表達(情感特征)等特征上差異非常明顯,并且按照豪華、便宜和中等這三檔酒店進行細(xì)分后分類精度顯著提高。Banerjee 等[8]發(fā)現(xiàn)積極評論、消極評論和中性評論在虛假評論檢測中的差異主要體現(xiàn)在可理解性和特異性特征上。

        (4)心理學(xué)特征。LIWC(linguistic inquiry and word count)是已在社會科學(xué)領(lǐng)域廣泛使用的文本分析軟件,可從文本中提取個人性格等心理學(xué)特征,通過計數(shù)和分組將4500 個左右關(guān)鍵詞映射到一個80 維具有心理學(xué)意義的向量中。Ott[3]將通過LIWC 獲取的特征與詞性特征、二元語法特征結(jié)合后進行檢測,發(fā)現(xiàn)LIWC 結(jié)合二元語法在支持向量機中可達到最佳效果。

        1.2 學(xué)習(xí)算法

        根據(jù)標(biāo)注數(shù)據(jù)需求程度,用于虛假評論檢測的機器學(xué)習(xí)算法分為:監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

        (1)監(jiān)督學(xué)習(xí)?;诒O(jiān)督學(xué)習(xí)算法的虛假評論檢測都被看做二分類任務(wù),即將一篇商品評論分類為真實評論和虛假評論。Jindal 等[9]將評論文本進行特征表示后計算兩個評論的文本相似度,相似度極高的評論作為正例(虛假評論),其余評論作為負(fù)例,然后通過邏輯回歸算法對未標(biāo)注評論進行分類。Shojaee 等[10]用序列最小優(yōu)化算法模型改進虛假檢測的SVM 分類器算法性能。Wu等[11]通過關(guān)聯(lián)規(guī)則的評論名詞模式來提高主題詞(評論中與主題相關(guān)度最高的名詞)的識別精度,最后通過邏輯回歸來完成分類。

        (2)半監(jiān)督學(xué)習(xí)。針對虛假評論檢測領(lǐng)域中標(biāo)注數(shù)據(jù)缺乏,半監(jiān)督學(xué)習(xí)算法被用于虛假評論檢測。半監(jiān)督學(xué)習(xí)算法通常在提供少量標(biāo)注數(shù)據(jù)情況下,充分利用無標(biāo)注數(shù)據(jù)提升分類算法精度。Li 等[12]將Co?Training 算法運用到虛假評論檢測,用兩組完全不同的特征(一組為評論內(nèi)部特征,另一組為評論外部特征)分別訓(xùn)練算法相同的兩個分類器,每輪迭代過程中只有兩個分類器一致判定為正例或負(fù)例的未標(biāo)注數(shù)據(jù)才算標(biāo)注生效。分類時第三個分類器使用Co?Training 得到的樣本數(shù)據(jù)訓(xùn)練集訓(xùn)練分類器并完成檢測。Li 等[13]和Fusilier 等[14]采用PU?Learning進行虛假評論半監(jiān)督分類模型的訓(xùn)練,該算法可根據(jù)已標(biāo)注正樣本P 和未標(biāo)注樣本U 找出高置信度的負(fù)樣本集合,再利用正負(fù)樣本迭代訓(xùn)練得到二分類器。PU?Learning 執(zhí)行過程中,未標(biāo)注數(shù)據(jù)集里存在一部分容易被錯誤標(biāo)注的數(shù)據(jù),Ren 等[15]為了優(yōu)化PU?Learning 對這類樣例的分類效果,首先基于狄利克雷過程混合模型對其進行聚類,再用多核學(xué)習(xí)算法將特征映射到高維空間來提高區(qū)分度。

        (3)無監(jiān)督學(xué)習(xí)。Lau 等[16]為了克服虛假評論檢測中標(biāo)注數(shù)據(jù)匱乏的問題,將無監(jiān)督學(xué)習(xí)和基于語義特征的語言模型結(jié)合起來,通過關(guān)聯(lián)規(guī)則挖掘上下文相關(guān)的關(guān)聯(lián)知識,通過概率語言模型挖掘出語義上相似度很高的評論來作為重點檢測對象,再結(jié)合SVM 算法完成分類。

        2 深度學(xué)習(xí)方法

        2012 年以來深度學(xué)習(xí)在計算機視覺、自然語言處理和語音識別領(lǐng)域獲得了極大成功,文本分類是自然語言中的傳統(tǒng)領(lǐng)域,出現(xiàn)了眾多深度學(xué)習(xí)模型。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和生成對抗網(wǎng)絡(luò)(GAN)也在虛假評論檢測領(lǐng)域得到極大應(yīng)用。相比于傳統(tǒng)機器學(xué)習(xí),深度學(xué)習(xí)不依賴人工特征工程,并且能夠自動提取語義特征,同時詞嵌入表示讓詞語可以用稠密向量進行語義表示,尤其是BERT等模型進一步豐富了基于上下文的語義表示。目前深度學(xué)習(xí)算法在虛假評論檢測領(lǐng)域中主要還是以監(jiān)督學(xué)習(xí)方法為主,有少量的研究也開展了半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

        2.1 監(jiān)督學(xué)習(xí)算法

        通過神經(jīng)網(wǎng)路訓(xùn)練將詞語映射為一維稠密實數(shù)向量已經(jīng)能較好表示詞語語義,但商品評論中一般包含多個語句,每個語句中包含多個詞語,因此如何將評論中多個詞語的語義、以及句法結(jié)構(gòu)等信息融合成整個評論的文檔語義表示,是利用深度學(xué)習(xí)進行虛假評論檢測要解決的主要問題,得到評論的文檔語義表示后分類任務(wù)相對簡單。目前合成評論的文檔語義包括三類方法:自底向上合成、長文本直接合成、文檔嵌入表示。

        (1)自底向上合成的方法。自底向上合成方法首先獲取評論中每個語句中的單個詞語的詞嵌入表示,然后通過神經(jīng)網(wǎng)絡(luò)合成語句的語義表示,最后再將多個語句的語義表示合成為評論的文檔語義表示。Li 等[17]設(shè)計SCNN 模型和SWNN 模型進行虛假評論檢測,二者均采用一層CNN 從詞嵌入合成語句的語義表示,然后再采用第二層CNN 網(wǎng)絡(luò)合成文檔語義表示。不同之處在于SCNN模型對評論中每個語句的語義表示直接進行卷積,而SWNN 模型認(rèn)為評論文本中不同語句重要程度不同,因此合成文檔語義時考慮了不同語句的權(quán)重。權(quán)重采用KL?Divergence 方法進行計算,主要思想是考慮句子中每個單詞在整個評論語料中的重要性。Zhao等[18]認(rèn)為評論中詞語順序?qū)φZ義合成有重要意義,因此設(shè)計了K?MAX 池化層,用于池化減少特征時保持詞語順序。具體設(shè)計就是針對不同長度卷積核形成的一維卷積特征獲取K 個最大值,同時保持特征值的相對順序。Liu 等[19]提出了層次化注意力模型,更好融合不同粒度的語義和不同語句間的相互影響。模型首先采用卷積核長度1、2、3 的CNN 得到語句的語義表示,然后分為兩路繼續(xù)語義合成,一路采用另一個CNN 層對評論中所有語句的語義表示進行卷積運算得到局部表示,另一路采用BiLSTM 將句子語義合成中間表示,第三步中利用局部表示和中間表示計算注意力權(quán)重,最后將局部表示、中間表示和注意力權(quán)重綜合計算得到整個評論的文檔語義表示。

        由于CNN 網(wǎng)絡(luò)善于捕獲局部特征,因此語句語義合成通常采用CNN 網(wǎng)絡(luò),而RNN 網(wǎng)絡(luò)(GRU、LSTM、BiLSTM)善于捕獲遠(yuǎn)距離特征,因此評論的文檔語義合成更多采用RNN 網(wǎng)絡(luò)。Ren 等[15]采用三個不同長度的卷積核分別對一元、二元和三元語法表示從詞嵌入表示合成語句的語義表示,然后將每個語句的語義作為一個時間片的信息輸入到雙向GRNN 網(wǎng)絡(luò)實現(xiàn)評論的文檔語義表示合成。Jain 等[20]將評論文本分割為固定長度的片段,然后對每個片段利用長度為3、5、7的卷積核進行卷積運算和最大池化,池化后特征利用兩個全連接層得到一維向量表示,下一步利用帶有注意力機制的GRU 進行評論文本的文檔語義表示合成。Zhang等[21]認(rèn)為評論語句的語義合成應(yīng)該更加充分考慮詞語的上下文信息,因此提出了DRI?RCNN 模型。模型中認(rèn)為詞語的語義表示可分為六個部分。第一和第二部分分別為詞語本身分別從虛假評論語料和真實評論語料中訓(xùn)練得到的詞嵌入表示;第三和第四部分別為來自于虛假評論語料和真實評論語料中訓(xùn)練的當(dāng)前詞語上文(左邊)語義信息,該信息通過RCNN 網(wǎng)絡(luò)匯集;第五和第六部分分別為來自于虛假評論語料和真實評論語料中訓(xùn)練的當(dāng)前詞語下文(右邊)語義信息集成,該信息同樣使用一個RCNN 網(wǎng)絡(luò)匯集。RCNN網(wǎng)絡(luò)為循環(huán)卷積神經(jīng)網(wǎng)絡(luò),即首先利用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征,然后將每個詞語提取到的語義表示按時間步輸入循環(huán)神經(jīng)網(wǎng)絡(luò)。

        一些研究直接使用RNN 網(wǎng)絡(luò)進行評論語句的語義合成。Zhi[22]認(rèn)為評論第一句、中間部分和最后一句具有不同重要性,因此采用了三個LSTM 分別對第一句、中間部分和最后一句進行語義合成,這三部分的語義表示輸入第四個LSTM 從而得到整個評論的一個文檔語義表示,同時前三個LSTM 的輸出采用自注意力機制合成得到整個評論的另一個文檔語義表示,得到的兩個評論文檔語義表示再次通過注意力機制合成得到最終的文檔表示。Liu 等[23]提出BiLST?MWF 模型,該模型將詞性和第一人稱主格代詞的嵌入式表示與詞語的嵌入式表示合成后輸入到BiLSTM 模型中,將得到的詞語表示進行一維最大池化和輸入激活函數(shù),然后進一步匯集成整個評論的語義表示。Weng 等[24]指出靜態(tài)詞嵌入式表示容易受到一詞多義影響,提出了使用動態(tài)詞嵌入表示BERT,為虛假評論檢測提供更好的輸入。該算法中不僅考慮詞語級的嵌入式表示,也考慮了中文特有的字符的嵌入式表示。在以靜態(tài)詞嵌入+LSTM 模型為基線的對比實驗中,Bert 與多個分類模型(SVM、DNN、LSTM、CNN)結(jié)合進行虛假評論識別可以顯著提高檢測精度。

        (2)長文本合成的方法。長文本合成是指直接將評論文本作為整體進行語義合成,忽略其中語句構(gòu)成。Bhuvaneshwari[25]利用自注意力機制計算評論中每個詞語的重要性,計算后得到的詞嵌入表示與原來的詞嵌入表示拼接得到新的詞嵌入表示,利用不同長度卷積核進行卷積,之后將卷積結(jié)果拼接,下一步再利用BiLSTM 將卷積結(jié)果匯集為整個篇章的文本表示。Nei?sari[26]直接采用了LSTM 進行虛假評論檢測,將評論文本中詞語的詞嵌入表示按照時間片輸入LSTM 單元,將最后一個LSTM 單元輸出輸入到一個全連接層后直接進行二分類。Wang 等[27]用CNN 和MLP 分別得到文本特征和行為特征的表示向量,然后分別利用注意力機制計算在給定行為環(huán)境下語言特征評論欺詐的懷疑性權(quán)重,以及在給定語言特征環(huán)境下行為特征對欺詐性的影響權(quán)重,并用得到的權(quán)重參數(shù)對行為特征向量和語言特征向量進行加強,最后將加強后的行為特征向量和語言特征向量和原始的行為特征向量和語言特征向量拼接為一個一維向量。

        (3)文檔嵌入表示的方法。段落向量表示(即Doc2Vec)是一種對文本中語句、段落和文檔進行嵌入式表示的神經(jīng)網(wǎng)絡(luò)模型,直接將文本轉(zhuǎn)換為一個低維稠密向量進行表示。Anass等[28]提出PV?DAE模型進行虛假評論檢測,該模型采用兩種方式分別生成文檔語義表示。一種用PV?DBOW 模型將評論文本整體直接轉(zhuǎn)為一種文檔語義表示,另一種采用DAE 模型將評論文本先進行編碼,再進行解碼重構(gòu)評論,通過重構(gòu)誤差對DAE 模型進行訓(xùn)練,當(dāng)DAE 模型訓(xùn)練完成后,就用編碼器對評論文本進行壓縮從而得到評論的另一個文檔語義表示。對兩個語義表示進行連接后得到最終的文檔語義表示。

        2.2 半監(jiān)督學(xué)習(xí)算法

        生成對抗網(wǎng)絡(luò)中利用生成器和辨別器對抗實現(xiàn)數(shù)據(jù)增強的方法近年來在機器視覺、自然語言處理領(lǐng)域中得到越來越多應(yīng)用。Aghakhani等[29]提出FakeGAN模型在給定有限標(biāo)注數(shù)據(jù)(發(fā)布在電商網(wǎng)站的原生評論,標(biāo)注為真實評論和虛假評論)情況下提升虛假評論檢測精度的方法。相對于傳統(tǒng)GAN 模型中僅有一個生成器和辨別器,F(xiàn)akeGAN中設(shè)計了一個生成器(G)和兩個辨別器(D 和D’)。生成器G 生成包含若干個句子的虛構(gòu)評論。辨別器D 用于對評論進行真假二分類,真評論為消費者發(fā)布的真實評論,假評論包括不良商家發(fā)布的虛假評論和由生成器生成的虛構(gòu)評論。辨別器D’用于判定假評論是虛假評論或虛構(gòu)評論。辨別器D’用于讓生成器生成的虛構(gòu)評論越來越像虛假評論,從而生成更多更像虛假評論的虛構(gòu)評論以提高D 的分類效果。

        2.3 無監(jiān)督學(xué)習(xí)算法

        Saumya 等[30]提出LSTM?AutoEncoder 模型進行無監(jiān)督虛假評論檢測。模型中首先使用多層堆疊LSTM 來作為編碼器生成整個評論文本的文檔語義表示,然后將該語義表示復(fù)制多份,將每一份的文檔語義表示按照時間片輸入到同樣由多層堆疊LSTM 構(gòu)成的解碼器中,解碼器在每個時間片輸出一個單詞。利用整個LSTM?AutoEncoder模型的輸入和輸出計算每個評論的重構(gòu)誤差,下一步利用EM 算法對所有評論的重構(gòu)誤差進行聚類(兩類),進一步給出每個類別中的評論為真實評論還是虛假評論。

        3 結(jié)語

        本文首先對基于傳統(tǒng)機器學(xué)習(xí)的虛假評論檢測從特征選擇和學(xué)習(xí)算法兩方面進行了深入分析,然后針對基于傳統(tǒng)機器學(xué)習(xí)的虛假評論檢測依賴于人工特征工程的問題,進一步深入分析了基于深度學(xué)習(xí)的虛假評論檢測中的評論文本語義合成,以及相應(yīng)的監(jiān)督學(xué)習(xí)算法、半監(jiān)督學(xué)習(xí)算法和無監(jiān)督學(xué)習(xí)算法。

        猜你喜歡
        語義特征文本
        語言與語義
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        国产精自产拍久久久久久蜜| 国产夫妻自偷自拍第一页| 国产人妖伦理视频在线观看| 999精品无码a片在线1级| 全免费a级毛片免费看网站| 一区二区无码中出| 日韩精品中文字幕免费人妻| 一区二区三区国产高清视频| 影音先锋中文字幕无码资源站| 天美麻花果冻视频大全英文版| AV无码专区亚洲AVL在线观看| 国产午夜福利小视频在线观看| 人妻 偷拍 无码 中文字幕| 男女性高爱潮免费观看| 亚洲性无码av在线| 在线视频观看一区二区| 国产精品无码久久综合| 亚洲va欧美va国产综合| 国产一级片内射在线视频| 国产亚洲精品90在线视频| 亚洲中文字幕无码中文字在线| 热99精品| 中文字幕 在线一区二区| 亚洲夫妻性生活免费视频| 欧美bbw极品另类| 亚洲另类激情综合偷自拍图| 亚洲精品视频一区二区三区四区| 狠狠摸狠狠澡| 国模无码视频一区| 人妻精品一区二区免费| av网站在线观看亚洲国产| 在线亚洲精品免费视频| 伊人久久大香线蕉av不变影院| 亚洲av电影天堂男人的天堂| av无码一区二区三| 99精品国产综合久久麻豆| 区二区三区玖玖玖| 一本一本久久久久a久久综合激情| av在线播放一区二区免费| 蜜臀亚洲av无码精品国产午夜.| 亚洲人成网站免费播放|