亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的虛假評論檢測

2019-11-28 13:40:32黃欣欣年梅胡創(chuàng)業(yè)范祖奎

計算機(jī)時代 2019年11期

黃欣欣年梅胡創(chuàng)業(yè) 范祖奎

摘 ?要：為了有效地提取評論文本特征，進(jìn)行虛假信息的檢測，采用卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行虛假評論的識別。文章基于擴(kuò)展Ott黃金數(shù)據(jù)集，通過word2vec將評論語料轉(zhuǎn)換為詞向量作為CNN的輸入;按照虛假評論檢測的實驗效果，確定了卷積神經(jīng)網(wǎng)絡(luò)的向量維度和網(wǎng)絡(luò)深度結(jié)構(gòu)，形成卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化模型。在同一數(shù)據(jù)集上與LSTM和GRU算法模型進(jìn)行了對比實驗，結(jié)果表明，卷積神經(jīng)網(wǎng)絡(luò)在虛假評論檢測中有效。

關(guān)鍵詞：虛假評論檢測; CNN; 擴(kuò)展Ott黃金數(shù)據(jù)集; word2vec; 網(wǎng)絡(luò)結(jié)構(gòu)

中圖分類號：TP393 ? ? ? ? ?文獻(xiàn)標(biāo)志碼：A ? ? 文章編號：1006-8228（2019）11-41-05

Abstract： In order to extract the features of comment text effectively and detect false information， this paper uses the method of convolutional neural network to recognize false comment. With the extended Ott gold data set， the comment corpus is converted into the word vector by word2vec as the input of CNN. According to the experimental results of false comment detection， the vector dimension and network depth structure of convolution neural network are determined to form a optimized model of convolution neural network. A comparative experiment on the same data set is carried on with LSTM and GRU algorithm models， the results show that the convolutional neural network is effective in false comment detection.

Key words： false comment detection; CNN; extended Ott gold data set; word2vec; network structure

0 引言

隨著電子商務(wù)的快速發(fā)展，線上購物已經(jīng)成為人們生活中不可或缺的一種購物方式。由于產(chǎn)品評論和商家銷售額存在很大的利益關(guān)系，因此誘發(fā)部分商家通過不公平的競爭手段構(gòu)造虛假評論，嚴(yán)重影響了消費(fèi)者的購物體驗。虛假評論是人為的根據(jù)商家需求撰寫的產(chǎn)品評論，具有迷惑性大、難以識別的特點(diǎn)。為了提高消費(fèi)者的線上購物體驗，構(gòu)造公平的電子商務(wù)發(fā)展環(huán)境，迫切需要找到一種有效的虛假評論檢測方法來抵制購物平臺中的虛假評論，維護(hù)公平穩(wěn)定的購物環(huán)境。

Jindal和Liu[1-2]首次提出了虛假評論的概念，并將其分為三類：不可靠評論、無用評論和品牌評論。Mukherjee[3]等人采用詞袋特征和詞性特征，使用SVM分類器，在從Yelp網(wǎng)站獲取的酒店和飯店數(shù)據(jù)集上取得了65.6%和67.8%的準(zhǔn)確率。張恒[4]在Myle公布的虛假評論黃金數(shù)據(jù)集中采用多種提取特征的方法來提取評論文本特征，然后通過傳統(tǒng)的支持向量機(jī)模型、邏輯回歸模型、隨機(jī)森林模型進(jìn)行建模訓(xùn)練，對比試驗結(jié)果取得了87.4%-90.4%的準(zhǔn)確率。Li[5]等人采用稀疏相加生成模型對評論是否為虛假評論進(jìn)行預(yù)測。Mukherjee[6]等人利用虛假評論者發(fā)布評論的頻率構(gòu)建模型挖掘發(fā)現(xiàn)可能性最大的虛假評論者。李靜[7]在虛假評論檢測中采用了增加主題傾向的詞向量表示方法，提出主題-動態(tài)卷積神經(jīng)網(wǎng)絡(luò)識別方法，取得了83.7%的準(zhǔn)確率。Wang[8]等人提出了一種評論網(wǎng)的概念，通過研究評論者，評論和店鋪三者之間的關(guān)系來構(gòu)建評論網(wǎng)。

卷積神經(jīng)網(wǎng)絡(luò)（CNN）在很多領(lǐng)域中都表現(xiàn)十分優(yōu)異[9]。與普通的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比，卷積神經(jīng)網(wǎng)絡(luò)多了一個特征抽取器由卷積層和子采樣層構(gòu)成，可以有效的提取評論特征并進(jìn)行識別，為虛假信息檢測提供了技術(shù)基礎(chǔ)。

1 卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的改進(jìn)，主要由輸入層（又稱嵌入層）、卷積層、池化層和全連接層四個網(wǎng)絡(luò)層結(jié)構(gòu)組成。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

1.1 輸入層

輸入層又稱嵌入層。該層將評論數(shù)據(jù)數(shù)字歸一化至[0-1]區(qū)間[10]，以方便后續(xù)處理。本文首先將擴(kuò)充的ott數(shù)據(jù)集使用Word2Vec詞向量工具進(jìn)行訓(xùn)練，將詞語轉(zhuǎn)換為詞向量的格式。為了保證所有評論的長度一致，以評論中最長評論的詞語數(shù)量為參照，將每個詞語的詞向量縱向堆疊（不足的補(bǔ)0）和詞向量的維度作為二維矩陣平面實現(xiàn)定長輸入。

1.2 卷積層和池化層

卷積層的功能是對輸入數(shù)據(jù)進(jìn)行特征提取，主要包含局部感知野、權(quán)值共享和多卷積核三方面的特性，前兩者可以有效的降低數(shù)據(jù)維度，后者可以再次提取特征。池化層對卷積層提取的特征再次壓縮提取，保留最顯著的特征進(jìn)行分類，降低特征維度，減少過擬合。常用的池化層策略有兩種，平均值和最大值策略。

雖然本文設(shè)計的模型相對與其他模型準(zhǔn)確率有一定的提高，但是本文考慮識別因素較為單一。下一步作者將會繼續(xù)研究在虛假評論檢測中增加注意力機(jī)制，將評論文本內(nèi)容、評論情感極性及程度融合在一起，利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行虛假評論檢測，相信會取得更佳的效果。

參考文獻(xiàn)（References）：

[1] Nitin Jindal and Bing L.iu. Opinion spam and analysis [C].In： Proceedings of the 1st ACM International Conference on Web Search and Data Mining.2008：137-142

[2] Nitin Jindal and Bing Liu. Review spam detection[C]. In： Proceedings of the 2007 International conference on the World Wide Web.2007：1089-1090

[3] Arjun Mukherjee and Vivek Venkataraman and Bing Liu and Natalie Glance.What yelp fake review filter might be doing//Proceedings ofthe International AAAI Conference on Web and Social Media.Washington， USA，2013：409-418

[4] 張恒. 基于深度學(xué)習(xí)的虛假評論識別方法研究[D].哈爾濱工業(yè)大學(xué)，2017.

[5] Li J，Ott M，Cardie C，et al.Towards a General Rule for Identifying Deceptive Opinion Spam[C]//Meeting of the Association for Computational Linguistics. Bal-timore， MD，USA：Association for Computational Linguistics，2014：1566–1576

[6] Mukherjee A，Liu B，Wang J，et al. Detecting Group Review Spam[A].Proceedings of the20th International Conference Companion on World wide Web[C].ACM，2011： 93-94.

[7] 李靜.基于卷積神經(jīng)網(wǎng)絡(luò)的虛假評論識別技術(shù)的研究[D].北京郵電大學(xué)，2017.

[8] Wang G，Xie S，Liu B. Review Graph Based Online Store Review Spammer Detection[A]. Data Mining（ ICDM），2011 IEEE 11th International Conference on[C]. IEEE，2011：1242-1247

[9] Kalchbrenner N，Grefenstette ?E，Blunsom P.A convolutional ?neural ?network ?for ?modelling sentences[J].ar Xiv preprint ar Xiv：1404.2188，2014.

[10] Ng，A.，Kian，K.and Younes，B.Convolutional Neural Networks，Deep learning.Coursera and deeplearning.ai.2018

[11] Pennington J，Socher R，Manning C.Glove：Global Vectors for Word Representation[C]//Conference on Empirical Methods in Natural Language Processing.2014：1532-1543

計算機(jī)時代2019年11期

計算機(jī)時代的其它文章: 浙江省中職物聯(lián)網(wǎng)專業(yè)核心技能調(diào)查研究; 基于納米材料催化發(fā)光傳感器陣列的有機(jī)氣體檢測與識別; 基于大數(shù)據(jù)平臺的高職計算機(jī)基礎(chǔ)課混合式教學(xué)改革研究; 基于非格點(diǎn)MonteCarlo方法模擬高分子在表面上吸附; 計算機(jī)時代征稿啟事; 基于云存儲的教學(xué)資源平臺需求分析與設(shè)計