亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        采用CNN-LSTM 與遷移學(xué)習(xí)的虛假評(píng)論檢測(cè)

        2022-03-07 06:57:58陳宇峰
        軟件導(dǎo)刊 2022年2期
        關(guān)鍵詞:分類文本模型

        陳宇峰

        (蘭州大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,甘肅 蘭州 730000)

        0 引言

        信息化時(shí)代,互聯(lián)網(wǎng)逐漸成為人們獲取信息的重要渠道,出現(xiàn)了大量帶有用戶主觀情感、語義豐富的短文本。面對(duì)還未接觸或者不夠了解的服務(wù)與產(chǎn)品,多數(shù)用戶習(xí)慣于通過互聯(lián)網(wǎng)獲取有關(guān)信息,來自互聯(lián)網(wǎng)的評(píng)價(jià)極大影響著用戶的最終決策與選擇。如用戶在有關(guān)平臺(tái)上預(yù)訂酒店時(shí),在其他條件合適的情況下往往會(huì)先參考酒店已入住者提供的評(píng)論,并根據(jù)評(píng)論做出是否預(yù)定該酒店的決定。因?yàn)榛ヂ?lián)網(wǎng)評(píng)價(jià)的這一作用,大量虛假評(píng)價(jià)也頻繁出現(xiàn)在有關(guān)平臺(tái),而虛假的產(chǎn)品與服務(wù)評(píng)論不僅可能誤導(dǎo)消費(fèi)者的最終決策,還會(huì)對(duì)商家的信用產(chǎn)生較大影響。因此,高效識(shí)別網(wǎng)絡(luò)的虛假評(píng)論具有重要的社會(huì)意義與經(jīng)濟(jì)價(jià)值[2]。

        在互聯(lián)網(wǎng)上發(fā)布虛假評(píng)論成本較低,普通用戶對(duì)于虛假評(píng)論的識(shí)別能力較差,通常很難識(shí)別出帶有欺騙性質(zhì)的虛假評(píng)論,因此相關(guān)研究大多以虛假評(píng)論為實(shí)驗(yàn)研究對(duì)象。

        1 相關(guān)研究

        虛假評(píng)論文本的檢測(cè)與識(shí)別方法很多,包括無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí),深度學(xué)習(xí)模型在虛假評(píng)論識(shí)別研究得到應(yīng)用。深度學(xué)習(xí)模型識(shí)別主要分為基于內(nèi)容的虛假評(píng)論文本識(shí)別與基于文本特征的虛假評(píng)論識(shí)別兩種。Yan等提出的神經(jīng)網(wǎng)絡(luò)模型對(duì)于虛假評(píng)論信息檢測(cè)的準(zhǔn)確率達(dá)到85%;陶晶晶提出的基于并聯(lián)方式的混合神經(jīng)網(wǎng)絡(luò)識(shí)別模型,在對(duì)虛假商品評(píng)論數(shù)據(jù)檢測(cè)中達(dá)到90.3%的準(zhǔn)確率。

        本文基于酒店英文評(píng)價(jià)數(shù)據(jù)集deceptive-opinionspam-corpus,利用Doc2Vec 將文本向量化后作為特征集,結(jié)合TF-IDF 方法,使用CNN-LSTM 模型和遷移學(xué)習(xí)方法,構(gòu)建了一個(gè)虛假英文評(píng)論分類模型,并在數(shù)據(jù)集deceptiveopinion-spam-corpus 上進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該模型對(duì)虛假評(píng)論的檢測(cè)達(dá)到93.1%的準(zhǔn)確率。

        2 數(shù)據(jù)與方法

        2.1 數(shù)據(jù)集

        deceptive-opinion-spam-corpus 數(shù)據(jù)集是一個(gè)只有1 600 條評(píng)價(jià)的中小型數(shù)據(jù)集,包括對(duì)20 家芝加哥酒店真實(shí)和虛假的在線評(píng)論。deceptive-opinion-spam-corpus 數(shù)據(jù)集包含800條來自Mechanical Turk的虛假評(píng)價(jià)和800條來自TripAdvisor 與Expedia 的真實(shí)評(píng)價(jià),其中正面評(píng)價(jià)與負(fù)面評(píng)價(jià)在真實(shí)評(píng)價(jià)與虛假評(píng)價(jià)中的占比均為1∶1,如圖1所示。

        本文對(duì)deceptive-opinion-spam-corpus 數(shù)據(jù)集的英文評(píng)論文本進(jìn)行了數(shù)據(jù)預(yù)處理,預(yù)處理后的英文評(píng)論文本中不包含任何標(biāo)點(diǎn)符號(hào)、特殊字符以及阿拉伯?dāng)?shù)字。

        Fig.1 Distribution of dataset data圖1 數(shù)據(jù)集中數(shù)據(jù)的分布

        2.2 對(duì)照方法

        本文使用基準(zhǔn)方法為傳統(tǒng)的Logistic 回歸算法、樸素貝葉斯分類算法以及一種能夠有效檢測(cè)虛假文本的卷積神經(jīng)網(wǎng)絡(luò)模型,簡(jiǎn)稱CNN1。CNN1 由三層卷積神經(jīng)網(wǎng)絡(luò)組成,每一層卷積神經(jīng)網(wǎng)絡(luò)都包含一層卷積層和最大池化層。Logistic 回歸是一種廣義的線性回歸分析模型,是一種用于解決二分類問題的機(jī)器學(xué)習(xí)方法;樸素貝葉斯分類模型是一種快捷簡(jiǎn)單的機(jī)器學(xué)習(xí)分類算法,常為文本分類問題提供快速粗糙的基本方案,模型的數(shù)學(xué)基礎(chǔ)是貝葉斯定理;卷積神經(jīng)網(wǎng)絡(luò)在很多領(lǐng)域表現(xiàn)優(yōu)秀,可有效提取評(píng)論特征并進(jìn)行識(shí)別。

        對(duì)deceptive-opinion-spam-corpus 數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理后,應(yīng)用上述3 種算法,取訓(xùn)練集與測(cè)試集的比例為8∶2,對(duì)數(shù)據(jù)集中酒店評(píng)論文本的真實(shí)性進(jìn)行檢測(cè)并驗(yàn)證。

        最終結(jié)果如圖2 所示。Logistic 回歸算法的準(zhǔn)確率score_1 為84.017 8%;樸素貝葉斯分類模型的準(zhǔn)確率score_2 為79.910 7%;CNN1 的平均準(zhǔn)確率score_3 為78.561 0%。

        Fig.2 Experimental results of benchmark method圖2 基準(zhǔn)方法實(shí)驗(yàn)結(jié)果

        2.3 有關(guān)算法

        2.3.1 數(shù)據(jù)預(yù)處理及特征提取

        首先對(duì)數(shù)據(jù)集deceptive-opinion-spam-corpus 的文本與標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)處理,再利用doc2vec 對(duì)文本數(shù)據(jù)進(jìn)行特征提取并利用TF-IDF 方法將評(píng)論數(shù)據(jù)向量化。

        Doc2vec 是基于Word2vec 模型提出的可以保留次序語義的語義模型,該模型在Word2vec 模型基礎(chǔ)上增加了一個(gè)段落標(biāo)識(shí)。Doc2Vec 能將句子或段落轉(zhuǎn)化為固定長度的向量,且充分考慮了詞序?qū)φZ句或文檔信息的影響,能很好結(jié)合上下文語境,保留語序信息。因此,Doc2vec 常用于處理短文本的自然語言處理問題。TF-IDF 模型是一類應(yīng)用廣泛的加權(quán)技術(shù),經(jīng)常被用來進(jìn)行信息檢索和數(shù)據(jù)挖掘。TF-IDF 模型的核心思想是,若某個(gè)詞匯在文本出現(xiàn)概率較大,而該詞匯在其他文本中出現(xiàn)概率較小,則此詞匯具有更好的類別判別性能和分類泛用性。

        數(shù)據(jù)預(yù)處理和特征提取方式如下:①將標(biāo)簽數(shù)據(jù)向量化;②對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,包括刪除特殊字符和數(shù)字,將文本中的詞語轉(zhuǎn)化為詞干形式等;③將數(shù)據(jù)集按比例隨機(jī)劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集;④將訓(xùn)練集中的文本數(shù)據(jù)利用doc2vec 方法進(jìn)行特征提??;⑤利用TF-IDF 模型將數(shù)據(jù)集賦予權(quán)重并向量化。

        2.3.2 基于CNN-LSTM 的模型

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種專門用來處理具有類似網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其在圖像處理上很優(yōu)秀,不僅運(yùn)行速度快、效率高,而且準(zhǔn)確率高。其工作原理是首先通過卷積層進(jìn)行圖像特征提取,然后通過激活函數(shù)層使得特征提取達(dá)到一個(gè)非線性效果,從而使特征提取結(jié)果更好。經(jīng)過多層卷積以及多層激活函數(shù)層后,通過池化層對(duì)提取出來的特征進(jìn)行壓縮。最后通過全連接層,對(duì)之前提取和處理過的特征進(jìn)行連接,最終得到屬于各個(gè)類別的概率值。而在文本分類領(lǐng)域中,卷積神經(jīng)網(wǎng)絡(luò)可以通過多個(gè)不同大小的卷積核實(shí)現(xiàn)對(duì)輸入文檔內(nèi)容的特征提取。

        長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的改進(jìn),是為解決一般的RNN 存在的長期依賴問題而專門設(shè)計(jì)的。它在RNN 基礎(chǔ)上對(duì)Cell 中的運(yùn)算方式進(jìn)行了改進(jìn),使得神經(jīng)網(wǎng)絡(luò)在訓(xùn)練和推斷過程中具有一定的長時(shí)依賴性,不僅無需在學(xué)習(xí)過程中保存冗長的上下文信息,還可有效降低梯度消失的風(fēng)險(xiǎn)。因此,LSTM 模型多用于時(shí)間序列分析與自然語言處理等研究。

        本文使用的CNN-LSTM 模型是將CNN 模型與LSTM 模型等結(jié)合并運(yùn)用在自然語言處理研究中。CNN-LSTM 模型結(jié)合了CNN 和LSTM 這兩種不同的深度學(xué)習(xí)模型的優(yōu)點(diǎn),在某些深度學(xué)習(xí)問題中,相比于單獨(dú)使用CNN 模型或LSTM 模型能更有效地提高模型的準(zhǔn)確率。

        2.3.3 CNN-LSTM 與遷移學(xué)習(xí)模型

        卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練需要大量的標(biāo)記樣本數(shù)據(jù),但本文的酒店評(píng)價(jià)樣本規(guī)模不大,因此決定引入遷移學(xué)習(xí)方法,借助已經(jīng)訓(xùn)練好的模型權(quán)重進(jìn)一步學(xué)習(xí)。

        GloVe 是一種無監(jiān)督學(xué)習(xí)算法,用于獲取單詞的向量表示,模型得到的向量表示展示了詞向量空間的線性子結(jié)構(gòu)。GloVe 模型是在一個(gè)全局詞—詞共生矩陣的非零項(xiàng)上訓(xùn)練的,該矩陣列出在同一作者給定語料庫中詞與詞共同出現(xiàn)的頻率。GloVe 模型本質(zhì)上是一個(gè)帶有加權(quán)最小二乘目標(biāo)的對(duì)數(shù)雙線性模型,該模型背后的主要直覺是一個(gè)簡(jiǎn)單的觀察,即單詞共同出現(xiàn)的概率可能存在某些編碼上的潛在意義,如考慮目標(biāo)詞ice 和steam 與詞匯表中各種探測(cè)詞的共現(xiàn)概率。表1 為來自60 億單詞語料庫的一些實(shí)際概率。

        Table1 Co-occurrence probability of ice and steam表1 ice 與steam 的共現(xiàn)概率

        glove.6B.300d 模型利用常規(guī)的GloVe 模型訓(xùn)練得到40 000個(gè)常用英文詞向量,每個(gè)單詞的對(duì)應(yīng)詞向量均為300 維。本文利用GloVe 模型訓(xùn)練得到glove.6B.300d 詞向量,在CNN-LSTM 模型中結(jié)合glove.6B.300d 英文詞向量模型,實(shí)現(xiàn)對(duì)deceptive-opinion-spam-corpus 數(shù)據(jù)集的遷移學(xué)習(xí)。通過遷移學(xué)習(xí),一方面縮短了模型訓(xùn)練時(shí)間,另一方面有效增強(qiáng)了模型的泛化能力。

        此外,由于deceptive-opinion-spam-corpus 數(shù)據(jù)集數(shù)據(jù)量較小,在模型構(gòu)建完成后,利用10 折分層交叉驗(yàn)證對(duì)模型進(jìn)行更加客觀的評(píng)估,確保驗(yàn)證數(shù)據(jù)中每一類數(shù)據(jù)所占比例與原數(shù)據(jù)集中每一類數(shù)據(jù)所占比例相近,以避免極端數(shù)據(jù)選取情況下導(dǎo)致的實(shí)驗(yàn)結(jié)果失真,更加客觀地評(píng)估模型對(duì)于訓(xùn)練集之外數(shù)據(jù)的匹配程度。

        3 模型構(gòu)建與實(shí)驗(yàn)結(jié)果

        3.1 基于CNN-LSTM 的模型

        在Window10 環(huán)境下,利用python 作為編程語言,以TensorFlow 作為后端,基于Keras 構(gòu)造CNN-LSTM 模型。此模型共計(jì)4 段卷積網(wǎng)絡(luò),每一段卷積網(wǎng)絡(luò)由一層卷積層和一層池化層構(gòu)成。4 層卷積層的卷積核數(shù)分別為128、32、32、32。每層卷積網(wǎng)絡(luò)后均為一個(gè)2×2 的最大池化層。為防止模型過擬合,在每層卷積層與池化層后加入?yún)?shù)為0.1~0.3 之間的Dropout 層,以增強(qiáng)模型泛化能力。通過4 段卷積神經(jīng)網(wǎng)絡(luò)后,將結(jié)果輸入雙向LSTM 模型中,最后進(jìn)入一個(gè)全連接層(Dense)。模型結(jié)構(gòu)如圖3 所示。

        Fig.3 CNN-LSTM model structure圖3 CNN-LSTM 模型結(jié)構(gòu)

        將此CNN-LSTM 模型運(yùn)用于deceptive-opinion-spamcorpus 數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的數(shù)量比為8∶2,損失函數(shù)選取binary crossentropy 函數(shù),激活函數(shù)選取softmax 函數(shù),優(yōu)化方法選取adaptive moment estimation算法。deceptive-opinion-spam-corpus 數(shù)據(jù)集中的英文評(píng)論數(shù)據(jù)經(jīng)過處理后得到的形式如圖4 所示。

        Fig.4 Example of original data and its corresponding eigenvector圖4 原始數(shù)據(jù)與其對(duì)應(yīng)的特征向量示例

        經(jīng)過40 輪次迭代訓(xùn)練,模型訓(xùn)練過程的準(zhǔn)確率與損失函數(shù)變化如圖5 所示。由測(cè)試集準(zhǔn)確率曲線和測(cè)試集損失曲線可以看出,模型在第25 輪迭代訓(xùn)練之后逐漸開始過擬合。最終CNN-LSTM 模型在測(cè)試集上得到的最高分類準(zhǔn)確率為86.5%,在訓(xùn)練的第23 輪得到。

        Fig.5 CNN-LSTM model training curve圖5 CNN-LSTM 模型訓(xùn)練曲線(彩圖掃OSID 碼可見,下同)

        3.2 基于CNN-LSTM 與遷移學(xué)習(xí)的模型

        在CNN-LSTM 模型基礎(chǔ)上,利用GloVe 模型訓(xùn)練得到300 維英文詞向量模型glove.6B.300d,將其進(jìn)行遷移學(xué)習(xí),再在結(jié)合CNN-LSTM 模型在deceptive-opinion-spam-corpus 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。迭代輪次設(shè)置為40 輪,損失函數(shù)、激活函數(shù)、優(yōu)化方法均與前述模型相同。最后利用10 折分層交叉驗(yàn)證來對(duì)此模型的分類效果進(jìn)行客觀評(píng)估。

        CNN-LSTM 與遷移學(xué)習(xí)結(jié)合的模型在測(cè)試集上的準(zhǔn)確率變化曲線如圖6 所示。其中兩條實(shí)線為10 折分層交叉驗(yàn)證的驗(yàn)證準(zhǔn)確率(val_acc)迭代曲線在每一迭代輪次中的最大值(最小值)所連成的曲線,虛線為10 折分層交叉驗(yàn)證在每一迭代輪次中的驗(yàn)證準(zhǔn)確率平均值曲線。其中,平均驗(yàn)證準(zhǔn)確率的最大值為93.1%,在迭代第25 輪時(shí)得到。所有訓(xùn)練的最大驗(yàn)證準(zhǔn)確率為94.9%,在第25 輪K 值為7時(shí)取得。

        4 實(shí)驗(yàn)數(shù)據(jù)分析

        通過實(shí)驗(yàn)得到數(shù)據(jù)見表2。由表2 及上文數(shù)據(jù)可知,在基于酒店英文評(píng)論數(shù)據(jù)集deceptive-opinion-spam-corpus的真假評(píng)論分類任務(wù)中,本文提出的CNN-LSTM 與遷移學(xué)習(xí)模型有著較好的分類效果。其在deceptive-opinionspam-corpus 數(shù)據(jù)集的平均驗(yàn)證準(zhǔn)確率可達(dá)93.10%,最高準(zhǔn)確率可達(dá)94.9%,平均準(zhǔn)確率明顯好于其他模型。此外,對(duì)于CNN-LSTM 模型進(jìn)行遷移學(xué)習(xí)后的準(zhǔn)確率提升了約7%。

        Fig.6 Model training iteration data圖6 模型訓(xùn)練迭代數(shù)據(jù)

        Table 2 Comparison of algorithm experimental results表2 算法實(shí)驗(yàn)結(jié)果對(duì)比 (%)

        將模型參數(shù)保存,對(duì)整個(gè)deceptive-opinion-spam-corpus 數(shù)據(jù)集上的評(píng)論數(shù)據(jù)進(jìn)行分類,并隨機(jī)提取兩條模型分類錯(cuò)誤的文本,如圖7 所示,其中(1)為虛假評(píng)論、(2)為真實(shí)評(píng)論。隨機(jī)采訪13 名受訪者,在不告知任何信息情況下,僅有4 名受訪者對(duì)于(1)與(2)的真實(shí)性判斷全部正確。因此,單從文字表達(dá)上普通讀者也難以判斷(1)、(2)兩條評(píng)論的真實(shí)性。

        Fig.7 Original comment of wrong judgment of the model圖7 模型判斷錯(cuò)誤的評(píng)論原文

        5 結(jié)語

        本文利用酒店英文評(píng)論數(shù)據(jù)集deceptive-opinionspam-corpus 作為實(shí)驗(yàn)數(shù)據(jù)集,在傳統(tǒng)的CNN-LSTM 模型上進(jìn)行改進(jìn)。利用GloVe 模型的遷移學(xué)習(xí)方法,有效提高了虛假英文評(píng)論的識(shí)別能力,分類精度最高可達(dá)93%~94%。相比于經(jīng)典的Logistic 回歸算法和樸素貝葉斯分類算法以及CNN1算法,其分類準(zhǔn)確率提升了16.52%~18.50%。由此得出結(jié)論,在虛假文本檢測(cè)問題上,采用深度學(xué)習(xí)方法比傳統(tǒng)方法有著更高的準(zhǔn)確率,采用CNN-LSTM 與遷移學(xué)習(xí)相結(jié)合的模型能夠進(jìn)一步提高檢測(cè)準(zhǔn)確率。同時(shí),對(duì)于其它類型的英文短文本分類問題也可嘗試使用CNNLSTM 模型并結(jié)合GloVe 模型進(jìn)行遷移學(xué)習(xí)。但由于互聯(lián)網(wǎng)中短文本資源數(shù)量龐大且內(nèi)容極為復(fù)雜多樣,因此針對(duì)該領(lǐng)域的可用數(shù)據(jù)集少。此外,由于深度學(xué)習(xí)模型自身的特性,一般的深度學(xué)習(xí)模型跨領(lǐng)域可移植性差,導(dǎo)致其無法精準(zhǔn)地處理多樣化的任務(wù)與問題。因此,在實(shí)際應(yīng)用中,采用遷移學(xué)習(xí)的方法仍存在提升空間,如何將小樣本學(xué)習(xí)和遷移學(xué)習(xí)方法應(yīng)用于短文本情感傾向分析值得后續(xù)進(jìn)一步探討。

        猜你喜歡
        分類文本模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        久久国产国内精品对话对白| 99久久超碰中文字幕伊人| 国産精品久久久久久久| 精品国产av无码一道| 日本高清二区视频久二区| 日韩少妇人妻中文视频| 欧美乱人伦人妻中文字幕| 91久久精品国产91久久| 国产不卡一区在线视频| 国产日产桃色精品久久久| 人妻体体内射精一区二区| 亚洲成人电影在线观看精品国产| 亚洲一区二区国产精品视频| av网站在线观看亚洲国产| 美女把尿囗扒开让男人添| 国产成人精品精品欧美| 在线视频亚洲一区二区三区 | 欧美巨大巨粗黑人性aaaaaa| 国产精品久久国产三级国电话系列| 亚洲国产精品成人一区二区三区| 亚洲国产精品一区二区成人片国内| 国产精品无码a∨精品影院| 亚洲欧美日韩一区二区在线观看| 亚洲女人毛茸茸的视频| 亚洲午夜成人精品无码色欲| 精品久久久久久久无码| 国产免费三级三级三级| 日本av一级片免费看| 激情综合色综合啪啪五月丁香| 国产91福利在线精品剧情尤物| 久久国产女同一区二区| 亚洲av无码乱码精品国产| 亚洲熟女乱色一区二区三区| 午夜无码片在线观看影院y| 国产精品一区二区久久久av | 国产嫩草av一区二区三区| 欧美日韩精品一区二区三区高清视频| av无码天一区二区一三区| av网址在线一区二区| 亚州性无码不卡免费视频| 亚洲国产精品一区二区第四页|