亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分層注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)垃圾評(píng)論檢測(cè)模型

        2018-12-14 05:26:24劉雨心
        計(jì)算機(jī)應(yīng)用 2018年11期
        關(guān)鍵詞:文檔準(zhǔn)確率卷積

        劉雨心,王 莉,張 昊

        (1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院, 山西 晉中 030600; 2.太原理工大學(xué) 大數(shù)據(jù)學(xué)院, 山西 晉中 030600)(*通信作者電子郵箱591085595@qq.com)

        0 引言

        隨著互聯(lián)網(wǎng)的發(fā)展,人們?cè)絹?lái)越喜歡在網(wǎng)上發(fā)表自己的觀點(diǎn),并與其他網(wǎng)絡(luò)用戶分享他們的觀點(diǎn)。 2016年,美國(guó)Yelp評(píng)論網(wǎng)站的評(píng)論超過(guò)108萬(wàn)(https://www.yelp.com/about),每年評(píng)論數(shù)量增加超過(guò)18萬(wàn), 然而,虛假評(píng)論約占Yelp總評(píng)論的14%~20%,占Tripadvisor、Orbitz、Priceline和Expedia總評(píng)論的2%~6%。2011年美國(guó)Cone Communication的調(diào)查報(bào)告(http://www.conecomm.com/contentmgr/showdetails.php/id/4008)顯示,64%的用戶通過(guò)閱讀相關(guān)評(píng)論獲得產(chǎn)品信息,87%的用戶在閱讀肯定評(píng)論后購(gòu)買了此產(chǎn)品,80%的用戶在閱讀否定評(píng)論后放棄購(gòu)買,這充分說(shuō)明評(píng)論對(duì)用戶的購(gòu)買決策起到舉足輕重的作用,積極的評(píng)論可以提高產(chǎn)品口碑和品牌信譽(yù)進(jìn)而提高商家的利潤(rùn)和聲譽(yù),垃圾評(píng)論在這種背景下應(yīng)用而生[1-2]。

        垃圾評(píng)論是垃圾評(píng)論者為了誤導(dǎo)潛在客戶,精心虛構(gòu)的虛假評(píng)論[3-4],是商家或用戶在個(gè)人利益驅(qū)使下親自雇傭水軍惡意發(fā)布的虛假評(píng)論。用戶撰寫評(píng)論的質(zhì)量受各種因素的影響,如用戶的文化背景和用戶撰寫評(píng)論時(shí)的情緒。本文垃圾評(píng)論不指用戶的否定評(píng)論,即否定的低質(zhì)量的評(píng)論不一定是垃圾評(píng)論。事實(shí)上,為了隱藏自己的身份并誤導(dǎo)用戶,垃圾評(píng)論者通常會(huì)確保評(píng)論的質(zhì)量,以提高垃圾評(píng)論的影響。下面是兩條來(lái)自公開(kāi)垃圾評(píng)論數(shù)據(jù)集的評(píng)論。

        1)如果你在芝加哥,艾爾雷格洛酒店對(duì)你來(lái)說(shuō)是完美的。它位于市中心,有時(shí)尚的房間和細(xì)心的員工。我在酒店住了3個(gè)晚上,對(duì)一切都很滿意。床很舒服,有很多蓬松的枕頭,大的平板電視,收音機(jī)和iPad塢站和浴室是干凈的。我接觸的每個(gè)人都非常友好并樂(lè)于助人。我在那里的最后一天,我訂了房間服務(wù),不僅我的飯菜美味,并按時(shí)交付,廚房還打來(lái)電話,詢問(wèn)一切是否都好。我從來(lái)沒(méi)有這樣的跟進(jìn)服務(wù)。

        2)我在芝加哥希爾頓酒店逗留期間一直很不愉快。你怎么會(huì)這樣問(wèn)?好吧,我告訴你,那里的毛巾很臟沒(méi)有消毒,服務(wù)也很糟糕,最糟糕的是,我登記的時(shí)候,他們甚至不在桌子上。另外,我從酒店訂購(gòu)了早餐、午餐和晚餐,但我收到的是錯(cuò)誤的訂單。所有的飯菜,吃完后想吐的感覺(jué)。最后,我還為我不想要的東西支付了賬單??偟膩?lái)說(shuō),這個(gè)酒店對(duì)我來(lái)說(shuō)都是非常糟糕和不愉快的。我給它半星的評(píng)價(jià)。

        第1)條不是垃圾評(píng)論,即來(lái)自顧客的真實(shí)的評(píng)論;第2)條是垃圾評(píng)論,來(lái)自土耳其人編寫的虛假評(píng)論。從上面兩條評(píng)論可以看出,靠人工從真實(shí)的評(píng)論中區(qū)分垃圾評(píng)論是很困難的。在以前的研究中,研究人員邀請(qǐng)三名志愿者識(shí)別160條垃圾評(píng)論,而志愿者誤將垃圾評(píng)論判為真實(shí)評(píng)論,識(shí)別準(zhǔn)確率僅為53.1%~61.9%[5],這個(gè)結(jié)果同樣表明垃圾評(píng)論不易識(shí)別,這導(dǎo)致標(biāo)注數(shù)據(jù)不足和難以評(píng)價(jià)檢測(cè)結(jié)果的困境。因此,垃圾評(píng)論檢測(cè)是一項(xiàng)緊迫必而必要的任務(wù)。

        用戶評(píng)論通常是短文本,垃圾評(píng)論檢測(cè)是一個(gè)二分類問(wèn)題, 該任務(wù)的目標(biāo)是區(qū)分一條評(píng)論是否為垃圾評(píng)論。現(xiàn)有方法主要遵循文獻(xiàn)[6]的工作,采用機(jī)器學(xué)習(xí)的方法來(lái)構(gòu)建分類器,特征工程在這個(gè)方向很重要。大部分研究主要集中在從語(yǔ)言學(xué)和心理學(xué)的角度設(shè)計(jì)有效的特征以提高分類性能,盡管這些特征表現(xiàn)出強(qiáng)大的性能,但評(píng)論的離散型和稀疏性使得研究者們從語(yǔ)篇角度出發(fā),挖掘評(píng)論的潛在語(yǔ)義信息變得異常困難。

        近年來(lái),在自然語(yǔ)言處理領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型取得了較好成果?;谄淞己玫男阅?,一些研究采用神經(jīng)網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)文檔表示,從而實(shí)現(xiàn)從語(yǔ)義的角度檢測(cè)垃圾評(píng)論。例如,Ren等[7]建立了一個(gè)門遞歸神經(jīng)網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)文檔表示,雖然取得了較好的效果,但準(zhǔn)確率仍有待提高。

        基于以上研究,本文提出一種基于層次注意力的神經(jīng)網(wǎng)絡(luò)(Hierarchical Attention-based Neural Network, HANN)垃圾評(píng)論檢測(cè)模型, 該模型主要由兩部分組成:Word2Sent 層 (見(jiàn)2.1節(jié)),在詞向量表示的基礎(chǔ)上,采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[8]生成連續(xù)的句子表示;Sent2Doc 層(見(jiàn)2.2節(jié)),基于上一層產(chǎn)生的句子表示,使用注意力池化的神經(jīng)網(wǎng)絡(luò)生成文檔表示,生成的文檔表示直接作為垃圾評(píng)論的最終特征,采用softmax分類器分類。本文的貢獻(xiàn)主要包括以下3個(gè)方面:

        1)創(chuàng)新性地提出HANN模型來(lái)區(qū)分垃圾評(píng)論與真實(shí)評(píng)論,所提模型不需要外部模塊,采用端到端的方式進(jìn)行訓(xùn)練。

        2)HANN模型完整地保留了用戶評(píng)論的位置和強(qiáng)度特征,并從中提取重要的和綜合的信息,包括文檔中任何位置的歷史、未來(lái)和局部上下文,從而挖掘用戶評(píng)論的潛在語(yǔ)義信息。

        3)實(shí)驗(yàn)結(jié)果表明,與Li等[9-10]的方法相比,本文方法準(zhǔn)確率平均提高5%,在最好的情況下,準(zhǔn)確率高達(dá)90.9%,比Li等的方法高出15%,分類效果顯著改善。

        1 相關(guān)工作

        與其他類型的垃圾檢測(cè),如郵件垃圾[11]、網(wǎng)頁(yè)垃圾[12-13]等相比,由于用戶評(píng)論具有數(shù)量大、噪聲多、更新快、主觀性高和針對(duì)性強(qiáng)等特點(diǎn),使得用戶垃圾評(píng)論檢測(cè)更困難,所以先進(jìn)的各種垃圾檢測(cè)方法不能直接用于用戶垃圾評(píng)論檢測(cè)。垃圾評(píng)論檢測(cè)被認(rèn)為是自然語(yǔ)言處理(Natural Language Processing, NLP)領(lǐng)域的一個(gè)復(fù)雜問(wèn)題。

        2008年,Jindal等[6]首次提出了垃圾評(píng)論這個(gè)問(wèn)題,采用評(píng)論內(nèi)容、評(píng)論者和商品本身的特征來(lái)訓(xùn)練模型。Jindal等將垃圾評(píng)論分為3類,即虛假(負(fù)面)評(píng)論、僅討論品牌而非產(chǎn)品的評(píng)論以及不存在評(píng)論(如廣告)的評(píng)論,第一類危害性最大也最難識(shí)別[3]。

        研究者提出許多垃圾評(píng)論檢測(cè)的方法[14-15]。大多數(shù)研究表明,垃圾評(píng)論與真實(shí)評(píng)論在情感、語(yǔ)言、寫作風(fēng)格、主觀性和可讀性方面不同[16-19]。大多數(shù)方法在Ott等[5]最初介紹的合成數(shù)據(jù)集上進(jìn)行; 但是,文獻(xiàn)[20-21]采用相同的方法分別在合成的和真實(shí)的數(shù)據(jù)集上實(shí)驗(yàn),發(fā)現(xiàn)合成的數(shù)據(jù)集是有缺陷的。因?yàn)樗鼈儧](méi)有如實(shí)反映真實(shí)的垃圾評(píng)論,且合成數(shù)據(jù)集的技術(shù)存在問(wèn)題。

        Yoo等[22]收集了42個(gè)虛假的和40個(gè)真實(shí)的酒店評(píng)論,并手動(dòng)比較了他們的語(yǔ)言差異。Ott等[23]通過(guò)雇傭土耳其人撰寫虛假評(píng)論來(lái)創(chuàng)建數(shù)據(jù)集,后續(xù)研究大都在這個(gè)數(shù)據(jù)集上進(jìn)行。最近,Li等[9]在Ott等工作的基礎(chǔ)上發(fā)展了一個(gè)范圍廣泛的黃金標(biāo)準(zhǔn)垃圾評(píng)論數(shù)據(jù)集,這個(gè)數(shù)據(jù)集通過(guò)眾包和領(lǐng)域?qū)<疑?,包?個(gè)領(lǐng)域(“酒店”“餐館”和“醫(yī)院”),由于此數(shù)據(jù)集數(shù)據(jù)量大、覆蓋性廣,所以本文實(shí)驗(yàn)采用這個(gè)數(shù)據(jù)集。

        許多方法已經(jīng)證明,關(guān)注評(píng)論的上下文相似性是有益的,在這些方法中,重復(fù)和近似重復(fù)的評(píng)論被認(rèn)為是垃圾評(píng)論。Lau等認(rèn)為垃圾評(píng)論者不僅發(fā)布虛假評(píng)論,而且會(huì)以不同的身份復(fù)制這些評(píng)論作為不同品牌或同一品牌的多種產(chǎn)品的評(píng)論,因此,內(nèi)容相似性比較是研究人員眾所周知的技術(shù)[16, 24]。

        Heydari等[25]提出了一個(gè)垃圾評(píng)論檢測(cè)系統(tǒng),評(píng)論者的積極性、評(píng)價(jià)行為和評(píng)論的上下文相似性這些特征被綜合考慮。從評(píng)論的時(shí)間序列角度出發(fā),在可疑時(shí)間間隔內(nèi)采用模式識(shí)別技術(shù),捕捉垃圾評(píng)論; Ahsan等[26]通過(guò)使用評(píng)論內(nèi)容的詞頻-逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency, TF-IDF)特征引入主動(dòng)學(xué)習(xí)方法來(lái)檢測(cè)垃圾評(píng)論;Zhang等[27]提出一種基于熵和協(xié)同訓(xùn)練算法的CoFea方法,在無(wú)標(biāo)簽數(shù)據(jù)上,采用熵值對(duì)所有詞匯進(jìn)行排序,提出兩種策略,即CoFea-T和CoFea-S,對(duì)比這兩種策略后發(fā)現(xiàn)CoFea-T策略準(zhǔn)確率更高,而CoFea-S策略時(shí)間開(kāi)銷少。其他研究也有采用評(píng)論內(nèi)容本身之外的特征,例如,何瓏[28]提出基于隨機(jī)森林的垃圾評(píng)論檢測(cè)方法,即對(duì)樣本中的大、小類有放回地重復(fù)抽取同樣數(shù)量樣本或者給大、小類總體樣本賦予同樣的權(quán)重以建立隨機(jī)森林模型,解決只考慮評(píng)論特征的選取,忽略了評(píng)論數(shù)據(jù)集不平衡性的問(wèn)題; Wang等[29]提出了一種松散的垃圾評(píng)論者群體檢測(cè)技術(shù),該技術(shù)采用雙向圖投影。

        以上研究取得了較好的成果,但都表現(xiàn)出一個(gè)共同問(wèn)題:依賴人工設(shè)計(jì)的、基于特定任務(wù)的語(yǔ)言和心理特征,未從文檔語(yǔ)篇的角度有效挖掘用戶評(píng)論的潛在語(yǔ)義信息。本文提出HANN模型,從語(yǔ)篇的角度有效提取文檔連續(xù)的語(yǔ)義信息,并從中獲取重要的和綜合的信息,從而提高垃圾評(píng)論識(shí)別準(zhǔn)確率。

        2 虛假垃圾評(píng)論檢測(cè)方法

        用戶評(píng)論具有層次結(jié)構(gòu)(單詞形成句子,句子形成文檔)[30]。另外,文檔中的不同詞和句子具有不同的信息量和不同程度的重要性?;诖?,本文構(gòu)建了一個(gè)分層注意力神經(jīng)網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)文檔表示。圖1描述了模型的結(jié)構(gòu),主要由兩部分組成: Word2Sent 層(見(jiàn)2.1節(jié)),基于詞向量的表示;Sent2Doc 層(見(jiàn)2.2節(jié)),基于上一層產(chǎn)生的句子表示。生成的文檔表示直接作為垃圾評(píng)論的最終特征,采用softmax分類器分類用戶評(píng)論。

        圖1 基于層次注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)垃圾評(píng)論檢測(cè)模型

        2.1 詞到句子的表示(Word2Sent layer)

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)是建模句子語(yǔ)義表示最先進(jìn)的方法[31]。CNN不依賴于外部解析樹(shù)[31-32],可用于學(xué)習(xí)句子的連續(xù)表示。卷積操作已被廣泛用于合成N-gram信息[33]。N-gram對(duì)許多自然語(yǔ)言處理任務(wù)(NLP)有用[18, 34],本文將N-gram應(yīng)用于HANN模型。如圖2所示,使用3個(gè)卷積濾波器生成句子表示,因?yàn)樗鼈兛梢圆蹲讲煌6鹊腘-gram局部語(yǔ)義信息,包括unigrams、bigrams和trigrams。N-gram在一些NLP任務(wù)中很強(qiáng)大,比如情感分類[35]。HANN模型使用3個(gè)寬度(width)分別為2、3和4的卷積濾波器。

        正式的定義由n個(gè)詞組成的句子為(w1,w2, …,wi,…,wn)。每個(gè)詞wi映射用一個(gè)詞向量e(wi)∈RL表示,卷積濾波器是具有共享參數(shù)的線性層列表。L1、L2、L3表示3個(gè)卷積濾波器的寬度。

        以L1為例,W1和b1是該濾波器線性層的共享參數(shù)。線性層的輸入是在固定長(zhǎng)度窗口L1中的詞向量表示(word embedding)的連接,表示為I1,i=[e(wi);e(wi+1);…;e(wi+L1-1)]∈RL×L1。

        線性層的輸出為:

        H1,i=W1·I1,i+b1

        (1)

        其中:W1∈Rloc×L×L1,loc是線性層的輸出大小。將它提供給一個(gè)平均池化層,產(chǎn)生一個(gè)固定長(zhǎng)度的輸出向量:

        (2)

        進(jìn)一步添加一個(gè)激活函數(shù)tanh以合并非線性,濾波器O1的輸出如下:

        O1=tanh(H1)

        (3)

        類似的,分別得到寬度為2和3的其他兩個(gè)卷積濾波器O2、O3的輸出。為了捕捉句子的全局語(yǔ)義信息,用3個(gè)濾波器的平均輸出作為句子的最終輸出S。

        S=(O1+O2+O3)/3

        (4)

        圖2 詞到句子的模型

        2.2 句子到文檔的表示(Sent2Doc layer)

        有各種文檔表示的方法,如:平均所有的句子表示作為文檔的表示,但這種方法不能有效捕捉句子間的語(yǔ)義信息。CNN采用線性層的共享參數(shù)來(lái)建模局部句子關(guān)系,但CNN不能直接對(duì)長(zhǎng)范圍的語(yǔ)篇結(jié)構(gòu)建模,而這對(duì)一個(gè)文檔的表示非常重要?;谏蠈由傻木渥颖硎?Sent2Doc層采用注意力池化的CNN[8]和雙向長(zhǎng)短時(shí)記憶(Bidirectional Long-Short Term Memory, BLSTM)[36]模型的組合,實(shí)現(xiàn)從語(yǔ)篇的角度提取文檔重要的和綜合的語(yǔ)義信息。

        CNN是一個(gè)功能強(qiáng)大的語(yǔ)義合成模型,卷積操作可以獨(dú)立地捕獲包含在文檔中任何位置的信息,但不能捕捉文檔長(zhǎng)范圍的語(yǔ)篇結(jié)構(gòu),如圖1所示,卷積濾波器只能對(duì)上層產(chǎn)生的文檔矩陣執(zhí)行卷積操作,產(chǎn)生局部表示(Local Representation),再將這個(gè)局部表示通過(guò)注意力權(quán)重(Attention Weight)集成到最終的文檔表示中。而注意力權(quán)重是通過(guò)對(duì)比局部表示與BLSTM生成的中間句子表示(Intermediate Representation)、在訓(xùn)練階段進(jìn)行優(yōu)化而獲得的。生成的文檔表示作為最終的特征向量輸入到頂層softmax分類器。在測(cè)試階段,中間句子表示也作為softmax分類器的輸入,如圖1中的虛線所示。

        在HANN模型中,卷積操作是在k個(gè)濾波器wc∈Rmd×k和一個(gè)連接向量xi:i+m-1之間進(jìn)行的,xi:i+m-1表示從第i個(gè)句子開(kāi)始的m個(gè)句子的窗口。每個(gè)濾波器的參數(shù)在所有窗口中共享。使用具有不同初始化權(quán)重的多個(gè)濾波器來(lái)提高模型的學(xué)習(xí)能力。通過(guò)交叉驗(yàn)證決定濾波器的數(shù)量k。卷積運(yùn)算由ci控制:

        ci=g(WcTxi:i+m-1+bc)∈Rk

        (5)

        其中:xi∈Rd,bc是一個(gè)偏向量,g(·)是一個(gè)非線性激活函數(shù)。本文采用LeakyReLU[37]非線性激活函數(shù),與ReLU相比,LeakyReLU有助于提高學(xué)習(xí)效率,并且在單元處于非活動(dòng)狀態(tài)時(shí)允許小的梯度消失。

        假定文檔的長(zhǎng)度為T,當(dāng)句子窗口滑動(dòng)時(shí),卷積層的特征映射表示如下:

        c=[c1,c2,…,cT]∈RK×T

        (6)

        卷積層的輸出作為文檔的局部表示,每個(gè)元素ci都是相應(yīng)位置的局部表示。

        中間文檔表示由BLSTM生成。BLSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體,通過(guò)用門控記憶單元代替循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài),解決LSTM的“梯度消失”問(wèn)題;此外,還可以學(xué)習(xí)文檔任何位置的歷史和未來(lái)的信息。BLSTM架構(gòu)與其他組件一起訓(xùn)練。在訓(xùn)練階段,損失函數(shù)的梯度通過(guò)中間文檔表示反向傳播來(lái)優(yōu)化。

        通過(guò)對(duì)比由卷積操作生成的局部表示與由BLSTM生成的中間文檔表示來(lái)計(jì)算注意力權(quán)重。為了對(duì)比這兩種表示,應(yīng)把局部表示和文檔的中間表示映射到同一維空間,本文通過(guò)控制BLSTM的輸出維度與卷積過(guò)濾器的數(shù)量相同達(dá)到這個(gè)目的。

        (7)

        其中

        (8)

        術(shù)語(yǔ)ai是一個(gè)標(biāo)量,函數(shù)sim(·)用于度量?jī)蓚€(gè)輸入之間的相似度。本文采用余弦相似度。獲得注意力權(quán)重后,最終的文檔表示如下:

        (9)

        在識(shí)別垃圾評(píng)論和真實(shí)評(píng)論時(shí),評(píng)論中的句子在語(yǔ)義表達(dá)中扮演著不同的角色,一些句子比另外一些句子更重要。本文中,每個(gè)句子的權(quán)重代表句子對(duì)整個(gè)文檔含義的貢獻(xiàn),注意力可被視為獲得所有句子標(biāo)注的加權(quán)和來(lái)計(jì)算文檔標(biāo)注。這種方法借鑒了著名的注意力機(jī)制思想,將較大的權(quán)值賦給較重要的特征,從而提取文檔包含的重要信息。

        2.3 softmax分類器

        文檔表示d作為頂層分類器的輸入。在模型的頂部添加線性轉(zhuǎn)換層將文檔表示轉(zhuǎn)換為實(shí)值向量yc,softmax函數(shù)將實(shí)值向量轉(zhuǎn)換為條件概率,計(jì)算如下:

        (10)

        為了避免過(guò)擬合,在模型的倒數(shù)第二層,使用掩碼概率為p的dropout,dropout的關(guān)鍵思想是在訓(xùn)練階段從神經(jīng)網(wǎng)絡(luò)中隨機(jī)丟棄神經(jīng)單位[38]。

        (11)

        其中,?是一個(gè)元素乘法運(yùn)算符;q是dropout 率為p的掩碼向量。在訓(xùn)練階段實(shí)現(xiàn)輸出權(quán)重Ws的l2范數(shù)約束。

        (12)

        其中:C是類別數(shù),Si表示第i個(gè)句子。

        卷積過(guò)濾器、BLSTM和softmax 分類器中的所有權(quán)重和偏置都由模型來(lái)決定。注意力權(quán)重在訓(xùn)練階段優(yōu)化。文獻(xiàn)[39]的Adadelta更新規(guī)則是一種有效且高效的反向傳播算法,本文采用此算法來(lái)優(yōu)化模型。

        3 實(shí)驗(yàn)結(jié)果和分析

        在公開(kāi)的垃圾評(píng)論數(shù)據(jù)集上評(píng)價(jià)了本文方法的性能,并將該方法與已有方法進(jìn)行比較,進(jìn)行了3種類型的實(shí)驗(yàn),即領(lǐng)域內(nèi)、跨領(lǐng)域和混合領(lǐng)域。

        3.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        本文采用Li等[9]發(fā)布的公開(kāi)黃金標(biāo)準(zhǔn)垃圾評(píng)論數(shù)據(jù)集,其具體分布見(jiàn)表1。該數(shù)據(jù)集包含3個(gè)領(lǐng)域,即“酒店”“餐館”和“醫(yī)生”, 每個(gè)領(lǐng)域都有3種數(shù)據(jù)類型,分別是“顧客”“專家”和“土耳其人”。真實(shí)評(píng)論來(lái)自具有實(shí)際消費(fèi)體驗(yàn)的“顧客”。垃圾評(píng)論由土耳其人和專家編輯,這些專家具有專家級(jí)的領(lǐng)域知識(shí)。

        表1 三個(gè)領(lǐng)域的數(shù)據(jù)統(tǒng)計(jì)

        本文采用準(zhǔn)確率作為評(píng)價(jià)指標(biāo), 所有(顧客/土耳其人/專家)評(píng)論都被用于酒店領(lǐng)域中的分類。在餐館和醫(yī)生領(lǐng)域中,只有顧客/土耳其人評(píng)論被采用,因?yàn)閷<以u(píng)論有限。本文使用數(shù)據(jù)集的90%作為訓(xùn)練集,10%作為測(cè)試集。

        3.2 Word embedding

        本文采用Word2Vec工具來(lái)表示單詞向量。用skip-gram和最大化所有詞[40]的平均對(duì)數(shù)概率的方法,在包括1 000億個(gè)不同單詞的Google新聞數(shù)據(jù)集上訓(xùn)練。每個(gè)單詞和短語(yǔ)都用300維向量表示,詞向量矩陣相對(duì)較大(3.6 GB),但包含許多不必要的詞。具體公式如下:

        (13)

        其中:c是上下文窗口大小,T表示文檔的長(zhǎng)度。詞向量值包含在參數(shù)中,在訓(xùn)練過(guò)程中優(yōu)化。

        3.3 實(shí)驗(yàn)結(jié)果分析

        3.3.1 領(lǐng)域內(nèi)結(jié)果分析

        領(lǐng)域內(nèi),根據(jù)Ren等[7]的實(shí)驗(yàn)設(shè)置進(jìn)行了一組測(cè)試并與之對(duì)比,顧客/土耳其人/專家評(píng)論都用于酒店領(lǐng)域;對(duì)于餐館和醫(yī)生領(lǐng)域,只有顧客/土耳其人評(píng)論被采用,實(shí)驗(yàn)結(jié)果見(jiàn)表2。

        表2 兩種方法領(lǐng)域內(nèi)結(jié)果

        3.3.2 跨領(lǐng)域結(jié)果分析

        在交叉領(lǐng)域進(jìn)行兩種類型的實(shí)驗(yàn)來(lái)驗(yàn)證本文模型的泛化能力和領(lǐng)域適應(yīng)性。在第1個(gè)實(shí)驗(yàn)中,在一個(gè)領(lǐng)域上訓(xùn)練,分別在另外兩個(gè)領(lǐng)域測(cè)試; 在第2個(gè)實(shí)驗(yàn)中,在兩個(gè)領(lǐng)域訓(xùn)練,在剩下的領(lǐng)域測(cè)試。

        本文通過(guò)在標(biāo)注豐富的酒店領(lǐng)域數(shù)據(jù)集上訓(xùn)練模型,然后分別在餐館和醫(yī)生領(lǐng)域測(cè)試,從而評(píng)價(jià)本文模型的泛化能力和領(lǐng)域適應(yīng)性。

        從表3可以看出,Ren等的方法,在餐館領(lǐng)域的測(cè)試準(zhǔn)確率為83.5%,但在醫(yī)生領(lǐng)域的測(cè)試準(zhǔn)確率卻降到57.0%。Li等[10]方法的準(zhǔn)確率在餐館和醫(yī)生領(lǐng)域都不太好。本文方法的準(zhǔn)確率都優(yōu)于他們的方法。在餐館領(lǐng)域,本文方法獲得了最佳結(jié)果,準(zhǔn)確率達(dá)到了87.5%; 在醫(yī)生領(lǐng)域,準(zhǔn)確率最高的是Li等[9]采用離散特征的傳統(tǒng)方法。兩個(gè)先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率低于Li等傳統(tǒng)模型的準(zhǔn)確率,而本文模型的準(zhǔn)確率與之相近。

        表3 四種方法跨領(lǐng)域結(jié)果(在酒店領(lǐng)域訓(xùn)練)

        由于餐館和酒店之間有許多相似屬性,如環(huán)境和位置,而醫(yī)生領(lǐng)域與酒店的相似屬性少一些,詞匯差異也較大,這導(dǎo)致在酒店領(lǐng)域訓(xùn)練的模型,在醫(yī)生領(lǐng)域的測(cè)試結(jié)果不如餐館領(lǐng)域結(jié)果。這些結(jié)果與以往研究結(jié)果一致。

        另外,本文第一次在兩個(gè)領(lǐng)域上訓(xùn)練,在剩下的領(lǐng)域測(cè)試。例如,本文在醫(yī)生和酒店兩個(gè)領(lǐng)域訓(xùn)練,在餐館領(lǐng)域測(cè)試。

        表4顯示,通過(guò)使用醫(yī)生和酒店領(lǐng)域的兩組數(shù)據(jù)進(jìn)行訓(xùn)練,在餐館領(lǐng)域的測(cè)試準(zhǔn)確率為77.5%。當(dāng)只采用酒店領(lǐng)域的數(shù)據(jù)用于訓(xùn)練時(shí),在餐館領(lǐng)域的測(cè)試準(zhǔn)確率提高了大約10個(gè)百分點(diǎn),因?yàn)椴宛^領(lǐng)域和酒店領(lǐng)域有許多相似屬性,但與醫(yī)生領(lǐng)域的相似屬性較少,所以通過(guò)在訓(xùn)練過(guò)程中添加醫(yī)生領(lǐng)域的數(shù)據(jù),在餐館領(lǐng)域的測(cè)試準(zhǔn)確率不會(huì)提高反而降低,這充分驗(yàn)證了不同的主題在評(píng)論中具有不同程度的重要性。例如,健康信息通常可以成為餐館評(píng)論的強(qiáng)大特征,因此,再次驗(yàn)證了本文采用注意力機(jī)制方法來(lái)挖掘評(píng)論中的重要信息是可取的。

        表4 本文方法跨領(lǐng)域結(jié)果

        而當(dāng)采用酒店和餐館領(lǐng)域的兩個(gè)數(shù)據(jù)集訓(xùn)練時(shí),醫(yī)生領(lǐng)域的評(píng)價(jià)準(zhǔn)確率為74.5%,但是,如果只采用酒店領(lǐng)域數(shù)據(jù)訓(xùn)練,則在醫(yī)生領(lǐng)域的準(zhǔn)確率降低2%。這表明,當(dāng)訓(xùn)練領(lǐng)域的數(shù)據(jù)集極性與目標(biāo)評(píng)價(jià)領(lǐng)域相似度較低時(shí),使用大量訓(xùn)練數(shù)據(jù)集可以提高目標(biāo)領(lǐng)域的評(píng)價(jià)精度。

        3.3.3 混合領(lǐng)域結(jié)果分析

        在混合領(lǐng)域,與Li等[10]的方法進(jìn)行了比較,其采用來(lái)自土耳其人和專家的所有虛假評(píng)論以及顧客的真實(shí)評(píng)論。同樣為了和Li等的方法對(duì)比,本文實(shí)驗(yàn)設(shè)置與他們的方法一致。

        Li等的方法包括段落均值(paragraph-average)、加權(quán)平均(weight-average)、句子卷積神經(jīng)網(wǎng)絡(luò)(Sentence Convolutional Neural Network, SCNN)、句子加權(quán)神經(jīng)網(wǎng)絡(luò)(Sentence-Weighted Neural Network, SWNN)以及這些方法和特征的組合。SCNN是一個(gè)基本的文檔表示學(xué)習(xí)模型,由兩個(gè)卷積操作組成: 句子卷積通過(guò)一個(gè)固定長(zhǎng)度的窗口為每個(gè)句子創(chuàng)建一個(gè)組合; 文檔卷積把句子向量轉(zhuǎn)換為文檔向量。SWNN是SCNN的變體。Li等采用KL(Kullback-Leibler)散度作為一個(gè)詞的重要性權(quán)重來(lái)計(jì)算一個(gè)句子的權(quán)重。

        本文采用所有句子標(biāo)注的加權(quán)和來(lái)計(jì)算文檔標(biāo)注。句子的權(quán)重衡量句子對(duì)整個(gè)文檔含義的貢獻(xiàn),評(píng)論中的不同句子在文檔的語(yǔ)義表示中扮演著不同的角色。從真實(shí)的評(píng)論中區(qū)分垃圾評(píng)論時(shí),一些句子比另一些句子更重要,因此,當(dāng)一個(gè)句子對(duì)整個(gè)文檔的含義貢獻(xiàn)較大時(shí),給它分配較大的權(quán)重。

        表5顯示本文模型在混合領(lǐng)域取得了最好的結(jié)果,其準(zhǔn)確率明顯高于其他神經(jīng)網(wǎng)絡(luò)。SWNN模型的準(zhǔn)確率為80.1%,SWNN+特征2的準(zhǔn)確率為82.2%。在垃圾評(píng)論檢測(cè)中,POS(Part-Of-Speech)[9]和“第一人稱”是強(qiáng)大的特征, 特征1指POS特征,特征2指POS+“第一人稱”。因此,可大膽地假設(shè):如果將這兩個(gè)特征與本文模型結(jié)合,那么準(zhǔn)確率將比對(duì)比模型的準(zhǔn)確率高出更多。

        表5 各方法混合領(lǐng)域結(jié)果

        3.3.4 參數(shù)分析

        在實(shí)驗(yàn)中,本文研究了3個(gè)參數(shù)的影響,即句子窗口大小、學(xué)習(xí)率和句子級(jí)卷積過(guò)濾器的數(shù)量。實(shí)驗(yàn)結(jié)果表明當(dāng)句子窗口大小設(shè)置為2、3和4,學(xué)習(xí)率為0.5,Word2Doc卷積濾波器數(shù)量為100時(shí),準(zhǔn)確率最高。

        4 結(jié)語(yǔ)

        一種新的基于分層的注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)被成功地用于垃圾評(píng)論檢測(cè)。通過(guò)使用層次注意力機(jī)制,使評(píng)論的位置和強(qiáng)度信息被完整地保留下來(lái)。Word2Sent和Sent2Doc的組合使本文模型能從保存的特征中提取重要的和全面的信息,挖掘用戶評(píng)論的潛在語(yǔ)義信息,從而提高垃圾評(píng)論識(shí)別準(zhǔn)確率。本文方法分別在領(lǐng)域內(nèi)、跨領(lǐng)域和混合領(lǐng)域三個(gè)領(lǐng)域上進(jìn)行了檢測(cè)對(duì)比實(shí)驗(yàn)。本文方法準(zhǔn)確率比Li等[9-10]的方法準(zhǔn)確率平均提高5%,最好的情況下,準(zhǔn)確率高達(dá)90.9%,比Li等的方法高出15%,總體來(lái)說(shuō),本文方法的準(zhǔn)確率更高,泛化能力更強(qiáng)。

        將來(lái),將進(jìn)一步考慮把從垃圾評(píng)論中提取的語(yǔ)言學(xué)和心理學(xué)特征作為先驗(yàn)知識(shí)加入到本文所提出的模型中,以充分利用兩者的優(yōu)勢(shì)達(dá)到增強(qiáng)分類效果的目的; 另一方面,可以將這個(gè)新模型擴(kuò)展到其他NLP任務(wù),如情感分析[4],甚至計(jì)算機(jī)視覺(jué)和圖像識(shí)別等領(lǐng)域。

        猜你喜歡
        文檔準(zhǔn)確率卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        有人一聲不吭向你扔了個(gè)文檔
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        精品久久久久久无码中文字幕| 黑人一区二区三区在线| 熟女少妇av免费观看| 久久久精品久久久国产| 久久国产精品婷婷激情| 久久精品中文字幕| 亚洲精品国产av天美传媒| 在线观看国产精品日韩av| 青春草在线视频精品| 少妇被搞高潮在线免费观看| 国产人妖伦理视频在线观看| 偷拍综合在线视频二区| 精品免费久久久久久久| 亚洲av片不卡无码久久| 欧美激情国产一区在线不卡| 一二区视频免费在线观看| 99久久婷婷国产一区| 性久久久久久| 久久综合精品国产二区无码 | 亚洲的天堂av无码| 日本嗯啊在线观看| 日韩激情视频一区在线观看| 国产亚洲av另类一区二区三区| 啦啦啦中文在线观看日本| 日本高清aⅴ毛片免费| 99热在线播放精品6| 手机在线国产福利av| 插插射啊爱视频日a级| 国产精品毛片完整版视频| 免费99视频| 亚洲av偷拍一区二区三区| 老女人下面毛茸茸的视频| 国产极品女主播国产区| 午夜亚洲av永久无码精品| 久久久久亚洲AV片无码乐播 | 国产精品亚洲一区二区极品| 日韩av在线不卡一区二区 | 亚洲中文字幕免费精品| 精品一区二区三区四区国产| 成人毛片无码一区二区三区| 久久精品国产亚洲AⅤ无码|