亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向社交媒體評(píng)論的上下文語(yǔ)境諷刺檢測(cè)模型

        2021-01-15 07:17:30趙啟濤孫天岳劉國(guó)利
        計(jì)算機(jī)工程 2021年1期
        關(guān)鍵詞:語(yǔ)句語(yǔ)境向量

        韓 虎,趙啟濤,孫天岳,劉國(guó)利

        (1.蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070;2.甘肅省人工智能與圖形圖像工程研究中心,蘭州 730070)

        0 概述

        如何從社交媒體評(píng)論中挖掘用戶(hù)的情感傾向已成為當(dāng)前國(guó)內(nèi)外學(xué)者的研究重點(diǎn)之一[1]。由于部分用戶(hù)在評(píng)論語(yǔ)句中頻繁使用諷刺表達(dá),并且諷刺語(yǔ)具有反情感極性的特點(diǎn),因此針對(duì)評(píng)論語(yǔ)句的諷刺檢測(cè)任務(wù)成為文本情感分類(lèi)中一個(gè)重要研究領(lǐng)域。與普通的文本情感分類(lèi)任務(wù)不同,諷刺檢測(cè)問(wèn)題需要額外的上下文語(yǔ)境信息來(lái)補(bǔ)充目標(biāo)語(yǔ)句實(shí)現(xiàn)分類(lèi)。例如句子:“I am sure Hillary would have done that.”,如果不考慮語(yǔ)境,則無(wú)法判斷它的情感極性,但如果它的作者與Hillary 政治傾向相反或者此語(yǔ)句的主題背景具有明顯的消極傾向,便會(huì)將它與消極極性相聯(lián)系,其諷刺傾向也愈加明顯。

        在以往的研究中,很多學(xué)者將諷刺檢測(cè)問(wèn)題等同于簡(jiǎn)單的文本分類(lèi)任務(wù)。文獻(xiàn)[2]分析了用戶(hù)在葡萄牙一家在線(xiàn)報(bào)紙上發(fā)表的評(píng)論,發(fā)現(xiàn)表情符號(hào)、笑的擬聲表達(dá)以及大量的標(biāo)點(diǎn)符號(hào)、引號(hào)等暗示諷刺含義。文獻(xiàn)[3]研究表明,人們可以利用同一語(yǔ)句中的明顯情緒對(duì)比作為言語(yǔ)諷刺的標(biāo)記。但這種方法無(wú)法完全地挖掘語(yǔ)句的諷刺傾向,存在明顯的缺陷。例如只給出文本:“Great idea!”或“what a hardship.”,如果不了解說(shuō)話(huà)者的語(yǔ)境(說(shuō)話(huà)者是誰(shuí),話(huà)題與誰(shuí)有關(guān)以及內(nèi)容如何與前后語(yǔ)境相關(guān)聯(lián)),則便無(wú)法精準(zhǔn)預(yù)測(cè)說(shuō)話(huà)者的意圖。因此,諷刺檢測(cè)任務(wù)需要上下文語(yǔ)境信息。

        隨著研究的不斷深入,有部分學(xué)者嘗試將作者信息嵌入到目標(biāo)語(yǔ)句向量中參與分類(lèi)。文獻(xiàn)[4]發(fā)現(xiàn)Twitter 評(píng)論中的上下文特征對(duì)諷刺文本分類(lèi)的作用明顯,比如作者的歷史推文、好友回復(fù)信息以及作者評(píng)論其他帖子的內(nèi)容,均對(duì)分類(lèi)的精度有較大影響。文獻(xiàn)[5]通過(guò)將相似用戶(hù)投射到嵌入空間的鄰近區(qū)域來(lái)構(gòu)建用戶(hù)嵌入。文獻(xiàn)[6]在建模用戶(hù)嵌入時(shí)采用更復(fù)雜的模型,通過(guò)作者個(gè)性特征與文體特征的CCA[7]融合向量來(lái)表示用戶(hù)嵌入,并增加語(yǔ)句的論壇主題特征,在Reddit 論壇的標(biāo)準(zhǔn)語(yǔ)料庫(kù)SARC[8]上測(cè)試并表現(xiàn)出領(lǐng)先的性能。但是Hazarika的模型涉及復(fù)雜的特征工程需要耗費(fèi)大量的資源。

        本文構(gòu)建面向社交媒體評(píng)論的上下文語(yǔ)境諷刺檢測(cè)模型,利用ParagraphVector[9]方法建模用戶(hù)與主題嵌入,運(yùn)用BiGRU 模型[10]建模目標(biāo)語(yǔ)句,通過(guò)實(shí)驗(yàn)定性比較模型各組件對(duì)分類(lèi)精度的影響,并根據(jù)SARC 數(shù)據(jù)集對(duì)模型性能進(jìn)行驗(yàn)證。

        1 相關(guān)工作

        1.1 上下文語(yǔ)境諷刺檢測(cè)

        基于上下文語(yǔ)境的諷刺檢測(cè)是諷刺檢測(cè)領(lǐng)域的細(xì)分任務(wù),目的是通過(guò)挖掘目標(biāo)語(yǔ)句的衍生特征來(lái)補(bǔ)充判斷語(yǔ)句的諷刺傾向。神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理領(lǐng)域取得了顯著進(jìn)展,特別是在文本情感分析等子領(lǐng)域的成功應(yīng)用,推動(dòng)了學(xué)術(shù)界將研究方向從依賴(lài)于人工提取特征的傳統(tǒng)方法遷移到深度學(xué)習(xí)方法[11-12]。

        近年來(lái),許多學(xué)者將神經(jīng)網(wǎng)絡(luò)引入到諷刺檢測(cè)任務(wù)中,并取得了比傳統(tǒng)方法更好的結(jié)果。文獻(xiàn)[13]使用預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取語(yǔ)句特征進(jìn)行諷刺分類(lèi)。文獻(xiàn)[14]使用雙向門(mén)控遞歸神經(jīng)網(wǎng)絡(luò)來(lái)捕獲推文的句法和語(yǔ)義信息,并利用池化操作從歷史推文中自動(dòng)地捕獲上下文特征,實(shí)驗(yàn)結(jié)果表明,使用神經(jīng)網(wǎng)絡(luò)提取特征提高了諷刺檢測(cè)的準(zhǔn)確性。文獻(xiàn)[15]采用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)構(gòu)建的混合模型有效提高了分類(lèi)精度。文獻(xiàn)[16]提出注意力機(jī)制和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的混合神經(jīng)網(wǎng)絡(luò)模型對(duì)文本進(jìn)行特征提取。

        大部分基于上下文語(yǔ)境的諷刺檢測(cè)任務(wù)是在神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行的,文獻(xiàn)[4-6]先后將用戶(hù)嵌入和論壇主題嵌入引入諷刺檢測(cè)任務(wù),通過(guò)增加額外的上下文語(yǔ)境信息來(lái)擴(kuò)展模型。受文獻(xiàn)[4-6]啟發(fā),本文提出一種將ParagraphVector 方法與BiGRU 網(wǎng)絡(luò)相結(jié)合的模型用于基于上下文語(yǔ)境的諷刺檢測(cè)任務(wù)。

        1.2 ParagraphVector 模型

        ParagraphVector 模型利用詞、句嵌入算法得到單詞和句子相應(yīng)的低維、稠密的分布式表示,有助于后續(xù)利用更加成熟的深度神經(jīng)網(wǎng)絡(luò)算法對(duì)文本進(jìn)一步處理[17]。ParagraphVector 模型是在Word2vector[18]的基礎(chǔ)上提出的,是一種無(wú)監(jiān)督且不定長(zhǎng)文本的連續(xù)分布式向量表示方法。

        1.3 GRU 模型

        GRU(Gated Recurrent Unit)模型是長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的改進(jìn)模型,具有結(jié)構(gòu)簡(jiǎn)單、參數(shù)較少、收斂性更好等優(yōu)點(diǎn)。相比于其他的循環(huán)神經(jīng)網(wǎng)絡(luò),GRU 模型運(yùn)算更加簡(jiǎn)潔。

        GRU 中每個(gè)單元的更新方式如下:

        2 基于上下文語(yǔ)境的諷刺檢測(cè)模型

        本文提出的上下文語(yǔ)境諷刺檢測(cè)模型結(jié)構(gòu)如圖1所示,主要包括4 個(gè)部分:

        1)用戶(hù)嵌入網(wǎng)絡(luò)。本文將每個(gè)用戶(hù)的歷史評(píng)論整合為用戶(hù)文檔,通過(guò)ParagraphVector 模型學(xué)習(xí)用戶(hù)文檔得到用戶(hù)嵌入。

        2)論壇主題編碼。類(lèi)似于對(duì)用戶(hù)文檔的編碼,本文將每個(gè)論壇的歷史主題推文整合為此論壇的主題文檔,同樣使用ParagraphVector 模型學(xué)習(xí)每個(gè)論壇的主題特征。

        3)語(yǔ)句編碼模型。利用Bi-GRU 網(wǎng)絡(luò)訓(xùn)練目標(biāo)分類(lèi)語(yǔ)句,提取句法特征,輸出待分類(lèi)語(yǔ)句的隱層表。

        4)分類(lèi)輸出層。將1)~3)部分得到的向量連接,通過(guò)一個(gè)Softmax 層得到最終分類(lèi)結(jié)果。

        圖1 基于上下文語(yǔ)境的諷刺檢測(cè)模型Fig.1 Contextual-based sarcasm detection model

        本文提出的諷刺檢測(cè)模型將用戶(hù)信息、主題信息和目標(biāo)分類(lèi)句分別建模,最終組合分類(lèi),利用這種建模方式,既可以充分挖掘各模塊的語(yǔ)義信息,也能保留三者之間的聯(lián)系。

        2.1 任務(wù)定義

        此項(xiàng)工作的目的是檢測(cè)在線(xiàn)論壇(Reddit)評(píng)論語(yǔ)句的諷刺傾向。論壇中的每條評(píng)論都與唯一的評(píng)論用戶(hù)和評(píng)論論壇主題相關(guān)聯(lián),假定所有的用戶(hù)構(gòu)成一個(gè)用戶(hù)集合,所有的論壇主題構(gòu)成論壇集合對(duì)于給定的由第i個(gè)用戶(hù)ui在第j個(gè)論壇主題tj上的評(píng)論文本Ci,j,本文的任務(wù)是判斷Ci,j是否具有諷刺傾向。例如句子“Obama wants people to die from the shutdown so he can blame it on the GOP”,其語(yǔ)境信息如表1 所示。

        表1 目標(biāo)句語(yǔ)境信息Table 1 Context information of target sentence

        由表1 可知,目標(biāo)句所屬的用戶(hù)與主題分別為“FeuNoir”和“block user”,此用戶(hù)與主題的歷史評(píng)論數(shù)據(jù)若干條,用標(biāo)識(shí)符組合為用戶(hù)文檔和主題文檔。本文提取用戶(hù)文檔和主題文檔的特征來(lái)輔助檢測(cè)目標(biāo)句的諷刺傾向。

        2.2 用戶(hù)嵌入

        用戶(hù)嵌入試圖從用戶(hù)的歷史評(píng)論帖子中捕捉與諷刺傾向相關(guān)的用戶(hù)特征,其基本思想是將特征相似的用戶(hù)投射到嵌入空間的鄰近區(qū)域。本文采用目前較為常見(jiàn)的文本向量模型PV-DM(Distributed Memory Model of Paragraph Vectors)將用戶(hù)文檔表示為段落向量從而實(shí)現(xiàn)用戶(hù)嵌入。PV-DM 模型通過(guò)將段落向量與詞向量相結(jié)合來(lái)預(yù)測(cè)下一個(gè)詞向量,段落向量與詞向量是訓(xùn)練過(guò)程的副產(chǎn)物,具體步驟如下:

        1)輸入層。將每個(gè)用戶(hù)文檔映射為一個(gè)段落向量存儲(chǔ)在段落矩陣D中,每個(gè)單詞映射為詞向量存儲(chǔ)在詞矩陣C中。

        2)投影層。將詞矩陣C中的詞向量與段落矩陣D中的段落向量進(jìn)行拼接,用于預(yù)測(cè)P(wt|wt-c,…,

        3)輸出層。使用層次Softmax 求得P(wt|wt-c,…,的概率分布,如式(5)所示,同時(shí)通過(guò)神經(jīng)網(wǎng)絡(luò)的反向傳播獲得誤差梯度,并運(yùn)用隨機(jī)梯度下降法迭代更新模型的參數(shù)以及段落向量和詞向量。

        其中,詞矩陣C中的每一個(gè)單詞與輸出層的節(jié)點(diǎn)相對(duì)應(yīng),而每一個(gè)yi對(duì)應(yīng)詞i未標(biāo)準(zhǔn)化的對(duì)數(shù)概率:

        其中,b和U均為Softmax 參數(shù),h(·)表示將詞向量與段落向量相連接。訓(xùn)練結(jié)束后,用戶(hù)文檔被映射為定長(zhǎng)的向量,即段落向量。使用訓(xùn)練好的PV-DM模型可將任意長(zhǎng)度的用戶(hù)文檔ui映射成為用戶(hù)嵌入向量ui。

        2.3 論壇主題嵌入

        類(lèi)似于用戶(hù)能夠影響目標(biāo)語(yǔ)句的諷刺傾向,本文假定目標(biāo)語(yǔ)句所屬的論壇主題能夠影響語(yǔ)句的諷刺傾向。例如,對(duì)于政治或體育主題下的評(píng)論通常比自然災(zāi)害評(píng)論更容易具有諷刺意味。本文采用與編碼用戶(hù)嵌入相同的方法編碼論壇主題嵌入,使用ParagraphVector 模型將Reddit 論壇下的每個(gè)主題文檔tj表示為特征向量tj。

        2.4 語(yǔ)句特征

        本文使用Bi-GRU 模型對(duì)目標(biāo)分類(lèi)語(yǔ)句建模,即在標(biāo)準(zhǔn)GRU 的基礎(chǔ)上增加反向的GRU,使得當(dāng)前時(shí)刻的輸出能與前一時(shí)刻的狀態(tài)和后一時(shí)刻的狀態(tài)都產(chǎn)生聯(lián)系,通過(guò)將正向GRU 與反向GRU 相連接形成雙向GRU 網(wǎng)絡(luò)。在每一時(shí)刻,模型的輸入會(huì)同時(shí)提供給兩個(gè)方向相反的GRU 網(wǎng)絡(luò),輸出則由這兩個(gè)單向的GRU 共同決定,計(jì)算方式如下:

        其中,GRU(·)表示能夠把詞向量編碼成對(duì)應(yīng)GRU 隱層狀態(tài)的非線(xiàn)性變換函數(shù),wt表示t時(shí)刻雙向GRU 所對(duì)應(yīng)的前向隱層狀態(tài)的權(quán)重,vt表示t時(shí)刻雙向GRU所對(duì)應(yīng)的反向隱層狀態(tài)的權(quán)重,bt表示t時(shí)刻隱層狀態(tài)所對(duì)應(yīng)的偏置。將目標(biāo)分類(lèi)語(yǔ)句的詞向量表示為Bi-GRU 網(wǎng)絡(luò)的輸入,Bi-GRU 網(wǎng)絡(luò)的主要目的是對(duì)輸入的文本向量進(jìn)行文本深層次特征的提取。通過(guò)Bi-GRU 網(wǎng)絡(luò)特征提取后,可以更充分地學(xué)習(xí)上下文之間的關(guān)系,提取目標(biāo)分類(lèi)文本特征向量Ci,j。

        2.5 模型訓(xùn)練

        在提取到評(píng)論Ci,j的文本表示向量Ci,j、用戶(hù)ui的用戶(hù)嵌入向量ui以及論壇tj的主題特征向量tj后,將這3個(gè)向量連接起來(lái)形成統(tǒng)一的文本表示其中,⊕表示連接。最后,使用Softmax 函數(shù)將轉(zhuǎn)換為概率輸出,具體公式如下:

        其中,Wo是權(quán)重矩陣,bo是偏置。利用反向傳播算法來(lái)訓(xùn)練模型,在訓(xùn)練過(guò)程中,通過(guò)全連接層的每一次輸出最小化交叉熵?fù)p失函數(shù)對(duì)模型進(jìn)行優(yōu)化:

        其中,N是訓(xùn)練集中的所有評(píng)論,yi,j為實(shí)際類(lèi)別為模型預(yù)測(cè)類(lèi)別為交叉熵正則項(xiàng)。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)平臺(tái)

        本文使用Reddit論壇的標(biāo)準(zhǔn)諷刺檢測(cè)數(shù)據(jù)集SARC[7]對(duì)模型進(jìn)行驗(yàn)證,在實(shí)驗(yàn)中考慮了SARC數(shù)據(jù)集的3種變體,分別是Main balanced、Main imbalanced和Politics,數(shù)據(jù)集信息如表2所示。本文的實(shí)驗(yàn)環(huán)境信息如下:操作系統(tǒng)為Windows 10;CPU 為Inter coreTMi7-7700 CPU @3.60 GHz;顯卡為GTX 1080;內(nèi)存為16.0 GB。實(shí)驗(yàn)采用Google 的TensorFlow 深度學(xué)習(xí)框架,使用Python 語(yǔ)言編程實(shí)現(xiàn)。

        表2 SARC 數(shù)據(jù)集統(tǒng)計(jì)Table 2 Statistics of SARC datasets

        3.2 評(píng)價(jià)指標(biāo)

        本文使用準(zhǔn)確率Accuracy 作為評(píng)價(jià)模型分類(lèi)結(jié)果的指標(biāo)。

        其中,T表示模型正確預(yù)測(cè)評(píng)論類(lèi)別的數(shù)量,N表示樣本總數(shù)。

        3.3 實(shí)驗(yàn)參數(shù)

        在本文的實(shí)驗(yàn)中,數(shù)據(jù)集采用了文獻(xiàn)[19]提出的Glove 詞向量來(lái)初始化實(shí)驗(yàn)數(shù)據(jù)的詞向量,實(shí)驗(yàn)中的許多超參數(shù)都需要設(shè)置和調(diào)整,超參數(shù)的更新都是在每一次訓(xùn)練完成后,根據(jù)實(shí)驗(yàn)的精度和損失手動(dòng)調(diào)整的。經(jīng)過(guò)若干次迭代,實(shí)驗(yàn)的超參數(shù)如表3 所示。

        表3 實(shí)驗(yàn)參數(shù)Table 3 Experimental parameter

        3.4 對(duì)比實(shí)驗(yàn)

        將本文提出的模型與以下常見(jiàn)的模型進(jìn)行對(duì)比:

        1)Bag-of-Words:詞袋模型是自然語(yǔ)言處理領(lǐng)域常用的建模文本方法,即以單詞作為矢量空間的維度,以文本中出現(xiàn)的單詞頻率作為文本矢量對(duì)應(yīng)維度的值。

        2)CNN:文獻(xiàn)[20]提出的卷積神經(jīng)網(wǎng)絡(luò)模型使用獨(dú)立評(píng)論句子作為模型的輸入,沒(méi)有嵌入用戶(hù)與主題信息,是最基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)模型。

        3)Bi-GRU:文獻(xiàn)[10]提出的Bi-GRU 網(wǎng)絡(luò)模型是LSTM 網(wǎng)絡(luò)的變體,該模型能夠解決句子間的長(zhǎng)時(shí)依賴(lài)問(wèn)題。

        4)CNN-SVM:文獻(xiàn)[13]提出的模型使用預(yù)訓(xùn)練的CNN 網(wǎng)絡(luò)提取歷史語(yǔ)句特征,并與目標(biāo)分類(lèi)句特征共同作為SVM 模型的輸入進(jìn)行分類(lèi)。

        5)CUE-CNN:文獻(xiàn)[5]提出的基于段落向量模型與卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型,首先通過(guò)段落向量對(duì)用戶(hù)文檔進(jìn)行建模,然后將用戶(hù)嵌入與用于對(duì)目標(biāo)句建模的CNN 的特征向量相結(jié)合得到最終的待分類(lèi)表示。

        6)CASCADE:文獻(xiàn)[6]將論壇主題建模引入諷刺檢測(cè)任務(wù),用戶(hù)嵌入和論壇主題編碼與CNN 相結(jié)合形成分類(lèi)向量。

        3.5 結(jié)果分析

        本文在SARC 數(shù)據(jù)集上進(jìn)行7 組模型的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)分類(lèi)準(zhǔn)確率如表4 所示。

        表4 實(shí)驗(yàn)分類(lèi)準(zhǔn)確率Table 4 Accuracy of experimental classification

        從表4 的實(shí)驗(yàn)結(jié)果可以看出,Bag-of-Words模型的性能最差,這是因?yàn)锽ag-of-Words 模型忽略了文本中詞語(yǔ)的先后次序,而且缺少詞語(yǔ)的語(yǔ)義信息。對(duì)于所有應(yīng)用神經(jīng)網(wǎng)絡(luò)模型的方法,基礎(chǔ)的CNN 模型表現(xiàn)最差,對(duì)于沒(méi)有進(jìn)行上下文嵌入的模型,CNN 模型的表現(xiàn)稍遜于Bi-GRU 模型,這體現(xiàn)出循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)于處理序列化數(shù)據(jù)的優(yōu)勢(shì)。但上述3 種基礎(chǔ)模型相比于嵌入語(yǔ)境信息的模型性能較差,這說(shuō)明只對(duì)目標(biāo)語(yǔ)句建模的方法不能完全挖掘語(yǔ)句的諷刺傾向,因此在模型中加入上下文語(yǔ)境信息很有必要。對(duì)于在模型中加入語(yǔ)境信息的情況,CNN-SVM模型在Main balanced、Main imbalanced 和Politics 3 個(gè)數(shù)據(jù)集上相較基礎(chǔ)的CNN 模型準(zhǔn)確率提升了4%、1%和5%。CUE-CNN 模型引入用戶(hù)嵌入,CASCADE 在CUE-CNN 的基礎(chǔ)上引入了主題嵌入,這2 種模型都是利用CNN 作為提取內(nèi)容語(yǔ)句特征的基礎(chǔ)模型。本文的模型使用段落向量模型無(wú)監(jiān)督地學(xué)習(xí)用戶(hù)嵌入與論壇主題嵌入,并利用Bi-GRU 模型提取內(nèi)容語(yǔ)句特征。實(shí)驗(yàn)結(jié)果表明,本文模型的準(zhǔn)確率優(yōu)于除CASCADE 的其他模型,這說(shuō)明用戶(hù)嵌入與主題嵌入對(duì)目標(biāo)句諷刺傾向檢測(cè)的重要性,以及本文模型能夠提取對(duì)諷刺檢測(cè)有用的用戶(hù)與主題特征。本文模型與CASCADE 的準(zhǔn)確率相近,這是由于本文對(duì)內(nèi)容語(yǔ)句的編碼采用了比處理序列數(shù)據(jù)更具優(yōu)勢(shì)的Bi-GRU 模型,Bi-GRU 相比CNN 具有更可靠的記憶單元,能夠提取更復(fù)雜的語(yǔ)句特征信息,并且本文模型簡(jiǎn)化了CASCADE 的用戶(hù)嵌入方式,避免了建模用戶(hù)嵌入時(shí)大量的特征工程工作。實(shí)驗(yàn)結(jié)果表明,本文模型優(yōu)于目前基于上下文語(yǔ)境諷刺檢測(cè)的其他模型。

        3.6 模型分析

        為進(jìn)一步分析模型各組件對(duì)語(yǔ)句諷刺檢測(cè)程度的影響,本文從數(shù)據(jù)集中抽取一些典型的句子進(jìn)行分類(lèi)結(jié)果對(duì)比分析,如表5 所示。從表5 結(jié)果可以看出,例句1、例句2 和例句3 由于缺乏上下文語(yǔ)境信息而導(dǎo)致預(yù)測(cè)錯(cuò)誤,但是例句1、例句2 在僅加入用戶(hù)嵌入后模型預(yù)測(cè)結(jié)果便有了明顯的改善,而例句3 由于長(zhǎng)度較短且缺乏明顯的情感詞,需要對(duì)其所屬論壇主題明確后才能得到正確的預(yù)測(cè)。說(shuō)明本文提出的使用ParagraphVector 模型對(duì)用戶(hù)以及主題建模是可行的,并且能夠達(dá)到較好的效果。例句4 在基礎(chǔ)Bi-GRU 模型(Bi-GRU+U)和增加用戶(hù)嵌入(Bi-GRU+U+P)的模型中都能得到正確的預(yù)測(cè),但當(dāng)模型增加主題嵌入時(shí)得出錯(cuò)誤的結(jié)果,說(shuō)明更復(fù)雜的模型不一定能得到正確的預(yù)測(cè)效果。

        表5 數(shù)據(jù)集中典型句分析Table 5 Typical sentence analysis in dataset

        4 結(jié)束語(yǔ)

        本文提出一種結(jié)合用戶(hù)嵌入、論壇主題嵌入與內(nèi)容編碼的上下文語(yǔ)境諷刺檢測(cè)模型。該模型運(yùn)用ParagraphVector 模型與Bi-GRU 模型分別編碼上下文語(yǔ)境信息和內(nèi)容信息,有效提高諷刺檢測(cè)分類(lèi)準(zhǔn)確率。在標(biāo)準(zhǔn)諷刺檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型的有效性。對(duì)于諷刺檢測(cè)這類(lèi)特殊的文本分類(lèi)問(wèn)題,需要增加用戶(hù)嵌入與主題嵌入等語(yǔ)境信息,但由于用戶(hù)文檔與主題文檔的訓(xùn)練樣本較少,實(shí)驗(yàn)過(guò)程中會(huì)出現(xiàn)過(guò)擬合、分類(lèi)錯(cuò)誤等問(wèn)題,下一步將對(duì)此進(jìn)行改進(jìn),以得到更好的分類(lèi)效果。

        猜你喜歡
        語(yǔ)句語(yǔ)境向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        重點(diǎn):語(yǔ)句銜接
        精彩語(yǔ)句
        向量垂直在解析幾何中的應(yīng)用
        語(yǔ)言學(xué)習(xí)中語(yǔ)境化的輸入與輸出
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線(xiàn)
        跟蹤導(dǎo)練(三)2
        論幽默語(yǔ)境中的預(yù)設(shè)觸發(fā)語(yǔ)
        如何搞定語(yǔ)句銜接題
        国产精品久久久久久亚洲av| 青青草中文字幕在线播放| 国产亚洲精品美女久久久久| 日本高清h色视频在线观看| 亚洲一区二区三区成人| 日韩极品视频在线观看| 国产精品国产三级久久| 国产乱了真实在线观看| 青草福利在线| 另类人妖在线观看一区二区| 极品粉嫩小仙女高潮喷水操av| 日韩人妻一区二区三区蜜桃视频| 亚洲天堂99| 亚洲国产av一区二区三| 国产熟人精品一区二区| 国产精品无码一区二区在线看| 欧美日韩精品乱国产| 国产在线视频网站不卡| 娇小女人被黑人插免费视频| 国产亚洲精品aaaa片小说| 久久国产综合精品欧美| 按摩偷拍一区二区三区| 国产精品女同久久久久电影院| 亚州少妇无套内射激情视频| 欧洲亚洲色一区二区色99| 亚洲av色av成人噜噜噜| 蜜桃日本免费看mv免费版 | 国产成人av一区二区三区不卡| 少妇做爰免费视频网站| 在线看片国产免费不卡| 亚洲白嫩少妇在线喷水| 国产精品无码一区二区在线观一 | 国产午夜精品久久久久99| 国产精品国产三级国产专播| 日本天堂免费观看| 亚洲熟妇色xxxxx欧美老妇y| 日本福利视频免费久久久| 久久天堂一区二区三区av| 欧美大黑帍在线播放| 午夜无码亚| 日本熟女人妻一区二区|