亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于對(duì)抗學(xué)習(xí)的諷刺識(shí)別研究

        2019-01-29 05:48:24張慶林杜嘉晨徐睿峰
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域

        張慶林 杜嘉晨 徐睿峰

        哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 深圳 518055; ? 通信作者, E-mail: xuruifeng@hit.edu.cn

        近年來, 隨著諷刺在微博、論壇等互聯(lián)網(wǎng)應(yīng)用中的廣泛使用以及文本情感分析問題的深入研究,越來越多的學(xué)者對(duì)諷刺識(shí)別產(chǎn)生濃厚興趣。由于用戶在使用諷刺表達(dá)情感時(shí), 往往出現(xiàn)想表達(dá)的情感傾向與字面相反的情況, 所以對(duì)諷刺表達(dá)的判別會(huì)明顯影響面向社交媒體的文本情感分析性能。因此, 諷刺識(shí)別問題的深入研究對(duì)提高文本情感分析系統(tǒng)、問答系統(tǒng)以及會(huì)話機(jī)器人等自然語言處理應(yīng)用的性能具有重要意義。

        諷刺識(shí)別的傳統(tǒng)方法主要依靠人工構(gòu)建特征模板和規(guī)則[1-2], 需要依賴領(lǐng)域?qū)<? 且耗費(fèi)大量的時(shí)間和精力, 同時(shí)規(guī)則系統(tǒng)的可遷移性也比較差。隨著深度學(xué)習(xí)模型在眾多自然語言處理問題上取得重大突破, 有學(xué)者將其引入諷刺識(shí)別任務(wù)中[3-4]。但是, 目前諷刺識(shí)別領(lǐng)域只有少量公開的人工標(biāo)注數(shù)據(jù)或利用弱監(jiān)督方式自動(dòng)標(biāo)注的數(shù)據(jù), 缺乏大規(guī)模、高質(zhì)量的諷刺標(biāo)注語料, 導(dǎo)致基于機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí))的諷刺識(shí)別模型的性能受到一定的限制。

        本文提出一種在使用少量標(biāo)注訓(xùn)練數(shù)據(jù)的情況下, 應(yīng)用對(duì)抗學(xué)習(xí)框架[5]來提升深度學(xué)習(xí)模型在諷刺識(shí)別任務(wù)中性能的方法。首先, 在將注意力卷積神經(jīng)網(wǎng)絡(luò)[6-8]模型應(yīng)用于諷刺識(shí)別的基礎(chǔ)上, 采用兩種對(duì)抗學(xué)習(xí)方法來提高諷刺識(shí)別的性能。其中,基于對(duì)抗樣本的學(xué)習(xí)方法[9]在模型訓(xùn)練過程中定向地生成面向識(shí)別模型的攻擊樣本, 用于模型訓(xùn)練,以期增強(qiáng)模型的魯棒性和泛化性能。考慮到基于對(duì)抗樣本的對(duì)抗學(xué)習(xí)方法只能在單領(lǐng)域數(shù)據(jù)上生成對(duì)抗樣本, 為了利用更多的跨領(lǐng)域數(shù)據(jù), 以便提升模型的性能, 本文還提出基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法。該方法在目標(biāo)領(lǐng)域只有少量標(biāo)注數(shù)據(jù)的情況下, 利用梯度反轉(zhuǎn)層和領(lǐng)域判別器, 遷移跨領(lǐng)域的諷刺標(biāo)注樣本, 以期提高注意力卷積神經(jīng)網(wǎng)絡(luò)模型在目標(biāo)領(lǐng)域上的性能。最后, 將上述兩種對(duì)抗學(xué)習(xí)方法相結(jié)合, 可以進(jìn)一步提升模型的性能。在IAC的3個(gè)諷刺數(shù)據(jù)集[10]上的實(shí)驗(yàn)結(jié)果均取得目前已知的最優(yōu)性能, 顯示了應(yīng)用對(duì)抗學(xué)習(xí)在諷刺識(shí)別任務(wù)上的有效性。

        1 相關(guān)工作

        1.1 諷刺識(shí)別

        本文將文本諷刺識(shí)別問題視為二分類問題, 即給定一條文本, 判斷文本中是否存在諷刺性表達(dá)。Kreuz等[1]基于包含感嘆詞、標(biāo)點(diǎn)符號(hào)等的詞匯特征, 構(gòu)建諷刺自動(dòng)識(shí)別系統(tǒng)。Carvalho等[2]將文本中的表情符號(hào)以及特殊字符作為特征來設(shè)計(jì)諷刺識(shí)別算法。近期, 也有學(xué)者利用深度學(xué)習(xí)模型搭建諷刺識(shí)別系統(tǒng)。Bamman等[3]使用待檢測(cè)文本的上下文信息, 并進(jìn)一步挖掘社交用戶的行為信息, 設(shè)計(jì)基于深度學(xué)習(xí)的諷刺識(shí)別模型。Zhang等[11]使用雙向遞歸神經(jīng)網(wǎng)絡(luò)來捕捉目標(biāo)推特文本的句法和語義信息, 同時(shí)利用與目標(biāo)推文相關(guān)的歷史推文, 自動(dòng)學(xué)習(xí)特征, 進(jìn)行諷刺識(shí)別, 并取得較好的性能。Chen等[12]和Gui等[13]從表示學(xué)習(xí)的角度切入, 提高文本情感分類模型的性能。但是, 目前大部分基于深度學(xué)習(xí)的諷刺識(shí)別模型均利用小規(guī)模人工標(biāo)注數(shù)據(jù)訓(xùn)練, 性能受到很大限制。也有學(xué)者利用網(wǎng)絡(luò)用戶自標(biāo)注(如hashtag)構(gòu)建的弱監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,但由于這些數(shù)據(jù)存在噪音和標(biāo)簽濫用, 其文本標(biāo)簽的準(zhǔn)確性受到質(zhì)疑[14]。

        1.2 對(duì)抗訓(xùn)練

        聯(lián)合使用對(duì)抗樣本和原始樣本參與深度學(xué)習(xí)模型的訓(xùn)練, 稱為對(duì)抗訓(xùn)練。對(duì)抗樣本指對(duì)原始樣本增加微小對(duì)抗擾動(dòng)后的樣本。對(duì)抗樣本能夠使機(jī)器學(xué)習(xí)算法產(chǎn)生錯(cuò)誤的預(yù)測(cè), 卻不會(huì)影響人工對(duì)樣本做出正確分類。Goodfellow等[5]的研究結(jié)果表明,對(duì)抗訓(xùn)練可以有效地提高神經(jīng)網(wǎng)絡(luò)模型防御對(duì)抗攻擊的能力, 從而提高模型的魯棒性以及泛化性能。Szegedy等[9]首先在計(jì)算機(jī)視覺領(lǐng)域發(fā)現(xiàn)對(duì)抗樣本的存在, 隨后Jia等[15]在自然語言處理的相關(guān)任務(wù)上也發(fā)現(xiàn)同樣會(huì)導(dǎo)致模型性能大幅度下降的對(duì)抗樣本。Goodfellow等[5]提出的快速梯度法是對(duì)抗樣本生成中最常用的方法。將基于快速梯度法的對(duì)抗訓(xùn)練應(yīng)用在圖像和文本分類領(lǐng)域[5,16-18], 均能提高模型抵制對(duì)抗攻擊的能力及模型的泛化性能。在文本識(shí)別領(lǐng)域, Jia等[15]在模型輸入文本的段前或段后等位置隨機(jī)添加不相關(guān)的合法句子或隨機(jī)字符, 生成任務(wù)對(duì)抗樣本, 并利用對(duì)抗訓(xùn)練來提高閱讀理解模型在該任務(wù)上的泛化性能。Zhao等[19]利用生成對(duì)抗網(wǎng)絡(luò)來生成圖像和文本對(duì)抗樣本, 并將對(duì)抗樣本用于分析深度學(xué)習(xí)模型的魯棒性, 增強(qiáng)模型的可解釋性。

        1.3 領(lǐng)域遷移

        研究顯示, 當(dāng)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)具有不同的分布時(shí), 領(lǐng)域遷移方法可以有效地提高模型性能。Glorot等[20]利用層疊降噪自編碼器, 學(xué)習(xí)不同領(lǐng)域間的一致特征表達(dá), 提高跨領(lǐng)域文本情感分類性能。Tzeng等[21]通過在卷積神經(jīng)網(wǎng)絡(luò)中引入遷移層,在目標(biāo)損失函數(shù)中添加領(lǐng)域混淆損失, 訓(xùn)練目標(biāo)任務(wù)模型, 在領(lǐng)域遷移的基準(zhǔn)任務(wù)中取得當(dāng)時(shí)的最優(yōu)性能。后來, Tzeng等[22]又提出對(duì)抗判別式領(lǐng)域遷移模型, 解決跨領(lǐng)域手寫數(shù)字分類問題, 提升跨領(lǐng)域手寫數(shù)字識(shí)別的最佳性能。Ganin等[23]利用梯度反轉(zhuǎn)層, 最大化領(lǐng)域判別的損失, 訓(xùn)練模型學(xué)習(xí)領(lǐng)域間不變的特征表示。該方法在圖像領(lǐng)域遷移任務(wù)中均取得當(dāng)時(shí)的最好性能。Gui等[24]通過研究遷移學(xué)習(xí)過程中的負(fù)遷移問題, 提升遷移模型的性能。魏曉聰?shù)萚25]提出一種基于Word2Vec的跨領(lǐng)域特征對(duì)齊算法, 該方法在跨領(lǐng)域情感分類問題上取得較好的性能。

        2 基于對(duì)抗學(xué)習(xí)的諷刺識(shí)別方法

        本文將結(jié)合注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型作為諷刺識(shí)別的基礎(chǔ)分類模型。在此基礎(chǔ)上, 研究基于對(duì)抗樣本的學(xué)習(xí)方法進(jìn)行諷刺識(shí)別模型的對(duì)抗訓(xùn)練, 提高諷刺識(shí)別模型的魯棒性和泛化性能??紤]到基于對(duì)抗樣本的對(duì)抗學(xué)習(xí)方法只能利用單領(lǐng)域的少量標(biāo)注數(shù)據(jù)集來提升模型的效果, 進(jìn)一步研究基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法, 使得對(duì)抗學(xué)習(xí)方法能夠利用更多的跨領(lǐng)域諷刺數(shù)據(jù)來提高目標(biāo)領(lǐng)域的識(shí)別性能。最后, 本文結(jié)合兩種對(duì)抗學(xué)習(xí)方法, 同時(shí)利用對(duì)抗樣本和跨領(lǐng)域數(shù)據(jù)集來強(qiáng)化模型的對(duì)抗學(xué)習(xí)過程。

        2.1 結(jié)合注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型

        諷刺性文本表達(dá)通常由具有共性的短語和表達(dá)方式構(gòu)成。為了保證模型能夠捕獲這種局部短語和表達(dá)方式的共性特征, 本文選擇卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)模型。卷積神經(jīng)網(wǎng)絡(luò)主要包括4個(gè)部分: 輸入層、卷積層、池化層和輸出層, 如圖1所示。由于卷積神經(jīng)網(wǎng)絡(luò)的最大池化或平均池化的方式會(huì)導(dǎo)致文本語義信息的損失, 而注意力機(jī)制近年來在自然語言處理領(lǐng)域的各類任務(wù)中廣泛使用, 并帶來一定的性能提升, 因此本文引入注意力機(jī)制, 將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的池化層改為注意力層。通過注意力權(quán)值向量, 對(duì)卷積層輸出的特征進(jìn)行降維和關(guān)鍵信息抽取。

        圖1 結(jié)合注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型Fig.1 Convolutional neural network with attention mechanism

        首先, 將待識(shí)別的文本轉(zhuǎn)化為低維稠密表示向量, 組成一個(gè)矩陣S, 作為模型輸入。S中的第i列對(duì)應(yīng)輸入文本的第i個(gè)詞wi的詞向量vwi∈Rd。輸入矩陣的維數(shù)N和d都是模型的超參數(shù), 由人工設(shè)定。其中,d代表詞向量的維度,N代表輸入句子的最大長(zhǎng)度。超出最大長(zhǎng)度N的句子會(huì)被截去末端的字符, 對(duì)于句子長(zhǎng)度小于N的句子, 使用零向量vzi∈Rd填充。輸入矩陣S可表示成如下形式:

        在卷積層, 不同大小的卷積核在詞向量矩陣上平移, 進(jìn)行卷積操作。設(shè)某個(gè)卷積核whd∈R, 其中h是卷積窗口的寬度。輸出特征ci∈R的卷積計(jì)算過程可形式化地表示為

        f是非線性激活函數(shù),si:i+h-1代表S中第i到i+h-1列,b∈R是偏置項(xiàng)。卷積層的輸出為特征C:

        注意力機(jī)制可以輔助模型捕捉文本中與諷刺分類目標(biāo)直接相關(guān)的關(guān)鍵性文本語義信息。這里, 本文結(jié)合由Lin等[7]提出的結(jié)構(gòu)化自注意力計(jì)算方法,假設(shè)卷積層的輸出特征矩陣為C, 維度為Rn×m。 通過注意力計(jì)算機(jī)制, 可以將矩陣C轉(zhuǎn)化為固定大小的一維表示向量。注意力計(jì)算模塊接收特征矩陣C作為輸入, 并輸入注意力權(quán)值向量a:

        其中,w1是權(quán)值矩陣, 維度為Rk×m;w2為權(quán)值向量,維度大小為k。獲得注意力權(quán)值向量后, 將其與輸入矩陣相乘, 可以快速地獲得固定大小的句子或文本表示e。計(jì)算公式如下:

        由于循環(huán)神經(jīng)網(wǎng)絡(luò)不適用于對(duì)文本局部特征建模, 所以將未使用結(jié)合注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型作為分類器。同時(shí), 諷刺文本往往長(zhǎng)度較大,使用循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)造成長(zhǎng)期遺忘問題, 容易導(dǎo)致性能不佳[26]。

        2.2 基于對(duì)抗樣本的對(duì)抗學(xué)習(xí)方法

        諷刺是一種非常敏感的語言表達(dá)方式, 細(xì)微的語言變化有可能導(dǎo)致模型產(chǎn)生錯(cuò)誤的判斷。為了提高模型的魯棒性, 本文使用對(duì)抗樣本和原始樣本對(duì)諷刺識(shí)別模型進(jìn)行訓(xùn)練(即對(duì)抗訓(xùn)練), 使模型可以學(xué)習(xí)諷刺表達(dá)背后真正的語義識(shí)別特征。具體地,采用快速梯度法, 通過模型的目標(biāo)損失函數(shù), 對(duì)輸入數(shù)據(jù)求梯度, 并將其加到相對(duì)應(yīng)的輸入維度, 從而快速生成對(duì)抗樣本??蚣苋鐖D 2 所示。

        諷刺分類的神經(jīng)網(wǎng)絡(luò)模型輸出為class(x)∈{0,1}。顯然, 如果分類器模型能夠?qū)斎氲臉颖井a(chǎn)生高置信度的預(yù)測(cè), 那么即使對(duì)測(cè)試樣本添加微小擾動(dòng), 模型也可以做出正確的預(yù)測(cè)。該過程定義為

        這里,η表示添加的噪聲擾動(dòng),x是原始樣本, ?是人工設(shè)定的超參數(shù), 代表添加擾動(dòng)的最大強(qiáng)度。按照最快梯度法, 在每次對(duì)抗擾動(dòng)時(shí), 使用一個(gè)任意小的正數(shù)?來控制添加到原始詞向量上擾動(dòng)的強(qiáng)度, 以免改變?cè)紭颖镜臄?shù)據(jù)分布。在每一步, 通過梯度反向傳播算法, 獲得原始詞向量最差情況的對(duì)抗噪聲η, 從而產(chǎn)生需要的對(duì)抗樣本。對(duì)抗擾動(dòng)的生成過程可以形式化定義如下:

        這里,g是輸入樣本x的反向傳播梯度,L是模型的目標(biāo)損失函數(shù)。

        結(jié)合對(duì)抗樣本的模型損失函數(shù)的計(jì)算過程可以表示如下:

        這里,α是模型的超參數(shù)。上式表明, 使用對(duì)抗樣本的對(duì)抗訓(xùn)練方法等價(jià)于在模型的目標(biāo)損失函數(shù)上增加正則化項(xiàng), 因而對(duì)抗訓(xùn)練能夠提高模型防御對(duì)抗攻擊和抵抗過擬合的能力, 從而提高模型的泛化性能。特別地, 由于諷刺識(shí)別任務(wù)缺少大型的標(biāo)注語料, 所以在數(shù)據(jù)層面上, 可以借助基于對(duì)抗樣本的對(duì)抗訓(xùn)練方法來提升模型的泛化能力, 有效地防止模型出現(xiàn)過擬合。

        圖2 基于對(duì)抗樣本的對(duì)抗學(xué)習(xí)方法Fig.2 Adversarial learning approach based on adversarial examples

        2.3 基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法

        由于單領(lǐng)域的諷刺標(biāo)注數(shù)據(jù)存在明顯的稀疏,所以結(jié)合多領(lǐng)域的諷刺數(shù)據(jù)集有望進(jìn)一步提升模型的性能。雖然不同領(lǐng)域的諷刺數(shù)據(jù)集可能分布差異較大, 但可以通過學(xué)習(xí)領(lǐng)域無關(guān)的諷刺語義特征,增強(qiáng)模型的泛化性能。為此, 本文研究基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法來訓(xùn)練諷刺識(shí)別模型, 在包含較多標(biāo)注數(shù)據(jù)的源領(lǐng)域訓(xùn)練分類器, 對(duì)抗遷移至只有少量標(biāo)注數(shù)據(jù)的目標(biāo)領(lǐng)域進(jìn)行微調(diào)和測(cè)試。由于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)具有一定的分布差異, 所以普通的訓(xùn)練方法很難在目標(biāo)領(lǐng)域上取得較好的性能。然而通過領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法, 有望將模型從源領(lǐng)域數(shù)據(jù)集有效地遷移到目標(biāo)領(lǐng)域數(shù)據(jù)集。

        領(lǐng)域?qū)咕W(wǎng)絡(luò)主要通過抽取在目標(biāo)領(lǐng)域和源領(lǐng)域可遷移的特征表示來降低不同領(lǐng)域數(shù)據(jù)的分布差異。該方法能夠提高深度學(xué)習(xí)模型在只有少量標(biāo)注數(shù)據(jù)的目標(biāo)領(lǐng)域諷刺識(shí)別任務(wù)上的性能。該框架主要分為4個(gè)部分: 數(shù)據(jù)輸入模塊、特征抽取模塊(包含注意力計(jì)算模塊)、諷刺識(shí)別模塊和領(lǐng)域判別模塊, 框架如圖3所示。

        圖3 基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法Fig.3 Adversarial learning approach based on domain transfer

        具體地, 在現(xiàn)有的諷刺識(shí)別模型中引入一個(gè)領(lǐng)域判別器, 并在特征抽取模塊與領(lǐng)域判別器之間添加梯度反轉(zhuǎn)層。梯度反轉(zhuǎn)層在模型的前向計(jì)算和反向傳播過程的數(shù)學(xué)原理可用偽函數(shù)R(x)形式化地表示為

        其中,I是單位矩陣。梯度反轉(zhuǎn)層在模型的前向計(jì)算過程相當(dāng)于恒等變化, 而在模型的誤差反向傳播學(xué)習(xí)過程中改變了由領(lǐng)域判別器回傳的梯度符號(hào)。整個(gè)對(duì)抗學(xué)習(xí)策略相當(dāng)于一個(gè)雙人博弈游戲, 其中一個(gè)玩家是領(lǐng)域判決器Gd, 區(qū)分輸入的數(shù)據(jù)來自源領(lǐng)域數(shù)據(jù)或目標(biāo)領(lǐng)域數(shù)據(jù); 另外一個(gè)玩家是特征抽取器Gf, 用來迷惑領(lǐng)域判別器Gd, 使它無法正確地區(qū)分?jǐn)?shù)據(jù)來源。

        為了抽取領(lǐng)域不變性的特征f, 特征抽取模塊通過最大化領(lǐng)域判別器的損失函數(shù)Ld來學(xué)習(xí)參數(shù)θf。領(lǐng)域判別器通過最小化損失函數(shù)Ld來調(diào)整領(lǐng)域判別器的參數(shù)θd。整個(gè)對(duì)抗學(xué)習(xí)框架的損失函數(shù)還包括最小化目標(biāo)任務(wù)(諷刺識(shí)別)的損失函數(shù)Ly。整個(gè)領(lǐng)域?qū)箤W(xué)習(xí)框架的目標(biāo)代價(jià)函數(shù)如下:

        其中,n=ns+nt,λ是權(quán)衡超參數(shù)。在模型訓(xùn)練收斂后, 參數(shù)θf,θy和θd分別收斂于代價(jià)函數(shù)的一個(gè)鞍點(diǎn), 表示如下:

        為進(jìn)一步提高對(duì)抗方法的性能, 本文研究了同時(shí)引入對(duì)抗樣本和領(lǐng)域遷移的對(duì)抗學(xué)習(xí)框架。在該框架下, 對(duì)抗擾動(dòng)的產(chǎn)生只涉及諷刺判別器的目標(biāo)損失函數(shù)Ly, 與領(lǐng)域判別器的損失函數(shù)無關(guān)。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)設(shè)置

        本文使用3個(gè)不同領(lǐng)域的諷刺識(shí)別實(shí)驗(yàn)數(shù)據(jù)集,均來自在線辯論語料庫(IAC)[26], 分別是Generic數(shù)據(jù)集、Hyperbole 數(shù)據(jù)集以及Rhetorical Questions數(shù)據(jù)集。Hyperbole數(shù)據(jù)集主要包含夸張諷刺文本;Rhetorical Questions數(shù)據(jù)集主要包含反諷文本; Generic數(shù)據(jù)集主要包含普通諷刺文本。3個(gè)數(shù)據(jù)集雖然均為 IAC 諷刺文本, 但是 Hyperbole 和 Rhetirucal Questions數(shù)據(jù)集為夸張和反問的諷刺手法, 與普通諷刺相比, 差異較大。同時(shí), 從表 1 的統(tǒng)計(jì)數(shù)據(jù)可以看出, 3個(gè)數(shù)據(jù)集的文本統(tǒng)計(jì)信息也具有較大的差異。Generic數(shù)據(jù)集比Hyperbole和Rhetorical Questions含更多的有標(biāo)注訓(xùn)練數(shù)據(jù), 因此在基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)框架中, 將Generic數(shù)據(jù)集設(shè)為源領(lǐng)域數(shù)據(jù)集, 而將Hyperbole和Rhetorical Questions數(shù)據(jù)集分別作為目標(biāo)領(lǐng)域數(shù)據(jù)集。

        表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)情況Table 1 Statistics of experimental datasets

        本文基于 3 個(gè)數(shù)據(jù)集構(gòu)造各自的對(duì)抗樣本, 實(shí)現(xiàn)基于對(duì)抗樣本的對(duì)抗學(xué)習(xí)框架。對(duì)于每個(gè)數(shù)據(jù)集, 隨機(jī)抽取20%的標(biāo)注數(shù)據(jù)作為測(cè)試數(shù)據(jù), 剩余數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)。以下實(shí)驗(yàn)數(shù)據(jù)均為 5 次隨機(jī)實(shí)驗(yàn)后的平均性能。

        本文使用卷積神經(jīng)網(wǎng)絡(luò)作為對(duì)抗框架的基模型。卷積神經(jīng)網(wǎng)絡(luò)模型輸入樣本的最大長(zhǎng)度N設(shè)置為300。卷積網(wǎng)絡(luò)模型使用兩種規(guī)格的卷積核,寬度分別為3和5。網(wǎng)絡(luò)的激活函數(shù)使用修正線性單元(ReLU), 訓(xùn)練過程中每個(gè)批次包含64條樣例。預(yù)訓(xùn)練的詞向量維度設(shè)定為300。網(wǎng)絡(luò)中同時(shí)加入dropout層以及L2正則化。模型訓(xùn)練時(shí), 將最小化交叉熵?fù)p失函數(shù)作為模型訓(xùn)練目標(biāo), 梯度下降法作為模型的優(yōu)化方法。選擇ADAM作為優(yōu)化器, 學(xué)習(xí)率為1×10-3。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        為了分析基于對(duì)抗樣本的對(duì)抗訓(xùn)練方法對(duì)模型泛化性能提高的效果以及對(duì)抗擾動(dòng)增強(qiáng)模型性能的有效性, 本研究增加對(duì)原始樣本添加隨機(jī)噪聲擾動(dòng)的被污染樣本參與模型訓(xùn)練的對(duì)比試驗(yàn), 對(duì)比模型如下。

        1)CNN-Attention: 不對(duì)訓(xùn)練樣本做任何修改和數(shù)據(jù)增強(qiáng)操作的注意力卷積神經(jīng)網(wǎng)絡(luò)模型。

        2)CNN-Gaussian: 對(duì)訓(xùn)練樣本添加高斯隨機(jī)噪聲擾動(dòng)的注意力卷積神經(jīng)網(wǎng)絡(luò)模型。

        3)CNN-Adv: 對(duì)訓(xùn)練樣本添加對(duì)抗擾動(dòng), 生成對(duì)抗樣本參與模型訓(xùn)練。

        對(duì)比實(shí)驗(yàn)選用高斯噪聲, 并將?設(shè)置為高斯分布的標(biāo)準(zhǔn)差, 從而控制隨機(jī)擾動(dòng)的強(qiáng)度。因此, 第一組實(shí)驗(yàn)的對(duì)比模型包括普通訓(xùn)練的模型和添加高斯隨機(jī)擾動(dòng)訓(xùn)練的模型, 實(shí)驗(yàn)結(jié)果如表 2 所示。

        從表 2 可以看出, 與普通訓(xùn)練模式下的模型CNN-Attention相比, 基于對(duì)抗樣本的對(duì)抗學(xué)習(xí)模型CNN-Adv的準(zhǔn)確率和F1值在 3 個(gè)不同的數(shù)據(jù)集上均有約3個(gè)百分點(diǎn)的性能提升, 顯示出基于對(duì)抗樣本的對(duì)抗學(xué)習(xí)方法可以有效地提高模型的泛化性能。相反地, 與CNN-Attention相比, CNN-Gausssian在各數(shù)據(jù)集的性能均有所下降, 顯示添加隨機(jī)噪聲反而降低了模型的泛化性能。這說明, 對(duì)抗擾動(dòng)的添加是提高模型泛化性能的關(guān)鍵因素。在模型訓(xùn)練過程中, 添加對(duì)抗擾動(dòng)有助于定向地降低模型對(duì)樣本的數(shù)值敏感度, 增強(qiáng)模型的泛化性能。相反地, 添加隨機(jī)擾動(dòng)并不能起到增強(qiáng)模型泛化性能的作用。

        第二組實(shí)驗(yàn)評(píng)估基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法的性能, 對(duì)比模型如下。

        1)基線模型(CNN-Attention): 單獨(dú)使用源領(lǐng)域數(shù)據(jù)集(Generic)上訓(xùn)練的注意力卷積神經(jīng)網(wǎng)絡(luò)模型。

        2)模型微調(diào)(CNN-Finetune): 在源領(lǐng)域訓(xùn)練完成后, 繼續(xù)使用少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,微調(diào)模型。

        3)基于對(duì)抗遷移的模型(CNN-Adversarial_Transfer, CNN-AT): 在基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)框架下獲得的諷刺識(shí)別模型。

        基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法性能的評(píng)估結(jié)果如表 3 所示??梢钥闯? 如果將源領(lǐng)域數(shù)據(jù)訓(xùn)練的模型直接遷移到CNN-Attention, 由于缺少目標(biāo)領(lǐng)域數(shù)據(jù)的訓(xùn)練過程, 其性能與各自領(lǐng)域單獨(dú)訓(xùn)練的模型相比反而有所下降, 說明目標(biāo)領(lǐng)域和源領(lǐng)域具有較大的數(shù)據(jù)分布差異, 導(dǎo)致模型無法在領(lǐng)域間直接遷移。從表 3 中微調(diào)遷移模型CNN-Finetune和對(duì)抗遷移模型(CNN-AT)的性能比較可以看出, 模型的微調(diào)遷移和對(duì)抗遷移都能在一定程度上降低跨領(lǐng)域數(shù)據(jù)集的分布差異。相比而言, 基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)框架CNN-AT能更有效地增加模型的泛化性能。特別地, 除Hyperbole和Rhetorical Question數(shù)據(jù)集外, 在Generic數(shù)據(jù)集上也可以看到模型性能的提升。這從另一個(gè)角度說明, 對(duì)抗訓(xùn)練能夠幫助模型學(xué)習(xí)到領(lǐng)域無關(guān)的諷刺語義特征。

        為了進(jìn)一步提升目標(biāo)領(lǐng)域諷刺識(shí)別的性能, 本文結(jié)合領(lǐng)域遷移和對(duì)抗樣本的對(duì)抗學(xué)習(xí)方法, 第三組實(shí)驗(yàn)評(píng)估使用該方法后模型的性能。對(duì)比模型包括SVM[27]、Deepmoji[28]以及本文的基于對(duì)抗樣本、基于領(lǐng)域遷移的模型和普通訓(xùn)練模式下的模型。

        表2 基于對(duì)抗樣本的學(xué)習(xí)方法實(shí)驗(yàn)結(jié)果Table 2 Experimental results on the learing approach based on adversarial examples

        表3 基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)框架的實(shí)驗(yàn)結(jié)果Table 3 Experimental results on adversarial learning models based on domain transfer

        表4 結(jié)合對(duì)抗樣本和領(lǐng)域遷移對(duì)抗學(xué)習(xí)框架的實(shí)驗(yàn)結(jié)果Table 4 Experminetal results on the models based on both adversarial examples and domain transfer

        1)SVM(W2V): 利用預(yù)訓(xùn)練好的詞向量構(gòu)建的基于支持向量機(jī)的諷刺識(shí)別模型。

        2)DeepMoji: 利用大規(guī)模外部社交情感數(shù)據(jù)預(yù)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)諷刺識(shí)別模型。

        3)CNN-Attention和RNN-Attention: 不對(duì)訓(xùn)練樣本做任何修改的注意力卷積神經(jīng)網(wǎng)絡(luò)模型和遞歸神經(jīng)網(wǎng)絡(luò)。

        4)CNN-AT-Adv (CNN-Adversarial_Transfer-Adversarial_Examples): 結(jié)合領(lǐng)域遷移和對(duì)抗樣本的兩種對(duì)抗學(xué)習(xí)框架, 共同訓(xùn)練所得的諷刺識(shí)別模型。

        實(shí)驗(yàn)結(jié)果如表 4 所示, 可以看出, 結(jié)合對(duì)抗樣本和對(duì)抗遷移的方法有效地提高了模型的識(shí)別性能, 在3個(gè)諷刺識(shí)別數(shù)據(jù)集上取得目前已知最優(yōu)性能。與現(xiàn)有的兩種公開模型對(duì)比, 本文的模型在3個(gè)諷刺數(shù)據(jù)集上性能均獲得提升。實(shí)驗(yàn)結(jié)果表明,數(shù)據(jù)層面上的基于對(duì)抗樣本的對(duì)抗學(xué)習(xí)方法和模型層面上的基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法都能有效地提高模型的泛化性能, 緩解深度學(xué)習(xí)模型在缺少標(biāo)注數(shù)據(jù)時(shí)的過擬合問題, 從而提高諷刺識(shí)別系統(tǒng)的性能。

        4 結(jié)語

        本文針對(duì)缺少大規(guī)模諷刺文本標(biāo)注數(shù)據(jù)的情況, 提出兩種對(duì)抗學(xué)習(xí)方法, 提升了深度學(xué)習(xí)模型在諷刺識(shí)別上的泛化性能。本文分別研究了基于對(duì)抗樣本的對(duì)抗學(xué)習(xí)方法和基于領(lǐng)域遷移的對(duì)抗學(xué)習(xí)方法以及兩者的結(jié)合。本文實(shí)現(xiàn)的方法在3個(gè)公開的IAC諷刺識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果均取得明顯的性能提高, 取得目前已知的最優(yōu)性能, 顯示了對(duì)抗學(xué)習(xí)框架在諷刺識(shí)別研究中的優(yōu)越性。然而, 對(duì)抗學(xué)習(xí)框架在訓(xùn)練時(shí)仍然存在一些問題, 比如模型訓(xùn)練不穩(wěn)定, 超參數(shù)選擇困難等。今后, 將進(jìn)一步探索對(duì)抗學(xué)習(xí)框架訓(xùn)練時(shí)的不穩(wěn)定問題, 同時(shí)更深入地探索對(duì)抗樣本方法和領(lǐng)域遷移對(duì)抗方法在更多自然語言處理問題上的應(yīng)用。

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        領(lǐng)域·對(duì)峙
        青年生活(2019年23期)2019-09-10 12:55:43
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        亚洲先锋影院一区二区| 亚洲 欧美 国产 制服 动漫| 国产午夜精品一区二区三区嫩草| 国产乱视频| 亚洲一区二区三区99区| 亚洲国产精品国自产拍性色| 男女猛烈xx00免费视频试看| 亚洲av国产av综合av| 无码流畅无码福利午夜| 亚州无吗一区二区三区| 国产国产人免费人成免费视频| 亚洲日本va午夜在线影院| 国内精品久久久久影院蜜芽| 激情五月天色婷婷久久| 欧美日韩亚洲中文字幕二区| 性夜影院爽黄a爽在线看香蕉| 国产日产久久福利精品一区| 风骚人妻一区二区三区| 国产成人精品无码一区二区老年人| 午夜高清福利| 一区二区三区夜夜久久| 人妻熟妇乱又伦精品视频| 东方aⅴ免费观看久久av| 中文字幕av无码一区二区三区电影| 国产精品亚洲综合久久| 777米奇色狠狠俺去啦| 国产喷水福利在线视频| 日韩精品极品视频在线观看蜜桃| 最新中文字幕人妻少妇| 国产综合无码一区二区色蜜蜜| 日本在线观看不卡| 国产自拍一区在线视频| 天天碰免费上传视频| 欧美日韩国产色综合一二三四| 日韩精品少妇专区人妻系列| 免费观看国产短视频的方法| 国产成人精品日本亚洲| 国产日韩AV无码免费一区二区| 在线观看 国产一区二区三区| 西西人体444www大胆无码视频| 色欲AV无码久久精品有码|