亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于預(yù)訓(xùn)練模型的雙通道情感分類方法

2023-08-26 08:37:58石杰

電腦知識與技術(shù) 2023年20期

石杰

關(guān)鍵詞：預(yù)訓(xùn)練模型; 雙通道模型; TCN網(wǎng)絡(luò); BiGRU網(wǎng)絡(luò); 情感分類

中圖分類號：TP18 文獻標(biāo)識碼：A

文章編號：1009-3044（2023）20-0031-05

0 引言

隨著人工智能技術(shù)的不斷發(fā)展，情感分類技術(shù)在現(xiàn)實生活中變得越來越重要，目前已在多個領(lǐng)域得到了廣泛應(yīng)用，例如輿情分析、產(chǎn)品推薦、情感監(jiān)測等。深度學(xué)習(xí)興起以來，基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法已成了自然語言處理任務(wù)的研究熱點。Mikolov等人[1]最先提出了Word2vec 模型，包括 CBOW 詞袋模型和Skip-gram 模型用于當(dāng)前詞與上下文內(nèi)容的預(yù)測。Pennington 等人[2]提出了具有將全局統(tǒng)計信息與局部上下文相結(jié)合特點的 GloVe 模型。Devlin 等人[3] 結(jié)合ELMo 和 GPT 模型提出了 BERT 模型，通過字向量和多頭自注意力機制，解決了現(xiàn)有詞向量模型無法捕獲完整文本語義信息的問題。隨后百度團隊以 BERT 模型為基礎(chǔ)，針對中文文本任務(wù)進行優(yōu)化提出了ERNIE [4]模型，并取得了良好的效果。Bai等人[5]提出了TCN網(wǎng)絡(luò)，并將因果卷積、膨脹卷積和殘差連接應(yīng)用其中，使其得到了廣泛應(yīng)用。GRU網(wǎng)絡(luò)是Tang 等人[6]在繼 LSTM 網(wǎng)絡(luò)之后對RNN做出的又一次優(yōu)化，將LSTM 中的三個門結(jié)構(gòu)進行了簡化，提升了訓(xùn)練效率。Adabelief算法[7]是一種新興的優(yōu)化算法，它結(jié)合了Adam和AMSGrad的優(yōu)點，能夠為模型訓(xùn)練提供高效穩(wěn)定的支持，特別是在處理文本任務(wù)時表現(xiàn)出色。綜上，本文基于詞向量表示、情感特征提取、模型訓(xùn)練優(yōu)化三方面考慮，提出了一種基于預(yù)訓(xùn)練模型的雙通道情感分類方法。

1 相關(guān)理論技術(shù)

1.1 ERNIE模型

ERNIE 模型是為了使模型訓(xùn)練時能夠更好地匹配中文語義語法所做出的改進，在結(jié)構(gòu)上，仍然是采用雙向Transformer進行特征學(xué)習(xí)。和BERT模型的不同之處在于該模型訓(xùn)練所使用的數(shù)據(jù)全部來自中文語料庫，通過大量中文語料的訓(xùn)練使其能夠更好地適用于中文文本處理任務(wù)。另外，ERNIE 模型在掩碼機制方面也做出了改進，它不同于BERT 模型隨機地遮蓋單個漢字，而是利用詞語掩碼和實體掩碼來遮蓋詞語或命名實體，因為漢語的語法結(jié)構(gòu)不同于其他語言，如果只遮蓋某個單獨漢字，極大可能會拆散字詞間的關(guān)系，導(dǎo)致特征提取不準(zhǔn)確，而ERNIE 模型的掩碼機制能很好地預(yù)測完整語義信息。

1.2 TCN網(wǎng)絡(luò)

TCN（Temporal Convolutional Network）網(wǎng)絡(luò)基于卷積神經(jīng)網(wǎng)絡(luò)的時間序列進行建模，一般用于時序數(shù)據(jù)的建模任務(wù)，其主要思想是利用卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)中的特征，通過殘差網(wǎng)絡(luò)進一步優(yōu)化模型的性能。相較于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)，TCN網(wǎng)絡(luò)在處理長序列數(shù)據(jù)時更為高效，而且可以避免梯度消失的問題。TCN網(wǎng)絡(luò)所具有的因果卷積和膨脹卷積，不僅可以用于時間序列預(yù)測，而且在語音識別、自然語言處理、圖像處理等多個領(lǐng)域也得到了廣泛應(yīng)用。TCN網(wǎng)絡(luò)的模型結(jié)構(gòu)如圖1所示。

1.3 GRU網(wǎng)絡(luò)

GRU（Gated Recurrent Unit）網(wǎng)絡(luò)，即門控循環(huán)單元，是傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的變體模型。相比傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)，GRU具有更好的長期記憶能力和更少的參數(shù)量，可以有效避免傳統(tǒng)RNN中遇到的梯度消失和梯度爆炸問題。GRU的結(jié)構(gòu)也比較簡單，由更新門、重置門和候選隱藏狀態(tài)組成。其中，更新門控制了前一時刻的隱藏狀態(tài)有多少信息需要傳遞給當(dāng)前時刻，重置門控制了前一時刻的隱藏狀態(tài)需要被多大程度地忘記，而候選隱藏狀態(tài)則是當(dāng)前時刻的輸入和前一時刻的隱藏狀態(tài)的線性組合。GRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示：

2 基于預(yù)訓(xùn)練模型的雙通道情感分類方法

由于情感特征的提取具有一定的復(fù)雜性，因此基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法目前仍是情感分類任務(wù)中研究最為廣泛的方法之一。黃澤民等人[8]提出在BERT模型的預(yù)訓(xùn)練下，利用BiSRU網(wǎng)絡(luò)和注意力機制進行情感特征提取。胡玉琦等人[9]針對文本評論數(shù)據(jù)利用BiGRU-CNN模型和注意力機制進行情感分類任務(wù)。蘇天等人[10]提出利用BERT模型結(jié)合BiGRU網(wǎng)絡(luò)對水利新聞數(shù)據(jù)進行情感分析研究。本文基于Adabelief 算法，并結(jié)合ERNIE 預(yù)訓(xùn)練語言模型和TCN、Att-BiGRU雙通道網(wǎng)絡(luò)提出了一種基于預(yù)訓(xùn)練模型的雙通道情感分類方法。其結(jié)構(gòu)如圖3所示：

2.1 預(yù)訓(xùn)練層

原始文本數(shù)據(jù)經(jīng)過預(yù)處理后以詞向量的形式輸入預(yù)訓(xùn)練層中，經(jīng)過多層的雙向Transformer 進行訓(xùn)練后形成最終的文本特征。該模型中預(yù)訓(xùn)練層使用ERNIE模型，由于ERNIE模型基于雙向結(jié)構(gòu)的Trans?former進行訓(xùn)練，且本身具有多頭注意力機制，因此能夠很好地增強文本的情感語義特征表示，其計算方式如下所示：

2.2 雙通道層

在模型的特征提取部分，分別使用TCN網(wǎng)絡(luò)和Att-BiGRU網(wǎng)絡(luò)進行數(shù)據(jù)特征的訓(xùn)練提取。由于兩種網(wǎng)絡(luò)模型在文本特征的處理上有著各自不同的優(yōu)勢，利用雙通道模型進行文本信息提取，再對兩者進行特征融合，從而獲取到更豐富的情感特征信息。

1） TCN網(wǎng)絡(luò)

TCN網(wǎng)絡(luò)所具有的因果卷積和膨脹卷積，能夠很好地對時序數(shù)據(jù)進行處理。因果卷積具有嚴(yán)謹(jǐn)?shù)囊蚬?，它只能利用?dāng)前時刻之前的時間步信息來進行預(yù)測，而不能利用之后的時間步信息進行預(yù)測，因此，可以有效避免未來因素所造成的影響。將預(yù)訓(xùn)練后得到的特征輸入TCN網(wǎng)絡(luò)中，從右至左進行計算來提取特征，其公式如式（13）所示：

3 實驗與分析

3.1 實驗環(huán)境及參數(shù)設(shè)置

實驗所使用的操作系統(tǒng)為Windows10，內(nèi)存為32GB，CPU 為英特爾的E5-2678v3，GPU 為NVIDIARTX3080。模型所用的深度學(xué)習(xí)框架為PyTorch，在Pycharm上使用Python3.8完成編程和訓(xùn)練。

實驗參數(shù)：ERNIE預(yù)訓(xùn)練模型保持原有的默認(rèn)參數(shù)不變；TCN網(wǎng)絡(luò)的卷積層數(shù)為4，卷積核大小為3，膨脹因子為2，詞向量維度為768。另外，學(xué)習(xí)率為1e-5，損失率為0.25，BiGRU的隱藏層為256，使用ReLU 作為激活函數(shù)，Adabelief 算法作為模型訓(xùn)練時的優(yōu)化器。

3.2 數(shù)據(jù)集及評價指標(biāo)

1）實驗數(shù)據(jù)集

本模型訓(xùn)練所用的數(shù)據(jù)集為中文情感分析語料庫提供的新浪微博評論數(shù)據(jù)集和平板商品評論數(shù)據(jù)集，所有數(shù)據(jù)均按積極和消極兩類情感進行了標(biāo)注，并按照8：2劃分訓(xùn)練集和測試集。數(shù)據(jù)集條目統(tǒng)計及示例如表1、表2所示。

其中，TP 表示將正樣本預(yù)測為正樣本的數(shù)量；FP表示將負(fù)樣本預(yù)測為正樣本的數(shù)量；FN 表示將正樣本預(yù)測為負(fù)樣本的數(shù)量。

3.3 結(jié)果分析與對比

1）評價指標(biāo)對比

為證明該雙通道模型在情感分類任務(wù)中的有效性，該實驗從精確率、召回率和F1值方面，對該模型進行消融實驗對比分析。實驗結(jié)果如圖4、圖5所示：

通過圖4、圖5可知，在新浪微博評論數(shù)據(jù)集上，TCN+Att-BiGRU 模型相比單一的TCN 和Att-BiGRU 模型，F(xiàn)1值分別提升了2.05%和1.98%，在平板商品評論數(shù)據(jù)集上，則提升了2.4%和2.3%，這是由于雙通道模型對各自提取的特征進行融合后，所提取的情感特征更加豐富；在新浪微博評論數(shù)據(jù)集上，RENIETCN+Att-BiGRU 模型相比于TCN+Att-BiGRU 模型，F(xiàn)1值提升了3.24%，在平板商品評論數(shù)據(jù)集上，則提升了3.51%，這說明使用ERNIE模型進行預(yù)訓(xùn)練后，使得詞向量的情感特征表示更加充分，模型性能有了很大提升；本文模型相比于RENIE-TCN+Att-BiGRU 模型，在兩個數(shù)據(jù)集上，其F1值則分別提升了0.32% 和0.26%，這主要是由于該模型在訓(xùn)練過程中引入了Adabelief算法，在加速收斂的同時，也使模型的訓(xùn)練更加穩(wěn)定，因此其性能指標(biāo)也有所上升。

2）優(yōu)化算法收斂性對比

為證明基于Adabelief算法的雙通道模型在情感分類任務(wù)中的有效性，分別將Adam算法和Adabelief 算法的損失率情況進行了對比。對比結(jié)果如圖6、圖7 所示：

由圖6和圖7可以看出，在新浪微博評論數(shù)據(jù)集上，基于Adabelief算法的雙通道模型在訓(xùn)練之初，其收斂速度就要明顯優(yōu)于Adam算法，雖然在訓(xùn)練到2000步時發(fā)生了波動，但在3 000步左右時又很快恢復(fù)了正常收斂，并保持穩(wěn)定狀態(tài)，損失率最終收斂到0.22。在平板商品評論數(shù)據(jù)集上，基于Adabelief算法的雙通道模型仍然在訓(xùn)練開始時，其收斂速度仍然優(yōu)于Adam算法，雖然在訓(xùn)練到1 000步左右時發(fā)生了波動，但在3 000步之后又開始正常收斂，并逐漸超越Adam算法，最終損失率保持到0.18。整體可知，基于Adabelief算法的雙通道模型在情感分類任務(wù)上，其收斂速度更快，具有較強的泛化性，整體表現(xiàn)性能要優(yōu)于Adam算法。

4 結(jié)束語

針對中文文本情感分類任務(wù)，本文提出了一種基于預(yù)訓(xùn)練模型的雙通道情感分類方法。通過將處理后的文本數(shù)據(jù)輸入ERNIE 模型中進行預(yù)訓(xùn)練，然后將預(yù)訓(xùn)練后的特征向量分別輸入TCN 網(wǎng)絡(luò)和Att-BiGRU網(wǎng)絡(luò)中進行特征提取，最后將雙通道模型獲取的特征進行融合拼接后經(jīng)由Softmax計算輸出。同時在訓(xùn)練過程中，使用Adabelief算法進行模型優(yōu)化。經(jīng)實驗證明，該模型在新浪微博評論數(shù)據(jù)集和平板商品評論數(shù)據(jù)集上各方面表現(xiàn)性能均優(yōu)于對比模型。下一步，將對更加復(fù)雜的多模態(tài)情感分類任務(wù)展開研究，進一步提升情感分類應(yīng)用范圍。

電腦知識與技術(shù)2023年20期

電腦知識與技術(shù)的其它文章: 基于改進ResNeXt的黑色素瘤識別算法; 基于多模態(tài)融合的事件分類和分撥聯(lián)合模型; 基于泛癌數(shù)據(jù)的公共驅(qū)動通路識別算法; 一種優(yōu)化后的混沌置亂圖像加密算法; 基于圖計算與知識匹配的事件分撥模型; 基于改進的DeepLabV3+肺實質(zhì)分割網(wǎng)絡(luò)