亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的不完全數(shù)據(jù)情感分類

        2021-01-21 03:23:12陳黎飛
        計(jì)算機(jī)應(yīng)用 2021年1期
        關(guān)鍵詞:編碼器編碼分類

        羅 俊,陳黎飛

        (1.福建師范大學(xué)數(shù)學(xué)與信息學(xué)院,福州 350117;2.數(shù)字福建環(huán)境監(jiān)測(cè)物聯(lián)網(wǎng)實(shí)驗(yàn)室(福建師范大學(xué)),福州 350117)

        0 引言

        人工智能的第三次浪潮正改變著人們的生活方式,給人們的生活和學(xué)習(xí)帶來極大便利的同時(shí),也使得互聯(lián)網(wǎng)用戶的信息呈爆發(fā)式增長(zhǎng)。其中用戶輿論的情感信息備受企業(yè)、政府重視,比如微博上對(duì)熱點(diǎn)事件的評(píng)論,互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù)(Internet Movie Database,IMDb)對(duì)電影的評(píng)價(jià)等。對(duì)用戶數(shù)據(jù)進(jìn)行情感分類挖掘?qū)ζ髽I(yè)和政府的發(fā)展和運(yùn)營(yíng)具有重要的應(yīng)用價(jià)值。

        早期的自然語言處理任務(wù)中詞的特征表示方法主要有詞袋(Bag-of-Words)模型[1]和獨(dú)熱編碼(One-Hot Encoding)技術(shù),其目的旨在將輸入的句子轉(zhuǎn)化為稀疏向量。顯然,這種特征表示方法沒有考慮單詞之間的相關(guān)性,且其高維性會(huì)耗費(fèi)大量的計(jì)算機(jī)內(nèi)存資源[2]。為了避免高維性問題,以Word2Vec[3]為代表的分布式向量表示(Distributed Representation)[4]技術(shù)得以發(fā)展,通過將輸入的句子表示為詞嵌入(Word Embedding)形式,就能利用向量之間的點(diǎn)積衡量句子間語義的相似性程度。

        傳統(tǒng)的機(jī)器學(xué)習(xí)算法如支持向量機(jī)(Support Vector Machine,SVM)[5]、決策樹(Decision Tree)[5]常用于情感分類挖掘任務(wù),但這些算法僅適用于樣本量少的情況并且容易產(chǎn)生過擬合的問題。隨著神經(jīng)網(wǎng)絡(luò)[6]的發(fā)展,情感分類任務(wù)中相繼出現(xiàn)平移不變特點(diǎn)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[7]、節(jié)點(diǎn)按鏈?zhǔn)竭B接的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[8]和有選擇性記憶信息的長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)[9]等模型。還有一些相關(guān)變體,比如結(jié)合條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)的雙向LSTM模型[10]、CNN與LSTM結(jié)合的多通道策略神經(jīng)網(wǎng)絡(luò)模型[11],以及添加注意力機(jī)制的雙向LSTM 模型[12]等,這些模型增強(qiáng)了情感分類任務(wù)中語義信息的相關(guān)性,有利于情感極性的判斷。

        然而,現(xiàn)有的方法大多未考慮不完全數(shù)據(jù)對(duì)情感分類性能的影響。不完全數(shù)據(jù)常產(chǎn)生于人為的書寫表達(dá)錯(cuò)誤等[13],以微博為例,人們希望用簡(jiǎn)短的句子來傳達(dá)信息,并不計(jì)較句子中的語法錯(cuò)誤或單詞拼寫錯(cuò)誤等,而這些錯(cuò)誤信息卻容易導(dǎo)致機(jī)器無法識(shí)別其中的重要信息,進(jìn)而影響情感分類的效果。針對(duì)文本中出現(xiàn)的不完全數(shù)據(jù)問題,文獻(xiàn)[14]提出利用棧式降噪自編碼器(Stacked Denoising AutoEncoder,SDAE)對(duì)加噪的輸入數(shù)據(jù)進(jìn)行壓縮-解壓縮訓(xùn)練來重新構(gòu)建“干凈”完整的數(shù)據(jù),在含噪數(shù)據(jù)的情感分類任務(wù)中取得了優(yōu)于隨機(jī)森林(Random Forest)等傳統(tǒng)機(jī)器學(xué)習(xí)模型的性能。也有研究提出將降噪自編碼器網(wǎng)絡(luò)與詞向量結(jié)合[15],用于提高分類的準(zhǔn)確率;本文也將降噪自編碼器運(yùn)用于提出的模型中以達(dá)到對(duì)不完全數(shù)據(jù)去噪的效果。

        近年來,情感分類模型的性能得以有效提高得益于預(yù)訓(xùn)練模型的發(fā)展[16]。預(yù)訓(xùn)練模型通過在大規(guī)模語料庫(kù)上進(jìn)行無監(jiān)督訓(xùn)練來提取下游任務(wù)所需的共有信息,然后對(duì)下游任務(wù)做基于梯度優(yōu)化的有監(jiān)督訓(xùn)練。主流的預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representations from Transformers)[17]是一種能夠進(jìn)行并行計(jì)算的注意力機(jī)制模型,在自然語言處理的多個(gè)數(shù)據(jù)集上都取得了最佳的結(jié)果。由于這些數(shù)據(jù)集都是預(yù)先花費(fèi)大量時(shí)間處理好的“干凈”完整的數(shù)據(jù)集,所以在處理不完整數(shù)據(jù)集的情感分類時(shí)的性能有所下降。在現(xiàn)實(shí)生活中不完全數(shù)據(jù)隨處可見,而人為處理大量噪聲數(shù)據(jù)費(fèi)時(shí)費(fèi)力,有必要對(duì)模型加以改進(jìn)以提高其對(duì)不完全數(shù)據(jù)的分類性能。

        基于上述分析,本文提出稱為棧式降噪BERT(Stacked Denoising AutoEncoder-BERT,SDAE-BERT)的新模型。新模型通過棧式降噪自編碼器對(duì)經(jīng)詞嵌入后的原始數(shù)據(jù)進(jìn)行去噪訓(xùn)練,為不完整的原始數(shù)據(jù)重構(gòu)生成相對(duì)完整的數(shù)據(jù),接著將其輸入到預(yù)訓(xùn)練的BERT 模型中進(jìn)一步改進(jìn)特征的表示,最終完成不完全數(shù)據(jù)的情感分類任務(wù)。

        1 相關(guān)基礎(chǔ)

        1.1 棧式降噪自編碼器

        自編碼器(AutoEncoder,AE)是主成分分析(Principal Component Analysis,PCA)在神經(jīng)網(wǎng)絡(luò)中的一種拓展,二者都是通過數(shù)據(jù)降維來提取重要特征,與PCA 不同的是,自編碼器具有非線性變換特點(diǎn),能夠有選擇性地提取信息,對(duì)于有噪聲的數(shù)據(jù)可以使用降噪自編碼器(Denoising AutoEncoder,DAE)進(jìn)行去噪處理。如果高維數(shù)據(jù)直接從高維度降至低維度只進(jìn)行一次非線性變換,可能無法提取某些重要特征,于是可以采用文獻(xiàn)[14]提出的棧式降噪自編碼器來處理高維度噪聲數(shù)據(jù)問題。如圖1 所示,其中帶有“×”的數(shù)據(jù)表示噪聲數(shù)據(jù),對(duì)輸入的數(shù)據(jù)每次編碼(解碼)都做一次非線性變換,相較于直接從高維到低維能提取和重組更深層的關(guān)鍵特征。

        圖1 棧式降噪自編碼器Fig.1 Stacked denoising autoencoder

        1.2 BERT模型

        文獻(xiàn)[18]提出利用Word2Vec構(gòu)建神經(jīng)網(wǎng)絡(luò)語言模型,使得深度學(xué)習(xí)在自然語言處理領(lǐng)域變得可行。然而靜態(tài)的Word2Vec無法解決一詞多義問題[19],動(dòng)態(tài)的詞向量模型便應(yīng)運(yùn)而生,如循環(huán)神經(jīng)網(wǎng)絡(luò)[8]、長(zhǎng)短期記憶網(wǎng)絡(luò)[9]等。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的鏈?zhǔn)浇Y(jié)構(gòu)使得其擅長(zhǎng)處理時(shí)間序列問題。但實(shí)驗(yàn)證明,RNN 長(zhǎng)距離記憶能力差,不適合處理長(zhǎng)文本的分類問題,同時(shí)還存在誤差反向傳播時(shí)的梯度消失和梯度爆炸等問題。為了處理RNN 的短記憶問題,文獻(xiàn)[9]提出利用門控方法來解決記憶丟失問題的LSTM 模型。為了提取更深層次的特征表示,文獻(xiàn)[17]提出具有雙向Transformer 的預(yù)訓(xùn)練模型BERT,并且該模型預(yù)先編碼了大量的語言信息。本文提出的模型將圍繞預(yù)訓(xùn)練模型BERT 做進(jìn)一步改進(jìn)以處理不完全數(shù)據(jù)的情感分類問題。

        1.2.1 輸入表示

        BERT 模型的輸入特征表示由標(biāo)記詞嵌入(Token Embedding)、片段詞嵌入(Segment Embedding)、位置詞嵌入(Position Embedding)三部分組成,最終輸入模型的向量表示由它們的對(duì)應(yīng)位置相加,其中:Token Embedding 是固定維度大小的詞向量表示,它的第一個(gè)位置[CLS]編碼全句的信息可用于分類;Segment Embedding 用0 和1 編碼來區(qū)分一段話中不同的兩個(gè)句子;Position Embedding 編碼相應(yīng)詞的位置信息。

        1.2.2 Transformer編碼層

        該層是對(duì)輸入的詞向量進(jìn)行特征提取,使用的是Transformer[20]的編碼器端,如圖2 所示,其核心部分是多頭自注意力模塊。注意力機(jī)制能計(jì)算每一詞與句子中的其他詞的相關(guān)性程度,計(jì)算過程中每個(gè)詞不依賴于前面詞的輸出,因此注意力機(jī)制模型能并行運(yùn)算?!岸囝^”允許模型在不同的表示子空間學(xué)到相關(guān)的信息,可以防止過擬合。對(duì)注意力模塊的輸出進(jìn)行殘差連接可避免當(dāng)前網(wǎng)絡(luò)層學(xué)習(xí)的較差,接著進(jìn)行歸一化來提高算法的收斂速度。最后,將多頭注意力模塊的輸出經(jīng)過全連接后再進(jìn)行殘差連接和歸一化。BERT 模型由12 個(gè)相同的Transformer 編碼層串接而成,以增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)的深度。

        圖2 Transformer編碼層Fig.2 Transformer coding layer

        1.2.3 掩蓋語言模型

        常見的語言模型如ELMo(Embeddings from Language Models)[21]是基于馬爾可夫假設(shè)對(duì)單詞組成的句子做概率乘積,選擇概率最大的句子作為模型的輸出。而BERT 模型是在兩個(gè)無監(jiān)督預(yù)測(cè)任務(wù)上對(duì)模型訓(xùn)練,分別是掩蓋語言模型(Masked Language Model,MLM)和下一句預(yù)測(cè)(Next Sentence Prediction,NSP)。MLM 類似于英語中的完形填空任務(wù),給出詞的上下文來預(yù)測(cè)被遮擋的單詞;NSP 是一個(gè)簡(jiǎn)單的二分類訓(xùn)練任務(wù),用于判斷前后兩個(gè)句子是否連續(xù)。

        掩蓋語言模型用特殊標(biāo)記隨機(jī)替換掉句子中15%的單詞,被替換的15%單詞中有80%的幾率用[MASK]代替,10%的幾率用隨機(jī)的單詞替換,10%的幾率保持不變。從理論上講掩蓋模型引入了噪聲,模型對(duì)掩蓋的單詞重新編碼再來預(yù)測(cè)被掩蓋的單詞,因此,掩蓋語言模型本質(zhì)上也是一種降噪的自編碼語言模型[22]。但是這種自編碼語言模型僅僅用于預(yù)訓(xùn)練階段,而本文所使用的棧式降噪自編碼器用于下游任務(wù)中特定的數(shù)據(jù)集以實(shí)現(xiàn)對(duì)不完全數(shù)據(jù)去噪。

        2 SDAE-BERT模型

        不完全數(shù)據(jù)是相對(duì)于完全數(shù)據(jù)而言的,也稱不完整數(shù)據(jù)。不完整數(shù)據(jù)的句子中通常有單詞的拼寫、句子的語法等錯(cuò)誤,從而導(dǎo)致句子的語義或語法出現(xiàn)結(jié)構(gòu)混亂。表1 列舉了第3.1 節(jié)所用數(shù)據(jù)集中的常見錯(cuò)誤類型,其中括號(hào)內(nèi)為正確表示。在大多數(shù)非正式場(chǎng)合,人們?yōu)榱朔奖憬涣鳎鲆暰渥咏Y(jié)構(gòu)的完整性,導(dǎo)致機(jī)器無法和人一樣識(shí)別某些重要信息,從而影響情感極性的判斷。

        表1 兩種數(shù)據(jù)集常見錯(cuò)誤類型Tab.1 Common error types of two datasets

        2.1 棧式降噪BERT模型(SDAE-BERT)情感分類

        在大語料庫(kù)中訓(xùn)練的模型BERT,可以加入目標(biāo)數(shù)據(jù)微調(diào)后進(jìn)行情感分類。在此之前,還可以對(duì)原始數(shù)據(jù)的輸入特征向量表示進(jìn)行棧式降噪自編碼訓(xùn)練得到目標(biāo)數(shù)據(jù)的特征表示,接著再用預(yù)訓(xùn)練模型BERT 對(duì)目標(biāo)數(shù)據(jù)進(jìn)行情感分類。SDAE-BERT 的情感分類過程如圖3 所示。其中原始數(shù)據(jù)表示不完全數(shù)據(jù),目標(biāo)數(shù)據(jù)表示經(jīng)棧式降噪自編碼器訓(xùn)練后的相對(duì)“干凈”完整的數(shù)據(jù)。

        圖3 SDAE-BERT的情感分類流程Fig.3 Sentiment classification flowchart of SADE-BERT

        與BERT 模型后串接降噪BERT 的不完全數(shù)據(jù)情感分類[23]不同的是,本文提出棧式降噪BERT(SDAE-BERT)模型,用棧式降噪自編碼器直接對(duì)經(jīng)詞嵌入后的原始數(shù)據(jù)訓(xùn)練,再使用預(yù)訓(xùn)練模型BERT 進(jìn)行情感分類。模型的結(jié)構(gòu)如圖4 所示,由4 層結(jié)構(gòu)組成:輸入層、棧式降噪自編碼器(SDAE)層、BERT 層、分類層。在2.2 節(jié)將介紹SDAE-BERT 模型的4 個(gè)層次。

        圖4 SDAE-BERT模型結(jié)構(gòu)Fig.4 SDAE-BERT model structure

        2.2 SDAE-BERT模型結(jié)構(gòu)

        2.2.1 輸入層

        將原始的句子轉(zhuǎn)化為大小為(Nbs,128,768)的詞嵌入表示,其中:128 為句子的最大長(zhǎng)度,768 為隱藏層單元個(gè)數(shù),Nbs為批量處理數(shù)據(jù)的大小。

        2.2.2 棧式降噪自編碼器層

        棧式降噪自編碼器層由3 個(gè)分別含有兩個(gè)隱藏層的降噪自編碼器堆疊而成,編碼和解碼過程如式(1)、(2)。

        編碼過程:

        解碼過程:

        其中:X為不完全數(shù)據(jù)經(jīng)過輸入層后的向量表示;E0、E1、E2,D2、D1為編碼,解碼過程中的中間變量;W、b,W′、b′為編碼,解碼過程中的權(quán)重和偏置。例如,W01表示第一個(gè)編碼器的第一個(gè)隱藏層的權(quán)重,b01為對(duì)應(yīng)的偏置,為最后一個(gè)解碼器的第一個(gè)隱藏層的權(quán)重為對(duì)應(yīng)的偏置,依此類推;σR為修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù),σT為雙曲正切(Tanh)激活函數(shù)。

        把同樣的數(shù)據(jù)(即不完全數(shù)據(jù))經(jīng)眾包平臺(tái)的糾正處理后也即將不完全數(shù)據(jù)轉(zhuǎn)化為相對(duì)“干凈”完整的數(shù)據(jù),糾正后的數(shù)據(jù)經(jīng)過輸入層得到的X0作為棧式自編碼器的訓(xùn)練目標(biāo),將SDAE 層的輸出D0與完整數(shù)據(jù)X0用均方誤差(Mean Squared Error,MSE)函數(shù)計(jì)算誤差并對(duì)誤差反向傳遞,使訓(xùn)練數(shù)據(jù)D0接近于干凈完整的數(shù)據(jù)X0,誤差計(jì)算如式(3),其中Nbs為批量大小,表示每隔一個(gè)批量計(jì)算一次誤差大小,一個(gè)批量的誤差為整個(gè)批量的平均誤差。用Adam 優(yōu)化器更新網(wǎng)絡(luò)參數(shù)直至損失在預(yù)期范圍內(nèi),保存此時(shí)的網(wǎng)絡(luò)參數(shù)用于下一層的BERT模塊。

        2.2.3 BERT層

        將上一層棧式降噪自編碼器的輸出D0作為BERT 的輸入,用預(yù)訓(xùn)練模型BERT 對(duì)輸入的特征向量微調(diào)。微調(diào)過程中使用二分類交叉熵?fù)p失函數(shù),計(jì)算公式如式(4)所示。BERT 模型由12 個(gè)Transformer 串接而成,取最后一層的第一個(gè)特殊標(biāo)記[CLS]用于情感分類。

        其中:y表示真實(shí)的標(biāo)簽值表示經(jīng)過BERT 層后模型預(yù)測(cè)為正類的概率值。

        2.2.4 分類層

        把第一個(gè)特殊標(biāo)記[CLS]經(jīng)前饋神經(jīng)網(wǎng)絡(luò)變換后用softmax 函數(shù)將線性變換的結(jié)果O(i)轉(zhuǎn)化為概率分布P(i),其中i∈1,2,分別表示正負(fù)類情感極性,計(jì)算公式如式(5),最后用arg max進(jìn)行分類,取概率值大的對(duì)應(yīng)標(biāo)簽Y作為分類的結(jié)果,計(jì)算公式如式(6):

        3 實(shí)驗(yàn)結(jié)果及分析

        為檢驗(yàn)提出的模型與對(duì)比算法在情感分類中的性能,本文選取自然語言處理領(lǐng)域的兩個(gè)主流數(shù)據(jù)集Sentiment140 和IMDB 進(jìn)行實(shí)驗(yàn)。所提模型是在預(yù)訓(xùn)練模型BERT 上進(jìn)一步改進(jìn),預(yù)訓(xùn)練的BERT 已經(jīng)編碼了大量語言信息,所以在少量樣本上訓(xùn)練即可得到理想的效果。

        3.1 數(shù)據(jù)集

        表2 為實(shí)驗(yàn)的數(shù)據(jù)統(tǒng)計(jì)情況,Sentiment140 是斯坦福大學(xué)收集用戶情感信息的數(shù)據(jù)集,IMDB是有明顯情感傾向性的二分類影評(píng)數(shù)據(jù)集。從Sentiment140 和IMDB 中選取有明顯結(jié)構(gòu)不完整性的句子分別6 000 個(gè)和3 600 個(gè),其中訓(xùn)練集占80%,測(cè)試集占20%,取訓(xùn)練集中10%作為驗(yàn)證集。同時(shí)復(fù)制一份同樣的數(shù)據(jù),借助眾包平臺(tái)糾正這些不完整的數(shù)據(jù),以獲得完整數(shù)據(jù)作為棧式降噪自編碼器的訓(xùn)練目標(biāo),使得不完整數(shù)據(jù)經(jīng)過堆棧自編碼器訓(xùn)練后得到相對(duì)完整數(shù)據(jù)。

        表2 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)Tab.2 Statistics of experimental data

        針對(duì)不同數(shù)據(jù)含有的不同錯(cuò)誤類型,表3 中為對(duì)應(yīng)的樣本數(shù)量統(tǒng)計(jì),由表可知不完全數(shù)據(jù)中的錯(cuò)誤類型主要是拼寫、語法、縮寫、發(fā)音、擬聲,因此有必要對(duì)不完全數(shù)據(jù)進(jìn)行去噪處理,來提高不完全數(shù)據(jù)的情感分類準(zhǔn)確率。

        表3 不完全數(shù)據(jù)的錯(cuò)誤類型統(tǒng)計(jì)Tab.3 Statistics of incomplete data error types

        3.2 評(píng)價(jià)指標(biāo)

        本文分類器的主要評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall),實(shí)驗(yàn)采用準(zhǔn)確率和調(diào)和平均值F1(F1-Score)值作為分類器的評(píng)價(jià)指標(biāo),由于實(shí)驗(yàn)所選取的數(shù)據(jù)均為有明顯不完全數(shù)據(jù)特征的句子,因此采用宏平均(Macro-average)即macroF1 值代替調(diào)和平均值,以防止因數(shù)據(jù)標(biāo)簽分布不平衡對(duì)實(shí)驗(yàn)結(jié)果的影響,準(zhǔn)確率的計(jì)算公式如式(7),macroF1值的推導(dǎo)如式(8)~(11):

        其中:Acc為準(zhǔn)確率;Pre為精確率;Rec為召回率;macro_F1 為宏平均值;TP(True Positive)表示正類情感標(biāo)簽被模型預(yù)測(cè)為正類的樣本數(shù)量;FP(False Positive)表示負(fù)類情感標(biāo)簽被模型預(yù)測(cè)為負(fù)類的樣本數(shù)量;FN(False Negative)表示正類情感標(biāo)簽被模型預(yù)測(cè)為負(fù)類的樣本數(shù)量;i表示第i個(gè)情感標(biāo)簽(i取1、2)。

        3.3 超參數(shù)設(shè)置

        棧式降噪自編碼器層 輸入句子的最大長(zhǎng)度為128,輸入的隱層節(jié)點(diǎn)數(shù)為768,在編碼器中隱層節(jié)點(diǎn)數(shù)分別為384、128、32,在解碼器的隱層節(jié)點(diǎn)個(gè)數(shù)分別為32,128,384,輸出的隱層節(jié)點(diǎn)數(shù)為768,訓(xùn)練的epoch 值設(shè)為50,使用均方誤差函數(shù)計(jì)算損失、Adam優(yōu)化器更新網(wǎng)絡(luò)參數(shù),學(xué)習(xí)率為2E -3。

        BERT 層 使用預(yù)訓(xùn)練好的BERT-base 模型,模型由12個(gè)Transformer 模塊串接而成,12 個(gè)注意力頭,768 個(gè)隱層節(jié)點(diǎn)數(shù),輸入句子的最大長(zhǎng)度為128,模型的總參數(shù)大小為110 MB。在谷歌Colab 實(shí)驗(yàn)平臺(tái)的GPU 上對(duì)棧式降噪自編碼器的輸出進(jìn)行微調(diào),訓(xùn)練epoch 值設(shè)為10,使用Adam 優(yōu)化器更新網(wǎng)絡(luò)參數(shù),學(xué)習(xí)率為2E -5,批大小設(shè)為8。權(quán)重衰減系數(shù)設(shè)為0.001 以調(diào)節(jié)模型復(fù)雜度對(duì)損失函數(shù)的影響,為防止過擬合,dropout值設(shè)為0.1。

        3.4 實(shí)驗(yàn)結(jié)果對(duì)比

        為了避免由于實(shí)驗(yàn)過程中epoch 值的選定對(duì)實(shí)驗(yàn)結(jié)果的影響,對(duì)SDAE-BERT 模型在兩個(gè)不完全數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在模型的批大小、學(xué)習(xí)率、樣本數(shù)量相同的情況下,改變epoch值,記錄不同epoch 值下的分類準(zhǔn)確率和F1 值。實(shí)驗(yàn)結(jié)果如圖5 所示,X軸為epoch 值的大小,Y軸為分類的性能百分比(Percentage)。不同線段類型分別代表準(zhǔn)確率和F1。實(shí)驗(yàn)結(jié)果表明,對(duì)于Sentiment140 在epoch 值為10 時(shí),分類的準(zhǔn)確率和F1 值達(dá)到最高分別為86.32%、85.55%,對(duì)于IMDB 在epoch 值為16 時(shí),分類的分類的準(zhǔn)確率和F1 值達(dá)到最高分別為84.86%、84.13%。隨著迭代次數(shù)的增加,模型逐漸擬合并且趨于平穩(wěn)。綜合考慮分類性能和訓(xùn)練時(shí)間復(fù)雜度,選取epoch值為10進(jìn)行實(shí)驗(yàn)。

        圖5 不同epoch值的SDAE-BERT模型結(jié)果Fig.5 SDAE-BERT model results with different epoch values

        表4 為不同模型在兩個(gè)不完整數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。其中,SVM 是使用徑向基(Radial Basis Function,RBF)高斯核函數(shù)的支持向量機(jī);LSTM是對(duì)文獻(xiàn)[6]的復(fù)現(xiàn),在一定程度上能解決RNN 的記憶衰退問題。BiLSTM-ATT 是引入注意力機(jī)制的雙向LSTM 模型,其實(shí)驗(yàn)結(jié)果是來自對(duì)文獻(xiàn)[8]的復(fù)現(xiàn)。BERT 是在兩個(gè)數(shù)據(jù)集下微調(diào)的結(jié)果,SDAE-BERT 為本文提出的模型。

        表4 不同算法在兩個(gè)不完整數(shù)據(jù)集上的結(jié)果Tab.4 Results of different algorithms on two incomplete datasets

        表5 為不同模型在兩個(gè)完整數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,用來與不完整數(shù)據(jù)的實(shí)驗(yàn)結(jié)果做對(duì)比,其所有參數(shù)設(shè)置與不完整數(shù)據(jù)集上的保持一致。

        表5 不同算法在兩個(gè)完整數(shù)據(jù)集上的結(jié)果Tab.5 Results of different algorithms on two complete datasets

        實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練數(shù)據(jù)較小的情況下。預(yù)訓(xùn)練模型BERT在不完整數(shù)據(jù)和完整數(shù)據(jù)上的F1值和分類準(zhǔn)確率均高于支持向量機(jī)、LSTM 和有注意的LSTM 模型;對(duì)于不完整數(shù)據(jù),LSTM 加入注意力機(jī)制比不加注意力機(jī)制的F1 值提高4%~10%,而對(duì)于完整數(shù)據(jù)則無明顯效果,猜測(cè)注意力機(jī)制可能對(duì)不完整數(shù)據(jù)更有效,注意力機(jī)制能根據(jù)上下文語境預(yù)測(cè)當(dāng)前最適合的單詞;由表4 和表5 可知,在不完整數(shù)據(jù)集下的BERT 的分類效果比完整數(shù)據(jù)集下的BERT 低6%~7%,因此有必要對(duì)系統(tǒng)做進(jìn)一步改進(jìn)使其對(duì)不完整數(shù)據(jù)有同樣的分類效果。本文提出的模型SDAE-BERT 在不完整數(shù)據(jù)上的F1 值和分類正確率均高于BERT 及其他模型,與BERT 模型相比在F1 值和正確率上分別提高約6%和5%(向上取整),從而驗(yàn)證SDAE-BERT 能有效地處理噪聲問題。表5 完整數(shù)據(jù)集上的分類效果相比表4 的不完整數(shù)據(jù)都有一定提高,表明完整數(shù)據(jù)更有利于情感分類。表5中SDAE-BERT 與BERT 模型的實(shí)驗(yàn)結(jié)果無明顯區(qū)別,表明提出的模型能夠有效地對(duì)不完全數(shù)據(jù)進(jìn)行情感分類。

        基于上述實(shí)驗(yàn),選擇SDAE-BERT模型對(duì)比不同的訓(xùn)練數(shù)據(jù)規(guī)模對(duì)實(shí)驗(yàn)分類效果的影響,在保持模型結(jié)構(gòu)和初始超參數(shù)不變的情況下,只改變數(shù)據(jù)集的規(guī)模。實(shí)驗(yàn)結(jié)果如表6所示。

        表6 不同樣本數(shù)量下的SDAE-BERT模型分類結(jié)果Tab.6 Classification results of SDAE-BERT model under different sample sizes

        由表6 可得,訓(xùn)練數(shù)據(jù)的規(guī)模對(duì)SDAE-BERT 的分類效果有較大影響,因此在對(duì)SDAE-BERT 進(jìn)行訓(xùn)練時(shí),適當(dāng)增加訓(xùn)練數(shù)據(jù)模型能夠?qū)W習(xí)到更多的特征表示,從而能提高不完全數(shù)據(jù)的情感分類性能。

        4 結(jié)語

        針對(duì)BERT 未考慮不完整數(shù)據(jù)給情感分類性能帶來的影響,本文提出棧式降噪BERT(SDAE-BERT)模型。首先分析了棧式降噪自編碼器能夠?qū)性肼暤臄?shù)據(jù)去噪;其次對(duì)預(yù)訓(xùn)練模型BERT 的輸入表示、Transformer 編碼層和掩蓋語言訓(xùn)練方式進(jìn)行描述;最后,提出將棧式降噪自編碼器與預(yù)訓(xùn)練模型BERT 結(jié)合來處理不完全數(shù)據(jù)的情感分類模型。在不完全數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果有所提升,從而驗(yàn)證了SDAE-BERT模型的有效性。

        本文的不足在于所采用的數(shù)據(jù)集并非公共的不完全數(shù)據(jù)集,在對(duì)比方面存在一定的局限性;同時(shí)實(shí)驗(yàn)的數(shù)據(jù)較少,對(duì)上下文信息的捕捉不充足。下一步工作準(zhǔn)備在兩個(gè)方面進(jìn)行展開:1)融合多個(gè)不完全數(shù)據(jù)集使得訓(xùn)練的模型更具有普遍性;2)增大訓(xùn)練數(shù)據(jù)的規(guī)模使模型充分提取上下文的信息。

        猜你喜歡
        編碼器編碼分類
        分類算一算
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        《全元詩(shī)》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        分類討論求坐標(biāo)
        Genome and healthcare
        基于FPGA的同步機(jī)軸角編碼器
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        精品福利一区二区三区| 一本久久精品久久综合桃色| a国产一区二区免费入口| 国产一级做a爱免费观看| 国内精品人妻无码久久久影院94| 亚洲免费毛片网| 国产视频在线播放亚洲| 黄色国产精品福利刺激午夜片| 精品人妻码一区二区三区剧情| 亚洲精品动漫免费二区| 久久久久女人精品毛片| 亚洲男人av香蕉爽爽爽爽| 不卡国产视频| 亚洲高清国产拍精品熟女| 国产激情一区二区三区不卡av| 77777亚洲午夜久久多喷| 精品露脸国产偷人在视频| 岳好紧好湿夹太紧了好爽矜持| 亚洲 欧美 影音先锋| caoporon国产超碰公开| 日本人妻系列中文字幕| 亚洲国产精品久久久久秋霞小说| 久久久久波多野结衣高潮| 久久精品国产亚洲av成人| 久草精品手机视频在线观看| 韩国三级黄色一区二区| 久久人人爽人人爽人人片av高请| 九九热线有精品视频86| 亚洲va欧美va| 国产在线精品亚洲视频在线| 亚洲日本中文字幕乱码在线| 久久天天躁狠狠躁夜夜躁2014| 国产色a在线观看| 国产午夜精品福利久久| 成人女同av免费观看| 蜜桃尤物在线视频免费看| 国产精品人妻一码二码| 欧美色aⅴ欧美综合色| 亚洲精品中文有码字幕| 国产成人综合精品一区二区| 欧美最猛黑人xxxx黑人猛交|