亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于詞嵌入模型和卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)化文本分類(lèi)方法

        2022-11-02 03:20:24華帥鐘世立李鑫鑫陳彩鳳
        關(guān)鍵詞:集上卷積神經(jīng)網(wǎng)絡(luò)

        華帥 鐘世立 李鑫鑫 陳彩鳳

        (東莞理工學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東東莞 523808)

        近年來(lái),隨著網(wǎng)絡(luò)數(shù)據(jù)的快速爆發(fā),面對(duì)復(fù)雜的海量數(shù)據(jù),人力逐漸難以應(yīng)對(duì),運(yùn)用計(jì)算機(jī)對(duì)文本進(jìn)行自動(dòng)分類(lèi)的應(yīng)用越來(lái)越普遍。文本分類(lèi)作為自然語(yǔ)言處理的一個(gè)子任務(wù),目前它的應(yīng)用主要包括但不限于三個(gè)方面:第一,新聞的主題分類(lèi)(文章分類(lèi)),將新聞數(shù)據(jù)自動(dòng)歸檔為如財(cái)經(jīng) 、體育、軍事、娛樂(lè)等欄目;第二,文本數(shù)據(jù)的情感分析,一般用于影視評(píng)論、商品評(píng)價(jià)及外賣(mài)評(píng)價(jià)等數(shù)據(jù)的分析;第三,輿情分析,與情感分析的區(qū)別在于輿情分析更側(cè)重于目標(biāo)群體的情感極性,多數(shù)情形下為二分類(lèi),一般用于政府或者金融機(jī)對(duì)社會(huì)的輿論導(dǎo)向分析。面對(duì)這些需求,文本分類(lèi)算法也快速發(fā)展起來(lái)。本文基于當(dāng)前需求,在文本分類(lèi)大環(huán)境下進(jìn)行新的分類(lèi)算法 探索。

        文本分類(lèi)算法的相關(guān)研究,即從傳統(tǒng)的機(jī)器學(xué)習(xí)算法如樸素貝葉斯、邏輯回歸到k近鄰、支持向量機(jī)[3]等逐漸發(fā)展到以CNN[4-6]為代表的深度學(xué)習(xí)。其中,文本分類(lèi)的應(yīng)用也發(fā)生了相應(yīng)的變化。以支持向量機(jī)(SVM)為代表的傳統(tǒng)機(jī)器學(xué)習(xí)模型和以XLNet[7]、BERT[9]和GPT[8]系列的參數(shù)學(xué)習(xí)模型在文本分類(lèi)以及自然語(yǔ)言處理等任務(wù)方面取得了較好的分類(lèi)效果,但像GTP-x系列、XLNet和BERT等預(yù)訓(xùn)練語(yǔ)言模型的參數(shù)高達(dá)億級(jí)級(jí)別,一般研究人員的研究硬件環(huán)境難以支持此類(lèi)模型的訓(xùn)練。此外,傳統(tǒng)的機(jī)器學(xué)習(xí)模型往往基于數(shù)學(xué)上的統(tǒng)計(jì)理論和概率論,沒(méi)有很好地利用深度學(xué)習(xí)神經(jīng)元較強(qiáng)的非線(xiàn)性擬合能力。所以,在數(shù)據(jù)急劇增加時(shí),傳統(tǒng)的機(jī)器學(xué)習(xí)方法在大規(guī)模數(shù)據(jù)分類(lèi)時(shí)效果不佳。而深度學(xué)習(xí)模型依賴(lài)于較多的數(shù)據(jù),在大規(guī)模的數(shù)據(jù)集上表現(xiàn)更好,但它對(duì)算力要求也更高。受此啟發(fā),筆者提出了一種簡(jiǎn)化的預(yù)訓(xùn)練語(yǔ)言模型Simplified CNN,使其在應(yīng)對(duì)中等規(guī)模數(shù)據(jù)(文本數(shù)量百萬(wàn)級(jí)內(nèi)的數(shù)據(jù))時(shí)能充分發(fā)揮傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型的優(yōu)勢(shì),在達(dá)到較好的分類(lèi)效果的情況下,模型更加精簡(jiǎn)。

        筆者先梳理主流的語(yǔ)言預(yù)訓(xùn)練模型的發(fā)展歷程,分析當(dāng)前的預(yù)訓(xùn)練語(yǔ)言模型的優(yōu)點(diǎn)和局限性,并針對(duì)模型的局限性提出了思考,提出一種簡(jiǎn)化的文本分類(lèi)算法Simplified CNN,此算法在多個(gè)主流數(shù)據(jù)集上進(jìn)行分類(lèi)效果測(cè)試,取得了較好的表現(xiàn),這可以為后續(xù)此方向的深入研究提供了參考。

        1 主流預(yù)訓(xùn)練語(yǔ)言模型

        語(yǔ)言中的詞表征、文檔表征與文本分類(lèi)方法的改進(jìn)一直是自然語(yǔ)言理解(NLU)任務(wù)中的主要研究方向,詞的特征表示是自然語(yǔ)言處理中預(yù)處理環(huán)節(jié)的主要任務(wù)。傳統(tǒng)的詞表征方法如詞袋模型BoW、TF-IDF[10],是基于語(yǔ)料庫(kù)構(gòu)成的詞匯表來(lái)進(jìn)行詞統(tǒng)計(jì),表征的結(jié)果是維度較高、稀疏性較大,且忽略了詞之間的關(guān)系。為解決此問(wèn)題,Mikolov等人提出的word2vec[1]詞嵌入方法是一種基于統(tǒng)計(jì)的方法,可以有效地學(xué)習(xí)文本語(yǔ)料庫(kù)中一個(gè)獨(dú)立的詞的嵌入信息,使不同的詞在具有相似的表達(dá)意義的情況下也具有相似的向量表示,同時(shí)減少了詞向量的維度與稀疏性,可以進(jìn)行簡(jiǎn)單的線(xiàn)性代數(shù)運(yùn)算。在word2vec的基礎(chǔ)上,斯坦福大學(xué)Jeffrey Pennington等提出了GloVe[2]詞表征方法,綜合了LSA(Latent Semantic Analysis)[11]的利用全局文本統(tǒng)計(jì)數(shù)據(jù)進(jìn)行潛在的語(yǔ)義分析的特點(diǎn)及Word2Vec捕捉語(yǔ)義和類(lèi)比學(xué)習(xí)方面的能力,同時(shí)又避免了LDA(Latent Dirichlet Allocation)[12]在大數(shù)據(jù)集下的高計(jì)算成本,在文本的表征方面逐漸成為主流方法。

        主流預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展大體分三個(gè)階段(如表1),第一階段以谷歌公司提出的Word2Vec[1]和斯坦福大學(xué)提出的GloVe[2]為代表;第二階段以谷歌公司的BERT[9]等為代表;第三階段模型是在前面模型的基礎(chǔ)上加以學(xué)習(xí)和改進(jìn),形成相對(duì)比較完備的語(yǔ)言預(yù)訓(xùn)練模型XLNet[7]和MPNet[14]。這些預(yù)訓(xùn)練語(yǔ)言模型大體分為AR(Autoregressive Language Modeling)和AE(Autoencoding Language Modeling)兩種模型。AR語(yǔ)言模型是根據(jù)前面或者后面出現(xiàn)的tokens(將一個(gè)句子劃分為多個(gè)詞,每個(gè)詞為一個(gè)token)來(lái)預(yù)測(cè)當(dāng)前時(shí)刻的token,這類(lèi)模型代表有ELMo[13]、GTP[8],而AE語(yǔ)言模型則是通過(guò)上下文信息(也可理解為前面和后面的tokens)來(lái)預(yù)測(cè)被遮蔽(masked)的token,這類(lèi)模型代表有BERT[9]、Word2Vec[1]。

        表1 主流的預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展

        BERT[9]采用MLM模型(Masked Language Modeling)進(jìn)行預(yù)訓(xùn)練,在自然語(yǔ)言處理的多個(gè)子任務(wù)上取得了很好的結(jié)果,但是BERT忽略了預(yù)測(cè)詞和上下文詞之間的依賴(lài)關(guān)系,假設(shè)被Masked的詞之間相互獨(dú)立,而實(shí)際的語(yǔ)言中每個(gè)詞之間并不具備獨(dú)立性。為解決此問(wèn)題,XLNet[7]引入PLM模型(Permutation Language Model),但XLNet仍然沒(méi)有充分利用句子的位置信息,在pre-training階段和fine-tuning階段詞表示的位置存在差異。為解決BERT和XLNet的不足,MPNet[14]通過(guò)利用預(yù)測(cè)標(biāo)記之間的依賴(lài)關(guān)系排列語(yǔ)言建模,并以輔助位置的信息作為輸入,使模型獲取到完整的句子,減少位置差異,取得更好的效果。但這些模型的訓(xùn)練參數(shù)較多,訓(xùn)練時(shí)間較長(zhǎng),所需硬件要求也更高。對(duì)高校中的研究者探索將經(jīng)典的簡(jiǎn)易預(yù)訓(xùn)練模型與簡(jiǎn)化的神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,若分類(lèi)效果能與之相近或存在差距較小則具有的研究?jī)r(jià)值較大。

        2 神經(jīng)語(yǔ)言模型

        Yoav Goldberg提到[15]非線(xiàn)性的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型相比較傳統(tǒng)語(yǔ)言模型有許多優(yōu)點(diǎn),如增加上下文語(yǔ)境數(shù)據(jù)的情況下只需要線(xiàn)性增加參數(shù)的數(shù)量,無(wú)需人工過(guò)多干預(yù),且具有很好的泛化能力。這種泛化能力有時(shí)在經(jīng)典的統(tǒng)計(jì)語(yǔ)言模型(statistical language models)中并不能很容易的實(shí)現(xiàn)。

        多層感知機(jī)MLP(Multi-layer Perceptrons )[15]是由線(xiàn)性模型發(fā)展而來(lái)。由于線(xiàn)性分類(lèi)模型(包括單層感知機(jī))不能解決XOR問(wèn)題,通過(guò)引入多層神經(jīng)元,使神經(jīng)網(wǎng)絡(luò)可以逼近非常復(fù)雜的非線(xiàn)性函數(shù)。

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)從2014年Yoon Kim的工作[22]開(kāi)始運(yùn)用在自然語(yǔ)言處理任務(wù),Yoon Kim展示了CNN在文本處理任務(wù)上的出色表現(xiàn),說(shuō)明CNN不僅適用于計(jì)算機(jī)視覺(jué)領(lǐng)域,同樣也可以運(yùn)用于自然語(yǔ)言處理。Ye Zhang等人[21]給出了用于句子情感分析的神經(jīng)網(wǎng)絡(luò)的基本構(gòu)造(如圖1),基本步驟包括文本特征的提取(卷積操作)、特征的映射(池化操作)及softmax函數(shù)將最終篩選的特征向量歸一化映射到n個(gè)類(lèi)別上的概率分布。

        Ye Zhang等人分析了用于句子分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)選擇問(wèn)題及一些其他建議,對(duì)一般的文本分類(lèi)任務(wù),CNN的主要參數(shù)配置指導(dǎo)如下:

        ● 選擇詞嵌入模型(Word2Vec[1]、GloVe[2]等)的分類(lèi)效果要顯著好于使用類(lèi)似于獨(dú)熱編碼(one-hot encoding)的詞向量;

        ● 卷積核的大小對(duì)于不同的問(wèn)題要進(jìn)行相應(yīng)的調(diào)整;

        ● CNN模型的Dropout操作對(duì)于模型的性能影響較??;

        ● max池化操作一般好于其他類(lèi)型的池化操作。

        分析前人研究工作[1-2,7,13,21,23]的基礎(chǔ)上發(fā)現(xiàn)對(duì)詞表征操作(預(yù)訓(xùn)練),完成了任務(wù):即通過(guò)學(xué)習(xí)已知數(shù)據(jù)的內(nèi)部關(guān)系,先初始化模型的內(nèi)部參數(shù),再利用帶標(biāo)簽數(shù)據(jù)不斷優(yōu)化輸入?yún)?shù)及整個(gè)模型的參數(shù),使模型在誤分類(lèi)損失最小的情況下達(dá)到相對(duì)最佳,減少隨機(jī)初始化輸入?yún)?shù)帶來(lái)的不穩(wěn)定因素影響。這里初始化參數(shù)可理解為語(yǔ)言模型的共同特性,(基于共同特性參數(shù),對(duì)具體的數(shù)據(jù)任務(wù)學(xué)習(xí)新的特性,更新初始化的參數(shù),建立一個(gè)特定任務(wù)的語(yǔ)言模型。因此在構(gòu)建分類(lèi)模型時(shí),考慮到對(duì)嵌入層進(jìn)行參數(shù)調(diào)整,再輸入CNN模型中,模型細(xì)節(jié)在下一節(jié)中描述。

        由于CNN在計(jì)算機(jī)視覺(jué)(Computer Vision, CV)發(fā)展相對(duì)成熟,而預(yù)訓(xùn)練語(yǔ)言模型GloVe[2]和分類(lèi)模型CNN[22]在自然語(yǔ)言處理方面的研究較少,故筆者設(shè)計(jì)一個(gè)簡(jiǎn)化的卷積神經(jīng)網(wǎng)絡(luò)文本分類(lèi)模型,探究在具體的文本分類(lèi)任務(wù)中模型的分類(lèi)效果。

        圖1 用于句子分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        3 模型設(shè)計(jì)

        3.1 神經(jīng)網(wǎng)絡(luò)的分類(lèi)原理

        為簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)模型,此前需要理清神經(jīng)網(wǎng)絡(luò)的內(nèi)部訓(xùn)練流程,神經(jīng)網(wǎng)絡(luò)模型優(yōu)化的目標(biāo)為神經(jīng)網(wǎng)絡(luò)的真實(shí)輸出tr(true)與期望輸出yr之間的誤差(或者在達(dá)到設(shè)定的訓(xùn)練次數(shù)時(shí)所達(dá)到的誤差)最小。函數(shù)表達(dá)式為:

        (1)

        其中,m表示輸出層節(jié)點(diǎn)的個(gè)數(shù),T=(t1,t2,…,tr)T為網(wǎng)絡(luò)的實(shí)際輸出,Y=(y1,y2,…,yr)T是網(wǎng)絡(luò)的期望輸出。

        對(duì)于圖2,假設(shè)輸入層有m個(gè)節(jié)點(diǎn),隱藏層有n個(gè)節(jié)點(diǎn),輸出層有r個(gè)節(jié)點(diǎn),輸入層到隱藏層的權(quán)重為wij,隱藏層到輸出層的權(quán)重為φjk,i,j,k分別表示輸入層第i個(gè)節(jié)點(diǎn)、隱藏層第j個(gè)節(jié)點(diǎn)和輸出層第k個(gè)節(jié)點(diǎn),神經(jīng)網(wǎng)絡(luò)的基本訓(xùn)練過(guò)程如下。

        圖2 一個(gè)神經(jīng)網(wǎng)絡(luò)示例

        1)神經(jīng)網(wǎng)絡(luò)信號(hào)傳輸。

        隱藏層的輸出:

        (2)

        式中,fH表示隱藏層使用的激活函數(shù),xi是來(lái)自輸入層的數(shù)據(jù),假定輸入向量為X=(x1,x2,…,xm),輸出向量為Y=(y1,y2,…,yn),輸出層的輸出為:

        (3)

        其中,表示輸出層使用的激活函數(shù),是來(lái)自隱藏層的輸出。

        2)誤差最小化過(guò)程。

        需要指出的是,誤差最小化的過(guò)程是通過(guò)不斷修正每層的權(quán)重wij和φjk,使神經(jīng)網(wǎng)絡(luò)的實(shí)際輸出不斷逼近期望輸出,根據(jù)式(3)和式(1)有輸出層的權(quán)值修正值:

        (4)

        (5)

        將當(dāng)前網(wǎng)絡(luò)的權(quán)值用求得的修正值更新:

        wij=wij+Δwij,

        (6)

        φjk=φjk+Δφjk,

        (7)

        回到式(2)、式(3),計(jì)算式(4)和式(5),直至誤差滿(mǎn)足要求或者訓(xùn)練次數(shù)用盡。

        3.2 簡(jiǎn)化操作

        基于以上的認(rèn)識(shí)和前人相關(guān)工作[2,15-16,21-22],筆者嘗試對(duì)文本分類(lèi)模型進(jìn)行簡(jiǎn)化以適應(yīng)更多的文本分類(lèi)的應(yīng)用場(chǎng)景。

        3.2.1 訓(xùn)練針對(duì)數(shù)據(jù)集的詞嵌入模型

        預(yù)訓(xùn)練好的詞嵌入語(yǔ)言模型(GloVe[2])在Wikipedia等大型語(yǔ)料庫(kù)(樣本數(shù)量在數(shù)億級(jí)別以上)訓(xùn)練得來(lái),因此該詞嵌入的權(quán)重是相對(duì)于整個(gè)語(yǔ)料庫(kù)而言,對(duì)于本文的數(shù)據(jù)集任務(wù),詞的重要性和GloVe上的詞重要性并不一樣甚至存在較大差別,因此在使用詞嵌入層(Word Embedding Layer)作為神經(jīng)網(wǎng)絡(luò)輸入時(shí),根據(jù)具體任務(wù)訓(xùn)練詞嵌入層的權(quán)重。在此,使用文獻(xiàn)[1]中的skip-gram模型,word2vec模型中的skip-gram語(yǔ)言建模是用一個(gè)中心詞(center word)去預(yù)測(cè)上下文的詞(context word),即:

        P(context│center) ,

        (8)

        根據(jù)存在于語(yǔ)料庫(kù)中所有的[center word, context word]詞對(duì),找出概率最大的一組,即:

        (9)

        根據(jù)式(1)~式(7)的分析,由于人工神經(jīng)網(wǎng)絡(luò)的信號(hào)傳遞本質(zhì)上是一個(gè)損失函數(shù)最小化的過(guò)程,因此將詞嵌入模型的神經(jīng)網(wǎng)絡(luò)損失函數(shù)轉(zhuǎn)換為求最小值:

        (10)

        通過(guò)使用一個(gè)三層(input layer, hidden layer, output layer)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的模型來(lái)訓(xùn)練該詞嵌入層,使式(10)最小時(shí),根據(jù)式(6)和式(7)分別得到隱藏層和輸出層的權(quán)值矩陣:,取作為最后的詞嵌入層的權(quán)重。

        3.2.2 簡(jiǎn)化卷積層

        使用單層卷積操作,不采用多通道和多種卷積核,在卷積操作中選用線(xiàn)性修正單元(Rectified linear unit, ReLU)和tanh作為激活函數(shù),表達(dá)式分別為:

        函數(shù)和導(dǎo)數(shù)的圖像如圖3所示,ReLU函數(shù)的作用是將負(fù)值變?yōu)?,正值原樣輸出,這說(shuō)明在同一時(shí)刻某些神經(jīng)元并不會(huì)被激活,這使神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元具有稀疏激活性,減少了過(guò)擬合的影響。對(duì)于tanh函數(shù)來(lái)說(shuō),抑制了過(guò)大的值對(duì)模型的影響。二者的選擇根據(jù)具體實(shí)驗(yàn)效果而確定。

        3.2.3 簡(jiǎn)化池化層

        使用一個(gè)池化層且使用1-max作為池化標(biāo)準(zhǔn),層與層之間不進(jìn)行Dropout操作。如圖4示,在CNN網(wǎng)絡(luò)中,神經(jīng)元信號(hào)在池化層的向前傳播過(guò)程為:

        y1=max(xi)i={1,2,5,6} ,

        y2=max(xi)i={3,4,7,8} ,

        y3=max(xi)i={9,10,13,14} ,

        y4=max(xi)i={11,12,15,16} ,

        在誤差最小化的過(guò)程中(見(jiàn)式(1)),池化層沒(méi)有可以?xún)?yōu)化的參數(shù),因此無(wú)權(quán)值調(diào)整操作,主要將求得的權(quán)值向上一層傳遞。如,對(duì)于式(9),假設(shè)x5為最大值,則分別對(duì)x1,x2,x5,x6求偏導(dǎo):

        圖3 ReLU激活函數(shù)及其導(dǎo)數(shù)(左),tanh激活函數(shù)及其導(dǎo)數(shù)(右)

        圖4 One-max池化操作

        最后將卷積層和該池化層的權(quán)重向前一層傳遞記為ωy,則傳遞的值為1*ωy=ωy。由此得到的模型示意圖如圖5,可以看出卷積層之前為根據(jù)文本預(yù)訓(xùn)練的語(yǔ)言模型,卷積層之后為CNN的4個(gè)基本核心層,即卷積層、池化層、全連接層和softmax輸出層。

        綜上,給出算法流程如圖6,可以看出該算法包含了所有關(guān)鍵計(jì)算要素,在具體的執(zhí)行上采用基本的神經(jīng)網(wǎng)絡(luò)思想,無(wú)復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)。下一節(jié)將在文本處理常用的數(shù)據(jù)集上,將該模型與主流的算法及當(dāng)前最好的算法進(jìn)行比較,以檢測(cè)模型的實(shí)際效果。

        圖5 Simplified CNN結(jié)構(gòu)示意圖

        算法1:Simplified CNNInput: 詞向量:X=(x1,x2,…,xn)Output:輸入數(shù)據(jù)的類(lèi)別:Y=(c1,c2,…,ck), k表示類(lèi)別1Do: 計(jì)算各層的輸入輸出2 計(jì)算輸出層的誤差3 修正網(wǎng)絡(luò)的權(quán)值4Unitl: 滿(mǎn)足精度要求或者達(dá)到訓(xùn)練次數(shù)

        3.3 硬件參數(shù)

        所有實(shí)驗(yàn)均是在同一臺(tái)計(jì)算機(jī)上完成,計(jì)算機(jī)操作系統(tǒng)為Windows 10,64位,處理器參數(shù)為:Intel(R) Core(TM) i5-7300HQ,CPU的主頻為2.5GHz,使用內(nèi)存為24GB。實(shí)驗(yàn)全部由CPU完成計(jì)算。

        4 評(píng)價(jià)

        4.1 數(shù)據(jù)集

        實(shí)驗(yàn)選擇8個(gè)基準(zhǔn)數(shù)據(jù)集(5種),分別為MR、SST、IMDB、Yelp、Amazon?;拘畔⑷绫?,其中,‘Name’表示數(shù)據(jù)集的名稱(chēng),‘Class’表示數(shù)據(jù)集包含有多少個(gè)類(lèi)別,‘Length’表示經(jīng)過(guò)處理后平均每條評(píng)論數(shù)據(jù)的單詞個(gè)數(shù),‘Train’表示訓(xùn)練集的樣本個(gè)數(shù),‘Test’表示測(cè)試集樣本的個(gè)數(shù),‘Dev’表示開(kāi)發(fā)集的樣本個(gè)數(shù)。

        表2 情感分析(SA)常用數(shù)據(jù)集

        實(shí)驗(yàn)中開(kāi)發(fā)集被合并到訓(xùn)練集中,同時(shí)訓(xùn)練集和測(cè)試集的劃分采用shuffle操作(隨機(jī)打亂),避免指定劃分測(cè)試集和訓(xùn)練集可能的缺陷。其他指標(biāo)與數(shù)據(jù)的出處論文保持一致,需要注意的是,在處理上述數(shù)據(jù)集的過(guò)程中,實(shí)際的樣本數(shù)據(jù)可能與給定的數(shù)據(jù)集的‘Size’存在細(xì)微差異,部分?jǐn)?shù)據(jù)集存在一些數(shù)據(jù)錯(cuò)誤,實(shí)驗(yàn)前進(jìn)行了相應(yīng)的預(yù)處理。

        MR數(shù)據(jù)集:Movie Review(MR)數(shù)據(jù)集[18]是收集自IMDB網(wǎng)站的一個(gè)電影評(píng)論子集,被開(kāi)發(fā)用于檢測(cè)特定評(píng)論的情緒及判斷該情緒的積極性或消極性任務(wù),共包含10 662條評(píng)論,其中消極評(píng)論(negative)和積極評(píng)論(positive)各5 331條。

        SST數(shù)據(jù)集:Stanford Sentiment Treebank(SST)數(shù)據(jù)集[19]是MR數(shù)據(jù)集的擴(kuò)展,具有兩個(gè)版本,分別為SST-5和SST-2,前者為5分類(lèi)任務(wù),后者為2分類(lèi)任務(wù),5分類(lèi)任務(wù)分別為強(qiáng)消極、消極、中性、積極、強(qiáng)積極。該數(shù)據(jù)集被劃分為訓(xùn)練集(train set)、測(cè)試集(test set)、開(kāi)發(fā)集(development set)。需要指出的是,SST-1和SST-2是同一個(gè)數(shù)據(jù)集,SST-2是在SST-1數(shù)據(jù)集的基礎(chǔ)上去除情感為中性的(neutral)詞所得,該信息在很多使用此數(shù)據(jù)集的論文中未被提及,易造成誤解。

        IMDB數(shù)據(jù)集:Internet Movie Database(IMDB)[24]被開(kāi)發(fā)用于對(duì)二極性情感的電影影評(píng)的分析,共有50 000條數(shù)據(jù),正負(fù)各25 000條,測(cè)試集和訓(xùn)練集的比例劃分為1∶1。

        Yelp數(shù)據(jù)集[23]:與SST數(shù)據(jù)集類(lèi)似,Yelp數(shù)據(jù)集包含兩類(lèi)數(shù)據(jù),其中一種是二分類(lèi)評(píng)論數(shù)據(jù),稱(chēng)之為Yelp-2,另一種是5分類(lèi)數(shù)據(jù)集,稱(chēng)之為Yelp-5。Yelp-5含有700 000條評(píng)論數(shù)據(jù),其中訓(xùn)練集650 000條,測(cè)試集50 000條,Yelp-2包含598 000條評(píng)論數(shù)據(jù),其中訓(xùn)練集560 000條,測(cè)試集38 000條。

        Amazon數(shù)據(jù)集:該數(shù)據(jù)集收集亞馬遜商城產(chǎn)品評(píng)論的數(shù)據(jù)[25],包含了從1995年6月至2013年3月份在2 441 053個(gè)產(chǎn)品上6 643 669位用戶(hù)共34 686 770條評(píng)論,該數(shù)據(jù)集同SST數(shù)據(jù)集一樣,是大規(guī)模數(shù)據(jù)集,但一般取其子集并把其劃分為5分類(lèi)(Amazon-5)和2分類(lèi)(Amazon-2)兩個(gè)版本,由于數(shù)據(jù)集較大,包含的評(píng)論種類(lèi)較多,最新的數(shù)據(jù)源鏈接(1)https://nijianmo.github.io/amazon/index.html#subsets。

        4.2 實(shí)驗(yàn)結(jié)果分析

        選取與本文使用的共同的數(shù)據(jù)集盡可能多的模型進(jìn)行對(duì)比實(shí)驗(yàn),陳列了目前最好的分類(lèi)結(jié)果SOTA及參考文獻(xiàn)。

        將Simplified CNN分類(lèi)模型在多個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試,以分類(lèi)的準(zhǔn)確率為指標(biāo):

        其中,TP表示對(duì)于P類(lèi)(positive)分正確的個(gè)數(shù),TN表示N類(lèi)(negative)分正確的個(gè)數(shù),對(duì)多分類(lèi)情況與之類(lèi)似,Accuracy是由分類(lèi)正確的類(lèi)別樣本數(shù)除以總樣本數(shù)。結(jié)果如表2,‘*’表示模型在該數(shù)據(jù)集上內(nèi)存溢出,為使實(shí)驗(yàn)順利進(jìn)行,舍棄了出現(xiàn)次數(shù)較少的特征并將測(cè)試集與訓(xùn)練集按1∶1劃分(通過(guò)增大測(cè)試集數(shù)量,減少訓(xùn)練集數(shù)量進(jìn)行分?jǐn)們?nèi)存消耗),以滿(mǎn)足內(nèi)存要求,‘#’表示該數(shù)據(jù)集對(duì)于該模型過(guò)大,無(wú)法使用‘*’的方式解決內(nèi)存溢出問(wèn)題。

        根據(jù)表3,取出部分?jǐn)?shù)據(jù)集和部分模型進(jìn)行比較,如圖7所示,分析圖7(a)可以發(fā)現(xiàn),在實(shí)驗(yàn)所取的8個(gè)數(shù)據(jù)集上,前6個(gè)數(shù)據(jù)集雖然和SOTA相差一定的距離,但和LSTM相近甚至優(yōu)于LSTM。隨著數(shù)據(jù)集增大,簡(jiǎn)化模型分類(lèi)效果逐漸逼近SOTA;分析圖7(b),簡(jiǎn)化CNN分類(lèi)器在中等規(guī)模數(shù)據(jù)集上的分類(lèi)效果并不弱于深度學(xué)習(xí)復(fù)雜網(wǎng)絡(luò)(CharCNN、BERT、LSTM和SOTA),分析圖7(c)和7(d)可以發(fā)現(xiàn),簡(jiǎn)化的模型在所有比較的模型中處于中等靠前位置,說(shuō)明其簡(jiǎn)化操作并未削減分類(lèi)性能。

        表3 主流數(shù)據(jù)集上的分類(lèi)效果比較

        圖7 不同數(shù)據(jù)集上模型之間的比較

        在此基礎(chǔ)上,進(jìn)一步比較模型運(yùn)行時(shí)間,如圖8(分別在6個(gè)數(shù)據(jù)集和8個(gè)數(shù)據(jù)集上比較是因?yàn)镾VM、LR、NB在Amazon數(shù)據(jù)集上內(nèi)存溢出)可以發(fā)現(xiàn),簡(jiǎn)化模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型相比較,運(yùn)行時(shí)間較長(zhǎng),但與LSTM深度學(xué)習(xí)模型相比,運(yùn)行時(shí)間大幅減少。

        將圖7、圖8結(jié)合,分析分類(lèi)效果和模型運(yùn)行時(shí)間的關(guān)系(如圖9),可以看出,在MR、IMDB、Yelp-2、Yelp-5數(shù)據(jù)集上簡(jiǎn)化模型效果優(yōu)于其他模型,同時(shí)在運(yùn)行時(shí)間上與傳統(tǒng)機(jī)器學(xué)習(xí)模型相比并未表現(xiàn)出較大差距。

        加入數(shù)據(jù)集的平均句子長(zhǎng)度和數(shù)據(jù)集的大小兩個(gè)指標(biāo)進(jìn)一步進(jìn)行對(duì)比分析,觀(guān)察到模型的分類(lèi)效果與數(shù)據(jù)集自身特點(diǎn)的關(guān)系,如圖10。對(duì)比圖10左右兩張圖,簡(jiǎn)化后的模型在中等規(guī)模數(shù)據(jù)集上(幾十萬(wàn)至幾百萬(wàn))分類(lèi)效果并未下降,在Yelp-5和Amazon-5數(shù)據(jù)集上甚至分別優(yōu)于LSTM和CharCNN,可能是因?yàn)镃harCNN將輸入的文本以單個(gè)字母作為卷積對(duì)象,在處理較大數(shù)據(jù)集5分類(lèi)任務(wù)上會(huì)出現(xiàn)語(yǔ)義提取不足的情況,另外,由Yelp-5到Amazon-5的數(shù)據(jù)集句子長(zhǎng)度減少,數(shù)據(jù)量增大,LSTM和簡(jiǎn)化模型均提高了分類(lèi)準(zhǔn)確率,而CharCNN分類(lèi)效果卻下降了,說(shuō)明CharCNN不能很好地處理較大數(shù)據(jù)集下多類(lèi)別的分類(lèi)任務(wù),反映了簡(jiǎn)化模型更能適應(yīng)多種分類(lèi)場(chǎng)景。

        圖8 模型運(yùn)行時(shí)間比較(單位:h)

        圖9 部分?jǐn)?shù)據(jù)集上模型的運(yùn)行時(shí)間和分類(lèi)效果比較

        圖10 部分?jǐn)?shù)據(jù)集上的模型分類(lèi)準(zhǔn)確率(左)與數(shù)據(jù)集的大小和句子長(zhǎng)度(右)

        5 結(jié)語(yǔ)

        將簡(jiǎn)化的卷積神經(jīng)網(wǎng)絡(luò)與詞嵌入預(yù)訓(xùn)練語(yǔ)言模型相結(jié)合的方法達(dá)到了一定的效果,但從實(shí)驗(yàn)結(jié)果來(lái)看,仍有待改進(jìn)的地方,尤其是針對(duì)不同場(chǎng)景下的數(shù)據(jù)集要進(jìn)行相應(yīng)的模型參數(shù)調(diào)整,并不能用相同的參數(shù)去測(cè)試所有的數(shù)據(jù)集。同時(shí)可以看到,分類(lèi)效果與SOTA存在一定的差距,仍需要探索后續(xù)的改進(jìn)模型。

        猜你喜歡
        集上卷積神經(jīng)網(wǎng)絡(luò)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線(xiàn)通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        復(fù)扇形指標(biāo)集上的分布混沌
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        亚洲av不卡一区男人天堂| 亚洲地区一区二区三区| 中文字幕一二区中文字幕| 美女露出奶头扒开内裤的视频| 中文字幕久久国产精品| 午夜视频一区二区三区四区| 国产精品主播在线一区二区| 国产做无码视频在线观看| 亚洲国产精品ⅴa在线观看| 99精品视频免费热播| 国产不卡在线免费视频| 亚洲av毛片在线网站| 久久午夜福利无码1000合集 | 国语对白福利在线观看| 亚洲人午夜射精精品日韩 | 国产青草视频在线观看| 亚洲va欧美va国产综合| 亚洲黄片久久| 久久中文字幕一区二区| 国产免码va在线观看免费| 日产无人区一线二线三线乱码蘑菇 | 成人国产精品高清在线观看| 亚洲av高清不卡免费在线| 国产精品vⅰdeoxxxx国产| 伊人影院综合在线| 一本久久a久久精品综合| 在线视频观看国产色网| 宅男666在线永久免费观看 | 亚洲成在人线电影天堂色| 少妇一区二区三区乱码| 久久精品亚洲熟女av蜜謦| 无遮无挡爽爽免费毛片| 91福利国产在线观一区二区| 日产国产亚洲精品系列| 先锋中文字幕在线资源| 亚洲经典三级| 粉嫩国产白浆在线播放| 一区二区三区人妻av| 94久久国产乱子伦精品免费 | 亚洲一区二区三区在线更新| 成熟人妻换xxxx|