亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Fasttext和多融合特征的文本分類(lèi)模型

        2021-11-17 06:53:16張焱博
        計(jì)算機(jī)仿真 2021年7期
        關(guān)鍵詞:分類(lèi)特征文本

        張焱博,郭 凱

        (北京郵電大學(xué),北京 102206)

        1 引言

        隨著網(wǎng)絡(luò)發(fā)展的不斷推進(jìn),個(gè)性化推薦成為熱門(mén)領(lǐng)域。在文本信息不斷激增的當(dāng)下,有效化的挖掘文本信息、分析處理、歸納推理變得越來(lái)越迫切。繼深度學(xué)習(xí)不斷在視覺(jué)領(lǐng)域取得成果后,對(duì)自然語(yǔ)言文本分類(lèi)也推出各種個(gè)性化算法進(jìn)行了多角度的研究。

        傳統(tǒng)文本分類(lèi)任務(wù)通常利用的是單一神經(jīng)網(wǎng)絡(luò)。目前常見(jiàn)的神經(jīng)網(wǎng)絡(luò)有:CNN、RNN、Fasttext、LSTM[1]。CNN網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,參數(shù)少且訓(xùn)練速度快,但是模型只能提取到位置相近詞語(yǔ)的特征,難以融合間隔很長(zhǎng)的詞之間的特征。Facebook設(shè)計(jì)并開(kāi)源了Fasttext,一種詞向量計(jì)算和文本分類(lèi)工具[2],它基于淺層網(wǎng)絡(luò)設(shè)計(jì),通過(guò)保留文本的低層信息,可取得和深度網(wǎng)絡(luò)相媲美的精確度,但在較復(fù)雜的文本中表現(xiàn)比較無(wú)力。 RNN應(yīng)用于文本分類(lèi)中,可有效記憶全文文本信息特征。但RNN網(wǎng)絡(luò)長(zhǎng)序列中較早出現(xiàn)的文本易被遺忘,存在梯度消失和爆炸的情況。用LSTM進(jìn)行文本情感分類(lèi)的研究方法是對(duì)RNN神經(jīng)網(wǎng)絡(luò)的改進(jìn),通過(guò)增加門(mén)機(jī)制,對(duì)文本前端的信息選擇性的保留和遺忘,相較于CNN更適合學(xué)習(xí)時(shí)間序列。但是隨著文本增長(zhǎng),LSTM仍易丟失文本前端的信息,且表征性不夠強(qiáng)。

        為此,本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及詞向量平均的三種模型和其特點(diǎn),提出一種基于Fasttext有效融合多特征的文本分類(lèi)模型。實(shí)驗(yàn)將網(wǎng)上的新聞作為數(shù)據(jù)集,將其詞向量作為CNN層、雙向LSTM層和Fasttext層的輸入,通過(guò)CNN和Bi-LSTM提取深層特征并賦予Attention權(quán)重。有效提升了文本分類(lèi)的精準(zhǔn)性。

        2 相關(guān)工作

        2.1 CNN

        CNN即卷積神經(jīng)網(wǎng)絡(luò),與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相對(duì)比,網(wǎng)絡(luò)架構(gòu)相似,仍是層級(jí)網(wǎng)絡(luò),層的功能和形式有區(qū)別。它主要通過(guò)卷積層和子采樣層對(duì)輸入數(shù)據(jù)局部進(jìn)行特征提取,并逐層組合得到全局信息,獲得最終輸出層結(jié)果。

        2.2 Bi-LSTM

        RNN即循環(huán)神經(jīng)網(wǎng)絡(luò),作為序列處理的神經(jīng)網(wǎng)絡(luò),序列位置的隱藏狀態(tài)由當(dāng)前位置的輸入與前序位置的輸入共同決定。RNN具有循環(huán)單元,它記憶前序信息并在網(wǎng)絡(luò)中保存,為之后的計(jì)算提供記憶。但是對(duì)于一些較長(zhǎng)的序列,循環(huán)單元中較早的輸入強(qiáng)度越來(lái)越低。針對(duì)RNN短期記憶問(wèn)題,創(chuàng)建了長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)。LSTM模型只能記憶序列t位置之前的信息,無(wú)法用之后的信息進(jìn)行分析。Bi-LSTM[3-4]突出(Bi-directional)雙向特性,包含前、后向LSTM,前向網(wǎng)絡(luò)記錄t位置之前的信息,后向網(wǎng)絡(luò)記錄t位置之后的信息,二者的輸出共同決定序列當(dāng)前位置的輸出,能夠更好地捕捉雙向語(yǔ)義依賴(lài)。

        2.3 Fasttext

        Fasttext文本分類(lèi)工具采用N-Gram結(jié)構(gòu),基于詞向量化的淺層網(wǎng)絡(luò),訓(xùn)練與測(cè)試高效快速。具體做法是把N-gram作為詞向量輸入,隱藏層對(duì)詞向量做疊加平均,得到文本向量,最后連接輸出層,得到特征。

        2.4 Attention機(jī)制

        Attention機(jī)制最初被用于圖像領(lǐng)域[5]。Attention機(jī)制是在一個(gè)序列中學(xué)習(xí)到每一個(gè)元素的重要程度,并對(duì)每一個(gè)元素分配相應(yīng)的權(quán)重,從而提取出相關(guān)度更高的部分,提升模型的精確程度。Attention機(jī)制的實(shí)質(zhì)是一個(gè)尋址(addressing)過(guò)程,給定一個(gè)和任務(wù)相關(guān)的Query,稱(chēng)作向量q,通過(guò)計(jì)算與Key的相關(guān)程度并將其附加于Value,從而得到表示相關(guān)程度的Attention Value。如圖1。

        圖1 Attention機(jī)制結(jié)構(gòu)圖

        3 本文方法描述

        本文提出一種AT-LSTM-CNN-FASTTEXT的混合模型文本分類(lèi)。模型結(jié)構(gòu)如下圖2所示。主要包含6個(gè)模塊:輸入層、卷積神經(jīng)網(wǎng)絡(luò)層、雙向LSTM層、注意力計(jì)算層、Fasttext層、預(yù)測(cè)層。

        圖2 AT-LSTM-CNN-FASTTEXT模型結(jié)構(gòu)

        1) 輸入層對(duì)文本預(yù)處理,將每個(gè)詞構(gòu)建成詞向量表示。

        2) 雙向LSTM層與卷積神經(jīng)網(wǎng)絡(luò)層分別將輸入層的詞向量作為輸入,得到深層詞向量的特征表示。

        3) 注意力計(jì)算層將雙向LSTM層與卷積神經(jīng)網(wǎng)絡(luò)層的輸出特征作為輸入,為雙向LSTM層輸出的每個(gè)深層詞向量計(jì)算合適的注意力權(quán)重值。

        4) Fasttext層將輸入層的詞向量進(jìn)行2-gram處理,作為自己的輸入并作疊加平均,得到詞向量的淺層表示。

        5) 將Fasttext層的輸出與注意力計(jì)算層的輸出拼接并作為預(yù)測(cè)層的輸入,預(yù)測(cè)層基于該特征預(yù)測(cè)文本分類(lèi)。

        3.1 輸入層

        基于注意力機(jī)制的分類(lèi)模型輸入由中文詞向量構(gòu)成。將詞序列轉(zhuǎn)換為詞向量W={w1,w2,w3,…,wn},wi∈Rm,其中:n表示分詞后token的數(shù)量,m表示為詞向量維度。

        3.2 雙向LSTM層

        LSTM神經(jīng)網(wǎng)絡(luò)適合捕捉文本中長(zhǎng)或短時(shí)依賴(lài),且雙向LSTM網(wǎng)絡(luò)可以通過(guò)向前的狀態(tài)與向后的狀態(tài)分別捕捉到前時(shí)間步長(zhǎng)與后時(shí)間步長(zhǎng)。相應(yīng)的,雙向LSTM網(wǎng)絡(luò)可以同時(shí)考慮到上下文的內(nèi)容。本模型將W作為輸入,雙向LSTM的前向處理與后向處理步驟如下

        (1)

        (2)

        3.3 卷積神經(jīng)網(wǎng)絡(luò)層

        定義一個(gè)卷積層為用大小為x×y的卷積核P對(duì)輸入矩陣X進(jìn)行卷積操作。每行的輸出結(jié)果如下:

        (3)

        其中:a代表卷積網(wǎng)絡(luò)中的第a個(gè)通道,X(i,i+r-1)是第i至第i+r-1行特征,b是偏置量,f是BatchNorm2d歸一化處理,ReLu是線(xiàn)性整流函數(shù),ri是通過(guò)卷積操作得到的第i行輸出結(jié)果,設(shè)置濾波器縱向移動(dòng)步長(zhǎng)為1,最終得到的卷積結(jié)果為

        Ra=[r1,r2,…,rn-r+1]T

        (4)

        對(duì)得到的局部特征進(jìn)行Max Pooling處理提取的局部最大特征代替局部特征,以減小特征數(shù)量

        (5)

        (6)

        Ca=Conv(X)

        (7)

        對(duì)于每一個(gè)CNN模塊,有

        Cj=Conv_3(W)

        (8)

        其中Conv_3代表對(duì)輸入詞向量做3次Conv操作,j代表第j個(gè)CNN模塊的輸出。將所有CNN模塊的輸出進(jìn)行拼接,得到卷積神經(jīng)網(wǎng)絡(luò)層的輸出

        U=[C1,C2,…,CJ]

        (9)

        其中J為卷積神經(jīng)網(wǎng)絡(luò)層中CNN模塊的個(gè)數(shù)。

        3.4 注意力計(jì)算層

        CNN神經(jīng)網(wǎng)絡(luò)只能學(xué)習(xí)位置相近的文本特征,LSTM神經(jīng)網(wǎng)絡(luò)在長(zhǎng)文本下容易丟失文本前端信息。因此采用Attention機(jī)制,將CNN與Bi-LSTM的高層特征融合,進(jìn)而彌補(bǔ)Bi-LSTM丟失前端信息的問(wèn)題。根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的深層特征對(duì)雙向LSTM網(wǎng)絡(luò)的深層特征分配注意力權(quán)重,得到融合特征表示。經(jīng)過(guò)Attention機(jī)制賦予權(quán)重,深層特征表示如下

        Z=α·HT

        (10)

        其中,α為打分函數(shù)score函數(shù)經(jīng)過(guò)softmax處理得到的結(jié)果,代表雙向LSTM深層特征中第i個(gè)特征的注意力權(quán)重值,其公式為

        α=softmax(score)

        (11)

        (12)

        3.5 Fasttext層

        對(duì)輸入層詞向量W進(jìn)行2-gram處理。對(duì)于每相鄰兩個(gè)詞向量,計(jì)算它們的平均詞向量

        (13)

        拼接每個(gè)平均詞向量得到

        V=[v1,v2,…,vn-1]

        (14)

        在詞向量的維度上,對(duì)每個(gè)詞求平均得到Fasttext層的輸出

        (15)

        3.6 預(yù)測(cè)層

        因?yàn)榻?jīng)Attention機(jī)制計(jì)算權(quán)重的深層特征與淺層特征互補(bǔ),將注意力計(jì)算層得到的輸出H與Fasttext層K進(jìn)行拼接得到預(yù)測(cè)層的輸入I

        I=[H,K]

        (16)

        (17)

        4 實(shí)驗(yàn)方案與仿真驗(yàn)證

        實(shí)驗(yàn)開(kāi)發(fā)環(huán)境是Pytorch 1.6.0,開(kāi)發(fā)工具使用Jupyter notebook。計(jì)算機(jī)操作系統(tǒng)Windows10, CPU:Intel Core i7-8750H,顯卡:GeForce GTX 1060,內(nèi)存:DDR4 16G,

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本文實(shí)驗(yàn)以清華大學(xué)的THUCNew數(shù)據(jù)集為依托。該數(shù)據(jù)集具有財(cái)經(jīng)、彩票、房產(chǎn)等14個(gè)類(lèi)別。本文選出其中科技、時(shí)政、娛樂(lè)、體育、房產(chǎn)、家居、游戲、教育、財(cái)經(jīng)、時(shí)尚共10個(gè)類(lèi)別,每個(gè)類(lèi)別的數(shù)據(jù)6500條。訓(xùn)練集由其中的90%構(gòu)成,測(cè)試集選用剩余的10%。對(duì)每條語(yǔ)料進(jìn)行清洗,使用jieba對(duì)語(yǔ)料進(jìn)行分詞處理操作。若語(yǔ)料長(zhǎng)度超過(guò)500,取前250個(gè)字與后250個(gè)字做拼接處理。詞向量采用預(yù)訓(xùn)練的中文維基百科詞向量,每個(gè)詞向量維度是300。

        4.2 實(shí)驗(yàn)參數(shù)

        本實(shí)驗(yàn)?zāi)P椭蠧NN層所使用的參數(shù)見(jiàn)表1。對(duì)于每次卷積操作得到的結(jié)果進(jìn)行BatchNorm2d操作以增強(qiáng)網(wǎng)絡(luò)穩(wěn)定性。

        表1 CNN網(wǎng)絡(luò)參數(shù)

        Bi-LSTM層選擇Adam為優(yōu)化函數(shù),所使用的參數(shù)見(jiàn)表2。

        表2 雙向LSTM網(wǎng)絡(luò)參數(shù)

        4.3 實(shí)驗(yàn)分析與結(jié)果

        4.3.1 采用預(yù)訓(xùn)練詞向量的完整數(shù)據(jù)集實(shí)驗(yàn)

        將本文提出的模型(AT-LSTM-CNN-FASTTEXT)與Bi-LSTM模型、CNN模型、無(wú)FASTTEXT模塊的融合模型(AT-LSTM-CNN)在完整預(yù)處理數(shù)據(jù)集上實(shí)驗(yàn),對(duì)比模型的超參數(shù)與本方法中超參數(shù)相同。圖3、圖4分別給出了AT-LSTM-CNN-FASTTEXT模型、CNN模型、Bi-LSTM模型、無(wú)FASTTEXT模塊的融合模型的準(zhǔn)確率與損失函數(shù)變化圖。

        圖3 各類(lèi)模型實(shí)驗(yàn)準(zhǔn)確率變化

        圖4 各類(lèi)模型損失函數(shù)變化

        由表3可以發(fā)現(xiàn),本文模型收斂速度快且準(zhǔn)確率均高于AT-LSTM-CNN、CNN、Bi-LSTM幾種模型。在epoch為1時(shí),本文提出的模型分類(lèi)準(zhǔn)確率比AT-LSTM-CNN模型提升2.5%,比CNN模型提升了2.4%,比Bi-LSTM模型提升88%。這是因?yàn)楫?dāng)epoch少時(shí),CNN, AT-LSTM-CNN等深層網(wǎng)絡(luò)無(wú)法較好的學(xué)習(xí)到深層特征,而本文模型中FASTTEXT模塊可以較好的捕捉到淺層特征并迅速調(diào)整參數(shù),使得本文模型有更好的收斂性。當(dāng)epoch為2時(shí),AT-LSTM-CNN模型與本文模型分類(lèi)準(zhǔn)確率相差1.6%,CNN模型與本文模型分類(lèi)準(zhǔn)確率相差0.7%。對(duì)比圖4發(fā)現(xiàn),除Bi-LSTM的損失函數(shù)基本保持不變外,其它模型損失函數(shù)減小到穩(wěn)定值的速度慢于本文模型,但在4 epoch后均下降到一個(gè)相近的穩(wěn)定值,除Bi-LSTM模型外,都有較好的收斂效果。原因?yàn)锽i-LSTM容易丟失文本前端的信息,導(dǎo)致信息在迭代過(guò)程中丟失。對(duì)比不同模型在各epoch下的準(zhǔn)確率可以發(fā)現(xiàn),本文模型在第1個(gè)epoch便取得最佳效果。

        表3 各模型準(zhǔn)確率(%)隨epoch數(shù)的變化

        4.3.2 采用預(yù)訓(xùn)練詞向量的部分?jǐn)?shù)據(jù)集實(shí)驗(yàn)

        本文不僅在整個(gè)數(shù)據(jù)集上與其它模型進(jìn)行對(duì)比,還按照不同的比例對(duì)訓(xùn)練集選取一定量的數(shù)據(jù)進(jìn)行訓(xùn)練。不同百分比對(duì)應(yīng)數(shù)據(jù)量見(jiàn)表4。在epoch為1的前提下,不同模型分類(lèi)預(yù)測(cè)準(zhǔn)確率的變化見(jiàn)表5。

        表4 訓(xùn)練集數(shù)據(jù)量占比

        表5 1 epoch下分類(lèi)預(yù)測(cè)準(zhǔn)確率(%)隨數(shù)據(jù)量的變化

        訓(xùn)練數(shù)據(jù)量分別為5000,25000,50000時(shí),本文模型、CNN模型、Bi-LSTM模型與去除FASTTEXT模塊的融合特征模型(AT-LSTM-CNN)的分類(lèi)準(zhǔn)確率,如圖5-圖7所。

        圖5 數(shù)據(jù)量5000時(shí)各模型準(zhǔn)確率

        圖6 數(shù)據(jù)量25000時(shí)各模型準(zhǔn)確率

        圖7 數(shù)據(jù)量40000時(shí)各模型準(zhǔn)確率

        通過(guò)對(duì)比發(fā)現(xiàn),本文AT-LSTM-CNN-FASTTEXT融合模型訓(xùn)練數(shù)據(jù)條數(shù)為5000時(shí),在收斂速度上明顯強(qiáng)于AT-LSTM-CNN融合特征模型。在1 epoch下,由于訓(xùn)練數(shù)據(jù)集較小,較復(fù)雜的AT-LSTM-CNN網(wǎng)絡(luò)在epoch較少時(shí)難以對(duì)更多的參數(shù)有效的調(diào)整,而本文模型中的FASTTEXT模塊可以較快速準(zhǔn)確的學(xué)習(xí)文本的淺層特征,使得本文模型準(zhǔn)確度比單CNN模型高7%,比AT-LSTM-CNN模型高出約20%。隨著訓(xùn)練數(shù)據(jù)集的變大,本文模型在epoch為1時(shí)的準(zhǔn)確率不斷提升且在epoch增加的情況下準(zhǔn)確率始終高于CNN、Bi-LSTM、AT-LSTM-CNN模型,當(dāng)數(shù)據(jù)集為整個(gè)測(cè)試集時(shí),本文模型在1 epoch條件下準(zhǔn)確率在四種模型中最高,具有更快收斂速度。

        4.3.3 采用未訓(xùn)練詞向量的完整數(shù)據(jù)集實(shí)驗(yàn)

        將AT-LSTM-CNN-FASTTEXT模型、CNN模型、Bi-LSTM模型、AT-LSTM-CNN模型在未引入預(yù)訓(xùn)練詞向量的不同大小訓(xùn)練集上進(jìn)行訓(xùn)練,數(shù)據(jù)的大小同表4,在epoch為1的前提下,隨數(shù)據(jù)量的變化,準(zhǔn)確率見(jiàn)表6。

        表6 無(wú)預(yù)訓(xùn)練詞向量1 epoch下分類(lèi)預(yù)測(cè)準(zhǔn)確率(%)隨數(shù)據(jù)量的變化

        在訓(xùn)練集小的時(shí)候,具有注意力機(jī)制的AT-LSTM-CNN與AT-LSTM-CNN-FASTTEXT模型在1epoch下準(zhǔn)確度明顯高于CNN模型與Bi-LSTM模型。隨著訓(xùn)練資源增加,訓(xùn)練數(shù)據(jù)條數(shù)為10000時(shí),AT-LSTM-CNN與AT-LSTM-CNN-FASTTEXT兩模型分別比CNN模型準(zhǔn)確率高出4.6%與19.1%,AT-LSTM-CNN-FASTTEXT模型效果更優(yōu)。這表明通過(guò)使用LSTM與CNN特征進(jìn)行交互,具有Attention機(jī)制的模型捕捉到的特征相比單純使用CNN模型或Bi-LSTM模型更有效,具有更好的分類(lèi)準(zhǔn)確率。

        5 結(jié)束語(yǔ)

        本文提出了一種基于Fasttext和LSTM、CNN的AT-LSTM-CNN-FASTTEXT混合模型進(jìn)行文本分類(lèi)。該模型利用Fasttext對(duì)文本的淺層特征進(jìn)行提取,同時(shí)利用CNN網(wǎng)絡(luò)模型對(duì)文本局部特征提取,利用雙向LSTM網(wǎng)絡(luò)進(jìn)行全局文本特征提取并通過(guò)Attention機(jī)制將卷積神經(jīng)網(wǎng)絡(luò)的深層特征對(duì)雙向LSTM模型的特征分配注意力權(quán)重。將淺層特征與深層特征相結(jié)合對(duì)文本類(lèi)別進(jìn)行預(yù)測(cè),充分考慮了局部文本與全局文本的語(yǔ)義信息。在實(shí)驗(yàn)過(guò)程中,對(duì)比本文模型、CNN模型、LSTM模型、AT-CNN-LSTM模型,結(jié)果表明,本文AT-LSTM-CNN-FASTTEXT融合特征模型能夠有效提取到文本淺層和深層特征,準(zhǔn)確率更高。本文僅依托THUCNews中的部分?jǐn)?shù)據(jù)集驗(yàn)證了模型的有效性,后續(xù)計(jì)劃針對(duì)不同分類(lèi)任務(wù)進(jìn)行實(shí)驗(yàn),探究模型泛用性,并對(duì)模型進(jìn)一步改進(jìn)。

        猜你喜歡
        分類(lèi)特征文本
        分類(lèi)算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
        少妇精品无码一区二区三区 | 亚洲av美国av产亚洲av图片| 国产色视频一区二区三区不卡 | 亚洲三级香港三级久久| 国产成人永久在线播放| 久久精品久久精品中文字幕| 亚洲精品乱码久久久久久| 精品9e精品视频在线观看| 成人a在线观看| 国产精品久久婷婷婷婷| 日韩精品人妻少妇一区二区| 国产精品白浆一区二区免费看| 91九色免费视频网站| 国产无套粉嫩白浆在线| 国产精品无码一区二区三区免费| 免费啪啪视频一区| 北岛玲精品一区二区三区| 国产高清一区二区三区三州| 精品久久久bbbb人妻| 亚洲欧美综合在线天堂| 亚洲大尺度动作在线观看一区 | 日韩av一区二区三区激情在线| 日本丰满少妇xxxx| 欧美人伦禁忌dvd放荡欲情| 一二三四视频社区在线| 日本少妇被爽到高潮的免费| 亚洲第一女优在线观看| 一区二区三区国产免费视频| 日韩激情无码免费毛片| 色爱无码A V 综合区| 中文字幕一区二区三区综合网| 少妇爆乳无码专区| 国产97在线 | 中文| 欧美午夜刺激影院| 免费国产一级片内射老| 草青青在线视频免费观看| 亚洲精品国产精品国自产| 国产色秀视频在线播放| 97精品国产高清自在线看超| 亚洲女同av在线观看| 欧美丰满熟妇xxxx性|