亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于融合特征的長(zhǎng)文本分類方法

        2022-10-26 10:52:58李海斌
        關(guān)鍵詞:分類特征文本

        鮑 闖,喬 杰,李海斌,馮 姣,李 鵬

        (1.南京信息工程大學(xué) 電子與信息工程學(xué)院, 南京 210044;2.浙江海洋大學(xué) 信息工程學(xué)院, 浙江 舟山 316022)

        0 引言

        隨著互聯(lián)網(wǎng)的快速發(fā)展,人們習(xí)慣于使用關(guān)鍵詞在海量的電子資源中檢索信息,如何對(duì)后臺(tái)數(shù)據(jù)庫中的文檔進(jìn)行有效分類,從而提升用戶體驗(yàn)效果顯得尤為重要。由于數(shù)據(jù)量龐大,采用人工方式是一種費(fèi)時(shí)、費(fèi)力的操作,因此一般采用按照預(yù)先設(shè)定好的類別標(biāo)簽,通過提取文本的高級(jí)特征,給文本自動(dòng)分類。文本分類作為自然語言處理(natural language processing,NLP)中最經(jīng)典、最基本的任務(wù)之一,被廣泛應(yīng)用于情感分析[1]、垃圾郵件識(shí)別[2]和輿情分析[3]等具體領(lǐng)域。

        文本分類大致可以分為2類方法:傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。傳統(tǒng)的機(jī)器學(xué)習(xí)方法通過提取詞頻或者詞袋特征,然后將文本特征送入樸素貝葉斯(naive bayes,NB)[4]、支持向量機(jī)(support vector machine,SVM)[5]等分類模型中預(yù)測(cè)類別標(biāo)簽。由于傳統(tǒng)的機(jī)器學(xué)習(xí)算法是淺層的特征提取,存在高維的稀疏性、無序性和無法聯(lián)系文本上下文的缺陷,限制了傳統(tǒng)文本分類模型的分類效果,尤其在長(zhǎng)文本分類上準(zhǔn)確率較低。

        伴隨著深度學(xué)習(xí)技術(shù)的進(jìn)步,研究者嘗試使用神經(jīng)網(wǎng)絡(luò)搭建分類模型,簡(jiǎn)化傳統(tǒng)方法的特征選擇,使得建模更加智能化,成為文本分類領(lǐng)域的研究熱點(diǎn)。針對(duì)文本表示一般采用詞嵌入,Mikolov等[6]提出Word2vec模型,其中包含CBOW和Skip-gram 2種模型結(jié)構(gòu)。Pennington等[7]提出Glove模型,基于全局詞頻統(tǒng)計(jì)的詞表征工具,考慮文本的局部信息和整體信息。Word2vec和Glove訓(xùn)練出來的詞向量和詞是一對(duì)一映射關(guān)系,無法解決了一詞多義問題,因此動(dòng)態(tài)詞向量模型被提出。2019年,谷歌團(tuán)隊(duì)提出BERT(bidirectional encoder representations from transformers,BERT)模型[8],是真正在雙向上深度融合特征的語言模型,解決了一詞多義問題,在多項(xiàng)自然語言處理任務(wù)中均表現(xiàn)出優(yōu)異的結(jié)果。在分類模型的構(gòu)建上,Kim[9]針對(duì)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的輸入層做了一些變形,提出了文本分類模型TextCNN。TextCNN模型包含一個(gè)卷積層和最大池化層,該模型參數(shù)量少、訓(xùn)練速度快,但其卷積核的視野受卷積核控制,固定大小的卷積核只能提取局部的特征,無法關(guān)注更長(zhǎng)視野的特征。Zhang等[10]同時(shí)采用CNN模型實(shí)施文本分類,在文本向量表示中按照句子矩陣形式排列。Liu等[11]使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)對(duì)語句的序列信息進(jìn)行建模,將網(wǎng)絡(luò)的最后一個(gè)狀態(tài)作為文本表示。Miyato等[12]通過采用對(duì)抗和虛擬對(duì)抗,進(jìn)一步提升LSTM性能,獲得更佳的分類效果。對(duì)于短文本,循環(huán)神經(jīng)網(wǎng)絡(luò)具有較好的表現(xiàn)。隨著文本長(zhǎng)度變長(zhǎng),序列數(shù)據(jù)之間的間隔就會(huì)加大,這會(huì)使得長(zhǎng)短期記憶網(wǎng)絡(luò)的記憶性減弱。LSTM只能學(xué)習(xí)文本的全局時(shí)序特征,因此姜恬靜等[13]將卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合,使用CNN學(xué)習(xí)文本的局部特征,再結(jié)合LSTM學(xué)習(xí)時(shí)序特征。

        然而,上述研究均忽略了長(zhǎng)文本自身所帶有的結(jié)構(gòu)化特征,導(dǎo)致在長(zhǎng)文本分類時(shí)準(zhǔn)確率不高。不僅如此,以上方法直接將數(shù)據(jù)編碼為長(zhǎng)序列(如期刊論文、小說、裁決文書)輸入,給模型的性能以及機(jī)器硬件開銷帶來很大挑戰(zhàn)。針對(duì)長(zhǎng)文分類研究,主流方式是采用層次結(jié)構(gòu)網(wǎng)絡(luò)模型[14-15]并增加注意力機(jī)制[16]。Lin等[17]通過引入自注意力機(jī)制獲取可解釋句子嵌入的新模型。Manning等[18]提出全局注意力和局部注意力模型,其中局部注意力機(jī)制是對(duì)硬注意力的改進(jìn),是硬注意力和軟注意力的一種平衡。現(xiàn)有分層模型在訓(xùn)練過程中采用全局目標(biāo)向量,無法關(guān)注到文本明顯的語義特征。

        針對(duì)目前長(zhǎng)文本分類研究中忽略文本明顯語義信息,以及預(yù)訓(xùn)練模型BERT對(duì)輸入長(zhǎng)度限制等缺點(diǎn),本文提出將分割注意力長(zhǎng)文融合模型應(yīng)用于海事海商長(zhǎng)文數(shù)據(jù)集和復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集,與基線模型分類準(zhǔn)確率比較,提升長(zhǎng)文本類文檔的分類效果。通過模型分類準(zhǔn)確率以及收斂速度驗(yàn)證了所提出的分割注意力長(zhǎng)文融合模型有效性。

        本文主要貢獻(xiàn)如下:

        1) 將輸入文本分割成小塊,不需要重新預(yù)訓(xùn)練BERT模型,將文本表示階段的復(fù)雜度由O(n2)降低為O(ns),其中n表示輸入的文本長(zhǎng)度,s表示劃分的小塊文本長(zhǎng)度。

        2) 在句向量表示中通過融合特征,組合卷積神經(jīng)網(wǎng)絡(luò)提取的特征向量和BERT模型表示生成的句向量,使用2組目標(biāo)向量綜合表示句子特征,關(guān)注到文本最具區(qū)別性的語義特征。

        3) 針對(duì)海事海商長(zhǎng)文數(shù)據(jù)集在篇章結(jié)構(gòu)方面的正式程度以及存在冗余信息導(dǎo)致文本的特征不突出等特點(diǎn),結(jié)合提出的分割注意力長(zhǎng)文融合模型對(duì)其進(jìn)行文本分類,實(shí)驗(yàn)表明該模型相對(duì)于基準(zhǔn)模型具有更優(yōu)的表現(xiàn)。

        1 分割注意力長(zhǎng)文融合模型

        本文提出的長(zhǎng)文本分類模型如圖1所示,主要包括詞嵌入層、CNN層、Bi-LSTM層、注意力層。

        分割注意力長(zhǎng)文融合模型首先對(duì)預(yù)處理的長(zhǎng)文本進(jìn)行分割,將劃分好的小段文本分別送入BERT預(yù)訓(xùn)練模型,獲取包含局部文本的詞向量和句向量。其次,將詞向量送入卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)生成局部文本的特征向量,融合局部文本的特征向量和句向量作為文本的最終句向量。然后,將長(zhǎng)文劃分后的n組文本融合的句向量輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,Bi-LSTM)提取文本的全局信息。最后,通過引入注意力機(jī)制關(guān)注重點(diǎn),采用softmax得到長(zhǎng)文本最終概率表達(dá),提高模型分類效率和準(zhǔn)確度。

        圖1 分割注意力長(zhǎng)文融合模型結(jié)構(gòu)圖

        1.1 文本劃分

        由于本文研究?jī)?nèi)容是長(zhǎng)文本分類,文本篇幅較長(zhǎng),遠(yuǎn)大于BERT的最大輸入序列長(zhǎng)度。如果采用截?cái)辔谋痉绞绞蛊錆M足BERT對(duì)輸入序列長(zhǎng)度要求,則會(huì)丟失文本的大量信息,降低分類的準(zhǔn)確率。而如果增加位置嵌入的長(zhǎng)度,從頭開始重新預(yù)訓(xùn)練,不僅將消耗大量的硬件資源,而且由于計(jì)算復(fù)雜度隨輸入文本長(zhǎng)度的平方增長(zhǎng),將耗費(fèi)大量的計(jì)算時(shí)間。因此,本文采用將長(zhǎng)文本劃分為多個(gè)短句子的方式,保留文本全局信息。

        文本劃分的過程首先是判斷數(shù)據(jù)庫中文本每句話的平均長(zhǎng)度L,按照每K個(gè)句子為一組作為預(yù)訓(xùn)練語言模型BERT的輸入,將文本分為N組。文本劃分的偽代碼如下:

        算法:文本劃分

        Input:一篇裁決文書x,句子平均長(zhǎng)度L,一組句子數(shù)K,抽取次數(shù)N

        Output:被分為N組的新文書X_chunk

        1: Begin

        2:X_stence=[],X_chunk=[]

        3: num_sentence=len(x)//L//一篇文書有多少句話

        4:i=0

        5: whilei

        6: start_index=i*L//起始索引

        7: end_index=min(start_index+L,len(x))

        8:X_stence.add(x[start_index:end_index])

        9: //將分割的句子追加到X_stence

        10:i=i+1

        11: end while

        12: if len(X_stence)

        13: while len(X_stence)

        14: re=K*N-len(X_stence)

        15:X_stence=X_stence+X_stence[:re]

        16: end while

        17: end if

        18:j=0

        19: whilej

        20:X_chunk.add(X_stence[j*k,(j+1)*k]

        21:j=j+1

        22: end while

        23: end

        1.2 BERT詞嵌入

        采用BERT預(yù)訓(xùn)練語言模型作為詞嵌入層來學(xué)習(xí)文本表示,對(duì)劃分文本內(nèi)容的兩端加入BERT特殊的標(biāo)記,[CLS]表示句子的分類,[SEP]表示句子的結(jié)束。文本經(jīng)過詞嵌入 (token embeddings)、句子嵌入(segment embeddings)、位置嵌入(position embeddings)三者的相加融合得到BERT編碼器的輸入信息,過程如圖2所示。通過多個(gè)雙向Transformer編碼器編碼后得到文本的向量表示。[CLS]位于句首,對(duì)應(yīng)的最終隱藏狀態(tài)將表示輸入文本的句向量,記為L(zhǎng)∈RH;第i個(gè)詞所對(duì)應(yīng)的詞向量,記作Ti∈RH。

        圖2 詞嵌入構(gòu)造

        1.3 句向量融合

        在已有的層次分類網(wǎng)絡(luò)模型研究中,研究者在訓(xùn)練模型的過程中往往使用全局目標(biāo)向量,缺乏關(guān)注文本中明顯的語義特征。因此,在文本的句向量表示階段,融合BERT的self-attention機(jī)制獲得的句向量以及卷積神經(jīng)網(wǎng)絡(luò)提取的特征向量雙通道信息,作為文本的最終句向量表示。

        對(duì)劃分好的局部文本進(jìn)行特征提取,本文的TextCNN網(wǎng)絡(luò)由輸入層、卷積層、池化層、融合層構(gòu)成,如圖3所示。輸入層是文本所對(duì)應(yīng)的詞向量組成n×k的矩陣,其中n為局部文本的詞數(shù)量,k表示詞向量的維度。輸入層的每一行都是一個(gè)單詞對(duì)應(yīng)的維詞向量。卷積層通過運(yùn)用多組不同大小的卷積核進(jìn)行特征提取,每種尺寸的卷積核有m個(gè)。卷積運(yùn)算公式為

        (1)

        圖3 TextCNN網(wǎng)絡(luò)

        (2)

        池化層對(duì)卷積層的結(jié)果維度進(jìn)行降維,減小過擬合,提高所提取特征的魯棒性。池化層常采用的方式是均值池化和最大池化。在本文研究中,采用最大池化方式提取文本特征圖的主要特征,最大池化公式為:

        (3)

        以上是使用一種卷積核的計(jì)算過程,在本文模型中采用3種不同尺寸的卷積核提取特征。將不同卷積核池化后的特征進(jìn)行融合,將得到如下的特征向量zj。

        (4)

        將第j組局部文本通過BERT預(yù)訓(xùn)練模型獲得的句向量lj與卷積神經(jīng)網(wǎng)絡(luò)提取的特征向量zj進(jìn)行融合,構(gòu)成局部文本的最終句向量sj。

        sj=lj⊕zj

        (5)

        1.4 Bi-LSTM與注意力機(jī)制

        雖然循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)具有很強(qiáng)的捕獲上下文信息的能力,但是容易出現(xiàn)梯度爆炸或梯度消失的問題。引入門控機(jī)制的LSTM能夠解決RNN問題,但只能學(xué)習(xí)當(dāng)前序列節(jié)點(diǎn)之前的信息,無法聯(lián)系下文,所以本文利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional long-short term memory,Bi-LSTM)代替普通的LSTM,通過前向LSTM和后向LSTM網(wǎng)絡(luò)結(jié)合,充分考慮當(dāng)前節(jié)點(diǎn)的上下文語義信息。

        圖4 LSTM單元結(jié)構(gòu)

        LSTM按照時(shí)間順序接收局部文本特征st作為輸入向量,Ct-1和ht-1分別為前一時(shí)刻的單元狀態(tài)和輸出值;Wf、Wi、Wc、Wo分別代表遺忘門、輸入門、當(dāng)前輸入單元狀態(tài)和輸出門的權(quán)重矩陣;bf、bi、bc、bo分別代表遺忘門、輸入門、當(dāng)前輸入單元和輸出門的偏置項(xiàng);LSTM在各節(jié)點(diǎn)的更新計(jì)算如式(6)—(11)所示。通過式(6)決定遺忘細(xì)胞狀態(tài)Ct-1中的哪些信息;借助式(7)—(8)決定保留新輸入信息ht-1和st中的哪些信息;通過式(9)實(shí)現(xiàn)細(xì)胞狀態(tài)Ct的更新;借助式(10)—(11)實(shí)現(xiàn)時(shí)刻的信號(hào)輸出。

        ft=σ(Wf·[ht-1,st]+bf)

        (6)

        it=σ(Wi·[ht-1,st]+bi)

        (7)

        (8)

        (9)

        ot=σ(Wo·[ht-1,st]+bo)

        (10)

        ht=ot*tanh(Ct)

        (11)

        (12)

        (13)

        uj=tanh(Wshj+bs)

        (14)

        (15)

        v=∑jαjhj

        (16)

        文本向量v經(jīng)過一層隱藏層后,通過softmax函數(shù)計(jì)算其概率最大值的類別作為目標(biāo)類別,計(jì)算公式如下:

        (17)

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)環(huán)境

        為驗(yàn)證分類模型性能,本文所提出的方法和基準(zhǔn)實(shí)驗(yàn)均在Ubuntu 18.04系統(tǒng)上進(jìn)行,CPU為Intel(R) Xeon(R) Silver 4216,使用Python 3.6.5版本編程語言,為表示語義信息使用BERT訓(xùn)練詞向量,并采用CUDA 10.2加速訓(xùn)練。具體實(shí)驗(yàn)環(huán)境如表1所示。

        表1 實(shí)驗(yàn)環(huán)境

        2.2 實(shí)驗(yàn)數(shù)據(jù)

        本文方法在海事海商長(zhǎng)文數(shù)據(jù)集和復(fù)旦大學(xué)中文文本分類語料庫2個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

        海事海商長(zhǎng)文數(shù)據(jù)集來源于中國(guó)裁判文書網(wǎng),由專門審理海事和海商案件的海事法院發(fā)布。收納的案件包括如下5類:海事請(qǐng)求保全、海商合同糾紛、其他海事海商、海事執(zhí)行、海事侵權(quán)糾紛。裁判文書已由法律專業(yè)人員進(jìn)行案由標(biāo)注,具有權(quán)威性。與其他類型的文本相比,裁決文書中各法律要素之間相關(guān)性強(qiáng)、專業(yè)術(shù)語使用頻率高,且文本冗長(zhǎng)、特征不突出,在中文長(zhǎng)文本領(lǐng)域具有重要的研究?jī)r(jià)值。本文使用的數(shù)據(jù)集包括22 137篇文書,每類文書的平均字?jǐn)?shù)均大于700字,數(shù)據(jù)集整體文書字?jǐn)?shù)均值2 000字左右,明顯長(zhǎng)于常見的數(shù)據(jù)集(THUCNews、Amazon review等)。將數(shù)據(jù)集按照8∶1∶1分別劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,海事海商長(zhǎng)文數(shù)據(jù)集的詳細(xì)信息如表2所示。

        表2 海事海商長(zhǎng)文數(shù)據(jù)集統(tǒng)計(jì)信息

        復(fù)旦大學(xué)中文文本分類語料庫來源于復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國(guó)際數(shù)據(jù)庫中心自然語言處理小組。通過對(duì)文本語料庫去重和預(yù)處理,去掉字?jǐn)?shù)小于500字的文本,選取其中的5類文本作為最終的實(shí)驗(yàn)數(shù)據(jù)集。該數(shù)據(jù)集包含8 376篇文書,每類文書的平均字?jǐn)?shù)均超過2 100字,數(shù)據(jù)集的整體文書字?jǐn)?shù)均值在3 400字左右,屬于長(zhǎng)文本。復(fù)旦大學(xué)中文文本分類語料庫實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)信息如表3所示。

        表3 復(fù)旦文本分類語料庫實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息

        2.3 評(píng)價(jià)指標(biāo)

        本文選用文本分類領(lǐng)域的通用評(píng)測(cè)標(biāo)準(zhǔn):準(zhǔn)確率Acc(Accuracy)評(píng)測(cè)模型效果,表示預(yù)測(cè)正確的樣本數(shù)占樣本總數(shù)的比例,公式為

        (18)

        式中:TP表示實(shí)際為正例且預(yù)測(cè)為正例;FP表示實(shí)際為負(fù)例且預(yù)測(cè)為正例;TN表示實(shí)際為負(fù)例且預(yù)測(cè)為負(fù)例;FN表示實(shí)際為正例且預(yù)測(cè)為負(fù)例。

        2.4 實(shí)驗(yàn)參數(shù)設(shè)置

        本研究所提出的模型參數(shù)包括詞嵌入層BERT模型和分割注意力長(zhǎng)文融合模型的參數(shù)。在固定其他參數(shù)的前提下,通過改變可變參數(shù)數(shù)值,獲得模型的最優(yōu)參數(shù)。

        BERT采用Google發(fā)布的中文預(yù)訓(xùn)練模型“BERT-Base-Chinese”,其模型參數(shù)如表4所示。

        表4 BERT-Base-Chinese模型參數(shù)

        本文研究中每批次輸入64篇文書,所有的詞向量均采用768維的BERT詞向量表示。分割注意力長(zhǎng)文融合模型中的卷積神經(jīng)網(wǎng)絡(luò)采用單層結(jié)構(gòu),卷積層利用3、4、5的卷積核尺寸各128個(gè);池化層利用最大池化提高所提取特征的魯棒性。采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)關(guān)聯(lián)局部文本,隱藏單元個(gè)數(shù)為100。drop_out比例設(shè)為0.5,防止模型的過擬合。選取Adam作為模型的優(yōu)化器,并將學(xué)習(xí)率設(shè)置為0.001。

        2.5 實(shí)驗(yàn)結(jié)果與分析

        本文使用如下的基準(zhǔn)模型進(jìn)行比較:

        1) TextCNN[9]:TextCNN采用單層卷積神經(jīng)網(wǎng)絡(luò)(CNN),將經(jīng)過預(yù)處理得到的詞向量作為CNN的輸入,卷積核的尺寸以及數(shù)量與原論文設(shè)置相同,利用最大池化提取特征,最后外接softmax進(jìn)行N分類。

        2) TextRNN[19]:將文本整體編碼向量化,向量序列輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)中,然后將最后一位的輸出輸入到全連接層中,再對(duì)其進(jìn)行softmax分類。

        3) CNN_LSTM[12]:文本先經(jīng)過CNN提取局部特征,再用LSTM提取局部特征的長(zhǎng)距離信息,經(jīng)過變換輸入全連接層。

        4) HAN[14]:HAN模型為分層注意力網(wǎng)絡(luò)模型,將輸入文本按照文檔結(jié)構(gòu)劃分為一定數(shù)量的句子,在詞級(jí)以及句子級(jí)別分別進(jìn)行編碼和加入注意力操作,從而實(shí)現(xiàn)對(duì)較長(zhǎng)文本的分類。

        將本文提出的模型與以上模型進(jìn)行實(shí)驗(yàn)比較,結(jié)果如表5所示。

        表5 長(zhǎng)文數(shù)據(jù)集實(shí)驗(yàn)準(zhǔn)確率 %

        由表5可以看出,分割注意力長(zhǎng)文融合模型相較于其他分類模型在所實(shí)驗(yàn)的長(zhǎng)文數(shù)據(jù)集上分類效果更優(yōu)。相對(duì)于TextCNN分類模型,本文所提出的模型分類效果在海事海商長(zhǎng)文數(shù)據(jù)集和復(fù)旦大學(xué)中文數(shù)據(jù)集上分別了提升了7.82%、14.06%。TextCNN采用多組不同卷積核尺寸提取文本特征時(shí)只考慮了局部特征,而分割注意力長(zhǎng)文融合模型在設(shè)計(jì)時(shí)考慮到文本的上下文語義信息,能更好地表示文本高層特征。相較于TextRNN文本分類模型,分類效果分別提升了10.94%、12.50%。TextRNN模型雖然考慮到文本的上下文信息,但是對(duì)于長(zhǎng)文存在記憶減退,而且在分類時(shí)認(rèn)為每個(gè)詞語對(duì)于分類結(jié)果的重要程度等同,分割注意力長(zhǎng)文融合模型不僅考慮文本上下文信息,還引用注意力機(jī)制關(guān)注重點(diǎn)詞、重點(diǎn)句,提升了分類效果。相較于CNN與LSTM的組合模型,效果分別提升了4.69%、9.37%。對(duì)于組合模型來說,同時(shí)考慮了文本上下文信息以及局部特征,因此分類準(zhǔn)確率比單一模型均有所提升,但仍然存在無法關(guān)注對(duì)分類結(jié)果起重要作用的部分,分割注意力長(zhǎng)文融合模型不僅利用CNN網(wǎng)絡(luò)獲取文本的局部重要特征和采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)提取文本上下文語義信息,而且采用注意力機(jī)制關(guān)注重要段落,讓重要部分在分類時(shí)起更大的作用,從而提升分類效果。相對(duì)于采用分層結(jié)構(gòu)的HAN模型,分割注意力長(zhǎng)文融合模型與HAN模型相比,分類準(zhǔn)確率分別提升3.13%、2.50%。HAN模型雖然考慮到輸入文本的層次結(jié)構(gòu),并在詞級(jí)別和句子級(jí)增加注意力機(jī)制關(guān)注重要信息,但是在訓(xùn)練中采用全局目標(biāo)向量,無法關(guān)注到文本明顯的語義特征。本文所提模型采用融合的方式,在句向量層次上通過結(jié)合預(yù)訓(xùn)練語言模型生成的句向量和卷積神經(jīng)網(wǎng)絡(luò)提取的局部特征,有效提高文本語義表示,分類的準(zhǔn)確率更優(yōu)。

        為進(jìn)一步研究各種分類模型在海事海商長(zhǎng)文數(shù)據(jù)集和復(fù)旦大學(xué)中文數(shù)據(jù)集上訓(xùn)練過程中的變化趨勢(shì),分別繪制了各個(gè)模型在驗(yàn)證集上的準(zhǔn)確率變化曲線。從圖5、圖6可以看出,本文提出的分割注意力長(zhǎng)文融合模型收斂速度明顯快于其他分類模型。

        圖5 海事海商長(zhǎng)文數(shù)據(jù)集分類準(zhǔn)確率變化曲線

        圖6 復(fù)旦大學(xué)中文數(shù)據(jù)集分類準(zhǔn)確率變化曲線

        3 結(jié)論

        提出一種基于融合特征的中文長(zhǎng)文本分類方法。該方法采用谷歌中文預(yù)訓(xùn)練語言模型(BERT)進(jìn)行文本表示。首先對(duì)預(yù)處理的長(zhǎng)文本進(jìn)行分割,將劃分好的小段文本分別送入BERT預(yù)訓(xùn)練模型,獲取包含局部文本的詞向量和句向量。然后,將詞向量送入卷積神經(jīng)網(wǎng)絡(luò)生成局部文本的特征向量,融合局部文本的特征向量和句向量作為文本的最終句向量。將長(zhǎng)文劃分后的n組文本融合的句向量輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)提取文本的全局信息。最后,通過引入注意力機(jī)制關(guān)注重要段落,提高模型分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,針對(duì)中文長(zhǎng)文本分類,本文所提方法具有較高的分類準(zhǔn)確率。

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产一区二区三区久久精品| 国产亚洲高清在线精品不卡| 亚洲国产都市一区二区| 国产一区二区三区久久悠悠色av| 亚洲中文字幕成人无码| 福利视频黄| 精品国产又大又黄又粗av | 91精品国产丝袜在线拍| 国产女人高潮的av毛片| 自拍偷自拍亚洲精品第按摩 | 无码啪啪熟妇人妻区| 香港三级日本三韩级人妇久久| 久久午夜羞羞影院免费观看| 人人妻人人澡人人爽曰本| 国产码欧美日韩高清综合一区 | 日韩中文字幕一区二区二区| 97精品超碰一区二区三区| 日本国产视频| 久久久精品国产亚洲av网不卡| 音影先锋中文字幕在线| 男女车车的车车网站w98免费| 国产成人精品日本亚洲语音1| 国产黄色三级三级三级看三级| 亚洲精品乱码久久久久久不卡| 亚洲aⅴ无码成人网站国产app| 精品国产91久久久久久久a| 在线视频一区色| 国产高跟丝袜在线诱惑| 少妇连续高潮爽到抽搐| 东京热人妻一区二区三区| 天堂影院一区二区三区四区| 欧美深夜福利视频| 国产内射一级一片高清内射视频| 国产国产人免费人成免费视频| 亚洲精品国产综合一线久久| 国产一区二区毛片视频| 无人区乱码一区二区三区| 人妻少妇精品视频一区二区三区| 亚洲国产AⅤ精品一区二区不卡| 亚洲熟女少妇一区二区三区青久久| 最新国产精品久久精品|