亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        BERT編碼與注意力機(jī)制結(jié)合的長文本分類研究

        2023-05-14 02:58:10陳潔
        計(jì)算機(jī)時代 2023年5期
        關(guān)鍵詞:文本分類注意力機(jī)制特征向量

        陳潔

        摘? 要: 預(yù)訓(xùn)練語言模型具有強(qiáng)大的特征表達(dá)能力但無法直接應(yīng)用于長文本。為此,提出分層特征提取方法。在BERT允許的最大序列長度范圍內(nèi)按句子的自然邊界分割文本,應(yīng)用自注意力機(jī)制獲得首塊和尾塊的增強(qiáng)特征,再利用PCA算法進(jìn)行壓縮獲取主要特征成分。在THUCNews和Sogou數(shù)據(jù)集上進(jìn)行5折交叉驗(yàn)證,分類準(zhǔn)確率和加權(quán)F1-score的均值分別達(dá)到95.29%、95.28%和89.68%、89.69%。該方法能夠提取與主題最相關(guān)的特征,提高長文本分類效果,PCA壓縮特征向量能夠降低分類模型的復(fù)雜度,提高時間效率。

        關(guān)鍵詞: 文本分類; 預(yù)訓(xùn)練語言模型; 注意力機(jī)制; 特征向量; PCA

        中圖分類號:TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2023)05-136-04

        Research on long text classification based on the combination of BERT

        feature representation and attention mechanism

        Chen Jie

        (School of Data Science and Information Technology, China Women's University, Beijing 100101, China)

        Abstract: The pre-trained language models have strong feature expression ability, but could not be applied to long text directly. A hierarchical feature extraction method is proposed for this purpose. Within the maximum sequence length allowed by BERT, the text is segmented into blocks according to the natural boundary of the sentence. The self-attention mechanism is applied to obtain the enhanced features of the first block and the last block. Then PCA algorithm is used to compress the initial feature vector to obtain the main feature components. The 5-fold cross validation is carried out on THUCNews and Sogou datasets, and the mean values of the classification accuracy and weighted F1-score on the two datasets are 95.29%, 95.28% and 89.68%, 89.69%, respectively. The proposed classification model can extract the text features most related to the topic and improve the classification effect of long text. PCA compression feature vector can reduce the model complexity and improve time efficiency.

        Key words: text classification; pre-trained language model; attention mechanism; feature vector; PCA

        0 引言

        海量文本的自動分類在知識發(fā)現(xiàn)、主題挖掘、輿情監(jiān)控等任務(wù)中發(fā)揮了巨大作用,成為自然語言處理(NLP)的重要研究內(nèi)容。文本表征對文本分類效果至關(guān)重要,長文本因其語義更加多樣化,文本蘊(yùn)含的主題不惟一且存在冗余和噪聲等問題,增加了分類難度。

        傳統(tǒng)的向量空間模型可以生成文本特征向量,但丟失詞序,不能表征全局語義。神經(jīng)網(wǎng)絡(luò)語言模型可以獲得分布式文本表示,使得文本能基于語義關(guān)聯(lián)進(jìn)行分類。目前,神經(jīng)網(wǎng)絡(luò)分類模型的文本表征有基于詞嵌入方式和基于預(yù)訓(xùn)練語言模型方式。

        以BERT[1]為代表的預(yù)訓(xùn)練模型具有強(qiáng)大的特征提取功能,但是Transformer結(jié)構(gòu)對輸入序列有一個固定的長度限制,在BERT中最大為512?;贐ERT模型,層次法成為長文本編碼的主要方式。文獻(xiàn)[2]以句子為單位進(jìn)行編碼,以首句作為主題句,采用首句拼接注意力加權(quán)句向量方式生成文檔向量,由于句子長短不一,短句通常包含較少的上下文信息,并且如果首句不是主題句則會影響文檔表征效果。文獻(xiàn)[3]以200字的文本片段分割文檔,對每個片段進(jìn)行嵌入表示,兩個連續(xù)片段之間有50字的重疊,然后利用LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)組合各個片段向量獲得全局特征表示;文獻(xiàn)[4]將長文本分割為500字的重疊塊,再通過平均池化獲得全局特征表示,根據(jù)固定長度劃分序列,沒有考慮句子的自然邊界,會因分割片段在語義上的不完整而影響整體的語義理解。

        針對已有研究中存在的問題,構(gòu)建HT-ATT-CONC模型,在BERT允許的最大序列長度范圍內(nèi),將文檔分割為具有完整語義的數(shù)據(jù)塊,再結(jié)合文本分類任務(wù)的特點(diǎn),利用BERT編碼并結(jié)合自注意力機(jī)制整合數(shù)據(jù)塊,有效獲取全局語義表征,在THUCNews和Sogou新聞數(shù)據(jù)集上通過5折交叉驗(yàn)證模型在長文本上的分類性能。

        1 注意力機(jī)制

        BERT采用深度雙向Transformer結(jié)構(gòu),使用多頭自注意力(Self-Attention)機(jī)制對文本建模,不僅可以捕捉長距離的文本特征,而且在編碼當(dāng)前單詞的時候還關(guān)注上下文中和它有關(guān)的單詞,將注意力集中在重要的信息上,并通過深層網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)深層次的上下文關(guān)聯(lián),增強(qiáng)了模型的表達(dá)能力。注意力機(jī)制的核心邏輯就是從全局信息中挖掘重點(diǎn)信息,并給予更多的重視[5]。

        利用Self-Attention機(jī)制,可以通過注意力分布生成不同的權(quán)重,使得權(quán)重與數(shù)據(jù)本身的重要性相關(guān),即焦點(diǎn)詞語的權(quán)重大,由此得到目標(biāo)字的注意力加權(quán)值,獲取全局上下文信息[6,7]。

        2 BERT與注意力機(jī)制結(jié)合的分類模型

        利用BERT進(jìn)行長文本編碼,為了獲取全局語義特征,需要切分文本,再組合分片向量以解決文檔碎片問題。本文構(gòu)建HT-ATT-CONC模型,首先將文本分割為具有完整語義的數(shù)據(jù)塊,并對每個數(shù)據(jù)塊進(jìn)行嵌入表示;再利用自注意力機(jī)制整合塊向量,突出與分類主題最相關(guān)的內(nèi)容特征;最后通過一個全連接層和Softmax層,完成文本分類。

        2.1 分割文本塊

        從閱讀行為可知:段落比單個句子會包含更多與文本主題相關(guān)的語義;文本中存在的各種標(biāo)點(diǎn)符號對閱讀起著重要作用,保持這種分割可以有效保留原始文本中的語義信息;新聞首尾部分的內(nèi)容通常與新聞主題的相關(guān)性最大。

        為此,在BERT允許的最大序列長度范圍內(nèi),將文本分割為具有完整語義的文本塊。方法如下:

        ⑴ 按照句子的自然邊界,將文檔分割為不超過 510字符的數(shù)據(jù)塊,數(shù)據(jù)塊中的句子保持完整,不跨段,否則將最后一句劃分到下一個數(shù)據(jù)塊。

        ⑵ 分割后的數(shù)據(jù)塊如果超過三個,則調(diào)整最后兩塊,從后往前截取不超過510字符的內(nèi)容,數(shù)據(jù)塊中的句子保持完整。

        2.2 文檔特征表示

        ⑴ 文本塊的編碼

        在BERT模型中,“[CLS]”作為特殊字符,本身不具備任何語義,可用來代表輸入文本的綜合語義信息,本文用該字符的嵌入表示作為每個數(shù)據(jù)塊的特征向量,文檔中第i個數(shù)據(jù)塊的特征編碼為Ei。

        預(yù)訓(xùn)練語言模型利用不同領(lǐng)域的大規(guī)模語料預(yù)訓(xùn)練以學(xué)習(xí)通用的先驗(yàn)語義知識,生成的向量維度通常都是上百維,而下游任務(wù)一般只涉及某個領(lǐng)域的應(yīng)用,因此可以利用PCA(Principal Component Analysis,主成分分析法)算法對分布式表示的Ei進(jìn)行壓縮,提取主要特征成分。

        ⑵ 全局語義表征

        為獲得全局語義特征,需要組合文檔中的塊向量。Self-Attention具有關(guān)注全局又聚焦重點(diǎn)的特性,并且新聞的首尾部分通常與主題的相關(guān)性更高,為此,將文檔中的各個塊向量分別與首塊和尾塊對齊,通過注意力權(quán)重突出與分類主題最相關(guān)的內(nèi)容特征。本文采用Scaled dot-product attention方法進(jìn)行注意力加權(quán):

        [α=softmaxQKTd] ? ⑴

        [att=α*V]? ⑵

        Q(Query)表示目標(biāo)文本、K(Key)表示上下文中的文本、V(Value)表示文本塊的原始向量,通過計(jì)算Q和K的注意力得分對V加權(quán)。[α]為注意力權(quán)值,利用Softmax函數(shù)進(jìn)行歸一化,得到(0,1)范圍的注意力分布;d是一個調(diào)節(jié)參數(shù),較小的取值可以保持指數(shù)函數(shù)的輸入盡可能大,關(guān)注最重要的文本塊;[att]為注意力加權(quán)向量,代表目標(biāo)向量Q的增強(qiáng)語義表示。

        具體過程如下:

        ⑴ 利用PCA算法來對Ei進(jìn)行主成分分析,得到降維后的特征編碼Ei。

        ⑵ 利用公式⑴計(jì)算文檔第一個塊向量E0對文檔所有塊向量Ej(j=0,1,2,…,n-1)的注意力得分(Q為E0,K、V為Ej)得到注意力加權(quán)的文檔特征向量Eatt(h),第一個數(shù)據(jù)塊的特征權(quán)重最大,其次是與第一塊關(guān)系密切的其他數(shù)據(jù)塊,由此,可以增強(qiáng)首塊的語義表示,使分類特征更加顯著。

        ⑶ 利用公式⑴計(jì)算文檔最后一個塊向量En-1對文檔所有塊向量Ej的注意力得分,得到注意力加權(quán)后的文檔特征向量Eatt(t),增強(qiáng)尾塊的語義表示。

        ⑷ 將Eatt(h)與Eatt(t)進(jìn)行拼接,得到文檔表征E,作為初始的分類特征向量。

        [E=Eatt(h)⊕Eatt(t)] ⑶

        2.3 分類性能度量

        本文采用準(zhǔn)確率(Acc)和加權(quán)F1-score(WF1)來評價模型的性能。

        準(zhǔn)確率是分類正確的樣本數(shù)占總樣本數(shù)的比例,計(jì)算公式為:

        [acc=TP+TNTP+FP+TN+FN] ⑷

        其中,TP表示正確分類的樣本數(shù),F(xiàn)P表示錯誤分類的樣本數(shù)。

        F1-score是精確率P和召回率R的調(diào)和值,是一個綜合指標(biāo)。當(dāng)數(shù)據(jù)類別不平衡時,加權(quán)F1-score(WF1)可以更準(zhǔn)確的評價分類性能,計(jì)算公式為:

        [F1=2*P*RP+R] ⑸

        [WF1=i=1kwi*F1i] ? ⑹

        其中,k是樣本類別數(shù),[wi]是數(shù)據(jù)集中第i類樣本占總樣本的比例,[F1i]是第i類樣本的F1-score。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)設(shè)置

        ⑴ 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)選擇THUCNews 和Sogou兩個公開的新聞數(shù)據(jù)集進(jìn)行測試,隨機(jī)選擇長度在100~10000之間的新聞,如表1所示。

        ⑵ 數(shù)據(jù)塊編碼與對比模型

        實(shí)驗(yàn)采用BERT改進(jìn)版的Roberta(Chinese_Roberta_wwm_ext)作為編碼器,嵌入向量的維度為768,Roberta在訓(xùn)練語料和MASK方式上與BERT存在差異,編碼效果更出色。利用THUCNews數(shù)據(jù)集微調(diào)后再編碼。對比實(shí)驗(yàn)有以下4種,文本特征維度均為768。

        ① Baseline模型:使用文本第一個數(shù)據(jù)塊的特征向量作為文檔的特征表示。

        ② H-ATT模型:使用注意力加權(quán)的首塊特征向量作為文檔的特征表示。

        ③ HT-CONC模型:使用PCA算法對初始塊向量進(jìn)行主成分分析,得到維度為384的新的塊向量,再將首塊與尾塊拼接,得到文檔特征向量。

        ④ HT-ATT-CONC模型:使用PCA算法對初始塊向量進(jìn)行主成分分析,得到維度為384的新的塊向量,再將注意力加權(quán)后的首塊與尾塊拼接,得到文檔特征向量。

        3.2 實(shí)驗(yàn)結(jié)果

        基于Keras的bert4keras框架構(gòu)建模型,分類訓(xùn)練和預(yù)測的神經(jīng)網(wǎng)絡(luò)包含一個全連接層、Dropout層和Softmax層,使用 ADAM 優(yōu)化器。采用5折交叉驗(yàn)證,用5次結(jié)果的準(zhǔn)確率(Acc)和加權(quán)F1-score(WF1)的均值作為分類性能的評估。為考查長文本特征表示方法在分類應(yīng)用上的效果,進(jìn)一步對不同長度范圍內(nèi)不同類別的文檔分別評估Acc和WF1性能。

        ⑴ THUCNews數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

        全連接層的隱藏單元數(shù)為64,Softmax層的隱藏單元數(shù)為14,結(jié)果如表2所示。

        Baseline模型的ACC均值和WF1均值都超過94%,表明文檔開頭部分包含了較強(qiáng)的主題特征。三種對比模型的分類性能均超過Baseline,說明對文檔開頭和結(jié)尾部分的特征補(bǔ)充,可以增強(qiáng)主題特征,提高分類效果。其中,H-ATT模型通過注意力機(jī)制關(guān)注了文檔其他部分的相關(guān)特征;HT-CONC模型通過文檔首尾兩部分特征的拼接表達(dá)全局語義,這也表明,新聞?wù)Z料的開頭和結(jié)尾部分通常包含了更多的主題特征;HT-ATT-CONC模型不僅利用了首、尾部分的特征信息,還通過注意力機(jī)制融合了文檔其他部分特征,因此模型效果最好,與Baseline相比,ACC均值提高1.134%,WF1均值提高1.142%,

        對于長度大于1000的樣本,HT-ATT-CONC模型的WF1均值提高了1.56%,表明該模型能夠很好地提取THUCNews實(shí)驗(yàn)集中長文檔的主題特征。

        ⑵ Sogou數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

        全連接層的隱藏單元數(shù)為128,softmax層的隱藏單元數(shù)為10,結(jié)果如表3所示。

        Baseline模型的ACC均值和WF1均值都超過88%,三種對比模型的分類性能均超過Baseline,且HT-ATT-CONC模型效果最好,與Baseline相比,ACC均值提高1.128%,WF1均值提高1.140%。對于長度大于1000的樣本,HT-ATT-CONC比Baseline模型的WF1均值提高了1.47%。

        ⑶ 壓縮文檔特征對分類性能的影響

        上述模型采用PCA算法降維,文檔特征維度均為768。若直接使用初始特征,則文檔特征的維度為1536,使用HT-ATT-CONC模型在兩個數(shù)據(jù)集上的分類結(jié)果如表4所示。

        特征維度為1536時的分類性能并沒有明顯的改善,甚至稍有降低;而且,訓(xùn)練參數(shù)增多,也增加了模型的訓(xùn)練時間。采用PCA算法對數(shù)據(jù)塊的初始特征進(jìn)行降維,提取主要特征再進(jìn)行分類是有效的。

        4 結(jié)束語

        BERT具有強(qiáng)大的特征提取能力,注意力機(jī)制具有關(guān)注全局又聚焦重點(diǎn)的特性,將二者結(jié)合應(yīng)用于長文本特征表示,構(gòu)建HT-ATT-CONC分類模型,在分割文檔時保證語義的完整性、在應(yīng)用注意力時選擇合適的對齊目標(biāo),對文檔開頭部分和結(jié)尾部分進(jìn)行語義增強(qiáng)表示,再將兩者拼接起來,形成全局語義表征,能夠提高長文檔分類效果。

        HT-ATT-CONC模型在一些數(shù)據(jù)上的分類性能不太顯著,后續(xù)將進(jìn)一步改進(jìn),應(yīng)用多頭注意力使提取的語義信息特征更為全面和魯棒,以取得更好的分類效果。

        參考文獻(xiàn)(References):

        [1] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-

        training of deep bidirectional transformers for language understanding[EB/OL].(2019-05-24)[2022-10-7].https://arxiv.org/pdf/1810.04805.pdf.

        [2] 葉瀚,孫海春,李欣等.融合注意力機(jī)制與句向量壓縮的長文

        本分類模型[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2022(6):84-94

        [3] Raghavendra Pappagari,Piotr Zelasko,Jesus Villalba etal.

        Hierarchical Transformers for Long Document Classification[EB/OL].(2019-10-23) [2022-10-07].https://arxiv.org/pdf/1910.10781.pdf.

        [4] Mandal A, Ghosh K, Ghosh S et al. Unsupervised

        approaches for measuring textual similarity between legal court case reports. Artificial Intelligence and Law[J].Springer,2021,(29):417-451

        [5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you

        need[C]//Proceedings of the Advances in neural information processing systems.2017:5998-6008

        [6] Guo Q,Qiu X,Liu P,et al. Multi-Scale Self-Attention for

        Text Classification[J].American Association for Artificial Intelligence(AAAI),2020,34(5):7847-7854

        [7] Ran Jing.A Self-attention Based LSTM Network fffor Text

        Classification[C]//Proceedings of 2019 3rd International Conference on Control Engineering and Artificial Intelligence(CCEAI 2019).Los Angeles,USA,2019:75-79

        猜你喜歡
        文本分類注意力機(jī)制特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        基于深度學(xué)習(xí)的問題回答技術(shù)研究
        一類特殊矩陣特征向量的求法
        基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
        基于注意力機(jī)制的雙向LSTM模型在中文商品評論情感分類中的研究
        軟件工程(2017年11期)2018-01-05 08:06:09
        InsunKBQA:一個基于知識庫的問答系統(tǒng)
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        久久久国产精品黄毛片| 美女扒开屁股让男人桶| 亚洲精品无码不卡在线播he| 久久亚洲精品成人av无码网站| 久久久久亚洲av无码专区首jn| 日韩插啊免费视频在线观看| 日韩毛片基地一区二区三区| 日本aⅴ大伊香蕉精品视频| 亚洲日韩精品国产一区二区三区| 久久精品无码一区二区乱片子| 欧美精品日韩一区二区三区| 国产目拍亚洲精品二区| 亚洲国产国语对白在线观看| 人妻少妇精品视频专区vr| 无码一区二区三区中文字幕| 人妻少妇久久中文字幕一区二区 | 久久久久亚洲精品无码网址蜜桃| 日本爽快片18禁免费看| 亚洲国产18成人中文字幕久久久久无码av| 国产女奸网站在线观看| 女优视频一区二区三区在线观看| 中文字幕日本av网站| 免费a级毛片在线播放| 久久精品中文字幕大胸| 爱情岛论坛亚洲品质自拍hd| 人妻丰满av无码中文字幕| 国产熟女乱综合一区二区三区| 久久精品熟女亚洲av香蕉| 午夜精品久久久久久久久| 欧美丰满熟妇aaaaa片| 亚洲AV无码成人精品区网页| 精品一区二区三区不老少妇| 爆操丝袜美女在线观看| 老师露出两个奶球让我吃奶头| 亚洲中文字幕无码一区| 国产福利片无码区在线观看| 亚洲综合在线一区二区三区| 中文字幕亚洲熟女av| 亚洲熟妇无码一区二区三区导航| 中文字幕亚洲乱码熟女在线萌芽| 国产精品三级在线专区1 |