亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的中文新聞標題分類

        2022-08-16 03:11:24張仰森李劍龍
        計算機工程與設計 2022年8期
        關鍵詞:分類特征文本

        苗 將,張仰森,李劍龍

        (北京信息科技大學 智能信息處理研究所,北京 100101)

        0 引 言

        隨著信息技術的迅速發(fā)展,通過手機接入互聯(lián)網(wǎng)獲取信息,已成為人類社會的重要手段。運營商迫切需要準確高效地將信息分類,并給予用戶個性化推送服務,這也是研究文本分類任務的重點。文本分類作為自然語言處理和信息管理的一種高效方式,是通過對目標文檔的主題或內(nèi)容分析,依據(jù)構建的分類體系或標準,高效有序的將文本歸屬到相應類別的過程。傳統(tǒng)機器學習在用于文本分類時,表征能力有限,對于文本的語義、結構和上下文理解淺薄。深度學習彌補了傳統(tǒng)機器學習在文本分類中的薄弱之處,改善學習上下文的能力,但存在模型可解釋性不強、難以針對調(diào)整特征等缺點。本文提出一種使用BERT完成詞向量訓練,連接單向GRU網(wǎng)絡提取文本主要特征,再利用注意力機制加權求和調(diào)整權重比例,然后連接單向LSTM網(wǎng)絡提取核心的上下文特征的分類模型BGAL(BERT based on GRU with ATTENTION and LSTM)。

        1 相關工作

        1.1 詞向量

        將字詞表達成計算機可以理解的形式,是自然語言處理的首要任務。詞向量就是將詞語映射到實數(shù)的向量,最簡單的詞向量表示是每個詞都單獨表示。One-hot編碼使用N位數(shù)據(jù)對N個詞向量進行編輯,即詞向量的維度與詞匯表長度相等,每個詞都有固定的索引位置,詞向量之間僅有一位數(shù)據(jù)不同。雖然One-hot編碼可以簡單快捷生成詞向量,但面對大規(guī)模詞語時,會產(chǎn)生維度災難,并且每個詞語相互獨立無法體現(xiàn)出詞與詞之間的聯(lián)系。

        想讓詞向量之間具有一定聯(lián)系,可以選擇Word2vec來表示。Word2vec的詞向量是疏密向量,是將字詞轉化為連續(xù)形式的低維度值,在向量空間中將含義相近的詞語映射到鄰近位置。Word2vec雖然將詞與詞聯(lián)系了起來,避免了維度災難,但仍無法對一詞多義有較好的處理,同時Word2vec無法對指定任務做動態(tài)優(yōu)化。

        1.2 BERT模型

        BERT模型獲取的是豐富包含文本語義信息的特征,通過訓練大規(guī)模無標注語料來實現(xiàn)的。BERT模型不同于僅僅獲得字詞的語義信息的模型,而是專注于獲得整個文本的綜合語義信息。BERT作為一個訓練的語言表征模型,隨機遮蓋句子中的詞語,然后訓練模型來預測被去掉的詞語。理解兩個句子之間的關系也是自然語言處理的核心任務,BERT模型從語料庫中隨機挑出兩個句子,有一半的概率這兩個句子是連貫的,另一半的概率這兩個句子是完全無關的,通過如此訓練,BERT模型就具備了理解并聯(lián)系序列上下文的能力。

        1.3 神經(jīng)網(wǎng)絡

        神經(jīng)網(wǎng)絡是由多個神經(jīng)元相互連接形成的網(wǎng)狀結構。簡單問題可交于神經(jīng)元處理,神經(jīng)網(wǎng)絡負擔復雜問題的解決,通過增加神經(jīng)網(wǎng)絡層數(shù)可以挖掘數(shù)據(jù)暗含較深的聯(lián)系。在神經(jīng)網(wǎng)絡大致有3個運行步驟,數(shù)據(jù)由輸入層輸入,關系被隱含層分析,結果經(jīng)輸出層輸出。深度神經(jīng)網(wǎng)絡是神經(jīng)網(wǎng)絡的關鍵,其代表有CNN(卷積神經(jīng)網(wǎng)絡)和RNN(循環(huán)神經(jīng)網(wǎng)絡)。CNN具備空間性分布數(shù)據(jù)的能力,RNN具備時間性分布數(shù)據(jù)的能力。人工智能的學習深度和能力被深度神經(jīng)網(wǎng)絡提升到了一個新的層次。

        通過對已有知識的深入學習,本文提出了BGAL模型,在注重文本分類精度的同時也兼顧速度。該模型是用BERT模型訓練輸入的文本來獲取詞向量,使獲取的詞向量盡可能綜合均衡。得到詞向量之后,將其作為新的輸入,輸送給單向GRU網(wǎng)絡提取主要的文本特征,接著引入注意力機制進行加權求和,分配文本特征的權重,突出重要的文本特征,然后將新的文本特征輸送到單向LSTM網(wǎng)絡提取核心文本特征,使文本分類更加準確。

        2 模型框架

        2.1 框架總覽

        圖1為本文所提出BGAL模型的基本結構圖,其關鍵的處理步驟描述如下。最先將文本數(shù)據(jù)導入,用BERT模型完成無標注語料訓練,獲得綜合語義信息詞向量。然后使用單向GRU網(wǎng)絡對綜合詞向量提取主要特征,再將主要特征輸送給注意力機制,完成權重再分配來突出主要特征。隨后將主要特征輸入單向LSTM網(wǎng)絡,提取核心特征,最后送入分類器進行分類。

        圖1 BGAL模型結構

        BERT訓練模型輸出的語義特征會最大化表達出文本全貌,也就是高效率地不斷調(diào)整模型參數(shù)。傳統(tǒng)訓練模型只能獲取單方向的上下文信息,其表征能力并不夠優(yōu)秀,本質(zhì)上還是單向語言模型。雙向Transformer組件是BERT模型所使用的結構,可以深層雙向融合左右上下文信息的語言特征。本文選擇的BERT模型作為詞向量嵌入層,將其輸出接入神經(jīng)網(wǎng)絡再次訓練,然后進行文本分類任務。BERT模型的結構圖如圖2所示。

        圖2 BERT模型結構

        2.2 GRU網(wǎng)絡

        BERT模型訓練文本生成的詞向量,已經(jīng)注重了文本上下文之間聯(lián)系,然后將其送入單向GRU(gate recurrent unit)網(wǎng)絡中提取特征。GRU網(wǎng)絡因參數(shù)訓練較少,構造相對簡單,運算速度較快而經(jīng)常被使用??梢越㈦p向GRU網(wǎng)絡對文本特征進行提取,但雙向GRU網(wǎng)絡會再度從上下文提取特征,這就與BERT模型的工作有重復。并且雙向GRU網(wǎng)絡需要計算雙倍的總量,大大增加了運算的時間,故本文選取單向GRU網(wǎng)絡提取出主要的文本特征。單向GRU模型結構如圖3所示。

        圖3 GRU網(wǎng)絡結構

        GRU網(wǎng)絡擺脫路徑傳輸信息,利用隱藏狀態(tài)傳輸信息,復位門和更新門是僅有的兩個門結構。圖中的zt表示更新門,rt表示復位門。更新門用于控制信息的添加和遺忘,即當前時刻狀態(tài)中的多少數(shù)據(jù)信息是由前一時刻代入的。更新門的數(shù)值增長,前一時刻代入的狀態(tài)信息便增加。隱藏層狀態(tài)候選寫入的信息量由重置門控制,重置門越小,導致前一時刻寫入的狀態(tài)信息就越少。

        式(1)為更新門的計算方法公式

        zt=α(Wz·[ht-1,xt]+bz)

        (1)

        式(2)為重置門的計算方法公式

        rt=α(Wr·[ht-1,xt]+br)

        (2)

        式(3)為候選隱藏層狀態(tài)的計算方法公式

        (3)

        式(4)為最終輸出的計算方法公式

        (4)

        在式(1)至式(4)中,α表示sigmoid函數(shù),W表示權重矩陣,b表示偏置量,·表示矩陣乘,*表示按元素乘。

        GRU網(wǎng)絡通過上述結構,實現(xiàn)保存之前時刻信息基礎上學習新知識,因為只有重置門和更新門,并且單向傳播,可以大幅減少所需要訓練的參數(shù),加快訓練的速度。

        2.3 注意力機制

        人類大腦最多的數(shù)據(jù)是由視覺獲得的,為了更準確和高效提升視覺信息的處理,會將注意力聚焦于重點區(qū)域。為了讓數(shù)據(jù)構成中的重要部分被訓練所關注,便在神經(jīng)網(wǎng)絡實現(xiàn)預測任務中加入注意力機制,即注意機制可以使神經(jīng)網(wǎng)絡具有聚焦其輸入子集的能力。融合注意力機制的文本,可以降低非關鍵字詞的權重,提升文本數(shù)據(jù)中關鍵字詞的權重。ATTENTION模型結構如圖4所示。

        圖4 ATTENTION結構

        式(5)、式(6)、式(7)為注意力機制的計算方法公式

        uit=tanh(Wwhit+bw)

        (5)

        (6)

        si=∑tαithit

        (7)

        在式(1)至式(4)中,W表示權重矩陣,h為隱藏向量,b表示偏置量。

        2.4 LSTM網(wǎng)絡

        將注意力機制突出的重要特征,輸入到單向LSTM(long short term memory)網(wǎng)絡進一步提取出核心特征。LSTM避免了梯度消失和梯度爆炸出現(xiàn)在序列訓練過程中。LSTM網(wǎng)絡,內(nèi)部具有4個網(wǎng)絡層,其結構相對復雜,精度提取較高。LSTM的隱藏狀態(tài)稱為細胞狀態(tài)。細胞狀態(tài)中,一條貫穿細胞的水平線表示像傳送帶一樣,它貫穿細胞卻分支較少,確保信息不變地流過,而進行添加或者刪除信息的操作則有LSTM的門完成。如果使用雙向LSTM網(wǎng)絡,將會放大LSTM的并行處理的劣勢,造成算力資源的浪費。單向GRU模型結構如圖5所示。

        圖5 LSTM網(wǎng)絡結構

        忘記門、輸入門和輸出門是LSTM網(wǎng)絡所具有的3個門結構。忘記門在忘記階段的操作是忘記不重要的,記住重要的,上一個節(jié)點的輸出進入到忘記門后進行選擇性忘記操作。在選擇記憶階段要往當前狀態(tài)保存什么樣的信息,是輸入門主要作用。輸出階段則由輸出門進行控制,輸出門決定當前時刻細胞狀態(tài)中的哪些信息可以輸出。

        式(8)為遺忘門的計算方法公式

        ft=α(Wf·[ht-1,xt]+bf)

        (8)

        式(9)、式(10)、式(11)為輸入門的計算方法公式

        it=α(Wi·[ht-1,xt]+bi)

        (9)

        (10)

        (11)

        式(12)、式(13)為輸出門的計算方法公式

        ot=α(Wo·[ht-1,xt]+bo)

        (12)

        ht=ot*tanh(Ct)

        (13)

        在式(8)至式(13)中,α表示sigmoid函數(shù),W表示權重矩陣,b表示偏置量,·表示矩陣乘,*表示按元素乘。

        通過使用單向LSTM網(wǎng)絡,我們可以使用合理的計算量來更好地捕獲文本的核心特征。獲取的核心特征最終輸入到分類器中進行分類,對于文本分類任務而言,擁有核心特征將會獲得更好的分類效果。

        3 實驗與分析

        3.1 實驗數(shù)據(jù)集

        表1 THUCNews數(shù)據(jù)集實驗數(shù)據(jù)分布/萬條

        3.2 實驗評價指標

        本文采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和綜合評價指標(F1)作為評測指標,來對BGAL模型的分類性能進行評價。評價指標涉及參數(shù)有TP、FN、FP、TN。TP屬于判斷正確,且判為了正,即正的預測為正的。FN屬于判斷錯誤,且判為了負,即把正的判為了負的。FP屬于判斷錯誤,且判為了正,即把負的判為了正的。TN屬于判斷正確,且判為了負,即把負的判為了負的。

        準確率是表示預測符合標簽的樣本與總樣本的比例,即正的判為正,負的判為負,故式(14)為準確率的計算方法公式

        (14)

        精確率是表示正確預測正樣本占實際預測為正樣本的比例,即預測為正的樣本中有多少是對的,故式(15)為精確率的計算方法公式

        (15)

        召回率是表示正確預測正樣本占正樣本的比例,即樣本中有多少正樣本被預測正確了,故式(16)為召回率的計算方法公式

        (16)

        F1是Precision和Recall加權調(diào)和平均,當F1較高時表明實驗方法較為理想。故式(17)為F1的計算方法公式

        (17)

        3.3 實驗參數(shù)設置

        本實驗采用Pytorch框架進行相關模型的編碼實現(xiàn),在Windows10系統(tǒng)上采用GPU(NVIDIA GeForce RTX 2060)進行模型的訓練和調(diào)試。實驗模型BGAL參數(shù)見表2。

        表2 BGAL模型參數(shù)

        3.4 實驗結果分析

        本文做了A、B、C這3組實驗,3組實驗中訓練集、測試集和驗證集保持不變,實驗所共有的參數(shù)值不變。實驗A選擇TextCNN和TextRNN作為實驗模型,實驗B選擇BERT、BERT_CNN和BERT_RNN作為實驗模型。實驗C選擇BERT_BGRU和BGAL作為實驗模型。實驗A與實驗B是為了驗證BERT模型作為嵌入層來訓練詞向量的有效性,實驗B與實驗C是為了驗證本文提出的BGAL模型在處理文本分類上的優(yōu)越性。實驗A、實驗B和實驗C的實驗結果見表3。

        表3 綜合實驗結果

        從表中結果可以看出,TextCNN模型準確率處于所有實驗模型中的底位。TextCNN模型丟失了結構信息,較難發(fā)現(xiàn)文本中的轉折關系等內(nèi)在信息。TextCNN模型只能在卷積過程中計算與關鍵詞的相似度,然后通過最大池化得出模型所關注的關鍵詞是否在整個文本中出現(xiàn)。TextCNN模型不知道關鍵詞出現(xiàn)次數(shù)及關鍵詞的順序,所提取的特征便會出現(xiàn)偏差,最后在分類器累加輸出導致分類錯誤。

        TextRNN模型相較于TextCNN模型的結構更加靈活,可以方便地替換單元如使用GRU單元,將單向網(wǎng)絡設置成雙向網(wǎng)絡,添加Dropout隨機失活率和BN層等。TextCNN模型相比于TextRNN模型在準確率上要低,但訓練速度上稍快。TextRNN使用softmax函數(shù)完成最后的多分類任務,在此之前RextRNN模型需要完成前向或反向單元在最后一個時間步長上隱藏狀態(tài)的拼接。

        BERT模型可以訓練文本數(shù)據(jù)提取特征,然后直接輸入到分類器中進行分類,而不用作為詞嵌入。直接使用BERT模型提取特征連接分類器,其文本分類的準確率已經(jīng)較大超過TextCNN和TextRNN模型,并且運算效率極高。而相比于BERT為詞嵌入,然后接入神經(jīng)網(wǎng)絡的BERT_CNN和BERT_RNN模型,其有效地優(yōu)化了輸入文本的向量表達,獲得了更好的訓練效果。循環(huán)神經(jīng)網(wǎng)絡相較于卷積神經(jīng)網(wǎng)絡,在自然語言處理上有著更好的性能,在經(jīng)過BERT優(yōu)化詞向量之后,故BERT_RNN的精確率優(yōu)于BERT_CNN的精確率。

        BERT模型連接雙向GRU網(wǎng)絡在文本分類上也達到了較好的表現(xiàn)。因為GRU網(wǎng)絡結構相對簡單,參數(shù)較少,雙向堆積能很好地捕獲文本的總體特征。但雙向GRU網(wǎng)絡需要進行雙向傳播,大大增加了運算的時間,同時雙向GRU網(wǎng)絡對文本特征的提取會重復,導致忽視主要特征。所以本文提出的BGAL模型,有效地優(yōu)化了分類時的相對權重,在提高文本分類精度的同時也注重運算效率的提高。為了驗證BGAL模型的分類效率,本文對比了BERT_CNN、BERT_RNN和BERT_BGRU這3個模型達到收斂所需要的時間,在共有參數(shù)保持一致的情況下,實驗結果見表4。

        表4 收斂耗時對比

        從表4可以看出,由于RNN無法并行進行計算,所以RNN的收斂速度較慢,而雙向GRU網(wǎng)絡又進一步加大了運算量,導致雙向GRU網(wǎng)絡收斂耗時最為長久。本文所提出的BGAL模型的收斂耗時略高于BERT_RNN模型,但明顯低于BERT_BGRU模型。實驗結果表明,BGAL模型在有較高的分類準確率的基礎上,還兼顧了運算效率,減少了耗時。

        4 結束語

        本文提出的BGAL模型,在每個具體的分類任務中的準確率都超過了90%,在體育的分類上甚至達到97%的準確率,準確率和效率都保持在較高水平,對處理詞句的其它自然語言處理任務提供了一定的參考價值。但是,本文的實驗主要在中文短文本數(shù)據(jù)集上進行了驗證,在以后的工作中我們將嘗試對中文長文本進行處理,以驗證模型是否具有普適性。同時嘗試其它方式來優(yōu)化詞向量表示、融入標點符號的位置信息和優(yōu)化神經(jīng)網(wǎng)絡結構等,從而提升文本分類的準確率,加快文本分類的效率。

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        国产欧美精品区一区二区三区| h视频在线观看视频在线| 亚洲成av人片极品少妇| 欧美老肥婆牲交videos| 日本顶级片一区二区三区| 白白发在线视频免费观看2| 国产超碰女人任你爽| 亚洲av无码乱码国产精品fc2| 国产激情一区二区三区成人免费| 日韩在线精品免费观看| 国产黑丝美女办公室激情啪啪| 99久热在线精品视频观看| 少妇人妻陈艳和黑人教练| 欧美激情在线不卡视频网站| 国产美女亚洲精品一区| 97精品熟女少妇一区二区三区| 又粗又黄又猛又爽大片app| 国产成人精品一区二区视频| 国产啪精品视频网站免| 丝袜av乱码字幕三级人妻| 大陆老熟女自拍自偷露脸| 精东天美麻豆果冻传媒mv| 精品欧美在线| 国产一级一厂片内射视频播放| 97成人精品国语自产拍| 欧美亚洲日本国产综合在线美利坚| 日本免费人成视频播放| 无码中文字幕专区一二三| 一区二区三区乱码专区| 女人脱了内裤趴开腿让男躁| 亚欧AV无码乱码在线观看性色| 99久久国产一区二区三区| 国产一区二区三区不卡在线观看| 大地资源在线影视播放| 久久久www成人免费无遮挡大片| 色婷婷色99国产综合精品| 男女激情视频网站在线| 久久精品欧美日韩精品| 天天躁日日躁狠狠躁人妻| 成人精品免费av不卡在线观看| 放荡成熟人妻中文字幕|