亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于膨脹卷積迭代與注意力機(jī)制的實(shí)體名識(shí)別方法

        2021-01-15 07:17:28呂江海杜軍平
        計(jì)算機(jī)工程 2021年1期
        關(guān)鍵詞:注意力實(shí)體卷積

        呂江海,杜軍平,周 南,薛 哲

        (北京郵電大學(xué)計(jì)算機(jī)學(xué)院智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)

        0 概述

        隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,社交網(wǎng)絡(luò)隨時(shí)都在產(chǎn)生大量的數(shù)據(jù),微博已經(jīng)成為社交網(wǎng)絡(luò)中最為主要的數(shù)據(jù)來源之一。微博具有短文本、高實(shí)時(shí)、傳播迅速、用戶量大的特點(diǎn),如何從社交網(wǎng)絡(luò)微博大數(shù)據(jù)中提取有關(guān)國(guó)民安全的實(shí)體名信息并將其進(jìn)行結(jié)構(gòu)化的展示,已經(jīng)成為目前社交網(wǎng)絡(luò)輿情分析和監(jiān)管的急切需求。

        近年來,深度學(xué)習(xí)在自然語言處理(Natural Language Processing,NLP)領(lǐng)域取得了巨大的成功,而構(gòu)建知識(shí)圖譜是自然語言處理的重要任務(wù)。利用大量短文本提取其中有效的特征,從而提取出實(shí)體名和實(shí)體關(guān)系是構(gòu)建知識(shí)圖譜的關(guān)鍵。為了使提取的特征向量更加精確,深度學(xué)習(xí)模型廣泛采用注意力機(jī)制,注意力機(jī)制是由人類總結(jié)生活環(huán)境的習(xí)慣規(guī)律得到的。人類在觀察某一事物時(shí),通常只關(guān)注事物的局部信息而往往忽略事物的不同局部信息之間的聯(lián)系以及不重要的冗余信息。為獲得事物的完整有效信息,需要引入注意力機(jī)制來學(xué)習(xí)不同局部信息的重要性,從而構(gòu)建完整的事物特征。

        本文提出一種基于迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的實(shí)體名識(shí)別方法IDCNN-ATT-CRF。采用膨脹卷積提取文本特征,使向量矩陣感受野以指數(shù)增加的速度進(jìn)行擴(kuò)展,在模型訓(xùn)練時(shí)利用GPU 的矩陣并行計(jì)算加快訓(xùn)練網(wǎng)絡(luò)的收斂速度并準(zhǔn)確提取文本的特征。本文利用單詞的詞性對(duì)提取出的特征進(jìn)行注意力加權(quán),從而優(yōu)化模型結(jié)構(gòu)。

        1 相關(guān)工作

        對(duì)社交網(wǎng)絡(luò)中與國(guó)民安全相關(guān)的內(nèi)容進(jìn)行構(gòu)建知識(shí)圖譜具有重要的研究意義,而實(shí)體名識(shí)別是構(gòu)建知識(shí)圖譜的基礎(chǔ)。近年來,引入注意力機(jī)制對(duì)矩陣向量進(jìn)行加權(quán)成為深度學(xué)習(xí)的一個(gè)研究熱點(diǎn)。此外,卷積神經(jīng)網(wǎng)絡(luò)及其變種方法由于在實(shí)際使用中具有廣泛的應(yīng)用場(chǎng)景和較好的學(xué)習(xí)性能,已成為神經(jīng)網(wǎng)絡(luò)中最重要的模型之一。

        1.1 實(shí)體名識(shí)別方法

        文獻(xiàn)[1]提出了基于n-gram 特征的局部上下文和通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行的字嵌入方法GRAM-CNN,該方法基于n-gram 和CNN 進(jìn)行字嵌入,使用了單詞周圍的局部信息提升實(shí)體名識(shí)別效果。文獻(xiàn)[2]提出一種新穎的神經(jīng)網(wǎng)絡(luò)架構(gòu),它通過使用雙向長(zhǎng)短期記憶-條件隨機(jī)場(chǎng)(Bi-directional Long Short-Term Memory-Conditional Random Field,BLSTM-CRF)模型自動(dòng)地從文本特征中提取出有效特征并結(jié)合文本語法規(guī)則,從而保證了文本特征向量中的規(guī)范性和準(zhǔn)確度。文獻(xiàn)[3-4]提出一種基于SVM-BLSTM-CRF 的神經(jīng)網(wǎng)絡(luò)模型,利用支持向量機(jī)(SVM)篩選出包含關(guān)鍵命名實(shí)體的句子,然后將正確包含此類實(shí)體的句子轉(zhuǎn)化為字符級(jí)向量作為輸入,并構(gòu)建適合命名實(shí)體識(shí)別的雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)深層神經(jīng)網(wǎng)絡(luò)模型。文獻(xiàn)[5-6]結(jié)合豐富的特征集,包括局部特征、全文特征和外部資源特征,根據(jù)不同的特征和不同的特征組合對(duì)系統(tǒng)的貢獻(xiàn)進(jìn)行了評(píng)測(cè)和實(shí)驗(yàn),同時(shí)為進(jìn)一步提高系統(tǒng)的性能,還引入了縮寫詞識(shí)別模塊和過濾器模塊。文獻(xiàn)[7]針對(duì)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型提取特征不充分的特點(diǎn),將字向量和詞向量同時(shí)作為雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的輸入,并利用注意力機(jī)制分別提取兩者對(duì)當(dāng)前輸出有用的特征,用維特比算法約束最終輸出的標(biāo)簽序列,構(gòu)建一種新的命名實(shí)體識(shí)別模型。文獻(xiàn)[8-9]提出了雙卷積神經(jīng)網(wǎng)絡(luò)-長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks-Convolutional Neural Networks-Long Short-Term Memory,CNN-CNN-LSTM)模型,包括卷積字符和字編碼器以及長(zhǎng)期短期記憶(LSTM)標(biāo)簽解碼器。該模型在標(biāo)準(zhǔn)數(shù)據(jù)集上獲得了較好的性能,同時(shí)在計(jì)算復(fù)雜度上比其他模型更優(yōu)。文獻(xiàn)[10-11]通過結(jié)合雙向LSTM、CNN和CRF介紹一種新穎的中性網(wǎng)絡(luò)體系結(jié)構(gòu),該結(jié)構(gòu)受益于單詞和字符級(jí)表示,是真正的端到端系統(tǒng),不需要任何功能工程或數(shù)據(jù)預(yù)處理,適用于各種序列標(biāo)記任務(wù)。

        1.2 注意力機(jī)制模型

        文獻(xiàn)[12-13]提出一種結(jié)合注意機(jī)制的長(zhǎng)文本分類方法。首先用段落向量表示一個(gè)句子,建立一個(gè)段落向量和文本類別的神經(jīng)網(wǎng)絡(luò)注意模型來計(jì)算句子的注意力。然后根據(jù)句子對(duì)類別的貢獻(xiàn)對(duì)句子進(jìn)行過濾,該值為句子注意向量的均方誤差。最后構(gòu)造基于卷積神經(jīng)網(wǎng)絡(luò)的分類器。過濾后的文本和注意矩陣分別作為網(wǎng)絡(luò)輸入,最大池用于特征過濾,使用隨機(jī)輟學(xué)來減少過度擬合。文獻(xiàn)[14]提出一種將LSTM 模型與注意力機(jī)制相結(jié)合的關(guān)系抽取方法。將文本特征矩陣投入雙向LSTM 模型,引入注意力機(jī)制對(duì)得到的特征矩陣賦予權(quán)重,最后將文本的局部特征和全局特征進(jìn)行融合。文獻(xiàn)[15]提出一種基于實(shí)體對(duì)的注意力機(jī)制,該機(jī)制專門用于關(guān)系分類。對(duì)于特定實(shí)例(實(shí)體對(duì),句子),相應(yīng)的實(shí)體對(duì)信息作為先驗(yàn)知識(shí)被合并,以自適應(yīng)地計(jì)算注意力權(quán)重生成句子表示。文獻(xiàn)[16]提出一種基于注意力機(jī)制的LSTM 模型,以微博相關(guān)評(píng)論為目標(biāo)事件文本,分析網(wǎng)絡(luò)用戶對(duì)該事件的情感趨向。

        1.3 膨脹卷積方法

        文獻(xiàn)[17]提出一種基于密集預(yù)測(cè)的卷積網(wǎng)絡(luò)模塊,該模塊使用膨脹卷積系統(tǒng)地聚合多尺度上下文信息來獲得特征。文獻(xiàn)[18]提出一種新型的VAE 解碼器:IDCNN。通過改變解碼器的擴(kuò)張架構(gòu),該模型可以控制先前生成單詞的有效上下文。文獻(xiàn)[19-20]提出一種多尺度膨脹卷積深層神經(jīng)網(wǎng)絡(luò)云識(shí)別方法,該方法包含深層特征編碼模塊、局部多尺度膨脹感知模塊以及云區(qū)預(yù)測(cè)解碼模塊,聯(lián)合多尺度膨脹卷積和池化層共同感知,每層操作連接非線性函數(shù),以提升網(wǎng)絡(luò)模型的表達(dá)能力,實(shí)驗(yàn)結(jié)果表明,該方法的檢測(cè)精度較高,Kappa 系數(shù)顯著提升。文獻(xiàn)[21]使用在線醫(yī)療問答網(wǎng)站的數(shù)據(jù),采用{B,I,O}標(biāo)注體系構(gòu)建數(shù)據(jù)集,抽取疾病、治療、檢查和癥狀4個(gè)醫(yī)療實(shí)體,以BiLSTM-CRF 為基準(zhǔn)模型,提出2 種深度學(xué)習(xí)模型IndRNN-CRF 和IDCNN-BiLSTM-CRF,并在自構(gòu)建數(shù)據(jù)集上驗(yàn)證模型的有效性。

        2 IDCNN-ATT-CRF 方法

        本節(jié)主要介紹IDCNN-ATT-CRF 方法的具體流程及總體架構(gòu)。

        2.1 IDCNN-ATT-CRF 方法架構(gòu)

        IDCNN-ATT-CRF 方法總體架構(gòu)如圖1 所示,該架構(gòu)主要分為嵌入模塊、膨脹卷積網(wǎng)絡(luò)模塊、注意力機(jī)制模塊和CRF 模塊。

        圖1 IDCNN-ATT-CRF 實(shí)體名識(shí)別的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of IDCNN-ATT-CRF entity name recognition

        嵌入模塊負(fù)責(zé)將數(shù)字標(biāo)號(hào)映射到對(duì)應(yīng)的向量空間中,文字的向量空間由Word2vec 模型訓(xùn)練得到,單詞長(zhǎng)度、詞性的向量空間由隨機(jī)正態(tài)分布進(jìn)行嵌入。膨脹卷積網(wǎng)絡(luò)模塊對(duì)文本矩陣和單詞長(zhǎng)度矩陣進(jìn)行特征提取。普通CNN 模型卷積之后,末層神經(jīng)元只能獲取原始輸入數(shù)據(jù)中一小塊的信息。而在實(shí)體名識(shí)別任務(wù)中,輸入文本中的每個(gè)字都有可能影響當(dāng)前字符的標(biāo)簽。為了覆蓋到全部的輸入文本就需要添加更多的卷積層,導(dǎo)致卷積層數(shù)變深,參數(shù)大幅增加。而防止模型出現(xiàn)過擬合又要加入更多的Dropout 層之類的正則化,引入更多的超參數(shù),整個(gè)模型變得龐大且難以訓(xùn)練,為增大卷積的感受野,傳統(tǒng)CNN 模型的一個(gè)解決方法是增加Pooling 層減小矩陣尺寸增大感受野,然后通過Upsampling 層擴(kuò)大矩陣尺寸,在經(jīng)過Pooling 層和Upsampling 層后,一些矩陣信息會(huì)丟失,造成信息特征提取結(jié)果不準(zhǔn)確。而BLSTM 雖然能夠完美地解決長(zhǎng)距離依賴問題,且模型參數(shù)較少,不會(huì)產(chǎn)生過擬合問題,但它本質(zhì)上是一個(gè)序列模型,在對(duì)GPU 并行計(jì)算的利用上不如CNN 強(qiáng)大,造成訓(xùn)練時(shí)間較長(zhǎng)。為利用GPU 高效的矩陣并行計(jì)算能力,又能不通過Pooling 也能有較大的感受野看到更多的信息,使模型的參數(shù)不會(huì)過擬合并充分保證文本信息的完整性和文本的上下文關(guān)聯(lián)信息,本文提出基于膨脹卷積迭代的特征提取方法為GPU 提供一個(gè)運(yùn)行環(huán)境,像LSTM 一樣用簡(jiǎn)單的結(jié)構(gòu)記住盡可能多的輸入信息,從而解決長(zhǎng)距離依賴而產(chǎn)生的上下文相關(guān)性丟失的問題。

        膨脹卷積為濾波器設(shè)置了一個(gè)膨脹步長(zhǎng)序列,它會(huì)忽略所有處于膨脹步長(zhǎng)中的輸入數(shù)據(jù),同時(shí)保持濾波器的大小不變。隨著卷積層數(shù)的增加,模型的參數(shù)線性增加,而視野域卻是指數(shù)擴(kuò)散的。本文的文本矩陣大小相對(duì)于圖片矩陣較小,故每個(gè)膨脹卷積單元設(shè)置3 次迭代循環(huán),由于單個(gè)膨脹卷積單元未考慮處于膨脹步長(zhǎng)中間的輸入數(shù)據(jù),為充分利用輸入數(shù)據(jù)的有效信息,因此將單個(gè)膨脹卷積單元的前2 次循環(huán)的膨脹步長(zhǎng)都設(shè)置為1,使數(shù)據(jù)向量的每一個(gè)特征都會(huì)被膨脹卷積所提取,膨脹卷積的感受野擴(kuò)展為3×3,第3 次循環(huán)的膨脹步長(zhǎng)設(shè)置為2,以加快向量特征的提取速度。使膨脹卷積的感受野由3×3 的窗口擴(kuò)展為7×7 的窗口。雖然將前2 次膨脹步長(zhǎng)設(shè)置為1 會(huì)造成訓(xùn)練時(shí)間變長(zhǎng),但是膨脹卷積模型的訓(xùn)練速度依然比傳統(tǒng)的LSTM 模型速度大幅提高,若只設(shè)置第一次膨脹步長(zhǎng)為1,會(huì)造成輸入數(shù)據(jù)特征提取一定程度的失真,使最后的評(píng)價(jià)指標(biāo)降低。為兼顧特征提取的準(zhǔn)確性和模型運(yùn)算速度,將膨脹步長(zhǎng)前2 次設(shè)置為1 是比較有效的方法。為保證向量特征提取的有效性又不至于使參數(shù)過多,采用4 個(gè)膨脹卷積單元進(jìn)行迭代和堆積,其中前一個(gè)膨脹卷積單元的輸出結(jié)果作為后一個(gè)膨脹卷積單元的輸出結(jié)果,然后將每一個(gè)膨脹卷積單元的輸出結(jié)果進(jìn)行堆疊作為膨脹卷積模塊的輸出向量,充分提取了輸入數(shù)據(jù)的有效特征。使用注意力機(jī)制模塊,給每一個(gè)特征分配權(quán)重,使經(jīng)過膨脹卷積模塊后得到文本和單詞的向量特征更加精確。注意力機(jī)制的基本思想就是讓系統(tǒng)學(xué)會(huì)注意力——能夠忽略無關(guān)信息而關(guān)注重點(diǎn)信息,從而使矩陣中的有效特征放大,無效特征得以忽略。

        本文采用軟注意力機(jī)制,該注意力更關(guān)注區(qū)域特征信息,而且軟注意力是確定性的注意力,訓(xùn)練學(xué)習(xí)完成后可以直接通過網(wǎng)絡(luò)生成,最重要的是軟注意力是可微的,可微分的注意力就可以通過神經(jīng)網(wǎng)絡(luò)算出梯度,并且根據(jù)前向傳播和后向反饋來學(xué)習(xí)得到注意力的權(quán)重。而強(qiáng)注意力是更加關(guān)注局部點(diǎn),它是一個(gè)隨機(jī)的預(yù)測(cè)過程,更關(guān)注動(dòng)態(tài)變化,關(guān)鍵是強(qiáng)注意力是一個(gè)不可微的,訓(xùn)練過程不能通過神經(jīng)網(wǎng)絡(luò)的反饋活動(dòng)進(jìn)行學(xué)習(xí),通常只能通過增強(qiáng)學(xué)習(xí)來完成。軟注意力機(jī)制模塊首先定義一個(gè)初始的權(quán)重變量,利用詞性向量矩陣對(duì)權(quán)重變量進(jìn)行校正,得到權(quán)重矩陣對(duì)文本和單詞特征進(jìn)行加權(quán),輸出注意力加權(quán)后的特征向量。首先對(duì)于不加CRF 層的模型網(wǎng)絡(luò),往往每個(gè)輸出的標(biāo)簽是貪心地進(jìn)行選取得到,這種方案的結(jié)果沒有考慮到標(biāo)簽之間的關(guān)系,往往會(huì)造成最后的結(jié)果不符合正常模式,加入CRF層后,CRF 層會(huì)根據(jù)訓(xùn)練語料去學(xué)習(xí)其中存在的模式。CRF 有兩個(gè)概念,即注意力加權(quán)后的向量矩陣和轉(zhuǎn)移矩陣。注意力加權(quán)后的向量矩陣為神經(jīng)網(wǎng)絡(luò)輸出各個(gè)Tag 的置信度;轉(zhuǎn)移矩陣為CRF 層中各個(gè)Tag 之前的轉(zhuǎn)移概率。CRF 模塊利用一個(gè)傳輸矩陣將注意力加權(quán)后的向量和標(biāo)簽向量進(jìn)行聯(lián)合訓(xùn)練,得到網(wǎng)絡(luò)的損失函數(shù)值和更新后的傳輸矩陣。

        2.2 IDCNN-ATT-CRF 方法描述

        社交網(wǎng)絡(luò)國(guó)民安全的微博數(shù)據(jù)集經(jīng)過去停用詞、去無效文本后得到規(guī)范的數(shù)據(jù)集。定義數(shù)據(jù)集由n個(gè)四元組構(gòu)成,O=其中,ci表示文本的字符數(shù)據(jù),wi表示詞語的長(zhǎng)度信息,若詞語長(zhǎng)度為1,則標(biāo)記為0,若詞語長(zhǎng)度大于1,則首尾分別標(biāo)記為1、3,中間字符標(biāo)記為2,pi表示詞語的詞性信息,每一個(gè)字符都需要標(biāo)記詞性,yi表示對(duì)應(yīng)的實(shí)體標(biāo)簽。數(shù)據(jù)oi=(ci,wi,pi,yi)經(jīng)過詞嵌入模塊后得到,分別為char、seg、pos、tag,其中,char 和seg 輸入IDCNN 網(wǎng)絡(luò),設(shè)置膨脹步長(zhǎng)θ={1,1,2},分別經(jīng)過不同擴(kuò)展步長(zhǎng)的膨脹卷積迭代,并循環(huán)提取4 次膨脹卷積特征后輸出4 個(gè)高維度特征的膨脹向量。將4 個(gè)膨脹向量進(jìn)行堆疊得到文本的邏輯向量H和詞性向量pos,同時(shí)投入到注意力機(jī)制模塊中,pos 利用軟注意力機(jī)制對(duì)邏輯向量H進(jìn)行加權(quán),輸出注意力加權(quán)后的向量logits。將logits 和tag 投入到CRF 模塊中,CRF 模塊會(huì)利用一個(gè)傳輸矩陣對(duì)logits 進(jìn)行修正,最終輸出預(yù)測(cè)結(jié)果和loss 值。

        3 IDCNN-ATT-CRF 實(shí)體名識(shí)別算法

        3.1 迭代膨脹卷積網(wǎng)絡(luò)

        采用迭代膨脹卷積網(wǎng)絡(luò)能反復(fù)利用單位迭代膨脹卷積,將每一次輸出的結(jié)果作為下一次單位迭代膨脹卷積的輸入,使參數(shù)以線性速度增加的同時(shí),卷積視野域以指數(shù)速度增加。將向量xt作為網(wǎng)絡(luò)輸入,t表示向量的序號(hào),0≤t

        將膨脹卷積結(jié)果投入膨脹卷積網(wǎng)絡(luò)進(jìn)行迭代,經(jīng)過j次迭代后,第一次循環(huán)的迭代方程式如式(2)所示:

        第k次循環(huán)中3 次迭代結(jié)束后得到第k次循環(huán)的膨脹向量重新投入膨脹卷積網(wǎng)絡(luò)模塊中,重置j=1,k=k+1最終輸出第k次循環(huán)后的膨脹向量結(jié)果如式(3)所示:

        定義堆疊函數(shù)為B(·),為了在沒有過擬合的情況下加入更廣泛的上下文且不引入額外的參數(shù),對(duì)膨脹向量進(jìn)行堆疊,當(dāng)k≥1 時(shí)如式(4)所示:

        堆疊4 次膨脹向量的結(jié)果,最終得到膨脹卷積網(wǎng)絡(luò)模塊的輸出為了防止過擬合,使用dropout(·)函數(shù)對(duì)進(jìn)行隨機(jī)失活得到邏輯向量H,如式(5)所示:

        3.2 注意力網(wǎng)絡(luò)層

        本文引入注意力機(jī)制從邏輯向量集合中抽取特定的向量進(jìn)行加權(quán)組合,輸出結(jié)果取決于注意力矩陣對(duì)輸入矩陣賦予的權(quán)重。定義邏輯向量集合為H={h0,h1,…,hn},額外信息為詞性矩陣P={p0,p1,…,pn},tanh(·)為激活函數(shù)。為了使詞性信息能對(duì)目標(biāo)向量集合賦予權(quán)重,分別使用權(quán)重矩陣W1、W2對(duì)H和P進(jìn)行仿射變換使向量空間維度相同。將變換結(jié)果輸入tanh(·)激活函數(shù)中得到聯(lián)合特征向量,如式(6)所示:

        本文采用軟注意力機(jī)制,為了歸一化聯(lián)合特征向量的權(quán)重矩陣,利用softmax(·)函數(shù)對(duì)進(jìn)行權(quán)重打分得到每一個(gè)輸入的權(quán)重,如式(7)所示:

        CRF 層可以向最后預(yù)測(cè)的標(biāo)簽添加一些語法約束,以確保預(yù)測(cè)的標(biāo)簽是合理的。本文在CRF 中輸入加權(quán)后的文本向量矩陣,就可以輸出得到每個(gè)單詞的標(biāo)簽的概率矩陣。根據(jù)真實(shí)標(biāo)簽,在概率分布矩陣中找到相對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽值。比較標(biāo)簽路徑,產(chǎn)生整個(gè)句子的誤差,并將該誤差反饋給CRF 層的訓(xùn)練網(wǎng)絡(luò),調(diào)整傳輸矩陣的參數(shù)并返回?fù)p失函數(shù)值和最終的標(biāo)簽預(yù)測(cè)值。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文采用2 個(gè)數(shù)據(jù)集對(duì)各實(shí)體名識(shí)別方法進(jìn)行性能評(píng)測(cè)。第1 個(gè)數(shù)據(jù)集采用搜狗新聞數(shù)據(jù)集,搜狗新聞數(shù)據(jù)集一共有50 452 條微博,合計(jì)2 397 767 個(gè)字。由于搜狗新聞數(shù)據(jù)集是官方公布的數(shù)據(jù)集,因此該數(shù)據(jù)集比較準(zhǔn)確且噪聲較小,可全部用于實(shí)驗(yàn)訓(xùn)練及測(cè)試。47 176條數(shù)據(jù)合計(jì)2 220 536個(gè)字符樣本用于訓(xùn)練,342 890 個(gè)字符為實(shí)體字符,另外3 276 條數(shù)據(jù)合計(jì)177 231 個(gè)字符樣本用于測(cè)試,27 849 個(gè)字符為實(shí)體字符。社交網(wǎng)絡(luò)國(guó)民安全的微博數(shù)據(jù)集主要爬取了天津爆炸事件相關(guān)數(shù)據(jù)集,它包含了較大的噪聲和無效數(shù)據(jù),對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理后得到9 734 條微博數(shù)據(jù)。通過人工標(biāo)注標(biāo)簽,7 784 條微博數(shù)據(jù)總共428 019 個(gè)字用于模型訓(xùn)練,其中73 332個(gè)字符為實(shí)體字符,1 950條微博數(shù)據(jù)總共105 210 個(gè)字的樣本用于測(cè)試,其中19 403 個(gè)字符為實(shí)體字符。各個(gè)模型分別對(duì)不同數(shù)據(jù)集訓(xùn)練迭代20 次。

        4.2 新聞數(shù)據(jù)集下各模型的實(shí)驗(yàn)對(duì)比

        使用BLSTM、BLSTM-CRF、BLSTM-ATT-CRF、IDCNN、IDCNN-CRF、IDCNN-ATT-CRF 等方法分別在搜狗新聞數(shù)據(jù)集和社交網(wǎng)絡(luò)國(guó)民安全的新浪微博數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)分別測(cè)量人名PER、地名LOC、組織名ORG、時(shí)間名TIME 在Precision、Recall、F1-score 等指標(biāo)的結(jié)果以及各模型訓(xùn)練的耗時(shí)。對(duì)于BLSTM 做文本分類,相當(dāng)于將每個(gè)詞作為一個(gè)時(shí)間節(jié)點(diǎn),把詞向量作為每個(gè)單元的輸入特征,組合前向以及后向來構(gòu)成雙向特征,計(jì)算后每個(gè)單元有個(gè)狀態(tài)特征以及輸出特征,文本分類一般組合每一個(gè)單元的輸出特征,然后通過注意力層給輸出特征進(jìn)行加權(quán),最后用一個(gè)全連接層來做分類。BLSTM 最大的優(yōu)勢(shì)是考慮了兩個(gè)單詞之間的長(zhǎng)距離依賴關(guān)系,擁有強(qiáng)大的記憶能力,且對(duì)變長(zhǎng)的文本處理具有較大優(yōu)勢(shì)。

        本文的輸入數(shù)據(jù)為定長(zhǎng)的文本向量,每個(gè)字符進(jìn)行詞向量嵌入,構(gòu)成具有圖片數(shù)據(jù)類似的文本輸入向量。對(duì)于迭代膨脹卷積的好處是不做Pooling損失信息的情況下,加大了感受野,讓每個(gè)卷積輸出都包含較大范圍的信息,通過設(shè)置兩個(gè)大小為1 的膨脹步長(zhǎng)來保證膨脹卷積單元提取完整的文本信息,設(shè)置大小為2 的膨脹步長(zhǎng)來擴(kuò)散膨脹卷積單元的視野域,并且IDCNN 可以充分利用GPU 進(jìn)行并行計(jì)算的優(yōu)化能力并且保持了文本上下文之間的相關(guān)性,在模型指標(biāo)相差不大的情況下使得模型的訓(xùn)練速度比BLSTM 模型大幅提升。采用軟注意力機(jī)制,注意力權(quán)重矩陣會(huì)對(duì)每一個(gè)單詞的重要程度給予文本向量特征分配不同大小的權(quán)重,訓(xùn)練學(xué)習(xí)一個(gè)權(quán)重向量來得到最好的輸出向量。表1~表4 為各模型在搜狗新聞數(shù)據(jù)集訓(xùn)練迭代20 次的實(shí)驗(yàn)結(jié)果。F1-score 是Precision 和Recall 的調(diào)和平均數(shù),能綜合反映Precision 和Recall,故主要從F1-score 指標(biāo)進(jìn)行結(jié)果分析。

        表1 人名實(shí)體在各模型的指標(biāo)比較Table 1 Comparison of indicators of human name entity in each model

        表2 地名實(shí)體在各模型的指標(biāo)比較Table 2 Comparison of indicators of place name entity in each model

        表3 組織名實(shí)體在各模型的指標(biāo)比較Table 3 Comparison of indicators of organization name entity in each model

        表4 時(shí)間實(shí)體在各模型的指標(biāo)比較Table 4 Comparison of indicators of time entity in each model

        由表1 可知,在新聞數(shù)據(jù)集中,BLSTM 與IDCNN在人名實(shí)體上的F1-score 值分別為82.10%與81.50%。添加CRF 模塊后,F(xiàn)1-score 值分別是89.70%與88.50%,評(píng)價(jià)指標(biāo)分別提升了8.6%與7%,引入注意力機(jī)制后,F(xiàn)1-score 指標(biāo)分別達(dá)到91.08%與90.25%,評(píng)價(jià)指標(biāo)再度提升1.38%與1.75%。由表2 可以看出,在地名實(shí)體上的F1-score 值分別為80.80%與81.25%,添加CRF 模塊后,F(xiàn)1-score 值分別是90.94%與90.01%,評(píng)價(jià)指標(biāo)提升了10.14%與8.76%,引入注意力機(jī)制后,F(xiàn)1-score 指標(biāo)分別達(dá)到91.70%與91.35%,評(píng)價(jià)指標(biāo)再度提升0.76%與1.34%。由于中文人名和地名實(shí)體在語法的位置相對(duì)固定,因此添加CRF 模塊后,人名和地名實(shí)體的識(shí)別率提升了8%~10%左右。由于添加CRF 模塊后人名與地名的評(píng)價(jià)指標(biāo)已經(jīng)高達(dá)90%左右,引入注意力機(jī)制后的評(píng)價(jià)指標(biāo)的提升效果不明顯,只提升了1%~2%。由表3 可以看出,在新聞數(shù)據(jù)集中,BLSTM 與IDCNN在組織名實(shí)體上的F1-score值分別為74.69%與73.74%,添加CRF 模塊后,F(xiàn)1-score 值分別是85.08%與82.45%,評(píng)價(jià)指標(biāo)分別提升了10.77%與8.71%,引入注意力機(jī)制后,F(xiàn)1-score 指標(biāo)分別達(dá)到86.63%與84.33%,評(píng)價(jià)指標(biāo)再度提升1.55%與1.88%。由表4 可以看出,在新聞數(shù)據(jù)集中,BLSTM 與IDCNN 在時(shí)間實(shí)體上的F1-score值分別為88.85%與73.74%,添加CRF 模塊后,F(xiàn)1-score值分別是98.23%與97.05%,評(píng)價(jià)指標(biāo)分別提升了9.38%與8.53%,引入注意力機(jī)制后,F(xiàn)1-score 指標(biāo)分別達(dá)到99.30%與99.43%,評(píng)價(jià)指標(biāo)再度提升1.07%與2.38%。

        對(duì)比表1~表4 可以看出,各模型方法在組織名實(shí)體識(shí)別的評(píng)價(jià)指標(biāo)比人名與地名實(shí)體的評(píng)價(jià)指標(biāo)低6%~8%,比時(shí)間實(shí)體的評(píng)價(jià)指標(biāo)低14%左右。這是由于組織名具有口語化的特點(diǎn),例如國(guó)家發(fā)展和改革委員會(huì)簡(jiǎn)稱發(fā)改委,然而實(shí)驗(yàn)?zāi)P涂赡軣o法理解發(fā)改委的含義,導(dǎo)致組織名識(shí)別錯(cuò)誤。組織名實(shí)體還具有語言結(jié)構(gòu)不規(guī)則的特點(diǎn),例如北京紅十字會(huì),模型可能將其識(shí)別為地名和組織名兩種類型的實(shí)體,導(dǎo)致實(shí)體識(shí)別不完整,影響了組織名實(shí)體的評(píng)價(jià)指標(biāo)。值得注意的是,時(shí)間實(shí)體識(shí)別的評(píng)價(jià)指標(biāo)非常高,時(shí)間實(shí)體包含典型的字符,例如數(shù)字后為年、月、日,或出現(xiàn)比較明顯的代表時(shí)間含義的字符,故識(shí)別效果非常好。對(duì)比各模型新聞數(shù)據(jù)集在迭代訓(xùn)練20次的耗時(shí)長(zhǎng)短,可以看出CNN 模型耗時(shí)12 min左右,而LSTM 模型耗時(shí)30 min 以上,訓(xùn)練速度提升290%左右。綜合而言,在評(píng)價(jià)指標(biāo)相差不大的同時(shí),基于CNN 的模型比基于LSTM 的模型具有更低的訓(xùn)練耗時(shí)?;谧⒁饬C(jī)制的訓(xùn)練方法比無注意力機(jī)制的訓(xùn)練方法實(shí)體名識(shí)別率提升2%左右。

        4.3 微博數(shù)據(jù)集下各模型的實(shí)驗(yàn)對(duì)比

        圖2 顯示了各模型在微博數(shù)據(jù)集每次迭代的耗時(shí)及其對(duì)應(yīng)的F1-score 值。由圖2 可以得知,在微博數(shù)據(jù)集上,BLSTM 模型前幾次迭代的F1-score 值比IDCNN 高,且樣本訓(xùn)練較少的輪次就可以得到較高F1-score 值,但20 次訓(xùn)練迭代結(jié)束后,IDCNN 與BLSTM最終的F1-score 值幾乎相同,而BLSTM 模型迭代訓(xùn)練20 次的總耗時(shí)為701 s,與之相比IDCNN 僅需262 s 就可以完成20 次迭代訓(xùn)練。

        圖2 各個(gè)實(shí)體名識(shí)別方法的訓(xùn)練時(shí)長(zhǎng)及其對(duì)應(yīng)的平均F1-score 值Fig.2 Training time and average F1-score value for each entity name recognition method

        圖3 展示了在社交網(wǎng)絡(luò)微博數(shù)據(jù)集上不同模型指標(biāo)的對(duì)比情況。從圖3 可以看出,微博數(shù)據(jù)集的評(píng)價(jià)指標(biāo)普遍低于新聞數(shù)據(jù)集,這是由于微博數(shù)據(jù)量較少,且微博數(shù)據(jù)具有不規(guī)則、字符信息雜亂、表達(dá)口語化、文本稀疏等問題,從而造成文本數(shù)據(jù)的特征缺乏有效性,模型無法得到充分的訓(xùn)練,最終導(dǎo)致各指標(biāo)均比新聞數(shù)據(jù)低3 個(gè)~10 個(gè)百分點(diǎn),其中人名實(shí)體和地名指標(biāo)降低了4%左右,組織名實(shí)體指標(biāo)降低了10%左右,時(shí)間實(shí)體指標(biāo)降低了0.5%左右。微博數(shù)據(jù)集在不同模型之間的性能對(duì)比和新聞數(shù)據(jù)集具有相似的結(jié)果。單一的深度學(xué)習(xí)模型IDCNN 與BLSTM 在人名實(shí)體的F1-score 值為73%左右,引入注意力機(jī)制加權(quán)且添加CRF 模塊修正后F1-score 值大約提升13%左右;在地名實(shí)體的F1-score 值為75%左右,引入注意力機(jī)制且添加CRF 模塊后F1-score值大約提升11%左右;在組織實(shí)體的F1-score 值相對(duì)其他類型實(shí)體較低,大約為65%,引入注意力機(jī)制加權(quán)且添加CRF 模塊修正后F1-score 值大約提升10%左右;在時(shí)間實(shí)體名識(shí)別的F1-score 值非常高,達(dá)到87%左右,經(jīng)引入注意力機(jī)制且添加CRF 模塊后F1-score 值大約提升12%左右。

        圖3 人、地、組織和時(shí)間實(shí)體在各模型的指標(biāo)比較Fig.3 Comparison of indicators of human names,place names,organizations and time entity in each model

        綜合而言,IDCNN 與BLSTM訓(xùn)練20 輪次后在F1-score 值相差不大,添加CRF 模塊后F1-score 值提升了7%~11%,引入Attention 機(jī)制后模型的F1-score值提高1%~3%,訓(xùn)練速度IDCNN 比BLSTM 提高了267%。

        5 結(jié)束語

        本文提出一種基于迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的實(shí)體名識(shí)別方法。采用特殊步長(zhǎng)的膨脹卷積模塊對(duì)文本信息進(jìn)行特征提取,引入注意力機(jī)制使文本特征更加精確,并添加CRF 模塊使文本特征符合語法約束。實(shí)驗(yàn)結(jié)果表明,本文實(shí)體名識(shí)別方法較BLSTM 等典型方法訓(xùn)練速度大幅提升,實(shí)體名識(shí)別的準(zhǔn)確性也明顯提高,能夠有效兼顧實(shí)體名識(shí)別的準(zhǔn)確率和模型的訓(xùn)練速度。構(gòu)建知識(shí)圖譜的基礎(chǔ)是實(shí)體名識(shí)別和實(shí)體關(guān)系抽取,下一步將對(duì)實(shí)體關(guān)系進(jìn)行抽取,利用基于BERT 的BGRU-CRF 模型抽取文本中的實(shí)體關(guān)系(三元組)來提高實(shí)體關(guān)系抽取的準(zhǔn)確性,最終運(yùn)用實(shí)體名識(shí)別的結(jié)果結(jié)合實(shí)體關(guān)系的結(jié)果進(jìn)行知識(shí)圖譜的構(gòu)建。

        猜你喜歡
        注意力實(shí)體卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        A Beautiful Way Of Looking At Things
        在线看片免费人成视频久网下载| 国产一区二区视频在线看| 亚洲国产精品中文字幕久久| 无码国产色欲xxxx视频| 人妻aⅴ无码一区二区三区| 国产真实乱对白在线观看| 久久精品人妻中文av| 亚洲一区二区三区在线高清中文 | 国产精品国产三级国产a| 无码午夜成人1000部免费视频| 久久精品国产亚洲av高清色欲| 大陆啪啪福利视频| 国产91会所女技师在线观看| 国产做国产爱免费视频| 国产av一区二区三区日韩 | 精品女人一区二区三区| 国产精品亚洲精品一区二区| 无码人妻丰满熟妇区五十路| 亚洲国产精品久久久久久久| 色婷婷亚洲十月十月色天| 性感的小蜜桃在线观看| 国产猛男猛女超爽免费视频| 黄色视频在线免费观看| 好爽受不了了要高潮了av | 国内精品久久久人妻中文字幕| 无码国产精品一区二区免费模式| 精品人妻无码中文字幕在线| 久久精品国产亚洲av日韩精品| 青青草在线这里只有精品| 国产又色又爽又刺激在线播放| 亚洲小说图区综合在线| 97色人阁俺也去人人人人人| 精品国产中文字幕久久久| 无码一区二区三区亚洲人妻| 久久久久亚洲av成人网址| 亚洲综合小综合中文字幕| 国产大片黄在线观看| 四川少妇大战4黑人| 国产精品亚洲A∨天堂不卡| 久久91精品国产91久久跳舞| av无码一区二区三区|