亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于字符嵌入與BiGRU的命名實(shí)體識別

        2023-05-11 08:58:36甘晨陽萬義程張慶達(dá)
        軟件導(dǎo)刊 2023年4期
        關(guān)鍵詞:實(shí)驗(yàn)模型

        甘晨陽,李 明,萬義程,張慶達(dá)

        (重慶工商大學(xué) 人工智能學(xué)院,重慶 400067)

        0 引言

        命名實(shí)體識別(Named Entity Recognition,NER)是指識別語料庫中的人名、地名和組織結(jié)構(gòu)名稱等命名實(shí)體,即識別文本中具有特定含義的實(shí)體,也稱為實(shí)體識別、實(shí)體提取、實(shí)體分割等。命名實(shí)體識別技術(shù)的應(yīng)用場景十分廣闊,它是自然語言處理領(lǐng)域許多研究問題的基礎(chǔ),例如關(guān)系提取、事件提取、知識圖譜、機(jī)器翻譯、問答系統(tǒng)等[1]。命名實(shí)體識別任務(wù)可劃分為通用領(lǐng)域和專業(yè)領(lǐng)域[2],在通用領(lǐng)域中一般采用新聞稿、社交媒體等語料庫,在生物、金融、材料等專業(yè)領(lǐng)域,由于具有大量專業(yè)詞匯,因此語料庫大都基于專業(yè)領(lǐng)域中的相關(guān)文獻(xiàn)構(gòu)建而成。

        1 命名實(shí)體識別研究現(xiàn)狀

        由于命名實(shí)體識別是自然語言處理領(lǐng)域的子任務(wù),因此目前通常將命名實(shí)體識別為序列標(biāo)注任務(wù),傳統(tǒng)方法包括基于規(guī)則匹配的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。例如,謝菲爾德大學(xué)在2012 年開發(fā)的GATE 框架[3],該框架具有十分具體且清晰的NER 規(guī)則,因此在特定時(shí)期內(nèi)具有較高的匹配準(zhǔn)確率,缺點(diǎn)是需要眾多領(lǐng)域?qū)<以O(shè)計(jì)實(shí)體抽取規(guī)則,而且領(lǐng)域詞典需要定期更新維護(hù)以保持最優(yōu)性能?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法包括隱馬爾可夫模型(Hidden Markov Model,HMM)[4]、最大熵模型(Maximum Entropy,ME)[5]和條件隨機(jī)場(Conditional Random Fields,CRF)[6]等,這類方法相較于基于規(guī)則的方法具有更好的性能,無需人工定義規(guī)則,但仍需要大量人工標(biāo)注語料庫,而且訓(xùn)練的模型十分依賴于標(biāo)注特征,一旦標(biāo)注特征不足以充分反映語料的特點(diǎn),會(huì)導(dǎo)致模型性能下降。

        近幾年,隨著計(jì)算機(jī)性能提升,大多數(shù)對命名實(shí)體識別的研究從基于規(guī)則與統(tǒng)計(jì)的方法轉(zhuǎn)向深度學(xué)習(xí)[7],常用的命名實(shí)體識別深度學(xué)習(xí)網(wǎng)絡(luò)模型包括長短期記憶神經(jīng)網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)[8]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Nerwoek,CNN)[9]、門控循 環(huán)網(wǎng)絡(luò)(Gate Recurrent Unit,GRU)[10]、結(jié)合自注意力機(jī)制的網(wǎng)絡(luò)模型等[11]。Kuru 等[12]使用雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory,BiLSTM)模型在CoNLL-2003 數(shù)據(jù)集中F1 值達(dá)到84.52%。Ruder 等[13]通過整合兩個(gè)深度遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Nerwork,RNN),在OntoNotes5.0 數(shù)據(jù)集中F1 值為87.21%。張雪松等[14]通過在BiLSTM 網(wǎng)絡(luò)中加入依存樹信息,在OntoNotes5.0 數(shù)據(jù)集上的主要實(shí)體達(dá)到平均86.67%的F1 值。Zhang 等[15]編碼輸入一系列字符與該字符匹配的所有潛在單詞,通過LSTM 進(jìn)行訓(xùn)練,在中文數(shù)據(jù)集MRSA 上表現(xiàn)出色。

        相較于傳統(tǒng)方法,基于深度學(xué)習(xí)的方法在不依賴大量人工特征的前提下,取得了更好的性能,在專業(yè)領(lǐng)域的命名實(shí)體識別任務(wù)也具有出色的性能。Li 等[16]提出基于LSTM 與CRF 的神經(jīng)網(wǎng)絡(luò)模型,在中文電子病歷中臨床術(shù)語領(lǐng)域的數(shù)據(jù)集中F1 值分別達(dá)到89.56%、91.60%。Liu等[17]采用BRET 模型提取特征,通過BiLSTM 網(wǎng)絡(luò)提取章節(jié)級特征,在化學(xué)藥品領(lǐng)域命名實(shí)體識別精準(zhǔn)度提高了80%;李林等[18]結(jié)合BERT 與BiLSTM,并輔以多源信息融合豐富字符集向量,在農(nóng)作物害蟲領(lǐng)域多個(gè)數(shù)據(jù)集上效果出色。Chen 等[19]通過結(jié)合詞匯特征,使用BiLSTM-CRF模型進(jìn)行訓(xùn)練,在中文藥品領(lǐng)域取得了94.32%的F1值。

        詞嵌入(Word Embedding)技術(shù)是指單個(gè)詞在預(yù)定義的向量空間中被表示為實(shí)數(shù)向量,每個(gè)單詞均映射一個(gè)向量,可捕獲單詞間的相似性。因此,將經(jīng)過詞嵌入處理后的數(shù)據(jù)作為基本特征傳入神經(jīng)網(wǎng)絡(luò)模型,提升自然語言處理任務(wù)效果。目前,較為流行的詞嵌入模型為Word2Vec[20]、Glove[21]。通常而言,獲取詞向量的方式有兩種,一種是采用預(yù)訓(xùn)練模型,這種模型通過網(wǎng)絡(luò)上超大規(guī)模文本庫進(jìn)行訓(xùn)練得到一個(gè)開源的全局詞向量庫,例如BERT[22];另一種是通過自己收集的語料庫進(jìn)行訓(xùn)練,得到一個(gè)局部詞向量庫。本文通過結(jié)合BiLSTM 與Glove 訓(xùn)練收集的語料庫。

        由于命名實(shí)體識別任務(wù)中,BiLSTM-CRF 模型存在識別精度較低的問題,本文提出一種將BiLSTM、Glove 預(yù)訓(xùn)練模型、BIGRU-CRF 模型與注意力機(jī)制相結(jié)合應(yīng)用于命名實(shí)體識別的模型。首先,通過BiLSTM 提取字符級單詞信息;然后,拼接得到的字符級詞向量與Glove 預(yù)訓(xùn)練模型得到詞向量;接下來,將詞向量送入BiGRU 模型進(jìn)行訓(xùn)練;再之,使用自注意力優(yōu)化權(quán)重;最后,使用CRF 進(jìn)行分類,輸出得分最大的標(biāo)注序列。為驗(yàn)證本文模型相較于傳統(tǒng)算法的性能優(yōu)勢,在CoNLL-2003、OntoNotes5.0 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

        2 字符嵌入與BiGRU模型

        圖1 為本文提出的模型結(jié)構(gòu),該模型由BiLSTM 與Glove 詞嵌入模塊、BiLSTM 模塊、CRF 模塊3部分組成。

        Fig.1 Complete architecture of the model圖 1 模型完整架構(gòu)

        2.1 BiLSTM 模型與Glove

        字符級神經(jīng)網(wǎng)絡(luò)語言模型可捕獲句子底層風(fēng)格和結(jié)構(gòu),為了讓神經(jīng)網(wǎng)絡(luò)捕捉詞匯特征而并非單一記住單詞的拼寫,可將BiLSTM 從預(yù)測下一個(gè)字符調(diào)整到預(yù)測下一個(gè)單詞。BiLSTM 由一個(gè)前向LSTM 層和一個(gè)后向LSTM 層組成,可分別獲取兩個(gè)方向的上下文特征。單個(gè)LSTM 神經(jīng)元由遺忘門、輸入門和輸出門3個(gè)模塊組成,如圖2所示。

        Fig.2 LSTM neurons圖2 LSTM 神經(jīng)元

        由圖2 可見,模型由3 個(gè)具有sigmoid 激活函數(shù)的全連接層處理,以計(jì)算遺忘門、輸入門和輸出門的值。LSTM 的數(shù)學(xué)表達(dá)為:

        2.2 BiGRU模型

        語料庫分別經(jīng)過BiLSTM 與Glove 模型進(jìn)行向量化后,將兩者向量拼接后直接輸入編碼層進(jìn)行全局特征提取。其中,編碼層采用雙向GRU 結(jié)構(gòu),GRU 與LSTM 網(wǎng)絡(luò)類似,也可充分捕捉前向和后向信息。單個(gè)GRU 單元結(jié)構(gòu)如圖3所示。

        Fig.3 Gated Recurrent Unit圖 3 門控循環(huán)單元

        GRU 內(nèi)部主要由重置門和更新門控制,這兩個(gè)門均使用sigmoid 激活函數(shù)的兩個(gè)全連接層構(gòu)成。其中,重置門判斷前一時(shí)刻有多少隱狀態(tài)信息需要被遺忘,更新門則判斷前一時(shí)刻有多少信息需要沖抵到當(dāng)前單元的隱狀態(tài)中。具體數(shù)學(xué)表達(dá)式如下:

        其中,Rt、Zt分別為重置門和更新門的輸出向量,H~t為候選隱狀態(tài)輸出,Ht為當(dāng)前時(shí)刻的隱狀態(tài)輸出。W、b是重置門、更新門和候選隱狀態(tài)的權(quán)重矩陣和偏置參數(shù),σ、tanh為激活函數(shù)。

        GRU 存在以下兩個(gè)顯著的特征:重置門有助于捕獲序列中的短期依賴關(guān)系;更新門有助于捕獲序列中的長期依賴關(guān)系。BiGRU 則為了從前向、后向兩個(gè)方向上捕獲兩種依賴關(guān)系,然后拼接前、后向的輸出向量,獲得更充分的特征信息。

        2.3 自注意力機(jī)制

        為了更好地捕捉BiGRU 網(wǎng)絡(luò)輸出的信息,提高模型對關(guān)鍵信息的識別能力。本文在模型中加入一層自注意力機(jī)制,具體數(shù)學(xué)計(jì)算公式如下:

        其中,Q為查詢矩陣,K為鍵矩陣,V為值矩陣均由對應(yīng)權(quán)重矩陣W點(diǎn)積狀態(tài)矩陣計(jì)算得到,A 為自注意力層機(jī)制,dk為矩陣K的維度,使用softmax對結(jié)果進(jìn)行歸一化處理,MHA為多頭注意力機(jī)制結(jié)果。

        2.4 CRF層

        條件隨機(jī)場是一個(gè)經(jīng)典的序列標(biāo)注算法,CRF 是一種基于無向圖模型的判別式模型,其中線性鏈條件隨機(jī)場使用最為普遍[23],相較于隱馬爾可夫模型和softmax模型而言,CRF 不僅可定義數(shù)量更多、種類更豐富的特征函數(shù),還可獲得全局條件下的標(biāo)注序列最優(yōu)解。因此,為得到具有最大概率的序列,使用CRF 模型對BiGRU 編碼層的輸出進(jìn)行最終修正。對于給定的一個(gè)觀測序列X,輸出目標(biāo)序列Y的分?jǐn)?shù),具體計(jì)算公式如下:

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集

        本文使用的數(shù)據(jù)集包括含有4 種實(shí)體的CoNLL-2003英文數(shù)據(jù)集、含有18 種實(shí)體的OntoNotes5.0 英文數(shù)據(jù)集。數(shù)據(jù)集采用BIOES 標(biāo)注法標(biāo)注實(shí)體。其中,B 代表Begin,表示實(shí)體的開始部分;I 代表Inside,表示組成實(shí)體的中間部分;O 代表Outside,表示非實(shí)體的單詞;E 代表End,表示實(shí)體的結(jié)束部分;S 代表Single,表示長度為1 的實(shí)體。將上述兩個(gè)數(shù)據(jù)集劃分為訓(xùn)練集、開發(fā)集和測試集,具體的劃分比例如表1所示。

        Table 1 Summary of data sets表1 數(shù)據(jù)集摘要

        3.2 評價(jià)指標(biāo)

        本文采用精確率P(Precision)、召回率R(Recall)和F1值這3 種評價(jià)指標(biāo)作為模型性能評價(jià)標(biāo)準(zhǔn),具體計(jì)算公式如下:

        其中,Tp為識別正確的實(shí)體個(gè)數(shù),F(xiàn)p為識別錯(cuò)誤的實(shí)體個(gè)數(shù),F(xiàn)n為未被正確識別的實(shí)體個(gè)數(shù)。

        3.3 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

        本文實(shí)驗(yàn)環(huán)境基于Python3.7 和PyTorch1.1.0 版本框架,GPU 為NVIDIA GeForce RTX2060。訓(xùn)練過程過中batch_size=10,隱藏層維度為300,字符嵌入維度為10,詞嵌入維度為100,學(xué)習(xí)率lr=0.015,Dropout=0.55,采用SGD算法優(yōu)化器,訓(xùn)練200次,實(shí)驗(yàn)結(jié)果在訓(xùn)練130次后收斂。

        3.4 實(shí)驗(yàn)結(jié)果

        為證明本文所提改進(jìn)模型的有效性,選擇BiGRUCRF 模型作為基線模型進(jìn)行比較實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2、表3所示。

        Table 2 Experimental results on CoNLL-2003 dataset表2 CoNLL-2003數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 (%)

        Table 3 Experimental results on the OntoNotes5.0 dataset表3 OntoNotes5.0數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 (%)

        3.4.1 有效性

        由表2可見,在BiGRU-CRF 模型中結(jié)合字符級嵌入與詞級嵌入,在CoNLL-2003 數(shù)據(jù)集上F1 值達(dá)到91.04%,精確率達(dá)到91.57%,相較于BiGRU-CRF 模型分別提升0.42%、1.51%。在OntoNotes5.0 數(shù)據(jù)集上,該模型F1 值達(dá)到88.26%,精確率達(dá)到87.45%,相較于BiGRU-CRF 模型分別提高0.58%、0.52%。實(shí)驗(yàn)表明,所提融合方法對提升命名實(shí)體識別的模型的性能具有一定的作用。

        3.4.2 合理性

        由表2、表3 可知,加入多頭自注意力層后,在CoNLL-2003 數(shù)據(jù)集上,本文所提方法F1 值達(dá)到91.69%,精確率達(dá)到92.12%,相較于BiLSTM-BiGRU-CRF 模型分別提升0.65%、0.77%。在OntoNotes5.0 數(shù)據(jù)集上,本文所提方法F1 值達(dá)到88.97%,精確率達(dá)到89.73%,相較于BiLSTM-Bi-GRU-CRF 模型分別提升0.71%、2.28%。實(shí)驗(yàn)表明,加入多頭注意力機(jī)制后,重新分配特征權(quán)重對提升模型識別性能有所幫助。

        3.4.3 性能比較

        CHIU 等[24]提出一種將BiLSTM 與CNN 相結(jié)合的模型,自動(dòng)檢測單詞和字符級特征。Huang 等[25]將BiLSTMCRF 模型運(yùn)用于自然語言處理任務(wù)中。Ghaddar 等[26]將單詞與實(shí)體類型嵌入一個(gè)低維向量空間中,并使用BiLSTMCRF 模型進(jìn)行訓(xùn)練,取得了出色的效果。由表2、表3 可知,相較于BiLSTM-CNN 模型在CoNLL-2003 數(shù)據(jù)集與OntoNotes5.0 數(shù)據(jù)集上取得的F1 值,本文模型分別提升0.07%、2.69%,相較于BiLSTM-CRF 模型性能,本文模型的F1 值分別提升1.59%、1.02%。實(shí)驗(yàn)表明,本文模型相較于其他模型性能更優(yōu)。

        4 結(jié)語

        本文提出一種結(jié)合BILSTM、BIGRU、MHA 與CRF 模型的命名實(shí)體識別方法。首先利用BILSTM 捕捉字符級特征;然后結(jié)合字符級詞向量與預(yù)訓(xùn)練模型Glove 詞向量,獲得句子的語義編碼信息;接下來,使用BiGRU 模型訓(xùn)練整合后的詞向量;再之將訓(xùn)練輸出送入自注意力層分配特征權(quán)重;最后使用條件隨機(jī)場輸出最優(yōu)序列。在CoNLL-2003、OntoNotes5.0 數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文模型對于提升命名實(shí)體識別任務(wù)的性能有所幫助。

        由于文本使用BiLSTM 嵌入字符級詞,導(dǎo)致了模型訓(xùn)練時(shí)間較長,并且使用Glove 模型的詞向量為靜態(tài)向量,無法較好地解決一詞多義及嵌套實(shí)體的問題。未來,考慮在字符嵌入層也使用訓(xùn)練速度更快的BiGRU 模型,并通過語義編碼更精準(zhǔn)的BERT 模型代替?zhèn)鹘y(tǒng)Glove 模型,以提升模型命名實(shí)體識別任務(wù)的表現(xiàn)。

        猜你喜歡
        實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長實(shí)驗(yàn)
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产不卡视频一区二区三区| 久久精品亚洲国产成人av| 国产成人综合久久大片| 日本黄色一区二区三区视频 | 蜜桃视频在线免费视频| av免费网址在线观看| 亚洲欧美日韩国产综合一区二区 | 成人国产永久福利看片| 一区二区三区四区免费国产视频| 国产激情视频免费在线观看| 亚洲精品国产一区二区| 区久久aaa片69亚洲| 国产成人香蕉久久久久| 久久综合亚洲鲁鲁五月天| 色老板美国在线观看| 久久精品国产亚洲av麻| 亚洲AV秘 无码一区二区三| 91亚洲免费在线观看视频| 人妻无码一区二区三区| 中文字幕人妻丝袜美腿乱| 九九精品国产99精品| 手机在线免费观看av不卡网站| 国产午夜福利久久精品| 少妇高潮喷水久久久影院| av一区二区不卡久久| 久久九九精品国产av| 欧美在线 | 亚洲| 国产小屁孩cao大人免费视频| 麻豆视频黄片在线免费观看| 东北女人一级内射黄片| 亚洲人成无码网站在线观看| a级毛片免费观看视频| 亚洲av粉嫩性色av| 国产亚洲精品av久久 | 久久精品一区二区免费播放| 日本女优一区二区在线免费观看 | 国产精品一区二区三区在线蜜桃| 亚洲美腿丝袜 欧美另类| 国产中文字幕乱码在线| 久久亚洲网站中文字幕| 丰满岳乱妇一区二区三区|