亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ALBERT預訓練模型的通用中文命名實體識別方法

        2022-10-13 02:54:40呂海峰冀肖榆陳偉業(yè)邸臻煒
        梧州學院學報 2022年3期
        關鍵詞:實體語義向量

        呂海峰,冀肖榆,陳偉業(yè),邸臻煒

        1.梧州學院 大數(shù)據(jù)與軟件工程學院,廣西 梧州 543002;2.梧州學院 廣西機器視覺與智能控制重點實驗室,廣西 梧州 543002;3.梧州學院 廣西高校圖像處理與智能信息系統(tǒng)重點實驗室,廣西 梧州 543002)

        提取文本序列某些特定標簽諸如機構、地點、時間、人名等實體的過程稱為命名實體識別(Named Entity Recognition,NER)[1]。NER是關系抽取、對話系統(tǒng)、自動問答、信息檢索等任務的重要組成部分,NER是自然語言處理研究的一個基礎且重要的問題。

        現(xiàn)階段主流的深度學習命名實體識別方法,大多利用循環(huán)神經網(wǎng)絡(Recurrent Neural Network,RNN)或卷積神經網(wǎng)絡(Convolutional Neural Network,CNN)作為編碼層抽取上下文特征,接著采用條件隨機場Conditional Random Field,CRF)解碼出正確標簽序列,如(Collobert[2]、Peters[3]、Shao[4]、Rei[5]、Patrick[6]等),與條件隨機場模型[8-10]、隱馬爾可夫模型[7](Hidden Markov Model,HMM)。英文與中文在該任務不同,基于分詞的中文實體抽取不能處理分詞錯誤、數(shù)據(jù)稀疏、OOV(out-of-vocabulary)和過擬合問題,并且傳統(tǒng)如Word2vec、glove的靜態(tài)詞向量不能處理一詞多義問題[11]。因此,研究動態(tài)詞向量刻不容緩。(Embeddings from Language Model,ELMO )預訓練語言模型被Matthew等[12]提出,能夠按照當前上下文動態(tài)調整字或詞向量,可有效解決上述問題。2018年Google則提出一種雙向Transformer[19]的編碼表示方法(Bidirectional Encoder Representation for Transformers,BERT)[13],在文本分類、依存分析、序列標注、相似度等11類NLP任務上均取得了很好的效果。盡管BERT應用廣泛、效果很好,對各項NLP任務的提升都很顯著,但存在模型參數(shù)量大、效率低等問題。于是Lan等[14]提出了一個精簡版BERT模型,簡稱ALBERT,因式分解詞向量矩陣,對下游任務中所有層實現(xiàn)參數(shù)共享,不僅具有較少參數(shù)量,而且在SquAD、RACE、GLUE等任務表現(xiàn)方面取得最佳效果。

        當前,盡管有不少針對中文的實體識別方法,但識別效果依然不夠理想,有必要進一步研究,通過改進以及優(yōu)化現(xiàn)有實體識別模型,構建基于預訓練語言模型融合自定義詞典的新實體識別模型,以進一步提升實體抽取效果。

        1 相關工作

        基于深度學習、統(tǒng)計機器學習以及規(guī)則字典方法是NER任務中常用的3種方案?;谝?guī)則字典的方法需要依賴大量先驗知識,通過設計規(guī)則模板以提取對應的實體信息,存在任務難度大、不可移植、效率低等缺點。結構化單一數(shù)據(jù)集采用基于規(guī)則字典的方法比較可行,但在實際場景里,非結構化數(shù)據(jù)往往占據(jù)大多數(shù)比例,建立規(guī)則模板難以覆蓋所有的非結構化數(shù)據(jù)范圍。以隱馬爾可夫模型HMM和條件隨機場CRF等為代表的統(tǒng)計機器學習方法在實體識別任務上取得一定的效果,具備一定泛化能力。但即便如此,這些統(tǒng)計機器學習方法仍然依賴特征模板,不能自動提取特征,需要標注大量的樣本,識別效果不夠明顯。

        構建基于深度學習的序列標注模型識別實體被認為是序列標注任務?;贑NN網(wǎng)絡結構的序列標注模型由Collobert等[15]提出,并且擁有良好的提取效果。序列長距離上下文信息、固定長度輸入等問題得以解決是由于RNN的提出。由RNN派生出的各種版本,能夠在一定程度上降低反向傳播過程中出現(xiàn)梯度消失問題,有效保存和獲取序列上下文信息,最典型的RNN變體如GRU和LSTM。以BiLSTM作為編碼層,CRF作為解碼層的模型由Huang等[16]提出,實體抽取效果達到了當時SOTA表現(xiàn)。

        近年來,自然語言處理技術發(fā)展迅速,尤其是得益于深度神經網(wǎng)絡方法在自然語言領域的廣泛應用。以利用預訓練字/詞向量技術的Word2vec、Glove等神經網(wǎng)絡模型[17,18],較好地捕獲文本序列的上下文特征,但不能處理一詞多義問題,未有效考慮詞在序列的位置對詞意義的影響,屬于典型的靜態(tài)詞向量。于是ELMO模型被提出,能夠按照此刻上下文動態(tài)調整詞向量權重,有效解決上述問題。但ELMO還是使用LSTM結構進行特征抽取,上下文特征提取能力弱。2018年Devlin等人提出了在眾多測試集上獲得新SOTA表現(xiàn)的深度雙向表示預訓練模型BERT[13]。盡管BERT應用廣泛、效果很好,對各項NLP任務提升都很大,但存在模型參數(shù)量大、效率低等問題。于是Lan提出了一個精簡版BERT模型,簡稱ALBERT,因式分解詞向量矩陣,對下游任務中所有層實現(xiàn)參數(shù)共享,不僅具有比BERT更少參數(shù)量,而且在SquAD、RACE和GLUE等任務表現(xiàn)獲得當時最佳效果。故在命名實體任務中怎樣高效融合ALBERT,以提高實體識別性能,無疑是當前研究的熱門主題。

        現(xiàn)階段實體抽取的研究存在問題主要有:(1)僅依賴詞或字符級別特征,長距離語義信息因為梯度彌散,導致文本語義信息容易丟失;(2)早期的類似Word2vec等上下文無關、靜態(tài)詞向量,導致不能解決一詞多義的問題。針對上述問題,本文提出了一種基于ALBERT-Attention-CRF模型的中文實體識別方法。采用ALBERT在命名實體任務進行微調,不僅解決了一詞多義問題,而且處理了詞級別出現(xiàn)數(shù)據(jù)稀疏、OOV、過擬合等問題,提升了模型對文本序列特征抽取能力。結合Attention機制編碼文本語義信息,不僅有效處理實體邊界模糊問題,而且比經典BiLSTM模型利用更多文本語義信息、捕獲更長的距離依賴,最后在輸出層采用CRF模型,該方法能考慮到序列標注直接的依存關系,有助于提高模型對實體識別準確率。模型在人民日報數(shù)據(jù)集進行驗證,測試集總體命名實體識別F1值達93.72%,結果表明本文所提方法與BERT相比,參數(shù)量更小,效率更高,有效降低模型大小和提高命名實體識別的整體效果。

        2 模型

        2.1 BERT模型

        傳統(tǒng)如Word2vec靜態(tài)詞向量僅考慮詞的局部信息,不能處理一詞多義問題,且缺少詞與局部窗口外詞的聯(lián)系?;贚STM結構模型預訓練詞向量,有效捕獲長間隔的語義特征,于是Matthew等[12]提出了有效捕獲序列兩側上下文信息的ELMO模型,它是基于兩層兩向的長短期記憶網(wǎng)絡結構,有效緩解單向信息學習的問題。Radford等[20]提出(Generative Pre-Training,GPT)模型。不同于ELMO,GPT采用單向Transformer預訓練,下游具體NLP任務以微調模式實現(xiàn)。與LSTM相比,GPT缺點是單向的,但能夠捕獲更長上下文語義信息。使有效學習句子兩側上下文信息,基于雙向Transformer的BERT模型被提出,句子兩邊的上下文在全部層中得到相同依賴,雙向語言模型、特征提取能力得到改進和提升。BERT模型就其他模型而言,達到了去粗取精的效果。在多種NLP任務上獲得了當時的SOTA效果。BERT與ELMO、GPT模型結構見圖1[13]。

        2.1.1 BERT輸入表示

        輸入表示可以是單個句子或者一個句子對構成的詞序列。對給定的詞,其輸入表示由3個Embedding組成。Embedding可視化表示見圖2[13]。

        圖2 BERT模型輸入表示

        其中,本文以中文字向量作為Token Embeddings;首個Token是用在后續(xù)分類任務的CLS標志;常用在句子級別分類任務的Segment Embeddings分割兩個句子;人為設置的序列位置向量是Position Embeddings。

        2.1.2 BERT模型預訓練任務

        BERT模型分別使用Masked Language Model(Masked LM)和預測句子這兩個無監(jiān)督預測任務進行預訓練。在Masked LM任務中,為了訓練編碼器是雙向Transformer深度表示,隨機遮掩15%字符(Token),然后對被遮擋的Token進行預測。遮掩規(guī)則:(a)以符號Masked替代80%已遮掩的字符;(b)隨機字符代替10%;(c)被遮掩字符的10%不變。

        此外,自然語言處理中有很多需要理解兩個句子之間關系的句子級別任務,如自動問答、推理等任務。通常是以隨機替換方式,判斷兩個句子是否連貫的分類任務被加入到BERT預訓練中。預測格式見表1。

        表1 句子對預測格式

        2.2 ALBERT模型

        在學習文本表示時,一般預訓練模型的參數(shù)越多,下游任務的效果就越好,如BERT模型。但是,有時候受到訓練時長、TPU/GPU內存制約等因素影響,模型參數(shù)增加導致模型使用效率低。針對上述難題,Google提出了參數(shù)量大大低于BERT的簡化版本 (A Lite BERT,ALBERT)[14]。

        預訓練模型擴展的關鍵瓶頸在ALBERT中提出的2種參數(shù)消減技術得到解決。一是因式分解向量參數(shù):將大詞向量矩陣變?yōu)?個小矩陣,因而相互分離詞向量與隱藏層的大小。該技術使得詞向量參數(shù)增加不明顯,且便于擴展隱藏層。二是可以共享不同層之間的參數(shù):它不會因擴大網(wǎng)絡層數(shù)而增多參數(shù)量。這2項技術都大大提高了參數(shù)效率,且明顯減少了BERT 的參數(shù)量。BERT-large配置與ALBERT相似,但前后者參數(shù)量之比約為18∶1,訓練速度之比約為1∶1.7。上述削減參數(shù)技術提升泛化能力,使得訓練比較穩(wěn)定,并具備一定正則化效果。

        為了提高ALBERT性能,基于句子層面預測的(SOP)自監(jiān)督損失函數(shù)被研究者提出。SOP旨在處理傳統(tǒng)BERT中NSP任務loss效率低的問題,關注句間的連貫性。鑒于上述改進,ALBERT可以支持不同版本擴展,以明顯提升性能且參數(shù)量遠低于BERT-large為目標。

        2.3 Attention機制

        盡管通過Encoder的語義表示涵蓋充分的上下文特征,但由于其權值相同,難以對實體類別進行有效區(qū)分。Attention 旨在捕獲上下文語義特征,它根據(jù)編碼層輸出的每個詞隱向量xi,通過S=∑αi·xi。其中αi為預設權值,s為由x1,x2,…,xn組成的文本序列。在注意力機制中,權值αi呈現(xiàn)字符間的關聯(lián)性,因為每個字符距離都是1,實體界限容易得到有效區(qū)分,因此字級別樣本集實體界限不易劃分的問題得到有效緩解。

        2.4 CRF模型

        多分類任務常用Softmax輸出每個類別的概率,由于Softmax分類器的輸出相互獨立,并未考慮標簽之間的依存關系。因此,條件隨機場,即CRF模型[21]被常用來做序列標注任務。該方法有效考慮到序列相鄰詞的標注信息,能夠更全面預測標簽。給定輸入序列X(x1,x2,…,xn),Y(y1,y2,…,yn)都是線性鏈的隨機序列。如果給出X前提下,Y的條件概率分布P(Y|X)是條件隨機場,如果符合下面假設,則P(Y|X)為線性鏈條件隨機場。

        P(Yi|X,Y1,Y2,…Yn)=P(Yi|X,Yi-1,Yi+1)

        (1)

        設P(n,k)為輸出層的權重矩陣,輸出標簽序列Y的總得分S(x,y),即

        (2)

        其中,A是轉移得分矩陣,n表示句子長度,k表示標簽種類個數(shù)。

        對所有可能的序列路徑用softmax函數(shù)計算,產生關于輸出序列y的概率分布,即:

        (3)

        在訓練過程中,常使用極大似然法求解P(y|x)的最大后驗概率,即

        (4)

        在解碼階段,預測最高總得分的序列即為最優(yōu)序列,即

        (5)

        CRF訓練和解碼一般采用動態(tài)規(guī)劃算法Viterbi[22]來求解最優(yōu)序列。

        2.5 ALBERT-Attention-CRF模型

        模型由5層構成,分別是輸入層、嵌入層、ALBERT特征編碼層、注意力層、CRF層。模型最先采用ALBERT向量化表示每個字符,獲取對應字向量;然后利用ALBERT預訓練模型中的雙向Transformer結構對輸入字向量序列進行特征提?。粸榱思訌娚舷挛恼Z義表示,采用Attention機制獲取語義向量;最后使用CRF解碼語義向量,CRF能夠有效考慮到序列相鄰詞的標注信息,得到概率最大的標簽序列,進而解析出序列中的實體。模型結構如圖3所示。

        圖3 ALBERT-Attention-CRF模型結構

        其中,x1,x2,…x7表示輸入文本“北京是我國首都”經過ALBERT預訓練語言模型向量化后的字向量;接著為ALBERT預訓練語言模型編碼層,主要由多層雙向Transformers結構組成,得到包含上下文信息的語義向量h1,h2,…h(huán)7。Fchar是計算2個字符之間關系權重的Attention層加權函數(shù),拼接向量為V。最后為CRF層,輸出輸入序列對應的實體標簽,如地點(LOC)、時間(T)等,其中“B-”為實體起始標志,“I-”為實體中間或結尾。

        3 試驗及結果分析

        3.1 數(shù)據(jù)與評價指標

        為了檢驗模型有效性,本研究利用北京大學公開的1998年《人民日報》語料進行驗證。該語料不僅已經分詞,還標注了地名、人名、組織機構名等實體。標記方式為“BIO”,實體起始標志為B,實體其他部分為I,O表示該詞不是實體。地名采用LOC標記,開始位置為B-LOC,其余位置為I-LOC;人名記為PER,開始位置為B-PER;組織機構實體為ORG,開始位置為B-ORG。試驗中,取45 000條標注數(shù)據(jù)作為訓練集和驗證集,3 432條標注數(shù)據(jù)作為測試集。

        模型評價指標采用精確率(Precision,P)、召回率(Recall,R)和F1值(F1-score)進行衡量。

        3.2 模型訓練與參數(shù)設置

        本研究采用Tensorflow深度學習框架構建和訓練所提出的ALBERT-Attention-CRF模型。參數(shù)設置有:輸入文本序列長度seq_length設為64,驗證集、訓練集batch_size均為32,學習率為1e-10-5。為降低過擬合風險,設置dropout=0.8。為預防在模型擬合中產生梯度爆炸,利用梯度裁剪技術(Gradient Clipping)并設置大小為5。

        3.3 試驗結果

        在數(shù)據(jù)集上,對CRF,BiLSTM,BiLSTM-CRF,BERT-CRF,ALBERT-Attention-CRF模型進行性能分析,結果見表2。

        表2 模型的實體識別試驗結果

        由表2可知,基于神經網(wǎng)絡的模型在各個指標均優(yōu)于CRF模型。在BiLSTM和BiLSTM-CRF模型的對比中,采用CRF進行實體識別的BiLSTM-CRF模型表現(xiàn)優(yōu)于前者,說明CRF在解碼時考慮了序列中全局標注信息,因而提升了模型表現(xiàn)。在BiLSTM-CRF模型和BERT-CRF的對比中,后者比前者有接近4%的表現(xiàn)提升,說明基于Transformer架構的BERT模型充分學習了文本序列上下文關系特征,比BiLSTM學習到更長的距離依賴語義關系。ALBERT-Attention-CRF模型比BERT-CRF高0.6%,兩者在精確率、召回率、F1值這3個指標表現(xiàn)接近,但前者模型在效率上更高效,BERT-large配置與ALBERT相似,但前后者參數(shù)量之比約為18∶1,訓練速度之比約為1∶1.7。在同樣的超參數(shù)設置下,本研究提出的ALBERT-Attention-CRF模型訓練所得模型大小僅為BERT-CRF模型的1/10,運維部署比后者更便攜,效率更高。

        4 結語

        本研究提出一種端到端神經網(wǎng)絡命名實體識別模型ALBERT-Attention-CRF,采用ALBERT預訓練語言模型對輸入文本序列進行向量化和特征抽取,使模型能夠充分學習文本包含的語義信息,使字符之間的推理能力得到增強、實體識別效果得到進一步提升。同時,為了進一步增加上下文相關的語義信息,模型還使用注意力機制進行有效區(qū)分實體類別,以及利用CRF模型作為輸出層,有效通過全局信息進行預測實體標簽,在1998年上半年《人民日報》語料上取得了理想的效果。試驗結果表明,基于ALBERT預訓練模型的命名實體識別模型不僅能夠提升實體識別的效果,而且與BERT模型相比,存在參數(shù)量小、訓練速度快、效率高等優(yōu)點,有一定的參考價值。

        猜你喜歡
        實體語義向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        語言與語義
        前海自貿區(qū):金融服務實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        哲學評論(2017年1期)2017-07-31 18:04:00
        兩會進行時:緊扣實體經濟“釘釘子”
        振興實體經濟地方如何“釘釘子”
        “上”與“下”語義的不對稱性及其認知闡釋
        向量垂直在解析幾何中的應用
        向量五種“變身” 玩轉圓錐曲線
        澳门精品一区二区三区| 一区二区传媒有限公司 | 久久久久久久98亚洲精品| 国产麻豆放荡av激情演绎| 国产一区亚洲二区三区极品| 亚洲成aⅴ人片久青草影院 | 少妇性俱乐部纵欲狂欢电影| 无码少妇一区二区三区芒果| 久久与欧美视频| 国产自拍视频免费在线观看| 夜夜爽日日澡人人添| 国产亚洲av人片在线观看| 日本国产一区二区三区在线观看| 亚洲乱码中文字幕三四区| 久久人人爽爽爽人久久久 | 国产成人亚洲精品电影| 国产亚洲一区二区毛片| 在线视频夫妻内射| 免费a级毛片无码a| 激,情四虎欧美视频图片| 国产不卡视频在线观看| 色欲av蜜桃一区二区三| 日产精品久久久一区二区| 国产乱妇乱子视频在播放| 国产伦码精品一区二区| 护士人妻hd中文字幕| 亚欧美日韩香蕉在线播放视频| 亚洲日本三级| 亚洲熟女一区二区三区不卡| 亚洲gay片在线gv网站| 国产无遮挡又黄又爽在线视频| 亚洲国产剧情在线精品视| 人妖啪啪综合av一区| 美女网站免费福利视频| 日韩国产一区| 中文字幕一区二区在线看| 欧美丰满老熟妇aaaa片| 国产人碰人摸人爱视频| av中文字幕在线资源网| 狠狠躁夜夜躁av网站中文字幕| 日本阿v网站在线观看中文|