亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于棋盤空間的中文命名實體識別研究

        2021-08-05 10:07:54李國安張燦豪
        中國新技術(shù)新產(chǎn)品 2021年9期
        關(guān)鍵詞:模型

        李國安 張燦豪

        (1.上海壹賬通金融科技有限公司,上海 200000;2.深圳壹賬通智能科技有限公司,廣東 深圳 518000)

        0 概述

        命名實體識別(Named Entity Recognition,NER)是指提取文本中特定信息的方法,常見有提取人名、地名、公司、職位、合同以及金額等。NER技術(shù)在自然語言處理中應(yīng)用廣泛,例如知識圖譜、關(guān)系抽取、智能問答以及信息搜索等,是處理自然語言的基礎(chǔ)任務(wù)之一。通常,NER處理方法是將其視作序列標(biāo)注任務(wù),標(biāo)注出每個字對應(yīng)的實體類別。主流標(biāo)注方法是區(qū)分每個字屬于實體類別中的某種狀態(tài),例如B-LOC表示第一個地址文字,E-LOC表示最后一個地址文字,字母O表示非實體,典型的有BIO標(biāo)注法、BIOE標(biāo)注法和BIOES標(biāo)注法等。近年來NER以預(yù)訓(xùn)練模型為基礎(chǔ),融合多特征、兩階段識別,但是一直沒有改變命名實體標(biāo)注割裂的問題。典型的標(biāo)注序列BIOE的NER方法是將任務(wù)看作多分類問題,多個類別之間割裂了相互關(guān)系,而且難以處理嵌套問題,而位置、實體兩階段NER方法存在配對偏差和誤差傳播的問題。該文提出棋盤空間標(biāo)注命名實體的方法,棋盤空間的每個標(biāo)記點都表示唯一一個命名實體,是對命名實體的直接標(biāo)注方法,解決了實體間接標(biāo)注的關(guān)系割裂、配對和誤差傳播等問題。

        1 相關(guān)研究

        隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,NER任務(wù)得到了越來越好的效果。文獻(xiàn)[1]基于長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM提出了LSTMCRF,由于其優(yōu)異的表現(xiàn),許多數(shù)據(jù)集將其作為NER任務(wù)的基線。2018年,文獻(xiàn)[2]BERT預(yù)訓(xùn)練模型的問世幾乎奪取了當(dāng)時所有NLP任務(wù)的SOTA,對于CoNLL-2003英文NER任務(wù)來說,在未使用CRF的情況下達(dá)到了92.8的水平。BERT的出現(xiàn)改變了NLP模型的發(fā)展方向,行業(yè)內(nèi)的人士紛紛開展預(yù)訓(xùn)練模型的相關(guān)研究,隨后相繼出現(xiàn)了XLNET、RoBERTa、GPT-2、GTP-3和Switch-Transformer等一系列擁有更大規(guī)模的訓(xùn)練數(shù)據(jù)、參數(shù)和算力要求的預(yù)訓(xùn)練模型,NLP效果也得到進(jìn)一步提升,中文NER任務(wù)開始引進(jìn)預(yù)訓(xùn)練模型來增強文字表意能力,并不斷向模型中加入先驗知識。有些學(xué)者結(jié)合了知識圖譜增強了預(yù)訓(xùn)練模型的背景知識,文獻(xiàn)[3]中的FLAT模型在BERT的基礎(chǔ)上融入了分詞特征,還有研究學(xué)者在BERT的基礎(chǔ)上增加了詞性特征。當(dāng)實體類別很多時出現(xiàn)了分別識別實體位置和實體類別的兩階段方法。文獻(xiàn)[4]中的Cascade模型在BERT的基礎(chǔ)上設(shè)計了兩階段預(yù)測模型,該模型取得了較好的效果。

        2 棋盤空間

        由下圍棋向棋盤落子時得到啟發(fā),棋盤為19×19方陣,落子時棋子的顏色是某個類別,如果把棋盤的橫縱坐標(biāo)看作文字中實體的始末位置,那么黑子表示屬于該類別,白子表示非該類,多張棋盤表示不同的類別,這樣就將棋盤擴展到三維空間,形成一個命名實體識別的棋盤空間,如圖1所示。

        圖1 棋盤空間標(biāo)注示意圖

        對于類別數(shù)量為dm、文本長度為dt的棋盤空間S∈Rdm×dt×dt,輸入輸入長度為n的文本t=[t1,t2,…,tn]和標(biāo)注列表[{起始1,結(jié)束1,類別1},…,{起始i,結(jié)束j,類別m}],棋盤空間標(biāo)注滿足公式(1)。

        3 模型

        3.1 整體結(jié)構(gòu)

        長度為n的文本編碼后生成token序列t=[t1,t2,…,tn],ti∈Rdt,任意i∈[1,n],dt為token深度,預(yù)訓(xùn)練模型輸出序列h=[h1,h2,…,hn],其中hi∈Rdh,dh為文字嵌入深度,適配層將序列h線性變換切分成2個關(guān)聯(lián)矩陣Q∈Rdm×dt×dt和K∈Rdm×dt×dt,結(jié)合位置編碼計算每個位置的相似性系數(shù)。NER模型結(jié)構(gòu)如圖2所示,其中Sm(i,j)為類別m中位置(i,j)點的分類,Pm為類別m的正樣本,Nm為類別m的負(fù)樣本,[CLS]和[SEP]為預(yù)訓(xùn)練模型的特殊標(biāo)識符,分別表示文本開始和文本分隔,類別為m的查詢矩陣Qm=[q1,q2,…,qn],度量矩陣Km=[k1,k2,…,kn],相似性矩陣Sm=[s1,s2,…,sn],qi、ki和si分別為矩陣Qm、Km和Sm的向量,任意i∈[1,n]。

        圖2 棋盤空間標(biāo)注的NER模型結(jié)構(gòu)

        3.2 適配層

        適配層是將預(yù)訓(xùn)練模型的輸出H∈Rh×n變換到目標(biāo)維度Q∈Rm×n×n和K∈Rm×n×n,如圖3所示。首先H保持文字長度n不變,將文字嵌入維度h變換為m×2n,即變換輸出矩陣A=WH+b,其中A∈RdA×n,權(quán)重W∈RdA×h,偏置b∈RdA×n,dA=m×2n。接著將A按照dA軸切分成類別數(shù)m份,每一份中再切分為兩等份,分別定義為未位置編碼的查詢矩陣Q和度量矩陣K。

        圖3 適配層處理流程

        為了便于表述,對類別m的查詢矩陣記作q=[q1,q2,…,qn],其中向量qi∈Rn,度量矩陣記作k=[k1,k2,…,kn],其中向量ki∈Rn。

        3.3 位置編碼

        對于NER任務(wù)來說,文字的位置信息和方向信息都是十分重要的。文獻(xiàn)[5] Transformer-XL和文獻(xiàn)[6] TENER論述了原生的Transformer絕對位置編碼會在計算中丟失位置信息,這使絕對位置編碼不適用于NER任務(wù)。BERT等絕對位置編碼的預(yù)訓(xùn)練模型是在詞嵌入層將詞向量和絕對位置編碼向量按位相加,并在大規(guī)模預(yù)料上訓(xùn)練而得到的,如果改變位置編碼方式,則該模型需要重新訓(xùn)練;那么如何在不重新訓(xùn)練BERT的前提下將相對位置信息顯式地添加上去呢?可以將BERT輸出的詞向量擴展至詞向量函數(shù),該詞向量函數(shù)需要具備2個特性:1)位置無關(guān)的偏置轉(zhuǎn)換性。2)有界性。在實數(shù)域內(nèi)同一個詞在不同位置的詞向量是一樣的,無法達(dá)到建模位置信息的目的,因此使用復(fù)數(shù)域[7]來表示向量值函數(shù),對于詞向量hj到相對位置pos的詞向量變換函數(shù)、f(j,pos)如公式(2)所示。

        式中:ωj,n為ωj的向量展開;θj,n為θj的向量展開;rj,n為rj的向量展開;i為虛數(shù);rj為振幅向量;ωj為角頻率向量;θj為相位角向量。

        3.4 相似性系數(shù)

        預(yù)訓(xùn)練模型是按照完形填空的方式,在最大化上下文語境情況下的掩碼單詞的概率,在訓(xùn)練過程中不斷調(diào)整單詞表征向量在上下文語句空間中的參數(shù),以最大化單詞和上下文的共現(xiàn)概率,在高階產(chǎn)生共現(xiàn)關(guān)系。據(jù)此,對于類別m的相似性系數(shù)Sm(i,j)可以使用位置編碼后的向量qi和kj的內(nèi)積表示,定義如公式(4)所示。

        式中:Re為實部;Im為虛部;i為起始位置;j為結(jié)束位置;z為臨時變量;fpe(.,i)、fpe(.,j)為位置向量。

        結(jié)合中文特點,文字順序是單向的,沒有“倒背如流”式的標(biāo)注,所以實體始末位置要求i≤j,對于i>j的情況置為極大負(fù)數(shù)-inf。

        3.5 損失

        棋盤空間為稀疏矩陣,正負(fù)樣本存在較大的不平衡,該文采取的優(yōu)化目標(biāo)為正類相似度的最小值min≥某閾值λ,并且負(fù)類樣本相似度的最大值max≤該閾值λ,如公式(5)所示。

        式中:Loss為損失;m為實體類別數(shù)量;γ為分割面,是訓(xùn)練中的超參數(shù);Pu為實體類別u的正樣本;Nu為實體類別u的負(fù)樣本;Su(i,j)為從i開始到j(luò)結(jié)束的文本區(qū)間屬于實體類別u的相似度。對數(shù)冪指數(shù)求和函數(shù)有如公式(6)和公式(7)所示的相似性。

        式中:γ為正實數(shù),γ值越大相似性越強。

        對公式(5)中求和的2個部分內(nèi)容分別引入2個超參數(shù)[8],得到損失函數(shù)如公式(8)所示。

        式中:α,β為比例因子,是訓(xùn)練時的超參數(shù)。

        3.6 模型輸出

        模型輸出棋盤空間S∈Rdm×dt×dt,根據(jù)損失函數(shù)的定義,棋盤空間中滿足Sm(i,j)>γ條件的點表示從起始位置i到結(jié)束位置j的文字片段為實體類型m。

        4 試驗

        4.1 數(shù)據(jù)集

        該文采用CLUENER2020[9]數(shù)據(jù)集,該數(shù)據(jù)是在清華大學(xué)開源的文本分類數(shù)據(jù)集THUCTC的基礎(chǔ)上,選出部分?jǐn)?shù)據(jù)進(jìn)行細(xì)粒度命名實體標(biāo)注,類別有地址、書名、公司、游戲、政府、電影、姓名、組織、職位和景點共10類,訓(xùn)練集有10 748條文本,驗證集有1 343條文本。

        4.2 評價指標(biāo)

        該文采用macro-F1指標(biāo)。

        4.3 試驗環(huán)境

        試驗計算機為Thinkpad P71筆記本電腦,具體配置見表1。

        表1 試驗環(huán)境

        4.4 訓(xùn)練參數(shù)

        最大序列長度為64,批次大?。╞atch_size)為16,學(xué)習(xí)率(learning_rate)為2e-5,丟棄比率(dropout_rate)為0.1,輪次(epoch)為40,優(yōu)化器為Adam,α,β和λ為1。由于顯卡限制,該文以BERT-base和NEZHA-base[10]為基礎(chǔ),2個中文預(yù)訓(xùn)練模型分別由哈工大[11]和華為開源提供。

        4.5 結(jié)果

        隨著訓(xùn)練epoch的增加模型損失Loss逐漸收斂,訓(xùn)練集上的F1指標(biāo)逐漸增加,如圖4所示。

        圖4 訓(xùn)練損失及F1指標(biāo)

        訓(xùn)練之后的模型在驗證集上進(jìn)行測試,基于BERT和NEZHA的模型F1指標(biāo)分別達(dá)到80.43和80.71。該文所采用的方法的BERT-base模型較BERT-CRF有1.61個百分點的提升,NEZHA-base模型略好于RoBERTa模型,具體指標(biāo)見表2。從表2中可以看出,地址類實體得分最低,表中所示方法均不超過70%。景點類實體得分比地址實體略好,最好成績?yōu)?4.75。其他類別的F1指標(biāo)均達(dá)到80以上。

        4.6 錯誤分析

        由表2可以看出,人工分辨CLUENER各組標(biāo)簽的綜合能力為63.41,許多類別標(biāo)注存在較大難度,列舉個別案例,見表3。對于組織和政府、地址和景點,不同人的理解可能不同。查閱了魔獸爭霸游戲的資料,行號372表述的主體是“魔獸爭霸3版本1.25”,這對非專業(yè)人士和通用NER來講難度都比較大。

        表2 不同模型命名實體識別結(jié)果

        表3 錯誤預(yù)測案例

        對于預(yù)訓(xùn)練模型,因為訓(xùn)練集中單詞的詞頻不同,所以高詞頻和低頻詞的空間分布特性導(dǎo)致了相似度過高或過低。假設(shè)2個單詞在語義上是相同的,但是它們的詞頻差異導(dǎo)致了空間上的距離差異,這時詞向量的距離對語義相關(guān)度的表征能力會降低,文獻(xiàn)[12]Bert Flow中稱之為各向異性的詞嵌入空間。

        5 結(jié)語

        針對中文命名實體識別通常采用序列標(biāo)注的間接標(biāo)注方法,該文提出了一種棋盤空間的命名實體直接標(biāo)注方法,在預(yù)訓(xùn)練模型的基礎(chǔ)上構(gòu)建了該標(biāo)注方法的NER識別模型,該方法在中文CLUENER2020數(shù)據(jù)集上的效果略優(yōu)于BERT-CRF等基線模型。棋盤空間的直接標(biāo)注法更加適用于嵌套實體和多標(biāo)簽實體的情況,具有較廣的適應(yīng)性。對于其他NLP任務(wù),如果在低維度不可區(qū)分,在更高維度下標(biāo)注將是十分有意義的嘗試。另外,該文隨機選取了超參數(shù)并且除預(yù)訓(xùn)練模型外沒有融入其他知識,將來計劃結(jié)合知識圖譜進(jìn)一步提高中文命名實體識別的效果。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        亚洲AV日韩AV永久无码电影| 与最丰满美女老师爱爱视频| 麻豆资源在线观看视频| 国产麻豆精品一区二区三区v视界| 丰满少妇被猛男猛烈进入久久| 精品国产91天堂嫩模在线观看| 国产 无码 日韩| 成人影院视频在线播放| 电驱蚊液可以插一晚上吗| 中文字幕人妻熟女人妻| 少妇特黄a一区二区三区| 国产成人综合久久久久久| 国产成年女人特黄特色毛片免| 91偷拍与自偷拍亚洲精品86| 国产又爽又大又黄a片| 日韩精品无码一区二区三区视频| 婷婷五月亚洲综合图区| 我的美艳丝袜美腿情缘| 国产99久久久国产精品~~牛| 成人免费看吃奶视频网站| 老熟妇Av| 国产免费一区二区三区在线视频| 黄色av一区二区在线观看| 久久无码av中文出轨人妻| 日本免费一区尤物| 久久亚洲精品国产精品婷婷| 日本少妇一区二区三区四区| 国产做爰又粗又大又爽动漫| 成人免费视频在线观看| 久久国产香蕉一区精品天美| 精品久久人妻av中文字幕| 国产成人亚洲综合二区| 成人欧美一区二区三区黑人| 欧美freesex黑人又粗又大| 五月天婷婷一区二区三区久久| 日本午夜精品一区二区三区| 亚洲精品无码国产| 亚洲色大成人一区二区| 国产三级不卡在线观看视频| 欧美丰满熟妇性xxxx| 国产AV无码专区久久精品网站|