方 紅,蘇 銘,馮一鉑,張 瀾
1.上海第二工業(yè)大學(xué) 文理學(xué)部,上海201209
2.上海第二工業(yè)大學(xué) 工學(xué)部,上海201209
3.喀什大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,新疆 喀什844000
命名實體識別對下游的信息提取、問答系統(tǒng)、機器翻譯等應(yīng)用領(lǐng)域起著非常重要的作用,是自然語言處理技術(shù)落實到工業(yè)生產(chǎn)實踐中的基礎(chǔ)環(huán)節(jié);中文命名實體識別相較于英文來說,其詞的劃分較為困難,因此如何去豐富地表示字符信息成為近些年來研究的重點。
中文命名實體識別最初是基于字符的NER和基于詞的NER,He 等人[1]、Li 等人[2]的研究表明基于字符的NER不能很好地應(yīng)用詞的信息,由于中文單個字所能表示的信息要比單個英文單詞欠缺很多,從而無法更好地完成后續(xù)的預(yù)測標注;基于詞的NER 由于無法很好地獲得實體邊界,因而會產(chǎn)生很多錯誤信息,導(dǎo)致效果比基于字符的更差。后續(xù)大量工作將中文的字符和詞信息結(jié)合起來進行序列標注,豐富輸入表示層的信息。劉小安等人[3]提出了通過CNN進行局部特征提取的CNNBiLSTM-CRF模型,對詞匯的局部特征提取起到了一定的效果;謝騰等人[4]使用了預(yù)訓(xùn)練模型Bert 來進行詞匯表示學(xué)習(xí),提出了Bert-BiLSTM-CRF 模型,提升了上下文語義表示學(xué)習(xí)的效果;以上提出的模型都沒有借助外部詞典信息,因此對于特殊名詞較多的數(shù)據(jù)集分詞錯誤造成的誤差傳遞問題比較嚴重。后續(xù)Zhang等人[5]提出了一個將詞的信息融入到這個詞的開始和結(jié)束字符中的Lattice 模型,很好地增強了詞的嵌入表示效果,但是對于詞中間的字符卻無法融合詞的信息,會造成一定的信息缺失。Liu 等人[6]、Zhang 等人[7]提出了使用詞典信息來提升字符向量表示,利用詞典來進行匹配,使得能夠很好地確定詞匯邊界信息,降低分詞誤差導(dǎo)致的錯誤率,但是對于一個詞對應(yīng)多個類型的問題無法得到解決。MultiDigraph[8]模型提出了使用多重圖來解決gazetteers的不同類型引起的多種表示信息的問題,使用了融合多個gazetteers類型信息的方式解決了之前工作中詞匯的多義性問題,對于中文句子中的歧義性得到了一定的解決,但是僅僅依靠gazetteers獲取的詞的匹配關(guān)系,不能很好地融入不相鄰的詞之間的依賴關(guān)系。比如:“張三在上海人民廣場”,通過gazetters 的信息嵌入可以很好地將“上海”“人民廣場”“上海人”等信息融合進來,但是對于各個詞之間的依賴關(guān)系沒有提取出來,整個句子的句法結(jié)構(gòu)也沒有很好融入。這樣會導(dǎo)致:如果“人民廣場”這個詞不在詞典中,而“上海人”在詞典中,會使得整個句子的詞信息融入錯誤,會降低識別準確率?;粽窭蔥9]提出了基于句法依存樹和圖神經(jīng)網(wǎng)絡(luò)的模型,證實了融入句法關(guān)系對序列標注具有一定的效果提升。針對上述問題,提出了通過將句子中詞的依賴關(guān)系即句子的句法依存樹融入到每個字符信息中的方式來緩解由于gazetteers匹配錯誤或缺失而造成的詞匯信息融入錯誤問題,給出一種基于gazetteers 和句法依存樹的中文命名實體識別方法。該方法首先通過匹配gazetteers詞典信息,找到句子含有的詞,獲取詞的開始與結(jié)束位置信息,形成兩個結(jié)點,再根據(jù)當(dāng)前詞所對照的詞典屬性將邊賦予詞的類別信息;隨后將所有詞形成的三元組信息拼接成圖結(jié)構(gòu),之后將句子的句法依存結(jié)構(gòu)關(guān)系,即句子中各個詞為結(jié)點,詞與詞之間的句法依賴關(guān)系為邊,構(gòu)成三元組,進一步將所有三元組整合為圖結(jié)構(gòu)。將詞信息圖與句法依賴關(guān)系圖進行整合,提取其鄰接矩陣信息與字符信息共同輸入到圖神經(jīng)網(wǎng)絡(luò)中進行字符表示信息的學(xué)習(xí),從而將gazetteers 信息與句法結(jié)構(gòu)信息融入每個字符信息中,最終使得形成的詞向量包含了句子的結(jié)構(gòu)和詞邊界信息。最后通過BiLSTM-CRF 模型進行序列標注,實現(xiàn)最終的實體識別。新的方法使得實體識別過程中每個字符的信息更加豐富,為后續(xù)的序列標注提供更好的支撐,減少分詞錯誤和句子結(jié)構(gòu)信息造成的誤差傳遞,從而進一步提升了實體識別的準確率。通過在Ecommerce、Resume、QI 等數(shù)據(jù)集的驗證,新的方法可以使得中文實體識別的準確率得到較大提升。
基于gazetteers和句法依存樹的中文命名實體識別模型的總體思路是通過將句子中字符順序結(jié)構(gòu)與句子包含的gazetteers 詞結(jié)構(gòu)組成的主體結(jié)構(gòu)圖、句法結(jié)構(gòu)圖進行融合,之后再將融合句法依賴結(jié)構(gòu)的主體結(jié)構(gòu)圖與通過bigram 融合后的詞向量信息一起通過自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)進行字符嵌入學(xué)習(xí),最終得到每個字符的向量表示信息;通過自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)融合后的向量信息再經(jīng)過傳統(tǒng)的BiLSTM-CRF進行序列標注,最終得到每個字符的標簽信息。模型的框架設(shè)計如圖1 所示,為表述清楚,框架中以“上海人民廣場”為輸入句子進行描述,通過對gazetteers 進行匹配,將“上海人”“上?!薄皬V場”“人民廣場”等匹配到的詞分別與句子的順序結(jié)構(gòu)圖進行融合,形成基于gazetteers的多個圖信息,之后將多個圖的鄰接矩陣信息和句子本身的詞向量信息通過自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)進行表示學(xué)習(xí)。形成最終的表示向量作為后續(xù)序列標注模型的輸入。
圖1 模型架構(gòu)Fig.1 Model architecture
通過句子所有字符順序信息、gazetteers 的結(jié)構(gòu)信息、句法依存樹信息來構(gòu)建兩個圖,分別為主體結(jié)構(gòu)圖、依賴關(guān)系圖,最后將依賴關(guān)系圖信息融合進主體結(jié)構(gòu)圖,將融合后的主體結(jié)構(gòu)圖作為后續(xù)模塊的輸入。
1.1.1 主體結(jié)構(gòu)圖
主要將所有字符序列化,形成正向、反向兩個序列。如:“上海人民廣場”,一共有6 個字符,表示為c1、c2、c3、c4、c5、c6,兩兩之間通過有向邊進行連接,形成如下:
Vc表示輸入句子的每個字符,E表示由前后字符兩兩相連的邊的組合。
通過匹配gazetteers詞典信息來匹配句子中的詞,并以作為開始結(jié)點,依次使用有向邊連接詞的各個字符,最終以作為結(jié)束結(jié)點,gi表示匹配到的gazetteers類型。將所有結(jié)點相連構(gòu)成gazetteers圖,表示為:
其中,表示由開始結(jié)束的各個gazetteers所包含的字符,E是由各個字符組成的邊,Lgaz代表一個gazetteers在不同詞典列表中的類型。
1.1.2 依賴關(guān)系圖
句法依存樹[10]是由依存關(guān)系構(gòu)成的一棵樹,依存關(guān)系是一個中心詞與其從屬之間的二元非對稱關(guān)系,其結(jié)構(gòu)是一個加標簽的有向圖,箭頭從head 指向child,以“青島是一個著名的啤酒品牌”為例,其句法依賴關(guān)系如圖2 所示,從該依賴樹可以看出,每個Token 只有一個Head,依存關(guān)系用依存弧表示,方向由從屬詞指向支配詞。每個依存弧上有個標記,稱為關(guān)系類型,表示該依存對上的兩個詞之間存在什么樣的依存關(guān)系[11]。常見的依存關(guān)系有主謂關(guān)系(SBV)、動賓關(guān)系(VOB)和狀中關(guān)系(ADV)等。通過句法依存樹可以進一步降低中文命名實體識別中的歧義性并且可以融入更多的結(jié)構(gòu)關(guān)系。
圖2 句法依存樹結(jié)構(gòu)Fig.2 Syntactic dependency tree structure
這里是通過spacy[11]模型來對句子的句法結(jié)構(gòu)進行提取,最終將切分出來詞的第一個字符與其有句法關(guān)系的另一個詞的第一個字符建立有向邊,其結(jié)構(gòu)如式(3):
其中,Vdt表示句法依存結(jié)構(gòu)中的各個成分,Edt表示各個成分直接的依賴關(guān)系構(gòu)成的有向邊的集合。
這里采用自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)來對圖信息進行嵌入表示學(xué)習(xí),圖神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于深度學(xué)習(xí)的各個領(lǐng)域中,對于通過圖卷積神經(jīng)網(wǎng)絡(luò)(graph neural network,GCN)來融合句法依賴信息在Cetoli 等人[12]提出的模型中已經(jīng)體現(xiàn)出了很好的作用。后來為了更好地融合長距離信息,Li 等人[13]提出了門控圖神經(jīng)網(wǎng)絡(luò),通過加入GRU 來進一步提升句子整體語境的融合度。在門控圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加自適應(yīng)的門控機制,形成最終的自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò)(adapted gated graph neural network,AGGNN)來進行信息融合,它相較于傳統(tǒng)的門控圖神經(jīng)網(wǎng)絡(luò)的優(yōu)點在于它可以融合多圖信息,由于每個詞可能屬于多個類型,因此一個詞可能會形成多張圖,而AGGNN 可以更好地進行多重圖的嵌入表示。其具體的結(jié)構(gòu)如下所示,bigram已經(jīng)被Chen等人[14]提出的模型證實在命名實體識別任務(wù)中有較好的效果。初始化的向量信息由gazetteers和由bigram表示的詞嵌入向量融合表示:
將由主圖、gazetteers 圖、句法依賴圖融合后的圖的鄰接矩陣表示為Av,這里的Av是通過權(quán)重比來計算的最終矩陣,具體實現(xiàn)如下。
將上下文匹配到的gazetteers 類型進行統(tǒng)計,通過sigmoid 函數(shù)計算貢獻度系數(shù),最終將多個鄰接矩陣轉(zhuǎn)化成一個融合多個gazetteers信息的鄰接矩陣Av。其權(quán)重計算方式如下所示:
其中,w為權(quán)重系數(shù),n為對應(yīng)gazetteers類型出現(xiàn)的次數(shù)。
得到鄰接矩陣信息后,通過一個網(wǎng)絡(luò)層獲取融合圖信息的隱向量信息:
最后輸入到GRU[15]中形成最終的字符表示信息。
BiLSTM-CRF是一個傳統(tǒng)的序列標注預(yù)測模型,在Lin等人[16]的研究中,可以看出它能起到比較好的效果,因此這里采用這個基礎(chǔ)模型作為序列標注預(yù)測模型,將通過AGGNN 形成的字符表示信息輸入到BiLSTMCRF中獲取最終的預(yù)測結(jié)果。
1.3.1 BiLSTM層
BiLSTM 層是由前向LSTM 和后向LSTM 組成,可以更好地用于提取文本中的上下文特征。Marcheggiani等人[17]的工作指出,圖卷積網(wǎng)絡(luò)的主要問題在于難以捕捉長距離節(jié)點之間的依存關(guān)系,將其與LSTM結(jié)合后可以很好地避免這一問題。因此,將經(jīng)過圖卷積神經(jīng)網(wǎng)絡(luò)后的字符信息加入到BiLSTM 中進行編碼。其中,LSTM的主要結(jié)構(gòu)可以表示為:
其中,σ是sigmoid 激活函數(shù),i表示輸入門,f表示遺忘門,o表示輸出門;?是點乘運算,w、b代表輸入門、忘記門、輸出門的權(quán)重矩陣和偏置向量。對于句子(x1,x2,…,xn),共有n個單詞,每一個都代表一個d維的向量,BiLSTM通過計算每個詞包含其在句子中左側(cè)上下文信息表示向量htl和其右側(cè)上下文信息的htr,通過將其整合共同表示這個詞的信息為ht=[htl,htt],這種表示可以有效地包含上下文中單詞的表示,對于多標記應(yīng)用十分有效。
1.3.2 CRF層
命名實體識別任務(wù)一般可以被認為是序列標注的問題,通常BiLSTM 的輸出結(jié)果即可進行序列標注,通過在最頂層添加一個softmax 層進行判斷,輸出概率最大的標簽,即可完成輸入序列的標注任務(wù)。但是BiLSTM雖然解決了上下文聯(lián)系的問題,卻缺乏對輸出標簽信息的約束。softmax分類器在序列標注任務(wù)中沒有考慮標簽與標簽間存在的依賴關(guān)系,而條件隨機場CRF可以使用對數(shù)線性模型來表示整個特征序列的聯(lián)合概率,能更好地預(yù)測序列標注中的標簽。
假定句子長度為n,句子序列為X=(x1,x2,…,xn),通過BiLSTM 輸出的分數(shù)矩陣為P,P的維度為n×k,其中k表示標簽種類的數(shù)目,Pij表示第i個詞預(yù)測為第j個標簽的概率,對于預(yù)測標簽序列Y=(y1,y2,…,yn),預(yù)測序列最終的總分數(shù)為:
其中,T表示標簽間的轉(zhuǎn)移分數(shù),表示每個字到對應(yīng)yi標簽的分數(shù)。
由于預(yù)測序列有多種可能性,其中只有一種是最正確的,應(yīng)對所有可能序列做全局歸一化,產(chǎn)生原始序列到預(yù)測序列的概率,在所有可能的標記序列上的softmax產(chǎn)生序列y的概率:
采用了Ecommerce、Resume、QI 三個數(shù)據(jù)集來作為模型的實驗數(shù)據(jù)集。Ecommerce是由Ding等人在文獻[8]中提出的一個電商領(lǐng)域的命名實體識別數(shù)據(jù)集,Resume是Zhang 等人[5]最初提出的一個簡歷數(shù)據(jù)集,它是一個公共數(shù)據(jù)集,在多篇文章中已經(jīng)得到了使用與驗證。QI是由本文標注的商品質(zhì)量檢測領(lǐng)域的數(shù)據(jù)集,主要分為9個實體類型,用來進行產(chǎn)品實體的標注,如表1。
表1 語料規(guī)模Table 1 Corpus size 句
對于使用到的詞典信息通過在搜狗詞庫、百度詞庫中獲取,將其中的詞按照行進行分割,最終形成一個綜合的詞典庫信息,如表2。
表2 詞典信息Table 2 Dictionary information 個
采用的標注格式是BIEO 的標注形式,如對于位置信息,使用“B-LOC”“I-LOC”“E-LOC”“O”。采用的評價標準與以往相關(guān)論文所使用的標準一樣,即使用精確率P、召回率R和F1 值來進行模型的效果評估。其中各個評價指標的計算公式如下:
其中,a表示識別正確的實體數(shù),A表示全部實體的個數(shù),B表示被識別出的實體數(shù)。
這里對比模型選取BiLSTM(2-gram)、BiLSTM(3-gram)、BiLSTM(4-gram)、Lattice、Multigraph。使用BiLSTM(2-gram)、BiLSTM(3-gram)、BiLSTM(4-gram)主要是為了將所提出模型與依靠N-gram進行分詞并與字符進行組合的模型進行對比,從而進一步體現(xiàn)出在數(shù)據(jù)集不使用gazetteers和句法結(jié)構(gòu)信息時的效果,Lattice和MultiGraph 模型都是使用了gazetteers 的中文命名實體識別模型,前者是基于LSTM 實現(xiàn)的修改,在LSTM的神經(jīng)元接收字符信息的同時也會接收通過詞典匹配的詞信息,后者是基于詞向量表示層的改進,將詞典信息通過圖神經(jīng)網(wǎng)絡(luò)融合進字符表示中,之后再將其輸入到下一層的BiSLTM 中。通過與以上兩種模型的對比可以體現(xiàn)出新模型的以下兩個方面的效果:(1)對比基于LSTM 層融入詞信息模型的效果;(2)對比基于表示層融入詞信息而沒有使用句法結(jié)構(gòu)信息的效果。通過以上模型對比,從而更好地體現(xiàn)出所提出模型的效果。
2.4.1 實驗環(huán)境配置
本實驗是基于NCRF++框架[18]搭建,其具體的訓(xùn)練環(huán)境配置如表3所示。
表3 訓(xùn)練環(huán)境配置Table 3 Training environment configuration
2.4.2 實驗參數(shù)配置
在本次實驗過程中,采用sgd來作為模型優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.01,之后按照0.05的衰減率進行遞減。LSTM 隱藏層的特征維度設(shè)置為300,訓(xùn)練批次大小為64,在LSTM的輸入和輸出設(shè)置Dropout,值為0.5,GRU的Clip值設(shè)置為5。具體的實驗參數(shù)配置如表4所示。
表4 參數(shù)設(shè)置Table 4 Parameter settings
通過采用文獻[19]中的方法,首先在BiLSTM-CRF僅僅基于字符的基礎(chǔ)上實驗,后續(xù)通過添加2-gram、3-gram和4-gram的實驗對比,結(jié)果如表5所示。
表5 Ecommerce語料、Resume語料和QI語料的實驗對比結(jié)果Table 5 Experiment comparison results of Ecommerce corpus,Resume corpus and QI corpus %
通過表中數(shù)據(jù)可以看出2-gram 相對于3-gram、4-gram 有較好的結(jié)果。與模型Lattice 和MultiGraph 對比本文的模型效果也有所提升。綜上,本文的模型在使用了gazetteers和句法依存樹的關(guān)系后使得模型效果顯著提升。在Ecommerce數(shù)據(jù)集和QI數(shù)據(jù)集上的提升比較明顯,主要是因為這兩個數(shù)據(jù)集的特殊符號和品牌名稱特殊字符較多,相對于Resume 數(shù)據(jù)集有更多的噪音信息,通過融入gazetteers 和句法結(jié)構(gòu)關(guān)系可以緩解詞典匹配錯誤信息的傳遞,從而使得各項指標都得到了提升。對于Resume 數(shù)據(jù)集,數(shù)據(jù)格式和文本結(jié)構(gòu)比較單一且文字信息較為工整,提升效果不是很明顯,但是相比于實驗中的其他模型,效果也得到了一定的提升。
為了對融入句法依賴解析所產(chǎn)生影響做出更加客觀的評價,將模型設(shè)置為四種情況進行消融實驗:(1)初始模型(不包含句法依賴結(jié)構(gòu)和詞典信息)BiLSTM+bigram;(2)僅僅包含句法依賴信息,表示為BiLSTM+bigram+DT;(3)僅僅融入gazetteers 信息,表示為BiLSTM+bigram+gaz;(4)既包含gazetteers信息也包含句法依賴結(jié)構(gòu)信息即本文的模型,表示為BiLSTM+bigram+gaz+DT,最終實驗結(jié)果如表6所示。
表6 Ecommerce語料、Resume語料和QI語料消融實驗結(jié)果Table 6 Ablation experiment results of Ecommerce corpus,Resume corpus and QI corpus %
通過實驗結(jié)果數(shù)據(jù)可以看出,在模型去掉gazetteers信息和句法依賴結(jié)構(gòu)關(guān)系時,整體評測標準大幅下降,當(dāng)初始模型加入句法依賴信息后,準確率和F1 值都有一定的提升;僅僅將詞典信息融入進去對于recall 值有很大的提升,準確率和F1 值提升幅度與僅僅加入句法依賴關(guān)系效果接近。將兩者共同融入后,所有的指標都得到了一個明顯的提升。由此可以看出句法依賴信息有助于提升詞的信息表示,進而提升各項評測信息的值。
針對中文命名實體識別任務(wù),通過自適應(yīng)圖神經(jīng)網(wǎng)絡(luò)將詞信息、句法依賴信息、句子順序信息融合獲得語境化的詞向量,再結(jié)合傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型BiLSTMCRF,構(gòu)建成新的實體識別模型。通過在Ecommerce數(shù)據(jù)集、Resume 數(shù)據(jù)集和自行標注的QI 數(shù)據(jù)集分別進行評測,相比于參考的其他模型都獲得了不錯的效果。所提出模型的最大優(yōu)勢在于通過將句法依賴關(guān)系融合進詞的信息可以很好地緩解對于詞典中不存在的詞造成的融合錯誤信息的問題,從而使得該模型相比于其他模型識別效果得到了很好的提升。文中所研究的這個方法可以應(yīng)用于其他領(lǐng)域?qū)τ谥形拿麑嶓w識別模型的詞的消歧工作。