李寶昌,郭衛(wèi)斌
(華東理工大學(xué)信息科學(xué)與工程學(xué)院, 上海 200237)
命名實(shí)體識(shí)別(Name Entity Recognition, NER)[1]是自然語(yǔ)言處理領(lǐng)域中的一個(gè)子領(lǐng)域,是自然語(yǔ)言處理的基本任務(wù)之一,旨在從文本中標(biāo)注出具有特殊意義的實(shí)體,包括人名、地名、組織機(jī)構(gòu)名等,該任務(wù)對(duì)信息抽取[2]、機(jī)器翻譯[3]、智能問答[4]等自然語(yǔ)言處理的應(yīng)用起著至關(guān)重要的作用。
早期命名實(shí)體識(shí)別采用基于規(guī)則和詞典方法,通過(guò)人工根據(jù)數(shù)據(jù)集的特征構(gòu)造出相應(yīng)的規(guī)則模板或?qū)S迷~典,然后進(jìn)行文本匹配來(lái)識(shí)別文本實(shí)體。該方法須耗費(fèi)大量人力物力建立專門詞典,且詞典僅適合特定領(lǐng)域,可遷移性差。隨著大量文本數(shù)據(jù)的產(chǎn)生,學(xué)者們開始將基于大型語(yǔ)料庫(kù)的統(tǒng)計(jì)概率方法引入到該任務(wù)中,常用的模型有隱馬爾科夫模型(HMM)[5]、條件隨機(jī)場(chǎng)(CRF)[6]、最大熵模型(ME)[7]、支持向量機(jī)(SVM)[8]等。該類方法的效果往往取決于特征的選取,依然須耗費(fèi)大量的人力來(lái)設(shè)計(jì)特征模板。
近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型被引入到命名實(shí)體識(shí)別任務(wù)中,且取得了巨大成果。Collobert 等[9]首次提出了一種深度神經(jīng)網(wǎng)絡(luò)模型用于NER 任務(wù),與之前的統(tǒng)計(jì)模型相比,實(shí)驗(yàn)識(shí)別效果有了明顯提升。由于文本數(shù)據(jù)序列特征比較明顯,需要考慮文本長(zhǎng)距離間的有效特征信息,因此,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[10]被運(yùn)用到NER 任務(wù)中。Huang 等[11]提出了BiLSTM-CRF 模型,添加了CRF 以優(yōu)化輸出序列標(biāo)簽,識(shí)別效果顯著,因此該模型框架逐漸成為NER 任務(wù)中的主流框架。
與英文NER 不同,中文NER 因受限于中文句子的特點(diǎn)而更加困難[12]:一是中文句子是由漢字緊密地排列在一起組成的,不像英文句子中有天然空格將單詞分開,而且中文句子中詞語(yǔ)邊界往往是實(shí)體邊界,因此中文實(shí)體邊界難以區(qū)分;二是中文具有更強(qiáng)的多義性,往往具有一字多義和一詞多義的特性,同一個(gè)中文詞匯在不同的語(yǔ)境中語(yǔ)義可能是不同的,這增加了對(duì)中文實(shí)體識(shí)別的困難。
在早期中文命名實(shí)體識(shí)別方法中,基于深度神經(jīng)網(wǎng)絡(luò)的中文NER 基準(zhǔn)方法主要有兩種:一種是基于字符的中文NER 模型(Char-based-NER)[13-14];另一種是基于詞匯的中文NER 模型(Word-based-NER)[15-17]。前者將每個(gè)字作為獨(dú)立輸入進(jìn)行特征提取,但未充分利用句子詞匯信息;后者先根據(jù)中文分詞系統(tǒng)將句子拆分成可能出現(xiàn)的詞匯,然后進(jìn)行特征提取,但分詞時(shí)可能出現(xiàn)詞匯錯(cuò)誤分割問題,導(dǎo)致實(shí)體邊界和實(shí)體類別的錯(cuò)誤預(yù)測(cè)。
Zhang 等[18]提出了一種將詞匯信息加入到字信息中的模型(Lattice-LSTM)。為了能夠進(jìn)行字詞信息融合,首先對(duì)句子進(jìn)行詞匯匹配,如果句子中子序列 {ci,···,cj} 與詞典中的詞匯匹配,則在ci到cj之間添加一個(gè)Lattice 結(jié)構(gòu),使該詞匯信息經(jīng)過(guò)此結(jié)構(gòu)添加到詞匯結(jié)尾的字符單元中。該模型與基于詞向量的NER 模型相比,避免了分詞錯(cuò)誤的問題,實(shí)驗(yàn)結(jié)果表明,其F1 值有很大的提高,提升了識(shí)別效果。由于一個(gè)字符可能存在多個(gè)對(duì)應(yīng)詞匯,因此該模型存在詞匯沖突問題,并且由于增加了Lattice 結(jié)構(gòu),模型框架變得相當(dāng)復(fù)雜,大大降低了它的訓(xùn)練速度。同時(shí),由于使用的字詞向量表是word2vec 構(gòu)建的,在構(gòu)建過(guò)程中會(huì)過(guò)濾低頻詞匯,根據(jù)中文特點(diǎn),常用詞一般是短詞,長(zhǎng)詞出現(xiàn)的頻率偏低,因此詞匯長(zhǎng)度越長(zhǎng)越可能成為未登錄詞,模型越可能丟失長(zhǎng)詞詞匯信息,會(huì)產(chǎn)生語(yǔ)義偏差問題。
Liu 等[19]提出的 WC-LSTM(Word-Character LSTM)模型是對(duì)Lattice-LSTM 模型的改進(jìn),它將Lattice 結(jié)構(gòu)取消,規(guī)定每個(gè)字之間有且僅有一個(gè)節(jié)點(diǎn)代表詞匯信息,將詞匯信息拼接到詞匯末尾字符信息的后面,如果字之間沒有詞匯信息就使用
為了能夠高效地將詞匯信息融入到字符信息中,本文提出了一種詞典信息分層調(diào)整的中文命名實(shí)體識(shí)別方法。首先,提出了一種簡(jiǎn)潔的方法進(jìn)行字詞融合,通過(guò)分層調(diào)整機(jī)制調(diào)節(jié)詞匯權(quán)重,增強(qiáng)長(zhǎng)詞權(quán)重,減弱短詞權(quán)重來(lái)弱化較多長(zhǎng)詞詞匯信息丟失而導(dǎo)致的語(yǔ)義偏差問題,以此緩解多個(gè)對(duì)應(yīng)詞匯產(chǎn)生的沖突影響;然后,為了探索調(diào)整機(jī)制的有效性,探索了3 種不同的詞匯融合策略,將詞匯信息編碼成維度固定的向量,使模型能夠進(jìn)行并行訓(xùn)練。
本文將每個(gè)字所能匹配到的詞匯按照詞匯長(zhǎng)度分層,根據(jù)詞匯長(zhǎng)度調(diào)整詞匯所占權(quán)重,然后將詞匯合并到基于字符的中文命名實(shí)體識(shí)別模型中。在輸入層將詞匯信息加入到字信息中,既可以使每個(gè)有對(duì)應(yīng)詞匯的字符都直接使用相關(guān)詞匯信息,保證不會(huì)遺漏詞典匹配到的詞匯信息,還可以降低所有詞匯間信息沖突對(duì)模型的影響,與Lattice-LSTM相比,本文模型結(jié)構(gòu)簡(jiǎn)單且更容易實(shí)現(xiàn)。
本文模型的總體框架圖如圖1 所示。模型框架分為三個(gè)部分:(1)輸入表示層。首先將輸入序列每個(gè)字符根據(jù)字向量表映射為一個(gè)稠密向量,然后將每個(gè)字符在詞典中進(jìn)行詞匯匹配,將對(duì)應(yīng)的詞匯按照詞匯長(zhǎng)度進(jìn)行分類,通過(guò)詞匯長(zhǎng)度進(jìn)行詞集的權(quán)重調(diào)整,將最終詞集信息向量拼接到字符向量后形成完整的輸入信息向量。(2)上下文編碼層。使用Bi-LSTM 進(jìn)行上下文的特征提取。(3)標(biāo)簽解碼層。將編碼層輸出,使用條件隨機(jī)場(chǎng)來(lái)進(jìn)行解碼,識(shí)別出命名實(shí)體。
圖1 本文模型的總體框架圖Fig.1 General framework of model in this paper
句子在送入上下文編碼層前,首先要將每一個(gè)字轉(zhuǎn)化為一個(gè)定長(zhǎng)的稠密向量。假設(shè)輸入一個(gè)由n個(gè)漢字組成的句子sentence=(),每個(gè)字ci通過(guò)查找預(yù)訓(xùn)練好的字向量表映射成為向量序列(),即
1.1.1詞典信息分層調(diào)整機(jī)制 利用現(xiàn)有的詞典,對(duì)輸入句子中的每個(gè)字所匹配到的詞匯按照詞匯長(zhǎng)度進(jìn)行分層,這樣可以保留所有的詞匯信息。通過(guò)調(diào)整機(jī)制調(diào)節(jié)所有詞匯所占的權(quán)重,增強(qiáng)長(zhǎng)詞匯權(quán)重,降低短詞匯權(quán)重,這樣既弱化了語(yǔ)義偏差問題,又減少了所有詞匯之間的信息沖突。
為保留所有的詞匯信息,每個(gè)漢字根據(jù)其所匹配到的詞匯長(zhǎng)度被分到不同的詞集中。由于中文詞匯一般由2 個(gè)漢字組成,最多由4 個(gè)漢字組成,這里設(shè)置4 個(gè)詞集“Bigram”、“Trigram”、“Quaternary”、“More”,分別以“B”、“T”、“Q”、“M”表示。其中B表示由2 個(gè)字組成的詞匯的詞集;T表示由3 個(gè)字組成的詞匯的詞集;Q表示由4 個(gè)字組成的詞匯的詞集;M表示由多于4 個(gè)字組成的詞匯的詞集。對(duì)于輸入的句子sentence=(),這4 個(gè)詞匯集合構(gòu)成如下:
其中:Ll表示長(zhǎng)度為l的詞匯;w表示所匹配到的詞匯;n表示字符下標(biāo)的最大值,即句子的長(zhǎng)度;k表示對(duì)應(yīng)詞匯結(jié)束字符的下標(biāo)。此外,如果一個(gè)詞集是空的,即該漢字沒有對(duì)應(yīng)此長(zhǎng)度的詞匯,空詞集中會(huì)添加一個(gè)特殊的詞“None”。以“上海市中山西路”中的字符c5“山”為例,在詞典中匹配到兩字詞匯w4,5“中山”和w5,6“山西”,放在B詞集中;四字詞匯w4,7“中山西路”,放在Q詞集中,分類方式如圖2 所示。使用這樣的分類方式將詞匯信息融合到詞匯中每個(gè)字符信息中時(shí),能夠保留所有可能的詞匯信息,避免詞匯信息的丟失
圖2 詞典信息分層方法Fig.2 Dictionary information layering method
在將詞典信息分層得到B、T、Q、M詞集之后,通過(guò)調(diào)整機(jī)制調(diào)節(jié)詞集中詞匯所占的權(quán)重。根據(jù)不同的層級(jí)即詞匯的長(zhǎng)度,通過(guò)Softmax 函數(shù)來(lái)計(jì)算它的權(quán)重。通過(guò)增強(qiáng)高層詞匯向量權(quán)重,降低低層詞匯向量權(quán)重,該模型可以弱化語(yǔ)義偏差問題,并降低詞匯信息之間的沖突。
若字符ci對(duì)應(yīng)詞匯wL2和wL3,將其全部融入字符中,可能會(huì)側(cè)重一個(gè)誤導(dǎo)性的詞匯,導(dǎo)致不正確的標(biāo)簽預(yù)測(cè)。根據(jù)詞典信息,增強(qiáng)詞典中長(zhǎng)詞的權(quán)重以更多地關(guān)注潛在的實(shí)體,降低了嵌套實(shí)體對(duì)詞邊界判定的干擾,同時(shí)也緩解了高頻短詞對(duì)語(yǔ)義的偏差影響,從而使模型側(cè)重于正確的標(biāo)簽預(yù)測(cè),詞典信息反饋調(diào)整圖如圖3 所示。
圖3 詞典信息反饋調(diào)整圖Fig.3 Dictionary information feedback adjustment diagram
計(jì)算各詞集中詞匯的權(quán)重時(shí),記錄每個(gè)詞匯的權(quán)重,若后面有更高層詞匯對(duì)已計(jì)算詞匯產(chǎn)生調(diào)整,取小值更新權(quán)重,以此保證高層詞匯擁有更高的權(quán)重。計(jì)算方法如下:
其中:l∈L,L表示字符對(duì)應(yīng)不為“None”的詞集的詞匯長(zhǎng)度集合(“M”詞集中詞匯長(zhǎng)度定義為5);αl表示長(zhǎng)度為l的詞匯所占的權(quán)重;v(B) 表示B詞集中所有詞的向量合并;α 表示記錄下的對(duì)應(yīng)詞匯的權(quán)重;ew表示預(yù)訓(xùn)練好的詞向量表。經(jīng)過(guò)公式(3)的計(jì)算,各詞集中詞匯都得到了相應(yīng)的詞向量表示。
1.1.2字詞向量結(jié)合表示 將4 個(gè)詞集的表示組合成1 個(gè)固定維度的特征向量,并將它們添加到每個(gè)字向量后面,形成字詞向量的結(jié)合表示。為了盡可能多地保留信息,將這4 個(gè)詞集的向量表示拼接起來(lái),每個(gè)字詞向量表示如下:
其中,v表示每個(gè)詞集合并后的向量。
分層調(diào)整機(jī)制通過(guò)調(diào)整詞匯的權(quán)重來(lái)緩解語(yǔ)義偏差問題和降低詞匯沖突問題,但同時(shí)也合并了被高層詞匯反饋降低權(quán)重的底層詞向量。為了驗(yàn)證反饋機(jī)制的有效性,本文提出了3 種不同的策略進(jìn)行對(duì)比實(shí)驗(yàn):(1)只保留最高層詞匯信息;(2)只保留最底層詞匯信息;(3)利用注意力機(jī)制來(lái)調(diào)整各層詞匯的權(quán)重。
1.2.1保留最高層詞匯信息(H-LSTM)對(duì)于每個(gè)字符對(duì)應(yīng)的詞集,在計(jì)算詞匯權(quán)重時(shí),最高層詞集詞匯權(quán)重保持不變,若底層有詞集詞匯受高層詞匯影響則權(quán)重置為0,即將底層詞匯向量置為0,這樣只保留了最高層詞集詞匯信息。每個(gè)字詞向量表示如下:
1.2.2保留最低層詞匯信息(S-LSTM)對(duì)于每個(gè)字符對(duì)應(yīng)的詞集,在計(jì)算詞匯權(quán)重時(shí),最低層詞集詞匯的權(quán)重保持不變,若此詞集詞匯有高層詞匯對(duì)其影響,高層詞匯權(quán)重置為0,即將高層詞匯向量置為0,這樣只保留了最低層詞集詞匯信息。每個(gè)字詞向量表示如下:
1.2.3 注意力機(jī)制調(diào)整各層詞匯權(quán)重(Att-LSTM)考慮到各層詞集的重要程度不同,引入自注意力機(jī)制計(jì)算每個(gè)字符對(duì)應(yīng)各層詞集權(quán)重[20]。將4 個(gè)詞集合并起來(lái)表示為矩陣Vi:
將矩陣通過(guò)線性映射操作轉(zhuǎn)化成3 個(gè)維度均為dk的輸入矩陣:查詢矩陣Q、鍵矩陣K和值矩陣V,使用自注意力函數(shù)計(jì)算Q和K的相似性來(lái)確定V的權(quán)重,公式如下:
其中:dk表示神經(jīng)網(wǎng)絡(luò)的隱層單元數(shù),起到調(diào)節(jié)作用,防止內(nèi)積維度過(guò)大。
以ai表示計(jì)算所得的權(quán)重矩陣,每個(gè)字詞向量表示如下:
為了有效地獲取上下文的特征,上下文編碼層采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò),即使用前向LSTM 和后向LSTM 組成的BiLSTM 分別對(duì)文本進(jìn)行正向特征提取和逆向特征提取。輸入向量在LSTM 結(jié)構(gòu)中的計(jì)算方式如下:
其中:σ 為激活函數(shù)Sigmoid 函數(shù);tanh 為激活函數(shù)雙曲正切函數(shù);? 為向量矩陣點(diǎn)乘;W、U和b為模型計(jì)算過(guò)程中的參數(shù);it、ft和ot分別表示在t時(shí)刻的輸入門、遺忘門和輸出門;~ct表示t時(shí)刻輸入向量的信息狀態(tài);ct表示t時(shí)刻更新后的信息狀態(tài);ht表示時(shí)t刻的輸出信息狀態(tài)。在BiLSTM 模型中,t時(shí)刻的輸出信息特征ht由前向LSTM得到的輸出信息特征和反向LSTM 得到的輸出信息特征拼接而成,表達(dá)式如下:
該表達(dá)式有效地包含了文本的上下文信息,對(duì)中文命名實(shí)體識(shí)別任務(wù)的解決有很大幫助。
標(biāo)簽解碼層在收到上下文編碼層對(duì)文本的特征表示后,對(duì)整個(gè)模型的輸入文本進(jìn)行相應(yīng)的標(biāo)簽序列預(yù)測(cè)。目前,命名實(shí)體識(shí)別任務(wù)中常使用CRF 層作為標(biāo)簽解碼層[21]。CRF 充分考慮到上下文標(biāo)簽序列信息,并考慮到了標(biāo)簽間的約束關(guān)系,保證了對(duì)標(biāo)簽預(yù)測(cè)的合理性和準(zhǔn)確性。
使用CRF 層解碼,需要計(jì)算兩類分?jǐn)?shù)。第一類是發(fā)射分?jǐn)?shù)(Emission score),根據(jù)BiLSTM 層所提取到的信息特征H={h1,h2,···,hn} 計(jì)算每個(gè)標(biāo)簽分?jǐn)?shù),如式(17)所示:
其中:O為發(fā)射分?jǐn)?shù)矩陣;H為信息特征矩陣;Wo為H的權(quán)重矩陣;bo為偏置矩陣。
第二類是標(biāo)簽之間狀態(tài)轉(zhuǎn)移分?jǐn)?shù)(Transition score),由CRF 層學(xué)習(xí)得到。
綜合評(píng)估分?jǐn)?shù)的計(jì)算公式如下:
其中:X=(c1,c2,···,cn) 表示輸入序列;y=(y1,y2,···,yn)表示一個(gè)可能的標(biāo)簽預(yù)測(cè)序列;T為狀態(tài)轉(zhuǎn)移分?jǐn)?shù)矩陣,Tyt,yt+1表示標(biāo)簽yt到標(biāo)簽yt+1的轉(zhuǎn)移分?jǐn)?shù);Ot,yt表示在t時(shí)刻yt標(biāo)簽的發(fā)射分?jǐn)?shù)。預(yù)測(cè)序列y在整個(gè)序列中的概率如式(19)所示:
其中:YX表示所有可能的標(biāo)簽組;表示任意一個(gè)可能的標(biāo)簽預(yù)測(cè)系列。
定義式(19)的概率預(yù)測(cè)函數(shù)為損失函數(shù),將其轉(zhuǎn)化為對(duì)數(shù)損失函數(shù):
其中:s(X,y) 表示預(yù)測(cè)序列y的綜合評(píng)估分?jǐn)?shù)。在解碼時(shí),選取最大概率的預(yù)測(cè)序列y作為最終的輸出結(jié)果。
本文通過(guò)一系列實(shí)驗(yàn)來(lái)研究詞典信息分層調(diào)整機(jī)制的有效性,同時(shí)與其他基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別模型進(jìn)行了對(duì)比。大多數(shù)實(shí)驗(yàn)設(shè)置都遵循Lattice-LSTM,包括測(cè)試數(shù)據(jù)集、比較標(biāo)準(zhǔn)、評(píng)估指標(biāo)等。
在2 個(gè)公開的中文數(shù)據(jù)集上進(jìn)行測(cè)試,分別是Resume 數(shù)據(jù)集和Weibo 數(shù)據(jù)集。Resume 數(shù)據(jù)集來(lái)自新浪財(cái)經(jīng)的中文個(gè)人簡(jiǎn)歷總結(jié);Weibo 數(shù)據(jù)集來(lái)自新浪微博的社交媒體網(wǎng)站。在Weibo 數(shù)據(jù)集中,按照句子數(shù)量劃分為訓(xùn)練集1400、驗(yàn)證集270 和測(cè)試集270,對(duì)應(yīng)的字符數(shù)量劃為訓(xùn)練集73800、驗(yàn)證集14500和測(cè)試集14800。在Resume 數(shù)據(jù)集中,按照句子數(shù)量劃分為訓(xùn)練集3800、驗(yàn)證集460 和測(cè)試集480,對(duì)應(yīng)的字符數(shù)量分別為訓(xùn)練集124100、驗(yàn)證集13900 和測(cè)試集15100。這2 個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表1 所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Data set statistics
Weibo 數(shù)據(jù)集包含了3 個(gè)不同類型的數(shù)據(jù)集:(1)Named Entities(NE)表示常用的命名實(shí)體;(2)Nominal Entities(NM)表示寬泛的名義實(shí)體;(3)Overall 表示以上全都包含的實(shí)體。
本文模型是對(duì)Lattice-LSTM 模型的改進(jìn),因此大多數(shù)參數(shù)設(shè)置都參考了Lattice-LSTM,如表2 所示。字向量維度和詞向量維度大小均設(shè)置為50。為了避免過(guò)擬合,對(duì)字向量和詞向量使用0.5 的丟棄率。使用Adam 來(lái)優(yōu)化所有可訓(xùn)練的參數(shù),初始學(xué)習(xí)率為0.015,衰減率為0.05。
表2 參數(shù)設(shè)置Table 2 Parameter setting
實(shí)驗(yàn)中使用與Lattice-LSTM 相同的詞典,由704400 個(gè)字詞組成,包含了5700 個(gè)漢字、291500 個(gè)雙字詞、278100 個(gè)三字詞和129100 個(gè)其他詞匯。本文使用的字詞向量表與Lattice-LSTM 相同,它是使用word2vec 在中文數(shù)據(jù)集Giga-Word 上進(jìn)行預(yù)訓(xùn)練得到的。
為了能夠清楚地表達(dá)實(shí)驗(yàn)效果,統(tǒng)一采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值(F1-score)3 個(gè)指標(biāo)來(lái)衡量。公式如下:
其中:T P (True Positive)表示將正類預(yù)測(cè)為正類;FP(False Positive)表示將負(fù)類預(yù)測(cè)為正類;FN (False Negative)表示將負(fù)類預(yù)測(cè)為負(fù)類;(TP+FP) 表示預(yù)測(cè)為正類的結(jié)果中,正確個(gè)數(shù)的比例;(TP+FN) 表示實(shí)際為正類的樣本中,正確判斷為正類的比例。
Resume 數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比方法:(1)Word-based是詞匯級(jí)的中文命名實(shí)體識(shí)別基準(zhǔn)方法;(2)Charbased 是以字符級(jí)的中文命名實(shí)體識(shí)別基準(zhǔn)方法;(3)Lattice-LSTM 是在LSTM 模型中添加Lattice 結(jié)構(gòu)的方法;(4)LR-CNN[22]是基于CNN 模型使用一種反饋機(jī)制合并詞匯的方法;(5)WC-LSTM 是一種字詞融合的方法,共有4 種不同選擇詞匯策略:Shortest是融合匹配到的最短詞匯;Longest 是融合匹配到的最長(zhǎng)詞匯;Average 是取最短詞匯向量和最長(zhǎng)詞匯向量的平均值;Self-attention 是利用自注意力機(jī)制對(duì)最短詞匯和最長(zhǎng)詞匯分配權(quán)重。
Weibo 數(shù)據(jù)集是中文社交媒體上的數(shù)據(jù)集合,比Resume 數(shù)據(jù)集增加了2 種針對(duì)中文社交媒體的實(shí)驗(yàn)對(duì)比方法:Peng(2015)[23]是使用3 種類型的中文嵌入方法,利用NER 訓(xùn)練文本,然后對(duì)embedding 進(jìn)行微調(diào)的方法;He(2017)[24]是基于BiLSTM 神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型。
本文模型共有4 種不同的調(diào)整詞匯權(quán)重策略:SLSTM 保留最底層詞匯,將高層詞匯權(quán)重置為0;HLSTM 保留最高層詞匯,將底層詞匯權(quán)重置為0;Att-LSTM 利用自注意力機(jī)制對(duì)各個(gè)詞匯分配權(quán)重;HALSTM 利用調(diào)整機(jī)制對(duì)各個(gè)詞匯分配權(quán)重。
2.4.1模型識(shí)別效果對(duì)比分析 表3 列出了在Resume 數(shù)據(jù)集上不同模型的實(shí)驗(yàn)結(jié)果,相比于Word-based 和Char-based,本文提出的HA-LSTM 模型的F1 值分別提升了2.05%和2.15%,說(shuō)明字詞融合的有效性;相比于Lattice-LSTM,本文提出的模型F1 值提升了1.17%,說(shuō)明了緩解詞匯沖突對(duì)識(shí)別效果的有效性;相比于LR-CNN 和WC-LSTM 的4 種不同策略,本文模型具有更好的實(shí)驗(yàn)表現(xiàn),表明了所有字符直接使用詞匯信息和保證詞匯信息完整性的重要性;相比于S-LSTM、H-LSTM 和Att-LSTM,對(duì)詞典信息分層調(diào)整的方法具有最好的實(shí)驗(yàn)表現(xiàn),表明了本文方法的有效性。
表3 不同模型在Resume 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different models on Resume dataset
表4 列出了在Weibo 數(shù)據(jù)集3 種不同類型數(shù)據(jù)集上不同模型的F1 值。相比于Peng(2015),本文HA-LSTM 模型的F1 值分別提升了2.06%、2.31%、3.91%;相比于He(2017),本文HA-LSTM 模型的F1值分別提升了3.42%、3.99%、5.14%;相比于其他方法,本文HA-LSTM 方法在Overall 數(shù)據(jù)集上有更好的表現(xiàn)結(jié)果,但是在NE 和NM 數(shù)據(jù)集上的效果不理想。
表4 不同模型在Weibo 數(shù)據(jù)集上的F1 值Table 4 F1 values of different models on Weibo dataset
對(duì)比S-LSTM 和H-LSTM,H-LSTM 在NM 數(shù)據(jù)集上的效果較好,S-LSTM 在NE 數(shù)據(jù)集上的效果較好??梢钥闯觯瑢?duì)于Weibo 數(shù)據(jù)集,當(dāng)融入較長(zhǎng)詞匯時(shí),模型能較好地識(shí)別出寬泛的實(shí)體;當(dāng)融入較短詞匯時(shí),模型能較好地識(shí)別出常用的實(shí)體。Weibo 數(shù)據(jù)集來(lái)自網(wǎng)絡(luò)社交軟件,文本存在不規(guī)范性,許多詞匯具有網(wǎng)絡(luò)流行性,所以融合較長(zhǎng)詞匯時(shí)在寬泛實(shí)體數(shù)據(jù)集上表現(xiàn)較好,融合較短詞匯時(shí)在常用實(shí)體數(shù)據(jù)集上表現(xiàn)較好。
2.4.2模型時(shí)間效率對(duì)比分析 為了進(jìn)一步探索改進(jìn)模型的有效性,在Resume 數(shù)據(jù)集上進(jìn)行了訓(xùn)練時(shí)間效率對(duì)比。表5 列出了模型每個(gè)周期的花費(fèi)時(shí)間(t)、每秒處理句子的條數(shù),使用的顯卡是NVIDIA GTX1660Ti。因?yàn)長(zhǎng)attice 結(jié)構(gòu)的特點(diǎn),batch_size 設(shè)置為1。在同樣的batch_size 設(shè)置下,本文的HA-LSTM模型比Lattice-LSTM 模型速度快約2.8 倍。當(dāng)batch_size 為4 時(shí),HA-LSTM 模型比Lattice-LSTM 模型速度快約6.13 倍。實(shí)驗(yàn)結(jié)果表明本文提出的模型相比Lattice-LSTM 模型在推理速度方面有了較大提升。
表5 不同模型在Resume 數(shù)據(jù)集上的時(shí)間效率表現(xiàn)Table 5 Time efficiency performance of different models on the Resume dataset
提出了一種詞典信息分層調(diào)整的中文命名實(shí)體識(shí)別方法,利用詞典信息分層調(diào)整機(jī)制使得模型可以保留所有可能匹配到的詞匯信息,避免了信息丟失。為了緩解語(yǔ)義偏差,降低詞匯之間的沖突,通過(guò)利用高層詞匯來(lái)調(diào)整低層詞匯的權(quán)重,使得模型更加側(cè)重于潛在的實(shí)體來(lái)糾正標(biāo)簽預(yù)測(cè)。在2 個(gè)中文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與其他方法相比,本文方法能有效地提高中文命名實(shí)體的識(shí)別效果。與Lattice-LSTM 模型相比,本文方法能有效地提高推理速度。此外,所有方法在Weibo 數(shù)據(jù)集上不理想的表現(xiàn)說(shuō)明對(duì)不規(guī)范文本的命名實(shí)體識(shí)別還需要改進(jìn),探索如何處理詞典的外部詞匯,是我們下一步的研究方向。