亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

詞典信息分層調(diào)整的中文命名實(shí)體識(shí)別方法

2023-05-06 03:14:44李寶昌郭衛(wèi)斌

華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年2期

李寶昌，郭衛(wèi)斌

（華東理工大學(xué)信息科學(xué)與工程學(xué)院, 上海 200237）

命名實(shí)體識(shí)別(Name Entity Recognition, NER)[1]是自然語(yǔ)言處理領(lǐng)域中的一個(gè)子領(lǐng)域，是自然語(yǔ)言處理的基本任務(wù)之一，旨在從文本中標(biāo)注出具有特殊意義的實(shí)體，包括人名、地名、組織機(jī)構(gòu)名等，該任務(wù)對(duì)信息抽取[2]、機(jī)器翻譯[3]、智能問答[4]等自然語(yǔ)言處理的應(yīng)用起著至關(guān)重要的作用。

早期命名實(shí)體識(shí)別采用基于規(guī)則和詞典方法，通過(guò)人工根據(jù)數(shù)據(jù)集的特征構(gòu)造出相應(yīng)的規(guī)則模板或?qū)Ｓ迷~典，然后進(jìn)行文本匹配來(lái)識(shí)別文本實(shí)體。該方法須耗費(fèi)大量人力物力建立專門詞典，且詞典僅適合特定領(lǐng)域，可遷移性差。隨著大量文本數(shù)據(jù)的產(chǎn)生，學(xué)者們開始將基于大型語(yǔ)料庫(kù)的統(tǒng)計(jì)概率方法引入到該任務(wù)中，常用的模型有隱馬爾科夫模型(HMM)[5]、條件隨機(jī)場(chǎng)(CRF)[6]、最大熵模型(ME)[7]、支持向量機(jī)(SVM)[8]等。該類方法的效果往往取決于特征的選取，依然須耗費(fèi)大量的人力來(lái)設(shè)計(jì)特征模板。

近年來(lái)，隨著深度學(xué)習(xí)的快速發(fā)展，深度神經(jīng)網(wǎng)絡(luò)模型被引入到命名實(shí)體識(shí)別任務(wù)中，且取得了巨大成果。Collobert 等[9]首次提出了一種深度神經(jīng)網(wǎng)絡(luò)模型用于NER 任務(wù)，與之前的統(tǒng)計(jì)模型相比，實(shí)驗(yàn)識(shí)別效果有了明顯提升。由于文本數(shù)據(jù)序列特征比較明顯，需要考慮文本長(zhǎng)距離間的有效特征信息，因此，長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[10]被運(yùn)用到NER 任務(wù)中。Huang 等[11]提出了BiLSTM-CRF 模型，添加了CRF 以優(yōu)化輸出序列標(biāo)簽，識(shí)別效果顯著，因此該模型框架逐漸成為NER 任務(wù)中的主流框架。

與英文NER 不同，中文NER 因受限于中文句子的特點(diǎn)而更加困難[12]：一是中文句子是由漢字緊密地排列在一起組成的，不像英文句子中有天然空格將單詞分開，而且中文句子中詞語(yǔ)邊界往往是實(shí)體邊界，因此中文實(shí)體邊界難以區(qū)分；二是中文具有更強(qiáng)的多義性，往往具有一字多義和一詞多義的特性，同一個(gè)中文詞匯在不同的語(yǔ)境中語(yǔ)義可能是不同的，這增加了對(duì)中文實(shí)體識(shí)別的困難。

在早期中文命名實(shí)體識(shí)別方法中，基于深度神經(jīng)網(wǎng)絡(luò)的中文NER 基準(zhǔn)方法主要有兩種：一種是基于字符的中文NER 模型（Char-based-NER）[13-14]；另一種是基于詞匯的中文NER 模型（Word-based-NER）[15-17]。前者將每個(gè)字作為獨(dú)立輸入進(jìn)行特征提取，但未充分利用句子詞匯信息；后者先根據(jù)中文分詞系統(tǒng)將句子拆分成可能出現(xiàn)的詞匯，然后進(jìn)行特征提取，但分詞時(shí)可能出現(xiàn)詞匯錯(cuò)誤分割問題，導(dǎo)致實(shí)體邊界和實(shí)體類別的錯(cuò)誤預(yù)測(cè)。

Zhang 等[18]提出了一種將詞匯信息加入到字信息中的模型（Lattice-LSTM）。為了能夠進(jìn)行字詞信息融合，首先對(duì)句子進(jìn)行詞匯匹配，如果句子中子序列 {ci,···,cj} 與詞典中的詞匯匹配，則在ci到cj之間添加一個(gè)Lattice 結(jié)構(gòu)，使該詞匯信息經(jīng)過(guò)此結(jié)構(gòu)添加到詞匯結(jié)尾的字符單元中。該模型與基于詞向量的NER 模型相比，避免了分詞錯(cuò)誤的問題，實(shí)驗(yàn)結(jié)果表明，其F1 值有很大的提高，提升了識(shí)別效果。由于一個(gè)字符可能存在多個(gè)對(duì)應(yīng)詞匯，因此該模型存在詞匯沖突問題，并且由于增加了Lattice 結(jié)構(gòu)，模型框架變得相當(dāng)復(fù)雜，大大降低了它的訓(xùn)練速度。同時(shí)，由于使用的字詞向量表是word2vec 構(gòu)建的，在構(gòu)建過(guò)程中會(huì)過(guò)濾低頻詞匯，根據(jù)中文特點(diǎn)，常用詞一般是短詞，長(zhǎng)詞出現(xiàn)的頻率偏低，因此詞匯長(zhǎng)度越長(zhǎng)越可能成為未登錄詞，模型越可能丟失長(zhǎng)詞詞匯信息，會(huì)產(chǎn)生語(yǔ)義偏差問題。

Liu 等[19]提出的 WC-LSTM（Word-Character LSTM）模型是對(duì)Lattice-LSTM 模型的改進(jìn)，它將Lattice 結(jié)構(gòu)取消，規(guī)定每個(gè)字之間有且僅有一個(gè)節(jié)點(diǎn)代表詞匯信息，將詞匯信息拼接到詞匯末尾字符信息的后面，如果字之間沒有詞匯信息就使用來(lái)填充，如果有多個(gè)詞匯就以某種策略選擇一個(gè)詞匯。只有詞匯中的末尾字符直接使用詞匯信息，其他字符沒有直接使用詞匯信息，會(huì)導(dǎo)致某些字符無(wú)法獲取有效詞匯信息，并且WC-LSTM 使用的詞匯選擇策略會(huì)自動(dòng)過(guò)濾一些詞匯，無(wú)法利用到全部詞匯信息，導(dǎo)致某些詞匯的信息缺失。

為了能夠高效地將詞匯信息融入到字符信息中，本文提出了一種詞典信息分層調(diào)整的中文命名實(shí)體識(shí)別方法。首先，提出了一種簡(jiǎn)潔的方法進(jìn)行字詞融合，通過(guò)分層調(diào)整機(jī)制調(diào)節(jié)詞匯權(quán)重，增強(qiáng)長(zhǎng)詞權(quán)重，減弱短詞權(quán)重來(lái)弱化較多長(zhǎng)詞詞匯信息丟失而導(dǎo)致的語(yǔ)義偏差問題，以此緩解多個(gè)對(duì)應(yīng)詞匯產(chǎn)生的沖突影響；然后，為了探索調(diào)整機(jī)制的有效性，探索了3 種不同的詞匯融合策略，將詞匯信息編碼成維度固定的向量，使模型能夠進(jìn)行并行訓(xùn)練。

1 基于詞典信息分層調(diào)整的中文命名實(shí)體識(shí)別模型

本文將每個(gè)字所能匹配到的詞匯按照詞匯長(zhǎng)度分層，根據(jù)詞匯長(zhǎng)度調(diào)整詞匯所占權(quán)重，然后將詞匯合并到基于字符的中文命名實(shí)體識(shí)別模型中。在輸入層將詞匯信息加入到字信息中，既可以使每個(gè)有對(duì)應(yīng)詞匯的字符都直接使用相關(guān)詞匯信息，保證不會(huì)遺漏詞典匹配到的詞匯信息，還可以降低所有詞匯間信息沖突對(duì)模型的影響，與Lattice-LSTM相比，本文模型結(jié)構(gòu)簡(jiǎn)單且更容易實(shí)現(xiàn)。

本文模型的總體框架圖如圖1 所示。模型框架分為三個(gè)部分：（1）輸入表示層。首先將輸入序列每個(gè)字符根據(jù)字向量表映射為一個(gè)稠密向量，然后將每個(gè)字符在詞典中進(jìn)行詞匯匹配，將對(duì)應(yīng)的詞匯按照詞匯長(zhǎng)度進(jìn)行分類，通過(guò)詞匯長(zhǎng)度進(jìn)行詞集的權(quán)重調(diào)整，將最終詞集信息向量拼接到字符向量后形成完整的輸入信息向量。（2）上下文編碼層。使用Bi-LSTM 進(jìn)行上下文的特征提取。（3）標(biāo)簽解碼層。將編碼層輸出，使用條件隨機(jī)場(chǎng)來(lái)進(jìn)行解碼，識(shí)別出命名實(shí)體。

圖1 本文模型的總體框架圖Fig.1 General framework of model in this paper

1.1 輸入表示層

句子在送入上下文編碼層前，首先要將每一個(gè)字轉(zhuǎn)化為一個(gè)定長(zhǎng)的稠密向量。假設(shè)輸入一個(gè)由n個(gè)漢字組成的句子sentence=()，每個(gè)字ci通過(guò)查找預(yù)訓(xùn)練好的字向量表映射成為向量序列()，即

1.1.1詞典信息分層調(diào)整機(jī)制利用現(xiàn)有的詞典，對(duì)輸入句子中的每個(gè)字所匹配到的詞匯按照詞匯長(zhǎng)度進(jìn)行分層，這樣可以保留所有的詞匯信息。通過(guò)調(diào)整機(jī)制調(diào)節(jié)所有詞匯所占的權(quán)重，增強(qiáng)長(zhǎng)詞匯權(quán)重，降低短詞匯權(quán)重，這樣既弱化了語(yǔ)義偏差問題，又減少了所有詞匯之間的信息沖突。

為保留所有的詞匯信息，每個(gè)漢字根據(jù)其所匹配到的詞匯長(zhǎng)度被分到不同的詞集中。由于中文詞匯一般由2 個(gè)漢字組成，最多由4 個(gè)漢字組成，這里設(shè)置4 個(gè)詞集“Bigram”、“Trigram”、“Quaternary”、“More”，分別以“B”、“T”、“Q”、“M”表示。其中B表示由2 個(gè)字組成的詞匯的詞集；T表示由3 個(gè)字組成的詞匯的詞集；Q表示由4 個(gè)字組成的詞匯的詞集；M表示由多于4 個(gè)字組成的詞匯的詞集。對(duì)于輸入的句子sentence=()，這4 個(gè)詞匯集合構(gòu)成如下：

其中：Ll表示長(zhǎng)度為l的詞匯；w表示所匹配到的詞匯；n表示字符下標(biāo)的最大值，即句子的長(zhǎng)度；k表示對(duì)應(yīng)詞匯結(jié)束字符的下標(biāo)。此外，如果一個(gè)詞集是空的，即該漢字沒有對(duì)應(yīng)此長(zhǎng)度的詞匯，空詞集中會(huì)添加一個(gè)特殊的詞“None”。以“上海市中山西路”中的字符c5“山”為例，在詞典中匹配到兩字詞匯w4,5“中山”和w5,6“山西”，放在B詞集中；四字詞匯w4,7“中山西路”，放在Q詞集中，分類方式如圖2 所示。使用這樣的分類方式將詞匯信息融合到詞匯中每個(gè)字符信息中時(shí)，能夠保留所有可能的詞匯信息，避免詞匯信息的丟失

圖2 詞典信息分層方法Fig.2 Dictionary information layering method

在將詞典信息分層得到B、T、Q、M詞集之后，通過(guò)調(diào)整機(jī)制調(diào)節(jié)詞集中詞匯所占的權(quán)重。根據(jù)不同的層級(jí)即詞匯的長(zhǎng)度，通過(guò)Softmax 函數(shù)來(lái)計(jì)算它的權(quán)重。通過(guò)增強(qiáng)高層詞匯向量權(quán)重，降低低層詞匯向量權(quán)重，該模型可以弱化語(yǔ)義偏差問題，并降低詞匯信息之間的沖突。

若字符ci對(duì)應(yīng)詞匯wL2和wL3，將其全部融入字符中，可能會(huì)側(cè)重一個(gè)誤導(dǎo)性的詞匯，導(dǎo)致不正確的標(biāo)簽預(yù)測(cè)。根據(jù)詞典信息，增強(qiáng)詞典中長(zhǎng)詞的權(quán)重以更多地關(guān)注潛在的實(shí)體，降低了嵌套實(shí)體對(duì)詞邊界判定的干擾，同時(shí)也緩解了高頻短詞對(duì)語(yǔ)義的偏差影響，從而使模型側(cè)重于正確的標(biāo)簽預(yù)測(cè)，詞典信息反饋調(diào)整圖如圖3 所示。

圖3 詞典信息反饋調(diào)整圖Fig.3 Dictionary information feedback adjustment diagram

計(jì)算各詞集中詞匯的權(quán)重時(shí)，記錄每個(gè)詞匯的權(quán)重，若后面有更高層詞匯對(duì)已計(jì)算詞匯產(chǎn)生調(diào)整，取小值更新權(quán)重，以此保證高層詞匯擁有更高的權(quán)重。計(jì)算方法如下：

其中：l∈L，L表示字符對(duì)應(yīng)不為“None”的詞集的詞匯長(zhǎng)度集合（“M”詞集中詞匯長(zhǎng)度定義為5）；αl表示長(zhǎng)度為l的詞匯所占的權(quán)重；v(B) 表示B詞集中所有詞的向量合并；α 表示記錄下的對(duì)應(yīng)詞匯的權(quán)重；ew表示預(yù)訓(xùn)練好的詞向量表。經(jīng)過(guò)公式(3)的計(jì)算，各詞集中詞匯都得到了相應(yīng)的詞向量表示。

1.1.2字詞向量結(jié)合表示將4 個(gè)詞集的表示組合成1 個(gè)固定維度的特征向量，并將它們添加到每個(gè)字向量后面，形成字詞向量的結(jié)合表示。為了盡可能多地保留信息，將這4 個(gè)詞集的向量表示拼接起來(lái)，每個(gè)字詞向量表示如下：

其中，v表示每個(gè)詞集合并后的向量。

1.2 詞匯融合策略

分層調(diào)整機(jī)制通過(guò)調(diào)整詞匯的權(quán)重來(lái)緩解語(yǔ)義偏差問題和降低詞匯沖突問題，但同時(shí)也合并了被高層詞匯反饋降低權(quán)重的底層詞向量。為了驗(yàn)證反饋機(jī)制的有效性，本文提出了3 種不同的策略進(jìn)行對(duì)比實(shí)驗(yàn)：（1）只保留最高層詞匯信息；（2）只保留最底層詞匯信息；（3）利用注意力機(jī)制來(lái)調(diào)整各層詞匯的權(quán)重。

1.2.1保留最高層詞匯信息（H-LSTM）對(duì)于每個(gè)字符對(duì)應(yīng)的詞集，在計(jì)算詞匯權(quán)重時(shí)，最高層詞集詞匯權(quán)重保持不變，若底層有詞集詞匯受高層詞匯影響則權(quán)重置為0，即將底層詞匯向量置為0，這樣只保留了最高層詞集詞匯信息。每個(gè)字詞向量表示如下：

1.2.2保留最低層詞匯信息（S-LSTM）對(duì)于每個(gè)字符對(duì)應(yīng)的詞集，在計(jì)算詞匯權(quán)重時(shí)，最低層詞集詞匯的權(quán)重保持不變，若此詞集詞匯有高層詞匯對(duì)其影響，高層詞匯權(quán)重置為0，即將高層詞匯向量置為0，這樣只保留了最低層詞集詞匯信息。每個(gè)字詞向量表示如下：

1.2.3 注意力機(jī)制調(diào)整各層詞匯權(quán)重（Att-LSTM）考慮到各層詞集的重要程度不同，引入自注意力機(jī)制計(jì)算每個(gè)字符對(duì)應(yīng)各層詞集權(quán)重[20]。將4 個(gè)詞集合并起來(lái)表示為矩陣Vi：

將矩陣通過(guò)線性映射操作轉(zhuǎn)化成3 個(gè)維度均為dk的輸入矩陣：查詢矩陣Q、鍵矩陣K和值矩陣V，使用自注意力函數(shù)計(jì)算Q和K的相似性來(lái)確定V的權(quán)重，公式如下：

其中：dk表示神經(jīng)網(wǎng)絡(luò)的隱層單元數(shù)，起到調(diào)節(jié)作用，防止內(nèi)積維度過(guò)大。

以ai表示計(jì)算所得的權(quán)重矩陣，每個(gè)字詞向量表示如下：

1.3 上下文編碼層

為了有效地獲取上下文的特征，上下文編碼層采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)，即使用前向LSTM 和后向LSTM 組成的BiLSTM 分別對(duì)文本進(jìn)行正向特征提取和逆向特征提取。輸入向量在LSTM 結(jié)構(gòu)中的計(jì)算方式如下：

其中：σ 為激活函數(shù)Sigmoid 函數(shù)；tanh 為激活函數(shù)雙曲正切函數(shù)；? 為向量矩陣點(diǎn)乘；W、U和b為模型計(jì)算過(guò)程中的參數(shù)；it、ft和ot分別表示在t時(shí)刻的輸入門、遺忘門和輸出門；～ct表示t時(shí)刻輸入向量的信息狀態(tài)；ct表示t時(shí)刻更新后的信息狀態(tài)；ht表示時(shí)t刻的輸出信息狀態(tài)。在BiLSTM 模型中，t時(shí)刻的輸出信息特征ht由前向LSTM得到的輸出信息特征和反向LSTM 得到的輸出信息特征拼接而成，表達(dá)式如下：

該表達(dá)式有效地包含了文本的上下文信息，對(duì)中文命名實(shí)體識(shí)別任務(wù)的解決有很大幫助。

1.4 標(biāo)簽解碼層

標(biāo)簽解碼層在收到上下文編碼層對(duì)文本的特征表示后，對(duì)整個(gè)模型的輸入文本進(jìn)行相應(yīng)的標(biāo)簽序列預(yù)測(cè)。目前，命名實(shí)體識(shí)別任務(wù)中常使用CRF 層作為標(biāo)簽解碼層[21]。CRF 充分考慮到上下文標(biāo)簽序列信息，并考慮到了標(biāo)簽間的約束關(guān)系，保證了對(duì)標(biāo)簽預(yù)測(cè)的合理性和準(zhǔn)確性。

使用CRF 層解碼，需要計(jì)算兩類分?jǐn)?shù)。第一類是發(fā)射分?jǐn)?shù)(Emission score)，根據(jù)BiLSTM 層所提取到的信息特征H={h1,h2,···,hn} 計(jì)算每個(gè)標(biāo)簽分?jǐn)?shù)，如式（17）所示：

其中：O為發(fā)射分?jǐn)?shù)矩陣；H為信息特征矩陣；Wo為H的權(quán)重矩陣；bo為偏置矩陣。

第二類是標(biāo)簽之間狀態(tài)轉(zhuǎn)移分?jǐn)?shù)(Transition score)，由CRF 層學(xué)習(xí)得到。

綜合評(píng)估分?jǐn)?shù)的計(jì)算公式如下：

其中：X=(c1,c2,···,cn) 表示輸入序列；y=(y1,y2,···,yn)表示一個(gè)可能的標(biāo)簽預(yù)測(cè)序列；T為狀態(tài)轉(zhuǎn)移分?jǐn)?shù)矩陣，Tyt,yt+1表示標(biāo)簽yt到標(biāo)簽yt+1的轉(zhuǎn)移分?jǐn)?shù)；Ot,yt表示在t時(shí)刻yt標(biāo)簽的發(fā)射分?jǐn)?shù)。預(yù)測(cè)序列y在整個(gè)序列中的概率如式（19）所示：

其中：YX表示所有可能的標(biāo)簽組；表示任意一個(gè)可能的標(biāo)簽預(yù)測(cè)系列。

定義式(19)的概率預(yù)測(cè)函數(shù)為損失函數(shù)，將其轉(zhuǎn)化為對(duì)數(shù)損失函數(shù)：

其中：s(X,y) 表示預(yù)測(cè)序列y的綜合評(píng)估分?jǐn)?shù)。在解碼時(shí)，選取最大概率的預(yù)測(cè)序列y作為最終的輸出結(jié)果。

2 實(shí)驗(yàn)分析

本文通過(guò)一系列實(shí)驗(yàn)來(lái)研究詞典信息分層調(diào)整機(jī)制的有效性，同時(shí)與其他基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別模型進(jìn)行了對(duì)比。大多數(shù)實(shí)驗(yàn)設(shè)置都遵循Lattice-LSTM，包括測(cè)試數(shù)據(jù)集、比較標(biāo)準(zhǔn)、評(píng)估指標(biāo)等。

2.1 數(shù)據(jù)集

在2 個(gè)公開的中文數(shù)據(jù)集上進(jìn)行測(cè)試，分別是Resume 數(shù)據(jù)集和Weibo 數(shù)據(jù)集。Resume 數(shù)據(jù)集來(lái)自新浪財(cái)經(jīng)的中文個(gè)人簡(jiǎn)歷總結(jié)；Weibo 數(shù)據(jù)集來(lái)自新浪微博的社交媒體網(wǎng)站。在Weibo 數(shù)據(jù)集中，按照句子數(shù)量劃分為訓(xùn)練集1400、驗(yàn)證集270 和測(cè)試集270，對(duì)應(yīng)的字符數(shù)量劃為訓(xùn)練集73800、驗(yàn)證集14500和測(cè)試集14800。在Resume 數(shù)據(jù)集中，按照句子數(shù)量劃分為訓(xùn)練集3800、驗(yàn)證集460 和測(cè)試集480，對(duì)應(yīng)的字符數(shù)量分別為訓(xùn)練集124100、驗(yàn)證集13900 和測(cè)試集15100。這2 個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表1 所示。

表1 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Data set statistics

Weibo 數(shù)據(jù)集包含了3 個(gè)不同類型的數(shù)據(jù)集：（1）Named Entities(NE)表示常用的命名實(shí)體；（2）Nominal Entities(NM)表示寬泛的名義實(shí)體；（3）Overall 表示以上全都包含的實(shí)體。

2.2 實(shí)驗(yàn)設(shè)置

本文模型是對(duì)Lattice-LSTM 模型的改進(jìn)，因此大多數(shù)參數(shù)設(shè)置都參考了Lattice-LSTM，如表2 所示。字向量維度和詞向量維度大小均設(shè)置為50。為了避免過(guò)擬合，對(duì)字向量和詞向量使用0.5 的丟棄率。使用Adam 來(lái)優(yōu)化所有可訓(xùn)練的參數(shù)，初始學(xué)習(xí)率為0.015，衰減率為0.05。

表2 參數(shù)設(shè)置Table 2 Parameter setting

實(shí)驗(yàn)中使用與Lattice-LSTM 相同的詞典，由704400 個(gè)字詞組成，包含了5700 個(gè)漢字、291500 個(gè)雙字詞、278100 個(gè)三字詞和129100 個(gè)其他詞匯。本文使用的字詞向量表與Lattice-LSTM 相同，它是使用word2vec 在中文數(shù)據(jù)集Giga-Word 上進(jìn)行預(yù)訓(xùn)練得到的。

2.3 評(píng)價(jià)指標(biāo)

為了能夠清楚地表達(dá)實(shí)驗(yàn)效果，統(tǒng)一采用準(zhǔn)確率（Precision，P）、召回率（Recall，R）和F1 值（F1-score）3 個(gè)指標(biāo)來(lái)衡量。公式如下：

其中：T P (True Positive)表示將正類預(yù)測(cè)為正類；FP(False Positive)表示將負(fù)類預(yù)測(cè)為正類；FN (False Negative)表示將負(fù)類預(yù)測(cè)為負(fù)類；(TP+FP) 表示預(yù)測(cè)為正類的結(jié)果中，正確個(gè)數(shù)的比例；(TP+FN) 表示實(shí)際為正類的樣本中，正確判斷為正類的比例。

2.4 實(shí)驗(yàn)對(duì)比分析

Resume 數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比方法：（1）Word-based是詞匯級(jí)的中文命名實(shí)體識(shí)別基準(zhǔn)方法；（2）Charbased 是以字符級(jí)的中文命名實(shí)體識(shí)別基準(zhǔn)方法；（3）Lattice-LSTM 是在LSTM 模型中添加Lattice 結(jié)構(gòu)的方法；（4）LR-CNN[22]是基于CNN 模型使用一種反饋機(jī)制合并詞匯的方法；（5）WC-LSTM 是一種字詞融合的方法，共有4 種不同選擇詞匯策略：Shortest是融合匹配到的最短詞匯；Longest 是融合匹配到的最長(zhǎng)詞匯；Average 是取最短詞匯向量和最長(zhǎng)詞匯向量的平均值；Self-attention 是利用自注意力機(jī)制對(duì)最短詞匯和最長(zhǎng)詞匯分配權(quán)重。

Weibo 數(shù)據(jù)集是中文社交媒體上的數(shù)據(jù)集合，比Resume 數(shù)據(jù)集增加了2 種針對(duì)中文社交媒體的實(shí)驗(yàn)對(duì)比方法：Peng(2015)[23]是使用3 種類型的中文嵌入方法，利用NER 訓(xùn)練文本，然后對(duì)embedding 進(jìn)行微調(diào)的方法；He(2017)[24]是基于BiLSTM 神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型。

本文模型共有4 種不同的調(diào)整詞匯權(quán)重策略：SLSTM 保留最底層詞匯，將高層詞匯權(quán)重置為0；HLSTM 保留最高層詞匯，將底層詞匯權(quán)重置為0；Att-LSTM 利用自注意力機(jī)制對(duì)各個(gè)詞匯分配權(quán)重；HALSTM 利用調(diào)整機(jī)制對(duì)各個(gè)詞匯分配權(quán)重。

2.4.1模型識(shí)別效果對(duì)比分析表3 列出了在Resume 數(shù)據(jù)集上不同模型的實(shí)驗(yàn)結(jié)果，相比于Word-based 和Char-based，本文提出的HA-LSTM 模型的F1 值分別提升了2.05%和2.15%，說(shuō)明字詞融合的有效性；相比于Lattice-LSTM，本文提出的模型F1 值提升了1.17%，說(shuō)明了緩解詞匯沖突對(duì)識(shí)別效果的有效性；相比于LR-CNN 和WC-LSTM 的4 種不同策略，本文模型具有更好的實(shí)驗(yàn)表現(xiàn)，表明了所有字符直接使用詞匯信息和保證詞匯信息完整性的重要性；相比于S-LSTM、H-LSTM 和Att-LSTM，對(duì)詞典信息分層調(diào)整的方法具有最好的實(shí)驗(yàn)表現(xiàn)，表明了本文方法的有效性。

表3 不同模型在Resume 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different models on Resume dataset

表4 列出了在Weibo 數(shù)據(jù)集3 種不同類型數(shù)據(jù)集上不同模型的F1 值。相比于Peng(2015)，本文HA-LSTM 模型的F1 值分別提升了2.06%、2.31%、3.91%；相比于He(2017)，本文HA-LSTM 模型的F1值分別提升了3.42%、3.99%、5.14%；相比于其他方法，本文HA-LSTM 方法在Overall 數(shù)據(jù)集上有更好的表現(xiàn)結(jié)果，但是在NE 和NM 數(shù)據(jù)集上的效果不理想。

表4 不同模型在Weibo 數(shù)據(jù)集上的F1 值Table 4 F1 values of different models on Weibo dataset

對(duì)比S-LSTM 和H-LSTM，H-LSTM 在NM 數(shù)據(jù)集上的效果較好，S-LSTM 在NE 數(shù)據(jù)集上的效果較好?？梢钥闯觯瑢?duì)于Weibo 數(shù)據(jù)集，當(dāng)融入較長(zhǎng)詞匯時(shí)，模型能較好地識(shí)別出寬泛的實(shí)體；當(dāng)融入較短詞匯時(shí)，模型能較好地識(shí)別出常用的實(shí)體。Weibo 數(shù)據(jù)集來(lái)自網(wǎng)絡(luò)社交軟件，文本存在不規(guī)范性，許多詞匯具有網(wǎng)絡(luò)流行性，所以融合較長(zhǎng)詞匯時(shí)在寬泛實(shí)體數(shù)據(jù)集上表現(xiàn)較好，融合較短詞匯時(shí)在常用實(shí)體數(shù)據(jù)集上表現(xiàn)較好。

2.4.2模型時(shí)間效率對(duì)比分析為了進(jìn)一步探索改進(jìn)模型的有效性，在Resume 數(shù)據(jù)集上進(jìn)行了訓(xùn)練時(shí)間效率對(duì)比。表5 列出了模型每個(gè)周期的花費(fèi)時(shí)間(t)、每秒處理句子的條數(shù)，使用的顯卡是NVIDIA GTX1660Ti。因?yàn)長(zhǎng)attice 結(jié)構(gòu)的特點(diǎn)，batch_size 設(shè)置為1。在同樣的batch_size 設(shè)置下，本文的HA-LSTM模型比Lattice-LSTM 模型速度快約2.8 倍。當(dāng)batch_size 為4 時(shí)，HA-LSTM 模型比Lattice-LSTM 模型速度快約6.13 倍。實(shí)驗(yàn)結(jié)果表明本文提出的模型相比Lattice-LSTM 模型在推理速度方面有了較大提升。

表5 不同模型在Resume 數(shù)據(jù)集上的時(shí)間效率表現(xiàn)Table 5 Time efficiency performance of different models on the Resume dataset

3 結(jié)束語(yǔ)

提出了一種詞典信息分層調(diào)整的中文命名實(shí)體識(shí)別方法，利用詞典信息分層調(diào)整機(jī)制使得模型可以保留所有可能匹配到的詞匯信息，避免了信息丟失。為了緩解語(yǔ)義偏差，降低詞匯之間的沖突，通過(guò)利用高層詞匯來(lái)調(diào)整低層詞匯的權(quán)重，使得模型更加側(cè)重于潛在的實(shí)體來(lái)糾正標(biāo)簽預(yù)測(cè)。在2 個(gè)中文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，與其他方法相比，本文方法能有效地提高中文命名實(shí)體的識(shí)別效果。與Lattice-LSTM 模型相比，本文方法能有效地提高推理速度。此外，所有方法在Weibo 數(shù)據(jù)集上不理想的表現(xiàn)說(shuō)明對(duì)不規(guī)范文本的命名實(shí)體識(shí)別還需要改進(jìn)，探索如何處理詞典的外部詞匯，是我們下一步的研究方向。