基于BERT+BiLSTM+CRF深度學(xué)習(xí)模型和多元組合數(shù)據(jù)增廣的漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別

2021-09-17 10:31:40楊鶴于紅劉巨升楊惠寧孫哲濤程名任媛張思佳

大連海洋大學(xué)學(xué)報(bào) 2021年4期

楊鶴，于紅,2*，劉巨升，楊惠寧，孫哲濤，程名，任媛，張思佳,2

(1.大連海洋大學(xué) 信息工程學(xué)院，遼寧省海洋信息技術(shù)重點(diǎn)試驗(yàn)室，遼寧大連 116023；2.設(shè)施漁業(yè)教育部重點(diǎn)試驗(yàn)室，遼寧大連 116023)

漁業(yè)標(biāo)準(zhǔn)化是提高漁業(yè)生產(chǎn)效益、提升水產(chǎn)品質(zhì)量和保障漁業(yè)生產(chǎn)安全的重要手段之一，漁業(yè)標(biāo)準(zhǔn)文本是漁業(yè)標(biāo)準(zhǔn)化的載體，也是漁業(yè)生產(chǎn)人員獲取漁業(yè)標(biāo)準(zhǔn)知識(shí)的主要途徑[1]。為高效地獲取漁業(yè)標(biāo)準(zhǔn)知識(shí)，需對(duì)漁業(yè)標(biāo)準(zhǔn)文本中命名實(shí)體進(jìn)行識(shí)別。漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別是從漁業(yè)標(biāo)準(zhǔn)文本中識(shí)別“漁業(yè)標(biāo)準(zhǔn)號(hào)”、“漁業(yè)標(biāo)準(zhǔn)指標(biāo)”[2]及“水產(chǎn)品名稱”等命名實(shí)體。早期的命名實(shí)體識(shí)別任務(wù)主要采用基于規(guī)則和詞典的方法[3]，這類方法需要由有經(jīng)驗(yàn)的專家總結(jié)規(guī)則，識(shí)別效果依賴于專家的經(jīng)驗(yàn)，在數(shù)據(jù)量較少且不同專家總結(jié)的規(guī)則一致性較高的情況下效果較好。隨著數(shù)據(jù)量的不斷增加，規(guī)則提取工作量增大，保持規(guī)則一致性難度加大，基于規(guī)則和詞典方法的識(shí)別效果無(wú)法滿足人們的進(jìn)一步需求，學(xué)者們提出了基于詞典與條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別方法[4]，該類方法采用統(tǒng)計(jì)學(xué)習(xí)的方法統(tǒng)計(jì)語(yǔ)料庫(kù)中文本信息的分布情況并進(jìn)行命名實(shí)體識(shí)別。與基于規(guī)則方法相比，統(tǒng)計(jì)學(xué)習(xí)方法的性能取得了較大提升，但是由于此類方法需要手工選擇特征，算法性能依賴于特征模板的結(jié)構(gòu)，缺乏泛化能力。隨著深度學(xué)習(xí)的發(fā)展，深度學(xué)習(xí)被應(yīng)用于命名實(shí)體識(shí)別領(lǐng)域[5]。孫娟娟等[6]提出了基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別，取得了較好的效果，但由于對(duì)漁業(yè)領(lǐng)域命名實(shí)體對(duì)象類別定義較為寬泛，識(shí)別的實(shí)體類別較少，該算法不適用于具有較多類別、實(shí)體結(jié)構(gòu)較為復(fù)雜的漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別。為解決上述問(wèn)題，程名等[7]在分析漁業(yè)標(biāo)準(zhǔn)文本特點(diǎn)的基礎(chǔ)上，提出了融合注意力機(jī)制的BiLSTM+CRF(BiLSTM+Attention+CRF)漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別方法，在漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)中取得了較好效果。然而，由于漁業(yè)標(biāo)準(zhǔn)文本中“水產(chǎn)品名稱”等類別實(shí)體數(shù)量少、樣本分布不均勻，導(dǎo)致識(shí)別效果不夠好，人工擴(kuò)充語(yǔ)料庫(kù)存在效率低、成本高，以及易造成錯(cuò)誤傳播等問(wèn)題，因此，需要研究語(yǔ)料庫(kù)自動(dòng)擴(kuò)充方法。目前，少樣本命名實(shí)體識(shí)別主要包括數(shù)據(jù)增廣[8-12]、模型遷移[13]、特征變換[14]和知識(shí)鏈接等方法，分別從準(zhǔn)確性、易用性和優(yōu)缺點(diǎn)等方面對(duì)這些方法進(jìn)行比較，4種方法各有優(yōu)劣，其中，數(shù)據(jù)增廣方法是最有效的小樣本數(shù)據(jù)擴(kuò)充方法，該方法通過(guò)優(yōu)先挑選高質(zhì)量樣本參與訓(xùn)練，達(dá)到擴(kuò)充語(yǔ)料庫(kù)的目的，此方法在特定領(lǐng)域命名實(shí)體識(shí)別任務(wù)中能獲得較高的準(zhǔn)確率[15]。程名[16]提出了基于改進(jìn)EDA(easy data augmentation)的數(shù)據(jù)增廣方法用于解決樣本數(shù)量較少等問(wèn)題，取得了較好的效果，但進(jìn)行數(shù)據(jù)增廣后實(shí)體上下文特征并未得到保護(hù)，造成實(shí)體特征缺失，影響了命名實(shí)體識(shí)別任務(wù)的識(shí)別效果。為了解決上述問(wèn)題，需要研究有效的數(shù)據(jù)增廣方法，確保在不丟失語(yǔ)義信息的基礎(chǔ)上，進(jìn)一步擴(kuò)充語(yǔ)料數(shù)量，提升語(yǔ)料質(zhì)量，增加樣本多樣性，提高命名實(shí)體識(shí)別的準(zhǔn)確性和魯棒性[17]。

為此，本研究中針對(duì)漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)的特點(diǎn)，以及部分目標(biāo)實(shí)體樣本數(shù)量較少、效果不好等問(wèn)題，提出了多元組合數(shù)據(jù)增廣的漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別方法，即在傳統(tǒng)的同義詞替換算法(synonym substitution)、隨機(jī)刪除算法(randomly delete)和隨機(jī)插入算法(randomly insert)基礎(chǔ)上進(jìn)行改進(jìn)，提出了基于領(lǐng)域詞典的聯(lián)合替換算法(joint replacement algorithm based on domain dictionary,DDR)、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法(random deletion algorithm based on slot protection,SPD)和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法(random insertion algorithm based on slot protection,SPI)，將這3種算法進(jìn)行多元組合，并使用基于融合注意力機(jī)制的BERT-BiLSTM-CRF網(wǎng)絡(luò)模型對(duì)漁業(yè)標(biāo)準(zhǔn)文本進(jìn)行命名實(shí)體識(shí)別，以提高識(shí)別的準(zhǔn)確率。

1 基于多元組合數(shù)據(jù)的增廣算法

在對(duì)漁業(yè)標(biāo)準(zhǔn)文本處理過(guò)程中，通過(guò)采樣統(tǒng)計(jì)了漁業(yè)標(biāo)準(zhǔn)文本中各類實(shí)體的數(shù)量分布(表1)，結(jié)果表明，“水產(chǎn)品名稱”樣本較少且特征不明顯，模型無(wú)法學(xué)習(xí)較多特征，識(shí)別效果較差，僅有71%。

表1 實(shí)體數(shù)量情況

為了增加“水產(chǎn)品名稱”實(shí)體的數(shù)量，采用數(shù)據(jù)增廣的方法對(duì)“水產(chǎn)品名稱”進(jìn)行擴(kuò)充。EDA方法是目前廣泛使用的一類數(shù)據(jù)增廣方法，主要包括4種方法，即對(duì)文本進(jìn)行同義詞替換、隨機(jī)插入、隨機(jī)交換、隨機(jī)刪除操作。使用基于同義詞替換算法對(duì)漁業(yè)標(biāo)準(zhǔn)文本中的“水產(chǎn)品名稱”進(jìn)行數(shù)據(jù)增廣，雖然提高了樣本的多樣性，但同義詞替換未增加目標(biāo)實(shí)體的數(shù)量，不能從根本上解決實(shí)體樣本稀疏的問(wèn)題。使用隨機(jī)刪除、隨機(jī)插入方法雖然改變了句子結(jié)構(gòu)、提升了模型泛化能力，但隨機(jī)刪除和插入會(huì)破壞句子中的目標(biāo)實(shí)體和上下文特征，影響命名實(shí)體識(shí)別效果，因此，直接采用EDA方法進(jìn)行漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別雖然可在一定程度上增加樣本數(shù)量，但存在破壞語(yǔ)義信息等問(wèn)題，導(dǎo)致識(shí)別效果不夠好。針對(duì)以上問(wèn)題，本研究中提出了基于多元組合數(shù)據(jù)的增廣算法，同時(shí)采用基于領(lǐng)域詞典的聯(lián)合替換算法、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法進(jìn)行數(shù)據(jù)增廣。

1.1 對(duì)傳統(tǒng)同義詞替換算法的改進(jìn)

傳統(tǒng)的同義詞替換算法是在句子中隨機(jī)抽取n個(gè)詞，然后從同義詞詞典中隨機(jī)抽取同義詞進(jìn)行替換。但使用傳統(tǒng)的同義詞替換方法會(huì)存在以下問(wèn)題：

1)目前的分詞方法存在一定的錯(cuò)誤率，句子中的實(shí)體可能被錯(cuò)誤切割，再經(jīng)過(guò)同義詞替換會(huì)造成錯(cuò)誤傳播，影響同義詞替換的效果甚至消除語(yǔ)料庫(kù)中原本的目標(biāo)實(shí)體。

2)同義詞替換后雖然能改變一定的句式結(jié)構(gòu)，但未增加目標(biāo)實(shí)體的數(shù)量，不能從根本上解決實(shí)體不足、語(yǔ)料稀疏的問(wèn)題。

針對(duì)上述問(wèn)題，提出了基于領(lǐng)域詞典聯(lián)合替換的數(shù)據(jù)增廣方法。首先，根據(jù)領(lǐng)域詞典構(gòu)建“水產(chǎn)品名稱”同類詞詞典和同義詞詞典；參照同類詞詞典和增廣系數(shù)(N)對(duì)“水產(chǎn)品名稱”類實(shí)體進(jìn)行同類詞替換；同時(shí)根據(jù)同義詞詞典對(duì)除目標(biāo)實(shí)體外的隨機(jī)詞進(jìn)行同義詞替換，其中同類詞替換只對(duì)目標(biāo)實(shí)體進(jìn)行替換，有效增加了目標(biāo)實(shí)體的數(shù)量。對(duì)句子中的隨機(jī)詞進(jìn)行同義詞替換增加了句子的多樣性，但未改變漁業(yè)標(biāo)準(zhǔn)的句子結(jié)構(gòu)，符合漁業(yè)標(biāo)準(zhǔn)文本的行文規(guī)范。在不改變目標(biāo)實(shí)體上下文特征和語(yǔ)義信息的情況下，使用基于領(lǐng)域詞典的聯(lián)合替換算法，增加了目標(biāo)實(shí)體的數(shù)量和句子的多樣性，有效解決了漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別樣本稀疏問(wèn)題。

同類詞詞典和同義詞詞典的結(jié)構(gòu)如表2所示?；陬I(lǐng)域詞典的聯(lián)合替換算法流程如圖1所示?；陬I(lǐng)域詞典的聯(lián)合替換算法示例如圖2所示(設(shè)增廣系數(shù)N=3)。

圖2 基于領(lǐng)域詞典的聯(lián)合替換算法實(shí)例

表2 兩個(gè)領(lǐng)域詞典實(shí)例

圖1 基于領(lǐng)域詞典的聯(lián)合替換算法(DDR)

1.2 對(duì)傳統(tǒng)隨機(jī)刪除算法的改進(jìn)

1.2.1 基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法 EDA數(shù)據(jù)增廣方法中的隨機(jī)刪除算法是對(duì)句子中的每個(gè)詞，以概率P隨機(jī)刪除，刪除句子中字符可以提升樣本的多樣性，提升模型的泛化能力。但隨機(jī)刪除方法用到漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)中效果不夠理想，因?yàn)樗鼤?huì)隨機(jī)刪除標(biāo)準(zhǔn)文本中的一些實(shí)體，使模型無(wú)法學(xué)習(xí)到實(shí)體特征，影響了命名實(shí)體識(shí)別效果。使用傳統(tǒng)的隨機(jī)刪除算法會(huì)造成如下問(wèn)題：

1)漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別的目標(biāo)是識(shí)別有意義的專有名詞，但是隨機(jī)刪除方法會(huì)大量刪除需要識(shí)別的目標(biāo)實(shí)體，嚴(yán)重影響語(yǔ)料的質(zhì)量。

2)由于傳統(tǒng)的隨機(jī)刪除方法中，每個(gè)字符有固定的刪除概率，這會(huì)造成語(yǔ)義缺失或無(wú)效刪除，當(dāng)概率P較大時(shí)會(huì)對(duì)短序列產(chǎn)生較大影響，甚至影響句子原本語(yǔ)義，當(dāng)概率P較小時(shí)則無(wú)法對(duì)長(zhǎng)序列產(chǎn)生影響，使隨機(jī)刪除變得毫無(wú)意義。

本研究中，結(jié)合漁業(yè)標(biāo)準(zhǔn)文本的特點(diǎn)和命名實(shí)體識(shí)別任務(wù)的目標(biāo)，對(duì)隨機(jī)刪除方法進(jìn)行了兩點(diǎn)改進(jìn)并提出了基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法：

1)提出“槽點(diǎn)”保護(hù)機(jī)制，槽點(diǎn)包含實(shí)體本身及上下文特征詞語(yǔ)，在保護(hù)槽點(diǎn)后再進(jìn)行隨機(jī)刪除，可改變句子結(jié)構(gòu)以增加多樣性。

2)將固定概率改成動(dòng)態(tài)概率，針對(duì)不同長(zhǎng)度的語(yǔ)句進(jìn)行動(dòng)態(tài)調(diào)整，避免隨機(jī)刪除概率過(guò)大或過(guò)小產(chǎn)生的不適配問(wèn)題。

假定隨機(jī)刪除概率為P，句子長(zhǎng)度為S，動(dòng)態(tài)概率倍率T,則動(dòng)態(tài)隨機(jī)刪除概率P1=P×T，圖3為動(dòng)態(tài)概率倍率T隨句子長(zhǎng)度S的變化程度，其中，當(dāng)句子長(zhǎng)度小于10時(shí)動(dòng)態(tài)概率倍率取0.2，句子長(zhǎng)度大于100時(shí)動(dòng)態(tài)概率倍率恒定為2。

圖3 動(dòng)態(tài)刪除概率

1.2.2 槽點(diǎn)的保護(hù)機(jī)制在自然語(yǔ)言中，判斷一個(gè)實(shí)體是否為目標(biāo)實(shí)體，除了要看實(shí)體本身以外，還要參考上下文語(yǔ)義環(huán)境。語(yǔ)義特征一般存在于目標(biāo)實(shí)體上下文一定范圍內(nèi)。在漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)中，將句子序列轉(zhuǎn)化成向量輸入到長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)模型[18]中，LSTM網(wǎng)絡(luò)模型會(huì)對(duì)實(shí)體及其上下文特征進(jìn)行特征提取，得到漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別模型。傳統(tǒng)的隨機(jī)刪除算法會(huì)對(duì)句子中的實(shí)體及其上下文信息進(jìn)行隨機(jī)刪除，為了避免實(shí)體及其上下文特征被刪除，提出了基于槽點(diǎn)保護(hù)的概念，槽點(diǎn)包含目標(biāo)實(shí)體及其上下文語(yǔ)義信息，槽點(diǎn)保護(hù)包含實(shí)體本身保護(hù)和實(shí)體上下文的語(yǔ)義特征保護(hù)，實(shí)體上下文特征保護(hù)機(jī)制是設(shè)定一個(gè)上下文范圍槽點(diǎn)[19]，即以目標(biāo)實(shí)體的首字符和末字符為兩個(gè)點(diǎn)，首字符向前ɑ個(gè)字符與末字符向后ɑ個(gè)字符區(qū)間內(nèi)的所有字符設(shè)為上下文特征槽點(diǎn)，與實(shí)體槽點(diǎn)一樣，不參與隨機(jī)刪除。通過(guò)對(duì)實(shí)體槽點(diǎn)和上下文特征槽點(diǎn)的保護(hù)，使得句子在進(jìn)行隨機(jī)刪除時(shí)目標(biāo)實(shí)體不會(huì)被刪除，并且保護(hù)了目標(biāo)實(shí)體的上下文語(yǔ)義信息，讓模型在進(jìn)行隨機(jī)刪除生成的新句子中，最大化地學(xué)習(xí)到完整的實(shí)體特征。

1.2.3 上下文特征槽點(diǎn)保護(hù)長(zhǎng)度對(duì)漁業(yè)標(biāo)準(zhǔn)語(yǔ)料庫(kù)中所有包含“水產(chǎn)品名稱”目標(biāo)實(shí)體句子進(jìn)行統(tǒng)計(jì)分析，如“本標(biāo)準(zhǔn)適用于我省凡納濱對(duì)蝦的苗種培育和養(yǎng)殖”、“要使烏鱧通過(guò)馴食后能攝食偏植物性為主的餌料”、“根據(jù)中國(guó)凍海水魚(yú)片加工的實(shí)際情況編制的”。通過(guò)部分例句可以看出，句子中目標(biāo)實(shí)體上下文2～3個(gè)詞語(yǔ)可以涵蓋句子大部分的語(yǔ)義特征，由此可以得出結(jié)論：對(duì)目標(biāo)實(shí)體上下文語(yǔ)義信息影響最大的是前后4～6個(gè)字符(2～3個(gè)詞語(yǔ))。為了讓模型更好地學(xué)習(xí)到“水產(chǎn)品名稱”的上下文特征，最大化保留句子的語(yǔ)義結(jié)構(gòu)，上下文槽點(diǎn)的長(zhǎng)度設(shè)置非常重要，槽點(diǎn)長(zhǎng)度過(guò)大會(huì)導(dǎo)致隨機(jī)刪除沒(méi)有意義，本研究中上下文槽點(diǎn)長(zhǎng)度若設(shè)置為6，雖然保留了較多的目標(biāo)實(shí)體上下文特征，但是句子結(jié)構(gòu)和實(shí)體上下文特征基本未發(fā)生改變，違背了隨機(jī)刪除的目的。而若將上下文槽點(diǎn)長(zhǎng)度設(shè)置為4，則既可以適當(dāng)改變實(shí)體的上下文特征，又保留了目標(biāo)詞最主要的上下文特征，可以更好地完成隨機(jī)刪除任務(wù)，實(shí)現(xiàn)語(yǔ)料的有效擴(kuò)充，因此，本研究中上下文槽點(diǎn)長(zhǎng)度α=4，算法流程如圖4所示，算法實(shí)例如圖5所示。

圖4 基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法(SPD)

圖5 基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法實(shí)例

1.3 對(duì)傳統(tǒng)隨機(jī)插入算法的改進(jìn)

EDA數(shù)據(jù)增廣方法中的隨機(jī)插入算法是在句子中隨機(jī)抽取一個(gè)詞，然后在該詞的同義詞集合中隨機(jī)選擇一個(gè)同義詞，插入原句子中的隨機(jī)位置。將該方法用于漁業(yè)標(biāo)準(zhǔn)文本數(shù)據(jù)增廣時(shí)，同隨機(jī)刪除一樣，會(huì)隨機(jī)將同義詞插入到實(shí)體間或者實(shí)體上下文間，進(jìn)而造成模型無(wú)法學(xué)習(xí)到完整的實(shí)體特征，影響命名實(shí)體識(shí)別任務(wù)的效果。在使用隨機(jī)插入算法進(jìn)行數(shù)據(jù)增廣時(shí)，隨機(jī)插入次數(shù)應(yīng)與句子長(zhǎng)度線性相關(guān)，避免長(zhǎng)句子只進(jìn)行一次隨機(jī)插入后句子結(jié)構(gòu)幾乎無(wú)改變，無(wú)法達(dá)到語(yǔ)料多樣性的目的。

本研究中結(jié)合漁業(yè)標(biāo)準(zhǔn)文本的特點(diǎn)和命名實(shí)體識(shí)別的任務(wù)目標(biāo)，對(duì)傳統(tǒng)的隨機(jī)插入方法進(jìn)行了兩方面改進(jìn)，并提出了基于槽點(diǎn)保護(hù)的隨機(jī)插入算法：

1)沿用上文中的槽點(diǎn)保護(hù)機(jī)制，即實(shí)體槽點(diǎn)和上下文槽點(diǎn)間不進(jìn)行插入操作，在基于槽點(diǎn)保護(hù)的情況下進(jìn)行隨機(jī)插入，既能保護(hù)實(shí)體特征，又能改變句子結(jié)構(gòu)，增加樣本多樣性，提高模型泛化能力。

2)漁業(yè)標(biāo)準(zhǔn)文本中句子長(zhǎng)度范圍大致為20～200個(gè)字符，以最短句子長(zhǎng)度為單位，每20個(gè)字符進(jìn)行一次隨機(jī)插入，這使在長(zhǎng)句子中的隨機(jī)插入變得有意義，可在更大程度上改變句子結(jié)構(gòu)。

基于槽點(diǎn)保護(hù)的隨機(jī)插入算法流程如圖6所示。

圖6 基于槽點(diǎn)保護(hù)的隨機(jī)插入算法(SPI)

1.4 3種增廣算法的比較和組合

基于領(lǐng)域詞典的聯(lián)合替換算法、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法等3種方法同樣也存在各自的優(yōu)點(diǎn)和不足(表3)。從表3可見(jiàn)，3種算法中任何一種都會(huì)有一定的局限性，為了進(jìn)一步提高數(shù)據(jù)增廣算法的效果，將這3種算法融合在一起可以彌補(bǔ)各種算法的缺點(diǎn)，因此，本研究中提出了基于多元組合的數(shù)據(jù)增廣方法。

表3 3種增廣方法的優(yōu)缺點(diǎn)對(duì)比

2 試驗(yàn)

2.1 試驗(yàn)環(huán)境

試驗(yàn)的硬件環(huán)境為intel xeon E5-2630 v3 2.4 GHZ 處理器，6 GB 內(nèi)存，操作系統(tǒng)為 Ubuntu 16.04 LTS 64 bit，GPU為GTX2080Ti，試驗(yàn)平臺(tái)是PyCharm(2018版)。所用的深度學(xué)習(xí)框架為Pytorch。

2.2 BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型

漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別網(wǎng)絡(luò)模型由BERT層[20]、BiLSTM層、Attention層[21]、CRF層4部分組成。BERT是預(yù)訓(xùn)練模型，可以更好地訓(xùn)練出位置向量和字向量；BiLSTM層學(xué)習(xí)到BERT層預(yù)訓(xùn)練輸出的向量信息，更好地捕捉到較長(zhǎng)距離的依賴關(guān)系和上下文語(yǔ)義特征；Attention層可以在有限的資源下快速、準(zhǔn)確地處理信息，分配權(quán)重；CRF層將Attention層的輸出添加約束計(jì)算得到最優(yōu)結(jié)果，轉(zhuǎn)化成序列標(biāo)簽輸出最后的預(yù)測(cè)結(jié)果。

BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型結(jié)構(gòu)如圖7所示。

圖7 BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型結(jié)構(gòu)

2.3 基于領(lǐng)域詞典的聯(lián)合替換算法對(duì)比試驗(yàn)

為驗(yàn)證基于領(lǐng)域詞典的聯(lián)合替換算法的有效性，對(duì)“水產(chǎn)品名稱”進(jìn)行單目標(biāo)訓(xùn)練，使用不同數(shù)據(jù)增廣方法進(jìn)行了對(duì)比試驗(yàn)。

試驗(yàn)1：BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型訓(xùn)練“水產(chǎn)品名稱”類別的目標(biāo)實(shí)體。經(jīng)過(guò)多次對(duì)不同增廣系數(shù)N進(jìn)行對(duì)比測(cè)試，結(jié)果顯示，當(dāng)增廣系數(shù)N=16時(shí)的數(shù)據(jù)增廣效果最佳，表4給出了N=16時(shí)，原語(yǔ)料庫(kù)、經(jīng)過(guò)同義詞替換后和基于領(lǐng)域詞典聯(lián)合替換后的語(yǔ)料庫(kù)對(duì)“水產(chǎn)品名稱”識(shí)別效果的比較。

使用同義詞進(jìn)行數(shù)據(jù)增廣后能改變一定的句式結(jié)構(gòu)，提高命名實(shí)體識(shí)別結(jié)果，但是沒(méi)有增加目標(biāo)實(shí)體的數(shù)量，不能從根本上解決目標(biāo)實(shí)體不足的問(wèn)題?；陬I(lǐng)域詞典的聯(lián)合替換算法對(duì)漁業(yè)標(biāo)準(zhǔn)中的“水產(chǎn)品名稱”進(jìn)行數(shù)據(jù)增廣，有效增加了目標(biāo)實(shí)體的數(shù)量，使模型更容易學(xué)習(xí)到目標(biāo)實(shí)體特征，提高了泛化能力。比傳統(tǒng)的同義詞替換算法準(zhǔn)確率提升了5.37%,召回率提升了8.77%，F(xiàn)1值提升了7.09%(表4)。

表4 基于領(lǐng)域詞典的聯(lián)合替換對(duì)比試驗(yàn)

2.4 基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法對(duì)比試驗(yàn)

為驗(yàn)證基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法的有效性，本試驗(yàn)中對(duì)“水產(chǎn)品名稱”進(jìn)行單目標(biāo)訓(xùn)練，使用不同數(shù)據(jù)增廣方法進(jìn)行了對(duì)比試驗(yàn)，上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符。

試驗(yàn)2：BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型訓(xùn)練“水產(chǎn)品名稱”類別的目標(biāo)實(shí)體。經(jīng)過(guò)多次對(duì)選用不同的刪除系數(shù)進(jìn)行對(duì)比測(cè)試，當(dāng)刪除系數(shù)為0.02時(shí)，數(shù)據(jù)增廣效果最好。表5給出了當(dāng)刪除系數(shù)為0.02時(shí)，原語(yǔ)料庫(kù)、經(jīng)過(guò)隨機(jī)刪除后和基于槽點(diǎn)保護(hù)的隨機(jī)刪除后的語(yǔ)料庫(kù)對(duì)“水產(chǎn)品名稱”識(shí)別效果的比較。

使用隨機(jī)刪除算法進(jìn)行數(shù)據(jù)增廣后能改變句子的句式結(jié)構(gòu)，但沒(méi)有對(duì)目標(biāo)實(shí)體及其上下文信息進(jìn)行保護(hù)，這會(huì)造成語(yǔ)義缺失的情況，而本研究中提出基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法取得了較好的效果，在保護(hù)目標(biāo)實(shí)體和上下文信息后進(jìn)行隨機(jī)刪除，相比于隨機(jī)刪除算法準(zhǔn)確率提升了6.1%，召回率提升了4.19%，F(xiàn)1值提升了4.97%(表5)。這表明，使用上下文槽點(diǎn)的保護(hù)機(jī)制后有效地提升了樣本的多樣性，提高了模型的泛化能力，驗(yàn)證了本研究中提出的基于槽點(diǎn)保護(hù)的隨機(jī)刪除方法的有效性。

表5 基于槽點(diǎn)保護(hù)的隨機(jī)刪除對(duì)比試驗(yàn)

試驗(yàn)3：使用槽點(diǎn)保護(hù)的隨機(jī)刪除算法對(duì)語(yǔ)料進(jìn)行相同隨機(jī)刪除概率下選取不同長(zhǎng)度的上下文槽點(diǎn)對(duì)比試驗(yàn)。選取刪除系數(shù)為0.02條件下進(jìn)行試驗(yàn)，上下文槽點(diǎn)保護(hù)長(zhǎng)度分別為2、4、6、8個(gè)字符單位，結(jié)果如表6所示。在相同的隨機(jī)刪除概率下進(jìn)行不同長(zhǎng)度的上下文槽點(diǎn)保護(hù)試驗(yàn)，根據(jù)試驗(yàn)結(jié)果可知，當(dāng)上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符單位時(shí)效果最佳，準(zhǔn)確率最高為82.94%，完全可以概括實(shí)體的大部分特征。這表明，基于上下文槽點(diǎn)保護(hù)的隨機(jī)刪除算法，當(dāng)槽點(diǎn)長(zhǎng)度選擇4個(gè)字符時(shí)模型效果達(dá)到最好。

表6 上下文槽點(diǎn)保護(hù)長(zhǎng)度

2.5 基于槽點(diǎn)保護(hù)的隨機(jī)插入算法對(duì)比試驗(yàn)

為驗(yàn)證本研究中提出的基于槽點(diǎn)保護(hù)的隨機(jī)插入算法對(duì)“水產(chǎn)品名稱”進(jìn)行單目標(biāo)訓(xùn)練的效果，使用不同數(shù)據(jù)增廣方法進(jìn)行了對(duì)比試驗(yàn)，本試驗(yàn)中上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符。

試驗(yàn)4：BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型訓(xùn)練“水產(chǎn)品名稱”類別的目標(biāo)實(shí)體。上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符，表7給出了原語(yǔ)料庫(kù)、經(jīng)過(guò)隨機(jī)插入后的語(yǔ)料庫(kù)和基于槽點(diǎn)保護(hù)的隨機(jī)插入后的語(yǔ)料庫(kù)對(duì)“水產(chǎn)品名稱”識(shí)別效果的比較。由表7可知，與隨機(jī)插入算法相比，基于槽點(diǎn)保護(hù)的隨機(jī)插入算法的識(shí)別效果更加優(yōu)異，其準(zhǔn)確率達(dá)到了82.34%，能夠更好地保留目標(biāo)實(shí)體的特征，提高識(shí)別準(zhǔn)確率。

表7 基于槽點(diǎn)保護(hù)的隨機(jī)插入對(duì)比試驗(yàn)

2.6 基于多元組合數(shù)據(jù)增廣算法與其他單一算法識(shí)別效果的對(duì)比試驗(yàn)

為驗(yàn)證本研究中提出的多元組合的數(shù)據(jù)增廣方法，對(duì)“水產(chǎn)品名稱”進(jìn)行單目標(biāo)實(shí)體訓(xùn)練。

試驗(yàn)5：使用基于領(lǐng)域詞典的聯(lián)合替換算法(方法A)、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法(方法B)、基于槽點(diǎn)保護(hù)的隨機(jī)插入算法(方法C)、基于多元組合數(shù)據(jù)增廣算法(方法A+B+C)，以及程名[16]基于BiLSTM+CRF的漁業(yè)標(biāo)準(zhǔn)術(shù)語(yǔ)識(shí)別研究中的數(shù)據(jù)增廣方法(方法D)進(jìn)行對(duì)比試驗(yàn)。其中，基于領(lǐng)域詞典的聯(lián)合替換算法增廣系數(shù)N=16，基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法隨機(jī)刪除概率為0.02，且所有試驗(yàn)中上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符。試驗(yàn)結(jié)果如表8所示，將3種算法融合的多元組合數(shù)據(jù)增廣算法的識(shí)別效果要優(yōu)于單獨(dú)使用1種算法的識(shí)別效果，且較程名[16]提出的數(shù)據(jù)增廣算法識(shí)別效果有較大提升，準(zhǔn)確率達(dá)到了91.73%。

表8 3種方法結(jié)合使用對(duì)比試驗(yàn)

3 討論

在命名實(shí)體識(shí)別任務(wù)中，存在部分目標(biāo)實(shí)體樣本稀疏問(wèn)題，此問(wèn)題常導(dǎo)致該類實(shí)體識(shí)別效果較差，影響命名實(shí)體識(shí)別任務(wù)的整體結(jié)果。目前，解決樣本稀疏的方法[13-14]較多，通過(guò)對(duì)漁業(yè)標(biāo)準(zhǔn)文本特性分析，本研究中選取數(shù)據(jù)增廣的方法來(lái)解決漁業(yè)標(biāo)準(zhǔn)文本中“水產(chǎn)品名稱”類實(shí)體樣本稀疏問(wèn)題。由試驗(yàn)1、試驗(yàn)2、試驗(yàn)4可知，本研究中提出的3種數(shù)據(jù)增廣方法均優(yōu)于傳統(tǒng)方法，識(shí)別精度均有較大提升，其中，基于領(lǐng)域詞典的聯(lián)合替換算法較同義詞替換算法有效地增加了“水產(chǎn)品名稱”類實(shí)體的數(shù)量，準(zhǔn)確率提升了5.37%，基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法有效提高了樣本的多樣性，提升了模型的泛化能力，準(zhǔn)確率分別較傳統(tǒng)的隨機(jī)刪除和隨機(jī)插入算法提升了6.10%和6.55%。為了更好地融合3種算法的優(yōu)勢(shì)，提高識(shí)別效果，本研究中將3種數(shù)據(jù)增廣算法進(jìn)行了多元組合，由試驗(yàn)5可知，本研究中提出的多元組合數(shù)據(jù)增廣的命名實(shí)體識(shí)別方法在漁業(yè)標(biāo)準(zhǔn)文本命名實(shí)體識(shí)別任務(wù)中效果提升更加明顯，準(zhǔn)確率、召回率、F1值分別達(dá)到了91.73%、88.64%、90.16%。該方法較程名[16]提出的漁業(yè)標(biāo)準(zhǔn)術(shù)語(yǔ)識(shí)別方法具有更高的識(shí)別精度。這種多元組合的數(shù)據(jù)增廣方法也為其他領(lǐng)域的命名實(shí)體識(shí)別任務(wù)提供了新的思路。

4 結(jié)論

本研究中針對(duì)漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)中“水產(chǎn)品名稱”等實(shí)體類別樣本分布稀疏，使模型無(wú)法準(zhǔn)確學(xué)習(xí)到目標(biāo)實(shí)體的特征，導(dǎo)致這類實(shí)體識(shí)別效果較差的問(wèn)題，在傳統(tǒng)的同義詞替換、隨機(jī)刪除算法和隨機(jī)插入算法的基礎(chǔ)上進(jìn)行改進(jìn)，并使用融合注意力機(jī)制的BERT-BiLSTM-CRF網(wǎng)絡(luò)模型進(jìn)行多組對(duì)比試驗(yàn)，得出以下結(jié)論：

1)通過(guò)改進(jìn)3種傳統(tǒng)的數(shù)據(jù)增廣算法，提出了基于領(lǐng)域詞典的聯(lián)合替換算法、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法，使用這3種數(shù)據(jù)增廣算法后的語(yǔ)料庫(kù)進(jìn)行命名實(shí)體識(shí)別任務(wù)的準(zhǔn)確率、召回率、F1值均有較大提高，有效提升了漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別的整體效果。

2)本研究中將所提出的3種數(shù)據(jù)增廣算法進(jìn)行多元組合，在命名實(shí)體識(shí)別任務(wù)上取得了較好的效果，在保護(hù)實(shí)體和上下文特征的情況下，既可有效增加目標(biāo)實(shí)體數(shù)量又可豐富樣本多樣性，從而提高了模型的泛化能力和識(shí)別精度。

3)使用本研究中提出的融合注意力機(jī)制的BERT-BiLSTM-CRF網(wǎng)絡(luò)模型進(jìn)行漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)，相較BiLSTM-CRF網(wǎng)絡(luò)模型取得了更好的效果，準(zhǔn)確率、召回率、F1值分別提升了2.27%、1.43%、1.84%，證明了該模型的有效性，下一步可通過(guò)改進(jìn)該模型完成漁業(yè)標(biāo)準(zhǔn)實(shí)體關(guān)系抽取工作，為構(gòu)建漁業(yè)標(biāo)準(zhǔn)知識(shí)圖譜奠定基礎(chǔ)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放