楊鶴,于紅,2*,劉巨升,楊惠寧,孫哲濤,程名,任媛,張思佳,2
(1.大連海洋大學(xué) 信息工程學(xué)院,遼寧省海洋信息技術(shù)重點(diǎn)試驗(yàn)室,遼寧 大連 116023;2.設(shè)施漁業(yè)教育部重點(diǎn)試驗(yàn)室,遼寧 大連 116023)
漁業(yè)標(biāo)準(zhǔn)化是提高漁業(yè)生產(chǎn)效益、提升水產(chǎn)品質(zhì)量和保障漁業(yè)生產(chǎn)安全的重要手段之一,漁業(yè)標(biāo)準(zhǔn)文本是漁業(yè)標(biāo)準(zhǔn)化的載體,也是漁業(yè)生產(chǎn)人員獲取漁業(yè)標(biāo)準(zhǔn)知識(shí)的主要途徑[1]。為高效地獲取漁業(yè)標(biāo)準(zhǔn)知識(shí),需對(duì)漁業(yè)標(biāo)準(zhǔn)文本中命名實(shí)體進(jìn)行識(shí)別。漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別是從漁業(yè)標(biāo)準(zhǔn)文本中識(shí)別“漁業(yè)標(biāo)準(zhǔn)號(hào)”、“漁業(yè)標(biāo)準(zhǔn)指標(biāo)”[2]及“水產(chǎn)品名稱”等命名實(shí)體。早期的命名實(shí)體識(shí)別任務(wù)主要采用基于規(guī)則和詞典的方法[3],這類方法需要由有經(jīng)驗(yàn)的專家總結(jié)規(guī)則,識(shí)別效果依賴于專家的經(jīng)驗(yàn),在數(shù)據(jù)量較少且不同專家總結(jié)的規(guī)則一致性較高的情況下效果較好。隨著數(shù)據(jù)量的不斷增加,規(guī)則提取工作量增大,保持規(guī)則一致性難度加大,基于規(guī)則和詞典方法的識(shí)別效果無(wú)法滿足人們的進(jìn)一步需求,學(xué)者們提出了基于詞典與條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別方法[4],該類方法采用統(tǒng)計(jì)學(xué)習(xí)的方法統(tǒng)計(jì)語(yǔ)料庫(kù)中文本信息的分布情況并進(jìn)行命名實(shí)體識(shí)別。與基于規(guī)則方法相比,統(tǒng)計(jì)學(xué)習(xí)方法的性能取得了較大提升,但是由于此類方法需要手工選擇特征,算法性能依賴于特征模板的結(jié)構(gòu),缺乏泛化能力。隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)被應(yīng)用于命名實(shí)體識(shí)別領(lǐng)域[5]。孫娟娟等[6]提出了基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別,取得了較好的效果,但由于對(duì)漁業(yè)領(lǐng)域命名實(shí)體對(duì)象類別定義較為寬泛,識(shí)別的實(shí)體類別較少,該算法不適用于具有較多類別、實(shí)體結(jié)構(gòu)較為復(fù)雜的漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別。為解決上述問(wèn)題,程名等[7]在分析漁業(yè)標(biāo)準(zhǔn)文本特點(diǎn)的基礎(chǔ)上,提出了融合注意力機(jī)制的BiLSTM+CRF(BiLSTM+Attention+CRF)漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別方法,在漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)中取得了較好效果。然而,由于漁業(yè)標(biāo)準(zhǔn)文本中“水產(chǎn)品名稱”等類別實(shí)體數(shù)量少、樣本分布不均勻,導(dǎo)致識(shí)別效果不夠好,人工擴(kuò)充語(yǔ)料庫(kù)存在效率低、成本高,以及易造成錯(cuò)誤傳播等問(wèn)題,因此,需要研究語(yǔ)料庫(kù)自動(dòng)擴(kuò)充方法。目前,少樣本命名實(shí)體識(shí)別主要包括數(shù)據(jù)增廣[8-12]、模型遷移[13]、特征變換[14]和知識(shí)鏈接等方法,分別從準(zhǔn)確性、易用性和優(yōu)缺點(diǎn)等方面對(duì)這些方法進(jìn)行比較,4種方法各有優(yōu)劣,其中,數(shù)據(jù)增廣方法是最有效的小樣本數(shù)據(jù)擴(kuò)充方法,該方法通過(guò)優(yōu)先挑選高質(zhì)量樣本參與訓(xùn)練,達(dá)到擴(kuò)充語(yǔ)料庫(kù)的目的,此方法在特定領(lǐng)域命名實(shí)體識(shí)別任務(wù)中能獲得較高的準(zhǔn)確率[15]。程名[16]提出了基于改進(jìn)EDA(easy data augmentation)的數(shù)據(jù)增廣方法用于解決樣本數(shù)量較少等問(wèn)題,取得了較好的效果,但進(jìn)行數(shù)據(jù)增廣后實(shí)體上下文特征并未得到保護(hù),造成實(shí)體特征缺失,影響了命名實(shí)體識(shí)別任務(wù)的識(shí)別效果。為了解決上述問(wèn)題,需要研究有效的數(shù)據(jù)增廣方法,確保在不丟失語(yǔ)義信息的基礎(chǔ)上,進(jìn)一步擴(kuò)充語(yǔ)料數(shù)量,提升語(yǔ)料質(zhì)量,增加樣本多樣性,提高命名實(shí)體識(shí)別的準(zhǔn)確性和魯棒性[17]。
為此,本研究中針對(duì)漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)的特點(diǎn),以及部分目標(biāo)實(shí)體樣本數(shù)量較少、效果不好等問(wèn)題,提出了多元組合數(shù)據(jù)增廣的漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別方法,即在傳統(tǒng)的同義詞替換算法(synonym substitution)、隨機(jī)刪除算法(randomly delete)和隨機(jī)插入算法(randomly insert)基礎(chǔ)上進(jìn)行改進(jìn),提出了基于領(lǐng)域詞典的聯(lián)合替換算法(joint replacement algorithm based on domain dictionary,DDR)、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法(random deletion algorithm based on slot protection,SPD)和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法(random insertion algorithm based on slot protection,SPI),將這3種算法進(jìn)行多元組合,并使用基于融合注意力機(jī)制的BERT-BiLSTM-CRF網(wǎng)絡(luò)模型對(duì)漁業(yè)標(biāo)準(zhǔn)文本進(jìn)行命名實(shí)體識(shí)別,以提高識(shí)別的準(zhǔn)確率。
在對(duì)漁業(yè)標(biāo)準(zhǔn)文本處理過(guò)程中,通過(guò)采樣統(tǒng)計(jì)了漁業(yè)標(biāo)準(zhǔn)文本中各類實(shí)體的數(shù)量分布(表1),結(jié)果表明,“水產(chǎn)品名稱”樣本較少且特征不明顯,模型無(wú)法學(xué)習(xí)較多特征,識(shí)別效果較差,僅有71%。
表1 實(shí)體數(shù)量情況
為了增加“水產(chǎn)品名稱”實(shí)體的數(shù)量,采用數(shù)據(jù)增廣的方法對(duì)“水產(chǎn)品名稱”進(jìn)行擴(kuò)充。EDA方法是目前廣泛使用的一類數(shù)據(jù)增廣方法,主要包括4種方法,即對(duì)文本進(jìn)行同義詞替換、隨機(jī)插入、隨機(jī)交換、隨機(jī)刪除操作。使用基于同義詞替換算法對(duì)漁業(yè)標(biāo)準(zhǔn)文本中的“水產(chǎn)品名稱”進(jìn)行數(shù)據(jù)增廣,雖然提高了樣本的多樣性,但同義詞替換未增加目標(biāo)實(shí)體的數(shù)量,不能從根本上解決實(shí)體樣本稀疏的問(wèn)題。使用隨機(jī)刪除、隨機(jī)插入方法雖然改變了句子結(jié)構(gòu)、提升了模型泛化能力,但隨機(jī)刪除和插入會(huì)破壞句子中的目標(biāo)實(shí)體和上下文特征,影響命名實(shí)體識(shí)別效果,因此,直接采用EDA方法進(jìn)行漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別雖然可在一定程度上增加樣本數(shù)量,但存在破壞語(yǔ)義信息等問(wèn)題,導(dǎo)致識(shí)別效果不夠好。針對(duì)以上問(wèn)題,本研究中提出了基于多元組合數(shù)據(jù)的增廣算法,同時(shí)采用基于領(lǐng)域詞典的聯(lián)合替換算法、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法進(jìn)行數(shù)據(jù)增廣。
傳統(tǒng)的同義詞替換算法是在句子中隨機(jī)抽取n個(gè)詞,然后從同義詞詞典中隨機(jī)抽取同義詞進(jìn)行替換。但使用傳統(tǒng)的同義詞替換方法會(huì)存在以下問(wèn)題:
1)目前的分詞方法存在一定的錯(cuò)誤率,句子中的實(shí)體可能被錯(cuò)誤切割,再經(jīng)過(guò)同義詞替換會(huì)造成錯(cuò)誤傳播,影響同義詞替換的效果甚至消除語(yǔ)料庫(kù)中原本的目標(biāo)實(shí)體。
2)同義詞替換后雖然能改變一定的句式結(jié)構(gòu),但未增加目標(biāo)實(shí)體的數(shù)量,不能從根本上解決實(shí)體不足、語(yǔ)料稀疏的問(wèn)題。
針對(duì)上述問(wèn)題,提出了基于領(lǐng)域詞典聯(lián)合替換的數(shù)據(jù)增廣方法。首先,根據(jù)領(lǐng)域詞典構(gòu)建“水產(chǎn)品名稱”同類詞詞典和同義詞詞典;參照同類詞詞典和增廣系數(shù)(N)對(duì)“水產(chǎn)品名稱”類實(shí)體進(jìn)行同類詞替換;同時(shí)根據(jù)同義詞詞典對(duì)除目標(biāo)實(shí)體外的隨機(jī)詞進(jìn)行同義詞替換,其中同類詞替換只對(duì)目標(biāo)實(shí)體進(jìn)行替換,有效增加了目標(biāo)實(shí)體的數(shù)量。對(duì)句子中的隨機(jī)詞進(jìn)行同義詞替換增加了句子的多樣性,但未改變漁業(yè)標(biāo)準(zhǔn)的句子結(jié)構(gòu),符合漁業(yè)標(biāo)準(zhǔn)文本的行文規(guī)范。在不改變目標(biāo)實(shí)體上下文特征和語(yǔ)義信息的情況下,使用基于領(lǐng)域詞典的聯(lián)合替換算法,增加了目標(biāo)實(shí)體的數(shù)量和句子的多樣性,有效解決了漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別樣本稀疏問(wèn)題。
同類詞詞典和同義詞詞典的結(jié)構(gòu)如表2所示?;陬I(lǐng)域詞典的聯(lián)合替換算法流程如圖1所示?;陬I(lǐng)域詞典的聯(lián)合替換算法示例如圖2所示(設(shè)增廣系數(shù)N=3)。
圖2 基于領(lǐng)域詞典的聯(lián)合替換算法實(shí)例
表2 兩個(gè)領(lǐng)域詞典實(shí)例
圖1 基于領(lǐng)域詞典的聯(lián)合替換算法(DDR)
1.2.1 基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法 EDA數(shù)據(jù)增廣方法中的隨機(jī)刪除算法是對(duì)句子中的每個(gè)詞,以概率P隨機(jī)刪除,刪除句子中字符可以提升樣本的多樣性,提升模型的泛化能力。但隨機(jī)刪除方法用到漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)中效果不夠理想,因?yàn)樗鼤?huì)隨機(jī)刪除標(biāo)準(zhǔn)文本中的一些實(shí)體,使模型無(wú)法學(xué)習(xí)到實(shí)體特征,影響了命名實(shí)體識(shí)別效果。使用傳統(tǒng)的隨機(jī)刪除算法會(huì)造成如下問(wèn)題:
1)漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別的目標(biāo)是識(shí)別有意義的專有名詞,但是隨機(jī)刪除方法會(huì)大量刪除需要識(shí)別的目標(biāo)實(shí)體,嚴(yán)重影響語(yǔ)料的質(zhì)量。
2)由于傳統(tǒng)的隨機(jī)刪除方法中,每個(gè)字符有固定的刪除概率,這會(huì)造成語(yǔ)義缺失或無(wú)效刪除,當(dāng)概率P較大時(shí)會(huì)對(duì)短序列產(chǎn)生較大影響,甚至影響句子原本語(yǔ)義,當(dāng)概率P較小時(shí)則無(wú)法對(duì)長(zhǎng)序列產(chǎn)生影響,使隨機(jī)刪除變得毫無(wú)意義。
本研究中,結(jié)合漁業(yè)標(biāo)準(zhǔn)文本的特點(diǎn)和命名實(shí)體識(shí)別任務(wù)的目標(biāo),對(duì)隨機(jī)刪除方法進(jìn)行了兩點(diǎn)改進(jìn)并提出了基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法:
1)提出“槽點(diǎn)”保護(hù)機(jī)制,槽點(diǎn)包含實(shí)體本身及上下文特征詞語(yǔ),在保護(hù)槽點(diǎn)后再進(jìn)行隨機(jī)刪除,可改變句子結(jié)構(gòu)以增加多樣性。
2)將固定概率改成動(dòng)態(tài)概率,針對(duì)不同長(zhǎng)度的語(yǔ)句進(jìn)行動(dòng)態(tài)調(diào)整,避免隨機(jī)刪除概率過(guò)大或過(guò)小產(chǎn)生的不適配問(wèn)題。
假定隨機(jī)刪除概率為P,句子長(zhǎng)度為S,動(dòng)態(tài)概率倍率T,則動(dòng)態(tài)隨機(jī)刪除概率P1=P×T,圖3為動(dòng)態(tài)概率倍率T隨句子長(zhǎng)度S的變化程度,其中,當(dāng)句子長(zhǎng)度小于10時(shí)動(dòng)態(tài)概率倍率取0.2,句子長(zhǎng)度大于100時(shí)動(dòng)態(tài)概率倍率恒定為2。
圖3 動(dòng)態(tài)刪除概率
1.2.2 槽點(diǎn)的保護(hù)機(jī)制 在自然語(yǔ)言中,判斷一個(gè)實(shí)體是否為目標(biāo)實(shí)體,除了要看實(shí)體本身以外,還要參考上下文語(yǔ)義環(huán)境。語(yǔ)義特征一般存在于目標(biāo)實(shí)體上下文一定范圍內(nèi)。在漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)中,將句子序列轉(zhuǎn)化成向量輸入到長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)模型[18]中,LSTM網(wǎng)絡(luò)模型會(huì)對(duì)實(shí)體及其上下文特征進(jìn)行特征提取,得到漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別模型。傳統(tǒng)的隨機(jī)刪除算法會(huì)對(duì)句子中的實(shí)體及其上下文信息進(jìn)行隨機(jī)刪除,為了避免實(shí)體及其上下文特征被刪除,提出了基于槽點(diǎn)保護(hù)的概念,槽點(diǎn)包含目標(biāo)實(shí)體及其上下文語(yǔ)義信息,槽點(diǎn)保護(hù)包含實(shí)體本身保護(hù)和實(shí)體上下文的語(yǔ)義特征保護(hù),實(shí)體上下文特征保護(hù)機(jī)制是設(shè)定一個(gè)上下文范圍槽點(diǎn)[19],即以目標(biāo)實(shí)體的首字符和末字符為兩個(gè)點(diǎn),首字符向前ɑ個(gè)字符與末字符向后ɑ個(gè)字符區(qū)間內(nèi)的所有字符設(shè)為上下文特征槽點(diǎn),與實(shí)體槽點(diǎn)一樣,不參與隨機(jī)刪除。通過(guò)對(duì)實(shí)體槽點(diǎn)和上下文特征槽點(diǎn)的保護(hù),使得句子在進(jìn)行隨機(jī)刪除時(shí)目標(biāo)實(shí)體不會(huì)被刪除,并且保護(hù)了目標(biāo)實(shí)體的上下文語(yǔ)義信息,讓模型在進(jìn)行隨機(jī)刪除生成的新句子中,最大化地學(xué)習(xí)到完整的實(shí)體特征。
1.2.3 上下文特征槽點(diǎn)保護(hù)長(zhǎng)度 對(duì)漁業(yè)標(biāo)準(zhǔn)語(yǔ)料庫(kù)中所有包含“水產(chǎn)品名稱”目標(biāo)實(shí)體句子進(jìn)行統(tǒng)計(jì)分析,如“本標(biāo)準(zhǔn)適用于我省凡納濱對(duì)蝦的苗種培育和養(yǎng)殖”、“要使烏鱧通過(guò)馴食后能攝食偏植物性為主的餌料”、“根據(jù)中國(guó)凍海水魚(yú)片加工的實(shí)際情況編制的”。通過(guò)部分例句可以看出,句子中目標(biāo)實(shí)體上下文2~3個(gè)詞語(yǔ)可以涵蓋句子大部分的語(yǔ)義特征,由此可以得出結(jié)論:對(duì)目標(biāo)實(shí)體上下文語(yǔ)義信息影響最大的是前后4~6個(gè)字符(2~3個(gè)詞語(yǔ))。為了讓模型更好地學(xué)習(xí)到“水產(chǎn)品名稱”的上下文特征,最大化保留句子的語(yǔ)義結(jié)構(gòu),上下文槽點(diǎn)的長(zhǎng)度設(shè)置非常重要,槽點(diǎn)長(zhǎng)度過(guò)大會(huì)導(dǎo)致隨機(jī)刪除沒(méi)有意義,本研究中上下文槽點(diǎn)長(zhǎng)度若設(shè)置為6,雖然保留了較多的目標(biāo)實(shí)體上下文特征,但是句子結(jié)構(gòu)和實(shí)體上下文特征基本未發(fā)生改變,違背了隨機(jī)刪除的目的。而若將上下文槽點(diǎn)長(zhǎng)度設(shè)置為4,則既可以適當(dāng)改變實(shí)體的上下文特征,又保留了目標(biāo)詞最主要的上下文特征,可以更好地完成隨機(jī)刪除任務(wù),實(shí)現(xiàn)語(yǔ)料的有效擴(kuò)充,因此,本研究中上下文槽點(diǎn)長(zhǎng)度α=4,算法流程如圖4所示,算法實(shí)例如圖5所示。
圖4 基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法(SPD)
圖5 基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法實(shí)例
EDA數(shù)據(jù)增廣方法中的隨機(jī)插入算法是在句子中隨機(jī)抽取一個(gè)詞,然后在該詞的同義詞集合中隨機(jī)選擇一個(gè)同義詞,插入原句子中的隨機(jī)位置。將該方法用于漁業(yè)標(biāo)準(zhǔn)文本數(shù)據(jù)增廣時(shí),同隨機(jī)刪除一樣,會(huì)隨機(jī)將同義詞插入到實(shí)體間或者實(shí)體上下文間,進(jìn)而造成模型無(wú)法學(xué)習(xí)到完整的實(shí)體特征,影響命名實(shí)體識(shí)別任務(wù)的效果。在使用隨機(jī)插入算法進(jìn)行數(shù)據(jù)增廣時(shí),隨機(jī)插入次數(shù)應(yīng)與句子長(zhǎng)度線性相關(guān),避免長(zhǎng)句子只進(jìn)行一次隨機(jī)插入后句子結(jié)構(gòu)幾乎無(wú)改變,無(wú)法達(dá)到語(yǔ)料多樣性的目的。
本研究中結(jié)合漁業(yè)標(biāo)準(zhǔn)文本的特點(diǎn)和命名實(shí)體識(shí)別的任務(wù)目標(biāo),對(duì)傳統(tǒng)的隨機(jī)插入方法進(jìn)行了兩方面改進(jìn),并提出了基于槽點(diǎn)保護(hù)的隨機(jī)插入算法:
1)沿用上文中的槽點(diǎn)保護(hù)機(jī)制,即實(shí)體槽點(diǎn)和上下文槽點(diǎn)間不進(jìn)行插入操作,在基于槽點(diǎn)保護(hù)的情況下進(jìn)行隨機(jī)插入,既能保護(hù)實(shí)體特征,又能改變句子結(jié)構(gòu),增加樣本多樣性,提高模型泛化能力。
2)漁業(yè)標(biāo)準(zhǔn)文本中句子長(zhǎng)度范圍大致為20~200個(gè)字符,以最短句子長(zhǎng)度為單位,每20個(gè)字符進(jìn)行一次隨機(jī)插入,這使在長(zhǎng)句子中的隨機(jī)插入變得有意義,可在更大程度上改變句子結(jié)構(gòu)。
基于槽點(diǎn)保護(hù)的隨機(jī)插入算法流程如圖6所示。
圖6 基于槽點(diǎn)保護(hù)的隨機(jī)插入算法(SPI)
基于領(lǐng)域詞典的聯(lián)合替換算法、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法等3種方法同樣也存在各自的優(yōu)點(diǎn)和不足(表3)。從表3可見(jiàn),3種算法中任何一種都會(huì)有一定的局限性,為了進(jìn)一步提高數(shù)據(jù)增廣算法的效果,將這3種算法融合在一起可以彌補(bǔ)各種算法的缺點(diǎn),因此,本研究中提出了基于多元組合的數(shù)據(jù)增廣方法。
表3 3種增廣方法的優(yōu)缺點(diǎn)對(duì)比
試驗(yàn)的硬件環(huán)境為intel xeon E5-2630 v3 2.4 GHZ 處理器,6 GB 內(nèi)存,操作系統(tǒng)為 Ubuntu 16.04 LTS 64 bit,GPU為GTX2080Ti,試驗(yàn)平臺(tái)是PyCharm(2018版)。所用的深度學(xué)習(xí)框架為Pytorch。
漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別網(wǎng)絡(luò)模型由BERT層[20]、BiLSTM層、Attention層[21]、CRF層4部分組成。BERT是預(yù)訓(xùn)練模型,可以更好地訓(xùn)練出位置向量和字向量;BiLSTM層學(xué)習(xí)到BERT層預(yù)訓(xùn)練輸出的向量信息,更好地捕捉到較長(zhǎng)距離的依賴關(guān)系和上下文語(yǔ)義特征;Attention層可以在有限的資源下快速、準(zhǔn)確地處理信息,分配權(quán)重;CRF層將Attention層的輸出添加約束計(jì)算得到最優(yōu)結(jié)果,轉(zhuǎn)化成序列標(biāo)簽輸出最后的預(yù)測(cè)結(jié)果。
BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型結(jié)構(gòu)如圖7所示。
圖7 BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型結(jié)構(gòu)
為驗(yàn)證基于領(lǐng)域詞典的聯(lián)合替換算法的有效性,對(duì)“水產(chǎn)品名稱”進(jìn)行單目標(biāo)訓(xùn)練,使用不同數(shù)據(jù)增廣方法進(jìn)行了對(duì)比試驗(yàn)。
試驗(yàn)1:BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型訓(xùn)練“水產(chǎn)品名稱”類別的目標(biāo)實(shí)體。經(jīng)過(guò)多次對(duì)不同增廣系數(shù)N進(jìn)行對(duì)比測(cè)試,結(jié)果顯示,當(dāng)增廣系數(shù)N=16時(shí)的數(shù)據(jù)增廣效果最佳,表4給出了N=16時(shí),原語(yǔ)料庫(kù)、經(jīng)過(guò)同義詞替換后和基于領(lǐng)域詞典聯(lián)合替換后的語(yǔ)料庫(kù)對(duì)“水產(chǎn)品名稱”識(shí)別效果的比較。
使用同義詞進(jìn)行數(shù)據(jù)增廣后能改變一定的句式結(jié)構(gòu),提高命名實(shí)體識(shí)別結(jié)果,但是沒(méi)有增加目標(biāo)實(shí)體的數(shù)量,不能從根本上解決目標(biāo)實(shí)體不足的問(wèn)題?;陬I(lǐng)域詞典的聯(lián)合替換算法對(duì)漁業(yè)標(biāo)準(zhǔn)中的“水產(chǎn)品名稱”進(jìn)行數(shù)據(jù)增廣,有效增加了目標(biāo)實(shí)體的數(shù)量,使模型更容易學(xué)習(xí)到目標(biāo)實(shí)體特征,提高了泛化能力。比傳統(tǒng)的同義詞替換算法準(zhǔn)確率提升了5.37%,召回率提升了8.77%,F(xiàn)1值提升了7.09%(表4)。
表4 基于領(lǐng)域詞典的聯(lián)合替換對(duì)比試驗(yàn)
為驗(yàn)證基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法的有效性,本試驗(yàn)中對(duì)“水產(chǎn)品名稱”進(jìn)行單目標(biāo)訓(xùn)練,使用不同數(shù)據(jù)增廣方法進(jìn)行了對(duì)比試驗(yàn),上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符。
試驗(yàn)2:BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型訓(xùn)練“水產(chǎn)品名稱”類別的目標(biāo)實(shí)體。經(jīng)過(guò)多次對(duì)選用不同的刪除系數(shù)進(jìn)行對(duì)比測(cè)試,當(dāng)刪除系數(shù)為0.02時(shí),數(shù)據(jù)增廣效果最好。表5給出了當(dāng)刪除系數(shù)為0.02時(shí),原語(yǔ)料庫(kù)、經(jīng)過(guò)隨機(jī)刪除后和基于槽點(diǎn)保護(hù)的隨機(jī)刪除后的語(yǔ)料庫(kù)對(duì)“水產(chǎn)品名稱”識(shí)別效果的比較。
使用隨機(jī)刪除算法進(jìn)行數(shù)據(jù)增廣后能改變句子的句式結(jié)構(gòu),但沒(méi)有對(duì)目標(biāo)實(shí)體及其上下文信息進(jìn)行保護(hù),這會(huì)造成語(yǔ)義缺失的情況,而本研究中提出基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法取得了較好的效果,在保護(hù)目標(biāo)實(shí)體和上下文信息后進(jìn)行隨機(jī)刪除,相比于隨機(jī)刪除算法準(zhǔn)確率提升了6.1%,召回率提升了4.19%,F(xiàn)1值提升了4.97%(表5)。這表明,使用上下文槽點(diǎn)的保護(hù)機(jī)制后有效地提升了樣本的多樣性,提高了模型的泛化能力,驗(yàn)證了本研究中提出的基于槽點(diǎn)保護(hù)的隨機(jī)刪除方法的有效性。
表5 基于槽點(diǎn)保護(hù)的隨機(jī)刪除對(duì)比試驗(yàn)
試驗(yàn)3:使用槽點(diǎn)保護(hù)的隨機(jī)刪除算法對(duì)語(yǔ)料進(jìn)行相同隨機(jī)刪除概率下選取不同長(zhǎng)度的上下文槽點(diǎn)對(duì)比試驗(yàn)。選取刪除系數(shù)為0.02條件下進(jìn)行試驗(yàn),上下文槽點(diǎn)保護(hù)長(zhǎng)度分別為2、4、6、8個(gè)字符單位,結(jié)果如表6所示。在相同的隨機(jī)刪除概率下進(jìn)行不同長(zhǎng)度的上下文槽點(diǎn)保護(hù)試驗(yàn),根據(jù)試驗(yàn)結(jié)果可知,當(dāng)上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符單位時(shí)效果最佳,準(zhǔn)確率最高為82.94%,完全可以概括實(shí)體的大部分特征。這表明,基于上下文槽點(diǎn)保護(hù)的隨機(jī)刪除算法,當(dāng)槽點(diǎn)長(zhǎng)度選擇4個(gè)字符時(shí)模型效果達(dá)到最好。
表6 上下文槽點(diǎn)保護(hù)長(zhǎng)度
為驗(yàn)證本研究中提出的基于槽點(diǎn)保護(hù)的隨機(jī)插入算法對(duì)“水產(chǎn)品名稱”進(jìn)行單目標(biāo)訓(xùn)練的效果,使用不同數(shù)據(jù)增廣方法進(jìn)行了對(duì)比試驗(yàn),本試驗(yàn)中上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符。
試驗(yàn)4:BERT+BiLSTM+Attention+CRF網(wǎng)絡(luò)模型訓(xùn)練“水產(chǎn)品名稱”類別的目標(biāo)實(shí)體。上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符,表7給出了原語(yǔ)料庫(kù)、經(jīng)過(guò)隨機(jī)插入后的語(yǔ)料庫(kù)和基于槽點(diǎn)保護(hù)的隨機(jī)插入后的語(yǔ)料庫(kù)對(duì)“水產(chǎn)品名稱”識(shí)別效果的比較。由表7可知,與隨機(jī)插入算法相比,基于槽點(diǎn)保護(hù)的隨機(jī)插入算法的識(shí)別效果更加優(yōu)異,其準(zhǔn)確率達(dá)到了82.34%,能夠更好地保留目標(biāo)實(shí)體的特征,提高識(shí)別準(zhǔn)確率。
表7 基于槽點(diǎn)保護(hù)的隨機(jī)插入對(duì)比試驗(yàn)
為驗(yàn)證本研究中提出的多元組合的數(shù)據(jù)增廣方法,對(duì)“水產(chǎn)品名稱”進(jìn)行單目標(biāo)實(shí)體訓(xùn)練。
試驗(yàn)5:使用基于領(lǐng)域詞典的聯(lián)合替換算法(方法A)、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法(方法B)、基于槽點(diǎn)保護(hù)的隨機(jī)插入算法(方法C)、基于多元組合數(shù)據(jù)增廣算法(方法A+B+C),以及程名[16]基于BiLSTM+CRF的漁業(yè)標(biāo)準(zhǔn)術(shù)語(yǔ)識(shí)別研究中的數(shù)據(jù)增廣方法(方法D)進(jìn)行對(duì)比試驗(yàn)。其中,基于領(lǐng)域詞典的聯(lián)合替換算法增廣系數(shù)N=16,基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法隨機(jī)刪除概率為0.02,且所有試驗(yàn)中上下文槽點(diǎn)長(zhǎng)度為4個(gè)字符。試驗(yàn)結(jié)果如表8所示,將3種算法融合的多元組合數(shù)據(jù)增廣算法的識(shí)別效果要優(yōu)于單獨(dú)使用1種算法的識(shí)別效果,且較程名[16]提出的數(shù)據(jù)增廣算法識(shí)別效果有較大提升,準(zhǔn)確率達(dá)到了91.73%。
表8 3種方法結(jié)合使用對(duì)比試驗(yàn)
在命名實(shí)體識(shí)別任務(wù)中,存在部分目標(biāo)實(shí)體樣本稀疏問(wèn)題,此問(wèn)題常導(dǎo)致該類實(shí)體識(shí)別效果較差,影響命名實(shí)體識(shí)別任務(wù)的整體結(jié)果。目前,解決樣本稀疏的方法[13-14]較多,通過(guò)對(duì)漁業(yè)標(biāo)準(zhǔn)文本特性分析,本研究中選取數(shù)據(jù)增廣的方法來(lái)解決漁業(yè)標(biāo)準(zhǔn)文本中“水產(chǎn)品名稱”類實(shí)體樣本稀疏問(wèn)題。由試驗(yàn)1、試驗(yàn)2、試驗(yàn)4可知,本研究中提出的3種數(shù)據(jù)增廣方法均優(yōu)于傳統(tǒng)方法,識(shí)別精度均有較大提升,其中,基于領(lǐng)域詞典的聯(lián)合替換算法較同義詞替換算法有效地增加了“水產(chǎn)品名稱”類實(shí)體的數(shù)量,準(zhǔn)確率提升了5.37%,基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法有效提高了樣本的多樣性,提升了模型的泛化能力,準(zhǔn)確率分別較傳統(tǒng)的隨機(jī)刪除和隨機(jī)插入算法提升了6.10%和6.55%。為了更好地融合3種算法的優(yōu)勢(shì),提高識(shí)別效果,本研究中將3種數(shù)據(jù)增廣算法進(jìn)行了多元組合,由試驗(yàn)5可知,本研究中提出的多元組合數(shù)據(jù)增廣的命名實(shí)體識(shí)別方法在漁業(yè)標(biāo)準(zhǔn)文本命名實(shí)體識(shí)別任務(wù)中效果提升更加明顯,準(zhǔn)確率、召回率、F1值分別達(dá)到了91.73%、88.64%、90.16%。該方法較程名[16]提出的漁業(yè)標(biāo)準(zhǔn)術(shù)語(yǔ)識(shí)別方法具有更高的識(shí)別精度。這種多元組合的數(shù)據(jù)增廣方法也為其他領(lǐng)域的命名實(shí)體識(shí)別任務(wù)提供了新的思路。
本研究中針對(duì)漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)中“水產(chǎn)品名稱”等實(shí)體類別樣本分布稀疏,使模型無(wú)法準(zhǔn)確學(xué)習(xí)到目標(biāo)實(shí)體的特征,導(dǎo)致這類實(shí)體識(shí)別效果較差的問(wèn)題,在傳統(tǒng)的同義詞替換、隨機(jī)刪除算法和隨機(jī)插入算法的基礎(chǔ)上進(jìn)行改進(jìn),并使用融合注意力機(jī)制的BERT-BiLSTM-CRF網(wǎng)絡(luò)模型進(jìn)行多組對(duì)比試驗(yàn),得出以下結(jié)論:
1)通過(guò)改進(jìn)3種傳統(tǒng)的數(shù)據(jù)增廣算法,提出了基于領(lǐng)域詞典的聯(lián)合替換算法、基于槽點(diǎn)保護(hù)的隨機(jī)刪除算法和基于槽點(diǎn)保護(hù)的隨機(jī)插入算法,使用這3種數(shù)據(jù)增廣算法后的語(yǔ)料庫(kù)進(jìn)行命名實(shí)體識(shí)別任務(wù)的準(zhǔn)確率、召回率、F1值均有較大提高,有效提升了漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別的整體效果。
2)本研究中將所提出的3種數(shù)據(jù)增廣算法進(jìn)行多元組合,在命名實(shí)體識(shí)別任務(wù)上取得了較好的效果,在保護(hù)實(shí)體和上下文特征的情況下,既可有效增加目標(biāo)實(shí)體數(shù)量又可豐富樣本多樣性,從而提高了模型的泛化能力和識(shí)別精度。
3)使用本研究中提出的融合注意力機(jī)制的BERT-BiLSTM-CRF網(wǎng)絡(luò)模型進(jìn)行漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù),相較BiLSTM-CRF網(wǎng)絡(luò)模型取得了更好的效果,準(zhǔn)確率、召回率、F1值分別提升了2.27%、1.43%、1.84%,證明了該模型的有效性,下一步可通過(guò)改進(jìn)該模型完成漁業(yè)標(biāo)準(zhǔn)實(shí)體關(guān)系抽取工作,為構(gòu)建漁業(yè)標(biāo)準(zhǔn)知識(shí)圖譜奠定基礎(chǔ)。