王卓越,陳彥光,邢鐵軍,孫媛媛,楊 亮,林鴻飛
1.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連116024
2.東軟集團(tuán)股份有限公司,沈陽110179
隨著中國司法信息的透明化,大量裁判文書在中國裁判文書網(wǎng)[1]上公開,這些開源的刑事判決書中蘊(yùn)含著大量的法律信息。從法律文書中自動(dòng)抽取信息對(duì)于法律文書分析和相關(guān)業(yè)務(wù)處理至關(guān)重要。下游司法應(yīng)用如識(shí)別案件事實(shí)、協(xié)助審查案件文件,以及輔助生成法律文件等,都依賴于信息抽取技術(shù)。實(shí)體關(guān)系抽取是信息抽取技術(shù)中至關(guān)重要的模塊,旨在捕獲案件事實(shí)描述中的實(shí)體對(duì)及其相互關(guān)系,將非結(jié)構(gòu)化的法律文書轉(zhuǎn)換成結(jié)構(gòu)化的三元組知識(shí)。實(shí)體關(guān)系抽取技術(shù)有效緩解了人工提取信息費(fèi)力費(fèi)時(shí)的問題,對(duì)于司法業(yè)務(wù)智能化有著十分重要的意義。
近些年來,隨著神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,實(shí)體關(guān)系聯(lián)合抽取技術(shù)迅速發(fā)展。Miwa等[2]提出了一種端到端的神經(jīng)網(wǎng)絡(luò)模型,通過參數(shù)共享機(jī)制對(duì)實(shí)體識(shí)別和關(guān)系抽取兩個(gè)任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)。Zheng等[3]提出了一種新穎的標(biāo)注方案,包含實(shí)體信息和實(shí)體間的關(guān)系,基于這種標(biāo)注方案,將聯(lián)合抽取問題轉(zhuǎn)化為序列標(biāo)注問題。此外,Zeng等[4]和Zeng等[5]使用基于編碼器-解碼器的聯(lián)合抽取模型,將三元組抽取任務(wù)看作序列生成任務(wù)。Nayak等[6]在編碼器-解碼器模型的基礎(chǔ)上,提出了一種新的三元組表示方法,通過指針網(wǎng)絡(luò)進(jìn)行解碼生成三元組序列。Chen等[7]將司法領(lǐng)域詞典特征融入模型編碼器部分,進(jìn)一步提高了聯(lián)合抽取模型在法律文本上的性能。
目前,面向法律文書的實(shí)體關(guān)系聯(lián)合抽取模型一般只針對(duì)某一特定罪名的情境進(jìn)行設(shè)計(jì),很少有工作研究面向多罪名案件情形下的實(shí)體關(guān)系抽取。而在實(shí)際的司法業(yè)務(wù)應(yīng)用中,常常需要分析多類罪名的案件,單獨(dú)為各類罪名下的文本訓(xùn)練獨(dú)立的模型既耗費(fèi)時(shí)間,又要存儲(chǔ)不同罪名對(duì)應(yīng)的模型參數(shù),耗費(fèi)存儲(chǔ)空間,因此,多罪名情境下的實(shí)體關(guān)系抽取是很值得研究的。由于不同罪名案件的法律文書中的案件事實(shí)的描述不同,不同罪名的案件所涉及的實(shí)體類型、實(shí)體長度等特點(diǎn)也不盡相同,所以模型所關(guān)注的文本特征也是不同的。在這種情況下,如果直接將不同罪名的案件數(shù)據(jù)整合到一個(gè)數(shù)據(jù)集中一起訓(xùn)練,由于不同罪名的文本存在的內(nèi)在的差異性,會(huì)導(dǎo)致一類罪名數(shù)據(jù)向另一類罪名數(shù)據(jù)引入噪聲,降低模型的性能。為了解決此問題,本文引入多任務(wù)學(xué)習(xí)進(jìn)行多罪名情形下的實(shí)體關(guān)系聯(lián)合抽取的研究。
多任務(wù)學(xué)習(xí)的核心思想是通過共享跨任務(wù)的有用信息以提升多個(gè)模型的性能和泛化能力。目前,多任務(wù)學(xué)習(xí)已經(jīng)被廣泛地應(yīng)用到圖像領(lǐng)域[8-10]和自然語言處理領(lǐng)域[11-15]中。Hashimoto等[14]根據(jù)詞性分析、語塊分析、依存句法分析、文本語義相關(guān)和文本蘊(yùn)涵等五個(gè)任務(wù)間的語言學(xué)層次關(guān)系,提出了一種層次增長的神經(jīng)網(wǎng)絡(luò)模型聯(lián)合學(xué)習(xí)五個(gè)任務(wù)。Sun等[15]將實(shí)體識(shí)別和關(guān)系抽取作為多任務(wù)學(xué)習(xí)的兩個(gè)子任務(wù),提出了一種漸進(jìn)的多任務(wù)學(xué)習(xí)模型,利用早期預(yù)測的交互來改進(jìn)特定于任務(wù)的表示。
多任務(wù)模型能夠在單一的模型中同時(shí)學(xué)習(xí)多個(gè)任務(wù),并被證明通過任務(wù)之間的信息共享能夠提高學(xué)習(xí)效率[16]。模型學(xué)到的共享表示通常會(huì)有較好的抽象能力,使得單個(gè)模型能夠適應(yīng)多個(gè)相關(guān)但不同的目標(biāo)任務(wù)。多任務(wù)學(xué)習(xí)中的任務(wù)通??梢苑譃橹魅蝿?wù)與輔助任務(wù),通常設(shè)置一個(gè)或幾個(gè)與主任務(wù)相關(guān)的任務(wù)作為輔助任務(wù),輔助任務(wù)與主任務(wù)共同訓(xùn)練以提升主任務(wù)性能和泛化能力??紤]到不同種類的罪名的案件數(shù)據(jù)之間存在的固有差異,在對(duì)犯罪事實(shí)文本進(jìn)行實(shí)體關(guān)系抽取之前,知道文本屬于哪種罪名對(duì)聯(lián)合抽取是有所幫助的。由此,本文構(gòu)建了一個(gè)罪名分類任務(wù)來預(yù)測文本所屬的罪名,把主任務(wù)設(shè)置成實(shí)體關(guān)系聯(lián)合抽取任務(wù),把輔助任務(wù)設(shè)置成罪名分類任務(wù),通過多任務(wù)模型同時(shí)對(duì)聯(lián)合抽取和罪名分類兩個(gè)任務(wù)進(jìn)行學(xué)習(xí),相比單任務(wù)聯(lián)合抽取模型,取得了性能的提升。
在本章中,將會(huì)依次介紹用于實(shí)體關(guān)系聯(lián)合抽取和罪名分類的兩個(gè)單任務(wù)模型。對(duì)于聯(lián)合抽取任務(wù),借鑒Nayak等[6]的工作,使用基于編碼器-解碼器架構(gòu)的實(shí)體關(guān)系聯(lián)合抽取模型,其中,編碼器和解碼器均采用雙向長短期記憶網(wǎng)絡(luò)(bi-directional long-short term memory,BiLSTM)。對(duì)于罪名分類任務(wù),同樣采用BiLSTM進(jìn)行編碼,然后通過分類器進(jìn)行罪名分類。
實(shí)體關(guān)系聯(lián)合抽取模型由編碼器和解碼器構(gòu)成。編碼器用來把源句子表示為語義向量,解碼器用來解碼出三元組序列。具體地,給定輸入句子S,使用預(yù)訓(xùn)練的詞向量和字符級(jí)向量拼接后的特征向量作為S中的每個(gè)詞的表示,向量化表示后的句子為{x1,x2,…,xN},xi∈?(dw+dc),其中,dw是詞向量的維度,dc是字符嵌入向量的維度。詞向量采用Word2vec[17]方法在30萬份法律文書上進(jìn)行預(yù)訓(xùn)練得到,每個(gè)單詞的字符級(jí)向量是通過最大池化的卷積神經(jīng)網(wǎng)絡(luò)來提取的。特征向量xi被輸入到由BiLSTM構(gòu)成的編碼器中獲得隱層表示hi,最終編碼器的輸出為HEncoder={h1,h2,…,hN}。給定編碼器的表示HEncoder,解碼器解碼出三元組序列T,T={t1,t2,…,tM},其中tk表示序列中的第k個(gè)三元組,M表示三元組序列T的長度。tk由第k個(gè)三元組的頭尾實(shí)體的起始索引和終止索引以及實(shí)體之間的關(guān)系類型構(gòu)成。根據(jù)實(shí)體的起止索引即可從原始文本中提取出實(shí)體,通過關(guān)系分類器可以獲得實(shí)體對(duì)的關(guān)系種類。解碼器在每一個(gè)時(shí)間步解碼出一個(gè)三元組,當(dāng)解碼出的三元組的關(guān)系類型變?yōu)椤癗A”或目標(biāo)序列長度達(dá)到默認(rèn)的最大值時(shí),解碼器停止解碼。具體地,對(duì)于時(shí)間步k,將解碼器的隱藏狀態(tài)向量定義為將時(shí)間步k之前解碼器輸出的三元組序列表示為tpr,tpr由該時(shí)刻已經(jīng)解碼出的三元組的向量求和得出,如公式(1)所示。為了計(jì)算,首先用Attention機(jī)制對(duì)編碼器和解碼器進(jìn)行交互,得到特征向量ak,如公式(2)所示。
然后將ak和tpr拼接,作為當(dāng)前時(shí)間步的輸入輸入到LSTM單元中,得到
最后,基于HEncoder和預(yù)測實(shí)體對(duì)的起止索引和關(guān)系類型。首先,將擴(kuò)展到輸入序列長度N得到矩陣然后將來自編碼器和解碼器的這兩個(gè)表示進(jìn)行拼接并通過一個(gè)BiLSTM層,計(jì)算輸入文本中各個(gè)單詞是實(shí)體開始的概率pb和是實(shí)體末尾的概率pe,由此,可以通過實(shí)體的起止索引確定實(shí)體。計(jì)算過程如式(3)~(5)所示。其中,[;]表示拼接操作,Wb和We為可訓(xùn)練的參數(shù)矩陣。
為了預(yù)測實(shí)體間的關(guān)系,首先要得到實(shí)體的向量表示,如式(6)所示,其中,ek是k時(shí)刻解碼出的三元組中一個(gè)實(shí)體的向量化表示,hi是Hk中的一個(gè)隱層向量。按公式分別計(jì)算頭尾實(shí)體的向量化表示,然后通過softmax分類器得到關(guān)系的概率分布,如式(7)所示,再經(jīng)過一個(gè)關(guān)系嵌入層得到關(guān)系的表示rk,將實(shí)體的向量表示和關(guān)系的向量表示進(jìn)行拼接得到三元組表示再計(jì)算下一時(shí)刻的tpr。
罪名分類任務(wù)使用的文本數(shù)據(jù)和聯(lián)合抽取模型相同,文本數(shù)據(jù)的罪名標(biāo)簽是通過數(shù)據(jù)的來源類型獲得的。
罪名分類模型的編碼層與聯(lián)合抽取模型相同,也采用BiLSTM編碼。給定編碼器的輸出為HClassifier,首先通過一個(gè)池化層,獲得輸入句子的向量表示vc,這里采用最大池化(Max Pooling)操作。然后將vc輸入到一個(gè)線性層中,最后通過softmax函數(shù)預(yù)測源句子S所屬的罪名類別標(biāo)簽c,得到概率分布p,如式(8)、(9)所示,其中Wc為線性層中可訓(xùn)練的參數(shù)。
在本章中,以司法領(lǐng)域涉毒類案件和盜竊類案件的案情文本作為實(shí)驗(yàn)數(shù)據(jù),將聯(lián)合抽取模型應(yīng)用到多罪名案件中。給定一條來自判決文書的案件事實(shí)描述語句S={w1,w2,…,wN},其中,wi是語句S的第i個(gè)詞,N是語句S的長度。模型的目標(biāo)是預(yù)測語句S所屬的罪名以及從案情描述中識(shí)別出文本中所包含的全部形如<e1,r,e2>的三元組,其中e1、e2分別是S中的頭尾實(shí)體,r是它們之間的關(guān)系。本章將介紹本文構(gòu)建的三個(gè)多任務(wù)模型:硬共享多任務(wù)模型、共享-私有多任務(wù)模型以及基于特征篩選的動(dòng)態(tài)加權(quán)多任務(wù)模型。
硬共享(hard shared model,HSM)多任務(wù)模型的結(jié)構(gòu)如圖1所示。硬共享模型中,模型的編碼層的參數(shù)在兩個(gè)任務(wù)之間是全部共享的,此外,每個(gè)任務(wù)都有一個(gè)任務(wù)特定的上層網(wǎng)絡(luò),對(duì)于聯(lián)合抽取任務(wù),上層網(wǎng)絡(luò)是1.1節(jié)所述的解碼器,對(duì)于罪名分類任務(wù),上層網(wǎng)絡(luò)是一個(gè)池化層和分類層。硬共享模型假設(shè)全部任務(wù)共享同樣的文本特征,但不同任務(wù)可能存在特定的任務(wù)相關(guān)的特征,因此硬共享模型無法很好地處理任務(wù)間的差異性。
圖1 硬共享多任務(wù)模型Fig.1 Hard shared multi-task model
共享-私有模型(shared-private model,SPM)的模型如圖2所示。該模型和硬共享模型一樣,有一個(gè)共享的編碼層網(wǎng)絡(luò),除此之外,兩個(gè)任務(wù)還各有一個(gè)任務(wù)特定的編碼層網(wǎng)絡(luò)。
圖2 共享-私有多任務(wù)模型Fig.2 Shared-private multi-task model
具體地,共享的編碼層網(wǎng)絡(luò)為兩個(gè)任務(wù)學(xué)習(xí)一個(gè)共享的編碼表示HShare,聯(lián)合抽取任務(wù)和罪名分類任務(wù)的私有編碼層網(wǎng)絡(luò)分別為兩個(gè)任務(wù)學(xué)習(xí)各自任務(wù)特定的編碼表示HEncoder和HClassifier。對(duì)于聯(lián)合抽取任務(wù),將該任務(wù)的私有表示和共享表示拼接后的表示[HShare;HEncoder]作為聯(lián)合抽取任務(wù)最終的輸入特征表示,將其傳遞到聯(lián)合抽取任務(wù)的任務(wù)特定上層網(wǎng)絡(luò)中,進(jìn)行解碼和三元組的生成。對(duì)于罪名分類任務(wù),將該任務(wù)的私有表示和共享表示拼接后的表示[HShare;HClassifier]作為罪名分類任務(wù)最終的輸入特征表示,對(duì)其進(jìn)行最大池化特征提取操作,然后傳遞到softmax分類器中,進(jìn)行罪名分類。
與硬參數(shù)共享模型相比,共享-私有模型能夠通過共享的編碼層網(wǎng)絡(luò)和私有的編碼層網(wǎng)絡(luò)分別學(xué)習(xí)任務(wù)之間的共有的信息和每個(gè)任務(wù)特定的信息,從而在一定程度上減輕了某個(gè)任務(wù)特定的信息給另一個(gè)任務(wù)的學(xué)習(xí)引入噪聲的現(xiàn)象。同時(shí)共享-私有模型又能學(xué)習(xí)到任務(wù)之間共同的部分,有利于模型泛化性的提升。
在共享-私有模型的基礎(chǔ)上,本文提出了基于特征篩選的動(dòng)態(tài)加權(quán)多任務(wù)模型(dynamic weight model with feature filtering,F(xiàn)F-DWM)。首先,模型在學(xué)習(xí)多個(gè)任務(wù)時(shí),對(duì)于每個(gè)任務(wù)來說,共享特征起到的作用也有所不同,基于此,本文設(shè)計(jì)了一種新的特征融合方式,通過Attention機(jī)制分別為不同子任務(wù)篩選共享特征中對(duì)其有益的部分。首先,將兩個(gè)子任務(wù)的任務(wù)特定編碼表示HEncoder和HClassifier分別輸入到線性層,進(jìn)行線性變換,得到矩陣公式如式(10)、(11)所示,其中,WE和WC是線性層中可訓(xùn)練的參數(shù)。同理,將共享的編碼表示HShare通過線性層得到兩個(gè)不同的矩陣然后分別計(jì)算自注意力,計(jì)算公式如式(12)、(13)所示,其中,h表示多頭注意力中的第h個(gè)頭,dk表示多頭注意力中每個(gè)頭的維度,為聯(lián)合抽取任務(wù)特征與共享特征計(jì)算自注意力后的結(jié)果為罪名分類任務(wù)特征與共享特征計(jì)算自注意力后的結(jié)果。
在計(jì)算自注意力后,把每個(gè)注意力頭的結(jié)果進(jìn)行拼接,并通過一個(gè)前饋神經(jīng)網(wǎng)絡(luò),獲得共享-私有特征融合后的表示HShare_E和HShare_C。
其次,在多任務(wù)訓(xùn)練的不同階段,任務(wù)對(duì)共享特征和私有特征的依賴程度也是不同的。為了讓模型可以在多任務(wù)訓(xùn)練的不同階段自動(dòng)地學(xué)習(xí)共享特征與私有特征之間的比例,本文為各個(gè)子任務(wù)設(shè)置了一個(gè)加權(quán)權(quán)重值,并且在訓(xùn)練過程中不斷更新該權(quán)重,以動(dòng)態(tài)調(diào)節(jié)共享特征與私有特征之間的比例,計(jì)算過程如式(14)、(15)所示,其中,α1和α2是在訓(xùn)練過程中習(xí)得的參數(shù)。
圖3 基于特征篩選的動(dòng)態(tài)加權(quán)多任務(wù)模型Fig.3 Dynamic weight model with feature filtering model
實(shí)驗(yàn)所使用的數(shù)據(jù)集來自中國裁判文書網(wǎng)所公開的刑事判決書。本文針對(duì)涉毒類刑事案件和盜竊類刑事案件進(jìn)行實(shí)驗(yàn),其中,涉毒類數(shù)據(jù)集涉及三類罪名,即販賣毒品罪、非法持有毒品罪和容留他人吸毒罪,包括了4種關(guān)系類型,分別為販賣(給人)(sell_drug_to)、販賣(毒品)(traffic_in)、持有(possess)、非法容留(provide_shelter_for),這4種關(guān)系涵蓋了3類涉毒類案件中的各犯罪行為。涉毒類刑事案件數(shù)據(jù)集共有1 750條案情描述文本,經(jīng)過標(biāo)注后以4∶1的比例切分成訓(xùn)練集和測試集。相應(yīng)的關(guān)系統(tǒng)計(jì)情況如表1所示。
表1 涉毒類案件數(shù)據(jù)集中關(guān)系類型的統(tǒng)計(jì)情況Table 1 Statistics of relation types in drug-related dataset
盜竊類案件的數(shù)據(jù)集定義了4種關(guān)系類型,為偷盜(steal)、(涉案物品)屬于(belong_to)、(涉案物品)價(jià)格(worth)、盜竊所得(earn_profits)。以750份盜竊類案件刑事判決書的案情描述文本為原始語料,以案件為單位對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)劃分,以比例4∶1切分訓(xùn)練集和測試集。經(jīng)過標(biāo)注后的數(shù)據(jù)集中,訓(xùn)練集共4 487條實(shí)例,包含600份案件的案情文本,測試集共1 084條實(shí)例,包含150份案件的案情文本。數(shù)據(jù)集的關(guān)系類型統(tǒng)計(jì)情況如表2所示。最后,根據(jù)每條數(shù)據(jù)樣本的來源案件類型確定其所屬罪名標(biāo)簽,形成罪名分類任務(wù)所使用的數(shù)據(jù)集。
表2 盜竊類案件數(shù)據(jù)集中關(guān)系類型的統(tǒng)計(jì)情況Table 2 Statistics of relation types in drug-related dataset
在對(duì)模型性能進(jìn)行評(píng)估方面,使用對(duì)完整三元組提取的精確率(P)、召回率(R)以及F1值(F1)作為評(píng)價(jià)指標(biāo),精確率評(píng)估模型預(yù)測為正例的樣本中預(yù)測正確的樣本占比,召回率評(píng)估模型預(yù)測正確的正例樣本在所有正例樣本中的占比,F(xiàn)1值為二者的調(diào)和平均值,評(píng)估模型的綜合能力。實(shí)驗(yàn)采用的超參數(shù)設(shè)置如表3所示。
表3 超參數(shù)設(shè)置Table 3 Hyperparameter settings
為驗(yàn)證本文提出的基于特征篩選的動(dòng)態(tài)加權(quán)多任務(wù)模型在處理多罪名實(shí)體關(guān)系聯(lián)合抽取問題上的優(yōu)越性,本文與單任務(wù)模型以及三個(gè)多任務(wù)模型進(jìn)行了實(shí)驗(yàn)對(duì)比,結(jié)果如表4所示。其中,Single是未使用任何多任務(wù)方法,直接將兩類罪名文本數(shù)據(jù)放到一起訓(xùn)練得到的實(shí)體關(guān)系聯(lián)合抽取的結(jié)果,HSM、SPM分別為硬共享模型和共享私有模型的結(jié)果,此外,PLE為文獻(xiàn)[16]所提出的基于門控機(jī)制的多任務(wù)模型復(fù)現(xiàn)到多罪名實(shí)體關(guān)系聯(lián)合抽取任務(wù)上的結(jié)果,Our Method是本文提出FFDWM模型。Drug_和Larceny_表示分別在涉毒類案件測試集和盜竊類案件測試集上進(jìn)行評(píng)價(jià)得到的結(jié)果,P、R、F是對(duì)兩類罪名數(shù)據(jù)測試集中的文本進(jìn)行三元組抽取實(shí)驗(yàn)得到的結(jié)果。
由表4結(jié)果可以看出,不使用多任務(wù)方法直接對(duì)兩類案件數(shù)據(jù)集進(jìn)行實(shí)體關(guān)系聯(lián)合抽取,無論是在特定罪名的數(shù)據(jù)集上還是整體上的F1值都是最低的。幾種多任務(wù)方法都在單任務(wù)模型的基礎(chǔ)上取得了性能的提升,證明了將多任務(wù)方法應(yīng)用到多罪名案件的實(shí)體關(guān)系聯(lián)合抽取任務(wù)中的有效性,同時(shí)也證明了本文所設(shè)計(jì)的輔助任務(wù)的合理性,在處理多罪名案件的任務(wù)時(shí),罪名分類任務(wù)可以很好地輔助主任務(wù)學(xué)習(xí),提升主任務(wù)性能。
表4 不同多任務(wù)學(xué)習(xí)模型下三元組抽取實(shí)驗(yàn)結(jié)果Table 4 Performance of different multi-task learning models 單位:%
本文模型與單任務(wù)模型相比,整體F1值提升了2.4個(gè)百分點(diǎn),與HSM、SPM、PLE相比,分別提升了1.5、1.8和1.7個(gè)百分點(diǎn),且在單獨(dú)的數(shù)據(jù)集上也取得了最好的性能,證明了本文所提出的多任務(wù)模型的有效性。HSM在整體F1值上較SPM高0.3個(gè)百分點(diǎn),但在涉毒類數(shù)據(jù)集上的F1值較SPM低0.5個(gè)百分點(diǎn),本文分析是因?yàn)閮蓚€(gè)數(shù)據(jù)集的規(guī)模不同,涉毒數(shù)據(jù)集數(shù)據(jù)量較小,其罪名標(biāo)簽數(shù)量也相較盜竊類數(shù)據(jù)更少,致使模型更傾向?qū)ΡI竊類樣本的學(xué)習(xí),而HSM中完全共享兩個(gè)任務(wù)的編碼器參數(shù),從而導(dǎo)致了涉毒類數(shù)據(jù)集實(shí)體關(guān)系抽取性能相比SPM下降。
為進(jìn)一步證明共享特征篩選和動(dòng)態(tài)加權(quán)策略的有效性,本文進(jìn)一步進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示,其中w/o att為模型不使用Attention機(jī)制對(duì)共享特征進(jìn)行篩選的結(jié)果,w/o weight為模型不對(duì)共享特征和私有特征進(jìn)行動(dòng)態(tài)加權(quán)的結(jié)果。在不使用Attention機(jī)制進(jìn)行特征篩選時(shí),模型的整體F1值下降了0.6個(gè)百分點(diǎn),其中,在涉毒類數(shù)據(jù)集上F1值下降較為明顯,為1.9個(gè)百分點(diǎn),說明是否對(duì)共享特征進(jìn)行篩選對(duì)涉毒類數(shù)據(jù)集上的聯(lián)合抽取性能影響較大,進(jìn)一步證明了在對(duì)規(guī)模不同的數(shù)據(jù)集進(jìn)行聯(lián)合學(xué)習(xí)時(shí),對(duì)共享特征篩選能夠保證規(guī)模較小的數(shù)據(jù)集不被規(guī)模較大的數(shù)據(jù)集所影響。在不使用動(dòng)態(tài)加權(quán)方法時(shí),模型整體F1值下降了1.3個(gè)百分點(diǎn),說明在多任務(wù)訓(xùn)練的不同階段給共享特征和私有特征設(shè)置動(dòng)態(tài)權(quán)值對(duì)多任務(wù)訓(xùn)練是有積極作用的。
表5 消融實(shí)驗(yàn)結(jié)果Table 5 Ablation experiment results 單位:%
此外,本文對(duì)表4、表5中對(duì)比實(shí)驗(yàn)的整體F1值進(jìn)行了T檢驗(yàn),在顯著性水平0.05下,實(shí)驗(yàn)結(jié)果差異顯著。對(duì)于表4,本文模型與基線模型中性能最好的HSM模型進(jìn)行T檢驗(yàn)的結(jié)果p值為0.031 9;對(duì)于表5,本文模型與w/o att、w/o weight進(jìn)行T檢驗(yàn)的結(jié)果p值分別為0.032 5和0.003 9。
本文對(duì)四個(gè)基線方法中性能最好的HSM方法的典型錯(cuò)誤案例進(jìn)行了分析,并與本文提出的FF-DWM模型的識(shí)別結(jié)果進(jìn)行了對(duì)比,出現(xiàn)較多的錯(cuò)誤類型的實(shí)例如表6所示。對(duì)于實(shí)例1,HSM方法錯(cuò)誤地識(shí)別出實(shí)體“八千元”,注意,貨幣這一實(shí)體類型是不會(huì)出現(xiàn)在預(yù)定義的涉毒類數(shù)據(jù)集的4種關(guān)系中的,但會(huì)出現(xiàn)在盜竊類案件中的worth和earn_profits這兩種關(guān)系所對(duì)應(yīng)的實(shí)體中,說明兩類罪名的案件對(duì)彼此產(chǎn)生了干擾。相比之下,本文提出的FF-DWM模型能夠較好地減輕不同數(shù)據(jù)集給彼此帶來的噪聲,正確地識(shí)別出文本中所包含的三元組。對(duì)于實(shí)例2,HSM方法錯(cuò)誤地識(shí)別出三元組“洪某某;王某甲;belong_to”,而在盜竊類案件數(shù)據(jù)集預(yù)定義的4種關(guān)系中不存在頭尾實(shí)體類型均是“人”的關(guān)系,這種實(shí)體對(duì)的類型存在于涉毒類案件的sell_drugs_to這一關(guān)系類型中,分析也是由于不同類罪名數(shù)據(jù)集的特點(diǎn)不同而模型沒有很好地區(qū)分兩類案件數(shù)據(jù)的關(guān)系的特點(diǎn)所造成的,同樣,對(duì)于該案例,F(xiàn)F-DWM模型也能夠識(shí)別出正確三元組,同時(shí),錯(cuò)誤案例對(duì)“**牌兩輪摩托車”這一實(shí)體的實(shí)體邊界識(shí)別不準(zhǔn)確,而FF-DWM模型也能精確地識(shí)別出準(zhǔn)確的實(shí)體邊界??梢钥闯鯢FDWM模型在能夠?qū)深惏讣?shù)據(jù)進(jìn)行較充分地學(xué)習(xí)的基礎(chǔ)上,也能較好地區(qū)分兩類罪名數(shù)據(jù)的不同特征。
表6 錯(cuò)誤案例Table 6 Error cases
針對(duì)處理多罪名案件文書的實(shí)際業(yè)務(wù)需求,本文研究了多任務(wù)學(xué)習(xí)在多罪名實(shí)體關(guān)系聯(lián)合抽取任務(wù)上的應(yīng)用,通過引入對(duì)司法案情文本進(jìn)行罪名分類的輔助任務(wù),更好地促進(jìn)了作為主任務(wù)的聯(lián)合抽取任務(wù)的性能提升。此外,本文研究了三種多任務(wù)學(xué)習(xí)框架的參數(shù)共享模式,提出了一種基于特征篩選的動(dòng)態(tài)加權(quán)多任務(wù)模型,既能保留特定任務(wù)的特有特征表示,又能通過Attention機(jī)制自動(dòng)為不同任務(wù)篩選對(duì)其有益的共享特征,同時(shí),在多任務(wù)訓(xùn)練的不同階段,允許模型動(dòng)態(tài)地調(diào)整共享特征和私有特征在主輔任務(wù)中的比重。實(shí)驗(yàn)結(jié)果顯示,本文構(gòu)建的三個(gè)多任務(wù)模型在性能上均優(yōu)于單任務(wù)模型,而且本文提出的基于特征篩選的動(dòng)態(tài)加權(quán)多任務(wù)方法的性能取得了最優(yōu)的結(jié)果。
在下一步工作中,將在更多類罪名數(shù)據(jù)集上進(jìn)行司法實(shí)體關(guān)系聯(lián)合抽取實(shí)驗(yàn)。此外,也將研究其他多任務(wù)學(xué)習(xí)框架和多任務(wù)優(yōu)化方法,進(jìn)一步提升任務(wù)性能。