亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向法律文本的三元組抽取模型

        2021-05-17 05:31:24陳彥光孫媛媛王治政張書晨
        計(jì)算機(jī)工程 2021年5期
        關(guān)鍵詞:三元組實(shí)體樣本

        陳彥光,王 雷,孫媛媛,王治政,張書晨

        (1.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.遼寧省人民檢察院第三檢察部,沈陽 110033)

        0 概述

        隨著中國司法信息的不斷公開化,最高人民法院生效裁判文書全部在中國裁判文書網(wǎng)上公布,除法律有特殊規(guī)定的以外。在中國裁判文書網(wǎng)上的大量開源刑事判決書文檔中蘊(yùn)藏著重要的法律信息,但對(duì)于這些通過自然語言形式記錄的刑事判決書文檔,機(jī)器無法直接進(jìn)行深層含義的理解,而自動(dòng)化信息提取技術(shù)能將非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)化為結(jié)構(gòu)化的三元組形式,挖掘出文本中具有一定潛藏價(jià)值的內(nèi)容,并通過命名實(shí)體識(shí)別(Named Entity Recognition,NER)和關(guān)系抽取將非結(jié)構(gòu)化的刑事判決書文本處理為結(jié)構(gòu)化的三元組。刑事判決書中的案件事實(shí)描述文本s被表示為多個(gè)<e1,r,e2>三元組的形式,其中,e1和e2分別表示三元組的頭實(shí)體和尾實(shí)體,r表示兩個(gè)實(shí)體之間的關(guān)系類型[1]。

        知識(shí)圖譜以結(jié)構(gòu)化的形式表示知識(shí),通過對(duì)非結(jié)構(gòu)化文本中難以理解的信息進(jìn)行挖掘與分析,提高非結(jié)構(gòu)化文本的查詢性能及可解釋性,通常作為搜索引擎、問答系統(tǒng)等實(shí)際應(yīng)用中的底層支撐技術(shù)。目前,知識(shí)圖譜的相關(guān)研究受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,研究人員提出了許多知識(shí)圖譜構(gòu)建方法,但構(gòu)建出的知識(shí)圖譜多數(shù)面向通用領(lǐng)域,其中三元組抽取是知識(shí)圖譜構(gòu)建過程中的關(guān)鍵步驟。本文提出一個(gè)面向法律文本的三元組抽取模型,對(duì)非結(jié)構(gòu)化的案件事實(shí)描述文本進(jìn)行結(jié)構(gòu)化表示。將三元組的抽取過程看作二階段流水線結(jié)構(gòu),先進(jìn)行命名實(shí)體識(shí)別,再將識(shí)別結(jié)果應(yīng)用于關(guān)系抽取階段得到相應(yīng)的三元組表示。

        1 相關(guān)工作

        非結(jié)構(gòu)化文本中的三元組抽取可分為命名實(shí)體識(shí)別和關(guān)系抽取兩個(gè)階段。命名實(shí)體識(shí)別用于提取文本中具有特定含義的實(shí)體短語,如人名、地名以及專有名詞等。關(guān)系抽取對(duì)于文本中給定的實(shí)體對(duì),通過上下文語義理解識(shí)別出實(shí)體之間的關(guān)系類型。

        早期的命名實(shí)體識(shí)別工作主要包括基于規(guī)則和詞典的命名實(shí)體識(shí)別方法與基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法?;谝?guī)則和詞典的命名實(shí)體識(shí)別方法需要語言學(xué)專家和領(lǐng)域?qū)W者歸納規(guī)則模板和領(lǐng)域詞典,通過匹配算法完成命名實(shí)體識(shí)別?;诮y(tǒng)計(jì)的命名實(shí)體識(shí)別方法學(xué)習(xí)標(biāo)注語料的訓(xùn)練過程并分析文本的語言特征,主要包括基于支持向量機(jī)(Support Vector Machine,SVM)的命名實(shí)體識(shí)別方法[2]、基于隱馬爾科夫模型(Hidden Markov Model,HMM)的命名實(shí)體識(shí)別方法[3]以及基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)的命名實(shí)體識(shí)別方法[4]等。但這些早期工作對(duì)特征選擇的要求較高,較大程度地依賴詞典以及特征工程。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識(shí)別的方法逐漸成為當(dāng)前中文命名實(shí)體識(shí)別的主要研究方向[5-7]。由于基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別模型可以自動(dòng)化地學(xué)習(xí)文本特征,從而減少對(duì)手工特征的依賴。目前主流的用于命名實(shí)體識(shí)別的神經(jīng)網(wǎng)絡(luò)模型為雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)(Bidirectional Long Short-Term Memory+Condition Random Field,BiLSTM+CRF)。近些年,在司法領(lǐng)域,許多學(xué)者對(duì)基于法律文書的命名實(shí)體識(shí)別方法開展了大量的相關(guān)研究工作[8-10]。

        關(guān)系抽取工作一般可分為基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法和基于深度學(xué)習(xí)的關(guān)系抽取方法?;跈C(jī)器學(xué)習(xí)的關(guān)系抽取方法將關(guān)系抽取轉(zhuǎn)化為分類任務(wù),對(duì)兩個(gè)實(shí)體之間的關(guān)系類型進(jìn)行預(yù)測(cè),該類方法先整合詞性特征、實(shí)體類型、句法依存關(guān)系以及WordNet 語義信息等語言學(xué)特征,再通過最大熵模型[11]、支持向量機(jī)模型[12-14]等基于統(tǒng)計(jì)模型的分類器對(duì)關(guān)系進(jìn)行分類。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員提出了許多基于深度學(xué)習(xí)的關(guān)系抽取方法,通過對(duì)輸入文本及實(shí)體位置信息等進(jìn)行向量化表示,利用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取文本特征,預(yù)測(cè)實(shí)體對(duì)之間的關(guān)系類型,主要包括基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法[15-17]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法[18-19]以及兩者相結(jié)合的關(guān)系抽取方法[20]。隨著自注意力機(jī)制研究的深入[21-22],一些學(xué)者將Transformer 架構(gòu)[23]應(yīng)用于關(guān)系抽取任務(wù),利用基于Transformer 的雙向編碼器表示(Bidirectional Encoder Representations from Transformer,BERT)[24]進(jìn)行關(guān)系抽取[25]并取得了較好的效果。

        近年來,預(yù)訓(xùn)練語言模型研究發(fā)展迅速,基于上下文信息捕捉單詞的語義知識(shí),通過在大規(guī)模語料上進(jìn)行預(yù)訓(xùn)練,從而實(shí)現(xiàn)文本上下文相關(guān)特征的表示。在預(yù)訓(xùn)練語言模型研究中,一般通過特征集成和模型微調(diào)方式實(shí)現(xiàn)對(duì)預(yù)訓(xùn)練模型參數(shù)的遷移。特征集成方式將語言模型學(xué)習(xí)到的文本表示當(dāng)作下游任務(wù)的輸入特征進(jìn)行應(yīng)用,例如文獻(xiàn)[26]提出的ELMo 可在變化的語言語境下對(duì)詞進(jìn)行復(fù)雜特征建模。模型微調(diào)方式以整個(gè)預(yù)訓(xùn)練語言模型為基礎(chǔ),通過加入任務(wù)輸出部分并對(duì)整個(gè)模型參數(shù)進(jìn)行微調(diào)實(shí)現(xiàn)預(yù)訓(xùn)練模型的應(yīng)用,例如:文獻(xiàn)[24]提出的BERT 模型通過Transformer 編碼器堆疊而成,實(shí)現(xiàn)對(duì)文本的雙向特征表示,在11 項(xiàng)自然語言處理任務(wù)中取得了最佳成績(jī);文獻(xiàn)[27]提出的自回歸預(yù)訓(xùn)練模型XLNet,在多項(xiàng)自然語言處理任務(wù)中取得了明顯的性能提升。

        2 司法三元組抽取模型

        對(duì)于案件事實(shí)描述文本s,本文提出的司法三元組抽取模型能夠?qū)⑴c其具有等價(jià)語義的三元組以<e1,r,e2>的形式進(jìn)行預(yù)測(cè)。司法三元組抽取模型以BERT 預(yù)訓(xùn)練語言模型為基礎(chǔ),搭建一個(gè)二階段的流水線結(jié)構(gòu),主要包括實(shí)體識(shí)別模塊和關(guān)系抽取模塊兩部分。實(shí)體識(shí)別模塊用于對(duì)案件事實(shí)描述中具有特定含義的實(shí)體短語進(jìn)行定位和分類,關(guān)系抽取模塊旨在預(yù)測(cè)非結(jié)構(gòu)化文本中每一對(duì)實(shí)體之間的關(guān)系類型。在關(guān)系抽取模塊中,為強(qiáng)調(diào)給定實(shí)體對(duì)的位置和內(nèi)容,借鑒文獻(xiàn)[1]工作,在文本表示中加入實(shí)體信息的整合過程。針對(duì)流水線結(jié)構(gòu)中的冗余實(shí)體對(duì)信息所造成的影響,通過加入實(shí)體對(duì)篩選過程以減少無用信息的累積,并在關(guān)系抽取模塊訓(xùn)練時(shí),在訓(xùn)練集中適當(dāng)增加負(fù)樣本,以增強(qiáng)模型魯棒性,本文提出兩種策略來完善關(guān)系抽取模塊的訓(xùn)練過程。此外,為進(jìn)行有監(jiān)督的模型訓(xùn)練以及驗(yàn)證模型在刑事判決書文本上的三元組抽取性能,本文以刑事判決書中的案件事實(shí)描述部分為數(shù)據(jù)基礎(chǔ),通過自然語言處理工具進(jìn)行機(jī)器粗標(biāo)與人工標(biāo)注相結(jié)合的方式,構(gòu)造一個(gè)面向涉毒類刑事案件的實(shí)體關(guān)系提取數(shù)據(jù)集。

        司法三元組抽取模型的整體架構(gòu)如圖1 所示,其中,wi表示輸入文本的向量化表示,hi表示經(jīng)過BERT模型編碼得到的上下文語義向量,N表示輸入序列長(zhǎng)度,Trm 表示BERT 模型中的Transformer 編碼器單元。司法三元組抽取模型針對(duì)涉毒類案件刑事判決書文本進(jìn)行研究,通過實(shí)體識(shí)別模塊和關(guān)系抽取模塊,實(shí)現(xiàn)對(duì)涉毒類刑事案件的結(jié)構(gòu)化三元組抽取。

        圖1 司法三元組抽取模型的整體架構(gòu)Fig.1 The overall architecture of legal triplet extraction model

        2.1 預(yù)訓(xùn)練語言模型

        BERT 模型由多層雙向Transformer 編碼器堆疊而成,通過在大規(guī)模語料上進(jìn)行無監(jiān)督預(yù)訓(xùn)練獲得文本的特征表示。BERT 模型的輸入部分可對(duì)單句及句子對(duì)進(jìn)行表示,對(duì)于給定的字符,輸入向量包括詞嵌入信息、位置信息和分句信息3 類信息表示,并且在BERT 原始模型中具有‘[CLS]’、‘[SEP]’和‘[MASK]’3 種特殊字符:‘[CLS]’符號(hào)置于每個(gè)輸入序列的首位,其對(duì)應(yīng)的輸出向量為該序列的向量表示,可直接用于分類任務(wù);‘[SEP]’符號(hào)用于句子對(duì)作為輸入時(shí)分隔序列中的兩個(gè)句子,針對(duì)單句子作為輸入的情況,將‘[SEP]’符號(hào)置于句子尾;‘[MASK]’符號(hào)應(yīng)用在預(yù)訓(xùn)練階段的覆蓋語言模型中。

        BERT 模型通過覆蓋語言模型(Masked Language Model,MLM)任務(wù)以及下一句預(yù)測(cè)(Next Sentence Prediction,NSP)任務(wù)完成對(duì)模型參數(shù)的預(yù)訓(xùn)練。在覆蓋語言模型任務(wù)中,輸入序列的部分字符通過‘[MASK]’符號(hào)被隨機(jī)覆蓋,該任務(wù)的目標(biāo)是通過上下文文本預(yù)測(cè)被覆蓋的字符,得到字符的雙向上下文表示。下一句預(yù)測(cè)任務(wù)針對(duì)句子對(duì)輸入,預(yù)測(cè)兩句是否為文本中的連續(xù)語句,以此捕捉句子對(duì)之間的關(guān)系。在經(jīng)過大規(guī)模語料預(yù)訓(xùn)練后,針對(duì)特定任務(wù),還需使用任務(wù)相關(guān)的數(shù)據(jù)集對(duì)BERT 模型進(jìn)行微調(diào),從而得到適用于具體任務(wù)的模型參數(shù)。

        2.2 實(shí)體識(shí)別模塊

        實(shí)體識(shí)別模塊是司法三元組抽取模型的主要模塊之一,將刑事判決書案件事實(shí)描述部分中的命名實(shí)體全部標(biāo)記處理,具體包括人名、地名、時(shí)間、毒品類型和毒品重量5 類實(shí)體。針對(duì)輸入文本中的每個(gè)字符,實(shí)體識(shí)別模塊將預(yù)測(cè)該字符是否屬于實(shí)體的一部分并給出實(shí)體類型,由此將實(shí)體識(shí)別過程轉(zhuǎn)化為字符級(jí)的分類任務(wù),預(yù)測(cè)指定字符的實(shí)體位置和實(shí)體類型,通過在以BERT 模型為基礎(chǔ)的編碼層上添加一個(gè)多分類器進(jìn)行實(shí)現(xiàn)。

        按照BERT 的輸入格式,將案件事實(shí)描述文本處理為向量,作為實(shí)體識(shí)別模塊的輸入,該向量包含詞嵌入、位置信息以及分句信息三部分。此外,在句首和句尾分別插入‘[CLS]’符號(hào)和‘[SEP]’符號(hào)。在模型微調(diào)過程中,使用編碼層最后一層的隱層向量作為序列的特征表示,并通過多標(biāo)簽分類器對(duì)序列中的每個(gè)字符進(jìn)行預(yù)測(cè)。標(biāo)簽序列x的分布可表示為:

        其中,HER為編碼層最后一層的隱層向量表示。

        在實(shí)體識(shí)別模塊中,在BERT 模型的基礎(chǔ)上添加字符級(jí)多分類器形成實(shí)體識(shí)別模塊的模型結(jié)構(gòu)。為使實(shí)體識(shí)別模塊可以利用BERT 模型預(yù)訓(xùn)練階段學(xué)習(xí)的文本特征,并學(xué)習(xí)下游的實(shí)體識(shí)別任務(wù),還需對(duì)整個(gè)模型進(jìn)行微調(diào)。首先通過載入預(yù)訓(xùn)練后的BERT 模型權(quán)重對(duì)實(shí)體識(shí)別模塊進(jìn)行初始化;然后利用面向涉毒類刑事案件的實(shí)體識(shí)別數(shù)據(jù)集對(duì)實(shí)體識(shí)別模塊進(jìn)行有監(jiān)督訓(xùn)練,完成相應(yīng)參數(shù)的微調(diào)。由此得到的實(shí)體識(shí)別模塊既包含預(yù)訓(xùn)練階段的通用文本特征知識(shí),又對(duì)法律實(shí)體識(shí)別任務(wù)進(jìn)行了學(xué)習(xí)。對(duì)于訓(xùn)練樣本{(si,xi)}|Ni=1,其中,si和xi分別代表實(shí)體識(shí)別模塊訓(xùn)練集中第i條樣本的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽,N為訓(xùn)練集中的樣本數(shù),使用交叉熵作為損失函數(shù)對(duì)實(shí)體識(shí)別模塊的參數(shù)θER進(jìn)行學(xué)習(xí):

        2.3 實(shí)體對(duì)篩選過程

        實(shí)體對(duì)篩選過程的作用是減輕流水線結(jié)構(gòu)中的冗余實(shí)體信息所造成的影響。該過程對(duì)實(shí)體識(shí)別模塊的結(jié)果進(jìn)行整合,選擇可能具有關(guān)系的實(shí)體對(duì)并過濾不可能形成三元組的實(shí)體。在對(duì)司法三元組進(jìn)行抽取的流水線中,實(shí)體對(duì)篩選過程置于實(shí)體識(shí)別模塊后及關(guān)系抽取模塊前。首先對(duì)文本中通過實(shí)體識(shí)別模塊提取出的實(shí)體進(jìn)行兩兩組合,形成實(shí)體對(duì)集合;然后通過關(guān)系類型分析,得出可能形成三元組的實(shí)體類型組合規(guī)則;最后依照這些規(guī)則對(duì)實(shí)體對(duì)集合進(jìn)行篩選,得到可能存在關(guān)系的實(shí)體對(duì),輸入關(guān)系抽取模塊中預(yù)測(cè)其關(guān)系。

        2.4 關(guān)系抽取模塊

        關(guān)系抽取模塊旨在通過上下文囊括的語義信息判斷文本中給定的實(shí)體對(duì)存在的關(guān)系類型。為實(shí)現(xiàn)關(guān)系抽取模塊的功能,給定一個(gè)描述文本s以及兩個(gè)目標(biāo)實(shí)體e1和e2,在文本中插入實(shí)體定位字符以供模型獲取實(shí)體信息。實(shí)體定位字符分別為‘[E11]’、‘[E12]’、‘[E21]’和‘[E22]’4 個(gè)字符。針對(duì)三元組的頭實(shí)體e1,將字符‘[E11]’和‘[E12]’分別置于e1的首部和尾部,確定e1的具體位置。針對(duì)三元組的尾實(shí)體e2,按照相同的方式,在e2首尾插入‘[E21]’和‘[E22]’字符進(jìn)行定位。

        關(guān)系抽取模塊由編碼層、融合層和分類層三部分組成,編碼層用于提取文本特征及實(shí)體特征,融合層可將實(shí)體對(duì)的特征信息與上下文特征進(jìn)行整合,分類層用于對(duì)文本中的每個(gè)實(shí)體對(duì)存在的關(guān)系類型進(jìn)行預(yù)測(cè)。

        2.4.1 編碼層

        編碼層以BERT 模型為基礎(chǔ)對(duì)文本進(jìn)行向量表示,分別對(duì)輸入序列和實(shí)體對(duì)進(jìn)行特征提取。將學(xué)習(xí)到的‘[CLS]’符號(hào)所對(duì)應(yīng)的特征向量作為整個(gè)序列s的全局特征,通過Hs進(jìn)行表示。將BERT 模型最后一層的隱層向量看作是序列中每個(gè)字符的編碼向量,以h進(jìn)行表示。為得到序列中的實(shí)體特征,對(duì)與頭實(shí)體e1和尾實(shí)體e2相關(guān)的字符進(jìn)行向量表示:

        其中,E1和E2分別為實(shí)體e1和e2所對(duì)應(yīng)的特征向量,m1和m2、n1和n2分別對(duì)應(yīng)兩個(gè)實(shí)體e1、e2在序列s中的開始和結(jié)束位置。

        2.4.2 融合層

        融合層用于對(duì)編碼層輸出的序列特征Hs和實(shí)體特征E1、E2進(jìn)行整合,從而在序列特征中加入相應(yīng)的實(shí)體對(duì)信息。為能夠更好地學(xué)習(xí)各特征向量之間的關(guān)系,添加可訓(xùn)練的參數(shù)矩陣Ws和We,以對(duì)序列特征和實(shí)體特征所占的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整。在經(jīng)過特征向量融合后,序列特征Hs和實(shí)體特征E1、E2將整合為一個(gè)新的序列表示向量S,其中包含序列s的全局文本信息以及其中的實(shí)體信息,具體表示為:

        2.4.3 分類層

        分類層基于最終的序列表示S對(duì)關(guān)系類型進(jìn)行分類,通過Softmax 分類器對(duì)文本中給定實(shí)體對(duì)存在的關(guān)系類型分布y進(jìn)行預(yù)測(cè):

        p(y|s)=Softmax(S) (6)

        在關(guān)系抽取模塊中,以BERT 模型為基礎(chǔ),通過加入特征融合層和關(guān)系分類層形成關(guān)系抽取模塊的模型結(jié)構(gòu)。首先載入經(jīng)過預(yù)訓(xùn)練的BERT 模型權(quán)重作為關(guān)系抽取模型的初始權(quán)重,使得關(guān)系抽取模型具備預(yù)訓(xùn)練階段學(xué)習(xí)的知識(shí);然后通過在面向涉毒類刑事案件的關(guān)系抽取數(shù)據(jù)集上進(jìn)行監(jiān)督訓(xùn)練,并對(duì)模型參數(shù)進(jìn)行微調(diào),實(shí)現(xiàn)可用于法律文書關(guān)系抽取任務(wù)的模型。在訓(xùn)練過程中,通過交叉熵?fù)p失函數(shù)對(duì)關(guān)系抽取模塊參數(shù)θRE進(jìn)行學(xué)習(xí):

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集構(gòu)建

        為實(shí)現(xiàn)中國司法領(lǐng)域的信息抽取,以涉毒類刑事判決書文本為基礎(chǔ),將其中的案件事實(shí)描述部分使用規(guī)則提取,在此基礎(chǔ)上通過自然語言處理工具進(jìn)行機(jī)器粗標(biāo)與人工標(biāo)注相結(jié)合的模式,標(biāo)注出涉及到的法律實(shí)體及其之間的關(guān)系類型。選取涉毒類刑事案件中最具代表的販賣毒品、非法持有毒品和容留他人吸毒3類案件作為研究主體,將1 750份刑事判決書中的案件事實(shí)描述文本作為原始語料,在此基礎(chǔ)上進(jìn)行標(biāo)注形成數(shù)據(jù)集。

        針對(duì)命名實(shí)體識(shí)別任務(wù),使用BIO 標(biāo)注策略區(qū)分實(shí)體邊界并預(yù)設(shè)人名、地名、時(shí)間、毒品類型和毒品重量5 類實(shí)體。司法領(lǐng)域?qū)嶓w識(shí)別數(shù)據(jù)集中共包括19 321 個(gè)實(shí)體。針對(duì)關(guān)系抽取任務(wù),參考《中華人民共和國刑法》并結(jié)合3 類涉毒類案件的判決依據(jù),預(yù)定義持有(possess)、販賣(給人)(sell_drug_to)、販賣(毒品)(traffic_in)和非法容留(provide_shelter_for)4 種關(guān)系類型,這4 種關(guān)系涵蓋了3 類涉毒類案件中的犯罪行為。

        將1 750 條經(jīng)過實(shí)體關(guān)系標(biāo)注的案件事實(shí)描述文本以4∶1 的比例進(jìn)行隨機(jī)劃分,分別作為司法領(lǐng)域?qū)嶓w關(guān)系提取的訓(xùn)練集和測(cè)試集。訓(xùn)練集和測(cè)試集中實(shí)體與關(guān)系的統(tǒng)計(jì)情況分別如表1 和表2所示。

        表1 數(shù)據(jù)集中實(shí)體類型的統(tǒng)計(jì)情況Table 1 Statistics of entity types in the dataset

        表2 數(shù)據(jù)集中關(guān)系類型的統(tǒng)計(jì)情況Table 2 Statistics of relation types in the dataset

        3.2 數(shù)據(jù)預(yù)處理與參數(shù)設(shè)置

        由于本文三元組抽取模型采用流水線結(jié)構(gòu),因此會(huì)產(chǎn)生大量不存在關(guān)系類型的實(shí)體對(duì),這些冗余的實(shí)體對(duì)將會(huì)對(duì)關(guān)系抽取模塊的識(shí)別性能造成影響。為使關(guān)系抽取模塊能更好地學(xué)習(xí)這種無關(guān)系類型的實(shí)體對(duì)特征,在訓(xùn)練過程中將不存在關(guān)系類型的實(shí)體組合作為負(fù)樣本,以一定的比例添加到訓(xùn)練集中。

        此外,本文還考慮關(guān)系方向性,即三元組<e1,ra,e2>和<e2,rb,e1>,這兩個(gè)三元組的實(shí)體集合是一致的,但頭尾實(shí)體位置互換,因此其存在的關(guān)系類型ra和rb是不同的,對(duì)于這一類頭尾實(shí)體位置互換的三元組所存在的兩個(gè)關(guān)系ra和rb,本文稱其互為反向關(guān)系。關(guān)系的方向性對(duì)關(guān)系抽取模塊的訓(xùn)練也有一定的影響,尤其在關(guān)系類型販賣(給人)和非法容留中較為明顯,由于在這兩種關(guān)系中,頭實(shí)體和尾實(shí)體對(duì)應(yīng)的實(shí)體類型都為人名且表達(dá)形式相近,因此會(huì)對(duì)關(guān)系類型的預(yù)測(cè)產(chǎn)生影響。為使關(guān)系抽取模塊能更好地學(xué)習(xí)關(guān)系的方向性,在訓(xùn)練過程中,將訓(xùn)練集中正樣本所對(duì)應(yīng)的反向關(guān)系作為負(fù)樣本添加到訓(xùn)練集中。

        在實(shí)驗(yàn)設(shè)置上,命名實(shí)體識(shí)別模塊使用谷歌開源的中文BERT(BERT-Base,Chinese)模型,在此基礎(chǔ)上進(jìn)行微調(diào)完成對(duì)法律實(shí)體的識(shí)別,關(guān)系抽取模塊分別使用中文BERT(BERT-Base,Chinese)模型和RoBERTa 模型進(jìn)行實(shí)驗(yàn),其他參數(shù)設(shè)置如表3所示。

        表3 實(shí)體識(shí)別模塊與關(guān)系抽取模塊的參數(shù)設(shè)置Table 3 Parameters setting of entity recognition module and relation extraction module

        3.3 結(jié)果分析

        在實(shí)驗(yàn)中,三元組抽取模型性能由精確率(P)、召回率(R)以及F1 值(F)進(jìn)行評(píng)估。評(píng)價(jià)指標(biāo)的計(jì)算方式如下:

        其中,ncorrect_num表示司法三元組抽取模型對(duì)所有實(shí)例抽取正確的三元組個(gè)數(shù),npredict_num表示司法三元組抽取模型預(yù)測(cè)出的三元組總數(shù),ntrue_num表示實(shí)際的三元組總數(shù)。其中,抽取出的三元組只有在兩個(gè)實(shí)體e1和e2以及關(guān)系r都預(yù)測(cè)正確的情況下才被判定為正確的三元組。

        實(shí)驗(yàn)采用3 組不同的神經(jīng)網(wǎng)絡(luò)模型組合作為基線模型:組合模型1 中實(shí)體識(shí)別使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)的模型(BiLSTM+CRF),關(guān)系抽取應(yīng)用雙向門循環(huán)單元結(jié)合注意力機(jī)制的模型(BiGRU+ATT);組合模型2 中實(shí)體識(shí)別使用本文模型,關(guān)系抽取使用BiGRU+ATT;組合模型3 中實(shí)體識(shí)別使用BiLSTM+CRF,關(guān)系抽取使用本文模型。不同的模型組合對(duì)三元組的抽取效果如表4 所示,可以看出,本文提出的司法三元組抽取模型優(yōu)于其他的組合模型,相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的組合模型1的F1 值提高了28.1 個(gè)百分點(diǎn)。由組合模型3 的F1值高于組合模型2 的F1 值這一結(jié)果可以看出,本文關(guān)系抽取模塊相比實(shí)體識(shí)別模塊更有助于抽取性能的提升。

        表4 組合模型與本文模型的三元組抽取結(jié)果對(duì)比Table 4 Comparison of triplet extraction results of the combination models and the proposed model %

        由于流水線結(jié)構(gòu)中會(huì)產(chǎn)生大量不存在關(guān)系類型的實(shí)體對(duì),因此為使關(guān)系抽取模塊更加全面地學(xué)習(xí)這些無關(guān)系類型的實(shí)體對(duì)特征,在訓(xùn)練階段通過添加負(fù)例樣本完善關(guān)系抽取模型的訓(xùn)練過程。

        3.3.1 正負(fù)樣本比例對(duì)三元組抽取的影響

        在實(shí)驗(yàn)中正負(fù)樣本的比例對(duì)三元組的抽取效果產(chǎn)生了一定的影響。通過采用相同的隨機(jī)種子,隨機(jī)篩選不同比例的負(fù)樣本添加到關(guān)系抽取模塊的訓(xùn)練集中,確定用于訓(xùn)練關(guān)系抽取模塊的最佳正負(fù)樣本比例,分別選取正負(fù)樣本比例為無負(fù)樣本、1∶2、1∶3、1∶5 和1∶7 進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表5 所示。

        表5 基于不同正負(fù)樣本比例的三元組抽取結(jié)果對(duì)比Table 5 Comparison of triplet extraction results based on different positive/negative instance ratios %

        隨著關(guān)系抽取任務(wù)的訓(xùn)練集中負(fù)例樣本占比逐漸增加,三元組抽取模型的整體抽取性能不斷提升,F(xiàn)1 值由無負(fù)樣本的36.3%提升至正負(fù)樣本比例為1∶7 的77.8%,提高了41.5 個(gè)百分點(diǎn)。這也證明了添加適當(dāng)比例的負(fù)樣本對(duì)關(guān)系抽取模塊的訓(xùn)練過程具有積極作用,由實(shí)驗(yàn)結(jié)果中精確率的大幅提升也可看出,關(guān)系抽取模塊通過負(fù)樣本學(xué)習(xí)可更全面地學(xué)習(xí)不存在關(guān)系類型的實(shí)體對(duì)所具有的特征,能夠更好地分辨出無關(guān)系類型的實(shí)體對(duì)。

        3.3.2 反向關(guān)系對(duì)三元組抽取的增益效果

        為驗(yàn)證反向關(guān)系對(duì)三元組抽取結(jié)果的影響,通過將正樣本的反向關(guān)系作為負(fù)樣本添加到訓(xùn)練集中,使關(guān)系抽取模塊對(duì)關(guān)系方向性進(jìn)行更好的學(xué)習(xí),并選擇具有不同正負(fù)樣本比例的訓(xùn)練集分別進(jìn)行實(shí)驗(yàn),結(jié)果如表6 所示,其中,“√”表示添加反向關(guān)系,“×”表示未添加反向關(guān)系。

        表6 添加反向關(guān)系的三元組抽取結(jié)果對(duì)比Table 6 Comparison of triplet extraction results of adding inverse relation %

        由實(shí)驗(yàn)結(jié)果可以看出,關(guān)系方向性對(duì)關(guān)系抽取模塊的訓(xùn)練過程十分重要,通過將正樣本的反向關(guān)系添加到訓(xùn)練集中,使得本文模型對(duì)三元組抽取的精確率和召回率都有所提升,在無負(fù)樣本、正負(fù)樣本比例為1∶2 和1∶5 的條件下,F(xiàn)1 值分別提高了13.5、17.0 和16.4 個(gè)百分點(diǎn)。由此說明將正樣本的反向關(guān)系作為負(fù)樣本進(jìn)行模型訓(xùn)練這一策略能有效提升關(guān)系抽取模塊的預(yù)測(cè)能力,有助于模型更好地區(qū)分具有相似頭尾實(shí)體的實(shí)體對(duì)特征。

        3.3.3 不同預(yù)訓(xùn)練語言模型對(duì)三元組抽取的影響

        本文對(duì)關(guān)系抽取模塊所使用的預(yù)訓(xùn)練語言模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表7 所示,可以看出使用基于RoBERTa 模型的關(guān)系抽取模塊可更好地進(jìn)行關(guān)系預(yù)測(cè),在三元組抽取結(jié)果上達(dá)到79.6%的F1 值。

        表7 在1∶5 正負(fù)樣本比例下不同預(yù)訓(xùn)練語言模型的三元組抽取結(jié)果對(duì)比Table 7 Comparison of triplet extraction results of different pretrained language models with the positive/negative instance ratio of 1∶5 %

        4 結(jié)束語

        本文建立一種將非結(jié)構(gòu)化刑事判決書文本轉(zhuǎn)化為結(jié)構(gòu)化三元組形式的司法三元組抽取模型。該模型將預(yù)訓(xùn)練的BERT 模型作為主體,在此基礎(chǔ)上分別對(duì)實(shí)體識(shí)別模塊和關(guān)系抽取模塊進(jìn)行微調(diào),并搭建三元組抽取的流水線結(jié)構(gòu),實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化文本的信息提取。實(shí)驗(yàn)結(jié)果表明,該模型相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的組合模型的F1 值提高了28.1 個(gè)百分點(diǎn),并通過加入兩項(xiàng)針對(duì)關(guān)系抽取模塊的訓(xùn)練策略能提升三元組抽取性能。下一步將繼續(xù)優(yōu)化本文模型的三元組抽取效果,并以此為基礎(chǔ)構(gòu)建司法知識(shí)圖譜進(jìn)行表示學(xué)習(xí)及知識(shí)推理等工作。

        猜你喜歡
        三元組實(shí)體樣本
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        關(guān)于余撓三元組的periodic-模
        推動(dòng)醫(yī)改的“直銷樣本”
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        久久露脸国产精品| 亚洲一区二区三区重口另类| 国产情侣一区二区三区| 国产成本人片无码免费2020| 一本一本久久a久久精品| 岛国av一区二区三区| 加勒比精品视频在线播放| 国产精品理论片| 精品88久久久久88久久久| 亚洲国产色图在线视频| 国产日产在线视频一区| 狼人青草久久网伊人| 国产毛片视频网站| 国产女人高潮的av毛片| 色综合久久中文综合网亚洲| 伊人久久大香线蕉综合网站| 午夜亚洲AV成人无码国产| 国产精品二区三区在线观看| 国产在线无码一区二区三区视频| 国产卡一卡二卡三| 97在线视频免费| 国产三级av在线精品| 精品国际久久久久999波多野| 午夜无码片在线观看影院| 亚洲国产AⅤ精品一区二区久| 人妻少妇艳情视频中文字幕| 国产乱子伦农村xxxx| 99成人精品| 亚洲一区二区三区天堂av| 最美女人体内射精一区二区| 国产成a人亚洲精v品无码性色| 91精品在线免费| 国产自拍偷拍视频免费在线观看| 亚洲精品无人区| 亚洲成AⅤ人在线观看无码| 在线视频精品少白免费观看| 国产99视频精品免视看7| 色老汉免费网站免费视频| 国产精品麻豆成人av| 变态调教一区二区三区女同| a级毛片在线观看|