亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合標(biāo)簽信息的裁判文書證據(jù)抽取方法研究*

2022-11-09 02:34:52周裕林鹿安琪周雯童劉林紅

計(jì)算機(jī)與數(shù)字工程 2022年9期

周裕林鹿安琪周雯童劉林紅

（1.公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室貴陽 550025）（2.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院貴陽 550025）

1 引言

近年來，人工智能技術(shù)在司法審判案件中受到日益關(guān)注，相繼提出了許多法律人工智能任務(wù)，例如，司法摘要自動生成［1］、案件多標(biāo)簽分類［2］和法律智能問答［3］等。而證據(jù)作為了解案件事實(shí)的依據(jù)，在司法審判過程中起著至關(guān)重要的作用。從裁判文書中抽取證據(jù)實(shí)體有利于支撐證據(jù)鏈的自動構(gòu)建，從而支持“智慧法院”的建設(shè)。因此，抽取證據(jù)實(shí)體成為法律人工智能中極為重要的任務(wù)。

當(dāng)前證據(jù)抽取模型主要基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別（NER）方法，NER在過去數(shù)十年以及取得了飛速進(jìn)步。NER方法采用序列標(biāo)注形式，而傳統(tǒng)的序列標(biāo)注模型有CRF［4］、LSTM［5］、CNN-CRF［6］、LSTM-CRF［7］以及楊健等［8］提出基于邊界組合的證據(jù)抽取模型，它們在信息抽取上都取得了不錯的性能。近幾年來，隨著大規(guī)模語言模型BERT［9］以及ELMo［10］等面世，自然語言處理的信息抽取任務(wù)上進(jìn)一步刷新了性能。由于證據(jù)實(shí)體在不同案件環(huán)境下存在判別的不同，傳統(tǒng)的序列標(biāo)注模型很難捕獲句子的長距離語義而導(dǎo)致輸入特征使用不充分，使得在裁判文書中的證據(jù)實(shí)體抽取上性能較差。Levy等［11］將關(guān)系抽取任務(wù)轉(zhuǎn)換成智能問答任務(wù)。Li等［12］將Levy等［11］的方法應(yīng)用于命名實(shí)體識別任務(wù)中，他將每一個實(shí)體類型轉(zhuǎn)換成帶有問題及答案的形式。此外，由于問題編碼了豐富的先驗(yàn)知識，實(shí)驗(yàn)結(jié)果表明它能豐富輸入特征。McCann等［13］也將情感分析任務(wù)轉(zhuǎn)換成智能問答任務(wù)。

本文在以上研究的基礎(chǔ)上，面向傳統(tǒng)的序列標(biāo)注模型很難捕獲句子的長距離語義而導(dǎo)致輸入特征使用不充分，使得在裁判文書中的證據(jù)實(shí)體抽取上性能較差的問題，提出融合標(biāo)簽信息的的裁判文書證據(jù)抽取方法。在2293篇裁判文書數(shù)據(jù)集上進(jìn)行驗(yàn)證，實(shí)驗(yàn)結(jié)果表明了本文提出方法的有效性。本文的主要貢獻(xiàn)如下：

1）采用基于機(jī)器閱讀理解模型的方法，通過融合證據(jù)的標(biāo)簽信息作為先驗(yàn)知識輸入模型，來解決序列標(biāo)注模型特征使用不充分問題。

2）本文首次將融合標(biāo)簽信息的方法應(yīng)用于裁判文書證據(jù)抽取任務(wù)中，為證據(jù)抽取任務(wù)提供一種新思路。

2 融合標(biāo)簽信息的證據(jù)抽取模型

2.1 BERT預(yù)訓(xùn)練模型

Transformer架構(gòu)最早是由Vaswani等［14］提出的。它通過利用注意力機(jī)制，學(xué)習(xí)句子中詞與詞之間的關(guān)聯(lián)程度，從而增強(qiáng)上下文特征的學(xué)習(xí)能力。其注意力機(jī)制公式為

其中，Q、K、V表示3個矩陣向量；d為Q向量的維度；通過softmax對得到的分?jǐn)?shù)歸一化。由于此部分不是本文的重點(diǎn)，這里不作過多的敘述。

BERT預(yù)訓(xùn)練模型是在Transformer的基礎(chǔ)上進(jìn)行改進(jìn)的。它由3層Embedding拼接而成，分別為Token Embeddings、Segment Embeddings和Position Embeddings。它們分別表示為詞向量、句向量和位置向量。通過拼接3層向量，增強(qiáng)了模型學(xué)習(xí)文本語義特征的能力。

2.2 標(biāo)簽信息標(biāo)注

本文是在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上構(gòu)建融合標(biāo)簽信息的證據(jù)抽取模型。給定一個句子X={x1，x2，…，xn}，其中xn代表在句子X中的第n個字。為解決序列標(biāo)注模型格式在拼接標(biāo)簽信息上存在困難的特點(diǎn)，首先，需要將序列標(biāo)注格式轉(zhuǎn)換為（LABEL_INFO，ANSWER，CONTENT）三元組的格式，其中，LABEL_INFO表示為標(biāo)簽信息，ANSWER表示為答案對應(yīng)的下標(biāo)索引，CONTENT表示為輸入的文本。由于標(biāo)簽信息定義的不同，會產(chǎn)生不同的特征輸入，從而影響最終證據(jù)抽取的性能。在本文中，采用問句式、定義式和標(biāo)注指南來構(gòu)建標(biāo)簽信息。3種標(biāo)簽信息構(gòu)建內(nèi)容如表1所示。

表1 標(biāo)簽信息構(gòu)建內(nèi)容

2.3 融合標(biāo)簽信息的證據(jù)抽取模型

融合標(biāo)簽信息的證據(jù)抽取模型結(jié)構(gòu)如圖1所示。在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上，融合證據(jù)實(shí)體的標(biāo)簽信息，輸入到BERT編碼器中得到隱藏層向量，最后通過解析輸出結(jié)果。

圖1 融合標(biāo)簽信息的證據(jù)抽取模型

輸入包含了標(biāo)簽信息以及文本內(nèi)容，通過BERT預(yù)訓(xùn)練模型，通過Embedding的拼接輸出隱藏表征矩陣：

其中，L為標(biāo)簽信息；C為文本內(nèi)容；E為模型輸出的表征矩陣。

通過多層感知機(jī)（MLP）［15］解析表征矩陣得到預(yù)測的證據(jù)實(shí)體的下標(biāo)索引。在MLP中，獲得句子中每個字是證據(jù)開始和結(jié)束下標(biāo)的概率公式為

其中，Tstart和Tend是學(xué)習(xí)權(quán)重。對Pstart和Pend每一行使用argmax函數(shù)，得到預(yù)測的每個證據(jù)實(shí)體的開始和結(jié)束索引，公式為

最后，訓(xùn)練一個二元分類器來預(yù)測句中每一個證據(jù)實(shí)體匹配的概率來組成范圍概率矩陣，并定義一個學(xué)習(xí)權(quán)重m，公式為

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集

本次實(shí)驗(yàn)數(shù)據(jù)集均來自貴州省人民法院提供的2293篇裁判文書。其中，包括刑事裁判文書1696篇和民事裁判文書597篇，并將數(shù)據(jù)集按8：2劃分為訓(xùn)練集和測試集。通過人工標(biāo)注的方式對2293篇裁判文書進(jìn)行標(biāo)注得到本文所用數(shù)據(jù)集，如表2所示。

表2 數(shù)據(jù)集統(tǒng)計(jì)信息

3.2 評測指標(biāo)

所有實(shí)驗(yàn)所用指標(biāo)均為精準(zhǔn)率（P）、召回率（R）和F1值。計(jì)算公式如下所示：

其中，TP是預(yù)測結(jié)果為正，樣本也為正；FP是預(yù)測結(jié)果為正，樣本為負(fù)；FN是預(yù)測結(jié)果為負(fù)，樣本為正。

3.3 超參數(shù)設(shè)置

超參數(shù)選擇的不同，對模型結(jié)果會產(chǎn)生較大的影響。本文優(yōu)化算法使用Adam，初始學(xué)習(xí)率為5e-5，以0.05速度進(jìn)行衰減。設(shè)置每個batch_size為32，迭代10輪。最后獲得的span概率分布矩陣閾值threshold設(shè)置為0.5。選擇BERT中的base版本。如表3所示。

表3 超參數(shù)設(shè)置

3.4 實(shí)驗(yàn)結(jié)果及分析

在本文實(shí)驗(yàn)中，比較了5個傳統(tǒng)的序列標(biāo)注模型，分別為CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT。實(shí)驗(yàn)結(jié)果如表4所示。

表4 模型對比實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明，5個傳統(tǒng)序列標(biāo)注模型CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT的F1值分別為78.16%、82.83%、85.39%、86.16%、87.19%，而本文模型取得的F1值為89.12%，為所有實(shí)驗(yàn)中最高。比CRF模型的F1值高了10.96%，比BiLSTM模型的F1值高了6.29%，比BiLSTM-CRF模型的F1值高了3.73%，比ATT-BiLSTM-CRF模型的F1值高了2.96%，比BERT模型的F1值高了1.93%。其原因在于：1）本文模型是基于BERT大規(guī)模預(yù)訓(xùn)練，它區(qū)別于傳統(tǒng)詞向量模型，能夠更好地理解文本語義信息；2）本文模型是在BERT模型的基礎(chǔ)上，融合證據(jù)實(shí)體的標(biāo)簽信息，豐富了模型的輸入特征，使得模型能更好地識別證據(jù)實(shí)體；3）對數(shù)據(jù)集格式轉(zhuǎn)換的有效預(yù)處理。

在進(jìn)一步實(shí)驗(yàn)中發(fā)現(xiàn)，如何定義標(biāo)簽信息，成為影響模型在證據(jù)抽取性能上的關(guān)鍵。本文根據(jù)表1提出的3種標(biāo)簽信息定義方式進(jìn)行實(shí)驗(yàn)對比，如表5所示。

表5 標(biāo)簽信息對模型實(shí)驗(yàn)結(jié)果影響

從表5中可以看出，標(biāo)注指南的標(biāo)簽信息定義方式取得了最高的F1值。比問句式的F1值高了0.81%，比定義式的F1值高了0.62%。原因在于：標(biāo)注指南的方式相較于問句式和定義式，具有更為豐富的語義信息，能為模型的輸入帶來更多的標(biāo)簽信息特征，從而提高了模型在證據(jù)抽取上的性能。

由于融合了標(biāo)簽信息從而豐富了模型的輸入特征，本文在訓(xùn)練集樣本數(shù)量少的情況下進(jìn)行了實(shí)驗(yàn)對比，實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。本文將訓(xùn)練集按10%、20%、40%、80%的比例劃分，測試集保持不變，如表6所示。

表6 小樣本下標(biāo)簽信息對模型的影響結(jié)果

從表6中可以看出，在訓(xùn)練集比例10%、20%、40%和80%情況下，本文模型相較于BERT的序列標(biāo)注模型，分別提高了2.70%、2.87%、2.02%和1.73%。充分證明了本文方法在BERT基礎(chǔ)上融合標(biāo)簽信息的有效性，也為小樣本學(xué)習(xí)提供了一種新思路。

4 結(jié)語

本文提出了一種融合標(biāo)簽信息的證據(jù)抽取方法，解決了序列標(biāo)注模型很難捕獲句子的長距離語義而導(dǎo)致輸入特征使用不充分，使得抽取裁判文書中的證據(jù)實(shí)體性能較差的問題。本文通過定義證據(jù)實(shí)體的標(biāo)簽信息，與文本想融合來增強(qiáng)輸入特征，進(jìn)而提高證據(jù)實(shí)體的抽取性能。實(shí)驗(yàn)結(jié)果表明本文的方法相比于傳統(tǒng)的序列標(biāo)注抽取模型更具優(yōu)勢。

本文方法還有進(jìn)一步改進(jìn)的空間。在未來工作中，可以設(shè)計(jì)新的模型架構(gòu)來更好捕捉文本間的語義信息，進(jìn)一步提升模型在證據(jù)抽取上的性能。