亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合標(biāo)簽信息的裁判文書證據(jù)抽取方法研究*

        2022-11-09 02:34:52周裕林鹿安琪周雯童劉林紅
        關(guān)鍵詞:融合實(shí)驗(yàn)信息

        周裕林 鹿安琪 周雯童 劉林紅

        (1.公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室 貴陽 550025)(2.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴陽 550025)

        1 引言

        近年來,人工智能技術(shù)在司法審判案件中受到日益關(guān)注,相繼提出了許多法律人工智能任務(wù),例如,司法摘要自動生成[1]、案件多標(biāo)簽分類[2]和法律智能問答[3]等。而證據(jù)作為了解案件事實(shí)的依據(jù),在司法審判過程中起著至關(guān)重要的作用。從裁判文書中抽取證據(jù)實(shí)體有利于支撐證據(jù)鏈的自動構(gòu)建,從而支持“智慧法院”的建設(shè)。因此,抽取證據(jù)實(shí)體成為法律人工智能中極為重要的任務(wù)。

        當(dāng)前證據(jù)抽取模型主要基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別(NER)方法,NER在過去數(shù)十年以及取得了飛速進(jìn)步。NER方法采用序列標(biāo)注形式,而傳統(tǒng)的序列標(biāo)注模型有CRF[4]、LSTM[5]、CNN-CRF[6]、LSTM-CRF[7]以及楊健等[8]提出基于邊界組合的證據(jù)抽取模型,它們在信息抽取上都取得了不錯的性能。近幾年來,隨著大規(guī)模語言模型BERT[9]以及ELMo[10]等面世,自然語言處理的信息抽取任務(wù)上進(jìn)一步刷新了性能。由于證據(jù)實(shí)體在不同案件環(huán)境下存在判別的不同,傳統(tǒng)的序列標(biāo)注模型很難捕獲句子的長距離語義而導(dǎo)致輸入特征使用不充分,使得在裁判文書中的證據(jù)實(shí)體抽取上性能較差。Levy等[11]將關(guān)系抽取任務(wù)轉(zhuǎn)換成智能問答任務(wù)。Li等[12]將Levy等[11]的方法應(yīng)用于命名實(shí)體識別任務(wù)中,他將每一個實(shí)體類型轉(zhuǎn)換成帶有問題及答案的形式。此外,由于問題編碼了豐富的先驗(yàn)知識,實(shí)驗(yàn)結(jié)果表明它能豐富輸入特征。McCann等[13]也將情感分析任務(wù)轉(zhuǎn)換成智能問答任務(wù)。

        本文在以上研究的基礎(chǔ)上,面向傳統(tǒng)的序列標(biāo)注模型很難捕獲句子的長距離語義而導(dǎo)致輸入特征使用不充分,使得在裁判文書中的證據(jù)實(shí)體抽取上性能較差的問題,提出融合標(biāo)簽信息的的裁判文書證據(jù)抽取方法。在2293篇裁判文書數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明了本文提出方法的有效性。本文的主要貢獻(xiàn)如下:

        1)采用基于機(jī)器閱讀理解模型的方法,通過融合證據(jù)的標(biāo)簽信息作為先驗(yàn)知識輸入模型,來解決序列標(biāo)注模型特征使用不充分問題。

        2)本文首次將融合標(biāo)簽信息的方法應(yīng)用于裁判文書證據(jù)抽取任務(wù)中,為證據(jù)抽取任務(wù)提供一種新思路。

        2 融合標(biāo)簽信息的證據(jù)抽取模型

        2.1 BERT預(yù)訓(xùn)練模型

        Transformer架構(gòu)最早是由Vaswani等[14]提出的。它通過利用注意力機(jī)制,學(xué)習(xí)句子中詞與詞之間的關(guān)聯(lián)程度,從而增強(qiáng)上下文特征的學(xué)習(xí)能力。其注意力機(jī)制公式為

        其中,Q、K、V表示3個矩陣向量;d為Q向量的維度;通過softmax對得到的分?jǐn)?shù)歸一化。由于此部分不是本文的重點(diǎn),這里不作過多的敘述。

        BERT預(yù)訓(xùn)練模型是在Transformer的基礎(chǔ)上進(jìn)行改進(jìn)的。它由3層Embedding拼接而成,分別為Token Embeddings、Segment Embeddings和Position Embeddings。它們分別表示為詞向量、句向量和位置向量。通過拼接3層向量,增強(qiáng)了模型學(xué)習(xí)文本語義特征的能力。

        2.2 標(biāo)簽信息標(biāo)注

        本文是在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上構(gòu)建融合標(biāo)簽信息的證據(jù)抽取模型。給定一個句子X={x1,x2,…,xn},其中xn代表在句子X中的第n個字。為解決序列標(biāo)注模型格式在拼接標(biāo)簽信息上存在困難的特點(diǎn),首先,需要將序列標(biāo)注格式轉(zhuǎn)換為(LABEL_INFO,ANSWER,CONTENT)三元組的格式,其中,LABEL_INFO表示為標(biāo)簽信息,ANSWER表示為答案對應(yīng)的下標(biāo)索引,CONTENT表示為輸入的文本。由于標(biāo)簽信息定義的不同,會產(chǎn)生不同的特征輸入,從而影響最終證據(jù)抽取的性能。在本文中,采用問句式、定義式和標(biāo)注指南來構(gòu)建標(biāo)簽信息。3種標(biāo)簽信息構(gòu)建內(nèi)容如表1所示。

        表1 標(biāo)簽信息構(gòu)建內(nèi)容

        2.3 融合標(biāo)簽信息的證據(jù)抽取模型

        融合標(biāo)簽信息的證據(jù)抽取模型結(jié)構(gòu)如圖1所示。在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上,融合證據(jù)實(shí)體的標(biāo)簽信息,輸入到BERT編碼器中得到隱藏層向量,最后通過解析輸出結(jié)果。

        圖1 融合標(biāo)簽信息的證據(jù)抽取模型

        輸入包含了標(biāo)簽信息以及文本內(nèi)容,通過BERT預(yù)訓(xùn)練模型,通過Embedding的拼接輸出隱藏表征矩陣:

        其中,L為標(biāo)簽信息;C為文本內(nèi)容;E為模型輸出的表征矩陣。

        通過多層感知機(jī)(MLP)[15]解析表征矩陣得到預(yù)測的證據(jù)實(shí)體的下標(biāo)索引。在MLP中,獲得句子中每個字是證據(jù)開始和結(jié)束下標(biāo)的概率公式為

        其中,Tstart和Tend是學(xué)習(xí)權(quán)重。對Pstart和Pend每一行使用argmax函數(shù),得到預(yù)測的每個證據(jù)實(shí)體的開始和結(jié)束索引,公式為

        最后,訓(xùn)練一個二元分類器來預(yù)測句中每一個證據(jù)實(shí)體匹配的概率來組成范圍概率矩陣,并定義一個學(xué)習(xí)權(quán)重m,公式為

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 數(shù)據(jù)集

        本次實(shí)驗(yàn)數(shù)據(jù)集均來自貴州省人民法院提供的2293篇裁判文書。其中,包括刑事裁判文書1696篇和民事裁判文書597篇,并將數(shù)據(jù)集按8:2劃分為訓(xùn)練集和測試集。通過人工標(biāo)注的方式對2293篇裁判文書進(jìn)行標(biāo)注得到本文所用數(shù)據(jù)集,如表2所示。

        表2 數(shù)據(jù)集統(tǒng)計(jì)信息

        3.2 評測指標(biāo)

        所有實(shí)驗(yàn)所用指標(biāo)均為精準(zhǔn)率(P)、召回率(R)和F1值。計(jì)算公式如下所示:

        其中,TP是預(yù)測結(jié)果為正,樣本也為正;FP是預(yù)測結(jié)果為正,樣本為負(fù);FN是預(yù)測結(jié)果為負(fù),樣本為正。

        3.3 超參數(shù)設(shè)置

        超參數(shù)選擇的不同,對模型結(jié)果會產(chǎn)生較大的影響。本文優(yōu)化算法使用Adam,初始學(xué)習(xí)率為5e-5,以0.05速度進(jìn)行衰減。設(shè)置每個batch_size為32,迭代10輪。最后獲得的span概率分布矩陣閾值threshold設(shè)置為0.5。選擇BERT中的base版本。如表3所示。

        表3 超參數(shù)設(shè)置

        3.4 實(shí)驗(yàn)結(jié)果及分析

        在本文實(shí)驗(yàn)中,比較了5個傳統(tǒng)的序列標(biāo)注模型,分別為CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT。實(shí)驗(yàn)結(jié)果如表4所示。

        表4 模型對比實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果表明,5個傳統(tǒng)序列標(biāo)注模型CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT的F1值分別為78.16%、82.83%、85.39%、86.16%、87.19%,而本文模型取得的F1值為89.12%,為所有實(shí)驗(yàn)中最高。比CRF模型的F1值高了10.96%,比BiLSTM模 型 的F1值 高 了6.29%,比BiLSTM-CRF模型的F1值高了3.73%,比ATT-BiLSTM-CRF模型的F1值高了2.96%,比BERT模型的F1值高了1.93%。其原因在于:1)本文模型是基于BERT大規(guī)模預(yù)訓(xùn)練,它區(qū)別于傳統(tǒng)詞向量模型,能夠更好地理解文本語義信息;2)本文模型是在BERT模型的基礎(chǔ)上,融合證據(jù)實(shí)體的標(biāo)簽信息,豐富了模型的輸入特征,使得模型能更好地識別證據(jù)實(shí)體;3)對數(shù)據(jù)集格式轉(zhuǎn)換的有效預(yù)處理。

        在進(jìn)一步實(shí)驗(yàn)中發(fā)現(xiàn),如何定義標(biāo)簽信息,成為影響模型在證據(jù)抽取性能上的關(guān)鍵。本文根據(jù)表1提出的3種標(biāo)簽信息定義方式進(jìn)行實(shí)驗(yàn)對比,如表5所示。

        表5 標(biāo)簽信息對模型實(shí)驗(yàn)結(jié)果影響

        從表5中可以看出,標(biāo)注指南的標(biāo)簽信息定義方式取得了最高的F1值。比問句式的F1值高了0.81%,比定義式的F1值高了0.62%。原因在于:標(biāo)注指南的方式相較于問句式和定義式,具有更為豐富的語義信息,能為模型的輸入帶來更多的標(biāo)簽信息特征,從而提高了模型在證據(jù)抽取上的性能。

        由于融合了標(biāo)簽信息從而豐富了模型的輸入特征,本文在訓(xùn)練集樣本數(shù)量少的情況下進(jìn)行了實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。本文將訓(xùn)練集按10%、20%、40%、80%的比例劃分,測試集保持不變,如表6所示。

        表6 小樣本下標(biāo)簽信息對模型的影響結(jié)果

        從表6中可以看出,在訓(xùn)練集比例10%、20%、40%和80%情況下,本文模型相較于BERT的序列標(biāo)注模型,分別提高了2.70%、2.87%、2.02%和1.73%。充分證明了本文方法在BERT基礎(chǔ)上融合標(biāo)簽信息的有效性,也為小樣本學(xué)習(xí)提供了一種新思路。

        4 結(jié)語

        本文提出了一種融合標(biāo)簽信息的證據(jù)抽取方法,解決了序列標(biāo)注模型很難捕獲句子的長距離語義而導(dǎo)致輸入特征使用不充分,使得抽取裁判文書中的證據(jù)實(shí)體性能較差的問題。本文通過定義證據(jù)實(shí)體的標(biāo)簽信息,與文本想融合來增強(qiáng)輸入特征,進(jìn)而提高證據(jù)實(shí)體的抽取性能。實(shí)驗(yàn)結(jié)果表明本文的方法相比于傳統(tǒng)的序列標(biāo)注抽取模型更具優(yōu)勢。

        本文方法還有進(jìn)一步改進(jìn)的空間。在未來工作中,可以設(shè)計(jì)新的模型架構(gòu)來更好捕捉文本間的語義信息,進(jìn)一步提升模型在證據(jù)抽取上的性能。

        猜你喜歡
        融合實(shí)驗(yàn)信息
        記一次有趣的實(shí)驗(yàn)
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        做個怪怪長實(shí)驗(yàn)
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        在线观看人成网站深夜免费| 久久99精品久久久久久hb无码 | 免费无码av一区二区| 久久久久久成人毛片免费看| 欧美日本视频一区| 在线视频一区二区国产| 亚洲国产丝袜美女在线| 免费在线观看播放黄片视频| 国内精品卡一卡二卡三 | 亚洲av无码xxx麻豆艾秋| 亚洲免费天堂| 日韩国产精品一本一区馆/在线| 黄色网页在线观看一区二区三区| 久久一区二区三区少妇人妻| 国产熟女内射oooo| 国产免费资源高清小视频在线观看| 看全色黄大色大片免费久久久| 国产一区av男人天堂| 亚洲熟女一区二区三区| 久久91综合国产91久久精品| 18禁黄无遮挡免费网站| 日本美女在线一区二区| 色欲色欲天天天www亚洲伊| 中文字幕在线码一区| 国产视频一区二区三区在线看| 亚洲日本中文字幕高清在线| 中文天堂国产最新| 在线一区不卡网址观看| 一本色道亚州综合久久精品| 激情综合五月| 久久久www成人免费精品| 国产污污视频| 国产日韩午夜视频在线观看| 亚洲自拍偷拍色图综合| 久人人爽人人爽人人片av| 亚洲精品无码国模| 久久国产高潮流白浆免费观看| 国产尤物自拍视频在线观看| 夜夜躁狠狠躁日日躁2022| 热99精品| 日韩精品一区二区三区av|