亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT閱讀理解框架的司法要素抽取方法

        2021-11-22 02:00:48黃輝秦永彬陳艷平黃瑞章
        大數(shù)據(jù) 2021年6期
        關(guān)鍵詞:案由標(biāo)簽要素

        黃輝,秦永彬, ,陳艷平, ,黃瑞章,

        1.貴州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025;2.公共大數(shù)據(jù)國家重點實驗室,貴州 貴陽 550025

        1 引言

        隨著智慧法院建設(shè)的提出,大數(shù)據(jù)、人工智能與司法實踐的融合開始不斷推進(jìn)。司法人工智能的本質(zhì)是基于已有案例的審判工作,提示和輔助司法人員進(jìn)行審判決策。因此,為司法人員提供可解釋的決策依據(jù)是司法智能化建設(shè)的重點。將端到端的深度學(xué)習(xí)應(yīng)用于司法領(lǐng)域通常會存在可解釋性差的問題,無法為司法人員提供模型決策依據(jù)。案情要素體系是司法領(lǐng)域?qū)<腋鶕?jù)法院審判流程總結(jié)、建立的體系,主要由司法人員在決策過程中關(guān)注的案情要點構(gòu)成。利用深度學(xué)習(xí)模型識別裁判文書中的關(guān)鍵案情要素,可以為案件判決預(yù)測提供依據(jù),在一定程度上實現(xiàn)可解釋性。并且,司法要素是判定案件之間關(guān)聯(lián)性的重要依據(jù)之一,具備相同案件要素的案件擁有類似的案情和判決結(jié)果,結(jié)合司法要素可以有效地實現(xiàn)具有可解釋性的類案推送。因此,司法要素抽取工作是司法人工智能中必不可少的一環(huán)。

        司法要素抽取任務(wù)需要根據(jù)既定案情要素體系,判定裁判文書案情內(nèi)容包含哪些具體案情要素。例如,給定句子“原告認(rèn)為被告違法解除與原告的勞動關(guān)系,故原告起訴至法院,要求判決:被告向原告支付賠償金186600元”,根據(jù)語義信息可以判定該句子包含既定司法要素中的“解除勞動關(guān)系”“支付經(jīng)濟(jì)補(bǔ)償金”。以往的司法要素抽取采用自然語言處理(natural language processing,NLP)中的多標(biāo)簽分類方法來完成,然而多標(biāo)簽分類方法只利用了句子的文本信息,從上述例子中可以看出,司法要素和句子之間有很強(qiáng)的關(guān)聯(lián)性,如何充分利用要素標(biāo)簽信息是本文研究的重點。

        此外,司法要素抽取數(shù)據(jù)集中通常會存在樣本分布不均衡的問題。在勞動爭議案由中,大量裁判文書包含“解除勞動關(guān)系”要素,但涉及“經(jīng)濟(jì)性裁員”和“有調(diào)解協(xié)議”兩種要素的案件非常少。在借款合同案由中也是如此,“債務(wù)人轉(zhuǎn)讓債務(wù)”“約定利率不明”等要素極少在案件中出現(xiàn)。訓(xùn)練樣本分布極度不均衡導(dǎo)致分類模型的推理能力較差。

        綜上,本文提出基于BERT(bidirectional encoder representations from transformer)閱讀理解框架的司法要素抽取方法。該方法基于BERT抽取式機(jī)器閱讀理解框架,通過引入要素標(biāo)簽信息和法律先驗知識構(gòu)造相應(yīng)的輔助問句,建立輔助問句和文本之間的語義聯(lián)系,為模型提供語義完整的標(biāo)簽信息和先驗知識。同時,在問句中標(biāo)簽所在位置前后增加特殊標(biāo)識符以增強(qiáng)模型的學(xué)習(xí)能力。實驗證明本文方法不同于傳統(tǒng)分類方法,不再受限于樣本,可被很好地應(yīng)用于分布不平衡的數(shù)據(jù)集。

        2 相關(guān)工作

        在司法領(lǐng)域,一段案情描述往往涉及多個標(biāo)簽,因此,司法要素抽取工作大多以多標(biāo)簽分類的形式開展。當(dāng)前解決多標(biāo)簽文本分類任務(wù)的方法可以分為兩類:機(jī)器學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)方法。傳統(tǒng)機(jī)器學(xué)習(xí)方法需要對特征進(jìn)行篩選,Elisseeff A等人[1]采用類似于學(xué)習(xí)系統(tǒng)的支持向量機(jī)(support vector machine,SVM)來解決多標(biāo)簽問題;Ghamrawi N等人[2]將條件隨機(jī)場應(yīng)用于該任務(wù);Li C等人[3]提出了基于條件伯努利混合的多標(biāo)簽分類方法,通過引入多個特征來捕獲標(biāo)簽依賴,這些特征的處理效果將對模型的分類結(jié)果造成很大的影響。

        近年來,神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域取得了巨大的成功。神經(jīng)網(wǎng)絡(luò)方法可以根據(jù)訓(xùn)練樣本進(jìn)行特征篩選、提取,因此現(xiàn)有的文本分類模型多基于神經(jīng)網(wǎng)絡(luò)實現(xiàn)。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)具有較強(qiáng)的表征學(xué)習(xí)能力,自Kim Y[4]提出文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)模型以來,卷積神經(jīng)網(wǎng)絡(luò)在文本分類任務(wù)中的應(yīng)用愈加廣泛。Conneau A等人[5]提出了VDCNN模型,模型堆疊了高達(dá)29層的卷積層,并且在大部分文本分類數(shù)據(jù)集上證明了深度卷積網(wǎng)絡(luò)可以有效地抽取文本特征。卷積神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的局部特征提取能力,但是文本中的詞序依賴關(guān)系也很重要。因此,Sun X等人[6]將TextCNN和長短期記憶(long short term memory,LSTM)網(wǎng)絡(luò)進(jìn)行結(jié)合,提出TC-LSTM模型,有效地改善了分類任務(wù)的精度。Lin J Y等人[7]則將膨脹卷積和注意力機(jī)制進(jìn)行結(jié)合,從而有效地提取單詞的語義信息。隨著語言模型的出現(xiàn),多標(biāo)簽文本分類任務(wù)開始使用微調(diào)方式。ELMo[8]、GPT[9]、BERT[10]、XLNet[11]等預(yù)訓(xùn)練語言模型使用了大規(guī)模語料進(jìn)行預(yù)訓(xùn)練,并且相較于之前的網(wǎng)絡(luò)模型具有很強(qiáng)的特征抽取能力,因此極大地提升了多標(biāo)簽分類任務(wù)的性能。上述方法聚焦于文本信息,如果采用這些方法進(jìn)行司法要素抽取,模型易過度依賴數(shù)據(jù)樣本,進(jìn)而導(dǎo)致過擬合問題。

        目前,與司法要素抽取任務(wù)相關(guān)的研究較少,與其任務(wù)場景相似的罪名預(yù)測和法條推薦已具有一定的研究方案。Luo B F等人[12]通過提取案情文本特征對法條和罪名預(yù)測進(jìn)行聯(lián)合訓(xùn)練。Zhong H X等人[13]在此基礎(chǔ)上提出多任務(wù)拓?fù)湟蕾噷W(xué)習(xí)模型 TOP JUDGE,對法律審判的多個子任務(wù)(如適用法律條款、指控、罰金、刑期)進(jìn)行建模。陳文哲等人[14]在犯罪行為鏈[15]的研究基礎(chǔ)上,結(jié)合裁判文書文本特征和犯罪行為序列特征,增強(qiáng)了法條推薦效果。然而,這些研究都在文本分類的框架下進(jìn)行,對文本特征的依賴程度很高,存在泛化能力不足的問題。同時,文本分類框架下的方法沒有充分利用標(biāo)簽信息,缺乏文本和標(biāo)簽之間的語義聯(lián)系。

        抽取式機(jī)器閱讀理解任務(wù)通過捕獲問題和段落之間的聯(lián)系,推理出答案在段落中的位置。機(jī)器閱讀理解模型包含很強(qiáng)的交互層,如R-NET[16]、BiDAF[17]、BERT[10]等模型在內(nèi)部利用注意力機(jī)制進(jìn)行問句和段落的語義交互,從而在多數(shù)機(jī)器閱讀理解任務(wù)上具有很好的表現(xiàn)。Levy O等人[18]和McCann B等人[19]將關(guān)系提取作為一項單輪問答任務(wù)。在此基礎(chǔ)上,Li X Y等人[20]將實體關(guān)系抽取任務(wù)轉(zhuǎn)換成多輪機(jī)器閱讀理解問答形式開展,利用問題查詢向模型提供重要信息。劉奕洋等人[21]將實體識別轉(zhuǎn)化為問答任務(wù),通過卷積神經(jīng)網(wǎng)絡(luò)捕捉文檔級文本上下文信息,通過分類器實現(xiàn)答案預(yù)測。

        BERT[10]由Google團(tuán)隊于2018年提出,其憑借大規(guī)模語料的預(yù)訓(xùn)練和強(qiáng)大的語義特征提取能力,極大地提升了多項NLP任務(wù)的表現(xiàn)。BERT模型的嵌入層包含詞、位置、句子類型3種特征,然后經(jīng)過多層雙向Transformer[22]層得到輸入的特征表示。Transformer完全拋棄了CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)結(jié)構(gòu),采用自注意力網(wǎng)絡(luò)實現(xiàn)了長距離依賴。結(jié)合司法要素抽取任務(wù)的現(xiàn)實需求,本文以BERT為主要模型結(jié)構(gòu),引入要素標(biāo)簽信息構(gòu)造輔助問句作為模型輸入,使用機(jī)器閱讀理解框架完成司法要素抽取任務(wù)。

        3 司法要素抽取方法

        本文將司法要素抽取任務(wù)轉(zhuǎn)換成閱讀理解模式來解決,機(jī)器閱讀理解模型輸入包括問句和段落,因此首先需要針對司法要素標(biāo)簽進(jìn)行問句構(gòu)造;其次,采用BERT抽取式機(jī)器閱讀理解模型對問句和裁判文書進(jìn)行深度交互,得到答案位置的概率分布,從而判別句子中是否包含涉及的要素標(biāo)簽。

        3.1 基于標(biāo)簽信息增強(qiáng)的輔助問句構(gòu)造方法

        由于裁判文書中存在的標(biāo)簽數(shù)量不確定,本文對每一個標(biāo)簽都進(jìn)行問題構(gòu)造,以此判定文本是否包含此要素。預(yù)定義問題模板為“句子中是否包含_element_,_knowledge_。是或者否?”其中,_element_為可替換標(biāo)簽占位符,不同的要素標(biāo)簽可被替換成相應(yīng)的標(biāo)簽文本描述;_knowledge_為與要素相關(guān)的先驗知識;“是”和“否”為需要抽取的答案。3種案由的輔助問句構(gòu)造樣例見表1。對于每一個句子,使用所有標(biāo)簽的輔助問句進(jìn)行多輪問答,以確定是否包含相應(yīng)的要素標(biāo)簽。

        表1 3種案由的輔助問句構(gòu)造樣例

        在構(gòu)造的輔助問句中,標(biāo)簽文本信息極為重要,為了增強(qiáng)模型的學(xué)習(xí)效果,在問句中要素文本描述的前后位置插入特殊標(biāo)識符。對于BERT模型,可以使用預(yù)留的“[unused*]”tokens作為特殊標(biāo)識符。將原始問句表示為:

        其中,t1,…,tn表示除要素標(biāo)簽外的token,e1,…,ek表示要素標(biāo)簽的token。在問句中添加特殊標(biāo)識符后的問句Q-表示為:

        其中,u為插入的特殊標(biāo)識符。

        3.2 基于BERT的司法要素抽取模型

        將裁判文書句子表示為P=(p1,p2,…,pm),輔助問句表示為Q=(q1,…,u,e1,…,ek,u,…,qn),m、k、n分別表示裁判文書、要素標(biāo)簽、輔助問句的token個數(shù)。本文將BERT作為模型主體,提取句子和問題編碼特征。如圖1所示,將P和Q與BERT既定標(biāo)識符CLS、SEP進(jìn)行拼接,作為模型的輸入序列。其中CLS置于首位,用于標(biāo)識整個輸入的語義;SEP用于分割問句和段落的字符輸入。在嵌入層,模型將輸入字符序列映射為字符嵌入(token embedding)、位置嵌入(position embedding)、句子類型嵌入(segment embedding),并將3種嵌入表示相加得到裁判文書句子和問句的特征表示X。

        圖1 基于BERT閱讀理解框架的司法要素抽取模型

        BERT模型主要由多個Transformer的編碼器堆疊而成,每一層的輸入來自上一層的輸出:

        其中,Hi表示第i層Transformer的輸出,n表示編碼器的Transformer層數(shù)。

        通常機(jī)器閱讀理解模型使用Softmax得到答案開始和結(jié)束位置的概率分布,這種模式主要針對答案為片段類型的數(shù)據(jù)集。在本文構(gòu)造的輔助問句中,定義的候選答案(“是”和“否”)都只占一個位置,因此只需要預(yù)測一個位置概率分布。將BERT輸出特 征Hn中問句字符所在位置對應(yīng)的向量表示Hqn={hq1,hq2,…,hqn}輸入全連接層,得到位置概率分布a:

        其中,W為全連接層的權(quán)重參數(shù)矩陣,b為偏置向量。

        在推理階段,通過比較輔助問句中“是”和“否”所在位置的概率大小,判定裁判文書句子是否包含問句指向的要素標(biāo)簽:

        4 實驗及結(jié)果分析

        4.1 數(shù)據(jù)集

        本實驗建立在2019中國“法研杯”司法人工智能挑戰(zhàn)賽(CAIL2019)要素抽取任務(wù)數(shù)據(jù)集上,實驗分別使用賽題第一、第二階段提供的訓(xùn)練集作為訓(xùn)練集和測試集。數(shù)據(jù)涉及婚姻家庭(divorce)、勞動爭議(labor)和借款合同(loan)3種案由,每種案由都包含20類要素標(biāo)簽。數(shù)據(jù)集文檔及句子分布統(tǒng)計具體見表2。

        表2 數(shù)據(jù)集分布統(tǒng)計

        在數(shù)據(jù)集中,每個案由樣本分布都具有長尾分布的特點。勞動爭議案由的要素標(biāo)簽樣本正例分布如圖2所示,從圖2可以看出,標(biāo)簽分布極度不均衡,這將對模型訓(xùn)練產(chǎn)生極大的影響。

        圖2 勞動爭議案由要素標(biāo)簽樣本正例分布

        4.2 評價指標(biāo)

        本文采用F1值的宏平均(macro average)和微平均(micro average)兩種評價指標(biāo)(即F1-macro和F1-micro)共同對模型進(jìn)行評估。宏平均是每一個標(biāo)簽的性能指標(biāo)的算術(shù)平均值,而微平均是每一個樣本示例的性能指標(biāo)的算術(shù)平均值。因此,宏平均更加關(guān)注數(shù)據(jù)集中樣本較少的類別,微平均更加關(guān)注數(shù)據(jù)集中樣本較多的類別。在本文的實驗數(shù)據(jù)集上,由于樣本不均衡,模型的宏平均會低于微平均。

        4.3 參數(shù)設(shè)置

        實驗對多標(biāo)簽分類方法和本文方法進(jìn)行了對比,具體參數(shù)見表3。其中,分類方法涉及傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型和語言模型,括號內(nèi)的參數(shù)為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的參數(shù)值。

        表3 實驗參數(shù)設(shè)置

        4.4 實驗結(jié)果與分析

        為了全方位地對本文提出的模型進(jìn)行評估,設(shè)計了3組對比實驗。實驗A使用本文方法與多標(biāo)簽分類方法、文本匹配方法進(jìn)行對比實驗;實驗B設(shè)計消融實驗驗證閱讀理解框架和特殊標(biāo)識符的效果;實驗C對本文方法在不同案由上的標(biāo)簽進(jìn)行遷移分析。

        (1)實驗A:模型對比實驗

        多標(biāo)簽分類模型包括以下幾種。

        ● 循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)(TextRNN)[23]:基于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò),針對句子內(nèi)單詞之間的序列依賴關(guān)系進(jìn)行建模。

        ● 基于注意力機(jī)制的長短期記憶網(wǎng)絡(luò)(Att-LSTM)[24]:基于傳統(tǒng)的LSTM模型結(jié)構(gòu),結(jié)合注意力機(jī)制對所有時序特征進(jìn)行加權(quán)求和。

        ● TextCNN[4]:將文本當(dāng)作一維圖像,利用一維卷積神經(jīng)網(wǎng)絡(luò)來捕捉臨近詞之間的關(guān)聯(lián)。

        ● BERT[10]:基于雙向Transformer的預(yù)訓(xùn)練語言模型,采用微調(diào)方式進(jìn)行多標(biāo)簽分類。

        ● ALBERT[25]:采用參數(shù)共享的方式解決BERT參數(shù)過多的問題,并改進(jìn)BERT預(yù)訓(xùn)練方式。

        ● ERNIE[26]:在BERT的基礎(chǔ)上對先驗語義知識單元進(jìn)行建模,增強(qiáng)了模型語義表示能力。

        ● RoBERTa-WWM-zh[27]:在BERT基礎(chǔ)上,結(jié)合中文詞特性,采用全詞mask的方式在更多的語料上進(jìn)行預(yù)訓(xùn)練。

        為了驗證輔助問句和機(jī)器閱讀理解框架的有效性,將本文模型與文本匹配模型進(jìn)行了對比。實驗使用BERT句子匹配模型進(jìn)行對比,其中模型輸入構(gòu)造為“[CLS]標(biāo)簽[SEP]文本[SEP]”。

        模型對比實驗結(jié)果見表4,其中F1值為宏平均和微平均的平均值,而F1-search為多標(biāo)簽分類方法經(jīng)過閾值搜索后的F1值,JRC(judicial reading comprehension)指本文方法,MATCH指文本匹配方法,RBT指RoBERTa-WWM-zh。其中TextRNN、Att-LSTM、TextCNN屬于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型,ALBERT、BERT、ERNIE、RBT屬于預(yù)訓(xùn)練語言模型。

        表4 模型對比實驗結(jié)果

        實驗結(jié)果顯示,在多標(biāo)簽分類框架下,預(yù)訓(xùn)練語言模型在婚姻家庭和勞動爭議案由上的表現(xiàn)大多遠(yuǎn)超過傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型。這主要是因為預(yù)訓(xùn)練語言模型在大規(guī)模通用數(shù)據(jù)上進(jìn)行過預(yù)訓(xùn)練,模型具備很好的先驗知識,因此在下游任務(wù)上收斂更快、效果更好。但是由于數(shù)據(jù)集中存在一部分標(biāo)簽的樣本可以根據(jù)局部關(guān)鍵詞進(jìn)行判定,而CNN具有很好的局部特征提取能力,非常適用于此類數(shù)據(jù);而且預(yù)訓(xùn)練語言模型使用的通用數(shù)據(jù)與司法數(shù)據(jù)分布相差較大,大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的優(yōu)勢在司法數(shù)據(jù)集上也不如其他數(shù)據(jù)集明顯,因此TextCNN模型在借款合同案由上取得了高于預(yù)訓(xùn)練模型的結(jié)果。

        與多標(biāo)簽分類框架下的模型(TextRNN、Att-LSTM、TextCNN、ALBERT、BERT、ERNIE、RBT)相比,本文方法在3個案由上F1值分別至少提高2.7%、11.3%、5.6%,顯著超過了多種多標(biāo)簽分類模型。為了進(jìn)一步證明本文方法的優(yōu)越性,對多標(biāo)簽分類方法增加了閾值搜索操作。實驗表明,本文方法依然優(yōu)于經(jīng)過閾值搜索后的多標(biāo)簽分類模型。文本匹配方法和本文方法都使用了標(biāo)簽信息和文本信息,但本文構(gòu)造的輔助問句中除了標(biāo)簽信息,還包括法律先驗知識,能夠為模型提供更多信息。此外,語言模型在預(yù)訓(xùn)練階段會學(xué)習(xí)到語言之間的相關(guān)性,為模型提供高質(zhì)量、具有完備語義信息的輔助問句,從而提升模型的推理能力。因此,相對于文本匹配方法,本文方法在3種案由上F1值分別提升1.1%、4.2%、0.4%。

        (2)實驗B:消融實驗分析

        本文使用RoBERTa-WWM-base預(yù)訓(xùn)練權(quán)重進(jìn)行了消融實驗。對分類方法(CLS)和機(jī)器閱讀理解方法(MRC)進(jìn)行了對比,并且驗證標(biāo)簽、標(biāo)識符、法律先驗知識3種特征的效果,具體見表5。

        從表5可以看出,融入標(biāo)簽信息的機(jī)器閱讀理解方法(RBT-MRC)相比多標(biāo)簽分類方法(RBT-CLS)具有明顯提升,尤其是F1-macro在3種案由上分別提升5.1%、21.7%、13.8%。這說明引入標(biāo)簽信息后,通過機(jī)器閱讀理解模型對標(biāo)簽信息和文本信息進(jìn)行語義交互,可以指導(dǎo)模型更好地進(jìn)行推理。其次,模型增加了標(biāo)識符后,在3種案由數(shù)據(jù)集上F1值都得到了一定的提升,這進(jìn)一步說明了標(biāo)簽信息在輔助問句中占據(jù)主導(dǎo)地位。將BERT最后一層Transformer的多頭注意力權(quán)重進(jìn)行可視化,如圖3所示,在未增加標(biāo)識符時,要素標(biāo)簽部分token的注意力主要集中在“補(bǔ)償金”以及“除”,并且權(quán)重分布比較散亂。增加了標(biāo)識符后,注意力便集中在“解除勞動合同”,這更符合人類判定的關(guān)注點。最后,在輔助問句中增加法律先驗知識,進(jìn)一步提升了司法要素抽取的性能,提升分值僅次于標(biāo)簽信息。說這明輔助問句中引入更多的先驗信息能夠使模型更好地擬合目標(biāo)任務(wù),但是該方式非常依賴引入先驗知識的質(zhì)量。在實驗中,由于借款合同案由數(shù)據(jù)中添加的先驗知識質(zhì)量不如其他兩種案由,因此提升并不明顯。

        圖3 BERT注意力權(quán)重可視化

        表5 消融實驗結(jié)果

        (3)實驗C:標(biāo)簽遷移分析

        機(jī)器閱讀理解模型通過構(gòu)造的輔助問句可以指導(dǎo)模型根據(jù)不同的問句判定文本中是否包含要素標(biāo)簽,因此本文方法在不同的標(biāo)簽之間具有較好的遷移性。此外,本文在構(gòu)造輔助問句過程中引入了標(biāo)簽信息和人工構(gòu)造的先驗知識,也能夠提升模型在標(biāo)簽遷移上的效果。為了證明本文方法的標(biāo)簽遷移性,選定使用其中一個案由訓(xùn)練集訓(xùn)練的模型,測試該模型在其他案由上的效果,具體結(jié)果見表6(多標(biāo)簽分類的訓(xùn)練方式需要固定標(biāo)簽,因此無法進(jìn)行標(biāo)簽遷移)。

        表6 標(biāo)簽遷移實驗結(jié)果

        從表6可以看出,使用本文方法訓(xùn)練的模型可以在不同案由數(shù)據(jù)下進(jìn)行標(biāo)簽遷移,而遷移的結(jié)果主要取決于訓(xùn)練和測試數(shù)據(jù)之間的相似性。因此,具有標(biāo)簽信息和先驗知識的輔助問句可以幫助模型將從正樣本多的標(biāo)簽數(shù)據(jù)中學(xué)習(xí)到的推理知識遷移至正樣本少的標(biāo)簽上,從而提升模型在標(biāo)簽分布不均衡條件下的表現(xiàn)。從圖4可以看出,在勞動爭議案由下,本文提出的方法在正樣本越少的標(biāo)簽上相對于多標(biāo)簽分類方法提升效果越明顯,這也說明了標(biāo)簽遷移性可以有效地解決樣本分布不均衡的問題。

        圖4 RBT-CLS和RBT-MRC在勞動爭議案由各標(biāo)簽上的性能

        5 結(jié)束語

        司法要素抽取任務(wù)通常采用多標(biāo)簽分類方法建模,模型只從案情文本的維度進(jìn)行分析預(yù)測,沒有利用要素標(biāo)簽的語義信息。并且,司法要素抽取數(shù)據(jù)存在類別分布不均衡的問題,導(dǎo)致多標(biāo)簽分類模型表現(xiàn)較差。針對這兩個問題,本文提出基于BERT閱讀理解框架的司法要素抽取方法,將司法要素抽取任務(wù)轉(zhuǎn)換成抽取式機(jī)器閱讀理解任務(wù)來解決。通過構(gòu)造包含要素標(biāo)簽信息和法律先驗知識的輔助問句,為模型提供推理線索。同時,利用BERT機(jī)器閱讀理解模型實現(xiàn)問句和案情描述之間的深層次語義交互,充分利用了標(biāo)簽信息。此外,實驗證明該模型具有良好的標(biāo)簽遷移性,可以解決數(shù)據(jù)分布不均衡的問題。

        目前,本文方法沒有考慮司法要素之間的依賴性。在未來工作中,筆者將探索如何利用機(jī)器閱讀理解框架對標(biāo)簽依賴進(jìn)行建模,并且將本文方法在更多案由上進(jìn)行實踐、驗證,以推進(jìn)司法智能化建設(shè)。

        猜你喜歡
        案由標(biāo)簽要素
        論環(huán)境行政案件案由的規(guī)范化
        掌握這6點要素,讓肥水更高效
        職能定位視角下民事案由制度的反思與改進(jìn)
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        論案由選擇的考慮因素
        商情(2018年9期)2018-03-29 09:01:38
        觀賞植物的色彩要素在家居設(shè)計中的應(yīng)用
        論美術(shù)中“七大要素”的辯證關(guān)系
        標(biāo)簽化傷害了誰
        也談做人的要素
        山東青年(2016年2期)2016-02-28 14:25:36
        女人18毛片aa毛片免费| 国产成人精选在线不卡| www.五月激情| 久久狼人国产综合精品| 国产69精品久久久久9999apgf | 痴汉电车中文字幕在线| 色www视频永久免费| 亚洲综合婷婷久久| 偷拍av一区二区三区| 日韩极品视频免费观看| 欧美黑人群一交| 99热视热频这里只有精品| 91九色国产在线观看| 国产在线播放一区二区不卡 | 无套内谢孕妇毛片免费看看| 人妻少妇中文字幕久久69堂| 精品一区二区三区人妻久久福利| 欧美激情一区二区三区| 亚洲妓女综合网99| 日韩精品一区二区三区中文9| 偷拍一区二区三区高清视频| 久久久久亚洲av无码麻豆| 97欧美在线| 亚洲天堂av免费在线| 亚洲成在人线视av| 无码任你躁久久久久久| 国产精品无码久久久久下载| 国产黄色一区二区在线看| 色妞色视频一区二区三区四区| 国产亚洲欧美在线观看的| 亚洲av午夜福利一区二区国产| 狠狠躁天天躁无码中文字幕图| 无码精品国产va在线观看| 欧美人与动牲交片免费| 亚洲日本人妻少妇中文字幕| 亚洲色大成网站www久久九九| 免费看奶头视频的网站| 久久人妻精品免费二区| 国产综合精品一区二区三区| 极品尤物高潮潮喷在线视频| 国产精品污一区二区三区在线观看|