亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于預(yù)訓(xùn)練語言模型的案件要素識別方法

        2021-12-27 01:32:10劉海順孫媛媛陳彥光張書晨林鴻飛
        中文信息學(xué)報 2021年11期
        關(guān)鍵詞:解碼器類別標(biāo)簽

        劉海順,王 雷,孫媛媛,陳彥光, 張書晨,林鴻飛

        (1. 大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2. 遼寧省人民檢察院 第三檢察部,遼寧 沈陽 110033)

        0 引言

        2018年,司法部印發(fā)《“十三五”全國司法行政信息化發(fā)展規(guī)劃》,明確提出我國到2020年全面建成智能高效的司法行政信息化體系3.0版,將大數(shù)據(jù)、人工智能、云計算、物聯(lián)網(wǎng)等技術(shù)與司法工作進(jìn)行實(shí)際融合,實(shí)現(xiàn)公共法律服務(wù)的便捷普惠化,實(shí)現(xiàn)政務(wù)管理水平的高效透明化。隨著我國司法行政信息化的不斷推進(jìn),智慧司法研究領(lǐng)域興起并日趨火熱。智慧司法包括法律閱讀理解、案件要素識別、相似案例匹配和司法判決預(yù)測等任務(wù),旨在賦予機(jī)器理解法律文本的能力,促進(jìn)司法智能的發(fā)展。其中,案件要素識別的具體研究內(nèi)容為,給定裁判文書中的相關(guān)段落,針對文書中每個句子進(jìn)行判斷,識別其中的關(guān)鍵案情要素。案件要素抽取的結(jié)果不僅可以為要素式裁判提供技術(shù)支持,還可以應(yīng)用到案情摘要、可解釋性的類案推送及相關(guān)知識推薦等司法領(lǐng)域的實(shí)際業(yè)務(wù)需求中。

        前期研究在司法智能領(lǐng)域的研究工作主要集中在司法判決預(yù)測[1-3]、相似案例匹配和命名實(shí)體識別[4-5]等方面,直接針對案件要素識別的研究還相對較少,但它們在技術(shù)上具有共通性。與通用領(lǐng)域的自然語言處理(NLP)任務(wù)[6-7]類似,當(dāng)前研究者們在智慧司法領(lǐng)域采用的方法多是基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。具體而言,網(wǎng)絡(luò)底層使用預(yù)訓(xùn)練的詞向量進(jìn)行詞嵌入,中層采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)或者循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)提取特征,上層應(yīng)用分類器進(jìn)行分類或應(yīng)用條件隨機(jī)場(Conditional Random Field,CRF)進(jìn)行序列標(biāo)注。這種結(jié)構(gòu)存在一定的缺點(diǎn),一是使用的靜態(tài)詞向量無法處理不同語境下的一詞多義問題[8],二是有監(jiān)督方法的本質(zhì)致使模型性能受限于標(biāo)注數(shù)據(jù)集的大小。

        不同于一般的多分類問題,案件要素識別是多標(biāo)簽分類問題,即一個樣本可能同時屬于0到N個類別。經(jīng)統(tǒng)計分析,不計算負(fù)例,每個樣本平均包含2.7個標(biāo)簽,最多可達(dá)7個,而且多個類別之間往往具有關(guān)聯(lián)性。如圖1所示,在離婚類案件中,若一個樣本屬于“限制行為能力撫養(yǎng)子女”類,那么該樣本有較大概率同時屬于“婚后有子女”類;在借貸類案件中,“有借貸證明”類多與“有書面還款協(xié)議”類一起出現(xiàn)。解決多標(biāo)簽分類問題的主流方法是將其處理為多個二分類問題[9],通過設(shè)定閾值判斷樣本是否屬于每個類。但是這種方法明顯忽略了標(biāo)簽之間的相關(guān)性,性能有限。

        針對上述問題,本文專門就案件要素識別任務(wù)進(jìn)行了研究,提出了基于預(yù)訓(xùn)練語言模型的案件要素多標(biāo)簽分類方法。預(yù)訓(xùn)練語言模型支持上下文有關(guān)的詞嵌入,可以從龐大的無標(biāo)注數(shù)據(jù)中學(xué)習(xí)豐富的語法、語義等特征表示,捕獲更長距離的依賴。BERT[10]是預(yù)訓(xùn)練語言模型的一個基礎(chǔ)模型,于公布之初就被應(yīng)用于11項NLP任務(wù)中。結(jié)合Yang等[11]的工作,本文將BERT系列語言模型作為案件要素識別整體模型的編碼器,且提出了Layer-attentive多層特征的融合策略,將長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)作為解碼器,并對比了與基于閾值算法的多標(biāo)簽分類的性能差異。最后,在公開的CAIL2019“要素識別”數(shù)據(jù)集上驗(yàn)證了模型的性能。

        1 相關(guān)工作

        智慧司法研究由來已久。早在20世紀(jì)五六十年代,研究者就開始通過數(shù)學(xué)統(tǒng)計的方法對司法案件進(jìn)行定量分析[12-13],隨后在八九十年代,研究者們探索了基于規(guī)則的專家系統(tǒng)[14-15]。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,司法判決預(yù)測作為智慧司法研究的主要任務(wù)而備受關(guān)注,基于支持向量機(jī)(Support Vector Machine, SVM)的預(yù)測模型被提出來,預(yù)測對象包括罪名、案件類別和裁判日期等[16-17]。近年來,隨著司法數(shù)據(jù)的公開和深度學(xué)習(xí)的發(fā)展,我國在司法判決預(yù)測方面出現(xiàn)了許多令人矚目的成果。Luo等[1]通過雙向門控神經(jīng)單元(Bi-directional Gate Recurrent Unit, BiGRU)建模判決書文檔及法條信息以進(jìn)行罪名預(yù)測,CAIL2018[18]提出了第一個用于司法判決預(yù)測的大規(guī)模中文法律數(shù)據(jù)集,Zhong等[2]以CNN和LSTM為基礎(chǔ)構(gòu)建了同時預(yù)測罪名、法條和刑期的多任務(wù)學(xué)習(xí)模型,Hu等[3]通過引入司法屬性研究了少數(shù)罪名的預(yù)測問題。案件要素識別是司法智能領(lǐng)域的新興任務(wù),現(xiàn)階段主要被當(dāng)作文本分類問題進(jìn)行處理,在技術(shù)上與司法判決預(yù)測最接近。

        作為案件要素識別核心技術(shù)的文本分類,近幾年來,主流方法逐步從詞向量加神經(jīng)網(wǎng)絡(luò)向語言模型轉(zhuǎn)變。2013年開始,Word2Vec[19]以網(wǎng)絡(luò)結(jié)構(gòu)簡單、易于理解、使用方便等特征成為最流行的詞向量訓(xùn)練工具之一。隨后,Kim[6]結(jié)合詞向量提出了多維度并行的單層卷積神經(jīng)網(wǎng)絡(luò),模型表現(xiàn)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法和早期神經(jīng)網(wǎng)絡(luò)方法。緊接著,RNN也被引入文本領(lǐng)域,其變體LSTM[20]以能捕獲長距離信息依賴、善于編碼序列信息而得到大量應(yīng)用,Yang等[11]提出了基于LSTM序列生成模型的多標(biāo)簽文本分類算法。而后注意力機(jī)制被廣泛研究[7],Lin等[21]提出Self-attentive,通過二維矩陣對序列信息進(jìn)行加權(quán)。2018年,谷歌的研究人員提出了基于自注意力機(jī)制的Transformer框架[22],并以Transformer為核心組件開發(fā)出了性能強(qiáng)大的語言模型BERT。

        BERT的預(yù)訓(xùn)練及微調(diào)方法被不斷進(jìn)行改進(jìn)[23-25]。Qiao等[26]提出的BERT(MUL-Int)將每一層的[CLS]位置的編碼進(jìn)行加權(quán)求和,進(jìn)而計算索引問題和答案文檔之間的相似度。Sun等[27]基于BERT設(shè)計了更多的實(shí)驗(yàn),不僅驗(yàn)證了每一層輸出對分類結(jié)果的影響,還提出以簡單平均的方式融合前四層或后四層輸出。本文基于以上提到的文本分類模型進(jìn)行了案件要素識別的相關(guān)實(shí)驗(yàn)和分析,對比了不同語言模型的性能差異,在Lin[21]、Qiao[26]和Sun[27]等人工作的基礎(chǔ)上提出了Layer-attentive特征融合策略。就多標(biāo)簽文本分類而言,本文使用LSTM序列生成模型,并對比了與閾值算法的性能差異。

        2 方法

        圖2 基于預(yù)訓(xùn)練語言模型的案件要素識別模型

        2.1 BERT預(yù)訓(xùn)練語言模型

        下面以BERT[10]為例介紹BERT系列的預(yù)訓(xùn)練語言模型。BERT預(yù)訓(xùn)練語言模型的全稱是基于Transformer的雙向編碼表示(Bidirectional Encoder Representations from Transformers, BERT)。其采用Transformer網(wǎng)絡(luò)[22]作為模型基本結(jié)構(gòu),在大規(guī)模無監(jiān)督語料上通過掩蔽語言模型和句對預(yù)測兩個任務(wù)進(jìn)行預(yù)訓(xùn)練(Pre-training),得到預(yù)訓(xùn)練的BERT模型。再以預(yù)訓(xùn)練模型為基礎(chǔ),在下游相關(guān)NLP任務(wù)上進(jìn)行模型微調(diào)(Fine-tuning)。BERT模型的結(jié)構(gòu)主要由三部分構(gòu)成: 輸入層、編碼層和任務(wù)層,其中輸入層和編碼層是通用的結(jié)構(gòu),對任何任務(wù)都適用。

        BERT的輸入層將每個詞的詞嵌入、位置嵌入和段嵌入相加得到每個詞的輸入表示。與原始Transformer不同的是,BERT模型的位置嵌入是可學(xué)習(xí)的參數(shù),最多支持512個位置。

        對于編碼層,base版本包含12個編碼層,large版本包含24個編碼層,每一編碼層的輸入都是基于上一層的輸出,可抽象表示如式(1)所示。

        Hi=Transformer(Hi-1),0

        (1)

        其中,Hi∈Rm×d為BERT中第i層編碼層,m為序列長度,d為隱層維度,l為編碼層的總層數(shù)。

        在本任務(wù)中,任務(wù)層被Attention交互層和解碼器替代。

        2.2 基于預(yù)訓(xùn)練模型的編碼器

        一個神經(jīng)網(wǎng)絡(luò)的不同層可以捕獲不同的語法和語義信息。因?yàn)锽ERT包含了l(12或24)個編碼層,研究表明[26-27],選擇BERT后三至四個編碼層的輸出進(jìn)行特征融合,可以增強(qiáng)語言模型的特征表示。本文提出了Layer-attentive,以層次級別加權(quán)的方式對后三個編碼層的輸出進(jìn)行融合,如式(2)、式(3)所示。

        其中,W1∈Rd×d,W2∈Rd×d是兩個權(quán)重矩陣,用于計算Layer-attentive的加權(quán)系數(shù)Ai,將向量的表示聚焦于后三層中不同層的不同元素。SeLU[28]是非線性激活函數(shù)。本文將以上特征融合方法命名為3Lattv。

        為了證明以上方法的有效性,本文還設(shè)計了其他的特征融合方法。

        一是采用concat的方式對后三層的輸出進(jìn)行線性拼接,如式(4)所示。

        H′=SeLU(Wc(H-1⊕H-2⊕H-3)+bc)

        (4)

        其中,Wc∈Rd×3d為concat方式的權(quán)重矩陣,bc是偏置項,“⊕”表示線性拼接。該方法命名為3Lconcat。二是在上述兩種方法中改后三層為后四層,相應(yīng)的方法被命名為4Lattv和4Lconcat。

        2.3 注意力交互

        當(dāng)模型預(yù)測不同的標(biāo)簽時,并非所有文本詞都作出相同的貢獻(xiàn)。Attention通過關(guān)注文本序列的不同部分并聚集那些信息豐富的詞的隱層表示來產(chǎn)生上下文向量。特別地,注意力在時間步t上將權(quán)重αti分配給第i個詞,如式(5)、式(6)所示。

        其中,Wa,Ua,va是權(quán)重參數(shù),ba是偏置項,hi是序列中第i個詞的編碼表示,st是解碼器在時間步t的隱藏狀態(tài)。在時間步t傳遞到解碼器的最終上下文向量dt的計算如式(7)所示。

        (7)

        其中,dt的物理意義是預(yù)測第t個標(biāo)簽時的解碼器的輸入。

        2.4 基于LSTM的解碼器

        本文使用LSTM[20]作為多標(biāo)簽分類的解碼器,解碼器在時間步t的隱藏狀態(tài)st的計算如式(8)所示。

        st=LSTM(st-1,yt-1,dt-1)

        (8)

        其中,Wo,Wd,Ud是權(quán)重系數(shù),bd是偏置項,σ是非線性激活函數(shù)。It是用于防止解碼器預(yù)測重復(fù)標(biāo)簽的掩碼向量,即圖2中mask部分。若第i個標(biāo)簽在第t-1時間步被預(yù)測出來,則It的第i個分量置為負(fù)無窮,否則置為零。

        最后,使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,如式(11)所示。

        (11)

        其中,N為樣本個數(shù),n為標(biāo)簽個數(shù),yij為實(shí)際標(biāo)簽,pij為預(yù)測標(biāo)簽。本文旨在解決案件要素識別的多標(biāo)簽預(yù)測問題,重點(diǎn)關(guān)注如何將每個樣本所對應(yīng)的各標(biāo)簽類型完整地預(yù)測出來,訓(xùn)練過程中多標(biāo)簽之間采用數(shù)據(jù)集中默認(rèn)的順序形成標(biāo)簽序列。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集介紹

        本文實(shí)驗(yàn)使用CAIL2019“要素識別”賽道提供的數(shù)據(jù)集(1)https://github.com/china-ai-law-challenge/CAIL2019,該數(shù)據(jù)集來自“中國裁判文書網(wǎng)”公開的法律文書,由專家進(jìn)行標(biāo)注。數(shù)據(jù)的每一條由一個句子及其對應(yīng)的要素標(biāo)簽組成,句子是從一篇裁判文書中的部分段落提取出來的,如圖1所示。本文將其按3∶1∶1的比例劃分訓(xùn)練集、開發(fā)集和測試集,在測試集上評價模型性能。數(shù)據(jù)集涉及三類民事案件: 勞動爭議(Labor)、離婚糾紛(Divorce)和借貸糾紛(Loan),三類案件的數(shù)據(jù)各自分開,分別進(jìn)行評價。每類案件各有20個要素類別,相應(yīng)的類別樣本數(shù)分布如圖3所示??梢姅?shù)據(jù)集存在嚴(yán)重的數(shù)據(jù)分布不均衡的問題,每個案件的要素類別樣本數(shù)從101級到103級不等。數(shù)據(jù)集的樣本數(shù)據(jù)量統(tǒng)計及在樣本的文本特點(diǎn)分析如表1所示。另發(fā)現(xiàn)平均60%以上的樣本沒有標(biāo)簽,即不是案件要素;一個樣本最多可有7個標(biāo)簽,此種情況不足0.1%;具有1到3個標(biāo)簽的樣本在三類案件中分別占約30%、25%、37%。

        圖3 各要素類別的數(shù)據(jù)量分布統(tǒng)計圖

        表1 數(shù)據(jù)集的樣本數(shù)量統(tǒng)計表

        3.2 環(huán)境及參數(shù)設(shè)置

        本文所有實(shí)驗(yàn)在如表2所示的環(huán)境下進(jìn)行。對于BERT系列模型,均采用base-Chinese版本(2)https://github.com/huggingface/transformers進(jìn)行微調(diào),隱層維度d=768,序列長度m=512,編碼層層數(shù)l=12,批處理大小batch_size=16,訓(xùn)練輪數(shù)epoch=3,學(xué)習(xí)率α=4e-5。對于BiLSTM模型,設(shè)置隱層維度hidden_size=256,序列長度m=256,學(xué)習(xí)率α=1e-3,批處理大小batch_size=64,訓(xùn)練輪數(shù)epoch=128,采用Word2Vec預(yù)訓(xùn)練的詞向量的維度為300。

        表2 實(shí)驗(yàn)環(huán)境

        3.3 結(jié)果及分析

        對于模型的表現(xiàn),使用查準(zhǔn)率P(Precision)、查全率R(Recall)和F1值作為衡量指標(biāo)。具體使用宏平均查準(zhǔn)率ma-P(Macro Precision)、宏平均查全率ma-R(Macro Recall)、宏平均F1值ma-F(MacroF1)、微平均F1值mi-F(MicroF1)、ma-F和mi-F的均值A(chǔ)va(AverageF1)。

        3.3.1 編碼器的作用

        分別采用不同的編碼器模型與解碼器LSTM進(jìn)行組合,在三個案件的數(shù)據(jù)上均進(jìn)行實(shí)驗(yàn)。編碼器模型列表如下:

        考慮環(huán)境因素的多能源系統(tǒng)交直流混合供能優(yōu)化策略//繆妙,李勇,曹一家,王姿雅,鄒堯,喬學(xué)博//(4):128

        BERT(3)https://github.com/huggingface/transformers: 基礎(chǔ)模型[10]。

        CNN-thre: Kim[6]提出的卷積神經(jīng)網(wǎng)絡(luò)模型,底層使用預(yù)訓(xùn)練的詞向量,使用多重一維卷積和最大池化提取特征。不使用解碼器,輸出層采用Algorithm 1所述方法。

        BiLSTM: 雙向LSTM[20]網(wǎng)絡(luò),底層使用預(yù)訓(xùn)練的詞向量。

        WWM(4)https://github.com/ymcui/Chinese-BERT-wwm: 基于Whole Word Masking訓(xùn)練樣本生成策略訓(xùn)練的BERT[24]。

        XLNet(5)https://github.com/ymcui/Chinese-XLNet: 基于Transformer-XL[29]訓(xùn)練的最優(yōu)自回歸語言模型[23]。

        RoBERTa: 采用多種技巧及更多數(shù)據(jù)訓(xùn)練的BERT[25]。

        表3展示了在使用解碼器LSTM的情況下,不同編碼器模型在三類案件數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果。比較CNN-thre、BiLSTM和BERT三個模型,BiLSTM優(yōu)于CNN-thre,BERT優(yōu)于BiLSTM,但該優(yōu)勢對語言模型而言并不特別明顯。原因是: 一方面,任務(wù)數(shù)據(jù)量達(dá)到萬級,BiLSTM也能充分學(xué)習(xí)文本特征;另一方面,訓(xùn)練BiLSTM所依據(jù)的詞向量是根據(jù)數(shù)百萬份裁判文書預(yù)訓(xùn)練的,Word2Vec在這里起到了很大的作用。為了詳細(xì)比較BiLSTM和BERT在每個類別上的分類能力,圖4給出了BERT 和BiLSTM在Loan案件數(shù)據(jù)上每個要素類別的F1值。圖4表明,BERT對每個類別的分類能力均高于BiLSTM,在后10個類別,BERT的性能提升比較明顯。結(jié)合圖3可知,Loan數(shù)據(jù)的后10個類別的樣本數(shù)較前10個類別的樣權(quán)數(shù)有數(shù)量級級別的差距。該結(jié)果也表明,以BERT為代表的語言模型處理小樣本情況的能力較強(qiáng)。

        表3 不同編碼器模型在三類案件數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果

        圖4 Loan數(shù)據(jù)上兩個模型的類別F1值對比

        縱向比較后四個模型,即四個BERT系列語言模型。BERT作為基礎(chǔ)模型,性能較更先進(jìn)的語言模型有一定的差距,XLNet和RoBERTa在該任務(wù)上具有最好的性能。RoBERTa比CNN-thre這一baseline模型在平均F值上,三類案件平均提升7.4%。另外,ma-F得分遠(yuǎn)低于mi-F得分,原因是數(shù)據(jù)分布極不均衡,每個類別的F1值相差很大,甚至有樣本數(shù)量極少的類別的得分是0,這對ma-F影響較大,卻對mi-F影響不明顯。

        3.3.2 解碼器的作用

        BERT-thre: 該方法為只使用基于BERT的編碼器,不使用Attention交互和解碼器,相應(yīng)的任務(wù)層換為softmax分類器,最后使用閾值設(shè)定函數(shù)對模型輸出的概率值進(jìn)行取舍,從而預(yù)測類別,標(biāo)簽概率計算如式(12)所示。

        p=σ(WpPooler(H)+bp)

        (12)

        其中,權(quán)重系數(shù)Wp∈Rd×d,σ為sigmoid激活函數(shù),Pooler是BERT對隱層輸出進(jìn)行pooling操作的函數(shù)[10]。p中每個維度的數(shù)值對應(yīng)每個類別的可能概率值,概率值介于[0,1]之間,仍使用二進(jìn)制交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。本文Algorithm 1所示算法用于為每個類別設(shè)定閾值。

        由于多標(biāo)簽分類的特殊性,具體的P、R值只能通過兩者的宏平均或者微平均來體現(xiàn),表4通過比較模型在三類案件數(shù)據(jù)上的ma-P、ma-R和ma-F,具體驗(yàn)證解碼器對P值和R值帶來的提升。

        Algorithm 1 類別閾值選擇算法(Threshold selecting, thre)Input: 在開發(fā)集上,樣本屬于第i類標(biāo)簽的概率pi,樣本在第i類的真實(shí)標(biāo)簽yi。Output: 第i類標(biāo)簽的閾值ti。1: t=arr[100],f=arr[100],s=arr[90],t[0]=0; 2: for j in 100 do3: t[j]=t[j-1]+0.01;4: if p>t[j] then5: 判斷當(dāng)前閾值t[j]下樣本類別a^i=1;6: else7: a^i=0;8: 計算當(dāng)前閾值t[j]下的類別得分f[j]=F(y^i,yi);9: j遞增1;10: for k in 90 do11: 保存每個區(qū)間下的得分均值s[k]=∑9l=0f[k+l] /10;12: k遞增1;13: 找到使得分最大的閾值區(qū)間z=argmax(s[z]),計算該區(qū)間的中值ti=t[z+5];14: return ti

        表4 解碼器與閾值算法的實(shí)驗(yàn)結(jié)果對比

        表4中,同一案件下編碼器較thre策略的主要提升體現(xiàn)在R值(召回率)上,尤其對Loan案件最為明顯,經(jīng)分析如Loan中兩個要素類別“貸款人系金融機(jī)構(gòu)款”和“有借貸證明”之間的線性相關(guān)系數(shù)達(dá)到了0.729,其他類別也具有明顯的相關(guān)性。基于LSTM的解碼器正因?yàn)椴东@了這種相關(guān)性,才在預(yù)測出來一個標(biāo)簽的情況下能連帶著把與之相關(guān)的標(biāo)簽也預(yù)測出來。但是,準(zhǔn)確率增益差說明這種解碼器也存在不足,標(biāo)簽預(yù)測過程中會出現(xiàn)一定的錯誤累積,前一個標(biāo)簽預(yù)測錯誤可能導(dǎo)致后一個相關(guān)的標(biāo)簽也預(yù)測錯誤,后續(xù)研究工作中將著重在這方面進(jìn)行改進(jìn)。RoBERTa-LSTM相對BERT-thre在宏平均F值上,三類案件平均提升3.2%。

        3.3.3 Layer-attentive策略的作用

        為驗(yàn)證多層特征融合策略對模型性能的影響,以及對比不同的融合方法,本組對比實(shí)驗(yàn)以原始BERT為基礎(chǔ)模型,在此基礎(chǔ)上分別使用3Lattv、3Lconcat、4Lattv和4Lconcat的方法進(jìn)行實(shí)驗(yàn),五種方法均采用基于LSTM的解碼器,不同方法在三類數(shù)據(jù)上的得分如表5所示。

        表5 Layer-attentive策略的作用

        由表5可知,除BERT(4Lconcat)方法外,其他多層特征融合方法優(yōu)于原始BERT的方法。其次,除Labor案件下三層特征融合外,Layer-attentive的方法均優(yōu)于concat線性拼接的方法,最大提升可達(dá)到2.1%。分別比較BERT(4Lconcat)和BERT(3Lconcat),比較BERT(4Lattv)和BERT(3Lattv),可發(fā)現(xiàn)三層特征融合均優(yōu)于四層特征融合。最后,對三類案件的得分進(jìn)行橫向比較,相同模型在三類案件上性能差異明顯,主要原因是三類案件的數(shù)據(jù)量有一定差距,而且分別具有不同的要素類別體系。

        3.3.4 模型案例分析

        圖5為BiLSTM、BERT、WWM、WWM-LSTM四種模型分別對三類案件預(yù)測結(jié)果的例子。第一個例子為Labor案件,實(shí)際標(biāo)簽有三個,BiLSTM模型預(yù)測出0個,BERT只能預(yù)測出其中一個,WWM可以預(yù)測出其中兩個,WWM-LSTM因?yàn)槠浣獯a器能捕獲LB3和LB6之間的依賴關(guān)系,可以將三個標(biāo)簽全部預(yù)測出來。同樣的,在第二個Divorce案件示例中,WWM與BiLSTM和BERT模型相比,可以預(yù)測出部分正確標(biāo)簽,而WWM-LSTM可以預(yù)測出全部正確標(biāo)簽。以上預(yù)測結(jié)果說明: 語言模型比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的學(xué)習(xí)能力。其中,WWM因?yàn)榭紤]了中文分詞問題,比原始的BERT具有更強(qiáng)的語義解析能力。而基于LSTM的解碼器能夠?qū)W習(xí)到標(biāo)簽之間的依賴關(guān)系,更適用于本文多標(biāo)簽預(yù)測的任務(wù)。第三個例子是Loan案件,原本句子沒有標(biāo)簽, BiLSTM卻錯誤地預(yù)測出了一個標(biāo)簽,因?yàn)榫渥又泻小皞鶛?quán)”關(guān)鍵字;BiLSTM只捕獲了這個特征,但卻缺乏對語義信息的理解,而語言模型的強(qiáng)大之處在于不僅能捕獲淺層的語法特征,還能學(xué)習(xí)到深層的語義信息。

        圖5 不同模型的預(yù)測結(jié)果示例

        4 結(jié)束語

        本文提出了一個基于預(yù)訓(xùn)練語言模型的多標(biāo)簽分類模型,該模型可實(shí)現(xiàn)面向司法領(lǐng)域的案件要素識別。該模型主要分為編碼器和解碼器兩大部分,兩部分間通過注意力機(jī)制進(jìn)行交互,其中編碼器部分采用基于Layer-attentive特征增強(qiáng)的語言模型,解碼器采用LSTM序列生成模型。實(shí)驗(yàn)結(jié)果表明,本文提出的案件要素識別模型相較基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型在F1值上平均提高了7.4%,比基礎(chǔ)語言模型BERT在宏平均F1值上平均提升3.2%。本文采用的基于LSTM的多標(biāo)簽分類策略具有較大的性能增益,Layer-attentive的微調(diào)策略也有一定的性能提升。未來工作將研究要素標(biāo)簽的順序以及要素類別的含義對要素識別結(jié)果的影響。

        猜你喜歡
        解碼器類別標(biāo)簽
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        標(biāo)簽化傷害了誰
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        亚洲精品大全中文字幕| 少妇愉情理伦片丰满丰满| 久久人妻少妇嫩草av无码专区| 欧美激情内射喷水高潮| 久久久久亚洲精品天堂| 在线视频一区二区观看| 久久中文字幕一区二区| 久久久久夜夜夜精品国产| 精品国精品无码自拍自在线| 一区二区三区不卡在线| 国产精品高清免费在线| 97se色综合一区二区二区| 真实国产老熟女粗口对白| 日韩中文字幕一区二区高清| 最新国产精品国产三级国产av| 在线精品亚洲一区二区动态图| 全部孕妇毛片| 久久综合给合久久狠狠狠9 | 激情五月开心五月av| 亚洲爆乳精品无码一区二区三区| 中文人妻av久久人妻18| 精品久久杨幂国产杨幂| 亚洲国产一区一区毛片a| 久久精品国产自在天天线| 亚洲精品无码av片| 久久精品国产一区二区涩涩| 国产精品美女久久久网站三级| 亚洲日本va中文字幕| 99国产精品丝袜久久久久| 一区二区在线观看视频亚洲| 人与人性恔配视频免费| 国产成人无码精品午夜福利a| 无码一区二区丝袜| 国产日产一区二区三区四区五区| 精品乱码久久久久久久| 无码中文av有码中文av| 97超碰中文字幕久久| 国产日韩欧美一区二区东京热| 国产精品区一区第一页| 视频一区视频二区亚洲免费观看| 91偷拍与自偷拍亚洲精品86 |