亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的法律文本處理研究進(jìn)展

        2021-12-01 05:26:24張宏莉方濱興
        關(guān)鍵詞:分類特征法律

        李 尚,張宏莉,葉 麟,方濱興

        (哈爾濱工業(yè)大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,哈爾濱 150001)

        0 引言

        在司法領(lǐng)域,隨著廣大人民群眾的法律意識不斷增強(qiáng),新案件的增長速度日益提高,再加上法律為了適應(yīng)社會中層出不窮的新生事物而不斷做出更新和完善,使得每天都有大量的新數(shù)據(jù)出現(xiàn)。這些數(shù)據(jù)來自于各類民事和刑事案件卷宗和判決文書,以及法律法規(guī)的補(bǔ)充擴(kuò)展和司法解釋。與此同時(shí),中國司法信息化建設(shè)不斷推進(jìn),這些數(shù)據(jù)經(jīng)過篩選和清洗也更多地公開發(fā)布出來,中國裁判文書網(wǎng)是由最高人民法院主辦的裁判文書發(fā)布網(wǎng)站,收錄文書數(shù)量多達(dá)1 億余篇且仍在繼續(xù)增長,目前已成為法律領(lǐng)域最大規(guī)模的數(shù)據(jù)資料庫。

        另一方面,隨著數(shù)據(jù)量的不斷增加,司法工作者的負(fù)擔(dān)也日益繁重,法官和律師不僅需要查閱大量歷史案例作為參考,還要對新的法律法規(guī)以及現(xiàn)有法律法規(guī)的補(bǔ)充擴(kuò)展進(jìn)行深入理解和研究。近年來,以深度學(xué)習(xí)和自然語言處理(natural language processing,NLP)為代表的人工智能技術(shù)不斷取得新的突破,其研究成果已經(jīng)推動(dòng)了制造、醫(yī)療、教育等諸多領(lǐng)域的發(fā)展,提高了這些領(lǐng)域的生產(chǎn)效率,從而減輕了人們的勞動(dòng)負(fù)擔(dān)。而在司法領(lǐng)域,人工智能的相關(guān)研究總體上仍處于起步階段。

        文本處理是傳統(tǒng)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域里相對基礎(chǔ)但也非常重要的技術(shù)分支,包括文本表示、聚類、分類、檢索等多個(gè)細(xì)分領(lǐng)域。而法律領(lǐng)域最主要的數(shù)據(jù)形式便是以裁判文書內(nèi)容為代表的法律文本,如圖1 所示,其內(nèi)容主要涉及對被告人信息、案件情節(jié)以及判決結(jié)果的描述。

        圖1 法律文本(裁判文書)樣例Fig.1 An example of legal text(judgment document)

        為了充分挖掘法律文本數(shù)據(jù)的價(jià)值,減輕法律從業(yè)人員繁重的數(shù)據(jù)處理工作負(fù)擔(dān),近年來人工智能研究人員已經(jīng)針對基于深度學(xué)習(xí)的法律文本處理技術(shù)開展了一系列工作,特別是在法律文本表示、法律文本分類以及幾類典型的法律文本挖掘與應(yīng)用方面,已產(chǎn)生一批代表性的成果。本文對這些研究工作和成果進(jìn)行簡要的梳理和分析。

        1 基于深度學(xué)習(xí)的法律文本表示

        文本表示是許多NLP 應(yīng)用中的基礎(chǔ)性任務(wù),對提升各類文本處理算法性能具有十分重要的作用。文本表示的目標(biāo)是將非結(jié)構(gòu)化的文本數(shù)據(jù)映射到低維向量空間中,進(jìn)而可以用數(shù)學(xué)方法對文本進(jìn)行計(jì)算和處理[1]。與通用領(lǐng)域的文本相比,法律文本具有領(lǐng)域性強(qiáng)、信息密集、結(jié)構(gòu)特征相對明顯等特點(diǎn),更加有效的法律文本技術(shù)可以顯著提升建模、分類、推理、挖掘等下游任務(wù)的性能,近年來已引起研究者的廣泛興趣。

        1.1 基于嵌入的法律文本表示

        字和詞嵌入是對語言進(jìn)行向量化表示的重要手段,但傳統(tǒng)的嵌入方法(如Word2Vec)對于法律文本中專業(yè)術(shù)語和領(lǐng)域知識的表達(dá)能力相對不足。Nay 通過在一個(gè)由案例法、成文法和行政法構(gòu)成的法律語料庫上應(yīng)用Word2Vec,訓(xùn)練得到了一個(gè)Gov2Vec 的工具,可以有效地對語料中的法學(xué)概念進(jìn)行編碼,并能夠?qū)W習(xí)到這些概念向量之間的隱含關(guān)系,成功運(yùn)用在最高法院意見、總統(tǒng)行動(dòng)和國會法案的摘要生成任務(wù)中[2];Chalkidis 和Kampas 同樣基于Word2Vec 提出了Law2Vec,通過包括英國、歐盟、加拿大、澳大利亞、美國和日本等國立法的大型語料庫中訓(xùn)練法律詞匯嵌入,并驗(yàn)證了法律詞匯語義特征表示在文本分類、信息抽取和信息檢索3 個(gè)任務(wù)中的重要作用[3]。

        自2018 年以來,以BERT 為代表的預(yù)訓(xùn)練語言模型已經(jīng)形成了一種新的NLP 范式[4]:首先使用大規(guī)模文本語料庫進(jìn)行預(yù)訓(xùn)練,再對特定任務(wù)的小數(shù)據(jù)集微調(diào),從而降低單個(gè)NLP 任務(wù)的難度。預(yù)訓(xùn)練語言模型的應(yīng)用,大幅提升了命名實(shí)體識別、事件抽取、機(jī)器翻譯、自動(dòng)問答等多項(xiàng)NLP 任務(wù)的性能,在法律文本處理領(lǐng)域也具有良好的應(yīng)用前景。針對通用預(yù)訓(xùn)練語言模型對法律領(lǐng)域術(shù)語和知識表達(dá)能力較弱的問題,Zhong 等人提出了一個(gè)基于千萬級法律文本(包括民事和刑事裁判文書)的中文預(yù)訓(xùn)練模型OpenCLaP(Open Chinese Language Pre-trained Model Zoo),其支持最大512 長度的文本輸入以適配多種任務(wù)需求,經(jīng)過微調(diào)使用后有效提升了案件要素抽取、判決結(jié)果預(yù)測、相似案例匹配等多個(gè)法律文本處理任務(wù)中基線模型的性能[5]。目前,如何將知識嵌入到預(yù)訓(xùn)練語言模型已成為該領(lǐng)域的研究熱點(diǎn),在法律文本表示領(lǐng)域開展此類研究同樣有助于提升深度學(xué)習(xí)模型對于法律概念的理解和推理能力。

        1.2 基于特征的法律文本表示

        基于嵌入的法律文本表示方法充分發(fā)揮了深度神經(jīng)網(wǎng)絡(luò)在NLP 任務(wù)中強(qiáng)大的潛在語義學(xué)習(xí)能力,但其產(chǎn)生的文本向量往往無法解釋,這對于強(qiáng)調(diào)領(lǐng)域知識的法律文本是一個(gè)顯著的缺陷。而傳統(tǒng)的特征工程方法,由于需要大量人工標(biāo)注工作,在大規(guī)模的法律語料庫面前也顯得捉襟見肘。因此,有研究者開始嘗試這兩種方法的結(jié)合,即在上層使用一定量的領(lǐng)域知識來定義法律文本表示的特征模式,然后在底層使用深度神經(jīng)網(wǎng)絡(luò)模型對這些特征進(jìn)行學(xué)習(xí)和表示。

        Li 等人根據(jù)中國刑法中對于盜竊罪的定義,歸納出與定罪量刑相關(guān)的9 維特征(包括犯罪嫌疑人基本信息、是否累犯、是否攜帶武器、涉案物品價(jià)值等),然后使用長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)對法律文本進(jìn)行編碼,再根據(jù)生成的向量表示使用分類算法,判斷是否符合某個(gè)特征,進(jìn)而得到針對法律文本的9 維向量表示,在實(shí)現(xiàn)了特征降維的同時(shí),使得特征能夠在法律知識框架下具備良好的解釋性[6]。針對判決結(jié)果預(yù)測任務(wù),Li 等人提出了一種基于注意力機(jī)制的法律文本表示模型,通過在涉及10 類刑事罪名的裁判文書語料中進(jìn)行訓(xùn)練,生成基于案件事實(shí)、被告人信息及相關(guān)刑法條文等多個(gè)層面的潛在語義特征表示向量,能夠表示法律文本中人物、事件、法律條文3 者之間的潛在邏輯關(guān)系,大幅提升了罪名、法律條文、刑期等預(yù)測任務(wù)的性能和預(yù)測結(jié)果的可解釋性[7]。

        2 基于深度學(xué)習(xí)的法律文本分類

        文本分類是法律文本處理應(yīng)用中的關(guān)鍵任務(wù)。不同的法律文本處理任務(wù)可以轉(zhuǎn)化為不同類型的文本分類問題。例如:判斷一個(gè)案件中的被告人是否有自首情節(jié)屬于簡單的二分類問題,分析案件類型(涉嫌的主要罪名為互斥關(guān)系)屬于多分類問題,判定被告人觸犯了哪些法條則屬于多標(biāo)簽分類問題。已有的研究工作也基本圍繞這3 類問題展開。

        Aletras 等人使用多個(gè)支持向量機(jī)(Support Vector Machine,SVM)分類器對案件的若干語義學(xué)特征分別進(jìn)行二分類,用于預(yù)測歐洲人權(quán)法院的判決[8];Boella 等人使用詞頻-逆向文件頻率(Term Frequency– Inverse Document Frequency,TF–IDF)算法和信息增益進(jìn)行特征選擇,然后訓(xùn)練SVM分類器,以識別法律文本所歸屬的領(lǐng)域[9];Liu 等人在基于案例的推理系統(tǒng)中使用K 最近鄰(K–Nearest Neighbor,KNN)算法對12 種常見的刑事罪名進(jìn)行分類[10];Katz 等人根據(jù)從案件概要中抽取的特征,構(gòu)建了隨機(jī)樹模型以預(yù)測美國最高法院的決策[11];Lin 等人首先根據(jù)人工定義的21 類法律要素標(biāo)簽對案件描述的句子進(jìn)行分類,再用于區(qū)分搶劫和恐嚇罪名[12];Liu 等人將多個(gè)法條的不同組合作為標(biāo)簽進(jìn)行訓(xùn)練,將多標(biāo)簽分類問題簡化為多分類問題[13-14]。這些早期的工作大多利用特征工程與統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的結(jié)合,使用有監(jiān)督的學(xué)習(xí)方法訓(xùn)練分類器,模型分類性能和結(jié)果的可解釋性都相對較好,但由于過度依賴特征設(shè)計(jì)和人工標(biāo)注,在文本標(biāo)簽體系發(fā)生變化時(shí)可擴(kuò)展性較差。

        近年來,以各類神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)模型憑借其強(qiáng)大的特征學(xué)習(xí)能力在多種NLP 任務(wù)中發(fā)揮了重要作用,特別是針對大規(guī)模語料庫的學(xué)習(xí)中,相比人工規(guī)則構(gòu)造特征的方法更能夠刻畫數(shù)據(jù)豐富的語義信息。Wei 等人使用卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)實(shí)現(xiàn)了一個(gè)法律文檔分類器,其實(shí)驗(yàn)結(jié)果證明CNN 模型在大規(guī)模訓(xùn)練集上取得的性能明顯優(yōu)于SVM[15];Chalkidis and Androutsopoulos 采用了完全不依賴人工標(biāo)注的詞語本身、詞性標(biāo)簽和符號嵌入作為特征,使用雙向LSTM 網(wǎng)絡(luò)完成了合同要素抽取任務(wù)[16];Luo 等人提出了一個(gè)基于注意力機(jī)制的多標(biāo)簽神經(jīng)網(wǎng)絡(luò)分類器,通過將法律法規(guī)信息融入案件事實(shí)的向量表示,在提升案件罪名分類性能的同時(shí)使分類結(jié)果具備一定的可解釋性[17];Li 等人提出了一種多通道注意力神經(jīng)網(wǎng)絡(luò)框架,僅使用訓(xùn)練數(shù)據(jù)中罪名類型、適用法條、刑期3 個(gè)極易獲取的標(biāo)簽為監(jiān)督對案情描述、被告人信息和法律條文進(jìn)行聯(lián)合編碼,靈活的編碼方式可以支持不同的多標(biāo)簽分類任務(wù),均取得了較好的分類性能[7];Wang 等人提出了一種層次化匹配神經(jīng)網(wǎng)絡(luò),在構(gòu)建案件罪名向量表示的過程中融入標(biāo)簽的層次信息,并借助語義匹配的方法完成罪名分類任務(wù),取得了較高的準(zhǔn)確率[18]。

        3 法律文本挖掘與應(yīng)用

        隨著法律文本表示和分類等法律文本處理技術(shù)的不斷成熟,以及法律領(lǐng)域利用計(jì)算機(jī)和人工智能技術(shù)輔助業(yè)務(wù)開展的需求的快速增長,近年來涌現(xiàn)出一些代表性的法律文本挖掘方法及其應(yīng)用。

        3.1 法律判決預(yù)測

        法律判決預(yù)測(Legal Judgment Prediction,LJP)是基于法律文本的最關(guān)鍵任務(wù)之一。在中國、德國、法國等采用大陸法系的國家中,判決結(jié)果是根據(jù)案件事實(shí)與成文法規(guī)決定的。在這一法律制度下,LJP的任務(wù)就是通過案件事實(shí)描述文本與法律條文的匹配,來判斷相關(guān)行為是否觸犯某條法律,進(jìn)而對應(yīng)判罪名、適用法條以及刑期做出預(yù)測。

        已有研究大多將罪名和法條預(yù)測任務(wù)用文本分類算法解決,包括早期使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,以及近期使用深度學(xué)習(xí)模型的方法。為了促進(jìn)LJP 的發(fā)展,Xiao 等人提出了一個(gè)大規(guī)模的中文裁判文書數(shù)據(jù)集C-LJP,包含中國法院發(fā)布的268 萬件刑期案件文本[19];在近期的一些工作中,Luo 和Li 將研究重心放在如何使用基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)去挖掘案件,描述不同部分之間的邏輯關(guān)系,為了更好的實(shí)現(xiàn)這一目的以及為后續(xù)預(yù)測結(jié)果提供更好的可解釋性,引入了法律條文作為外部知識來引導(dǎo)神經(jīng)網(wǎng)絡(luò)的編碼過程,在罪名和法條預(yù)測任務(wù)中取得了優(yōu)異的性能[17,7];Zhong 等人通過引入LJP 各個(gè)子任務(wù)之間的拓?fù)潢P(guān)系,使得模型的預(yù)測過程更符合人類法官的判案邏輯,實(shí)驗(yàn)結(jié)果也證實(shí)了這一做法的有效性[20]。

        在刑期預(yù)測方面,有部分工作通過將刑期劃分為不同區(qū)間進(jìn)而轉(zhuǎn)化為分類問題解決,也有一些研究者按照更符合任務(wù)本身特性的回歸問題去設(shè)計(jì)模型。Li 等人根據(jù)法律條文歸納出了盜竊案件除刑期外的10 維特征,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到特征向量后再交由回歸算法進(jìn)行計(jì)算,取得了較高的準(zhǔn)確率,但這一方法相對依賴人工引入外部知識和標(biāo)注,無法高效地將預(yù)測模型擴(kuò)展到支持更多類型的案件[21];Chen 等人提出了一種采用門控機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,以罪名為基礎(chǔ)對案件進(jìn)行刑期預(yù)測,有效提升了預(yù)測的準(zhǔn)確率[22]。但總體而言,由于刑期這一數(shù)據(jù)類型連續(xù)性的特點(diǎn),以及在現(xiàn)實(shí)中存在的法律之外的量刑因素,使得現(xiàn)有的模型性能都不理想。

        3.2 相似案例檢索

        隨著案件文檔規(guī)模的日益增長,相似案例檢索對于提高法律從業(yè)人員的工作效率具有重要意義,高質(zhì)量的類案推送結(jié)果也有助于中國法律更加接近所追求的“類案類判”的目標(biāo)。

        在早期的研究工作中,Saravanan 和Casanovas提出了基于語義網(wǎng)和本體論的法律案例檢索系統(tǒng),在輸入輸出兩端都比傳統(tǒng)基于關(guān)鍵字的系統(tǒng)實(shí)用性更強(qiáng),其缺點(diǎn)是嚴(yán)重依賴法律專家對于本體的編輯,而且以本體作為檢索條件也無法滿足當(dāng)前“以案搜案”的業(yè)務(wù)需求[23-24]。

        英美法系國家采用的是判例法,對一個(gè)案件作出判決時(shí)必須明確引用既往案件的判決,因此自然形成了一個(gè)案例引文網(wǎng)絡(luò),為引入圖算法解決類案檢索問題提供了基礎(chǔ)。Wagh 等人基于案例引證網(wǎng)絡(luò)節(jié)點(diǎn)的中心性和介數(shù)性提出了一種計(jì)算印度法院判決相似度的方法[25];Minocha 等人提出了一個(gè)法律離散度的概念,通過衡量兩個(gè)案例的相鄰節(jié)點(diǎn)集合的相似度,查找一個(gè)案例在引文網(wǎng)絡(luò)中的相似案例[26]。針對引文網(wǎng)絡(luò)通常非常稀疏的問題,有研究者開始引入機(jī)器學(xué)習(xí)算法對法律文本相似度進(jìn)行計(jì)算,如基于段落相似度計(jì)算全文相似度、基于詞頻的貝葉斯統(tǒng)計(jì)方法、基于案件特征的最近鄰算法,但這些基于統(tǒng)計(jì)特征的方法丟失了文本原有的語義信息。為了盡可能保留文本的語義信息,使用詞嵌入和深度學(xué)習(xí)模型逐漸成為類案檢索任務(wù)的主流方法。

        4 結(jié)束語

        針對法律文本處理問題,本文簡要介紹了近年來以深度學(xué)習(xí)方法為主的相關(guān)研究成果,分別對法律文本表示、法律文本分類以及法律文本挖掘與應(yīng)用領(lǐng)域的研究方向和進(jìn)展進(jìn)行了梳理和分析。除本文介紹的這些方向外,法律文本處理涉及到任務(wù)還包括法律問答、法律要素抽取、法律文本摘要等。

        總體而言,傳統(tǒng)的文本處理技術(shù)均可以在法律文本處理任務(wù)中發(fā)揮重要作用,而以詞嵌入方法和神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)模型的引入,更是能夠充分學(xué)習(xí)海量法律文本中蘊(yùn)含的龐大語義信息。但是,如何使深度學(xué)習(xí)模型更好地與法律專業(yè)知識進(jìn)行融合,是目前眾多研究工作面臨的共同難題,如何兼顧模型性能和結(jié)果可解釋性將成為該領(lǐng)域未來研究的焦點(diǎn)問題。

        猜你喜歡
        分類特征法律
        分類算一算
        法律解釋與自然法
        法律方法(2021年3期)2021-03-16 05:57:02
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        讓人死亡的法律
        山東青年(2016年1期)2016-02-28 14:25:30
        “互助獻(xiàn)血”質(zhì)疑聲背后的法律困惑
        美女裸体无遮挡黄污网站| 看中文字幕一区二区三区| 亚洲黑寡妇黄色一级片| 媚药丝袜美女高清一二区| 午夜射精日本三级| 久久aⅴ人妻少妇嫩草影院| 国产精品视频流白浆免费视频| 亚洲av黄片一区二区| 国内自拍色第一页第二页| 精品人妻无码视频中文字幕一区二区三区| 四月婷婷丁香七月色综合高清国产裸聊在线 | 亚洲aⅴ无码成人网站国产app| 久久99精品久久久久九色| 人妻系列中文字幕av| 少妇伦子伦精品无吗| 久久夜色撩人精品国产小说| 青草网在线观看| 国产三级视频在线观看国产| 体验区试看120秒啪啪免费| 我把护士日出水了视频90分钟| 欧美精品区| 26uuu欧美日本在线播放| 蜜桃av中文字幕在线观看| 成人影院yy111111在线| 无码国产亚洲日韩国精品视频一区二区三区 | 久久久久成人精品无码| 成人a在线观看| 在线观看国产av一区二区| 中文区中文字幕免费看| 欧美性xxxx狂欢老少配| h动漫尤物视频| 麻神在线观看免费观看| 日韩亚洲欧美中文在线| 国产精品九九热| av资源在线播放网站| 国产免费av手机在线观看片| 亚洲男人第一无码av网站| 手机色在线| 偷拍综合在线视频二区日韩| 狠狠色婷婷久久一区二区三区| 亚洲熟妇网|