亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于刑事案例的知識圖譜構(gòu)建技術(shù)

        2019-09-23 07:07:04陳彥光劉海順李春楠孫媛媛
        關(guān)鍵詞:案情圖譜準(zhǔn)確率

        陳彥光, 劉海順, 李春楠, 劉 靜, 孫媛媛

        (1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 遼寧 大連 116024;2. 大連市人民檢察院 技術(shù)處 遼寧 大連 116011)

        0 引言

        近年來,我國不斷深入推進(jìn)“智慧司法”建設(shè).隨著中國裁判文書網(wǎng)、中國庭審公開網(wǎng)等平臺的相繼建成運(yùn)行,我國司法公開達(dá)到前所未有的廣度和深度.若能以網(wǎng)絡(luò)上海量的案例信息為基礎(chǔ)構(gòu)建知識圖譜,將產(chǎn)生巨大價值.知識圖譜是用于描述海量實(shí)體、實(shí)體屬性及實(shí)體間關(guān)系的有效工具[1].隨著語義網(wǎng)絡(luò)的快速發(fā)展,互聯(lián)網(wǎng)上出現(xiàn)了大量的知識圖譜,如國外的YAGO、國內(nèi)的開放中文知識圖譜OpenKG.CN等.但以上知識圖譜都是面向通用領(lǐng)域的,面向?qū)I(yè)領(lǐng)域尤其是司法領(lǐng)域的知識圖譜尚寥寥無幾. 國內(nèi)外在司法領(lǐng)域進(jìn)行自然語言處理和數(shù)據(jù)挖掘研究均已有報(bào)道.國外方面,文獻(xiàn)[2]發(fā)明了一種基于荷蘭案例法的法律推薦系統(tǒng);文獻(xiàn)[3]結(jié)合司法領(lǐng)域的信息檢索技術(shù),設(shè)計(jì)了一個司法問答系統(tǒng);文獻(xiàn)[4]基于Okapi檢索模型,提出了一種改進(jìn)的法律判決信息提取方法;文獻(xiàn)[5]提出了奧地利法律的表示方法,并構(gòu)建了司法知識圖譜.國內(nèi)方面,文獻(xiàn)[6]介紹了法律知識庫的設(shè)計(jì)思路及框架;文獻(xiàn)[7]運(yùn)用語義標(biāo)注技術(shù)構(gòu)建刑事審判本體實(shí)例庫;文獻(xiàn)[8]將文本挖掘技術(shù)應(yīng)用于法律事務(wù),可以讓不熟悉專業(yè)用語的群眾更有效地獲得相關(guān)查詢;文獻(xiàn)[9-10]實(shí)現(xiàn)了對法律文書的罪名預(yù)測;文獻(xiàn)[11]將定罪過程建模為多標(biāo)簽分類問題,解決了定罪過程中出現(xiàn)的動態(tài)標(biāo)簽問題和標(biāo)簽分布不平衡問題.近年來,在垂直領(lǐng)域的中文知識圖譜構(gòu)建技術(shù)方面,針對醫(yī)療和化學(xué)等領(lǐng)域的數(shù)據(jù)處理、知識獲取和命名實(shí)體識別技術(shù)等方法也有一些研究[12-14].

        本文以涉毒類案件為例,提出了一種面向刑事案例的知識圖譜構(gòu)建系統(tǒng),系統(tǒng)主要包含案例信息提取算法、復(fù)雜案例的案情抽取模型和案件要素抽取算法.刑事判決書文檔以內(nèi)容劃分,可以分為單人、單情節(jié)的簡單案例文檔,以及涉及多個犯罪嫌疑人或多個犯罪情節(jié)的復(fù)雜案例文檔,二者區(qū)別在于復(fù)雜案例文檔中案情描述部分占據(jù)很大篇幅,難以通過規(guī)則對其案情描述進(jìn)行提取.現(xiàn)有的對刑事判決書的文本挖掘研究以簡單案例為主,直接對復(fù)雜案例進(jìn)行挖掘存在困難.本文在知識圖譜構(gòu)建系統(tǒng)中運(yùn)用了一種迭代方法,利用簡單案例的信息抽取結(jié)果訓(xùn)練適用于復(fù)雜案例的信息抽取模型,從而為在缺少人工標(biāo)注數(shù)據(jù)集的情況下進(jìn)行復(fù)雜案例信息抽取提供了一種思路.

        1 基于司法案例的知識圖譜構(gòu)建方法

        依照裁判文書的結(jié)構(gòu)特征,基于司法案例的知識圖譜構(gòu)建流程如圖1所示.由圖1可以看出,本文的主要方法包含3個部分:案例信息提取算法的設(shè)計(jì)、復(fù)雜案例案情抽取模型的設(shè)計(jì)以及案件要素抽取算法的設(shè)計(jì).

        圖1 基于司法案例的知識圖譜構(gòu)建流程Fig.1 Flow chart of the knowledge graph construction based on judicial cases

        1.1 案例信息提取算法的設(shè)計(jì)

        1.1.1案例本體結(jié)構(gòu)定義 本體是對一個特定領(lǐng)域的重要概念的形式化描述.在本文定義的案例本體結(jié)構(gòu)中,根元素為案例的刑事判決書,涵蓋全部案例信息.案例本體和實(shí)例對照如表1所示.其中針對本體結(jié)構(gòu)中的犯罪情節(jié),定義其實(shí)例為該案例的案情描述,本文中出現(xiàn)的犯罪情節(jié)是指本體結(jié)構(gòu)中的犯罪情節(jié)部分.

        表1 案例本體和實(shí)例對照Tab.1 Comparison of case ontology and instance

        1.1.2信息提取規(guī)則設(shè)計(jì) 通過分析大量的刑事判決書內(nèi)容,可以發(fā)現(xiàn)刑事判決書的內(nèi)容組織形式相對規(guī)范,且在每個部分有標(biāo)志性詞語可作為信息提取的關(guān)鍵點(diǎn).依照定義的案例本體結(jié)構(gòu),分別為需要抽取的信息構(gòu)造語法規(guī)則,同時注意對現(xiàn)有的規(guī)則進(jìn)行補(bǔ)充完善,盡量覆蓋每份刑事判決書的全部信息.

        1.1.3案例信息提取流程 案例信息提取流程如圖2所示.由于刑事判決書的內(nèi)容格式相對規(guī)范,直接使用正則表達(dá)式和信息提取規(guī)則對各部分信息進(jìn)行提取.

        圖2 案例信息提取流程Fig.2 Flow chart of case information extraction

        1.2 復(fù)雜案例案情抽取模型的設(shè)計(jì)

        案例信息提取算法在簡單案例上效果良好,但在復(fù)雜案例上難以將全部犯罪情節(jié)提取出來.針對此問題,將復(fù)雜案例的判決書文本劃分為句子集合,利用文本分類方法將這些句子分為案情描述句和非案情描述句兩類.實(shí)驗(yàn)結(jié)果表明,句子分類模型對復(fù)雜案例案情描述提取的準(zhǔn)確率,與案例信息提取算法對簡單案例案情描述提取的準(zhǔn)確率相當(dāng).對復(fù)雜案例犯罪情節(jié)以外的其他案例信息依然使用案例信息提取算法進(jìn)行提取.

        1.2.1基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法 卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類深度前饋人工神經(jīng)網(wǎng)絡(luò),在計(jì)算機(jī)視覺和語音識別方面取得了顯著成果.2014年,文獻(xiàn)[15]提出用CNN進(jìn)行文本分類的方法.CNN句子分類模型結(jié)構(gòu)簡單,輸入層既可以使用初始化的詞向量,也可以使用預(yù)訓(xùn)練的詞向量;隱藏層使用一維卷積操作提取文本特征;輸出層使用Softmax分類器基于文本特征預(yù)測分類結(jié)果.

        1.2.2基于CNN的案情描述句子分類模型 對復(fù)雜案例的案情描述和非案情描述進(jìn)行分類,但是缺少基于復(fù)雜案例的案情描述句和非案情描述句標(biāo)注數(shù)據(jù)集,直接構(gòu)造可用于訓(xùn)練句子分類模型的數(shù)據(jù)集需要一定的時間和人力成本.考慮到復(fù)雜案例的案情描述句和簡單案例的案情描述句在語法和語義上具有一致性,一個簡單案例通常只有一個案情描述句,可通過案例信息提取算法直接提取出來.一個復(fù)雜案例有幾個到幾十個案情描述句,單個句子均與上述實(shí)例類似.對非案情描述部分而言,簡單案例和復(fù)雜案例在句子級上也具有一致性.因此,由簡單案例的案例信息提取結(jié)果構(gòu)造訓(xùn)練集,訓(xùn)練句子分類模型,以對復(fù)雜案例的案情描述進(jìn)行提取,模型的測試集是基于復(fù)雜案例構(gòu)造的.在句子分類模型的選擇上,選擇了CNN句子分類模型[15].該模型是輕量級的,不會占用過多的時間成本,并且具有較好的魯棒性,在一定程度上能滿足知識圖譜構(gòu)建的需要.

        以訓(xùn)練好的CNN句子分類模型為中心,前置判決書文本預(yù)處理模塊,后置案情描述輸出模塊,將該模型包裝為復(fù)雜案例的案情抽取模型,嵌入知識圖譜構(gòu)建系統(tǒng).模型的輸入為判決書文檔,輸出為犯罪情節(jié).該模型為復(fù)雜案例犯罪情節(jié)的提取提供了一個解決方案.實(shí)驗(yàn)結(jié)果表明,將判決書分為簡單案例判決書和復(fù)雜案例判決書,以簡單案例為基礎(chǔ)迭代處理復(fù)雜案例的方法是完全可行的.

        “三個一”精準(zhǔn)化鉆井實(shí)現(xiàn)了技術(shù)措施監(jiān)控由事后處理向事前控制的轉(zhuǎn)變。以往井隊(duì)做出技術(shù)決策后對公司技術(shù)部門存在不報(bào)或瞞報(bào)問題,只有技術(shù)措施執(zhí)行不下去或出現(xiàn)復(fù)雜故障的時候才向技術(shù)部門匯報(bào)。對此公司技術(shù)部門采取以下措施:

        1.3 案件要素抽取算法的設(shè)計(jì)

        將刑事判決書的內(nèi)容分為案情描述和非案情描述兩個部分.針對刑事判決書中的案情描述,通過自然語言處理技術(shù)進(jìn)行深入分析,在實(shí)體識別的基礎(chǔ)上提取構(gòu)成刑事案件的基本要素即案件要素,結(jié)合關(guān)系類型構(gòu)建“實(shí)體-關(guān)系-實(shí)體”三元組.

        1.3.1案件要素識別過程 在進(jìn)行案例信息提取之后,針對案情描述部分,依照自然語言處理的通用流程,使用語言技術(shù)平臺LTP[16]進(jìn)行分詞、詞性標(biāo)注及命名實(shí)體識別處理.

        由于面向司法領(lǐng)域,因此需要構(gòu)造詞典對案情描述中涉及的名詞如罪名、犯罪動作、毒品類案件中的非法毒品名稱等進(jìn)行定義.在對通用的命名實(shí)體進(jìn)行識別之后,結(jié)合實(shí)際辦案情況,對命名實(shí)體識別的結(jié)果進(jìn)行二次處理,添加非法毒品名稱等類型的實(shí)體,使用BIEOS標(biāo)注方案進(jìn)行表示,最終得到犯罪情節(jié)中的犯案時間、犯案地點(diǎn)、涉案人、涉案毒品等案件要素信息.

        1.3.2關(guān)系定義 本文旨在構(gòu)建對提供量刑建議有參考價值的知識圖譜,因此重點(diǎn)考慮與量刑有關(guān)的關(guān)系類型,對其他信息暫不考慮.

        以涉毒類案件為例,常見的罪名有三類:販賣毒品罪、非法持有毒品罪、容留他人吸毒罪.上述三類罪名中與量刑相關(guān)的犯罪動作可劃分為五類,分別為“賣”“買”“持有”“容留”“吸食”;針對被告人的判決結(jié)果,可將刑罰也劃分為五類,分別為“罰金”“拘役”“有期徒刑”“無期徒刑”“死刑”.

        1.3.3三元組構(gòu)建 針對非結(jié)構(gòu)化的案情描述,按照定義的關(guān)系類型,結(jié)合語句的語法結(jié)構(gòu)設(shè)定規(guī)則,將識別案件要素以三元組形式存儲.

        在確定三元組中兩個實(shí)體的關(guān)系時,需要通過分析語法結(jié)構(gòu)中的主謂關(guān)系等進(jìn)行判別.對文本進(jìn)行依存句法分析,確定語句中各要素之間的句法關(guān)系.依存句法分析是將句子由一個文本序列轉(zhuǎn)化為一棵結(jié)構(gòu)化的依存分析樹,通過依存樹上的關(guān)系標(biāo)記來表示案件要素之間的關(guān)系.

        為將每個案件的犯罪情節(jié)和案例的基本信息聯(lián)系起來,將案例信息同樣存儲為數(shù)據(jù)表的格式,刑事判決書的文書編號作為外鍵和犯罪情節(jié)的數(shù)據(jù)表進(jìn)行關(guān)聯(lián).針對每個情節(jié)的犯案時間和地點(diǎn),同樣存儲在數(shù)據(jù)表中,通過指代該情節(jié)三元組的ID值與犯罪情節(jié)的數(shù)據(jù)表相關(guān)聯(lián).

        2 實(shí)驗(yàn)結(jié)果

        2.1 數(shù)據(jù)集

        使用的數(shù)據(jù)集為中國裁判文書網(wǎng)公布的涉毒類案件的刑事判決書,涉毒類案件主要以三類罪名為主,分別為販賣毒品罪、非法持有毒品罪和容留他人吸毒罪.其中販賣毒品案件209 055份,非法持有毒品案件30 927份,容留他人吸毒案件88 600份.根據(jù)簡單案例和復(fù)雜案例的刑事判決書案情描述部分的書寫結(jié)構(gòu)不同,首先篩選出簡單案例共247 865份,其余都?xì)w為復(fù)雜案例.

        2.2 案例信息提取

        根據(jù)所定義的案例本體結(jié)構(gòu)和提取規(guī)則,設(shè)計(jì)了案例信息提取算法,實(shí)現(xiàn)了案例信息的提取和存儲.實(shí)驗(yàn)采用328 582份案例的刑事判決書文本文檔為數(shù)據(jù)集,依據(jù)信息抽取過程中出現(xiàn)的問題,不斷對規(guī)則進(jìn)行修正和補(bǔ)充,得到最終的案例信息提取算法.

        由于數(shù)據(jù)無標(biāo)注,需要人工對算法進(jìn)行評估.對三類案件的簡單案例分別隨機(jī)抽取130份進(jìn)行統(tǒng)計(jì),每組進(jìn)行三次實(shí)驗(yàn),采用準(zhǔn)確率和召回率兩個指標(biāo)作為模型的評價標(biāo)準(zhǔn).本文中的準(zhǔn)確率和召回率都是以每篇刑事判決書文檔為單位進(jìn)行定義,準(zhǔn)確率和召回率的計(jì)算公式如下:

        針對三類案件分別進(jìn)行案例信息提取實(shí)驗(yàn),其中販賣毒品罪、非法持有毒品罪和容留他人吸毒罪在文檔級別的準(zhǔn)確率分別為80.15%、82.34%和81.04%,召回率分別為93.47%、97.26%和94.94%.

        由于提取的案例信息中的犯罪情節(jié)部分規(guī)定必須準(zhǔn)確涵蓋該案例的案情描述內(nèi)容,不可以缺少信息,也不能夠包括多余的信息,如證據(jù)、證人證言、公訴機(jī)關(guān)的指控意見等,所以對準(zhǔn)確率的定義比較嚴(yán)格.而在真實(shí)的刑事判決書中,由于辦案人員寫作風(fēng)格的不同,部分文書中案情描述會夾雜著證據(jù)、證人證言等內(nèi)容,因此整體而言,案例信息提取算法的總體準(zhǔn)確率主要受犯罪情節(jié)提取準(zhǔn)確率的影響,但三類案件準(zhǔn)確率的平均值都達(dá)到了80%以上.由實(shí)驗(yàn)結(jié)果可以看出,本文的案例信息提取算法可以將刑事判決書中的案例信息有效地抽取出來.

        2.3 復(fù)雜案例的案情描述提取

        首先針對販賣毒品類案件訓(xùn)練了CNN句子分類模型.隨機(jī)選取簡單案例的案情描述句子1 000句作為正例,字長度大于20的非案情描述句子1 000句作為負(fù)例,以此構(gòu)成訓(xùn)練集,另外在復(fù)雜案例中按上述要求各取300句構(gòu)成測試集.分別使用初始化詞向量和預(yù)訓(xùn)練詞向量進(jìn)行兩組實(shí)驗(yàn),準(zhǔn)確率分別為65.38%和75.26%,其中預(yù)訓(xùn)練詞向量由30余萬份判決書文檔使用Gensim訓(xùn)練得到.

        通過實(shí)驗(yàn)可知,使用預(yù)訓(xùn)練詞向量的效果更好,所以使用預(yù)訓(xùn)練詞向量進(jìn)行后續(xù)實(shí)驗(yàn).由于訓(xùn)練集樣本過少,得到的模型不足以被系統(tǒng)使用,故將訓(xùn)練集擴(kuò)大到5 000句正例和5 000句負(fù)例,將測試集擴(kuò)大到1 000句正、負(fù)例.當(dāng)訓(xùn)練集規(guī)模達(dá)到10 000句時,準(zhǔn)確率可達(dá)到91.51%,與案例信息提取算法對簡單案例的案情描述提取結(jié)果相當(dāng),因此該分類模型可以被系統(tǒng)采用.在10 000句訓(xùn)練集的基礎(chǔ)上,還分別基于SVM分類模型、邏輯回歸模型和隨機(jī)森林方法進(jìn)行了對比實(shí)驗(yàn),準(zhǔn)確率分別為85.34%、84.15%和84.40%,結(jié)果均弱于本文采用的CNN句子分類模型.

        驗(yàn)證了CNN句子分類模型的效果之后,又分別針對非法持有毒品類案件和容留他人吸毒類案件訓(xùn)練了CNN句子分類模型.以準(zhǔn)確率作為參考指標(biāo)衡量模型的提取效果,販賣毒品罪、非法持有毒品罪和容留他人吸毒罪的實(shí)驗(yàn)結(jié)果分別為91.51%、93.24%和89.77%.

        2.4 司法案例知識圖譜構(gòu)建

        構(gòu)建的知識圖譜中包含非犯罪情節(jié)和犯罪情節(jié)兩部分內(nèi)容.非犯罪情節(jié)部分是指通過案例信息提取算法提取的案例基本信息表;犯罪情節(jié)部分是圍繞定義的五類犯罪關(guān)系和五類判決結(jié)果關(guān)系,將與量刑相關(guān)的文字描述處理為多個結(jié)構(gòu)化的三元組形式,然后進(jìn)行存儲,形成犯罪情節(jié)信息表,同時將犯罪情節(jié)的時間和地點(diǎn)也存儲為數(shù)據(jù)表的形式,構(gòu)成基于司法案例的知識圖譜.

        以“陳某容留他人吸毒案(2017)川1 681刑初63號”文件為例,其中針對犯罪情節(jié)的描述為:“1. 2017年4月初的一天,被告人陳某在華鎣市XX路XX號其家中容留王某某吸食毒品甲基苯丙胺(冰毒).2. 2017年4月21日晚,被告人陳某在華鎣市XX路XX號容留柏某、王某吸食毒品甲基苯丙胺……”;針對判決結(jié)果的描述為:“判處有期徒刑九個月,并處罰金人民幣6 000元”.

        以此為基礎(chǔ)構(gòu)建的三元組形式示例如表2所示.可以看出,用本文的方法準(zhǔn)確地將犯罪情節(jié)中的各個案件要素抽取出來,并與關(guān)系對應(yīng),形成“實(shí)體-關(guān)系-實(shí)體”三元組形式,同時將被告人的判決結(jié)果處理為數(shù)字化形式,刑期以[年, 月, 日]的形式存儲,可以進(jìn)行對案件情節(jié)和判決結(jié)果的統(tǒng)計(jì).

        以三類涉毒類案件為數(shù)據(jù)基礎(chǔ)進(jìn)行了知識圖譜的構(gòu)建,建成的知識圖譜中“實(shí)體-關(guān)系-實(shí)體”三元組共274萬余個,包含涉及量刑的犯罪情節(jié)和判決結(jié)果的信息.基于本文構(gòu)建的知識圖譜,可以方便地進(jìn)行查詢、統(tǒng)計(jì)等應(yīng)用.表3給出了三類案件簡單案例中的罰金分布統(tǒng)計(jì)情況.

        表2 量刑相關(guān)的三元組形式示例Tab.2 Form of the triples related to measurement of penalty

        表3 三類案件簡單案例中的罰金分布統(tǒng)計(jì)情況Tab.3 Statistics of fines in simple cases of the three crimes

        3 結(jié)論

        針對2004—2017年公開的30余萬份涉毒類案件刑事判決書,構(gòu)建了面向涉毒類刑事案件的知識圖譜.基于所構(gòu)建的知識圖譜,可實(shí)現(xiàn)對相關(guān)案件關(guān)鍵情節(jié)和判決結(jié)果的統(tǒng)計(jì)分析,為司法文書的智能化處理提供數(shù)據(jù)基礎(chǔ).下一步的工作將對已構(gòu)建的知識圖譜進(jìn)行完善,對指代同一事物的實(shí)體進(jìn)行實(shí)體消歧,同時繼續(xù)挖掘判決書的文本特征,改進(jìn)案件要素提取算法,訓(xùn)練針對多類案件的多分類模型,以及評估多分類模型的優(yōu)良性.

        猜你喜歡
        案情圖譜準(zhǔn)確率
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        繪一張成長圖譜
        是誰下的毒
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        主動對接你思維的知識圖譜
        報(bào)案者
        “兩高”刑事指導(dǎo)性案例的文本分析及改進(jìn)
        亚洲av永久无码国产精品久久| 国产精品久久久看三级| 亚洲国产精品av麻豆一区| 国产自拍在线视频91| 久久午夜福利无码1000合集| 久久成人国产精品| 亚洲性无码av在线| 欧洲无码一级毛片无遮挡| 亚洲色大成网站www久久九| 中字幕久久久人妻熟女| 国产极品美女到高潮视频| 老熟妇嗷嗷叫91九色| 蜜桃精品人妻一区二区三区| 久久久无码精品亚洲日韩蜜臀浪潮 | 日韩av水蜜桃一区二区三区| 久久亚洲精品中文字幕| 免费人妻精品一区二区三区| 乱码一二三入区口| 强d漂亮少妇高潮在线观看| 日韩一区三区av在线| 狠狠躁夜夜躁人人爽超碰97香蕉| 国产乱码精品一区二区三区四川人 | 狠狠色噜噜狠狠狠777米奇| 亚洲熟女乱色综合亚洲图片| 伊香蕉大综综综合久久| 国产特黄1区2区3区4区| 日本免费一区二区三区影院| 日本不卡的一区二区三区中文字幕 | 日本美女中文字幕第一区| 免费不卡无码av在线观看| 50岁熟妇大白屁股真爽| 18无码粉嫩小泬无套在线观看| 国产精品色内内在线播放| 亚洲精品视频一区二区三区四区| 成人免费自拍视频在线观看| 日本三级欧美三级人妇视频黑白配| 国产精品爆乳在线播放| 人妻免费黄色片手机版| 人妻一区二区三区av| 久久成人成狠狠爱综合网| ā片在线观看免费观看|