亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于法院判決文書(shū)的法律知識(shí)圖譜構(gòu)建和補(bǔ)全

        2021-07-26 02:34:36寧,劉瑋,蘭
        關(guān)鍵詞:語(yǔ)義

        王 寧,劉 瑋,蘭 劍

        (武漢工程大學(xué) 計(jì)算機(jī)科學(xué)與工程系 湖北 武漢 430205)

        0 引言

        谷歌提出的知識(shí)圖譜概念作為語(yǔ)義網(wǎng)的升華,是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),以符號(hào)形式描述物理世界中的概念實(shí)體及其相互關(guān)系,是從“關(guān)系”的角度來(lái)分析問(wèn)題并為搜索提供了新思路。所以關(guān)系抽取是知識(shí)圖譜構(gòu)建和補(bǔ)全的關(guān)鍵一步。通常實(shí)體關(guān)系抽取使用最多的是通用實(shí)體關(guān)系抽取和領(lǐng)域?qū)嶓w關(guān)系抽取[1-2]。完全自動(dòng)化的通用實(shí)體關(guān)系抽取存在很多錯(cuò)誤,難以構(gòu)建出準(zhǔn)確的法律知識(shí)圖譜。如盛美倫提出一種句子卷曲法來(lái)抽取可接受解的字串[3]。這種非監(jiān)督的外部方法需要大量的空間和時(shí)間開(kāi)銷(xiāo),且不能保證一定能找到可接受解的字串。而領(lǐng)域?qū)嶓w關(guān)系的抽取是目前人們研究的重點(diǎn)和難點(diǎn),通常采用的是基于特征法和規(guī)則法。如周琦等設(shè)計(jì)了一種語(yǔ)義方法GeoRSG來(lái)表現(xiàn)地理試題之間的位置關(guān)系,然后用規(guī)則法實(shí)現(xiàn)地理位置關(guān)系在文本中的語(yǔ)言表達(dá)方式[4]。國(guó)內(nèi)對(duì)法律本體的研究較少,關(guān)于法律領(lǐng)域知識(shí)圖譜的構(gòu)建目前只有陳淑燕提出的一個(gè)簡(jiǎn)單法律知識(shí)框架[5]:使用法規(guī)知識(shí)庫(kù)的方法來(lái)分析案件。這種方法的缺點(diǎn)是隨著案例庫(kù)的增大,效率明顯下降,并且不能提供明確的語(yǔ)義信息,適用性不強(qiáng)。

        知識(shí)圖譜的補(bǔ)全就是向一個(gè)已有的知識(shí)圖譜中增加新的三元組來(lái)不斷完善和豐富知識(shí)圖譜的內(nèi)容。用于補(bǔ)全知識(shí)圖譜的信息有:從一個(gè)知識(shí)圖譜已有的三元組來(lái)推理新的三元組、從文本中抽取新的實(shí)體和三元組。傳統(tǒng)方法有以TransE[6]模型為代表的基于翻譯轉(zhuǎn)化的知識(shí)圖譜補(bǔ)全算法,核心思想是從頭實(shí)體到尾實(shí)體的翻譯操作,之后在其基礎(chǔ)上演化出了TransH、TransR。另一種是基于關(guān)系路徑的知識(shí)圖譜補(bǔ)全算法,即在知識(shí)圖譜中添加一條邊(關(guān)系)來(lái)連接兩個(gè)點(diǎn)(實(shí)體)。這種算法能夠合理解釋預(yù)測(cè)結(jié)果,但是無(wú)法在低連通圖(關(guān)系稀疏的知識(shí)圖譜)上進(jìn)行有效計(jì)算。

        已有的研究有王禎基于嵌入模型的知識(shí)圖譜補(bǔ)全提出的一種多任務(wù)聯(lián)合學(xué)習(xí)框架下的嵌入模型,該模型是對(duì)所有關(guān)系事實(shí)三元組進(jìn)行處理[7];唐慧琳提出的基于融合三角形子圖的嵌入表示模型及實(shí)體間語(yǔ)義關(guān)聯(lián)進(jìn)行旅游知識(shí)圖譜的補(bǔ)全[8];羅琦提出的基于實(shí)體描述和關(guān)系路徑的知識(shí)圖譜補(bǔ)全[9]。王禎的方法僅使用了無(wú)標(biāo)注的語(yǔ)料庫(kù),所謂的結(jié)合就是模型預(yù)測(cè)結(jié)果的直接合并,較為粗淺,且基于多源的文本;唐慧琳主要設(shè)計(jì)了一個(gè)基于垂直領(lǐng)域知識(shí)圖譜的景點(diǎn)推薦問(wèn)答系統(tǒng),領(lǐng)域性過(guò)強(qiáng),無(wú)法直接借鑒使用;而羅琦的算法是基于關(guān)系路徑補(bǔ)全的典型代表,其最大的缺點(diǎn)就是需要有一個(gè)較為完善的現(xiàn)成的知識(shí)圖譜來(lái)進(jìn)行訓(xùn)練。

        因此本文在以上問(wèn)題的基礎(chǔ)上,以“偽卡盜刷判決書(shū)”為研究對(duì)象,目標(biāo)是為每一份判決書(shū)文本構(gòu)建出的知識(shí)圖譜進(jìn)行自動(dòng)補(bǔ)全。主要的貢獻(xiàn)有:

        1)整合了基于StanfordNLP(斯坦福自然語(yǔ)言處理包)的偽卡盜刷知識(shí)圖譜構(gòu)建流程,實(shí)驗(yàn)結(jié)果驗(yàn)證了該流程的可行性與有效性,為下一步的補(bǔ)全工作提供了數(shù)據(jù)基礎(chǔ);

        2)提出了一種基于謂語(yǔ)導(dǎo)向詞的深度學(xué)習(xí)模型,用來(lái)對(duì)1)中建立的偽卡盜刷知識(shí)圖譜進(jìn)行補(bǔ)全。相比于傳統(tǒng)的詞袋模型(bag of words)和word2vector能更好地表達(dá)語(yǔ)法信息。

        1 相關(guān)研究綜述

        本節(jié)介紹關(guān)系抽取過(guò)程中面臨的主要問(wèn)題:構(gòu)建法律領(lǐng)域本體、語(yǔ)義標(biāo)注、構(gòu)建三元組。

        1.1 本體構(gòu)建

        本體的構(gòu)建[10-11]復(fù)雜且重要,是構(gòu)建知識(shí)圖譜的基礎(chǔ)。現(xiàn)在多為手工構(gòu)建本體,費(fèi)時(shí)費(fèi)力,特定領(lǐng)域需要專(zhuān)家參與,對(duì)于構(gòu)建較大的知識(shí)圖譜并不現(xiàn)實(shí)。自動(dòng)化構(gòu)建的結(jié)果受訓(xùn)練集、數(shù)據(jù)集以及訓(xùn)練方法的影響大,正確率低。本文采用半自動(dòng)構(gòu)建來(lái)彌補(bǔ)上述兩種方法的不足。首先使用python中的模塊對(duì)判決書(shū)進(jìn)行分詞得到法律領(lǐng)域的關(guān)鍵詞集,再使用自然語(yǔ)言處理工具進(jìn)行諸如詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵字抽取等預(yù)處理。最后在法律領(lǐng)域?qū)<业闹笇?dǎo)下(人工干預(yù))構(gòu)建出高質(zhì)量的領(lǐng)域本體。

        1.2 語(yǔ)義角色標(biāo)注

        語(yǔ)義角色標(biāo)注[12]是一種淺層語(yǔ)義分析技術(shù),其任務(wù)就是以句子的謂詞(通常是動(dòng)詞)為中心,研究句子中各成分與謂詞之間的關(guān)系,并用語(yǔ)義角色來(lái)描述這種關(guān)系。序列標(biāo)注是語(yǔ)義角色標(biāo)注的基礎(chǔ)工作,包括分詞、詞性標(biāo)注、實(shí)體識(shí)別和依存分析。解決的方法有傳統(tǒng)法和深度學(xué)習(xí)法。傳統(tǒng)法是采用條件隨機(jī)場(chǎng)[13](conditional random field,CRF)模型來(lái)針對(duì)序列數(shù)據(jù)進(jìn)行分類(lèi);長(zhǎng)短期記憶網(wǎng)絡(luò)[14](long short-term memory,LSTM)是深度學(xué)習(xí)的主要方法。由于兩種方法各有利弊,所以目前最好的方法就是結(jié)合其優(yōu)點(diǎn),先用LSTM自動(dòng)抽取特征,再通過(guò)CRF進(jìn)行序列數(shù)據(jù)標(biāo)記,也就是在LSTM的輸出層中再加一個(gè)CRF層。本文采用的是淺層語(yǔ)義分析技術(shù)來(lái)標(biāo)注語(yǔ)義角色。

        1.3 關(guān)系抽取和知識(shí)圖譜

        資源描述框架[15-16](resource description framework,RDF)是以元數(shù)據(jù)的概念提出的。其形式為三元組,可作為關(guān)系抽取結(jié)果的一種存儲(chǔ)方式。三元組建立的主流方法有有監(jiān)督的學(xué)習(xí)法、半監(jiān)督的學(xué)習(xí)法和無(wú)監(jiān)督的學(xué)習(xí)法。有監(jiān)督的學(xué)習(xí)法將關(guān)系抽取任務(wù)作為分類(lèi)問(wèn)題。半監(jiān)督的學(xué)習(xí)法采用BootStrapping[17]。無(wú)監(jiān)督的學(xué)習(xí)法是利用每個(gè)實(shí)體的上下文信息來(lái)代表該實(shí)體的語(yǔ)義關(guān)系并進(jìn)行聚類(lèi)。由于有監(jiān)督學(xué)習(xí)法具有嚴(yán)重的依賴(lài)性,近年來(lái)又有學(xué)者提出一種基于深度學(xué)習(xí)的關(guān)系抽取,如Socher等提出了使用遞歸神經(jīng)網(wǎng)絡(luò)來(lái)解決關(guān)系抽取問(wèn)題[18],以及邵明光用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取[19],還有基于端到端神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型均取得了較大的提升。

        三元組是關(guān)系抽取結(jié)果的一種存儲(chǔ)方式,同時(shí)也是知識(shí)圖譜的最小組成單元。從數(shù)據(jù)結(jié)構(gòu)的角度考慮,知識(shí)圖譜代表了一張巨大的關(guān)系圖,而三元組文本形式的事實(shí)數(shù)據(jù)則對(duì)應(yīng)關(guān)系圖中的邊[20]。目前主流方法傾向于人工建立規(guī)則和基于統(tǒng)計(jì)的方法來(lái)從標(biāo)簽信息中抽取關(guān)系[21-25]。

        2 基于偽卡盜刷判決書(shū)文本的知識(shí)圖譜構(gòu)建和補(bǔ)全

        具體介紹基于StanfordNLP的偽卡盜刷判決書(shū)知識(shí)圖譜的構(gòu)建,主要步驟如下。

        Step1 規(guī)范化處理。將搜集的數(shù)據(jù)統(tǒng)一進(jìn)行規(guī)范化處理,得到處理后的數(shù)據(jù)集。

        Step2 本體構(gòu)建?;诜ㄔ号袥Q書(shū)及具體刑事判決資料,用統(tǒng)計(jì)的方法在法律領(lǐng)域?qū)<乙约爸R(shí)圖譜老師的指導(dǎo)建議下,構(gòu)建出高質(zhì)量的偽卡盜刷領(lǐng)域本體。

        Step3 標(biāo)注數(shù)據(jù)。為了完善Step2中的偽卡盜刷領(lǐng)域本體,利用淺層語(yǔ)義分析技術(shù)對(duì)法院判決書(shū)進(jìn)行語(yǔ)義角色標(biāo)注,得到標(biāo)注數(shù)據(jù)。

        Step4 關(guān)系抽取。通過(guò)使用StanfordNLP對(duì)Step3中的標(biāo)注數(shù)據(jù)進(jìn)行實(shí)體和關(guān)系抽取,得到結(jié)構(gòu)化的實(shí)體與關(guān)系集,建立三元組。

        2.1 法律本體構(gòu)建

        對(duì)法律領(lǐng)域的本體構(gòu)建需要明確專(zhuān)業(yè)術(shù)語(yǔ)、關(guān)系及其領(lǐng)域,使其形式化以實(shí)現(xiàn)一定程度的法律領(lǐng)域知識(shí)復(fù)用。構(gòu)建的原則:明確性和客觀性(用自然語(yǔ)言定義)、一致性、最小承諾(盡可能少約束)、最小編碼偏差以及使用多樣的概念層次結(jié)構(gòu)實(shí)現(xiàn)多繼承機(jī)制。本文構(gòu)建本體的主要步驟如下。

        Step1 確定本體的專(zhuān)業(yè)領(lǐng)域和范疇。即使是同一個(gè)法律領(lǐng)域,應(yīng)用的本體不同,表示概念的側(cè)重點(diǎn)也會(huì)不同(如婚姻案件和盜竊案件)。所以建立本體之前要明確本體建立的領(lǐng)域和應(yīng)用目標(biāo)。

        Step2 列出本體涉及領(lǐng)域中的重要術(shù)語(yǔ)。為了保證準(zhǔn)確率,我們采用統(tǒng)計(jì)的方法,參考了1 236份偽卡盜刷案件的法院判決書(shū),列出其所涉及的重要術(shù)語(yǔ),如在判決書(shū)中經(jīng)常涉及的有刷卡人、刷卡時(shí)間、刷卡地點(diǎn)以及報(bào)警時(shí)間等。

        Step3 領(lǐng)域概念分類(lèi)。領(lǐng)域概念分類(lèi)層次對(duì)應(yīng)著一棵樹(shù),樹(shù)中的節(jié)點(diǎn)體現(xiàn)了領(lǐng)域概念間的層次結(jié)構(gòu)關(guān)系:根節(jié)點(diǎn)、枝節(jié)點(diǎn)、樹(shù)枝和葉節(jié)點(diǎn)。建立領(lǐng)域概念的分類(lèi)關(guān)系后,將分類(lèi)概念的屬性值添加到分類(lèi)概念中,這樣就把領(lǐng)域概念通過(guò)樹(shù)形結(jié)構(gòu)形象地描述出來(lái),并且通過(guò)樹(shù)結(jié)構(gòu)清晰地體現(xiàn)了領(lǐng)域概念間的類(lèi)屬關(guān)系——每一個(gè)子樹(shù)都對(duì)應(yīng)著領(lǐng)域中獨(dú)立的、模塊化的知識(shí)模型。

        Step4 定義概念之間的關(guān)系。概念的分類(lèi)層次結(jié)構(gòu)體現(xiàn)了分類(lèi)概念間的一種繼承關(guān)系。但是在領(lǐng)域本體中,概念和概念之間除了通過(guò)繼承關(guān)系來(lái)交互,還根據(jù)需要定義其他關(guān)系。如在本文中,警察和刑警之間應(yīng)該是相容關(guān)系。

        根據(jù)上述本體的構(gòu)建原則,本文構(gòu)建了偽卡盜刷本體中的核心概念(部分)——人物:開(kāi)戶人、盜刷人、銀行客服、警察等;報(bào)警:電話掛失、電話凍結(jié)、銀行報(bào)警、電話報(bào)警等;刷卡:ATM取現(xiàn)、柜臺(tái)取現(xiàn)、POS機(jī)刷卡、網(wǎng)上支出等。

        2.2 偽卡盜刷判決書(shū)的語(yǔ)義角色標(biāo)注和三元組的建立

        本文采用的是基于淺層句法分析結(jié)果的語(yǔ)義角色標(biāo)注,采用傳統(tǒng)的三元組保存形式〈主語(yǔ) 謂語(yǔ) 賓語(yǔ)〉。根據(jù)淺層句法分析得到的結(jié)果來(lái)構(gòu)建三元組。從標(biāo)簽信息中抽取關(guān)系,如“宋思寧”的一個(gè)標(biāo)簽信息為“2018年7月16日在武漢市刷卡購(gòu)買(mǎi)商品”,我們可以根據(jù)這個(gè)標(biāo)簽信息推出三種信息框:〈宋思寧 2018年7月16日 武漢〉、〈宋思寧 刷卡 2018年7月16日〉、〈宋思寧 刷卡 武漢〉。故三元組的保存形式有三種:某人在某地干了什么、某人什么時(shí)間干了什么、某人什么時(shí)間在某地。這種結(jié)構(gòu)化的三元組為后續(xù)知識(shí)圖譜的建立和補(bǔ)全工作奠定基礎(chǔ)。圖1為法律知識(shí)圖譜的高層結(jié)構(gòu)(實(shí)體和關(guān)系的數(shù)量可根據(jù)需要增減);圖2為偽卡盜刷知識(shí)圖譜示例。

        圖1 法律知識(shí)圖譜高層結(jié)構(gòu)圖

        圖2 偽卡盜刷知識(shí)圖譜示例

        2.3 偽卡盜刷判決書(shū)知識(shí)圖譜補(bǔ)全

        由于判決法案在不斷更新,為了保證構(gòu)建出的知識(shí)圖譜具有一定的實(shí)用價(jià)值,要繼續(xù)挖掘其潛在的關(guān)系對(duì)構(gòu)建出的知識(shí)圖譜進(jìn)行補(bǔ)全,使其成為一個(gè)不斷更新的動(dòng)態(tài)知識(shí)圖譜。補(bǔ)全工作包括向已有的知識(shí)圖譜中增加新的實(shí)體和關(guān)系,以及將新的實(shí)體和關(guān)系添加到已有的知識(shí)圖譜中。

        我們提出了一種基于謂語(yǔ)導(dǎo)向詞的深度學(xué)習(xí)模型對(duì)構(gòu)建出的知識(shí)圖譜進(jìn)行補(bǔ)全。首先,深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律,然后通過(guò)組合學(xué)習(xí)到的規(guī)律來(lái)發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

        我們使用無(wú)監(jiān)督的訓(xùn)練向量來(lái)提升其泛化能力,因?yàn)橛行┒说蕉说姆绞娇梢钥朔鹘y(tǒng)模型“短距離壓制”的缺點(diǎn)。深度學(xué)習(xí)模型的缺點(diǎn)就是受數(shù)據(jù)量的影響較大。不過(guò)據(jù)中國(guó)法律網(wǎng)的數(shù)據(jù)顯示,偽卡盜刷的判決書(shū)每天都以數(shù)萬(wàn)份的量在增長(zhǎng),它們統(tǒng)一書(shū)寫(xiě),統(tǒng)一格式,因此我們有大量的數(shù)據(jù)進(jìn)行回標(biāo)訓(xùn)練。具體的步驟如下。

        Step1 構(gòu)建偽卡盜刷知識(shí)圖譜。使用StanfordNLP進(jìn)行偽卡盜刷領(lǐng)域的知識(shí)圖譜構(gòu)建。

        Step2 構(gòu)建謂語(yǔ)導(dǎo)向詞庫(kù)。抽取偽卡盜刷知識(shí)圖譜中三元組的謂語(yǔ)動(dòng)詞來(lái)構(gòu)建謂語(yǔ)導(dǎo)向詞庫(kù)。

        Step3 設(shè)置判決書(shū)文本的起止位置。起始位置:法院審理查明;結(jié)束位置:本院認(rèn)為。

        Step4 將起止位置中的內(nèi)容以句子為單位進(jìn)行編號(hào)(a1,…,an)。

        Step5 利用謂語(yǔ)導(dǎo)向詞逐個(gè)匹配新增判決書(shū)文本中的句子。

        Step6 將Step5中匹配到的句子進(jìn)行實(shí)體和關(guān)系抽取,構(gòu)建三元組,添加到已有的知識(shí)圖譜中。

        Step7 將Step5中未匹配到謂語(yǔ)導(dǎo)向詞的句子編號(hào)b1,…,bn。對(duì)b1,…,bn篩查,總結(jié)出新的謂語(yǔ)動(dòng)詞并判斷是否將其加入到謂語(yǔ)導(dǎo)向詞庫(kù)中,將入庫(kù)的謂語(yǔ)導(dǎo)向詞編號(hào)c1,…,cn,并選擇構(gòu)建知識(shí)圖譜的判決書(shū)文本繼續(xù)進(jìn)行回標(biāo)訓(xùn)練,重復(fù)操作Step3~Step6。若沒(méi)有新的謂語(yǔ)導(dǎo)向詞入庫(kù),則結(jié)束訓(xùn)練。

        3 實(shí)驗(yàn)

        實(shí)驗(yàn)數(shù)據(jù)規(guī)模為偽卡盜刷判決書(shū)1 263份,土地分配判決書(shū)500份,實(shí)體69 567個(gè),關(guān)系125個(gè),三元組的數(shù)量為96 845個(gè)。首先我們采用設(shè)置謂語(yǔ)導(dǎo)向詞抽取和直接抽取兩種方法進(jìn)行對(duì)比,如表1所示。隨后我們對(duì)實(shí)驗(yàn)數(shù)據(jù)添加了噪音,實(shí)驗(yàn)結(jié)果如表2所示。其中我們使用準(zhǔn)確率(P)、召回率(R)作為系統(tǒng)性能的評(píng)測(cè)指標(biāo),使用的公式有

        表 1 設(shè)置謂語(yǔ)導(dǎo)向詞的實(shí)驗(yàn)結(jié)果對(duì)比

        表 2 添加噪音后的實(shí)驗(yàn)結(jié)果對(duì)比

        從表1的結(jié)果來(lái)看,效果并不是很明顯,體現(xiàn)不出設(shè)定謂語(yǔ)導(dǎo)向的優(yōu)點(diǎn)。這是因?yàn)槲覀兊膶?shí)驗(yàn)數(shù)據(jù)是比較規(guī)范的,領(lǐng)域性太強(qiáng)(每份法律文書(shū)都是偽卡盜刷的判決書(shū)),所以為了體現(xiàn)這一方面的性能,我們?cè)跀?shù)據(jù)中加了一些噪音(土地分配的法院判決書(shū))進(jìn)行了新的對(duì)比,新的數(shù)據(jù)規(guī)模為:1 000份偽卡盜刷判決書(shū),500份土地分配判決書(shū)。實(shí)驗(yàn)結(jié)果如表2所示。

        表2可以很明確地看出添加噪音后的系統(tǒng)抽取性能大幅度提升。這是由于設(shè)定了偽卡盜刷的謂語(yǔ)導(dǎo)向,抽取的結(jié)果全是可用的偽卡盜刷三元組。而直接抽取因未設(shè)置謂語(yǔ)導(dǎo)向,抽取出的三元組中包含很多土地分配三元組,必須通過(guò)篩選得到需要的內(nèi)容。通過(guò)設(shè)定謂語(yǔ)導(dǎo)向來(lái)獲取特定的內(nèi)容是一個(gè)很大的改進(jìn)。實(shí)驗(yàn)通過(guò)變換噪音的種類(lèi)不斷改進(jìn),最后確定出偽卡盜刷的謂語(yǔ)導(dǎo)向詞。

        我們通過(guò)從方法、數(shù)量?jī)蓚€(gè)方面來(lái)分別討論數(shù)據(jù)變換對(duì)補(bǔ)全率的影響。根據(jù)方法的不同,將數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三個(gè)部分。表3展示了不同方法的補(bǔ)全效果,表4展示了數(shù)量的變化對(duì)補(bǔ)全率的影響。本文通過(guò)提取的實(shí)體、關(guān)系以及有效三元組的數(shù)量比來(lái)衡量補(bǔ)全率。具體的計(jì)算公式為

        表3 變換方法的補(bǔ)全效果

        表4 變換數(shù)據(jù)規(guī)模的補(bǔ)全率

        補(bǔ)全率(C)=(m/n+a/b+c/d)/3,

        其中:m和n分別表示抽取出正確實(shí)體數(shù)量和全部實(shí)體數(shù)量;a和b表示抽取出正確關(guān)系數(shù)量和全部關(guān)系數(shù)量;c和d表示抽取出有效的三元組數(shù)量和實(shí)際的三元組數(shù)量。

        表3列出了各種補(bǔ)全方法的補(bǔ)全率,我們選用當(dāng)前主流的Trans系列和關(guān)系路徑補(bǔ)全算法進(jìn)行對(duì)比,基于實(shí)體描述和關(guān)系路徑建模的知識(shí)圖譜補(bǔ)全算法(description and path for knowledge representation,DPKR)是典型的根據(jù)關(guān)系路徑的補(bǔ)全算法。根據(jù)文獻(xiàn)[9]的實(shí)驗(yàn)結(jié)果,結(jié)合本實(shí)驗(yàn)的特性采用2-step為實(shí)驗(yàn)對(duì)比。由表3可以看出我們提出的基于謂語(yǔ)導(dǎo)向詞的深度學(xué)習(xí)方法最為有效,由于在關(guān)系提取方面規(guī)定了謂語(yǔ)為固定動(dòng)詞,故關(guān)系的提取率大幅度提升,提取三元組的正確率也有較好的效果。

        表4可以很清晰地看到數(shù)據(jù)規(guī)模的變換對(duì)補(bǔ)全效率有一定的影響。Trans系列由于需要一定規(guī)模的數(shù)據(jù)來(lái)訓(xùn)練關(guān)系進(jìn)行抽取,故三元組的數(shù)量對(duì)其影響很大。當(dāng)數(shù)據(jù)達(dá)到一定規(guī)模后才能達(dá)到理想效果。同理,以DPKR為代表的關(guān)系路徑補(bǔ)全算法在關(guān)系稀疏的知識(shí)圖譜上也無(wú)法有效進(jìn)行。但是我們的方法在固定謂語(yǔ)動(dòng)詞之后,相當(dāng)于規(guī)定了關(guān)系抽取的框架,只需要抽取實(shí)體進(jìn)行填充匹配即可。我們的方法在偽卡盜刷這個(gè)固定領(lǐng)域進(jìn)行實(shí)驗(yàn),由于領(lǐng)域粒度較小,故數(shù)據(jù)規(guī)模的變換對(duì)補(bǔ)全效果的影響不大,從而提高了效率和準(zhǔn)確率。

        4 結(jié)束語(yǔ)

        本文首先總結(jié)了知識(shí)圖譜構(gòu)建過(guò)程中的一般方法,分析每種方法的利弊。通過(guò)比較每種方法的優(yōu)劣,綜合考慮各個(gè)方法對(duì)法律關(guān)系抽取中每個(gè)環(huán)節(jié)的影響,加以改進(jìn)后提出了“謂語(yǔ)導(dǎo)向”的概念用來(lái)提高偽卡盜刷領(lǐng)域中三元組的抽取效率以及知識(shí)圖譜的補(bǔ)全工作。基于謂語(yǔ)導(dǎo)向詞的深度學(xué)習(xí)模型在自然語(yǔ)言處理中能更深層次地挖掘偽卡盜刷判決書(shū)文本中存在的豐富語(yǔ)義關(guān)系。與傳統(tǒng)的詞袋模型相比,能夠更好地表達(dá)語(yǔ)法信息,并取得較好的性能。

        我們將繼續(xù)研究StandfordNLP的相關(guān)算法來(lái)提高構(gòu)建過(guò)程中關(guān)系抽取所消耗的時(shí)間,提高整體性能。另外,當(dāng)前實(shí)驗(yàn)的范圍僅是偽卡盜刷案件且數(shù)據(jù)來(lái)源于一個(gè)法院,粒度較小、領(lǐng)域單一,后期將擴(kuò)大覆蓋范圍,橫向搜集多個(gè)法院判決書(shū)以擴(kuò)充數(shù)據(jù)規(guī)模,縱向考慮在其他法律領(lǐng)域中推行此方法。最后,我們考慮將補(bǔ)全后的知識(shí)圖譜應(yīng)用到精準(zhǔn)推薦、相似案件判決書(shū)的自動(dòng)生成等領(lǐng)域中。

        猜你喜歡
        語(yǔ)義
        為什么字看久了就不認(rèn)識(shí)了
        語(yǔ)言與語(yǔ)義
        “社會(huì)”一詞的語(yǔ)義流動(dòng)與新陳代謝
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        “吃+NP”的語(yǔ)義生成機(jī)制研究
        “V+了+NP1+NP2”中V的語(yǔ)義指向簡(jiǎn)談
        認(rèn)知范疇模糊與語(yǔ)義模糊
        “V+X+算+X”構(gòu)式的語(yǔ)義功能及語(yǔ)義網(wǎng)絡(luò)——兼及與“V+X+是+X”構(gòu)式的轉(zhuǎn)換
        “熊孩子”語(yǔ)義新探
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        狠狠色成人综合网| 免费无码又爽又刺激高潮的视频网站| 国产欧美精品在线一区二区三区| 传媒在线无码| 国产精品无码久久AⅤ人妖| 国产精品毛片毛片av一区二区| 富婆猛男一区二区三区| 人妻中文字幕乱人伦在线| 无码人妻人妻经典| 亚洲国产精品福利片在线观看| A午夜精品福利在线| 吃下面吃胸在线看无码| 久久精品国产9久久综合| 香蕉视频在线观看亚洲| 中文无码一区二区三区在线观看| 色婷婷久久综合中文久久蜜桃av | 色婷婷资源网| 国产熟女乱综合一区二区三区| 蜜桃夜夜爽天天爽三区麻豆av| 久爱www人成免费网站| 久久精品国产亚洲av忘忧草18| 超级碰碰人妻中文字幕| 亚洲人妻av综合久久| 无码专区人妻系列日韩精品 | 亚洲av手机在线播放| 台湾佬中文娱乐网22| 青青草原综合久久大伊人| 亚洲国产精品悠悠久久琪琪| 国产91九色视频在线播放| 久久精品国产免费一区二区三区| 午夜裸体性播放| 国产99视频精品免费视频免里| 久久精品午夜免费看| 国产交换精品一区二区三区| 欧美色欧美亚洲另类二区| 欧美巨大精品欧美一区二区| 在线精品亚洲一区二区三区 | 精品久久久久久久无码| 国产免费人成视频在线播放播| 国产诱惑人的视频在线观看| 高清精品一区二区三区|