亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于NLP的《民法典·侵權(quán)編》知識圖譜構(gòu)建

        2021-08-23 13:06:26萬萍潘千禧柳若辰
        現(xiàn)代計算機 2021年20期
        關(guān)鍵詞:法條三元組分詞

        萬萍,潘千禧,柳若辰

        (嘉興學(xué)院數(shù)理與信息工程學(xué)院,嘉興314001)

        0 引言

        作為新中國第一部以法典命名的《中華人民共和國民法典》(簡稱《民法典》),于2020年5月28日,由十三屆全國人大三次會議表決通過,自2021年1月1日起施行?!睹穹ǖ洹窞槊袷轮黧w合法權(quán)益的申張與保護,提供了全面法律保障,被法學(xué)界譽為“能夠覆蓋一個公民‘生老病死’全部生活的社會生活百科全書”,堪稱新時代人民權(quán)利的“宣言書”,為新時代“依法治國”奠定了堅實的法律基礎(chǔ)[1]。

        守法必先知法,懂法才能尊法?!睹穹ǖ洹芬磺砂倭畻l的法條,對于非法學(xué)專業(yè)的普通公民而言,難以全面掌握;此外,法條嚴謹且富于邏輯的表達,也容易造成法律條文“晦澀難懂”,不利于法律普及。經(jīng)過前期文獻閱讀和實踐調(diào)研,我們認為通過對《民法典》法條進行知識圖譜構(gòu)建,以可視化知識圖譜方式呈現(xiàn)的《民法典》,不僅使法條內(nèi)容呈現(xiàn)更加直觀,還使法律概念與法律關(guān)系的檢索與查詢更加便捷,提升廣大公民對于法律內(nèi)容的認知,有效降低《民法典》的推廣普及難度。

        考慮到《民法典》內(nèi)容龐大,本文擬選取與現(xiàn)實生活聯(lián)系最為緊密的《侵權(quán)責任》為分析對象,綜合人工智能領(lǐng)域中自然語言處理技術(shù),通過“Python編程+人工校驗”相結(jié)合的技術(shù)路線,應(yīng)用文本預(yù)處理[2]、命名實體識別[3]、知識圖譜[4-5]等NLP(Natural Language Processing,自然語言處理)領(lǐng)域的算法和NoSQL數(shù)據(jù)庫[6-7]領(lǐng)域的工具,對《民法典·侵權(quán)責任》的法條內(nèi)容進行關(guān)鍵實體識別、句法依存關(guān)系分析與知識圖譜構(gòu)建。

        1 文本預(yù)處理

        《民法典·侵權(quán)責任》共包含10章,涵蓋《民法典》第1164-1258條款,合計95條。考慮到通用分詞工具并沒有針對法律術(shù)語的分詞字典,我們采用“jieba分詞+人工校驗”的方式,對《民法典·侵權(quán)責任》進行文本預(yù)處理,本階段主要包括開發(fā)環(huán)境配置、jieba工具安裝、停用詞預(yù)處理和分詞。

        jieba是中分分詞領(lǐng)域的優(yōu)秀開源框架,可以通過簡單編程,實現(xiàn)對中文文本基于精確模式、全模式和搜索引擎模式的分詞??傮w上說,jieba工具的API簡明實用、配置簡潔。借助Python自帶的pip工具,在Windows中CMD環(huán)境下執(zhí)行如下命令:

        即可實現(xiàn)jieba工具的自動安裝和配置。

        考慮到法條中篇章分節(jié)與條目編號相對于分詞意義不大,我們在預(yù)處理階段將這些文字去除,之后將法條逐條放入laws列表。文本讀入與laws列表生成的源代碼如下:

        經(jīng)過以上代碼處理,laws列表中只包含法條內(nèi)容。借助jieba分詞工具,可以進一步對laws列表中法條逐一進行分詞,并得到分詞集合,關(guān)鍵代碼如下:

        通過校驗可以發(fā)現(xiàn),jieba對于部分條目的分詞結(jié)果不太理想,例如“行為人/因/過錯/侵害/他/人民/事/權(quán)益/造 成/損 害/的/,/應(yīng) 當/承 擔/侵 權(quán)/責 任/。”中“/他/人民/事/權(quán)益/”顯然不符合法條本義。因此,需要在自動分詞的基礎(chǔ)上,引入人工校驗環(huán)節(jié),遵循法律術(shù)語、概念的使用習慣,修正分詞中出現(xiàn)的錯誤,進而得到《民法典·侵權(quán)責任》的分詞字典,共計712個單詞。

        通過文本預(yù)處理,我們得到了較為符合司法實踐的法條分詞及分詞詞典。在此基礎(chǔ)上,我們將結(jié)合法條上下文,應(yīng)用關(guān)鍵詞分析算法,對分詞詞典中的分詞的重要性進行區(qū)分,提煉具有法學(xué)價值的核心概念,為知識圖譜構(gòu)建提供必要的鋪墊。

        2 關(guān)鍵實體識別

        《民法典·侵權(quán)責任》中涉及大量法學(xué)概念、實體,它們是構(gòu)建知識圖譜的關(guān)鍵要素。我們需要在前面得到的分詞詞典基礎(chǔ)上,進一步應(yīng)用命名實體識別的思想、方法和技術(shù),對語料中的法學(xué)術(shù)語、概念進行識別和提取。在這個階段中,我們通過關(guān)鍵詞提取算法,對分詞在法條中的表意權(quán)重進行分析,得到法條中較為重要的命名實體。

        與分詞一樣,命名實體識別也是自然語言處理中的基礎(chǔ)任務(wù),目的在于識別語料中人名、地名、組織機構(gòu)名等具有實體指稱的命名詞語。傳統(tǒng)命名實體識別側(cè)重于對實體、時間、數(shù)字、人名、地名、組織、時期等的識別與提取。與傳統(tǒng)不同,本文側(cè)重于對具有法學(xué)指稱的命名實體的識別。因此,分詞是否能夠表達法學(xué)領(lǐng)域概念,是否能夠結(jié)合其他法學(xué)術(shù)語形成法學(xué)知識的表達,就成為界定法學(xué)實體的重要標準??紤]到法學(xué)實體界定屬于法學(xué)領(lǐng)域,我們邀請領(lǐng)域法學(xué)領(lǐng)域?qū)I(yè)人士,對分詞列表進行分類,遴選出154個領(lǐng)域相關(guān)性較強的詞匯(圖1),作為知識圖譜構(gòu)建的核心法學(xué)實體。

        圖1 關(guān)鍵法學(xué)實體詞云(《民法典·侵權(quán)責任》)

        需要說明的是,對于分詞是否屬于具有法學(xué)指稱的關(guān)鍵實體,存在“仁者見仁,智者見智”的各種見解。因此,我們采取兼顧經(jīng)驗與統(tǒng)計的原則,選取法務(wù)工作中涉及的專業(yè)詞、高頻詞作為關(guān)鍵實體,進而以之為基點,對《民法典·侵權(quán)責任》做提綱挈領(lǐng)的圖譜構(gòu)建。

        3 知識圖譜構(gòu)建

        本部分在關(guān)鍵實體集合基礎(chǔ)上,進一步探究實體之間的法學(xué)邏輯關(guān)系,通過逐一對法條進行句法依存分析,構(gòu)建關(guān)鍵實體之間的三元組,最終形成可視化的知識圖譜。

        對于邏輯嚴謹、措辭考究的法律條目而言,“主語+謂語+賓語”是基本的表達句型,也是分析與理解其語言復(fù)合性的切入點。結(jié)合關(guān)鍵實體,逐條分析每款條文的句法依存關(guān)系,是構(gòu)建法條內(nèi)與法條間實體邏輯關(guān)系的關(guān)鍵。通過調(diào)用HanLP接口,逐一分析每款法條的句法依存關(guān)系,得到類似圖2的句法樹。

        圖2 句法依存關(guān)系示例(《民法典》第一千一百六十六條)

        借助以上語法樹結(jié)構(gòu),可以得到該法條清晰明確的推斷邏輯,即“行為人”為主體,“侵權(quán)責任”為客體,“承擔”是聯(lián)系主、客體的關(guān)系,而“民事權(quán)益損害”是邏輯前提。

        實體依存關(guān)系分析的目的在于提煉“實體-關(guān)系-實體”構(gòu)成的三元組,通過這個三元組表達實體之間的邏輯關(guān)系。從前面對句法依存關(guān)系的分析可以看出,法條語法樹中“主謂賓”結(jié)構(gòu)天然適于構(gòu)造這種三元組?;诖?,通過對作為主語和賓語的關(guān)鍵實體以及作為謂語的分詞的提取,就可以得到所有三元組構(gòu)成的集合。

        三元組數(shù)據(jù)的持久化與可視化可以借助Neo4J數(shù)據(jù)庫及Py2neo框架。其中,Neo4J是一種常見的圖數(shù)據(jù)庫,以圖的形式表達數(shù)據(jù)的實體、屬性和關(guān)系,屬于典型的NoSQL數(shù)據(jù)庫;Py2neo是應(yīng)用Python操作Neo4J數(shù)據(jù)庫的三方庫。通過將三元組中的實體存儲為節(jié)點元素,將三元組中的關(guān)系存儲為節(jié)點之間的邊,就可完成從三元組到抽象圖譜的構(gòu)造。再通過調(diào)用Py2neo API,可以得到類似圖3的可視化知識圖譜。

        圖3 知識圖譜示例(《民法典》第一千二百五十條)

        目前,我們針對《民法典·侵權(quán)責任》的知識圖譜構(gòu)建主要還是以法條為基本單位。但是,不同法律條目間也可能存在語義或是邏輯上的關(guān)聯(lián),對于這一點,由于涉及到更為困難的語義分析以及知識推理,預(yù)期于將來的工作中做進一步的深入研究和探討。

        4 結(jié)語

        本文對《民法典·侵權(quán)責任》文本進行知識圖譜構(gòu)建,實現(xiàn)核心概念及其關(guān)系的可視化。首先,通過文本預(yù)處理與分詞,生成文本的分詞列表。由于法典文本的專業(yè)性,通用分詞工具得到的分詞結(jié)果不是完全合理,再通過對分詞列表的人工校驗,得到較為符合實際法務(wù)工作習慣的分詞列表。其次,通過對分詞列表進行甄別,結(jié)合統(tǒng)計與法務(wù)實踐,遴選出司法實踐中使用頻率高、法律指稱明確的關(guān)鍵實體。最后,以篩選出的關(guān)鍵實體為中心,逐條對法條進行句法分析,得到分詞列表以外的實體與關(guān)鍵實體之間的關(guān)系,據(jù)此生成三元組結(jié)構(gòu),進而生成可視化圖譜。

        本文通過對法條文字的圖譜構(gòu)建,有助于提升對侵權(quán)責任中法學(xué)對象、關(guān)系和邏輯的理解與整體把握,促進民法典的宣傳與普及。

        猜你喜歡
        法條三元組分詞
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
        關(guān)于余撓三元組的periodic-模
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        從法條的公司法到實踐的公司法
        論民法對人身權(quán)的保護
        值得重視的分詞的特殊用法
        從法條的公司法到實踐的公司法
        商(2016年20期)2016-07-04 01:04:28
        刑法“從業(yè)禁止”法條的法律性質(zhì)及改革方向
        三元組輻射場的建模與仿真
        久久精品人妻嫩草av蜜桃| 日本又黄又爽gif动态图| 国产人成无码中文字幕| 日本一区二区三区的免费视频观看 | 久久精品人妻中文av| 久久久久久夜精品精品免费啦 | 亚洲女同恋av中文一区二区| 又色又爽又高潮免费视频国产 | 性按摩xxxx在线观看| 亚洲综合一区无码精品| 中文无码免费在线| 亚洲一区二区三区av资源 | 一夲道无码人妻精品一区二区| 久久精品免费一区二区喷潮| 性一交一乱一乱一视频亚洲熟妇| 成年人观看视频在线播放| 熟女精品视频一区二区三区| 国产免费av片在线观看播放| 久久av少妇亚洲精品| 4455永久免费视频| 熟妇人妻av无码一区二区三区| 91精品国产91久久综合桃花| 日韩av免费一区二区| 白丝兔女郎m开腿sm调教室| 亚洲综合性色一区| 一区二区三区在线观看视频免费| 国产精品黄色片在线看| 欧美大黑帍在线播放| 亚洲午夜无码视频在线播放| 人妻精品久久一区二区三区| 蜜桃日本免费看mv免费版| 91av小视频| 久久久国产视频久久久| 在线视频观看国产色网| 7777奇米四色成人眼影| 免费无遮挡毛片中文字幕| 日本不卡视频一区二区| 韩日午夜在线资源一区二区| 人妻无码Aⅴ中文系列| 国产丝袜美腿嫩模视频诱惑| 亚洲国产欧美在线观看|