萬萍,潘千禧,柳若辰
(嘉興學(xué)院數(shù)理與信息工程學(xué)院,嘉興314001)
作為新中國第一部以法典命名的《中華人民共和國民法典》(簡稱《民法典》),于2020年5月28日,由十三屆全國人大三次會議表決通過,自2021年1月1日起施行?!睹穹ǖ洹窞槊袷轮黧w合法權(quán)益的申張與保護,提供了全面法律保障,被法學(xué)界譽為“能夠覆蓋一個公民‘生老病死’全部生活的社會生活百科全書”,堪稱新時代人民權(quán)利的“宣言書”,為新時代“依法治國”奠定了堅實的法律基礎(chǔ)[1]。
守法必先知法,懂法才能尊法?!睹穹ǖ洹芬磺砂倭畻l的法條,對于非法學(xué)專業(yè)的普通公民而言,難以全面掌握;此外,法條嚴謹且富于邏輯的表達,也容易造成法律條文“晦澀難懂”,不利于法律普及。經(jīng)過前期文獻閱讀和實踐調(diào)研,我們認為通過對《民法典》法條進行知識圖譜構(gòu)建,以可視化知識圖譜方式呈現(xiàn)的《民法典》,不僅使法條內(nèi)容呈現(xiàn)更加直觀,還使法律概念與法律關(guān)系的檢索與查詢更加便捷,提升廣大公民對于法律內(nèi)容的認知,有效降低《民法典》的推廣普及難度。
考慮到《民法典》內(nèi)容龐大,本文擬選取與現(xiàn)實生活聯(lián)系最為緊密的《侵權(quán)責任》為分析對象,綜合人工智能領(lǐng)域中自然語言處理技術(shù),通過“Python編程+人工校驗”相結(jié)合的技術(shù)路線,應(yīng)用文本預(yù)處理[2]、命名實體識別[3]、知識圖譜[4-5]等NLP(Natural Language Processing,自然語言處理)領(lǐng)域的算法和NoSQL數(shù)據(jù)庫[6-7]領(lǐng)域的工具,對《民法典·侵權(quán)責任》的法條內(nèi)容進行關(guān)鍵實體識別、句法依存關(guān)系分析與知識圖譜構(gòu)建。
《民法典·侵權(quán)責任》共包含10章,涵蓋《民法典》第1164-1258條款,合計95條。考慮到通用分詞工具并沒有針對法律術(shù)語的分詞字典,我們采用“jieba分詞+人工校驗”的方式,對《民法典·侵權(quán)責任》進行文本預(yù)處理,本階段主要包括開發(fā)環(huán)境配置、jieba工具安裝、停用詞預(yù)處理和分詞。
jieba是中分分詞領(lǐng)域的優(yōu)秀開源框架,可以通過簡單編程,實現(xiàn)對中文文本基于精確模式、全模式和搜索引擎模式的分詞??傮w上說,jieba工具的API簡明實用、配置簡潔。借助Python自帶的pip工具,在Windows中CMD環(huán)境下執(zhí)行如下命令:
即可實現(xiàn)jieba工具的自動安裝和配置。
考慮到法條中篇章分節(jié)與條目編號相對于分詞意義不大,我們在預(yù)處理階段將這些文字去除,之后將法條逐條放入laws列表。文本讀入與laws列表生成的源代碼如下:
經(jīng)過以上代碼處理,laws列表中只包含法條內(nèi)容。借助jieba分詞工具,可以進一步對laws列表中法條逐一進行分詞,并得到分詞集合,關(guān)鍵代碼如下:
通過校驗可以發(fā)現(xiàn),jieba對于部分條目的分詞結(jié)果不太理想,例如“行為人/因/過錯/侵害/他/人民/事/權(quán)益/造 成/損 害/的/,/應(yīng) 當/承 擔/侵 權(quán)/責 任/。”中“/他/人民/事/權(quán)益/”顯然不符合法條本義。因此,需要在自動分詞的基礎(chǔ)上,引入人工校驗環(huán)節(jié),遵循法律術(shù)語、概念的使用習慣,修正分詞中出現(xiàn)的錯誤,進而得到《民法典·侵權(quán)責任》的分詞字典,共計712個單詞。
通過文本預(yù)處理,我們得到了較為符合司法實踐的法條分詞及分詞詞典。在此基礎(chǔ)上,我們將結(jié)合法條上下文,應(yīng)用關(guān)鍵詞分析算法,對分詞詞典中的分詞的重要性進行區(qū)分,提煉具有法學(xué)價值的核心概念,為知識圖譜構(gòu)建提供必要的鋪墊。
《民法典·侵權(quán)責任》中涉及大量法學(xué)概念、實體,它們是構(gòu)建知識圖譜的關(guān)鍵要素。我們需要在前面得到的分詞詞典基礎(chǔ)上,進一步應(yīng)用命名實體識別的思想、方法和技術(shù),對語料中的法學(xué)術(shù)語、概念進行識別和提取。在這個階段中,我們通過關(guān)鍵詞提取算法,對分詞在法條中的表意權(quán)重進行分析,得到法條中較為重要的命名實體。
與分詞一樣,命名實體識別也是自然語言處理中的基礎(chǔ)任務(wù),目的在于識別語料中人名、地名、組織機構(gòu)名等具有實體指稱的命名詞語。傳統(tǒng)命名實體識別側(cè)重于對實體、時間、數(shù)字、人名、地名、組織、時期等的識別與提取。與傳統(tǒng)不同,本文側(cè)重于對具有法學(xué)指稱的命名實體的識別。因此,分詞是否能夠表達法學(xué)領(lǐng)域概念,是否能夠結(jié)合其他法學(xué)術(shù)語形成法學(xué)知識的表達,就成為界定法學(xué)實體的重要標準??紤]到法學(xué)實體界定屬于法學(xué)領(lǐng)域,我們邀請領(lǐng)域法學(xué)領(lǐng)域?qū)I(yè)人士,對分詞列表進行分類,遴選出154個領(lǐng)域相關(guān)性較強的詞匯(圖1),作為知識圖譜構(gòu)建的核心法學(xué)實體。
圖1 關(guān)鍵法學(xué)實體詞云(《民法典·侵權(quán)責任》)
需要說明的是,對于分詞是否屬于具有法學(xué)指稱的關(guān)鍵實體,存在“仁者見仁,智者見智”的各種見解。因此,我們采取兼顧經(jīng)驗與統(tǒng)計的原則,選取法務(wù)工作中涉及的專業(yè)詞、高頻詞作為關(guān)鍵實體,進而以之為基點,對《民法典·侵權(quán)責任》做提綱挈領(lǐng)的圖譜構(gòu)建。
本部分在關(guān)鍵實體集合基礎(chǔ)上,進一步探究實體之間的法學(xué)邏輯關(guān)系,通過逐一對法條進行句法依存分析,構(gòu)建關(guān)鍵實體之間的三元組,最終形成可視化的知識圖譜。
對于邏輯嚴謹、措辭考究的法律條目而言,“主語+謂語+賓語”是基本的表達句型,也是分析與理解其語言復(fù)合性的切入點。結(jié)合關(guān)鍵實體,逐條分析每款條文的句法依存關(guān)系,是構(gòu)建法條內(nèi)與法條間實體邏輯關(guān)系的關(guān)鍵。通過調(diào)用HanLP接口,逐一分析每款法條的句法依存關(guān)系,得到類似圖2的句法樹。
圖2 句法依存關(guān)系示例(《民法典》第一千一百六十六條)
借助以上語法樹結(jié)構(gòu),可以得到該法條清晰明確的推斷邏輯,即“行為人”為主體,“侵權(quán)責任”為客體,“承擔”是聯(lián)系主、客體的關(guān)系,而“民事權(quán)益損害”是邏輯前提。
實體依存關(guān)系分析的目的在于提煉“實體-關(guān)系-實體”構(gòu)成的三元組,通過這個三元組表達實體之間的邏輯關(guān)系。從前面對句法依存關(guān)系的分析可以看出,法條語法樹中“主謂賓”結(jié)構(gòu)天然適于構(gòu)造這種三元組?;诖?,通過對作為主語和賓語的關(guān)鍵實體以及作為謂語的分詞的提取,就可以得到所有三元組構(gòu)成的集合。
三元組數(shù)據(jù)的持久化與可視化可以借助Neo4J數(shù)據(jù)庫及Py2neo框架。其中,Neo4J是一種常見的圖數(shù)據(jù)庫,以圖的形式表達數(shù)據(jù)的實體、屬性和關(guān)系,屬于典型的NoSQL數(shù)據(jù)庫;Py2neo是應(yīng)用Python操作Neo4J數(shù)據(jù)庫的三方庫。通過將三元組中的實體存儲為節(jié)點元素,將三元組中的關(guān)系存儲為節(jié)點之間的邊,就可完成從三元組到抽象圖譜的構(gòu)造。再通過調(diào)用Py2neo API,可以得到類似圖3的可視化知識圖譜。
圖3 知識圖譜示例(《民法典》第一千二百五十條)
目前,我們針對《民法典·侵權(quán)責任》的知識圖譜構(gòu)建主要還是以法條為基本單位。但是,不同法律條目間也可能存在語義或是邏輯上的關(guān)聯(lián),對于這一點,由于涉及到更為困難的語義分析以及知識推理,預(yù)期于將來的工作中做進一步的深入研究和探討。
本文對《民法典·侵權(quán)責任》文本進行知識圖譜構(gòu)建,實現(xiàn)核心概念及其關(guān)系的可視化。首先,通過文本預(yù)處理與分詞,生成文本的分詞列表。由于法典文本的專業(yè)性,通用分詞工具得到的分詞結(jié)果不是完全合理,再通過對分詞列表的人工校驗,得到較為符合實際法務(wù)工作習慣的分詞列表。其次,通過對分詞列表進行甄別,結(jié)合統(tǒng)計與法務(wù)實踐,遴選出司法實踐中使用頻率高、法律指稱明確的關(guān)鍵實體。最后,以篩選出的關(guān)鍵實體為中心,逐條對法條進行句法分析,得到分詞列表以外的實體與關(guān)鍵實體之間的關(guān)系,據(jù)此生成三元組結(jié)構(gòu),進而生成可視化圖譜。
本文通過對法條文字的圖譜構(gòu)建,有助于提升對侵權(quán)責任中法學(xué)對象、關(guān)系和邏輯的理解與整體把握,促進民法典的宣傳與普及。