亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向司法領(lǐng)域的藏文事件數(shù)據(jù)集構(gòu)建

2023-10-25 02:21:58趙小兵

中文信息學(xué)報 2023年8期

高璐,趙小兵

(1. 中央民族大學(xué) 中國少數(shù)民族語言文學(xué)學(xué)院,北京 100081;2. 邯鄲學(xué)院軟件學(xué)院,河北邯鄲 056005;3. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;4. 國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081)

0 引言

事件信息是司法案情的核心,司法事件抽取旨在識別司法案件中的多維事件要素,輔助司法工作者快速重構(gòu)案件事實畫像,厘清爭議焦點(diǎn),疏通司法痛點(diǎn)、堵點(diǎn)、難點(diǎn)問題,為類案推送、量刑輔助、偏離預(yù)警、判決結(jié)果預(yù)測等下游司法任務(wù)提供技術(shù)支持。圖1為某司法文書陳述片段(1)西藏自治區(qū)類烏齊縣人民法院刑事判決書,(2022)藏0323刑初1號,通過撬開、潛入、盜取、揮霍、鑒定、扣押等一連串事件及其要素,重塑盜竊場景,助力法官全過程研討案情,掌握案件脈絡(luò),以便對犯罪嫌疑人的各種行為及其程度進(jìn)行量化,并根據(jù)現(xiàn)有法律標(biāo)準(zhǔn)對其進(jìn)行處罰,為司法工作賦能增效。

截至2022年12月17日,中國裁判文書網(wǎng)(2)中國裁判文書網(wǎng),https://wenshu.court.gov.cn公開的文書總量已達(dá)1.37億篇,訪問總量近千億人次,日均新增裁判文書10萬多篇;雙語審判工作進(jìn)一步推進(jìn),蒙古語、藏語、維吾爾語、朝鮮語和哈薩克語等民族語言裁判文書體量呈上升趨勢,滿足了各族群眾多層次、多樣化的司法需求。以西藏為例,部分西藏基層80%左右的案件審理會用到藏語,涉及案件立案、審判、執(zhí)行、文書制作等環(huán)節(jié)[1]。截至2022年12月,藏文裁判文書累計公開上網(wǎng) 11 685 篇,涉及刑事、民事、行政、賠償、執(zhí)行等多種案件類型,保障了藏族群眾在訴前、訴中、訴后各個階段的監(jiān)督權(quán)、知情權(quán)、參與權(quán),最大限度消除了當(dāng)事人的訴訟不便及信息不對稱,提高了人民群眾的獲得感和滿意度。

借助海量公開的中文裁判文書,Yao Feng[2]等構(gòu)建了一個大規(guī)模的中文法律事件檢測數(shù)據(jù)集LEVEN(3)LEVEN, https://github.com/thunlp/LEVEN,包括8 116份法律文件、108個事件類型、150 977個人工注釋的事件提及(4)事件提及是指描述一個事件的短語或句子。中國法律智能技術(shù)評測(CAIL2022)(5)CAIL2022, http://cail.cipsc.org.cn/新增事件檢測賽道,以LEVEN數(shù)據(jù)集為基礎(chǔ),提供基于BERT的深度學(xué)習(xí)模型作為基線,極大促進(jìn)了中文法律事件檢測技術(shù)的提升。近年來,藏文裁判文書呈現(xiàn)數(shù)據(jù)量豐富、公開率高、案件種類多、實時性強(qiáng)等特點(diǎn)。然而,相較于中文,其蘊(yùn)含的大量案由、案件事實、爭議焦點(diǎn)、法律適用等有價值的數(shù)據(jù)資源有待充分挖掘,藏文司法事件抽取技術(shù)面臨以下資源挑戰(zhàn)。

數(shù)據(jù)欠缺目前缺乏公開的藏文司法事件數(shù)據(jù)集,無法提供足量的訓(xùn)練信號,建立統(tǒng)一的技術(shù)評測更是無從談起,直接限制了深度學(xué)習(xí)等技術(shù)在藏文司法事件抽取方面的探索與優(yōu)化。迫切需要構(gòu)建高質(zhì)量的藏文司法事件數(shù)據(jù)集,并以此為基準(zhǔn),推動藏文司法事件抽取技術(shù)的評測與發(fā)展。

事件模式不相容ACE2005制定了面向通用領(lǐng)域的事件Schema體系,其定義了8大類33小類的事件類型,DuEE構(gòu)建的事件類型甚至高達(dá)65種。但上述成熟的事件Schema體系無法直接應(yīng)用到藏文司法領(lǐng)域,原因有二: ①覆蓋度低。通用領(lǐng)域預(yù)定義的事件知識無法覆蓋真實的藏文司法文本,部分事件類型出現(xiàn)頻次較低甚至從未出現(xiàn)過; ②刻畫粒度粗糙。司法數(shù)據(jù)中的案件要素更加注重司法業(yè)務(wù)相關(guān)的屬性,刻畫的粒度更小、更細(xì)[3]。如“盜竊”事件涉及“盜竊者”“被盜人”“盜竊贓物”“盜竊地點(diǎn)”“盜竊時間”“盜竊金額”等事件要素,而非通用領(lǐng)域泛指的“人物”“地點(diǎn)”“時間”等命名實體信息。需要構(gòu)建契合藏文司法文本的事件模式,滿足藏文司法事件抽取的實際需要。

鑒于上述問題,本文面向藏文司法領(lǐng)域,以中國裁判文書網(wǎng)公布的藏文裁判文書為研究對象,通過深入挖掘案件描述信息,探索事件、人員、財物、外部信息等數(shù)據(jù)要素之間的關(guān)聯(lián)關(guān)系,以半自動的方式構(gòu)建了面向司法領(lǐng)域的藏文事件數(shù)據(jù)集TiEvent,以期探尋事件抽取技術(shù)在藏文司法智能領(lǐng)域應(yīng)用的深度和廣度。本文的貢獻(xiàn)主要包括以下三點(diǎn):

(1) 設(shè)計了“類別分組-主題建?！眱呻A段的契合藏文司法領(lǐng)域的事件模式。受ACE2005、DuEE等事件Schema構(gòu)建理論啟發(fā),借助LDA主題建模技術(shù),制定了藏文司法領(lǐng)域事件Schema體系,以更好地指導(dǎo)藏文司法事件數(shù)據(jù)標(biāo)注工作。

(2) 采用模型驅(qū)動的事件觸發(fā)詞預(yù)標(biāo)注與事件要素人工標(biāo)注相結(jié)合的半自動化數(shù)據(jù)標(biāo)注方式,構(gòu)建了藏文司法事件數(shù)據(jù)集TiEvent。TiEvent共定義了3個大類、12個小類的事件類型,涉及1 863篇藏文刑事裁判文書、2 249個人工標(biāo)注的事件提及。這可能是目前已知的首個藏文司法事件數(shù)據(jù)集。

(3) 對數(shù)據(jù)集進(jìn)行了全面評估。搭建了BiLSTM、BiLSTM-CRF、CINO-CRF等事件抽取框架,并在該數(shù)據(jù)集上進(jìn)行全要素、多維度質(zhì)量評估。實驗表明,在藏文司法文本上,TiEvent具有較高的事件覆蓋度和事件要素完整度,能夠滿足藏文司法事件抽取工作的基本需要。

1 相關(guān)研究

1.1 事件數(shù)據(jù)集

隨著事件抽取技術(shù)從特征工程到神經(jīng)網(wǎng)絡(luò)模型的轉(zhuǎn)變,有關(guān)事件抽取的數(shù)據(jù)集也愈加豐富和多樣化。就領(lǐng)域而言,ACE2005[4]、TAC-KBP[5-7]、MAVEN[8]、DuEE1.0[9]等數(shù)據(jù)集具有良好的事件類型覆蓋度,為通用事件抽取技術(shù)統(tǒng)一評測提供了數(shù)據(jù)基準(zhǔn)。然而,通用領(lǐng)域數(shù)據(jù)集包含的事件知識(事件類型、詞匯形式、句子結(jié)構(gòu)等)與特定領(lǐng)域具有實質(zhì)性差異,因此很多研究者轉(zhuǎn)而基于特定領(lǐng)域文本構(gòu)建相應(yīng)的數(shù)據(jù)集,如CASIE[10]、CySecED[11]面向網(wǎng)絡(luò)安全領(lǐng)域,DuEE-Fin[12]面向金融領(lǐng)域,CEC(6)https://github.com/shijiebei2009/CEC-Corpus面向突發(fā)事件領(lǐng)域,LEVEN、CLEE[13]面向法律領(lǐng)域等。就語種而言,MAVEN、DuEE1.0、CASIE、LEVEN等均為單語數(shù)據(jù)集,也有研究人員構(gòu)建多語數(shù)據(jù)集,對多語言事件模型進(jìn)行了全面評估,如ACE2005、TAC-KBP均包含3種語言(7)ACE2005包括英語、中文、阿拉伯語3種語言;TAC-KBP包含英語、中文、西班牙語3種語言。,TempEval-2[14]包含6種語言(8)6種語言為中文、英語、法語、意大利語、韓語和西班牙語。,MINION[15]包含8種語言(9)8種語言為英語、西班牙語、葡萄牙語、波蘭語、土耳其語、印地語、日語和韓語。等。

1.2 事件抽取技術(shù)評測

“以賽促研”是目前技術(shù)突破的主流渠道,事件抽取技術(shù)近幾十年取得的進(jìn)步與MUC[16]、ACE、TAC-KBP、TDT、TERQAS、BioNLP[17-19]等各個國際評測會議的推動密不可分。語言與智能技術(shù)競賽連續(xù)三屆(2019—2021)(10)http://lic2021.ccf.org.cn/涉及事件抽取任務(wù),設(shè)置了豐富的數(shù)據(jù)集合和評測維度;CCKS(11)全國知識圖譜與語義計算大會(China Conference on Know ledge Graph and Semantic Computing,CCKS)評測同樣開辟了面向醫(yī)療、通信、金融等各個領(lǐng)域的事件抽取任務(wù)賽道,從準(zhǔn)確性、魯棒性和泛化性等多角度對中文事件抽取效果進(jìn)行綜合評價。司法領(lǐng)域方面,中國法律智能技術(shù)評測(Challenge of AI in Law, CAIL)在最高人民法院和中國中文信息學(xué)會的指導(dǎo)下已順利舉辦五屆,提供大量標(biāo)簽化的法律文本作為數(shù)據(jù)集,先后吸引了來自海內(nèi)外高校和企業(yè)組織的近 5 000支隊伍參賽,成為中國法律智能技術(shù)評測的重要平臺。CAIL 2022年首次將事件檢測納入賽道,除此之外,還開辟了司法考試、文書校對、類案檢索、涉法輿情摘要、論辯理解、信息抽取、可解釋類案匹配等7個賽道,任務(wù)設(shè)置更貼合現(xiàn)實世界中的法律環(huán)境痛點(diǎn)。

2 事件Schema制定

本文結(jié)合藏文司法數(shù)據(jù)的實際特點(diǎn),設(shè)計了“類別分組-主題建?！眱呻A段的事件層級體系;同時參照ACE框架,針對某類事件,對該事件類型下對應(yīng)的事件論元進(jìn)行人工約束,最終完成事件及其要素的完整定義。

2.1 事件類型確定

類別分組對1 863篇藏文刑事裁判文書(12)數(shù)據(jù)來源參見3.1。進(jìn)行類別分組,經(jīng)統(tǒng)計,文書類別主要圍繞危害公共安全罪、侵犯財產(chǎn)罪、侵犯公民人身權(quán)利罪、擾亂公共秩序罪等刑事案件展開,其中涉及盜竊罪的文書620篇,占總文書的30%左右(13)盜竊罪屬于侵犯財產(chǎn)罪之一。。為了確保事件類型在真實文書中有更多的事件提及,剔除比例較少的擾亂公共秩序等類別,最終確定的事件類別為危害公共安全、侵犯財產(chǎn)、侵犯公民人身權(quán)利,并對1 863篇文書分門別類。

主題建模首先對原始文本完成分詞、停用詞處理等數(shù)據(jù)清洗操作,其中分詞器的選擇,本文在李亞超開源的TIP-LAS[20]基礎(chǔ)上,充分利用第二屆少數(shù)民族語言分詞技術(shù)評測提供的2萬句藏文分詞語料[21]進(jìn)行訓(xùn)練,得到了較好的藏文分詞效果。然后利用開源第三方Python工具包Gensim(14)https://pypi.org/project/gensim/提供的LDA模型處理接口,對三個類別文書內(nèi)容分別進(jìn)行主題建模,得到各個類別的主題表示和所屬主題概率。根據(jù)主題建模結(jié)果,對主題詞進(jìn)行過濾、歸一與抽象。最終確定的事件類型為盜竊、藏匿、詐騙、抓捕、鑒定、倒賣、購買、死亡、醉酒駕駛、故意傷害、交通肇事、搶劫等12個事件類型。

“類別分組-主題建模”兩階段的事件類型層級體系構(gòu)建流程如圖2所示。

2.2 事件論元確定

對于每個事件類型,遵循ACE2005框架體系,由法學(xué)院專業(yè)人士人工確定對應(yīng)的事件論元及論元限定類型。在確保事件要素在真實文本覆蓋度的同時,維護(hù)事件Schema體系的專業(yè)性。以“盜竊”事件為例,各事件要素限定類型如表1所示。

表1 “盜竊”事件要素及其限定類型

最終的事件類型及其論元如表2所示。

表2 事件類型及論元

3 構(gòu)建方法

數(shù)據(jù)集TiEvent構(gòu)建包含事件Schema制定、數(shù)據(jù)處理、事件核心詞預(yù)標(biāo)注、事件要素人工標(biāo)注四個階段,構(gòu)建流程見圖3。其中事件Schema制定在第2節(jié)已詳細(xì)闡述,下面重點(diǎn)闡述其余部分。

圖3 TiEvent構(gòu)建流程

3.1 數(shù)據(jù)來源

本文以中國裁判文書網(wǎng)公開的藏文裁判文書為原始文檔來源。藏文文書欄目共包含刑事、民事、行政、賠償、執(zhí)行等多種案件類型,但沒有分門別類,所有文書糅雜在一起。本文窮盡式爬取藏文全量文書11 685篇(截止2022年12月),由于數(shù)據(jù)量較大,考慮網(wǎng)站響應(yīng)負(fù)載與反爬機(jī)制,數(shù)據(jù)采集策略為:

(1) 將11 685篇全量文書對應(yīng)的ID、Title、Court、Link、Time等信息爬取并存儲在本地;

(2) 編寫Shell腳本批量下載Link對應(yīng)的PDF文書,并按照對應(yīng)ID進(jìn)行命名;

(3) 根據(jù)文書Title篩選出刑事類文書1 863篇。

整個數(shù)據(jù)采集流程如圖4所示。

3.2 數(shù)據(jù)清洗

由于下載的藏文文書均為PDF文件,不能直接使用,需要進(jìn)行一定的預(yù)處理:

(1)OCR識別利用西藏大學(xué)的開源系統(tǒng)(15)http://bmfx.utibet.edu.cn/socr.fds進(jìn)行OCR識別,由于該系統(tǒng)僅支持對圖片的處理,故首先將所有的PDF文件批量轉(zhuǎn)為JPEG,再進(jìn)行OCR識別。

(2)人工降噪OCR系統(tǒng)對藏文字符識別準(zhǔn)確率較高,但對于阿拉伯?dāng)?shù)字、部分特殊字符的識別稍有偏差,因此本文對系統(tǒng)識別噪聲較大的文字、數(shù)字、特殊符號等進(jìn)行人工降噪,并將校準(zhǔn)后的正確內(nèi)容轉(zhuǎn)儲為TXT文本文件,方便后續(xù)標(biāo)注及處理。

(3)關(guān)鍵內(nèi)容摘錄根據(jù)任務(wù)需求,本文將司法文本中的案例描述、被告及證人陳述內(nèi)容摘錄出來,作為我們數(shù)據(jù)集標(biāo)注的初始語料文本。

3.3 標(biāo)注平臺及理念

本文采用開源標(biāo)注平臺DoTAT(16)https://github.com/FXLP/MarkTool進(jìn)行多人協(xié)同標(biāo)注[22]。標(biāo)注過程遵循MATTER理念[23](圖5),依照“生成數(shù)據(jù)集、模型訓(xùn)練與測試、問題數(shù)據(jù)分析、更新策略、重新生成數(shù)據(jù)集”的輪次不斷迭代。在迭代的早期,盡量使得基線在數(shù)據(jù)集上正常收斂;在迭代的中期,重點(diǎn)關(guān)注基線在開發(fā)集上的表現(xiàn),留意數(shù)據(jù)泄露問題;在迭代的后期,更多關(guān)注問題數(shù)據(jù)。通過驗證可用性,盡早實現(xiàn)數(shù)據(jù)集迭代閉環(huán)。

3.4 事件核心詞預(yù)標(biāo)注

數(shù)據(jù)標(biāo)注采用半自動化方式進(jìn)行,分為事件核心詞預(yù)標(biāo)注和事件要素人工標(biāo)注兩個環(huán)節(jié)。事件核心詞預(yù)標(biāo)注即事件觸發(fā)詞的定位,采用基于預(yù)訓(xùn)練模型CINO-CRF驅(qū)動的方式自動進(jìn)行事件觸發(fā)詞檢測(圖6),其中CINO層獲得輸入上下文的語義特征,CRF層習(xí)得狀態(tài)序列的關(guān)系,解碼并計算最優(yōu)的序列標(biāo)注,最終完成事件核心詞預(yù)標(biāo)注。這種自動的事件核心詞標(biāo)注方法一方面能夠提升標(biāo)注效率,另一方面將包含相應(yīng)事件的事件句篩選出來,為每個事件類型生成對應(yīng)的待標(biāo)注集,降低無效句子干擾。然而,模型預(yù)標(biāo)注的準(zhǔn)確率并不高,對于模型預(yù)標(biāo)注結(jié)果,需要人工介入進(jìn)行二次審查。

圖6 基于CINO-CRF的事件核心詞預(yù)標(biāo)注

3.5 事件要素人工標(biāo)注

事件要素標(biāo)注即確定事件論元,并為每個提取的論元分配特定的論元角色,采用人工方式進(jìn)行,標(biāo)注流程如圖7所示。

圖7 事件要素人工標(biāo)注流程

培訓(xùn)我們從法學(xué)院邀請母語人士,包括兩名標(biāo)注人員和1名審核人員,進(jìn)行標(biāo)注指南解讀以及DoTAT標(biāo)注平臺操作培訓(xùn)。

標(biāo)注每個文本分別指派給兩名注釋者獨(dú)立標(biāo)注,標(biāo)注者需人工審查上一環(huán)節(jié)模型自動標(biāo)注的事件觸發(fā)詞及其對應(yīng)的事件類型。由于事件類型一旦確定,所有待標(biāo)注的論元角色會被自動確認(rèn),因此,要求標(biāo)注者提取事件論元,并以類似的方式為每個提取的論元分配特定的論元角色。根據(jù)標(biāo)注指南定義,對于預(yù)定義的事件類型,其觸發(fā)詞是必須的,但事件論元可缺省。另外,一個事件論元可以在同一文本中扮演不同的角色,多個事件論元也可以分配給同一個論元角色。整個標(biāo)注過程一旦存疑,隨時翻閱標(biāo)注平臺里嵌入的標(biāo)注指南,防止標(biāo)注漂移。

審核根據(jù)標(biāo)注指南,每個文本被獨(dú)立注釋兩次,兩次的標(biāo)注會產(chǎn)生結(jié)果完全一致、部分一致、完全不一致三種可能性,審核人員需要對兩次標(biāo)注結(jié)果進(jìn)行一致性檢驗、手動合并和調(diào)整,得到黃金標(biāo)注數(shù)據(jù)。

迭代數(shù)據(jù)集構(gòu)建并非一蹴而就,需要進(jìn)行多次迭代。依據(jù)各階段迭代目標(biāo),對數(shù)據(jù)集的測試結(jié)果進(jìn)行錯誤分析,回溯模式設(shè)計階段,不斷地更新標(biāo)注策略,校正和豐富數(shù)據(jù)集。

以“醉酒駕駛”事件為例,標(biāo)注樣例如圖8所示。

4 數(shù)據(jù)集分析

4.1 數(shù)據(jù)集大小

TiEvent共定義了3個大類、12個小類的事件類型,涉及1 863篇藏文刑事文檔、63個事件要素(此處包含事件觸發(fā)詞,后面同理),和2 249個人工標(biāo)注的事件提及,平均每個文本包含事件提及1.2個,是目前已知的首個藏文司法事件數(shù)據(jù)集。

4.2 數(shù)據(jù)集分布

本文進(jìn)一步分析了事件類型和論元角色的數(shù)據(jù)分布,結(jié)果分別如圖9、圖10所示。部分事件類型由于文書篇數(shù)較少,在Schema規(guī)劃初期就已排除在外,因此,本數(shù)據(jù)集涉及的事件類型分布較為均衡,即使數(shù)量最少的“購買”事件,也包含42個事件提及。然而,事件論元分布情況較為復(fù)雜: ①各事件類型包含不定數(shù)目的事件論元, 如“鑒定”事件包含3個事件論元,而“搶劫”類事件則包含多達(dá)7個事件論元,經(jīng)分析,每個事件類型平均包含5個事件論元。②部分論元事件提及偏少,長尾現(xiàn)象嚴(yán)重,如在“搶劫”事件中,每個文本都會涉及“搶劫者”“搶劫物品”等事件要素,但“搶劫工具”“搶劫金額”卻不一定存在,事件本身的特性決定了論元的稀疏性。

總體而言,TiEvent面向藏文真實司法文本,涵蓋12種事件類型和63個事件要素,標(biāo)注較為全面,一定程度上可以滿足藏文司法事件抽取任務(wù)的需求。

5 實驗

5.1 實驗設(shè)置

本文按照8∶1∶1將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗證集和測試集,采用宏平均的精確率、召回率和F1得分作為實驗的評估指標(biāo)。

5.2 基線

本文選擇了幾種成熟通用的基線模型,從多個維度對數(shù)據(jù)集進(jìn)行全面評估,包括: ①BiLSTM: 利用雙向LSTM作為特征提取器; ②BiLSTM-CRF: 引入CRF,在雙向LSTM建模的輸出端,添加可依賴的約束; ③mBERT: 利用mBERT進(jìn)行上下文語義表征及參數(shù)微調(diào); ④mBERT-CRF: 在mBERT的輸出端,添加CRF進(jìn)行語義約束; ⑤CINO: 利用CINO進(jìn)行特征提取及參數(shù)微調(diào)[24]; ⑥CINO-CRF: 在CINO輸出端,添加CRF進(jìn)行語義約束。

5.3 實驗結(jié)果

由表3、表4可知,從橫向抽取階段來看,事件觸發(fā)詞檢測效果(F1最高75.36%)明顯優(yōu)于論元識別(F1最高70.98%)。產(chǎn)生這種結(jié)果的原因可能是: 事件觸發(fā)詞是必須的,每一個事件提及至少伴隨著一個事件的產(chǎn)生(即觸發(fā)詞的出現(xiàn)),觸發(fā)詞分布均衡且覆蓋度大;而事件論元的分布差異明顯,部分論元數(shù)量少,如論元“傷害部位”僅涉及16個事件提及,無法提供足量穩(wěn)定的訓(xùn)練特征,影響了論元識別整體效果,這也從側(cè)面論證了數(shù)據(jù)集數(shù)據(jù)分布(4.2節(jié))情況。因此,對于部分稀疏論元,需要進(jìn)行數(shù)據(jù)增廣,改善事件論元分布現(xiàn)狀,優(yōu)化論元識別效果。

表3 觸發(fā)詞檢測 (單位: %)

表4 論元識別 (單位: %)

從縱向模型結(jié)構(gòu)來看,無論在事件觸發(fā)詞檢測階段還是論元識別階段,CRF結(jié)構(gòu)對抽取效果都有一定提升。此外,通過BiLSTM-CRF、mBERT-CRF、CINO-CRF三個模型對比可知,由于數(shù)據(jù)集規(guī)模有限,提供的訓(xùn)練特征不足,BiLSTM沒能獲取有效的訓(xùn)練信號,F1_AVG(17)F1_AVG為Trigger Detection和Argument Recognition的F1平均值。僅40.25%;mBERT雖為多語言預(yù)訓(xùn)練模型,但其訓(xùn)練語料不包含藏語,提供的多語言語義信息雖有價值,但優(yōu)勢并不明顯;CINO 是HFL發(fā)布的首個面向少數(shù)民族語言的多語言預(yù)訓(xùn)練模型,提供了藏語、蒙古語、維吾爾語、哈薩克語、朝鮮語、壯語、粵語等少數(shù)民族語言與漢語方言的理解能力,彌補(bǔ)了低資源語言數(shù)據(jù)規(guī)模帶來的語義限制,提升了藏文事件抽取技術(shù)的效果,其F1_AVG高達(dá)73.17%。不可否認(rèn)的是,目前藏文司法事件數(shù)據(jù)集的質(zhì)量和規(guī)模與高資源語言相比仍有很大差距,需要進(jìn)一步迭代完善。

5.4 錯誤分析

我們對表現(xiàn)最佳的CINO-CRF模型的測試結(jié)果進(jìn)行了錯誤分析與總結(jié),方便后期數(shù)據(jù)優(yōu)化迭代。通過分析發(fā)現(xiàn),錯誤主要集中在論元角色重疊和論元跨句兩種類型,具體分析如下:

表5 錯誤分析

6 結(jié)論

本文面向藏文司法領(lǐng)域,對1 863篇藏文刑事裁判文書進(jìn)行爬取、整理、降噪、分析、標(biāo)注,制定了契合藏文司法實際的事件Schema體系,構(gòu)建了首個開源的藏文司法事件數(shù)據(jù)集TiEvent。該數(shù)據(jù)集標(biāo)注了12種事件類型和63個事件要素,涵蓋1 863個藏文真實司法文本的2 249個事件提及。與此同時,本文評估了幾種成熟基線模型在TiEvent上的測試結(jié)果并進(jìn)行了誤差分析。實驗結(jié)果表明,該數(shù)據(jù)集標(biāo)注較為全面,能夠為藏文司法事件抽取技術(shù)的統(tǒng)一評測提供基準(zhǔn),為藏文司法領(lǐng)域的下游任務(wù)提供基礎(chǔ)。相對于中英文等高資源語言,其規(guī)模和質(zhì)量需進(jìn)一步優(yōu)化迭代。