司徒凌云 孫 鶴 石 進(jìn) 沈固朝
(1.南京大學(xué)信息管理學(xué)院 南京 210023;2.中國南海研究協(xié)同創(chuàng)新中心 南京 210023 )
南海疆維權(quán)關(guān)乎國家安全、區(qū)域和平與亞太經(jīng)濟(jì)發(fā)展。中國一直堅(jiān)持“擱置爭議,共同開發(fā)”的原則開展南?;顒?dòng),然而隨著域外勢力的持續(xù)介入和東南亞各聲索國的單邊行動(dòng),南海局勢持續(xù)緊張,中國南海疆域的維權(quán)和維穩(wěn)面臨挑戰(zhàn)。因此,加快收集南海疆維權(quán)證據(jù)資料、構(gòu)建本體模型、提取證據(jù)要素、挖掘證據(jù)關(guān)系、建立維權(quán)證據(jù)鏈成為維護(hù)我國南海權(quán)益,服務(wù)中國海洋強(qiáng)國戰(zhàn)略的重大需求和緊迫任務(wù)。
以中國南海研究協(xié)同創(chuàng)新中心和中國南海研究院為代表,耗費(fèi)十余年,構(gòu)建了中國南海疆全文數(shù)字資料庫,其中包括文獻(xiàn)庫、地圖庫、影像庫、視頻庫以及檔案庫等多個(gè)數(shù)據(jù)庫,為南海疆維權(quán)證據(jù)鏈的構(gòu)建提供了強(qiáng)大的數(shù)據(jù)基礎(chǔ)。然而,面對海量、異構(gòu)、內(nèi)容豐富的資料庫群,如何有效地定義多模態(tài)南海疆維權(quán)證據(jù)的本體模型成為關(guān)鍵。本體模型的構(gòu)建旨在從不同類型的南海疆資料中提取有效證據(jù)、識(shí)別證據(jù)關(guān)系,進(jìn)而構(gòu)建維權(quán)證據(jù)鏈條。
南海疆維權(quán)證據(jù)本體模型的構(gòu)建面臨挑戰(zhàn)。首先,南海疆資料具有多源異構(gòu)的特點(diǎn),這些資料來源于不同的渠道,使用不同的數(shù)據(jù)標(biāo)準(zhǔn)。因此,本體模型的構(gòu)建需要綜合考慮資源差異性,以實(shí)現(xiàn)對南海疆資料的標(biāo)準(zhǔn)化處理。其次,南海疆資料具有多時(shí)態(tài)、多樣態(tài)、多語言、多載體、多學(xué)科等多模態(tài)特征。過去的本體模型或知識(shí)表示工作主要針對"單一模態(tài)"的文本型數(shù)據(jù),對于圖像型數(shù)據(jù)的處理尚不充分。
因此,本研究面向南海疆維權(quán)服務(wù),構(gòu)建了統(tǒng)一的多模態(tài)南海疆維權(quán)證據(jù)本體模型,涵蓋文本型和圖片型資料,實(shí)現(xiàn)對海量異構(gòu)南海疆資料的標(biāo)準(zhǔn)化處理。以《開羅宣言》為例,利用本體模型對其中南海維權(quán)語義進(jìn)行結(jié)構(gòu)化表達(dá),驗(yàn)證了本體模型的有效性。多模態(tài)南海疆維權(quán)證據(jù)本體模型的構(gòu)建對于南海疆維權(quán)證據(jù)實(shí)體的抽取以及證據(jù)關(guān)系的挖掘具有基礎(chǔ)性支撐作用。
傳統(tǒng)的知識(shí)表示方法,如謂詞邏輯表示法、產(chǎn)生式表示法、框架表示法、語義網(wǎng)絡(luò)表示法和面向?qū)ο蟊硎痉ǖ萚1],在知識(shí)表示研究的發(fā)展過程中發(fā)揮了重要作用,同時(shí)也存在一定的限制[2]。為了克服這些限制,本體模型應(yīng)運(yùn)而生。本體模型能夠?qū)︻I(lǐng)域?qū)嶓w進(jìn)行本質(zhì)抽象,通過多種知識(shí)元素反映實(shí)體之間的關(guān)聯(lián)[3]。作為一種主流的知識(shí)表示方法[4],本體模型已經(jīng)受到學(xué)界與業(yè)務(wù)的廣泛研究與應(yīng)用。
在文本型知識(shí)的本體構(gòu)建研究方面,發(fā)展較快,取得了豐富的成果。例如,毛軍[5]在RDF敘詞表研究方面做出了貢獻(xiàn),薛建武[6]則致力于槍械領(lǐng)域本體的構(gòu)建。然而,傳統(tǒng)的通過手動(dòng)構(gòu)建本體模型的方法效率不高[7]。為此,學(xué)界提出了通過制定敘詞表轉(zhuǎn)換規(guī)則并設(shè)計(jì)算法來實(shí)現(xiàn)本體半自動(dòng)或自動(dòng)化的構(gòu)建。但某些構(gòu)建完成的本體存在與應(yīng)用脫節(jié)、難以復(fù)用或集成、概念體系不夠規(guī)范等問題。因此,專家學(xué)者開始關(guān)注基于頂層本體模型進(jìn)行下層本體構(gòu)建的研究。其中,SPAR[8]是面向語義出版應(yīng)用最具代表性的本體集合。該本體集合包含了8個(gè)核心本體,分別描述了文獻(xiàn)題錄、參考文獻(xiàn)的不同屬性。上述研究為解決本體構(gòu)建過程中的問題提供了新的思路。
基于圖像型知識(shí)的本體構(gòu)建研究通常采用基于頂層本體的方法。例如,朱學(xué)芳等[9]的研究復(fù)用了CIDOC-CRM[10]和FOAF[11]和兩個(gè)本體標(biāo)準(zhǔn),以“非遺—圖像”的二元概念為核心,展現(xiàn)了非遺項(xiàng)目與圖像資源之間的一對多關(guān)系。趙雪芹等人的研究[12]選擇參考CIDOC-CRM概念參考模型、FOAF本體、TIME本體、EVENT本體以及都柏林核心集(DC)元數(shù)據(jù)標(biāo)準(zhǔn)等,致力于解決傳統(tǒng)圖像資源組織方式中細(xì)粒度不夠、語義程度不高、關(guān)聯(lián)性不強(qiáng)的問題。利用圖像知識(shí)元素構(gòu)建了數(shù)字人文圖像本體模型,從而描述了圖像中復(fù)雜的語義概念和屬性關(guān)系。Srinivasa等人的研究[13]提出了一種從英文在線報(bào)紙的文本和圖像數(shù)據(jù)中提取和集成犯罪實(shí)體與關(guān)系知識(shí)庫的方法,并開發(fā)了Crime Base系統(tǒng)。該系統(tǒng)采用基于規(guī)則的方法從文本和圖像標(biāo)題中提取實(shí)體,并使用上下文語義相似性度量來關(guān)聯(lián)從文本數(shù)據(jù)中提取的實(shí)體,使用圖像特征來關(guān)聯(lián)圖像實(shí)體。
面向南海疆維權(quán)與維穩(wěn)場景的應(yīng)用,目前專家學(xué)者們更多地集中于基礎(chǔ)資料整理和關(guān)鍵技術(shù)研究上,如司徒凌云等[14]首次提出了基于多模態(tài)知識(shí)圖譜構(gòu)建南海疆維權(quán)證據(jù)鏈系統(tǒng);齊小英等[15]以南海歷史事件、新聞數(shù)據(jù)及文獻(xiàn)資料為語料庫,構(gòu)建了南海領(lǐng)域主題詞表。該詞表梳理了南海領(lǐng)域核心實(shí)體概念間的內(nèi)在邏輯與知識(shí)脈絡(luò),為南海文獻(xiàn)資源的語義分析提供組織工具與關(guān)聯(lián)基礎(chǔ)。程為等[16]探索了面向南海敘事的事件要素自動(dòng)抽取方法,可以實(shí)從海量南海歷史文本中快速、有效地抽取出各類型事件要素。沈固朝等[17]提出了一種基于描述規(guī)則的知識(shí)元抽取方法,實(shí)現(xiàn)從以篇幅為單位的主題詞抽取到以句為單位的知識(shí)元抽取,實(shí)驗(yàn)表明該方法能夠較好地完成民國南海文獻(xiàn)的知識(shí)元抽取。彭玉芳等[18]基于BERT預(yù)訓(xùn)練模型和分面分類法,構(gòu)建南海文獻(xiàn)分類法,實(shí)現(xiàn)了對南海證據(jù)性資料的細(xì)粒度分類。王燕紅等[19]構(gòu)建了南海疆維權(quán)證據(jù)證明力綜合指標(biāo)體系,探索了基于證明力的維權(quán)證據(jù)關(guān)聯(lián),為南海司法維權(quán)場景下證據(jù)效力的量化研究提供了啟發(fā)。丁晟春等[20]構(gòu)建了南海問題本體及知識(shí)庫,為南海問題智庫的研究提供了有益參考。
目前本體模型相關(guān)研究很多,整體來看,本體模型的構(gòu)建方法正逐步從基于敘詞表的手動(dòng)構(gòu)建過渡至基于頂層本體復(fù)用的自動(dòng)化構(gòu)建。單獨(dú)基于文本和圖像模態(tài)資料進(jìn)行本體模型構(gòu)建的研究很多,但面向多模態(tài)資料的本體模型構(gòu)建研究較少。面向海疆領(lǐng)域本體模型構(gòu)建的研究日益豐富,但大多集中于該領(lǐng)域本體構(gòu)建的基礎(chǔ)資料整理、關(guān)鍵技術(shù)研究上,鮮有學(xué)者提出一個(gè)完整的適用于海疆維權(quán)的本體模型。
本體屬性標(biāo)記技術(shù),在本體模型構(gòu)建過程中扮演著至關(guān)重要的角色,主要用于將語料庫中的實(shí)體概念與本體中的屬性進(jìn)行識(shí)別關(guān)聯(lián)。因此,學(xué)術(shù)界對本體屬性標(biāo)記進(jìn)行了深入的研究,包括屬性抽取、屬性歸一化以及屬性關(guān)聯(lián)等。
針對文本型資料的標(biāo)記,研究者們進(jìn)行了多方面的探索。李斌等[21]以自動(dòng)分析技術(shù)為基礎(chǔ),結(jié)合人工標(biāo)記和校對,采用實(shí)體標(biāo)記方法來解決同名異指和異名同指等問題。盡管取得了良好的結(jié)果,但人工標(biāo)記仍然限制了效率的提高。宋寧遠(yuǎn)等[22]基于敘事性文本語義標(biāo)記流程,選擇GATE8.5.1作為標(biāo)記工具,并利用插件來實(shí)現(xiàn)中文文本的標(biāo)記,一定程度上實(shí)現(xiàn)了敘事性文本的半自動(dòng)標(biāo)記,但對于事件、情節(jié)等富語義文本內(nèi)容的準(zhǔn)確表征仍存在不足。Xu等[23]提出了一種用于物聯(lián)網(wǎng)生態(tài)系統(tǒng)中移動(dòng)和邊緣服務(wù)自動(dòng)標(biāo)注的語義標(biāo)注框架,通過爬取大型真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),對注釋標(biāo)注的分布進(jìn)行深入分析,從而驗(yàn)證了方法的有效性。Shi等[24]通過微調(diào)BERT預(yù)訓(xùn)練模型,應(yīng)用于ADME(吸收、分布、代謝和排泄)的自動(dòng)語義標(biāo)記,相較于傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)了高達(dá)12.5%的絕對F1改進(jìn)。Fernández-González[25]基于深度學(xué)習(xí)提出了一種基于指針網(wǎng)絡(luò)的過渡語義角色標(biāo)記方法,并在CoNLL-2009共享任務(wù)的大多數(shù)語言上取得了較好的性能。上述研究展示了在文本型資源標(biāo)記領(lǐng)域的不斷探索和創(chuàng)新,取得了一定的成果。然而,對于構(gòu)建大規(guī)模、高質(zhì)量語料庫,標(biāo)記技術(shù)仍需要進(jìn)一步提高準(zhǔn)確性和效率。
針對圖片型資源的標(biāo)記,L. Stork等人[26]提出了一種半自動(dòng)化的標(biāo)記模型和工具,用于對1820-1850年間荷蘭印度群島自然史委員會(huì)收集的8000頁圖書的圖像進(jìn)行掃描和注釋。然而,圖像語義的半自動(dòng)化標(biāo)記在標(biāo)注精度、準(zhǔn)確率和效率上仍然存在著局限性。Hofmann[27]提出了一種基于統(tǒng)計(jì)方法的圖像自動(dòng)化標(biāo)記模型 PLSA,但為了避免過擬合問題,通常需要結(jié)合EM算法進(jìn)行最大似然估計(jì)。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的迅速發(fā)展,專家學(xué)者們開始將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法應(yīng)用于圖像的自動(dòng)化標(biāo)記。例如,Wang等[28]提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的方法,通過挖掘搜索結(jié)果來標(biāo)記圖像。該方法具有對離群數(shù)據(jù)魯棒性的優(yōu)勢,但可能導(dǎo)致檢索到大量相似但冗余或含有噪聲的數(shù)據(jù)。Jin等[29]提出了一種半監(jiān)督對抗網(wǎng)絡(luò)來解決圖像語義標(biāo)記時(shí)標(biāo)記數(shù)據(jù)不足的問題。通過在PASCAL VOC 2012和cityscape數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),他們證明了該方法只需少量標(biāo)記圖像即可達(dá)到優(yōu)秀性能,驗(yàn)證了模型的有效性。這些研究展示了在圖片型資源標(biāo)記領(lǐng)域的持續(xù)創(chuàng)新。然而,仍需要在提高標(biāo)記精度、準(zhǔn)確率和效率的同時(shí),解決冗余數(shù)據(jù)和標(biāo)記語義的挑戰(zhàn)。
本文借鑒了通用的本體模型CIDOC-CRM和FOAF來構(gòu)建南海疆維權(quán)所需的證據(jù)本體模型。值得說明的是,本文將所有可能證明待證事實(shí)的證明材料統(tǒng)稱為證據(jù),并通過證據(jù)本身的客觀屬性、場景屬性以及類型屬性來確定維權(quán)證據(jù)的要素。周洪波[30]指出,證據(jù)應(yīng)具備客觀性、相關(guān)性和合法性??陀^性指的是證據(jù)所反映的內(nèi)容是客觀存在的事實(shí),這是證據(jù)的根本屬性。相關(guān)性指的是證據(jù)與案件的待證事實(shí)之間存在客觀聯(lián)系[31]。合法性指的是證據(jù)必須按照法律要求和法定程序獲得的事實(shí)材料。
基于南海資料的多模態(tài)特征,本文將南海維權(quán)證據(jù)分為文本型和圖片型兩類,其中圖片型證據(jù)又細(xì)分為圖像和地圖證據(jù)。這樣的劃分是因?yàn)槠渌愋偷哪虾=Y料,如視頻和音頻,可以轉(zhuǎn)化為文本型和圖片型兩類。圖1所示的是南海維權(quán)證據(jù)的本體層次結(jié)構(gòu),第一層和第二層是上層的多模態(tài)證據(jù)分類,第三層及以下是具體南海維權(quán)證據(jù)類的層次關(guān)系。第一層根據(jù)證據(jù)的模態(tài)將其分為文本型證據(jù)類和圖片型證據(jù)類。第二層根據(jù)文本的發(fā)布來源將文本型證據(jù)類劃分為官方文本類和私人文本類。官方文本類指的是由國家、政府部門、國際組織、國際機(jī)構(gòu)等具有一定公信力的對象發(fā)布的文本型證據(jù)。私人文本類則是由個(gè)人發(fā)布的文本,例如國際條約和個(gè)人傳記之間的區(qū)別。圖片型證據(jù)類可以分為一般圖片證據(jù)類和地圖證據(jù)類。一般圖片證據(jù)類包括會(huì)議照片、報(bào)紙圖片、碑刻圖片、畫冊等。而地圖證據(jù)類則是專指對南海維權(quán)起到支撐作用的地圖證據(jù)材料,例如中華民國地圖等。第三層及更細(xì)分層次主要依據(jù)證據(jù)類之間的組成關(guān)系來確定層次關(guān)系。例如,“中華民國地圖”類根據(jù)時(shí)期的不同,包括“1936年中國全圖”“1946年新民中國地圖”“1948年民國地圖”等地圖證據(jù)類。而“1948年民國地圖”則包括“南沙群島分布”“西沙群島分布”等細(xì)分區(qū)域,“南沙群島分布”又包括“中業(yè)島”“西月島”等島礁類。通過這樣的本體結(jié)構(gòu),我們能夠清晰地描述南海維權(quán)證據(jù)的不同類型及其層次關(guān)系,有助于對證據(jù)進(jìn)行有效的分類和組織。
圖1 南海維權(quán)證據(jù)的本體層次結(jié)構(gòu)
2.1.1文本型證據(jù)分類
國際法院對于領(lǐng)土主權(quán)歸屬問題受理的證據(jù)主要包括書面證據(jù)、口頭證詞和專家證據(jù)三種類型,其中以書面證據(jù)為主。在南海維權(quán)工作中,文本型證據(jù)是書面證據(jù)的重要組成部分。文本資料在證據(jù)層面的知識(shí)粒度較粗,長篇的文獻(xiàn)資料中可能只有部分內(nèi)容可作為具有專指性的有效證據(jù)。但面向南海維權(quán)的司法場景,需要對文獻(xiàn)資料中的證據(jù)要素進(jìn)行實(shí)現(xiàn)細(xì)粒度抽取。因此,本研究調(diào)研了國內(nèi)學(xué)者對于海疆維權(quán)證據(jù)鏈構(gòu)建的思考[32],復(fù)用了通用本體模型CIDOC-CRM、W3C[33]對于實(shí)體的界定,針對南海維權(quán)文本型證據(jù)的特點(diǎn),構(gòu)建了文本證據(jù)、時(shí)間、空間、標(biāo)識(shí)、引源、證明效力、證據(jù)來源類型、證據(jù)主體、主權(quán)行為類型和證據(jù)傾向這10個(gè)核心實(shí)體概念。如圖2所示,核心實(shí)體概念融合了證明價(jià)值(如證明效力、證據(jù)傾向等實(shí)體)和證據(jù)屬性(如時(shí)間、空間等實(shí)體)兩方面的特征,是本體模型構(gòu)建的基準(zhǔn)點(diǎn)。下文將詳細(xì)介紹證據(jù)本體模型中各個(gè)核心實(shí)體概念。
圖2 文本型證據(jù)本體模型圖
文本型證據(jù)(Textual evidence)是本文所構(gòu)建的本體模型的基礎(chǔ)之一。我們構(gòu)建了標(biāo)識(shí)、時(shí)間、空間、引源、文本內(nèi)容、創(chuàng)作背景等屬性,以此構(gòu)建了整個(gè)知識(shí)網(wǎng)絡(luò)。
標(biāo)識(shí)(Identifier)是表示證據(jù)事件在計(jì)算機(jī)存儲(chǔ)中的唯一編號,在進(jìn)行實(shí)體標(biāo)注時(shí),需要依靠證據(jù)的標(biāo)識(shí)進(jìn)行標(biāo)引。本文對從南海資料中抽取的證據(jù)進(jìn)行編號,例如某條證據(jù)是抽取的第888條證據(jù),則其編號為888。
時(shí)間(Time)用于描述證據(jù)事件的發(fā)生時(shí)間。文本型證據(jù)所描述的事件通常處于發(fā)生、發(fā)展和消亡的過程中。隨著時(shí)間的變化,事件也會(huì)動(dòng)態(tài)發(fā)展。時(shí)間信息對于判斷事件發(fā)生的先后順序、梳理事件的演變過程,具有重要價(jià)值。
空間(Space)用于描述證據(jù)事件的發(fā)生地點(diǎn)??臻g下分為兩個(gè)子類,分別是南海島礁和南海海域。空間信息是定位具體問題的核心依據(jù),根據(jù)空間信息,可以梳理出爭議頻發(fā)、有爭議的主要區(qū)域。
引源(Citation)是文本型證據(jù)內(nèi)容中引用的參考文獻(xiàn)。引源能夠提供該條證據(jù)的依據(jù)或出處。通過引源,可以找到更多相關(guān)的證據(jù)文本,增強(qiáng)某一證據(jù)主題的證明力。
證明效力(Probative Force)是文本證據(jù)的重要屬性。根據(jù)前期工作文[34]對書面證據(jù)證明力大小認(rèn)定規(guī)則的研究,本文將證據(jù)來源類型、證據(jù)主體、主權(quán)行為類型和證據(jù)傾向作為考量證明效力的標(biāo)準(zhǔn)。
證據(jù)來源類型(Source Type)用于描述獲取南海文本證據(jù)實(shí)體的來源資料的所屬類型。證據(jù)來源的所屬類型也可以為判斷證據(jù)的證明力提供幫助。例如,對于“南沙群島屬于中國”這一證據(jù)文本,如果來源是《開羅宣言》《波茨坦條約》等國際公約,可以根據(jù)證明力層級來判斷該證據(jù)文本的證明力大小。
證據(jù)主體(Subject)指證據(jù)文本中出現(xiàn)的主語和賓語。證據(jù)主體能夠直觀地表示文本型證據(jù)所描述的行為對象,通常是國家、政府部門、行政司法執(zhí)法機(jī)構(gòu)、國際組織、國際機(jī)構(gòu)或個(gè)人。
主權(quán)行為類型(Action)用于對證據(jù)中涉及的主體主權(quán)行為類型進(jìn)行分類,或者針對不同主體的證據(jù)主題分類。本文將主權(quán)行為類型總體上分為領(lǐng)海內(nèi)主權(quán)行使、第三方對領(lǐng)海管轄權(quán)的限制以及領(lǐng)土(島嶼)取得原則三大類及其他類。不同類別的主權(quán)行為證據(jù)具有不同的證明力級別,可以根據(jù)這些級別判斷證據(jù)文本的證明力大小。
證據(jù)傾向(Tendency)主要包括四類情感,即Positive、Negative、Neutral和Unsure,用于表示該條證據(jù)在南海維權(quán)情境下的情感傾向。例如,Positive表示該事實(shí)描述/證據(jù)對“南海屬于中國”這一主張有正向解釋作用,而Unsure表示很難確定該證據(jù)的情感傾向。通過設(shè)立證據(jù)傾向核心類,可以更系統(tǒng)地判斷和分類證據(jù)文本的證明力方向。
2.1.2圖像型證據(jù)分類
在南海維權(quán)工作中,圖像型證據(jù)同樣具有重要價(jià)值。圖像型證據(jù)主要包括會(huì)議照片、報(bào)紙圖片、碑刻圖片、畫冊和地圖等。其中,地圖作為一類重要的間接證據(jù),在南海維權(quán)中具有特殊的地位。專家學(xué)者們已經(jīng)對地圖進(jìn)行了廣泛的研究,包括地圖在解決領(lǐng)土爭端中的證明價(jià)值以及構(gòu)建南沙群島主權(quán)地圖子證據(jù)鏈等[34]??紤]到地圖在支撐南海維權(quán)工作中的重要作用,本文將地圖證據(jù)獨(dú)立于圖像型證據(jù),并在后文對其詳細(xì)說明。盡管圖像型證據(jù)與文本型證據(jù)在模態(tài)上存在差異,但在維權(quán)邏輯上存在相通性。因此,本文基于已有的文本型證據(jù)實(shí)體分類框架,對圖像型證據(jù)的要素進(jìn)行界定。
如圖3所示,本文構(gòu)建了圖像證據(jù)實(shí)體的要素,包括標(biāo)識(shí)、時(shí)間、空間、圖像內(nèi)容、創(chuàng)作背景和技術(shù)參數(shù)等屬性。在證明效力方面,與文本型證據(jù)有所不同,考慮了引源和圖像的技術(shù)參數(shù)對證明效力的影響。如果圖像型證據(jù)官方文件、維權(quán)文件或領(lǐng)域權(quán)威文獻(xiàn)中被引用,那么該證據(jù)材料的證明力就會(huì)得到提升。因此,本文引入了引源類,并進(jìn)一步分為被引文獻(xiàn)、官方文件和維權(quán)文件三個(gè)子類,以具體反映引源因素對圖像型證據(jù)證明效力的影響。圖像證據(jù)的技術(shù)參數(shù)包括分辨率、清晰度等。一般來說,技術(shù)參數(shù)符合國際法庭對圖像型證據(jù)的可采用標(biāo)準(zhǔn),就會(huì)在司法維權(quán)場景中具有優(yōu)勢。因此,本文在圖像型證據(jù)要素的界定中,借鑒了都柏林核心[35]關(guān)于圖像的元數(shù)據(jù)標(biāo)準(zhǔn),結(jié)合圖像模態(tài)的特點(diǎn),將圖像的各個(gè)重要參數(shù)視為影響證據(jù)證明效力的重要因素。
圖3 圖像型證據(jù)本體模型圖
2.1.3地圖型證據(jù)分類
地圖證據(jù)在國際法院解決領(lǐng)土爭端中具有關(guān)鍵作用,通常能夠?yàn)轭I(lǐng)土主權(quán)的歸屬提供有力說明。例如,中國國民政府出版的《中國南海各島嶼圖》《南海諸島位置略圖》《南海諸島位置圖》等地圖具有較高的專業(yè)性和權(quán)威性,既體現(xiàn)了中國官方的立場,也成為中國擁有南海主權(quán)與治權(quán)的關(guān)鍵歷史證據(jù),同時(shí)也為當(dāng)前中國維護(hù)南海諸島主權(quán)提供了重要的法理依據(jù)。一般來說,國際法院將地圖作為可采信證據(jù)的標(biāo)準(zhǔn)主要依賴于地圖的來源、清晰度、比例、地圖的官方地位、公開出版以及當(dāng)事方隨后的使用情況等因素[36]。
地圖的證明效力通常會(huì)受到地圖是否能夠清晰反映國家意圖的影響。具體來說,地圖是否由國家官方繪制并發(fā)行,以及地圖是否被官方文件引用或作為附件放入官方文件中,都會(huì)對地圖證據(jù)的證明效力產(chǎn)生較大程度的影響。為了反映這一影響因素對地圖證明效力的作用,本文設(shè)立了"來源主體"類和"引源"類。
地圖的來源類型也會(huì)對其證明力大小產(chǎn)生一定程度的影響。一般認(rèn)為,來自正式法律文件(如條約)中的地圖比非政府組織報(bào)告中出現(xiàn)的地圖更具證明力。因此,本文設(shè)立了“來源類型”類來刻畫這一因素。
地圖是否得到國際社會(huì)特別是周邊有利害關(guān)系國家的承認(rèn)或默認(rèn),也是判斷地圖證明效力的重要因素。如果一國在較長時(shí)期內(nèi)對其他國家公開出版發(fā)行的、與自身主張不符的地圖沒有提出外交抗議或反對,并未在合理期限內(nèi)將該事項(xiàng)提交適當(dāng)?shù)膰H組織或國際法庭,可能會(huì)被國際司法機(jī)關(guān)認(rèn)定為對該政治地理邊界存在默認(rèn)。因此,本文設(shè)立了“地圖被承認(rèn)度”類來反映這一因素。
地圖的證明力在一定程度上也取決于其制作者是否中立和權(quán)威。一般來說,如果地圖是由客觀中立的專家繪制的,其證明力會(huì)增加;相反,如果地圖是在爭議的一方授意下制作的,其呈現(xiàn)的內(nèi)容可能不夠客觀。因此,本文設(shè)立了“地圖立場與傾向”類來考量中立性因素對地圖證據(jù)證明力的影響。
地圖的證明力與其技術(shù)上的精確度也有一定的相關(guān)性。因此,本文在“地圖證據(jù)”類下設(shè)立了“技術(shù)參數(shù)”這一子類,以反映清晰度、比例尺等因素對地圖證明力的影響。除以上與證明效力直接相關(guān)的實(shí)體概念以外,本文對地圖證據(jù)還構(gòu)建了4個(gè)核心實(shí)體概念,分別是地圖證據(jù)實(shí)體、標(biāo)識(shí)實(shí)體、時(shí)間實(shí)體、空間實(shí)體,從而形成一個(gè)較為完善的以地圖證據(jù)證明效力為核心的南海維權(quán)地圖證據(jù)本體模型,如圖4所示。
圖4 地圖型圖片證據(jù)本體模型圖
證據(jù)關(guān)系識(shí)別是南海疆維權(quán)證據(jù)鏈構(gòu)建的核心。南海疆維權(quán)證據(jù)間的語義關(guān)系層次多樣、錯(cuò)綜復(fù)雜。本文根據(jù)已界定的證據(jù)要素,集合場景要求與本體關(guān)系結(jié)構(gòu)來定義證據(jù)要素之間的關(guān)聯(lián)關(guān)系,主要包括屬性層關(guān)系、邏輯層關(guān)系,以及證明層關(guān)系。
2.2.1屬性層關(guān)系
實(shí)體類之間的屬性層關(guān)系,主要分為對象屬性關(guān)系和數(shù)據(jù)屬性關(guān)系。對象屬性關(guān)系通常表示證據(jù)要素之間或內(nèi)部的語義關(guān)系;數(shù)據(jù)屬性關(guān)系一般用來表示實(shí)體類固有的數(shù)據(jù)特征關(guān)系。對象屬性關(guān)系包括類與子類之間的從屬關(guān)系(subClassOf)、證據(jù)內(nèi)容描述的時(shí)間(hasTime)等。數(shù)據(jù)屬性關(guān)系包括證據(jù)技術(shù)參數(shù)包含的分辨率大小(hasResolution)、標(biāo)識(shí)和證據(jù)編號之間的指向關(guān)系(hasNumber)等。本文復(fù)用了CIDOC CRM和FOAF本體模型標(biāo)準(zhǔn),結(jié)合已經(jīng)界定的證據(jù)要素,構(gòu)建了17個(gè)對象屬性關(guān)系和7個(gè)數(shù)據(jù)屬性關(guān)系,如表1所示。
表1 多模態(tài)南海證據(jù)本體的屬性層關(guān)系
2.2.2邏輯層關(guān)系
本研究參考了修辭結(jié)構(gòu)理論,PDTB2.0[37]和ISO 24617-8[38]核心語義關(guān)系標(biāo)準(zhǔn),基于多模態(tài)南海證據(jù)鏈構(gòu)建需求,設(shè)計(jì)了12種邏輯層語義關(guān)系,具體列舉如表2所示。其中,時(shí)間關(guān)系用于描述事件發(fā)生的先后順序,以展現(xiàn)重要證據(jù)事件的動(dòng)態(tài)發(fā)展過程;因果關(guān)系表示事件之間存在著因果關(guān)聯(lián),即有因必有果;印證關(guān)系是證據(jù)本體特有的一種語義邏輯關(guān)系,用于表示證據(jù)之間的相互印證關(guān)系;互斥關(guān)系則表明兩個(gè)證據(jù)在某一證據(jù)主題的證明方向上是相反的;包含關(guān)系則表示某一證明主題下的證據(jù)之間存在層次關(guān)系。
表2 多模態(tài)南海證據(jù)本體的邏輯層關(guān)系
為了支持多模態(tài)南海疆證據(jù)本體的語義推理和擴(kuò)展,本文對邏輯層關(guān)系定義了語義屬性,包括互逆屬性和對稱屬性?;ツ鎸傩杂糜诿枋鱿嗷パa(bǔ)充的關(guān)系,例如Before和After表示事件發(fā)生的先后順序,BeginMeetsEnd和EndMeetsBegin表示事件的開始和結(jié)束相遇,BeComposed Of和Composed表示組成關(guān)系。對稱屬性則表示兩個(gè)關(guān)系之間的對等性,例如Concurrency和Finished表示事件的同時(shí)發(fā)生,Result和Reason表示事件之間的因果關(guān)系。例如,如果已知事件B是事件A的結(jié)果,那么事件A是事件B的原因。
2.2.3證明層關(guān)系
針對文本型證據(jù)和圖像型證據(jù),基于已定義的證明力核心實(shí)體概念,結(jié)合文獻(xiàn)[34]中關(guān)于南海維權(quán)證據(jù)證明力的分析,設(shè)計(jì)了多模態(tài)南海證據(jù)本體的證明層級關(guān)系,具體如表3所示。
表3 多模態(tài)南海證據(jù)本體的證明層關(guān)系
本文主要從證據(jù)主體、證據(jù)來源類型和主權(quán)行為類型三個(gè)方面進(jìn)行分析。對于圖像型證據(jù),還考慮了圖像引源和重要的圖像參數(shù)。在證據(jù)主體方面,通常認(rèn)為官方行為的證明效力大于私人行為;在證據(jù)來源類型方面,按照國際法院解決領(lǐng)土爭端的標(biāo)準(zhǔn),通常認(rèn)為證明力從高到低的順序是:條約及國際協(xié)議>保持占有法律>有效控制證據(jù)>其他證據(jù)。對于地圖證據(jù),綜合考慮地圖來源類型、來源主體、引源、地圖被承認(rèn)度和地圖技術(shù)參數(shù)等方面來分析證明力大小。證明力方向表示的是證據(jù)在特定證明主題下所支持的方向,在證據(jù)本體中體現(xiàn)為證據(jù)傾向。證明主題能夠反映證據(jù)之間的相關(guān)程度,多個(gè)證據(jù)指向同一證明主題的關(guān)聯(lián)程度越高,證據(jù)之間的聯(lián)系也越緊密,對該主題的支持效力也越大。
2.3.1標(biāo)記流程
本文旨在構(gòu)建多模態(tài)南海維權(quán)證據(jù)本體模型,以實(shí)現(xiàn)對南海維權(quán)證據(jù)的細(xì)粒度語義的結(jié)構(gòu)化表示。首先,需要對文本和圖片模態(tài)的資料進(jìn)行本體屬性標(biāo)記,即提煉多模態(tài)證據(jù)的特征詞。然后,建立特征詞之間的映射關(guān)系。最后,將多模態(tài)證據(jù)關(guān)聯(lián)起來,形成證據(jù)鏈條[39]。
多模態(tài)證據(jù)本體屬性的標(biāo)記流程如圖5所示。首先,根據(jù)多模態(tài)證據(jù)的事件觸發(fā)詞,對地圖證據(jù)和其他證據(jù)進(jìn)行標(biāo)記。然后,對文本型證據(jù)和圖像型證據(jù)進(jìn)行證據(jù)內(nèi)容分析,識(shí)別出證據(jù)本體所需的證據(jù)要素。對于地圖證據(jù),需要進(jìn)行元數(shù)據(jù)錄入,從南海地圖庫等知識(shí)庫中導(dǎo)入地圖證據(jù)的各個(gè)參數(shù)。接下來,基于已有的本體和受控詞表,對文本和圖像證據(jù)進(jìn)行事件要素抽取,將抽取出來的證據(jù)要素賦值,并建立多層次關(guān)系。對于地圖證據(jù),需要進(jìn)行實(shí)體識(shí)別,保留證據(jù)本體所需的特定實(shí)體,并通過關(guān)系識(shí)別建立實(shí)體之間的關(guān)聯(lián)關(guān)系。最后,對結(jié)果進(jìn)行規(guī)范化處理,輸出標(biāo)記結(jié)果。通過這一流程,多模態(tài)南海維權(quán)證據(jù)本體模型能夠?qū)崿F(xiàn)對南海維權(quán)證據(jù)的語義結(jié)構(gòu)化表示,從而提供了更細(xì)粒度的證據(jù)分析和推理基礎(chǔ)。這一過程當(dāng)中設(shè)計(jì)多項(xiàng)關(guān)鍵技術(shù),包括實(shí)體識(shí)別、事件抽取與關(guān)系識(shí)別等。
圖5 多模態(tài)證據(jù)本體屬性標(biāo)記流程
2.3.2關(guān)鍵技術(shù)
a.實(shí)體識(shí)別。實(shí)體識(shí)別是從證據(jù)中識(shí)別出特定類型的實(shí)體,并將其正確分類[40]。盡管在多模態(tài)實(shí)體識(shí)別方面,專家學(xué)者已經(jīng)取得了一些成果,但跨模態(tài)抽取與融合仍然是亟待解決的問題之一。目前的研究主要采用交叉Transformer來進(jìn)行特征融合,但其融合方式相對單一,注意力機(jī)制在融合過程中的潛力尚未充分發(fā)揮。此外,將BERT應(yīng)用于多模態(tài)學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)主要分為兩類:一類是直接對視覺流和文本流進(jìn)行跨模態(tài)預(yù)訓(xùn)練;另一類是先對兩種模態(tài)進(jìn)行編碼,然后使用編碼后的表示進(jìn)行跨模態(tài)融合。其中,先編碼再融合的網(wǎng)絡(luò)結(jié)構(gòu)效果更好。在當(dāng)前的研究中,需要進(jìn)一步探索更有效的跨模態(tài)抽取與融合方法,以提高實(shí)體識(shí)別的性能。同時(shí),對注意力機(jī)制在融合過程中的應(yīng)用進(jìn)行優(yōu)化,以充分利用不同模態(tài)之間的關(guān)聯(lián)信息,提高跨模態(tài)信息抽取的準(zhǔn)確性和效率。
b.事件抽取。事件抽取技術(shù)是對南海問題相關(guān)事件中具有標(biāo)志性意義的事件進(jìn)行整理和提取的過程,是構(gòu)建南海維權(quán)證據(jù)本體并支持維權(quán)工作的基礎(chǔ)工作。目前,主流的事件抽取技術(shù)可以分為兩大類。第一類是基于自然語言處理工具的抽取方法,它通過利用自然語言處理工具來提取事件文本中的"主語+謂語+賓語"等結(jié)構(gòu)。這種方法在通用文本中效果較好,對于中文文本常用的處理工具有LTP,對于英文文本常用的處理工具有StanfordNLP[41]。第二類是構(gòu)建自動(dòng)抽取模型來實(shí)現(xiàn)事件抽取,主要包括基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法通常是將人工設(shè)計(jì)的規(guī)則轉(zhuǎn)化為程序規(guī)則,從而實(shí)現(xiàn)自動(dòng)化處理。常用的機(jī)器學(xué)習(xí)基準(zhǔn)模型包括HMM、SVM、CRF等;而常用的深度學(xué)習(xí)模型包括CNN、BiLSTM、Bi-GRU等。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的方法在事件抽取任務(wù)中取得了顯著的進(jìn)展,但對于特定領(lǐng)域或任務(wù),仍需要結(jié)合具體情況選擇適合的方法并進(jìn)行優(yōu)化。
c.關(guān)系識(shí)別。關(guān)系識(shí)別目的在于挖掘給定事件之間的關(guān)系,從而快速地構(gòu)建領(lǐng)域知識(shí)庫?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的事件抽取方法主要包括基于特征向量的方法[42]、基于核函數(shù)的方法[43],應(yīng)用于事件關(guān)系識(shí)別的深度學(xué)習(xí)模型主要有CNN、RNN、GCN等。屬性關(guān)系識(shí)別是領(lǐng)域本體及知識(shí)圖譜構(gòu)建的重要基礎(chǔ),目前國內(nèi)外的研究主要集中在實(shí)例及屬性的提取,或?qū)傩院蛯傩灾祵Φ奶崛44]。為了提高屬性關(guān)系抽取的性能,目前較為主流的關(guān)系識(shí)別技術(shù)是通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行算法設(shè)計(jì),來提高精度和適應(yīng)各種復(fù)雜環(huán)境。
2.3.3實(shí)例分析
《開羅宣言》是世界反法西斯戰(zhàn)爭時(shí)期,中美英三國首腦在埃及開羅舉行會(huì)議后簽署的重要文件,宣言中提到多項(xiàng)涉及我國在戰(zhàn)爭中被侵略領(lǐng)土的解決辦法,對于支持南海維權(quán)工作具有重要意義。因此,本文選取《開羅宣言》相關(guān)的多模態(tài)南海維權(quán)證據(jù)和中華民國地圖證據(jù)作為實(shí)驗(yàn)樣本,基于本文提出的本體模型進(jìn)行語義標(biāo)注,最后以知識(shí)圖譜的形式進(jìn)行表示,從而驗(yàn)證多模態(tài)南海疆維權(quán)證據(jù)本體模型的實(shí)用性。
如圖6所示,《開羅宣言》的證明主題是基于《開羅宣言》的南海維權(quán),分別具有文本證據(jù)《開羅宣言》中英文抄本和圖像證據(jù)《開羅宣言》簽署照片,兩者對于支持該證明主題均有一定證明效力?!堕_羅宣言》中英文抄本的證據(jù)編號為NO.003,于1943年12月1日在重慶、華盛頓、倫敦三地同時(shí)發(fā)表,其創(chuàng)作背景是“二戰(zhàn)勝利,中美英三國首腦召開開羅會(huì)議”,文本創(chuàng)作時(shí)間是“1943年11月22日至26日”,文本內(nèi)容包括“...使日本所竊取于中國之領(lǐng)土...歸還中華民國...”,該文本被文獻(xiàn)《論<開羅宣言>在當(dāng)代國際法律秩序中的地位》引用?!啊堕_羅宣言》簽署照片”的證據(jù)編號為“NO.001”,圖像內(nèi)容為“中美英三國首腦召開開羅會(huì)議時(shí)的合照”,照片拍攝時(shí)間為“1943年11月25日”。針對《開羅宣言》中英文抄本,本文所考慮的南海維權(quán)證據(jù)證明力影響因素包括:證據(jù)傾向?yàn)椤癙ositive”、證據(jù)來源類型為“條約”、證據(jù)主體為“中美英三方首腦”、主權(quán)行為類型為“收復(fù)失地”。針對《開羅宣言》簽署照片,除文本證據(jù)具有的四個(gè)影響因素以外,該圖像證據(jù)收錄于《美國條約和其他國際協(xié)定匯編(1776-1949)》,其照片格式為“jpg”、分辨率為“300ppi”、圖像大小為“6.1MB”同樣作為證明力影響因素來考慮。
圖6 基于《開羅宣言》進(jìn)行南海維權(quán)的語義結(jié)構(gòu)化表示
1948年中華民國地圖同樣能夠?yàn)樽C明主題“基于《開羅宣言》的南海維權(quán)”提供支持,其證據(jù)編號為“NO.888”,其繪制時(shí)間和地圖所指時(shí)間為“1948年”,地圖繪制的主要區(qū)域?yàn)椤岸?zhàn)后中華民國全境”。地圖所包含的內(nèi)容包括“南海九段線符號和國界線”,以及地圖的創(chuàng)作背景為“二戰(zhàn)勝利,中華民國收回戰(zhàn)爭失去的領(lǐng)土”,基于此,可知“1948年中華民國地圖”呈現(xiàn)的是戰(zhàn)后的中華民國全境,對于支持南海維權(quán)工作的有用性。針對“1948年中華民國地圖”,本文所考慮的“南海地圖證據(jù)證明力影響因素”包括:地圖制作者的立場為“正向”;證據(jù)本身對于證明主題的傾向?yàn)椤癙ositive”;地圖來源類型為“單圖”,來源主體為“亞光輿地學(xué)社”;地圖的被承認(rèn)度為“國際社會(huì)持中立態(tài)度”;地圖被文獻(xiàn)“《從地圖看中國南海海域疆界線的形成與演進(jìn)》”和文件“《中華民國年鑒》”引用;地圖的技術(shù)參數(shù)(比例尺為“1:100,000,000”、圖例“有”、分辨率為“96ppi”)。
通過分析基于《開羅宣言》的內(nèi)容可知,一方面需要對證據(jù)模態(tài)進(jìn)行識(shí)別,另一方面需要對證據(jù)的證明力進(jìn)行判斷,主要流程流程為四個(gè)步驟:首先,查詢證據(jù)編號,找到該證據(jù)在知識(shí)庫中所對應(yīng)的標(biāo)識(shí);其次,分析證據(jù)所要證明的主題;然后,通過證據(jù)傾向和制作者立場等因素判斷證據(jù)在證明力上的方向來確定支撐價(jià)值;接著,根據(jù)影響因素分析證據(jù)的證明力大小;最后,綜合不同模態(tài)證據(jù)的證明效力,對“基于《開羅宣言》的南海維權(quán)”所涉及的多模態(tài)證據(jù)的證明效力進(jìn)行綜合判斷。
根據(jù)以上分析可知,本文提出的多模態(tài)南海疆維權(quán)證據(jù)本體模型可以有效的規(guī)范的描述基于《開羅宣言》的南海維權(quán)內(nèi)容,清晰地呈現(xiàn)證據(jù)要素和維權(quán)過程,說明了本體模型的表示能力與實(shí)際作用。
多模態(tài)南海疆維權(quán)證據(jù)本體模型的構(gòu)建具有重要的意義,既是南海疆知識(shí)圖譜構(gòu)建的基礎(chǔ),也是南海疆維權(quán)實(shí)踐的重要支撐,更是南海疆人文敘事的重要依托。
第一,南海疆知識(shí)圖譜構(gòu)建的基礎(chǔ)。多模態(tài)南海疆維權(quán)證據(jù)本體模型是多模態(tài)知識(shí)圖譜構(gòu)建后續(xù)研究的基礎(chǔ)?;趯Χ嗄B(tài)證據(jù)進(jìn)行了證據(jù)要素界定,可以實(shí)現(xiàn)南海疆維權(quán)證據(jù)的結(jié)構(gòu)化語義表示。通過屬性層、邏輯層、證明層的語義關(guān)系可以實(shí)現(xiàn)多層次證據(jù)關(guān)系的智能識(shí)別鏈接;通過多模態(tài)證據(jù)的標(biāo)記方法,可以實(shí)現(xiàn)知識(shí)圖譜的自動(dòng)化構(gòu)建。為后續(xù)針對維權(quán)證據(jù)鏈知識(shí)圖譜的可視化、證據(jù)知識(shí)發(fā)現(xiàn)與推薦研究奠定基礎(chǔ)。
第二,南海疆維權(quán)實(shí)踐的重要支撐。面向南海疆維權(quán)的實(shí)際工作,本文所提出的多模態(tài)南海疆維權(quán)證據(jù)本體模型是重要的支撐。基于多模態(tài)南海疆證據(jù)本體模型,可以實(shí)現(xiàn)細(xì)粒度的證據(jù)實(shí)體抽取、多層次語義關(guān)系識(shí)別,對南海疆證據(jù)資料進(jìn)行語義結(jié)構(gòu)化表示,呈現(xiàn)清晰的證據(jù)知識(shí)組織體系,為南海疆維權(quán)證據(jù)鏈的智能化構(gòu)建提供了重要的工具支撐,能夠在國際外交輿論和司法維權(quán)場景下,通過提供多脈絡(luò)、多形式的證據(jù)鏈有理有據(jù)地維護(hù)我國南海疆權(quán)益。
第三,南海疆人文敘事的重要依托。面向南海疆的人文敘事工作,多模態(tài)南海疆維權(quán)證據(jù)本體模型是其重要依托。南海疆人文敘事的宣教工作對歷史資料的真實(shí)性和完整性,故事脈絡(luò)的邏輯條理性有著嚴(yán)格的要求。多模態(tài)南海疆維權(quán)證據(jù)本體的應(yīng)用,一方面有助于利用多模態(tài)南海資料,更生動(dòng)形象,直觀易懂地講好中國南海故事;另一方面,有助于證據(jù)關(guān)系的挖掘和組織,實(shí)現(xiàn)從碎片史料到關(guān)聯(lián)史料以及全景史料的探究,實(shí)現(xiàn)從單一脈絡(luò)到多重脈絡(luò)的史實(shí)還原與印證。
本文融合了文本型、圖像型和地圖型三種類型的證據(jù),構(gòu)建了多模態(tài)南海維權(quán)證據(jù)本體模型,為多模態(tài)證據(jù)實(shí)體的智能抽取表示和多層次證據(jù)關(guān)系的智能識(shí)別鏈接提供了模型基礎(chǔ)。以開羅宣言為實(shí)例說明了多模態(tài)南海維權(quán)證據(jù)本體模型表示能力的有效性與實(shí)用性。融合本體模型、本體屬性標(biāo)記與關(guān)系關(guān)聯(lián),可以更好地挖掘和推理多模態(tài)南海證據(jù)之間的關(guān)系,增強(qiáng)證據(jù)的證明效力,講好南海維權(quán)故事,服務(wù)南海維權(quán)實(shí)際工作。未來的研究中,我們將基于多模態(tài)南海維權(quán)證據(jù)本體,推進(jìn)多模態(tài)南海維權(quán)證據(jù)鏈的構(gòu)建,實(shí)現(xiàn)面向不同維權(quán)場景下的證據(jù)鏈條組織。