亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識圖譜的書證目錄知識發(fā)現(xiàn)研究*
        ——以南海書證目錄為例

        2022-04-12 04:00:46王燕紅司徒凌云楊海平
        情報雜志 2022年3期
        關(guān)鍵詞:書證島礁南海

        王燕紅 司徒凌云 楊海平 程 為

        (1.南京大學(xué)信息管理學(xué)院 南京 210023;2.南京農(nóng)業(yè)大學(xué)信息科技學(xué)院 南京 210023)

        0 引 言

        知識發(fā)現(xiàn)的定義是由Fayyad等在1996年提出,指從數(shù)據(jù)集中提取有效的、新穎的、潛在有用的、可理解的模式的非平凡過程。知識發(fā)現(xiàn)過程呈現(xiàn)“數(shù)據(jù)—信息—知識”的邏輯演變[1]。從知識發(fā)現(xiàn)的視角,通過文獻(xiàn)內(nèi)容挖掘與分析建立文獻(xiàn)內(nèi)容之間的內(nèi)部鏈接關(guān)系,向下通過具象化加工處理成時間、地點(diǎn)、人物等分類實(shí)體數(shù)據(jù),向上通過關(guān)聯(lián)化發(fā)現(xiàn)有價值的知識,表明數(shù)據(jù)分析有利于挖掘隱性知識并賦能知識發(fā)現(xiàn),促使信息資源向知識型信息資源轉(zhuǎn)換,體現(xiàn)出三者相互融合、層層遞進(jìn)的邏輯演變。

        但武漢大學(xué)馬費(fèi)成教授[2]提出人工智能、大數(shù)據(jù)等新技術(shù)在很大程度上將傳統(tǒng)的由事實(shí)、數(shù)據(jù)、信息、知識、情報(智能)所構(gòu)成的、漸進(jìn)式的信息鏈機(jī)構(gòu)發(fā)生改變,對知識、情報和解決方案的挖掘可以在任意階段進(jìn)行。因而,本研究希望對南海書證目錄的知識發(fā)現(xiàn)研究,通過利用知識圖譜技術(shù),在對數(shù)據(jù)進(jìn)行深度挖掘和分析的基礎(chǔ)上,提煉升華成知識,促使其實(shí)現(xiàn)直接從數(shù)據(jù)層到知識層的跨越,深度揭示不同知識對象,并支持關(guān)聯(lián)與組織,從而探索知識發(fā)現(xiàn)的新研究范式。

        1 南海文獻(xiàn)目錄整理現(xiàn)狀

        在南海檔案資料整理的檢索工具編制方面,早在1948年, 我國著名圖書館學(xué)家杜定友先生編纂的專題書目《東西南沙群島資料目錄》[3]。此后,1973年福建省圖書館編纂的《我國南海諸島資料聯(lián)合目錄》[4],1981年許崇灝、鄭資約、杜定友、丘岳宋續(xù)編的《瓊崖志略·南錄》合輯[5];1994年,中國社會科學(xué)院中國邊疆史地研究中心李國強(qiáng)、寇俊敏編輯的《海南及南海諸島史地論著資料索引》[6];1998年,吳士存、沈固朝、李秀領(lǐng)編輯的《南海資料索引》[7];2013年,范伊然主編的《南??脊刨Y料整理與述評》[8];2016年,國家圖書館中國邊疆文獻(xiàn)研究中心編著的《南海諸島圖籍錄》[9](全三冊),一直也從未停止。這些出版的文獻(xiàn)整理工具都是對資料的梳理,通過目錄學(xué)的方法將文獻(xiàn)整理成不同類別的目錄,匯集成冊,逐漸實(shí)現(xiàn)了從文獻(xiàn)層次到數(shù)據(jù)層次的邁進(jìn)。

        隨著信息的數(shù)字化程度越來越高,資料來源越來越分散,整理工具也從原先的文獻(xiàn)目錄發(fā)展到了數(shù)據(jù)庫等信息化平臺。廈門大學(xué)圖書館構(gòu)建“東南海疆研究數(shù)據(jù)庫”以及南京大學(xué)信息管理學(xué)院協(xié)力中國南海研究協(xié)同創(chuàng)新中心構(gòu)建的《南海文庫》數(shù)字資源庫,都昭示著數(shù)據(jù)庫將成為今后做南海文獻(xiàn)發(fā)掘與整理的重要基礎(chǔ)性工具。但隨著網(wǎng)絡(luò)的發(fā)展和越來越多沉睡文獻(xiàn)的公開,南海疆文獻(xiàn)資料系統(tǒng)性、完整性、關(guān)聯(lián)性不足的問題越來越凸顯,現(xiàn)有南海疆文獻(xiàn)整理與挖掘成果缺乏對文獻(xiàn)資料內(nèi)容的深度挖掘以及知識關(guān)聯(lián),需要從知識發(fā)現(xiàn)視角,對資料進(jìn)行深層揭示,實(shí)現(xiàn)南海文獻(xiàn)資料從數(shù)據(jù)層向知識層轉(zhuǎn)化。

        對南海書證目錄的研究,將以構(gòu)建知識圖譜的方式,實(shí)現(xiàn)知識發(fā)現(xiàn)的目的。知識圖譜是通過數(shù)據(jù)模型構(gòu)建實(shí)體之間關(guān)系的圖形,它是一種有向關(guān)系圖,構(gòu)建這張圖的過程中,需要對原始數(shù)據(jù)清理,采用自然語言進(jìn)行實(shí)體識別,基于特征向量構(gòu)建實(shí)體關(guān)系,采用圖論知識繪制實(shí)體和關(guān)系,采用數(shù)據(jù)挖掘技術(shù)獲得知識,分析出潛在關(guān)系等,最終達(dá)到深入獲得數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的目的,實(shí)現(xiàn)知識挖掘[10]。

        2 基于規(guī)則的文本信息抽取

        2.1數(shù)據(jù)來源及預(yù)處理研究選取的是由廈門大學(xué)出版社于2018年8月出版《中國在南海的歷史性權(quán)利及證據(jù)目錄》[11]一書,本書是由李劍依歷史事件發(fā)生的年代或朝代先后順序?qū)v史證據(jù)集中編排。對書證目錄的實(shí)體標(biāo)注與抽取,將以本書的主體部分,即第三章《南海主權(quán)證據(jù)表》作為主要的數(shù)據(jù)來源。另外,本研究采集了部分百度百科的數(shù)據(jù)作為明確實(shí)體實(shí)例的補(bǔ)充?!吨袊谀虾5臍v史性權(quán)利及證據(jù)目錄》的第三章《南海主權(quán)證據(jù)表》,它以半結(jié)構(gòu)化的表格形式按時序列舉組織了每一條證據(jù)的“主題序號”“序號”“時間(公元)/朝代”“事件/描述”及“文獻(xiàn)來源”五大屬性內(nèi)容,其中有些同一描述在多個“文獻(xiàn)來源”中被記載,凡空白之處與緊鄰的上一表格框內(nèi)容相同。文本中一條證據(jù)內(nèi)容如例1所示,其中 表示單元格分割符,后面緊接括號內(nèi)內(nèi)容表示前面單元格的內(nèi)容屬性。

        例1:S1 (主題序號)1 (序號)25-220年/東漢 (時間(公元)/朝代)有關(guān)“漲海”和“漲海崎頭”的記載,其中“漲?!睘槲覈糯鷮Π虾VT島在內(nèi)的南海之稱謂,“崎頭”為古代對海中的礁嶼、淺灘的稱呼,“漲海崎頭”即泛指南海諸島礁灘 (事件/描述)楊孚:《異物志》,見(明)唐胄《正德瓊臺志》卷9,土產(chǎn)下,藥之屬,引《異物志》,第14頁。1964年上海古籍書店據(jù)寧波天一閣藏明正德殘本影印 (文獻(xiàn)來源)。

        證據(jù)表中的“主題序號”是有實(shí)際意義的為字母標(biāo)識,單字母標(biāo)識是最上位大類,其對應(yīng)含義見表1。

        表1 主題序號及對應(yīng)的含義表

        利用OCR文字識別技術(shù)對《南海主權(quán)證據(jù)表》進(jìn)行文本化處理,并參照原文本人工校對糾錯,獲得該表格中共有711條形如例1的證據(jù)記載,將近17萬字,用于后續(xù)處理。

        2.2書證目錄與實(shí)體、屬性的對應(yīng)關(guān)系經(jīng)過數(shù)據(jù)預(yù)處理,可以發(fā)現(xiàn)證據(jù)表是基于半結(jié)構(gòu)化的文本組織,由于表格行列相關(guān)的屬性,單獨(dú)單元格的文本信息并不孤立,它與同行的其他信息同屬一條證據(jù),存在相關(guān)關(guān)系;與同列的其他信息同屬一種信息類型,具有相似文本結(jié)構(gòu)。因此根據(jù)半結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),可以以各列組成的不同相似文本集合為對象,分析文本結(jié)構(gòu),根據(jù)待抽取文本及其上下文的特征,定義規(guī)則對每一行即一條證據(jù)的各字段進(jìn)行遍歷抽取。本研究選擇利用正則表達(dá)式表達(dá)規(guī)則構(gòu)造文本匹配模式,從而獲取不同規(guī)則對應(yīng)的信息。

        在信息抽取中,書證目錄與實(shí)體、屬性的對應(yīng)關(guān)系,如圖1所示。實(shí)體是指現(xiàn)實(shí)世界中客觀存在并可相互區(qū)分的事物,在自然語言處理領(lǐng)域指文本中有特定意義、可指向某一具體事物的字段,如人名、地名等。從書證目錄文本中抽取的四個實(shí)體分為引源著作、引源責(zé)任者、涉證島礁、古地名。在“事件/描述”字段可獲取文本中南海島礁的實(shí)體信息,由于證據(jù)表中的每一條事件記載都具有歷史性證據(jù)的性質(zhì),而島礁名又是證據(jù)中的一個重要屬性,因此為表示島礁名在證據(jù)中的重要性,將南海島嶼這一實(shí)體類型命名為“涉證島礁”,由于古籍中存在島礁古今名對照的說明,所以增加“古地名”這一實(shí)體類型,用于揭示島礁的古今對照關(guān)系。在“文獻(xiàn)來源”字段可獲取各條證據(jù)對應(yīng)的記載出處,也即證據(jù)表中各證據(jù)的引源信息,對文本中的作者、書名、信息進(jìn)行抽取,并從揭示這些實(shí)體類型具有引用源出處的性質(zhì)對實(shí)體規(guī)范化命名,如作者對應(yīng)“引源責(zé)任者”,書名對應(yīng)“引源著作”等。

        圖1 目錄與實(shí)體、屬性以及實(shí)體與屬性對應(yīng)關(guān)系圖

        屬性是屬于描述實(shí)體某一性質(zhì)的數(shù)據(jù),在上面所抽取的信息中,有些數(shù)據(jù)是數(shù)值型數(shù)據(jù)而無法單獨(dú)作為一種實(shí)體類型,例如時間、卷次等。由于時間與證據(jù)記載以及文獻(xiàn)來源都是相互對應(yīng)的關(guān)系,因此可作為“引源著作”的時間屬性,除此之外,卷次、期次、頁碼都是在“文獻(xiàn)來源”部分作為證據(jù)詳細(xì)出處的補(bǔ)充說明,因此作為“引源著作”的來源屬性。證據(jù)的主題序號用來揭示證據(jù)的分類信息,因此可以用“引源著作”與“涉證島礁”兩實(shí)體組成的每一組關(guān)系來對應(yīng)各證據(jù)的主題屬性。

        2.3實(shí)體與屬性抽取規(guī)則對于實(shí)體抽取的規(guī)則,本研究以南京大學(xué)中國南海協(xié)同創(chuàng)新中心所創(chuàng)建的《南海地名關(guān)鍵詞表》作為依據(jù),按照關(guān)鍵詞表中的古今同義將所有地名關(guān)鍵詞分為古名和今名兩大類,在每一條“事件/描述”字段中,分別對古今兩類各南海地名關(guān)鍵詞遍歷匹配,將每條證據(jù)中匹配成功的古今地名關(guān)鍵詞抽取出來,即完成對每條證據(jù)中“涉證島礁”及“古地名”實(shí)例的抽取。

        引源著作即來自于“文獻(xiàn)來源”字段中的具體文獻(xiàn),而文獻(xiàn)的形式特點(diǎn)就是由書名號分割出來的,因此定義規(guī)則“《(.*?)》”,將“文獻(xiàn)來源”字段中所有由書名號包括起來的字符串文本抽取出來,再在其起始字符前和終止字符后分別加上左書名號和右書名號,實(shí)現(xiàn)每一條證據(jù)中引源著作的自動抽取。

        分析“文獻(xiàn)來源”字段的形式特點(diǎn),可以發(fā)現(xiàn)“引源責(zé)任者”的出現(xiàn)位置是固定的,它出現(xiàn)在“文獻(xiàn)來源”的最開始,其最常見的兩種模式是:“宋濂:《元史》……”“柯劭忞撰《新元史》......”,可以發(fā)現(xiàn)引源責(zé)任者與引源著作之間是相對較為固定的分割模式,比如冒號以及編、撰、校等動詞,因此可以依次指定規(guī)則來抽取引源責(zé)任者,由“(.*?)[:|編|校|撰|著|輯]《(.*?)》”來返回由引源責(zé)任者和引源著作組成的抽取結(jié)果,而這一個結(jié)果對也是存在相關(guān)關(guān)系的兩個實(shí)體實(shí)例。

        對于屬性抽取的規(guī)則,主題屬性抽取通過逐行獲取每一條證據(jù)內(nèi)容,獲取第一個單元格的內(nèi)容即為“主題序號”,根據(jù)表1中提到的“主題序號”標(biāo)識及其對應(yīng)的實(shí)際意義,進(jìn)行文本替換,用來揭示該條證據(jù)的主題類型。其中部分證據(jù)涉及多個分類,例如“S60/MS1”則表示該條證據(jù)同時屬于“主權(quán)宣示”和“維權(quán)”兩個主題分類,因此在文本轉(zhuǎn)換時需要將兩個主題序號都進(jìn)行替換且并列存儲。采取的方法是首先用“/”對主題序號中涉及多個分類的實(shí)例進(jìn)行切分,再利用主題序號-主題類型對應(yīng)表對每一條證據(jù)的主題序號遍歷進(jìn)行替換并抽取。

        分析文本中的“時間(公元)/朝代”內(nèi)容,雖然已經(jīng)是較為規(guī)則的單一字段,但是仍有不同的書寫格式,分析同種類型的文本格式,通過正則表達(dá)式進(jìn)行匹配,獲取字段內(nèi)的時間及朝代,不同格式示例及對應(yīng)正則表達(dá)式抽取規(guī)則,按照該規(guī)則分別抽取每一條證據(jù)中的公元時間和朝代。

        卷次、期次以及頁碼的表達(dá)是相對固定的,例如卷次有“第1卷”“卷9”“上卷”這種常見表達(dá),期次有“第16期”“第8、9合期”這樣的固定表達(dá),頁碼有“第1-2頁”“第3頁”這樣的固定表達(dá),同時,也有卷次、期次混合表達(dá)如“第8卷2期”,以及期次頁碼的混合表達(dá)如“第2期36頁”等。由于文本中卷次、期次、頁碼總是在上下文接連著出現(xiàn),因此當(dāng)我們定義“第(.*?)期”的規(guī)則去抽取期次時,會在諸如“第1卷,第2期”這樣的表達(dá)中抽取出“1卷,第2”這樣錯誤的文本信息,因此采取對出現(xiàn)字符進(jìn)行限定的方式進(jìn)行抽取。最終,從書證目錄中抽取到的信息如圖2所示。

        圖2 書證目錄信息抽取結(jié)構(gòu)圖

        2.4數(shù)據(jù)審查依據(jù)規(guī)則對每一條證據(jù)中的各實(shí)體及各屬性進(jìn)行抽取后,就得到了證據(jù)中所包含的各實(shí)體實(shí)例以及實(shí)體屬性值,也使得實(shí)體實(shí)例之間基于同屬一條證據(jù)內(nèi)容而建立起依賴關(guān)系,例如同一條證據(jù)中,“引源責(zé)任者”與“引源著作”之間存在著廣義上的創(chuàng)作關(guān)系。但是,由于部分證據(jù)文本的細(xì)微差異性,因此我們需要對自動抽取的數(shù)據(jù)進(jìn)行人工審查,例如基于原文本抽取“引源責(zé)任者”時分別出現(xiàn)以下兩種情況:“(清)明誼”、“嵇璜、曹仁虎、戴衢亨”,前者需要刪去括號內(nèi)內(nèi)容;后者需要按頓號分隔3位責(zé)任者。本研究選擇兩組審查人員分別對相同的內(nèi)容進(jìn)行審查,在審查結(jié)束后將兩組審查結(jié)果進(jìn)行對比,審查結(jié)果不一致的數(shù)據(jù)進(jìn)行討論并最終確定正確的數(shù)據(jù)。

        完成對711條證據(jù)中各實(shí)體及屬性的自動抽取與人工核對后,即形成了原證據(jù)表中各行證據(jù)里諸實(shí)體及屬性組成的二維表,每一行文本信息來自于原證據(jù)表中同一條證據(jù),每一列代表一種具體實(shí)體或?qū)傩灶愋?。由于本?shí)驗構(gòu)建南海地名書證索引的需要,因此對于每一行數(shù)據(jù),“涉證島礁”和“古地名”兩種實(shí)體類型至少有一個非空,“引源著作”類型一定非空,經(jīng)過篩選有462條證據(jù)在“事件/描述”字段有涉證島礁或古地名實(shí)例的同時在“文獻(xiàn)來源”字段中有引源著作實(shí)例?;谝?guī)則抽取出各實(shí)體實(shí)例的總頻次與非重復(fù)實(shí)體實(shí)例個數(shù)見表2,抽取出的各屬性實(shí)例總頻次見表3。

        表2 各實(shí)體實(shí)例總頻次及非重復(fù)實(shí)例個數(shù)

        表3 各屬性實(shí)例總頻次

        2.5涉證島礁消歧由文本表述的差異性和南海島礁名在歷史中演變,使得本研究中獲取到的涉證島礁名存在異名同指和同名異指的情況,只有對這些歧義進(jìn)行處理,才能更好地集中細(xì)粒度的實(shí)體及其關(guān)系,更好地進(jìn)行知識挖掘分析,因此應(yīng)分別對其進(jìn)行處理。

        2.5.1 異名同指 異名同指的一大原因是文本中的表述差異性導(dǎo)致的實(shí)體名不規(guī)范,例文本中出現(xiàn)“東沙、西沙群島”,當(dāng)我們將其標(biāo)注為兩個實(shí)體實(shí)例時,“東沙”實(shí)際上指“東沙群島”,對于這一異名同指的情況,由標(biāo)注人員在熟悉原文本的情況下,結(jié)合上下文語境,判斷實(shí)體是由于表述差異而導(dǎo)致的島礁名簡寫,將其按照規(guī)范命名方式補(bǔ)全。異名同指的另一原因是島礁別名,本研究采取的策略主要有兩個方向:一是根據(jù)原文本內(nèi)容提取出島礁的學(xué)名——別名對應(yīng)關(guān)系,其中學(xué)名在本研究中被定義為規(guī)范實(shí)體詞;第二種策略是依據(jù)最大最全的中文百科信息集合——百度百科,根據(jù)人工標(biāo)注的所有涉證島礁實(shí)體詞去重后構(gòu)建詞表,以遍歷的方式利用關(guān)鍵詞搜索爬取百度百科的基本簡介和三元組信息,并對三元組人工篩選組信息,保存有“別名”“外文名”屬性的實(shí)體詞信息,作為對應(yīng)實(shí)體詞的屬性補(bǔ)充及異名同指對應(yīng)關(guān)系的數(shù)據(jù)支撐。

        在《南海主權(quán)證據(jù)表》文本中及百度百科數(shù)據(jù)中,一個涉證島礁的規(guī)范實(shí)體詞最多可能包含除自身外13種異名同指歧義,表4列出了異名同指歧義數(shù)量大于等于3的8個規(guī)范實(shí)體詞(規(guī)范實(shí)體詞自身除外)。

        表4 涉證島礁異名同指數(shù)量最多的8個規(guī)范實(shí)體詞

        2.5.2 同名異指 同名異指在本研究種出現(xiàn)的主要原因是歷史中對島礁命名的演變,歷史中曾有時期將多個島作為一個總稱。關(guān)于地名研究比較復(fù)雜,不同階段有不同的分歧和研究成果,截止目前,只能根據(jù)多數(shù)結(jié)論作為參照。例原文本中出現(xiàn)內(nèi)容:“‘萬里長沙’即東沙和西沙群島,‘萬里石塘’指中沙和南沙群島”,即“萬里長沙”既指東沙群島,也指西沙群島;“萬里石塘”既指中沙群島,也指南沙群島,它們均可看作兩個涉證島礁的規(guī)范實(shí)體詞作為一個整體的別名。因此本研究中采取的策略與異名同指歧義消除一致,即抽取島礁的學(xué)名——別名對應(yīng)關(guān)系,不同之處是當(dāng)別名指向兩個作為整體的實(shí)體規(guī)范詞時,構(gòu)建兩條關(guān)系,例:東沙群島——萬里長沙,西沙群島——萬里長沙。

        3 基于Neo4j的南海書證目錄知識圖譜構(gòu)建

        3.1知識圖譜節(jié)點(diǎn)及關(guān)系定義知識圖譜的基本組成是節(jié)點(diǎn)及節(jié)點(diǎn)之間的相互關(guān)系,因此需要分別對其做出定義。首先以本研究中的實(shí)體類型為依據(jù)定義節(jié)點(diǎn)類型,“涉證島礁”“引源責(zé)任者”和“引源著作”分別定義為三類。根據(jù)上面涉證島礁消歧,實(shí)際上是對涉證島礁做了進(jìn)一步細(xì)分,即分為規(guī)范實(shí)體詞和規(guī)范實(shí)體詞的其他表達(dá),其他表達(dá)主要有兩種形式:一是歷規(guī)范實(shí)體詞史中曾出現(xiàn)過的別名,二是其外文名或外國稱呼,因此,將規(guī)范實(shí)體詞仍劃分為“涉證島礁”類型,并且由“別名”“外文名”分化出兩種新的節(jié)點(diǎn)類型,共5種節(jié)點(diǎn)類型。

        實(shí)體關(guān)系的挖掘來自于原文本,分析《南海主權(quán)證據(jù)表》文本內(nèi)容,責(zé)任者對著作具有編、校、撰等多種不同責(zé)任,但是廣義上,它們都屬于創(chuàng)作,因此可以定義“引源責(zé)任者”對“引源著作”有“創(chuàng)作”關(guān)系。從證據(jù)記載的形式看,“引源著作”對“涉證島礁”有“提及”關(guān)系,但是由于每條證據(jù)都根據(jù)其主題內(nèi)容進(jìn)行了分類,即對該證據(jù)的描述可以劃分為對中國主權(quán)立場支撐的某種確定主權(quán)類型(具體分類見表1),因此可以采用證據(jù)的主題范疇進(jìn)一步將“提及”細(xì)化為8種關(guān)系,從主題分類的角度更深層次地揭示“涉證島礁”在何種主題內(nèi)容內(nèi)被“引源著作”提及,完善歷史文獻(xiàn)對主權(quán)相關(guān)事件記載的信息與意義。根據(jù)百度百科三元組信息及原文本內(nèi)容分析,無論是別名或外文名,都曾是歷史中某一國家或朝代對相關(guān)島嶼的稱呼,因此定義“涉證島礁”對“別名”和“外文名”有“地名演變”關(guān)系,用來顯示它們之間因時間或空間差異所導(dǎo)致的同義關(guān)系。

        在構(gòu)建知識圖譜的過程中,除了節(jié)點(diǎn)和關(guān)系,還有屬性需要定義。首先,《南海主權(quán)證據(jù)表》在組織證據(jù)時,是以歷史時間排列,而這一確定的歷史時間與文獻(xiàn)來源中有相關(guān)記載的歷史文獻(xiàn)發(fā)表時間是吻合的,因此,將之前從文本中抽取的公元紀(jì)年及朝代作為“引源著作”的屬性,從時間維度完善知識圖譜,可以為研究提供更多知識分析的角度。另外,在涉證島礁消歧過程中采集的百度百科數(shù)據(jù),其基本簡介和部分三元組信息,可以作為“涉證島礁”的屬性,既可以幫助明確每一規(guī)范實(shí)體詞的實(shí)際意義,也易于與其別名、外文名區(qū)分。定義完節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系以及它們的屬性,則構(gòu)成了知識圖譜基本的關(guān)系描述模型。

        3.2知識圖譜架構(gòu)及數(shù)據(jù)存儲根據(jù)上面提出的知識圖譜基本關(guān)系描述模型,首先需要選擇關(guān)系數(shù)據(jù)庫來表示關(guān)系描述模型,并以數(shù)據(jù)庫的形式對人工標(biāo)注并抽取的單張二維表進(jìn)行分解,轉(zhuǎn)化為表示關(guān)系描述模型的多張二維表進(jìn)行組織和存儲。根據(jù)上文,單張二維表中是存儲了主題類型、時間、朝代、涉證島礁、引源責(zé)任者、引源著作的六元組結(jié)構(gòu),它們之間存在一一對應(yīng)的關(guān)系,二維表分解的主要過程是在保持原有數(shù)據(jù)間關(guān)系依賴的基礎(chǔ)上,以關(guān)系描述模型為基礎(chǔ),用節(jié)點(diǎn)二維表邏輯表示節(jié)點(diǎn)及其屬性,并用關(guān)系二維表揭示節(jié)點(diǎn)之間的邏輯關(guān)系,構(gòu)造數(shù)據(jù)庫模式。在這一過程中遵守主鍵存在且唯一、外鍵參照主鍵、關(guān)系表兩主鍵成員一一對應(yīng)等原則,最終構(gòu)建了5張節(jié)點(diǎn)信息二維表,以及11張關(guān)系信息二維表,其數(shù)據(jù)庫模式如圖3所示。

        圖3 南海書證島礁索引數(shù)據(jù)庫模式

        Neo4j是高性能的NoSQL圖形數(shù)據(jù)庫,是構(gòu)建知識圖譜的高效工具,另一方面,它也方便直接將由二維表存儲的數(shù)據(jù)轉(zhuǎn)換為節(jié)點(diǎn)關(guān)系的存儲形式,因此本研究利用其構(gòu)建南海書證島礁索引的知識圖譜。將5張節(jié)點(diǎn)表和11張關(guān)系表轉(zhuǎn)換為完成后,共得到733個唯一節(jié)點(diǎn),1 494條唯一關(guān)系,具體節(jié)點(diǎn)及關(guān)系數(shù)據(jù)如表5所示。

        表5 各節(jié)點(diǎn)及關(guān)系數(shù)

        3.3基于知識圖譜的知識挖掘與分析通過Neo4j,最終構(gòu)建南海書證島礁索引知識表示模型如圖4所示。在知識表示模型中,可以清楚看到每一條書證目錄信息里的知識都可以通過實(shí)體及其屬性之間的表示和關(guān)聯(lián)來揭示。其中“公元時間”“朝代”的時間屬性和“卷次”“期次”和“頁碼”的來源屬性直接屬于引源著作,通過與引源責(zé)任者的關(guān)聯(lián)來揭示書證目錄中書證來源相關(guān)的知識;引源著作與涉證島礁之間的關(guān)系則揭示了當(dāng)前書證的文獻(xiàn)來源信息與證據(jù)內(nèi)容,從而在實(shí)體關(guān)聯(lián)的基礎(chǔ)上實(shí)現(xiàn)了單條書證知識的細(xì)粒度表示?;跁C目錄的知識表示模型,將非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本內(nèi)容進(jìn)行結(jié)構(gòu)化表示,完成批量書證目錄知識的規(guī)范化描述,并在此基礎(chǔ)上實(shí)現(xiàn)書證之間關(guān)系的挖掘。

        圖4 南海書證島礁索引知識表示模型

        基于書證目錄的知識表示模型完成南海領(lǐng)域書證實(shí)例的知識圖譜構(gòu)建,并從書證關(guān)聯(lián)、地名演變、創(chuàng)作關(guān)系三個方面進(jìn)行了基于知識圖譜的知識關(guān)聯(lián)實(shí)例分析。

        從書證關(guān)聯(lián)的角度,以“中沙群島”這一涉證島礁的兩條書證記錄為實(shí)例進(jìn)行關(guān)聯(lián)分析與展示,如圖5所示?!吨袊质⌒聢D》和《海國見聞錄》的兩條書證通過“中沙群島”實(shí)現(xiàn)了直接關(guān)聯(lián),兩個引源著作在對“中沙群島”的記錄上的相互印證可以增強(qiáng)其作為證據(jù)的可信度,借此可以嘗試去構(gòu)建南海書證證據(jù)的證據(jù)鏈。以鏈接形成的證據(jù)組合能夠?qū)κ聦?shí)產(chǎn)生更為合情理的認(rèn)知和信念, 遠(yuǎn)遠(yuǎn)大于單獨(dú)考慮兩個孤立證據(jù)的效果, 即“1加1”大于2。同時,在兩個“引源著作”節(jié)點(diǎn)的“properties”屬性確定了書證的詳細(xì)出處,可以作為文獻(xiàn)線索,查找書證原始文件?!吧孀C島礁”和“引源著作”的關(guān)聯(lián)中,兩條書證的主題類型都屬于“主權(quán)宣示”,進(jìn)一步揭示了兩者在主題類型上的關(guān)聯(lián)性,后續(xù)可以從證據(jù)主題分類角度組織書證目錄,進(jìn)一步利用知識圖譜。此外,在關(guān)系“properties”屬性中的“content”完整存儲證據(jù)內(nèi)容,實(shí)現(xiàn)文獻(xiàn)線索與內(nèi)容事實(shí)的關(guān)聯(lián)。

        圖5 書證實(shí)例知識圖譜圖

        從地名演變角度,將涉證島礁的別名、外文名進(jìn)行關(guān)聯(lián),可便于搜集證據(jù),查找國內(nèi)外相關(guān)南海維權(quán)證據(jù)。同時挖掘這些涉證島礁背后外文名的由來,例如曾經(jīng)被侵占、爭議,可以跟蹤線索去查找相關(guān)國家的南海資料。如圖6所示,“南沙群島”“南海諸島”“西沙群島”的地名演變實(shí)例圖。其中,西沙群島的其中一個外文名為“Paracel Islands”即帕拉塞爾群島,它是越南語的漢語音譯,研究人員在查找外國文獻(xiàn)時,亦可以用“Paracel Islands”作為檢索詞保證文獻(xiàn)檢索的檢全率。

        圖6 “地名演變”實(shí)例知識圖譜圖

        從創(chuàng)作關(guān)系揭示引源責(zé)任者與引源著作間的關(guān)系,可以發(fā)掘、處理南海維權(quán)領(lǐng)域重點(diǎn)文獻(xiàn)資料以及重點(diǎn)的學(xué)者和研究者。多個引源著作涉及同一個引源責(zé)任者,說明這個責(zé)任者對南海的關(guān)注,可以深度挖掘該責(zé)任者相關(guān)的其他資料,確認(rèn)是否還有遺漏未發(fā)現(xiàn)的南海相關(guān)書證資料,以及探究其關(guān)注南海的原因和目的,以加強(qiáng)書證證據(jù)之間的“有助益的支撐” 。“有助益的支撐”是指提升可信性的概率值。一個證據(jù)對另一個證據(jù)的助益并非使兩者證成為真, 而只是促使彼此變得更為可信[12]。如圖7所示,引源責(zé)任者康泰涉及創(chuàng)作關(guān)系的圖書有四部《扶南傳》《古海國遺書鈔》《外國雜傳》《太平御覽》,將其作為重點(diǎn)關(guān)注對象,進(jìn)一步了解這位引源責(zé)任者的相關(guān)資料。發(fā)現(xiàn)康泰是三國東吳時期吳國出使南海的官員,約在黃武五年,交州刺史呂岱派中郎將他出使南海諸國,進(jìn)行外交活動。通過結(jié)合康泰的官方身份背景,其記載的南海有關(guān)信息的可信度將進(jìn)一步增強(qiáng)。

        圖7 “創(chuàng)作”關(guān)系實(shí)例知識圖譜圖

        通過實(shí)例,研究認(rèn)為基于書證目錄的知識表示模型可以完整且細(xì)致地揭示書證文獻(xiàn)線索和內(nèi)容事實(shí),并通過實(shí)體、屬性或關(guān)系的共現(xiàn)來揭示不同書證之間的關(guān)聯(lián)關(guān)系,對知識圖譜的利用,可以從書證關(guān)聯(lián)、地點(diǎn)演變、創(chuàng)作關(guān)系等角度挖掘隱含知識,實(shí)現(xiàn)其知識發(fā)現(xiàn)的功能,后續(xù)也可以考慮從時間序列、證據(jù)主題類型等不同角度組織書證目錄。

        3.4南海書證目錄的知識圖譜構(gòu)建意義南海書證目錄知識圖譜的構(gòu)建能夠部分實(shí)現(xiàn)南海維權(quán)文獻(xiàn)資料的知識關(guān)聯(lián)。通過系統(tǒng)梳理南海維權(quán)文獻(xiàn)資源,使現(xiàn)存散亂的南海疆文獻(xiàn)歷史書證資料變得有序化、結(jié)構(gòu)化、關(guān)聯(lián)化,同時書證目錄與證據(jù)內(nèi)容的結(jié)合,為后續(xù)搭建面向知識關(guān)聯(lián)的南海疆文獻(xiàn)資料檢索工具建立基礎(chǔ),搭建的檢索工具能同時滿足學(xué)者對南海文獻(xiàn)歷史性證據(jù)的“檢” (找線索)和“索” (取原文)功能的“一站式”獲取需求[13],提高研究人員資料獲取的速度與質(zhì)量,提升學(xué)者南海維權(quán)研究深度與厚度。

        南海疆文獻(xiàn)資料的書證資料作為歷史證據(jù),是其作為維權(quán)證據(jù)的重要一部分,是證據(jù)鏈構(gòu)建的重要資源之一。南海疆歷史書證證據(jù)的證據(jù)鏈構(gòu)建是南海疆證據(jù)鏈構(gòu)建的初步探索和嘗試,為其他證據(jù)的證據(jù)鏈構(gòu)建提供參考。南海書證目錄,只是作為南海維權(quán)證據(jù)的證據(jù)清單呈現(xiàn),其弊端在于純粹的“羅列”,需要去實(shí)現(xiàn)“串并聯(lián)”,而通過對其的知識組織、知識發(fā)現(xiàn),能夠呈現(xiàn)書證目錄間的組織關(guān)系,表達(dá)事實(shí)認(rèn)定的內(nèi)在結(jié)構(gòu)與邏輯軌跡,實(shí)現(xiàn)南海疆維權(quán)的證據(jù)鏈的表達(dá)[14]。南海書證目錄知識圖譜的構(gòu)建,通過目錄數(shù)據(jù)的序化,可以協(xié)助研究,減輕工作量,有利于進(jìn)一步挖掘和整理。同時,它將大量數(shù)據(jù)中存在的各種實(shí)體以及其相關(guān)關(guān)系用圖的方式形象準(zhǔn)確地表述出來,有助于聚合大量概念主題,從而實(shí)現(xiàn)知識的快速響應(yīng)和推理。

        4 結(jié) 語

        研究提出的定義規(guī)則的方式,成功抽取從南海歷史書證目錄中的4個實(shí)體,6種屬性,實(shí)現(xiàn)了對歷史書目證據(jù)的有序化、結(jié)構(gòu)化,對后續(xù)南海維權(quán)構(gòu)建證據(jù)鏈做好數(shù)據(jù)基礎(chǔ)。同時,對涉證島礁、引源著者、引源責(zé)任者、古地名等實(shí)體進(jìn)行揭示和關(guān)聯(lián)化,通構(gòu)建南海書證島礁索引知識表示模型,完整且細(xì)致地揭示書證文獻(xiàn)線索和內(nèi)容事實(shí),并從書證關(guān)聯(lián)、地名演變、實(shí)體關(guān)系等多角度深度挖掘南海書目證據(jù)中的隱含知識,通過知識圖譜以可視化方式進(jìn)行展示,基本實(shí)現(xiàn)南海書證目錄數(shù)據(jù)資源向知識資源的轉(zhuǎn)化與升華。

        但是,目前南海書證目錄的知識圖譜數(shù)據(jù)來源較為單一,后續(xù)的研究中可以提升數(shù)據(jù)規(guī)模,同時將其他類型的南海文獻(xiàn)資料作為數(shù)據(jù)來源,將進(jìn)一步利用知識融合等技術(shù),對多數(shù)據(jù)源的知識進(jìn)行處理,實(shí)現(xiàn)南海文獻(xiàn)資源大數(shù)據(jù)碎片化知識的融合、關(guān)聯(lián)與深度挖掘,提升知識發(fā)現(xiàn)的深度與廣度。

        猜你喜歡
        書證島礁南海
        我國書證提出命令制度構(gòu)造的反思與調(diào)整*
        南海明珠
        北海北、南海南
        黃河之聲(2021年10期)2021-09-18 03:07:18
        體系作戰(zhàn)條件下島礁作戰(zhàn)中輔助決策問題研究
        《漢語大詞典·火部》書證斷句獻(xiàn)疑
        南海的虎斑貝
        南海隨筆
        草原(2016年1期)2016-01-31 21:21:51
        基于OODA過程的島礁防空CGF模型
        近35年來熱帶風(fēng)暴對我國南海島礁的影響分析
        《漢語大詞典》現(xiàn)代書證失誤及其影響——以《圍城》書證為例
        区二区三区玖玖玖| 国产极品嫩模大尺度在线播放| 成人性生交大片免费看i| 精彩亚洲一区二区三区| 久久精品成人一区二区三区| 亚洲va中文字幕| 精品国产国产AV一区二区| 亚洲熟伦在线视频| 亚洲第一大av在线综合| 亚洲视频在线一区二区| 极品嫩模高潮叫床| 综合久久给合久久狠狠狠97色| 欧美人与动牲交片免费播放| 中文字幕亚洲中文第一| 精品亚洲一区二区三区四| 男女做爰猛烈啪啪吃奶动 | 日韩视频中文字幕精品偷拍| 精品少妇人妻av免费久久久| 99久久久久久亚洲精品| 国产自拍av在线观看| 中文字幕无码中文字幕有码| 日日摸天天摸人人看| 综合91在线精品| 久久综合久中文字幕青草| 亚洲精品国产精品乱码视色| 国产又粗又黄又爽的大片| 国产精品美女久久久浪潮av| 蜜臀av一区二区三区人妻在线| 免费精品人妻一区二区三区| 人妻精品久久久久中文字幕| 亚洲 暴爽 av人人爽日日碰| 无码av永久免费大全| 激情亚洲不卡一区二区| 国产a级三级三级三级| 久久水蜜桃亚洲av无码精品麻豆 | 看一区二区日本视频免费| 人妻丰满熟妇av无码区app| 欧洲freexxxx性少妇播放 | 精品久久久无码中字| 亚洲精品黄网在线观看| 91成人自拍视频网站|