關(guān)鍵詞: 口述歷史資源; 名人歷史事件; 語(yǔ)義模型; 知識(shí)表示
DOI:10.3969 / j.issn.1008-0821.2024.10.014
〔中圖分類號(hào)〕G254 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 10-0168-10
截至2022年底,中國(guó)各級(jí)綜合檔案館館藏錄音磁帶、錄像磁帶、影片檔案109 5 萬(wàn)盤[1] , 口述歷史資源是其中重要組成部分, 是一種隨著現(xiàn)代技術(shù)快速發(fā)展的新興檔案資源, 內(nèi)容上具有以人物、事件和主題為中心的典型特征[2] 。隨著名人圖書(shū)館、名人檔案館、名人博物館等場(chǎng)館的建設(shè), 與名人相關(guān)的口述歷史資源發(fā)展迅猛, 由口述歷史資源析出的名人歷史事件, 其“自下而上” 研究歷史的新途徑, 受到了歷史、檔案、圖情領(lǐng)域的普遍重視[3] 。
事件是理解現(xiàn)實(shí)世界的基本知識(shí)單元之一, 主要分為通用事件和領(lǐng)域事件兩類。通用事件是指不具有顯著學(xué)科特征的一般事件; 領(lǐng)域事件是指某一具體領(lǐng)域的事件, 如突發(fā)事件、歷史事件、地理事件等。名人歷史事件是領(lǐng)域事件中一類重要事件,是理解名人及其所處社會(huì)歷史發(fā)展進(jìn)程的基本知識(shí)單元之一。在社會(huì)發(fā)展的歷史進(jìn)程中, 關(guān)鍵人物及與之關(guān)聯(lián)的重要事件所發(fā)揮的作用往往是決定性的。如何基于口述歷史資源對(duì)這類關(guān)鍵人物與歷史事件進(jìn)行語(yǔ)義化識(shí)別、知識(shí)化抽取, 從而更加清晰地梳理其知識(shí)網(wǎng)絡(luò), 并對(duì)事件發(fā)展的輪廓和脈絡(luò)進(jìn)行可視化和敘事化的知識(shí)表示, 是數(shù)字人文領(lǐng)域一直在探討的問(wèn)題, 也是作為文化記憶機(jī)構(gòu)的圖檔博單位不斷努力探索和創(chuàng)新嘗試的重要命題。其中, 關(guān)鍵人物與重要事件所關(guān)聯(lián)的名人歷史事件語(yǔ)義模型構(gòu)建是大規(guī)模應(yīng)用實(shí)踐的重要基礎(chǔ)。
學(xué)界對(duì)事件的知識(shí)表示進(jìn)行了諸多研究, 也取得了一定的研究成果。劉宗田等[4] 較早對(duì)事件與事件類進(jìn)行了六元組的定義, 并構(gòu)建了語(yǔ)義模型, 通過(guò)對(duì)基于傳統(tǒng)本體結(jié)構(gòu)的、基于傳統(tǒng)本體和邏輯方法的、基于事件類層次結(jié)構(gòu)的3 類事件本體模型的比較分析, 認(rèn)為基于事件類層次結(jié)構(gòu)的本體相較傳統(tǒng)本體而言較有優(yōu)勢(shì)[5] 。近年來(lái), 學(xué)者對(duì)事件的語(yǔ)義模型日益關(guān)注, 在通用事件方面重點(diǎn)關(guān)注不同語(yǔ)義模型的比較分析研究。劉思含等[6] 綜合研究和比較了現(xiàn)有的基于概念層級(jí)的、邏輯層級(jí)的和事件六元組的3 類事件本體模型, 提出了一種事件本體的自動(dòng)構(gòu)建方法。徐雷等[7] 、劉錫峰等[8] 、陳金菊等[9] 從多個(gè)維度對(duì)當(dāng)前國(guó)內(nèi)外主要的事件語(yǔ)義模型,尤其是典型的通用事件語(yǔ)義模型進(jìn)行了分析、比較和研究。學(xué)者們對(duì)通用事件的語(yǔ)義模型研究表明,當(dāng)前的語(yǔ)義模型在橫向關(guān)聯(lián)和深度表示上存在不足,需要增加其關(guān)聯(lián)性、動(dòng)態(tài)性和互操作性。領(lǐng)域事件方面, 學(xué)界多關(guān)注基于突發(fā)事件語(yǔ)義模型的構(gòu)建及應(yīng)用。桑勇[10] 建構(gòu)了一個(gè)面向突發(fā)事件新聞生成和信息抽取的事件語(yǔ)義模型。陳金菊[11] 根據(jù)由表及里的建模思想, 構(gòu)建了一個(gè)突發(fā)事件新聞深層次語(yǔ)義描述模型。趙又霖等[12] 面向突發(fā)事件提出了社會(huì)感知數(shù)據(jù)驅(qū)動(dòng)下的時(shí)空語(yǔ)義模型, 為突發(fā)事件的監(jiān)測(cè)和管理奠定了堅(jiān)實(shí)的語(yǔ)義基礎(chǔ)。對(duì)于歷史事件, 學(xué)界研究較少。廖作芳[13] 構(gòu)建了典籍《三國(guó)志》的歷史領(lǐng)域本體, 其中的事件模型較為簡(jiǎn)單,主要以年代為標(biāo)準(zhǔn)進(jìn)行概念劃分。李宗生[14] 基于事件描述的五元組構(gòu)建事件語(yǔ)義模型, 并進(jìn)行歷史拓?fù)潢P(guān)系查詢研究。孫紹丹[15] 研究了歷史報(bào)紙資源的語(yǔ)義化知識(shí)組織全過(guò)程, 通過(guò)定義事件類型及觸發(fā)詞的方式構(gòu)建事件框架。Leskinen P 等[16] 基于芬蘭第二次世界大戰(zhàn)的數(shù)據(jù)構(gòu)建了一個(gè)歷史軍事模型。何琳等[17] 面向先秦典籍, 依據(jù)CIDOC CRM概念模型, 以軍事、婚姻、外交、政治、民生等為核心類, 構(gòu)建了面向典籍的本體語(yǔ)義模型。牛力等[18] 在參考SEM 簡(jiǎn)單事件模型、FOAF 人物基本特征和CRM 模型中物理實(shí)體概念劃分的基礎(chǔ)上, 構(gòu)建了人物事件導(dǎo)向的本體知識(shí)模型, 以實(shí)現(xiàn)多模態(tài)檔案資源的知識(shí)聚合。姬方亞[19] 在現(xiàn)有事件本體的基礎(chǔ)上, 通過(guò)分析提煉核心概念,設(shè)計(jì)面向百年黨史的事件本體模型, 以構(gòu)建黨史事件知識(shí)圖譜。
總的來(lái)說(shuō), 學(xué)界對(duì)通用事件和領(lǐng)域事件中突發(fā)事件的語(yǔ)義模型研究較為深入,但對(duì)領(lǐng)域事件中歷史事件的研究主要以有限范圍的歷史著作或某段時(shí)期的歷史為主,對(duì)強(qiáng)調(diào)人物和事件關(guān)聯(lián)的名人歷史事件的語(yǔ)義模型研究較為不足,缺乏成熟可用的知識(shí)組織模型。在成熟可用的知識(shí)組織模型基礎(chǔ)上才能建立“映射法則”, 以陳述形式將事件要素進(jìn)行邏輯融合, 從而進(jìn)一步以“規(guī)則推理” 研究視角,根據(jù)特定的場(chǎng)景定制規(guī)則, 最終實(shí)現(xiàn)用戶自定義的推理過(guò)程等研究。
1名人歷史事件的特征與需求
1.1名人歷史事件的特征
哲學(xué)家和認(rèn)知科學(xué)家認(rèn)為, 事物和事件組成了人類賴以生存的客觀物質(zhì)世界[20] , 而人類的命題記憶也是主要以事件為存儲(chǔ)單位[21] 。然而學(xué)界對(duì)事件并沒(méi)有一個(gè)統(tǒng)一的定義, 不同的學(xué)科領(lǐng)域和不同的研究對(duì)事件的內(nèi)涵有不同的界定。語(yǔ)言學(xué)專家認(rèn)為, 動(dòng)詞是客觀世界中的事件在語(yǔ)言層面的投射,事件的語(yǔ)義框架即為動(dòng)詞的語(yǔ)義框架[22] 。情報(bào)學(xué)專家認(rèn)為, 事件是在特定時(shí)間和環(huán)境下發(fā)生的, 由若干角色參與的, 表現(xiàn)出特定動(dòng)作特征、狀態(tài)變化特征以及語(yǔ)言描述特征的一段獨(dú)立的過(guò)程[23] 。權(quán)威辭典中對(duì)事件的解釋為: ①事情; ②特指歷史上或社會(huì)上所發(fā)生的大事[24] 。此定義將一般事件與大事進(jìn)行了區(qū)分, 但是并沒(méi)有提及區(qū)分的標(biāo)準(zhǔn)。具體到名人歷史事件而言, 首先需要厘清名人和歷史事件之間的關(guān)系。在社會(huì)發(fā)展進(jìn)程中, 一方面, 關(guān)鍵人物往往對(duì)重要事件發(fā)揮著決定性的作用; 另一方面, 在歷史事件中的關(guān)鍵人物也往往因?yàn)橐粋€(gè)或一系列重要事件的歷史作用、重要影響和眾所周知,而變得著名??梢哉f(shuō), 名人和與其相關(guān)的歷史事件是緊密聯(lián)系且相互成就的。因此, 綜合現(xiàn)有研究,本研究的名人歷史事件是指, 在特定歷史時(shí)間和歷史空間中發(fā)生的, 由包括名人在內(nèi)的若干角色參與,具有一定時(shí)序特征、動(dòng)作和狀態(tài)變化特征與發(fā)展規(guī)律, 并對(duì)社會(huì)歷史進(jìn)程產(chǎn)生一定影響的活動(dòng)或現(xiàn)象。其具有如下典型特征:
1) 組成:是子事件顆粒的集合
名人歷史事件是一個(gè)什么范疇的概念? 首先需要厘清故事、事件和動(dòng)作3 個(gè)概念。有學(xué)者對(duì)故事、事件和動(dòng)作進(jìn)行了較為嚴(yán)格的區(qū)分。如Nakasone A等[25] 認(rèn)為故事是事件的序列, CIDOC-CRM[26] 模型將動(dòng)作(Activity)歸為事件(Event)的子類。其實(shí)這3 個(gè)概念的角度有所區(qū)別, 故事是從敘事呈現(xiàn)的受眾層面表述, 事件是從社會(huì)文化層面表述, 而動(dòng)作是從語(yǔ)言層面表述。本文基于社會(huì)文化層面對(duì)名人歷史事件進(jìn)行研究, 不對(duì)故事、事件和動(dòng)作進(jìn)行嚴(yán)格區(qū)分, 以公眾耳熟能詳?shù)拇笫录?duì)名人歷史事件進(jìn)行命名, 并將一個(gè)大事件分割為具有一定關(guān)聯(lián)關(guān)系的若干子事件顆粒, 事件和子事件擁有相同的語(yǔ)義模型。以李政道、楊振寧獲得1957 年諾貝爾物理學(xué)獎(jiǎng)這一歷史事件為例, 以口述歷史檔案為主的相關(guān)資料非常豐富, 包括人物采訪、諾貝爾獎(jiǎng)歷史記載、各類傳記等, 形成一系列子事件, 包括李政道、楊振寧聯(lián)名發(fā)表論文Question of Parity Con?servation in Weak Interactions, 多位物理學(xué)家通過(guò)實(shí)驗(yàn)成功驗(yàn)證其理論, 兩位科學(xué)家獲諾獎(jiǎng)提名, 諾獎(jiǎng)委員會(huì)通過(guò)電報(bào)發(fā)送獲獎(jiǎng)通知, 兩位科學(xué)家前往瑞典參加頒獎(jiǎng)典禮, 媒體對(duì)此次獲獎(jiǎng)進(jìn)行報(bào)道等一系列子事件。可以說(shuō), 名人歷史事件是在同一事件母題下, 具有一定關(guān)聯(lián)關(guān)系的子事件顆粒的集合。
2)分類:通用歷史事件與專有歷史事件
綜合研究名人口述歷史資料, 可以看到, 名人歷史事件通常分為通用歷史事件和專有歷史事件兩類。通用歷史事件是名人作為一個(gè)社會(huì)中的人或某類人所通常經(jīng)歷的共性事件, 如: 出生、去世、結(jié)婚、生子、求學(xué)、工作等, 作為名人科學(xué)家還可能經(jīng)歷發(fā)表研究成果、獲得榮譽(yù)獎(jiǎng)項(xiàng)等。而專有歷史事件是與某位名人強(qiáng)關(guān)聯(lián)的專有事件, 如艱難回國(guó)之于錢學(xué)森, 公車上書(shū)之于康有為、梁?jiǎn)⒊?浦東開(kāi)發(fā)開(kāi)放之于汪道涵等。一般來(lái)說(shuō), 通用歷史事件主要體現(xiàn)名人與普通人相同的有血有肉的一面或名人群體的共性特征, 而專有歷史事件則是名人與眾不同的高光時(shí)刻, 是其人物社會(huì)價(jià)值的集中體現(xiàn)。
3)要素: 實(shí)體、關(guān)系、作用效應(yīng)
歷史事件的本質(zhì)是事件的組成要素。劉忠寶等[27] 將歷史事件的組成要素分為時(shí)間、地點(diǎn)、參與者3 類。李宗生[28] 定義歷史事件五元組為時(shí)間、空間、對(duì)象、事件、屬性。何琳等[29] 則將句法和角色結(jié)合, 所標(biāo)注的主要元素為施事者、受事者、工具、處所和時(shí)間等??偟膩?lái)說(shuō), 從組成要素的層面, 人物歷史事件主要由人、地、時(shí)、物等實(shí)體和實(shí)體之間的關(guān)系組成, 其本質(zhì)是在特定的時(shí)空背景下, 施事與受事之間發(fā)生的作用效應(yīng)關(guān)系, 同時(shí)被文獻(xiàn)、檔案、藏品等資源記錄和反映。
1.2名人歷史事件應(yīng)用需求
名人相關(guān)的口述歷史資源非常豐富, 其蘊(yùn)含著大量的歷史事件, 具有重要的學(xué)術(shù)價(jià)值、史料價(jià)值和精神傳播價(jià)值, 名人是此類資源收集的核心, 是揭示的核心要求, 是管理和服務(wù)的核心元素。名人和與之關(guān)聯(lián)的重要?dú)v史事件可以說(shuō)是相輔相成, 不可分割, 構(gòu)建名人歷史事件語(yǔ)義模型對(duì)特藏資源從語(yǔ)義和知識(shí)的層面進(jìn)行組織, 利用知識(shí)圖譜等技術(shù),有助于名人口述歷史資源的知識(shí)表達(dá)。
從史學(xué)研究層面,可以進(jìn)行語(yǔ)義級(jí)查詢和主題性聚合, 對(duì)資源進(jìn)行知識(shí)抽取、知識(shí)關(guān)聯(lián)、知識(shí)挖掘和知識(shí)發(fā)現(xiàn),從而為人文歷史深入研究提供知識(shí)服務(wù)工具和平臺(tái)。如鐘文敏[30] 通過(guò)分析和使用日記文本中的歷史事件, 對(duì)《譚延闿日記》進(jìn)行內(nèi)容挖掘和知識(shí)發(fā)現(xiàn); 鄧君等[31] 以事件實(shí)體為中心, 探索事件與項(xiàng)目、事件、地點(diǎn)等實(shí)體關(guān)系的知識(shí)發(fā)現(xiàn),為人文研究的縱深發(fā)展提供新的線索和依據(jù)。
從文化價(jià)值傳播層面, 可以將抽象和難以閱讀的知識(shí)化的資源進(jìn)行敘事化展示和可視化呈現(xiàn), 從而能更好地獲得讀者或觀眾的感知與認(rèn)同。如趙小萱等[32] 將事件信息與地理信息關(guān)聯(lián)后進(jìn)行可視化展示; 位通等[33] 對(duì)《朱熹年譜長(zhǎng)編》進(jìn)行知識(shí)重構(gòu),系統(tǒng)梳理年譜事件及其關(guān)聯(lián)信息, 開(kāi)發(fā)年譜可視化平臺(tái), 實(shí)現(xiàn)年譜事件的時(shí)空可視化; 上海博物館“宋徽宗數(shù)字人文專題” 項(xiàng)目、“威尼斯時(shí)光機(jī)”、上海圖書(shū)館“上海年華” 項(xiàng)目[34] 等都使用數(shù)字?jǐn)⑹履J秸故局匾獨(dú)v史事件, 為讀者與研究人員提供獨(dú)特的歷史視野和研究思路。
2名人歷史事件語(yǔ)義模型構(gòu)建
人、地、時(shí)、事、物是哲學(xué)層面描述客觀世界的5 個(gè)基本概念, 是理解現(xiàn)實(shí)世界的基本語(yǔ)義單元,同時(shí)也是挖掘特藏資源語(yǔ)義知識(shí)的基本實(shí)體。其中,事件是最為特殊的一類。人、地、時(shí)、物通常由自身屬性可以進(jìn)行大致描述, 如可用姓名、性別、照片等信息大致描述一個(gè)人物, 用經(jīng)緯度定位一個(gè)地點(diǎn), 用紀(jì)年法、天文歷法描述一個(gè)時(shí)間, 用外觀、尺寸、重量、色彩等描述一個(gè)物品。而相比其他實(shí)體, 對(duì)事件的描述和說(shuō)明則更加依賴與其他實(shí)體的關(guān)聯(lián), 厘清事件與所涉實(shí)體之間的關(guān)系也是構(gòu)建事件語(yǔ)義框架的關(guān)鍵步驟。
本體模型的構(gòu)建方法從方向上來(lái)講主要有自上而下和自下而上兩種; 從方式來(lái)講主要有人工構(gòu)建、半自動(dòng)構(gòu)建和自動(dòng)構(gòu)建3 類; 從操作上來(lái)講有骨架法、TOVE 法、七步法、Methontology、IDEF-5、Ontoknowledge、NeOn、循環(huán)獲取法等。綜合調(diào)研當(dāng)前應(yīng)用較為廣泛的代表性事件語(yǔ)義模型, 包括基于概念層級(jí)的通用事件模型SEM[35] (簡(jiǎn)單事件模型)、基于事件類層次結(jié)構(gòu)的六元組結(jié)構(gòu)模型(劉宗田)、數(shù)據(jù)實(shí)例規(guī)模最大的EventKG模型[36],主要應(yīng)用于新聞?lì)I(lǐng)域的NOEM 和應(yīng)用于歷史文化領(lǐng)域的Ramli F等。在綜合研究前人語(yǔ)義模型的基礎(chǔ)上,運(yùn)用自上而下的方法, 結(jié)合名人口述歷史資源的特征和應(yīng)用需求, 構(gòu)建名人歷史事件語(yǔ)義模型如圖1所示。
構(gòu)建名人歷史事件語(yǔ)義模型的關(guān)鍵在于深入分析歸類名人歷史事件知識(shí)顆粒和實(shí)體間關(guān)系, 從而形成語(yǔ)義知識(shí)網(wǎng)絡(luò)全景。名人歷史事件語(yǔ)義模型框架主要包括時(shí)間、人物、資源、空間、描述(關(guān)系)等要素, 同時(shí)由于此類事件所具有的子事件顆粒特征, 事件和事件之間的關(guān)系也是語(yǔ)義框架的重要部分。
時(shí)間: 指該事件發(fā)生的時(shí)間, 包括時(shí)間點(diǎn)的描述和時(shí)間段的描述。時(shí)間點(diǎn)描述包括事件的起始時(shí)間和結(jié)束時(shí)間; 時(shí)間段的描述指的是某段時(shí)間, 而這個(gè)時(shí)間段通常情況下很難被精確拆分或很難考證為以起始時(shí)間和終止時(shí)間為標(biāo)志的時(shí)間點(diǎn), 此時(shí)用時(shí)間段進(jìn)行較為模糊的描述也是一個(gè)變通的辦法。
人物: 指與該事件相關(guān)的人物, 人物與該事件的關(guān)系包括主動(dòng)關(guān)系、被動(dòng)關(guān)系、旁觀關(guān)系和其他4 類。主動(dòng)關(guān)系的語(yǔ)義特征為該人物是事件的施事主體, 對(duì)事件的發(fā)生主動(dòng)施加作用, 如主導(dǎo)、創(chuàng)設(shè)、推動(dòng)、參與等; 被動(dòng)關(guān)系的語(yǔ)義特征為該人物對(duì)事件不主動(dòng)施加作用, 而是被動(dòng)承受事件發(fā)生后的結(jié)果或稱“效應(yīng)” “承受” 的結(jié)果較為中性, “遭受”的結(jié)果則較為負(fù)面; 旁觀關(guān)系的語(yǔ)義特征為該人物既不是該事件的施事主體, 也不是該事件的受事主體, 而僅僅是該事件的旁觀者、見(jiàn)證人和目擊者,如一場(chǎng)事故的目擊證人等; 其他關(guān)系為無(wú)法歸屬于以上3類的關(guān)系。
資源: 名人歷史事件相關(guān)的口述歷史資源(DocX)類型包括圖書(shū)、手稿、信件、音頻、視頻、論文以及相關(guān)圖像等, 所涉及的資源主要包括直接資源、間接資源、相關(guān)資源3 類。直接資源是指與該事件直接發(fā)生作用的客體實(shí)物(Object); 間接資源是指與該事件并不直接發(fā)生作用, 但有口述記錄、報(bào)道等性質(zhì), 可以對(duì)該事件進(jìn)行歷史還原的資料;相關(guān)資源是指除以上兩類資源外, 有提及該事件的資源。以事件“李政道、楊振寧獲諾貝爾獎(jiǎng)” 為例,諾貝爾獎(jiǎng)?wù)?、證書(shū)等為該事件的直接資源, 以該事件為主要對(duì)象的歷史影像資料、口述采訪以及媒體報(bào)道等為間接資源, 其他并非以該事件為主要對(duì)象,僅僅是提到此事的資料為相關(guān)資源。
事件:描述事件和事件之間的關(guān)系是對(duì)名人歷史事件進(jìn)行敘事化呈現(xiàn)的基礎(chǔ)工作, 也是口述歷史資源中大量析出的事件信息。參考以往研究, 將事件之間的關(guān)系分為分類關(guān)系和非分類關(guān)系兩類, 分類關(guān)系包括上位關(guān)系和下位關(guān)系, 非分類關(guān)系包括組成關(guān)系、因果關(guān)系、跟隨關(guān)系、伴隨關(guān)系、共軛關(guān)系、條件選擇關(guān)系、隨機(jī)選擇關(guān)系等。在具體實(shí)踐中,如圖2所示, 事件與事件、事件與資源、事件與時(shí)間、事件與人物等可通過(guò)語(yǔ)義Class關(guān)聯(lián),并用ClassScheme 表述語(yǔ)義之間的關(guān)系值, 從而達(dá)到如圖1 所示的名人歷史事件語(yǔ)義架構(gòu)。
空間: 描述事件發(fā)生過(guò)程中所涉及的地點(diǎn)、環(huán)境等, 以此反映事件發(fā)生過(guò)程中的遷徙情況。
描述(關(guān)系):是指對(duì)事件—事件、事件—人物、事件—時(shí)間、事件—空間、事件—資源之間的關(guān)系描述, 以形成事件內(nèi)容的知識(shí)關(guān)聯(lián)。此外, 描述性內(nèi)容還包括事件名稱、背景、起因、經(jīng)過(guò)、結(jié)果和后續(xù)效應(yīng)(影響) 等, 在本研究中將其作為事件屬性進(jìn)行描述。
3名人歷史事件知識(shí)表示的實(shí)證研究
名人歷史事件語(yǔ)義模型構(gòu)建是為了讓事件從口述歷史資源中以知識(shí)關(guān)聯(lián)的形式描述出來(lái), 以實(shí)現(xiàn)知識(shí)表示。本文以李政道推動(dòng)的CUSPEA 項(xiàng)目為例,以口述歷史資源中CUSPEA 相關(guān)資源為基礎(chǔ)數(shù)據(jù),對(duì)名人歷史事件語(yǔ)義模型進(jìn)行實(shí)例化, 并進(jìn)行融合應(yīng)用展示。
1979年, 李政道先生以戰(zhàn)略科學(xué)家的眼光創(chuàng)辦CUSPEA (China-U.S.Physics Examination andApplication Program, 中文名稱為中國(guó)—美國(guó)聯(lián)合招考物理研究生項(xiàng)目), 在沒(méi)有TOEFL 和GRE 的時(shí)代開(kāi)辟了通往美國(guó)留學(xué)的綠色通道, 幫助中國(guó)物理等專業(yè)優(yōu)4uDg/YAOI5hWdyBQMQ+R25r3ujmp6DfUNdWl/vMGePo=秀學(xué)子接受當(dāng)時(shí)世界一流的研究生教育培養(yǎng), 對(duì)促進(jìn)中美科技、教育交流和中國(guó)科技人才的培養(yǎng)作出了不可磨滅的歷史貢獻(xiàn)。CUSPEA 是一個(gè)資源主題, 也是一個(gè)歷史事件。從歷史研究層面,研究學(xué)者期望對(duì)該事件進(jìn)行深入聚合; 從精神傳播層面, 社會(huì)公眾希望通過(guò)敘事化、可視化的呈現(xiàn),能對(duì)該事件有一個(gè)直觀的了解。
3.1實(shí)例化構(gòu)建
以口述歷史資源為基礎(chǔ), 對(duì)李政道與CUSPEA的歷史事件進(jìn)行實(shí)例化驗(yàn)證。從1979年的Pre-CUSEPA 到1988年最后一期CUSPEA考試, 整個(gè)項(xiàng)目持續(xù)10 年, 每一年的CUSPEA都是一個(gè)貫穿一整年的二級(jí)子事件, 包括準(zhǔn)備、考試、閱卷、申請(qǐng)、錄取、入學(xué)等三級(jí)子事件。另外, 在CUSPEA正式實(shí)施之前, 還有一些前序的背景或原因事件需要進(jìn)行標(biāo)注。實(shí)例化結(jié)果如圖3所示。
使用資源描述框架(Resource Description Frame?work, 簡(jiǎn)稱RDF)對(duì)事件進(jìn)行描述, 節(jié)選對(duì)事件3第一次Pre-CUSPEA 的描述如圖4 所示。
3.2知識(shí)表示應(yīng)用
為了清晰地進(jìn)行知識(shí)表示, 本研究使用知識(shí)圖譜領(lǐng)域應(yīng)用最為廣泛的圖數(shù)據(jù)庫(kù)Neo4j 將數(shù)據(jù)文件與圖數(shù)據(jù)庫(kù)中的元素進(jìn)行映射, 并進(jìn)行存儲(chǔ)。Neo4j作為開(kāi)源的圖數(shù)據(jù)庫(kù)管理系統(tǒng), 將結(jié)構(gòu)化的數(shù)據(jù)以多邊網(wǎng)絡(luò)的形式而不是以二維表格的形式存儲(chǔ), 存儲(chǔ)粒度更細(xì), 表現(xiàn)力更豐富, 復(fù)雜查詢、實(shí)時(shí)數(shù)據(jù)點(diǎn)擊流查詢和路徑查詢等功能更為強(qiáng)大。
1)知識(shí)導(dǎo)入
Cypher 是Neo4j 的查詢語(yǔ)言, 專門用來(lái)處理存儲(chǔ)圖數(shù)據(jù)結(jié)構(gòu), 具有聲明式(Declarative)、表現(xiàn)力(Expressive)、模式匹配(Pattern Matching)、冪等(Idempotent)特點(diǎn)。關(guān)鍵的語(yǔ)句有CREATE 主要用于創(chuàng)建節(jié)點(diǎn)、關(guān)系和它們的屬性; MATCH 主要用于描述數(shù)據(jù)庫(kù)應(yīng)該匹配的模式; MERGE 主要用于索引和鎖來(lái)匹配和創(chuàng)建等。將數(shù)據(jù)導(dǎo)入Neo4j 主要有3種方法: 第一種是用CREATE 語(yǔ)句, 逐條導(dǎo)入數(shù)據(jù)。第二種是使用load csv 或apoc 語(yǔ)句批量導(dǎo)入CSV 格式的數(shù)據(jù)。第三種是使用導(dǎo)入工具進(jìn)行批量導(dǎo)入,如官方提供的neo4j-import、Java API-BatchInserter,微云數(shù)聚開(kāi)發(fā)的導(dǎo)入精靈等。本文將原始數(shù)據(jù)轉(zhuǎn)換為CSV 格式, 使用load csv 語(yǔ)句進(jìn)行導(dǎo)入。
以CUSPEA 事件節(jié)點(diǎn)的導(dǎo)入為例, 導(dǎo)入語(yǔ)句為:
load csv with headers from ‘ file:///CUSPEAe?vent.csv’as line
create(:CUAPEAevent {id:line. id,name:line.name,description:line. description,begin:line. begin,end:line.end,place:line.place})
創(chuàng)建實(shí)體間關(guān)系前, 需先導(dǎo)入實(shí)體關(guān)系映射數(shù)據(jù)。如創(chuàng)建事件間下位關(guān)系前, 需先創(chuàng)建下位關(guān)系節(jié)點(diǎn)標(biāo)簽(三元組形式):
load csv with headers from “file:///eventRxw.csv”as row
create (:下位關(guān)系{er_fromEname:row.fromE?name,er _guanxi:row. guanxi,er _ toEname: row. toE?name})
然后再批量創(chuàng)建相應(yīng)的關(guān)系:
match(n:CUAPEAevent),(r:‘下位關(guān)系’),(m:CUAPEAevent)
where n.name =r.er_fromEname andr.er_toE?name=m.name
create(n)-[:下位關(guān)系{eventR:r.er_guanxi}]->(m)
2)知識(shí)聚合
基于名人歷史事件語(yǔ)義數(shù)據(jù)模型, 可以從語(yǔ)義和知識(shí)的角度對(duì)數(shù)據(jù)進(jìn)行深度聚合, 并進(jìn)行可視化呈現(xiàn)。在此, 可使用D3.js、GraphViz 等組件, 或Gephi、Keylines 等平臺(tái)工具對(duì)數(shù)據(jù)進(jìn)行可視化, 另外Neo4j 瀏覽器也是一個(gè)可擴(kuò)展、可嵌入的圖數(shù)據(jù)庫(kù)可視化工具。本文使用Neo4j 瀏覽器對(duì)導(dǎo)入的數(shù)據(jù)進(jìn)行了簡(jiǎn)單的知識(shí)聚合, 形成如圖5 所示的CUSPEA 考生與每次CUSPEA 考試子事件的分類聚合關(guān)系, 如圖6 所示的每次CUSPEA 考試子事件與口述歷史資源的分類聚合關(guān)系, 以及如圖7 所示的CUSPEA 子事件之間的關(guān)系。
3)語(yǔ)義查詢
基于語(yǔ)義模型能聚焦資源的深層含義進(jìn)行搜索, 獲得比關(guān)鍵詞查詢更好的查詢效果。對(duì)于存放于Neo4j 中的屬性圖數(shù)據(jù)可使用Cypher進(jìn)行查詢。如基于本模型面向本實(shí)例數(shù)據(jù), 可查詢某一事件中的復(fù)雜人物關(guān)系, 例如:
查詢1982 年后經(jīng)CUSPEA項(xiàng)目前往哥倫比亞大學(xué)生導(dǎo)師
MATCH(x3:CUSPEAevent)-[考生] - >(x1:CUSPEAScholar)<-[:導(dǎo)師]-(x2:supervisor)
WHERE x3.year>=1982 AND x3.to=‘Columbia’RETURN x2
還可查詢復(fù)雜事件和人物所關(guān)涉的資源, 例如:
查詢通過(guò)CUSPEA 出國(guó)具有校友關(guān)系的CUS?PEA 學(xué)者的口述歷史資源
MATCH(x1:CUSPEAScholar) -[:校友] -(x3:CUSPEAScholar),(x2:resources)-[:資源]-(x1)
RETURN x2
4)敘事呈現(xiàn)
基于本模型可以對(duì)名人歷史事件進(jìn)行敘事化呈現(xiàn)。根據(jù)實(shí)體之間的關(guān)系和不同的敘事需求, 選擇不同的敘事方式進(jìn)行展示, 如時(shí)間敘事、空間敘事、主題敘事等。
時(shí)間敘事是基于時(shí)間維度對(duì)歷史發(fā)展規(guī)律的宏觀審視, 是一種歷時(shí)性、序列化的敘事結(jié)構(gòu); 空間敘事是基于空間維度對(duì)日常社會(huì)生活的微觀觀察,是一種共時(shí)態(tài)的分布式敘事結(jié)構(gòu)[37] ; 主題敘事是基于內(nèi)容維度對(duì)特定主題的系統(tǒng)聚合, 是一種意義化的敘事結(jié)構(gòu)。這3 類敘事方式經(jīng)常綜合應(yīng)用于陳列展演、歷史研究、編研出版、虛實(shí)交互、沉浸體驗(yàn)等敘事場(chǎng)景。如以時(shí)間為序列組織CUSPEA 相關(guān)展覽, 以CUSPEA 創(chuàng)立緣起和發(fā)展為主題進(jìn)行歷史研究, 以CUSPEA 學(xué)者在國(guó)內(nèi)和國(guó)外就讀的學(xué)校及所在地為基礎(chǔ)進(jìn)行互動(dòng)展演。
4結(jié)語(yǔ)
事件的知識(shí)組織與應(yīng)用一直是知識(shí)處理的重點(diǎn)和難點(diǎn)問(wèn)題, 名人歷史事件的知識(shí)化是對(duì)口述歷史資源進(jìn)行知識(shí)重組、價(jià)值挖掘和敘事展演的重要基礎(chǔ)。引入跨學(xué)科研究視角, 對(duì)名人歷史事件進(jìn)行知識(shí)化, 有助于口述歷史檔案全宗級(jí)、案卷級(jí)的研究粒度深化為檔案單件與知識(shí)單元, 使得檔案單件的數(shù)據(jù)化保存與呈現(xiàn)轉(zhuǎn)向記憶單元的組織與關(guān)聯(lián), 從而實(shí)現(xiàn)價(jià)值導(dǎo)向的資源內(nèi)容發(fā)現(xiàn)與服務(wù)方式轉(zhuǎn)型。
本文在前人研究的基礎(chǔ)上,對(duì)名人歷史事件的內(nèi)涵、特征和應(yīng)用需求進(jìn)行了總結(jié)與分析, 構(gòu)建了名人歷史事件語(yǔ)義模型, 并以科學(xué)家李政道和其創(chuàng)辦的CUSPEA事件為例進(jìn)行語(yǔ)義模型的實(shí)例化驗(yàn)證。在應(yīng)用實(shí)踐中,借鑒產(chǎn)業(yè)界成功應(yīng)用的知識(shí)圖譜技術(shù), 基于語(yǔ)義模型建設(shè)的圖數(shù)據(jù)庫(kù)能夠形成更具靈活性、細(xì)粒度、可擴(kuò)展、相關(guān)關(guān)聯(lián)的實(shí)體關(guān)系和知識(shí), 實(shí)現(xiàn)不同用戶對(duì)名人特色資源進(jìn)行語(yǔ)義級(jí)查詢、主題性聚合、敘事化展示和可視化呈現(xiàn)的應(yīng)用需求,革新口述歷史檔案研究方法與路徑,實(shí)現(xiàn)檔案內(nèi)部諸要素自我呈現(xiàn),促成比既往更為直接的檔案解構(gòu)模式。后續(xù)將進(jìn)一步對(duì)事件模型進(jìn)行優(yōu)化和擴(kuò)展,以滿足規(guī)模較大和復(fù)雜程度較高事件及事件集的應(yīng)用需求。