,
(中國(guó)國(guó)家圖書(shū)館,北京 100081)
數(shù)字資源長(zhǎng)期保存是指隨著時(shí)間的推移,長(zhǎng)期存儲(chǔ)、管理數(shù)字對(duì)象。它要求數(shù)字對(duì)象能夠被長(zhǎng)期、無(wú)誤的存儲(chǔ),在信息需求的整個(gè)時(shí)間跨度內(nèi)能夠被檢索、獲取和解釋。其首要問(wèn)題是確保數(shù)字對(duì)象的真實(shí)可信,即保證數(shù)字對(duì)象在其保存過(guò)程中是不變的。但是,數(shù)字對(duì)象在其保存過(guò)程中因?yàn)楦袷睫D(zhuǎn)換、媒體遷移、規(guī)范化等原因會(huì)產(chǎn)生多種變化。為保證數(shù)字對(duì)象的完整、可追溯以及可復(fù)用,就需要對(duì)與數(shù)字對(duì)象相關(guān)的事件信息進(jìn)行有效的保存和管理,以準(zhǔn)確記錄數(shù)字對(duì)象的變化歷史,保證數(shù)字對(duì)象的真實(shí)、可靠和可用。
數(shù)字資源長(zhǎng)期保存系統(tǒng)是一類(lèi)特殊的數(shù)據(jù)管理系統(tǒng),數(shù)字對(duì)象在系統(tǒng)內(nèi)要經(jīng)歷攝入、保存管理、利用等一系列的管理行為,以確保數(shù)字對(duì)象經(jīng)過(guò)足夠長(zhǎng)的時(shí)間仍然能夠被目標(biāo)群體所理解和利用,這就需要詳細(xì)記錄數(shù)字對(duì)象本身和其發(fā)生的各種變化,并維護(hù)這些變化前后數(shù)字對(duì)象及數(shù)字對(duì)象與其相關(guān)事件、環(huán)境信息以及相關(guān)用戶(hù)的關(guān)聯(lián)關(guān)系。隨著保存數(shù)字對(duì)象體量的飛速發(fā)展,對(duì)保存對(duì)象的衍生關(guān)系、環(huán)境信息、用戶(hù)信息及相關(guān)事件信息的分析日益復(fù)雜化,亟需一種有效的面向數(shù)字資源長(zhǎng)期保存事件信息的組織方式,將各類(lèi)信息融合起來(lái),實(shí)現(xiàn)信息的細(xì)粒度解釋和多維度關(guān)系揭示,為后期長(zhǎng)期保存對(duì)象的可信性分析提供重要支撐。因此,數(shù)字資源長(zhǎng)期保存事件信息的語(yǔ)義組織對(duì)于保存系統(tǒng)有著極為重要的意義。
“事件”的描述是一個(gè)很復(fù)雜的問(wèn)題,目前還沒(méi)有統(tǒng)一的定義。在知識(shí)表示領(lǐng)域,主要關(guān)注的是事件的動(dòng)態(tài)性,通過(guò)動(dòng)態(tài)知識(shí)表示方法對(duì)事件進(jìn)行描述,并對(duì)事件的結(jié)構(gòu)、表示和事件的推理進(jìn)行研究。在本體研究領(lǐng)域,事件被認(rèn)為是在某個(gè)特定時(shí)間和環(huán)境下發(fā)生的、由若干角色參與、表現(xiàn)出若干動(dòng)作特征的一件事情。在數(shù)字資源長(zhǎng)期保存領(lǐng)域,PREMIS將事件作為其5個(gè)基本實(shí)體對(duì)象之一,并將其定義為可被數(shù)字保存系統(tǒng)所記錄的一種影響到至少一個(gè)數(shù)字對(duì)象或代理的行為。PREMIS框架對(duì)事件作了豐富和深刻的闡釋?zhuān)瑢?shù)字對(duì)象的演化過(guò)程歸結(jié)為被重要事件驅(qū)動(dòng)并得以體現(xiàn)的過(guò)程,例如數(shù)字對(duì)象的創(chuàng)建、被攝取到保存系統(tǒng)、格式遷移等。在PREMIS中定義了15種保存事件:creation、deaccession、decompression、decryption、deletion、digital signature validation、dissemination、fixity check、ingestion、message digest calculation、migration、normalization、replication、validation、virus check。從信息生命周期來(lái)看,事件是對(duì)數(shù)字對(duì)象全生命周期的記錄,主要涉及對(duì)原始數(shù)字對(duì)象及轉(zhuǎn)換過(guò)程的動(dòng)態(tài)描述。實(shí)質(zhì)上,每個(gè)數(shù)字對(duì)象都要經(jīng)歷從生產(chǎn)、加工、轉(zhuǎn)換、存儲(chǔ)直至消亡的過(guò)程,與數(shù)字對(duì)象有關(guān)的事件信息包含攝入、檢查、遷移等方面的事件。本文所討論的事件是從數(shù)字資源長(zhǎng)期保存的角度,以工作流程為主線,討論數(shù)字資源長(zhǎng)期保存生命周期中所涉及的一系列事件。
目前,事件本體的研究在國(guó)內(nèi)外仍處于起步階段,雖然已開(kāi)發(fā)出很多關(guān)于事件本體的表示模型,但尚未形成統(tǒng)一的標(biāo)準(zhǔn),各事件本體表示模型的主要區(qū)別體現(xiàn)在事件的定義、事件類(lèi)型的劃分、事件本體的應(yīng)用領(lǐng)域、形式化表示方法和事件本體的結(jié)構(gòu)上。總的來(lái)說(shuō),主要有兩種本體構(gòu)建思路:一種是利用本體技術(shù)直接構(gòu)建本體模型;另一種是借鑒或者復(fù)用已有的成熟本體進(jìn)行構(gòu)建。本研究的本體構(gòu)建將借鑒已有的成熟本體,在分析現(xiàn)有事件本體模型的基礎(chǔ)上,構(gòu)建基于本體的數(shù)字資源長(zhǎng)期保存事件信息模型。目前已有一些成熟的事件本體模型,如最初用于描述演出或演奏音樂(lè)的事件本體EO、用于解決時(shí)空問(wèn)題的BFO本體模型、面向?qū)ο蟮腃IDOC CRM(CIDOC Conceptual Reference Model)以及基于事件的ABC本體模型等。其中,ABC本體模型是一個(gè)共享概念模型,其主要以事件為驅(qū)動(dòng),通過(guò)對(duì)事件、情景、動(dòng)作和代理等概念及其關(guān)系的描述來(lái)表示事件,是一個(gè)輕量級(jí)、通用性好且概念清晰的成熟本體模型,能夠?qū)σ话闶录^(guò)程進(jìn)行良好的表達(dá)。目前ABC本體模型已被廣泛應(yīng)用于博物館、圖書(shū)館、檔案館等領(lǐng)域,本研究以ABC本體作為借鑒對(duì)象,構(gòu)建數(shù)字資源長(zhǎng)期保存的事件本體模型。
事件是數(shù)字對(duì)象一系列變化的驅(qū)動(dòng)力,借助事件可以有效掌握數(shù)字對(duì)象的動(dòng)態(tài)變化。隨著數(shù)字對(duì)象長(zhǎng)期保存過(guò)程中事件活動(dòng)的增多,通過(guò)了解與數(shù)字對(duì)象相關(guān)的事件鏈,就可以展現(xiàn)長(zhǎng)期存儲(chǔ)對(duì)象的狀態(tài)變化情況。在對(duì)數(shù)字資源長(zhǎng)期保存事件本體模型的設(shè)計(jì)中,將事件定義為系統(tǒng)可識(shí)別的,能夠至少影響一個(gè)對(duì)象的動(dòng)作,如調(diào)取文件、捕獲數(shù)字對(duì)象、病毒檢查等。根據(jù)OAIS(Reference Model for an Open Archival Information System,開(kāi)放檔案信息系統(tǒng))的定義,數(shù)字對(duì)象在整個(gè)數(shù)字資源長(zhǎng)期保存過(guò)程中將經(jīng)歷攝入、歸檔、數(shù)據(jù)管理、利用等環(huán)節(jié)。對(duì)于長(zhǎng)期保存事件的判斷和甄選,應(yīng)以O(shè)AIS定義的保存流程為依據(jù),參考PREMIS已定義的事件類(lèi)型,綜合考慮數(shù)字對(duì)象的產(chǎn)生、發(fā)展變化,以及數(shù)字對(duì)象的衍生物,進(jìn)而為保存數(shù)字對(duì)象的真實(shí)性、可信性、可追溯性和完整性的驗(yàn)證提供有效依據(jù)。在數(shù)字資源產(chǎn)生之初,就存在不可預(yù)知的變化因素,導(dǎo)致數(shù)字對(duì)象重要屬性發(fā)生改變,如由于系統(tǒng)外部技術(shù)發(fā)展和目標(biāo)群體改變引起的軟硬件環(huán)境變化,系統(tǒng)內(nèi)部自身對(duì)數(shù)字資源的直接管理等,這些因素都會(huì)導(dǎo)致數(shù)字對(duì)象內(nèi)容信息的變化,即使部分資源本身變化不大,也需要考慮與之相關(guān)的數(shù)字對(duì)象的變化,并全面了解基于數(shù)字資源保存生命周期的詳細(xì)事件信息。
基于信息生命周期理論,對(duì)長(zhǎng)期保存事件信息的遴選涉及OAIS的整個(gè)保存周期,仔細(xì)分析相關(guān)參考模型和各保存系統(tǒng)的實(shí)際應(yīng)用,數(shù)字對(duì)象的事件信息可以劃分成資源處理過(guò)程中發(fā)生的事件、資源保存過(guò)程中發(fā)生的事件、資源利用過(guò)程中發(fā)生的事件三類(lèi)。資源處理過(guò)程涉及資源檢查、資源攝入、資源傳輸?shù)榷鄠€(gè)方面,如對(duì)資源進(jìn)行檢測(cè)、校驗(yàn)、轉(zhuǎn)換、規(guī)范等一系列操作。同時(shí),為應(yīng)對(duì)保存環(huán)境的變化,對(duì)資源進(jìn)行的格式遷移、軟硬件環(huán)境遷移、等操作。資源保存過(guò)程主要涉及資源的存儲(chǔ),如避免存儲(chǔ)介質(zhì)的老化、故障、過(guò)時(shí)的可能風(fēng)險(xiǎn),而進(jìn)行了數(shù)據(jù)備份、介質(zhì)遷移等。資源利用過(guò)程主要涉及為滿(mǎn)足用戶(hù)需求,保證資源的真實(shí)呈現(xiàn),而進(jìn)行的處理、轉(zhuǎn)換、傳輸、呈現(xiàn)等操作。
本體(Ontology)的出現(xiàn)有效解決了信息組織中語(yǔ)義沖突方面的問(wèn)題,目前被廣泛接受和使用的定義是1993年Gruber提出的“本體是共享的概念模型的形式化規(guī)范說(shuō)明”。本體描述的是某個(gè)特定領(lǐng)域的一種形式化、共享的概念化模型,它通過(guò)對(duì)概念的沿革定義和概念之間的關(guān)系來(lái)確定概念的精確含義,提供對(duì)某個(gè)領(lǐng)域一種共享的、通用的理解,幫助任何計(jì)算機(jī)進(jìn)行交流,其支持語(yǔ)義級(jí)的交互。目前很多領(lǐng)域都積極開(kāi)發(fā)自己領(lǐng)域的本體,如法律知識(shí)本體、數(shù)字圖書(shū)館領(lǐng)域本體、新聞本體等等。然而數(shù)字資源長(zhǎng)期保存領(lǐng)域本體的研究尚不成熟,特別是針對(duì)數(shù)字資源長(zhǎng)期保存活動(dòng)過(guò)程中事件等動(dòng)態(tài)信息的本體研究鮮有學(xué)者涉獵。數(shù)字資源長(zhǎng)期保存事件信息組織是一個(gè)復(fù)雜的過(guò)程,目前長(zhǎng)期保存領(lǐng)域的本體研究大多停留在對(duì)保存數(shù)字對(duì)象信息的機(jī)構(gòu)化聚合層面,尚未建立數(shù)字資源長(zhǎng)期保存實(shí)踐信息的多維度管理體系。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,長(zhǎng)期保存管理者的著眼點(diǎn)已不再局限于揭示保存數(shù)字對(duì)象信息之間的關(guān)聯(lián)關(guān)系,而是更關(guān)注相關(guān)關(guān)系,通過(guò)相關(guān)關(guān)系的應(yīng)用,可以比以前更容易、更便捷、更清晰地分析保存數(shù)字對(duì)象,確保其真實(shí)、可靠、完整和可追溯。
對(duì)數(shù)字資源長(zhǎng)期保存事件信息的分析過(guò)程中,在分析資源來(lái)源的同時(shí),也可以構(gòu)建與資源版權(quán)相關(guān)的衍生信息,方便用戶(hù)根據(jù)衍生信息驗(yàn)證數(shù)字對(duì)象的版權(quán),對(duì)數(shù)字對(duì)象溯源,分析其真實(shí)性。對(duì)數(shù)字對(duì)象創(chuàng)建者而言,其可以借助事件的多維度關(guān)聯(lián)體系,不僅可以了解數(shù)字對(duì)象之間的因果關(guān)系,而且可以了解相關(guān)關(guān)系,方便獲取創(chuàng)建對(duì)象的使用情況,實(shí)現(xiàn)對(duì)資源版權(quán)的有效保護(hù),避免出現(xiàn)版權(quán)糾紛。同時(shí),在數(shù)字資源長(zhǎng)期保存實(shí)施過(guò)程中,技術(shù)發(fā)展帶來(lái)的有關(guān)大數(shù)據(jù)、分布式、虛擬化等技術(shù)的應(yīng)用,使得對(duì)保存數(shù)字對(duì)象的保存管理和利用日益復(fù)雜化,然而在混亂紛雜的數(shù)字對(duì)象中尋找與之有關(guān)的有用事件信息和知識(shí)已成為數(shù)字資源長(zhǎng)期保存管理者和決策者必須面對(duì)的挑戰(zhàn)?;跀?shù)字資源長(zhǎng)期保存事件本體模型的研究對(duì)于數(shù)字資源長(zhǎng)期保存決策者和管理者及時(shí)、高效地獲取有序化、集成化和知識(shí)化的事件信息,并采取有效措施干預(yù)數(shù)字保存過(guò)程,確保數(shù)字對(duì)象的穩(wěn)定、可靠、真實(shí)具有重要意義,是數(shù)字資源長(zhǎng)期保存研究突破事件信息管理困境的有力支持。
對(duì)長(zhǎng)期保存事件信息的管理是處理大量數(shù)字對(duì)象在保存過(guò)程中產(chǎn)生的大量派生信息,通過(guò)對(duì)事件信息進(jìn)行不斷的存儲(chǔ)和積累,形成不同類(lèi)別事件的歷史案例數(shù)據(jù)庫(kù),通過(guò)對(duì)不同的數(shù)字對(duì)象相關(guān)事件信息的關(guān)聯(lián)和縱向分析,能夠提煉出相關(guān)事件信息的規(guī)律和特點(diǎn),掌握數(shù)字對(duì)象的變化過(guò)程,了解與之相關(guān)的原因、地點(diǎn)、事件等信息,進(jìn)而解決包括數(shù)字對(duì)象不變性、可靠性、真實(shí)性等在內(nèi)的復(fù)雜問(wèn)題,有效增強(qiáng)同類(lèi)型數(shù)字對(duì)象從產(chǎn)生到利用整個(gè)生命周期變化的規(guī)律性,以便于完整保存初始資源及原生資源。
本研究以數(shù)字資源長(zhǎng)期保存的事件信息為研究對(duì)象,主要對(duì)數(shù)字資源長(zhǎng)期保存事件所屬主題、參與主體、發(fā)生點(diǎn)、發(fā)生時(shí)間、結(jié)果等方面的概念及概念間的關(guān)系進(jìn)行描述。借助本體所建立的關(guān)聯(lián),可將數(shù)字資源長(zhǎng)期保存事件信息的多維語(yǔ)義特征內(nèi)容進(jìn)行整合,由于設(shè)置的事件信息知識(shí)庫(kù)的字段更加細(xì)粒度,更容易對(duì)長(zhǎng)期保存數(shù)字對(duì)象進(jìn)行跟蹤和溯源,保證資源的有效性和真實(shí)性。構(gòu)建數(shù)字資源長(zhǎng)期保存事件信息本體的目標(biāo)是要形成對(duì)于數(shù)字資源長(zhǎng)期保存事件信息組織結(jié)構(gòu)的共同認(rèn)可理解,為數(shù)字資源長(zhǎng)期保存其他領(lǐng)域本體的構(gòu)建提供有章可循的方法和技術(shù)路線,同時(shí)進(jìn)一步為建立數(shù)字資源長(zhǎng)期保存領(lǐng)域語(yǔ)義Web奠定堅(jiān)實(shí)的基礎(chǔ)。
針對(duì)從數(shù)字資源長(zhǎng)期保存活動(dòng)中所采集到的各類(lèi)與數(shù)字對(duì)象相關(guān)的事件信息進(jìn)行概念分析,并以事件為驅(qū)動(dòng),構(gòu)建數(shù)字資源長(zhǎng)期保存事件信息本體的概念模型,以便更有效地描述數(shù)字資源長(zhǎng)期保存生命周期內(nèi)某個(gè)數(shù)字對(duì)象的創(chuàng)建、發(fā)展、和變遷。數(shù)字資源長(zhǎng)期保存的事件信息語(yǔ)義組織框架主要從事件標(biāo)識(shí)符、細(xì)節(jié)描述、時(shí)間、事件類(lèi)型、處理設(shè)備、處理結(jié)果、地點(diǎn)、發(fā)生原因、事件所涉及的責(zé)任人、被操作的數(shù)字對(duì)象基本信息等概念進(jìn)行設(shè)定。通過(guò)預(yù)處理、消歧、過(guò)濾等操作進(jìn)行獲取,并開(kāi)展事件信息特征的抽取工作,然后將抽取的知識(shí)單元基于構(gòu)建的長(zhǎng)期保存事件信息本體揭示其內(nèi)在的多維度關(guān)聯(lián),最后存儲(chǔ)到數(shù)據(jù)庫(kù)中。
在數(shù)字資源長(zhǎng)期保存的整個(gè)生命周期中,要綜合考慮事件信息的影響因素,筆者認(rèn)為事件信息本體模型的設(shè)計(jì)應(yīng)當(dāng)遵循以下原則:
(1)以數(shù)字對(duì)象的保存生命周期為依據(jù),將數(shù)字對(duì)象攝入作為起始點(diǎn),對(duì)攝入保存系統(tǒng)后整個(gè)生命周期所有變化的動(dòng)態(tài)信息進(jìn)行收集、整理和分析。
(2)以O(shè)AIS為準(zhǔn)則,遵循OAIS組織管理數(shù)字對(duì)象的基本工作流程,明確定義事件信息的構(gòu)成。
(3)以ABC本體模型作為借鑒對(duì)象,以事件為驅(qū)動(dòng),通過(guò)對(duì)事件、情景、動(dòng)作和代理等概念及其關(guān)聯(lián)關(guān)系的描述來(lái)表示事件信息。
(4)以數(shù)字對(duì)象的長(zhǎng)期保存業(yè)務(wù)工作流程為核心,進(jìn)行數(shù)字資源長(zhǎng)期保存事件信息的組織、分析和對(duì)事件本體的構(gòu)建。
數(shù)字資源長(zhǎng)期保存事件信息本體建模的目標(biāo)是幫助數(shù)字資源長(zhǎng)期保存管理者,特別是長(zhǎng)期保存決策者在數(shù)字對(duì)象保存活動(dòng)中發(fā)展變化的關(guān)鍵節(jié)點(diǎn)進(jìn)行有效的監(jiān)控和跟蹤,并及時(shí)有效地采取措施,解決保存過(guò)程中出現(xiàn)的問(wèn)題,保證數(shù)字對(duì)象的可信性、結(jié)果的可靠性以及數(shù)字對(duì)象修改或分析過(guò)程的透明性。為了更有效地表達(dá)保存數(shù)字對(duì)象所發(fā)生的變化和知識(shí)結(jié)構(gòu),本文結(jié)合7W信息(What、Where、Who、When、Which、Why、How),對(duì)ABC本體模型進(jìn)行了一定擴(kuò)展,如增加組織、個(gè)人、軟件、硬件等主體概念??紤]到交互性與長(zhǎng)期保存事件表達(dá)的需要,模型采用分層結(jié)構(gòu),即上層本體和應(yīng)用層本體。上層本體滿(mǎn)足長(zhǎng)期保存領(lǐng)域復(fù)雜事件的通用概念描述,實(shí)現(xiàn)與其他領(lǐng)域本體融合、交互;應(yīng)用層本體,即數(shù)字資源長(zhǎng)期保存事件信息本體,主要描述數(shù)字資源長(zhǎng)期保存事件知識(shí),同時(shí)針對(duì)保存數(shù)字對(duì)象的特點(diǎn),考慮事件實(shí)施對(duì)象的情境信息和事件實(shí)施者,并依此評(píng)估保存數(shù)字對(duì)象的可信度。
4.2.1 上層本體建模。
(1)ABC本體模型。Harmony項(xiàng)目開(kāi)發(fā)ABC本體模型重點(diǎn)是對(duì)事件概念的建模,通過(guò)對(duì)事件、情景、動(dòng)作、代理等概念和概念間的關(guān)系的描述,表達(dá)事件內(nèi)容。主要概念涉及:1)Actuality:主要用于描述客觀世界的現(xiàn)實(shí)存在;2)Temporality:描述具有時(shí)間存在性的實(shí)體;3)Situation:用于描述上下文環(huán)境(Context);4)Event,說(shuō)明Situation間的轉(zhuǎn)換,通過(guò)precedes和follows屬性與Situation建立聯(lián)系,并與行為主體(Agent)相互聯(lián)系。Event由Agent觸發(fā),產(chǎn)生對(duì)客觀世界的改變是與實(shí)踐相關(guān)聯(lián)的。
ABC本體具有輕量級(jí)、通用性好,概念清晰等特點(diǎn),其對(duì)一般事件過(guò)程均能進(jìn)行良好的表達(dá)。但是長(zhǎng)期保存事件表達(dá)是一個(gè)跨領(lǐng)域的知識(shí)工程,長(zhǎng)期保存數(shù)字對(duì)象事件本體又屬于多事件集成,而ABC本體對(duì)于多粒度案例事件表達(dá)存在困難,主要表現(xiàn)在:ABC本體事件沒(méi)有定義過(guò)程(Process)概念,對(duì)長(zhǎng)期保存過(guò)程中的復(fù)雜性事件過(guò)程表達(dá)能力不足;ABC本體中Agent表達(dá)事件的行為主體,對(duì)于表達(dá)單一事件具有簡(jiǎn)潔、清晰的特點(diǎn),但是對(duì)于長(zhǎng)期保存活動(dòng)這種多類(lèi)型主體(如事件的多類(lèi)型實(shí)施主體),其表達(dá)能力不足;代理(Agent)是長(zhǎng)期保存事件的核心要素之一,ABC本體缺乏對(duì)其代理的進(jìn)一步細(xì)分和描述。
(2)ABC擴(kuò)展本體模型。為了更準(zhǔn)確表達(dá)數(shù)字資源長(zhǎng)期保存過(guò)程和事件知識(shí)結(jié)構(gòu),本文對(duì)ABC本體進(jìn)行擴(kuò)展,增加組織、個(gè)人、軟件、硬件等主體概念以及過(guò)程等概念,構(gòu)建ABC擴(kuò)展本體模型,作為長(zhǎng)期保存事件模型的上層本體。
1)個(gè)人(Person)、組織(Organization)、軟件(Software)、硬件(Hardware)都是概念A(yù)gent的擴(kuò)展類(lèi),個(gè)人和組織作為參與主體共同作用于數(shù)字資源長(zhǎng)期保存事件,影響其發(fā)展與演變。為了更好地體現(xiàn)參與主體中各組織機(jī)構(gòu)的職責(zé)和作用,將組織進(jìn)一步分為長(zhǎng)期保存委托機(jī)構(gòu)、資源保管機(jī)構(gòu)、資源生產(chǎn)機(jī)構(gòu)、資源提交機(jī)構(gòu)、資源利用機(jī)構(gòu);根據(jù)承擔(dān)保存任務(wù)的不同,又將參與長(zhǎng)期保存?zhèn)€人分成長(zhǎng)期保存資源提交者、長(zhǎng)期保存資源管理者、長(zhǎng)期保存資源利用者、長(zhǎng)期保存技術(shù)管理者。
2)數(shù)字資源對(duì)象(Object)是Actuality擴(kuò)展子類(lèi),表達(dá)可供Agent利用的實(shí)體。
3)過(guò)程(Process)用于表達(dá)某個(gè)事件發(fā)生在數(shù)字資源長(zhǎng)期保存的某個(gè)階段,即驅(qū)動(dòng)事件發(fā)生的任務(wù),具有時(shí)間依賴(lài)性。
4)主題(Topic)用于表示事件分類(lèi),如病毒檢查和不變性驗(yàn)證均屬于驗(yàn)證類(lèi)事件,有利于對(duì)不同事件進(jìn)行歸類(lèi),利于長(zhǎng)期保存管理者和決策者對(duì)數(shù)字資源長(zhǎng)期保存工作的整體把握。
4.2.2 數(shù)字資源長(zhǎng)期保存事件信息本體模型。在構(gòu)建數(shù)字資源長(zhǎng)期保存事件信息本體模型時(shí),將其分成事件層、流程層、主體層,如圖1所示。其中描述性的知識(shí)定義在事件層,指定數(shù)字資源長(zhǎng)期保存事件相互之間的關(guān)系;流程性知識(shí)主要定義在流程層,描述了長(zhǎng)期保存事件涉及的一系列數(shù)字資源長(zhǎng)期保存階段;主體層主要定義代理所采取的行動(dòng)知識(shí),層之間的關(guān)系包括參與、響應(yīng)、參考等。本研究定義的數(shù)字資源長(zhǎng)期保存本體模型的概念如下所示:
Thing | Happening | Time | Place | Agent | Topic | Event | Object | Person |
Organization | Process | Digitalresource | Metadata | Software | Hardware | Action |entrustognization | Preservation Organization | Resource production organization | Resouce submitting organization | Resource utilization organization | ResourceSumitter | Resource Manager | Resource User | Technology Manager
圖1 數(shù)字資源長(zhǎng)期保存事件信息本體建模
數(shù)字資源長(zhǎng)期保存事件信息本體主要包含1個(gè)頂級(jí)類(lèi)Thing、6個(gè)一級(jí)類(lèi)、11個(gè)二級(jí)類(lèi),其中Thing是頂級(jí)類(lèi),其余涉及的概念和類(lèi)具體如下:1)Happening是所有長(zhǎng)期保存事件的父類(lèi),Event、Process、Object是3個(gè)子類(lèi),各子類(lèi)的具體含義如下:Event表示動(dòng)態(tài)事件的概念,多個(gè)Event共同組成一個(gè)具體的數(shù)字對(duì)象長(zhǎng)期保存的例子;Process描述事件發(fā)生時(shí)所處的長(zhǎng)期保存工作流程階段;Object是指具有關(guān)聯(lián)關(guān)系的數(shù)字對(duì)象集合,它能夠描述一組關(guān)系事件推動(dòng)的完整的數(shù)字對(duì)象的長(zhǎng)期保存過(guò)程,并有利于追溯數(shù)字對(duì)象的起源信息。2)Agent是Person、Organization、Software、Hardware的父類(lèi),用于表示事件中Who要素,即事件的操作方。狹義的代理指事件的操作者,此處代理的含義更廣泛,包括組織、個(gè)人、軟件和硬件四種內(nèi)容。3)Topic表示事件分類(lèi),部分事件是由一類(lèi)事件構(gòu)成,如病毒檢查和不變性驗(yàn)證均屬于驗(yàn)證類(lèi)事件。對(duì)于同類(lèi)事件的歸類(lèi),有利于同類(lèi)事件的建立聯(lián)系,方便進(jìn)行事件知識(shí)的關(guān)聯(lián)和組織。本文設(shè)定檢查事件類(lèi)和攝入事件類(lèi),當(dāng)有新主題時(shí),可以自定義添加補(bǔ)充。4)Time表示事件涉及的時(shí)間,用于表示事件中When的要素,即事件發(fā)生的時(shí)間,可能是一個(gè)時(shí)間點(diǎn),也可能是一個(gè)時(shí)間段。5)Place表示事件中的Where要素,即事件發(fā)生的位置信息。6)Object是事件的具體實(shí)施對(duì)象,指向具體的數(shù)字資源數(shù)據(jù),包括數(shù)字資源(Digital resource)和元數(shù)據(jù)(Metadata)兩個(gè)子類(lèi)。
4.2.3 長(zhǎng)期保存事件信息本體模型中概念的數(shù)據(jù)屬性。對(duì)于數(shù)字資源長(zhǎng)期保存事件信息本體模型中的每個(gè)概念都有數(shù)據(jù)屬性,其中子類(lèi)繼承父類(lèi)的全部屬性,因此子類(lèi)的某些與父類(lèi)相同的屬性就不再進(jìn)行論述,如表1所示。
表1 數(shù)字資源長(zhǎng)期保存事件信息本體概念屬性
續(xù)表1
4.2.4 建立數(shù)字資源長(zhǎng)期保存事件信息語(yǔ)義關(guān)聯(lián)。事件及其涉及的實(shí)體可能與其他事件或?qū)嶓w相關(guān)聯(lián),數(shù)字資源長(zhǎng)期保存事件與事件之間也存在此類(lèi)關(guān)聯(lián),這些關(guān)系可以是時(shí)間上并發(fā),位置上并現(xiàn),也可能是時(shí)序關(guān)系、因果關(guān)系等,通過(guò)語(yǔ)義關(guān)聯(lián)的獲取,可以得到與保存數(shù)字對(duì)象相關(guān)事件的集合,方便對(duì)長(zhǎng)期保存數(shù)字對(duì)象的溯源,評(píng)估數(shù)字對(duì)象的安全性和可信性以及操作流程的有效性。本研究總結(jié)了數(shù)字資源長(zhǎng)期保存事件信息本體中設(shè)計(jì)的概念間關(guān)系,如表2所示。
表2 數(shù)字資源長(zhǎng)期保存事件信息語(yǔ)義關(guān)系及其示例
數(shù)字資源長(zhǎng)期保存事件信息是重要的數(shù)字資源長(zhǎng)期保存信息資源,對(duì)其進(jìn)行語(yǔ)義組織有助于準(zhǔn)確記錄數(shù)字對(duì)象的變化歷史,保證數(shù)字對(duì)象的真實(shí)、可靠、可用和可追溯。本研究以面向數(shù)字資源長(zhǎng)期保存工作流程為主線,基于語(yǔ)義關(guān)聯(lián)的理論構(gòu)建了數(shù)字資源長(zhǎng)期保存信息本體模型。然而,數(shù)字資源長(zhǎng)期保存活動(dòng)中的動(dòng)態(tài)事件語(yǔ)義組織工作是一項(xiàng)復(fù)雜的系統(tǒng)工程,今后仍然需要結(jié)合具體的長(zhǎng)期保存應(yīng)用系統(tǒng),進(jìn)行進(jìn)一步的梳理和界定,并對(duì)具體實(shí)現(xiàn)步驟進(jìn)行進(jìn)一步的深入研究。
[1]PREMIS data dictionary for preservation metadata,version 2.0[S/OL].[2017-05-13].http:∥www.loc.gov/standards/premis/v2/index.html.
[2]Smith B.On classifying material entities in basic formal ontology[EB/Ol].[2017-06-18].http:∥ontology.buffalo.edu/smith/articles/Material_Entities.pdf.
[3]Crofts N,Doeer M,Gill T,et al.Definition of the Cidoc conceptual Reference Model[EB/OL].[2017-06-07].http:∥www.cidoc-erm.org/docs/cidoc_crm_version_4.2.pdf.
[4]lagoze C,Hunter J.The ABC Ontology and Model[J].Journal of Digital Information,2002,2(2):1—18.
[5]GruberTR.ATranslation Approach to Portable Ontologies Specificationsspecifications[J].Knowledge Acquisition,1993,5(2):199—220.
[6]白同強(qiáng),劉 磊.語(yǔ)義Web的研究與展望[J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2004,22(2):154—159.
[7]白如江,于曉繁,王效岳.國(guó)內(nèi)外主要本體庫(kù)比較分析研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(1):3-13.
[8]Ram S,Liu J.A New Perspective on Semantics of Data Provenance[C].SWPM,2009.
[9]YUNHE,HAMZAAB,KRIMH.Ageneralizeddivergencemeasureforrobustimageregistration[J].IEEE Transactions on Signal Processing,2003,51(5):1211—1220.
[10]王文俊,楊 鵬,董存祥.應(yīng)急案例本體模型的研究及應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2009,29(5):1437—1440,1445.