摘? 要:本文主要就檔案領(lǐng)域本體建構(gòu)過程進(jìn)行分析,從檔案領(lǐng)域建構(gòu)目的、列舉術(shù)語概念、搭建本體框架、形成檔案領(lǐng)域概念模型、本體OWL語言描述以及評價(jià)幾個(gè)方面探討檔案領(lǐng)域本體構(gòu)建的應(yīng)用與實(shí)踐。
關(guān)鍵詞:檔案;本體;OWL語言
本體是當(dāng)前信息科學(xué)領(lǐng)域的研究重點(diǎn),檔案領(lǐng)域的本體包含了確定的檔案學(xué)語義和術(shù)語概念之間的關(guān)系,進(jìn)一步幫助人們認(rèn)識檔案學(xué)。
一、需求分析
本體最早源于哲學(xué)領(lǐng)域,20世紀(jì)后,逐漸轉(zhuǎn)入計(jì)算機(jī)科學(xué)領(lǐng)域,成為信息科學(xué)領(lǐng)域的研究重點(diǎn)。本體主要表現(xiàn)為對特定專題領(lǐng)域內(nèi)所存在的對象屬性及其相互關(guān)系的集合。通常而言,本體是面向特定領(lǐng)域,用于描述特定學(xué)科領(lǐng)域,同樣可以對該領(lǐng)域進(jìn)行建模。
檔案本體,即對檔案學(xué)領(lǐng)域之中各種概念及其相互關(guān)系的形式化表達(dá),是基于檔案設(shè)計(jì)的抽象化了解。在構(gòu)建檔案本體過程中,最為首要的就是進(jìn)行檔案本體需求分析,明確構(gòu)建檔案本體的目的、范圍以及應(yīng)用定位。由于各個(gè)領(lǐng)域?qū)W科的知識體系十分龐大,想要通過構(gòu)建本體整合所有領(lǐng)域概念十分困難,所以,在構(gòu)建檔案本體領(lǐng)域之前應(yīng)該明確本體所覆蓋的專業(yè)范圍,以部分領(lǐng)域重點(diǎn)為出發(fā)點(diǎn),由此及彼,由表及里,逐步向外延伸拓展,豐富本體建構(gòu),盡可能填充所有領(lǐng)域重點(diǎn)。同時(shí)應(yīng)該明確檔案領(lǐng)域本體構(gòu)建的目的是什么,如何應(yīng)用檔案領(lǐng)域本體才能夠發(fā)揮其最大作用,從而使得構(gòu)建檔案領(lǐng)域本體能夠幫助檔案領(lǐng)域知識學(xué)習(xí),構(gòu)建更加完善的檔案管理系統(tǒng)。
二、明確重要術(shù)語概念
在檔案領(lǐng)域本體構(gòu)建過程中,需要明確重要術(shù)語概念,從而將檔案管理過程所會涉及到的檔案信息相關(guān)組織結(jié)構(gòu)進(jìn)行有效劃分,也可以通過已有的檔案管理系統(tǒng)中的自動標(biāo)引抽取功能,確定檔案本體領(lǐng)域重要名詞術(shù)語。通常而言,檔案領(lǐng)域本體概念包括以下幾個(gè)類別:檔案案卷編號、檔案全宗號、檔案種類、檔案案卷標(biāo)題、檔案保管期限、檔案狀態(tài)、檔案管理責(zé)任者以及檔案案卷頁數(shù)等。不同的檔案均會有一個(gè)檔案案卷編號,且檔案之間互不相同,是各個(gè)檔案管理部門用于確定檔案的唯一正確標(biāo)識,一個(gè)檔案的檔案案卷編號通常由4個(gè)部分組成,包括檔案類目(藝術(shù)系或文學(xué)系等)、案卷號、序號以及工程代號,通過檔案案卷編號能夠幫助管理員快速了解檔案基本信息。檔案案卷標(biāo)題就是案卷題名,通常是由立卷人自己進(jìn)行擬定,題名能夠簡要概況檔案文件基本信息,幫助檔案管理人員迅速明晰檔案內(nèi)容。檔案種類同樣十分重要,檔案管理工作首要就是將檔案進(jìn)行分門別類,通過將檔案類別進(jìn)行劃分,幫助檔案管理人員第一時(shí)間確定檔案所屬領(lǐng)域范圍,領(lǐng)域范圍主要指文學(xué)、科技、醫(yī)學(xué)等等,不同檔案管理系統(tǒng)可以按照各自的劃分標(biāo)準(zhǔn)進(jìn)行劃分。
三、搭建本體框架結(jié)構(gòu)
在領(lǐng)域術(shù)語分析結(jié)束以后,從各自概念中抽象構(gòu)建檔案領(lǐng)域本體框架??蚣苣J胶蜋n案術(shù)語分析中檔案種類劃分十分相似,就是將各個(gè)領(lǐng)域術(shù)語按照類別進(jìn)行劃分,與此同時(shí),在分類建構(gòu)過程中,能夠初步確定各個(gè)不同類別之間的建構(gòu)關(guān)系,從而形成大體框架。通過對于檔案領(lǐng)域概念術(shù)語進(jìn)行分析,可以初步明確框架結(jié)構(gòu)。主要包括檔案管理負(fù)責(zé)者、檔案所處狀態(tài)、檔案編號、檔案案卷標(biāo)題、檔案所處種類類別幾大部分,再將其進(jìn)行具體細(xì)分,那么檔案管理負(fù)責(zé)人又可以分為不同學(xué)科領(lǐng)域部門,狀態(tài)可以細(xì)分為已經(jīng)刪除、已經(jīng)同步,檔案案卷編號則包括上文分析所提及的檔案類目、案卷號、序號以及工程代號。不同分類方法可以存在出入?;谝陨峡蚣芙Y(jié)構(gòu)分析,可以得知,本體不僅能夠描述不同概念之間的相互關(guān)系,而且還能夠描述客觀世界當(dāng)中實(shí)體與屬性、實(shí)體與實(shí)體之間的復(fù)雜關(guān)系。
四、形成檔案領(lǐng)域概念模型
在檔案本體構(gòu)建過程中,可以通過分類方法將不同概念進(jìn)行整合,根據(jù)對于不同概念屬性的熟悉程度,合理選擇自上而下法與自下而上法。當(dāng)遇到較為熟悉的內(nèi)容,可以采用自上而下法,通過定義學(xué)科領(lǐng)域中宏觀概括性的內(nèi)容,然后再由此延伸拓展,逐步補(bǔ)充細(xì)節(jié)。對于具體細(xì)節(jié)性的內(nèi)容,可以先從最小分支出發(fā),然后將這些概念由點(diǎn)到面,泛化成一個(gè)綜合性的宏觀概念??傊?,通過概念定義將概念術(shù)語以類的方式整理到本體類的層次分類系統(tǒng)中,各個(gè)類之間也就形成了一定層次關(guān)系。隨后定義每一個(gè)類的屬性,通過屬性描述類中個(gè)體成員與其他類的關(guān)系,創(chuàng)建實(shí)例,定義函數(shù)。
五、本體 OWL語言描述
OWL即Web Ontology Language,是一種通過類、屬性和實(shí)例進(jìn)而描述知識組織關(guān)系的網(wǎng)絡(luò)本體語言。OWL以語言表達(dá)和邏輯描述為基礎(chǔ),以XML為書寫工具,用于表達(dá)計(jì)算機(jī)應(yīng)用程序處理文件所包含的各種信息內(nèi)容。在檔案領(lǐng)域本體建構(gòu)過程中就可以通過使用OWL語言對檔案領(lǐng)域本體模型進(jìn)行形式化描述,存儲保存在計(jì)算機(jī)中,從而實(shí)現(xiàn)對于檔案館領(lǐng)域本體類、關(guān)系、屬性和實(shí)例的定義,同時(shí)通過OWL描述屬性的域、取值區(qū)間、描述關(guān)系等。
六、本體評價(jià)
最后,當(dāng)評價(jià)和檢驗(yàn)檔案領(lǐng)域構(gòu)建本體時(shí),主要評價(jià)標(biāo)準(zhǔn)是檔案本體是否具有清晰性、一致性、可拓展性等。清晰性即在檔案術(shù)語定義過程中,并沒有任何歧義,能夠通過概念術(shù)語直接了解內(nèi)容含義。一致性即指不同概念術(shù)語邏輯始終保持一致,邏輯鏈條不會發(fā)生斷裂。可拓展性即指本體能夠向外延伸拓展,可以相應(yīng)補(bǔ)充新的概念屬性和關(guān)系,不斷擴(kuò)充對于本體領(lǐng)域知識的認(rèn)識,加深建構(gòu)和理解。
七、結(jié)論
綜上所述,本文主要分析了檔案領(lǐng)域本體構(gòu)建的應(yīng)用與實(shí)踐。構(gòu)建一個(gè)完備的檔案領(lǐng)域本體,能夠幫助人們不斷認(rèn)識和探索檔案學(xué)相關(guān)理論,提高工作效率,同時(shí)也為今后不斷開拓智能數(shù)字檔案提供經(jīng)驗(yàn)范本。
參考文獻(xiàn)
[1]趙生輝,胡瑩.擁有整體性記憶:檔案領(lǐng)域數(shù)據(jù)本體管理論綱[J].山西檔案,2020(06):17-27.
[2]陸銘.基于本體的檔案館藏資源語義知識庫構(gòu)建研究[D].吉林大學(xué),2019.
作者簡介
周小平(1967.08.01—),女,出生于四川省武勝縣,樂善區(qū)仁和公社五大隊(duì)五生產(chǎn)隊(duì),專業(yè)職務(wù):副研究館員,研究專長:檔案管理,學(xué)歷:大學(xué)本科。
攀枝花學(xué)院