陳丹
【摘要】將本體構(gòu)建理論運(yùn)用于檔案管理信息系統(tǒng)的建設(shè)中,并利用Protege工具完成建模與分析處理,從而將檔案管理中的一部分轉(zhuǎn)化為抽象概念,以完成概念之間的關(guān)系構(gòu)建。本文主要介紹了應(yīng)用本體理論構(gòu)建數(shù)字檔案館的建模流程,以實(shí)現(xiàn)信息檢索的智能化與人性化。
【關(guān)鍵詞】本體論;數(shù)字檔案;知識檢索
傳統(tǒng)的數(shù)字檔案館是采用基于元數(shù)據(jù)的關(guān)鍵詞檢索方式,早已不能滿足用戶多元化的需求。因此,本文嘗試建立一種基于本體論的數(shù)字檔案館知識檢索模型。通過本體知識、分析理解、概念提取與匹配等方法,從而實(shí)現(xiàn)信息檢索的智能化。
一、本體論概述
本體(Ontology)屬于哲學(xué)方面的概念,從哲學(xué)的角度來說,它是對客觀存在的一個(gè)系統(tǒng)的解釋或說明,關(guān)注的是客觀現(xiàn)實(shí)的抽象本質(zhì)。1993年,Gruber對此進(jìn)行了新的定義,認(rèn)為“本體是概念模型的明確的規(guī)范說明”。后來,Borst在此基礎(chǔ)上對本體理論進(jìn)行了完善,認(rèn)為它是指共享概念模型的形式化規(guī)范說明。Studer對此進(jìn)行研究與總結(jié)后提出“本體是共享概念模型明確的形式化規(guī)范說明”?!案拍钅P?、明確、形式化、共享”是這一概念中的4大特征,它們是在計(jì)算機(jī)人工智能方面有知識表達(dá)的意思。我們將本體理論運(yùn)用到數(shù)字檔案管理信息系統(tǒng)建設(shè)中,對檔案資源進(jìn)行描述,并統(tǒng)一數(shù)據(jù)采集模式,從而實(shí)現(xiàn)信息資源的共享與提取。數(shù)字檔案館管理系統(tǒng)的主要功能包括借閱管理、檔案錄入、檔案檢索、檔案備份與恢復(fù)等。
二、數(shù)字檔案系統(tǒng)利用本體建模流程
檔案管理系統(tǒng)中的本體是檔案范疇內(nèi)的專有概念,用于表示某個(gè)專門領(lǐng)域范圍內(nèi)的全部知識。領(lǐng)域本體是專業(yè)性范疇,可詳細(xì)描述出某個(gè)學(xué)科內(nèi)的關(guān)鍵詞條與這些詞條間的關(guān)系。有時(shí)描述的內(nèi)容還涉及到該學(xué)科內(nèi)頗有影響力的理論成果。具體來說,檔案領(lǐng)域本體就是針對查詢功能的檔案領(lǐng)域建模的結(jié)果。通過充分挖掘?qū)⑴c檔案有關(guān)的所有查詢操作均抽象為同一組概念。檔案本體對現(xiàn)實(shí)活動中檔案的解釋,是基于概念結(jié)構(gòu)與抽象空間兩個(gè)方面的,屬于一種系統(tǒng)化過程。創(chuàng)建本體的方法不是唯一的,但能保證本體構(gòu)建的正確性與完整性。本體構(gòu)建流程包括四步:確定需求分析、創(chuàng)建共享詞庫、表示本體、客觀評價(jià)本體。
本體中最基本的概念就是類,定義本體中的類實(shí)際上就是明確類之間的層次關(guān)系,并明確類的屬性以及類之間的約束關(guān)系。對于概念層次的分析主要有3種方式:分別是自頂向下法、自底向上法、綜合法。自頂向下法是指在某一領(lǐng)域中從最大的概念開始,逐步添加子類,從而將概念細(xì)化。自底向上法則相反,是從最小的類定義開始,逐步向上將這些相似的類組織在一起形成更大的概念。綜合法是將上述兩種方法結(jié)合起來運(yùn)用的方法。不管采用何種方法,均是從定義類開始。比如,以檔案本體為例,采用自頂向下的方法,其中,最基本的類有檔案與檔案信息兩個(gè)。在檢索檔案信息時(shí),用戶可將題目、檔案號、分類號、責(zé)任者、關(guān)鍵詞等作為檢索條件。因此,頂層概念就是OWL Thmg,中間層概念包括檔案與檔案信息,底層概念中檔案對應(yīng)的是檔案類別,包括文學(xué)檔案、歷史檔案、科技檔案等;檔案信息對應(yīng)的是卷宗號、案卷編號、題名、文號、文種、密級、保管期限等信息。
三、利用Protege構(gòu)建檔案領(lǐng)域本體
根據(jù)目標(biāo)客戶的具體需求來建設(shè)檔案管理信息,以提高檔案管理的工作效率。Protege是基于面向?qū)ο蟮腏AVA的一種開發(fā)工具,支持類、元類及屬性的OKBC兼容。在利用該工具構(gòu)建本體時(shí)共有4個(gè)步驟,包括需求分析、確定類與所屬層次、明確屬性,添加實(shí)例。在設(shè)計(jì)檔案檢索領(lǐng)域中的本體時(shí),借助該工具生成OWL文件,達(dá)到檢索目的。
當(dāng)需要輸入實(shí)例時(shí),必須先確定類與屬性的結(jié)構(gòu)。比如,要將一個(gè)有序的子類插入到已排好序的父類中,可選用數(shù)據(jù)結(jié)構(gòu)算法描述其中的任何一種插入算法,包括直接插入、兩路順序插入、表插入等。若要添加實(shí)例,還需利用Individuals標(biāo)簽內(nèi)的5個(gè)面板,涉及到的屬性內(nèi)容主要有類的思想、實(shí)例名稱、性能復(fù)雜性等。下面,我們以直接插入為例進(jìn)行闡述:Individual:直接插入排序算法。轉(zhuǎn)化為具體文字描述:某個(gè)有序序列[1...,i-1],共有i-1個(gè)元素,若要插入r[i],那么,序列的元素個(gè)數(shù)就變?yōu)閕個(gè),新序列為r[...i]。在插入時(shí)必須注意存放序列的數(shù)組不準(zhǔn)越界,可采用順序查找算法,在r[0]的地方設(shè)立一個(gè)“監(jiān)視哨”,任何插入操作均是從“i-1”向前挨個(gè)搜索,記錄能在查找過程中順序往后移動一個(gè)位置。簡而言之,排序的過程需完成的插入操作有(n-1)次。將序列中的首個(gè)元素作為最簡單的有序序列,并從第二個(gè)記錄開始依次添加到該序列中,直到全部記錄均被插入到序列當(dāng)中。這里的序列是采用關(guān)鍵字進(jìn)行排序的。
四、結(jié)語
隨著社會的發(fā)展,檔案數(shù)字化的進(jìn)程進(jìn)一步加快,數(shù)字化檔案建設(shè)取得了一定的成效,但仍存在不少問題。因此,本文以本體構(gòu)建論為基礎(chǔ),利用本體的思想與方法,對檔案領(lǐng)域的知識進(jìn)行組合與整合,并通過規(guī)范的形式化語言進(jìn)行描述,以進(jìn)一步提高數(shù)字檔案管理效率。
【參考文獻(xiàn)】
[1]賈艷平,吳永明.基于本體論的數(shù)字檔案館知識檢索模型的研究[J].大眾科技,2012,14(5):222-223.
[2]周佳明.基于本體特征的檔案系統(tǒng)模型構(gòu)建[J].揚(yáng)州教育學(xué)院學(xué)報(bào),2015,33(2):51-54.
[3]李海軍.檔案管理信息化之本體方法討論[J].山西檔案,2007,35(6):16-17.