周佳明
(揚(yáng)州職業(yè)大學(xué),江蘇揚(yáng)州 225009)
本體一詞最早出現(xiàn)在古希臘,表示對(duì)客觀存在的事物的說明或解釋。上世紀(jì)七十年代被用于人工智能,將其含義引申為構(gòu)成相關(guān)領(lǐng)域的基本屬性和關(guān)系。上世紀(jì)九十年代,它的概念又被進(jìn)一步地規(guī)范化。本體是概念模型的形式化說明,且這些模型都是共享的。它具有以下幾個(gè)內(nèi)涵:概念模型、形式化的、共享的、明確表達(dá)的,這四個(gè)內(nèi)涵在計(jì)算機(jī)人工智能方面具有知識(shí)表達(dá)的意思。上述定義把本體的概念推向了一個(gè)新的階段。
將本體論研究方法和技術(shù)運(yùn)用到檔案管理信息系統(tǒng)的建設(shè)中,對(duì)其進(jìn)行建模和分析,將檔案管理中的一部分轉(zhuǎn)化為抽象概念,可以實(shí)現(xiàn)概念同概念間的關(guān)系構(gòu)建。檔案管理當(dāng)中,本體論可以實(shí)現(xiàn)對(duì)檔案數(shù)據(jù)和資源的描述,將數(shù)據(jù)的采集模式進(jìn)行統(tǒng)一,從而統(tǒng)一實(shí)現(xiàn)信息共享與數(shù)據(jù)提取。
一般來講,檔案內(nèi)容的揭示形式包括關(guān)鍵詞和主題詞等,這樣的標(biāo)引方案往往是模糊的、浮于表面的,計(jì)算機(jī)對(duì)檔案內(nèi)容的理解程度也是有限的。因此,通過計(jì)算機(jī)檢索的方式查找所需要的檔案內(nèi)容較難。通過處理元數(shù)據(jù),并基于元數(shù)據(jù)相關(guān)標(biāo)準(zhǔn),可以實(shí)現(xiàn)元數(shù)據(jù)的組織和共享。這種方法有利于檔案的規(guī)范和共享,但是無法有效提示檔案中的具體內(nèi)容以及各檔案間的相互關(guān)系,尤其是由于元數(shù)據(jù)體系概念推理能力上的局限性,無法對(duì)檔案檢索和共享提供知識(shí)支持。而這種缺陷可以通過檔案信息本體進(jìn)行完善。檔案信息本體與其他方法相比,長(zhǎng)處在于可以實(shí)現(xiàn)信息的共享,從而建立相關(guān)的模型研究;另一方面還可以借助本體的研究防止概念產(chǎn)生;本體信息研究還可以通過建立知識(shí)庫實(shí)現(xiàn)對(duì)檔案管理系統(tǒng)的完善,從而為智能檔案管理提供有效的支持。
檔案信息的檢索應(yīng)用可以很好地說明檔案信息本體的這些優(yōu)勢(shì)及其在檔案信息管理中的作用。
Protégé作為一種先進(jìn)的開發(fā)工具,并不是獨(dú)立發(fā)展起來的,而是基于面向?qū)ο蟮腏AVA部分內(nèi)容,它支持類、元類以及屬性的OKBC兼容,在公理格式方面,符合PAL和KIF語言的相關(guān)標(biāo)準(zhǔn);在知識(shí)獲取方面,支持實(shí)例的自動(dòng)生成和抓取。ProtégéPrompt插件是本地進(jìn)行合并的重要手段,支持多種輸入、輸出格式,包括 OIL、RDF、XML 和 OWL 等[1]。
Protégé不是一個(gè)全新的工具,而是基于Java語言環(huán)境逐步發(fā)展和完善的,它具備以下的優(yōu)點(diǎn):操作方式更加友好,是利于操作的圖形界面;對(duì)字符格式支持較好,尤其是對(duì)Unicode的支持,大大擴(kuò)展了應(yīng)用領(lǐng)域;系統(tǒng)在實(shí)際工作中需要其他軟件和插件,在Protégé是免費(fèi)被支持的;允許 DAML+OIL的相關(guān)技術(shù)標(biāo)準(zhǔn),甚至最新的技術(shù)成果OWL在Protégé也是被支持的。另外,Protege還能夠在系統(tǒng)外通過其他編輯工具進(jìn)行修改操作。
檔案管理系統(tǒng)里所描述的本體是檔案領(lǐng)域里的專有概念,用來表示專門的某個(gè)領(lǐng)域范圍內(nèi)的所有知識(shí)。領(lǐng)域本體屬于專業(yè)性范疇,它把這個(gè)學(xué)科中的重要詞條以及這些詞條之間的關(guān)系具體地描述出來,描述的內(nèi)容有時(shí)還包括學(xué)科內(nèi)有影響力的理論成果。
具體來講,檔案領(lǐng)域本體就是針對(duì)查詢功能的檔案領(lǐng)域建模的結(jié)果,簡(jiǎn)單來說,就是通過有效挖掘,實(shí)際活動(dòng)中凡是與檔案相關(guān)的查詢操作都抽象為一組概念(或者一組概念的相互關(guān)系)。檔案本體對(duì)實(shí)際活動(dòng)中檔案的解釋,是從概念結(jié)構(gòu)和抽象空間兩個(gè)層面上進(jìn)行的,是一種系統(tǒng)化的過程。盡管實(shí)際的描述過程中,創(chuàng)建本體的手段可能并不唯一,但可以確保本體的建立是正確的、完整的。經(jīng)過對(duì)檔案領(lǐng)域查詢功能的調(diào)查,結(jié)合已有的理論指導(dǎo),具體的構(gòu)建流程有(見圖1):
圖1 檔案領(lǐng)域創(chuàng)建本體的過程
(1)確認(rèn)需求分析。該過程中,第一要?jiǎng)?wù)是把構(gòu)建本體的原因確定好,還要明確用戶群體和涉及的相關(guān)部門,具體到本系統(tǒng),它的需求就是面向檔案領(lǐng)域。
(2)共享語詞庫創(chuàng)建。在這個(gè)步驟中,領(lǐng)域共享語詞庫的表示過程需要運(yùn)用描述邏輯的手段進(jìn)行。在本地的領(lǐng)域和范圍內(nèi),本體建立者的第一要?jiǎng)?wù)是把共享語詞庫建立起來,然后把目前有用和將來可能有用的屬性、語義以及實(shí)例等進(jìn)行搜集整理。要想建立一個(gè)好的領(lǐng)域共享語詞庫,最重要的就是把領(lǐng)域內(nèi)信息收集齊、把領(lǐng)域內(nèi)知識(shí)掌握好,這些信息的來源沒有固定的渠道,可以是有經(jīng)驗(yàn)的專家、外部本體或者互聯(lián)網(wǎng)等等。
(3)表示本體。該過程中,本體的描述需要使用OWL這個(gè)工具,首先要做的是描述邏輯,然后對(duì)不同的概念進(jìn)行劃分,最后是把類的屬性進(jìn)行定義以及創(chuàng)建實(shí)例。
(4)客觀評(píng)價(jià)本體。在評(píng)估的過程中,需要對(duì)結(jié)果做一個(gè)判斷,以此來確定下一步是返回(2)中重新創(chuàng)建,還是就此就結(jié)束這個(gè)過程。
對(duì)系統(tǒng)的需求進(jìn)行實(shí)地調(diào)研后,結(jié)合檔案信息的組織架構(gòu),檔案領(lǐng)域概念的主要內(nèi)容為:案卷編號(hào)、全宗號(hào)、題目、保管期限、記錄好狀態(tài)、負(fù)責(zé)人、類別、頁碼。
檔案檢索的需求是十分明確的,就是把主要的概念以及它們的相互關(guān)系構(gòu)建在本體模型結(jié)構(gòu)圖中,局部如圖2所示。
圖2 檔案領(lǐng)域本體局部結(jié)構(gòu)圖
檔案領(lǐng)域內(nèi)概念的關(guān)系類型具體情況為:
(1)part-of:一個(gè)概念是另一個(gè)的一部分。
例如:檔案是本系統(tǒng)的整體概念,其包含的“內(nèi)容”是概念“檔案”的一部分。
(2)kind-of:表示某一概念是另一概念的下屬、繼承關(guān)系,在信息結(jié)構(gòu)中類似的概念如上下位關(guān)系、父類-子類關(guān)系。
例如:有兩個(gè)概念,分別記做概念 A、概念 B。另外有概念C、概念D,分別記做記C={X|X是A的實(shí)例},D={X|X是B的實(shí)例};對(duì)于所有的的X,如果屬于D,那么一定屬于C,C就是D的父概念,D就是C的子概念。
(3)instance-of:一個(gè)概念是另一個(gè)的某個(gè)實(shí)例。這與類和類的對(duì)象非常接近。例如:案卷編碼的實(shí)例可以為QT-211-C/201308。
(4)attribute-of:一個(gè)概念是另一個(gè)的某個(gè)屬性表示。例如:在檔案的概念中,頁數(shù)就是它的一個(gè)屬性。
查閱檔案時(shí),一般按照檔案的類別、責(zé)任人、立卷日期等進(jìn)行查詢,但由于以上屬性可能不是唯一的,所以準(zhǔn)確性相對(duì)于按照案卷編號(hào)查詢較低。一個(gè)檔案必須有自己唯一的標(biāo)識(shí),即唯一的案卷編號(hào),案卷編號(hào)是確定檔案唯一性的重要屬性。為了提高檢索過程中的準(zhǔn)確性和效率,本體擴(kuò)展檢索的基本思想是在檔案的案卷編號(hào)基礎(chǔ)上進(jìn)行的,設(shè)計(jì)的具體示例如圖3所示。
圖3 基于案卷編號(hào)的本體表示結(jié)構(gòu)圖
由上圖可以看到,結(jié)構(gòu)圖共分了五個(gè)層次:最上面是根節(jié)點(diǎn),代表的內(nèi)容是案卷編號(hào);第二層是案卷類目,如前文的論述,按照需求分了6個(gè)部分;接下來的層是案卷編號(hào);再接下來代表工程號(hào);最后一層是標(biāo)識(shí)案卷的時(shí)間序列。
在檢索過程中,用戶輸入的案卷編號(hào)可能不完整,所以,就會(huì)查詢到不同的層次節(jié)點(diǎn)上,這可以很容易地找到那些用戶需要的節(jié)點(diǎn)信息,還能找到旁邊、附屬、下屬的節(jié)點(diǎn),經(jīng)過這個(gè)過程,查詢范圍就變得更加寬泛了,這就實(shí)現(xiàn)了檢索的擴(kuò)展。
系統(tǒng)建設(shè)要充分考慮目標(biāo)客戶的實(shí)際需求,具體來講,建設(shè)檔案系統(tǒng)的目的就是為了強(qiáng)化管理、提高工作效率。與企業(yè)級(jí)的信息系統(tǒng)應(yīng)用相比,檔案系統(tǒng)規(guī)模算是很小的,因此建模可以采取簡(jiǎn)單易操作的手動(dòng)方式。
在Protégé構(gòu)建本體的過程中,一般有四個(gè)過程,即需求分析、確定類和所屬層次、確定屬性(及具體值的范圍)、實(shí)際添加實(shí)例。在檔案檢索領(lǐng)域的本體設(shè)計(jì)過程中,運(yùn)用Protégé工具,利用其生成OWL文件進(jìn)行實(shí)現(xiàn)[2]。圖4是檔案領(lǐng)域本體關(guān)系圖,由Protégé工具自動(dòng)生成導(dǎo)出。
需要輸入實(shí)例的時(shí)候,首先要明確類和屬性的結(jié)構(gòu)是怎么樣的。例如在已經(jīng)排好序的父類中,把一個(gè)有序的子類插入進(jìn)去,具體的插入算法可以選用數(shù)據(jù)結(jié)構(gòu)算法描述的任何一種,包括折半、直接插入、兩路排序插入、直接插入、希爾插入和表插入等等。
圖4 檔案領(lǐng)域本體關(guān)系圖
運(yùn)用Protégé的過程中,為了添加實(shí)例,需要使用Individuals標(biāo)簽的5個(gè)面板,涉及的屬性內(nèi)容包括類的思想、實(shí)例具體名稱以及性能的復(fù)雜度等,接下來,在描述插入的詳細(xì)過程中,運(yùn)用直接插入的方法,具體內(nèi)容如下:
基本思想:不做任何附加的工作,就可以把各個(gè)記錄分別插入到一個(gè)有序的序列中去;
Individual:直接插入排序算法;
文字描述:某個(gè)有序的序列[1…,i-1],其共有i-1個(gè)元素的記錄,需要插入r[i],這時(shí)序列中所包含的元素?cái)?shù)就變?yōu)榱薸個(gè),新的序列是r[…i];在插入的過程中必須要考慮的一點(diǎn)是存放序列的數(shù)組不能越界,因此仿照順序查找的算法,在r[0]處設(shè)置一個(gè)“監(jiān)視哨”,所有的插入都是自“i-1”往前挨個(gè)搜索,記錄能夠在查找過程中順序后移一個(gè)位置,那么,排序的過程就需要n-1次的插入操作。簡(jiǎn)單說來,把序列的第一個(gè)元素作為最簡(jiǎn)單的有序序列,從第二個(gè)記錄開始逐個(gè)添加到有序序列當(dāng)中,直至所有的記錄都被插入到序列當(dāng)中,這時(shí)的序列按照關(guān)鍵字排序。
檔案的本體庫的建立過程,需要大量的實(shí)例被賦予相應(yīng)的屬性及屬性值。
查準(zhǔn)率和查全率是信息檢索評(píng)價(jià)的主要標(biāo)準(zhǔn)。把需要查詢的一組文檔標(biāo)為{Relevant},相應(yīng)的系統(tǒng)會(huì)檢測(cè)出標(biāo)為{Retrieved}的另一組文檔,還有可能檢索出另一組標(biāo)為{Relevant}∩{Relevant}的文檔。我們對(duì)查全率和查準(zhǔn)率做出如下定義[3]:查全率是實(shí)際檢索到的與信息有關(guān)聯(lián)的文檔總數(shù)與信息庫中總相關(guān)文檔數(shù)的比值。計(jì)算公式為:recall={Relevant}∩{Relevant}/{Relevant}。
查準(zhǔn)率是全部檢索結(jié)果中相關(guān)文檔數(shù)與總數(shù)的比值。計(jì)算公式為:Precision={Retrieved}∩{Relevant}/{Retrieved}。
為了檢測(cè)模型的效果,筆者在本體模型的基礎(chǔ)上構(gòu)建了一個(gè)簡(jiǎn)單的檔案檢索系統(tǒng),以檢索內(nèi)容DQ、DQ-123、DQ -123-A、DQ -123-B為例,進(jìn)行了簡(jiǎn)單實(shí)驗(yàn)。表1是基于系統(tǒng)檔案查詢模塊的運(yùn)行結(jié)果。
表1 用戶輸入邏輯表達(dá)檢索、案卷編號(hào)本體擴(kuò)展檢索效果對(duì)比表
本文介紹了檔案領(lǐng)域本體的重要概念,運(yùn)用Protégé工具,對(duì)檔案領(lǐng)域本體進(jìn)行了設(shè)計(jì)并完成構(gòu)建,列出了構(gòu)建的整個(gè)過程。檔案信息需要完善存放且穩(wěn)定性較好,因此,案卷編號(hào)本體化的方法,其結(jié)構(gòu)是一個(gè)倒立的樹型,它有自己的兄弟關(guān)系,還有父子關(guān)系,這為檔案信息檢索語義的擴(kuò)展提供了重要的支撐。通過建立及應(yīng)用本體,提高了檔案信息檢索的查全率和查準(zhǔn)率,同時(shí)滿足了用戶個(gè)性化服務(wù)的需求。不過還需繼續(xù)探索研究并改善諸如:實(shí)際操作中的系統(tǒng)的全面性、完善性和可維護(hù)性等問題。
[1]張本英.戰(zhàn)后西歐國家對(duì)私人檔案的政策[J].檔案與建設(shè),2012(8):12-13.
[2]張大偉.貼近民眾講究實(shí)效——美國檔案館利用服務(wù)情況紀(jì)實(shí).[EB/OL](2008-03-21)[2013-08- 02].http://www.a(chǎn)rch/ves.sh.cn/gilw/201203/t20120312-4542.html.
[3]李景.主要本體構(gòu)建工具比較研究[J].情報(bào)理論與實(shí)踐,2012(29):109-111.
[4]鄧志鴻,唐世謂,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2002(5):730-738.