亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于本體特征的檔案系統(tǒng)模型構(gòu)建

2015-11-14 02:15:38周佳明

揚(yáng)州教育學(xué)院學(xué)報(bào) 2015年2期

周佳明

(揚(yáng)州職業(yè)大學(xué)，江蘇揚(yáng)州 225009)

本體一詞最早出現(xiàn)在古希臘，表示對(duì)客觀存在的事物的說明或解釋。上世紀(jì)七十年代被用于人工智能，將其含義引申為構(gòu)成相關(guān)領(lǐng)域的基本屬性和關(guān)系。上世紀(jì)九十年代，它的概念又被進(jìn)一步地規(guī)范化。本體是概念模型的形式化說明，且這些模型都是共享的。它具有以下幾個(gè)內(nèi)涵:概念模型、形式化的、共享的、明確表達(dá)的，這四個(gè)內(nèi)涵在計(jì)算機(jī)人工智能方面具有知識(shí)表達(dá)的意思。上述定義把本體的概念推向了一個(gè)新的階段。

一、檔案管理系統(tǒng)中本體概念的引入

將本體論研究方法和技術(shù)運(yùn)用到檔案管理信息系統(tǒng)的建設(shè)中，對(duì)其進(jìn)行建模和分析，將檔案管理中的一部分轉(zhuǎn)化為抽象概念，可以實(shí)現(xiàn)概念同概念間的關(guān)系構(gòu)建。檔案管理當(dāng)中，本體論可以實(shí)現(xiàn)對(duì)檔案數(shù)據(jù)和資源的描述，將數(shù)據(jù)的采集模式進(jìn)行統(tǒng)一，從而統(tǒng)一實(shí)現(xiàn)信息共享與數(shù)據(jù)提取。

一般來講，檔案內(nèi)容的揭示形式包括關(guān)鍵詞和主題詞等，這樣的標(biāo)引方案往往是模糊的、浮于表面的，計(jì)算機(jī)對(duì)檔案內(nèi)容的理解程度也是有限的。因此，通過計(jì)算機(jī)檢索的方式查找所需要的檔案內(nèi)容較難。通過處理元數(shù)據(jù)，并基于元數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)，可以實(shí)現(xiàn)元數(shù)據(jù)的組織和共享。這種方法有利于檔案的規(guī)范和共享，但是無法有效提示檔案中的具體內(nèi)容以及各檔案間的相互關(guān)系，尤其是由于元數(shù)據(jù)體系概念推理能力上的局限性，無法對(duì)檔案檢索和共享提供知識(shí)支持。而這種缺陷可以通過檔案信息本體進(jìn)行完善。檔案信息本體與其他方法相比，長(zhǎng)處在于可以實(shí)現(xiàn)信息的共享，從而建立相關(guān)的模型研究;另一方面還可以借助本體的研究防止概念產(chǎn)生;本體信息研究還可以通過建立知識(shí)庫實(shí)現(xiàn)對(duì)檔案管理系統(tǒng)的完善，從而為智能檔案管理提供有效的支持。

檔案信息的檢索應(yīng)用可以很好地說明檔案信息本體的這些優(yōu)勢(shì)及其在檔案信息管理中的作用。

二、檔案管理系統(tǒng)中的建模工具

Protégé作為一種先進(jìn)的開發(fā)工具，并不是獨(dú)立發(fā)展起來的，而是基于面向?qū)ο蟮腏AVA部分內(nèi)容，它支持類、元類以及屬性的OKBC兼容，在公理格式方面，符合PAL和KIF語言的相關(guān)標(biāo)準(zhǔn);在知識(shí)獲取方面，支持實(shí)例的自動(dòng)生成和抓取。ProtégéPrompt插件是本地進(jìn)行合并的重要手段，支持多種輸入、輸出格式，包括 OIL、RDF、XML 和 OWL 等［1］。

Protégé不是一個(gè)全新的工具，而是基于Java語言環(huán)境逐步發(fā)展和完善的，它具備以下的優(yōu)點(diǎn):操作方式更加友好，是利于操作的圖形界面;對(duì)字符格式支持較好，尤其是對(duì)Unicode的支持，大大擴(kuò)展了應(yīng)用領(lǐng)域;系統(tǒng)在實(shí)際工作中需要其他軟件和插件，在Protégé是免費(fèi)被支持的;允許 DAML+OIL的相關(guān)技術(shù)標(biāo)準(zhǔn)，甚至最新的技術(shù)成果OWL在Protégé也是被支持的。另外，Protege還能夠在系統(tǒng)外通過其他編輯工具進(jìn)行修改操作。

三、檔案系統(tǒng)應(yīng)用本體建模流程分析

檔案管理系統(tǒng)里所描述的本體是檔案領(lǐng)域里的專有概念，用來表示專門的某個(gè)領(lǐng)域范圍內(nèi)的所有知識(shí)。領(lǐng)域本體屬于專業(yè)性范疇，它把這個(gè)學(xué)科中的重要詞條以及這些詞條之間的關(guān)系具體地描述出來，描述的內(nèi)容有時(shí)還包括學(xué)科內(nèi)有影響力的理論成果。

具體來講，檔案領(lǐng)域本體就是針對(duì)查詢功能的檔案領(lǐng)域建模的結(jié)果，簡(jiǎn)單來說，就是通過有效挖掘，實(shí)際活動(dòng)中凡是與檔案相關(guān)的查詢操作都抽象為一組概念(或者一組概念的相互關(guān)系)。檔案本體對(duì)實(shí)際活動(dòng)中檔案的解釋，是從概念結(jié)構(gòu)和抽象空間兩個(gè)層面上進(jìn)行的，是一種系統(tǒng)化的過程。盡管實(shí)際的描述過程中，創(chuàng)建本體的手段可能并不唯一，但可以確保本體的建立是正確的、完整的。經(jīng)過對(duì)檔案領(lǐng)域查詢功能的調(diào)查，結(jié)合已有的理論指導(dǎo)，具體的構(gòu)建流程有(見圖1):

圖1 檔案領(lǐng)域創(chuàng)建本體的過程

(1)確認(rèn)需求分析。該過程中，第一要?jiǎng)?wù)是把構(gòu)建本體的原因確定好，還要明確用戶群體和涉及的相關(guān)部門，具體到本系統(tǒng)，它的需求就是面向檔案領(lǐng)域。

(2)共享語詞庫創(chuàng)建。在這個(gè)步驟中，領(lǐng)域共享語詞庫的表示過程需要運(yùn)用描述邏輯的手段進(jìn)行。在本地的領(lǐng)域和范圍內(nèi)，本體建立者的第一要?jiǎng)?wù)是把共享語詞庫建立起來，然后把目前有用和將來可能有用的屬性、語義以及實(shí)例等進(jìn)行搜集整理。要想建立一個(gè)好的領(lǐng)域共享語詞庫，最重要的就是把領(lǐng)域內(nèi)信息收集齊、把領(lǐng)域內(nèi)知識(shí)掌握好，這些信息的來源沒有固定的渠道，可以是有經(jīng)驗(yàn)的專家、外部本體或者互聯(lián)網(wǎng)等等。

(3)表示本體。該過程中，本體的描述需要使用OWL這個(gè)工具，首先要做的是描述邏輯，然后對(duì)不同的概念進(jìn)行劃分，最后是把類的屬性進(jìn)行定義以及創(chuàng)建實(shí)例。

(4)客觀評(píng)價(jià)本體。在評(píng)估的過程中，需要對(duì)結(jié)果做一個(gè)判斷，以此來確定下一步是返回(2)中重新創(chuàng)建，還是就此就結(jié)束這個(gè)過程。

四、檔案領(lǐng)域本體的表達(dá)

對(duì)系統(tǒng)的需求進(jìn)行實(shí)地調(diào)研后，結(jié)合檔案信息的組織架構(gòu)，檔案領(lǐng)域概念的主要內(nèi)容為:案卷編號(hào)、全宗號(hào)、題目、保管期限、記錄好狀態(tài)、負(fù)責(zé)人、類別、頁碼。

(一)應(yīng)用在檔案管理的本體模型

檔案檢索的需求是十分明確的，就是把主要的概念以及它們的相互關(guān)系構(gòu)建在本體模型結(jié)構(gòu)圖中，局部如圖2所示。

圖2 檔案領(lǐng)域本體局部結(jié)構(gòu)圖

檔案領(lǐng)域內(nèi)概念的關(guān)系類型具體情況為:

(1)part－of:一個(gè)概念是另一個(gè)的一部分。

例如:檔案是本系統(tǒng)的整體概念，其包含的“內(nèi)容”是概念“檔案”的一部分。

(2)kind－of:表示某一概念是另一概念的下屬、繼承關(guān)系，在信息結(jié)構(gòu)中類似的概念如上下位關(guān)系、父類－子類關(guān)系。

例如:有兩個(gè)概念，分別記做概念 A、概念 B。另外有概念C、概念D，分別記做記C={X|X是A的實(shí)例}，D={X|X是B的實(shí)例};對(duì)于所有的的X，如果屬于D，那么一定屬于C，C就是D的父概念，D就是C的子概念。

(3)instance－of:一個(gè)概念是另一個(gè)的某個(gè)實(shí)例。這與類和類的對(duì)象非常接近。例如:案卷編碼的實(shí)例可以為QT－211－C/201308。

(4)attribute－of:一個(gè)概念是另一個(gè)的某個(gè)屬性表示。例如:在檔案的概念中，頁數(shù)就是它的一個(gè)屬性。

(二)基于案卷編號(hào)擴(kuò)展的本體模型

查閱檔案時(shí)，一般按照檔案的類別、責(zé)任人、立卷日期等進(jìn)行查詢，但由于以上屬性可能不是唯一的，所以準(zhǔn)確性相對(duì)于按照案卷編號(hào)查詢較低。一個(gè)檔案必須有自己唯一的標(biāo)識(shí)，即唯一的案卷編號(hào)，案卷編號(hào)是確定檔案唯一性的重要屬性。為了提高檢索過程中的準(zhǔn)確性和效率，本體擴(kuò)展檢索的基本思想是在檔案的案卷編號(hào)基礎(chǔ)上進(jìn)行的，設(shè)計(jì)的具體示例如圖3所示。

圖3 基于案卷編號(hào)的本體表示結(jié)構(gòu)圖

由上圖可以看到，結(jié)構(gòu)圖共分了五個(gè)層次:最上面是根節(jié)點(diǎn)，代表的內(nèi)容是案卷編號(hào);第二層是案卷類目，如前文的論述，按照需求分了6個(gè)部分;接下來的層是案卷編號(hào);再接下來代表工程號(hào);最后一層是標(biāo)識(shí)案卷的時(shí)間序列。

在檢索過程中，用戶輸入的案卷編號(hào)可能不完整，所以，就會(huì)查詢到不同的層次節(jié)點(diǎn)上，這可以很容易地找到那些用戶需要的節(jié)點(diǎn)信息，還能找到旁邊、附屬、下屬的節(jié)點(diǎn)，經(jīng)過這個(gè)過程，查詢范圍就變得更加寬泛了，這就實(shí)現(xiàn)了檢索的擴(kuò)展。

(三)Protégé中構(gòu)建檔案領(lǐng)域本體

系統(tǒng)建設(shè)要充分考慮目標(biāo)客戶的實(shí)際需求，具體來講，建設(shè)檔案系統(tǒng)的目的就是為了強(qiáng)化管理、提高工作效率。與企業(yè)級(jí)的信息系統(tǒng)應(yīng)用相比，檔案系統(tǒng)規(guī)模算是很小的，因此建模可以采取簡(jiǎn)單易操作的手動(dòng)方式。

在Protégé構(gòu)建本體的過程中，一般有四個(gè)過程，即需求分析、確定類和所屬層次、確定屬性(及具體值的范圍)、實(shí)際添加實(shí)例。在檔案檢索領(lǐng)域的本體設(shè)計(jì)過程中，運(yùn)用Protégé工具，利用其生成OWL文件進(jìn)行實(shí)現(xiàn)［2］。圖4是檔案領(lǐng)域本體關(guān)系圖，由Protégé工具自動(dòng)生成導(dǎo)出。

需要輸入實(shí)例的時(shí)候，首先要明確類和屬性的結(jié)構(gòu)是怎么樣的。例如在已經(jīng)排好序的父類中，把一個(gè)有序的子類插入進(jìn)去，具體的插入算法可以選用數(shù)據(jù)結(jié)構(gòu)算法描述的任何一種，包括折半、直接插入、兩路排序插入、直接插入、希爾插入和表插入等等。

圖4 檔案領(lǐng)域本體關(guān)系圖

運(yùn)用Protégé的過程中，為了添加實(shí)例，需要使用Individuals標(biāo)簽的5個(gè)面板，涉及的屬性內(nèi)容包括類的思想、實(shí)例具體名稱以及性能的復(fù)雜度等，接下來，在描述插入的詳細(xì)過程中，運(yùn)用直接插入的方法，具體內(nèi)容如下:

基本思想:不做任何附加的工作，就可以把各個(gè)記錄分別插入到一個(gè)有序的序列中去;

Individual:直接插入排序算法;

文字描述:某個(gè)有序的序列［1…，i－1］，其共有i－1個(gè)元素的記錄，需要插入r［i］，這時(shí)序列中所包含的元素?cái)?shù)就變?yōu)榱薸個(gè)，新的序列是r［…i］;在插入的過程中必須要考慮的一點(diǎn)是存放序列的數(shù)組不能越界，因此仿照順序查找的算法，在r［0］處設(shè)置一個(gè)“監(jiān)視哨”，所有的插入都是自“i－1”往前挨個(gè)搜索，記錄能夠在查找過程中順序后移一個(gè)位置，那么，排序的過程就需要n－1次的插入操作。簡(jiǎn)單說來，把序列的第一個(gè)元素作為最簡(jiǎn)單的有序序列，從第二個(gè)記錄開始逐個(gè)添加到有序序列當(dāng)中，直至所有的記錄都被插入到序列當(dāng)中，這時(shí)的序列按照關(guān)鍵字排序。

檔案的本體庫的建立過程，需要大量的實(shí)例被賦予相應(yīng)的屬性及屬性值。

(四)性能分析與比較

查準(zhǔn)率和查全率是信息檢索評(píng)價(jià)的主要標(biāo)準(zhǔn)。把需要查詢的一組文檔標(biāo)為{Relevant}，相應(yīng)的系統(tǒng)會(huì)檢測(cè)出標(biāo)為{Retrieved}的另一組文檔，還有可能檢索出另一組標(biāo)為{Relevant}∩{Relevant}的文檔。我們對(duì)查全率和查準(zhǔn)率做出如下定義［3］:查全率是實(shí)際檢索到的與信息有關(guān)聯(lián)的文檔總數(shù)與信息庫中總相關(guān)文檔數(shù)的比值。計(jì)算公式為:recall={Relevant}∩{Relevant}/{Relevant}。

查準(zhǔn)率是全部檢索結(jié)果中相關(guān)文檔數(shù)與總數(shù)的比值。計(jì)算公式為:Precision={Retrieved}∩{Relevant}/{Retrieved}。

為了檢測(cè)模型的效果，筆者在本體模型的基礎(chǔ)上構(gòu)建了一個(gè)簡(jiǎn)單的檔案檢索系統(tǒng)，以檢索內(nèi)容DQ、DQ－123、DQ －123－A、DQ －123－B為例，進(jìn)行了簡(jiǎn)單實(shí)驗(yàn)。表1是基于系統(tǒng)檔案查詢模塊的運(yùn)行結(jié)果。

表1 用戶輸入邏輯表達(dá)檢索、案卷編號(hào)本體擴(kuò)展檢索效果對(duì)比表

五、結(jié)語

本文介紹了檔案領(lǐng)域本體的重要概念，運(yùn)用Protégé工具，對(duì)檔案領(lǐng)域本體進(jìn)行了設(shè)計(jì)并完成構(gòu)建，列出了構(gòu)建的整個(gè)過程。檔案信息需要完善存放且穩(wěn)定性較好，因此，案卷編號(hào)本體化的方法，其結(jié)構(gòu)是一個(gè)倒立的樹型，它有自己的兄弟關(guān)系，還有父子關(guān)系，這為檔案信息檢索語義的擴(kuò)展提供了重要的支撐。通過建立及應(yīng)用本體，提高了檔案信息檢索的查全率和查準(zhǔn)率，同時(shí)滿足了用戶個(gè)性化服務(wù)的需求。不過還需繼續(xù)探索研究并改善諸如:實(shí)際操作中的系統(tǒng)的全面性、完善性和可維護(hù)性等問題。

［1］張本英．戰(zhàn)后西歐國家對(duì)私人檔案的政策［J］．檔案與建設(shè)，2012(8):12－13．

［2］張大偉．貼近民眾講究實(shí)效——美國檔案館利用服務(wù)情況紀(jì)實(shí)．［EB/OL］(2008－03－21)［2013－08－ 02］．http://www．a(chǎn)rch/ves．sh．cn/gilw/201203/t20120312－4542．html．

［3］李景．主要本體構(gòu)建工具比較研究［J］．情報(bào)理論與實(shí)踐，2012(29):109－111．

［4］鄧志鴻，唐世謂，張銘，等．Ontology研究綜述［J］．北京大學(xué)學(xué)報(bào):自然科學(xué)版，2002(5):730－738．