毛莉菊,李恒貝,彭其軍
(南京農(nóng)業(yè)大學 圖書與信息中心信息應用部,江蘇 南京 210095)
基于本體的高校基礎數(shù)據(jù)組織研究
毛莉菊,李恒貝,彭其軍
(南京農(nóng)業(yè)大學 圖書與信息中心信息應用部,江蘇 南京 210095)
本文引入本體論,圍繞人在學校中的活動進行本體構建,旨在探索一種系統(tǒng)的的挖掘、組織高?;A數(shù)據(jù)的方法,并在本體構建的基礎上構建一個統(tǒng)一、規(guī)范的高?;A數(shù)據(jù)元數(shù)據(jù)集和信息標準,確定數(shù)據(jù)表結構,為共享數(shù)據(jù)平臺構建提供支持。同時還通過本體構建,確立高?;A數(shù)據(jù)的管理準則。
本體;基礎數(shù)據(jù);數(shù)據(jù)組織;本體構建
隨著各高校信息化建設的進一步深入,信息化建設正從應用集成向信息集成邁進,這種信息集成是架構在信息資源網(wǎng)的基礎上的。而信息資源網(wǎng)的基礎即數(shù)據(jù),可見如何有效地進行信息(數(shù)據(jù))的組織、規(guī)范和管理是整個信息化建設的最基礎工作。
1.信息量大,類型復雜多樣
高校類似于一個小型社會,其管理及相關的實踐活動非常復雜,產(chǎn)生的信息類別及信息量也就可想而知了。
2.不同職能部門間數(shù)據(jù)的依存關系復雜
3.各職能部門間的數(shù)據(jù)相互獨立
在部門內(nèi)部可能存在統(tǒng)一的數(shù)據(jù)管理基礎標準,但在部門間卻是不統(tǒng)一的。
4.基礎數(shù)據(jù)源不明確
即來自不同部門或不同系統(tǒng)的數(shù)據(jù)誰是權威數(shù)據(jù)不明確。
如何有效地對高校海量的不標準的數(shù)據(jù)進行系統(tǒng)地組織、規(guī)范,實現(xiàn)數(shù)據(jù)的共享與互操作是目前高校信息化建設面臨的難點之一。有些學校簡單地從某個職能部門或業(yè)務系統(tǒng)入手采集、組織相關信息,沒有從整個學校全局考慮,造成最后構建的數(shù)據(jù)基礎標準不統(tǒng)一,如元數(shù)據(jù)標準、信息標準不統(tǒng)一。清華大學從劃分職能域、建立業(yè)務模型入手,利用元數(shù)據(jù)方案進行數(shù)據(jù)標準制定其研究重點在于數(shù)據(jù)標準的制定。[1-3]本文嘗試引入本體理論,利用本體構建方法來挖掘、梳理和組織高?;A數(shù)據(jù),構建一個統(tǒng)一、規(guī)范的高?;A數(shù)據(jù)元數(shù)據(jù)集,制定統(tǒng)一信息標準,并為共享數(shù)據(jù)平臺構建提供支持。
1.本體的概念
本體的概念最早出現(xiàn)在哲學領域,從哲學的范疇來說,本體是客觀存在的一個系統(tǒng)的解釋或說明,關心的是客觀現(xiàn)實的抽象本質(zhì)[4],在計算機與信息科學領域,理論上,本體是指一種“形式化的,對于共享概念體系的明確而又詳細的說明”[5]?;蛘哒f本體是特定領域中那些存在著的對象類型或概念及其屬性和相互關系[5]。常見的本體構成要素包括:
實例(instances):代表元素,就是對象;
類(classes)或概念(concepts):對象的集合;
關系(relations):在領域中概念之間的交互作用,如子類關系;
函數(shù)(functions):特殊的關系,關系的前 n-1個元素可以唯一決定第n個元素。如Mother-of就是一個函數(shù),mother-of(x,y)表示y是x的母親;
公理(axioms):表示永真斷言,如概念乙屬于概念甲的范圍;
事件(action):屬性或關系的變化。
2.基于本體的信息組織方法
當前基于本體的信息組織主要有三種方式:單本體方法、多本體方法和混合本體方法。在單本體結構中,一個全局的本體為具體的語義說明提供了一個共享的詞匯表,所有的信息資源都聯(lián)系到這個全局本體上。而在多本體結構中,每個信息資源都有自己的本地本體,它們并不一定使用同樣的詞匯表,且每個本體都可獨立發(fā)展。混合本體則是建立一個共享詞匯表,而每個信息源則用本地本體描述,其優(yōu)點是新的信息源可很方便地加入到源本體。[5]
大學的根本是人,從大學的各項活動(主要是教學、科研和社會服務)來看,都是圍繞人(學生、教師)而進行的,清華大學蔣東興老師也提出新一代數(shù)字校園特征之一就是以用戶為核心組織信息與服務。[6]所以在數(shù)據(jù)的組織上,先根據(jù)人員屬性對人員進行分類,再對不同類型人員信息進行本體構建。由于高校數(shù)據(jù)源呈現(xiàn)多種多樣的環(huán)境,本文采用混合本體結構來探究和構建高?;A數(shù)據(jù)。本體構建流程如圖1所示。
1.領域本體構建
領域本體所建模的是某個特定領域,或者現(xiàn)實世界的一部分。它提供特定領域的概念定義、概念之間的關系、領域活動等。由于不同類型的人在同一活動中所扮演的角色是不同的,比如在教學活動中,教師與學生一個教一個學,兩者所關注的信息對象是不同的,所以可分別按不同類型人員在學校的生命周期線上的各種活動來構建領域本體。如圖2所示即是以教師為例所構建的領域本體。
2.原型本體構建
原型本體描述的是某一概念 (類)及其屬性以及關系、約束條件等。如圖3所示為科研項目原型本體。
3.本體整合與全校域本體綜合分析
依據(jù)圖1的本體構建流程,本體整合分原型本體與上層領域本體的整合及原型本體間的整合。通過本體對各項業(yè)務和全校域本體的綜合分析,梳理各原型本體間的相互關系,對原先構建的一些本體進行整合。如通過對教師類本體的整合,發(fā)現(xiàn):(1)職稱評聘這一本體域與教師的教學、科研域等密切相關,即對教學、科研域的數(shù)據(jù)有依存關系。(2)科研項目本體與科研成果本體有關聯(lián),科研成果數(shù)據(jù)依存于科研項目,所以在各科研成果原型本體構建中要增加與項目相關的屬性。如在論文原型本體構建中,增加“資助項目”這一屬性。同時,通過對學校各項業(yè)務和全校域本體的綜合分析,梳理各業(yè)務流間的關系,明確基礎數(shù)據(jù)的源頭,并制定基礎數(shù)據(jù)管理的準則,即“誰產(chǎn)生誰負責,誰需要誰提出”。比如教師的科研項目數(shù)據(jù),是由學校的科研管理部門對教師提供的數(shù)據(jù)進行審核后產(chǎn)生的,那么這一基礎數(shù)據(jù)的元數(shù)據(jù)和信息標準(數(shù)據(jù)字典)由科研部門負責制定,整個基礎數(shù)據(jù)的準確性也由科研部門負責。而人事部門在開展教師職稱評審業(yè)務時,需要科研信息中哪些基礎數(shù)據(jù)和這些基礎數(shù)據(jù)中的哪些元數(shù)據(jù),則應由人事部門具體負責提出。
構建本體的目的是通過本體構建挖掘、組織高校基礎數(shù)據(jù),構建系統(tǒng)規(guī)范的元數(shù)據(jù)集,制定統(tǒng)一信息標準,并最終通過關系數(shù)據(jù)庫的構建進行數(shù)據(jù)集成,消除數(shù)據(jù)的異構性,實現(xiàn)數(shù)據(jù)共享。通過各原型本體的構建,可以系統(tǒng)地對高?;A數(shù)據(jù)中的元數(shù)據(jù)進行規(guī)范編碼、明確各元數(shù)據(jù)的定義、約束條件、值范圍等,并制定信息標準。表1為以科研項目本體中的屬性為例構建的“項目類別”元數(shù)據(jù)。
表1 項目類別元數(shù)據(jù)
“項目類別代碼”即項目類別的標準。標準的制定要遵循國家、教育部已有的、高校較為通用的標準,對于個別元數(shù)據(jù)值空間不好規(guī)范的,制定出校級參考代碼,即校級標準。而原型本體與關系數(shù)據(jù)庫的轉(zhuǎn)換策略可以如下:
(1)原型本體里定義的一個類(概念)對應一個數(shù)據(jù)表。
(2)原型本體里定義的類的屬性即為數(shù)據(jù)表中的字段。類的屬性里,有objecttype類型,有datatype類型,對于objecttype類型的屬性,須規(guī)定其domain和range值來指定與其有關聯(lián)的表。
如以圖3的科研項目原型本體可構建四個數(shù)據(jù)表:科研項目、項目負責人、項目參加人、項目經(jīng)費。如表2和表3分別為科研項目和項目參加人數(shù)據(jù)表。
表2 科研項目數(shù)據(jù)表
表3 項目參加人員數(shù)據(jù)表
其中在表2中,objecttype類型屬性字段有:項目負責人和項目參加人,其對應domain是“人事基本信息”,其需要的range為:姓名、工號、所在單位、聯(lián)系電話、聯(lián)系郵箱。而datatype類型中的“項目大類”、“項目類別”、“項目來源”的值空間是需統(tǒng)一規(guī)范的,即制定信息標準。通過全校域綜合分析,可以對同類原型本體在構建數(shù)據(jù)表時進行歸類整合。如研究生也參加了導師項目研究工作,其科研項目原型本體與教師的科研項目原型本體是相類同的,可構建同一個科研項目數(shù)據(jù)表,然后在項目參加人員數(shù)據(jù)表中增加“人員類別”字段來區(qū)分項目參加人員的身份即可。
本文引入本體理論,運用本體構建方法對高?;A數(shù)據(jù)進行系統(tǒng)地梳理和組織,構建了一個統(tǒng)一的、規(guī)范高?;A數(shù)據(jù)的元數(shù)據(jù)集和信息標準,為共享數(shù)據(jù)平臺構建提供了支持。
[1]王映雪,蔣東興,羅念龍等.信息資源規(guī)劃的方法與實踐[A].奮斗的歷程,豐碩的成果(三).計算機與信息管理中心成立三十五周年論文集[C].北京:清華大學計算機與信息管理中心,2011:65-71.
[2]蔣東興,佟秋利,蔣磊宏等.高等學校管理信息標準體系研究[A].奮斗的歷程,豐碩的成果(三).計算機與信息管理中心成立三十五周年論文集[C].北京:清華大學計算機與信息管理中心,2011:82-88.
[3]高校信息標準呼之欲出-《Celts-33高等學校管理信息標準》全接觸[A].奮斗的歷程,豐碩的成果(三).計算機與信息管理中心成立三十五周年論文集[C].北京:清華大學計算機與信息管理中心,2011:76-81.
[4]王淼洋.東西方哲學比較研究[M].上海:上海教育出版社,1994:97-104.
[5]維基百科[EO/OL.[2011-7-20]http://zh.wikipedia.org/wiki/%E6%9C%AC%E4%BD%93_(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6).
[6]蔣東興,金勤獻,管志遠等.大學資源計劃管理思想探討[A].奮斗的歷程,豐碩的成果(三).計算機與信息管理中心成立三十五周年論文集[C].北京:清華大學計算機與信息管理中心,2011:21-28.
G203
A
1673-8454(2012)05-0015-03
(編輯:楊馥紅)