李昕騫,饒若楠
1998年,萬維網之父Tim Berners-Lee開始勾勒語義Web,2000年12月18日在XML2000 的會議上正式提出了語義Web,其目標是使Web 上的信息具有計算機可以理解的語義。在Web 標準化組織W3C 以及學術界和工業(yè)界的共同努力下,語義Web 逐步完善,已經形成了由資源描述框架RDF(Resource Description Framework)為核心的多層體系結構,該體系中從底層到高層分別為:UNICODE 和URI、XML 、RDF、RDF模式,Web本體語言,SPARQL查詢語言和規(guī)則交換格式、統一邏輯層 、證明層、信任層,以及加密,用戶接口和應用。其中,本體是指在一定范圍內共享的概念模型明確的形式化規(guī)范說明,通過對概念的嚴格定義和概念與概念之間的關系來確定概念精確含義,表示共同認可的、可共享的知識。在語義Web 中,本體具有非常重要的地位,是解決語義層次上的Web 信息共享和重用的基礎。
為了共享和重用異構數據,傳統的信息集成系統通常在數據層次上采用全局的數據庫模式(比如數據倉庫),在應用層次上采用服務總線中間件(比如Oracle企業(yè)服務總線服務器),為應用提供可單點訪問的共享數據服務。這些方法對數據的準確性和一致性是強制要求的,當動態(tài)集成來自外部數據源的數據時,有嚴重的局限性,關系型模型和UML類模型只能表達模式級別上的數據語義,像表、類、屬性。為了鏈接異構數據并展現更豐富的數據語義,必須解決各種異構沖突,包括語法層次的,結構層次的和語義層次的。
研究者針對這類異構數據的互操作性問題,提出了在數據集成中使用本體,作為信息語義的直接描述,并開發(fā)了很多基于本體的數據集成方法[1] [2] [3]。本文擴展了混合本體集成方法[1],提出了一個基于本體的數據服務平臺,遵照面向服務架構原則,為異構數據提供者和消費者提供全局的RDF數據視圖。該平臺采用了面向服務架構,使全生命周期的數據管理統一化,包括數據注冊、集成、演化、發(fā)布和訪問,改進了現有系統對這些方面的支持不足,簡化了跨應用、企業(yè)和團體的數據共享與重用。
平臺架構如圖1所示。通過封裝器/協調器(Wrapper/Mediator)框架,將分布式的異構數據(如關系數據庫,LDAP,半結構化Web數據及遺留數據應用)注冊并自動創(chuàng)建本地的本體,并利用擴展的SPARQL協調器映射到全局本體,對外提供聯合SPARQL查詢服務。
該平臺采用面向服務架構,引入了3種角色:數據提供者、本體管理員、客戶端用戶和應用。數據提供者能夠使用數據源注冊與監(jiān)控服務注冊各種數據源,數據源注冊與監(jiān)控服務,將調用相應的封裝器同步數據源,并自動產生相應的本地本體數據,然后數據提供者可以通過擴展SPARQL協調器,設置本地本體數據到全局本體的映射關系。平臺為協調器設計了一種擴展SPARQL機制,即混合SPARQL CONSTRUCT, RDF數據和規(guī)則的本體映射關系表達機制,易于應對實際項目應用中的各種復雜的本體映射和數據融合。同時,數據源注冊與監(jiān)控服務能夠直接或者通過數據源Agent對數據源數據變化和有效性進行監(jiān)控。
圖1 基于本體的數據服務平臺架構
客戶端應用和用戶能夠查詢相關領域的全局本體詞匯,并進一步查詢聯合SPARQL服務,同時可以向應用SPARQL注冊與監(jiān)控服務注冊所調用的SPARQL語句,以便平臺協調本體和應用的演化。在本體數據發(fā)生改變時,應用SPARQL注冊與監(jiān)控服務將檢查是否對注冊應用所使用SPARQL的本體數據,而本體與應用之間的協同演化,使用RDF具名圖[4]記錄對應的本體與應用的更新版本。
本體管理者負責審批數據提供者所注冊的數據源映射,使用RDF具名圖,為本體數據發(fā)布審核和配置信息源、隱私保護、訪問控制和語義信任。在共享本體數據概念和映射演化時,應用規(guī)則推理機獲知語義沖突,引入信念修正概念[5],為相關信念斷言指定認知牢固度次序,然后根據產生規(guī)則得到修正后的信念集合,使本體數據能夠自動演化。下面通過鳥和企鵝的例子來說明如何使用信念修正方法進行本體數據演化:
① 初始信念集合:BIRD?FEATHERS (所有的鳥有羽毛),BIRD?FLY (所有的鳥會飛)
② 增加信念集合:PENGUIN?BIRD (所有的企鵝是鳥),PENGUIN??FLY (所有的企鵝不會飛)
③ 信念沖突:PENGUIN?BIRD (所有的企鵝是鳥),PENGUIN??FLY (所有的企鵝不會飛),BIRD?FLY (所有的鳥會飛)
④ 認知牢固度排序:EE(PENGUIN?BIRD (所有的企鵝是鳥))=EE(PENGUIN??FLY (所有的企鵝不會飛)) >EE(BIRD?FLY (所有的鳥會飛))
⑤ 修正后的信念集合:PENGUIN?BIRD (所有的企鵝是鳥),PENGUIN??FLY (所有的企鵝不會飛),BIRD?FLY∪ ?FLY (有的鳥會飛,有的鳥不會飛)
以該數據服務平臺為核心,我們?yōu)榭蛻糸_發(fā)了一個位置相關的移動應用項目。這是一個上下文敏感的旅游信息服務系統,集成了地圖服務、Facebook社區(qū)、維基百科和第三方合作伙伴所提供的服務,如圖2所示?;诋斍癎PS位置,移動設備顯示用戶周邊地理信息,由此,移動用戶可以在地圖上探索和導航各種生活信息,并能夠根據用戶的興趣和偏好,在地圖周邊為用戶搜索和推薦其最可能需要的生活娛樂信息。
本文描述了一個基于本體的數據服務平臺,給出了該方法的系統架構和面向服務的本體數據集成、演化和發(fā)布過程,并基于惠普實驗室的Jena開發(fā)包實現了此原型系統,及一個上下文敏感的旅游信息項目。通過該平臺,允許數據提供者注冊各種異構數據并自動轉化為RDF數據,然后本體管理者能夠對本體進行審核、變更和發(fā)布,為最終用戶和客戶端應用提供統一的本體數據查詢服務,從而促進了領域知識和異構數據的快速共享和重用。下一步的工作,包括本體映射、本體的一致性檢測、本體隱私保護、語義證據與信任等方面還有待繼續(xù)研究。
圖2 上下文敏感的旅游信息服務
[1] Wache H, V?gele T, U. Visser, Stuckenschmidt H, Schuster G, Neumann H, Hübner S.Ontology-based Integration of Information - A Survey of Existing Approaches[C] //Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing, Seattle, WA, 2001:108-117.
[2] Bergamaschi S, Castano S, Vincini M , Beneventano D.Semantic integration of heterogeneous information sources[J] , Data and Knowledge Engineering,36(3):215-249.
[3] Hakimpour F, Geppert A. Resolving Semantic Heterogeneity in Schema Integration:an Ontology Based Approach[C] //Proceedings of Conference on Formal Ontology in Information Systems, FOIS’01, Ogunquit,Maine, USA, October 17-19, 2001.
[4] Carroll J J, Bizer C, H P, Stickler P. Named Graphs,Provenance and Trust[C] //Proceedings of the 14th International World Wide Web Conference, Chiba, Japan,May 10-14, 2005.
[5] Flouris G.On Belief Change and Ontology Evolution,Doctoral Dissertation, DEPARTMENT OF COMPUTER SCIENCE[D] . UNIVERSITY OF CRETE, February 2006.