孫建光,劉 英
(大連海事大學(xué) 交通運輸管理學(xué)院,遼寧 大連116023)
過去二十多年來中國保險企業(yè)的信息化建設(shè)大多缺乏統(tǒng)籌規(guī)劃,造成了各種不同應(yīng)用系統(tǒng)盲目上馬的現(xiàn)象。不同的業(yè)務(wù)系統(tǒng)使用不同的后臺數(shù)據(jù)庫,不同的系統(tǒng)開發(fā)人員對業(yè)務(wù)術(shù)語缺乏統(tǒng)一定義,這些問題引發(fā)了現(xiàn)今企業(yè)系統(tǒng)管理的巨大問題;同時由于大多數(shù)應(yīng)用系統(tǒng)之間缺乏標(biāo)準(zhǔn)化的數(shù)據(jù)接口定義,因此不同的應(yīng)用系統(tǒng)之間必然會成為彼此隔離的信息孤島,信息孤島是當(dāng)前信息化建設(shè)中亟需解決的主要問題[1],徹底消除信息孤島,有效地集成現(xiàn)有及未來的業(yè)務(wù)應(yīng)用系統(tǒng)的信息數(shù)據(jù)已成為當(dāng)前信息化建設(shè)的重點工作。
數(shù)據(jù)量大和數(shù)據(jù)安全要求高是保險業(yè)的特點,中國保險業(yè)發(fā)展到今天,大多數(shù)人壽保險公司除具備核心業(yè)務(wù)系統(tǒng)之外,還建立了辦公自動化系統(tǒng)、財務(wù)系統(tǒng)、決策支持系統(tǒng)、數(shù)據(jù)倉庫以及相關(guān)的其他系統(tǒng),各種類型的數(shù)據(jù)在成倍增長。目前來看,主流保險公司的數(shù)據(jù)集中已告一段落,接下來的主要課題是數(shù)據(jù)的共享及集成利用。
國外許多保險公司早在十幾年前就開始了數(shù)據(jù)集成技術(shù)的研究和運用,多數(shù)保險公司已完成了數(shù)據(jù)集成和整合技術(shù)對其個險系統(tǒng)、團(tuán)險系統(tǒng)、銀行保險系統(tǒng)、年金系統(tǒng)和養(yǎng)老金系統(tǒng)等用戶及保單數(shù)據(jù)的集成[1]。
在業(yè)界,數(shù)據(jù)集成的概念比較混亂,例如系統(tǒng)整合、應(yīng)用整合、展現(xiàn)整合、存儲整合、數(shù)據(jù)庫整合、數(shù)據(jù)大集中等。這些不同的概念從不同的層次、不同的角度闡述了信息系統(tǒng)整合的內(nèi)涵和外延。本文主要探討異構(gòu)平臺下的數(shù)據(jù)集成。
一般情況下數(shù)據(jù)的異構(gòu)包括兩種,即語法異構(gòu)和語義異構(gòu)。語法異構(gòu)包含不同的數(shù)據(jù)庫系統(tǒng)或不同數(shù)據(jù)結(jié)構(gòu),對于此類異構(gòu)數(shù)據(jù)主要的集成方法是將異構(gòu)數(shù)據(jù)轉(zhuǎn)換成XML數(shù)據(jù)模式。對于語義異構(gòu)的數(shù)據(jù)集成可以利用本體技術(shù)通過領(lǐng)域建模描述該領(lǐng)域的概念及其相互關(guān)系。
起源于哲學(xué)的本體論源于對萬物本質(zhì)的追問,其派生于希臘語onto和logia,是一門研究事物根本的形而上的科學(xué)。本體論在哲學(xué)外的應(yīng)用主要集中在信息技術(shù)和人工智能領(lǐng)域。伴隨著領(lǐng)域建模、知識工程和數(shù)據(jù)庫等技術(shù)的發(fā)展,在各領(lǐng)域中需要一個通用的概念描述,來說明在該領(lǐng)域本質(zhì)上存在的對象、過程、屬性及相互依存關(guān)系等。
1980年McCathy基于前人的理論提出 “以邏輯概念為基礎(chǔ)的智能系統(tǒng)必須列出所有存在的事物并構(gòu)建一個本體來描述我們的世界”,正式提出人工智能領(lǐng)域的本體論概念[2]。1993年Gruber提出第一個被 IT領(lǐng)域廣泛接受的本體論正式定義“an ontology is an explicit specification of a conceptualization”[3]。1998 年 Guarino通過分析本體論與概念化之間的區(qū)別對Gruber的定義進(jìn)行修訂并提出“域空間”的概念,在此基礎(chǔ)上通過在澄清本體、預(yù)定模型和概念化的基礎(chǔ)上得到了本體論的定義:“本體論是一個邏輯理論,用來說明一個正規(guī)詞匯表的預(yù)定含義?!盵4]
在設(shè)計本體之前,首先要進(jìn)行本體建模,也就是用形式化方法定義本體的語義,本體的建模是知識工程中實現(xiàn)知識重用和語義共享的基礎(chǔ),到現(xiàn)在還沒有一種統(tǒng)一的形式化本體定義標(biāo)準(zhǔn)。
研究者們根據(jù)研究與應(yīng)用的不同背景給出了多種形式化的定義方式,六元組定義[5]是比較流行的一種。其形式化定義如下:
定義1資源庫本體是一個六元組:
其中,C是概念的集合;A是屬性的集合;R是關(guān)系的集合;H是概念層次;I是實例的集合;X是本體公理的集合。
在大多數(shù)的大型企業(yè)里,異構(gòu)數(shù)據(jù)的集成非常復(fù)雜且對企業(yè)相當(dāng)重要。來自經(jīng)濟(jì)和法規(guī)方面的壓力使得這些企業(yè)更多地聚焦于如何獲取和組織這些數(shù)據(jù)以進(jìn)行集成,關(guān)注集成數(shù)據(jù)的質(zhì)量和數(shù)據(jù)定義的標(biāo)準(zhǔn)。為此,企業(yè)開始注重通過數(shù)據(jù)集成管理來建好企業(yè)的數(shù)據(jù)集成模型,一個典型的基于本體的企業(yè)數(shù)據(jù)集成模型如圖1所示。
圖1 基于本體的保險數(shù)據(jù)集成模型
上述基于混合本體的保險公司數(shù)據(jù)集成模型參照“Mediator/Wrapper”[6]體系結(jié)構(gòu),運用了混合本體的概念設(shè)計,將mediator/wrapper虛擬整合機(jī)制整合到系統(tǒng)中,通過mediator和 wrapper來整合。mediator和 wrapper都是軟件組件,位于用戶和數(shù)據(jù)源之間,mediator服務(wù)于處理用戶提問和查詢結(jié)果的整合,wrapper則負(fù)責(zé)對信息源的連接和具體查詢。
遵循mediator/wrapper整合機(jī)制可保持各個異構(gòu)保險數(shù)據(jù)源的自治性,滿足局部的各種應(yīng)用,并同時發(fā)揮mediator的作用,滿足全局性應(yīng)用需求。在mediator中引入ontology等語義相關(guān)技術(shù)后,能夠有效解決知識整合、個性化服務(wù)等問題。使用這種機(jī)制的整合系統(tǒng)不需要在本地存儲大量資源,因而能夠適應(yīng)網(wǎng)絡(luò)環(huán)境下信息源系統(tǒng)高度自治、數(shù)量多、更新頻繁等特點。
舉例說明基于混合本體的信息集成技術(shù),對于不同的數(shù)據(jù)源(如個險系統(tǒng)和銀行保險系統(tǒng)),將新型人壽保險信息按類型和銷售渠道分類存放,構(gòu)造局部本體OI和OII結(jié)構(gòu)分別如圖 2、圖 3所示。
圖2 局部本體OI
圖3 局部本體OII
通過對數(shù)據(jù)源進(jìn)行分析識別,找出兩個不同的數(shù)據(jù)源中重要的原語來定義本體。
采用前面提到的六元組來完成OI本體的建模,由于系統(tǒng)比較簡單,只需要使用C、A、H三個元素,表示為:
C={新型人壽保險,保險產(chǎn)品,代理人銷售人員,投連險,萬能險,分紅險};
A={包含(代理人銷售,保險產(chǎn)品),歸類于(保險產(chǎn)品,新型人壽保險),銷售渠道(代理人銷售人員,新型人壽保險)};
H={(投連險,保險產(chǎn)品),(萬能險,保險產(chǎn)品),(分紅險,保險產(chǎn)品),保險產(chǎn)品…}
用OWL語言描述本體OI:
參照以上定義可以得到本體OII的描述。分析可得局部本體OI、OII存在以下問題:
(1)使用不同的元語表示同一概念:
保險類型→保險產(chǎn)品;
代理人銷售人員→營銷人員;
投連險→投資聯(lián)結(jié)保險
(2)OI中包含了OII中不存在的概念“分紅險”。
通過對類、屬性及其類間關(guān)系的集成合并局部本體,將OI,OII兩個本體聯(lián)系起來建立一個全局本體,然后在全局本體和局部本體之間建立映射,可得到如圖4所示的全局本體OG。
圖4 全局本體OG
共享詞匯集為:新型人壽保險,保險產(chǎn)品,營銷人員,投連險,萬能險,分紅險。全局本體 OG中的“保險產(chǎn)品”是由 OI中的“保險產(chǎn)品”和 OII中的“保險類型”間相等的概念合并得到。全局本體OG中的概念“分紅險”是由OI中的“分紅險”直接拷貝得到的。其相應(yīng)的三元組為:
C={新型人壽保險,保險產(chǎn)品,營銷人員,投連險,萬能險,分紅險};
A={包含(營銷人員,保險產(chǎn)品),歸類于(保險產(chǎn)品,新型人壽保險),銷售渠道(營銷人員,新型人壽保險)};
H={(投連險,保險產(chǎn)品),(萬能險,保險產(chǎn)品),(分紅險,保險產(chǎn)品),保險產(chǎn)品…}。
全局本體在混合本體中的功能為:
(1)在異構(gòu)數(shù)據(jù)源和應(yīng)用界面之間形成一個中介層,由于數(shù)據(jù)來源的復(fù)雜性,這些數(shù)據(jù)可能存放在不同的地理位置、不同的數(shù)據(jù)庫和不同的應(yīng)用之中;
(2)利用共享概念創(chuàng)建全局本體;
(3)提供給用戶界面的綜合查詢一個概念以上的統(tǒng)一視圖,用戶通過提交一個基于全局本體之上的RDF查詢就能獲取所有相關(guān)數(shù)據(jù)源的數(shù)據(jù)以實現(xiàn)概念上的互操作。
通過參照“Mediator/Wrapper”體系結(jié)構(gòu),利用混合本體的概念設(shè)計基于本體的保險企業(yè)數(shù)據(jù)集成模型,可以有效地完成保險公司數(shù)據(jù)大集中后的異構(gòu)數(shù)據(jù)的集成和深層的數(shù)據(jù)共享,提供統(tǒng)一的信息查詢及用戶視圖,進(jìn)而提高保險公司管理支持和決策的可靠性和準(zhǔn)確性??梢钥吹酵ㄟ^成體系的語義分析完成保險公司通用的本體構(gòu)建并對其進(jìn)行評價 ,以及對映射規(guī)則及其推理引擎的完善等問題還需要進(jìn)一步研究。
[1]RADCLIFF J.Integrate your data to create a single customer view[OL].Gartner,2004.
[2]CARTHY J M.Circumscription-a form of non-monotonic reasoning[J].Artificial Intelligence,1980,5(13):27-39.
[3]GRUBER T R.Towards principles for the design of ontologies used for knowledge sharing.Stanford University,Tech Rep:KSL-93-04,1993.
[4]李善平,尹奇韡,胡玉杰,等.本體論研究綜述[J].計算機(jī)研究與發(fā)展,2004,41(7):1041-1052.
[5]HARRY R L,CHRISTOS H P.Elements of the theory of computation(second edition)[M].Prentice Hall PTR Upper Saddle River,NJ,USA,1997.
[6]卓國鋒,羅軍.基于 Mediator/Wrapper信息集成的查詢優(yōu)化研究[J].計算機(jī)工程與應(yīng)用,2007,43(12):159-161,242.