□李永忠 胡思琪
?
基于混合本體的政務(wù)異構(gòu)數(shù)據(jù)集成研究
□李永忠 胡思琪
[福州大學(xué) 福州 350116]
隨著政務(wù)信息化的不斷進行,現(xiàn)有信息共享方式的局限使得各政府部門間的信息交換障礙重重。因此,通過研究,說明了現(xiàn)有異構(gòu)數(shù)據(jù)集成方式的優(yōu)缺點,并針對政府部門信息集成過程中存在的數(shù)據(jù)異構(gòu)問題,提出了基于混合本體的集成模型,描述了集成模型各個部分作用和主要功能,該模型能有效屏蔽數(shù)據(jù)的異構(gòu)性實現(xiàn)各系統(tǒng)的獨立性。重點描述了領(lǐng)域本體構(gòu)建和本體映射的相關(guān)方法,并舉例說明領(lǐng)域本體構(gòu)建過程。
混合本體;數(shù)據(jù)異構(gòu);本體構(gòu)建;數(shù)據(jù)集成
隨著信息時代的來臨,政府部門內(nèi)部的數(shù)據(jù)庫數(shù)據(jù)量越來越大。但各部門之間的數(shù)據(jù)庫均是獨立開發(fā),這些數(shù)據(jù)種類、存儲方式不同,使得部門之間的信息交流變得障礙重重。各部門就像是一個孤島,無法實現(xiàn)與外部的數(shù)據(jù)整合交換。對異構(gòu)數(shù)據(jù)的集成將是各部門之間實現(xiàn)數(shù)據(jù)共享的關(guān)鍵。目前數(shù)據(jù)集成的主要障礙有操作系統(tǒng)異構(gòu)、數(shù)據(jù)結(jié)構(gòu)異構(gòu)和語義異構(gòu)等。前兩種異構(gòu)通過對象請求代理體系結(jié)構(gòu)(Common Object Request Broker Architecture)和中間件技術(shù)能較好地解決。對于最后一類問題,目前解決方法有:XML(可擴展標記語言)和以XML、OWL、RDF等為基礎(chǔ)建立的本體。
XML是一種通用信息交換語言,它提供一系列規(guī)則用于創(chuàng)建滿足用戶需求的標簽。通過解釋程序,標簽之間的關(guān)系可以得到完整的解析[1]。XML雖然提供了定義數(shù)據(jù)的標準,但進行數(shù)據(jù)交換時,須先在語義方面協(xié)調(diào)一致,否則含有不同模式的XML數(shù)據(jù)源之間很難互操作,容易出現(xiàn)語義歧義和沖突。
最初本體是哲學(xué)領(lǐng)域范疇,用來表示世界的本原和存在,現(xiàn)在本體被引入計算機領(lǐng)域,用來表達人們對于領(lǐng)域的共同理解。Gruber最早于1993年提出“本體是概念化的規(guī)范化說明”[2]。本體基于相關(guān)領(lǐng)域內(nèi)的知識,提供關(guān)于概念特性及概念之間關(guān)系的明確定義,能非常有效地提供領(lǐng)域內(nèi)的語義相關(guān)關(guān)系,是解決數(shù)據(jù)集成中語義異構(gòu)非常好的方法。
信息在社會中占有舉足輕重的地位,而政府是最大的信息生產(chǎn)者、收集者、發(fā)布者和使用者。政府信息資源約占全社會信息資源總量的80%。無論是政府機構(gòu)內(nèi)部的運作和決策,還是企業(yè)的開拓和發(fā)展,或是人民的日常生活和自我發(fā)展,都離不開政府信息的支持和服務(wù)。
很多地方政府在信息建設(shè)過程中各部門各自為政、條塊分割,使用不同的數(shù)據(jù)存儲標準、不同系統(tǒng),這些都阻礙了信息和數(shù)據(jù)的有效共享,造成了信息孤島的形成。如果不能有效地解決,將會造成社會資源的浪費,各部門系統(tǒng)辦公的不協(xié)調(diào),社會治理成本的增加,民眾獲取信息難度的增大,影響政府公信力和形象。如何將這些異構(gòu)數(shù)據(jù)源集成,是我們的迫切需要。
而傳統(tǒng)的異構(gòu)數(shù)據(jù)集成有聯(lián)邦數(shù)據(jù)庫、數(shù)據(jù)倉庫、中間件等方式,局限性較大。聯(lián)邦數(shù)據(jù)庫方式需要數(shù)據(jù)庫兩兩相連,構(gòu)建和維修成本過高;數(shù)據(jù)倉庫方式將所有數(shù)據(jù)集中到一個數(shù)據(jù)倉庫中,更新困難大量冗余;而中間件方式則是建立虛擬數(shù)據(jù)庫,擴展性較好但其無法處理語義異構(gòu)數(shù)據(jù)。本文主要從技術(shù)層面考慮這些問題,提出使用混合本體的方式進行數(shù)據(jù)集成,能夠在盡量減少對各部門現(xiàn)有系統(tǒng)的影響下,實現(xiàn)異構(gòu)數(shù)據(jù)在全局的流通。
根據(jù)本體進行數(shù)據(jù)集成的方式有三種:單一本體方法、多本體方法和混合本體方法[3]。單一本體法,所有數(shù)據(jù)源共享一個全局本體,各部分數(shù)據(jù)通過中間件與全局本體映射。易于構(gòu)建,數(shù)據(jù)源獨立性不夠,數(shù)據(jù)不易增刪;多本體法,本體個數(shù)與數(shù)據(jù)源個數(shù)一一對應(yīng),易于數(shù)據(jù)的增刪;全局整體性不足,各系統(tǒng)之間很難建立聯(lián)系。混合本體方法克服上述兩種方法的缺點,在各局部本體的基礎(chǔ)上,構(gòu)建全局本體,如圖1所示。
圖1 混合本體方法
這一方法在保障政府各職能部門系統(tǒng)獨立安全的同時兼顧了全局整體性。局部本體與各數(shù)據(jù)庫相通,用來描述數(shù)據(jù),全局本體則是在局部本體的基礎(chǔ)之上進行概化,對概念進行統(tǒng)一。全局本體和局部本體之間的有效互通,通過本體映射來完成。
基于混合本體構(gòu)建的模型能有效地解決政府各部門數(shù)據(jù)的語義異構(gòu)問題,并同時兼顧集成系統(tǒng)的全局性以及各分系統(tǒng)的獨立性。圖2為基于混合本體的政府?dāng)?shù)據(jù)集成模型[4]。該集成模型自頂向下分別為用戶層,中間件層(包括全局本體、映射、局部本體)和數(shù)據(jù)層(包括數(shù)據(jù)源和屏蔽操作系統(tǒng)和數(shù)據(jù)結(jié)構(gòu)異構(gòu)的封裝器等)。
接受用戶的處理指令,將請求傳遞給中間件層,并接受其反饋結(jié)果傳遞給用戶。
是整個政府?dāng)?shù)據(jù)集成模型的重點,包括全局本體、全局本體與局部本體之間的映射、局部本體和分析處理器。分析處理器根據(jù)用戶指令與本體庫交互,根據(jù)全局本體與局部本體之間映射將指令分配到相應(yīng)局部本體,形成相對應(yīng)子查詢。并且在結(jié)果反饋階段,將各數(shù)據(jù)源的子查詢結(jié)果進行匯總,然后反饋給用戶。局部本體要根據(jù)各部分數(shù)據(jù)源的特點來構(gòu)建,從中抽取出數(shù)據(jù)的表達方式。依據(jù)主題詞表構(gòu)建全局本體,可以保證本體庫的統(tǒng)一性。它提供了政府?dāng)?shù)據(jù)集成系統(tǒng)的全局知識領(lǐng)域,是對全局數(shù)據(jù)語義的描述。映射層則是將全局本體與局部本體的概念相對應(yīng),消除各局部本體的不一致。它不僅僅建立了本體的對應(yīng)關(guān)系,更增加了整個系統(tǒng)的穩(wěn)定和靈活性,在數(shù)據(jù)源層有數(shù)據(jù)的增刪時,不需修改全局本體,只需對映射做出相應(yīng)的變動。
是由各政府部門的數(shù)據(jù)源和相應(yīng)的封裝器組成,數(shù)據(jù)源一般是指各部門的數(shù)據(jù)庫,但也可以包括其他數(shù)據(jù)文件。各部門的數(shù)據(jù)源可以是語義異構(gòu)的,本體會提供對其的統(tǒng)一描述。但各部門的還可能存在結(jié)構(gòu)、系統(tǒng)的異構(gòu)等,封裝器能提供對其的屏蔽,并負責(zé)與中間層和數(shù)據(jù)源的交互。當(dāng)接收到來自中間件層的指令時,即轉(zhuǎn)換成能對數(shù)據(jù)源直接進行操作的語言,并將查詢結(jié)果反饋給中間件層,能有效減少操作的復(fù)雜性,并增加全局系統(tǒng)的靈活性。
本體的構(gòu)建是目前的研究熱點之一,并且本體構(gòu)建一般是面向某一特定領(lǐng)域,如果沒有客觀合理的方法指導(dǎo),各領(lǐng)域本體就難以保持一致。一般認為GRUBER提出的五條規(guī)則(明確和客觀性、完整性、一致性、最大單向可擴展性、最少約束)認可度高[5]。
其他常用的本體構(gòu)建方法有:
TOVE法,又稱Gruninger&Fox評價法[6],如圖3所示。
圖3 TOVE法本體模型
骨架法,又稱Enterprise法,如圖4所示。是有關(guān)企業(yè)建模過程的本體。建立在企業(yè)本體基礎(chǔ)之上,是相關(guān)商業(yè)企業(yè)間術(shù)語和定義的集合,為其提供本體開發(fā)的指導(dǎo)方針。
圖4 骨架法本體模型
其他本體構(gòu)建方法還包括SENSUS法、METHONTOLOGY法、IDEF5法和斯坦福大學(xué)所開發(fā)的本體七步構(gòu)建法[7]。
七步法主要用于領(lǐng)域本體的構(gòu)建:
第一步,確定所構(gòu)建本體的領(lǐng)域和范疇。
第二步,確定重復(fù)使用現(xiàn)有本體的可能性。
第三步,列出本體中的重要術(shù)語。
第四步,定義類和類的等級體系。
第五步,定義類的屬性。
第六步,定義屬性的分面。
第七步,創(chuàng)建實例。
一般來講所構(gòu)建的本體都是面向某一領(lǐng)域,用于描述該領(lǐng)域內(nèi)知識的概念模型,并且要求所使用的概念是領(lǐng)域內(nèi)公認或者有一定影響力的。本體的建立對于需要交換信息,共享信息的人或異構(gòu)的系統(tǒng)來說,將有助于消除歧義,達成共識。
本文以政務(wù)信息這一領(lǐng)域內(nèi)的共享為例,舉例說明局部本體的構(gòu)建過程。
1.構(gòu)建目標。對需構(gòu)建局部本體的數(shù)據(jù)源進行語義描述。
2.本體庫構(gòu)建過程,要確定該數(shù)據(jù)源的范疇。列舉出其中包含的重要術(shù)語和概念。建立起政務(wù)信息局部本體的框架。
3.確定本體范圍和術(shù)語。
4.復(fù)用現(xiàn)有本體。局部本體是對某一數(shù)據(jù)源中概念關(guān)系和概念定義的描述。構(gòu)建時,應(yīng)該考慮現(xiàn)有本體的重復(fù)使用,這樣可以減少重復(fù)勞動和工作量。比如可以使用電子政務(wù)主題詞表來構(gòu)建,利用知網(wǎng)詞典或是同義詞詞林來進行本體映射過程中的相似度計算。
5.定義類和類的層次體系。在這一過程中可以先定義上層概念,即綜合性和概括性的類,然后自頂向下進行細化。也可使用自底向上的方式。
最后對類的屬性進行定義,比如旅游這一類的下屬類游客,對其進行定義就應(yīng)該是:
游客(姓名,性別,年齡,愛好,電話)這個階段是構(gòu)建本體非常重要的一步,對類的屬性進行定義,表達了更完整的語義。
6.生成實例。選擇類創(chuàng)建實例,并對實例的屬性值進行填充。
局部本體和全局本體的構(gòu)建過程和方法基本類似,但一般先進行局部本體的構(gòu)建。構(gòu)建全局本體時,對所有數(shù)據(jù)源分析,在局部本體的構(gòu)建基礎(chǔ)之上,選擇所需概念術(shù)語和實例創(chuàng)建全局本體。
本體間要想實現(xiàn)互操作就必須解決本體之間的異構(gòu)問題,而本體映射則是手段之一。本體映射是找到不同本體之間的語義關(guān)聯(lián),例如全局本體與局部本體之間。
所謂本體映射則是在全局本體A、局部本體B中,對于B中的每一個概念都試圖在本體A中找到一個語義相同或是相近的對應(yīng)概念,對全局本體A亦是如此。本體的映射類型有:概念-概念、屬性-概念、屬性-屬性等。在建立全局本體與局部之間的映射關(guān)系時,通常采用Ehrig M的方法[8],如圖5所示:
圖5 本體的映射
特征元素提取,解析政務(wù)信息文檔,提取出本體詞匯,包括概念、屬性和關(guān)系等。
用戶選取,本體映射系統(tǒng)支持一個可選的用戶交互過程,通過用戶交互,用戶可以在自動創(chuàng)建映射之前,手動創(chuàng)建映射關(guān)系。
相似度計算,根據(jù)概念相似度和屬性相似度的不同,使用不同的計算方法。
映射發(fā)現(xiàn)?;诘蟮南嗨浦颠M行,根據(jù)某種選擇策略并結(jié)合本體的約束和上下文關(guān)系等選擇本體間元素的最優(yōu)映射關(guān)系。
映射結(jié)果保存。算法輸出映射表,表中每一項對應(yīng)一個映射關(guān)系。每一項包含四個元素集合。源本體中的元素集合,目標本體中的元素集合,元素對應(yīng)關(guān)系及關(guān)系的相似度數(shù)值。
在計算兩個本體元素的相似度時,一般要計算概念、屬性和實例三個方面。分別計算三方面的相似度后,再匯總得出其相似度。
其中,分別表示概念1和2的描述集,表示屬于不屬于的元素集。depth(1)表示從1到根節(jié)點的距離。
并且一般來講建立全局本體與局部本體之間的映射時,都是從局部本體映射到全局本體,這樣在數(shù)據(jù)源有增刪修改時,只需要進行新的映射,而不需改變原有映射。
基于混合本體的方法集成政務(wù)數(shù)據(jù)后,在查找所需信息時,可以先通過分析處理器將查找指令經(jīng)本體推理分解到各數(shù)據(jù)源,然后將查找到的信息合并提交給用戶??梢杂行У叵湔Z義異構(gòu)問題,并且此方法能兼顧政府?dāng)?shù)據(jù)對安全和保密性的要求??梢约铀僬畔⒒M程,促進信息資源的優(yōu)化配置,實現(xiàn)信息的順暢共享。
[1] 何克清, 何揚帆, 梁鵬, 等. 本體元建模理論與方法及其應(yīng)用[M]. 北京: 科學(xué)出版社. 2008.
[2] Carbonell J G, Siekmann J. Intelligent Information Integration for the Semantic Web[J]. Springer Science, 2005, 10: 14-20.
[3] 楊興凱, 劉暢. 政府信息資源集成方法研究綜述[J].電子政務(wù), 2013(5): 5-6.
[4] 王曉芳. 基于本體的異構(gòu)數(shù)據(jù)源集成系統(tǒng)模型[M].北京: 清華大學(xué)出版社, 2007.
[5] Karp P D, Gruber T R. A generic knowledge-base access protocol[E/OL]. (2015-04-27).https://www.researchgate. net/publication/244956819_A_generic_knowledge-base_access_protocol.
[6] 楊秋芬, 陳躍新. Ontology方法學(xué)綜述[J]. 計算機應(yīng)用與研究. 2002(4): 5-7.
[7] NOY N F. Ontology Development 101: A Guide to Creating Your First Ontology: Knowldege Systems Laboratory [E/OL]. (2015-04-27). http://wenku.baidu.com/link?url= u1M0 zutI7XBKDX-bXmomU_meYPOfbQY87dFzh98fgGZI_qWp2CRasLtHvUVqQo4-ZOGz1xN3CR1DSd7g5C1zEUrOTHr7JkR_FWr-kxianCS .
[8] EHRIG M, STAAB S. QOM–quick ontology mapping [M]//The Semantic Web–ISWC 2004. Berlin Heidelberg: Springer, 2004: 683-697.
[9] EHRIG M, SURE Y. Ontology mapping–an integrated approach[M]//The Semantic Web: Research and Applications. Berlin Heidelberg: Springer, 2004: 76-91.
[10] 高煒, 梁. 基于貼近度的本體概念屬性相似度計算[J]. 長春大學(xué)學(xué)報, 2009, 19(8): 2-3.
[11] 沈亦軍, 呂剛. 基于實例相似度的本體映射方法研究[J]. 重慶科技大學(xué)學(xué)報, 2012, 14(3): 2.
Research on E-Government Heterogeneous Data Integration with Hybrid Ontology Method
LI Yong-zhong HU Si-qi
(Fuzhou University FuZhou 350116 China)
With the development of E-Government informationization, the traditional information sharing mode limit the exchange between various government departments. This paper introduces the current heterogeneous data integration mode, proposes integration mode based on hybrid ontology, and describes the function of each part. This mode can effectively shield the heterogeneity of data and protect the independence of each system. This paper describes the methods of constructing domain ontology and ontology mapping, and illustrates the building process of the domain ontology.
hybrid ontology; heterogeneous data; ontology construction; data integration
TP393
A
10.14071/j.1008-8105(2016)05-0017-04
2015-04-27;
李永忠(1963-)男,福州大學(xué)經(jīng)濟與管理學(xué)院副教授;胡思琪(1993-)女,福州大學(xué)經(jīng)濟與管理學(xué)院碩士研究生.
編輯 劉 波