李俊州,茹秀娟
(1.開(kāi)封大學(xué)工藝美術(shù)學(xué)院,中國(guó) 開(kāi)封 475004;2.開(kāi)封大學(xué)公共計(jì)算機(jī)教研室,中國(guó) 開(kāi)封 475004)
信息集成是目前屏蔽數(shù)據(jù)之間半結(jié)構(gòu)性、異構(gòu)性和分布性的主要方法,其目的是最大限度地為用戶提供統(tǒng)一門戶,使其獲取最大范圍的精確數(shù)據(jù)[1].異構(gòu)性(即沖突):是指信息集成中多個(gè)數(shù)據(jù)源中存在不相似的內(nèi)容.本文針對(duì)不相似內(nèi)容將其劃分為如下3個(gè)層次[2]:
(1)平臺(tái)異構(gòu)性:各個(gè)異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)駐留在不同的硬件平臺(tái)之上,使用不同的操作系統(tǒng),用不同的通訊協(xié)議進(jìn)行通訊.
(2)數(shù)據(jù)庫(kù)系統(tǒng)異構(gòu)性:可以是同為關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)的Oracle,SQL server等,也可以是不同數(shù)據(jù)模型的數(shù)據(jù)庫(kù),如關(guān)系、層次、網(wǎng)絡(luò)、面向?qū)ο?、函?shù)型數(shù)據(jù)庫(kù)共同組成一個(gè)異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng).
(3)語(yǔ)義異構(gòu)性:不同的成員數(shù)據(jù)庫(kù)系統(tǒng)中相同或相關(guān)數(shù)據(jù)在含義、解釋和用途方面不同.由于不同的局部數(shù)據(jù)庫(kù)是獨(dú)立設(shè)計(jì)和開(kāi)發(fā)的,在參加集成的局部數(shù)據(jù)庫(kù)之間可能會(huì)產(chǎn)生各種語(yǔ)義沖突,包括模式?jīng)_突和數(shù)據(jù)沖突.
每一個(gè)信息系統(tǒng)都有適合自身環(huán)境與工作效率的領(lǐng)域模型,因而系統(tǒng)間存在各種異構(gòu)性.如何克服系統(tǒng)間的異構(gòu)性,特別是語(yǔ)義異構(gòu),是信息集成主要要解決的問(wèn)題[3].在信息集成過(guò)程中必須提供一種通用模型來(lái)解決語(yǔ)義異構(gòu)問(wèn)題,這個(gè)模型必須具備可移植性,與平臺(tái)無(wú)關(guān),能夠有效解決信息之間的語(yǔ)義不同[4].本體是一種可以明確且形式化地規(guī)范說(shuō)明各項(xiàng)內(nèi)容、能夠有效表達(dá)特定領(lǐng)域內(nèi)的通用知識(shí)的通用語(yǔ)義模型[5].本文采用本體來(lái)描述全局?jǐn)?shù)據(jù)概念,樹(shù)型結(jié)構(gòu)描述局部數(shù)據(jù)概念,利用相似度計(jì)算匹配值來(lái)實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)在語(yǔ)義集成中的匹配.
本體的概念來(lái)源于哲學(xué)和人工智能.哲學(xué)中的本體是指對(duì)存在的系統(tǒng)化說(shuō)明;而人工智能中的本體更強(qiáng)調(diào)概念的可表示與可呈現(xiàn).在計(jì)算機(jī)界, Gruber等人認(rèn)為本體是概念模型中可明確形式化地規(guī)范說(shuō)明各項(xiàng)內(nèi)容,以便共享的通用語(yǔ)義模型.該定義涵蓋了4層含義[8-10]:概念模型(conceptualization)、明確(explicit)、形式化(formal)和共享(share).本體的目標(biāo)是獲取特定領(lǐng)域的數(shù)據(jù)信息,提供對(duì)該領(lǐng)域的共同理解,確定該領(lǐng)域內(nèi)共同使用的數(shù)據(jù),從不同層面形式化給出這些數(shù)據(jù)(術(shù)語(yǔ))和數(shù)據(jù)間相互關(guān)系的確切定義,通過(guò)數(shù)據(jù)之間的關(guān)系來(lái)描述概念的語(yǔ)義.
同樣,本體作為知識(shí)表示工具, 與語(yǔ)義網(wǎng)絡(luò)非常相似,也正成為知識(shí)處理的技術(shù)平臺(tái),被稱為下一代的語(yǔ)義Web.就語(yǔ)義Web本身而言,它是目前Web應(yīng)用的擴(kuò)展,它能夠描述一定的語(yǔ)義,使計(jì)算機(jī)及人類能更好地協(xié)調(diào)合作.本體是語(yǔ)義web中知識(shí)推理的基礎(chǔ),需要實(shí)現(xiàn)機(jī)器間的可理解.同時(shí),基于本體的OWL使得Web服務(wù)具備機(jī)器可理解性和易用性,從而讓人性化的智能主體支持自動(dòng)的、動(dòng)態(tài)的Web服務(wù)發(fā)現(xiàn)、執(zhí)行、組合和互操作.
同一領(lǐng)域信息資源系統(tǒng)之間存在著語(yǔ)義上的異構(gòu).這些語(yǔ)義上的異構(gòu)能引起各種矛盾.經(jīng)過(guò)多組數(shù)據(jù)的分析,確定造成異構(gòu)的原因主要有如下3個(gè)因素[11]:
(1)不同的信息資源使用不同的術(shù)語(yǔ)或者詞匯表示同一概念;
(2)同一詞匯或者術(shù)語(yǔ)在不同的信息資源中表示不同的含義;
(3)各信息資源使用不同的數(shù)據(jù)結(jié)構(gòu)來(lái)表示相同或者相似的數(shù)據(jù)組成;
各信息資源中概念之間存在著千絲萬(wàn)縷的聯(lián)系,但因?yàn)楦餍畔⒃捶植荚诓煌瑓^(qū)域,不同平臺(tái),這種隱含的聯(lián)系不能具體表現(xiàn)出來(lái).針對(duì)多組數(shù)據(jù)源的分析,所面臨的語(yǔ)義沖突主要有:(1)值-值沖突:相同的數(shù)據(jù)表示的值不同.如同一數(shù)字分別用km和cm做單位,它就表示不同的長(zhǎng)度;(2)屬性-屬性沖突:不同數(shù)據(jù)源對(duì)相同實(shí)體的屬性采用不同的組織結(jié)構(gòu),例如出生年月在一個(gè)數(shù)據(jù)庫(kù)中是“年+月+日”,而在另外一個(gè)數(shù)據(jù)庫(kù)中則采用年月日分開(kāi)定義的方式;(3)表-表沖突:相同的概念在不同的數(shù)據(jù)庫(kù)有不同的表現(xiàn)模型;(4)值-屬性沖突:在不同數(shù)據(jù)源或者相同數(shù)據(jù)源中,某一表中被表示為屬性名,而在另外一張表中被表示為屬性值;(5)值-表沖突:在不同數(shù)據(jù)源或者相同數(shù)據(jù)源中,某一數(shù)據(jù)庫(kù)中表示為表中某屬性的值,而另外一個(gè)表示為表名;(6)屬性-表沖突:在不同數(shù)據(jù)源或者相同數(shù)據(jù)源中,某一數(shù)據(jù)庫(kù)中的屬性名稱被表示成另一數(shù)據(jù)庫(kù)的表名.
在結(jié)構(gòu)化數(shù)據(jù)表示中,首先建立領(lǐng)域本體,即給出某一特定領(lǐng)域中的元數(shù)據(jù)的全局性質(zhì)的概念和定義.例如由OCLC首倡的都伯林核心(Dublin Core)元數(shù)據(jù)[12],包括提名Title、創(chuàng)建者Creator、日期Date、主題Subject、出版者Publisher、權(quán)限Rights、關(guān)聯(lián)Relation、覆蓋范圍Coverage等15個(gè)元素的元數(shù)據(jù)集合,用于描述資源對(duì)象的語(yǔ)義信息,目前已成為IETF RFC2413、ISO15836、CEN/CWA13874、Z39.85國(guó)際標(biāo)準(zhǔn)和澳大利亞、丹麥、芬蘭、英國(guó)等國(guó)家標(biāo)準(zhǔn).
其次,建立局部數(shù)據(jù)結(jié)構(gòu)的表示.通過(guò)對(duì)局部數(shù)據(jù)源的分析,采用樹(shù)型結(jié)構(gòu)表示結(jié)構(gòu)化數(shù)據(jù)的層次關(guān)系;利用關(guān)聯(lián)矩陣存儲(chǔ),能有效提高系統(tǒng)的訪問(wèn)效率.并給出樹(shù)中每個(gè)節(jié)點(diǎn)存儲(chǔ)表示.例如在某個(gè)SQL Server數(shù)據(jù)源中,以數(shù)據(jù)源為頂點(diǎn),采用自上而下的層次關(guān)系建立樹(shù)結(jié)構(gòu)[13].具體如圖1所示.
圖1 局部數(shù)據(jù)庫(kù)樹(shù)形結(jié)構(gòu)表示Fig.1 Tree structure of local database
在語(yǔ)義異構(gòu)中,主要解決取值范圍、屬性類型、屬性和表的沖突.針對(duì)樹(shù)型結(jié)構(gòu),采用鄰接矩陣表示節(jié)點(diǎn)和節(jié)點(diǎn)之間存在的聯(lián)系,利用節(jié)點(diǎn)的長(zhǎng)度表示節(jié)點(diǎn)所處的層次,進(jìn)而利用與領(lǐng)域本體的元數(shù)據(jù)的匹配,解決數(shù)據(jù)間的沖突和異構(gòu).
語(yǔ)義數(shù)據(jù)集成是將各局部數(shù)據(jù)源中的數(shù)據(jù)分析、整理組合后將最終的數(shù)據(jù)返回給用戶,使得用戶不需要關(guān)心所有局部數(shù)據(jù)源的信息.語(yǔ)義信息集成在獲得數(shù)據(jù)訪問(wèn)的結(jié)果時(shí),根據(jù)領(lǐng)域本體處理文件中存在的異構(gòu)定義如同名異義、異名同義等術(shù)語(yǔ),處理掉這些異構(gòu),同時(shí)對(duì)于返回的數(shù)據(jù)進(jìn)行冗余處理和排序,并將處理后的結(jié)果封裝到虛擬體中,對(duì)外提供統(tǒng)一的API.如在M數(shù)據(jù)源中利用“男/女”表示性別,而在N數(shù)據(jù)源中,利用“0/1”表示性別,此時(shí)就要處理掉這些數(shù)據(jù)之間的不同,提供給用戶完整精確的數(shù)據(jù)結(jié)果.
圖2 語(yǔ)義數(shù)據(jù)集成框架Fig.2 Semantic data integration framework
圖2給出了語(yǔ)義數(shù)據(jù)集成的框架.其中任務(wù)生成是用戶的門戶,用戶通過(guò)該部分提交自己需要完成的任務(wù).任務(wù)處理包括任務(wù)分解、訪問(wèn)控制和數(shù)據(jù)訪問(wèn)3部分,是根據(jù)領(lǐng)域本體與映射服務(wù)將用戶提交的任務(wù)轉(zhuǎn)換為各個(gè)局部數(shù)據(jù)源相關(guān)的形式,并按照匹配標(biāo)準(zhǔn),數(shù)據(jù)訪問(wèn)權(quán)限等進(jìn)行數(shù)據(jù)的強(qiáng)制處理和轉(zhuǎn)換.局部服務(wù)采用圖1的樹(shù)型結(jié)構(gòu)描述數(shù)據(jù)源的相關(guān)信息,將局部數(shù)據(jù)源利用Web服務(wù)技術(shù),封裝該數(shù)據(jù)源的訪問(wèn)接口.
3.2.1 數(shù)據(jù)源形式化描述 為了能給出領(lǐng)域本體和局部數(shù)據(jù)源一個(gè)通用的形式化描述,首先要對(duì)本體進(jìn)行形式化.在本文中,本體的形式化定義采用四元表示方法,具體見(jiàn)定義1.
定義1本體的形式化表示:本體O=(C,S,R,δ),其中O表示本體;C表示本體中的概念集合;S表示本體的組織結(jié)構(gòu),如用is-a表示具有傳遞性和非對(duì)稱性的層次結(jié)構(gòu);R表示概念間的相互關(guān)系,R?C*C;δ表示關(guān)系和概念間的匹配函數(shù)的集合,δ:R→C.
語(yǔ)義數(shù)據(jù)集成中領(lǐng)域本體的形式化描述采用類似本體的表示方法.
假設(shè)某個(gè)特定領(lǐng)域G由n個(gè)具體的局部數(shù)據(jù)源所構(gòu)成,則需建立局部數(shù)據(jù)源和領(lǐng)域本體之間的映射關(guān)系,并描述局部數(shù)據(jù)源的形式化表示,見(jiàn)定義2.
定義2數(shù)據(jù)源的形式化表示:G=(D1,D2,…,Dn),其中Di表示某一特定局部數(shù)據(jù)源的集合.
根據(jù)圖1給出Di的形式化表示:Di=(U,T,V,F),其中U表示用戶集合,T表示局部數(shù)據(jù)源表集合,V表述局部數(shù)據(jù)源視圖集合,F(xiàn)表示局部數(shù)據(jù)源關(guān)系集合.詳細(xì)定義為:
T=(T1,T2,…,Tn),其中Ti=(p1,p2,…,pn);
V=(V1,V2,…,Vn),其中Vi=(T1,T2,…,Tn),Ti?T,
F=(F1,F2,…,Fn),F(xiàn)i=(Tn,Tm),其中Tn,Tm?T pn?Tn,pm?Tm,pn,pm分別表示Tn,Tm表中的屬性.
領(lǐng)域G中的概念一部分來(lái)源于領(lǐng)域?qū)<业某槿?,另一部分?lái)源于局部數(shù)據(jù)源T集合.例如某具體數(shù)據(jù)源中具有代表性的數(shù)據(jù)經(jīng)專家判定和計(jì)算后可歸納到領(lǐng)域本體G的概念集合C中.
另外,在語(yǔ)義數(shù)據(jù)集成中,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系表示了數(shù)據(jù)所處的層次和數(shù)據(jù)要匹配的模型,所以關(guān)系的形式化表示非常重要,下面給出領(lǐng)域本體中組織結(jié)構(gòu)R的部分關(guān)系標(biāo)示內(nèi)容:
1) Combined——表示概念和概念之間是組合關(guān)系;
2) SameAs——表示類和類相等,例如不同的表名稱定義了同一組數(shù)據(jù);
3) Equal——表示不同表之間的屬性和屬性相等;
4) IsPartof——表示部分與整體之間的關(guān)系;
5) Attriof——表示某個(gè)對(duì)象是另一個(gè)對(duì)象的屬性;
6) Connect——表示2個(gè)對(duì)象之間通過(guò)同一變量具有關(guān)聯(lián)的關(guān)系;
7) beFormed——表示多個(gè)同一對(duì)象可以組合成另一對(duì)象的關(guān)系;
8) Subclass——表示父類和子類之間的關(guān)系.
3.2.2 概念匹配方法及算法描述 在匹配過(guò)程中,根據(jù)概念的組織結(jié)構(gòu),采用語(yǔ)義匹配的方法計(jì)算概念之間的相似度以及概念的屬性、取值比較,完成概念之間的匹配.例如在數(shù)據(jù)源存儲(chǔ)的相鄰矩陣中,根據(jù)領(lǐng)域本體和局部數(shù)據(jù)源所存儲(chǔ)概念在組織結(jié)構(gòu)中的權(quán)值進(jìn)行匹配:權(quán)值不同表示所處的層次不同,則不進(jìn)行匹配;權(quán)值相同,則根據(jù)其子類的屬性、取值范圍計(jì)算概念相似度(即采用了相似對(duì)象其擁有的屬性和取值范圍也基本相似的原理)進(jìn)行匹配.
概念匹配算法及流程圖見(jiàn)圖5,6.
圖3 概念匹配算法描述
圖4 相應(yīng)概念匹配算法流程圖Fig.4 Corresponding flow chart of concept matching algorithm
算法說(shuō)明如下:
1)概念的權(quán)值表示概念在屬性結(jié)構(gòu)中所處的層次,即相鄰矩陣中對(duì)應(yīng)的數(shù)值.
2)概念的屬性:若此概念已經(jīng)是葉子結(jié)點(diǎn),則直接計(jì)算其相似度;若概念有葉子結(jié)點(diǎn),則逐一訪問(wèn)存儲(chǔ)其葉子結(jié)點(diǎn),利用其所表示的語(yǔ)義以及對(duì)應(yīng)值的存儲(chǔ)情況確定其相似性.在本體文件中,采用了SameAs表示概念相等;采用Attriof表示某個(gè)對(duì)象是另一個(gè)對(duì)象的屬性;采用Subclass表示父類和子類之間的關(guān)系.例如在概念匹配中,若匹配成果,則將其存儲(chǔ)到本體文件中,并利用SameAs表示.
3)計(jì)算屬性相似度的平均值.對(duì)于每個(gè)都找到相似概念的屬性值,計(jì)算所有屬性值的平均值.若屬性匹配成功,則利用Equal表示屬性相等,并將其存儲(chǔ)到對(duì)應(yīng)的本體文件中.若存在屬性的組合情況,則利用beFormed表示.
在此實(shí)例驗(yàn)證過(guò)程中,本文采用了客戶關(guān)系管理系統(tǒng)(CRM)中的知識(shí)管理部分作為實(shí)驗(yàn)數(shù)據(jù)(限于篇幅,本文僅給出部分?jǐn)?shù)據(jù)).利用KM_CRM作為全局本體的概念源,以此分別引出全局概念和屬性的全局樹(shù)(圖5),利用KMx_CRM、KMy_CRM作為局部本體的概念源,以此引出局部概念和屬性的局部樹(shù)(圖6,7).
圖5 全局概念和屬性的全局樹(shù) 圖6 局部樹(shù)x 圖7 局部樹(shù)yFig.5 Global tree of global concept and attribute Fig.6 Local tree x Fig.7 Local tree y
通過(guò)算法的運(yùn)行基本找到了相似數(shù)據(jù),并能對(duì)用戶通過(guò)唯一接口搜索的數(shù)據(jù)提供多系統(tǒng)的服務(wù),保證了數(shù)據(jù)訪問(wèn)的完整性.圖8是算法運(yùn)行結(jié)束后建立的映射文檔.
圖8 算法執(zhí)行后的映射文檔Fig.8 Mapping documents after the algorithm implementation
另外,對(duì)此算法進(jìn)行空間復(fù)雜度和時(shí)間復(fù)雜度分析,其算法的復(fù)雜性和效率要優(yōu)于目前被廣泛使用的彈性匹配算法.
本文針對(duì)現(xiàn)有異構(gòu)數(shù)據(jù)庫(kù)集成中存在的問(wèn)題,如結(jié)構(gòu)異構(gòu),語(yǔ)義異構(gòu)等,給出了消除這些異構(gòu)的統(tǒng)一描述方式和數(shù)據(jù)定義及其算法描述,解決了數(shù)據(jù)庫(kù)表、屬性中存在的同名意義和異名同義的問(wèn)題.但是,由于本文的大部分內(nèi)容是基于文檔文件的查詢,查詢速度較低,這將是今后需要進(jìn)一步完善的研究工作.
參考文獻(xiàn):
[1] CASTRO J L, DELGADO M, MEDINA J. Intelligent surveillance system with integration of heterogeneous information for intrusion detection [J]. Exp Sys Appl, 2011,38(9):11182-11192.
[2] 萬(wàn)年紅. 面向服務(wù)的自適應(yīng)云資源信息集成軟件架構(gòu)[J].計(jì)算機(jī)應(yīng)用, 2012,32(1):170-174.
[3] LUO Z H, WU J T. The integration of directional information and local region information for accurate image segmentation[J]. Pat Recong Lett, 2011,32(15):1990-1997.
[4] DAVID G, IGOR A. Accuracy and performance of the state-basedΦand liveliness measures of information integration[J]. Cons Cogn, 2011,20(4):1403-1424.
[5] ZHOU L N, AMMAR S M, ZHANG D S. Mobile persona informationl management agent: supporting natural language interface and application integration[J]. Inform Proc Manage, 2012,48(1):23-31.
[6] SHI L, ROSSITZA S. User-oriented ontology-based clustering of stored memories[J]. Expert Sys Appl, 2012,39(10):9730-9742.
[7] 岳 洋,曾廣平. 一種面向構(gòu)件的行為語(yǔ)義模型及其應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究, 2012,29(5):1751-1755.
[8] CARMEN M, ALBERT V D H, DANIEL S. An approximation to the computational theory of perceptions using ontologies[J]. Expert Sys Appl, 2012,39(10):9494-9503.
[9] 陳葉旺,鐘必能,王 靖. 一種基于本體與描述文本的網(wǎng)絡(luò)圖像語(yǔ)義標(biāo)注方法[J]. 計(jì)算機(jī)科學(xué), 2012,39(06):293-299.
[10] 王志華,魏斌,李占波. 基于本體的Web信息抽取系統(tǒng)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012,33(7):2634-2639.
[11] JEF P, PETER V P. Measuring integration of information and communication technology in education: An item response modeling approach[J]. Comput Edu, 2012,58(4):1247-1259.
[12] HSIEH S H, LIN H T, CHI N W,etal. Enabling the development of base domain ontology through extraction of knowledge from engineering domain handbooks[J]. Adv Engin Inform, 2011,25(2):288-296.
[13] 孫全紅,張貞貞. 基于樹(shù)結(jié)構(gòu)的 Web 表格信息抽取方法[J]. 華北水利水電學(xué)院學(xué)報(bào), 2011,32(3):108-110.