劉存濤,趙文棟,楊 華
(1.陸軍工程大學(xué) 研究生院,江蘇 南京 210007;2.陸軍工程大學(xué) 通信工程學(xué)院,江蘇 南京 210007;3.國(guó)防科技大學(xué) 信息通信學(xué)院,湖北 武漢 430019)
隨著信息系統(tǒng)在社會(huì)各領(lǐng)域的廣泛應(yīng)用,政府、企業(yè)、社會(huì)團(tuán)體及個(gè)人都可以根據(jù)特定需求構(gòu)建信息系統(tǒng)。但是,由于不同設(shè)計(jì)者在思維認(rèn)知、設(shè)計(jì)理念及開發(fā)習(xí)慣等方面的差異,面向同一領(lǐng)域的信息系統(tǒng)采用了不同的信息域劃分標(biāo)準(zhǔn)及信息描述方法,導(dǎo)致不同系統(tǒng)的信息在邏輯結(jié)構(gòu)和語義表達(dá)方面存在差異,妨礙了系統(tǒng)間信息的無損交互和有效共享。因而,如何消除系統(tǒng)間信息的異構(gòu)性,實(shí)現(xiàn)異構(gòu)信息的有效共享,越來越受到社會(huì)各行業(yè)的關(guān)注。目前,實(shí)現(xiàn)異構(gòu)信息融合與共享的方法主要有以下幾種。
一是采用聯(lián)邦訪問的方法,通過設(shè)計(jì)直達(dá)的訪問接口實(shí)現(xiàn)系統(tǒng)間的互操作[1-2]。這種方法主要用于關(guān)系數(shù)據(jù)庫數(shù)據(jù)的集成,無法處理非結(jié)構(gòu)化的信息,而且在添加新的數(shù)據(jù)庫時(shí)需要設(shè)計(jì)該數(shù)據(jù)庫到其他每個(gè)數(shù)據(jù)庫的訪問接口。這種一一映射的方式,隨著互通數(shù)據(jù)庫數(shù)據(jù)量的增長(zhǎng),轉(zhuǎn)換接口的復(fù)雜度為O(2n),工作量大。
二是采用基于中間件的方法,使用DCOM、COM、CORBA等技術(shù)在數(shù)據(jù)層與應(yīng)用層之間構(gòu)建統(tǒng)一的邏輯視圖來隱藏底層的數(shù)據(jù)細(xì)節(jié)[3],實(shí)現(xiàn)信息的集中查詢。文獻(xiàn)[4]提出了一種基于分層全局 視 圖(Hierarchical-Global-As-view,HGAV)的模式映射算法,通過引入中間數(shù)據(jù)源模式,形成分層的全局視圖,以提高數(shù)據(jù)查詢效率;文獻(xiàn)[5]提出一種基于中間件的異構(gòu)數(shù)據(jù)庫訪問方法(MingleDB),結(jié)合了NoSQL和傳統(tǒng)關(guān)系型數(shù)據(jù)庫的優(yōu)點(diǎn)。這種方法在信息組織和邏輯關(guān)系表述方面,與具體信息源的數(shù)據(jù)組織結(jié)構(gòu)緊密耦合,不能解決異構(gòu)系統(tǒng)間的信息交互問題。
三是基于數(shù)據(jù)倉庫的方法,對(duì)原始數(shù)據(jù)進(jìn)行抽取、清理、加工和裝載等操作,將信息源的信息集中存儲(chǔ)到一個(gè)全局共享的數(shù)據(jù)倉庫。文獻(xiàn)[6]闡述了ETL工具在數(shù)據(jù)倉庫建設(shè)中的重要地位,提出了一個(gè)基于工作流引擎的ETL系統(tǒng)設(shè)計(jì);文獻(xiàn)[7]對(duì)數(shù)據(jù)倉庫的建模方法進(jìn)行調(diào)查和比較,指出了目前存在的問題、趨勢(shì)和解決方案。這種方法主要用于為決策分析提供數(shù)據(jù),數(shù)據(jù)倉庫中查詢操作遠(yuǎn)遠(yuǎn)多于修改和刪除等操作,并保存了大量的歷史信息,導(dǎo)致數(shù)據(jù)冗余量大,也不能解決異構(gòu)系統(tǒng)間的信息交互問題。
四是基于模式轉(zhuǎn)換的方法,即將不同信息源的信息描述模型映射到一種形式化的信息描述模型,實(shí)現(xiàn)信息的匹配及共享。文獻(xiàn)[8-9]采用基于本體的信息描述模型對(duì)戰(zhàn)場(chǎng)信息進(jìn)行一致化表示,但它更關(guān)注描述實(shí)體之間的關(guān)系,而沒有對(duì)實(shí)體描述信息的內(nèi)部邏輯進(jìn)行分析;文獻(xiàn)[10]提出了一種基于圖的實(shí)體描述模型,通過構(gòu)建實(shí)體建模元素之間的映射關(guān)系,將異構(gòu)數(shù)據(jù)源的實(shí)體模型轉(zhuǎn)換為基于圖的實(shí)體模型,同樣也沒有分析實(shí)體描述信息的內(nèi)部邏輯。這種方法需要對(duì)現(xiàn)有信息源的信息進(jìn)行全面處理,初始階段工作量較大,但是能夠有效消除信息冗余,提高信息共享的效率。
其中,模式映射通過實(shí)現(xiàn)異構(gòu)信息的一致化表示,能夠在不改變硬件設(shè)施及系統(tǒng)接口的情況下,實(shí)現(xiàn)現(xiàn)有系統(tǒng)的信息融合和共享,且具有更好的數(shù)據(jù)處理能力、兼容性、可擴(kuò)展性和重用性。目前,基于本體的知識(shí)表示在實(shí)現(xiàn)異構(gòu)信息一致表示方面得到了廣泛應(yīng)用。但是,由于本體中定義對(duì)象屬性時(shí)的自由性,會(huì)存在從某個(gè)概念出發(fā)指向概念本身的閉環(huán),或者一個(gè)概念指向多個(gè)上層概念的情況,易引起信息處理時(shí)的邏輯混亂。另外,在使用本體模型對(duì)數(shù)據(jù)進(jìn)行組織時(shí),為了保證海量信息在存儲(chǔ)形式上的一致性,通常使用(主語,謂語,賓語)的三元組形式對(duì)實(shí)體的屬性信息和實(shí)體之間的關(guān)系信息進(jìn)行描述,雖然降低了存儲(chǔ)復(fù)雜度,但影響了信息的查詢效率。
本文重點(diǎn)研究異構(gòu)信息在內(nèi)容邏輯及語義表達(dá)方面的一致性,以實(shí)體為基本信息描述單元,構(gòu)建了基于內(nèi)容和語義的通用信息描述模型,對(duì)異構(gòu)信息進(jìn)行結(jié)構(gòu)化表示和組織。該模型能夠有效表示實(shí)體描述信息基于邏輯及語義的層次關(guān)系,從而將面向比特的信息內(nèi)容進(jìn)行面向內(nèi)容邏輯關(guān)系的結(jié)構(gòu)化表示,有利于實(shí)現(xiàn)異構(gòu)信息基于內(nèi)容邏輯的融合與共享。
信息系統(tǒng)通常是面向需求的,在設(shè)計(jì)之初只關(guān)心與特定應(yīng)用目的相關(guān)的信息,而不是全面地描述研究領(lǐng)域中目標(biāo)要素的所有信息。當(dāng)試圖更全面地了解和掌握研究領(lǐng)域內(nèi)目標(biāo)要素的信息時(shí),需要在各個(gè)系統(tǒng)中共享信息。雖然面向同一領(lǐng)域的不同系統(tǒng)之間在信息描述結(jié)構(gòu)和語義表達(dá)方面存在異構(gòu),但這些異構(gòu)信息本質(zhì)上都是對(duì)同一實(shí)體空間的描述。比如,組成實(shí)體空間的實(shí)體對(duì)象的類別、屬性和狀態(tài)等實(shí)體內(nèi)部信息以及實(shí)體之間的關(guān)系。表1顯示了與實(shí)體有關(guān)的基本概念及其符號(hào)表示。
定義1(實(shí)體空間)ES=(E,A,S,CEC,R,V),其中E、A、S及R的含義見表2;CEC=∪i∈NECi表示實(shí)體類集合;V=VA∪VS,表示值域集,滿足VA=∪a∈AVa,VS=∪s∈SVs,其中Va表示屬性a的值域,Vs表示狀態(tài)s的值域。
表1 基本概念定義
實(shí)體空間是以實(shí)體為基本描述單元對(duì)現(xiàn)實(shí)世界進(jìn)行的抽象,其中A和S分別描述了實(shí)體對(duì)象的屬性和狀態(tài)信息;EC描述了實(shí)體的分類信息,反映了實(shí)體自身的一元關(guān)系;R描述了實(shí)體之間的語義關(guān)系,反映了實(shí)體之間的二元關(guān)系。當(dāng)E中每個(gè)元素的類別、屬性、狀態(tài)信息以及元素之間的關(guān)系信息得到明確后,即得到了現(xiàn)實(shí)世界的一個(gè)可觀測(cè)狀態(tài)。
由于不同系統(tǒng)在應(yīng)用需求及信息獲取能力等方面的差異,某一時(shí)刻的系統(tǒng)信息通常描述了實(shí)體空間的部分側(cè)面?;谕ㄓ眯畔⒚枋瞿P蛯?duì)不同系統(tǒng)的異構(gòu)信息進(jìn)行一致化描述,并將不同系統(tǒng)的信息進(jìn)行聚合,可以得到對(duì)于實(shí)體空間的更全面的描述。以系統(tǒng)A和系統(tǒng)B為例,可以將該問題形式化地描述為ESU={ES′A(t)∪ES′B(t)},其中ES′A(t)=φ(ESA(t)),ES′B(t)=φ(ESB(t)),,ESA(t)和ESB(t)分別表示t時(shí)刻系統(tǒng)A和系統(tǒng)B所描述的實(shí)體空間,ESU(t)表示t時(shí)刻系統(tǒng)A和B的信息合集所描述的實(shí)體空間,φ表示不同系統(tǒng)的異構(gòu)信息到通用表示信息的映射。
如圖1所示,描述實(shí)體空間的概念之間通常存在著復(fù)雜聯(lián)系。比如,實(shí)體所屬的類別在邏輯關(guān)系上存在包含及互斥等關(guān)系,實(shí)體的屬性與實(shí)體所屬的類別緊密聯(lián)系在一起,屬性與狀態(tài)之間存在著一元或多元約束關(guān)系,實(shí)體關(guān)系之間存在著分層結(jié)構(gòu)及多種語義聯(lián)系等。為此,研究與分析概念間的邏輯與語義關(guān)系,分別構(gòu)建實(shí)體類概念邏輯樹和實(shí)體關(guān)系概念邏輯樹,對(duì)系統(tǒng)概念集進(jìn)行結(jié)構(gòu)化組織,并用于對(duì)實(shí)體內(nèi)部描述信息及實(shí)體之間的關(guān)系信息進(jìn)行一致化描述。
圖1 實(shí)體、實(shí)體類、屬性和狀態(tài)之間的聯(lián)系
2.1.1 屬性概念邏輯樹
實(shí)體類之間主要包括包含、獨(dú)立、相交、同源及等價(jià)等關(guān)系。
①包含。如果{ECi→Acic,ECj→Acjc}∧Acic?Acjc,則ECi包含ECj,并將ECj稱為ECi的下位類,記為ECj?ECi。其中,如果此時(shí)不存在實(shí)體類ECk,滿足ECj?ECk?ECi,則稱ECj為ECi的直接下位類。
②互斥。如果{ECi→Acic,ECj→Acjc}∧Acic∩Acjc=?,則ECi與ECj互斥,記為ECi⊥ECj。
③相交。如果{ECi→Acic,ECj→Acjc}∧Acic∩,則ECi與ECj相交,記為ECi?ECj。
④同源。如果ECi?ECj∧ ?ECk→Ackc∧Ackc?(Acic∩Acjc)(k∈N∧k≠i∧k≠j), 則ECi與ECj同源,記為ECi?ECj。
⑤等價(jià)。如果{ECi→Acic,ECj→Acjc}∧Acic?Acjc,則ECi與ECj等價(jià),記為ECj≡ECi。
根據(jù)實(shí)體類之間的關(guān)系,可以得到表2所示的推理規(guī)則。這些規(guī)則有助于實(shí)現(xiàn)基于知識(shí)的推理,能夠在信息共享過程中提高信息搜索的查全率和準(zhǔn)確率。
表2 基于實(shí)體類關(guān)系的推理規(guī)則
如圖2所示,借助于集的圖表示法,不難理解這些規(guī)則,下面分別對(duì)規(guī)則1和規(guī)則10進(jìn)行證明。
圖2 規(guī)則的圖示
根據(jù)實(shí)體類概念之間的抽象程度和邏輯關(guān)系對(duì)實(shí)體類進(jìn)行聚合,得到實(shí)體類分類樹,顯式地描述實(shí)體類之間的邏輯層次。
定義2(實(shí)體類分類樹)設(shè)CTEC(FEC)是以FEC為根節(jié)點(diǎn),以研究領(lǐng)域中的所有實(shí)體類為其子節(jié)點(diǎn),按照實(shí)體類之間的邏輯關(guān)系組成的樹,基本結(jié)構(gòu)如圖3所示。其中,F(xiàn)EC是一個(gè)虛擬的實(shí)體類,用來表示抽象程度最高的類。設(shè)所處層級(jí)為0級(jí),其屬性集記為AEC,只包含時(shí)間和空間等為實(shí)體空間中全體實(shí)體所共有的屬性;狀態(tài)集記為SEC為空,或認(rèn)為只包含“存在”這一狀態(tài)。
圖3 實(shí)體類分類樹的結(jié)構(gòu)
命題1:如果ECj是ECi的直接下位類,ECi→Acic,ECj→Acjc,ECj?A′cj,且不存在屬性a,使得a∈ (Acjc-Acic)∧a?A′cj成立,則A′cj=Acjc-Acic。
證明:要證A′cj=Acjc-Acic,只需要證左?右,右?左。
ECj?ECi?Acic?Acjc且A′cj∩Acic=? ?(Acjc-Acic)∩Acic=?且A′cj∩Acic=?。
因 為(Acjc-Acic)?Acjc且A′cj?Acjc, 易 知A′cj?(Acjc-Acic),即左?右。
由于任意ai∈ (Acjc-Acic),ai∈A′cj成立,故右?左,從而可得左=右。
命題2:如果ECj是ECi的直接下位類,ECk是ECj的直接下位類,則A′ck=Ackc-A′cj-Acic。
證明:由命題 1得,A′cj=Acjc-Acic且A′ck=Ackc-Acjc,故A′ck=Ackc-(A′cj∪Acic)=Ackc-A′cj-Acic。
命題3:如果ECi屬于一級(jí)類,其某一條分支的子類共分為n(n∈N)級(jí),按上下位順序組成集合{ECj,ECj+1,…,ECj+n},則可以得到Ac j+nc=A′c j+n∪A′c j+n-1∪…∪Acic∪AEC。
證明:由命題1可得:
同時(shí),由定義2易知Acic=A′ci∪AEC,所以可以得到Ac j+nc=A′c j+n∪A′c j+n-1∪…∪A′ci∪AEC。
基于上述分析,提出了實(shí)體類概念邏輯樹的概念。它根據(jù)實(shí)體類分類樹的分層結(jié)構(gòu),將描述實(shí)體類別、屬性及狀態(tài)等信息的概念進(jìn)行結(jié)構(gòu)化組織,表示了實(shí)體類及相應(yīng)狀態(tài)和屬性之間存在的邏輯層次結(jié)構(gòu)。
定義3(屬性概念邏輯樹)TLEC(ECi)表示ECi的屬性概念邏輯樹,基本結(jié)構(gòu)如圖4所示。它以ECi根節(jié)點(diǎn),形式化表示為TLEC(ECi)=(ECi(S′ci∪Scio,A′cio,Aci,∪TLEC(ECj))),其 中i,j∈N,ECj∈CECi,A′cjo是根據(jù)實(shí)體類分類樹將偶有屬性集進(jìn)行分層后得到的,即如果ECj是ECi的直接下位類,則A′cjo=Acjo-Acio。
圖4 概念邏輯樹的結(jié)構(gòu)
2.1.2 實(shí)體關(guān)系概念邏輯樹
客觀存在的事物之間通常不是孤立的,相互之間存在復(fù)雜的語義聯(lián)系,稱之為實(shí)體關(guān)系。實(shí)體關(guān)系是有指向的,如表示實(shí)體e通過關(guān)系x ra與實(shí)體ey產(chǎn)生聯(lián)系。這些實(shí)體關(guān)系之間存在著包含、互斥、相容、互逆及可達(dá)等關(guān)系。
①包含。如果,則r包b含ra,記為ra?rb。
② 互 斥。 如 果, 則ra
與rb互斥,即兩個(gè)實(shí)體之間不可能同時(shí)存在ra和rb兩種關(guān)系,記為ra⊥rb。
③相容。如果兩個(gè)實(shí)體之間可以同時(shí)存在ra與rb兩種關(guān)系,則ra與rb相容,記為ra||rb。
④互逆。如果,則ra與rb互逆,記為。由于實(shí)體關(guān)系描述了兩個(gè)實(shí)體之間的相互聯(lián)系,因而對(duì)于任意ra,必然存在其逆關(guān)系rb,此時(shí)表達(dá)的語義是等價(jià)的。特別地,如果ra-1=ra,還認(rèn)為ra具有對(duì)稱性。
基于上述關(guān)系,提出了實(shí)體關(guān)系概念邏輯樹的概念。它根據(jù)實(shí)體關(guān)系之間存在的邏輯及語義聯(lián)系,將系統(tǒng)中使用的實(shí)體關(guān)系進(jìn)行分層組織。
定義4(實(shí)體關(guān)系概念邏輯樹)設(shè)TLEC(Fr)是以Fr為根節(jié)點(diǎn),以研究領(lǐng)域中定義的所有實(shí)體關(guān)系為其子節(jié)點(diǎn),按照實(shí)體關(guān)系之間的邏輯及語義關(guān)系組成的樹。其中,F(xiàn)r是一個(gè)虛擬的實(shí)體關(guān)系,用來表示抽象程度最高的實(shí)體關(guān)系。
從語義表述的角度來看,實(shí)體關(guān)系反映了實(shí)體之間的語義聯(lián)系,所以在判斷實(shí)體關(guān)系之間所滿足的關(guān)系時(shí),主要依據(jù)該實(shí)體關(guān)系所表達(dá)的語義進(jìn)行判別。構(gòu)建實(shí)體關(guān)系概念邏輯樹,明確實(shí)體關(guān)系之間的分類層次,有利于進(jìn)一步明確實(shí)體關(guān)系之間的推理規(guī)則,在獲取實(shí)體描述信息的基礎(chǔ)上實(shí)現(xiàn)基于語義的推理。表3顯示了基于實(shí)體關(guān)系的部分推理規(guī)則。
表3 基于實(shí)體關(guān)系的推理規(guī)則
概念邏輯樹表示了概念之間的邏輯層次,根據(jù)概念邏輯樹模型設(shè)計(jì)相應(yīng)的通用信息描述模板,可用于對(duì)實(shí)體內(nèi)部描述信息進(jìn)行結(jié)構(gòu)化表示和組織。此過程中,構(gòu)建一個(gè)共享的全局概念邏輯樹,實(shí)現(xiàn)異構(gòu)信息的通用描述和一致化表示。為確保概念邏輯樹構(gòu)建過程中所使用概念集的通用性,概念的選擇應(yīng)基于研究領(lǐng)域內(nèi)的共識(shí),以保證不同系統(tǒng)對(duì)概念語義的正確理解,確保對(duì)異構(gòu)信息的正確處理。同時(shí),設(shè)計(jì)不同系統(tǒng)所使用的概念集到共享概念邏輯樹的映射,從而使全局概念邏輯樹有效覆蓋不同系統(tǒng)的信息表達(dá)范圍,即基于每個(gè)系統(tǒng)構(gòu)造的局部概念邏輯樹是全局概念邏輯樹的子樹。
構(gòu)建概念樹時(shí)通??刹捎米皂斚蛳?、自底向上或兩者結(jié)合使用的方法。其中,采用自頂向下的方法時(shí),需要對(duì)領(lǐng)域內(nèi)的基本概念具有全面的了解和掌握,通常需要精通領(lǐng)域知識(shí)的專家參與,且很難進(jìn)行自動(dòng)構(gòu)建;采用自底向上的方法時(shí),可基于現(xiàn)有系統(tǒng)使用的概念集自動(dòng)構(gòu)建概念樹,而后進(jìn)行修改和調(diào)整,能夠較好地實(shí)現(xiàn)對(duì)現(xiàn)有系統(tǒng)概念集的語義覆蓋。
以目標(biāo)系統(tǒng)A和B為例,自底向上構(gòu)建實(shí)體類概念邏輯樹的基本流程如圖5所示,主要分為以下幾個(gè)步驟。
①分別從目標(biāo)信息系統(tǒng)中獲取概念集,并將概念集按照(ECi,Aci,Sci)的三元組形式進(jìn)行組織,即將描述同一實(shí)體類的屬性集及概念集與該實(shí)體類進(jìn)行關(guān)聯(lián)。
②通過概念相似度計(jì)算,將不同系統(tǒng)概念集中相似的概念替換成通用概念,并建立被替換概念到通用概念的映射,從而將來自兩個(gè)系統(tǒng)的概念集進(jìn)行約簡(jiǎn)及合并,構(gòu)造一個(gè)通用概念集。
③對(duì)通用概念集中的概念進(jìn)行篩選,將共有屬性集與偶有屬性集分離。
④基于實(shí)體類的共有屬性集,通過自底向上逐層聚合構(gòu)造實(shí)體類的分層結(jié)構(gòu)。以表4為例,行表示實(shí)體類,列表示屬性。如果第i行第j的元素為★,則表示第i個(gè)實(shí)體類的共有屬性集中包含第j個(gè)屬性。依據(jù)表4構(gòu)建概念格[11],然后確定各實(shí)體類的特征概念集,將概念格進(jìn)行裁剪,去除不需要的概念節(jié)點(diǎn),得到最終的實(shí)體類分類樹,如圖6所示。其中,EC(i⊕j)表示ECi與ECj的共同直接上位類。
⑤基于實(shí)體類分類樹,將實(shí)體類的偶有屬性集及狀態(tài)集進(jìn)行分層,其中偶有屬性集的分層基于父類與子類之間的繼承特性,狀態(tài)集的分層基于其與相應(yīng)屬性集的約束關(guān)系。
圖5 概念邏輯樹的構(gòu)建流程
表4 篩選后的概念集
圖6 實(shí)體類分類樹的構(gòu)建
實(shí)體關(guān)系概念邏輯樹的構(gòu)建算法如下:
分別從系統(tǒng)A和系統(tǒng)B中獲取實(shí)體關(guān)系概念集Ra和Rb;
Ru=Merge(Ra,Rb);
Nr=Num(Ru)+1;
rNr=Fr
for (i=1,i++,i<Nr+1)
Fri=0;
while (?Fri==0∧ri≠Fr)
do {
for (i=1,,i<Nr+1)
if(Fri==0∧ri≠Fr)
rf=Father(ri);
if(rf∈Ru) thenFri=1, 添加從rf到ri的邊,i++;
elseRu=Ru∪rf,Nr++,rNr=rf,FrNr=0,i++;
elsei++;}
returnTLEC(Fr);
end;
其中,Merge(Ra,Rb)表示概念集合并函數(shù),用于將不同系統(tǒng)的概念集進(jìn)行合并;Nr表示Ru中實(shí)體關(guān)系的數(shù)量;Fri用于標(biāo)記ri的父節(jié)點(diǎn)是否已經(jīng)找到,當(dāng)Fri為1時(shí)表示ri的父節(jié)點(diǎn)已經(jīng)找到;Father(ri)表示父節(jié)點(diǎn)查找函數(shù),用于從通用詞典中查找ri的父節(jié)點(diǎn)。
按照上述模型對(duì)異構(gòu)信息進(jìn)行通用描述時(shí),針對(duì)實(shí)體內(nèi)部描述信息,根據(jù)實(shí)體類概念邏輯樹的結(jié)構(gòu)形式,使用類XML語言設(shè)計(jì)通用信息描述模板,并按照模板對(duì)不同系統(tǒng)的異構(gòu)信息進(jìn)行結(jié)構(gòu)化表示,進(jìn)而以實(shí)體為基本單元對(duì)實(shí)體描述信息進(jìn)行集中組織和存儲(chǔ),即使用XML文檔Doci集中存儲(chǔ)實(shí)體ei的描述信息,并將XML文檔構(gòu)成的全集記為FE。針對(duì)實(shí)體之間的關(guān)系信息,采用(ei,rij,ej)的組織形式進(jìn)行描述,并采用關(guān)系矩陣RM對(duì)實(shí)體關(guān)系信息進(jìn)行集中存儲(chǔ)。假設(shè)實(shí)體空間中有n個(gè)實(shí)體,則RM可以表示為:
其中,rij表示ei到ej的語義關(guān)系;如果ei到ej不存在任何語義關(guān)系,記rij=NULL;rii則用于存儲(chǔ)ei的身份標(biāo)識(shí),記為rii=Iei。根據(jù)之前的分析可知,
通過實(shí)現(xiàn)不同系統(tǒng)實(shí)體描述信息的集中存儲(chǔ),構(gòu)建統(tǒng)一信息空間。
定義5(統(tǒng)一信息空間)統(tǒng)一信息空間(Unified Information Space,UIS)是指以實(shí)體為基本信息描述單元,將來自不同系統(tǒng)的實(shí)體描述信息進(jìn)行集中組織和存儲(chǔ)而形成的信息總集。比如,由系統(tǒng)A和B的實(shí)體描述信息構(gòu)建的UIS即可表示為UIS={FEA′RMA}∪ {FEB′ RMB}。
基于統(tǒng)一信息空間能夠?qū)崿F(xiàn)不同系統(tǒng)間異構(gòu)信息的有效共享,基本框架如圖7所示。首先,基于通用信息描述模型對(duì)不同系統(tǒng)的異構(gòu)信息進(jìn)行一致化表示,將面向比特的無結(jié)構(gòu)信息轉(zhuǎn)換為面向內(nèi)容邏輯的結(jié)構(gòu)化信息;其次,將描述同一實(shí)體的信息進(jìn)行融合,以消除信息冗余,并對(duì)UIS進(jìn)行更新;當(dāng)系統(tǒng)內(nèi)的終端需要獲取某些信息時(shí),向UIS發(fā)送信息查詢請(qǐng)求,并通過概念映射將各個(gè)信息系統(tǒng)的本地概念替換成通用概念,按照查詢條件對(duì)UIS進(jìn)行查詢后,將查詢結(jié)果反饋給系統(tǒng)終端,實(shí)現(xiàn)信息的被動(dòng)共享;當(dāng)某個(gè)系統(tǒng)終端獲取重要信息時(shí),可以通過UIS向其他系統(tǒng)的終端進(jìn)行廣播,實(shí)現(xiàn)信息的主動(dòng)共享。
圖7 異構(gòu)信息共享框架
概念邏輯樹是一種概念模型,以樹的結(jié)構(gòu)描述概念之間的邏輯層次和語義關(guān)系,以結(jié)構(gòu)化的方式組織實(shí)體的異構(gòu)描述信息,有助于驗(yàn)證異構(gòu)信息的邏輯完整性和語義正確性,確保信息融合的正確性。此外,它有助于提高查詢效率。例如,當(dāng)查詢的實(shí)體信息屬性值在一定范圍內(nèi)時(shí),這個(gè)屬性的級(jí)別l可以通過查詢概念邏輯樹來確定。這樣可以直接搜索的信息在l級(jí)隨后的查詢中,可以有效縮短查詢時(shí)間。
總的來說,在實(shí)現(xiàn)異構(gòu)信息共享方面,使用概念邏輯樹模型對(duì)異構(gòu)信息進(jìn)行描述和組織,主要具有以下幾個(gè)方面的優(yōu)點(diǎn)。
(1)采用樹結(jié)構(gòu)對(duì)概念之間的邏輯關(guān)系進(jìn)行規(guī)范,結(jié)構(gòu)性及可理解性好,能夠有效避免指向概念自身的閉環(huán)及一個(gè)概念指向多個(gè)上層概念的問題,有助于驗(yàn)證信息的邏輯正確性和語義完整性。
(2)在信息組織方面結(jié)合層狀結(jié)構(gòu)與網(wǎng)狀結(jié)構(gòu)的優(yōu)點(diǎn),有助于提高信息查詢效率。例如,當(dāng)需要根據(jù)實(shí)體的屬性值查詢實(shí)體信息時(shí),可首先通過查詢概念邏輯樹得到屬性所處的位置,在隨后的查詢中找到存儲(chǔ)實(shí)體描述信息的文檔后,可以直接在對(duì)應(yīng)的位置查詢相應(yīng)屬性的取值,以確定是否滿足查詢條件,能夠有效縮短查詢時(shí)間。此外,采用圖結(jié)構(gòu)對(duì)實(shí)體之間的關(guān)系信息進(jìn)行結(jié)構(gòu)化組織,能夠直觀表示出實(shí)體之間的語義聯(lián)系,有利于實(shí)現(xiàn)基于關(guān)系的推理及基于語義的信息查詢。
(3)在概念邏輯樹的構(gòu)建過程中,基于不同系統(tǒng)概念集構(gòu)建通用概念集,能夠有效覆蓋不同系統(tǒng)概念集的語義覆蓋,具有較好的共享性。針對(duì)不同的領(lǐng)域,均可以根據(jù)各自領(lǐng)域內(nèi)的概念集構(gòu)建適用于相應(yīng)領(lǐng)域的概念邏輯樹,使得模型具有較好的可擴(kuò)展性和重用性。
為了解決不同系統(tǒng)之間異構(gòu)信息共享面臨的困難,本文提出了一種基于結(jié)構(gòu)化概念邏輯樹的異構(gòu)信息描述模型,實(shí)現(xiàn)了異構(gòu)信息的通用結(jié)構(gòu)化描述。該模型能夠有效表示實(shí)體描述信息基于語義及邏輯的層次關(guān)系,實(shí)現(xiàn)異構(gòu)信息之間潛在相關(guān)性的顯性表示,從而消除不同信息格式對(duì)信息無損交互及共享造成的困難,具有良好的結(jié)構(gòu)性和擴(kuò)展性。未來將對(duì)基于概念邏輯樹的異構(gòu)信息融合算法以及基于語義邏輯的自動(dòng)推理機(jī)制進(jìn)行研究,以進(jìn)一步提高該模型的綜合性能。