王 建 閆丹鳳 宋 巍 黃冬梅,2 鄭小羅 王 軍
1 上海海洋大學(xué)信息學(xué)院,上海,201306 2 上海電力大學(xué),上海,200090
隨著智慧海洋工程的推進(jìn)和海洋信息化的發(fā)展,中國(guó)在海洋資源、經(jīng)濟(jì)、生態(tài)環(huán)境等領(lǐng)域獲得了大量數(shù)據(jù),同時(shí),海洋信息獲取技術(shù)早已超出了海面二維的范疇,延伸到了整個(gè)海洋三維一體化的空間范圍[1]。如何加強(qiáng)海洋三維數(shù)據(jù)的科學(xué)管理以及實(shí)現(xiàn)數(shù)據(jù)高效共享成為了當(dāng)前的第一要?jiǎng)?wù)。但海洋數(shù)據(jù)采集設(shè)備、處理平臺(tái)、數(shù)據(jù)存儲(chǔ)格式等差異造成了數(shù)據(jù)的語(yǔ)義異構(gòu)問(wèn)題,為數(shù)據(jù)的集成、交換和共享帶來(lái)了困難;同時(shí)在海洋三維信息檢索方面,傳統(tǒng)的關(guān)鍵詞匹配具有數(shù)據(jù)檢索效率低等諸多問(wèn)題。
張峰[2]通過(guò)分析比較傳統(tǒng)的數(shù)據(jù)集成方案,得出本體是解決語(yǔ)義異構(gòu)較好的辦法。本體作為一種特殊類型的術(shù)語(yǔ)集,不僅能夠表達(dá)對(duì)象的概念及屬性,還能定義實(shí)例間的關(guān)系,在海洋領(lǐng)域中已有廣泛應(yīng)用。
針對(duì)本體在海洋領(lǐng)域中的管理與共享問(wèn)題,Bermudez 等[3]創(chuàng)建了基于現(xiàn)有詞匯表的海洋本體;云紅艷等[4]構(gòu)建了海洋生態(tài)本體模型和海洋生態(tài)形式化本體,使海洋生態(tài)數(shù)據(jù)能夠高效共享;Wang等[5]建立了基于海洋地球化學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的海洋樣本本體。考慮到空間數(shù)據(jù)的屬性與空間位置信息具有直接關(guān)聯(lián)的特點(diǎn)[6],通過(guò)空間關(guān)聯(lián)性查詢可有效提高查全率與查準(zhǔn)率。黃茂軍等[7]建立了能夠表達(dá)空間特性的地理本體;馬雷雷[8]提出了符合常識(shí)空間認(rèn)知的二維空間本體模型;Zhang 等[9]在對(duì)地理關(guān)系進(jìn)行語(yǔ)義分析的基礎(chǔ)上,建立了地理對(duì)象空間關(guān)系的本體知識(shí)庫(kù);Huang 等[10]建立了二維空間關(guān)系的海洋科學(xué)數(shù)據(jù)本體,實(shí)現(xiàn)了海洋科學(xué)數(shù)據(jù)共享。
綜上,現(xiàn)有研究缺乏基于三維空間關(guān)系的海洋本體模型。因此,本文構(gòu)建了考慮三維空間關(guān)系的海洋科學(xué)數(shù)據(jù)本體。針對(duì)本體中三維空間關(guān)系的表達(dá),提出了適合海洋數(shù)據(jù)的三維空間關(guān)系模型。同時(shí),基于語(yǔ)義網(wǎng)規(guī)則語(yǔ)言(semantic web rule language,SWRL)構(gòu)建了包含三維空間關(guān)系的海洋本體的推理規(guī)則集,實(shí)現(xiàn)了更精確的海洋數(shù)據(jù)的空間位置檢索,為海洋數(shù)據(jù)的共享提供了有效解決方案。
目前,通用的本體構(gòu)建方法主要有骨架法、七步法、TOVE(Toronto virtual enterprise)等。本文在七步法的基礎(chǔ)上設(shè)計(jì)了海洋科學(xué)數(shù)據(jù)空間本體構(gòu)建流程,具體如下:
1)確定本體的應(yīng)用范圍為海洋領(lǐng)域。研究目的是建立海洋科學(xué)數(shù)據(jù)本體,輔助海洋數(shù)據(jù)的管理及關(guān)聯(lián)查找。
2)對(duì)現(xiàn)有的海洋本體進(jìn)行歸納總結(jié)。目前對(duì)海洋本體的研究多從語(yǔ)義及二維空間關(guān)系角度開(kāi)展,沒(méi)有從三維空間關(guān)系角度展開(kāi)的研究。
3)根據(jù)海洋信息元數(shù)據(jù)標(biāo)準(zhǔn)提供的元素信息定義海洋科學(xué)數(shù)據(jù)的概念及屬性,并確定其等級(jí)體系。
4)構(gòu)建海洋科學(xué)數(shù)據(jù)的三維空間關(guān)系模型,確定海洋科學(xué)數(shù)據(jù)的對(duì)象屬性。
5)根據(jù)對(duì)象屬性構(gòu)建合理的海洋本體推理規(guī)則集,實(shí)現(xiàn)實(shí)例之間的知識(shí)推理。
6)通過(guò)本體構(gòu)建軟件構(gòu)建海洋科學(xué)數(shù)據(jù)本體,包括構(gòu)建語(yǔ)義概念、數(shù)據(jù)屬性、對(duì)象屬性、推理規(guī)則。根據(jù)實(shí)例的地理位置信息進(jìn)行分析,獲得實(shí)例之間的空間關(guān)系,并以此搭建本體知識(shí)庫(kù)。
7)對(duì)海洋科學(xué)數(shù)據(jù)本體進(jìn)行歸檔。
通過(guò)定義和描述與海洋科學(xué)數(shù)據(jù)相關(guān)的語(yǔ)義概念、數(shù)據(jù)屬性和對(duì)象屬性,從而構(gòu)建較為完整的海洋科學(xué)數(shù)據(jù)本體。其中,語(yǔ)義概念是對(duì)事物本質(zhì)屬性的概括性描述;數(shù)值屬性描述類的屬性;對(duì)象屬性描述類、實(shí)例之間的關(guān)系,如語(yǔ)義關(guān)系、空間關(guān)系等。
海洋信息元數(shù)據(jù)標(biāo)準(zhǔn)中定義了建立海洋數(shù)據(jù)集所需的核心元數(shù)據(jù)元素,如數(shù)據(jù)集名稱、負(fù)責(zé)單位、地理位置、水深覆蓋范圍、語(yǔ)種、專題類別等。文獻(xiàn)[10]中歸納總結(jié)了海洋數(shù)據(jù)的特征,將其語(yǔ)義概念劃分為3 大類:數(shù)據(jù)來(lái)源、數(shù)據(jù)形態(tài)、數(shù)據(jù)本質(zhì)。本文根據(jù)劃分依據(jù),對(duì)海洋信息元數(shù)據(jù)標(biāo)準(zhǔn)中定義的必選元素和部分推薦可選元素進(jìn)行了語(yǔ)義劃分,并設(shè)計(jì)了概念之間的子類-父類關(guān)系(subClassof),構(gòu)建了圖1 所示的概念層次,其中,實(shí)線代表類之間的sub-Classof 關(guān)系。將具有描述性的元素,如開(kāi)始時(shí)間、經(jīng)緯度、數(shù)據(jù)質(zhì)量描述等作為數(shù)值屬性。
圖1 海洋科學(xué)數(shù)據(jù)語(yǔ)義概念分類Fig.1 Classification of Semantic Concepts in Marine Science Data
海洋三維空間關(guān)系是指海洋數(shù)據(jù)之間存在的與空間特性有關(guān)的關(guān)系,如度量關(guān)系、方位關(guān)系、拓?fù)潢P(guān)系等。三維空間關(guān)系的確定是構(gòu)建海洋科學(xué)數(shù)據(jù)本體對(duì)象屬性的重要內(nèi)容,也是建立空間數(shù)據(jù)關(guān)聯(lián)的核心。其中,方位關(guān)系和拓?fù)潢P(guān)系是空間關(guān)系研究的重點(diǎn)[11]。關(guān)于度量關(guān)系的相關(guān)研究已經(jīng)比較成熟,故本文不再贅述。
2.2.1 三維拓?fù)潢P(guān)系
拓?fù)潢P(guān)系是空間關(guān)系中最基本、最重要的關(guān)系,也是空間查詢和推理的基礎(chǔ),主要表現(xiàn)為空間對(duì)象之間的相鄰、分離和包含等關(guān)系[12,13]。目前拓?fù)淠P头譃镹-交集模型和區(qū)域連接演算(region connection calculus,RCC)理論。
通過(guò)對(duì)現(xiàn)有拓?fù)潢P(guān)系模型的分析對(duì)比,以及結(jié)合海洋科學(xué)數(shù)據(jù)的特點(diǎn),本文對(duì)維數(shù)擴(kuò)展9交矩陣模型(dimensionally extended nine - intersection model,DE-9IM)的取值進(jìn)行三維擴(kuò)展,從而實(shí)現(xiàn)三維拓?fù)潢P(guān)系的表達(dá)。該模型矩陣表示如下:
式中,A0、B0分別表示空間對(duì)象A、B的內(nèi)部;?A、?B分別表示空間對(duì)象A、B的邊界;A-、B-分別表示空間對(duì)象A、B的外部。
在三維空間拓?fù)潢P(guān)系表達(dá)中,將空間目標(biāo)交集擴(kuò)展到三維,其交集結(jié)果的維數(shù)取值為{-1,0,1,2,3},依次代表交集為空、交集為點(diǎn)、交集為線、交集為面、交集為體。
2.2.2 三維方位關(guān)系
方位關(guān)系是指對(duì)象之間方向與位置的相對(duì)關(guān)系。最基本的三維空間方位關(guān)系是3DR7模型中的7 種方位關(guān)系,包括上、中、下、東、西、南、北。考慮到海洋科學(xué)數(shù)據(jù)的特點(diǎn),現(xiàn)有方位關(guān)系模型不能較好地滿足海洋數(shù)據(jù)的方位關(guān)系劃分,主要體現(xiàn)在兩個(gè)方面:
1)現(xiàn)有的方位模型雖然滿足了對(duì)外方位的劃分,但部分方位模型(3DR7、3DR27[14]、3DR39[15])沒(méi)有考慮內(nèi)方位關(guān)系,無(wú)法表達(dá)兩個(gè)對(duì)象在空間中相交的具體方位關(guān)系。
2)海洋科學(xué)數(shù)據(jù)的深度信息十分重要,在其對(duì)內(nèi)部方位關(guān)系劃分時(shí),需要著重考慮對(duì)深度的劃分。而 現(xiàn) 有 的 考 慮 內(nèi) 方 位 關(guān) 系 的 模 型(3DR44[16]、3DR46[17])重點(diǎn)研究其水平方位的劃分,忽略了其深度上的方位關(guān)系。
針對(duì)以上問(wèn)題,需要對(duì)海洋科學(xué)數(shù)據(jù)的內(nèi)部方位進(jìn)一步劃分,且內(nèi)方位的劃分重點(diǎn)應(yīng)在深度方向。本文提出了一種考慮內(nèi)方位的三維空間模型——3DR29 模型,將空間方位劃分為29個(gè)區(qū)域,模型示意圖見(jiàn)圖2。該三維方位關(guān)系模型中,o表示外方位;i表示內(nèi)方位;O代表每層方位中間的方位。以參照對(duì)象的最小外接立方體表示對(duì)象本身,延伸對(duì)象的最小外接立方體邊,將外部的三維空間劃分為27個(gè)區(qū)域,形成27個(gè)外方位,分別采用下標(biāo)U、R、D代表上方位、正方位和下方位,如上方位有9個(gè):(正上方)、(上方東)、(上方南)、(上方西)、(上方北)、(上方西北)、(上方東北)、(上方西南)、(上方東南),其余方位以此類推。將內(nèi)部區(qū)域劃均分為3個(gè)區(qū)域,分別表示為(上方)、(中間)、(下方)。其模型矩陣如式(2)所示,若源目標(biāo)位于參考目標(biāo)的某一方位區(qū)域,則矩陣中相應(yīng)的方位交集取值為1,否則為0。
圖2 3DR29 模型示意圖Fig.2 Diagram of 3DR29 Model
本體推理是指在計(jì)算機(jī)中實(shí)現(xiàn)基于知識(shí)的推理,即根據(jù)已知的相關(guān)理論定義推理規(guī)則集,借助本體推理機(jī)實(shí)現(xiàn)對(duì)數(shù)據(jù)關(guān)系的定性分析和處理。
引入本體推理后,可以通過(guò)已知的關(guān)系獲得隱含的關(guān)系,完善和加強(qiáng)海洋數(shù)據(jù)之間的聯(lián)系,也可以檢測(cè)本體定義過(guò)程中是否存在沖突,保證本體的一致性,優(yōu)化本體的構(gòu)建[18]。此外,由于目前本體實(shí)例及關(guān)系大多是手動(dòng)搭建的,引入空間關(guān)系推理后,能有效減少構(gòu)建本體關(guān)系的工作量。例如,n條數(shù)據(jù)兩兩分析,存在n(n- 1 ) 條拓?fù)潢P(guān)系,而引入推理后,最多只需建立條空間關(guān)系,即可得到所有關(guān)系。
本文根據(jù)對(duì)象屬性的特征以及自定義推理規(guī)則集實(shí)現(xiàn)本體推理。
1)根據(jù)對(duì)象屬性特征的推理。對(duì)象屬性的屬性特性包括對(duì)稱性、傳遞性、互逆性等。通過(guò)定義屬性特性,可實(shí)現(xiàn)簡(jiǎn)單的推理。表1 定義了拓?fù)潢P(guān)系的屬性特征。
表1 拓?fù)潢P(guān)系屬性特征Tab.1 Property Characteristics of Topological Relations
2)基于三維空間關(guān)系自定義推理規(guī)則。由于海洋本體的空間關(guān)系錯(cuò)綜復(fù)雜,只定義對(duì)象屬性特征并不能滿足復(fù)雜空間關(guān)系推理的要求,因此需要自定義推理規(guī)則,從而實(shí)現(xiàn)較完備的本體庫(kù)推理。
本文采用SWRL 定義推理規(guī)則,該規(guī)則包括前提(head)和結(jié)論(body)兩部分。表示形式為head→body。表2 展示了部分自定義的SWRL 推理規(guī)則,包括規(guī)則表達(dá)式以及對(duì)應(yīng)的語(yǔ)義描述。
表2 空間推理規(guī)則實(shí)例Tab.2 Examples of Spatial Inference Rules
本文將國(guó)家極地科學(xué)數(shù)據(jù)中心(Chinese National Arctic and Antarctic Data Center,NADC)的公開(kāi)數(shù)據(jù)集作為海洋科學(xué)數(shù)據(jù)本體庫(kù)的數(shù)據(jù)源。該數(shù)據(jù)中心記錄了自20世紀(jì)80年代至今中國(guó)主要的極地科學(xué)數(shù)據(jù),共存儲(chǔ)1 097 條數(shù)據(jù)。使用Protege5.5.0 軟件搭建了海洋科學(xué)數(shù)據(jù)空間本體,并利用中國(guó)極地重點(diǎn)研究區(qū)域普里茲灣地區(qū)具有地理信息的數(shù)據(jù)構(gòu)建了本體實(shí)例。
根據(jù)極地普里茲灣地區(qū)海洋數(shù)據(jù)中的空間位置信息,共建立了1 226 條三維拓?fù)潢P(guān)系,經(jīng)對(duì)象屬性特征和自定義推理規(guī)則集推理可得2 531 條三維空間拓?fù)潢P(guān)系。以“2007/2008年中國(guó)第24 次南極考察普里茲灣葉綠素a 樣品數(shù)據(jù)”為例,推理前已知且與本條數(shù)據(jù)存在空間相交的數(shù)據(jù)共有6 條。利用本文提出的三維空間關(guān)系的海洋本體推理規(guī)則進(jìn)行推理后,得到了9 條與該條數(shù)據(jù)存在空間關(guān)系的數(shù)據(jù),實(shí)現(xiàn)了實(shí)體關(guān)系擴(kuò)充,使得海洋科學(xué)數(shù)據(jù)本體中實(shí)例之間的關(guān)系更加完整。
本文從查準(zhǔn)率與查全率兩方面對(duì)海洋空間本體庫(kù)進(jìn)行查詢結(jié)果分析。在查準(zhǔn)率方面,相較于二維空間關(guān)系檢索,基于三維空間關(guān)系的檢索更精準(zhǔn)。三維空間關(guān)系檢索過(guò)濾了投影到二維平面后存在相交但在深度上無(wú)交集的數(shù)據(jù),提高了檢索的查準(zhǔn)率。表3 列舉了部分?jǐn)?shù)據(jù)在二維空間關(guān)系和三維空間關(guān)系中的檢索結(jié)果。例如,當(dāng)檢索“中國(guó)第15 次南極考察普里茲灣葉綠素測(cè)量數(shù)據(jù)”時(shí),利用考慮二維空間關(guān)系的方法進(jìn)行檢索,結(jié)果包含52 條數(shù)據(jù),其中存在25 條在空間中并不相關(guān)的數(shù)據(jù),查準(zhǔn)率為51.9%;而通過(guò)本文方法檢索到27 條數(shù)據(jù),查準(zhǔn)率為100%。在查全率方面,使用關(guān)鍵字進(jìn)行查詢時(shí),國(guó)家極地科學(xué)數(shù)據(jù)中心網(wǎng)站只能檢索到標(biāo)題中包含關(guān)鍵字的數(shù)據(jù),數(shù)據(jù)關(guān)聯(lián)性較弱;而在海洋空間本體中還可以檢索到在空間位置上與之關(guān)聯(lián)的數(shù)據(jù),同時(shí)可實(shí)現(xiàn)海洋科學(xué)數(shù)據(jù)多學(xué)科交叉查詢。例如,當(dāng)要檢索普里茲灣葉綠素?cái)?shù)據(jù)并對(duì)其進(jìn)行葉綠素含量的影響因子分析時(shí),在國(guó)家極地科學(xué)數(shù)據(jù)中心網(wǎng)站只能檢索到4條包含普里茲灣葉綠素關(guān)鍵字的數(shù)據(jù)信息;而在本文構(gòu)建的本體庫(kù)中可檢索到7 條數(shù)據(jù),其中,“普里茲灣營(yíng)養(yǎng)鹽”“DO 數(shù)據(jù)”“CTD 數(shù)據(jù)”等,均為同區(qū)域范圍內(nèi)影響葉綠素含量的關(guān)聯(lián)數(shù)據(jù)。
表3 基于二維和三維空間關(guān)系的數(shù)據(jù)檢索結(jié)果統(tǒng)計(jì)Tab.3 Statistics of Search Results Based on 2D and 3D Spatial Relations
經(jīng)以上對(duì)比分析可知,一方面,基于海洋科學(xué)數(shù)據(jù)空間本體的檢索充分利用了海洋科學(xué)數(shù)據(jù)的空間位置信息,實(shí)現(xiàn)了數(shù)據(jù)空間關(guān)聯(lián)查找,極大提高了查全率與查準(zhǔn)率,優(yōu)化了查詢結(jié)果;另一方面,通過(guò)本體庫(kù)進(jìn)行跨學(xué)科數(shù)據(jù)檢索時(shí),可獲取同區(qū)域不同學(xué)科要素的數(shù)據(jù),方便了數(shù)據(jù)的獲取,為多學(xué)科數(shù)據(jù)分析提供了有力支撐。
針對(duì)海洋數(shù)據(jù)的多源異構(gòu)問(wèn)題及其空間性,本文構(gòu)建了海洋空間本體,并以國(guó)家極地?cái)?shù)據(jù)中心的數(shù)據(jù)為海洋本體實(shí)例進(jìn)行了實(shí)驗(yàn)分析。在海洋空間本體構(gòu)建過(guò)程中,針對(duì)海洋科學(xué)數(shù)據(jù)的特點(diǎn),定義了適合的拓?fù)潢P(guān)系表達(dá)方式,并提出一種改進(jìn)的三維方位關(guān)系表示模型;同時(shí)引入本體推理,構(gòu)建了空間關(guān)系推理規(guī)則集,進(jìn)一步完善了海洋空間本體。實(shí)驗(yàn)證明,對(duì)于海洋空間數(shù)據(jù),通過(guò)海洋空間本體查詢可以獲得更精確且關(guān)聯(lián)性強(qiáng)的信息,有效解決了使用關(guān)鍵詞查詢時(shí)得到的信息關(guān)聯(lián)性弱、查全率與查準(zhǔn)率低等問(wèn)題。
但由于大部分實(shí)例和關(guān)系通過(guò)手工構(gòu)建,工作繁多且效率較低,因此,實(shí)現(xiàn)本體的自動(dòng)構(gòu)建將是下一步的研究重點(diǎn)。