楊孟翰 王方民 劉康甯 陳林
(重慶市地理信息和遙感應(yīng)用中心,重慶 401147)
本文介紹了一種用于表示地理實體和社會實體的知識圖譜的本體設(shè)計和相關(guān)應(yīng)用場景。傳統(tǒng)地理信息系統(tǒng)(GIS)在城市規(guī)劃、環(huán)境監(jiān)測和災(zāi)害管理等多個領(lǐng)域都扮演著重要角色。然而,當(dāng)今社會的高速發(fā)展和行業(yè)融合帶來了跨領(lǐng)域合作的必然趨勢,也給GIS系統(tǒng)帶來諸多挑戰(zhàn)。例如,處理日益復(fù)雜的空間數(shù)據(jù)(包括衛(wèi)星影像、地圖和基于位置的服務(wù)等不同類型的數(shù)據(jù));在整合其他領(lǐng)域各類數(shù)據(jù)時,遭遇越來越多的困難。通常在使用GIS 的同時,還需借助其他領(lǐng)域的專家進行輔助,才能實現(xiàn)較為復(fù)雜和跨領(lǐng)域的分析[1]。綜上所述,GIS 的實用性和應(yīng)用范 圍受到了巨大限制。
為應(yīng)對這些挑戰(zhàn),研究人員開始把目光投向知識圖譜。知識圖譜是一種靈活且可擴展的數(shù)據(jù)建模和應(yīng)用方式,對于多源異構(gòu)數(shù)據(jù)的整合、查詢和應(yīng)用分析、知識服務(wù)等方向都有非常強大的能力。知識圖譜源自人工智能領(lǐng)域,并由谷歌和微軟等搜索引擎推廣[2]。在知識圖譜中,信息不再以一組組不相關(guān)的數(shù)據(jù)點的形式呈現(xiàn),而是以更結(jié)構(gòu)化、互聯(lián)的方式來表示,同時,數(shù)據(jù)以節(jié)點及其關(guān)系和屬性的形式進行表達,從而創(chuàng)造出圖形結(jié)構(gòu),實現(xiàn)更有效的數(shù)據(jù)處理和分析。知識圖譜已經(jīng)在各個領(lǐng)域展現(xiàn)了其價值,例如自然語言處理、數(shù)據(jù)集成和知識管理等[3]。
本文主要研究地理實體和社會實體知識圖譜的本體設(shè)計和應(yīng)用方向。本體設(shè)計包括本體的構(gòu)建方法、概念和關(guān)系的層級設(shè)計、本體設(shè)計的表達及本體的評估方法。同時本文還分析了地理實體和社會實體知識圖譜的應(yīng)用方向。在研究多源異質(zhì)數(shù)據(jù)融合、空間查詢、城市規(guī)劃、災(zāi)害評估管理等相關(guān)應(yīng)用場景后,確認了地理實體和社會實體知識圖譜的意義和發(fā)展方向。
本體是對一定范圍內(nèi)的概念和關(guān)系進行知識表示的一種形式,是構(gòu)建知識圖譜的關(guān)鍵。在知識圖譜中,本體主要用于定義和組織圖譜中所代表的實體和關(guān)系,以提供對不同領(lǐng)域的用戶和場景中實體和關(guān)系含義的共同理解,從而實現(xiàn)數(shù)據(jù)融合的功能[4]。本體的構(gòu)建還可以確保圖譜中數(shù)據(jù)的一致性、準確性和完整性,并為有效的推理、推斷和決策提供支持[4]。所謂的 “本體庫”是指包含無數(shù)概念和概念關(guān)系的庫,本體是數(shù)據(jù)集成、共享和發(fā)現(xiàn)的主要工具,本體本身也可以被重復(fù)利用[5]。因此,本體設(shè)計需要相關(guān)領(lǐng)域的專業(yè)知識和專業(yè)的表達方式。
構(gòu)建知識圖譜的本體設(shè)計目前包括自頂向下、自底向上和中間開展的方法[6]。自頂向下的方法首先需要從領(lǐng)域的高層次概念入手,然后逐漸建立具體和詳細的概念和關(guān)系。當(dāng)領(lǐng)域已經(jīng)被明確定義,且對需要表示的概念和關(guān)系有清晰認識時,自頂向下的方法非常有效。自底向上的方法則是從具體的實例和關(guān)系入手,然后將其歸納為更抽象的概念和關(guān)系。這種方法通??梢园l(fā)現(xiàn)新的概念和關(guān)系。當(dāng)領(lǐng)域復(fù)雜而不確定時,自底向上方法的效果通常更為理想。中間開展的方法,也被稱為混合方法,結(jié)合了自頂向下和自底向上方法的特點,從提供領(lǐng)域一般框架的中層概念開始,隨著發(fā)現(xiàn)新的概念和關(guān)系的增加,添加新的概念和關(guān)系[7]。本體設(shè)計不僅需要領(lǐng)域?qū)I(yè)知識,還需要專業(yè)的知識表示技能,其目的是為了定義和組織知識圖譜中所代表的實體和關(guān)系,提供對不同領(lǐng)域的用戶和場景中實體和關(guān)系含義的共同理解,并確保知識圖譜中數(shù)據(jù)的一致性、準確性和完整性,為有效地推理、推斷和決策提供支持[4]。本體本身可以被重復(fù)利用,構(gòu)建本體庫可以促進數(shù)據(jù)集成、共享和發(fā)現(xiàn)[5]。
對于地理實體和社會實體知識圖譜而言,中間開展的方法是最好的選擇。這種方法適用于建立地理實體和社會實體的一般框架,同時又能夠根據(jù)發(fā)現(xiàn)的新概念和關(guān)系,靈活地添加新的概念和關(guān)系。地理實體和社會實體知識圖譜包含一些定義明確的概念和關(guān)系(如空間關(guān)系),也可能包含一些更復(fù)雜、不太明確的概念和關(guān)系(如社會關(guān)系)。中間開展的方法可以在本體中平衡這些不同類型的概念和關(guān)系,同時充分考慮領(lǐng)域的復(fù)雜性和不確定性,提高本體的準確性和完整性。因此,中間開展的方法在地理實體和社會實體知識圖譜的本體設(shè)計中具有很大的優(yōu)勢。
本研究的本體設(shè)計主要包含三個方面:實體對象的層級分類設(shè)計、關(guān)系的類別設(shè)計以及屬性的設(shè)計。
本研究使用了分類法來設(shè)計實體對象的層級分類。分類法是一種基于實體共享特征或?qū)傩赃M行分類和分組的方法[8]。在地理實體和社會實體知識圖譜中,對象通過分類法分為地理實體和社會實體,這兩個分類提供了對地理和社會現(xiàn)象的詳細描述。在地理實體的分類中,實體分為地物實體和地理單元,并對這兩個大類進一步細分,構(gòu)建了詳細明確的層級結(jié)構(gòu)。而在社會實體中,則根據(jù)所屬領(lǐng)域進行分類,如教育和法人領(lǐng)域等,并在每個領(lǐng)域進一步搭建該領(lǐng)域的層級和分類。這些分類和層級的設(shè)計為知識圖譜的查詢、分析和演算提供了強有力的支持,也是知識圖譜能夠被任何知識背景的用戶所使用的重要原因之一。
在本體設(shè)計中,關(guān)系類別的設(shè)計非常關(guān)鍵,它提供了實體對象間不同類型關(guān)系的框架和層級。在地理實體和社會實體知識圖譜的本體設(shè)計中,關(guān)系類別被設(shè)計為三個主要類別,即空間關(guān)系、社會關(guān)系和承載關(guān)系,每個類別又包含不同的子類別。例如,空間關(guān)系類別進一步細分為拓撲、連接、方向和距離關(guān)系,且每個子類別又包含多種具體關(guān)系,如拓撲關(guān)系包括包含、相鄰和相交等關(guān)系。這些子類別的設(shè)計讓空間關(guān)系的表示更加精準。社會關(guān)系被分為上下級關(guān)系、行業(yè)管理關(guān)系和權(quán)屬關(guān)系等,每個關(guān)系類別下都有具體的關(guān)系名稱,如上下級關(guān)系包括“上級單位”和“主管部門”等關(guān)系。地理實體和社會實體知識圖譜的關(guān)系設(shè)計還包含承載關(guān)系,該關(guān)系對于將社會實體連接到地理實體方面起著至關(guān)重要的作用。承載關(guān)系主要展示了社會實體與所處地理實體之間的關(guān)系,是空間數(shù)據(jù)和其他社會、經(jīng)濟、人文等領(lǐng)域數(shù)據(jù)進行融合的重要途徑,可在數(shù)據(jù)中完成對真實世界的映射。這些關(guān)系類別和層級設(shè)計有助于用戶準確理解地理實體和社會實體之間的關(guān)系,并為知識圖譜的應(yīng)用查詢和分析演算提供強有力的支持。部分關(guān)系設(shè)計如表1 所示。
表1 關(guān)系設(shè)計表(部分)
在地理實體和社會實體知識圖譜的本體設(shè)計中,屬性是最后一個關(guān)鍵。它提供了實體和關(guān)系的附加信息,可以是定量或定性信息,也可以是結(jié)構(gòu)化或非結(jié)構(gòu)化的屬性。例如,地理實體的屬性可以包括面積、長度和高程等結(jié)構(gòu)化屬性,同時也可關(guān)聯(lián)非結(jié)構(gòu)化屬性,如圖片、視頻和網(wǎng)頁等。而社會實體的屬性則可依據(jù)實體對象所屬的領(lǐng)域,掛接各類屬性,包括經(jīng)濟屬性、法人屬性和職能職責(zé)等。需要注意,關(guān)系也可以具有屬性,這些屬性也可以包括定量或定性信息。例如,距離關(guān)系可具有“遠”“近”等定性屬性,同時也可表示兩個實體間具體的距離數(shù)值等定量屬性。部分地理實體和社會實體知識圖譜本體設(shè)計如圖1所示。
圖1 地理實體和社會實體知識圖譜本體設(shè)計(部分)
在本體的構(gòu)建過程中,選擇適當(dāng)?shù)恼Z言和軟件是確保本體準確性、一致性和可重復(fù)使用性的關(guān)鍵。目前主流的本體開發(fā)語言包括RDF、RDFS 和OWL 等[9]。其中,RDF 是一種用于表示元數(shù)據(jù)的簡單語言,而RDFS 通過詞匯表定義類和屬性擴展了RDF。而OWL 則是一種更具表現(xiàn)力的語言,允許定義復(fù)雜的關(guān)系和推理,因此對于復(fù)雜的概念層級和分類而言,OWL 是相對于RDF 和RDFS 更佳的選擇[10]。此外,Protégé 是一種本體編輯器和知識管理系統(tǒng),支持多種本體語言,包括RDF、RDFS 和OWL。
本研究選擇OWL 和Protégé 作為地理實體和社會實體知識圖譜的本體研究和設(shè)計工具。選擇OWL 的復(fù)雜關(guān)系和推理支持能力,可以更好地表示空間數(shù)據(jù)和社會知識領(lǐng)域的復(fù)雜關(guān)系。而Protégé 簡單清爽的界面、廣泛的相關(guān)文檔以及對多種語言的支持,則使其成為管理和編輯地理和社會知識圖譜本體的理想選擇。
在初步的本體設(shè)計完成后,對本體進行評估和完善非常重要,確保能準確表示知識層級類別和關(guān)系,并滿足用戶和應(yīng)用的需求。評估本體設(shè)計的方法有幾種,包括用戶反饋、真實數(shù)據(jù)測試以及將本體論與同一或相關(guān)領(lǐng)域的現(xiàn)有本體論進行比較[11]。
常見的一種本體設(shè)計評估方法是用戶反饋,通過收集領(lǐng)域?qū)<摇⒗嫦嚓P(guān)者和最終用戶的意見,以評估本體的清晰度、客觀性、一致性、可擴展性等[12]。通過調(diào)查訪談收集用戶反饋,可以確定需要改進或擴展的領(lǐng)域。另一種評估方法是使用真實數(shù)據(jù)進行測試,該方法涉及將本體論應(yīng)用于實際數(shù)據(jù)集,以識別本體論中的任何不一致、錯誤或缺陷。此方法可以確保本體設(shè)計在實際應(yīng)用中的實用性。
除了上述方法,將所設(shè)計的本體與同一或相關(guān)領(lǐng)域的現(xiàn)有本體進行比較,對于地理實體和社會實體知識圖譜的本體設(shè)計評估最為有效:地理相關(guān)領(lǐng)域已經(jīng)有無數(shù)學(xué)者提供了非常優(yōu)秀和詳盡的設(shè)計,許多相關(guān)的社會領(lǐng)域也同樣如此,為了保證能與各行各業(yè)進行跨域融合,地理實體和社會實體知識圖譜的本體設(shè)計必須要參考大量的現(xiàn)有本體設(shè)計。對比學(xué)習(xí)現(xiàn)有本體設(shè)計的方法不僅可以確定本體可能缺少的部分,而且可以使用其他本體設(shè)計中的概念或關(guān)系對所設(shè)計的本體進行補充,可以有效促進數(shù)據(jù)共享和集成[13]。
在地理相關(guān)領(lǐng)域,許多學(xué)者已經(jīng)通過研究地理要素與地理過程的空間格局、演化過程的相互作用,從而完成相關(guān)的本體設(shè)計。此外,在地理信息行業(yè),已經(jīng)存在相當(dāng)成熟的層級設(shè)計,例如開放地理空間信息聯(lián)盟(OGC)制定的《地理標記語言》(GML)標準,此標準提供了一種表示空間數(shù)據(jù)和關(guān)系的標準方法,可以作為重要的學(xué)習(xí)參考資源。在地理實體和社會實體知識圖譜本體設(shè)計中,對于地理實體的分類層級和關(guān)系設(shè)計也應(yīng)與這些標準兼容,以確保其專業(yè)性,同時也可以促進與GIS 相關(guān)行業(yè)的數(shù)據(jù)共享[14]。
在各個社會領(lǐng)域,也有許多本體設(shè)計可供對比和借鑒。例如,Dan Brickley 和Libby Miller 發(fā)明的FOAF 詞匯表(Friend-of-a-Friend)作為本體設(shè)計的權(quán)威模板,提供了一種表示人際社交關(guān)系和連接的本體設(shè)計方法。此外,各行各業(yè)的官方文檔和研究,例如政府針對某個行業(yè)的專業(yè)指導(dǎo)文件,也是重要的對比和借鑒對象。通過對比學(xué)習(xí),可以評估設(shè)計的本體的專業(yè)性和實用性[15]。通過參考、融合這些相關(guān)設(shè)計的概念和關(guān)系,地理和社會知識圖譜本體設(shè)計可以在實用性和專業(yè)性方面獲得保證,并提供與各行各業(yè)進行知識融合的強大功能。隨著地理實體和社會實體知識圖譜的不斷完善和發(fā)展,會不斷融合更多其他領(lǐng)域和實體知識,而本體設(shè)計作為知識圖譜的核心,決定了其質(zhì)量,需要不斷迭代和完善[16]。
地理實體和社會實體知識圖譜有廣泛的應(yīng)用前景,可解決多種復(fù)雜問題,如整合多源異質(zhì)數(shù)據(jù)、空間查詢、城市規(guī)劃、災(zāi)害評估與管理等。在這些應(yīng)用中,整合多源異質(zhì)數(shù)據(jù)和空間查詢是其他應(yīng)用的基礎(chǔ)和支撐。
在傳統(tǒng)的地理信息系統(tǒng)(GIS)中,同一個實體可能在不同比例尺、圖層或產(chǎn)品中存在多種表示方式。這種多維數(shù)據(jù)結(jié)構(gòu)使計算機難以理解這些不同圖層中的圖形其實表示同一個實體,只能通過專業(yè)人士的肉眼和大腦進行分析理解。尤其對于非常專業(yè)的查詢和分析,傳統(tǒng)技術(shù)手段需要非常熟悉數(shù)據(jù)存儲的專業(yè)人員來操作,極大地提高了數(shù)據(jù)應(yīng)用的門檻。而當(dāng)空間數(shù)據(jù)需要與其他領(lǐng)域的數(shù)據(jù)進行并行分析時,傳統(tǒng)技術(shù)手段則需要將其他領(lǐng)域的數(shù)據(jù)進行調(diào)整后形成新的圖層,才能與專業(yè)的空間數(shù)據(jù)一起分析比較。這些都對數(shù)據(jù)的應(yīng)用和分析造成了相當(dāng)多的困難。
相反,地理實體和社會實體知識圖譜將所有數(shù)據(jù)壓縮到一個平面維度,并將所有圖形、位置信息、影像和模型等與實體節(jié)點關(guān)聯(lián)。當(dāng)觀察某個實體節(jié)點時,可直接通過屬性或關(guān)系探索分析。此外,承載關(guān)系將來自其他領(lǐng)域表示相同實體的數(shù)據(jù)集成到知識圖譜中,將空間和社會信息綁定一起,使計算機能更有效地理解或推斷數(shù)據(jù)之間的關(guān)系,并以簡潔易懂的方式呈現(xiàn)。
作為一種克服傳統(tǒng)GIS 行業(yè)瓶頸的新方法,地理和社會知識圖譜不僅具備傳統(tǒng)GIS 技術(shù)強大的空間查詢和運算能力,而且在基于豐富的空間關(guān)系的情境下,執(zhí)行許多空間查詢和復(fù)雜分析更為簡單和有效。例如,在查詢兩個地物之間的最短通達路徑時,地理實體和社會實體知識圖譜可以像人類一樣進行思考和規(guī)劃:通過考慮起點和終點之間的相鄰關(guān)系,以及道路之間的連通關(guān)系和長度屬性,規(guī)劃出一條距離最短的路徑。而假設(shè)需要進行更加復(fù)雜的空間運算,例如“希望走一條經(jīng)過較多綠化的路線”,在傳統(tǒng)GIS 中進行這樣的分析運算是相當(dāng)復(fù)雜的。但在地理和社會知識圖譜中,僅需要在進行空間查詢時,將道路與商鋪之間的相鄰關(guān)系作為一個變量,加入分析查詢即可。
地理和社會知識圖譜具有為城市規(guī)劃提供全面和詳細視角的巨大潛力。由于具備強大的數(shù)據(jù)整合能力,它能夠?qū)⒍鄠€領(lǐng)域的數(shù)據(jù)通過屬性或者關(guān)系掛接到圖譜中的實體上。城市規(guī)劃設(shè)計者可以通過一個節(jié)點,訪問和分析相關(guān)的多種數(shù)據(jù),如土地利用、交通、人口統(tǒng)計、社會和經(jīng)濟因素、環(huán)境因素等。通過整合這些數(shù)據(jù),城市規(guī)劃設(shè)計者可以做出科學(xué)決策。
以公共交通為例,用戶可以將表示公共交通站點的節(jié)點添加到圖譜中,并創(chuàng)建與直接相鄰地理實體的空間關(guān)系,讓該節(jié)點正確融入圖中,然后就可以計算該公交站點的服務(wù)范圍和覆蓋人口,從而顯著降低方案模擬的成本,并提供直觀的結(jié)果。同理,對于其他公共服務(wù)設(shè)施的選址,或現(xiàn)有城市設(shè)施的影響力測算等,地理和社會知識圖譜也具有強大的支撐能力。
由于整合了地理空間數(shù)據(jù)和社會各領(lǐng)域的相關(guān)數(shù)據(jù),地理實體和社會實體知識圖譜在災(zāi)害評估和管理中,可以提供受災(zāi)區(qū)域的全局視角和細節(jié)分析。例如,在地震發(fā)生時,地理和社會知識圖譜除了能夠迅速查詢受災(zāi)區(qū)域建筑、設(shè)施和道路的具體信息,還能快速統(tǒng)計受災(zāi)區(qū)域的人口分布和密度,以及應(yīng)急機構(gòu)、賑災(zāi)資源和應(yīng)急場所等信息,然后快速計算出最佳救援方案,如救援工作的任務(wù)分工、考慮到破損設(shè)施的最佳救援路線,以及受災(zāi)人群的安置方案等。
綜上所述,地理實體和社會實體知識圖譜在地理和社會數(shù)據(jù)的表示和分析方面有巨大潛力,為多元異質(zhì)數(shù)據(jù)整合、空間查詢、城市規(guī)劃和災(zāi)害評估管理提供了強大工具。除了上述應(yīng)用場景,地理實體和社會實體知識圖譜在理論上可為任何與地理位置相關(guān)的應(yīng)用提供服務(wù),如生物事件、治安管理等。通過發(fā)揮地理實體和社會實體知識圖譜的力量,決策者可設(shè)計出更宜居、更安全的城市環(huán)境,更有效地應(yīng)對各類情況。
知識圖譜是地理信息行業(yè)所面臨挑戰(zhàn)的潛在解決方案,它提供了一種更靈活和可擴展的方式來建模和整合不同的源數(shù)據(jù)。本文探討了一種地理實體和社會實體知識圖譜本體設(shè)計實現(xiàn)方案和應(yīng)用方向,詳細介紹了地理實體和社會實體知識圖譜本體設(shè)計,重點關(guān)注了實體對象類型、關(guān)系類型和屬性選擇,還討論了知識圖譜在解決傳統(tǒng)地理信息行業(yè)所面臨的挑戰(zhàn)以及未來研究方向的潛力。總的來說,利用知識圖譜來關(guān)聯(lián)、展示和分析地理實體和社會實體是一個具有許多潛在應(yīng)用和未來發(fā)展方向的研究領(lǐng)域。