梁 汝 鵬,李 宏 偉,李 文 娟,梁 穎
基于知識標注的地理信息語義服務框架研究
梁 汝 鵬1,李 宏 偉1,李 文 娟2,梁 穎2
(1.信息工程大學測繪學院,河南 鄭州 450052;2.73603部隊,江蘇 南京 210049)
基于空間語義學基礎理論,將傳統(tǒng)的地理信息服務技術與新興的語義服務技術相結合,建立地理信息語義服務框架及知識標注方法體系,并應用于地理空間信息服務處理中,提供智能化、自動化的地理信息服務發(fā)現(xiàn)、組合與觸發(fā)策略;設計基于文本挖掘算法的半自動知識標注引擎,提高服務處理自動化程度,實現(xiàn)包含豐富語義信息的地理空間語義服務的發(fā)布;建立基于規(guī)則和推理引擎的地理信息服務匹配與發(fā)現(xiàn)機制,提高服務發(fā)現(xiàn)效率;建立地理信息服務語義標注與服務匹配評價方法,采用基于空間關聯(lián)規(guī)則的標注正確性評估策略,驗證知識標注價值。
空間語義;語義服務;知識標注;地理空間語義網;服務匹配;相似度計算;規(guī)則
隨著地理信息服務應用的拓展,越來越多的地理數(shù)據(jù)以服務的形式在網絡上注冊與發(fā)布,使得地理信息服務的數(shù)量劇增。然而目前用戶只能通過關鍵字搜索并結合空間過濾條件查詢OGC的目錄服務,發(fā)現(xiàn)所需的數(shù)據(jù),在受益于目錄服務帶來的資源搜索便捷性的同時,經常受到查全率和查準率不高的困擾[1]。面對日益龐大的服務群,如何自動、快速、準確地發(fā)現(xiàn)目標服務,成為影響地理信息服務進一步發(fā)展的瓶頸,也是面向服務的計算(Service-Oriented Computing,SOC)中迫切需要解決的關鍵問題[2]。
傳統(tǒng)的檢索方式在多方面面臨瓶頸,語義網的提出[3]正是為了解決信息爆炸時代信息淹沒的問題,從海量的網絡數(shù)據(jù)中提取有用的信息,實現(xiàn)知識提取以至于知識服務。鑒于此,Egenhofer[4]進一步提出地理空間語義網的概念框架。語義網服務(SWS)是指在傳統(tǒng)的網絡服務中添加語義層的描述,提供解決現(xiàn)今網絡服務及面向服務架構(SOA)所面臨的問題的全新方案[5],減少人工干預,實現(xiàn)無縫的信息系統(tǒng)集成。
地理空間語義服務通過在傳統(tǒng)地理信息服務中引入SWS技術,實現(xiàn)地理信息服務發(fā)現(xiàn)、組合與觸發(fā)的完整體系。在這一工作中面臨的主要挑戰(zhàn)在于發(fā)現(xiàn)并解決OGC與SWS技術框架的不同,滿足表達地理空間語義的特定需求[6]。為實現(xiàn)這一目標,本文研究地理信息語義服務框架及相關理論基礎,根據(jù)空間語義及地理領域的特點,實現(xiàn)SWS與傳統(tǒng)的地理空間服務的融合,吸收SWS的理論研究成果,建立地理空間語義服務基本理論與方法體系?;谥R標注技術,探索實現(xiàn)從地理信息服務到地理信息語義服務的過渡。然而知識標注的缺失和語義級的服務發(fā)現(xiàn)、集成、觸發(fā)工具和環(huán)境的缺乏影響了地理空間服務的深層應用[7]。本文針對地理空間服務與數(shù)據(jù)共享領域存在的問題,開展知識標注理論與技術研究,提出建立面向地理信息語義服務的知識標注框架及其關鍵技術。
通常,本體包含描述概念、個體和概念之間關系的形式化元組,可用于表達屬性信息、數(shù)量標準、不一致聲明及不同對象間的邏輯關系[8]。地理本體在空間語義描述中起著基礎性作用[9],如何實現(xiàn)地理領域本體構建的標準化流程,提供地理本體可用性的科學、完整的評價指標體系,是當前地理本體乃至空間語義模型構建過程中面臨的挑戰(zhàn),地理本體建模復雜度的進一步降低將是未來空間語義數(shù)據(jù)大規(guī)模引入與應用的前提。
利用本體實現(xiàn)信息系統(tǒng)中地理數(shù)據(jù)源間的語義交互技術還不成熟,將本體中的分類體系與特定數(shù)據(jù)源中地理要素相關聯(lián)的研究及策略嚴重欠缺。因此有必要開發(fā)面向地理信息服務知識標注應用的本體概念模型與構建策略,實現(xiàn)標注構建的一致性和可重復性,本文采用的知識標注概念模型如圖1。為此需關注并解決地理信息服務描述中知識標注的需求分析并建立地理要素與標注涵義關聯(lián)的方法。
圖1 知識標注概念模型Fig.1 Knowledge annotation conceptual model
地理領域應用本體的開發(fā)需在已有的形式化本體基礎上進行,面向服務標注的地理本體需反映不同用戶的應用視角,從而應用于不同類型的地理信息服務;同時,本體必須展現(xiàn)嚴謹?shù)慕Y構,確保標注的正確性和可重復性。基礎本體描述通用的概念分類,為實現(xiàn)不同領域本體中的概念映射,需要一個通用本體(如CYC本體)作為基礎,本體映射也有助于發(fā)現(xiàn)并消除現(xiàn)有本體的不一致性。然而,現(xiàn)有的地理領域本體不能滿足服務語義標注所需的映射及嚴格的形式化結構,需要建立面向語義標注的本體層次(圖2),這種層次性結構支持不同應用視角(地理學、水文學、環(huán)境規(guī)劃、旅游等)領域本體的映射。為了開發(fā)地理領域的層次化通用本體模型,需要解決下列問題:現(xiàn)今哪些本體可用作構建地理領域本體的基礎本體模型;地理領域本體包含哪些通用的分類,這些分類如何映射到頂層本體;如何確保地理領域本體通用分類的嚴謹性等。
圖2 地理本體的三層架構Fig.2 The three-layered geo-ontology architecture
地理信息語義服務框架核心之一是研究知識發(fā)現(xiàn)技術在本體構建中的應用,探索可用于地理本體構建的數(shù)據(jù)挖掘技術,主要關注知識發(fā)現(xiàn)中文本挖掘和本體學習算法在面向語義標注的本體構建中的應用。知識發(fā)現(xiàn)中對于非結構化信息或半結構化信息的處理受到關注,如利用文本挖掘的方法實現(xiàn)文本中信息的提取,以及將網絡挖掘、關聯(lián)模式發(fā)現(xiàn)等新方法應用于本體構建及基于本體的語義標注中;同時知識發(fā)現(xiàn)實現(xiàn)的基礎是分析數(shù)據(jù)中存在的結構性信息,這意味著知識發(fā)現(xiàn)技術可能是從非結構化的數(shù)據(jù)源(如文本)到結構化本體的一種映射過程,也是本體構建的一個重要步驟。
基于知識發(fā)現(xiàn)技術的本體構建主要包含以下應用(圖3)[10]:1)術語提取,如地名的提取;2)術語到類的映射,實現(xiàn)了術語與領域本體之間的映射過程;3)術語與術語關系映射;4)概念聚類,通過計算不同術語之間的相似度,實現(xiàn)類似于聚類過程的類別劃分;5)通過概念圖構建實現(xiàn)本體概念的生成。由圖3可知,利用相關數(shù)據(jù)挖掘算法實現(xiàn)從底層的術語提取到頂層的概念構建、概念標注的過程,最后形成了通過知識圖表示的領域知識模型,即本體模型。
圖3 自下而上的本體學習過程Fig.3 Bottom-up ontology graph learning process
地理信息的不同特點需要在算法中體現(xiàn),研究的核心是如何將這些算法應用于地理知識的提取、術語的匹配及最終本體構建的過程中,主要包含基于SVM算法的地名提取、基于相似度測算的術語映射、基于聚類算法的地理概念區(qū)分等。
空間知識標注是地理信息語義服務實現(xiàn)的基礎。地理空間網絡中知識標注的資源包含了多種模式描述的地理信息,主要有文本、遙感圖像、掃描地圖、矢量數(shù)據(jù)、空間數(shù)據(jù)庫、地理信息服務等,因而學者提出多模式空間知識標注的概念。本文以地理信息服務的知識標注為研究對象,知識標注的實現(xiàn)將為服務的自動發(fā)現(xiàn)、自動匹配以至于自動組合發(fā)揮重要作用。面向地理信息語義服務的知識標注需解決以下關鍵問題。
為了實現(xiàn)OGC網絡服務(OWS)的知識標注,從而支持地理信息服務的語義發(fā)現(xiàn)與語義交互功能,必須將OGC的地理信息服務映射到WSML編碼的語義服務抽象模型中,本研究主要關注OGC的WFS、WMS、WCS、WPS服務的映射。
加強服務的語義描述存在自上而下和自下而上兩種方式。OWL-S和 WSMO采用自上而下方式,假定服務的開發(fā)者已經實現(xiàn)了語義建模,而不是直接將服務通過已有的標準(如 WSDL)描述,但是很多合法的服務已經通過SOA技術(如WSDL或REST)發(fā)布。SAWSDL支持的則是自下而上的方式,它提供了一套參考模型,可用于 WSDL文檔及XML框架元素的描述;同時這一參考模型與底層本體關聯(lián),實現(xiàn)底層元素的最佳語義描述[5]。
為保證與現(xiàn)有OWS服務的兼容性,本研究采用自下而上的模式,在原有的服務標準中,通過轉換過程實現(xiàn)服務描述模型映射,建立與底層領域本體的關聯(lián),實現(xiàn)其語義信息的描述,抽象模型如圖4所示。
圖4 OWS服務映射框架Fig.4 Knowledge annotation framework for OWS
為實現(xiàn)工程化、可重復性的知識標注流程,必須完善知識標注的工作流,并研究地理信息服務的知識標注構建的原則及相關的方法論問題,本文給出了知識標注基本的工作流模型(圖5),其中的細節(jié)流程需加以優(yōu)化,并需進一步研究語義標注構建的原則及方法論。
圖5 知識標注工作流Fig.5 Knowledge annotation workflow
手工標注容易出現(xiàn)錯誤,為提高知識標注的自動化程度,可采用文本挖掘相關算法輔助服務的知識標注建立過程[11]。標注構建中包含一個重要部分,即概念的匹配過程,這是建立服務模型與領域本體映射的關鍵,其實現(xiàn)核心是構建概念的相似度匹配算法,文本挖掘中的分類算法可實現(xiàn)概念相似度的自動計算[12],如文檔分類算法、SVM(自由向量機)分 類 算 法[13,14]、K-NN(K-Nrearst Neighbours)分類算法等[15,16],均可實現(xiàn)語義相似性測度。需要進一步研究這些算法對于地理概念相似度匹配的適應性,并根據(jù)地理信息的不同特點實現(xiàn)算法的選取與優(yōu)化。
知識標注框架的目標是實現(xiàn)高效與可重復的標注過程,支持服務的發(fā)現(xiàn)、組合及執(zhí)行中不同的應用需求。現(xiàn)今大部分的自動標注方法是基于文本分析算法,通常這些標注工具都是為了處理網絡上文本資源的標注,應用的多為統(tǒng)計學和啟發(fā)式算法,在獲取語義交互的應用中局限較大,獲取的語義標注往往沒有考慮底層的地理概念。構建知識標注的核心是建立要素類型與形式化本體的關聯(lián),如果手工標注時標注者不熟悉本體中描述的概念或數(shù)據(jù)源,則容易產生錯誤,同時手工標注通常不考慮應用中對數(shù)據(jù)理解視角的不同。因而,在知識標注構建完成后,需要檢驗與修正手工或文本挖掘算法生成的語義標注中的錯誤,本文引入基于空間關聯(lián)規(guī)則的要素特征信息實現(xiàn)知識標注結果的評估與修正,基本原理如圖6所示。
圖6 本體知識標注檢驗流程Fig.6 Knowledge annotation appraisal process
地理信息服務的構建遵循一系列結構良好的標準(OGC),支持無縫的應用工具集成。為確保與現(xiàn)有方案兼容,地理空間語義服務框架設計須參照通用標準和抽象模型,知識標注目標是建立合法的非語義服務描述與相應的語義描述的關聯(lián)。本文提出基于知識標注的語義模式的地理信息服務匹配策略。
相對于傳統(tǒng)的基于索引和文本匹配技術的服務發(fā)現(xiàn)技術,本體關聯(lián)的知識標注支持邏輯推理功能,在查詢信息過程中,推理引擎(如Pellet)可以精確匹配與語義標記的服務,通過概念相似度的計算實現(xiàn)語義級的服務查詢與發(fā)現(xiàn),確保更為精確的查詢結果,具體原理如圖7所示。本研究利用企業(yè)級語義網應用與開發(fā)工具TBC(TopBraid Composer)對多種推理引擎(如Jena、Pellet)的支持,建立基于規(guī)則和推理引擎的地理信息服務語義匹配與發(fā)現(xiàn)機制,探索語義服務技術在地理信息服務發(fā)現(xiàn)中的應用。
圖7 服務匹配原理Fig.7 Similarity-based semantic match of Web service
語義網服務技術支持自動的服務處理功能,然而,融合語義網服務技術與地理空間服務面臨諸多挑戰(zhàn)。OGC服務的相關標準是面向服務的架構(SOA)與ISO開放的分布式處理參考模型(RMODP)的結合,包含地理空間數(shù)據(jù)服務(WFS、WPS、WMS等)和目錄服務(元數(shù)據(jù));這些服務標準包含定義完整的接口,支持服務的發(fā)現(xiàn)、檢索和執(zhí)行過程,但將這些服務與主流的基于SOAP、WSDL和UDDI描述的服務“發(fā)布-鏈接-發(fā)現(xiàn)”體系的融合剛剛開始[17]。地理空間服務的一些特點,如服務體系不同、地理本體的獨特性等,需要對現(xiàn)有的SWS技術(WSMO/WSML/WSMX)進一步拓展,從而支持語義級的地理空間服務描述以及地理信息服務的發(fā)現(xiàn)與觸發(fā)過程。
圖8給出了本研究采用的策略,即通過服務抽象模型的映射,實現(xiàn)地理領域本體與服務描述應用本體之間的關聯(lián)。該模式的應用目標主要面向地理信息服務的自動處理,實現(xiàn)基于形式化描述(語義標注)的服務發(fā)現(xiàn)、組合、執(zhí)行流程。
圖8 OWS與SWS融合策略Fig.8 OWS and SWS techniques fusion strategy
如何從大規(guī)模地理信息服務集合中快速且準確地發(fā)現(xiàn)目標服務是地理信息服務應用中的一個關鍵問題。當前基于關鍵字的服務發(fā)現(xiàn)方式缺乏語義支持,搜索效率低。本文在語義網服務框架下(WSMO、WSML)[5],提出了一種基于知識標注技術的空間服務語義模式的服務發(fā)現(xiàn)、組合與觸發(fā)方法,將地理信息從語法模式轉換為語義模式,明確表達空間數(shù)據(jù)中隱含的知識,有效克服數(shù)據(jù)源之間的語義異構,可以提高地理信息服務發(fā)現(xiàn)的查全率和查準率,并降低在服務組合與觸發(fā)中的人工操作工作量。
本文基于知識標注的地理空間語義服務框架(圖9)主要包含:1)地理領域本體:包含知識標注、目錄、服務發(fā)現(xiàn)與執(zhí)行模塊中使用的本體資源。2)語義標注引擎:采用信息獲取技術分析現(xiàn)有地理信息服務半結構化的數(shù)據(jù)描述,構建相應的知識標注?;谖谋净驍?shù)據(jù)挖掘算法實現(xiàn)半自動的標注功能,同時在目錄組件中注冊相關的標注內容,從而擴大包含知識標注的服務數(shù)量。3)語義發(fā)現(xiàn)和執(zhí)行組件:提供基礎的SWS架構,獲取語義描述的網絡服務資源,并由一組用于服務發(fā)現(xiàn)和動態(tài)觸發(fā)的工具集組成,包含處理語義級地理信息服務描述的模塊。4)目錄服務:提供標準的OGC服務注冊接口,存儲傳統(tǒng)的地理空間服務與非空間服務的入口,利用知識標注組件實現(xiàn)語義模式的服務發(fā)現(xiàn)功能。目錄服務需融合WSMX的功能,支持語義發(fā)現(xiàn),提高服務發(fā)現(xiàn)的效率。5)應用環(huán)境:基于TBC二次開發(fā)的服務發(fā)現(xiàn)工具,并對地理信息處理服務的組合應用開展研究與實驗。
圖9 地理空間語義服務框架Fig.9 Geospatial semantic Web service framework
為實現(xiàn)面向地理信息語義服務的知識標注框架,需解決以下關鍵技術:1)基于TBC的空間語義標注本體構建技術。基于TBC設計工程化的本體構建方法,建立本體評價與邏輯一致性檢驗策略,為語義標注的健壯性和容錯性奠定基礎。2)基于文本挖掘的概念匹配與空間語義標注算法。由于語義標注手工工作量大,為實現(xiàn)語義標注技術在更大范圍和領域的應用,必須嘗試通過新的技術和方法實現(xiàn)自動或半自動標注。3)基于TBC和Pellet推理引擎的語義匹配與服務發(fā)現(xiàn)算法設計。為優(yōu)化傳統(tǒng)的基于索引和關鍵字匹配的服務發(fā)現(xiàn)方法中存在召回率和準確率較低問題,探索基于服務的語義標注信息,利用TBC及其對Pellet、Jena、Spin等組合推理方法的支持,實現(xiàn)語義級的服務匹配與發(fā)現(xiàn)算法,有效提高服務發(fā)現(xiàn)效率。在解決以上關鍵技術問題基礎上,為實現(xiàn) OWS(OGC Web Service)與SWS(Semantic Web Services)技術融合問題,本文提出了地理信息語義服務三層框架的詳細設計(圖10),并定義了各個層次模塊包含的內容與相互關系。
圖10 語義模式的地理信息語義服務原型設計Fig.10 Design of geospatial SWS prototype of semantic mode
地理空間語義服務平臺的搭建是一個復雜過程,本文提出的基于知識標注的地理信息語義服務框架為語義服務技術在地理領域的應用研究提供參考;該框架的實現(xiàn)包含多個研究領域成果的融合,融合語義網服務技術策略涉及的理論和技術問題較多,如何構建半自動的語義標注算法以降低手工操作的工作量以及實驗評價指標體系的確定與結果分析都有一些關鍵方法和技術問題需要解決。本文面向地理信息語義服務的知識標注框架體系的實現(xiàn),可有效提高地理信息服務發(fā)現(xiàn)的查全率和查準率,并降低在服務組合與觸發(fā)中的人工操作工作量,有著廣泛的應用前景。
[1]KLIEN E,LUTZ M,HUBNER S.An architecture for ontology based discovery and retrieval of geographic information[A].The 7th Conference on Geographic Information Science[C].2004.179-188.
[2]鄭亮,李德仁.空間服務語義模式的地理信息服務發(fā)現(xiàn)[J].測繪科學,2011,36(2):127-129.
[3]BERNERS-LEE J,HENDLER J,LASSILA O.The semantic Web[J].Scientific American,2001,184(5):34-43.
[4]EGENHOFER M.Toward the semantic geospatial Web[A].Geographic Information Science Second International Conference,GIScience 2002[C].Lecture Notes in Computer Science,2002,2489:70-85.
[5]FENSEL D,KERRIGAN M,ZAREMBA M.Implementing Semantic Web Services:The SESA Framework[M].Springer,2011.12-14.
[6]ZHANG C R,ZHAO T,LI W D.Towards logic-based geospatial feature discovery and integration using web feature service and geospatial semantic Web[J].International Journal of Geographical Information Science,2010,24(6):903-923.
[7]COMBER A J,F(xiàn)ISHER P F.Semantics,metadata,geographical information and users[J].Transactions in GIS,2008,12(3):287-291.
[8]黃茂軍,杜清運,吳運超,等.地理本體及其應用初探[J].地理與地理信息科學,2004,20(4):1-9.
[9]虞為,曹加恒,陳俊鵬.基于地理空間語義網的異構地理信息查詢[J].計算機工程與應用,2006,42(30):6-9.
[10]DINGLI A.Knowledge Annotation:Making Implicit Knowledge Explicit[M].Springer,2011.121-124.
[11]WITMER J,KALITA J.Extracting geospatial entities fromwikipedia[A].IEEE International Conference on Semantic Computing[C].2009.
[12]JEVTIC D,CAR Z,VUKOVIC M.Location name extraction for user created digital content services[J].Lecture Notes in Computer Science,2007,4692/2007:623-630.
[13]SUN X,WANG H.Automatic detection of geospatial objects using taxonomic semantics[J].Geoscience and Remote Sensing Letters,2010,7(1):23-27.
[14]俞士汶.計算語言學概論[M].北京:商務印書館,2004.
[15]樂小虬,楊崇俊,于文洋.基于空間語義角色的自然語言空間概念提?。跩].武漢大學學報(信息科學版),2005,30(12):1100-1104.
[16]樂小虬,楊崇傻.非受限文本中深層空間語義的識別方法[J].計算機工程,2006,32(4):36-38.
[17]REITSMA F,LAXTON J,BALLARD S,et al.Semantics,ontologies and eScience for the geosciences[J].Computers &Geosciences,2009,35(4):706-709.
Geospatial Semantic Web Service Oriented Knowledge Annotation Framework
LIANG Ru-peng1,LI Hong-wei1,LI Wen-juan2,LIANG Ying2
(1.InstituteofSurveyingandMapping,InformationEngineeringUniversity,Zhengzhou450052;2.73603Troops,Nanjing210049,China)
While benefiting from the convenience of geospatial resource search through keyword WCS(Web Catalog Service),users always encounter the problem of low comprehension and precision.Therefore,in this paper,the geospatial semantic Web service framework and knowledge annotation methodology are designed based on geospatial semantics theory,so as to handle the problem of service discovery.At the same time,the knowledge annotation engine is designed to improve the efficiency of rich semantics service release.And mechanism of semantic matching of service goal is set up based on rule and reason engine.In the end,the way to evaluate the effect of geospatial semantic Web service framework is discussed.Through deploying SWS technology in geospatial Web service handle,a comprehensive framework is set up for semantically annotating geospatial services and for utilizing the kind of knowledge annotation in the process of service discovery,composition and invocation.The major challenge of the work relies on identifying and solving difference between OGC and SWS techniques.To satisfy the specific requirements of expressing geospatial semantics,the intelligent methods are developed for the(semi-)automatic knowledge annotation construction of geospatial Web service,and the geospatial semantic Web service framework is also set up,so as to enhance service discovery,as well as validate the usability of knowledge annotation in the geospatial semantics modeling.It is proved that the knowledge annotation will effectively increase the use of distributed and heterogeneous services and the automatization of geospatial service management.
geospatial semantics;semantic Web service;knowledge annotation;geospatial semantic Web;service matching;similarity computation;rule
P208
A
1672-0504(2012)03-0001-06
2011-12- 26;
2012-02-27
國家自然科學基金資助項目(40871183、41140012)
梁汝鵬 (1985-),男,博士研究生,主要研究方向為地理信息服務、本體理論與應用。E-mail:liangrupeng@yahoo.cn