亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)泛在地理信息感知融合技術(shù)綜述

        2022-08-12 09:23:50劉紀(jì)平胡燕祝車向紅李朋朋曹元暉
        測(cè)繪學(xué)報(bào) 2022年7期
        關(guān)鍵詞:語(yǔ)義信息

        劉紀(jì)平,王 勇,胡燕祝,羅 安,車向紅,李朋朋,曹元暉,3

        1. 中國(guó)測(cè)繪科學(xué)研究院,北京 100830; 2. 西南交通大學(xué)地球科學(xué)與環(huán)境工程學(xué)院,四川 成都 610031; 3. 武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079; 4. 北京郵電大學(xué)現(xiàn)代郵政學(xué)院(自動(dòng)化學(xué)院),北京 100876

        互聯(lián)網(wǎng)自誕生以來(lái),其交互模式從以信息發(fā)布為主的web 1.0,發(fā)展到以在線交互信息生產(chǎn)為特點(diǎn)的web 2.0,目前正在向與物理世界孿生和人文社會(huì)世界深度互動(dòng)為核心的web 3.0演進(jìn);其信息服務(wù)也從最初的網(wǎng)頁(yè),逐步發(fā)展出應(yīng)用web、服務(wù)web和語(yǔ)義web等新形態(tài)[1]。隨著“人機(jī)物”三元世界在網(wǎng)絡(luò)空間(cyberspace)中彼此交互融合,由此產(chǎn)生的在互聯(lián)網(wǎng)上可獲得的大數(shù)據(jù)被稱為互聯(lián)網(wǎng)大數(shù)據(jù)[2]?;ヂ?lián)網(wǎng)蘊(yùn)含豐富的地理信息,地理信息門戶、位置服務(wù)網(wǎng)站等發(fā)布了大量基礎(chǔ)地理信息、專題地理信息和POI,網(wǎng)頁(yè)中的文本、圖像及音視頻中蘊(yùn)含豐富時(shí)空語(yǔ)義[3-4],自發(fā)地理信息(volunteered geographic information,VGI)、眾包數(shù)據(jù)(crowdsource data)則大大提升了地理信息的更新效率和語(yǔ)義豐富程度[5]。隨著技術(shù)進(jìn)步和應(yīng)用深入,互聯(lián)網(wǎng)地理信息已成為地理信息更新、城市畫像分析、災(zāi)害監(jiān)測(cè)應(yīng)急管理、地理空間情報(bào)等領(lǐng)域的重要信息來(lái)源。

        互聯(lián)網(wǎng)地理信息具有無(wú)處不在、形式與結(jié)構(gòu)多樣的“泛在”特征,因而無(wú)法采用傳統(tǒng)的集中管理模式對(duì)其進(jìn)行感知融合。在感知方面主要存在的問(wèn)題包括:大多數(shù)地理信息服務(wù)對(duì)網(wǎng)絡(luò)搜索引擎不可見(jiàn),搜索引擎無(wú)法在沒(méi)有明確指示訪問(wèn)目錄的情況下自動(dòng)發(fā)現(xiàn)數(shù)據(jù)服務(wù)和抽取地理實(shí)體信息;網(wǎng)頁(yè)文本、圖像中蘊(yùn)含豐富位置參考或場(chǎng)景語(yǔ)義,但多粒度對(duì)象發(fā)現(xiàn)及語(yǔ)義抽取的召回率和準(zhǔn)確度有待提高。在融合方面主要存在的問(wèn)題包括:不同來(lái)源地理數(shù)據(jù)在句法、模式和語(yǔ)義方面差異巨大,可訪問(wèn)性和互操作性較差,難以采用空間數(shù)據(jù)基礎(chǔ)設(shè)施(spatial data infrastructure,SDI)信息的發(fā)現(xiàn)、轉(zhuǎn)換與調(diào)用技術(shù)實(shí)現(xiàn)互聯(lián)網(wǎng)多源數(shù)據(jù)集成;互聯(lián)網(wǎng)泛在地理信息通常以半結(jié)構(gòu)化或非結(jié)構(gòu)化的形式進(jìn)行表達(dá),想要從這些海量的、多類型、異構(gòu)的泛在數(shù)據(jù)中抽取出地理實(shí)體關(guān)系和結(jié)構(gòu)化地理信息是非常困難的。針對(duì)以上問(wèn)題,本文總結(jié)分析了現(xiàn)有的發(fā)展現(xiàn)狀和關(guān)鍵技術(shù)。同時(shí),列舉了互聯(lián)網(wǎng)泛在地理信息在智能互聯(lián)的開(kāi)放地理數(shù)據(jù)網(wǎng)絡(luò)、融合社會(huì)感知的城市治理與應(yīng)急服務(wù)、網(wǎng)絡(luò)內(nèi)容監(jiān)測(cè)與地理空間情報(bào)等典型應(yīng)用,并展望了未來(lái)互聯(lián)網(wǎng)泛在地理信息感知融合技術(shù)的發(fā)展趨勢(shì)。

        1 互聯(lián)網(wǎng)泛在地理信息

        1.1 信息類型

        在互聯(lián)網(wǎng)問(wèn)世之初,人們便以文本或圖像形式通過(guò)網(wǎng)絡(luò)共享位置、地名、場(chǎng)所等地理信息;自20世紀(jì)90年代以來(lái),以美國(guó)國(guó)家空間數(shù)據(jù)基礎(chǔ)設(shè)施SDI[6]、歐洲空間信息基礎(chǔ)設(shè)施INSPIRE[7]為代表,各國(guó)開(kāi)始建設(shè)基礎(chǔ)地理信息和科學(xué)數(shù)據(jù)共享平臺(tái)并提供互聯(lián)網(wǎng)信息服務(wù)。圖1是歐洲建設(shè)的基于互聯(lián)網(wǎng)的基礎(chǔ)地理信息共享基礎(chǔ)設(shè)施框架。21世紀(jì)初,web 2.0催生了以在線眾包生產(chǎn)、位置社交等為代表的互聯(lián)網(wǎng)地理信息服務(wù)新模式和新產(chǎn)品,使得公眾可通過(guò)VGI形式貢獻(xiàn)出更多反映本地化社會(huì)經(jīng)濟(jì)特征的地理信息。近10年來(lái),在電子政務(wù)和智慧政府建設(shè)的驅(qū)動(dòng)下,作為最大的大數(shù)據(jù)擁有者,各國(guó)政府陸續(xù)開(kāi)啟數(shù)據(jù)開(kāi)放(open data)計(jì)劃,互聯(lián)網(wǎng)上可公開(kāi)訪問(wèn)的官方地理信息資源也大大超出了以測(cè)繪遙感數(shù)據(jù)為主的專業(yè)范疇。當(dāng)前,互聯(lián)網(wǎng)已成為全球最大的可開(kāi)放訪問(wèn)的地理信息倉(cāng)庫(kù),數(shù)據(jù)互聯(lián)、催化知識(shí)已成為互聯(lián)網(wǎng)地理信息服務(wù)發(fā)展的新方向[8]。

        圖1 基于互聯(lián)網(wǎng)的歐洲基礎(chǔ)地理信息共享基礎(chǔ)設(shè)施框架

        從來(lái)源看,互聯(lián)網(wǎng)泛在地理信息可分為科學(xué)共享地理數(shù)據(jù)、政府開(kāi)放地理數(shù)據(jù)、商業(yè)地理信息服務(wù)、公眾自發(fā)地理信息和web隱含地理信息五類[9-11]。其中,來(lái)源于政府機(jī)構(gòu)和研究部門的地理信息包含了大量人口、資源、環(huán)境、經(jīng)濟(jì)和公共服務(wù)等基礎(chǔ)信息,數(shù)據(jù)質(zhì)量較高但一般粒度較粗、屬性偏少;商業(yè)地理信息服務(wù)內(nèi)容主要涵蓋位置導(dǎo)航、生活服務(wù)等,其數(shù)據(jù)粒度較細(xì)、體量龐大、更新快速,但大多以深度網(wǎng)絡(luò)形式提供服務(wù),可發(fā)現(xiàn)性不高;公眾自發(fā)地理信息是web2.0的產(chǎn)物,主要由具有特定目的應(yīng)用或特定偏好的用戶驅(qū)動(dòng)、通過(guò)在線方式創(chuàng)建和管理地理數(shù)據(jù)或位置信息,地理對(duì)象的屬性較為豐富、通常具有特定的領(lǐng)域或應(yīng)用場(chǎng)景特征;web隱含地理信息也常被作為地理位置關(guān)聯(lián)數(shù)據(jù),由互聯(lián)網(wǎng)上最為龐大的網(wǎng)頁(yè)所“被動(dòng)”產(chǎn)生,其可訪問(wèn)性最好、內(nèi)容主題涵蓋物理世界和人類社會(huì)的各個(gè)方面,但地理實(shí)體粒度差異大、數(shù)據(jù)分布的地域非均衡性和屬性特征的異構(gòu)特征明顯。表1列舉了以上五類互聯(lián)網(wǎng)泛在地理信息具體主要特征。

        表1 互聯(lián)網(wǎng)泛在地理信息分類及主要特征

        按數(shù)據(jù)結(jié)構(gòu)化程度,互聯(lián)網(wǎng)泛在地理信息可分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三類[12]。結(jié)構(gòu)化地理數(shù)據(jù)指采用標(biāo)準(zhǔn)或通用格式存儲(chǔ)的空間數(shù)據(jù),具有明確的空間參考和標(biāo)準(zhǔn)化的矢量、影像、柵格等存儲(chǔ)模型;半結(jié)構(gòu)化空間信息主要為結(jié)構(gòu)化文本化形式表示的、帶有明確定位信息(如有明確空間參考的地理坐標(biāo),或地址描述)的地理實(shí)體集合,如以表格形式表達(dá)的企業(yè)位置、具有明確定位坐標(biāo)的微博短文本等;非結(jié)構(gòu)化空間信息最為豐富,大量存在于網(wǎng)頁(yè)中的非結(jié)構(gòu)化文本、文檔、圖片或視頻中,多用于描述地名、場(chǎng)所位置、事件事故或地理現(xiàn)象。

        1.2 主要特征

        相比專業(yè)部門生產(chǎn)的測(cè)繪遙感地理信息,互聯(lián)網(wǎng)泛在地理信息具有如下特征。

        (1) 采集方式和類型多樣化。傳統(tǒng)的地理信息采集多為專業(yè)任務(wù),強(qiáng)調(diào)幾何精確性與完整性,以測(cè)繪遙感為主要采集手段;泛在地理信息采集則面向數(shù)字空間,不以幾何精確性和完整性為限制,強(qiáng)調(diào)語(yǔ)義相關(guān)、多源獲取和持續(xù)積累,因而獲取方式更加多元化[13]。泛在地理信息內(nèi)容涉及自然環(huán)境、政務(wù)信息、民意調(diào)查、商業(yè)信息、社會(huì)動(dòng)態(tài)、人口流動(dòng)等豐富主題,大量信息以半結(jié)構(gòu)化和非結(jié)構(gòu)化形式存在。

        (2) 數(shù)據(jù)海量涌現(xiàn),更新頻繁。隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)泛在地理信息的體量呈指數(shù)級(jí)增長(zhǎng)。2020年前全球數(shù)據(jù)量保持40%以上的增長(zhǎng)速度,大約每年翻一番[14]。據(jù)統(tǒng)計(jì),歐洲INSPIRE項(xiàng)目中已有15萬(wàn)個(gè)可訪問(wèn)地理數(shù)據(jù)集,開(kāi)放街區(qū)地圖OpenStreetMap平均每日更新超過(guò)2000千條道路信息,騰訊地圖全球位置數(shù)據(jù)超2億,高德地圖POI數(shù)量超過(guò)6000萬(wàn)、道路數(shù)據(jù)超過(guò)790萬(wàn)千米。

        (3) 模糊性與不確定性廣泛存在。文獻(xiàn)[15]指出所有地理信息不可避免地受到不確定性的影響。傳統(tǒng)地理信息產(chǎn)品追求數(shù)據(jù)的準(zhǔn)確性(微觀),而泛在地理信息允許數(shù)據(jù)的混雜性、不確定性(宏觀)[16]。這種不確定性一方面源于客觀世界固有的復(fù)雜性、不穩(wěn)定性和人們對(duì)其認(rèn)識(shí)的不完備性;另一方面,由于數(shù)據(jù)生產(chǎn)目的、生產(chǎn)方式、技術(shù)規(guī)范的不同,非均衡性和有偏性在互聯(lián)網(wǎng)地理信息中更加明顯。

        (4) 新感知模式蘊(yùn)含巨大信息價(jià)值。web2.0時(shí)代,隨時(shí)隨地通過(guò)用戶帶有空間參考或位置描述的泛在地理信息,實(shí)質(zhì)上形成了一種實(shí)時(shí)、移動(dòng)、分布式的“社會(huì)傳感網(wǎng)”,這種“社會(huì)傳感網(wǎng)”能夠彌補(bǔ)物理傳感器的不足,可持續(xù)提供涉及經(jīng)濟(jì)、社會(huì)、文化、國(guó)家安全乃至政治和個(gè)人的地理信息和時(shí)空位置語(yǔ)義[17],涵蓋了物理世界和社會(huì)經(jīng)濟(jì)的廣泛主題和豐富內(nèi)容,是具有戰(zhàn)略意義的大數(shù)據(jù)寶庫(kù)[2]。

        2 泛在地理信息感知技術(shù)

        2.1 地理信息服務(wù)和數(shù)據(jù)發(fā)現(xiàn)

        從互聯(lián)網(wǎng)中快速準(zhǔn)確地發(fā)現(xiàn)并定位地理信息服務(wù)和數(shù)據(jù),是互聯(lián)網(wǎng)泛在地理信息利用面臨的一大挑戰(zhàn)。傳統(tǒng)搜索引擎基于網(wǎng)頁(yè)超鏈接分析模型,僅能發(fā)現(xiàn)shp、GML、GeoTIFF等以連接數(shù)據(jù)(linked data)形式發(fā)布的地理數(shù)據(jù)或元數(shù)據(jù),而無(wú)法自動(dòng)識(shí)別目錄服務(wù)、OGC WMS/WFS、地理查詢API等通過(guò)面向服務(wù)架構(gòu)(service-oriented architecture,SOA)和面向資源架構(gòu)(resource-oriented architecture,ROA)方式發(fā)布的動(dòng)態(tài)信息資源,如圖2所示。此外,由于可能的元數(shù)據(jù)缺失,傳統(tǒng)搜索引擎也難以生成服務(wù)、集合、要素和實(shí)體地理信息的數(shù)據(jù)特征描述。

        圖2 地理信息服務(wù)的3種典型形態(tài)及特征

        目前,互聯(lián)網(wǎng)地理信息多通過(guò)在搜索引擎架構(gòu)上擴(kuò)展地理信息數(shù)據(jù)和服務(wù)識(shí)別特征來(lái)實(shí)現(xiàn),主要有基于特征詞匹配和基于本體兩種方式。如基于地理空間操作和本體的地理信息服務(wù)發(fā)現(xiàn)[18];結(jié)合普適思想的上下文感知的地理信息服務(wù)多級(jí)發(fā)現(xiàn)與匹配框架[19];支持接口多態(tài)性的本體語(yǔ)義地理信息服務(wù)發(fā)現(xiàn)研究[20]。以上方法在增強(qiáng)連接數(shù)據(jù)的特征描述、發(fā)現(xiàn)和描述OGC標(biāo)準(zhǔn)數(shù)據(jù)服務(wù)方面取得了較好效果,但是仍然難以發(fā)現(xiàn)地理數(shù)據(jù)目錄服務(wù)、自定義地理查詢API等動(dòng)態(tài)地理信息資源。

        2.2 網(wǎng)絡(luò)地理信息采集

        按照在web中的蘊(yùn)藏深度,互聯(lián)網(wǎng)泛在地理信息可被分為淺層網(wǎng)絡(luò)(surface web)地理信息和深層網(wǎng)絡(luò)(deep web)地理信息[21],深層網(wǎng)絡(luò)地理信息的數(shù)據(jù)體量遠(yuǎn)遠(yuǎn)超過(guò)淺層網(wǎng)絡(luò)。淺層網(wǎng)絡(luò)地理信息可在通用網(wǎng)絡(luò)爬蟲基礎(chǔ)上擴(kuò)展地理信息解析器進(jìn)行采集(harvest),可以有效獲取連接數(shù)據(jù)、隱含地理信息的網(wǎng)頁(yè)文本等地理信息,但難以采集位于地理數(shù)據(jù)服務(wù)、地理查詢API等深層網(wǎng)絡(luò)中的地理數(shù)據(jù)。深度網(wǎng)絡(luò)地理信息采集主要通過(guò)構(gòu)造模板化特征詞、空間過(guò)濾條件參與爬行過(guò)程來(lái)實(shí)現(xiàn),目前在POI、AOI等地理實(shí)體數(shù)據(jù)的深網(wǎng)獲取方面取得了初步進(jìn)展[22-24]。文獻(xiàn)[24]提出的基于檢索詞優(yōu)化與空間自適應(yīng)的深層網(wǎng)絡(luò)POI數(shù)據(jù)獲取框架如圖3所示;但是,未來(lái)還需要在服務(wù)的可搜索性分析、查詢條件生成、時(shí)空爬行模式構(gòu)建、成本可控的最大覆蓋逼近方法等方面深入推進(jìn)理論和方法研究。

        圖3 基于檢索詞優(yōu)化與空間自適應(yīng)的深層網(wǎng)絡(luò)POI數(shù)據(jù)獲取[24]

        2.3 地名地址識(shí)別與位置解析

        地名地址和位置描述是隱含在互聯(lián)網(wǎng)網(wǎng)頁(yè)中體量最大的地理信息,對(duì)其進(jìn)行準(zhǔn)確識(shí)別和解析是抽取web隱含地理信息的基礎(chǔ)要求[25]。地名地址與位置信息解析其核心是通過(guò)地址要素切分、識(shí)別、分類和匹配等關(guān)鍵步驟,從非結(jié)構(gòu)化文本數(shù)據(jù)中識(shí)別和抽取出具有地理空間位置表達(dá)能力的地址和位置信息。

        目前,地名地址與位置信息解析方法主要有以下兩類。一是基于地名地址特征和語(yǔ)料庫(kù)的解析方法,如根據(jù)地址要素的構(gòu)詞特征和句法模式的中文地址解析[26];通過(guò)定義地名地址在文本中出現(xiàn)位置的前后特征詞來(lái)實(shí)現(xiàn)地址提取[27]。二是基于機(jī)器學(xué)習(xí)與規(guī)則的解析方法,如基于支持向量機(jī)與規(guī)則相結(jié)合的地名地址解析方法[28];基于條件隨機(jī)場(chǎng)與規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[29]。但是,以上這些方法在地名地址信息和位置信息解析過(guò)程中大多依賴于標(biāo)準(zhǔn)地址庫(kù),或者利用特征詞及統(tǒng)計(jì)規(guī)則匹配的方式進(jìn)行解析和識(shí)別,這使得提取地址數(shù)據(jù)存在語(yǔ)義上的模糊和歧義,同時(shí)構(gòu)建標(biāo)準(zhǔn)地址庫(kù)的人工代價(jià)太大。如今,隨著自然語(yǔ)言處理技術(shù)(NLP)的快速發(fā)展,可以嘗試通過(guò)基于NLP技術(shù)實(shí)現(xiàn)地名地址識(shí)別與位置解析,如基于深度學(xué)習(xí)的多任務(wù)語(yǔ)義分析[30-31]、基于自學(xué)習(xí)的地址要素庫(kù)構(gòu)建[4]等。

        2.4 圖像空間語(yǔ)義提取

        地圖、實(shí)景影像等圖像信息中蘊(yùn)含大量位置信息和空間語(yǔ)義,地圖自動(dòng)識(shí)別和場(chǎng)所語(yǔ)義提取是互聯(lián)網(wǎng)圖像語(yǔ)義提取的兩個(gè)關(guān)鍵任務(wù)。地圖自動(dòng)識(shí)別實(shí)現(xiàn)方法方面,機(jī)器學(xué)習(xí)方法包含支持向量機(jī)、決策樹(shù)、隨機(jī)森林、K-Means算法、K近鄰等[32-34],因?yàn)樾枰斯ぴO(shè)計(jì)特征才能提取淺層信息,所以在語(yǔ)義信息豐富的圖片中識(shí)別精確率表現(xiàn)欠佳[35];深度學(xué)習(xí)方法進(jìn)行地圖識(shí)別主要包含圖像分類、地理目標(biāo)檢測(cè)和地圖語(yǔ)義分割等三部分[36],目前已經(jīng)可以達(dá)到與人類相當(dāng)甚至更勝一籌的水平,相較于機(jī)器學(xué)習(xí)方法有明顯的優(yōu)勢(shì)[37]。場(chǎng)所語(yǔ)義理解主要面向街景地圖、共享照片等實(shí)景影像,其場(chǎng)所語(yǔ)義提取包括空間對(duì)象檢測(cè)和場(chǎng)所語(yǔ)義分割,基于深度學(xué)習(xí)的空間對(duì)象檢測(cè)需從特征多樣性的角度出發(fā)關(guān)注更多與目標(biāo)相關(guān)的語(yǔ)義信息,利用卷積神經(jīng)網(wǎng)絡(luò)提取對(duì)象特征,實(shí)現(xiàn)實(shí)景圖像內(nèi)容的結(jié)構(gòu)化,將柵格數(shù)據(jù)轉(zhuǎn)成帶有語(yǔ)義的空間對(duì)象數(shù)據(jù);場(chǎng)所語(yǔ)義分割可通過(guò)語(yǔ)義分割和邊緣檢測(cè)任務(wù)分別建模[38],使用相關(guān)性更強(qiáng)的語(yǔ)義邊緣檢測(cè)任務(wù)作為輔助任務(wù)降低顯著的物體內(nèi)部特征對(duì)邊緣區(qū)域特征的影響。

        3 多源地理信息融合技術(shù)

        3.1 矢量信息融合

        VGI、眾包數(shù)據(jù)與傳統(tǒng)SDI數(shù)據(jù)相結(jié)合,可以快速發(fā)現(xiàn)與基礎(chǔ)地理信息數(shù)據(jù)中形狀和位置等矢量信息的差異,有效幫助提高基礎(chǔ)地理信息數(shù)據(jù)質(zhì)量,加快數(shù)據(jù)更新過(guò)程。矢量信息融合需要重點(diǎn)解決不同來(lái)源互聯(lián)網(wǎng)矢量數(shù)據(jù)的要素匹配、變化發(fā)現(xiàn)和連接合并問(wèn)題。

        要素匹配是數(shù)據(jù)融合的基礎(chǔ),主要通過(guò)實(shí)體間的幾何特征相似性判斷數(shù)據(jù)是否描述同一地理要素,常用特征包括距離、拓?fù)?、方向、形狀等[39-41],為了提高匹配的準(zhǔn)確性,往往還會(huì)考慮要素的鄰域上下文環(huán)境[42]、社會(huì)經(jīng)濟(jì)屬性[43]等信息。對(duì)于相對(duì)復(fù)雜的線狀、面狀要素,可以利用降維的方法,將線要素匹配問(wèn)題轉(zhuǎn)換為線的節(jié)點(diǎn)匹配問(wèn)題,將面要素的匹配問(wèn)題轉(zhuǎn)換為面的骨架線或骨架網(wǎng)眼的匹配問(wèn)題。泛在數(shù)據(jù)海量、異構(gòu)的特性為要素匹配帶來(lái)了一定的挑戰(zhàn),為了提高匹配時(shí)的搜索效率,可通過(guò)編碼技術(shù)[44-45]快速找到在空間位置上相鄰的點(diǎn)。此外,對(duì)于復(fù)雜的多對(duì)多匹配問(wèn)題,可以利用正反雙向匹配策略[46]、面積疊置率[47]等方法提高匹配精度與匹配效率。獲取不同數(shù)據(jù)集之間的匹配部分和變化部分之后,進(jìn)一步分析變化部分的變化類型,并分別采取不同的策略對(duì)數(shù)據(jù)進(jìn)行融合。對(duì)于新增和消失要素,可對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行增加或刪除處理;對(duì)于變化要素,可以進(jìn)行更新、合并處理,例如道路延長(zhǎng)、水系改道、居民地?cái)U(kuò)建、綠地變化等。

        3.2 地址信息一致化

        地址信息一致化是建立地址編碼服務(wù)的基礎(chǔ)要求,也可有效支持多源地理實(shí)體消除語(yǔ)義差異并建立空間連接。其核心是將各類不規(guī)范、不完整的“非標(biāo)準(zhǔn)”地址信息以符合常見(jiàn)地址表達(dá)模型的方式進(jìn)行規(guī)范化處理和表達(dá)。地址信息一致化要求在理解地址表達(dá)模型的基礎(chǔ)上,處理地址要素簡(jiǎn)化、缺失、錯(cuò)誤描述等問(wèn)題[48]。

        目前,已有的中文地址標(biāo)準(zhǔn)化方法主要分為兩類。一是基于中文地址表達(dá)模型與地址匹配相結(jié)合的中文地址標(biāo)準(zhǔn)化方法[49-52],該類標(biāo)準(zhǔn)化方法雖然具有較高的準(zhǔn)確率和匹配效率,但是高度依賴于人工構(gòu)建標(biāo)準(zhǔn)中文地址庫(kù),對(duì)于地址要素的缺失和不完整問(wèn)題不能很好地解決。二是基于自然語(yǔ)言處理與深度學(xué)習(xí)相結(jié)合的方法[53-54]。雖然該方法取得了較高的準(zhǔn)確率和匹配效率,但是存在以下兩個(gè)不足,一是提取中文地址語(yǔ)義特征時(shí)忽略了地址的空間信息;二是沒(méi)有可以參考的地址表達(dá)模型,導(dǎo)致生成的某些地址表達(dá)不符合正確的地址描述。未來(lái)可以嘗試將以上兩類方法進(jìn)行融合,并在提取中文地址語(yǔ)義特征時(shí)對(duì)不同地址要素添加不同的權(quán)重,以體現(xiàn)不同地址要素的重要程度。

        3.3 同名實(shí)體識(shí)別與語(yǔ)義對(duì)齊

        同名實(shí)體識(shí)別與語(yǔ)義對(duì)齊是互聯(lián)網(wǎng)泛在地理信息數(shù)據(jù)融合的關(guān)鍵[55]。同名實(shí)體識(shí)別要求從多源數(shù)據(jù)中發(fā)現(xiàn)語(yǔ)義意義上的相同地理對(duì)象,語(yǔ)義對(duì)齊則將分散異構(gòu)信息進(jìn)行模式和語(yǔ)義的一致化處理并連接至相應(yīng)同名地理實(shí)體,從而基于多源數(shù)據(jù)產(chǎn)生地理實(shí)體并在地理位置、空間形態(tài)、名稱表達(dá)、地址描述和屬性特征方面進(jìn)行合并或建立關(guān)聯(lián)。

        地理實(shí)體匹配是建立同名實(shí)體的核心,主要包括以下三類方法:一是基于空間屬性的匹配方法,如基于定位信息的空間距離匹配[56];二是基于文本屬性的匹配方法,如基于名稱屬性的文本相似度匹配[57];三是空間屬性與文本屬性相結(jié)合的匹配方法,如多屬性特征加權(quán)的相似度匹配方法[58-59]、多約束條件下的屬性匹配方法[60]。但還存在著以下問(wèn)題:一是文本屬性的相似性度量方法一般是基于編輯距離的計(jì)算方法,然而,編輯距離更適合計(jì)算純文本的差異;二是這些匹配方法需要根據(jù)預(yù)先設(shè)定的相似性閾值判斷是否匹配,而閾值大小將直接影響匹配精度。針對(duì)這些問(wèn)題,未來(lái)可以嘗試使用基于深度學(xué)習(xí)的方法來(lái)解決這些問(wèn)題,如通過(guò)BERT(arXiv:1810.04805,2018)、Text-CNN(arXiv:1408.5882,2014)、Word2Vec[61]等模型提取文本的復(fù)雜語(yǔ)義特征;基于RNN(arXiv:1406.1078,2014)、LSTM[62]、GRU[63]、注意力機(jī)制(arXiv:1606.01933,2016)等模型解決不同屬性之間的相互依賴關(guān)系;基于ESIM(arXiv:1609.06038,2017)模型將匹配問(wèn)題轉(zhuǎn)換成二分類問(wèn)題,避免了人工相似度閾值的設(shè)置等。

        3.4 地理實(shí)體關(guān)系構(gòu)建

        基于海量互聯(lián)網(wǎng)地理信息,可構(gòu)建地理實(shí)體間的位置關(guān)聯(lián)、隸屬聯(lián)系等豐富關(guān)系,從而形成地理實(shí)體關(guān)聯(lián)知識(shí)并可支持推理和挖掘[64]。地理實(shí)體關(guān)系構(gòu)建主要包括空間關(guān)系挖掘和語(yǔ)義關(guān)系挖掘兩種,其中對(duì)于包含、相鄰、相離、共現(xiàn)及方向等關(guān)系主要通過(guò)矢量數(shù)據(jù)空間運(yùn)算進(jìn)行計(jì)算;對(duì)于隸屬等語(yǔ)義關(guān)系,主要通過(guò)實(shí)體關(guān)系詞利用規(guī)則約束、機(jī)器學(xué)習(xí)等方法進(jìn)行推測(cè)。從本質(zhì)上講,以上方法均基于規(guī)則,難以支持更深層次的隱含關(guān)系抽取。

        近年來(lái),本體和知識(shí)圖譜技術(shù)在互聯(lián)網(wǎng)泛在地理信息實(shí)體關(guān)系構(gòu)建管理中得到應(yīng)用。如基于社區(qū)專家構(gòu)建的通用內(nèi)涵屬性面板維護(hù)地理本體,以支持進(jìn)行地理實(shí)體的關(guān)系推理[65];基于“地理概念-地理實(shí)體-地理關(guān)系”三層地理知識(shí)圖譜,可用于面向互聯(lián)網(wǎng)泛在信息的地理實(shí)體語(yǔ)義關(guān)系推測(cè)[66]?;诒倔w和知識(shí)圖譜可以通過(guò)語(yǔ)義查詢方式對(duì)地理實(shí)體關(guān)系進(jìn)行提取,還可推測(cè)隱含的實(shí)體關(guān)系,但需要重點(diǎn)突破本體和知識(shí)圖譜構(gòu)建成本較高的瓶頸。

        4 典型應(yīng)用

        互聯(lián)網(wǎng)泛在地理信息感知技術(shù)大大降低了傳統(tǒng)行業(yè)數(shù)據(jù)采集制作的成本,提高數(shù)據(jù)采集的效率和質(zhì)量,豐富數(shù)據(jù)的內(nèi)容和形式,是對(duì)現(xiàn)有地理信息數(shù)據(jù)的一個(gè)很好的補(bǔ)充和完善。從海量多源數(shù)據(jù)中獲取地理信息,能夠促進(jìn)地理信息資源開(kāi)發(fā)利用,避免地理信息資源重復(fù)建設(shè),從而為全社會(huì)提供精細(xì)化服務(wù);可實(shí)現(xiàn)跨地區(qū)多尺度地理信息數(shù)據(jù)資源集成應(yīng)用,通過(guò)多源數(shù)據(jù)融合技術(shù)手段消除因分級(jí)管理、各部門信息資源難以共享造成的信息孤島、數(shù)字鴻溝,解決現(xiàn)有地理信息獲取與處理過(guò)程中技術(shù)難度大、建設(shè)成本高、開(kāi)發(fā)周期長(zhǎng)等不足,最終促進(jìn)地理信息資源共享,從而為政府、企業(yè)和公眾提供網(wǎng)絡(luò)化地理信息公共服務(wù)。本節(jié)圍繞智能互聯(lián)的開(kāi)放地理數(shù)據(jù)網(wǎng)絡(luò)、融合社會(huì)感知的城市治理與應(yīng)急服務(wù)、網(wǎng)絡(luò)內(nèi)容監(jiān)測(cè)與地理空間情報(bào)三個(gè)典型應(yīng)用展開(kāi)說(shuō)明。

        4.1 智能互聯(lián)的開(kāi)放地理數(shù)據(jù)網(wǎng)絡(luò)

        可發(fā)現(xiàn)性、可訪問(wèn)性與互操作性是網(wǎng)絡(luò)開(kāi)放數(shù)據(jù)高效使用的核心要求,也是未來(lái)10年全球地理信息管理的發(fā)展方向。通過(guò)地理數(shù)據(jù)橋接、開(kāi)放搜索API擴(kuò)展以及地理聚焦搜索引擎,SDI門戶、專業(yè)地理信息服務(wù)、社交媒體和web網(wǎng)頁(yè)等成為可發(fā)現(xiàn)和可訪問(wèn)的地理數(shù)據(jù);語(yǔ)義網(wǎng)絡(luò)構(gòu)建地理本體支持不同來(lái)源的地理數(shù)據(jù)實(shí)現(xiàn)實(shí)體連接和關(guān)聯(lián)推薦,擴(kuò)展時(shí)空語(yǔ)義的搜索適配使得網(wǎng)絡(luò)服務(wù)更準(zhǔn)確地理解地理數(shù)據(jù)和用戶需求的語(yǔ)法和模式,使得不同地區(qū)、不同部門的松散SDI和開(kāi)放服務(wù)實(shí)現(xiàn)高效聚合和動(dòng)態(tài)互聯(lián),形成智能互聯(lián)的開(kāi)放地理數(shù)據(jù)網(wǎng)絡(luò),為全球可持續(xù)發(fā)展提供“任務(wù)就緒”數(shù)據(jù)服務(wù)目標(biāo)。

        4.2 融合社會(huì)感知的城市治理與應(yīng)急服務(wù)

        智慧城市與應(yīng)急管理已成為可持續(xù)發(fā)展的重要方向,覆蓋完整、語(yǔ)義豐富和更新及時(shí)的時(shí)空信息對(duì)于城市治理和應(yīng)急管理尤其重要。面向智慧城市的互聯(lián)網(wǎng)泛在城市治理和應(yīng)急管理方面的框架及應(yīng)用如圖4所示,圖中右邊部分從上往下分別展示了互聯(lián)網(wǎng)泛在信息在地理知識(shí)圖譜構(gòu)建、工商實(shí)體精確畫像和城市樓宇融合分析等方面的應(yīng)用。通過(guò)互聯(lián)網(wǎng)泛在地理信息采集處理,可從政府公開(kāi)信息中獲取各類機(jī)構(gòu)和工商企業(yè)的注冊(cè)信息及地址,構(gòu)建和更新交通、學(xué)校、醫(yī)療、公安、消防、商業(yè)等城市基礎(chǔ)設(shè)施信息,從簽到、評(píng)價(jià)及實(shí)景圖像中提取場(chǎng)所及周邊的建筑外觀、綠化狀況、生活成本、社會(huì)活動(dòng)強(qiáng)度等豐富特征,并在第一時(shí)間通過(guò)新聞和社交媒體跟蹤事故災(zāi)難的位置及實(shí)況信息。對(duì)不斷涌現(xiàn)的互聯(lián)網(wǎng)泛在地理信息進(jìn)行持續(xù)監(jiān)測(cè),形成面向城市的社會(huì)感知能力,可對(duì)城市環(huán)境、基礎(chǔ)設(shè)施和事件信息進(jìn)行低成本跟蹤和多維度畫像,為解決SDI在支持產(chǎn)業(yè)分析監(jiān)測(cè)、空間格局優(yōu)化、災(zāi)害應(yīng)急管理工作中的“數(shù)據(jù)之困”提供有效途徑。

        圖4 面向智慧城市的互聯(lián)網(wǎng)泛在城市治理和應(yīng)急管理方面的框架及應(yīng)用

        4.3 網(wǎng)絡(luò)內(nèi)容監(jiān)測(cè)與地理空間情報(bào)

        快速發(fā)現(xiàn)互聯(lián)網(wǎng)上的可訪問(wèn)地理信息并與權(quán)威數(shù)據(jù)進(jìn)行內(nèi)容融合和聯(lián)合分析,已成為大數(shù)據(jù)時(shí)代地理空間情報(bào)(GeoINT)的重要發(fā)展方向。一方面,基于地理信息搜索引擎和時(shí)空語(yǔ)義智能分析方法,從網(wǎng)站、新聞和社交媒體中提取地理實(shí)體及時(shí)空屬性,對(duì)文本、圖像、視頻進(jìn)行自動(dòng)分類、目標(biāo)識(shí)別和語(yǔ)義標(biāo)注,可對(duì)互聯(lián)網(wǎng)上發(fā)布的地圖和地理信息進(jìn)行內(nèi)容監(jiān)測(cè)和合規(guī)性分析,維護(hù)大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息服務(wù)的國(guó)家安全和公眾利益;另一方面,廣泛接入開(kāi)放地理信息(open data)、志愿者地理信息和眾包數(shù)據(jù),并與權(quán)威地理數(shù)據(jù)進(jìn)行合并和融合,可為地理空間情報(bào)系統(tǒng)賦予快速驗(yàn)證不同來(lái)源地理數(shù)據(jù)的可信度、利用本地化信息豐富權(quán)威地理數(shù)據(jù)內(nèi)容、持續(xù)集成以提高時(shí)空態(tài)勢(shì)感知等新能力。

        5 結(jié)論與展望

        地理信息越來(lái)越成為政府、機(jī)構(gòu)、企業(yè)和公眾開(kāi)展決策的基礎(chǔ)設(shè)施。隨著技術(shù)進(jìn)步和應(yīng)用深入,互聯(lián)網(wǎng)不僅成為信息分發(fā)和共享的渠道,也已成為迄今為止最大的開(kāi)放地理信息資源庫(kù)。今天,互聯(lián)網(wǎng)泛在地理信息在數(shù)量、規(guī)模、速度、多樣性和復(fù)雜性方面已經(jīng)超出傳統(tǒng)SDI技術(shù)體系所能處理的范疇。系統(tǒng)研究泛在地理信息的搜索、提取、分析、合并和協(xié)調(diào)技術(shù),對(duì)顯著提升互聯(lián)網(wǎng)地理大數(shù)據(jù)的可發(fā)現(xiàn)性、可獲得性和互操作性具有重要意義;同時(shí),泛在地理信息感知融合技術(shù)也可在構(gòu)建智能互聯(lián)的開(kāi)放地理數(shù)據(jù)網(wǎng)絡(luò)、優(yōu)化城市治理和應(yīng)急管理的空間數(shù)據(jù)支持、提升網(wǎng)絡(luò)地理信息內(nèi)容管理和地理空間情報(bào)智能等方面催生全新應(yīng)用,因此準(zhǔn)確把握其技術(shù)發(fā)展趨勢(shì)更具有前瞻性和實(shí)際應(yīng)用價(jià)值。

        未來(lái),隨著物聯(lián)網(wǎng)、數(shù)字孿生、元宇宙等新技術(shù)和新應(yīng)用成熟,傾斜三維、全景圖像、視頻地理信息等新型地理信息等不斷涌現(xiàn),地理信息與物理世界和社會(huì)系統(tǒng)的交融更為廣泛和深入,互聯(lián)網(wǎng)地理信息的體量和異質(zhì)性將進(jìn)一步提高,其“碎片化”趨勢(shì)將更為突出。同時(shí),隨著新型基礎(chǔ)測(cè)繪快速推進(jìn),傳統(tǒng)SDI與泛在地理信息融合不可避免。因此,需要在以下幾方面拓展研究。

        (1) 多重語(yǔ)義自動(dòng)提取和深度理解:目前研究多停留在實(shí)體抽取、要素發(fā)現(xiàn)等低層語(yǔ)義特征方面,對(duì)于文本、圖像中蘊(yùn)含的位置特征、實(shí)體關(guān)系、場(chǎng)景特征、地理事件等高層語(yǔ)義特征還缺乏高效穩(wěn)健的提取算法。通過(guò)人工智能技術(shù)實(shí)現(xiàn)將空間語(yǔ)義從語(yǔ)法/像素/要素的抽取,進(jìn)入到高層時(shí)空?qǐng)鼍暗淖R(shí)別推測(cè),從而支持計(jì)算機(jī)“看清”“讀懂”泛在地理信息包含的豐富時(shí)空語(yǔ)義。

        (2) 網(wǎng)絡(luò)感知融合數(shù)據(jù)質(zhì)量評(píng)估與控制:目前針對(duì)數(shù)據(jù)質(zhì)量的評(píng)估與控制主要體現(xiàn)在數(shù)據(jù)邏輯性、可信度及有效性等方面,無(wú)法有效度量和處理多源網(wǎng)絡(luò)感知時(shí)空信息的非均衡性和不確定性特征。為此,需要深入研究網(wǎng)絡(luò)感知地理信息的有偏性與模糊性,構(gòu)建不確定性描述特征和檢測(cè)模型,建立數(shù)據(jù)可融合性能力評(píng)估與交叉驗(yàn)證方法,實(shí)現(xiàn)多源大數(shù)據(jù)協(xié)同糾偏和聯(lián)合增強(qiáng)。

        (3) 數(shù)據(jù)譜系構(gòu)建與細(xì)粒度屬性溯源:隨著時(shí)空信息廣泛關(guān)聯(lián)和深度融合,數(shù)據(jù)融合成果中要素屬性和記錄/實(shí)體信息不斷豐富和擴(kuò)充,多源泛在地理信息處理過(guò)程呈現(xiàn)譜系化、非線性的復(fù)雜特征。對(duì)多源時(shí)空信息的數(shù)據(jù)特征及其迭代融合過(guò)程進(jìn)行有效管理,形成以“數(shù)據(jù)譜系”為核心的管理架構(gòu)下,并支持多粒度信息的溯源能力,是互聯(lián)網(wǎng)泛在地理信息管理和應(yīng)用的未來(lái)發(fā)展方向。

        (4) 數(shù)據(jù)安全與位置隱私保護(hù):隨著人類社會(huì)與互聯(lián)網(wǎng)的進(jìn)一步融合,互聯(lián)網(wǎng)地理信息也面臨著泄露國(guó)家秘密和個(gè)人隱私信息、非授權(quán)訪問(wèn)與數(shù)據(jù)濫用等重大的風(fēng)險(xiǎn)和威脅?;ヂ?lián)網(wǎng)泛在地理信息安全與隱私保護(hù)有大量問(wèn)題急需解決,具體包括:空間大數(shù)據(jù)的內(nèi)容風(fēng)險(xiǎn)評(píng)估、時(shí)空信息脫敏與去標(biāo)識(shí)化、時(shí)空數(shù)據(jù)加密與安全傳輸、互聯(lián)網(wǎng)環(huán)境下的地理信息可信共享與溯源、分布式時(shí)空安全協(xié)同計(jì)算等。

        猜你喜歡
        語(yǔ)義信息
        語(yǔ)言與語(yǔ)義
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        展會(huì)信息
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        語(yǔ)義分析與漢俄副名組合
        修辭的基礎(chǔ)——語(yǔ)義和諧律
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        性猛交╳xxx乱大交| 无码成人片一区二区三区| 在线免费日韩| 中文字幕永久免费观看| 天堂网av在线| 亚洲视频一区二区蜜桃| 亚洲香蕉av一区二区三区| 麻豆精品国产精华液好用吗| 老师翘臀高潮流白浆| AV无码一区二区三区国产| 国产精品久久久久久久久久影院| 在线看不卡的国产视频| 久久伊人精品中文字幕有尤物| 色偷偷色噜噜狠狠网站30根| 寂寞少妇做spa按摩无码| 俺来也俺去啦久久综合网| 亚洲女同精品一区二区久久| 亚洲一区二区三区免费av在线 | 亚洲欧洲av综合色无码| 精品人妻少妇一区二区三区不卡| 久久久久亚洲精品天堂| 日本一区二区三区小视频| 久久精品国产亚洲av久按摩| 国内精品伊人久久久久网站| 少妇高潮喷水久久久影院| av免费看网站在线观看| 中文字幕高清视频婷婷| 好大好爽我要高潮在线观看| 日韩一卡2卡3卡4卡新区亚洲| 精品人体无码一区二区三区 | 人妻熟妇乱又伦精品hd| 少妇性饥渴无码a区免费| 老少交欧美另类| 无码伊人久久大香线蕉| 国产一区二区视频在线看| 亚洲婷婷久悠悠色悠在线播放| 欧美黑人又粗又大xxxx| 国产一区二区三精品久久久无广告| 国产激情视频白浆免费| 偷拍一区二区三区在线观看| 美腿丝袜诱惑一区二区|