亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡(luò)的地理目標(biāo)數(shù)據(jù)獲取與處理方法研究

        2019-10-30 08:28:02戰(zhàn)略支援部隊(duì)信息工程大學(xué)葛磊劉海硯楊瑞杰
        網(wǎng)信軍民融合 2019年10期
        關(guān)鍵詞:屬性數(shù)據(jù)結(jié)構(gòu)化坐標(biāo)系

        ◎ 戰(zhàn)略支援部隊(duì)信息工程大學(xué) 葛磊 劉海硯 楊瑞杰

        隨著網(wǎng)絡(luò)信息資源的不斷豐富,基于網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)地理實(shí)體目標(biāo)信息的快速采集和更新成為可能。本文根據(jù)地理實(shí)體相關(guān)信息的分布和結(jié)構(gòu)特點(diǎn),對(duì)現(xiàn)有地理目標(biāo)位置數(shù)據(jù)的獲取方法進(jìn)行了分析,提出了通過(guò)屬性歸一化、基于規(guī)則匹配抽取半結(jié)構(gòu)化地理目標(biāo)屬性和基于弱監(jiān)督的條件隨機(jī)場(chǎng)模型抽取非結(jié)構(gòu)化文本中地理目標(biāo)屬性的方法,并針對(duì)多源地理目標(biāo)數(shù)據(jù)的不一致問(wèn)題提出了數(shù)據(jù)融合處理的一般方法。

        隨著“互聯(lián)網(wǎng)+”概念的提出,網(wǎng)絡(luò)已經(jīng)作為社會(huì)的基礎(chǔ)設(shè)施成為人類(lèi)生活中不可分割的一部分。隨著各種傳統(tǒng)行業(yè)、服務(wù)行業(yè)與互聯(lián)網(wǎng)的深度結(jié)合,互聯(lián)網(wǎng)集聚了各行各業(yè)的信息資源,已成為人類(lèi)各種信息的主要來(lái)源。然而,互聯(lián)網(wǎng)上的原始數(shù)據(jù)都是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的,不能直接作為地理信息產(chǎn)品使用,如何快速準(zhǔn)確獲取結(jié)構(gòu)化的地理實(shí)體目標(biāo)數(shù)據(jù)仍面臨著許多挑戰(zhàn)。

        一、地理空間數(shù)據(jù)網(wǎng)絡(luò)獲取現(xiàn)狀分析

        地理空間數(shù)據(jù)獲取的主要手段是Web爬蟲(chóng)技術(shù),即根據(jù)給定的一個(gè)網(wǎng)頁(yè),通過(guò)對(duì)網(wǎng)頁(yè)中的鏈接進(jìn)行解析發(fā)現(xiàn)其他網(wǎng)頁(yè),然后不斷進(jìn)行迭代爬取,直到完成對(duì)所有相關(guān)網(wǎng)頁(yè)的爬取。另一類(lèi)信息獲取技術(shù)是利用一些專(zhuān)業(yè)網(wǎng)站提供的Web開(kāi)發(fā)接口或者服務(wù)接口獲取特定類(lèi)型的數(shù)據(jù),這類(lèi)數(shù)據(jù)通常質(zhì)量較高,數(shù)據(jù)結(jié)構(gòu)良好,比較適合專(zhuān)業(yè)數(shù)據(jù)的獲取。地理空間數(shù)據(jù)獲取主要包括位置數(shù)據(jù)和屬性數(shù)據(jù)的獲取。

        位置數(shù)據(jù)獲取方面,目前基于Web的地理信息獲取研究較多,大多集中在對(duì)地理實(shí)體位置數(shù)據(jù)的獲取,還存在數(shù)據(jù)獲取不完整、數(shù)據(jù)損失和數(shù)據(jù)冗余等問(wèn)題,數(shù)據(jù)的準(zhǔn)確度和數(shù)據(jù)結(jié)構(gòu)的完整性不能保證,同時(shí)對(duì)多源數(shù)據(jù)的融合和統(tǒng)一轉(zhuǎn)換問(wèn)題的研究仍相對(duì)較少。

        屬性數(shù)據(jù)獲取方面,MUC(消息理解會(huì)議,Message Understanding Conference)系列會(huì)議通過(guò)具體的任務(wù)進(jìn)行信息抽取并建立了嚴(yán)格的評(píng)價(jià)體系對(duì)各個(gè)抽取系統(tǒng)進(jìn)行評(píng)測(cè),逐漸完善了基于模板和規(guī)則的信息抽取方案,形成了一套面向領(lǐng)域、基于規(guī)則的信息抽取體系,同時(shí)形成了一套完善的信息抽取結(jié)果評(píng)價(jià)指標(biāo)體系。中文信息抽取的研究開(kāi)始較晚,另外由于中文和英語(yǔ)在母單詞、語(yǔ)法和語(yǔ)義基本單元差別,使很多英文信息抽取方法不能直接應(yīng)用于中文信息抽取。當(dāng)前中文信息抽取在命名實(shí)體識(shí)別的基礎(chǔ)上向關(guān)系抽取、關(guān)聯(lián)抽取、屬性抽取等更深層次發(fā)展。中文信息抽取系統(tǒng)目前仍集中在簡(jiǎn)單任務(wù)方面,國(guó)內(nèi)學(xué)者采用規(guī)則匹配、機(jī)器學(xué)習(xí)等方法對(duì)文本信息的抽取進(jìn)行了研究,其中,中科院的ICTCLAS和北大的會(huì)議新聞抽取系統(tǒng)實(shí)現(xiàn)了對(duì)簡(jiǎn)單文本信息的準(zhǔn)確抽取,但完善的中文信息抽取系統(tǒng)尚未成型。

        二、地理目標(biāo)位置數(shù)據(jù)的獲取

        POI(Point of Interest,興趣點(diǎn))是空間信息數(shù)據(jù)最鮮活的“血液”,它通常代表的是一類(lèi)真實(shí)的地理實(shí)體?;ヂ?lián)網(wǎng)信息冗雜,高質(zhì)量的地理信息網(wǎng)站是獲取高質(zhì)量數(shù)據(jù)的最佳來(lái)源。百度地圖和高德地圖擁有豐富的國(guó)內(nèi)POI資源,并且提供了較為完善的開(kāi)發(fā)接口,國(guó)外開(kāi)源地圖OSM(Open Street Map)數(shù)據(jù)完全開(kāi)放,歐洲、北美等地區(qū)的數(shù)據(jù)較為豐富。因此,位置數(shù)據(jù)獲取中國(guó)內(nèi)數(shù)據(jù)主要基于百度地圖和高德地圖數(shù)據(jù)進(jìn)行抽取,境外數(shù)據(jù)的獲取將OSM作為數(shù)據(jù)源。

        (一)國(guó)內(nèi)POI數(shù)據(jù)獲取

        抽取百度地圖POI信息可利用百度地圖JavaScript API的服務(wù)類(lèi)接口。百度地圖提供的開(kāi)放接口是有限制的,通過(guò)檢索半徑和檢索關(guān)鍵詞限制單次大規(guī)模下載POI數(shù)據(jù)。針對(duì)檢索半徑的限制問(wèn)題,采用多線(xiàn)程思想對(duì)任務(wù)區(qū)域進(jìn)行分割,逐塊對(duì)每個(gè)任務(wù)區(qū)域進(jìn)行處理,最后將各任務(wù)區(qū)域獲取的數(shù)據(jù)合并,在避免檢索半徑限制的同時(shí)能夠提高任務(wù)處理效率。檢索關(guān)鍵詞限制主要包括單次檢索關(guān)鍵詞數(shù)量的限制和所選關(guān)鍵詞檢索數(shù)據(jù)的完整性限制。單次檢索關(guān)鍵詞數(shù)量限制可通過(guò)多次構(gòu)建任務(wù)分批進(jìn)行檢索。針對(duì)所選關(guān)鍵詞檢索的數(shù)據(jù)完整性限制,可采用兩種解決方法。一種是使用其提供的GeocoderResult.surroundingPois接口直接獲取數(shù)據(jù),該接口不需要提供關(guān)鍵詞,但獲取數(shù)據(jù)的屬性信息缺失較多;第二種是利用LocalSearch接口提供關(guān)鍵詞檢索。采用“美食”“酒店”“購(gòu)物”等17個(gè)關(guān)鍵詞對(duì)鄭州地區(qū)某一區(qū)域進(jìn)行了數(shù)據(jù)抽取實(shí)驗(yàn),得到POI數(shù)量707個(gè),爬全率為96.717%,數(shù)據(jù)的完整性較好。百度地圖POI的獲取流程如圖1所示。

        與百度地圖POI數(shù)據(jù)抽取相比,高德地圖提供的POI數(shù)據(jù)接口只有基于關(guān)鍵詞的周邊搜索方法AMap.PlaceSearch。高德地圖數(shù)據(jù)接口對(duì)單次檢索所選關(guān)鍵詞的數(shù)量沒(méi)有限制,主要在于單次檢索半徑的限制和檢索關(guān)鍵詞所獲取POI數(shù)據(jù)完整性限制。單次檢索半徑的限制同樣可利用百度POI獲取中的多線(xiàn)程方法進(jìn)行處理。檢索關(guān)鍵詞的選取可參照高德地圖POI分類(lèi)標(biāo)準(zhǔn),選擇“汽車(chē)服務(wù)”“餐飲服務(wù)”“購(gòu)物服務(wù)”“生活服務(wù)”等23個(gè)關(guān)鍵詞分別進(jìn)行數(shù)據(jù)檢索。經(jīng)對(duì)比自動(dòng)檢索與人工檢索、實(shí)地驗(yàn)證相結(jié)合,對(duì)鄭州某一區(qū)域POI數(shù)據(jù)檢索的結(jié)果如圖2所示,POI總數(shù)744個(gè),綜合爬全率96.373%,抽取數(shù)據(jù)的完整程度較為可靠。

        (二)境外POI數(shù)據(jù)獲取

        OSM旨在建立一個(gè)任何人都可以編輯的全球地理數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)由Steve Coast在2004年7月建立。近年來(lái),OSM數(shù)據(jù)量增長(zhǎng)迅速,截至2014年3月1日,OSM數(shù)據(jù)量的總體情況為:GPS數(shù)據(jù)點(diǎn)總共3,829,201,844個(gè),節(jié)點(diǎn)數(shù)量2,223,977,668個(gè),路徑數(shù)量219,537,496個(gè),關(guān)系數(shù)量2,406,517條,參與編輯的總用戶(hù)數(shù)量1,528,868個(gè)。OSM將地理實(shí)體分為30個(gè)要素類(lèi),每個(gè)類(lèi)根據(jù)標(biāo)簽的key和value分為若干小類(lèi)。

        從OSM中抽取POI要素的常用方法是直接將OSM數(shù)據(jù)轉(zhuǎn)換為常用的SHP格式,然后將SHP格式中的點(diǎn)要素作為POI要素。這種方法主要依賴(lài)第三方工具,實(shí)現(xiàn)較為簡(jiǎn)單,但由于不同數(shù)據(jù)在地理位置和屬性定義等方面的差異,往往會(huì)造成POI數(shù)據(jù)缺失,另外該方法存在大量冗余操作,不利于海量數(shù)據(jù)的處理。

        圖1 百度地圖POI獲取流程

        圖2 高德地圖獲取POI信息

        圖3 對(duì)OSM中Albania地區(qū)POI數(shù)據(jù)抽取結(jié)果

        圖4 基于半結(jié)構(gòu)文本的屬性匹配抽取流程

        根據(jù)OSM數(shù)據(jù)的存儲(chǔ)特征,可通過(guò)OSM標(biāo)簽中的key和value值直接提取符合要求的信息。首先,建立一個(gè)不同key和value對(duì)應(yīng)的POI分類(lèi)模板,確定需要提取的要素與類(lèi)別,遍歷數(shù)據(jù)中所有要素標(biāo)簽中的key和value,并與模板進(jìn)行匹配,滿(mǎn)足匹配條件則保存該要素的所有值和坐標(biāo),從而實(shí)現(xiàn)POI信息的提取。采用該方法對(duì)Albania 地區(qū)的POI信息進(jìn)行了提取,數(shù)據(jù)為PBF格式,數(shù)據(jù)大小15.24MB。共抽取POI數(shù)據(jù)5252條,用時(shí)3850ms,分別為POI的名稱(chēng)、OSMID、坐標(biāo)、類(lèi)別等屬性信息,如圖3所示。該方法效率較高(相同硬件環(huán)境下,利用ArcGIS_Editor_OSM插件對(duì)上述數(shù)據(jù)進(jìn)行轉(zhuǎn)換耗時(shí)30秒以上)。

        三、基于文本信息的地理目標(biāo)屬性數(shù)據(jù)獲取

        地理目標(biāo)的屬性信息主要包含在網(wǎng)絡(luò)文本數(shù)據(jù)中。網(wǎng)絡(luò)上的文本數(shù)據(jù)按照其結(jié)構(gòu)化程度可分為半結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本兩類(lèi)。半結(jié)構(gòu)化文本是介于結(jié)構(gòu)化文本與非結(jié)構(gòu)化文本之間的一種文本形式,通常比較簡(jiǎn)短,結(jié)構(gòu)特征比較明顯,如百度百科的信息框;非結(jié)構(gòu)化文本中的文字完全是按照自然語(yǔ)言規(guī)則,即按人類(lèi)的理解方式產(chǎn)生的文本,通常有新聞報(bào)道、文獻(xiàn)資料等,如百度百科的正文部分。網(wǎng)絡(luò)文本數(shù)據(jù)通常以非結(jié)構(gòu)化數(shù)據(jù)為主,半結(jié)構(gòu)化數(shù)據(jù)為輔。百科網(wǎng)站中關(guān)于地理空間目標(biāo)的信息通常比其他網(wǎng)站更為詳細(xì)可靠,且同時(shí)包含半結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本,因此將其作為屬性數(shù)據(jù)獲取研究的基礎(chǔ)。

        (一)基于半結(jié)構(gòu)化文本的目標(biāo)屬性數(shù)據(jù)獲取

        半結(jié)構(gòu)化文本的屬性數(shù)據(jù)抽取中,首先根據(jù)地理實(shí)體名字獲取所在百科頁(yè)面信息框信息,統(tǒng)計(jì)信息框的所有屬性,計(jì)算其與預(yù)定義屬性的相似度,得到同義屬性,進(jìn)而抽取對(duì)應(yīng)屬性值,建立地理實(shí)體、屬性、屬性值之間的對(duì)應(yīng)關(guān)系,具體流程如下圖4所示。

        由于文本語(yǔ)義表達(dá)的多樣化,不同文本在表達(dá)地理實(shí)體的同一個(gè)屬性時(shí)可能采用不同關(guān)鍵詞,稱(chēng)為同義屬性詞。屬性數(shù)據(jù)獲取中需要對(duì)關(guān)鍵詞進(jìn)行識(shí)別,將表達(dá)地理實(shí)體同義屬性詞識(shí)別出來(lái)并合并為同一屬性,建立每個(gè)屬性項(xiàng)對(duì)應(yīng)的關(guān)鍵詞集合,這一過(guò)程稱(chēng)為屬性項(xiàng)歸一化。地理實(shí)體屬性項(xiàng)歸一化是實(shí)現(xiàn)半結(jié)構(gòu)化文本屬性數(shù)據(jù)獲取的關(guān)鍵。

        屬性項(xiàng)歸一化的實(shí)質(zhì)是判斷屬性項(xiàng)詞之間的同義性,因此需要對(duì)屬性項(xiàng)的相似度進(jìn)行度量,可采用字面相似度、語(yǔ)義相似度等指標(biāo)度量屬性項(xiàng)相似度。字面相似度的計(jì)算簡(jiǎn)單方便,不需要依賴(lài)大量的訓(xùn)練庫(kù)和字典,適合計(jì)算簡(jiǎn)單、字面相似詞的相似度;采用基于Word2vec的訓(xùn)練模型訓(xùn)練得到的詞向量度量語(yǔ)義相似度,具有維度低、快速、準(zhǔn)確等優(yōu)點(diǎn);基于同義詞的語(yǔ)義距離度量詞語(yǔ)相似度在計(jì)算較短詞語(yǔ)的很有效,但處理長(zhǎng)詞語(yǔ)時(shí)會(huì)有偏差??蓪⑷哌M(jìn)行結(jié)合,采用三個(gè)相似度中的最大值作為最終屬性項(xiàng)相似度。

        (二)基于非結(jié)構(gòu)化文本的目標(biāo)屬性數(shù)據(jù)獲取

        非結(jié)構(gòu)化文本中目標(biāo)屬性數(shù)據(jù)的獲取通常采用基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。傳統(tǒng)的有監(jiān)督學(xué)習(xí)需要大量的人工標(biāo)注語(yǔ)料進(jìn)行模型訓(xùn)練,海量的文本數(shù)據(jù)所需的人工標(biāo)注工作量巨大?;谌醣O(jiān)督學(xué)習(xí)可以利用一些已有知識(shí)庫(kù)的實(shí)體關(guān)系生成訓(xùn)練數(shù)據(jù),減少人工標(biāo)注量。在半結(jié)構(gòu)化文本屬性抽取的基礎(chǔ)上,采用基于弱監(jiān)督的條件隨機(jī)場(chǎng)抽取地理目標(biāo)屬性,利用實(shí)體屬性關(guān)系對(duì)非結(jié)構(gòu)化文本進(jìn)行自動(dòng)標(biāo)注產(chǎn)生訓(xùn)練語(yǔ)料,基于條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行學(xué)習(xí)生成地理目標(biāo)屬性模型,根據(jù)訓(xùn)練語(yǔ)料訓(xùn)練的地理實(shí)體屬性模型可實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化文本中的地理實(shí)體屬性的抽取?;谌醣O(jiān)督條件隨機(jī)場(chǎng)的屬性數(shù)據(jù)提取流程如圖5所示。

        語(yǔ)料預(yù)處理是保證文本信息抽取準(zhǔn)確性的基礎(chǔ),尤其是中文文本,其基本的語(yǔ)義單元可能是一個(gè)或者多個(gè)字,直接抽取根本得不到預(yù)期結(jié)果。語(yǔ)料預(yù)處理時(shí),首先剔除百科文檔中包含的圖片標(biāo)簽和廣告標(biāo)簽,按照結(jié)構(gòu)化的信息框和非結(jié)構(gòu)化文本分割存儲(chǔ);采用3.1的方法將結(jié)構(gòu)化信息框中相關(guān)的地理目標(biāo)屬性提取出來(lái);而后將非結(jié)構(gòu)化文檔中的HTML標(biāo)簽去除得到純文本內(nèi)容,根據(jù)標(biāo)點(diǎn)符號(hào)將非結(jié)構(gòu)化文本拆分成單個(gè)句子,依據(jù)開(kāi)放分類(lèi)對(duì)提取的信息進(jìn)行分類(lèi),為基于地理實(shí)體類(lèi)別訓(xùn)練模型抽取屬性數(shù)據(jù)提供基礎(chǔ)。

        圖5 基于弱監(jiān)督的條件隨機(jī)場(chǎng)地理目標(biāo)屬性提取流程

        基于條件隨機(jī)場(chǎng)模型抽取地理目標(biāo)屬性實(shí)質(zhì)是利用統(tǒng)計(jì)學(xué)模型學(xué)習(xí)自由文本中某個(gè)實(shí)體屬性的觸發(fā)詞特征、屬性值特征和分布特征,根據(jù)這些特征去預(yù)測(cè)并抽取輸入文本中包含的地理實(shí)體屬性信息。特征選擇的好壞直接影響條件隨機(jī)場(chǎng)模型的識(shí)別準(zhǔn)確度,可采用屬性特征標(biāo)注、字特征、詞特征和詞性特征對(duì)文本信息進(jìn)行訓(xùn)練,根據(jù)抽取任務(wù)的差異選擇合適的特征以提高信息提取的準(zhǔn)確率和效率。

        四、多源地理目標(biāo)數(shù)據(jù)處理

        基于網(wǎng)絡(luò)獲取的地理目標(biāo)數(shù)據(jù)由于來(lái)源不同,其坐標(biāo)系統(tǒng)和數(shù)據(jù)表達(dá)方式均有所差別,需對(duì)其進(jìn)行轉(zhuǎn)換和融合處理,使數(shù)據(jù)能夠滿(mǎn)足不同應(yīng)用的需求。

        (一)多源地理數(shù)據(jù)空間坐標(biāo)系統(tǒng)統(tǒng)一

        坐標(biāo)是空間信息的核心數(shù)據(jù),是POI數(shù)據(jù)準(zhǔn)確性的重要體現(xiàn),是數(shù)據(jù)融合的重要依據(jù)。由于數(shù)據(jù)的采集來(lái)源、應(yīng)用需求的不同和數(shù)據(jù)安全原因,通常不同來(lái)源POI數(shù)據(jù)的坐標(biāo)系統(tǒng)也是有差異的。其中OSM數(shù)據(jù)使用的坐標(biāo)系是WGS-84地心坐標(biāo)系;高德地圖采用的是中國(guó)國(guó)家測(cè)繪局制定的GCJ-02坐標(biāo)系,該坐標(biāo)系對(duì)原始坐標(biāo)加入隨機(jī)偏差,對(duì)地理位置信息進(jìn)行加密;百度地圖采用的是自定義的BD-09坐標(biāo)系,該坐標(biāo)系在國(guó)家測(cè)繪局GCJ-02坐標(biāo)系的基礎(chǔ)上進(jìn)行了二次坐標(biāo)加密。

        WGS-84坐標(biāo)系是國(guó)外地圖服務(wù)商和數(shù)據(jù)供應(yīng)商常用的地理坐標(biāo)系,GCJ-02是所有國(guó)內(nèi)公開(kāi)發(fā)布的地理信息數(shù)據(jù)必須使用的坐標(biāo)系。WGS-84坐標(biāo)系和GCJ-02坐標(biāo)系兩個(gè)坐標(biāo)系的轉(zhuǎn)換是不可逆的,即WGS-84坐標(biāo)系下的坐標(biāo)可以精確轉(zhuǎn)換至GCJ-02坐標(biāo)系而不發(fā)生隨機(jī)位置偏移;但是GCJ-02坐標(biāo)系下的坐標(biāo)轉(zhuǎn)換至WGS-84坐標(biāo)系下會(huì)產(chǎn)生較大的隨機(jī)位置偏移。BD-09和GCJ-02坐標(biāo)系則可以互相進(jìn)行精確轉(zhuǎn)換。

        根據(jù)三種坐標(biāo)系的特點(diǎn),從數(shù)據(jù)獲取和應(yīng)用兩方面綜合考慮,對(duì)多源POI數(shù)據(jù)的坐標(biāo)系統(tǒng)進(jìn)行統(tǒng)一,境外數(shù)據(jù)采用WGS-84坐標(biāo)系進(jìn)行組織管理,后期應(yīng)用中可根據(jù)需求自由轉(zhuǎn)換;國(guó)內(nèi)數(shù)據(jù)統(tǒng)一采用GCJ-02坐標(biāo)系,需將百度地圖數(shù)據(jù)轉(zhuǎn)換為GCJ-02坐標(biāo)與高德地圖數(shù)據(jù)統(tǒng)一進(jìn)行管理。坐標(biāo)轉(zhuǎn)換可以通過(guò)百度和高德地圖提供的接口實(shí)現(xiàn),轉(zhuǎn)換精度較高。

        (二)多源POI數(shù)據(jù)融合方法

        多源POI數(shù)據(jù)融合主要有基于空間位置和基于非空間屬性的融合方法。POI數(shù)據(jù)分布密集,空間位置相近,數(shù)據(jù)屬性項(xiàng)較少,可采用空間位置和非空間屬性相結(jié)合的方法進(jìn)行數(shù)據(jù)融合。POI數(shù)據(jù)融合主要包括同名實(shí)體的匹配和屬性字段的融合兩個(gè)方面。

        1、同名實(shí)體匹配

        同名地理實(shí)體通常具有相同或者相似的名字、地址和相近的地理坐標(biāo),在空間位置和非空間屬性上具有較高的相似度,因此同名實(shí)體的識(shí)別主要基于POI名字和地址屬性的相似性和地理位置信息的相似性實(shí)現(xiàn)。

        基于非空間屬性的相似度匹配以語(yǔ)義相似度和字符相似度為基礎(chǔ),首先將文本信息劃分為基本語(yǔ)義單元,如“哈爾濱餃子館”劃分為“哈爾濱”和“餃子館”兩個(gè)語(yǔ)義單元,再根據(jù)字符相似度匹配算法對(duì)基本語(yǔ)義單元進(jìn)行匹配。該方法既考慮了POI名字和地址中的語(yǔ)義信息,又避免了因過(guò)度利用語(yǔ)義信息而可能產(chǎn)生的POI名字誤匹配。

        基于空間位置的相似度匹配主要有基于拓?fù)潢P(guān)系和基于度量關(guān)系的匹配方法。本文采用的數(shù)據(jù)源POI為點(diǎn)狀地理實(shí)體,其空間關(guān)系主要為度量關(guān)系,因此采用基于度量關(guān)系進(jìn)行相似度匹配。地理實(shí)體度量關(guān)系的相似性實(shí)際就是兩個(gè)POI點(diǎn)之間的空間距離,當(dāng)該距離小于某一閾值時(shí),可將二者作為匹配對(duì)象。

        2、屬性字段融合

        同名實(shí)體匹配后需將POI屬性字段合并以獲取更加完整的數(shù)據(jù)集。POI屬性字段融合主要包括對(duì)多源POI唯一屬性項(xiàng)和共有屬性項(xiàng)的處理。唯一屬性項(xiàng)通常直接加入合并的融合數(shù)據(jù)集中,豐富數(shù)據(jù)集的屬性信息。共有屬性項(xiàng)的處理中通常只保留單一來(lái)源數(shù)據(jù)或合并所有來(lái)源的數(shù)據(jù)。

        百度地圖和高德地圖POI的共有屬性項(xiàng)包括名字、地址、電話(huà)、類(lèi)別等。其中,名字是匹配相似度計(jì)算的重要參考,通常同名實(shí)體的名字和地址相同或者相似,名字相同的可直接合并,名字相似的則要綜合考慮名字的準(zhǔn)確度和描述詳細(xì)程度,可采用式(1)對(duì)目標(biāo)的準(zhǔn)確度和詳細(xì)程度進(jìn)行綜合描述,對(duì)于同名實(shí)體保留重要性高的名字。POI地址的數(shù)據(jù)特征與名字相似,可采用相同方法進(jìn)行融合。

        五、結(jié)論

        本文以豐富的網(wǎng)絡(luò)信息為基礎(chǔ),對(duì)地理目標(biāo)的獲取與處理方法進(jìn)行了研究,綜合高德地圖、百度地圖和OSM開(kāi)源數(shù)據(jù)等數(shù)據(jù)源實(shí)現(xiàn)了對(duì)地理目標(biāo)位置數(shù)據(jù)的批量式、高爬全率獲取,為全球區(qū)域的地理實(shí)體位置數(shù)據(jù)的快速在線(xiàn)獲取提供了支持;采用屬性歸一化、基于規(guī)則匹配等方法實(shí)現(xiàn)了半結(jié)構(gòu)化地理目標(biāo)屬性數(shù)據(jù)的抽取,基于弱監(jiān)督的條件隨機(jī)場(chǎng)實(shí)現(xiàn)了非結(jié)構(gòu)化地理目標(biāo)屬性數(shù)據(jù)的抽取,完善了地理目標(biāo)的屬性數(shù)據(jù);通過(guò)同名實(shí)體匹配和屬性字段融合相結(jié)合的方法實(shí)現(xiàn)了多源數(shù)據(jù)的自動(dòng)融合處理,提高了獲取的地理目標(biāo)數(shù)據(jù)的質(zhì)量。

        由于網(wǎng)絡(luò)信息資源過(guò)于龐大,本文僅針對(duì)部分互聯(lián)網(wǎng)資源和部分關(guān)鍵點(diǎn)對(duì)地理目標(biāo)信息的獲取與處理方法進(jìn)行了研究,后續(xù)研究中,如何從更多包含地理空間信息的網(wǎng)站中獲取地理目標(biāo)位置數(shù)據(jù)、基于半結(jié)構(gòu)文本獲取更大規(guī)模的語(yǔ)料、提升非結(jié)構(gòu)文本標(biāo)注的準(zhǔn)確率和召回率、對(duì)獲取數(shù)據(jù)質(zhì)量進(jìn)行更為全面準(zhǔn)確的評(píng)價(jià)等方面是研究的重點(diǎn)。

        猜你喜歡
        屬性數(shù)據(jù)結(jié)構(gòu)化坐標(biāo)系
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        基于GIS的房產(chǎn)測(cè)繪管理信息系統(tǒng)架構(gòu)研究
        科技資訊(2019年18期)2019-09-17 11:03:28
        無(wú)源多傳感器綜合數(shù)據(jù)關(guān)聯(lián)算法研究
        屬性數(shù)據(jù)分析教學(xué)改革初探
        解密坐標(biāo)系中的平移變換
        坐標(biāo)系背后的故事
        基于重心坐標(biāo)系的平面幾何證明的探討
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        極坐標(biāo)系下移動(dòng)機(jī)器人的點(diǎn)鎮(zhèn)定
        人妻 色综合网站| 亚洲天堂男人的av天堂| 一区二区在线视频免费蜜桃 | 97久久久一区二区少妇| 亚洲中文字幕人妻av在线| 色妞ww精品视频7777| 亚洲一区综合精品狠狠爱| 久久伊人中文字幕有码久久国产| 国产免费观看久久黄av麻豆| 欧洲美女黑人粗性暴交| 成人欧美一区二区三区白人| 久久人妻av不卡中文字幕| 自拍视频在线观看首页国产| 最新国产福利在线观看精品| 在线播放a欧美专区一区| 综合久久青青草免费观看视频| 国产三级久久精品三级91| 久久无码av中文出轨人妻| 亚洲a∨天堂男人无码| 亚洲一区二区三区一区| 亚洲综合精品中文字幕| 成人妇女免费播放久久久| 无码在线观看123| 亚洲一二三四五中文字幕| 国产电影无码午夜在线播放| 免费人成年小说在线观看| 精品人妻一区二区三区蜜桃| 一区二区三区日本伦理| 一本久久伊人热热精品中文字幕| 欧美日韩亚洲色图| 亚洲精品在线观看自拍| 天天做天天爱夜夜爽女人爽| 亚洲 高清 成人 动漫| 久久精品国产成人午夜福利| 亚洲中文av中文字幕艳妇| 伊人激情av一区二区三区| 2021年国产精品每日更新| 日本高清成人一区二区三区| 人妻精品久久久久中文字幕| 国产欧美日韩视频一区二区三区 | 日本黑人人妻一区二区水多多|