王 勇
中國(guó)測(cè)繪科學(xué)研究院,北京 100039
?
深網(wǎng)POI信息獲取與一致性處理方法研究
王 勇
中國(guó)測(cè)繪科學(xué)研究院,北京 100039
興趣點(diǎn)(point of interest,POI)是地理信息服務(wù)的重要形式?;ヂ?lián)網(wǎng)上的POI信息大多位于深網(wǎng)網(wǎng)絡(luò)(deep web)中,其數(shù)據(jù)量極其龐大。隨著互聯(lián)網(wǎng)技術(shù)與應(yīng)用的快速普及和地理信息服務(wù)的深入發(fā)展,POI信息資源規(guī)模不斷增長(zhǎng)、更新更為頻繁,充分挖掘深網(wǎng)網(wǎng)絡(luò)中蘊(yùn)含的POI數(shù)據(jù),對(duì)于豐富地理信息資源、提升空間信息服務(wù)與內(nèi)容管理能力具有重要意義。
當(dāng)前,通用搜索引擎和普通深網(wǎng)爬行方法難以有效獲取深網(wǎng)POI數(shù)據(jù),來(lái)源于不同網(wǎng)站的POI信息也存在位置信息、地址描述及分類屬性等方面的不一致,如何實(shí)現(xiàn)深網(wǎng)POI的有效集成和深度整合,成為空間信息技術(shù)面臨的一大挑戰(zhàn)。為此,論文研究深網(wǎng)POI獲取與一致性處理方法,主要研究工作包括:
(1) 基于檢索詞優(yōu)化與空間自適應(yīng)的深網(wǎng)POI獲取方法研究。對(duì)深網(wǎng)POI信息進(jìn)行持續(xù)獲取,并確保在盡量小的代價(jià)下盡可能大的爬行覆蓋,是深網(wǎng)POI獲取需要解決的核心問(wèn)題。為此,對(duì)深網(wǎng)POI信息獲取進(jìn)行了形式化建模,將POI爬行問(wèn)題歸結(jié)為特定地理空間范圍的集合覆蓋求解問(wèn)題;為實(shí)現(xiàn)查詢結(jié)果的最大可能覆蓋,提出了基于原有分類體系、類型特征詞提取以及多策略同義詞生成相結(jié)合的方法,構(gòu)建候選檢索詞集合;為有效降低查詢代價(jià),通過(guò)對(duì)局部地區(qū)進(jìn)行貪婪式查詢并構(gòu)建倒排索引,提出了基于重復(fù)覆蓋率迭代計(jì)算的檢索詞集合優(yōu)化方法,實(shí)現(xiàn)了對(duì)候選檢索詞的簡(jiǎn)化和排序;為解決局部空間范圍最大記錄限制以及單節(jié)點(diǎn)服務(wù)訪問(wèn)受限引發(fā)的爬行失效問(wèn)題,提出了基于自適應(yīng)空間剖分和動(dòng)態(tài)遷移的爬行策略。試驗(yàn)表明本文方法能有效爬取深網(wǎng)POI數(shù)據(jù),并達(dá)到較為理想的覆蓋率。
(2) 基于格網(wǎng)化糾正的多源POI位置信息一致性處理方法研究。在空間參考和度量單位未知的環(huán)境中實(shí)現(xiàn)異源POI空間坐標(biāo)的相互轉(zhuǎn)換,并確保誤差可控,是多源POI信息一致性處理的主要任務(wù)。為此,提出了基于地理格網(wǎng)和二階多項(xiàng)變換的位置信息一致性處理方法,通過(guò)對(duì)各個(gè)地理格網(wǎng)單元實(shí)現(xiàn)局部一致化處理,實(shí)現(xiàn)了對(duì)非線性偏移的全局近似校正;提出了基于迭代檢測(cè)的格網(wǎng)自動(dòng)構(gòu)建及控制點(diǎn)生成方法,實(shí)現(xiàn)了基于給定誤差閾值的地理格網(wǎng)單元自動(dòng)生成;試驗(yàn)表明利用該方法能較好實(shí)現(xiàn)多源POI位置套合。
(3) 基于自學(xué)習(xí)參考地址庫(kù)的多源POI地址信息的一致化處理方法研究。面向傳統(tǒng)參考地址庫(kù)構(gòu)建成本高、多源POI地址信息不一致性強(qiáng)的技術(shù)挑戰(zhàn),提出了基于自學(xué)習(xí)參考地址庫(kù)的多源POI地址信息一致化處理方法。首先分析了中文地址的要素構(gòu)成和組合模式,并提出基于分類權(quán)重的地址標(biāo)準(zhǔn)化率計(jì)算模型;提出了基于特征詞的候選要素切分及匹配方法,實(shí)現(xiàn)了僅需行政區(qū)劃地理數(shù)據(jù)參與的參考地址庫(kù)生成及擴(kuò)展;提出了基于kNN離群分析的異常地址要素檢測(cè)方法,以及基于規(guī)則的模糊要素匹配方法。試驗(yàn)表明該方法大大降低了參考地址庫(kù)的構(gòu)建成本,并可獲得較高的匹配準(zhǔn)確率。
(4) 基于形式概念分析的多源POI分類信息一致化處理方法研究。針對(duì)由于分類體系不一、類別描述各異等原因造成的多源POI分類屬性不一致問(wèn)題,提出了基于形式概念分析的POI分類信息映射方法,通過(guò)對(duì)POI分類語(yǔ)義因子進(jìn)行抽取與優(yōu)化,形成多源POI分類的形式背景矩陣,在此基礎(chǔ)上利用改進(jìn)的Chein算法構(gòu)造POI分類概念格,以餐飲類POI構(gòu)建的分類概念格表明,形式概念分析方法可以有效實(shí)現(xiàn)異源POI分類信息的轉(zhuǎn)換與映射。
基于上述研究,本文自主開(kāi)發(fā)了深網(wǎng)POI信息獲取及一致性處理軟件原型,獲取了總量超過(guò)9000萬(wàn)的POI信息庫(kù);在此基礎(chǔ)上,通過(guò)對(duì)多源POI數(shù)據(jù)集進(jìn)行類別、地址和一致性處理,初步形成了多源POI融合成果庫(kù)。試驗(yàn)表明,本文方法對(duì)于有效獲取和整合深網(wǎng)POI數(shù)據(jù)資源、充分挖掘互聯(lián)網(wǎng)POI信息蘊(yùn)含的潛在價(jià)值具有重要意義。
Author:WANG YONG(1976—),male,received his doctoral degree from Wuhan University on May 2016,majors in geospatial analysis and data mining on Web.
E-mail:cspring@casm.ac.cn
Research on Crawling and Consistency Processing of POIs from Deep Web
WANG YONG
Chinese Academy of Surveying and Mapping, Beijing 100039, China
王勇.深網(wǎng)POI信息獲取與一致性處理方法研究[J].測(cè)繪學(xué)報(bào),2017,46(3):399.
10.11947/j.AGCS.2017.20160610.
WANG YONG.Research on Crawling and Consistency Processing of POIs from Deep Web[J].Acta Geodaetica et Cartographica Sinica,2017,46(3):399.DOI:10.11947/j.AGCS.2017.20160610.
P237
D
1001-1595(2017)03-0399-01
國(guó)家863計(jì)劃(2012AA12A402;2013AA12A403)
2016-12-05
王勇(1976—),男,2016年6月畢業(yè)于武漢大學(xué),獲工學(xué)博士學(xué)位(指導(dǎo)教師:劉紀(jì)平研究員,郭慶勝教授),研究方向?yàn)榫W(wǎng)絡(luò)地理信息分析與挖掘。