寇靜行 王漢英 王玉琴 尤靜靜
(地理信息工程國家重點實驗室 北京 100088)
作為地理空間大數(shù)據(jù)的重要代表,POI(Point of Interest)數(shù)據(jù)隨著互聯(lián)網(wǎng)電子地圖服務與基于位置服務(Location Based Services,LBS)應用的普及,無論從概念內涵與信息縱深,還是應用的廣度與深度,都有著長足發(fā)展,已經(jīng)成為信息空間的參天大樹。基于POI數(shù)據(jù)的各種研究與應用,不僅便利了人們日常生活衣食住行,也為城市規(guī)劃、鄉(xiāng)村振興、經(jīng)濟分析、能源消耗等諸多領域提供分析輔助決策,發(fā)揮著巨大經(jīng)濟和社會效益。國內學者對POI 數(shù)據(jù)的研究熱度持續(xù)高漲,從中國知網(wǎng)相關論文數(shù)量上看,一直呈上升趨勢。面對迅猛的發(fā)展態(tài)勢,有必要對近年來POI 領域研究進行階段性總結,摸清其研究熱點,挖掘其應用潛力與發(fā)展趨勢?;诖?,該文應用Citespace工具,對中國知網(wǎng)上2020 年以來POI 領域研究的文獻進行知識圖譜分析,梳理當前研究熱點,分析該領域研究不足與洼地,探究發(fā)展趨勢,為進一步研究奠定基礎。
POI 數(shù)據(jù)在測繪行業(yè)特指導航圖中的興趣點數(shù)據(jù),是Point of Interest 的縮寫,在其他應用領域也有解釋為信息點,是Point of Information的縮寫,所以POI數(shù)據(jù)可根據(jù)所在的應用場景不同,可以翻譯為興趣點或信息點,泛指互聯(lián)網(wǎng)電子地圖中點類地理實體數(shù)據(jù),如學校、醫(yī)院、商場、加油站、公園以及政府機構等。一般由名稱、類別、地址、坐標這4個基本屬性組成,來表達地理實體的空間位置和屬性信息。
從GIS應用層面看,POI數(shù)據(jù)可以分為基礎框架類POI 和業(yè)務應用類POI。基礎框架類POI 用于表達真實世界的基本組成要素,如城市部件、地名數(shù)據(jù)等,主要來源于國家基礎測繪成果DLG 產(chǎn)品中點類地圖要素矢量數(shù)據(jù)集;業(yè)務應用類POI 是根據(jù)應用場景的需要,將一些事、物進行統(tǒng)一建模,抽象帶有屬性的地理位置點進行管理、分析和計算,如網(wǎng)約車平臺系統(tǒng)中的上車推薦點、O2O行業(yè)中的各類門店點、導航服務中的門牌地名點數(shù)據(jù)等,該類POI數(shù)據(jù)根據(jù)GIS應用系統(tǒng)特點進行設計、采集、更新維護,大多時間應用的POI 數(shù)據(jù)大多是兩者的融合。
POI 數(shù)據(jù)的獲取途徑有兩種,最可靠的獲取途徑是利用信息采集設備到實地進行空間位置采集和屬性信息的調查核對,獲取時效性最好、可靠性最高的POI數(shù)據(jù);間接方法是從百度地圖、高德地圖、谷歌地圖、Open Street Map 等開放平臺中,通過API(Application Programming Interface)接口獲取數(shù)據(jù)源?;贏PI 接口,一些平臺、專業(yè)測繪公司及個人已經(jīng)開發(fā)出獲取POI 數(shù)據(jù)的軟件,如位和智能、BigMap、Geosharp 等[1],因其便利性成為POI數(shù)據(jù)獲取的有效途徑。值得注意的是,不同來源POI 數(shù)據(jù)所包含的信息由于表達和應用側重點不同,數(shù)據(jù)存在一定差異性,需要通過清洗、去重、融合等技術處理,形成符合要求的POI數(shù)據(jù)。
該文用于構建POI 圖譜的數(shù)據(jù)來源于中國知網(wǎng)(CNKI)中文學術期刊,文獻采集時間范圍為2020 年1月1日至2022年5月28日。為確保檢索結果的高度相關性,選用“篇關摘”的檢索方式,檢索詞設為“POI or興趣點”,來源類別為“SCI 來源期刊”“EI 來源期刊”“北大核心”“CSSCI”“CSCD”。在檢索到的文章中,剔除明顯相關性不強的通信技術及圖像識別等方面文獻,最后篩選得到563 篇相關論文,以Refworks 格式導出,導出內容包括標題、摘要、關鍵詞、正文、發(fā)表年份和來源等。
該文以文獻計量學為理論依據(jù),采用知識圖譜生成技術,使用CiteSpace軟件,對檢索得到的563篇文獻數(shù)據(jù),進行關鍵詞知識圖譜構建,以可視化方式分析近年來POI數(shù)據(jù)的研究熱點和發(fā)展趨勢。
文獻計量學作為該文研究的理論依據(jù),它是以文獻體系和文獻計量特征為研究對象,采用數(shù)學、統(tǒng)計學等計量研究方法,研究文獻情報的分布結構、數(shù)量關系、變化規(guī)律和定量管理,進而探討科學技術的某些結構、特征和規(guī)律[2]。
知識圖譜是以科學知識、新興學科發(fā)展過程和發(fā)展現(xiàn)狀、科學知識內外部結構建立的一種圖形,以可視化方式將科學知識更為直觀、系統(tǒng)地展現(xiàn)給研究人員,容易直觀理解,易于發(fā)現(xiàn)未來發(fā)展方向。在關鍵詞共現(xiàn)圖譜中,需用到社會網(wǎng)絡分析方法(Social network Analysis)又稱結構分析法(Structural Analysis)。該方法是一種考慮個體之間互相依賴性的定量分析方法。社會網(wǎng)絡由節(jié)點和線組成,它可以直觀地展示網(wǎng)絡的整體結構、個人在網(wǎng)絡中的位置以及與其他個人的關系。社會網(wǎng)絡分析法在關鍵詞共現(xiàn)網(wǎng)絡分析中已得到了很好的應用,其中介中心性BCD(Betweenness Centrality Degree)可以衡量節(jié)點在網(wǎng)絡中的重要性。
CiteSpace軟件則是目前最具特色和影響力的知識圖譜繪制工具之一,在國內又被翻譯為引文空間,是一款著眼于分析科學文獻中蘊含的潛在知識,并在科學計量學、數(shù)據(jù)和信息可視化背景下逐漸發(fā)展起來的一款多元、分時、動態(tài)的引文可視化分析軟件[3]。
關鍵詞是對研究內容和觀點的高度概括,可凝練一篇論文的主題[4]。利用關鍵詞進行論文研究主題分析,可以掌握文章的研究目標。對大量文獻進行關鍵詞分析,得到某領域在特定時間區(qū)間內關鍵詞出現(xiàn)的頻率,可直觀地得到該領域內的研究熱點與發(fā)展趨勢。
利用CiteSpace 軟件,對關鍵詞進行共現(xiàn)分析,排除檢索關鍵詞“POI”“興趣點”“大數(shù)據(jù)”“數(shù)據(jù)挖掘”“北京市”等不影響分析的無義關鍵詞,經(jīng)整理生成關鍵詞知識圖譜,具體內容如圖1所示。圖1中節(jié)點代表關鍵詞,連接兩節(jié)點的路徑代表了這兩個關鍵詞同時出現(xiàn)在一篇文獻中,標簽字體大小代表關鍵詞出現(xiàn)的頻次高低,節(jié)點大小代表關鍵詞中介中心性的強弱[5]。
圖1 關鍵詞知識圖譜
如圖1 所示,出現(xiàn)頻次最高且中心性最強的關鍵詞為“多源數(shù)據(jù)”,體現(xiàn)出POI數(shù)據(jù)的融合屬性。POI數(shù)據(jù)作為多源異構數(shù)據(jù)中的基礎數(shù)據(jù),往往需與其他數(shù)據(jù)進行融合,才能實現(xiàn)時空數(shù)據(jù)的深度挖掘與分析應用:如與遙感影像數(shù)據(jù)、數(shù)據(jù)高程模型、城市感知數(shù)據(jù)、土地利用數(shù)據(jù)等融合,實現(xiàn)城市功能區(qū)劃分、宜居性評價、土地利用分類以及鄉(xiāng)村發(fā)展類型識別等;與街景數(shù)據(jù)、圖像數(shù)據(jù)、人口熱力數(shù)據(jù)、手機信令數(shù)據(jù)、車輛軌跡實時數(shù)據(jù)等融合,分析街道活力,精細化研究城市功能區(qū),為城市規(guī)劃和運行管理提供科學評估與決策;與夜間燈光數(shù)據(jù)、人口格網(wǎng)數(shù)據(jù)融合,分析夜間經(jīng)濟時空分布,實現(xiàn)城市活力評價和空間關聯(lián)性分析。
關鍵詞“影響因素”體現(xiàn)出POI數(shù)據(jù)分析的價值屬性?;赑OI 數(shù)據(jù)分析,找到制約或促進目標問題的關鍵影響因素。比如:以POI 數(shù)據(jù)結合實地調研等方法,分析出地鐵站外部空間特征、街道可達性和區(qū)域功能混合程度是地鐵出入口客流分布的影像因素[6];綜合遙感、調查、統(tǒng)計及POI 數(shù)據(jù),分析出經(jīng)濟發(fā)展條件和地形起伏是生活空間宜居性的主導因素;以POI 數(shù)據(jù)為基礎,運用最近鄰層次聚類分析等空間分析方法,得出距市中心距離、游客密度、街道活力、居民密度、資源稟賦、道路密度等是影響成都市休閑旅游資源空間分布的重要因素。
“空間分布”“空間格局”“空間布局”為同義詞,與“建成環(huán)境”“土地利用”“風景園林”“城市交通”等關鍵詞,代表POI 數(shù)據(jù)熱點應用領域。近年來,基于POI數(shù)據(jù)的應用研究多圍繞城市主題,從城市整體空間格局分布到精細化街區(qū)功能與活力研究,甚至細微至地鐵出入口流量分析等,無不滲透著POI 數(shù)據(jù)基礎支撐的作用。
“深度學習”“隨機森林”“機器學習”等關鍵詞,則代表POI 數(shù)據(jù)熱門研究方法。以深度學習、機器學習等為代表的人工智能技術,應用到POI 數(shù)據(jù)的處理清洗、計算分析、智能推薦等具體工作流程中。比如:以遙感影像、人口數(shù)據(jù)、POI數(shù)據(jù)為基礎,結合深度學習技術,構建基于多源數(shù)據(jù)和深度學習的城市邊緣區(qū)判定方法[7];從不同角度對深度學習技術在用戶興趣點推薦中的研究進行綜述,在POI 推薦中使用深度學習方法解決了POI 推薦中所面臨的時空序列特征提取、內容社交特征提取、多特征整合、數(shù)據(jù)稀疏性問題處理這4 個方面問題時存在的優(yōu)勢以及不足,并提出了未來通過深度學習提高POI 推薦效果的研究方向;分析深度學習方式的POI數(shù)據(jù)推薦與傳統(tǒng)推薦方法的區(qū)別與影響因素,總結了4 個類型的深度學習推薦POI 方式(POI 的向量化學習、深度協(xié)同過濾、從輔助內容中提取特征、利用循環(huán)神經(jīng)網(wǎng)絡進行序列推薦),闡述了深度學習技術在這些方式中的應用效果與優(yōu)勢[8]。
綜上所述,對這些熱點關鍵詞的分析,可進一步總結歸納得出,近年來國內POI 數(shù)據(jù)領域研究主要集中在POI數(shù)據(jù)的應用技術方法和應用領域這兩大方面。
從上述分析可知,近年來關于POI 數(shù)據(jù)的研究主要集中在應用領域,而對POI 數(shù)據(jù)結構本身研究的不多。目前,POI 數(shù)據(jù)生產(chǎn)主要來源于百度、高德、谷歌這些大型互聯(lián)網(wǎng)圖商,由各互聯(lián)網(wǎng)平臺自行規(guī)劃設計、采集、更新維護。不同圖商來源的POI數(shù)據(jù),雖然都包含名稱、類別、地址、坐標這4個基本屬性,但其內部數(shù)據(jù)模型、數(shù)據(jù)格式及標準各不相同,給數(shù)據(jù)的共享利用帶來諸多不便。在對同名異源POI數(shù)據(jù)之間相互融合應用時,需要逐項對照進行去重,清洗冗余,才能融合有用信息,造成大量的人力、物力、財力的消耗。顯然,多源POI 數(shù)據(jù)是一種國家戰(zhàn)略資源,研究建立統(tǒng)一模型和標準規(guī)范的POI 數(shù)據(jù)結構,使各圖商按照統(tǒng)一標準分區(qū)生產(chǎn),融合公用,能大大節(jié)約人力、物力資源,對低碳發(fā)展具有重要的意義。而如何建立有效的統(tǒng)一POI 數(shù)據(jù)模型,關鍵在于解決兼容不同平臺個性化需求以及自主拓展性。從近年來文獻數(shù)據(jù)上,尚未看到相關研究。
POI 數(shù)據(jù)質量大體可從現(xiàn)勢性、準確性、完備性、豐富性等幾個維度進行綜合評價。定位準確,信息完備且豐富、現(xiàn)勢性好的POI數(shù)據(jù)對提高用戶體驗,準確支撐分析具有十分重要意義。比如:POI 數(shù)據(jù)的現(xiàn)勢性體現(xiàn)出提供的地理空間信息反映當前最新情況的程度,若POI數(shù)據(jù)的現(xiàn)勢性不高,新鮮度不好,過期的POI數(shù)據(jù)會有損用戶體驗,甚至造成決策失誤等引起嚴重后果。研究如何增強POI 數(shù)據(jù)的現(xiàn)勢性,盡可能快速發(fā)現(xiàn)并處理已停業(yè)、搬遷、更名、拆遷的過期冗余數(shù)據(jù),對提高POI 數(shù)據(jù)質量至關重要。從近年來文獻數(shù)據(jù)中,也較少能看到POI 數(shù)據(jù)質量保證這方面的研究論文。
從該文檢索到的關于POI數(shù)據(jù)研究方面的論文篇數(shù)、期刊種類和學術層次上看,近年來國內關于POI數(shù)據(jù)研究熱度一直持續(xù)上升,發(fā)展前景廣闊。根據(jù)以上分析總結:(1)POI 數(shù)據(jù)的應用熱點多圍繞城市主題;(2)與遙感影像、人口數(shù)據(jù)、手機信令數(shù)據(jù)、夜間燈光數(shù)據(jù)等其他多源異構數(shù)據(jù)的融合利用,可進一步拓展應用范圍,并深度挖掘目標影響因素,支撐科學決策與實施優(yōu)化調整;(3)POI數(shù)據(jù)與各類機器學習算法的結合更加緊密,對識別城市邊界、智能推薦等有著新的啟示,未來可通過集成化、智能化的地理信息管理服務平臺來指導城市群的協(xié)同發(fā)展;(4)針對POI數(shù)據(jù)本身的研究是目前該領域的研究洼地,如建立統(tǒng)一POI 數(shù)據(jù)結構模型實現(xiàn)數(shù)據(jù)互通使用、增強POI 數(shù)據(jù)質量保障能力提高數(shù)據(jù)利用效能等。
隨著數(shù)字城市、智慧城市和鄉(xiāng)村振興事業(yè)的建設和發(fā)展需要,以及人工智能技術的逐步成熟,POI 數(shù)據(jù)的智能化采集與處理、精細化分析與應用,將會得到飛速發(fā)展,應用領域將會越來越廣,相關研究也將更加注重處理多源空間數(shù)據(jù)融合、提高空間精度、揭示各項空間功能分布特征背后的生成機理。同時,也應著聚焦到POI 數(shù)據(jù)本身的全面研究中,著眼于實現(xiàn)POI 數(shù)據(jù)的同名同質和個性化共存,建立統(tǒng)一的具有可擴展性數(shù)據(jù)模型結構,形成全國統(tǒng)一標準,踐行低碳發(fā)展思路。