劉耀林,劉啟亮,鄧 敏,石 巖
1. 武漢大學資源與環(huán)境學院,湖北 武漢 430079; 2. 中南大學地球科學與信息物理學院,湖南 長沙 410083
近20年來,伴隨著傳感器技術與移動定位技術的飛速發(fā)展,人類對地表系統(tǒng)的刻畫能力空前提升,地理學研究已經進入大數(shù)據時代[1-2]。地理大數(shù)據主要分為兩類[3]:①對地觀測大數(shù)據,對地觀測能力的不斷進步使得我們對自然界各種要素的描述越來越全面、越來越精細,各種遙感、觀測臺站數(shù)據不僅能夠詳細刻畫地理環(huán)境,夜光遙感等數(shù)據還蘊含了豐富的社會經濟活動信息[4-5]。②人類行為大數(shù)據,傳感網絡的發(fā)展使得“人人都是傳感器”,志愿者定位數(shù)據、浮動車行駛軌跡、移動終端定位與通信記錄數(shù)據、社交網絡簽到數(shù)據、公交IC卡和自行車租賃信息等從社會生活的方方面面記錄了大量個體粒度的人類活動信息[6-7]。全面涵蓋人類活動與地理環(huán)境信息的地理大數(shù)據突破了傳統(tǒng)目的性采樣數(shù)據(或“小數(shù)據”)在數(shù)據范圍、時空粒度與信息內涵等方面的局限,為更全面認識“人-地”關系提供了新的機遇[8-9]。地理大數(shù)據在推動科技進步與社會經濟發(fā)展等方面的巨大價值已經引起了各國政府、工業(yè)界及學術界的廣泛關注[10]。美國、英國等國家相繼將大數(shù)據列為戰(zhàn)略性技術,我國也已明確做出加快國家大數(shù)據戰(zhàn)略發(fā)展的重要部署。谷歌、微軟、華為、阿里等重要高技術企業(yè)一直在積極推動大數(shù)據產業(yè)發(fā)展?!禢ature》和《Science》也分別在2008年和2011年組織??接懘髷?shù)據學術研究[11-12]。
地理大數(shù)據實現(xiàn)大價值的關鍵在于數(shù)據分析和挖掘[13]。當前,來自地理信息科學、信息科學及復雜系統(tǒng)領域的諸多學者已經針對地理大數(shù)據分析和挖掘開展了大量的研究,一些重要的成果相繼涌現(xiàn),如采用搜索引擎數(shù)據預測流感暴發(fā)[14]、采用手機數(shù)據預測人類行為[15]和制定新冠疫情防控措施[16]等;一些新的地理大數(shù)據分析和挖掘概念被相繼提出,如社會感知計算(socially aware computing)[17]、城市計算(urban computing)[18]、社會感知(social sensing)[19]等。經過20多年的發(fā)展,地理大數(shù)據挖掘已經由一個新生概念逐漸成長發(fā)展,在智慧城市[20]、交通管控[21]、公共安全[22]、環(huán)境保護[23]、氣候變化[24]、流行病防控[16]、礦產資源勘查[25]等領域發(fā)揮了重要價值。在取得這些進展的同時,也需要我們進一步思考:地理大數(shù)據為數(shù)據挖掘帶來了哪些新的機遇和挑戰(zhàn)?地理大數(shù)據挖掘方法相比傳統(tǒng)的空間數(shù)據挖掘方法到底有哪些獨特性?未來地理大數(shù)據挖掘需要突破哪些關鍵問題?本文嘗試從3個方面回答上述問題:首先,從地理大數(shù)據的特點出發(fā)對地理大數(shù)據挖掘的獨特性與繼承性進行剖析;然后,對當前代表性的地理大數(shù)據挖掘方法與應用案例進行分類和評述;最后,對地理大數(shù)據挖掘未來的發(fā)展方向進行展望。
地理大數(shù)據挖掘面臨的挑戰(zhàn)和機遇本質上是由于地理大數(shù)據具有與傳統(tǒng)目的性采樣“小數(shù)據”不同的獨有特征。通常認為大數(shù)據具有“5V”特征[26],即海量(volume)、更新速度快(velocity)、多樣性(variety)、價值密度低(value)和真實性差(veracity)。實際上,上述“5V”特征自20世紀90年代提出空間數(shù)據挖掘的概念以來,也被認為是空間數(shù)據的重要特征[27]。地理大數(shù)據真正區(qū)別于傳統(tǒng)空間數(shù)據的特征是什么?筆者認為其關鍵區(qū)別體現(xiàn)在采集手段、信息內涵與尺度特征3個方面(表1)。
表1 地理大數(shù)據與傳統(tǒng)空間數(shù)據的區(qū)別
與傳統(tǒng)空間數(shù)據相比,地理大數(shù)據的采集由專業(yè)化走向大眾化。傳統(tǒng)空間數(shù)據或“小數(shù)據”一般是專業(yè)人員針對具體的地理現(xiàn)象或應用目的,設計專門的數(shù)據采集方法(如抽樣框架)[28]。這些數(shù)據的采集精度、代表性和可靠性具有嚴格的控制標準,可以直接反映地理現(xiàn)象的特征[9]。地理大數(shù)據的提供者不僅包括測繪地理信息領域專業(yè)人員,還包括大量的非專業(yè)機構和人員。這些非專業(yè)機構提供的地理大數(shù)據往往是其主營業(yè)務的副產品,并不能保證(往往也不關心)數(shù)據采集的精度、代表性和可靠性[29]。例如:出租車軌跡數(shù)據由于GPS定位誤差、車輛運營及高層建筑的影響,其大量軌跡點偏離城市道路且不同行駛方向軌跡點交錯混雜[30];微博的用戶中46歲以上的人群比例極低,且女性用戶比例更高[31];搜索引擎中搜索“流感”關鍵詞的用戶并不一定已經患上流感[32]。地理大數(shù)據中包含的這些缺乏質量控制與抽樣設計的成分,對傳統(tǒng)針對“小數(shù)據”設計的挖掘方法提出了挑戰(zhàn)[33]。
相比傳統(tǒng)空間數(shù)據,地理大數(shù)據的內涵更加豐富,尤其是包含了大量的人類活動信息。傳統(tǒng)空間數(shù)據更多關注地表自然地理要素,海量的對地觀測數(shù)據與觀測臺站數(shù)據可以對地表物理空間進行較好地反映,但是人類活動信息較為缺乏,難以全面刻畫地理學核心的“人-地”關系問題[19]。例如:城市土地利用是人類活動的綜合體,以往多是采用遙感影像進行土地利用分類,這種方法僅考慮了土地利用的物理特征,而難以估計人類活動的社會經濟屬性,導致一些無人居住的“鬼城”仍然會被識別為住宅區(qū)[34]。大數(shù)據時代,手機信令、公交/地鐵智能卡數(shù)據、車輛軌跡數(shù)據等新興地理大數(shù)據蘊含了豐富的人類活動信息,可以從更全面的視角探索“人-地”關系[3]。例如:手機信令數(shù)據在新冠疫情防控和流調中發(fā)揮了重要的作用[35]。
地理大數(shù)據與傳統(tǒng)空間數(shù)據相比,具有更精細的尺度。地理大數(shù)據的尺度也可以用一組參數(shù)進行描述,如分辨率、范圍等[36]。地理大數(shù)據具有更加精細的時空分辨率。例如傳統(tǒng)的人口調查數(shù)據通常是以人口普查小區(qū)為基本單元,數(shù)據更新時間以年為單位,而采用手機信令數(shù)據幾乎可以估計城市中每個個體的位置,時間分辨率以分鐘為單位[37]。地理大數(shù)據具有更廣的時空范圍。針對傳統(tǒng)空間數(shù)據而言,雖然遙感數(shù)據可以對地表進行大范圍的觀測,但是涉及人類社會經濟屬性的數(shù)據,由于采集成本與采集能力的限制,往往難以進行大范圍的觀測。例如傳統(tǒng)的城市居民出行數(shù)據多是采用問卷調查的形式,難以進行大范圍的人類出行規(guī)律識別,而當前百度人口遷徙數(shù)據(https:∥qianxi.baidu.com/)與騰訊提供的用戶定位信息(https:∥heat.qq.com/bigdata/index.htm)等數(shù)據可以反映全國范圍的人口活動及流動模式,可以從更加宏觀的視角探索“人-地”關系。
雖然地理大數(shù)據的獨特性對地理大數(shù)據挖掘方法提出了新的挑戰(zhàn),但是地理大數(shù)據挖掘方法與起源于計量地理學革命時期的空間統(tǒng)計分析方法及20世紀90年代以來的空間數(shù)據挖掘方法具有繼承和發(fā)展的關系。筆者認為,與空間數(shù)據挖掘相比,現(xiàn)有地理大數(shù)據挖掘的根本任務與挖掘方法的設計思路仍然具有明顯的繼承性。
地理大數(shù)據挖掘與空間數(shù)據挖掘的任務和內容是基本相同的。針對挖掘的目的而言,二者都是希望發(fā)現(xiàn)數(shù)據中隱含的、未知的、潛在有用的模式或知識。這些挖掘結果本質上是為了輔助對地理現(xiàn)象時空格局、關聯(lián)關系和演化過程的理解[38]。針對挖掘內容而言,對于時空格局的挖掘,二者都是采用聚類分析與異常探測的方法發(fā)現(xiàn)時空分布的規(guī)律性與例外性;對于關聯(lián)關系的挖掘,二者均是采用關聯(lián)規(guī)則挖掘、回歸分析等方法發(fā)現(xiàn)地理變量間定性與定量的聯(lián)系;對于演化過程挖掘,二者均是采用統(tǒng)計方法或神經網絡的方法,依據歷史數(shù)據和/或外部影響變量間的聯(lián)系,對地理現(xiàn)象未來的發(fā)展變化狀態(tài)進行預測。
地理大數(shù)據挖掘方法與空間數(shù)據挖掘方法的設計思路是基本相同的。就挖掘方法而言,二者主要還是依賴聚類分析、異常探測、關聯(lián)規(guī)則挖掘、機器學習等方法。就聚類分析而言,地理大數(shù)據聚類對簇的認知沒有發(fā)生改變,仍然是基于中心的簇、基于連接的簇和基于密度的簇3種類型[39];針對異常探測方法,全局異常、局部異常、背景異常的認識在地理大數(shù)據異常探測中仍然適用[40];地理大數(shù)據關聯(lián)規(guī)則挖掘方法的設計仍是基于頻繁度與鄰近性的思想[41]。地理大數(shù)據挖掘方法與空間數(shù)據挖掘方法的主要設計難點都是針對時空相關性、異質性及尺度依賴性的建模[42-44]。
地理大數(shù)據的特殊性為地理大數(shù)據挖掘帶來了新的機遇與挑戰(zhàn)。本文將主要針對地理大數(shù)據挖掘方法、應用及軟件的研究進展進行回顧。
雖然地理大數(shù)據的任務、內容及方法設計繼承了空間數(shù)據挖掘的研究成果,但是由于地理大數(shù)據的獨特性,近年來國內外學者已經在空間數(shù)據挖掘的基礎上,發(fā)展了一系列針對性的地理大數(shù)據挖掘方法。下面將針對地理大數(shù)據聚類分析、異常探測、關聯(lián)關系挖掘及預測建模的主要進展進行分析和總結。
2.1.1 地理大數(shù)據聚類分析
地理大數(shù)據聚類分析旨在依據地理實體間的相似性,將地理實體劃分為一系列內部相似、外部相異的簇結構。地理大數(shù)據聚類是發(fā)現(xiàn)地理時空格局的重要手段。當前地理大數(shù)據聚類分析方法主要還是分為3種類型[45]:劃分的方法(簇可以用其中心表示,且簇內實體與簇的中心盡可能接近,而盡可能遠離其他簇的中心)、層次的方法(簇由實體通過相互間的鄰近關系構成)及基于密度的方法(簇被定義為被低密度區(qū)域分隔的連通高密度區(qū)域)。地理大數(shù)據聚類分析在3個方面具有新的變化:①新的聚類特征。人類移動軌跡、手機信令等數(shù)據蘊含的人類互動特征需要一定的特征表征方法進行量化,當前學者們已經從出行OD數(shù)據中構造了不同類型的特征向量進行聚類分析[46-47],能夠更好地發(fā)現(xiàn)人類活動的時空分異特征,可以從人類活動的視角對從城市空間結構進行認知和反演;也有一些學者采用矩陣分解、詞嵌入等方法發(fā)現(xiàn)人類活動的隱含特征[48-49]。②流數(shù)據的聚類分析。地理流描述了兩個空間位置間的人流活動、物質交換等信息,改變了以距離度量空間相關性的傳統(tǒng)認知(例如兩個很遠的地點,如果二者人流聯(lián)系緊密也可能具有較高的相關性)[50-51]。近年來學者們針對流數(shù)據的距離度量、密度定義開展了大量的研究工作,并拓展了當前局部空間相關性統(tǒng)計量、層次聚類和基于密度的聚類方法,發(fā)展了一系列針對聚合流數(shù)據和單個流數(shù)據的聚類方法[52-58]。流數(shù)據的聚類分析能夠定量化地描述人群移動模式的時空分布規(guī)律,有利于深入理解人群移動行為與城市空間結構的耦合關系[59-60]。圖1展示了采用共享鄰近密度聚類方法[58]發(fā)現(xiàn)的北京市出租車OD流在早高峰的聚類模式,可以清晰發(fā)現(xiàn)不同區(qū)域間的強交互作用及OD流的聚散模式。③空間嵌入圖的聚類分析。地理單元之間通過人流、物流、信息流體現(xiàn)出的交互作用構成了一種空間嵌入圖(節(jié)點為地理單元,節(jié)點間邊的權重表示了空間交互的強度)??臻g嵌入圖聚類旨在發(fā)現(xiàn)空間嵌入圖中聯(lián)系緊密的子圖結構(或空間社團),對于城市空間結構理解具有重要價值[61]。當前興起于復雜網絡領域的社團檢測方法[62-63]已被拓展應用于空間嵌入圖聚類,其主要工作集中于如何在聚類過程中考慮空間相關性(如在聚類過程中施加空間鄰近性約束[64-66]或在聚類目標函數(shù)中建??臻g衰減效應[67-68])。近年來,在聚類分析中融入先驗知識亦開始引起國內外學者的注意,一些研究開始嘗試借助知識圖譜表達領域知識,并建模于聚類模型之中[69]。融入先驗知識的聚類模型更有利于發(fā)現(xiàn)數(shù)據驅動模型難以發(fā)現(xiàn)的聚集模式[70],是未來地理大數(shù)據聚類分析研究的一個重要方向。
圖1 北京市五環(huán)內2016年5月23日早高峰(8:00—10:00)出租車OD流聚類分析[58]
2.1.2 地理大數(shù)據異常探測
地理大數(shù)據異常探測旨在發(fā)現(xiàn)非觀測誤差導致的、偏離整體或局部分布特征的少部分地理實體。當前的地理大數(shù)據異常探測方法仍主要分為3種類型[40],即全局的方法(發(fā)現(xiàn)偏離全體數(shù)據分布的異常數(shù)據)、局部的方法(發(fā)現(xiàn)偏離局部數(shù)據分布的異常數(shù)據)及考慮背景信息(發(fā)現(xiàn)違背已知常識的異常數(shù)據)的方法。傳統(tǒng)的空間數(shù)據異常探測主要是針對時空位置信息與專題屬性信息的異常數(shù)據識別[71-72]。地理大數(shù)據異常探測將位空間鄰近性度量的概念擴展至“動態(tài)流空間”與“多維場景空間”[50,73],從地理流過程相似性、地理場景綜合相似性等多視角刻畫地理實體在演化過程中的突變程度。地理大數(shù)據異常探測在3個方面具有新的變化:①在移動對象幾何形態(tài)、行為特征等變量的相似性約束下,探測移動對象在時空演化過程中表現(xiàn)出的異常行為或屬性狀態(tài)。例如:時空軌跡大數(shù)據中的離群對象與異常移動行為[74-75]、空間交互出行流異常載荷與流量熱點[76-77]等。②在移動對象動態(tài)演化過程相似性條件約束下(如車輛時空可達約束、人群移動強度相似性約束等),發(fā)現(xiàn)呈現(xiàn)出的稀有分異格局或發(fā)展態(tài)勢[78-81]。③在高時空分辨率地理大數(shù)據支持下,土地利用信息、城市景觀分布、水土氣污染分布、人類行為活動等復雜地理過程被抽象為隨時間持續(xù)動態(tài)變化的流數(shù)據,多元地理要素的關聯(lián)性可以在異常識別過程中被定量建模,提升了異常識別準確性與可解釋性[82-84]。例如:集成多源人群移動數(shù)據中的異常活動信息可以有效增強對人類活動異常信號的表征能力,提升異常識別的靈敏度。
2.1.3 地理大數(shù)據關聯(lián)關系挖掘
地理大數(shù)據關聯(lián)關系挖掘旨在定量或定性地發(fā)現(xiàn)地理實體間的聯(lián)系?;貧w分析是地理大數(shù)據關聯(lián)關系定量挖掘的代表性方法,近年來學者們在如何建模時空相關性、異質性與變量間非線性關系等方面取得了一些重要的進展,例如:時空地理加權回歸[85]、時空回歸克里金[86]等。關聯(lián)規(guī)則挖掘是地理大數(shù)據關聯(lián)關系定性挖掘的代表性方法,旨在發(fā)現(xiàn)在相鄰時空區(qū)域內頻繁出現(xiàn)的地理對象關系。早期的空間關聯(lián)規(guī)則挖掘方法主要是采用空間剖分的方法構建空間事務,然后應用事務型關聯(lián)規(guī)則挖掘方法(如Apriori)發(fā)現(xiàn)空間關聯(lián)規(guī)則[87-88],此類方法割裂了地理現(xiàn)象間的時空聯(lián)系。當前地理大數(shù)據關聯(lián)規(guī)則挖掘方法多不采用空間事務化的策略,而是基于鄰近性與頻繁性思路發(fā)現(xiàn)連續(xù)時空區(qū)域內的關聯(lián)關系[89],主要取得了以下3方面進展:①局部關聯(lián)規(guī)則挖掘模型。由于空間異質性的影響,關聯(lián)規(guī)則經常在不同區(qū)域具有不同的表現(xiàn)形式,近年來學者們重點基于圖劃分和聚類分析的思想,發(fā)展了一系列局部關聯(lián)規(guī)則挖掘模型[90-96],可以更加全面地發(fā)現(xiàn)關聯(lián)規(guī)則。例如:全局與局部的城市興趣點關聯(lián)規(guī)則對于全面地理解城市功能組合規(guī)律具有重要價值[97]。②關聯(lián)規(guī)則統(tǒng)計推斷。空間關聯(lián)規(guī)則挖掘往往需要人為設置頻繁度閾值對規(guī)則有效性進行評價,而在大規(guī)模地理大數(shù)據關聯(lián)規(guī)則挖掘任務中,閾值參數(shù)很難設定。近年來,學者們基于隨機重排檢驗的思想,通過融入關聯(lián)規(guī)則的認知規(guī)律(如空間自相關對關聯(lián)規(guī)則的影響)發(fā)展了一系列全局和局部關聯(lián)規(guī)則統(tǒng)計推斷方法[98-102]。這些方法提升了關聯(lián)規(guī)則挖掘的可靠性和可操作性,例如通過對犯罪事件與地理因子間關聯(lián)規(guī)則進行統(tǒng)計推斷,可以排除一些虛假的關聯(lián)模式,從而能夠更好地輔助決策。③考慮額外約束的關聯(lián)規(guī)則挖掘模型。地理大數(shù)據通常具有時空屬性,而且人類活動受到道路網絡等約束。近年來,學者們已經開始在地理大數(shù)據關聯(lián)規(guī)則挖掘中,通過修改鄰近關系識別方法建模時空耦合關系與路網約束[103-107],可以進一步提升挖掘結果的可靠性與可解釋性。圖2展示了采用時空事件級聯(lián)關聯(lián)規(guī)則挖掘方法[106]發(fā)現(xiàn)的我國京津冀地區(qū)2014年冬季與2015年春季PM2.5污染事件時空傳播規(guī)律,對于空氣污染物溯源及空氣污染物傳播規(guī)律理解具有指導價值。圖中,箭頭為傳播路徑,點為空氣質量監(jiān)測站點。
圖2 京津冀地區(qū)PM2.5污染事件時空傳播規(guī)律[106]
2.1.4 地理大數(shù)據預測建模
地理大數(shù)據預測建模旨在構建反映地理變量間時空聯(lián)系的模型,對地理實體未來的狀態(tài)或屬性進行估計。地理大數(shù)據預測建模是發(fā)現(xiàn)地理現(xiàn)象演化規(guī)律的重要手段。地理大數(shù)據預測建模的主要方法分為兩類:基于統(tǒng)計學的方法與基于機器學習的方法[108]。基于統(tǒng)計學的方法主要是依據歷史數(shù)據的時空相關性建模實現(xiàn)預測,代表性方法如時空自回歸移動平均模型、時空地統(tǒng)計模型等[109]?;诮y(tǒng)計學的方法難以建模變量間的非線性關系,基于機器學習的方法在地理大數(shù)據預測建模任務中逐漸得到重視。伴隨著深度學習技術在近十年來的突破性進展,各種深度網絡已經成為當前地理大數(shù)據預測的主要手段,廣泛應用于空氣質量預測、交通流量/速度預測、人流量預測等領域[110]。地理大數(shù)據預測建模的主要進展可以總結為以下兩個方面:①時空耦合的地理大數(shù)據預測建模方法?,F(xiàn)有研究主要采用兩種策略整合時間和空間相關性信息提升預測精度,一種是通過整合空間和時間預測模型[111-113];另一種是將空間和時間預測模型進行嵌套[114-118]。常用的空間預測模型主要包括卷積神經網絡(CNN)及其變種(用于建模規(guī)則數(shù)據)[119]、圖卷積神經網絡(GCN)[120]及其變種(用于建模非規(guī)則數(shù)據)。常用的時間預測模型主要采用長短期記憶網絡(LSTM)[121]及其變種,亦有研究對時間序列進行分解,針對相鄰時間點、周期時段和趨勢部分的建模結果進行融合[114]。②地理大數(shù)據時空異質性建模。地理變量間的關系通常是時空非平穩(wěn)的,例如:風速、風向、地形、污染源等空氣質量影響因素與空氣污染物濃度間的關系在不同時間和地點經常是不同的。時空異質性具有兩種表現(xiàn)形式:分層異質性與局部異質性[122]?,F(xiàn)有研究主要采用兩種策略建模時空異質性,針對分層異質性,首先對時空數(shù)據進行聚類分析,進而在每個較為均勻的分區(qū)內建立預測模型[123-124];針對局部異質性,主要借鑒地理加權回歸的思想,針對每個時空位置分別建立預測模型[125-126]。數(shù)據驅動的預測模型雖然已經取得了重要進展,但是也存在預測結果與實際地理現(xiàn)象變化規(guī)律不符的缺陷,直接導致預測結果難以解釋、穩(wěn)定性差[127]。近年來,有學者開始探索將地理現(xiàn)象的物理變化規(guī)律融入預測模型,提升了預測模型的可解釋性與泛化性能,具體策略包括物理規(guī)律引導的初始化、物理規(guī)律引導的網絡損失函數(shù)及物理規(guī)律引導的網絡架構設計等[128]。
當前,地理大數(shù)據挖掘在應用方面也取得了重要的成果,尤其是在城市規(guī)劃、智能交通、環(huán)境保護、公共安全等領域受到廣泛關注。下面將重點針對地理大數(shù)據在以上4個方面的應用成果進行回顧和總結。
城市規(guī)劃領域是當前地理大數(shù)據挖掘應用最廣泛、最深入的領域[129]。地理大數(shù)據使得從微觀、動態(tài)的視角發(fā)現(xiàn)城市中“人-地”耦合關系成為可能,促進了“以人為本”的城市規(guī)劃設計,為分析城市發(fā)展現(xiàn)狀、理解城市發(fā)展機制及科學規(guī)劃城市發(fā)展提供了最基礎的素材[130]。地理大數(shù)據挖掘已廣泛應用于區(qū)域聯(lián)系與等級體系研究、城市居民活動模式反演、城市功能與空間結構識別等方面,為城市規(guī)劃提供了重要的決策信息[18,59,131]。在區(qū)域聯(lián)系與等級體系研究方面,互聯(lián)網數(shù)據、社交媒體數(shù)據、人口遷徙、手機信令、車輛軌跡等數(shù)據已用于定量衡量不同研究粒度上區(qū)域間的聯(lián)系強度[7],重力模型、社團檢測方法及層級分析等方法已被廣泛應用于識別城市的等級體系[68,132-133]。在城市居民活動模式反演方面,對不同類型人群活動數(shù)據反映的個體移動規(guī)律已經有了較為深刻的認識(如移動步長規(guī)律、重訪概率等);地理大數(shù)據挖掘方法已經可以有效支持人群移動的“韻律性”規(guī)律、時空聚散規(guī)律及活動類型的識別[134-137];當前已經可以實現(xiàn)城市人口分布的精細化制圖與動態(tài)預測[37,138]。在城市功能與空間結構識別方面,國內外學者已經采用多種類型人類活動軌跡數(shù)據、社交媒體數(shù)據、城市街景數(shù)據、城市興趣點及夜光遙感數(shù)據,借助聚類分析、關聯(lián)規(guī)則挖掘、詞嵌入等方法,開展了城市功能區(qū)劃、城市中心區(qū)識別與土地利用反演等研究[47-48,97,139-141];近年來,采用多源地理大數(shù)據進行場所語義推測及場所情感感知等方面也取得了重要進展[142-143],可以進一步反映人類對城市物質空間的認知和感受。
地理大數(shù)據挖掘在智能交通領域的應用已經得到了廣泛關注。海量、多源、動態(tài)、細粒度的車輛軌跡數(shù)據在道路信息提取、交通狀態(tài)感知及交通流預測方面發(fā)揮了重要作用,有力提升了城市交通運營、管理與規(guī)劃的水平[144]。在交通道路信息提取方面,地理大數(shù)據挖掘方法(如聚類分析)已經可以實現(xiàn)從多源車輛軌跡數(shù)據中生成高精度城市路網及道路語義信息(如方向、速度、車道數(shù)等)[145-148],有效服務于車輛導航等實際應用。在交通狀態(tài)感知方面,地理大數(shù)據挖掘方法(如異常探測、矩陣分解等方法)已經被應用于交通擁堵與異常模式識別[149-150]、通行時間估計[151]、交通能耗估計[152]及交通調度和路徑優(yōu)化[153-154]等方面,有利于提升交通系統(tǒng)的運行效率,緩解交通擁堵等城市病問題。在交通流預測方面,基于機器學習的預測模型已經被廣泛應用于交通流量預測與道路速度預測[116-118,155],可為交通管理提供重要的決策信息。
地理大數(shù)據挖掘在環(huán)境保護方面的應用價值逐漸受到重視,已在城市空氣、水質及噪聲污染防控等實際應用中發(fā)揮了重要作用。在城市空氣污染防控方面,地理大數(shù)據挖掘不僅可以被用于發(fā)現(xiàn)空氣污染的時空變化規(guī)律,而且可以實現(xiàn)高精度、高時空分辨率空氣質量預測[123-124,156]。例如采用歷史PM2.5濃度數(shù)據及城市興趣點、交通、氣象等數(shù)據,基于機器學習方法構建的預測模型可以實現(xiàn)千米格網、小時分辨率的高精度連續(xù)預測,對于控制污染與保護人民健康具有重要價值[112]。在城市水資源保護中,融合水質檢測歷史數(shù)據與多類型影響變量(如降水、興趣點等)構建的智能預測模型可以實現(xiàn)城市水質的高精度連續(xù)預測[157-158],可為水污染預警預報提供重要的決策信息。在城市噪聲污染防控方面,現(xiàn)有研究已采用多源地理大數(shù)據協(xié)同分析不同區(qū)域、不同時段的噪聲污染情況,可以克服噪聲污染監(jiān)測的稀疏性問題,服務于城市噪聲污染防控[159-160]。
地理大數(shù)據在公共安全方面也取得了重要的應用成果,尤其在城市犯罪預防、人群聚集風險評估與流行病防控方法發(fā)揮了重要作用。在城市犯罪防控方面,地理大數(shù)據挖掘不僅可以被用于識別犯罪熱點區(qū)域與時空分布規(guī)律,而且可以發(fā)現(xiàn)影響犯罪的空間因素,對于預防犯罪具有重要價值[102,161]。在人群聚集風險評估方面,地理大數(shù)據挖掘方法可以從多源人群活動數(shù)據中發(fā)現(xiàn)人群異常的聚集現(xiàn)象,可為管理部門提供預警信息,降低人群踩踏等公共安全事件發(fā)生的風險[135,162]。地理大數(shù)據挖掘在流行病防控方面已經發(fā)揮了重要作用,例如通過對病例人群軌跡數(shù)據進行時空聚集分析,可以有效地進行傳染病溯源,發(fā)現(xiàn)潛在的易感染人群[163];新冠疫情防控中,結合手機信令數(shù)據和病例數(shù)據可以發(fā)現(xiàn)不同因素對疾病傳播的影響,并預測新冠病例的地域分布與傳播規(guī)律,為政府制定防疫政策提供了科學的依據[16,164]。
海量、多源地理大數(shù)據的存儲、管理和高效計算對傳統(tǒng)的空間數(shù)據挖掘軟件提出了新的挑戰(zhàn)。地理大數(shù)據挖掘需要分布式、并行計算的支持[165]。以Apache Hadoop為代表的開源大數(shù)據框架為大數(shù)據高性能存儲和計算提供了重要支撐[166]。Hadoop框架采用Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)實現(xiàn)了對大規(guī)模數(shù)據集的分布式存儲,采用MapReduce[167]計算框架實現(xiàn)了對大規(guī)模數(shù)據集的并行處理。MapReduce將每次處理的過程數(shù)據存入磁盤,由此產生的反復磁盤I/O操作影響計算效率。為了解決這一問題,Spark計算引擎采用抽象彈性分布式數(shù)據集(resilient distributed datasets,RDD),將中間運算結果保存在內存中,避免了對分布式文件的反復讀寫,其運算效率顯著高于MapReduce[168]。Hadoop與Spark沒有考慮地理大數(shù)據的空間屬性,從而限制了其地理大數(shù)據存儲與計算的能力。近年來,一些專門的地理大數(shù)據計算框架已經出現(xiàn),例如SpatialHadoop[169]對Hadoop的每一層(語言層、存儲層、MapReduce層和操作層)均進行了空間擴展,實現(xiàn)了對地理大數(shù)據的空間數(shù)據索引和空間操作功能;GeoSpark[170]對RDD進行了空間拓展,實現(xiàn)了地理大數(shù)據的幾何操作和空間查詢能力。除了以Hadoop和Spark為代表的地理大數(shù)據計算框架,近年來,一些地理大數(shù)據集成技術平臺也受到了廣泛關注,例如CyberGIS[171]平臺集成信息基礎設施(Cyber infrastructure)、地理大數(shù)據資源與數(shù)據挖掘方法,可為數(shù)據密集型與計算密集型應用提供有效的解決方案。HiGIS[172]基于高性能計算技術(HPC),提供了地理大數(shù)據存儲服務、計算服務與制圖服務。
當前主流的商業(yè)地理信息軟件已經開始集成地理大數(shù)據挖掘功能。例如ESRI公司基于Spark框架推出了ArcGIS GeoAnalytics Server和ArcGIS Image Server用于支持地理大數(shù)據挖掘,其可以支持云存儲、HDFS、Hive數(shù)據倉庫等多種來源的大數(shù)據,并提供了地理大數(shù)據挖掘工具箱(https:∥enterprise.arcgis.com/zh-cn/)。MapGIS基于Hadoop、Spark等分布式計算框架支持地理大數(shù)據管理與計算(https:∥www.mapgis.com/index.php?a=shows&catid=8&id=139):結合PostgreSQL、Elasticsearch、HDFS等多種存儲引擎構建MapGIS DataStore組件,實現(xiàn)地理大數(shù)據存儲;開發(fā)了云服務集群引擎IGServer和大數(shù)據計算引擎IGServer-X,提供地理大數(shù)據挖掘服務。SuperMap采用HBase和HDFS提供大規(guī)模矢量數(shù)據的存儲服務,同時通過Elasticsearch引擎提供大規(guī)模流數(shù)據的存儲服務,三者共同構成了SuperMap內置的地理大數(shù)據存儲引擎(https:∥www.supermap.com/zh-cn/a/product/10i-tec-2-2021.html);此外,SuperMap對Spark框架進行了拓展,集成了大量地理大數(shù)據挖掘方法,并通過集成開源地圖開發(fā)庫(OpenLayers、Leaflet、MapboxGL JS等)、可視化庫(ECharts、MapV、DECK.GL等)提供地理大數(shù)據可視化服務。
通過上述分析可以發(fā)現(xiàn),當前地理大數(shù)據挖掘研究已經取得了重要的進展。針對地理大數(shù)據的新特征,一些針對性的地理大數(shù)據挖掘方法已經被提出,并在“人-地”關系研究中發(fā)揮了重要價值。例如可以從人類活動的視角對城市土地利用進行新的審視;可以定量地發(fā)現(xiàn)人類在城市中的活動規(guī)律并且可以據此對城市空間結構進行深層次的解析;犯罪事件與城市興趣點間的關聯(lián)關系對于犯罪機理解釋與犯罪預防具有重要價值;利用城市交通流量、地理背景及空氣污染歷史數(shù)據構建的預測模型已經可以實現(xiàn)高時空分辨率的空氣質量預測。地理大數(shù)據理論方法與應用的重要進展正在改變地理學的研究范式,為地理規(guī)律的發(fā)現(xiàn)提供了重要的工具和手段。在取得這些進展的同時,同樣需要對當前地理大數(shù)據挖掘面臨的問題進行冷靜的思考。筆者認為以下3個問題需要引起充分的重視。
地理大數(shù)據包含了豐富的“人”“地”信息,這些信息存在于不同來源、不同類型的地理大數(shù)據,例如城市人群交通活動信息蘊含于出租車、公交車、地鐵、私家車等不同交通方式?,F(xiàn)有的地理大數(shù)據挖掘研究還多是僅基于單一類型數(shù)據進行的分析應用,其挖掘結果多存在片面性?,F(xiàn)有研究大量采用出租車軌跡數(shù)據研究城市人群的空間移動模式,而實際上城市居民出行大量依賴地鐵、公交等交通方式。當前,尚難以回答不同來源地理大數(shù)據如何共同地對某一地理事實進行反映和表征[173-174]。如何融合多源地理大數(shù)據全面探索人類對城市空間實際功能的理解及城市物質空間與人類活動間的適宜度依然是一個難題。導致這一困境的原因源于兩個方面,一方面是多源地理大數(shù)據協(xié)同挖掘的模型與方法尚較為缺乏;另一方面是多源地理大數(shù)據的交換和共享機制尚不成熟,不同領域、部門間的地理大數(shù)據難以真正貫通和協(xié)同。
地理大數(shù)據挖掘雖然在人類移動模式定量度量等方面取得了一些新的認知成果(如人類移動模式的步長分布規(guī)律[175]),但是現(xiàn)有地理大數(shù)據挖掘成果尚難以真正實現(xiàn)“未知知識”的發(fā)現(xiàn)。地理大數(shù)據挖掘成果雖然使我們對“人-地”關系有了更加細化、定量化的認識,但是這些挖掘結果多是驗證性、常識性的。例如采用各類移動軌跡數(shù)據發(fā)現(xiàn)的城市人群通勤模式、人群活動熱點、城市多中心結構等多是被領域專家所熟知的;采用大范圍位置大數(shù)據發(fā)現(xiàn)的人口分布模式實際上僅僅是對20世紀30年代發(fā)現(xiàn)的“胡煥庸線”的驗證[3]。如何真正發(fā)現(xiàn)地理大數(shù)據背后隱含的、未知的知識,取得類似“胡煥庸線”這樣的地理發(fā)現(xiàn),是地理大數(shù)據挖掘方法面臨的嚴峻挑戰(zhàn)。
現(xiàn)有地理大數(shù)據挖掘方法雖然針對地理大數(shù)據的新特征進行了部分適應性的改進,但是針對地理大數(shù)據樣本質量無控、采樣有偏等問題尚缺乏有效的解決方案?,F(xiàn)有地理大數(shù)據挖掘研究對數(shù)據產生機制、數(shù)據質量控制、數(shù)據可用性缺乏足夠的重視。實際上,現(xiàn)有的大部分地理大數(shù)據挖掘方法依然假設數(shù)據源可以直接反映地理現(xiàn)象的特征,雖然可以對數(shù)據挖掘給出一定的解釋,但是很少關注挖掘結果的可信性。地理大數(shù)據挖掘的尺度依賴效應仍然不可忽視,雖然地理大數(shù)據的尺度信息更加精細,但是實際分析中仍然需要確定合適的數(shù)據尺度(地理大數(shù)據通常需要聚合到一定的單元)和分析尺度。近年來尺度驅動的地理大數(shù)據挖掘模型取得了一定的進展[177],但是尺度依賴性的內在機理及最優(yōu)尺度選擇等問題依然懸而未決[36]。地理大數(shù)據挖掘結果的可信性問題直接影響了地理大數(shù)據挖掘的實際應用效果。
面對當前地理大數(shù)據挖掘面臨的機遇與挑戰(zhàn),筆者認為未來地理大數(shù)據挖掘可能需要在以下3個方面開展進一步的深入研究。
聚類分析是人類認識世界最基本、最有效的能力之一[178]。聚類分析可以從紛繁復雜的大數(shù)據中有效地總結規(guī)律性信息,是大數(shù)據認知要解決的首要問題[179]。地理大數(shù)據聚類分析不僅可以作為一種從地理大數(shù)據中發(fā)現(xiàn)地理格局的有力工具,同時也可以作為其他地理大數(shù)據挖掘任務的重要預處理步驟。尺度依賴性是地學研究中不可回避的關鍵科學問題,對地理大數(shù)據內蘊的各種“人-地”關系特征進行發(fā)現(xiàn),必須對尺度依賴性具有清晰的認知。地理大數(shù)據聚類必須恰當?shù)亟5乩憩F(xiàn)象的尺度依賴性[9,45,180]。人類視覺系統(tǒng)具備天然的多尺度聚類分析能力,模擬人類視覺系統(tǒng)的多尺度聚類方法近年來受到了重要關注,并發(fā)展了一些尺度驅動的空間聚類分析模型[181-182]。未來地理大數(shù)據多尺度聚類分析研究在尺度效應的深層地學機理解析、多種尺度(如數(shù)據尺度、分析尺度)聯(lián)合效應建模及尺度有效性評價等方面需要開展持續(xù)的研究工作。
地理大數(shù)據實現(xiàn)大價值的關鍵是如何實現(xiàn)多源地理大數(shù)據的信息綜合和協(xié)同增強,具體包括兩個方面的核心問題:多源地理大數(shù)據聚合與深度融合。多源地理大數(shù)據聚合需要以具體的應用需求為驅動,統(tǒng)一不同來源地理大數(shù)據的時空框架與基準,協(xié)調觀測尺度差異,實現(xiàn)不同尺度、不同時態(tài)、不同語義地理大數(shù)據的協(xié)同、信息派生與增值,為多源地理大數(shù)據提供基礎的數(shù)據支撐[183]。多源地理大數(shù)據深度融合需要在語義層次上實現(xiàn)多源地理大數(shù)據內蘊特征的協(xié)同增強,發(fā)現(xiàn)不同來源地理大數(shù)據的一致性與互補性,實現(xiàn)對地理現(xiàn)象更加深入和全面的理解。多源地理大數(shù)據聚合與深度融合對于提升挖掘結果的可靠性和全面性具有重要價值。近年來,一些研究嘗試引入多視角學習的方法對多源移動軌跡數(shù)據進行聚類分析,可以更全面地反演城市土地利用[184-185]。此外,地理大數(shù)據同樣需要與傳統(tǒng)“小數(shù)據”進行深度聚合和融合,一方面可以加深對地理大數(shù)據有偏性的理解[186],另一方面“小數(shù)據”可以對地理大數(shù)據進行一定程度的“校正”和“糾偏”,使得地理大數(shù)據挖掘結果更具代表性。
自20世紀90年代初以來,數(shù)據驅動的空間數(shù)據挖掘模型(尤其是以深度網絡為代表的機器學習方法)雖然取得了重要的進展,但是其不可解釋、穩(wěn)健性差、難以擴展的弊端亦不可忽視[187]。人類經過幾千年的文明發(fā)展,已經積累了針對地學現(xiàn)象的大量重要認知知識。這些知識一方面有助于對地理大數(shù)據蘊含的地理規(guī)律進行理解,促進對地理大數(shù)據的有偏性、不完備性的認知;另一方面可以緩解數(shù)據誤差的影響,提升地理大數(shù)據挖掘模型的可靠性與精度。在遙感影像分類模型中融入地物間的空間關系先驗知識,可以有效降低分類誤差。知識與數(shù)據雙重驅動的地理大數(shù)據挖掘方法有望成為未來地理大數(shù)據挖掘的一個重要研究方向[188]。地學知識圖譜是地理知識表達、提取、管理的重要工具,建立知識與數(shù)據雙重驅動的地理大數(shù)據挖掘方法需要兼顧地理現(xiàn)象的多尺度時空特征,融合圖、文、數(shù)等多種信息載體表征,構建開放式、可擴展的地理空間知識圖譜[189]。
地理大數(shù)據挖掘已經成為地理信息科學、信息科學共同關注的前沿熱點問題,對于深入探索地理學“人-地”關系這一核心問題具有重要價值。本文對近20年來地理大數(shù)據挖掘研究的主要進展進行了回顧,分析了地理大數(shù)據挖掘與空間數(shù)據挖掘相比的獨特性和繼承性,使得從空間數(shù)據挖掘到地理大數(shù)據挖掘的發(fā)展脈絡更加清晰;系統(tǒng)梳理了地理大數(shù)據挖掘方法、應用與軟件的主要研究進展,總結了當前地理大數(shù)據挖掘需要進一步突破的主要問題,并對地理大數(shù)據挖掘發(fā)展趨勢進行了展望,對于未來地理大數(shù)據挖掘理論完善與方法設計具有指導意義。地理大數(shù)據挖掘是一個復雜的、綜合性的研究領域,本文僅僅起到拋磚引玉的作用,希望能夠推動地理大數(shù)據挖掘在地理學“人-地”關系研究中發(fā)揮更大作用。