巫細(xì)波
(廣州市社會(huì)科學(xué)院 廣東 廣州 510410)
隨著信息化、網(wǎng)絡(luò)化、智能化及物聯(lián)化的深入發(fā)展,各領(lǐng)域每時(shí)每刻都在產(chǎn)生大量數(shù)據(jù),有別于傳統(tǒng)的數(shù)據(jù),大數(shù)據(jù)具有5V(Volume、Velocity、Variety、Value、Veracity)特點(diǎn)[1],即數(shù)據(jù)量大、數(shù)據(jù)生成及處理速度快、數(shù)據(jù)類(lèi)型多樣、價(jià)值密度較低、數(shù)據(jù)準(zhǔn)確和可信賴。近年來(lái),大數(shù)據(jù)已經(jīng)引起了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注和研究,在邁爾-舍恩伯格和庫(kù)克耶合著的《“大數(shù)據(jù)”時(shí)代:生活、工作與思維方式的大變革》中指出大數(shù)據(jù)正在深刻改變經(jīng)濟(jì)生活的各領(lǐng)域[2],這本論著掀起了國(guó)內(nèi)外大數(shù)據(jù)研究熱潮并成為許多學(xué)科的熱點(diǎn)與主流[3][4][5],朱建平對(duì)大數(shù)據(jù)的分析理念進(jìn)行了深入辨析[6],張慶熊(2015)、李天柱(2018)、周良發(fā)(2018)等學(xué)者則專(zhuān)門(mén)討論了大數(shù)據(jù)在人文社會(huì)科學(xué)領(lǐng)域的應(yīng)用及發(fā)展趨勢(shì)[7][8][9][10]。隨著網(wǎng)絡(luò)地圖服務(wù)的快速興起和普及,POI 這種具有地理坐標(biāo)度信息的數(shù)據(jù)逐漸成為一種社科研究的重要數(shù)據(jù)類(lèi)型。POI 數(shù)據(jù)是人口、土地、經(jīng)濟(jì)、社會(huì)等城市主要要素相互作用的綜合體現(xiàn),集地理位置信息和功能分類(lèi)信息于一體,與傳統(tǒng)數(shù)據(jù)相比較還具有規(guī)模大、覆蓋廣、類(lèi)別多、易獲取、更新速度快等優(yōu)點(diǎn),越來(lái)越得到用戶認(rèn)可和青睞,也日益引起研究人員的重視[11][12][13]。與傳統(tǒng)基于城市用地類(lèi)型劃分的城市功能結(jié)構(gòu)研究不同,通過(guò)POI 數(shù)據(jù)識(shí)別和分析復(fù)雜多變的城市功能空間結(jié)構(gòu)可大量節(jié)省實(shí)地調(diào)研的時(shí)間,而且能夠從宏觀、中觀及微觀多種尺度對(duì)城市空間結(jié)構(gòu)開(kāi)展分析,使得研究結(jié)果也顯得更為精細(xì)。一般而言,一個(gè)城市的POI 數(shù)據(jù)類(lèi)型多樣而且數(shù)量非常龐大,以廣州為例,根據(jù)從高德地圖抓取的POI 數(shù)據(jù)量達(dá)到128 萬(wàn)條(數(shù)據(jù)抓取時(shí)間為2017年7 月份),常用的Excel、Access、Stata、SPSS 等軟件難以直接處理這么大量的數(shù)據(jù),必須借助數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和處理。對(duì)于大部分科研人員而言,免費(fèi)而且功能足夠的強(qiáng)大的開(kāi)源數(shù)據(jù)庫(kù)成為必然選擇,常用的開(kāi)源數(shù)據(jù)軟件主要包括MySQL、PostgreSQL、SQLite 等,與商業(yè)數(shù)據(jù)庫(kù)相比還有一些差距(見(jiàn)表1)。本文以粵港澳大灣區(qū)的496 萬(wàn)個(gè)POI 數(shù)據(jù)的存儲(chǔ)與分析處理為例,結(jié)合PostgreSQL開(kāi)源數(shù)據(jù)庫(kù)探討社會(huì)科學(xué)大數(shù)據(jù)的處理與應(yīng)用方法,同時(shí)采用空間核密度方法分析粵港澳大灣區(qū)城市空間結(jié)構(gòu)現(xiàn)狀并總結(jié)其特征。
表1 主流數(shù)據(jù)庫(kù)優(yōu)缺點(diǎn)對(duì)比
POI 數(shù)據(jù)。一種能夠代表真實(shí)地理實(shí)體的點(diǎn)狀數(shù)據(jù),一般包含點(diǎn)要素的名稱、類(lèi)別、經(jīng)緯度、電話、所在省市以及地址等基本信息,POI中的坐標(biāo)數(shù)據(jù)一般為WGS84 地理投影坐標(biāo),涉及距離、面積等空間統(tǒng)計(jì)分析需要將地理坐標(biāo)轉(zhuǎn)換為地圖投影坐標(biāo)。本文采用的POI 數(shù)據(jù)通過(guò)第三方網(wǎng)絡(luò)數(shù)據(jù)爬蟲(chóng)工具從高德地圖開(kāi)放平臺(tái)獲取,數(shù)據(jù)獲取時(shí)間為2017 年8 月。借助POI 數(shù)據(jù)之所以能夠?qū)Τ鞘锌臻g結(jié)構(gòu)開(kāi)展研究關(guān)鍵在于每個(gè)POI 都是城市物質(zhì)空間中實(shí)際存在的一個(gè)點(diǎn),大量POI 集聚分布在空間上形成連片區(qū)域,能夠反映城市功能空間布局特點(diǎn),同時(shí)POI 數(shù)據(jù)還包括社會(huì)空間的各種屬性信息,而城市空間結(jié)構(gòu)研究根據(jù)研究目的和對(duì)象的不同可以分為城市物質(zhì)空間和城市社會(huì)空間的研究,因而借助POI 數(shù)據(jù)可以同時(shí)從物質(zhì)空間和社會(huì)空間兩個(gè)維度研究城市空間結(jié)構(gòu)的演化規(guī)律和各子系統(tǒng)的相互作用機(jī)制。高德地圖POI 原始數(shù)據(jù)共包含汽車(chē)銷(xiāo)售、餐飲服務(wù)購(gòu)物服務(wù)、生活服務(wù)、體育休閑服務(wù)、醫(yī)療保健服務(wù)、住宿服務(wù)、風(fēng)景名勝、商務(wù)住宅、政府機(jī)構(gòu)及社會(huì)團(tuán)體、科教文化服務(wù)、交通設(shè)施服務(wù)、金融保險(xiǎn)服務(wù)、公司企業(yè)、道路附屬設(shè)施、地名地址信息、公共設(shè)施等23 大類(lèi)數(shù)據(jù)類(lèi)型,本文根據(jù)研究目標(biāo)選取其中的19 類(lèi)POI 數(shù)據(jù)展開(kāi)分析,以粵港澳大灣區(qū)范圍內(nèi)的廣州、深圳、香港、佛山、澳門(mén)、惠州、肇慶、江門(mén)、東莞、中山、珠海等11 個(gè)地區(qū)的POI 數(shù)據(jù)為研究對(duì)象,POI 數(shù)據(jù)總量接近500 萬(wàn)條(具體見(jiàn)表2)。限于篇幅限制,本文只對(duì)所有POI 數(shù)據(jù)展開(kāi)總體分析,不對(duì)7 大細(xì)分類(lèi)型展開(kāi)分析。
表2 粵港澳大灣區(qū)七類(lèi)POI 數(shù)據(jù)情況
1.大數(shù)據(jù)分析方法
由于采用數(shù)量龐大的POI 數(shù)據(jù)對(duì)粵港澳大灣區(qū)城市空間結(jié)構(gòu)展開(kāi)分析,傳統(tǒng)基于Excel、TXT、CSV 等文件系統(tǒng)的數(shù)據(jù)處理和分析方法已不可能勝任,必須借助大數(shù)據(jù)分析方法。大數(shù)據(jù)是一類(lèi)復(fù)雜且龐大的數(shù)據(jù)集合,傳統(tǒng)的基于文件系統(tǒng)的數(shù)據(jù)管理工具或者應(yīng)用已經(jīng)無(wú)法勝任其數(shù)據(jù)的處理工作,必須采用單機(jī)數(shù)據(jù)庫(kù)系統(tǒng)或者分布式網(wǎng)絡(luò)數(shù)據(jù)庫(kù)進(jìn)行高效率存儲(chǔ)和數(shù)據(jù)傳輸,為各種數(shù)據(jù)分析提供強(qiáng)大的基本支撐。本文的POI 數(shù)據(jù)為500萬(wàn)條級(jí)別,可以采用單機(jī)數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行,本文采用PostgreSQL 數(shù)據(jù)庫(kù)系統(tǒng)(版本為10.4),作為免費(fèi)而且功能強(qiáng)大的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),非常適合用于社科研究人員開(kāi)展各類(lèi)基于大型數(shù)據(jù)的科學(xué)研究。
2.空間核密度分析方法
一種將離散數(shù)據(jù)進(jìn)行空間平滑處理形成連續(xù)分布密度圖的方法,能夠有效地分析出離散數(shù)據(jù)的空間分布特征和趨勢(shì),其計(jì)算公式如下:
公式(1)中,(fx)為空間位置x 處的核密度計(jì)算函數(shù);h 為距離衰減閾值,可以是固定值,也可以根據(jù)樣本進(jìn)行計(jì)算或者是動(dòng)態(tài)值,還可以根據(jù)點(diǎn)要素的屬性值進(jìn)行加權(quán)計(jì)算;n 為與位置x 的距離小于或等于h 的要素點(diǎn)數(shù)(如果采用加權(quán)方法,此處n 則為要素屬性值的總數(shù));k 函數(shù)則表示空間權(quán)重函數(shù),一般是距離衰減函數(shù)。核密度計(jì)算公式的幾何意義為密度值在每個(gè)核心要素ci 處最大,并且在遠(yuǎn)離ci 過(guò)程中不斷降低,直至與核心ci 的距離達(dá)到閾值h 時(shí)核密度值降為0。本文采用ArcGIS 軟件進(jìn)行核密度計(jì)算,不采用加權(quán)處理,h值會(huì)根據(jù)樣本特征進(jìn)行自動(dòng)計(jì)算。核密度分析方法會(huì)產(chǎn)生柵格數(shù)據(jù),為顯示不同區(qū)域POI 數(shù)據(jù)密度差異需要對(duì)柵格數(shù)據(jù)進(jìn)行分組分級(jí),本文主要采用Jenks 自然斷裂法進(jìn)行分組統(tǒng)計(jì)并顯示。
大數(shù)據(jù)的分析主要涉及到數(shù)據(jù)管理和結(jié)構(gòu)支撐、開(kāi)發(fā)模型和評(píng)測(cè)、可視化和用戶接口、商業(yè)模型等幾個(gè)方面,分析流程一般包括數(shù)據(jù)源、數(shù)據(jù)管理、數(shù)據(jù)建模和數(shù)據(jù)結(jié)果分析及可視化(見(jiàn)圖1)。大數(shù)據(jù)分析過(guò)程中最耗時(shí)和耗力的環(huán)節(jié)就是數(shù)據(jù)的準(zhǔn)備階段,因此分析大規(guī)模的數(shù)據(jù)時(shí)必須考慮到數(shù)據(jù)存儲(chǔ)、過(guò)濾、移植和檢索的效率。此外,選擇何種數(shù)據(jù)庫(kù)也是必須考慮的重要問(wèn)題,主要考慮應(yīng)用場(chǎng)景、數(shù)據(jù)量及存儲(chǔ)方式、多用戶管理和并發(fā)性等問(wèn)題。總體而言,開(kāi)源數(shù)據(jù)庫(kù)的功能也越來(lái)越強(qiáng)大,可以滿足絕大部分科研需求。以流行的開(kāi)源數(shù)據(jù)庫(kù)為例,MySQL 易用性較強(qiáng),主要應(yīng)用于網(wǎng)絡(luò)應(yīng)用;SQLite 則主要應(yīng)用于數(shù)據(jù)較小、嵌入式終端而且不需要多用戶并發(fā)訪問(wèn)數(shù)據(jù)的場(chǎng)景;PostgreSQL 支持完整的SQL 標(biāo)準(zhǔn)、社區(qū)活躍、更新持續(xù)而且對(duì)空間數(shù)據(jù)和空間計(jì)算支持較好,綜合而言非常適合社科人員使用,尤其適用于本文要處理的POI 數(shù)據(jù)。
1.數(shù)據(jù)導(dǎo)入
數(shù)據(jù)庫(kù)數(shù)據(jù)導(dǎo)入方式一般包括使用SQL 命令、數(shù)據(jù)庫(kù)API 編程及圖形化工具等三種方式,圖形化工具比較適合社科領(lǐng)域研究人員采用,如果數(shù)據(jù)不規(guī)整需要整理則采用編程方式比較合適。本文使用的POI 數(shù)據(jù)為CSV 格式,這種格式數(shù)據(jù)可以用PostgreSQL 內(nèi)置的“copy”命令導(dǎo)入,效率高,適合熟悉SQL 語(yǔ)法的研究人員;還可以利用PostgreSQL 內(nèi)置的pgAdmin 可視化工具導(dǎo)入,步驟簡(jiǎn)單而且支持中文,適合大部分社科領(lǐng)域的研究人員,本文也采用這種方式。此外,還可以借助Navicat 等第三方數(shù)據(jù)庫(kù)管理工具導(dǎo)入,可視化操作更加方便,但一般第三方軟件需要付費(fèi)。如果需要反復(fù)進(jìn)行大規(guī)模的地理空間查詢和分析,可直接借助PostgreSQL 的空間擴(kuò)展模塊PostGIS 將POI 數(shù)據(jù)中的地理坐標(biāo)信息存儲(chǔ)為Geometry 數(shù)據(jù)類(lèi)型。
2.數(shù)據(jù)分類(lèi)及合并
由于POI 數(shù)據(jù)源于地圖導(dǎo)航領(lǐng)域,其分類(lèi)方式需要根據(jù)研究目的對(duì)數(shù)據(jù)進(jìn)行多次分類(lèi)整理,在不刪除原數(shù)據(jù)的情況下可采用視圖方式對(duì)數(shù)據(jù)進(jìn)行分類(lèi)檢索。本文以分析粵港澳大灣區(qū)城市空間結(jié)構(gòu)為例,因此根據(jù)商業(yè)、產(chǎn)業(yè)、生活居住、政務(wù)辦公、科教文化、休閑、交通等7 大類(lèi)對(duì)POI 數(shù)據(jù)進(jìn)行分類(lèi)合并處理,如果需要數(shù)據(jù)交換還可以將分類(lèi)合并后的每一類(lèi)POI 保存為視圖也可以導(dǎo)出為CSV 格式數(shù)據(jù),方便下一步分析。這里對(duì)不同區(qū)域不同類(lèi)型POI 數(shù)據(jù)進(jìn)行分類(lèi)統(tǒng)計(jì)(見(jiàn)表3),每一次查詢都非???,如果用以往基于文件系統(tǒng)的數(shù)據(jù)查詢方式,基本不可能實(shí)現(xiàn)。
3.數(shù)據(jù)分析
由于PostgreSQL 數(shù)據(jù)庫(kù)本身的空間統(tǒng)計(jì)與空間分析功能很弱,需要將POI 數(shù)據(jù)需要轉(zhuǎn)換才能夠?yàn)榈乩硇畔④浖幚恚ㄈ鏏rcGIS、QGIS、MapGIS等地理信息軟件)。本文主要采用核密度方法,因此需要將POI 數(shù)據(jù)轉(zhuǎn)換為地圖投影坐標(biāo)下的地理空間數(shù)據(jù)并用ArcGIS 進(jìn)行核密度分析。
4.數(shù)據(jù)制圖
POI 數(shù)據(jù)可以通過(guò)多種地理信息軟件進(jìn)行制圖,一般情況下地理制圖需要包括地圖內(nèi)容及地圖附件(指北針、比例尺、圖例等)。本文采用核密度方法對(duì)POI 大數(shù)據(jù)進(jìn)行分析,其結(jié)果為柵格類(lèi)型的圖并結(jié)合粵港澳大灣區(qū)行政邊界矢量數(shù)據(jù)進(jìn)行顯示,可以非常清晰地展示POI 數(shù)據(jù)的空間密度分布情況。
限于篇幅限制,本文僅對(duì)粵港澳大灣區(qū)地區(qū)所有類(lèi)型的POI 進(jìn)行總體核密度分析,研究探討粵港澳大灣區(qū)各城市空間結(jié)構(gòu)的總體空間布局特征,不單獨(dú)對(duì)7 大細(xì)分類(lèi)型POI 展開(kāi)分析??傮w上看,相對(duì)于基于傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的方法,基于POI 大數(shù)據(jù)的分析能夠更加清晰準(zhǔn)確地識(shí)別出粵港澳大灣區(qū)城市空間結(jié)構(gòu)的網(wǎng)絡(luò)化、多中心及空間連片化特征。
總體上看,粵港澳大灣區(qū)絕大部分POI 分布于珠江兩岸,其中東岸POI 數(shù)量明顯大于西岸,外圍區(qū)域POI 數(shù)量較少而且集聚規(guī)模較小。從地區(qū)分布看,廣州和深圳兩地的POI 數(shù)量最多而且較為接近,占比均超過(guò)了20%,分別達(dá)到23.44%和21.39%。采用ArcGIS 軟件對(duì)粵港澳大灣區(qū)所有類(lèi)型POI 進(jìn)行核密度分析,結(jié)果顯示:廣州、深圳兩大城市主城區(qū)均形成了大規(guī)模的高密度集聚區(qū),香港九龍、東莞莞城、佛山禪城則形成了次級(jí)高密度集聚區(qū),惠州惠陽(yáng)、珠海香洲、廣州花都及番禺、中山石岐、江門(mén)蓬江、肇慶端州等區(qū)域側(cè)形成更小規(guī)模的集聚區(qū)(見(jiàn)圖2)。
廣州、深圳、香港三大城市主城區(qū)是粵港澳大灣區(qū)城市空間的三大中心,各類(lèi)城市功能POI均呈現(xiàn)高度集聚特征,對(duì)七類(lèi)城市功能空間POI的數(shù)據(jù)分析均支持這一論斷,三大中心在不同領(lǐng)域具有比較優(yōu)勢(shì)。其中,廣州在政務(wù)辦公、科教文化、商業(yè)、交通等方面占有數(shù)量?jī)?yōu)勢(shì),是大灣區(qū)政治、文化、商業(yè)及交通功能空間的主要核心;深圳在產(chǎn)業(yè)、科技創(chuàng)新等城市功能空間占有相對(duì)優(yōu)勢(shì),成為大灣區(qū)新興信息技術(shù)產(chǎn)業(yè)及產(chǎn)業(yè)科技創(chuàng)新的核心引擎;香港則在國(guó)際化功能空間、高等級(jí)科研空間等方面具有相對(duì)優(yōu)勢(shì),是目前大灣區(qū)邁向全球化的重要窗口。
粵港澳大灣區(qū)城市空間以廣州、深圳、香港三大城市主城區(qū)為中心,借助完善的公路、鐵路、水運(yùn)及航空立體化交通網(wǎng)絡(luò),大灣區(qū)其他城市圍繞這三個(gè)中心周?chē)纬傻燃?jí)化、網(wǎng)絡(luò)化特征明顯的城市空間結(jié)構(gòu),整個(gè)大灣區(qū)城市空間結(jié)構(gòu)主從關(guān)系明確,核心城市突出,居于主導(dǎo)地位。其中,佛山禪城、東莞莞城、珠海香洲、中山石岐、江門(mén)蓬江、肇慶端州、廣州花都及番禺等區(qū)域形成大灣區(qū)次級(jí)中心區(qū)。東莞虎門(mén)及長(zhǎng)安、惠州惠東、博羅及惠東、佛山三水及高明、廣州從化及增城、肇慶四會(huì)及高要、中山小欖與古鎮(zhèn)、珠海斗門(mén)等區(qū)域則形成三級(jí)中心城市;大灣區(qū)外圍區(qū)域則圍繞縣域中心形成各類(lèi)POI 小規(guī)模集聚區(qū),成為大灣區(qū)城市網(wǎng)絡(luò)結(jié)構(gòu)體系的重要節(jié)點(diǎn)城市,三大層次城市通過(guò)實(shí)體交通網(wǎng)絡(luò)與虛擬信息網(wǎng)絡(luò)形成體系層次分明、等級(jí)化、網(wǎng)絡(luò)化特征顯著的城市空間結(jié)構(gòu)。
隨著珠三角城市一體化進(jìn)程不斷深入發(fā)展,大灣區(qū)內(nèi)部各城市之間的各類(lèi)經(jīng)濟(jì)活動(dòng)與人員往來(lái)日益頻繁,各類(lèi)城市功能空間POI 不但在各自城市行政邊界內(nèi)部形成POI 連片高密度集聚區(qū),也逐漸突破城市行政邊界制約,促使各類(lèi)城市功能空間POI 在城市之間也逐漸形成了連片化高密度集聚區(qū),這種高密度連片化特征在生活居住空間、交通空間及產(chǎn)業(yè)空間等方面顯得尤為明顯,如廣佛、深莞之間的居住空間POI 連片化特征非常明顯。
隨著物聯(lián)網(wǎng)及智能化時(shí)代的到來(lái),社會(huì)科學(xué)領(lǐng)域的數(shù)據(jù)類(lèi)型及數(shù)量快速增長(zhǎng),傳統(tǒng)基于文件型的數(shù)據(jù)存儲(chǔ)和處理方法已無(wú)法適用,常用的Excel、Access、Stata、SPSS 等軟件難以直接處理這么大量的數(shù)據(jù),必須借助數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和處理。對(duì)于大部分科研人員而言,免費(fèi)而且功能足夠的強(qiáng)大的開(kāi)源數(shù)據(jù)庫(kù)成為必然選擇。本文以粵港澳大灣區(qū)的496 萬(wàn)個(gè)POI 數(shù)據(jù)的存儲(chǔ)與分析處理為例,結(jié)合PostgreSQL 開(kāi)源數(shù)據(jù)庫(kù)探討社會(huì)科學(xué)大數(shù)據(jù)的處理與應(yīng)用方法。通過(guò)研究發(fā)現(xiàn):PostgreSQL 數(shù)據(jù)庫(kù)免費(fèi)、易于適用、性能強(qiáng)大等特點(diǎn)使得非常易于社科研究人員使用,單機(jī)數(shù)據(jù)庫(kù)系統(tǒng)能夠輕松應(yīng)付百萬(wàn)級(jí)數(shù)據(jù)量;POI 大數(shù)據(jù)也將隨著網(wǎng)絡(luò)地圖服務(wù)的深入發(fā)展成為一種重要的社會(huì)科學(xué)研究數(shù)據(jù);根據(jù)POI 大數(shù)據(jù)的空間核密度分析可以發(fā)現(xiàn)粵港澳大灣區(qū)城市空間呈現(xiàn)高度集聚、多中心、等級(jí)化及功能空間連片化特征。如果數(shù)據(jù)量進(jìn)一步增加以及需要整合跨網(wǎng)絡(luò)數(shù)據(jù)源,基于單機(jī)數(shù)據(jù)庫(kù)的大數(shù)據(jù)處理方法則需要更新改進(jìn),必須借助基于云計(jì)算的大數(shù)據(jù)方法,這有待下一步的研究探討。