陸妍玲,黃婭琦,王杰,黃露,趙毅,李景文*
(1.桂林理工大學(xué)測繪地理信息學(xué)院,桂林 541004;2.廣西生態(tài)時空大數(shù)據(jù)感知服務(wù)重點實驗室,桂林 541004)
隨著大數(shù)據(jù)時代來臨與新興數(shù)字技術(shù)的迅速發(fā)展,人類的各種活動特征及內(nèi)在機(jī)制為城市規(guī)劃建設(shè)以及交通政策提供了數(shù)據(jù)支撐[1]。通過泛在傳感器的使用被完整和系統(tǒng)地記錄下來并形成海量的時空軌跡數(shù)據(jù)[2]。海量時空軌跡數(shù)據(jù)隱含了豐富的城市信息[3]。時空軌跡數(shù)據(jù)作為研究城市人群的活動規(guī)律及時空特征的主要數(shù)據(jù)來源,具有獲取成本低、數(shù)據(jù)量大、時空覆蓋范圍廣等優(yōu)點[4-5]。通過對出行軌跡數(shù)據(jù)進(jìn)行時空挖掘,能為城市規(guī)劃、交通設(shè)計、位置信息服務(wù)等應(yīng)用領(lǐng)域提供參考價值和現(xiàn)實意義。
外國學(xué)者在21世紀(jì)初對軌跡數(shù)據(jù)開展研究,最早是面向浮動車的數(shù)據(jù)[6-7],隨著數(shù)據(jù)采集能力的提升以及定位設(shè)備的廣泛應(yīng)用,對時空軌跡進(jìn)行挖掘分析的數(shù)據(jù)形式更加多樣[8-9]。Brian等[10]通過評估游客出行方式對于公園和保護(hù)區(qū)環(huán)境的影響,以此保護(hù)生物多樣性,并提供優(yōu)質(zhì)的游客體驗機(jī)會。Anu等[11]通過研究在愛沙尼亞收集到的移動定位數(shù)據(jù),發(fā)現(xiàn)空間流動性隨年齡增長而呈現(xiàn)出線性下降的趨勢,揭示了空間流動性規(guī)律。在中國,主要是以出租車數(shù)據(jù)為數(shù)據(jù)源提取熱點區(qū)域,并對出行需求或交通狀態(tài)進(jìn)行分析和預(yù)測[12-14]。秦昆等[15]對武漢市的出租車軌跡數(shù)據(jù)進(jìn)行預(yù)處理后,利用基于時空數(shù)據(jù)場的聚類方法提取城市交通熱點區(qū)域,并分析出行時空特征。王侃等[16]提出基于時空軌跡的熱點區(qū)域提取算法(TSTHE),對1 100條卡車軌跡進(jìn)行熱點區(qū)域提取,該方法改進(jìn)了傳統(tǒng)的軌跡算法中相似性度量單一和聚類簇數(shù)難確定的問題。Zhang等[17]通過聚合具有網(wǎng)絡(luò)驅(qū)動的海量手機(jī)數(shù)據(jù),揭示了蕪湖市人群的移動模式,發(fā)現(xiàn)蕪湖市的人類活動高度集中在交通分析區(qū)(TAZ)層面。焦萍等[18]利用西安的出租車訂單提取軌跡數(shù)據(jù),對城市居民出行需求區(qū)域進(jìn)行分析,挖掘其時空分布特征,對城市公共交通規(guī)劃等提供一定借鑒。
綜合以上分析,中外學(xué)者針對時空軌跡數(shù)據(jù)的研究在社會建設(shè)中已經(jīng)有了廣泛的應(yīng)用,但研究多集中在利用各類GPS軌跡數(shù)據(jù)對某個地區(qū)進(jìn)行一個尺度的研究,研究范圍較單一,缺少多空間尺度融合下的時空軌跡研究。鑒于此,以廣東為研究區(qū)域,基于出行軌跡數(shù)據(jù)聚類算法提取熱點區(qū)域,通過軌跡時間分布特征、空間分布特征與熱點等級變化特征等多空間尺度融合進(jìn)行數(shù)據(jù)挖掘,在此基礎(chǔ)上進(jìn)行城市人類活動出行等特征分析。本研究為深入分析城市內(nèi)部結(jié)構(gòu)特征的研究提供了新的視野。
廣東省位于20°09′N~25°31′N和109°45′E~117°20′E,陸地面積為17.97×104km2,海岸線總長13 870 km,地處中國華南沿海,廣東省下轄21個地級市。根據(jù)國家統(tǒng)計局公布的數(shù)據(jù)顯示,2021年廣東全省總?cè)丝诩s為1.26億人,位居全國第一。廣東省城市內(nèi)部空間結(jié)構(gòu)復(fù)雜多元,道路網(wǎng)絡(luò)覆蓋范圍廣,建設(shè)用地類型多樣全面,適用于出行軌跡活動熱點研究以及潛在規(guī)律的挖掘。研究區(qū)域如圖1所示。
圖1 研究區(qū)域(廣東省)Fig.1 Study area(Guangdong Province)
研究數(shù)據(jù)來源于社交媒體騰訊用戶密度(Tencent user density,TUD)數(shù)據(jù)集。獲取了中國34個行政區(qū)TUD數(shù)據(jù),日期為2021年4月28日,采樣時間間隔為30 min,將數(shù)據(jù)劃分為48個時段。并利用Pandas庫篩選出8:00、12:00、18:00的用戶定位數(shù)據(jù),數(shù)據(jù)行數(shù)總計約56萬行,數(shù)據(jù)內(nèi)容包括經(jīng)度、緯度和定位次數(shù)3個屬性。
同時,研究數(shù)據(jù)包括來源于高德地圖開發(fā)平臺的地圖興趣點(point of interest,POI)數(shù)據(jù),時間為2021年3月,共計5 778 750條記錄,包括名稱、經(jīng)緯度、地址、類別和所屬區(qū)域等信息,共17個大類和若干個中類。研究選取餐飲美食、商務(wù)住宅、旅游景點、酒店住宿、公司企業(yè)、交通設(shè)施六大類POI進(jìn)行處理分析,如圖2所示。
圖2 POI類別熱點圖Fig.2 POI category hot spot map
DBSCAN算法在密度聚類中得到了較為廣泛的運用,不僅能判別聚類簇之間的差異性,還能夠?qū)Τ鲂熊壽E數(shù)據(jù)的集群分布和空間特征進(jìn)行準(zhǔn)確分析[19]。其聚類思想是在給定數(shù)據(jù)集D上隨機(jī)抽取出對象點p,然后查詢p的鄰域半徑Eps內(nèi)的對象個數(shù),若所含個數(shù)大于核心點閾值Minpts,則創(chuàng)建一個以p作為核心對象的聚類簇。p聚簇里的其他對象點作為第二次的查詢對象,依次對聚簇里的其他點進(jìn)行查詢迭代,尋找新的核心對象和聚類簇,直到?jīng)]有新點加入各聚簇即可結(jié)束。具體過程如下。
輸入數(shù)據(jù)集D,Eps鄰域半徑,最小數(shù)目MinPts。
輸出生成的聚簇。
步驟1 Repeat。
步驟2 選擇數(shù)據(jù)集D中一個未作處理的樣本點并識別該點是否為核心對象。
步驟3 若該點為核心對象,且鄰域范圍內(nèi)的所有點個數(shù)大于Minpts,則創(chuàng)建聚類簇。
步驟4 若該點不是核心對象,則回到步驟2尋找新的核心對象和聚類簇;
步驟5 直到?jīng)]有新點加入各簇類即可結(jié)束。
由于DBSCAN算法是在核心對象的鄰域密度進(jìn)行迭代擴(kuò)展,因此對無規(guī)則形狀的聚類點來說,使用DBSCAN算法的聚類效果更好。且該算法還具有能有效地識別噪聲點、能識別任何形狀的簇類、聚類結(jié)果對遍歷順序幾乎沒有依賴性等優(yōu)點。
在參數(shù)選擇中,由于無需事先指定要劃分的類數(shù),僅需要定義鄰域半徑(Eps)和核心點閾值(Minpts)這兩個參數(shù)。在參數(shù)Eps值一定時,Minpts值太小會造成簇類太多,而且會把某些噪音點也歸入簇類進(jìn)而影響結(jié)果。相反,若Minpts值過大,則生成的簇類較少,同時也消除了很多非噪音點,所含對象較小的簇類會被忽視。因此,Minpts要取合適值,以減少簇數(shù)量和噪聲點的干擾。聚類樣本參數(shù)的選取質(zhì)量可通過輪廓系數(shù)來評價,輪廓系數(shù)的計算公式為
(1)
(2)
式中:a(i)為樣本i與同簇中其他點之間的平均不相似度;b(i)為樣本i與其他簇之間的最小平均不相似度。
輪廓系數(shù)的值介于[-1,1],輪廓系數(shù)值與1相近時,表示樣本劃分到的簇合理;輪廓系數(shù)值與-1相近時,表示應(yīng)將樣本i歸到另一個簇中。通過迭代不同的Eps及Minpts,統(tǒng)計該類別狀態(tài),并計算輪廓系數(shù),經(jīng)過多次實驗取值對比最終確定省級尺度樣本聚類的領(lǐng)域半徑為Eps=0.101,閾值為Minpts=12;市級尺度樣本數(shù)據(jù)聚類的領(lǐng)域半徑Eps=0.1,閾值為Minpts=11。
核密度分析常被用來計算指定區(qū)域內(nèi)點、線要素測量值的單位密度,是估計非參數(shù)常用方法之一,可以直接反映連續(xù)區(qū)域離散測量值的分布情況。在核密度分析中,距離其核心要素越近,所獲得的相應(yīng)密度擴(kuò)張值也就越高。設(shè)x1,x2,…,xn為單元變量x的獨立同分布樣本點,則核密度分析表達(dá)式為
(3)
式(3)中:h為距離衰減閾值,即輸出帶寬,h表示距x處直線距離小于或等于h的所有空間對象的數(shù)目;k0為核函數(shù);xi為第i個核心對象所在位置。
圖3 熱點區(qū)域提取過程Fig.3 Extraction process of hot spots
研究數(shù)據(jù)源各個時間段提取的熱點區(qū)域如圖4所示。根據(jù)“自然斷點法”對以上熱點區(qū)域分為5個等級,用不同顏色和大小將其可視化,每個顏色對應(yīng)一個等級,等級越高表示出行活動越弱,效果如圖5所示。
圖4 不同時間不同尺度提取的熱點區(qū)域Fig.4 Hot spots extracted at different times and scales
尺度效應(yīng),即同一區(qū)域、同一時間、同一研究對象在某一尺度上呈現(xiàn)出的規(guī)律特征、性質(zhì)等,在另一個尺度上呈現(xiàn)出的結(jié)果可能相似也可能有差別。在地理空間中,任何地理實體呈現(xiàn)出的信息承載量都與尺度有關(guān),它們所展示的信息內(nèi)容因尺度而異。根據(jù)地理實體的屬性特征為其選擇合適的空間尺度來進(jìn)行描述,其結(jié)果才會具有研究價值,因此,選取不同省級與市級尺度融合下的出行軌跡數(shù)據(jù)對其進(jìn)行城市活動時空分析。
基于DBSCAN聚類算法對出行軌跡數(shù)據(jù)分出大類簇,結(jié)合局部密度峰值計算,提取了不同時段、不同尺度下的出行熱點區(qū)域,將統(tǒng)計省級尺度、市級尺度的定位次數(shù)總和,以此分析在不同尺度下的出行時間分布特征,如圖6所示。圖6為市級尺度3個時段下的出行軌跡數(shù)據(jù)熱點區(qū)域分布。分析可知,在不同尺度下的時間分布特征如下。
(1)在8:00、12:00、18:00這3個時間段里,密集區(qū)域的熱點位置基本重合;強(qiáng)度較低的區(qū)域,熱點位置較分散。從城市熱點區(qū)域分布圖中得出東南地區(qū)3個時間段的熱點區(qū)域位置基本重合,西北地區(qū)3個時間段的熱點區(qū)域位置比較分散,重合度不高。說明不同時間粒度下,在聚集度高的區(qū)域活動范圍比較穩(wěn)定,在聚集度低的區(qū)域活動位置偏移大,且移動方向沒有明顯規(guī)律。
(2)分別統(tǒng)計了省級尺度、市級尺度在8:00、12:00、18:00這3個時間段中的定位次數(shù)。省級尺度18:00的定位總次數(shù)為435 270次,市級尺度18:00的定位次數(shù)為28 796次,均遠(yuǎn)遠(yuǎn)高于8:00和12:00點的定位總次數(shù)。8:00、12:00、18:00分別處于早高峰、午高峰、晚高峰的時間段里,說明晚高峰是出行軌跡數(shù)據(jù)強(qiáng)度最大、最頻繁的時段。
基于熱點區(qū)域提取結(jié)果,將每個區(qū)域所擁有的熱點區(qū)域個數(shù)進(jìn)行統(tǒng)計,對區(qū)域進(jìn)行分級并進(jìn)行可視化,如圖7(a)~圖7(c)所示,以此獲得出行軌跡數(shù)據(jù)在不同尺度下的空間分布特征。省級尺度區(qū)域分級標(biāo)準(zhǔn):擁有10個以下的熱點區(qū)域省份劃分為一級行政區(qū);擁有11~20個熱點區(qū)域的省份劃分為二級行政區(qū);擁有20個以上的熱點區(qū)域省份劃分為三級行政區(qū)。市級尺度區(qū)域劃分標(biāo)準(zhǔn):擁有7個以下的熱點區(qū)域地級市劃分為一級地級市;擁有8~15個熱點區(qū)域的地級市劃分為二級地級市;擁有15個以上的熱點區(qū)域地級市劃分為三級地級市。
圖7 不同尺度空間分布特征Fig.7 Spatial distribution characteristics at different scales
可見,不同時間粒度之間的同一行政區(qū)的出行密度有所區(qū)別。圖7(a)~圖7(c)可以看出,每個等級的行政區(qū)在不同時間粒度下,雖然并未出現(xiàn)行政區(qū)等級跨越現(xiàn)象。但結(jié)合圖7(d)、圖7(e)的熱點區(qū)域個數(shù)統(tǒng)計圖,可以看出,省級尺度行政區(qū)、市級尺度行政區(qū)在3個時間段內(nèi),同一行政區(qū)出行密度是有所區(qū)別的,小部分行政區(qū)熱點區(qū)域個數(shù)沒有浮動;大部分熱點區(qū)域個數(shù)均有浮動,且浮動值較小。因此,從大尺度空間分布看,出行軌跡數(shù)據(jù)區(qū)域范圍是相對穩(wěn)定的。
同時,各等級行政區(qū)分布呈現(xiàn)階梯狀分布。無論是省級尺度還是市級尺度,行政區(qū)等級都是依階梯狀逐步排列的。該情況發(fā)生的原因是:由于中國地勢東高西低,呈階梯狀分布,且氣候干燥,戈壁沙漠廣布、降水少、風(fēng)沙多、生態(tài)脆弱,社會城市化以及適宜人類居住指數(shù)較低,因此導(dǎo)致內(nèi)蒙古自治區(qū)、新疆維吾爾自治區(qū)、西藏自治區(qū)出現(xiàn)了地廣人稀且居民大散居的現(xiàn)象,所以這3個地區(qū)的熱點區(qū)域個數(shù)較多。中部及東南地區(qū)平原和丘陵較多,且社會城市化較高,人類聚集程度較高,因此這些地區(qū)的行政區(qū)熱點區(qū)域個數(shù)較少。市級尺度的廣東省地勢北高南低,城市化程度也由北向南逐步升高,因此,廣東省也出現(xiàn)了地級市等級呈現(xiàn)階梯狀分布。
最后,從省級尺度不同時間段的時空分布特征中可以得出:一級省級行政區(qū)主要分布在中國東南沿海,二級省級行政區(qū)分布在中國中部和東北部,三級行政區(qū)分布在中國西北部,各級省級行政區(qū)的分布相對聚集。三級省級行政區(qū)從低等級到高等級的階梯狀分布。說明東南地區(qū)的出行密集,人口密度大;西北地區(qū)的出行相對離散,人口密度小。從圖7(a)~圖7(c)可以看出,一級市級行政區(qū)主要分布在珠江入口處的城市,二級市級行政區(qū)主要分布在一級行政區(qū)的周圍,三級行政區(qū)主要分布在二級行政區(qū)的周圍。由此可見,市級尺度的行政區(qū)尺度也呈現(xiàn)出以階梯式聚集分布。說明廣東省珠江入口處城市的出行活動密集,人口密度大;靠近內(nèi)陸的城市出行活動相對離散,人口密度小。
結(jié)合熱點區(qū)域等級圖,獲得每個行政區(qū)熱點區(qū)域等級并進(jìn)行可視化。由于在3個時段內(nèi),行政區(qū)并未出現(xiàn)跨級,因此只需選取18:00這個時刻的省級尺度和市級尺度研究區(qū)進(jìn)行分析。具體如圖8所示。
圖8 熱點分布特征示意Fig.8 Illustration of hot spot distribution characteristics
圖8(a)、圖8(b)分別為市級尺度熱點等級分布和統(tǒng)計情況,圖8(c)為省級尺度熱點等級統(tǒng)計情況,分析可知分布特征如下。
(1)熱點區(qū)域等級個數(shù)隨等級的升高而增加。等級為1的熱點區(qū)域個數(shù)最少,等級為5的熱點區(qū)域個數(shù)最多。結(jié)合省級尺度的行政區(qū)分析中發(fā)現(xiàn),東南地區(qū)的行政區(qū)擁有的熱點區(qū)域個數(shù)少,但熱點區(qū)域熱度值高;西北地區(qū)的行政區(qū)擁有的熱點區(qū)域個數(shù)多,但熱點區(qū)域熱度值低。再次證明了中國東南地區(qū)的出行活動密集,人口密度大;西北地區(qū)的出行活動相對離散,人口密度小。市級尺度的行政區(qū)分析中發(fā)現(xiàn),廣東省珠江入口處的行政區(qū)擁有的熱點區(qū)域個數(shù)少,但熱點區(qū)域熱度值高;靠近內(nèi)陸的行政區(qū)擁有的熱點區(qū)域個數(shù)多,但熱點區(qū)域熱度值低。說明廣東省珠江入口處城市的出行活動密集,人口密度大;靠近內(nèi)陸的城市出行活動相對離散,人口密度小。
(2)熱點區(qū)域等級越高,變化越明顯。等級5的熱點區(qū)域個數(shù)最多,分布的行政區(qū)也最多,波動較大;等級4、等級3、等級2隨著熱點等級降低,分布的行政區(qū)逐漸變少,波動逐漸變小;直到熱點等級降低到等級1的熱點區(qū)域,可以看到此級的熱點個數(shù)最少,分布的行政區(qū)最少。熱點等級越高代表熱點值越低,因此可以說明在低熱度的熱點區(qū)域出行活動不穩(wěn)定,在高熱度的熱點區(qū)域出行活動比較穩(wěn)定。
(3)為了更進(jìn)一步驗證在多空間尺度下探究出行軌跡數(shù)據(jù)分析的可行性,省級尺度研究以胡煥庸線為參照,市級尺度研究以選取的六類POI熱力圖為參照。胡煥庸線北起黑龍江璦琿,南至云南騰沖。胡煥庸線以東是人口稠密地區(qū),人口基數(shù)較大,勞動力充足,交通、航運、基建等有一定的基礎(chǔ)。胡煥庸線以西是人口稀疏區(qū)域,地廣人稀,交通不便,基礎(chǔ)建設(shè)難度高。得出的東南地區(qū)與西北地區(qū)差異與其一致,符合實際情況。
(4)通過核密度分析得出廣東省餐飲美食、商務(wù)住宅、旅游景點、酒店住宿、公司企業(yè)、交通設(shè)施六大類與出行活動最密切相關(guān)的POI熱力圖對比,六大類POI熱度最高的區(qū)域都處于珠江入口處的廣州市、深圳市、東莞市。可見,實驗結(jié)果得出的廣東省超級熱點區(qū)域位于廣州市、深圳市,與POI的實際情況符合,證明本文方法研究人類軌跡規(guī)律具有可行性。
綜上,采用基于密度的DBSCAN聚類算法與局部密度峰值法研究出行軌跡數(shù)據(jù)的時空分布特征。這與軌跡數(shù)據(jù)中常用的K-means算法相比,該算法主要優(yōu)勢在于可以對抗噪聲,能準(zhǔn)確判別任意形狀簇,而且聚類速度快,不需制定簇的個數(shù)就能找到離群點。但選擇的參數(shù)對聚類結(jié)果有較大影響,且當(dāng)數(shù)據(jù)離散分布時會被劃分為多個類,這是算法的不足之處。因此,如何在數(shù)據(jù)離散分布時,提升聚類精度將是下一步工作主要解決的問題。
時空大數(shù)據(jù)近年來成為研究人類日?;顒雍统鞘袃?nèi)部結(jié)構(gòu)的一種新方式。針對軌跡數(shù)據(jù)挖掘過程中研究范圍單一,以及缺少多空間尺度研究等問題,提出基于多空間尺度融合方法,深入分析不同時間粒度和不同空間尺度下人類出行軌跡的時空分布特征。基于多空間尺度融合方法研究出行軌跡規(guī)律,挖掘出更具有普適性和更深層面的出行軌跡時空特征;為利用時空大數(shù)據(jù)進(jìn)行相關(guān)研究提供了一種可以借鑒的方法。由于使用的TUD數(shù)據(jù)精度較低,在省級和市級尺度下分析人類活動特征具有良好的效果,但在研究區(qū)縣級以下等小尺度上還存在一定的局限性。因此,下一步可通過融合新浪微博簽到數(shù)據(jù)、Twitter數(shù)據(jù)等多源時空大數(shù)據(jù)來提高數(shù)據(jù)挖掘的精度,這有利于在小空間尺度中展開出行時空變化特征的研究,能夠更精準(zhǔn)地揭示出行活動中隱含的時空軌跡信息。