黃秋華,邱弘逸
(惠州學(xué)院 地理與旅游學(xué)院,廣東 惠州 516007)
隨著互聯(lián)網(wǎng)、手持移動設(shè)備、定位、位置服務(wù)等技術(shù)的出現(xiàn)與高速發(fā)展,軌跡數(shù)據(jù)的獲得變得越來越容易.軌跡數(shù)據(jù)的挖掘分析已經(jīng)變得不再陌生,通過軌跡數(shù)據(jù)的挖掘可以得到很多領(lǐng)域人類活動的潛在的規(guī)律,用挖掘得到的信息為國家經(jīng)濟(jì)建設(shè)和社會管理領(lǐng)域等提供輔助決策[1-2].
在信息化的大背景下,各行各業(yè)都開啟了“互聯(lián)網(wǎng)+”模式的發(fā)展,同理催生了“互聯(lián)網(wǎng)+旅游業(yè)”的出現(xiàn),進(jìn)而帶來了旅游業(yè)的新業(yè)態(tài)、新發(fā)展.旅行者可以借助專業(yè)的互聯(lián)網(wǎng)旅游平臺獲取信息、與網(wǎng)友互動交流、在論壇上發(fā)表觀點(diǎn),使得大量由用戶生成的有效旅游信息得以匯集在旅游平臺上.
傳統(tǒng)的旅行者時空行為分析所需數(shù)據(jù)通常需要實(shí)地調(diào)研獲取,需要耗費(fèi)大量人力物力,且以文本為載體的記錄形式依賴于數(shù)據(jù)提供者的個人主觀想法,不能保證數(shù)據(jù)的完整性和準(zhǔn)確性.旅游信息分享平臺的出現(xiàn),讓旅行者可以使用手機(jī)的GPS功能記錄完整的路線[3],使用者也可自由地在平臺上獲取需要的數(shù)據(jù),使得信息的收集與獲取難度大大降低,可通過爬蟲技術(shù)批量采集旅游軌跡分享網(wǎng)站上用戶自行上傳的軌跡數(shù)據(jù),使用Python進(jìn)行數(shù)據(jù)挖掘提取景區(qū)熱點(diǎn)區(qū)域,借助GIS實(shí)現(xiàn)數(shù)據(jù)的可視化.
從兩步路旅游軌跡分享平臺上獲取旅行者GPS軌跡[4],利用數(shù)據(jù)挖掘算法提取有效信息,再利用GIS專業(yè)軟件對提取到的信息做進(jìn)一步空間分析.
(1)使用兩步路平臺作為GPS軌跡數(shù)據(jù)的來源,數(shù)據(jù)包括用戶在當(dāng)前軌跡點(diǎn)的經(jīng)緯度、高程、時間、速度信息.
(2)對爬取得到的GPS軌跡數(shù)據(jù)進(jìn)行數(shù)據(jù)清理等預(yù)處理操作,將預(yù)處理后的軌跡數(shù)據(jù)進(jìn)行入庫存儲和管理,使用軌跡聚類等時空數(shù)據(jù)挖掘算法[5]對入庫后的數(shù)據(jù)進(jìn)行挖掘,得到旅行者在時空上的行為特征.
(3)使用ArcGIS的核密度分析,找出旅游景區(qū)內(nèi)的熱點(diǎn)區(qū)域,并給予景區(qū)相關(guān)建議.
選取深圳市梧桐山景區(qū)作為研究區(qū)域,通過旅游軌跡平臺數(shù)據(jù)爬取獲得大量旅游者的旅游軌跡數(shù)據(jù),對爬取得到的數(shù)據(jù)進(jìn)行預(yù)處理,對預(yù)處理后的數(shù)據(jù)入庫管理.利用數(shù)據(jù)挖掘算法對軌跡數(shù)據(jù)進(jìn)行信息挖掘,利用GIS專業(yè)軟件對軌跡數(shù)據(jù)進(jìn)行核密度分析,最后將結(jié)果利用軟件可視化顯示.具體實(shí)施技術(shù)路線如圖1所示.
梧桐山,地處廣東省深圳市東部,省級風(fēng)景名勝區(qū),山西麓有仙湖植物園和著名的佛教寺廟建筑群弘法寺.在交通方面梧桐山交通方便,旅游線路成熟,從東南西北四個方向均有已經(jīng)被開發(fā)的線路,不同方向的登頂路線共有19條,比較常見的路線有:梧桐山村—盤山公路—停車場—好漢坡—大梧桐頂,梧桐山村—梧桐山水庫—泰山澗—葫蘆池—梧桐頂,梧桐山村—梧桐山水庫—百年古道—大梧桐頂.
豐富的登頂路線使得旅行者可選擇的線路大大增加(圖2),但景區(qū)日常需投入的人力物力等成本也會大幅增加.該研究以梧桐山為研究案例,基于GPS軌跡數(shù)據(jù)對旅行者的時空行為進(jìn)行分析研究,借助軌跡數(shù)據(jù)挖掘技術(shù),分析旅行者軌跡的相似性,找出景區(qū)內(nèi)的熱點(diǎn)區(qū)域,讓景區(qū)管理投入的人力、物力資源得到合理分配.
圖2 梧桐山景區(qū)導(dǎo)游圖與眾多登山線路[6]
兩步路平臺是一個專業(yè)的基于UGC(用戶生成內(nèi)容)模式的GPS軌跡分享平臺,用戶使用“戶外助手”手機(jī)APP記錄出行軌跡.兩步路平臺上的GPS軌跡數(shù)據(jù)主要包括以下信息:軌跡點(diǎn)的經(jīng)緯度、時間、速度、海拔,以及用戶上傳的照片、文字等信息.
基于兩步路旅行軌跡分享平臺上梧桐山旅行者分享的游覽軌跡進(jìn)行收集與整理,使用Python爬取獲得旅游者的軌跡數(shù)據(jù),對軌跡數(shù)據(jù)進(jìn)行一定的預(yù)處理操作,處理后的gpx格式軌跡數(shù)據(jù)利用FME軟件進(jìn)行格式轉(zhuǎn)換,轉(zhuǎn)換成Shapefile格式,最后將其進(jìn)行入庫管理.對入庫后的數(shù)據(jù)提取出軌跡中包含的時間、軌跡長度等信息,接著再使用ArcGIS軟件和Excel軟件分別從空間和時間上分析旅行者的時空行為特征.
選取旅游平臺用戶2008-2019年上傳的梧桐山景區(qū)旅行軌跡和文字標(biāo)注作為研究數(shù)據(jù),使得數(shù)據(jù)的真實(shí)性與完整性有所保障,以此來對梧桐山旅行者的時空分布情況進(jìn)行長達(dá)10年以上的連續(xù)性對比分析.通過分析旅行者不同年份間在梧桐山景區(qū)的旅行軌跡變化情況來了解旅行者的景觀偏好及旅行方式的變化特征.
在兩步路平臺官網(wǎng)(https://www.2bulu.com)使用“梧桐山”作為關(guān)鍵詞,搜索所有步行、長度在0~30 km以內(nèi)的相關(guān)軌跡,使用Python與Scrapy爬蟲模塊對搜索結(jié)果進(jìn)行爬取,將相同軌跡與和梧桐山?jīng)]有關(guān)系的軌跡去除,最后共得到有效軌跡720條,軌跡空間分布如圖3所示.
圖3 2008-2019年梧桐山旅行者游覽軌跡分布圖
使用FME2016,從720條軌跡數(shù)據(jù)中提取出生成軌跡的時間和軌跡長度,去除無時間字段和無軌跡長度的數(shù)據(jù)共29條,共獲得691條真實(shí)有效的GPS軌跡數(shù)據(jù).
使用Python與Kalman噪音濾波算法[5],對所采集得到的軌跡數(shù)據(jù)中的噪音點(diǎn)(由于設(shè)備異?;蜻M(jìn)入室內(nèi)及信號受到干擾而導(dǎo)致的坐標(biāo)點(diǎn)位與實(shí)際點(diǎn)位置不符)進(jìn)行消除或削弱[2].具體如圖4所示.
圖4 軌跡數(shù)據(jù)預(yù)處理前后對比圖
使用FME2016將圖4中經(jīng)過濾波處理后的軌跡點(diǎn)與軌跡線進(jìn)行格式轉(zhuǎn)換,將其格式轉(zhuǎn)換為Shapefile,并將拍照點(diǎn)文字標(biāo)注導(dǎo)出到Excel中.
旅行者的GPS軌跡中,停留即旅行者在較長的時間內(nèi)移動了較短的距離.一般將停留點(diǎn)分為兩大類:第一類就是軌跡中的某個點(diǎn)就是一個停留點(diǎn);第二類是連續(xù)的軌跡點(diǎn)所發(fā)生的時間長度遠(yuǎn)遠(yuǎn)超過正常移動速度時所需要的時間長度,此時認(rèn)為該部分連續(xù)軌跡點(diǎn)發(fā)生了停留,即認(rèn)為其是環(huán)繞軌跡停留點(diǎn).
采用的停留點(diǎn)檢測算法(表1)的基本原理是找出個體在某段軌跡內(nèi)所花費(fèi)時間超過某個閾值,然后將這一段全部的軌跡點(diǎn)作為一組停留點(diǎn),計(jì)算出這組停留點(diǎn)的停留中心.
表1 停留點(diǎn)檢測算法
使用Python與停留點(diǎn)檢測算法,計(jì)算得到所有軌跡的停留點(diǎn)以及停留中心,將停留中心X、Y坐標(biāo)輸出到Excel表中,然后使用ArcGIS軟件將停留點(diǎn)中心坐標(biāo)進(jìn)行可視化顯示,并將其轉(zhuǎn)換為Shapefile圖層,得到結(jié)果如圖5所示.
圖5 2008-2019年梧桐山旅行者停留點(diǎn)分布圖
根據(jù)當(dāng)?shù)貧夂蛱攸c(diǎn)與深圳市氣象局?jǐn)?shù)據(jù),深圳市春夏秋冬四個季節(jié)分別為2-4月,5-10月,11-12月,1月,四個季節(jié)具有不同的持續(xù)時間.本文選擇采用平均值來表達(dá)各季節(jié)游客量.將月份按季節(jié)歸類,利用Excel表格對其進(jìn)行分類統(tǒng)計(jì),得到結(jié)果如圖6.從圖6中觀察得到2008-2019年梧桐山春季月均游客量最多,占比高達(dá)34%;其次是秋季和冬季,占比分別為23%和24%,兩季的差距并不明顯;夏季占比最低,僅為19%;由此可見,春季是梧桐山旅游的旺季,而夏季則是梧桐山旅游的淡季.
圖6 梧桐山各季節(jié)月均游客量的占比
梧桐山旅行者訪問月份分布不均勻,一年內(nèi)變化出現(xiàn)了2個峰值,是多峰季節(jié)型.由圖7可以看出:春季3-4月和夏季10月梧桐山的客流量出現(xiàn)了2個高峰值,而春季2月和夏季的5-9月則出現(xiàn)了明顯的2個低谷期,秋冬季的11月至1月游客量變化不大.深圳市夏季高溫多雨的氣候特征使得梧桐山景區(qū)夏季的客流量減少,10月出現(xiàn)旅行高峰是受到了“十一”長假和氣溫略微下降的影響;其余三季氣候都較為宜人,因而有著較高的客流量.
圖7 梧桐山各月游客量變化
旅行者在景區(qū)內(nèi)游覽的興趣點(diǎn)和游覽路徑偏好對于旅游景區(qū)的基礎(chǔ)設(shè)施規(guī)劃有著重要的指導(dǎo)意義.本文基于兩步路平臺上用戶分享的軌跡數(shù)據(jù),進(jìn)行整理與預(yù)處理后,使用ArcGIS軟件對停留點(diǎn)進(jìn)行空間分析,試圖分析梧桐山旅行者的空間分布特征.
3.2.1 采用數(shù)據(jù)挖掘方法及原理
本研究主要采用了核密度分析和DBSCAN聚類算法.DBSCAN聚類算法的主要的思想是通過假設(shè)以任意一個對象p為中心,假設(shè)1一個鄰域半徑r,假設(shè)最小對象個數(shù)Min為閾值,則在對象p的周圍半徑r的區(qū)域內(nèi)當(dāng)對象個數(shù)滿足大于Min的時候,則生成一個以p為核心的聚類.依此類推直到完成所有對象的聚類,可以認(rèn)為DBSCAN聚類實(shí)際上是靠任意一個對象滿足要求的鄰域內(nèi)的對象的個數(shù)來衡量的,達(dá)到或超過要求就完成聚類.
聚類方法DBSCAN是通過計(jì)算一個半徑為r的區(qū)域內(nèi)的對象的數(shù)量得出聚類結(jié)果,這樣的密度估計(jì)對半徑r的大小比較敏感,為了克服這個問題可以使用核密度估計(jì)方法.該方法是統(tǒng)計(jì)學(xué)中的一種非參數(shù)的密度估計(jì)方法,主要用于計(jì)算要素在其周圍鄰域中的密度的大?。嗣芏裙烙?jì)方法既可以計(jì)算點(diǎn)要素的密度,也可以用來計(jì)算線要素的密度.
將觀察對象的位置作為一個在其周圍區(qū)域有較高的概率密度的一個指示點(diǎn),而其他位置的點(diǎn)的概率密度的大小由該點(diǎn)到觀察位置指示點(diǎn)之間的距離決定.通常情況下,x1,x2,...,xn是一個隨機(jī)變量f中的相互獨(dú)立的分布樣本,這個概率密度函數(shù)的核密度近似值可以由下式計(jì)算得到[7]:
其中,K()是一個核,h是搜尋帶寬.一個核K()可以被認(rèn)為是一個樣本點(diǎn)對其鄰域所帶來的影響值的功能模型.從技術(shù)上來說核K()是一個非負(fù)的實(shí)數(shù)值,并且應(yīng)滿足下式的2個條件:
經(jīng)常使用的核是均值為0、方差為1的標(biāo)準(zhǔn)高斯函數(shù),如下式所示:
3.2.2 興趣點(diǎn)的空間分布特征
使用Python與停留點(diǎn)檢測算法,計(jì)算所有軌跡的停留點(diǎn)中心,并輸出為gpx,然后使用FME2016將所有停留點(diǎn)中心轉(zhuǎn)換到一個Shapefile里.通過ArcGIS核密度分析功能,得到的核密度結(jié)果如圖8所示.
圖8 聚類代表性軌跡段
通過停留點(diǎn)核密度分析得到梧桐山景區(qū)核心節(jié)點(diǎn)有2個,分別為大梧桐山頂和小梧桐山頂.另外,有2個亞熱點(diǎn)區(qū)域在前往大梧桐山頂?shù)穆飞希阂粋€是好漢坡前的停車場以及休息區(qū),另一個是從鹽田沙頭角街道出發(fā)的“碧桐道”登山路線上.
3.2.3 旅行者的軌跡空間分布特征
從691條旅行者軌跡的分布可以看出,旅行者走過的路線已經(jīng)遍布梧桐山景區(qū)大部分步道,包含了所有的登山線路,而旅行者選擇登山線路更傾向于線路成熟、容易行走的路線.
使用FME將所有軌跡融合到一個Shapefile圖層內(nèi),利用ArcGIS核密度分析功能得到軌跡的核密度分析結(jié)果,游覽密度最高的路線是“梧桐山村一盤山公路一停車場一好漢坡一大梧桐頂”,也是梧桐山開發(fā)最成熟的一條路線.除此以外,不少旅行者還選擇了與盤山公路線同起點(diǎn)的百年古道線,以及從蓮塘出發(fā)到小梧桐再到大梧桐的路線,也都是梧桐山開發(fā)得比較完善的線路.
采用軌跡分段、壓縮以及軌跡聚類算法(表2),對兩步路平臺上獲取的深圳市梧桐山景區(qū)旅行者軌跡進(jìn)行聚類,找出梧桐山景區(qū)的代表性路徑.使用Python與DBSCAN聚類算法,將經(jīng)過Kalman噪聲濾波處理的軌跡文件作為聚類輸入數(shù)據(jù)集,經(jīng)過多次聚類實(shí)驗(yàn)確定參數(shù)后,將聚類代表性軌跡段導(dǎo)入ArcGIS中進(jìn)行可視化.DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基于密度的聚類算法,它將簇定義為密度相連的點(diǎn)的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類.將該聚類得到的結(jié)果與核密度分析結(jié)果進(jìn)行對比,發(fā)現(xiàn)兩者具有很大的相似性,這進(jìn)一步驗(yàn)證了該研究方法的可靠性.
表2 基于軌跡段的DBSCAN聚類算法
(續(xù)表2)
根據(jù)DBSCAN聚類提取出的代表性路徑,可以看出代表性軌跡段基本位于核密度分析結(jié)果密度較高的部分,大部分軌跡段也都處于道路上,但有部分密度較高的區(qū)域沒有聚類結(jié)果,同時也有密度低的區(qū)域在聚類中呈現(xiàn)出高密度結(jié)果,因此在參數(shù)上還需做進(jìn)一步的調(diào)整.
使用兩步路旅游軌跡分享平臺上用戶自行上傳的GPS旅游軌跡數(shù)據(jù),該方法在很大程度上降低了數(shù)據(jù)獲取所需的成本.以此為基礎(chǔ),使用Python對兩步路平臺的數(shù)據(jù)進(jìn)行適當(dāng)?shù)呐廊?、整理和預(yù)處理,再使用FME軟件進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換以及屬性字段的提取,結(jié)合ArcGIS軟件對停留點(diǎn)以及軌跡線進(jìn)行核密度分析,主要結(jié)論如下:
(1)在時間上,梧桐山旅游有明顯的淡旺季,但客流量受季節(jié)性影響程度較低.梧桐山旅游的高峰期集中在3-4月和10月,深圳市夏季高溫多雨氣候特征導(dǎo)致梧桐山的客流量受到了一定的負(fù)面影響,春節(jié)過后的春季氣候較為溫和,也讓很多旅行者選擇此時到梧桐山進(jìn)行游覽、踏春.
(2)在空間上,梧桐山的景區(qū)熱點(diǎn)集中在大梧桐山頂和小梧桐山頂附近,符合現(xiàn)實(shí)中登山旅行者的空間行為規(guī)律,登頂后的旅行者通常在山頂進(jìn)行休息.同時大梧桐好漢坡前的停車場作為登頂前唯一的大型休息區(qū)域,也成為了一個亞熱點(diǎn)區(qū)域.
(3)在路線選擇上,旅行者更傾向于選擇已開發(fā)成熟的路線作為登山路線,而未開發(fā)成熟的路線則更受到登山愛好者以及本地居民的青睞.
本研究數(shù)據(jù)來源比較單一,僅使用兩步路平臺上用戶分享的數(shù)據(jù),群體覆蓋面較小,且僅從GPS軌跡數(shù)據(jù)上無法準(zhǔn)確判斷該旅行者的性別、年齡、客源地等個人信息,無法對旅行者進(jìn)行分類分析.