朱昶勝 劉敬帥 李 碩
(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院 甘肅 蘭州 730050)
基于出租車GPS數(shù)據(jù)的商圈分析
朱昶勝 劉敬帥 李 碩
(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院 甘肅 蘭州 730050)
出租車運(yùn)營特性具有隨機(jī)性、即走即停、覆蓋范圍廣的特點(diǎn),行駛的起止點(diǎn)由乘客決定,其運(yùn)營規(guī)律能夠很好地反映乘客出行的特點(diǎn)。根據(jù)出租車GPS的定位數(shù)據(jù)在真實(shí)地理空間的覆蓋情況,可以還原居民出行的活動軌跡,挖掘潛在信息。提出采用出租車GPS定位數(shù)據(jù)進(jìn)行商圈分析。通過對GPS定位數(shù)據(jù)進(jìn)行網(wǎng)格劃分、聚類,使用R語言建立相應(yīng)的數(shù)據(jù)模型以及對模型的應(yīng)用和結(jié)果分析。實(shí)驗(yàn)結(jié)果表明,將不同時段、不同地點(diǎn)的出租車特征進(jìn)行統(tǒng)計(jì)分析做出折線圖,可以識別出不同商圈類型,根據(jù)這些信息為潛在顧客的分布制定適宜的商業(yè)對策。
數(shù)據(jù)挖掘 R語言 GPS數(shù)據(jù) 商圈分析
近年來,隨著城市化進(jìn)程和機(jī)動車保有量的迅猛增長,道路交通在為人們出行帶來便捷的同時也帶來了交通事故、交通擁擠、交通污染等諸多負(fù)面的影響。出租車作為交通系統(tǒng)的組成部分之一,裝有GPS的出租車系統(tǒng)能夠提供路網(wǎng)交通狀態(tài)的時變數(shù)據(jù)和及時準(zhǔn)確的運(yùn)營數(shù)據(jù)。通過對這些數(shù)據(jù)的應(yīng)用分析不但有助于合理地緩解城市交通擁堵,從根本上提高出租車行業(yè)的整體服務(wù)水平,而且能了解居民日常出行行為及居民個性化的服務(wù)需求,同時為交通規(guī)劃及城市管理提供決策支持。因此對于出租車GPS數(shù)據(jù)應(yīng)用的深入研究有重要的現(xiàn)實(shí)意義[1]。
對于出租車GPS數(shù)據(jù)的應(yīng)用,國內(nèi)外學(xué)者主要從四個方面進(jìn)行研究:交通狀態(tài)估計(jì)研究、交通行為研究、出行OD預(yù)測研究及出租車運(yùn)營管理研究。雖然產(chǎn)生了一定的研究成果,但同時也存在一定的不足。例如在數(shù)據(jù)分析方面僅限于運(yùn)營信息的提取研究,沒有對這些信息背后的潛在信息進(jìn)行挖掘等。因此,隨著信息技術(shù)的發(fā)展,有必要對GPS數(shù)據(jù)進(jìn)行深入的挖掘。
商圈是現(xiàn)代市場中企業(yè)市場活動的空間,最初是站在商品和服務(wù)提供者的產(chǎn)地角度提出來的,后來逐漸擴(kuò)展到商圈同時也是商品和服務(wù)享用者的區(qū)域。商圈劃分目的之一是研究潛在的顧客的分布以制定適宜的商業(yè)對策[2]。
R語言是一個用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具,具有高效的數(shù)據(jù)建模、統(tǒng)計(jì)分析及可視化能力[3]。
本文基于出租車GPS數(shù)據(jù)的時變和及時準(zhǔn)確的特性,利用出租車隨機(jī)性、覆蓋范圍廣的特點(diǎn),使用R語言來對GPS數(shù)據(jù)進(jìn)行挖掘來進(jìn)行商圈區(qū)域的劃分[4]。
出租車作為城市交通系統(tǒng)的組成部分,其運(yùn)營特性具有隨機(jī)性、即走即停、覆蓋范圍廣的特點(diǎn),行駛的起止點(diǎn)由乘客決定,其運(yùn)營規(guī)律能夠很好地反映乘客出行的特點(diǎn)。出租車GPS數(shù)據(jù)主要由經(jīng)度、緯度、速度、時間、載客狀態(tài)、方向等。定位數(shù)據(jù)描繪了居民出行的活動模式,通過對定位數(shù)據(jù)的分析識別出不同類別的熱點(diǎn)地區(qū),即可識別出不同類別的商圈。衡量區(qū)域的特征可以從出租車流量和上下客數(shù)量的角度進(jìn)行分析,所以在歸納熱點(diǎn)區(qū)特征時可以從這兩個特點(diǎn)進(jìn)行提取[5]。
基于GPS數(shù)據(jù)的商圈分析如圖1所示,主要包括以下步驟:
1) 對原始出租車GPS數(shù)據(jù)預(yù)處理,剔除數(shù)據(jù),提取分析所需的期望數(shù)據(jù)。
2) 選取一周的數(shù)據(jù)及特定的區(qū)域,通過網(wǎng)格劃分來進(jìn)行分塊處理,研究不同時間段(工作日、節(jié)假日)各分塊內(nèi)停留次數(shù)。
3) 對數(shù)據(jù)進(jìn)行數(shù)據(jù)規(guī)約和數(shù)據(jù)變換處理,建立數(shù)據(jù)分析模型,基于網(wǎng)格分塊區(qū)域的出租車特征進(jìn)行商圈聚類。
4) 對各個商圈分群進(jìn)行特征分析,對不同區(qū)域提出合理化規(guī)劃建議。
圖1 GPS數(shù)據(jù)的商圈分析流程圖
在實(shí)際應(yīng)用中,GPS采樣信號的質(zhì)量會由于采樣頻率的降低、定位誤差的加大、信號的丟失等的影響,需要對其進(jìn)行消除數(shù)據(jù)冗余、缺失和錯誤的情況。本文選取一周的出租車歷史數(shù)據(jù)進(jìn)行處理分析,在數(shù)據(jù)抽取階段完成對數(shù)據(jù)的預(yù)處理。原始數(shù)據(jù)中包含經(jīng)度、緯度、發(fā)送時間、接收時間、速度、方向、狀態(tài)等記錄信息,出租車GPS的數(shù)據(jù)格式如表1所示,本文采用的數(shù)據(jù)來自甘肅天水的出租車數(shù)據(jù),使用的數(shù)據(jù)為600輛出租車一周的數(shù)據(jù)。
表1 GPS數(shù)據(jù)格式
原始數(shù)據(jù)的屬性較多,對于商圈數(shù)據(jù)的挖掘并不需要這么多數(shù)據(jù),因此在數(shù)據(jù)預(yù)處理階段將目標(biāo)數(shù)據(jù)給提取出來。對于商圈具有客流量大、上下客多的特點(diǎn),某一天的數(shù)據(jù)無法判定某些地區(qū)是否是人流密集區(qū)。因此在這里選取一周的數(shù)據(jù)來進(jìn)行分析:周一至周五為工作時間,周六至周日是節(jié)假日時間,通過不同時間段來對數(shù)據(jù)進(jìn)行挖掘分析。
由于出租車的特性所造成的出租車運(yùn)行軌跡的隨機(jī)性比較強(qiáng)、覆蓋范圍比較廣,致使城市中的任何地方都有GPS定位點(diǎn)。對于商圈劃分來說,首先的要求就是定位的熱點(diǎn)地區(qū),因此,首先應(yīng)該對GPS定位數(shù)據(jù)進(jìn)行分類劃分,將小于一定閾值的定位點(diǎn)給清除,保留定位點(diǎn)豐富的地區(qū)[6-7]。
GPS數(shù)據(jù)的采集具有規(guī)律性,其定位數(shù)據(jù)信息每隔30秒會上傳一次,當(dāng)速度不為零時,狀態(tài)位顯示為0,當(dāng)速度為0時,狀態(tài)位顯示為1。通過數(shù)據(jù)清洗,若出現(xiàn)連續(xù)的為0狀態(tài)則將0的狀態(tài)剔除,僅保留一個數(shù)據(jù)為0狀態(tài)。速度為1時可看作是載客狀態(tài)。故可以設(shè)定當(dāng)狀態(tài)參數(shù)從0變?yōu)?或從1變?yōu)?時可作為上下客的點(diǎn)。通過統(tǒng)計(jì)狀態(tài)為1的數(shù)據(jù)的數(shù)量,即可得到總的上下客的數(shù)量。
基于網(wǎng)格的劃分是將對象空間量化為一定數(shù)目的單元格,形成一個網(wǎng)絡(luò)結(jié)構(gòu),然后依次統(tǒng)計(jì)每個網(wǎng)格內(nèi)的數(shù)據(jù)量,之后進(jìn)行聚類,所有的聚類都在這個網(wǎng)格上進(jìn)行[8]。在這里采用STING聚類算法。STING是一種基于網(wǎng)格的多分辨率聚類技術(shù),它將空間劃分為矩形單元。
對每個網(wǎng)格中的上下客的量進(jìn)行統(tǒng)計(jì),將小于閾值的數(shù)據(jù)清除,然后進(jìn)行聚類分析,如圖2所示。對網(wǎng)格中的數(shù)據(jù)進(jìn)行按照不同的時段進(jìn)行分類,統(tǒng)計(jì)出各個時段的數(shù)據(jù)量用于數(shù)據(jù)分析。
圖2 網(wǎng)格劃分
為了尋找高價值的商圈,要根據(jù)定位數(shù)據(jù)提取出相應(yīng)區(qū)域的客流量特征,如上下客數(shù)量、車流量等。高價值的商圈具有客流量、車流量大的特點(diǎn),但是一些區(qū)域是工作日時間乘客出行較多,一些區(qū)域是周末出行較多,而有些地方則是晚間的出行較多,所以提取的特征必須明顯地區(qū)別這些區(qū)域。下面設(shè)計(jì)工作日上班時間上下客數(shù)量、夜間上下客數(shù)量、周末上下客的數(shù)量和車流量做為特征進(jìn)行分析[9]。
本文中將工作日上班時間定為8:00-18:00,夜間時間為18:00-24:00,周末則是在相應(yīng)區(qū)域的總量,在商圈區(qū)域周末的客流量與車流量將會大幅增加。車流量是指在該區(qū)域內(nèi)有GPS定位即可表示為有車在此經(jīng)過。這個時間段比較符合人們的工作生活需要,因此以這些特點(diǎn)進(jìn)行統(tǒng)計(jì)。對一定區(qū)域的上下客客流特征的計(jì)算公式如下:
(1)
(2)
(3)
(4)
由于四個特征值的差異較大,為了消除不同屬性間的不齊性,需要對數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化。離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下:
(5)
由于興趣、收入、生活習(xí)慣、文化層次、價值理念的不同,會影響他們的購買行為。根據(jù)前來霍童古鎮(zhèn)旅游的人群消費(fèi)的檔次不同,應(yīng)該制定不同的價格來適應(yīng)不同層次的消費(fèi)者,盡量使每個人的需求都得到滿足。
每個變量的樣本均值為0,標(biāo)準(zhǔn)差為1,而且標(biāo)準(zhǔn)化后的數(shù)據(jù)與變量的量綱無關(guān)。
設(shè)Xik為第i樣本的第k個指標(biāo),每個樣本有p個變量,第i個樣本與第j個樣本之間的距離記為dij,在聚類過程中,距離較遠(yuǎn)的歸為一類,距離較近的歸為一類,定義的距離滿足以下四個條件:
dij≥0,對一切i,j;
dij=0,當(dāng)且僅當(dāng)?shù)趇個樣本與第j個樣本的個變量值相同;
dij=dij,對一切i,j;
dij=dik+dkj,對一切i,j,k;
本文使用Euclide距離,公式如下:
(6)
設(shè)dij表示第i個樣本與第j個樣本的距離,G1,G2,…表示類,DKL表示GK和GL的距離。類GK和GL合并成新的類GM,則GK,GL,GM的離差平方和分別是:
(7)
(8)
(9)
(10)
這種系統(tǒng)聚類法稱為離差平方和法[10]。通過該方法對經(jīng)過網(wǎng)格劃分處理后的數(shù)據(jù)進(jìn)行利差和聚類,將有相似規(guī)律的區(qū)域進(jìn)行分類,得到不同類別區(qū)域的譜系圖,如圖3所示。
圖3 譜系聚類圖
通過圖3的聚類圖可以看出,數(shù)據(jù)根據(jù)離差平方和法分為6類,即出租車的使用情況可以分為6種模式,使用R語言通過對聚類算法按不同類別分別畫出6類特征的折線圖,如圖4所示。其中一條折線表示3.2節(jié)中的網(wǎng)格劃分過程中的一個區(qū)域,同一個圖表中的所有折線是具有相似特性的區(qū)域的集合。
圖4 分析結(jié)果
圖4中,(a)為該區(qū)域工作日上班時間上下客數(shù)量多于夜間時的乘客數(shù)量,周末的乘客數(shù)量最低,該區(qū)域類似于上班的區(qū)域,工作日時間客流量較大,因此可以根據(jù)上班族的需要提供相關(guān)的服務(wù);(b)為該區(qū)域的周末和夜間的上下客數(shù)相似,工作日時間也比較高,該區(qū)域類似于住宅小區(qū)等區(qū)域;(c)為夜間的上下客數(shù)量少于周末和工作日的數(shù)量,該區(qū)域夜間的上下客數(shù)量較少,白天客流量較多,類似于兒童樂園等區(qū)域;(d)為白天和夜間的上下客數(shù)量相似,周末的數(shù)量相對也較多,該區(qū)域適合大型商場、超市等;(e)為夜間上下客數(shù)量較多,說明該區(qū)域更偏向夜間活動,類似于夜場等地區(qū);(f)為三個時間段的上下車數(shù)量較少,客流量也相對較少,相比較而言該區(qū)域比較偏僻,不適合做為商業(yè)開發(fā)。
(1) 本文結(jié)合R語言和車載GPS定位數(shù)據(jù)的優(yōu)點(diǎn)提出了一種R環(huán)境+GPS定位數(shù)據(jù)進(jìn)行商圈分析的方法。
(2) 本實(shí)驗(yàn)通過對GPS數(shù)據(jù)進(jìn)行預(yù)處理并獲取樣本數(shù)據(jù),使用R語言對樣本數(shù)據(jù)建模得到進(jìn)行商圈分析的模型。
(3) 本實(shí)驗(yàn)采用網(wǎng)格劃分和離差平方和聚類對出租車GPS數(shù)據(jù)進(jìn)行建模,并通過實(shí)驗(yàn)驗(yàn)證和比較得到分析結(jié)果。
(4) 實(shí)驗(yàn)結(jié)果表明,對于不同時段、不同地點(diǎn)的數(shù)據(jù)的分析結(jié)果呈現(xiàn)出不同類別,在GPS數(shù)據(jù)中挖掘出人口空間分布和活動的特征,可以根據(jù)分析結(jié)果來進(jìn)行商業(yè)圈的劃分同時也可以對城市規(guī)劃、出租車的調(diào)度提供合理化的建議等。
[1] 張紅,王曉明,朱昶勝,等.基于大數(shù)據(jù)的智能交通體系架構(gòu)[J].蘭州理工大學(xué)學(xué)報,2015,41(2):113-114.
[2] 孟詩瓊,孟詩瑤,尹至.基于R語言的汽車消費(fèi)數(shù)據(jù)挖掘及可視化方法[J].寧波工程學(xué)院學(xué)報,2015,27(4):19-21.
[3] 楊霞,吳東偉.R語言在大數(shù)據(jù)處理中的應(yīng)用[J].科技資訊,2013(23):19-20.
[4] 齊林.基于GPS數(shù)據(jù)的出租車交通運(yùn)行特性研究及應(yīng)用[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[5] 張建發(fā).GIS技術(shù)在商圈分析中的應(yīng)用[J].赤峰學(xué)院學(xué)報(自然科學(xué)版),2012,28(2):58-59.
[6] 張健欽,楸培元,杜明義.基于時空軌跡數(shù)據(jù)的出行特征挖掘方法[J].交通運(yùn)輸系統(tǒng)工程與信息,2014,14(6):73-74.
[7] 鄭運(yùn)鵬,趙剛,劉健.基于出租車GPS數(shù)據(jù)的交通熱區(qū)識別方法[J].北京信息科技大學(xué)學(xué)報,2016,31(1):31-32.
[8] 趙慧,劉希玉,崔海清.網(wǎng)格聚類算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(9):84-85.
[9] 張用川.基于手機(jī)定位數(shù)據(jù)的用戶出行規(guī)律分析[D].昆明:昆明理工大學(xué),2013.
[10] 張良均,云偉標(biāo),王路,等.R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版社,2015.
ANALYSISOFBUSINESSCIRCLEBASEDONTAXIGPSDATA
Zhu Changsheng Liu Jingshuai Li Shuo
(SchoolofComputerandCommunication,LanzhouUniversityofTechnology,Lanzhou730050,Gansu,China)
Taxi operation characteristics are random, with flexible boarding area, covering a wide range. Because the starting and ending points are determined by the passengers, therefore, taxi’s operating rules can reflect the characteristics of passengers travel well. According to the GPS data in the real geographical space coverage, we can restore the activities of residents travel trajectory, and dig out the potential information. So we propose the use of taxi GPS location data for business district analysis. Through meshing and clustering with GPS location data, corresponding mathematical models were established with R language and the application and results analysis of the model were discussed. The experimental results show that through the statistical analysis to characteristics of taxi, those at various times and in different locations, the line chart can be built. From this chart, the types of business district can be identified. According to this information, the suitable business strategy can be made for the potential customer’s distribution.
Data mining R language GPS Data Business circle analysis
TP391
A
10.3969/j.issn.1000-386x.2017.10.021
2016-10-20。甘肅省自然科學(xué)基金項(xiàng)目(148RJZA019);甘肅省高??蒲许?xiàng)目(2015B-031)。朱昶勝,教授,主研領(lǐng)域:大數(shù)據(jù),云計(jì)算。劉敬帥,碩士。李碩,碩士。