王宇洋
(北京市育英學(xué)校,北京 100036)
近年來(lái),很多城市的共享單車數(shù)量快速達(dá)到飽和狀態(tài),共享單車的存量非常大且處于流動(dòng)變化狀態(tài),在為市民提供騎行便利的同時(shí),也對(duì)城市管理提出了新的要求和挑戰(zhàn)。如何及時(shí)掌握和分析城市中海量共享單車的數(shù)量、實(shí)時(shí)位置和移動(dòng)規(guī)律,是值得研究的課題。共享單車的騎行數(shù)據(jù)也是分析城市人群出行愛(ài)好與規(guī)律的最佳數(shù)據(jù),通過(guò)大數(shù)據(jù)分析可以預(yù)測(cè)單車使用的高峰時(shí)段和地點(diǎn),為城市管理者等提供及時(shí)可靠的決策依據(jù)。
共享單車應(yīng)用程序所使用的數(shù)據(jù)包是采用JSON(JavaScript Object Notation,Java腳本對(duì)象標(biāo)記)格式,這是一種輕量級(jí)的數(shù)據(jù)交換格式,因其易閱讀和編寫,也易于機(jī)器解析和生成,可以有效提升網(wǎng)絡(luò)傳輸效率,故在網(wǎng)絡(luò)軟件中廣泛應(yīng)用。
通過(guò)對(duì)原始數(shù)據(jù)包進(jìn)行研究,可以得出以下的數(shù)據(jù)格式:
對(duì)本地POST發(fā)送數(shù)據(jù)包進(jìn)行分析,獲得共享單車服務(wù)器API接口,采用Python語(yǔ)言編寫網(wǎng)絡(luò)爬蟲類程序,將API中發(fā)送數(shù)據(jù)中的位置坐標(biāo)數(shù)據(jù)分別寫入兩層的嵌套循環(huán),在城市范圍內(nèi),以適當(dāng)?shù)牟介L(zhǎng)對(duì)城市范圍內(nèi)單車進(jìn)行快速掃描,得到全部共享單車GPS信息當(dāng)前數(shù)據(jù),寫入文件。
對(duì)于車輛類型,JSON數(shù)據(jù)中的BikeType有1和2兩種可能,經(jīng)過(guò)對(duì)比分析,可以看出1代表新型車、2代表舊款車。
在得到原始數(shù)據(jù)后,不能直接將其輸入GIS系統(tǒng)進(jìn)行圖形展示和分析。某些數(shù)據(jù)因GPS波動(dòng)的原因會(huì)造成車輛頻繁或大幅度移動(dòng),故需要對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步篩選。
根據(jù)研究目的,選擇以下篩選方法:
(1)保留:車輛ID相同且位置變化適中的車輛
(2)去除:車輛ID不同或者位置變化極大(?。┑能囕v
根據(jù)所選研究的時(shí)間區(qū)段,移動(dòng)經(jīng)緯度超過(guò)0.4可能性不大,于是選擇0.4作為數(shù)據(jù)的上限;同時(shí)車輛的小規(guī)模移動(dòng)(GPS波動(dòng))可能性亦存在,于是選擇經(jīng)緯度變化0.0002作為下限。數(shù)據(jù)經(jīng)過(guò)處理后,分別將同一ID單車的前后位置存于Excel表中(如表1所示)。
表1 共享單車實(shí)時(shí)位置數(shù)據(jù)表
數(shù)據(jù)處理部分的編程實(shí)現(xiàn)核心代碼如下:
數(shù)據(jù)處理后的結(jié)果文件集中包含了按日期和時(shí)間排序的共享單車實(shí)時(shí)位置信息。
首先,需要對(duì)車輛ID進(jìn)行去重處理。
在完成對(duì)車輛ID的去重處理后,可以分別統(tǒng)計(jì)車輛類型1和類型2的共享單車數(shù)量。統(tǒng)計(jì)結(jié)果為:車輛類型為2的共享單車為10 486輛,車輛類型為1的共享單車為35 403輛。共享單車在城市的總投放量的官方公布數(shù)據(jù)為37萬(wàn)輛,則可對(duì)城市中不同類型共享單車數(shù)量估算如下:
(1)類型1的共享單車數(shù)據(jù)約為236 284輛。(2)類型2的共享單車數(shù)據(jù)約為69 985輛。
可以看出,在車輛改進(jìn)后,數(shù)據(jù)顯示有大量投放新型車的現(xiàn)象,原舊款車的單車成本高達(dá)5 000元而新型車成本為3 000元,大數(shù)據(jù)分析所反映的規(guī)律符合客觀事實(shí)。
根據(jù)數(shù)據(jù)統(tǒng)計(jì),有近四成車輛在研究時(shí)間內(nèi)從未發(fā)生移動(dòng)。對(duì)于此現(xiàn)象分析有兩種可能:
(1)由于時(shí)間是冬天,騎行人較少。
(2)車輛處在小區(qū)內(nèi)、偏僻位置或無(wú)法開始騎行(損壞,上鎖)。
首先,通過(guò)百度地圖開放平臺(tái)獲取城市內(nèi)主要地鐵站的坐標(biāo),并將其輸入GIS系統(tǒng),并在其周圍200米建立緩沖區(qū),便于統(tǒng)計(jì)車輛移動(dòng)信息。
然后,將處理后文件輸入GIS系統(tǒng),由起點(diǎn)向終點(diǎn)連線。同時(shí)將起點(diǎn)和終點(diǎn)坐標(biāo)輸入GIS系統(tǒng),與緩沖區(qū)做相交處理,將起點(diǎn)設(shè)為紅色,終點(diǎn)為綠色。
以下將對(duì)大數(shù)據(jù)做具體分析。
從宏觀總體上看,用車集中區(qū)不在城市中心城區(qū),而是呈現(xiàn)圍繞地鐵沿線的條帶狀或是在郊區(qū)的聚集區(qū)域(如圖1所示)。
其中,在地圖的左下方的聚集區(qū)均圍繞地鐵;而位于地圖左上的聚集區(qū)經(jīng)百度地圖查詢,為三個(gè)科技產(chǎn)業(yè)園所在處,青年人居多,騎行行為多,故出現(xiàn)了聚集現(xiàn)象。中心城區(qū)騎行次數(shù)并不多,分析原因:
(1)中心城區(qū)小區(qū)成熟,部分居民在冬季選擇乘私家車出行。
(2)中心城區(qū)公共交通便利、路網(wǎng)發(fā)達(dá),多數(shù)居民在冬季選擇公交出行。
(1)0~9 時(shí):
在0~9時(shí)的時(shí)間段內(nèi),在郊區(qū)的地鐵站附近多呈現(xiàn)為綠色點(diǎn)聚集,說(shuō)明大量居民選擇地鐵站作為終點(diǎn)(如圖2所示)。
在對(duì)北京市東北五環(huán)外馬泉營(yíng)地鐵站附近的數(shù)據(jù)分析顯示,在上班高峰期,居民多乘坐地鐵向城市中心移動(dòng),幾乎沒(méi)有人從地鐵站出發(fā)向外騎行。
在市中心城區(qū)的情況就與之相反,多呈現(xiàn)紅色聚集,說(shuō)明多數(shù)地鐵乘客下車后,騎行共享單車前往上班的地點(diǎn),在中心城區(qū)的地鐵站,大多數(shù)騎行方向均呈現(xiàn)向外的發(fā)散狀。
圖1 共享單車分布情況宏觀分析
圖2 郊區(qū)地鐵站附近共享單車大數(shù)據(jù)分析
(2)9~16 時(shí):
對(duì)于9~16時(shí)段,中心城市和郊區(qū)的地鐵區(qū)域并無(wú)大的差別,而相比于早高峰,產(chǎn)業(yè)園附近車輛移動(dòng)則更密集,且出發(fā)點(diǎn)與終點(diǎn)大多重合,經(jīng)使用百度地圖查詢確認(rèn),上述地點(diǎn)附近大多有麥當(dāng)勞、肯德基等餐飲業(yè),反映了騎行者用餐等需求的行為規(guī)律。
經(jīng)過(guò)本次對(duì)城市共享單車位置大數(shù)據(jù)的研究工作,提出了一套數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析和可視化展示的實(shí)現(xiàn)方法,數(shù)據(jù)處理過(guò)程均采用計(jì)算機(jī)編程實(shí)現(xiàn),計(jì)算結(jié)果經(jīng)過(guò)實(shí)踐證明正確可行,通過(guò)對(duì)上述大數(shù)據(jù)規(guī)律的探索,能夠?qū)蚕韱诬嚨氖褂酶叻鍟r(shí)段與地段有正確的認(rèn)識(shí),驗(yàn)證了大數(shù)據(jù)技術(shù)方法的實(shí)用性,為我們的城市管理更加高效提供實(shí)時(shí)可靠的數(shù)據(jù)支撐,具有良好的推廣應(yīng)用價(jià)值。