劉江濤
摘要:針對共享單車風(fēng)靡各大城市,給人們帶來了出行方便,但也帶來亂停放、廢棄車輛占道堆積的城市治理難題。因此,我們組決定以共享單車為基礎(chǔ),借助云計(jì)算和大數(shù)據(jù)平臺(tái),進(jìn)一步對大數(shù)據(jù)經(jīng)濟(jì)模式下共享單車使用情況進(jìn)行分析,利用Python軟件,運(yùn)用K-Means聚類算法和建立PERT網(wǎng)絡(luò)圖計(jì)算安置單車數(shù)量。讓共享單車成為我們生活出行便利工具,達(dá)到實(shí)時(shí)路況分析,出行道路最優(yōu)化設(shè)計(jì)。
關(guān)鍵詞:數(shù)據(jù)挖掘;K-means聚類算法;PERT網(wǎng)絡(luò)圖
0.??? 引言
近年來,我國的共享經(jīng)濟(jì)行業(yè)蓬勃發(fā)展,正成為推動(dòng)國民經(jīng)濟(jì)快速和可持續(xù)增長的巨大引擎。其中,共享單車更是風(fēng)靡各大城市,但也帶來亂停放、廢棄車輛占道堆積的城市治理難題,且安置十分不規(guī)律在管理上浪費(fèi)大量資金[1]。但是,共享單車的用戶數(shù)量卻年年上升,必將面臨更加嚴(yán)重的管理問題,如何安置共享單車流動(dòng)大數(shù)據(jù)下停放點(diǎn)設(shè)置與投放數(shù)量成為目前迫在眉睫的問題[2][3]。因此,K-Means聚類算法和建立PERT網(wǎng)絡(luò)圖應(yīng)用研究共享單車流動(dòng)大數(shù)據(jù)下停放點(diǎn)設(shè)置與投放數(shù)量是十分具有意義的[4]。
1.??? 數(shù)據(jù)的獲取與處理
1.1? 數(shù)據(jù)的獲取
本文的數(shù)據(jù)來源于天池平臺(tái)數(shù)據(jù)實(shí)驗(yàn)室,由3 月12日到6 月18日的共享單車在線運(yùn)行數(shù)據(jù)中抽取的用戶使用數(shù)據(jù)構(gòu)成。原始的數(shù)據(jù)集共10231條共享單車用戶操作記錄,包括起始位置,騎行時(shí)間、路線,終止位置等信息,涉及到5432個(gè)用戶和8916個(gè)行駛路線,用戶數(shù)據(jù)經(jīng)過脫敏且真實(shí)可靠。
1.2? 數(shù)據(jù)的處理
在對數(shù)據(jù)的清洗過程中,發(fā)現(xiàn)存在只有點(diǎn)擊行為且點(diǎn)擊次數(shù)很多的用戶,推測為爬蟲用戶,屬于噪聲數(shù)據(jù),予以剔除,具體為點(diǎn)擊次數(shù)大于200且無移動(dòng),支付行為。清洗后的數(shù)據(jù)集包括9843個(gè)用戶的操作記錄。
2.??? 基于K-means聚類算法構(gòu)建共享單車區(qū)塊
2.1? 研究思路
基于哈啰單車在線運(yùn)行數(shù)據(jù)中抽取的用戶行為數(shù)據(jù)樣本,結(jié)合業(yè)務(wù)邏輯從海量樣本數(shù)據(jù)集中提取量化指標(biāo),運(yùn)用Python數(shù)據(jù)挖掘軟件、K-Means聚類分析數(shù)據(jù)挖掘方法進(jìn)行多次聚類分析,采用wss方法得出各個(gè)方面最佳的聚類數(shù)K,實(shí)現(xiàn)哈啰單車的區(qū)間劃分。
2.2? 哈啰用戶位置特征提取
基于大量數(shù)據(jù)提取所有用戶的經(jīng)度(CLi)和緯度(PAi)的位置數(shù)據(jù)。
2.3? 模型原理
對于多維數(shù)據(jù)集,K-means聚類算法確定K個(gè)中心點(diǎn),將每個(gè)數(shù)據(jù)點(diǎn)分配到離它最近的中心點(diǎn),將數(shù)據(jù)集劃分為K個(gè)類簇,分配原則為使數(shù)據(jù)點(diǎn)到其指定的聚類中心的的平方的總和即
最小,然后重新計(jì)算每類中的點(diǎn)到該類中心點(diǎn)距離的平均值,繼續(xù)分配每個(gè)數(shù)據(jù)到它最近的中心點(diǎn)直到所有數(shù)據(jù)點(diǎn)不再被分配或是達(dá)到最大的迭代次數(shù)。
2.4? 采用wss方法獲取K值圖
以和 作為聚類指標(biāo),基于K-means聚類分析過程,采用wss方法獲取最佳K值,運(yùn)用R軟件作出組內(nèi)平方誤差和——拐點(diǎn)圖。
從圖1 看出,當(dāng)K值大于等于4 時(shí),隨著K值的增大,類中總的平方值對聚類數(shù)量的曲線趨于平緩,說明K值越大,其簇內(nèi)差異(Inertia)指標(biāo)是越來越小的。即當(dāng)K值為樣本量時(shí),Inertia指標(biāo)是可以取到0,這并不代表模型的效果越來越好了。
2.5? 輪廓系數(shù)獲取最佳值K
樣本與其自身所在的簇中的其他樣本的相似度a,等于樣本與同一簇中所有其他點(diǎn)之間的平均離;樣本與其他簇中的樣本的相似度b,等于樣本與下一個(gè)最近的簇中的所有點(diǎn)之間的平均距離。根據(jù)聚類的要求”簇內(nèi)差異小,簇外差異大“,我們希望b永遠(yuǎn)大于a,并且大得越多越好。
樣本的輪廓系數(shù)計(jì)算為:
很容易理解輪廓系數(shù)范圍是(-1,1),其中值越接近1 表示樣本與自己所在的簇中的樣本很相似,并且與其他簇中的樣本不相似,當(dāng)樣本點(diǎn)與簇外的樣本更相似的時(shí)候,輪廓系數(shù)就為負(fù)。當(dāng)輪廓系數(shù)為0 時(shí),則代表兩個(gè)簇中的樣本相似度一致,兩個(gè)簇本應(yīng)該是一個(gè)簇??梢钥偨Y(jié)為輪廓系數(shù)越接近于1 越好,負(fù)數(shù)則表示聚類效果非常差。如果一個(gè)簇中的大多數(shù)樣本具有比較高的輪廓系數(shù),則簇會(huì)有較高的總輪廓系數(shù),則整個(gè)數(shù)據(jù)集的平均輪廓系數(shù)越高,則聚類是合適的。如果許多樣本點(diǎn)具有低輪廓系數(shù)甚至負(fù)值,則聚類是不合適的,聚類的超參數(shù)K可能設(shè)定得太大或者太小。運(yùn)用Python軟件進(jìn)行K-means聚類分析,得出聚類結(jié)果表1 運(yùn)用Python軟件進(jìn)行K-means聚類分析,得出聚類結(jié)果表1。
從表1 可以看出,隨著K的增大,指標(biāo)一直在不斷的變小,總組內(nèi)平方誤差和在一直減小,但是輪廓系數(shù)也在一直減小,即在增加K值時(shí),通過總組內(nèi)平方誤差和是無法判斷K的取值。在通過輪廓系數(shù)的下降率與總組內(nèi)平方誤差和的下降率的比較,選擇K=4 時(shí),是聚類質(zhì)心的最佳值。
2.5? K取值分析
從圖2 可以看出,數(shù)據(jù)集被分為4 簇,即全體用戶被分為4 類。
根據(jù)選取的地理位置進(jìn)行共享單車區(qū)塊聚類分析,得到結(jié)果表2。
從表2 可以看出,共享單車區(qū)塊被分為4 類。可以從圖表中很容易看出,共享單車的使用群體大多是大學(xué)生一類的年輕人,且在地理位置上有明顯的優(yōu)勢,大學(xué)基本都集群在同一區(qū)域,且大學(xué)生活動(dòng)較為頻繁,在每個(gè)聚類的質(zhì)心設(shè)置共享單車區(qū)塊利于管理和維護(hù)。
3. 基于建立PERT網(wǎng)絡(luò)圖計(jì)算安置單車數(shù)量
3.1 研究思路
基于共享單車區(qū)塊提取海量哈啰用戶行為數(shù)據(jù)即每個(gè)周期時(shí)刻每個(gè)共享單車區(qū)塊中哈啰單車的流出量和流進(jìn)量。利用PERT網(wǎng)絡(luò)圖計(jì)算安置單車數(shù)量。
3.2 模型原理
3.2.1 結(jié)點(diǎn)(事件):圖中的圓,表示每個(gè)周期流入結(jié)點(diǎn)的共享單車數(shù)量,流出節(jié)點(diǎn)的共享單車數(shù)量。3.2.2周期時(shí)段:選取共享單車騎行時(shí)間為周期時(shí)間,則對于每個(gè)用戶而言每個(gè)安置點(diǎn)的數(shù)量是動(dòng)態(tài)平衡的。
3.3 模型建立和求解
建立4×4的四階矩陣,矩陣每一行表示周期時(shí)段每個(gè)安置點(diǎn)流出到其他安置點(diǎn)的數(shù)量。對于數(shù)量矩陣舉行PERT網(wǎng)絡(luò)迭代,直到矩陣不再發(fā)生變化,迭代結(jié)束,實(shí)行共享單車流動(dòng)的動(dòng)態(tài)平衡。
3.4 迭代后矩陣及安置點(diǎn)哈啰單車數(shù)量
運(yùn)用lingo軟件對矩陣進(jìn)行迭代,得到穩(wěn)定后的矩陣1。
由矩陣1 可知,安徽財(cái)經(jīng)大學(xué)東校區(qū)西門安置點(diǎn)應(yīng)該安排79輛共享單車,龍湖春天西街應(yīng)該安排55輛共享單車,蚌埠學(xué)院(北側(cè))應(yīng)該安排40輛共享單車,安徽科技學(xué)院應(yīng)該安排56輛共享單車。
4. 結(jié)語
本文基于大量的哈啰單車在線運(yùn)行數(shù)據(jù),將哈啰用戶區(qū)塊化,共享單車區(qū)塊化的設(shè)置管理和維護(hù)。采用數(shù)據(jù)挖掘和大數(shù)據(jù)分析方法,運(yùn)用K-Means聚類算法對共享單車區(qū)塊化分類,以便更好的應(yīng)用PERT網(wǎng)絡(luò)圖,從而計(jì)算每個(gè)區(qū)塊化的節(jié)點(diǎn)流出共享單車數(shù)量,對于每個(gè)節(jié)點(diǎn)在一個(gè)周期內(nèi)的流出量進(jìn)行PERT網(wǎng)絡(luò)圖算法迭代計(jì)算出動(dòng)態(tài)平衡時(shí),每個(gè)節(jié)點(diǎn)的流出量和流入量。從而得到每個(gè)節(jié)點(diǎn)最佳的安放共享單車的數(shù)量。
參考文獻(xiàn):
[1] 張健.基于分布式的共享單車定位算法的研究[D].南京郵電大學(xué),2019.
[2] 劉思嘉,杜雅楠,伍金銘,丁亭亭.移動(dòng)互聯(lián)背景下共享單車運(yùn)營管理研究[J].市場周刊,2019(11):145-146.
[3] 付亞金.共享單車運(yùn)營與管理中的政府責(zé)任研究[D].南昌大學(xué),2019.
[4] 劉文欽.基于DEA方法的共享單車投放區(qū)域綜合效率研究[D].上海外國語大學(xué),2019.
作者簡介:
劉江濤(1998——)男,漢族,安徽銅陵人,安徽財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,2017級(jí)本科生,信息與計(jì)算機(jī)科學(xué)專業(yè)
本文屬安徽財(cái)經(jīng)大學(xué)大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目《基于城市共享單車流動(dòng)大數(shù)據(jù)下停放點(diǎn)設(shè)置與投放數(shù)量研究——以蚌埠市為例》(編號(hào):201910378039)階段性研究成果,指導(dǎo)老師:朱家明。
本論文屬于安徽財(cái)經(jīng)大學(xué)大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目項(xiàng)目,項(xiàng)目編號(hào):201910378039,指導(dǎo)老師:朱家明。