鄭陳亮,張 亮,程 登,王興月,謝燕芳
(上汽通用五菱汽車股份有限公司廣西汽車新四化重點實驗室,廣西 柳州 545007)
新能源汽車近年來展現(xiàn)出良好的發(fā)展事態(tài)。充電樁作為新能源汽車必不可少的需求,充電樁的基礎(chǔ)設(shè)施建設(shè)也備受關(guān)注。在充電樁的基礎(chǔ)設(shè)施建設(shè)無法匹配新能源汽車的增長速度的背景下,許多廠商紛紛投資建設(shè)了自家開發(fā)的充電樁,用戶只需要下載對應(yīng)商家開發(fā)的App,即可找到該商家投放在附近的充電樁。一定程度上解決了新能源汽車“充電難”問題,但也衍生出了用戶尋找充電樁問題,如需要下載多個商家的App,如何判斷并找出最近的充電樁點等問題。有些商家提供了信息整合服務(wù),通過購買前幾家充電商家的充電樁信息做整合開放給用戶使用,這一做法從一定程度解決了App 數(shù)目多的問題,但也存在一些問題,一是整合成本高,二是后期迭代無法把控。因此,新能源汽車用戶和充電基礎(chǔ)設(shè)施之間存在的“信息鴻溝”,廠商間沒有開發(fā)一個統(tǒng)一的充電應(yīng)用App,使得“充電難”和充電設(shè)施資源浪費的情況依舊存在。
目前國內(nèi)外關(guān)于新能源汽車充電樁樁點的選址已有了不少研究。黃丹慧[1]以重慶市出租車為例,提出了一種多層次的充電樁選址優(yōu)化模型,孫文靜[2]借助I-DBSCAN 算法和ED-DBSCAN 算法探討挖掘了有規(guī)律出行的城市私家車的出行信息。李永攀[3]等人對比分析了深圳各個城區(qū)新能源汽車充電次數(shù),并得出新能源用戶更集中分布在經(jīng)濟(jì)發(fā)達(dá)且教育程度普遍更高的地區(qū)。萬眾[4]等人對廣東省的高速公路服務(wù)區(qū)的新能源汽車充電設(shè)施布局進(jìn)行了深層分析,發(fā)現(xiàn)存在充電需求偏低的服務(wù)區(qū)。Erotokritos Xydas 針對英國的新能源汽車充電需求特征進(jìn)行了分析[5],Stuart Speidel 等人對澳大利亞西部新能源汽車的充電模式進(jìn)行了分析研究[6]。縱觀國內(nèi)外學(xué)者研究,新能源汽車的充電樁分布及合理布局是當(dāng)前新能源汽車售后研究的熱點問題之一,同時以往學(xué)者的研究更局部在某個地區(qū),并未推行至全國,尚未提出一種可用于分析全國新能源汽車充電樁的研究模型。
為了能夠有效改善全國新能源汽車用戶“充電難”問題,本文依據(jù)新能源汽車用戶海量的充電數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘技術(shù)分析挖掘用戶的充電位置,建立相關(guān)的聚類模型,研究出充電樁位置及數(shù)量,從而完善充電樁數(shù)據(jù),為全面完備的充電APP 應(yīng)用場景開發(fā)提供參考依據(jù)。
充電樁點的預(yù)測分析本質(zhì)上屬于聚類問題,即根據(jù)用戶的充電位置信息進(jìn)行聚類判別。有較多聚類的方法,大體上可以分為劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的聚類方法。
DBSCAN(Density-based Spatial Culstering of Application with Noise)算法是一種由Ester Martin 等人[7]提出的基于密度的空間聚類算法。該算法的中心思想是:對于某一聚類中的每個對象,在給定半徑(Eps)的鄰域內(nèi)數(shù)據(jù)對象個數(shù)必須大于某個給定值,換言之,領(lǐng)域密度必須超過某一個閾值(MinPts)。DBSCAN 算法因其收斂速度較快,同時能夠處理任意形狀的聚類,被廣泛應(yīng)用于空間數(shù)據(jù)聚類中。本文將采用DBSCAN 算法進(jìn)行分析,DBSCAN 算法詳細(xì)介紹可參考文獻(xiàn)[8]和[9]。
本次研究使用某整車企業(yè)1 230 臺新能源汽車最近3 個月的車輛充電數(shù)據(jù),主要包含充電時間、充電經(jīng)緯度、充電時長等數(shù)據(jù)字段。數(shù)據(jù)由車載傳感器采集,并由T-BOX 終端遵照GB/T 32960-2016《電動汽車遠(yuǎn)程服務(wù)與管理系統(tǒng)技術(shù)規(guī)范》,通過移動網(wǎng)絡(luò)以一定的周期將數(shù)據(jù)實時傳輸至企業(yè)的大數(shù)據(jù)平臺。
海量的原始數(shù)據(jù)中存在著大量不完整的數(shù)據(jù),直接使用原始數(shù)據(jù)將會導(dǎo)致挖掘結(jié)果存在偏差,因此數(shù)據(jù)預(yù)處理尤為重要。本次數(shù)據(jù)預(yù)處理包括剔除異常數(shù)據(jù)、剔除軌跡漂移點及數(shù)據(jù)經(jīng)緯度轉(zhuǎn)換等。由于數(shù)據(jù)庫下載的經(jīng)緯度數(shù)據(jù)參考的是WGS-84 坐標(biāo)系,是GPS 全球衛(wèi)星定位系統(tǒng)使用的坐標(biāo)系,但高德地圖使用的是由WGS-84 加密生成的GCJ-02 坐標(biāo)系,若要將識別出位置,必須要對經(jīng)緯度數(shù)據(jù)進(jìn)行轉(zhuǎn)換成高德API 可調(diào)用的坐標(biāo)系。
基于DBSCAN 聚類的實現(xiàn)過程,首先需要設(shè)定關(guān)鍵參數(shù)Eps 和MinPts。從聚類數(shù)據(jù)樣本集X 中任意選取一點p,若該點的條件符合核心對象的判定,那么從該點密度可達(dá)的所有數(shù)據(jù)點成為一個聚類,而不屬于任何簇的數(shù)據(jù)點則被標(biāo)記為噪聲點。表1 中展示出不同Eps 和MinPts 組合時,聚成的簇數(shù)。當(dāng)Eps=0.001,MinPts=4 時,簇數(shù)為3 335;當(dāng)Eps=0.002,MinPts=4 時,簇數(shù)為3 248;當(dāng)Eps=0.001,MinPts=5時,簇數(shù)為3 770;當(dāng)Eps=0.002,MinPts=5 時,簇數(shù)為3 665。使用“平均變化程度”作為分析指標(biāo)。在實驗中涉及兩個參數(shù),Eps 和MinPts,根據(jù)控制變量法,固定住其中一個參數(shù),用簇數(shù)變動率與參數(shù)變動率之比的絕對值作為該參數(shù)對簇數(shù)影響程度的衡量指標(biāo),稱之為“平均變化程度”。根據(jù)視參數(shù)為增加還是減少,在計算時有兩種算法,如在比較表1 中1 號與2 號實驗時,參數(shù)MinPts 均為4,關(guān)于參數(shù)Eps 的平均變化程度為=0.054,分別稱為參數(shù)增加時的平均變化程度和參數(shù)減小時的平均變化程度。
表1 DBSCAN 算法參數(shù)選擇
在Eps 值相同時,MinPts 值大的對應(yīng)簇數(shù)越大,變化幅度可達(dá)400 簇左右;在MinPts 值相同時,Eps值大的對應(yīng)簇數(shù)越小,變化幅度可達(dá)100 簇左右。結(jié)合表2 的計算結(jié)果,調(diào)整MinPts 參數(shù)所帶來的平均變化程度明顯大于調(diào)整Eps 參數(shù)所帶來的平均變化程度??梢哉J(rèn)為最終分類簇數(shù)受到MinPts 參數(shù)的影響更大,需要根據(jù)實際的分類數(shù)目需求合理選擇MinPts 參數(shù),然后再調(diào)整Eps 參數(shù)。根據(jù)實際情況,本實驗選擇MinPts=4,Eps=0.001 作為DBSCAB 算法中的關(guān)鍵參數(shù)。由此可見,通過1 230 臺車三個月的充電數(shù)據(jù),可以識別出3 335 的充電樁點。
為了具體了解充電樁點的位置信息,借助高德開放平臺,將其可視化,如圖1 所示,圖中圓圈未標(biāo)有“P”字樣表示用戶的實際充電數(shù)據(jù),圓圈中標(biāo)有“P”字樣代表該簇充電樁的中心位置。為了驗證算法的準(zhǔn)確性,借助高德地圖現(xiàn)有的充電樁分布,見圖2。通過對比分析可以發(fā)現(xiàn),借助DBSCAN 聚類算法識別出的充電樁位置較為準(zhǔn)確,且充電樁的分布更為豐富。
圖1 充電樁位置分布圖
圖2 高德地圖充電樁位置分布
本節(jié)將依據(jù)上文的算法模型識別出的充電樁位置,判斷各個充電樁的數(shù)量。假定每個位置充電樁的數(shù)量至少為一個,共收集了N 天的充電數(shù)據(jù),將每一天(0∶00—24∶00)劃分為K 個等間距的時間片段,一個充電樁在第n(0<n<N+1)天中第k(0<k<K+1)個時間段有nk 條充電記錄。第k 個時間段的最高充電記錄為ak=max{nk,0<n<N+1},它是以第k 時間段數(shù)據(jù)進(jìn)行推斷的充電樁數(shù)量估計值,然后求每個時間段推斷出的估計值中的最大值M=max{ak,0<k<K+1},該值體現(xiàn)了該位置充電樁數(shù)目的經(jīng)驗下限,即該位置的充電樁數(shù)目從經(jīng)驗數(shù)據(jù)上進(jìn)行推斷的結(jié)果是:不少于M 個。由于M 是通過實際數(shù)據(jù)算出的,也體現(xiàn)了該位置真實使用的充電樁數(shù)目,因此也稱M 為“活躍充電樁數(shù)量”,簡稱“充電樁數(shù)量”。
充電樁數(shù)量的估計值與劃分的片段數(shù)目K 有關(guān),根據(jù)目前市面上電動車的平均充電時間實際值,本文確定的K=24,即每個片段有1h,得到各個站點的充電樁數(shù)量估計值如表2。
表2 各站點充電樁數(shù)量 個
由表2 充電樁的數(shù)量可知,有10 個充電站點的充電樁數(shù)量為2 個,其余站點充電樁數(shù)量均為1 個。目前所能夠識別的充電樁的數(shù)量較少,可能原因是樣本量較小。
本文基于DBSCAN 聚類設(shè)計了一種新能源用戶的充電樁位置研究模型。本文根據(jù)新能源用戶充電數(shù)據(jù),能夠準(zhǔn)確的聚類判別出全國充電樁的位置,并判斷出充電樁的數(shù)量,在一定程度上有效地改善了識別充電樁位置的難題,完善了充電樁數(shù)據(jù),為App 應(yīng)用場景開發(fā)提供了參考價值。