亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于于頻繁模式挖掘的共享單車(chē)數(shù)據(jù)分析

        2019-01-03 02:30:28邢一丹
        電子制作 2018年24期
        關(guān)鍵詞:項(xiàng)集摩拜目的地

        邢一丹

        (西安市第七十中學(xué),陜西西安,710000)

        0 引言

        共享單車(chē)作為一種環(huán)保節(jié)能、方便快捷的綠色公共交通工具,十分經(jīng)濟(jì)實(shí)用。共享單車(chē)擁有與政府為主導(dǎo)的公共自行車(chē)相同的目的一通過(guò)將自行車(chē) 與其他幾種交通方式相結(jié)合,吸引居民從私家車(chē)出行依賴(lài)向公共交通方式出行轉(zhuǎn)變減少私家車(chē)出行量,緩解城市交通擁堵問(wèn)題,使這一方式成為城市公共交通的一部分實(shí)現(xiàn)城市交通'最后一公里"的無(wú)縫有效銜接的綠色交通模式,并最終成為居民交通出行的主要選擇。共享單車(chē)的出現(xiàn),在一定程度上多元化居民的出行選擇,降低居民出行成本,道路資源利用率得以提高的同時(shí)也有利于交通擁堵問(wèn)題的改善,共享單車(chē)出行還擁有環(huán)保節(jié)能,降低有害氣體排放,加快公共交通循環(huán),完善公共交通體系,有助于提高市民的生活環(huán)境提高居民低碳環(huán)保出行的意識(shí)與誠(chéng)信觀念等優(yōu)點(diǎn)。

        根據(jù)共享單車(chē)的發(fā)展,可以劃分為四個(gè)階段:萌芽階段、成長(zhǎng)階段、泛濫階段、洗牌階段。在各個(gè)單車(chē)分別完成了多輪融資之后,單車(chē)投放量也都在不斷加大,開(kāi)始出現(xiàn)單車(chē)扎堆,影響交通,管理混亂的現(xiàn)象。除此之外由于有樁的公共自行車(chē)容易出現(xiàn)“租/還難”問(wèn)題,不同區(qū)域間的流量不平衡造成了公共自行車(chē)?yán)寐实南陆?,無(wú)樁的共享單車(chē)雖然理論.上可隨時(shí)隨地租還,但也由于潮汐現(xiàn)象的存在,造成某些時(shí)候用戶(hù)在租車(chē)時(shí)發(fā)現(xiàn)附近沒(méi)有一-輛可以借的車(chē)(或者只有壞車(chē)),而在還車(chē)的時(shí)候,雖然沒(méi)有還車(chē)難的問(wèn)題,但是會(huì)出現(xiàn)亂停放、目的地車(chē)輛扎堆等問(wèn)題(在地鐵站、公交站等地尤為嚴(yán)重),這會(huì)造成一定的交通擁堵和城市管理混亂。在本文的研究中,嘗試使用頻繁模式挖掘來(lái)解決摩拜單車(chē)停放點(diǎn)預(yù)測(cè)的問(wèn)題,提出了較為新穎的創(chuàng)新思路和創(chuàng)新方法。

        1 模式介紹

        2.1 術(shù)語(yǔ)介紹

        項(xiàng):我們分析的最小元素;項(xiàng)集:若干項(xiàng)組成的集合;事務(wù):一種特殊的項(xiàng)集,作為輸入數(shù)據(jù),常用ti表示一個(gè)事務(wù);事務(wù)的集合叫事務(wù)集,用T表示;支持度計(jì)數(shù):這個(gè)項(xiàng)集在所有事務(wù)集中出現(xiàn)的次數(shù);支持度:支持度計(jì)數(shù)與事務(wù)的總數(shù)N的比值;規(guī)則:形如X→Y的表達(dá)式就是一個(gè)規(guī)則,X叫這個(gè)規(guī)則的前件或左件,Y叫這個(gè)規(guī)則的右件或后件,其中X∩Y=?;置信度:描述一個(gè)規(guī)則可信程度的量;最小支持度閾值min_sup:這個(gè)閾值就是判斷一個(gè)項(xiàng)集是否足夠頻繁的標(biāo)準(zhǔn),滿(mǎn)足最小支持度閾值的項(xiàng)集就是頻繁項(xiàng)集,有k個(gè)項(xiàng)的頻繁項(xiàng)集就是頻繁k項(xiàng)集;最小置信度閾值min_conf:這個(gè)閾值是判斷一個(gè)規(guī)則是否足夠可信的標(biāo)準(zhǔn);一般情況下的閾值設(shè)定,支持度閾值: 0.2/0.3 ,置信度閾值: 0.6/0.75。

        2.2 模式引入

        采用關(guān)聯(lián)分析算法、聚類(lèi)分析算法,并使用Python編程語(yǔ)言實(shí)現(xiàn)。

        數(shù)據(jù)來(lái)源2017摩拜杯(Mobike CUP)算法挑戰(zhàn)賽。

        表1 數(shù)據(jù)含義

        易知該模式中項(xiàng)包括訂單號(hào),用戶(hù)ID,車(chē)輛ID,車(chē)輛類(lèi)型,騎行起始日期時(shí)間,騎行起始區(qū)塊位置,騎行目的地區(qū)塊位置,通過(guò)數(shù)據(jù)中由項(xiàng)所組成的項(xiàng)集進(jìn)行分析即使用頻繁模式挖掘來(lái)解決摩拜單車(chē)停放點(diǎn)預(yù)測(cè)的問(wèn)題。

        3 數(shù)據(jù)處理

        3.1 數(shù)據(jù)介紹

        對(duì)于數(shù)據(jù)挖掘而言,需要從海量的數(shù)據(jù)中挖掘出有用的模式和信息,也就是“沙里淘金”的過(guò)程。數(shù)據(jù)雖然是抽象概念,但是,它也具有規(guī)模和屬性。通俗來(lái)講,數(shù)據(jù)規(guī)模就是數(shù)據(jù)的多少,數(shù)據(jù)越多,規(guī)模就越大,現(xiàn)在所說(shuō)的大數(shù)據(jù)就是規(guī)模極大的數(shù)據(jù);數(shù)據(jù)屬性就是數(shù)據(jù)所具有的性質(zhì),數(shù)據(jù)具有的性質(zhì)越多,我們稱(chēng)其屬性越多,或維度越大,人們常說(shuō)的數(shù)據(jù)降維處理就是盡可能地減少數(shù)據(jù)的無(wú)關(guān)屬性,以達(dá)到篩選的目的。

        同樣,數(shù)據(jù)也有用來(lái)描述自己的單位,這個(gè)人們就接觸的比較多。數(shù)據(jù)的單位常常被稱(chēng)作數(shù)據(jù)的寬度,日常生活中的網(wǎng)絡(luò)速度、下載速度、存儲(chǔ)空間等等都應(yīng)用到了數(shù)據(jù)的單位方面的內(nèi)容。

        3.2 數(shù)據(jù)預(yù)處理的方法

        數(shù)據(jù)預(yù)處理的主要方法就是數(shù)據(jù)清洗和數(shù)據(jù)歸約。

        數(shù)據(jù)清洗主要包括對(duì)數(shù)據(jù)集進(jìn)行異常檢測(cè)、識(shí)別并消除數(shù)據(jù)集中近似重復(fù)對(duì)象、對(duì)缺失數(shù)據(jù)進(jìn)行清洗。數(shù)據(jù)集的異常檢測(cè)主要就是消除少數(shù)異常數(shù)據(jù)對(duì)總體的影響,常常運(yùn)用均值和標(biāo)準(zhǔn)差進(jìn)行檢測(cè);重復(fù)記錄的清洗主要就是篩掉重復(fù)的數(shù)據(jù),使數(shù)據(jù)集更加精簡(jiǎn),減少不必要的數(shù)據(jù)分析; 對(duì)缺失數(shù)據(jù)的清洗與灰色預(yù)測(cè)模型有些相似,旨在對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè),其中涉及了許多高級(jí)的理論方法,這里就不再一一描述。

        數(shù)據(jù)歸約主要包括高維數(shù)據(jù)的降維處理和離散化技術(shù)減少給定連續(xù)屬性值的個(gè)數(shù)。高維數(shù)據(jù)降維處理其本質(zhì)就是刪除數(shù)據(jù)的冗余屬性,避免其對(duì)預(yù)測(cè)過(guò)程造成影響,簡(jiǎn)化對(duì)數(shù)據(jù)分析的過(guò)程;而離散化技術(shù)減少給定連續(xù)屬性值的個(gè)數(shù)這種方法大多數(shù)是遞歸進(jìn)行的,看似花費(fèi)了大量的時(shí)間,其實(shí)卻節(jié)省了后面步驟的時(shí)間。

        3.3 分析Mobike單車(chē)數(shù)據(jù)

        在此,本文以摩拜公司提供的北京市的2017年5月10日至2017年5月24日的部分共享單車(chē)真實(shí)用戶(hù)抽樣數(shù)據(jù)為例進(jìn)行分析和探索,該數(shù)據(jù)包含了幾十萬(wàn)個(gè)摩拜單車(chē)用戶(hù)的出行信息,如訂單編號(hào)、用戶(hù)編號(hào)、車(chē)輛編號(hào)、車(chē)輛類(lèi)型、騎行初始時(shí)間、騎行起始區(qū)塊位置、騎行目的區(qū)塊位置等信息,其中包含接近300萬(wàn)條的真實(shí)用戶(hù)租還記錄。

        在預(yù)測(cè)共享自行車(chē)的用戶(hù)出行目的地之前,需要先根據(jù)用戶(hù)的歷史騎行規(guī)律,構(gòu)建出用戶(hù)最可能去往的目的地集合,稱(chēng)作用戶(hù)出行候選地預(yù)測(cè)。在預(yù)測(cè)候選地的時(shí)候,需要根據(jù)用戶(hù)歷史的行為,分析出最有可能去的地方,這就需要挖掘用戶(hù)與初始地、目的地的頻繁模式項(xiàng)。實(shí)現(xiàn)代碼如表1所示。

        首先,在數(shù)據(jù)集上統(tǒng)計(jì)出用戶(hù)的出行熱門(mén)地點(diǎn),將目的地區(qū)塊作為分組進(jìn)行統(tǒng)計(jì),計(jì)算用戶(hù)騎行目的地次數(shù)最多的5個(gè)地點(diǎn)和所對(duì)應(yīng)的地理位置經(jīng)緯度。如表2所示。

        表2

        接下來(lái)按照騎行地與目的地的組合對(duì)進(jìn)行統(tǒng)計(jì),觀察分析起始地和目的地之間都有哪些規(guī)律。

        圖1

        圖2 北京城區(qū)GeoHash編碼區(qū)圖北京郊區(qū)GeoHash編碼圖

        起始地描述目的地描述軌跡數(shù)如表3所示。

        表3

        其中起始地與目的地對(duì)應(yīng)關(guān)系涉及到的區(qū)域的經(jīng)緯度信息如下:

        首先,可以發(fā)現(xiàn)頻繁度比較高的模式對(duì)主要是出現(xiàn)在環(huán)路附近、居民區(qū)以及地鐵站附近等地方,他們之間關(guān)系抽象出來(lái)主要有:環(huán)路-居民區(qū)、居民區(qū)-地鐵站等。這也與日常生活中的情況比較吻合,用戶(hù)經(jīng)常由于工作需要往來(lái)于居民區(qū)、地鐵站或者環(huán)路等附近。因此這些規(guī)律性比較具有普遍意義。

        在預(yù)測(cè)共享自行車(chē)的用戶(hù)出行目的地之前,結(jié)合上面的分析,需要先根據(jù)用戶(hù)的歷史騎行規(guī)律,構(gòu)建出用戶(hù)最可能去往的目的地集合,稱(chēng)作用戶(hù)出行候選地預(yù)測(cè)。在預(yù)測(cè)候選地的時(shí)候,需要根據(jù)用戶(hù)歷史的行為,分析出最有可能去的地方,這就需要挖掘用戶(hù)與初始地、目的地的頻繁模式項(xiàng)。首先我們需要對(duì)所有項(xiàng)的出現(xiàn)個(gè)數(shù)進(jìn)行統(tǒng)計(jì),其次是只考慮對(duì)頻繁項(xiàng)集進(jìn)行掃描。具體步驟如下:

        (1)首先創(chuàng)建根節(jié)點(diǎn),用Null來(lái)表示;

        (2)統(tǒng)計(jì)所有的項(xiàng)中各個(gè)類(lèi)型的總支持度,如起始地或目的地的總個(gè)數(shù);

        (3)遍歷每個(gè)項(xiàng),按照總支持度計(jì)數(shù)進(jìn)行降序排列,然后掛在根節(jié)點(diǎn)下方;

        (4)遍歷后續(xù)的項(xiàng),以相同方式順著根節(jié)點(diǎn)加入到樹(shù)結(jié)構(gòu)中,并更新支持度計(jì)數(shù)。

        根據(jù)用戶(hù)出行的歷史規(guī)律,可以考慮挖掘出“起始地-目的地”的頻繁項(xiàng)集,以歷史集合中出現(xiàn)頻次最高的,作為用戶(hù)出行目的地的候選集。總計(jì)為以下幾種:

        (1)用戶(hù)-起始地-目的地頻繁項(xiàng)集(User-Start-Destination): 用戶(hù)、起始地和目的地在訓(xùn)練集的組合中出現(xiàn)頻率較高的頻繁項(xiàng)作為該起始地對(duì)應(yīng)的候選目的地。

        (2)用戶(hù)-起始地頻繁項(xiàng)集( User-Start): 根據(jù)分析,用戶(hù)的歷史出行地也是用戶(hù)出行范圍的一-部分,因此歷史的出行地也可能是未來(lái)的目的地,因此要考慮將用戶(hù)、起始地在訓(xùn)練集的組合中出現(xiàn)頻率較高的頻繁項(xiàng)作為該起始地對(duì)應(yīng)的候選目的地。

        (3)用戶(hù)-目的地頻繁項(xiàng)集(User-Destination):根據(jù)分析,用戶(hù)的歷史目的地必然是用戶(hù)出行范圍的一部分,因此歷史的目的地很也可能是未來(lái)的目的地,此可能性比起始地還要高,因此要考慮將用戶(hù)、目的地在訓(xùn)練集的組合中出現(xiàn)頻率較高的頻繁項(xiàng)作為該起始地對(duì)應(yīng)的候選目的地。

        (4)起始地-目的地頻繁項(xiàng)集(Start-Destination):不挖掘具體用戶(hù)的頻繁項(xiàng)集,將整體的思考范圍調(diào)整到全部用戶(hù),考慮僅僅將起始地、目的地在訓(xùn)練集的組合中出現(xiàn)頻率較高的頻繁項(xiàng)作為該起始地對(duì)應(yīng)的候選目的地。

        4 結(jié)論

        4.1 模型優(yōu)勢(shì)

        本文以北京摩拜單車(chē)的數(shù)據(jù)集為例分析了共享自行車(chē)用戶(hù)出行規(guī)律和影響共享自行車(chē)用戶(hù)出行的因素,然后采用常用的關(guān)聯(lián)分析算法、聚類(lèi)分析算法,并使用Python編程語(yǔ)言實(shí)現(xiàn),構(gòu)建了用戶(hù)候選地預(yù)測(cè)模型。按照不同角度,如用戶(hù)與目的地、用戶(hù)與起始地、起始地與目的地、起始地附近地與目的地、起始地與目的地附近低等多種組合的頻繁項(xiàng)集,構(gòu)建出來(lái)的預(yù)測(cè)模型召回率較高。

        4.2 改進(jìn)方向

        由于能力及時(shí)間有限,對(duì)問(wèn)題的考慮及處理方法上仍有很多不周的地方需要改進(jìn)或后續(xù)進(jìn)行深入研究,共享單車(chē)數(shù)據(jù)較難獲取,目前的研究是基于有限的數(shù)據(jù)集進(jìn)行的,因此效果可能會(huì)有些影響,在真實(shí)場(chǎng)景下能夠有更大量的數(shù)據(jù)集用來(lái)訓(xùn)練模型,效果應(yīng)該會(huì)好很多。

        猜你喜歡
        項(xiàng)集摩拜目的地
        向目的地進(jìn)發(fā)
        迷宮彎彎繞
        摩拜推出多項(xiàng)福利,同時(shí)發(fā)布摩拜助力車(chē)
        摩拜的宿命
        動(dòng)物可笑堂
        摩拜單車(chē)的英國(guó)初體驗(yàn)
        目的地
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項(xiàng)集的快速挖掘算法
        一種新的改進(jìn)Apriori算法*
        91九色中文视频在线观看| 老少配老妇老熟女中文普通话| 一区二区三区乱码在线 | 欧洲| 亚洲欧美日韩中文无线码| 国产精品av在线一区二区三区| 国产精品成年人毛片毛片| 激情人妻另类人妻伦| 不卡av电影在线| 日本老熟欧美老熟妇| 国产成人福利在线视频不卡 | 国产乱人对白| 色一情一区二| 国产欧美日本亚洲精品一5区| 国产视频一区二区三区观看| 日韩精品人妻久久久一二三| 强开少妇嫩苞又嫩又紧九色| 亚洲av无码乱观看明星换脸va| 高清高速无码一区二区| 亚洲国产精品久久久婷婷| 洲色熟女图激情另类图区| 亚洲性爱视频| 亚洲精品亚洲人成在线下载| 粉嫩国产白浆在线播放| 亚洲女同av在线观看| 日本最新免费二区| 少妇寂寞难耐被黑人中出| 青青在线精品2022国产| 日韩av无码午夜福利电影| 日韩高清不卡一区二区三区| 天天综合网在线观看视频 | 东北妇女xx做爰视频| 天天草夜夜草| 久久精品有码中文字幕1| 少妇性l交大片免费1一少| 加勒比东京热中文字幕| 精品国产一区二区三区免费| 国产欧美日韩不卡一区二区三区| av成人综合在线资源站| а天堂中文地址在线| a级毛片在线观看| 美女黄频视频免费国产大全|