亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類判別模型的網(wǎng)約車鑒別研究

        2018-08-03 06:46:58冷婷閆興秀余健談煒孫嫻
        江蘇通信 2018年2期
        關(guān)鍵詞:網(wǎng)約車網(wǎng)約出租車

        冷婷 閆興秀 余健 談煒 孫嫻

        南京華蘇科技有限公司

        0 引言

        在“互聯(lián)網(wǎng)+”的政策背景和市場推動下,網(wǎng)約車作為一種新興出行用車方式,迅速成為市場的寵兒,成為智慧出行的重要組成部分。

        網(wǎng)約車即網(wǎng)絡(luò)預(yù)約出租汽車,是一種將乘客、司機(jī)與車輛連接起來,乘客通過智能手機(jī)應(yīng)用軟件,預(yù)約司機(jī)接送服務(wù)的出行方式。網(wǎng)約車的出現(xiàn),滿足社會公眾多樣化出行需求,提升了機(jī)動車的利用效率,但是隨著網(wǎng)約車規(guī)模的不斷擴(kuò)大,它帶來的一系列社會監(jiān)管難題也是不容忽視的。

        網(wǎng)約車與傳統(tǒng)的出租車既有區(qū)別又有聯(lián)系。在車輛顏色與車型上,出租車一般有統(tǒng)一的顏色與標(biāo)識,網(wǎng)約車則多種多樣。在運(yùn)營方式上,出租車可以巡游攬客、站點(diǎn)候客和預(yù)約接客,而網(wǎng)約車不可以巡游接客,只能通過網(wǎng)絡(luò)平臺為預(yù)約顧客提供服務(wù)。在監(jiān)管上,出租車一般由出租車公司進(jìn)行統(tǒng)一管理,而網(wǎng)約車則缺乏一定的監(jiān)管機(jī)制。

        初期,網(wǎng)約車是對出租車的補(bǔ)充。隨著網(wǎng)約車專職司機(jī)的增多,網(wǎng)約車對傳統(tǒng)出租車行業(yè)形成了一定的沖擊,遭到了出租車司機(jī)一定程度上的抵制。此外,由于網(wǎng)約車平臺對司機(jī)和車輛的審查并不嚴(yán)格,市場亂象叢生,糾紛、事故等社會問題層出不窮,網(wǎng)約車市場亟需規(guī)范管理。

        為了管理網(wǎng)約車市場的亂象,《網(wǎng)絡(luò)預(yù)約出租汽車經(jīng)營服務(wù)管理暫行辦法》1http://www.miit.gov.cn/n1146295/n1146557/n1146624/c5218603/content.html于2016年11月1日起施行。其中明確規(guī)定了,在運(yùn)營服務(wù)中,駕駛員不得在街上巡游攬客,不應(yīng)在機(jī)場、火車站等設(shè)立統(tǒng)一巡游車調(diào)度服務(wù)站或?qū)嵭信抨?duì)候客的場所攬客。

        在網(wǎng)約車營運(yùn)新規(guī)出臺的大背景下,交通局作為公共出行服務(wù)管理機(jī)構(gòu),必須加強(qiáng)對網(wǎng)約車的管理。目前對網(wǎng)約車的管理方式是通過人工巡查的方式來進(jìn)行,但這樣耗費(fèi)了大量的人力,因此,交通局迫切需要一種自動化的篩選方式,來幫助他們鎖定嫌疑車輛,實(shí)現(xiàn)快速高效的執(zhí)法。

        手機(jī)作為現(xiàn)代人生活的必需品之一,與人的活動密不可分,這讓使用移動運(yùn)營商的數(shù)據(jù)來映射每個司機(jī)的移動行為成為可能。

        出租車司機(jī)一般與出租車公司簽訂合同,進(jìn)行手機(jī)號等個人信息備案。因此,出租車司機(jī)比較容易被辨識。但是,由于網(wǎng)約車司機(jī)手機(jī)號變更、一人多機(jī)等情況的客觀存在,以及網(wǎng)約車司機(jī)個人信息的難以獲取,這使得網(wǎng)約車司機(jī)的識別任務(wù)變得困難。

        本文以手機(jī)的信令數(shù)據(jù)為基礎(chǔ),提取出司機(jī)的移動特征,提出了一種基于聚類的判別模型來鑒別網(wǎng)約車司機(jī)。該模型能夠在僅知一類數(shù)據(jù)標(biāo)簽的情況下,判別出未知標(biāo)簽的數(shù)據(jù)是否歸屬于已知類別。

        1 研究現(xiàn)狀

        網(wǎng)約車作為新生事物,大多學(xué)者主要把研究視角集中于網(wǎng)約車的監(jiān)管與管理對策上,主要關(guān)注網(wǎng)約車平臺的定價(jià)策略,使用了波動支持向量機(jī)(wave SVM)模型來預(yù)測短期內(nèi)的交通需求,并據(jù)此為網(wǎng)約車App提供一個更加動態(tài)的需求共享平臺,以保障乘客無論在何時何地都能夠獲取網(wǎng)約車提供的出行服務(wù)。以上的研究僅僅涉及了如何提升網(wǎng)約車的服務(wù)上,缺乏相對有效的方法把網(wǎng)約車快速地識別出來。

        在運(yùn)用大數(shù)據(jù)為交通管理服務(wù)的研究方面,大多基于GPRS的定位數(shù)據(jù),多涉及出行目的地的預(yù)測、區(qū)域內(nèi)出租車服務(wù)比率的預(yù)測應(yīng)用,使用的機(jī)器學(xué)習(xí)算法主要有決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。以上的研究利用了大數(shù)據(jù)的技術(shù)與算法,但還沒能夠應(yīng)用到網(wǎng)約車識別的領(lǐng)域。

        總的來說,國內(nèi)外還缺乏一種行之有效的,使用手機(jī)信令數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法來鑒別網(wǎng)約車的方法。因此,本文將做初步嘗試,在僅有出租車司機(jī)一類用戶標(biāo)簽的情況下,對包括出租車與網(wǎng)約車混合用戶的數(shù)據(jù)集進(jìn)行類別判斷,判別出的結(jié)果可以為網(wǎng)約車的監(jiān)管服務(wù)。

        2 數(shù)據(jù)描述

        本文所分析的樣例司機(jī)用戶基于以下3個原始數(shù)據(jù)集:

        表1 樣例司機(jī)用戶原始數(shù)據(jù)集表

        出租車司機(jī)用戶數(shù)據(jù)集為D,是數(shù)據(jù)集A、B、C的交集:

        在數(shù)據(jù)集D中,隨機(jī)抽取150個已知出租車司機(jī)用戶作為樣本集M。

        數(shù)據(jù)集E是數(shù)據(jù)集C與數(shù)據(jù)集D的差集,其中包括了均使用智能手機(jī)應(yīng)用軟件提供出行服務(wù)的網(wǎng)約車司機(jī)和出租車司機(jī)。

        在數(shù)據(jù)集E中,隨機(jī)抽取150個未知類別的司機(jī)用戶作為樣本集N。

        3 特征抽取

        抽取以上300個用戶2017年3月6日至3月19日之間兩周的信令數(shù)據(jù)作為特征抽取的原始數(shù)據(jù)。

        定義周一至周五的9∶00-17∶00為忙時,周一至周五17∶00-24∶00 和 0∶00-9∶00 為閑時。

        抽取的特征主要包括小區(qū)切換和駐留時長兩大類,如表2所示:

        表2 特征抽取類別表

        提取以上特征后,通過選取任意2維特征繪制散點(diǎn)圖,如圖1、2所示:

        圖1 小區(qū)切換數(shù)日標(biāo)準(zhǔn)差和閑時駐留標(biāo)準(zhǔn)差二維特征散點(diǎn)圖

        圖2 小區(qū)切換數(shù)日均值和小區(qū)切換數(shù)日標(biāo)準(zhǔn)差二維特征散點(diǎn)圖

        圖1中,橫坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的小區(qū)切換數(shù)日標(biāo)準(zhǔn)差特征,縱坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的閑時駐留標(biāo)準(zhǔn)差特征;圖2中,橫坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的小區(qū)切換數(shù)日均值特征,縱坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的小區(qū)切換數(shù)日標(biāo)準(zhǔn)差特征。紅色的點(diǎn)表示樣本集M,即出租車司機(jī),藍(lán)色的點(diǎn)表示樣本集N,即未知類別的司機(jī)用戶;通過圖1和圖2,直觀上,樣本集M與樣本集N的分布存在一定的差異性,從側(cè)面說明特征在一定程度上反映了兩類司機(jī)的行為差異。

        4 特征分析

        t-SNE(t-Distributed Stochastic Neighbor Embedding) 是由Laurens van der Maaten和 Geoffrey Hinton提出一種流形的(Manifold)數(shù)據(jù)降維的方法。它是在SNE的基礎(chǔ)上發(fā)展而來的,在低維空間下使用更重長尾分布的t分布來避免crowding問題和難以優(yōu)化的問題。

        該算法先將歐幾里得距離轉(zhuǎn)換為條件概率來表達(dá)點(diǎn)與點(diǎn)之間的相似度。給定一個N個高維的數(shù)據(jù)x1,…,xN,計(jì)算概率pj|i為:

        對低維度下的y_i,使用t分布后的兩點(diǎn)相似度為:

        優(yōu)化的梯度為:

        使用t-SNE對特征進(jìn)行降維可視化:

        圖3 t-SNE維度特征圖

        圖3中,紅色的點(diǎn)表示樣本集M,即出租車司機(jī),藍(lán)色的點(diǎn)表示樣本集N,即未知類別的司機(jī)用戶。從圖3的可視化結(jié)果可以看出,基于選取的特征,兩類司機(jī)的分布存在一定的差異性。

        5 建模過程與結(jié)果分析

        采用基于聚類的判別模型來鑒別未知的司機(jī)用戶為出租車司機(jī)還是網(wǎng)約車司機(jī),具體的分析流程如圖4所示。

        將樣本集M按照8∶2隨機(jī)劃分為聚類訓(xùn)練集P與驗(yàn)證集Q,將樣本集N作為測試集N。

        圖4 聚類判別模型分析流程圖

        對于訓(xùn)練集P:

        第一步,進(jìn)行特征數(shù)據(jù)的獲取并標(biāo)準(zhǔn)歸一化;

        第二步,判斷數(shù)據(jù)集的最佳聚類數(shù)K;

        第三步,刪除異常樣本點(diǎn);

        第四步,計(jì)算聚類中心點(diǎn);

        第五步,計(jì)算各個樣本點(diǎn)到各個聚類中心點(diǎn)的距離之和;

        第六步,設(shè)定類別判定的閾值。

        對于驗(yàn)證集Q與測試集N:

        第一步,進(jìn)行特征數(shù)據(jù)的獲取并標(biāo)準(zhǔn)歸一化;

        第二步,計(jì)算數(shù)據(jù)集中各個樣本點(diǎn)到訓(xùn)練集各個聚類中心點(diǎn)的距離之和;

        第三步,根據(jù)閾值進(jìn)行判斷,并輸出判別結(jié)果。

        5.1 聚類數(shù)選擇

        對于訓(xùn)練集P,使用輪廓系數(shù)(Silhouette Coef fi cient)計(jì)算最佳聚類數(shù)K。輪廓系數(shù)是類的密集與分散程度的評價(jià)指標(biāo)。

        其中:

        a(i)為i向量到同一簇內(nèi)其他點(diǎn)不相似程度的平均值,即測量了組內(nèi)的相似度。

        b(i)為i向量到其他簇的平均不相似程度的最小值,即測量了組間的相似度。

        s(i)的范圍從-1到1,值越大說明組內(nèi)內(nèi)聚度和組間分離度相對較優(yōu)。

        圖5 最佳聚類K判斷圖

        圖5中,橫坐標(biāo)表示不同的聚類數(shù)K,縱坐標(biāo)表示輪廓系數(shù)。當(dāng)聚類數(shù)為3時,s(i)的值最大。因此,取最佳聚類數(shù)K=3。

        5.2 聚類分析

        使用K-Means算法對訓(xùn)練集P進(jìn)行聚類分析。

        K-Means屬于劃分式聚類算法,聚類相似度是利用各聚類中對象的均值所獲得一個中心來進(jìn)行計(jì)算的。其主要工作過程為:首先從n個數(shù)據(jù)對象中任意選擇k個對象作為初始聚類中心,對于所剩下的其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的聚類;然后再計(jì)算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般使用均方差作為標(biāo)準(zhǔn)測度函數(shù)。

        將訓(xùn)練集P聚成3類,得到的聚類結(jié)果如圖6所示。

        圖6 訓(xùn)練集聚類結(jié)果圖

        在以上聚類結(jié)果的基礎(chǔ)上,對異常點(diǎn)進(jìn)行處理,得到108個有效采樣點(diǎn)。其主要分布情況如表3所示。

        如圖7所示,由此,對于每個聚類簇,可得中心點(diǎn)所對應(yīng)的每個維度特征值。

        圖7 聚類簇維度特征值圖

        5.3 用戶行為特征分析

        以特征為橫坐標(biāo),特征值為縱坐標(biāo),繪制折線圖,查看三個聚類中心點(diǎn)的分布,如圖8所示。

        圖8 聚類中心點(diǎn)分布圖

        由圖8可知,以上三個聚類簇在6個指標(biāo)上差異性較大:忙時小區(qū)切換數(shù)均值,忙時小區(qū)切換數(shù)標(biāo)準(zhǔn)差,閑時小區(qū)切換數(shù)均值,閑時小區(qū)切換數(shù)標(biāo)準(zhǔn)差,小區(qū)切換數(shù)日均值,小區(qū)切換數(shù)日標(biāo)準(zhǔn)差。

        分別繪制三個類別樣本在以上6個特征上的分布箱形圖(見圖9)。

        圖9 特征分布箱形圖

        圖9中橫坐標(biāo)為各個類別,每個箱形的下邊緣表示最小值,上邊緣表示最大值,箱子的底部表示四分之一分位,箱子的頂部表示四分之三分位,箱子中間的線表示中位數(shù)。箱子的寬窄表示了該類別樣本數(shù)的多少??偟膩碚f,箱形圖表示了各個類別中樣本的分布情況。

        可以看出,在上述的6個特征上,cluster1與cluster2的整體趨勢比較相近,且cluster2對應(yīng)的特征值均低于cluster1相對應(yīng)的特征值;但cluster3和cluster1在趨勢上整體相反。具體來說,有以下幾點(diǎn):

        (1)對于cluster1中的司機(jī),有以下結(jié)論:

        忙時小區(qū)切換數(shù)均值指標(biāo)最高,說明該類出租車司機(jī)在周一至周五的9∶00-17∶00,即白天活動最為頻繁;閑時小區(qū)切換數(shù)均值指標(biāo)較低,說明該類出租車司機(jī)在周一至周五17∶00-24∶00和0∶00-9∶00,即夜間活動較少;小區(qū)切換數(shù)日均值指標(biāo)最高,說明該類出租車司機(jī)整體活動較為頻繁。因此,該類出租車司機(jī)是具有典型出租車活動行為特征的司機(jī)。

        (2)對于cluster2中的司機(jī),有以下結(jié)論:

        忙時小區(qū)切換數(shù)均值指標(biāo)較低,說明該類出租車司機(jī)在周一至周五的9∶00-17∶00,即白天活動不太頻繁;閑時小區(qū)切換數(shù)均值指標(biāo)也較低,說明該類出租車司機(jī)在周一至周五17∶00-24∶00和0∶00-9∶00,即夜間活動也不太頻繁;小區(qū)切換數(shù)日均值指標(biāo)同樣較低,說明該類出租車司機(jī)的整體活動不頻繁??梢钥闯?,該類出租車司機(jī)切換小區(qū)次數(shù)相對較少,也就是說更偏向于在某些區(qū)域進(jìn)行駐留待客,因此,從行為特征的角度來說,和網(wǎng)約車司機(jī)駐留待客的行為比較類似。

        (3)對于cluster3中的司機(jī),有以下結(jié)論:

        忙時小區(qū)切換數(shù)均值指標(biāo)較低,說明該類出租車司機(jī)在周一至周五的9∶00-17∶00,即白天活動不太頻繁;閑時小區(qū)切換數(shù)均值指標(biāo)較高,說明該類出租車司機(jī)在周一至周五17∶00-24∶ 00和0∶00-9∶00,即夜間活動比較頻繁;小區(qū)切換數(shù)日均值指標(biāo)較高,說明該類出租車司機(jī)的整體活動趨于頻繁。可以看出,該類出租車司機(jī)具有晝伏夜出的特點(diǎn),因此,從行為特征的角度來說,和典型網(wǎng)約車司機(jī)晝伏夜出的特點(diǎn)也比較類似。

        總體來看,cluster1中的用戶具有典型的出租車司機(jī)行為特征,cluster2和cluster3中的用戶雖然是出租車司機(jī),但在行為特征上和網(wǎng)約車司機(jī)比較類似。

        5.4 閾值設(shè)定

        計(jì)算訓(xùn)練集P中各有效樣本點(diǎn)x到各個中心點(diǎn)的距離之和,并排序,繪制增量圖,如圖10所示:

        圖10 樣本點(diǎn)到各中心點(diǎn)距離之和增量圖

        圖10中,x軸表示訓(xùn)練樣本序號,y軸表示樣本點(diǎn)到各個中心點(diǎn)的距離之和。

        由圖可看出:

        當(dāng)x < 101時,距離的增長速度較為平緩;

        當(dāng)x > 101時,距離的增長速度較快;

        由此得出:

        x = 101為樣本集中的拐點(diǎn)。因此,將其對應(yīng)的距離,即y值設(shè)置為分類的閾值:

        5.5 結(jié)果輸出

        對既包含網(wǎng)約車司機(jī)又包含出租車司機(jī)且沒有類別標(biāo)簽的混合數(shù)據(jù)集,本文采用以上基于聚類和閾值相結(jié)合的方法來判斷未知標(biāo)簽的樣本的類別歸屬。

        當(dāng)測試集中的樣本點(diǎn)到三個聚類中心點(diǎn)的距離之和大于閾值時,即判斷該樣本點(diǎn)為網(wǎng)約車司機(jī),反之,則判定該樣本點(diǎn)為出租車司機(jī)。

        對驗(yàn)證集Q和測試集N進(jìn)行判定,得到的結(jié)果如表4所示:

        表4 聚類模型判定表

        (1)由此可見:

        對于驗(yàn)證集Q中的30個樣本,根據(jù)該模型判斷,有23個司機(jī)用戶屬于出租車,取得了76.7%的召回率。

        對于測試集N中的150個樣本,使用基于聚類的判別模型,發(fā)現(xiàn)有97個司機(jī)用戶屬于出租車,即64.7%的司機(jī)被判別為出租車司機(jī),35.3%的司機(jī)被判別為網(wǎng)約車司機(jī)。

        (2)更進(jìn)一步:

        對測試集N中被判定為出租車的97個用戶,根據(jù)其到三個中心點(diǎn)的距離進(jìn)行分類,得到進(jìn)一步的分類結(jié)果,匯總結(jié)果如表5所示:

        表5 中心點(diǎn)距離閾值判定表

        因此,由以上分類結(jié)果可以看出,測試集N中僅僅7.3%的司機(jī)為典型的出租車司機(jī),57.3%的被判斷為出租車的司機(jī)在行為特征上和網(wǎng)約車司機(jī)較為類似。

        6 結(jié)論與改進(jìn)措施

        本文利用移動運(yùn)營商提供的手機(jī)信令數(shù)據(jù),提取出可以映射司機(jī)移動行為的特征,并提出了一種基于聚類判別的模型,在擁有出租車司機(jī)單類別標(biāo)識樣本的情況下,對出租車與網(wǎng)約車混合用戶的數(shù)據(jù)集進(jìn)行類別歸屬的判斷。鑒別出的結(jié)果在一定程度上能夠?yàn)榻煌▓?zhí)法部門打擊非法網(wǎng)約車進(jìn)行服務(wù),幫助他們快速定位嫌疑車輛,降低執(zhí)法的人力成本,提升工作效率。

        本研究是使用手機(jī)信令大數(shù)據(jù)與機(jī)器學(xué)習(xí)算法模型對網(wǎng)約車司機(jī)進(jìn)行判別的初步嘗試,還存在一些不足。例如受用戶樣本數(shù)所限,建模的數(shù)據(jù)規(guī)模還偏小。未來的研究中還有一些問題需要解決和改進(jìn):增加除了移動行為特征外的其他數(shù)據(jù)特征,如主流的、提供預(yù)約出行服務(wù)的手機(jī)App使用數(shù)據(jù);增加對比樣例,提升分析結(jié)果的置信度。

        猜你喜歡
        網(wǎng)約車網(wǎng)約出租車
        基于多模深度森林和迭代Kuhn-Munkres的動態(tài)上車點(diǎn)推薦算法
        網(wǎng)約車平臺責(zé)任條款的識別方法——基于解釋進(jìn)路的正當(dāng)規(guī)制
        法律方法(2022年2期)2022-10-20 06:45:02
        共享經(jīng)濟(jì)稅收征管挑戰(zhàn)及對策——以網(wǎng)約車為例
        網(wǎng)約車侵權(quán)責(zé)任在司法實(shí)踐中的認(rèn)定
        山西青年(2020年3期)2020-12-08 04:58:57
        乘坐出租車
        對網(wǎng)約車地方立法若干法律問題的幾點(diǎn)探討
        網(wǎng)約車問題研究及對策
        活力(2019年19期)2020-01-06 07:36:02
        網(wǎng)約車安全性提高研究
        活力(2019年17期)2019-11-26 00:42:18
        憑什么
        國外是如何管理網(wǎng)約車的
        亚洲乱妇老熟女爽到高潮的片| 久久久国产精品ⅤA麻豆百度| 国产人妖视频一区二区| 国产美女高潮流白浆在线观看 | 久久久久亚洲av无码专区| 亚洲天天综合色制服丝袜在线| 黄色国产一区在线观看| 蜜桃av噜噜噜一区二区三区| 中文字幕乱码在线婷婷| 不卡av网站一区二区三区| 日韩在线精品视频一区| 少妇被粗大的猛进出69影院| 丰满少妇a级毛片| 丰满熟妇乱又伦| 亚洲国产美女精品久久久久| 久久久久久岛国免费网站| 黄色大片国产精品久久| 国产熟女盗摄一区二区警花91| 狠狠人妻久久久久久综合蜜桃| 欧美乱人伦人妻中文字幕| 成人毛片一区二区| 夜色阁亚洲一区二区三区| 天堂av在线免费播放| 久亚洲精品不子伦一区| 亚洲自拍偷拍色图综合| 国产不卡视频一区二区三区 | 亚洲一区二区精品在线| 蜜臀av在线观看| 九九久久精品无码专区| 久久中国国产Av秘 入口| 青青草在线成人免费视频| 亚洲一区二区日韩专区| 女局长白白嫩嫩大屁股| 亚洲色无码国产精品网站可下载| 亚洲毛片αv无线播放一区| 看全色黄大色大片免费久久久| 最新国产激情视频在线观看| 男人的天堂av网站| 免费观看又污又黄的网站| 亚洲成AV人国产毛片| 久久精品亚洲精品国产区|