亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于聚類判別模型的網(wǎng)約車鑒別研究

2018-08-03 06:46:58冷婷閆興秀余健談煒孫嫻

江蘇通信 2018年2期

關(guān)鍵詞：網(wǎng)約車網(wǎng)約出租車

冷婷閆興秀余健談煒孫嫻

南京華蘇科技有限公司

0 引言

在“互聯(lián)網(wǎng)+”的政策背景和市場推動下，網(wǎng)約車作為一種新興出行用車方式，迅速成為市場的寵兒，成為智慧出行的重要組成部分。

網(wǎng)約車即網(wǎng)絡(luò)預(yù)約出租汽車，是一種將乘客、司機(jī)與車輛連接起來，乘客通過智能手機(jī)應(yīng)用軟件，預(yù)約司機(jī)接送服務(wù)的出行方式。網(wǎng)約車的出現(xiàn)，滿足社會公眾多樣化出行需求，提升了機(jī)動車的利用效率，但是隨著網(wǎng)約車規(guī)模的不斷擴(kuò)大，它帶來的一系列社會監(jiān)管難題也是不容忽視的。

網(wǎng)約車與傳統(tǒng)的出租車既有區(qū)別又有聯(lián)系。在車輛顏色與車型上，出租車一般有統(tǒng)一的顏色與標(biāo)識，網(wǎng)約車則多種多樣。在運(yùn)營方式上，出租車可以巡游攬客、站點(diǎn)候客和預(yù)約接客，而網(wǎng)約車不可以巡游接客，只能通過網(wǎng)絡(luò)平臺為預(yù)約顧客提供服務(wù)。在監(jiān)管上，出租車一般由出租車公司進(jìn)行統(tǒng)一管理，而網(wǎng)約車則缺乏一定的監(jiān)管機(jī)制。

初期，網(wǎng)約車是對出租車的補(bǔ)充。隨著網(wǎng)約車專職司機(jī)的增多，網(wǎng)約車對傳統(tǒng)出租車行業(yè)形成了一定的沖擊，遭到了出租車司機(jī)一定程度上的抵制。此外，由于網(wǎng)約車平臺對司機(jī)和車輛的審查并不嚴(yán)格，市場亂象叢生，糾紛、事故等社會問題層出不窮，網(wǎng)約車市場亟需規(guī)范管理。

為了管理網(wǎng)約車市場的亂象，《網(wǎng)絡(luò)預(yù)約出租汽車經(jīng)營服務(wù)管理暫行辦法》1http://www.miit.gov.cn/n1146295/n1146557/n1146624/c5218603/content.html于2016年11月1日起施行。其中明確規(guī)定了，在運(yùn)營服務(wù)中，駕駛員不得在街上巡游攬客，不應(yīng)在機(jī)場、火車站等設(shè)立統(tǒng)一巡游車調(diào)度服務(wù)站或?qū)嵭信抨?duì)候客的場所攬客。

在網(wǎng)約車營運(yùn)新規(guī)出臺的大背景下，交通局作為公共出行服務(wù)管理機(jī)構(gòu)，必須加強(qiáng)對網(wǎng)約車的管理。目前對網(wǎng)約車的管理方式是通過人工巡查的方式來進(jìn)行，但這樣耗費(fèi)了大量的人力，因此，交通局迫切需要一種自動化的篩選方式，來幫助他們鎖定嫌疑車輛，實(shí)現(xiàn)快速高效的執(zhí)法。

手機(jī)作為現(xiàn)代人生活的必需品之一，與人的活動密不可分，這讓使用移動運(yùn)營商的數(shù)據(jù)來映射每個司機(jī)的移動行為成為可能。

出租車司機(jī)一般與出租車公司簽訂合同，進(jìn)行手機(jī)號等個人信息備案。因此，出租車司機(jī)比較容易被辨識。但是，由于網(wǎng)約車司機(jī)手機(jī)號變更、一人多機(jī)等情況的客觀存在，以及網(wǎng)約車司機(jī)個人信息的難以獲取，這使得網(wǎng)約車司機(jī)的識別任務(wù)變得困難。

本文以手機(jī)的信令數(shù)據(jù)為基礎(chǔ)，提取出司機(jī)的移動特征，提出了一種基于聚類的判別模型來鑒別網(wǎng)約車司機(jī)。該模型能夠在僅知一類數(shù)據(jù)標(biāo)簽的情況下，判別出未知標(biāo)簽的數(shù)據(jù)是否歸屬于已知類別。

1 研究現(xiàn)狀

網(wǎng)約車作為新生事物，大多學(xué)者主要把研究視角集中于網(wǎng)約車的監(jiān)管與管理對策上，主要關(guān)注網(wǎng)約車平臺的定價(jià)策略，使用了波動支持向量機(jī)（wave SVM）模型來預(yù)測短期內(nèi)的交通需求，并據(jù)此為網(wǎng)約車App提供一個更加動態(tài)的需求共享平臺，以保障乘客無論在何時何地都能夠獲取網(wǎng)約車提供的出行服務(wù)。以上的研究僅僅涉及了如何提升網(wǎng)約車的服務(wù)上，缺乏相對有效的方法把網(wǎng)約車快速地識別出來。

在運(yùn)用大數(shù)據(jù)為交通管理服務(wù)的研究方面，大多基于GPRS的定位數(shù)據(jù)，多涉及出行目的地的預(yù)測、區(qū)域內(nèi)出租車服務(wù)比率的預(yù)測應(yīng)用，使用的機(jī)器學(xué)習(xí)算法主要有決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。以上的研究利用了大數(shù)據(jù)的技術(shù)與算法，但還沒能夠應(yīng)用到網(wǎng)約車識別的領(lǐng)域。

總的來說，國內(nèi)外還缺乏一種行之有效的，使用手機(jī)信令數(shù)據(jù)，利用機(jī)器學(xué)習(xí)算法來鑒別網(wǎng)約車的方法。因此，本文將做初步嘗試，在僅有出租車司機(jī)一類用戶標(biāo)簽的情況下，對包括出租車與網(wǎng)約車混合用戶的數(shù)據(jù)集進(jìn)行類別判斷，判別出的結(jié)果可以為網(wǎng)約車的監(jiān)管服務(wù)。

2 數(shù)據(jù)描述

本文所分析的樣例司機(jī)用戶基于以下3個原始數(shù)據(jù)集：

表1 樣例司機(jī)用戶原始數(shù)據(jù)集表

出租車司機(jī)用戶數(shù)據(jù)集為D，是數(shù)據(jù)集A、B、C的交集：

在數(shù)據(jù)集D中，隨機(jī)抽取150個已知出租車司機(jī)用戶作為樣本集M。

數(shù)據(jù)集E是數(shù)據(jù)集C與數(shù)據(jù)集D的差集，其中包括了均使用智能手機(jī)應(yīng)用軟件提供出行服務(wù)的網(wǎng)約車司機(jī)和出租車司機(jī)。

在數(shù)據(jù)集E中，隨機(jī)抽取150個未知類別的司機(jī)用戶作為樣本集N。

3 特征抽取

抽取以上300個用戶2017年3月6日至3月19日之間兩周的信令數(shù)據(jù)作為特征抽取的原始數(shù)據(jù)。

定義周一至周五的9∶00-17∶00為忙時，周一至周五17∶00-24∶00 和 0∶00-9∶00 為閑時。

抽取的特征主要包括小區(qū)切換和駐留時長兩大類，如表2所示：

表2 特征抽取類別表

提取以上特征后，通過選取任意2維特征繪制散點(diǎn)圖，如圖1、2所示：

圖1 小區(qū)切換數(shù)日標(biāo)準(zhǔn)差和閑時駐留標(biāo)準(zhǔn)差二維特征散點(diǎn)圖

圖2 小區(qū)切換數(shù)日均值和小區(qū)切換數(shù)日標(biāo)準(zhǔn)差二維特征散點(diǎn)圖

圖1中，橫坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的小區(qū)切換數(shù)日標(biāo)準(zhǔn)差特征，縱坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的閑時駐留標(biāo)準(zhǔn)差特征；圖2中，橫坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的小區(qū)切換數(shù)日均值特征，縱坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的小區(qū)切換數(shù)日標(biāo)準(zhǔn)差特征。紅色的點(diǎn)表示樣本集M，即出租車司機(jī)，藍(lán)色的點(diǎn)表示樣本集N，即未知類別的司機(jī)用戶；通過圖1和圖2，直觀上，樣本集M與樣本集N的分布存在一定的差異性，從側(cè)面說明特征在一定程度上反映了兩類司機(jī)的行為差異。

4 特征分析

t-SNE（t-Distributed Stochastic Neighbor Embedding）是由Laurens van der Maaten和 Geoffrey Hinton提出一種流形的（Manifold）數(shù)據(jù)降維的方法。它是在SNE的基礎(chǔ)上發(fā)展而來的，在低維空間下使用更重長尾分布的t分布來避免crowding問題和難以優(yōu)化的問題。

該算法先將歐幾里得距離轉(zhuǎn)換為條件概率來表達(dá)點(diǎn)與點(diǎn)之間的相似度。給定一個N個高維的數(shù)據(jù)x1，…，xN，計(jì)算概率pj|i為：

對低維度下的y_i，使用t分布后的兩點(diǎn)相似度為：

優(yōu)化的梯度為：

使用t-SNE對特征進(jìn)行降維可視化：

圖3 t-SNE維度特征圖

圖3中，紅色的點(diǎn)表示樣本集M，即出租車司機(jī)，藍(lán)色的點(diǎn)表示樣本集N，即未知類別的司機(jī)用戶。從圖3的可視化結(jié)果可以看出，基于選取的特征，兩類司機(jī)的分布存在一定的差異性。

5 建模過程與結(jié)果分析

采用基于聚類的判別模型來鑒別未知的司機(jī)用戶為出租車司機(jī)還是網(wǎng)約車司機(jī)，具體的分析流程如圖4所示。

將樣本集M按照8∶2隨機(jī)劃分為聚類訓(xùn)練集P與驗(yàn)證集Q，將樣本集N作為測試集N。

圖4 聚類判別模型分析流程圖

對于訓(xùn)練集P：

第一步，進(jìn)行特征數(shù)據(jù)的獲取并標(biāo)準(zhǔn)歸一化；

第二步，判斷數(shù)據(jù)集的最佳聚類數(shù)K；

第三步，刪除異常樣本點(diǎn)；

第四步，計(jì)算聚類中心點(diǎn)；

第五步，計(jì)算各個樣本點(diǎn)到各個聚類中心點(diǎn)的距離之和；

第六步，設(shè)定類別判定的閾值。

對于驗(yàn)證集Q與測試集N：

第一步，進(jìn)行特征數(shù)據(jù)的獲取并標(biāo)準(zhǔn)歸一化；

第二步，計(jì)算數(shù)據(jù)集中各個樣本點(diǎn)到訓(xùn)練集各個聚類中心點(diǎn)的距離之和；

第三步，根據(jù)閾值進(jìn)行判斷，并輸出判別結(jié)果。

5.1 聚類數(shù)選擇

對于訓(xùn)練集P，使用輪廓系數(shù)（Silhouette Coef fi cient）計(jì)算最佳聚類數(shù)K。輪廓系數(shù)是類的密集與分散程度的評價(jià)指標(biāo)。

其中：

a（i）為i向量到同一簇內(nèi)其他點(diǎn)不相似程度的平均值，即測量了組內(nèi)的相似度。

b（i）為i向量到其他簇的平均不相似程度的最小值，即測量了組間的相似度。

s（i）的范圍從-1到1，值越大說明組內(nèi)內(nèi)聚度和組間分離度相對較優(yōu)。

圖5 最佳聚類K判斷圖

圖5中，橫坐標(biāo)表示不同的聚類數(shù)K，縱坐標(biāo)表示輪廓系數(shù)。當(dāng)聚類數(shù)為3時，s（i）的值最大。因此，取最佳聚類數(shù)K=3。

5.2 聚類分析

使用K-Means算法對訓(xùn)練集P進(jìn)行聚類分析。

K-Means屬于劃分式聚類算法，聚類相似度是利用各聚類中對象的均值所獲得一個中心來進(jìn)行計(jì)算的。其主要工作過程為：首先從n個數(shù)據(jù)對象中任意選擇k個對象作為初始聚類中心，對于所剩下的其它對象，則根據(jù)它們與這些聚類中心的相似度（距離），分別將它們分配給與其最相似的聚類；然后再計(jì)算每個所獲新聚類的聚類中心（該聚類中所有對象的均值）；不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般使用均方差作為標(biāo)準(zhǔn)測度函數(shù)。

將訓(xùn)練集P聚成3類，得到的聚類結(jié)果如圖6所示。

圖6 訓(xùn)練集聚類結(jié)果圖

在以上聚類結(jié)果的基礎(chǔ)上，對異常點(diǎn)進(jìn)行處理，得到108個有效采樣點(diǎn)。其主要分布情況如表3所示。

如圖7所示，由此，對于每個聚類簇，可得中心點(diǎn)所對應(yīng)的每個維度特征值。

圖7 聚類簇維度特征值圖

5.3 用戶行為特征分析

以特征為橫坐標(biāo)，特征值為縱坐標(biāo)，繪制折線圖，查看三個聚類中心點(diǎn)的分布，如圖8所示。

圖8 聚類中心點(diǎn)分布圖

由圖8可知，以上三個聚類簇在6個指標(biāo)上差異性較大：忙時小區(qū)切換數(shù)均值，忙時小區(qū)切換數(shù)標(biāo)準(zhǔn)差，閑時小區(qū)切換數(shù)均值，閑時小區(qū)切換數(shù)標(biāo)準(zhǔn)差，小區(qū)切換數(shù)日均值，小區(qū)切換數(shù)日標(biāo)準(zhǔn)差。

分別繪制三個類別樣本在以上6個特征上的分布箱形圖（見圖9）。

圖9 特征分布箱形圖

圖9中橫坐標(biāo)為各個類別，每個箱形的下邊緣表示最小值，上邊緣表示最大值，箱子的底部表示四分之一分位，箱子的頂部表示四分之三分位，箱子中間的線表示中位數(shù)。箱子的寬窄表示了該類別樣本數(shù)的多少?？偟膩碚f，箱形圖表示了各個類別中樣本的分布情況。

可以看出，在上述的6個特征上，cluster1與cluster2的整體趨勢比較相近，且cluster2對應(yīng)的特征值均低于cluster1相對應(yīng)的特征值；但cluster3和cluster1在趨勢上整體相反。具體來說，有以下幾點(diǎn)：

（1）對于cluster1中的司機(jī)，有以下結(jié)論：

忙時小區(qū)切換數(shù)均值指標(biāo)最高，說明該類出租車司機(jī)在周一至周五的9∶00-17∶00，即白天活動最為頻繁；閑時小區(qū)切換數(shù)均值指標(biāo)較低，說明該類出租車司機(jī)在周一至周五17∶00-24∶00和0∶00-9∶00，即夜間活動較少；小區(qū)切換數(shù)日均值指標(biāo)最高，說明該類出租車司機(jī)整體活動較為頻繁。因此，該類出租車司機(jī)是具有典型出租車活動行為特征的司機(jī)。

（2）對于cluster2中的司機(jī)，有以下結(jié)論：

忙時小區(qū)切換數(shù)均值指標(biāo)較低，說明該類出租車司機(jī)在周一至周五的9∶00-17∶00，即白天活動不太頻繁；閑時小區(qū)切換數(shù)均值指標(biāo)也較低，說明該類出租車司機(jī)在周一至周五17∶00-24∶00和0∶00-9∶00，即夜間活動也不太頻繁；小區(qū)切換數(shù)日均值指標(biāo)同樣較低，說明該類出租車司機(jī)的整體活動不頻繁?？梢钥闯?，該類出租車司機(jī)切換小區(qū)次數(shù)相對較少，也就是說更偏向于在某些區(qū)域進(jìn)行駐留待客，因此，從行為特征的角度來說，和網(wǎng)約車司機(jī)駐留待客的行為比較類似。

（3）對于cluster3中的司機(jī)，有以下結(jié)論：

忙時小區(qū)切換數(shù)均值指標(biāo)較低，說明該類出租車司機(jī)在周一至周五的9∶00-17∶00，即白天活動不太頻繁；閑時小區(qū)切換數(shù)均值指標(biāo)較高，說明該類出租車司機(jī)在周一至周五17∶00-24∶ 00和0∶00-9∶00，即夜間活動比較頻繁；小區(qū)切換數(shù)日均值指標(biāo)較高，說明該類出租車司機(jī)的整體活動趨于頻繁。可以看出，該類出租車司機(jī)具有晝伏夜出的特點(diǎn)，因此，從行為特征的角度來說，和典型網(wǎng)約車司機(jī)晝伏夜出的特點(diǎn)也比較類似。

總體來看，cluster1中的用戶具有典型的出租車司機(jī)行為特征，cluster2和cluster3中的用戶雖然是出租車司機(jī)，但在行為特征上和網(wǎng)約車司機(jī)比較類似。

5.4 閾值設(shè)定

計(jì)算訓(xùn)練集P中各有效樣本點(diǎn)x到各個中心點(diǎn)的距離之和，并排序，繪制增量圖，如圖10所示：

圖10 樣本點(diǎn)到各中心點(diǎn)距離之和增量圖

圖10中，x軸表示訓(xùn)練樣本序號，y軸表示樣本點(diǎn)到各個中心點(diǎn)的距離之和。

由圖可看出：

當(dāng)x ＜ 101時，距離的增長速度較為平緩；

當(dāng)x ＞ 101時，距離的增長速度較快；

由此得出：

x = 101為樣本集中的拐點(diǎn)。因此，將其對應(yīng)的距離，即y值設(shè)置為分類的閾值：

5.5 結(jié)果輸出

對既包含網(wǎng)約車司機(jī)又包含出租車司機(jī)且沒有類別標(biāo)簽的混合數(shù)據(jù)集，本文采用以上基于聚類和閾值相結(jié)合的方法來判斷未知標(biāo)簽的樣本的類別歸屬。

當(dāng)測試集中的樣本點(diǎn)到三個聚類中心點(diǎn)的距離之和大于閾值時，即判斷該樣本點(diǎn)為網(wǎng)約車司機(jī)，反之，則判定該樣本點(diǎn)為出租車司機(jī)。

對驗(yàn)證集Q和測試集N進(jìn)行判定，得到的結(jié)果如表4所示：

表4 聚類模型判定表

（1）由此可見：

對于驗(yàn)證集Q中的30個樣本，根據(jù)該模型判斷，有23個司機(jī)用戶屬于出租車，取得了76.7%的召回率。

對于測試集N中的150個樣本，使用基于聚類的判別模型，發(fā)現(xiàn)有97個司機(jī)用戶屬于出租車，即64.7%的司機(jī)被判別為出租車司機(jī)，35.3%的司機(jī)被判別為網(wǎng)約車司機(jī)。

（2）更進(jìn)一步：

對測試集N中被判定為出租車的97個用戶，根據(jù)其到三個中心點(diǎn)的距離進(jìn)行分類，得到進(jìn)一步的分類結(jié)果，匯總結(jié)果如表5所示：

表5 中心點(diǎn)距離閾值判定表

因此，由以上分類結(jié)果可以看出，測試集N中僅僅7.3%的司機(jī)為典型的出租車司機(jī)，57.3%的被判斷為出租車的司機(jī)在行為特征上和網(wǎng)約車司機(jī)較為類似。

6 結(jié)論與改進(jìn)措施

本文利用移動運(yùn)營商提供的手機(jī)信令數(shù)據(jù)，提取出可以映射司機(jī)移動行為的特征，并提出了一種基于聚類判別的模型，在擁有出租車司機(jī)單類別標(biāo)識樣本的情況下，對出租車與網(wǎng)約車混合用戶的數(shù)據(jù)集進(jìn)行類別歸屬的判斷。鑒別出的結(jié)果在一定程度上能夠?yàn)榻煌▓?zhí)法部門打擊非法網(wǎng)約車進(jìn)行服務(wù)，幫助他們快速定位嫌疑車輛，降低執(zhí)法的人力成本，提升工作效率。

本研究是使用手機(jī)信令大數(shù)據(jù)與機(jī)器學(xué)習(xí)算法模型對網(wǎng)約車司機(jī)進(jìn)行判別的初步嘗試，還存在一些不足。例如受用戶樣本數(shù)所限，建模的數(shù)據(jù)規(guī)模還偏小。未來的研究中還有一些問題需要解決和改進(jìn)：增加除了移動行為特征外的其他數(shù)據(jù)特征，如主流的、提供預(yù)約出行服務(wù)的手機(jī)App使用數(shù)據(jù)；增加對比樣例，提升分析結(jié)果的置信度。