冷婷 閆興秀 余健 談煒 孫嫻
南京華蘇科技有限公司
在“互聯(lián)網(wǎng)+”的政策背景和市場推動下,網(wǎng)約車作為一種新興出行用車方式,迅速成為市場的寵兒,成為智慧出行的重要組成部分。
網(wǎng)約車即網(wǎng)絡(luò)預(yù)約出租汽車,是一種將乘客、司機(jī)與車輛連接起來,乘客通過智能手機(jī)應(yīng)用軟件,預(yù)約司機(jī)接送服務(wù)的出行方式。網(wǎng)約車的出現(xiàn),滿足社會公眾多樣化出行需求,提升了機(jī)動車的利用效率,但是隨著網(wǎng)約車規(guī)模的不斷擴(kuò)大,它帶來的一系列社會監(jiān)管難題也是不容忽視的。
網(wǎng)約車與傳統(tǒng)的出租車既有區(qū)別又有聯(lián)系。在車輛顏色與車型上,出租車一般有統(tǒng)一的顏色與標(biāo)識,網(wǎng)約車則多種多樣。在運(yùn)營方式上,出租車可以巡游攬客、站點(diǎn)候客和預(yù)約接客,而網(wǎng)約車不可以巡游接客,只能通過網(wǎng)絡(luò)平臺為預(yù)約顧客提供服務(wù)。在監(jiān)管上,出租車一般由出租車公司進(jìn)行統(tǒng)一管理,而網(wǎng)約車則缺乏一定的監(jiān)管機(jī)制。
初期,網(wǎng)約車是對出租車的補(bǔ)充。隨著網(wǎng)約車專職司機(jī)的增多,網(wǎng)約車對傳統(tǒng)出租車行業(yè)形成了一定的沖擊,遭到了出租車司機(jī)一定程度上的抵制。此外,由于網(wǎng)約車平臺對司機(jī)和車輛的審查并不嚴(yán)格,市場亂象叢生,糾紛、事故等社會問題層出不窮,網(wǎng)約車市場亟需規(guī)范管理。
為了管理網(wǎng)約車市場的亂象,《網(wǎng)絡(luò)預(yù)約出租汽車經(jīng)營服務(wù)管理暫行辦法》1http://www.miit.gov.cn/n1146295/n1146557/n1146624/c5218603/content.html于2016年11月1日起施行。其中明確規(guī)定了,在運(yùn)營服務(wù)中,駕駛員不得在街上巡游攬客,不應(yīng)在機(jī)場、火車站等設(shè)立統(tǒng)一巡游車調(diào)度服務(wù)站或?qū)嵭信抨?duì)候客的場所攬客。
在網(wǎng)約車營運(yùn)新規(guī)出臺的大背景下,交通局作為公共出行服務(wù)管理機(jī)構(gòu),必須加強(qiáng)對網(wǎng)約車的管理。目前對網(wǎng)約車的管理方式是通過人工巡查的方式來進(jìn)行,但這樣耗費(fèi)了大量的人力,因此,交通局迫切需要一種自動化的篩選方式,來幫助他們鎖定嫌疑車輛,實(shí)現(xiàn)快速高效的執(zhí)法。
手機(jī)作為現(xiàn)代人生活的必需品之一,與人的活動密不可分,這讓使用移動運(yùn)營商的數(shù)據(jù)來映射每個司機(jī)的移動行為成為可能。
出租車司機(jī)一般與出租車公司簽訂合同,進(jìn)行手機(jī)號等個人信息備案。因此,出租車司機(jī)比較容易被辨識。但是,由于網(wǎng)約車司機(jī)手機(jī)號變更、一人多機(jī)等情況的客觀存在,以及網(wǎng)約車司機(jī)個人信息的難以獲取,這使得網(wǎng)約車司機(jī)的識別任務(wù)變得困難。
本文以手機(jī)的信令數(shù)據(jù)為基礎(chǔ),提取出司機(jī)的移動特征,提出了一種基于聚類的判別模型來鑒別網(wǎng)約車司機(jī)。該模型能夠在僅知一類數(shù)據(jù)標(biāo)簽的情況下,判別出未知標(biāo)簽的數(shù)據(jù)是否歸屬于已知類別。
網(wǎng)約車作為新生事物,大多學(xué)者主要把研究視角集中于網(wǎng)約車的監(jiān)管與管理對策上,主要關(guān)注網(wǎng)約車平臺的定價(jià)策略,使用了波動支持向量機(jī)(wave SVM)模型來預(yù)測短期內(nèi)的交通需求,并據(jù)此為網(wǎng)約車App提供一個更加動態(tài)的需求共享平臺,以保障乘客無論在何時何地都能夠獲取網(wǎng)約車提供的出行服務(wù)。以上的研究僅僅涉及了如何提升網(wǎng)約車的服務(wù)上,缺乏相對有效的方法把網(wǎng)約車快速地識別出來。
在運(yùn)用大數(shù)據(jù)為交通管理服務(wù)的研究方面,大多基于GPRS的定位數(shù)據(jù),多涉及出行目的地的預(yù)測、區(qū)域內(nèi)出租車服務(wù)比率的預(yù)測應(yīng)用,使用的機(jī)器學(xué)習(xí)算法主要有決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。以上的研究利用了大數(shù)據(jù)的技術(shù)與算法,但還沒能夠應(yīng)用到網(wǎng)約車識別的領(lǐng)域。
總的來說,國內(nèi)外還缺乏一種行之有效的,使用手機(jī)信令數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法來鑒別網(wǎng)約車的方法。因此,本文將做初步嘗試,在僅有出租車司機(jī)一類用戶標(biāo)簽的情況下,對包括出租車與網(wǎng)約車混合用戶的數(shù)據(jù)集進(jìn)行類別判斷,判別出的結(jié)果可以為網(wǎng)約車的監(jiān)管服務(wù)。
本文所分析的樣例司機(jī)用戶基于以下3個原始數(shù)據(jù)集:
表1 樣例司機(jī)用戶原始數(shù)據(jù)集表
出租車司機(jī)用戶數(shù)據(jù)集為D,是數(shù)據(jù)集A、B、C的交集:
在數(shù)據(jù)集D中,隨機(jī)抽取150個已知出租車司機(jī)用戶作為樣本集M。
數(shù)據(jù)集E是數(shù)據(jù)集C與數(shù)據(jù)集D的差集,其中包括了均使用智能手機(jī)應(yīng)用軟件提供出行服務(wù)的網(wǎng)約車司機(jī)和出租車司機(jī)。
在數(shù)據(jù)集E中,隨機(jī)抽取150個未知類別的司機(jī)用戶作為樣本集N。
抽取以上300個用戶2017年3月6日至3月19日之間兩周的信令數(shù)據(jù)作為特征抽取的原始數(shù)據(jù)。
定義周一至周五的9∶00-17∶00為忙時,周一至周五17∶00-24∶00 和 0∶00-9∶00 為閑時。
抽取的特征主要包括小區(qū)切換和駐留時長兩大類,如表2所示:
表2 特征抽取類別表
提取以上特征后,通過選取任意2維特征繪制散點(diǎn)圖,如圖1、2所示:
圖1 小區(qū)切換數(shù)日標(biāo)準(zhǔn)差和閑時駐留標(biāo)準(zhǔn)差二維特征散點(diǎn)圖
圖2 小區(qū)切換數(shù)日均值和小區(qū)切換數(shù)日標(biāo)準(zhǔn)差二維特征散點(diǎn)圖
圖1中,橫坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的小區(qū)切換數(shù)日標(biāo)準(zhǔn)差特征,縱坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的閑時駐留標(biāo)準(zhǔn)差特征;圖2中,橫坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的小區(qū)切換數(shù)日均值特征,縱坐標(biāo)表示標(biāo)準(zhǔn)歸一化后的小區(qū)切換數(shù)日標(biāo)準(zhǔn)差特征。紅色的點(diǎn)表示樣本集M,即出租車司機(jī),藍(lán)色的點(diǎn)表示樣本集N,即未知類別的司機(jī)用戶;通過圖1和圖2,直觀上,樣本集M與樣本集N的分布存在一定的差異性,從側(cè)面說明特征在一定程度上反映了兩類司機(jī)的行為差異。
t-SNE(t-Distributed Stochastic Neighbor Embedding) 是由Laurens van der Maaten和 Geoffrey Hinton提出一種流形的(Manifold)數(shù)據(jù)降維的方法。它是在SNE的基礎(chǔ)上發(fā)展而來的,在低維空間下使用更重長尾分布的t分布來避免crowding問題和難以優(yōu)化的問題。
該算法先將歐幾里得距離轉(zhuǎn)換為條件概率來表達(dá)點(diǎn)與點(diǎn)之間的相似度。給定一個N個高維的數(shù)據(jù)x1,…,xN,計(jì)算概率pj|i為:
對低維度下的y_i,使用t分布后的兩點(diǎn)相似度為:
優(yōu)化的梯度為:
使用t-SNE對特征進(jìn)行降維可視化:
圖3 t-SNE維度特征圖
圖3中,紅色的點(diǎn)表示樣本集M,即出租車司機(jī),藍(lán)色的點(diǎn)表示樣本集N,即未知類別的司機(jī)用戶。從圖3的可視化結(jié)果可以看出,基于選取的特征,兩類司機(jī)的分布存在一定的差異性。
采用基于聚類的判別模型來鑒別未知的司機(jī)用戶為出租車司機(jī)還是網(wǎng)約車司機(jī),具體的分析流程如圖4所示。
將樣本集M按照8∶2隨機(jī)劃分為聚類訓(xùn)練集P與驗(yàn)證集Q,將樣本集N作為測試集N。
圖4 聚類判別模型分析流程圖
對于訓(xùn)練集P:
第一步,進(jìn)行特征數(shù)據(jù)的獲取并標(biāo)準(zhǔn)歸一化;
第二步,判斷數(shù)據(jù)集的最佳聚類數(shù)K;
第三步,刪除異常樣本點(diǎn);
第四步,計(jì)算聚類中心點(diǎn);
第五步,計(jì)算各個樣本點(diǎn)到各個聚類中心點(diǎn)的距離之和;
第六步,設(shè)定類別判定的閾值。
對于驗(yàn)證集Q與測試集N:
第一步,進(jìn)行特征數(shù)據(jù)的獲取并標(biāo)準(zhǔn)歸一化;
第二步,計(jì)算數(shù)據(jù)集中各個樣本點(diǎn)到訓(xùn)練集各個聚類中心點(diǎn)的距離之和;
第三步,根據(jù)閾值進(jìn)行判斷,并輸出判別結(jié)果。
對于訓(xùn)練集P,使用輪廓系數(shù)(Silhouette Coef fi cient)計(jì)算最佳聚類數(shù)K。輪廓系數(shù)是類的密集與分散程度的評價(jià)指標(biāo)。
其中:
a(i)為i向量到同一簇內(nèi)其他點(diǎn)不相似程度的平均值,即測量了組內(nèi)的相似度。
b(i)為i向量到其他簇的平均不相似程度的最小值,即測量了組間的相似度。
s(i)的范圍從-1到1,值越大說明組內(nèi)內(nèi)聚度和組間分離度相對較優(yōu)。
圖5 最佳聚類K判斷圖
圖5中,橫坐標(biāo)表示不同的聚類數(shù)K,縱坐標(biāo)表示輪廓系數(shù)。當(dāng)聚類數(shù)為3時,s(i)的值最大。因此,取最佳聚類數(shù)K=3。
使用K-Means算法對訓(xùn)練集P進(jìn)行聚類分析。
K-Means屬于劃分式聚類算法,聚類相似度是利用各聚類中對象的均值所獲得一個中心來進(jìn)行計(jì)算的。其主要工作過程為:首先從n個數(shù)據(jù)對象中任意選擇k個對象作為初始聚類中心,對于所剩下的其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的聚類;然后再計(jì)算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般使用均方差作為標(biāo)準(zhǔn)測度函數(shù)。
將訓(xùn)練集P聚成3類,得到的聚類結(jié)果如圖6所示。
圖6 訓(xùn)練集聚類結(jié)果圖
在以上聚類結(jié)果的基礎(chǔ)上,對異常點(diǎn)進(jìn)行處理,得到108個有效采樣點(diǎn)。其主要分布情況如表3所示。
如圖7所示,由此,對于每個聚類簇,可得中心點(diǎn)所對應(yīng)的每個維度特征值。
圖7 聚類簇維度特征值圖
以特征為橫坐標(biāo),特征值為縱坐標(biāo),繪制折線圖,查看三個聚類中心點(diǎn)的分布,如圖8所示。
圖8 聚類中心點(diǎn)分布圖
由圖8可知,以上三個聚類簇在6個指標(biāo)上差異性較大:忙時小區(qū)切換數(shù)均值,忙時小區(qū)切換數(shù)標(biāo)準(zhǔn)差,閑時小區(qū)切換數(shù)均值,閑時小區(qū)切換數(shù)標(biāo)準(zhǔn)差,小區(qū)切換數(shù)日均值,小區(qū)切換數(shù)日標(biāo)準(zhǔn)差。
分別繪制三個類別樣本在以上6個特征上的分布箱形圖(見圖9)。
圖9 特征分布箱形圖
圖9中橫坐標(biāo)為各個類別,每個箱形的下邊緣表示最小值,上邊緣表示最大值,箱子的底部表示四分之一分位,箱子的頂部表示四分之三分位,箱子中間的線表示中位數(shù)。箱子的寬窄表示了該類別樣本數(shù)的多少??偟膩碚f,箱形圖表示了各個類別中樣本的分布情況。
可以看出,在上述的6個特征上,cluster1與cluster2的整體趨勢比較相近,且cluster2對應(yīng)的特征值均低于cluster1相對應(yīng)的特征值;但cluster3和cluster1在趨勢上整體相反。具體來說,有以下幾點(diǎn):
(1)對于cluster1中的司機(jī),有以下結(jié)論:
忙時小區(qū)切換數(shù)均值指標(biāo)最高,說明該類出租車司機(jī)在周一至周五的9∶00-17∶00,即白天活動最為頻繁;閑時小區(qū)切換數(shù)均值指標(biāo)較低,說明該類出租車司機(jī)在周一至周五17∶00-24∶00和0∶00-9∶00,即夜間活動較少;小區(qū)切換數(shù)日均值指標(biāo)最高,說明該類出租車司機(jī)整體活動較為頻繁。因此,該類出租車司機(jī)是具有典型出租車活動行為特征的司機(jī)。
(2)對于cluster2中的司機(jī),有以下結(jié)論:
忙時小區(qū)切換數(shù)均值指標(biāo)較低,說明該類出租車司機(jī)在周一至周五的9∶00-17∶00,即白天活動不太頻繁;閑時小區(qū)切換數(shù)均值指標(biāo)也較低,說明該類出租車司機(jī)在周一至周五17∶00-24∶00和0∶00-9∶00,即夜間活動也不太頻繁;小區(qū)切換數(shù)日均值指標(biāo)同樣較低,說明該類出租車司機(jī)的整體活動不頻繁??梢钥闯?,該類出租車司機(jī)切換小區(qū)次數(shù)相對較少,也就是說更偏向于在某些區(qū)域進(jìn)行駐留待客,因此,從行為特征的角度來說,和網(wǎng)約車司機(jī)駐留待客的行為比較類似。
(3)對于cluster3中的司機(jī),有以下結(jié)論:
忙時小區(qū)切換數(shù)均值指標(biāo)較低,說明該類出租車司機(jī)在周一至周五的9∶00-17∶00,即白天活動不太頻繁;閑時小區(qū)切換數(shù)均值指標(biāo)較高,說明該類出租車司機(jī)在周一至周五17∶00-24∶ 00和0∶00-9∶00,即夜間活動比較頻繁;小區(qū)切換數(shù)日均值指標(biāo)較高,說明該類出租車司機(jī)的整體活動趨于頻繁。可以看出,該類出租車司機(jī)具有晝伏夜出的特點(diǎn),因此,從行為特征的角度來說,和典型網(wǎng)約車司機(jī)晝伏夜出的特點(diǎn)也比較類似。
總體來看,cluster1中的用戶具有典型的出租車司機(jī)行為特征,cluster2和cluster3中的用戶雖然是出租車司機(jī),但在行為特征上和網(wǎng)約車司機(jī)比較類似。
計(jì)算訓(xùn)練集P中各有效樣本點(diǎn)x到各個中心點(diǎn)的距離之和,并排序,繪制增量圖,如圖10所示:
圖10 樣本點(diǎn)到各中心點(diǎn)距離之和增量圖
圖10中,x軸表示訓(xùn)練樣本序號,y軸表示樣本點(diǎn)到各個中心點(diǎn)的距離之和。
由圖可看出:
當(dāng)x < 101時,距離的增長速度較為平緩;
當(dāng)x > 101時,距離的增長速度較快;
由此得出:
x = 101為樣本集中的拐點(diǎn)。因此,將其對應(yīng)的距離,即y值設(shè)置為分類的閾值:
對既包含網(wǎng)約車司機(jī)又包含出租車司機(jī)且沒有類別標(biāo)簽的混合數(shù)據(jù)集,本文采用以上基于聚類和閾值相結(jié)合的方法來判斷未知標(biāo)簽的樣本的類別歸屬。
當(dāng)測試集中的樣本點(diǎn)到三個聚類中心點(diǎn)的距離之和大于閾值時,即判斷該樣本點(diǎn)為網(wǎng)約車司機(jī),反之,則判定該樣本點(diǎn)為出租車司機(jī)。
對驗(yàn)證集Q和測試集N進(jìn)行判定,得到的結(jié)果如表4所示:
表4 聚類模型判定表
(1)由此可見:
對于驗(yàn)證集Q中的30個樣本,根據(jù)該模型判斷,有23個司機(jī)用戶屬于出租車,取得了76.7%的召回率。
對于測試集N中的150個樣本,使用基于聚類的判別模型,發(fā)現(xiàn)有97個司機(jī)用戶屬于出租車,即64.7%的司機(jī)被判別為出租車司機(jī),35.3%的司機(jī)被判別為網(wǎng)約車司機(jī)。
(2)更進(jìn)一步:
對測試集N中被判定為出租車的97個用戶,根據(jù)其到三個中心點(diǎn)的距離進(jìn)行分類,得到進(jìn)一步的分類結(jié)果,匯總結(jié)果如表5所示:
表5 中心點(diǎn)距離閾值判定表
因此,由以上分類結(jié)果可以看出,測試集N中僅僅7.3%的司機(jī)為典型的出租車司機(jī),57.3%的被判斷為出租車的司機(jī)在行為特征上和網(wǎng)約車司機(jī)較為類似。
本文利用移動運(yùn)營商提供的手機(jī)信令數(shù)據(jù),提取出可以映射司機(jī)移動行為的特征,并提出了一種基于聚類判別的模型,在擁有出租車司機(jī)單類別標(biāo)識樣本的情況下,對出租車與網(wǎng)約車混合用戶的數(shù)據(jù)集進(jìn)行類別歸屬的判斷。鑒別出的結(jié)果在一定程度上能夠?yàn)榻煌▓?zhí)法部門打擊非法網(wǎng)約車進(jìn)行服務(wù),幫助他們快速定位嫌疑車輛,降低執(zhí)法的人力成本,提升工作效率。
本研究是使用手機(jī)信令大數(shù)據(jù)與機(jī)器學(xué)習(xí)算法模型對網(wǎng)約車司機(jī)進(jìn)行判別的初步嘗試,還存在一些不足。例如受用戶樣本數(shù)所限,建模的數(shù)據(jù)規(guī)模還偏小。未來的研究中還有一些問題需要解決和改進(jìn):增加除了移動行為特征外的其他數(shù)據(jù)特征,如主流的、提供預(yù)約出行服務(wù)的手機(jī)App使用數(shù)據(jù);增加對比樣例,提升分析結(jié)果的置信度。