劉昱崗,鄭 帥,徐旭東,王添碧,葉勁松
(1.西南交通大學(xué) 交通運(yùn)輸與物流學(xué)院, 四川 成都 610031;2.西南交通大學(xué) 綜合交通運(yùn)輸智能化國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室,四川 成都 610031; 3.交通運(yùn)輸部科學(xué)研究院,北京 100088;4.四川省交通運(yùn)輸發(fā)展戰(zhàn)略和規(guī)劃科學(xué)研究院,四川 成都 610001)
為響應(yīng)惠農(nóng)興農(nóng)的精神,四川省于2010年12月1日全面給予運(yùn)輸鮮活農(nóng)產(chǎn)品車(chē)輛“綠色通道”政策支持。但一些不法車(chē)主利用該政策,通過(guò)“混裝”即在普通貨物上覆蓋一層鮮活農(nóng)產(chǎn)品的方式逃繳通行費(fèi),給高速運(yùn)營(yíng)部門(mén)帶來(lái)了巨大損失?,F(xiàn)階段逃費(fèi)行為頻發(fā),但針對(duì)假冒綠通車(chē)的稽查手段卻相對(duì)落后,主要依靠工作人員在車(chē)道現(xiàn)場(chǎng)對(duì)每輛出站綠通車(chē)開(kāi)箱檢驗(yàn),極少數(shù)收費(fèi)站安裝了放射源綠通車(chē)專(zhuān)業(yè)檢測(cè)設(shè)備。隨著鮮活農(nóng)產(chǎn)品運(yùn)輸需求擴(kuò)大,綠通車(chē)通行量增加,綠通車(chē)稽查工作面臨的檢查難、效率低、成本高、風(fēng)險(xiǎn)大的難題更突出,成為高速公路稽查管理部門(mén)亟待解決的問(wèn)題。
現(xiàn)階段大數(shù)據(jù)、數(shù)據(jù)挖掘技術(shù)已經(jīng)完全具備實(shí)際應(yīng)用能力,將其應(yīng)用到綠通車(chē)排查,可以為綠通車(chē)檢查工作提供決策參考,降低假冒綠通車(chē)成功逃費(fèi)情況的發(fā)生概率,從而提高檢查假冒綠通車(chē)的效率及收費(fèi)站通行效率。
國(guó)內(nèi)研究學(xué)者對(duì)高速公路綠通車(chē)稽查管理工作做了大量相關(guān)研究,主要從2個(gè)方面來(lái)解決假冒綠通車(chē)逃費(fèi)的問(wèn)題。一是通過(guò)優(yōu)化政策和完善制度來(lái)解決綠通車(chē)管理中存在的不足,二是通過(guò)運(yùn)用放射源等檢測(cè)設(shè)備、圖像識(shí)別、數(shù)據(jù)挖掘、互聯(lián)網(wǎng)等新技術(shù)來(lái)檢查或管理綠通車(chē)。國(guó)外由于無(wú)“綠色通道”類(lèi)似政策,其研究更多偏向高速公路收費(fèi)政策、高速公路管理技術(shù)應(yīng)用等方面。陳力[1]認(rèn)為在全面取消省界收費(fèi)站且繼續(xù)執(zhí)行現(xiàn)有“綠色通道”政策的背景下,建議將綠通車(chē)傳統(tǒng)的“先檢查后免費(fèi)”模式轉(zhuǎn)變?yōu)椤跋仁召M(fèi)后退還”的模式,并根據(jù)綠通車(chē)誠(chéng)信度建立分級(jí)備案機(jī)制,對(duì)誠(chéng)信度高的車(chē)輛免檢、抽檢,對(duì)誠(chéng)信度低的車(chē)輛必檢。牛建強(qiáng)等[2]建議建立鮮活農(nóng)產(chǎn)品基準(zhǔn)密度庫(kù),利用光電體積測(cè)算法獲取檢查車(chē)輛的裝載體積,再對(duì)比車(chē)輛裝載密度與基準(zhǔn)密度的偏差,判斷是否混裝。熊文磊[3]以放射源掃描綠通車(chē)形成的特殊影像作為初始數(shù)據(jù)集,建立了一個(gè)具備影像識(shí)別功能的預(yù)測(cè)模型,并通過(guò)試驗(yàn)分析證明了模型的有效性與先進(jìn)性。孫曉寧[4]提出建立集數(shù)據(jù)采集、分析、處理為一體的便攜綠通查驗(yàn)平臺(tái),以實(shí)現(xiàn)多系統(tǒng)多平臺(tái)同步操作、聯(lián)動(dòng)存儲(chǔ)、多角度監(jiān)控及移動(dòng)監(jiān)管的功能。在數(shù)據(jù)挖掘技術(shù)方面,陳浩泰[5]基于生鮮車(chē)輛的高速通行數(shù)據(jù)利用Logistic回歸模型構(gòu)建了針對(duì)家禽肉的假冒綠通車(chē)分類(lèi)模型,并有較好分類(lèi)效果。申長(zhǎng)春[6]針對(duì)綠通車(chē)的非均衡屬性采用機(jī)器學(xué)習(xí)的方法,并結(jié)合BP神經(jīng)網(wǎng)絡(luò),進(jìn)一步提升了對(duì)假冒綠通車(chē)的分類(lèi)效果。任文龍和申長(zhǎng)春[6-7]針對(duì)綠通車(chē)的非均衡屬性采用機(jī)器學(xué)習(xí)的方法,利用收費(fèi)記錄中的特征字段和偷逃通行費(fèi)現(xiàn)象之間的關(guān)聯(lián),分析并設(shè)計(jì)了用于輔助收費(fèi)稽查的BP神經(jīng)網(wǎng)絡(luò)模型,進(jìn)一步提升了對(duì)假冒綠通車(chē)的分類(lèi)效果。雷毅等[8]和張萌[9]對(duì)高速公路網(wǎng)內(nèi)綠通車(chē)流量進(jìn)行數(shù)據(jù)分析,確定了綠通車(chē)檢查點(diǎn)的規(guī)劃布設(shè)來(lái)提高綠通車(chē)檢查資源的利用率。
綜上所述,目前對(duì)高速公路綠通車(chē)稽查方面的研究?jī)?nèi)容不夠豐富,數(shù)據(jù)集和算法應(yīng)用的研究十分有限,僅有Logistic回歸模型和神經(jīng)網(wǎng)絡(luò)等算法在綠通車(chē)收費(fèi)數(shù)據(jù)得到應(yīng)用。
機(jī)器學(xué)習(xí)作為預(yù)測(cè)性分析的常用方法,可從歷史假冒綠通車(chē)數(shù)據(jù)中獲取規(guī)律或模型,應(yīng)用到類(lèi)似場(chǎng)景中。因此,本研究利用決策樹(shù)來(lái)建立假冒綠通車(chē)預(yù)測(cè)模型,并比較不同算法的預(yù)測(cè)準(zhǔn)確率找出最優(yōu)的算法,通過(guò)預(yù)測(cè)車(chē)輛假冒綠通車(chē)的概率,提前預(yù)警提醒稽查工作人員重點(diǎn)檢查,以提高綠通車(chē)稽查效率。
2019年1月至3月,四川高速公路建設(shè)開(kāi)發(fā)集團(tuán)有限公司(簡(jiǎn)稱“川高”)查獲了3 244起假冒綠通車(chē)通行事件。本研究以聯(lián)網(wǎng)收費(fèi)系統(tǒng)的3 244輛假冒綠通車(chē)數(shù)據(jù)作為研究對(duì)象,并從系統(tǒng)中隨機(jī)導(dǎo)出2019年1月至3月12 976條正常綠通車(chē)通行數(shù)據(jù)為參照對(duì)象,提取數(shù)據(jù)的特征屬性,分析假冒綠通車(chē)逃費(fèi)行為特征,并建立假冒綠通車(chē)逃費(fèi)行為預(yù)測(cè)模型。
1.1.1數(shù)據(jù)屬性提取原則
(1)重要度。剔除車(chē)輛信息影響較小的屬性或其他無(wú)意義屬性,保留相對(duì)重要屬性(車(chē)輛行駛路徑與地理坐標(biāo)等屬性)或增添其組合屬性。
(2)可靠度。利用貨車(chē)通行正態(tài)特征,采用拉依達(dá)分析方法剔除整體離散程度較大的屬性,保證數(shù)據(jù)特征的明顯性與可靠性。
1.1.2數(shù)據(jù)屬性范圍分析
經(jīng)預(yù)處理后,每條數(shù)據(jù)包含17個(gè)屬性:目標(biāo)變量y,y∈{0,1},其結(jié)果表示數(shù)據(jù)車(chē)輛是否為假冒綠通車(chē);車(chē)輛數(shù)據(jù)變量xij,包括車(chē)輛信息集合、收費(fèi)站信息集合、通行過(guò)程信息集合3個(gè)方面,16個(gè)自變量,變量基本分析見(jiàn)表1。
表1 變量特征分析
考慮部分變量對(duì)車(chē)輛數(shù)據(jù)信息展示直觀度不強(qiáng),采用變量組合運(yùn)算,得到6個(gè)新增變量zi,見(jiàn)表2,以期從更全面的角度來(lái)分析假冒綠通車(chē)逃費(fèi)行為。
表2 新增自變量基本統(tǒng)計(jì)分析
對(duì)2019年1月至3月川高查獲的3 244起假冒綠通車(chē)通行事件的通行數(shù)據(jù)進(jìn)行逃費(fèi)行為特征分析。
1.2.1時(shí)間特性
據(jù)圖1, 假冒綠通車(chē)通行在1周的分布差異性較大,在星期一和星期三查獲的假冒綠通車(chē)數(shù)量相對(duì)較少;入站高峰時(shí)期為18:00—24:00,出站高峰時(shí)期為凌晨1:00—7:00,且整個(gè)過(guò)程的行駛時(shí)間主要集中在4~10 h。考慮到綠通車(chē)檢查現(xiàn)狀是工作人員檢查記錄后放行,可能大部分假冒綠通車(chē)傾向于選擇工作人員比較疲憊和放松警惕的時(shí)間段入出收費(fèi)站,如:晚上18:00—24:00、凌晨1:00—7:00。
圖1 假冒綠通車(chē)通行的時(shí)間特征Fig.1 Time characteristics of passing of fake TFLVs
1.2.2空間特性
川高在7個(gè)綠通車(chē)流量大站安裝了綠通車(chē)檢測(cè)設(shè)備,用于判斷車(chē)輛是否為綠通車(chē)。為判斷假冒綠通車(chē)的空間通行特性,針對(duì)本次采集到的假冒綠通車(chē)數(shù)據(jù)分析其OD屬性、路徑流向,得到以下特征:假冒綠通車(chē)OD屬性與行駛軌跡在空間均具有路徑集中趨勢(shì),主要分布在鄰墊四川站-達(dá)渝四川站、棋盤(pán)關(guān)站-綿陽(yáng)站、宜賓北站-大件站高速公路區(qū)間。
3 244輛假冒綠通車(chē)通過(guò)121個(gè)收費(fèi)站進(jìn)入、通過(guò)111個(gè)收費(fèi)站離開(kāi)高速公路網(wǎng)絡(luò),其中僅有6個(gè)站安裝了綠通車(chē)檢測(cè)設(shè)備?;诖颂卣鞣治觯杭倜熬G通車(chē)在進(jìn)出高速公路的過(guò)程中傾向于避開(kāi)安裝綠通車(chē)檢測(cè)設(shè)備的收費(fèi)站,選擇稽查強(qiáng)度薄弱的路段通行,其可能存在的路徑選擇情況見(jiàn)圖2。
圖2 假冒綠通車(chē)可能存在的路徑選擇情況Fig.2 Possible routing options for fake TFLVs
1.2.3其他特性
(1)車(chē)牌省籍
據(jù)圖3,假冒綠通車(chē)屬地主要為外省,占比63.63%,原因可能是外省綠色通道政策與四川省存在差異,并且外省通行信用記錄與四川省通行信用記錄不互通。
圖3 假冒綠通車(chē)車(chē)牌省籍情況Fig.2 License plate provincial status of fake TFLVs
(2)行駛特征
根據(jù)假冒綠通車(chē)的行駛均速與行駛距離頻率分布情況繪制分布函數(shù)曲線,如圖4所示。
圖4 假冒綠通車(chē)速度Fig.4 Travel speeds of fake TFLVs
如圖4所示,車(chē)輛旅行平均速度范圍是22~150 km/h,其中,46.54%的假冒綠通車(chē)速度處于高速公路規(guī)定貨車(chē)行駛速度范圍外:40.2%低于60 km/h,6.34%超速行駛,該部分車(chē)輛可能是為尋求離開(kāi)高速公路合適時(shí)間而選擇滯留于服務(wù)區(qū)或加速行駛。
圖5 假冒綠通車(chē)行駛距離分布Fig.5 Distribution of travel distances of fake TFLVs
如圖5所示, 70.28%的假冒綠通車(chē)行駛距離集中在150~500 km的范圍,小部分車(chē)輛為短途運(yùn)輸,造成該情況的原因可能是高速公路通行費(fèi)用是根據(jù)車(chē)輛行駛距離與載貨重量來(lái)收取,當(dāng)運(yùn)輸距離較長(zhǎng)時(shí)假冒成綠通車(chē)逃繳金額較高,對(duì)駕駛員利益誘惑更大。
(3)載重分析
假冒綠通車(chē)的實(shí)際載重情況如圖6所示。實(shí)際載重分別集中在3個(gè)區(qū)間,13.62%位于12~16 t之間、53.32%位于30~40 t之間、16.28%位于45~50 t之間。假冒綠通車(chē)的滿載率如圖7所示。9.43%的假冒綠通車(chē)滿載率超過(guò)100%,61.51%的假冒綠通車(chē)滿載率超過(guò)85%。造成該情況的主要原因可能是每次假冒綠通車(chē)載貨越多,越有利可圖。此外滿載率越高,車(chē)廂貨物堆積越緊密,工作人員檢查難度增加,假冒成功率增加。
圖6 假冒綠通車(chē)實(shí)際載重Fig.6 Actual loads of fake TFLVs
圖7 假冒綠通車(chē)滿載率情況Fig.7 Full load rates of fake TFLVs
分析了高速公路假冒綠通車(chē)的時(shí)空分布特征,以及在行駛特征、載重分析等方面的表現(xiàn)情況。
由于采集的原始綠通車(chē)通行數(shù)據(jù)集中,各類(lèi)屬性的量綱不同,時(shí)空特征分布不均衡,取值范圍有一定的差異性,因此需要對(duì)綠通車(chē)數(shù)據(jù)集進(jìn)行采樣、離散化、關(guān)聯(lián)項(xiàng)與共線性檢驗(yàn)等系列預(yù)操作后,再進(jìn)行建模分析。
綠通車(chē)數(shù)據(jù)集是典型的非平衡數(shù)據(jù)集,合格綠通車(chē)樣本為多數(shù)類(lèi),假冒綠通車(chē)樣本為少數(shù)類(lèi),因此本研究采用Synthetic Minority Oversampling Technique(SMOTE)對(duì)綠通車(chē)數(shù)據(jù)集進(jìn)行平衡處理[10-12]?;赟MOTE算法改進(jìn)形成的Borderline-SMOTE算法能很好地控制新合成的少數(shù)類(lèi)樣本使其處于兩個(gè)類(lèi)別的邊界附近,解決SMOTE算法導(dǎo)致的邊界模糊問(wèn)題。
利用Borderline-SMOTE算法對(duì)12 976條正常綠通車(chē)通行數(shù)據(jù)和3 244假冒綠通車(chē)通行數(shù)據(jù)進(jìn)行過(guò)采樣,得到12 976條假冒綠通車(chē)通行數(shù)據(jù),正負(fù)比由4∶1到1∶1,基本達(dá)到均衡數(shù)據(jù)集的目的。
本研究采用考慮樣本所屬類(lèi)別信息的ChiMerge方法(卡方分箱法)對(duì)連續(xù)數(shù)據(jù)離散化預(yù)處理。該方法可以考慮到目標(biāo)類(lèi)別的信息差異性,也被稱為全局?jǐn)?shù)據(jù)離散化方法[13]。具體操作為:按照特定的排序方法對(duì)通行數(shù)據(jù)集進(jìn)行排序,并對(duì)數(shù)據(jù)離散區(qū)間計(jì)算卡方統(tǒng)計(jì)值,對(duì)統(tǒng)計(jì)值不滿足閾值的區(qū)間進(jìn)行合并,直到離散的區(qū)間達(dá)到預(yù)期,停止離散過(guò)程。
選擇ROC曲線用于確定綠通車(chē)通行數(shù)據(jù)中連續(xù)型屬性離散化的區(qū)間劃分?jǐn)?shù),利用曲線下面積(AUC)來(lái)表示離散區(qū)間個(gè)數(shù),離散過(guò)程的截止條件為離散后的綠通車(chē)數(shù)據(jù)能夠有效表達(dá)原始綠通車(chē)的通行數(shù)據(jù)特征[14-15]。利用ChiMerge算法將連續(xù)變量離散化,結(jié)果如表3所示。
表3 連續(xù)變量離散化結(jié)果
綠通車(chē)通行數(shù)據(jù)的屬性較多, 并不一定都是影響因素, 如果全部選入預(yù)測(cè)模型, 會(huì)影響運(yùn)行時(shí)間和預(yù)測(cè)精度。先利用K-S檢驗(yàn)檢驗(yàn)連續(xù)值的正態(tài)性(sig>0.05, 服從正態(tài)分布), 再采用獨(dú)立t檢驗(yàn)檢驗(yàn)符合正態(tài)分布的連續(xù)值自變量與結(jié)果的關(guān)聯(lián)性(sig<0.05,有顯著性影響);采用Mann-WhitneyU檢驗(yàn),檢驗(yàn)不具有正態(tài)分布特征的初始連續(xù)型屬性與結(jié)果的關(guān)聯(lián)性(U<0.05,有顯著性影響);采用Pearson卡方檢驗(yàn)檢驗(yàn)離散屬性與結(jié)果的關(guān)聯(lián)性(χ2<0.05,有顯著性影響)。通過(guò)檢驗(yàn)各自變量與結(jié)果的關(guān)聯(lián)性,分析各自變量對(duì)結(jié)果的影響,并選取合適的自變量。
結(jié)果顯示x11(省籍類(lèi)型),x12(貨車(chē)軸數(shù)),x14(限載重量),x23,x26(出入口站安裝綠通車(chē)檢查設(shè)備情況)的Pearson卡方檢驗(yàn)值χ2<0.01,因此這4類(lèi)屬性與車(chē)輛是否為假冒綠通車(chē)具有較大的關(guān)聯(lián)性。
為保證模型預(yù)測(cè)結(jié)果的可靠性,需要對(duì)自變量進(jìn)行屬性約簡(jiǎn),減少合并具有共線性的屬性。首先采用容忍度和方差膨脹因子的方法來(lái)判斷屬性的共線狀態(tài),進(jìn)而得到離散數(shù)據(jù)轉(zhuǎn)化的協(xié)方差矩陣,并計(jì)算協(xié)方差矩陣的特征根與對(duì)應(yīng)的特征向量,再根據(jù)特征根的貢獻(xiàn)程度判斷自變量的重要程度[16-17]。最后將通過(guò)關(guān)聯(lián)項(xiàng)檢驗(yàn)和共線性檢驗(yàn)的屬性選入假冒綠通車(chē)逃費(fèi)行為預(yù)測(cè)模型。
根據(jù)結(jié)果,將x12(貨車(chē)軸數(shù))、x14(限載重量)、z2(載重差)、z1(滿載率)剔除,不放入分類(lèi)預(yù)測(cè)模型。
對(duì)綠通車(chē)通行數(shù)據(jù)的22個(gè)屬性進(jìn)行關(guān)聯(lián)項(xiàng)和共線性檢驗(yàn)后,共剔除x12(貨車(chē)軸數(shù))、x13(實(shí)際載重)、x14(限載重量)、x31(入站日期)、x33(出站日期)、z1(滿載率)、z2(載重差)7個(gè)屬性,不計(jì)入x21,x22,x24,x25(出入口站經(jīng)緯度)采用其組合屬性,共得到11個(gè)屬性。
經(jīng)上述處理,再將數(shù)據(jù)集劃分為測(cè)試數(shù)據(jù)集(正常綠通車(chē)通行數(shù)據(jù)6 488條+假冒綠通車(chē)通行數(shù)據(jù)6 488條)和訓(xùn)練數(shù)據(jù)集(正常綠通車(chē)通行數(shù)據(jù)6 488 條+假冒綠通車(chē)通行數(shù)據(jù)6 488條)。
決策樹(shù)是一種研究對(duì)象的屬性即xij與對(duì)象的值即y之間的映射關(guān)系的樹(shù)結(jié)構(gòu)模型[18]。決策樹(shù)建模流程如圖8所示。
圖8 決策樹(shù)建模流程Fig.8 Flowchart of decision tree modeling
本研究需要區(qū)分車(chē)輛是否為假冒綠通車(chē),是一個(gè)二分類(lèi)變量。因此用CART算法來(lái)構(gòu)造逃費(fèi)行為決策樹(shù),將基尼系數(shù)作為最小分類(lèi)標(biāo)準(zhǔn)?;嵯禂?shù)的計(jì)算如下:
(1)
式中,k為車(chē)輛是否為假冒綠通車(chē);pi為決策輸出變量屬于第k類(lèi)的概率值。
據(jù)表4的決策樹(shù)模型分類(lèi)結(jié)果來(lái)看,對(duì)正常綠通車(chē)的判斷能力達(dá)到97.0%,對(duì)假冒綠通車(chē)的識(shí)別效果為83.4%??傮w來(lái)說(shuō)對(duì)假冒綠通車(chē)逃費(fèi)行為的識(shí)別效果較好,驗(yàn)證數(shù)據(jù)的準(zhǔn)確率高達(dá)90.2%。由預(yù)測(cè)結(jié)果繪制混淆矩陣見(jiàn)圖9。
表4 決策樹(shù)模型分類(lèi)預(yù)測(cè)結(jié)果
圖9 決策樹(shù)模型的混淆矩陣Fig.9 Confusion matrix of decision tree model
決策樹(shù)模型的自變量見(jiàn)表5,其中連續(xù)型變量需離散化才能利用決策樹(shù)建模,前文利用ChiMerge算法對(duì)連續(xù)型變量實(shí)現(xiàn)離散化,并利用ROC曲線確定最優(yōu)的區(qū)間劃分方式。利用基于基尼系數(shù)的CART算法來(lái)構(gòu)造決策樹(shù),按照基尼系數(shù)的大小,從小到大、從上至下生成子節(jié)點(diǎn),直到?jīng)Q策樹(shù)不可分枝為止。
表5 選入決策樹(shù)的變量及變量的重要程度
圖10 假冒綠通車(chē)逃費(fèi)行為決策樹(shù)結(jié)構(gòu)Fig.10 Decision tree structure of fake TFLVs evasion behaviors
最終表5的11個(gè)變量均被納入決策樹(shù)模型,未剔除任何變量。但這11個(gè)變量對(duì)模型的貢獻(xiàn)程度不同,其中最重要的變量是z5(旅行時(shí)間),說(shuō)明假冒綠通車(chē)與正常綠通車(chē)在高速公路上行駛的旅行時(shí)間分布有較大差別。
據(jù)圖10可知,假冒綠通車(chē)逃費(fèi)行為決策樹(shù)結(jié)構(gòu)中,與假冒綠通車(chē)逃費(fèi)行為顯著相關(guān)的變量有z5(旅行時(shí)間)、z4(出站位置)、x35(免費(fèi)金額)、x36(行駛距離)和z6(行駛均速)等,總結(jié)出假冒綠通車(chē)逃費(fèi)行為特征如下。
特征1:大部分假冒綠通車(chē)逃費(fèi)行為的x35(免費(fèi)金額)處在中等水平,即[544, 874]和 [876, 1 060]2個(gè)范圍之內(nèi),原因可能是免費(fèi)金額太低不值得犯險(xiǎn)、免費(fèi)金額太高在收費(fèi)站勢(shì)必面臨更加嚴(yán)格的檢查,假冒成功的概率降低。
特征2:大部分假冒綠通車(chē)逃費(fèi)行為z6(行駛均速)處在2個(gè)極端,即[0, 59.918 5]和[89.898 8,+∞],而大部分合格綠通車(chē)則處在[59.918 5, 89.898 8]。原因可能是假冒綠通車(chē)的駕駛員在等待或趕上某個(gè)時(shí)機(jī)離開(kāi)收費(fèi)站,這個(gè)特殊時(shí)機(jī)可能是綠色通道擁堵,大量綠通車(chē)排隊(duì),導(dǎo)致工作人員只能快速檢查并放行,還可能是工作人員稽查強(qiáng)度的薄弱時(shí)段。
特征3:假冒綠通車(chē)與正常綠通車(chē)的z4(出站位置)也有明顯區(qū)別,原因可能是假冒綠通車(chē)行駛軌跡在空間具有路徑集中趨勢(shì),在進(jìn)出高速公路的過(guò)程中傾向于避開(kāi)安裝了綠通車(chē)檢測(cè)設(shè)備的收費(fèi)站,選擇稽查強(qiáng)度薄弱的路段通行。
本研究采用Logistic回歸模型和隨機(jī)森林模型進(jìn)行假冒綠通車(chē)逃費(fèi)行為建模分析,并將其分析結(jié)果與決策樹(shù)模型的分類(lèi)結(jié)果進(jìn)行比較。
Logistic回歸模型是一種利用變量間相互作用的概率作為指標(biāo)的預(yù)測(cè)模型,可以弱化不同量綱屬性的多類(lèi)別屬性對(duì)結(jié)果的影響,因此可以用于預(yù)測(cè)車(chē)輛是否為假冒綠通車(chē)[19]。表6為L(zhǎng)ogistic模型對(duì)假冒綠通車(chē)的分類(lèi)預(yù)測(cè)情況,Logistic模型對(duì)正常綠通車(chē)的判斷能力更精準(zhǔn),達(dá)到98.7%,但是對(duì)假冒綠通車(chē)的識(shí)別效果不是十分理想,只有61.8%。
表6 Logistic模型分類(lèi)預(yù)測(cè)結(jié)果
隨機(jī)森林是目前比較流行且對(duì)回歸和分類(lèi)問(wèn)題有很好效果的算法[18]。將隨機(jī)森林模型應(yīng)用到假冒綠通車(chē)逃費(fèi)行為分類(lèi)預(yù)測(cè),結(jié)果如表7所示,其預(yù)測(cè)假冒綠通車(chē)的能力和Logistic回歸模型的預(yù)測(cè)能力相似,可以達(dá)到97.4%,但對(duì)假冒綠通車(chē)的識(shí)別效果不是十分理想,只有81%。
表7 隨機(jī)森林模型分類(lèi)預(yù)測(cè)結(jié)果
利用測(cè)試數(shù)據(jù)集來(lái)驗(yàn)證3個(gè)模型的分類(lèi)效果,并繪出各個(gè)模型的ROC曲線(圖11),計(jì)算各個(gè)模型的AUC值,結(jié)果見(jiàn)表8。認(rèn)為AUC值最大的模型分類(lèi)效果較好,為較優(yōu)的模型。
圖11 ROC曲線Fig.11 ROC curve
3個(gè)模型均能夠達(dá)到分類(lèi)預(yù)測(cè)能力,但相較于分析對(duì)假冒綠通車(chē)的識(shí)別,決策樹(shù)模型對(duì)測(cè)試集數(shù)據(jù)的反映效果最佳。因此決策樹(shù)模型對(duì)假冒綠通車(chē)的識(shí)別效果優(yōu)于Logistic回歸模型和隨機(jī)森林模型。
實(shí)際應(yīng)用中,車(chē)輛在進(jìn)入高速公路時(shí)將車(chē)輛入口時(shí)間、坐標(biāo)等信息錄入高速公路車(chē)輛收費(fèi)系統(tǒng),待綠通車(chē)到達(dá)出口收費(fèi)站時(shí),增添車(chē)輛到達(dá)收費(fèi)站的出口時(shí)間、坐標(biāo)等收費(fèi)通行數(shù)據(jù);利用假冒綠通車(chē)逃費(fèi)行為預(yù)測(cè)模型,根據(jù)車(chē)輛行程數(shù)據(jù)預(yù)測(cè)其為假冒綠通車(chē)的概率值;工作人員可根據(jù)經(jīng)驗(yàn)設(shè)定概率值標(biāo)準(zhǔn),若概率值標(biāo)準(zhǔn)為70%,則將假冒綠通車(chē)概率值高于70%的車(chē)輛列為重點(diǎn)嫌疑對(duì)象,提前預(yù)警工作人員,為綠通車(chē)檢查工作提供決策參考,把有限資源集中在重點(diǎn)對(duì)象上,提升綠通車(chē)檢查的針對(duì)性,具體操作流程如圖12所示。
表8 三種模型的ROC曲線下面積
圖12 假冒綠通車(chē)預(yù)測(cè)操作流程Fig.12 Predictive operation process of fake TFLVs
以高速公路假冒綠通車(chē)逃費(fèi)行為為研究對(duì)象,基于聯(lián)網(wǎng)收費(fèi)系統(tǒng)的綠通車(chē)通行數(shù)據(jù),建立了假冒綠通車(chē)逃費(fèi)行為預(yù)測(cè)模型。
(1)利用Borderline-SMOTE算法過(guò)采樣來(lái)平衡數(shù)據(jù)集,使得正常綠通車(chē)通行數(shù)據(jù)和假冒綠通車(chē)通行數(shù)據(jù)的正負(fù)比由4∶1到1∶1,達(dá)到均衡數(shù)據(jù)集的目的。
(2)采用ChiMerge方法離散化連續(xù)型數(shù)據(jù),選擇ROC曲線確定綠通車(chē)通行數(shù)據(jù)中連續(xù)型屬性離散化的區(qū)間劃分?jǐn)?shù)。把免費(fèi)金額、入站時(shí)間、出站時(shí)間、行駛距離、入站位置、出站位置、旅行時(shí)間、行駛均速8個(gè)變量,分別劃分為6至7個(gè)區(qū)間。
(3)采用K-S檢驗(yàn)、獨(dú)立t檢驗(yàn)、Mann-WhitneyU檢驗(yàn)、Pearson卡方檢驗(yàn)進(jìn)行關(guān)聯(lián)性檢驗(yàn),利用容忍度和方差膨脹因子判斷自變量的共線情況,共剔除貨車(chē)軸數(shù)、實(shí)際載重)、限載重量、入站日期、出站日期、滿載率)、載重差7個(gè)屬性。
(4)對(duì)處理后的綠通車(chē)通行數(shù)據(jù),運(yùn)用決策樹(shù)來(lái)建立預(yù)測(cè)建模,得出其對(duì)假冒綠通車(chē)逃費(fèi)行為的預(yù)測(cè)準(zhǔn)確率為83.4%,優(yōu)于其他模型,能為綠通車(chē)檢查工作人員提供有效決策參考,提升工作效率。
由于外界因素的約束和自身能力的限制,論文還存在一些不足和值得進(jìn)一步思考和研究的問(wèn)題:
(1)本研究工作是基于四川省部分綠通車(chē)2019年1月至3月的通行數(shù)據(jù)展開(kāi)的,可供離散挖掘的數(shù)據(jù)體量有限,為了最大程度反映出綠通車(chē)通行特征,未來(lái)工作將擴(kuò)大數(shù)據(jù)量進(jìn)行研究,提高假冒綠通車(chē)逃費(fèi)行為分類(lèi)模型的預(yù)測(cè)效果,防止出現(xiàn)過(guò)擬合問(wèn)題。
(2)本研究選取的高速公路綠通車(chē)通行特征的屬性還不夠全面,屬性的選取方式還不夠科學(xué),未來(lái)將進(jìn)一步優(yōu)化綠通車(chē)通行數(shù)據(jù)集的結(jié)構(gòu)設(shè)計(jì)。