亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林模型的城市非法營(yíng)運(yùn)車輛識(shí)別

        2024-01-09 09:04:52黃子璇李橋興
        電子科技 2024年1期
        關(guān)鍵詞:分類模型

        黃子璇,李橋興,2

        (1.貴州大學(xué) 管理學(xué)院,貴州 貴陽(yáng) 550025;2.喀斯特地區(qū)發(fā)展戰(zhàn)略研究中心,貴州 貴陽(yáng) 550025)

        非法營(yíng)運(yùn)車輛指未依法取得營(yíng)運(yùn)權(quán)卻實(shí)施了營(yíng)運(yùn)行為的車輛,即未按規(guī)定領(lǐng)取有關(guān)主管部門(mén)核發(fā)的營(yíng)運(yùn)證件和超越核定范圍進(jìn)行經(jīng)營(yíng)的車輛。人流、物流和車流的增量與區(qū)域交通出行需求不匹配,在一定程度上給非法營(yíng)運(yùn)車輛的出現(xiàn)提供了市場(chǎng)契機(jī)[1]。非法營(yíng)運(yùn)車輛不交納任何運(yùn)營(yíng)費(fèi)用且多數(shù)為低端和維修保養(yǎng)不到位的車輛,具有較大的安全隱患[2]。乘客對(duì)道路運(yùn)輸相關(guān)法律法規(guī)缺乏了解,選擇乘坐非法營(yíng)運(yùn)車輛并與司機(jī)嚴(yán)密串詞為道路交通執(zhí)法增加了難度[3]。高速公路電子不停車收費(fèi)系統(tǒng)(ETC)能夠根據(jù)車輛的行駛特征反映非法營(yíng)運(yùn)車輛的時(shí)空變化規(guī)律,可有效查處高速公路非法營(yíng)運(yùn)車輛從而優(yōu)化高速公路的運(yùn)行秩序并提升管理水平。

        數(shù)據(jù)挖掘是信息處理領(lǐng)域的重要課題,由人工智能、數(shù)據(jù)庫(kù)和機(jī)器學(xué)習(xí)等多領(lǐng)域的理論和技術(shù)融合而成,分類則是數(shù)據(jù)挖掘的重要功能之一。研究人員對(duì)分類算法進(jìn)行了大量研究,具有代表性的算法包括隨機(jī)森林包括模型[4]、決策樹(shù)算法[5]和邏輯回歸模型[6]等。隨機(jī)森林模型主要用于回歸和分類,在生物信息、金融經(jīng)濟(jì)和新能源等的多維數(shù)據(jù)分析中具有廣泛的應(yīng)用[7]。決策樹(shù)算法用于為各類方案的效益值而做出決策,在臨床試驗(yàn)[8]和文本索引[9]等方面應(yīng)用廣泛。邏輯回歸模型是一種廣義的線性回歸分析模型,被主要應(yīng)用于地形探測(cè)[10]、經(jīng)濟(jì)預(yù)測(cè)[11]和文本識(shí)別[12]等領(lǐng)域。國(guó)內(nèi)研究人員針對(duì)網(wǎng)約車的非法營(yíng)運(yùn)[13]以及其司機(jī)與平臺(tái)間的演化博弈[14]、非法營(yíng)運(yùn)車輛的識(shí)別與安全監(jiān)管以及長(zhǎng)效治理機(jī)制[15-17]等進(jìn)行了研究。國(guó)外研究人員研究了運(yùn)輸情況[18]、車票價(jià)格[19]及汽車類型對(duì)產(chǎn)能影響[20]等。另外,國(guó)內(nèi)研究人員多采用自組織映射神經(jīng)網(wǎng)絡(luò)(Self Organizing Maps,SOM)[21]、卷積神經(jīng)網(wǎng)絡(luò)[22]和K-Mediods及其改進(jìn)算法[23]等數(shù)據(jù)挖掘方法構(gòu)建非法營(yíng)運(yùn)車輛識(shí)別算法。由于僅憑法律手段無(wú)法完全解決非法營(yíng)運(yùn)車輛在道路交通執(zhí)法中的識(shí)別和查處問(wèn)題,因此本文基于城市高速公路有效指標(biāo)的ETC數(shù)據(jù),采用隨機(jī)森林算法建立非法營(yíng)運(yùn)車輛的識(shí)別模型,并加入決策樹(shù)算法和邏輯回歸模型進(jìn)行比較。最后,根據(jù)西南某市高速公路車輛的流水指標(biāo)數(shù)據(jù)進(jìn)行實(shí)證分析,驗(yàn)證了本文所提出的隨機(jī)森林模型更適用于非法營(yíng)運(yùn)車輛識(shí)別。

        1 研究方法

        1.1 研究方法

        隨機(jī)森林(Random Forest,RF)算法基于自助法(Boot Strap)重采樣技術(shù)對(duì)原始訓(xùn)練集M中有放回地重復(fù)隨機(jī)抽取N(N≤M)個(gè)樣本生成新的訓(xùn)練樣本集合,然后根據(jù)自助樣本集生成N個(gè)分類樹(shù)組成隨機(jī)森林。其實(shí)質(zhì)是改進(jìn)的決策樹(shù)算法將多個(gè)決策樹(shù)合并在一起,在Bag-ging基礎(chǔ)上對(duì)每棵決策樹(shù)進(jìn)行隨機(jī)特征選擇,然后對(duì)測(cè)試集進(jìn)行回歸預(yù)測(cè),最后整合預(yù)測(cè)結(jié)果并投票得出結(jié)果。

        CART分類樹(shù)算法是一種應(yīng)用廣泛的決策樹(shù)學(xué)習(xí)方法,由特征選擇、樹(shù)的生成以及剪枝組成。CART分類樹(shù)算法是在給定輸入隨機(jī)變量X條件下輸出隨機(jī)變量Y的條件概率分布的學(xué)習(xí)方法,其實(shí)質(zhì)是基于基尼系數(shù)最小化準(zhǔn)則進(jìn)行特征選擇的二分遞歸算法,可以避免數(shù)據(jù)過(guò)分?jǐn)M合并有效提高預(yù)測(cè)精度。

        邏輯回歸(Logistics Regression,LR)算法是一種針對(duì)被解釋變量為二分類的概率型非線性回歸統(tǒng)計(jì)方法,其優(yōu)點(diǎn)是對(duì)數(shù)據(jù)的方差性和正態(tài)性不做具體要求。二元邏輯回歸是邏輯回歸的最簡(jiǎn)形式,其實(shí)質(zhì)是基于Sigmoid函數(shù)的有監(jiān)督二分類模型。

        1.2 指標(biāo)構(gòu)建

        高速公路電子不停車收費(fèi)系統(tǒng)主要包括車輛進(jìn)出公路的收費(fèi)站點(diǎn)名稱、時(shí)間、車型、交易類型、交易耗時(shí)、通行速度和車牌等。與普通車輛相比,非法營(yíng)運(yùn)車輛在工作日或周末行駛長(zhǎng)途與短途的次數(shù)和天數(shù)不同、通行時(shí)間段與正常通勤車不同。因此,根據(jù)非法營(yíng)運(yùn)車輛行駛特點(diǎn),本文構(gòu)建了累計(jì)通行天數(shù)、累計(jì)通行次數(shù)、單次平均通行時(shí)間、是否同城、是否周末通行和通行時(shí)間段等6個(gè)特征指標(biāo)來(lái)識(shí)別非法營(yíng)運(yùn)車輛,6個(gè)特征指標(biāo)的具體含義如表1所示。

        表1 特征指標(biāo)

        1.3 分類模型評(píng)價(jià)指標(biāo)

        為了解機(jī)器學(xué)習(xí)模型的泛化能力,本文使用常用的分類模型評(píng)價(jià)指標(biāo)來(lái)衡量模型的性能,包括準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precison)、召回率(Recall)和F1分?jǐn)?shù)。本文采用隨機(jī)森林預(yù)測(cè)模型的因變量即車輛是否為非法營(yíng)運(yùn)車輛,并當(dāng)車輛為非法營(yíng)運(yùn)車輛時(shí)賦值為1,否則賦值為0,從而建立混淆矩陣,如圖1所示。當(dāng)車輛實(shí)際為非法營(yíng)運(yùn)車輛時(shí),通過(guò)隨機(jī)森林預(yù)測(cè)模型將其分類為非法營(yíng)運(yùn)車輛的樣本數(shù),設(shè)為T(mén)I,分類為合法營(yíng)運(yùn)車輛的樣本數(shù),設(shè)為FL。當(dāng)車輛實(shí)際為合法營(yíng)運(yùn)車輛時(shí),通過(guò)隨機(jī)森林預(yù)測(cè)模型將其分類為非法營(yíng)運(yùn)車輛的樣本數(shù),設(shè)為FI,分類為合法營(yíng)運(yùn)車輛的樣本數(shù),設(shè)為T(mén)L。本文的模型評(píng)價(jià)指標(biāo)如下所示:

        圖1 混淆矩陣Figure 1. Confusion matrix

        準(zhǔn)確率表示預(yù)測(cè)正確的樣本數(shù)占總樣本數(shù)的百分比。

        (1)

        精準(zhǔn)率表示在預(yù)測(cè)為非法營(yíng)運(yùn)車輛的樣本中預(yù)測(cè)正確的比率。

        (2)

        召回率表示在實(shí)際為非法營(yíng)運(yùn)車輛的樣本中預(yù)測(cè)正確的比例。

        (3)

        F1分?jǐn)?shù)綜合考慮了精準(zhǔn)率和召回率,在兩者同時(shí)達(dá)到較高水平時(shí)取其平衡值。

        (4)

        2 實(shí)驗(yàn)與分析

        2.1 數(shù)據(jù)處理

        本文使用數(shù)據(jù)為2022年2月6日~2022年3月8日西南某市409萬(wàn)余條高速公路電子不停車收費(fèi)系統(tǒng)(ETC)出口數(shù)據(jù),其中ETC收費(fèi)系統(tǒng)共含93個(gè)字段。本文根據(jù)識(shí)別非法營(yíng)運(yùn)車輛的目的剔除無(wú)用字段, 篩選共10項(xiàng)有用字段,如表2所示。如圖2所示,本文在清除交易失敗(TRADE_RESULT)、特殊車輛(VEHIC LE_USER_TYPE)和非客車(VEHICLE_CLASS)的冗余通行數(shù)據(jù)后,得到100萬(wàn)條行車數(shù)據(jù)和70 575輛車的車牌數(shù)據(jù),其中非法營(yíng)運(yùn)車輛52輛。

        圖2 清除冗余數(shù)據(jù)流程Figure 2. Flow of clearing redundant data

        表2 ETC數(shù)據(jù)有效字段

        2.2 相關(guān)性檢驗(yàn)

        圖3表明天數(shù)(days)和次數(shù)(frequency)的相關(guān)系數(shù)為0.88。由于司機(jī)的出行天數(shù)與其出行頻率呈正比,故相關(guān)性較高。但出行天數(shù)和次數(shù)都可分別設(shè)置閾值判斷嫌疑車輛,因此不可去除這兩個(gè)指標(biāo)的任意一個(gè)。是否同城(same time)、是否周末出行(weekend)、出行時(shí)間段(time period)、單次平均通行時(shí)間(mean time)與是否為非法營(yíng)運(yùn)車輛(label)這5個(gè)指標(biāo)之間的相關(guān)性較低。是否同城(same time)、是否周末出行(weekend)、出行時(shí)間段(time period)、單次平均通行時(shí)間(mean time)、天數(shù)(days)和次數(shù)(frequency)分別與是否為非法營(yíng)運(yùn)車輛(label)未存在線性重疊。因此,這6個(gè)因變量指標(biāo)可以被用于隨機(jī)森林算法計(jì)算。

        圖3 相關(guān)系數(shù)Figure 3. Correlation coefficient

        2.3 實(shí)驗(yàn)過(guò)程

        由于數(shù)據(jù)集為不平衡數(shù)據(jù)集,即檢測(cè)合法營(yíng)運(yùn)車輛樣本量遠(yuǎn)大于非法營(yíng)運(yùn)車輛樣本量,因此對(duì)于各類別樣本數(shù)量不一致數(shù)據(jù),決策樹(shù)算法本身的信息增益偏向于具有更多數(shù)值的特征,即預(yù)測(cè)變量類不平衡較易影響決策樹(shù)模型,故需要對(duì)數(shù)據(jù)集檢測(cè)結(jié)果特征進(jìn)行數(shù)據(jù)平衡操作。常用的數(shù)據(jù)平衡方式有欠采樣(對(duì)多數(shù)類)、過(guò)采樣(對(duì)稀有類)。其中,使用較多的過(guò)采樣方法有自助法、SMOTE(Synthetic Minority Oversampling Technique)算法(創(chuàng)建與稀有類相似的合成數(shù)據(jù))。由于對(duì)多數(shù)類做欠采樣存在丟棄有用信息的風(fēng)險(xiǎn),本文采用SMOTE算法對(duì)訓(xùn)練集稀有類進(jìn)行過(guò)采樣,即對(duì)非法營(yíng)運(yùn)車輛樣本集進(jìn)行過(guò)采樣。利用SMOTE算法找出與過(guò)采樣記錄相似的記錄,對(duì)原始記錄及其相鄰的記錄隨機(jī)加權(quán)后取平均,生成合成記錄。本文共有52條非法營(yíng)運(yùn)車輛樣本,隨機(jī)篩選100條合法營(yíng)運(yùn)車輛樣本數(shù)據(jù),經(jīng)過(guò)SMOTE算法采樣后組成1∶1比例的樣本子集各100條數(shù)據(jù),并且設(shè)置80%的訓(xùn)練集和20%的測(cè)試集。

        2.4 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)使用Jupyter Notebook編輯器建立隨機(jī)森林模型、CART分類樹(shù)模型和二元邏輯回歸模型,在經(jīng)過(guò)SMOTE算法將樣本均衡化后,每次隨機(jī)選出100個(gè)合法營(yíng)運(yùn)車輛樣本和100個(gè)非法營(yíng)運(yùn)車輛樣本進(jìn)行訓(xùn)練,經(jīng)過(guò)10次訓(xùn)練得到最后的分類器(Random Forest Classifier,RFC)。隨機(jī)森林模型、CART分類樹(shù)模型和二元邏輯回歸模型分類器評(píng)價(jià)指標(biāo)及其結(jié)果如圖4~圖6所示。其中,模型分類器準(zhǔn)確率由高到低依次為隨機(jī)森林模型RFC、二元邏輯回歸RFC和CART分類樹(shù)模型RFC,準(zhǔn)確率分別為0.987 5、0.985 0和0.982 5。CART分類樹(shù)模型RFC的合法營(yíng)運(yùn)車輛召回率和非法營(yíng)運(yùn)車輛精確率與隨機(jī)森林算法RFC的合法營(yíng)運(yùn)車輛召回率和非法營(yíng)運(yùn)車輛精確率相同,但其余模型的精準(zhǔn)率、召回率和F1分?jǐn)?shù)均比隨機(jī)森林模型RFC的精準(zhǔn)率、召回率和F1分?jǐn)?shù)低,且準(zhǔn)確率也低于隨機(jī)森林模型RFC準(zhǔn)確率。雖然二元邏輯回歸RFC的合法營(yíng)運(yùn)車輛召回率和非法營(yíng)運(yùn)車輛精確率比隨機(jī)森林模型RFC的合法營(yíng)運(yùn)車輛召回率和非法營(yíng)運(yùn)車輛精確率高,但其余指標(biāo)均低于隨機(jī)森林模型RFC,且其準(zhǔn)確率為0.985 0,低于隨機(jī)森林模型RFC準(zhǔn)確率。

        圖4 隨機(jī)森林模型分類器評(píng)價(jià)指標(biāo)及結(jié)果Figure 4. Evaluation indicators and results of random forest model classifier

        圖5 CART分類樹(shù)模型分類器評(píng)價(jià)指標(biāo)及結(jié)果Figure 5. Evaluation indicators and results of CART classification tree model classifier

        圖6 二元邏輯回歸分類器評(píng)價(jià)指標(biāo)及結(jié)果Figure 6. Evaluation indicators and results of binary logic regression classifier

        3 結(jié)束語(yǔ)

        為了優(yōu)化高速公路運(yùn)行秩序,提升高速公路管理水平,有效稽查高速公路非法營(yíng)運(yùn)車輛,本文根據(jù)高速公路車輛流水?dāng)?shù)據(jù)建立識(shí)別非法營(yíng)運(yùn)車輛指標(biāo),并基于隨機(jī)森林模型、CART分類樹(shù)模型和二元邏輯回歸模型建立識(shí)別非法營(yíng)運(yùn)車輛訓(xùn)練器。通過(guò)對(duì)西南某市2022年2月6日~2022年3月8日100萬(wàn)條高速公路ETC出口數(shù)據(jù)和7萬(wàn)余輛嫌疑車輛數(shù)據(jù)進(jìn)行處理,提取有效字段和指標(biāo)投入算法進(jìn)行驗(yàn)證,所得分類器準(zhǔn)確率由高到低依次為隨機(jī)森林模型RFC、二元邏輯回歸RFC和CART分類樹(shù)模型RFC,準(zhǔn)確率分別為98.75%、98.50%和98.25%。結(jié)果證明隨機(jī)森林模型訓(xùn)練出的分類器可以較好地預(yù)測(cè)出非法營(yíng)運(yùn)車輛,其準(zhǔn)確率最高。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        丰满人妻熟妇乱又仑精品| 亚洲精品无码高潮喷水在线| 中文字幕久无码免费久久| 国产一区二区三区在线观看免费| 中文字幕av日韩精品一区二区 | 久久www免费人成精品| 久久精品国产久精国产| 内谢少妇xxxxx8老少交| 一个人看的www免费视频中文| 无码8090精品久久一区| 亚洲精品在线观看一区二区 | 男人天堂网在线视频| 中文字幕一区二区三区在线不卡 | 中文字幕av久久亚洲精品| 亚洲成熟丰满熟妇高潮xxxxx| 国产精品a免费一区久久电影| 国产伦精品一区二区三区| av无码精品一区二区三区四区| 日本韩国三级aⅴ在线观看| 亚洲国产不卡免费视频| 男女裸体做爰视频高清| 亚洲av无码一区东京热| 大伊香蕉在线精品视频75| 国产思思久99久精品| 麻豆av在线免费观看精品| 日本黄色特级一区二区三区| 婷婷久久av综合一区二区三区| 人妻体内射精一区二区三区| 色偷偷久久一区二区三区| 亚洲国产福利精品一区二区| 红杏性无码免费专区| 成人爽a毛片在线播放| 邻居少妇张开腿让我爽了一夜| 7777奇米四色成人眼影| 精品十八禁免费观看| 亚洲av中文字字幕乱码| 国产在线av一区二区| 亚洲av不卡无码国产| 亚洲有码转帖| 久久噜噜噜| 丝袜美腿爆炒国产在线观看|