DOI:10.16652/j.issn.1004-373x.2025.16.011
中圖分類(lèi)號(hào):TN912-34;U491.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004-373X(2025)16-0061-06
Traffic accident severity prediction based on ensemble learning
JIA Xianguang',SONG Tengfei',LU Yingying2 (1.SchoolofTransportationEngineering,KunmingUniversityof Technology,Kunming 65o5oo,China; 2.SchoolofIformationEngineeringndAutomation,KunmingUiversityofTechoogyKunming65O5,a)
Abstract:Inordertoimprovetheperformanceofroad traffcaccidentseverityprediction modelsandanalyze theimpactof acidentfeaturesonacidentseverityamethodoftraffcaccidentseveritypredictionbasedonadouble-layerStackingodelis proposed.The BSMOTE2 algorithm isused tobalancethedataandverifywhetherdatabalancing procesing willhaveapositive impact on model prediction.The GBDT-RFECV algorithm isused for k -fold cross validation selection to complete the feature dimensionalityreduction.Atwo-layer Stacking model isbuilt.Thefirstlayeriscomposedof BiGRUandXGBoost,using time seriesfeatures forBiGRUandstaticfeaturesforXGBostforthepreliminaryprediction.TheCatBoostmodelisusedatthe secondlayerandcombinedwith thepredictionresultsofthefirstlayerforthefinalseverityprediction.Theresearchresults indicate that theaccuracyofthemodel,macro F1 ,andmacroAUChaveallimproved significantly,indicatingthatdatabalance processing hasapositiveimpactonmodelprediction.IncomparisonwithKNN,BiGRU,RF,andXGBoost models,theproposed double-layer Stacking model can improve prediction accuracy by 5.45%,10.23%, 1.78% ,and 2.34%,respectively,the macro F1 (204 value can be increased by 5.31% , 9.91% ,1.35%,and 1.92%,respectively,and the macro AUC canbe increased by11.13%, (204 6.97% , 2.13% ,and 2.71%,respectively.The double-layer Stacking model can perform beter than other modelson multiple evaluation metrics.
Keywords:traficsafety;traffcaccidentseverity;predictiveanalysis;ensemble learing;machine learning;deeplearning; feature dimensionalityreduction
0 引言
隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,汽車(chē)保有量逐漸增加,但道路交通安全問(wèn)題日益突出。由于交通事故具有突發(fā)性和不確定性特點(diǎn),難以準(zhǔn)確預(yù)測(cè)其時(shí)間、地點(diǎn)和嚴(yán)重程度等信息,因此對(duì)交通事故嚴(yán)重程度的預(yù)測(cè)就顯得十分重要。
交通事故預(yù)測(cè)與致因分析一直是交通安全研究領(lǐng)域的熱點(diǎn)問(wèn)題,學(xué)者們常用統(tǒng)計(jì)建模方法和機(jī)器學(xué)習(xí)方法進(jìn)行研究,旨在通過(guò)對(duì)交通事故數(shù)據(jù)的分析,揭示事故發(fā)生的趨勢(shì)和主要原因,從而為預(yù)防交通事故提供指導(dǎo)。文獻(xiàn)[1]利用美國(guó)華盛頓州交通署收集的道路交通事故數(shù)據(jù)作為樣本,以道路交通事故嚴(yán)重程度為研究對(duì)象,并分成死亡/受傷事故和僅財(cái)產(chǎn)損失事故兩類(lèi),建立一種基于隨機(jī)森林(RandomForest,RF)和多目標(biāo)優(yōu)化算法的道路交通事故嚴(yán)重程度預(yù)測(cè)模型。文獻(xiàn)[2]采用決策樹(shù)、貝葉斯網(wǎng)絡(luò)和線(xiàn)性支持向量機(jī)三種數(shù)據(jù)挖掘模型,對(duì)交通事故嚴(yán)重程度相關(guān)的風(fēng)險(xiǎn)因素進(jìn)行了綜合分析。文獻(xiàn)[3]針對(duì)事故嚴(yán)重程度的影響因素,采用比例優(yōu)勢(shì)模型進(jìn)行確定,并展開(kāi)對(duì)比分析,得出冰雪季和非冰雪季的天氣、路面狀況及防護(hù)設(shè)施對(duì)事故的嚴(yán)重程度有一定的影響,但影響程度存在差異。文獻(xiàn)[4]建立LightGBM和隨機(jī)森林模型,采用SMOTEENN處理數(shù)據(jù)不均,比較其與邏輯回歸模型的效果。文獻(xiàn)[5]基于意大利南部城市道路上記錄的202條事故數(shù)據(jù)集,采用人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)和灰狼優(yōu)化(GreyWolfOptimizer,GWO)算法兩種機(jī)器學(xué)習(xí)技術(shù)相結(jié)合來(lái)預(yù)測(cè)道路交通事故的嚴(yán)重程度。文獻(xiàn)[6]首次提出了一種基于一維和二維卷積神經(jīng)網(wǎng)絡(luò)的新方法,用于檢測(cè)交通事故的嚴(yán)重程度以提高預(yù)測(cè)精度。文獻(xiàn)[7]運(yùn)用空間廣義有序Probit模型,分析13個(gè)因素與事故嚴(yán)重程度的空間關(guān)聯(lián)性。
但是由于大多數(shù)事故數(shù)據(jù)集本身的不平衡性,使得創(chuàng)建的預(yù)測(cè)模型產(chǎn)生不平衡的識(shí)別和分類(lèi)效應(yīng),導(dǎo)致數(shù)據(jù)較少的類(lèi)別預(yù)測(cè)準(zhǔn)確性降低。常見(jiàn)數(shù)據(jù)平衡處理方法包括隨機(jī)欠采樣(RandomOver-Sampling,ROS)、隨機(jī)過(guò)采樣(RandomUnder-Sampling,RUS)9、合成少數(shù)類(lèi)過(guò)采樣技術(shù)(Synthetic Minority Oversampling Techni-que,SMOTE)[o]。文獻(xiàn)[11]首次提出了Rotation SMOTE算法,將數(shù)據(jù)采樣與模型融合,用于不平衡數(shù)據(jù)學(xué)習(xí),該方法在Boosting模型訓(xùn)練過(guò)程中,根據(jù)基分類(lèi)器預(yù)測(cè)結(jié)果有針對(duì)性地合成采樣少數(shù)類(lèi)樣本,以提高召回率,并通過(guò)PCA旋轉(zhuǎn)變換融合多個(gè)模型,增加樣本多樣性,為解決原始數(shù)據(jù)不平衡的問(wèn)題提供新思路。文獻(xiàn)[12]采用Borderline-SMOTE算法進(jìn)行過(guò)采樣調(diào)整,解決原始數(shù)據(jù)不平衡的問(wèn)題。
特征篩選和數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析和機(jī)器學(xué)習(xí)中一體兩面的關(guān)鍵步驟。在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域,特征篩選是一種重要的技術(shù),用于從大量的自變量或特征中選擇最相關(guān)和有意義的特征,以構(gòu)建高效和準(zhǔn)確的預(yù)測(cè)模型。文獻(xiàn)[13]首次提出了一種基于主成分分析和信息增益的特征選擇混合濾波模型,然后應(yīng)用混合模型來(lái)支持使用機(jī)器學(xué)習(xí)技術(shù)(例如樸素貝葉斯技術(shù))的分類(lèi)。
文獻(xiàn)[14]利用隨機(jī)森林模型對(duì)電動(dòng)自行車(chē)騎行者受傷嚴(yán)重程度進(jìn)行預(yù)測(cè),并對(duì)相關(guān)因素的重要程度進(jìn)行排序。
本文綜合分析了交通事故嚴(yán)重程度的預(yù)測(cè)方法,集中討論了不同學(xué)者的研究進(jìn)展和方法。由于交通事故數(shù)據(jù)往往不平衡,本研究選擇BSMOTE2算法進(jìn)行數(shù)據(jù)平衡,以改善預(yù)測(cè)模型的準(zhǔn)確性。接著,使用GBDT-RFECV算法結(jié)合k折交叉驗(yàn)證進(jìn)行特征降維,確保模型聚焦于最關(guān)鍵的特征。然后,應(yīng)用雙層Stacking模型進(jìn)行交通事故嚴(yán)重程度預(yù)測(cè),第一層由BiGRU和XGBoost組成,將時(shí)間序列特征用于BiGRU,靜態(tài)特征用于XGBoost進(jìn)行初步預(yù)測(cè);第二層采用CatBoost模型,結(jié)合第一層的預(yù)測(cè)結(jié)果進(jìn)行最終的嚴(yán)重程度預(yù)測(cè)。通過(guò)這些先進(jìn)的數(shù)據(jù)處理和機(jī)器學(xué)習(xí)技術(shù),本文旨在提高交通事故嚴(yán)重程度預(yù)測(cè)的準(zhǔn)確性。
1 理論基礎(chǔ)
1.1 Stacking算法
Stacking[是一種在分類(lèi)和回歸任務(wù)中廣泛應(yīng)用的集成學(xué)習(xí)技術(shù)。它由多個(gè)基學(xué)習(xí)器組成,這些學(xué)習(xí)器首先在原始數(shù)據(jù)集上進(jìn)行訓(xùn)練和預(yù)測(cè);接著,元學(xué)習(xí)器在第一層的學(xué)習(xí)器輸出的基礎(chǔ)上進(jìn)行第二輪訓(xùn)練。相比于Voting集成學(xué)習(xí)模型,后者通過(guò)一次性訓(xùn)練多個(gè)基礎(chǔ)模型并使用投票機(jī)制來(lái)確定最終的分類(lèi)結(jié)果,Stacking模型因其兩階段訓(xùn)練過(guò)程而具有更高的泛化能力。Stacking算法偽代碼如下。
輸入:訓(xùn)練集 初級(jí)學(xué)習(xí)算法 L1,L2,…,LT
次級(jí)學(xué)習(xí)算法 L
過(guò)程:
1. f ort=1,2,…,T do
2. ht=Lt(D)
3.end for
4. D′=?
5.for i=1,2,…,m do
6.fc rt=1,2,…,T do
8.end for
9 (24
10.end for
11.
輸出
1.2模型評(píng)價(jià)指標(biāo)
在多分類(lèi)問(wèn)題中,評(píng)價(jià)模型的性能需要選擇合適的評(píng)價(jià)指標(biāo),常用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率、宏 F1 和宏AUC4。表1為三分類(lèi)結(jié)果混淆矩陣,假設(shè) a~i 表示模型訓(xùn)練的分類(lèi)結(jié)果,每行代表樣本的真實(shí)類(lèi)別,每列代表樣本的預(yù)測(cè)類(lèi)別。
表1分類(lèi)結(jié)果混淆矩陣
1)準(zhǔn)確率是評(píng)價(jià)分類(lèi)問(wèn)題中最常用的指標(biāo)之一,表示模型正確預(yù)測(cè)的樣本數(shù)占總樣本數(shù)的比例。準(zhǔn)確率對(duì)于類(lèi)別數(shù)量相對(duì)平衡的問(wèn)題能夠很好地反映模型的性能。準(zhǔn)確率的計(jì)算公式為:
2)宏 F1 指標(biāo)是綜合了模型在每個(gè)類(lèi)別上的精確率和召回率,計(jì)算方法是對(duì)每個(gè)類(lèi)別單獨(dú)計(jì)算 F1 值,然后對(duì)所有類(lèi)別的 F1 值求平均值。宏 F1 指標(biāo)適用于類(lèi)別不平衡或者某些類(lèi)別比其他類(lèi)別更重要的情況下,能夠更好地反映模型的全局性能。宏 F1 的計(jì)算公式為:
3)宏AUC指標(biāo)可以評(píng)價(jià)模型對(duì)于每個(gè)類(lèi)別的區(qū)分能力,計(jì)算方法是對(duì)每個(gè)類(lèi)別單獨(dú)計(jì)算AUC值,然后對(duì)所有類(lèi)別的AUC值求平均值。宏AUC指標(biāo)適用于類(lèi)別之間存在差異性的問(wèn)題,能夠更好地反映模型的性能。宏AUC的計(jì)算公式為:
2 數(shù)據(jù)處理
2.1數(shù)據(jù)來(lái)源及預(yù)處理
本文使用美國(guó)坦佩市2022年期間的交通事故數(shù)據(jù)集,該數(shù)據(jù)集共包含2945條樣本數(shù)據(jù)。為確保數(shù)據(jù)的準(zhǔn)確性和可靠性,對(duì)數(shù)據(jù)進(jìn)行以下預(yù)處理:
1)移除遺失和未記錄的事故信息;
2)剔除包含異常特征信息以減少數(shù)據(jù)噪聲;
3)排除至少有兩個(gè)缺失值的行;
4)消除對(duì)同一事故多個(gè)結(jié)果的重復(fù)記錄。
通過(guò)以上預(yù)處理,本文篩選出含有21個(gè)特征、共2872條事故的數(shù)據(jù)集。
2.2 特征編碼
數(shù)據(jù)集包含事故雙方信息,將不同特征根據(jù)“人-車(chē)-路-環(huán)境”的因素分成事故信息、道路信息、肇事人及車(chē)輛信息3類(lèi),使用離散型數(shù)字編碼表示每個(gè)特征,編碼表如表2~表4所示。表中事故雙方及車(chē)輛信息解釋如下。
1)數(shù)據(jù)集中包含事故雙方信息,包括性別、年齡、身份、違規(guī)行為、行進(jìn)方向、是否飲酒和是否吸毒。
2)將交通違規(guī)行為按嚴(yán)重程度由最低、較低、中等和高風(fēng)險(xiǎn)分成4級(jí)。將事故雙方的違規(guī)等級(jí)相加,可以在一定程度上量化違規(guī)行為對(duì)事故產(chǎn)生的風(fēng)險(xiǎn)。
3)行進(jìn)方向角度包括東對(duì)應(yīng) 0° 、北對(duì)應(yīng) 90° 、西對(duì)應(yīng) 180° 、南對(duì)應(yīng) 270° 、東南對(duì)應(yīng) 45° 、東北對(duì)應(yīng) 135° 、西南對(duì)應(yīng) 225° 、西北對(duì)應(yīng) 315° 。使用方向1-方向2表示雙方行車(chē)方向的差異,為預(yù)測(cè)潛在交通事故提供有用信息。
2.3不平衡數(shù)據(jù)處理
預(yù)處理后的數(shù)據(jù)集一共包含2872條樣本數(shù)據(jù),其中輕微事故數(shù)據(jù)1859條,占比 64.7% ,一般事故數(shù)據(jù)961條,占比 33.5% ,重大或特大事故數(shù)據(jù)52條,占比1.8% ,樣本數(shù)據(jù)嚴(yán)重不平衡。這種情況會(huì)導(dǎo)致模型對(duì)少數(shù)類(lèi)別的樣本預(yù)測(cè)效果較差,從而影響整個(gè)模型的性能。本文采用BSMOTE2算法進(jìn)行樣本數(shù)據(jù)的平衡處理,平衡處理后的數(shù)據(jù)集一共包含4492條樣本數(shù)據(jù),并且三種事故嚴(yán)重程度類(lèi)型占比相同。為驗(yàn)證數(shù)據(jù)平衡處理是否會(huì)對(duì)模型預(yù)測(cè)產(chǎn)生正向影響,選擇采用KNN模型對(duì)平衡處理前后模型評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比。如圖1所示,模型的準(zhǔn)確率、宏 F1 和宏AUC均有明顯的提高,表明數(shù)據(jù)平衡處理對(duì)模型預(yù)測(cè)產(chǎn)生正向影響。
2.4特征降維
特征降維是將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù)的過(guò)程,以減少計(jì)算復(fù)雜度和過(guò)擬合等問(wèn)題,它可以降低計(jì)算成本,減少過(guò)擬合風(fēng)險(xiǎn),增加模型的可解釋性,并提高模型的效率和準(zhǔn)確性。常見(jiàn)的特征降維方法包括PCA[6LDA[17]和t-SNE[18]等。
表2特征編碼表(一)
盡管PCA、LDA和t-SNE在降維和數(shù)據(jù)可視化方面有其獨(dú)特的優(yōu)勢(shì),但在特征選擇問(wèn)題上,GBDT-RFECV算法通過(guò)機(jī)器學(xué)習(xí)和交叉驗(yàn)證的方式能夠更好地自動(dòng)選擇具有顯著性的特征子集,從而對(duì)目標(biāo)任務(wù)的預(yù)測(cè)性能提供更有針對(duì)性的特征信息
表3特征編碼表(二)
本文使用GBDT-RFECV算法進(jìn)行特征降維。它是一種基于梯度提升樹(shù)的特征選擇方法,結(jié)合了GBDT和RFECV。GBDT-RFECV算法的流程如下:
1)使用GBDT模型對(duì)所有特征進(jìn)行訓(xùn)練,得到每個(gè)特征的重要性指標(biāo);
2)根據(jù)特征的重要性指標(biāo)對(duì)特征進(jìn)行排序,從重要性最低的特征開(kāi)始逐步剔除;
3)對(duì)于每個(gè)剔除后的特征子集,使用交叉驗(yàn)證來(lái)評(píng)估模型性能,并記錄性能指標(biāo);
4)重復(fù)步驟2)和步驟3),直到所有特征都被剔除;
5)選擇性能最佳的特征子集作為最終的特征集合。
表4特征編碼表(三)
圖1平衡處理前后模型評(píng)價(jià)指標(biāo)對(duì)比
通過(guò)GBDT-RFECV算法對(duì)數(shù)據(jù)集進(jìn)行特征篩選,其中設(shè)置每次迭代時(shí)的遞歸特征消除長(zhǎng)度為1,交叉驗(yàn)證規(guī)則CV選為2、5、8,根據(jù)不同特征維度對(duì)應(yīng)的準(zhǔn)確率確定最終的特征子集。
圖2為k折交叉驗(yàn)證下GBDT-RFECV模型準(zhǔn)確率結(jié)果。隨著特征個(gè)數(shù)增加,采用三種交叉驗(yàn)證規(guī)則的模型準(zhǔn)確率均呈遞增趨勢(shì),當(dāng)特征個(gè)數(shù)從4開(kāi)始,模型準(zhǔn)確率增長(zhǎng)趨勢(shì)開(kāi)始減緩,并且隨著特征個(gè)數(shù)的增加,模型準(zhǔn)確率呈現(xiàn)來(lái)回波動(dòng)的趨勢(shì),同時(shí)采用 CV=2 的模型準(zhǔn)確率明顯低于另外兩種交叉驗(yàn)證。所以只考慮CV=5 和8的交叉驗(yàn)證規(guī)則。
由圖2可以看出,當(dāng)特征個(gè)數(shù)為18時(shí),采用 CV=8 的模型準(zhǔn)確率達(dá)到最高,并且要比采用 CV=5 的模型準(zhǔn)確率最高值更大?;跍?zhǔn)確率曲線(xiàn)的觀(guān)察結(jié)果,本文選擇8折交叉驗(yàn)證規(guī)則,特征個(gè)數(shù)為18。根據(jù)模型結(jié)果剔除“路面狀況”“天氣”和“吸毒”三個(gè)特征。
3模型構(gòu)建評(píng)估分析
3.1模型的構(gòu)建與調(diào)參
對(duì)于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,調(diào)參可以對(duì)模型的泛化能力、準(zhǔn)確性和速度等方面產(chǎn)生影響。本文選擇經(jīng)特征降維處理的數(shù)據(jù)集,基于遺傳算法對(duì)KNN、BiGRU、RF和XGBoost這四種模型的參數(shù)開(kāi)展尋優(yōu)。各模型參數(shù)優(yōu)化后的取值如表5所示。
圖2k折交叉驗(yàn)證下GBDT-RFECV模型準(zhǔn)確率結(jié)果
表5模型調(diào)參結(jié)果
3.2 實(shí)驗(yàn)結(jié)果與對(duì)比分析
采用優(yōu)化后的參數(shù)得出KNN、BiGRU、RF、XGBoost和雙層Stacking模型的準(zhǔn)確率、宏 F1 和宏AUC。模型評(píng)價(jià)指標(biāo)對(duì)比見(jiàn)表6。模型ROC曲線(xiàn)見(jiàn)圖3。
表6模型評(píng)價(jià)指標(biāo)對(duì)比
從表4、圖3可以得出以下結(jié)果。
1)各模型的準(zhǔn)確率和宏 F1 分?jǐn)?shù)相近,表明BSMOTE2成功改善了模型對(duì)少數(shù)類(lèi)別的性能,在不犧牲任何類(lèi)別性能的情況下,保持了較高的整體準(zhǔn)確性。
2)雙層Stacking模型在準(zhǔn)確率、宏 F1 值和宏AUC方面均表現(xiàn)出最佳性能。相較于KNN、BiGRU、RF和XGBoost模型,雙層Stacking模型的預(yù)測(cè)準(zhǔn)確率分別提高了 5.45%,10.23%,1.78% 和 2.34% ,宏 F1 值提高了5.31%.9.91%.1.35% 和 1.92% ,宏AUC提高了 11.13% 、6.97%.2.13% 和 2.71% 。雙層Stacking模型在多個(gè)評(píng)估指標(biāo)上的表現(xiàn)優(yōu)于其他模型,這表明它能夠更準(zhǔn)確、更全面地預(yù)測(cè)道路交通事故的嚴(yán)重程度。
圖3模型ROC曲線(xiàn)
4結(jié)語(yǔ)
本文使用美國(guó)坦佩市2022年期間的交通事故數(shù)據(jù)集,研究選擇BSMOTE2算法進(jìn)行數(shù)據(jù)平衡,以提高預(yù)測(cè)模型的準(zhǔn)確性。接著,使用GBDT-RFECV算法結(jié)合k折交叉驗(yàn)證進(jìn)行特征降維,確保模型聚焦于最關(guān)鍵的特征。然后,應(yīng)用雙層Stacking模型進(jìn)行交通事故嚴(yán)重程度預(yù)測(cè),第一層由BiGRU和XGBoost組成,將時(shí)間序列特征用于BiGRU,靜態(tài)特征用于XGBoost進(jìn)行初步預(yù)測(cè);第二層采用CatBoost模型,結(jié)合第一層的預(yù)測(cè)結(jié)果進(jìn)行最終的嚴(yán)重程度預(yù)測(cè)。結(jié)果表明,雙層Stacking模型在多個(gè)評(píng)估指標(biāo)上的表現(xiàn)優(yōu)于其他模型。然而,研究中也存在一些不足之處,如數(shù)據(jù)量相對(duì)較少且數(shù)據(jù)的地域分布單一,研究結(jié)論存在一定的局限性。
注:本文通訊作者為呂英英。
參考文獻(xiàn)
[1]張蔚.基于集成學(xué)習(xí)的道路交通事故嚴(yán)重程度預(yù)測(cè)方法研究[D].南京:南京理工大學(xué),2019.
[2]ALKHEDERS,ALRUKAIBIF,AIASHA.Risk analysisoftraffic accidents’severities:an application of three data miningmodels[J].ISAtransactions,2020,106:213-220.
[3]曹弋,張貝貝,李詩(shī)文.冰雪季城市道路交通事故嚴(yán)重程度影響因素分析[J].大連交通大學(xué)學(xué)報(bào),2022(4):8-13.
[4]束鵑.基于可解釋機(jī)器學(xué)習(xí)的城市道路交通事故嚴(yán)重程度預(yù)測(cè)[D].西安:長(zhǎng)安大學(xué),2022.
[5] ASTARITA V,HAGHSHENAS S S, GUIDO G,et al. Developing new hybrid grey wolf optimization-based artificial neuralnetworkforpredictingroadcrashseverity[J]. Transportation engineering,2023,12:100164.
[6] PEREZ - SALA L,CURADO M,TORTOSA L, et al. Deep learning model of convolutional neural networks powered by a genetic algorithm for prevention of traffic accidents severity [J]. Chaossolitonsamp;fractals,2023,169:113245.
[7]胡郁蔥,韋湖,曾強(qiáng).基于空間廣義有序Probit模型的高速公 路事故嚴(yán)重程度分析[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023,51(1):114-122.
[8]劉允.基于不平衡樣本下Stacking集成方法的貸前風(fēng)控研究 [D].武漢:華中師范大學(xué),2022.
[9]LIU B,TSOUMAKAS G.Dealing with class imbalancein classifier chains viarandom under sampling [J]. Knowledge based systems,2020,192:105292.
[10]王潔寧,侯海洋,賈奇.不均衡空管危險(xiǎn)源自由文本分類(lèi)模型 [J].安全與環(huán)境學(xué)報(bào),2022(2):826-835.
[11]陳圣靈.面向工業(yè)大數(shù)據(jù)的不平衡數(shù)據(jù)處理方法研究[D].長(zhǎng) 沙:國(guó)防科技大學(xué),2018.
[12]YANG J,LI R,CHEN L,et al.Research on equipment corrosion diagnosis method and prediction model driven by data [J]. Process safety and environmental protection,2022, 158: 418-431.
[13] OMUYAE O,OKEYOGO,KIMWELE M W.Feature selection for classification using principal component analysis and information gain [J].Expert systemswith applications, 2021,174:114765.
[14]李英帥,張旭,王衛(wèi)杰,等.基于隨機(jī)森林的電動(dòng)自行車(chē)騎行 者事故傷害程度影響因素分析[J].交通運(yùn)輸系統(tǒng)工程與信 息,2021(1):196-200.
[15]單永航,張希,胡川,等.基于集成學(xué)習(xí)的交通事故嚴(yán)重程度 預(yù)測(cè)研究與應(yīng)用[J].計(jì)算機(jī)工程,2024,50(2):33-42.
[16]徐笑鋒,肖英杰,章學(xué)來(lái),等.基于PCA-相對(duì)熵模型的海上中 轉(zhuǎn)引航平臺(tái)選址研究[J].安全與環(huán)境學(xué)報(bào),2021(6):2438- 2443.
[17]WANGX,PALIWAL KK.Feature extraction and dimensionality reduction algorithms and their applications in vowel recognition [J]. Pattern recognition,2003,36(10): 2429-2439.
[18]文靜,景鵬,賈洪飛,等.基于K均值聚類(lèi)與隨機(jī)森林算法的 居民低碳出行意向數(shù)據(jù)挖掘[J].華南理工大學(xué)學(xué)報(bào)(自然科 學(xué)版),2019,47(7):105-111.
作者簡(jiǎn)介:賈現(xiàn)廣(1977—),男,河南浚縣人,碩士研究生,碩士生導(dǎo)師,研究方向?yàn)橹悄芙煌ù髷?shù)據(jù)。宋騰飛(2000一),男,安徽阜陽(yáng)人,碩士研究生,研究方向?yàn)橹悄芙煌ù髷?shù)據(jù)。呂英英(1982—),女,山西臨汾人,碩士研究生,講師,研究方向?yàn)榇髷?shù)據(jù)應(yīng)用。