考慮易用性和可解釋性的自組織映射-即時(shí)學(xué)習(xí)風(fēng)險(xiǎn)預(yù)測(cè)框架

2024-06-07 00:00:00馬瀟馳陸建霍宗鑫夏蕭菡

西安交通大學(xué)學(xué)報(bào) 2024年5期

摘要：為提高風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的易用性和可解釋性，提出基于自組織映射網(wǎng)絡(luò)（SOM）改進(jìn)的即時(shí)學(xué)習(xí)（JITL）風(fēng)險(xiǎn)預(yù)測(cè)框架。首先，應(yīng)用SOM對(duì)數(shù)據(jù)樣本進(jìn)行聚類(lèi)，并對(duì)聚類(lèi)特征進(jìn)行解釋。進(jìn)而，通過(guò)基于聚類(lèi)結(jié)果的樣本選擇算法構(gòu)建待測(cè)數(shù)據(jù)的相似樣本集，在線(xiàn)上調(diào)用作為基學(xué)習(xí)器的支持向量機(jī)（SVM）進(jìn)行建模并輸出風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果。最后，采用一個(gè)交通事故數(shù)據(jù)集對(duì)風(fēng)險(xiǎn)模型的性能進(jìn)行測(cè)試，檢驗(yàn)其精度、易用性和可解釋性。結(jié)果表明：采用SOM-JITL策略的SVM模型，受試者工作狀況曲線(xiàn)面積指標(biāo)達(dá)到0.720，相比不使用該策略的傳統(tǒng)SVM模型提高17.5%，精度較高；SOM-JITL模型構(gòu)建所需參數(shù)調(diào)節(jié)工作少，具有較好的易用性；此外，SOM聚類(lèi)結(jié)果準(zhǔn)確識(shí)別出處于交通擁堵等高風(fēng)險(xiǎn)場(chǎng)景，與現(xiàn)實(shí)場(chǎng)景一致，具有可解釋性。綜上，SOM-JITL策略能有效提高基學(xué)習(xí)器的性能，達(dá)到精度、可解釋性和易用性的平衡，有助于以低成本大規(guī)模推廣風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)。

關(guān)鍵詞：機(jī)器學(xué)習(xí)；風(fēng)險(xiǎn)預(yù)測(cè)；易用性；可解釋性；即時(shí)學(xué)習(xí)；自組織映射

中圖分類(lèi)號(hào)：U491.3.文獻(xiàn)標(biāo)志碼：A

DOI：10.7652/xjtuxb202405020.文章編號(hào)：0253-987X（2024）05-0212-09

A Risk Prediction Framework Based on Self-Organizing Mapping and

Just-in-Time-Learning Considering Usability and Interpretability

Abstract：To enhance the usability and interpretability of risk prediction system， a traffic risk prediction framework based on just-in-time learning （JITL） improved via self-organizing mapping （SOM） is proposed. Firstly， SOM is applied for clustering the data samples and interpreting the clustering features. Then， a sample selection algorithm based on clustering results is used to construct a similar sample set for the data to be tested， and the support vector machine （SVM）， which is the base learner， is invoked online to model and output the risk prediction results. Lastly， the model performance is tested using a traffic flow-crash dataset to evaluate interpretability and accuracy. The results show that the area under receiver operating characteristic curve of the SVM model using the SOM-JITL strategy reaches 0.720， which is 17.5% higher than that of the traditional SVM model without the strategy. The SOM-JITL requires less parameter adjustment， and has better usability. In addition， the clustering results of the SOM-JITL accurately identify high-risk scenarios， such as traffic congestion， which is consistent with realistic scenarios and has interpretability. In summary， the SOM-JITL can effectively enhance the performance of the base learner， and endow the model with balance among accuracy， interpretability and usability， facilitating the cost-effective and large-scale deployment of risk prediction systems.

Keywords：machine learning; risk prediction; usability; interpretability; just-in-time learning; self-organized map

風(fēng)險(xiǎn)預(yù)測(cè)深入生產(chǎn)生活的各方面，為了防止事故發(fā)生，許多領(lǐng)域都已建立了特定的風(fēng)險(xiǎn)預(yù)測(cè)模型，為相關(guān)事業(yè)的安全穩(wěn)定做出了巨大貢獻(xiàn)。在醫(yī)學(xué)領(lǐng)域，已形成多項(xiàng)疾病的風(fēng)險(xiǎn)預(yù)測(cè)應(yīng)用［1］；在金融領(lǐng)域，大量針對(duì)企業(yè)破產(chǎn)和個(gè)人信用的風(fēng)險(xiǎn)評(píng)估指導(dǎo)著銀行制定合理的投資方案［2］；在交通領(lǐng)域，預(yù)測(cè)系統(tǒng)實(shí)時(shí)監(jiān)測(cè)著風(fēng)險(xiǎn)因子的變化以規(guī)避交通事故的發(fā)生［3］。為了獲得更可靠的風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)，在過(guò)去的研究中，以計(jì)量經(jīng)濟(jì)學(xué)模型為基礎(chǔ)的各類(lèi)風(fēng)險(xiǎn)預(yù)測(cè)模型被廣泛應(yīng)用，包括Logistics模型［4］、貝葉斯方法［5］等，此類(lèi)模型針對(duì)風(fēng)險(xiǎn)致因的相關(guān)性進(jìn)行研究，易于理解，但普遍存在識(shí)別精度相對(duì)較低的問(wèn)題。隨著智能算法和數(shù)據(jù)采集技術(shù)的快速發(fā)展，已有多個(gè)領(lǐng)域開(kāi)始采集大量系統(tǒng)正常運(yùn)行和處于故障時(shí)的數(shù)據(jù)，并使用機(jī)器學(xué)習(xí)對(duì)行業(yè)內(nèi)出現(xiàn)的事故風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)和評(píng)估［6］。以深度學(xué)習(xí)為代表的復(fù)雜機(jī)器學(xué)習(xí)模型隨后也被引入事故風(fēng)險(xiǎn)的研究中［7］，進(jìn)一步提高了風(fēng)險(xiǎn)預(yù)測(cè)的精度。

風(fēng)險(xiǎn)預(yù)測(cè)模型的可解釋性是能否執(zhí)行管理決策的依據(jù)。深度學(xué)習(xí)框架作為黑箱模型帶來(lái)的低可解釋性容易造成法律上的責(zé)任歸屬不明確［8］，從而限制風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的應(yīng)用。已有學(xué)者對(duì)可解釋機(jī)器學(xué)習(xí)展開(kāi)研究［9］，提出利用特征重要度或代理模型對(duì)變量的影響進(jìn)行分析，并將解釋結(jié)果和現(xiàn)實(shí)場(chǎng)景進(jìn)行對(duì)比，以此檢驗(yàn)?zāi)Ｐ偷目山忉屝裕?0］。另一方面，深度學(xué)習(xí)模型的建立需要復(fù)雜的訓(xùn)練和參數(shù)調(diào)試知識(shí)。對(duì)于不同數(shù)據(jù)集，往往需要專(zhuān)家重新進(jìn)行調(diào)參訓(xùn)練才能投入使用［11］，所訓(xùn)練的模型無(wú)法大規(guī)模推廣，成本耗費(fèi)高昂，易用性不強(qiáng)。因此，亟需提出新的風(fēng)險(xiǎn)預(yù)測(cè)模型達(dá)到精度、解釋能力和易用性3者間的平衡，理想模型應(yīng)該同時(shí)具有場(chǎng)景識(shí)別和短時(shí)風(fēng)險(xiǎn)預(yù)測(cè)的功能［12］，且不需要復(fù)雜的算法參數(shù)調(diào)節(jié)知識(shí)就能完成模型建立并投入使用。

基于以上目標(biāo)，本文提出基于自組織映射聚類(lèi)（SOM）改進(jìn)的即時(shí)學(xué)習(xí)策略（JITL），以支持向量機(jī)（SVM）作為基學(xué)習(xí)器，結(jié)合SOM-JITL構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)框架，旨在完成風(fēng)險(xiǎn)場(chǎng)景識(shí)別和短時(shí)風(fēng)險(xiǎn)預(yù)測(cè)［13］，同時(shí)賦予模型高精度、可解釋性和易用性。本研究的貢獻(xiàn)主要在于：采用SOM聚類(lèi)完成場(chǎng)景識(shí)別，實(shí)現(xiàn)了模型可解釋性的提升；利用即時(shí)學(xué)習(xí)策略提高了模型易用性和基學(xué)習(xí)器精度；采用交通事故數(shù)據(jù)集對(duì)建立的SOM-JITL-SVM模型進(jìn)行測(cè)試，通過(guò)對(duì)比各個(gè)基線(xiàn)方法的性能指標(biāo)，驗(yàn)證SOM-JITL策略為風(fēng)險(xiǎn)預(yù)測(cè)模型帶來(lái)的有益提升。

1.模型算法

1.1.改進(jìn)的自組織映射-即時(shí)學(xué)習(xí)算法

JITL的基本思想是將傳統(tǒng)“離線(xiàn)建模、線(xiàn)上工作”的模式轉(zhuǎn)變?yōu)椤熬€(xiàn)上同時(shí)建模和工作”。傳統(tǒng)模型是在系統(tǒng)訓(xùn)練完成后提供用戶(hù)使用，JITL是在線(xiàn)上同時(shí)建立模型和實(shí)現(xiàn)用戶(hù)需求，兩者的工作流程對(duì)比如圖1所示。JITL首先將所有已有樣本存儲(chǔ)在歷史樣本數(shù)據(jù)庫(kù)中，當(dāng)用戶(hù)提交測(cè)試需求時(shí)，通過(guò)預(yù)設(shè)規(guī)則選擇待測(cè)數(shù)據(jù)小鄰域范圍內(nèi)的樣本，建立相似樣本子集，再使用相似樣本子集在線(xiàn)上進(jìn)行建模和結(jié)果輸出。在輸出結(jié)果后，當(dāng)前模型將被立刻舍棄，為一次性使用的模型。與傳統(tǒng)建模策略相比，JITL可以有效地處理樣本差異性較大的分類(lèi)問(wèn)題，提升傳統(tǒng)方法難以解決的不平衡分類(lèi)問(wèn)題的準(zhǔn)確度［14］。

在采用JITL策略并應(yīng)用基學(xué)習(xí)器進(jìn)行建模前，需根據(jù)數(shù)據(jù)之間的相似度在歷史樣本數(shù)據(jù)庫(kù)中挑選出相似樣本子集。相似度的計(jì)算方法可以使用歐氏距離、漢明距離、曼哈頓距離等［15］，多數(shù)文獻(xiàn)使用基于歐氏距離的K近鄰方法。但是，使用K近鄰方法需要提前預(yù)設(shè)待選樣本數(shù)量，過(guò)少的樣本數(shù)量會(huì)使樣本子集的信息缺失，過(guò)多的數(shù)量會(huì)引入噪聲，都會(huì)影響建模質(zhì)量。因此，本文提出基于SOM聚類(lèi)結(jié)果的改進(jìn)JITL樣本子集構(gòu)建算法。

SOM是一種用于聚類(lèi)和特征提取的神經(jīng)網(wǎng)絡(luò)無(wú)監(jiān)督學(xué)習(xí)算法。對(duì)于具有K個(gè)樣本的向量組X=［x1，x2，…，xK］，SOM將其映射到具有指定神經(jīng)元（簇）拓?fù)浣Y(jié)構(gòu)的二維空間中，為探索最佳的神經(jīng)元數(shù)量，在建模時(shí)將使用多組網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比其性能。

SOM的訓(xùn)練過(guò)程采用勝者通吃的激活機(jī)制，每一次比較輸入向量和神經(jīng)元向量（簇心）的歐氏距離，與輸入向量相似性最大的神經(jīng)元獲勝，并對(duì)周?chē)徲虻纳窠?jīng)元權(quán)值進(jìn)行更新。權(quán)值w的更新公式為

w←w+ηh（d）（x-w）（1）

式中：η是學(xué)習(xí)率；h（·）是衰減函數(shù)，在實(shí)際應(yīng)用中常使用高斯函數(shù)；d是激活神經(jīng)元和其他神經(jīng)元之間的距離，一般為在網(wǎng)絡(luò)結(jié)構(gòu)中的坐標(biāo)距離。

在完成歷史樣本數(shù)據(jù)的SOM聚類(lèi)后，當(dāng)輸入待測(cè)樣本時(shí)，判斷待測(cè)樣本所屬的SOM簇，再根據(jù)該SOM簇的相似簇心構(gòu)造相似簇集合，進(jìn)一步根據(jù)子簇心的相似簇心擴(kuò)大相似簇集合，以此循環(huán)。將所屬相似簇集合的歷史樣本作為相似樣本子集，相似簇心的判別條件可使用簇心距離集合的均值或25%分位值，具體算法如下。

算法1：基于SOM聚類(lèi)結(jié)果的JITL相似樣本子集構(gòu)造

輸入：SOM簇編號(hào)集合I={1，2，…，N}，SOM簇心向量W={wi，i=I}，SOM簇心距離矩陣D={dij，i=I，j=I}，SOM簇心鄰接矩陣A={aij，i=I，j=I}，歷史樣本集H={xq，q=1，2，…}，待測(cè)數(shù)據(jù)xp

輸出：待測(cè)數(shù)據(jù)xp的相似樣本子集S

1.2.基學(xué)習(xí)器：支持向量機(jī)

SVM是一個(gè)經(jīng)典而高效的分類(lèi)器，其通過(guò)搜索支持向量并構(gòu)造它們的線(xiàn)性或非線(xiàn)性組合來(lái)確定分類(lèi)超平面［16］。采用SVM作為SOM-JITL策略的基學(xué)習(xí)器，優(yōu)勢(shì)在于SVM超參數(shù)較少，便于調(diào)校投入使用。在后續(xù)建模測(cè)試中，僅使用SVM建模的推薦參數(shù)。一個(gè)典型的非線(xiàn)性SVM可以被定義為

F（x）=sgn （∑a*iyiK（x，xi）+b*）（2）

式中：a*i是優(yōu)化后拉格朗日乘子；yi是支持向量的類(lèi)別；K（x，xi）為核函數(shù)；xi為支持向量；b*為截距。

1.3.基線(xiàn)：極端梯度提升

XGBoost在梯度提升樹(shù)的基礎(chǔ)上進(jìn)行了大量改進(jìn)，被認(rèn)為在分類(lèi)和回歸問(wèn)題上都具有極高的性能，在交通事故風(fēng)險(xiǎn)預(yù)測(cè)中也有較多應(yīng)用［17］。XGBoost代表復(fù)雜機(jī)器學(xué)習(xí)在本文中成為基線(xiàn)，在建模測(cè)試中調(diào)用python的XGBoost庫(kù)實(shí)現(xiàn)該模型，其超參數(shù)較多，參數(shù)調(diào)試過(guò)程較為復(fù)雜，通常需要反復(fù)調(diào)試以避免過(guò)擬合的情況發(fā)生。

1.4.超參數(shù)選取

采用貪心算法對(duì)XGBoost超參數(shù)進(jìn)行調(diào)節(jié)，即在參數(shù)的推薦值范圍內(nèi)逐個(gè)嘗試，當(dāng)一個(gè)參數(shù)調(diào)至最優(yōu)時(shí)，再進(jìn)行下一個(gè)參數(shù)的優(yōu)化，簡(jiǎn)要的算法流程如下所示。

算法2：基于貪心算法的機(jī)器學(xué)習(xí)超參數(shù)優(yōu)化

輸入：待優(yōu)化超參數(shù)數(shù)組A={a1，a2，…，an}，訓(xùn)練數(shù)據(jù)集T={（xj，yj）}，待優(yōu)化超參數(shù)取值上下限U={u1，u2，…，un}，D={d1，d2，…，dn}，使用超參數(shù)數(shù)組A進(jìn)行訓(xùn)練的學(xué)習(xí)器y=fA（X）

輸出：優(yōu)化的超參數(shù)數(shù)組A*={a*1，a*2，…，a*n}

本實(shí)驗(yàn)中選用的SVM默認(rèn)參數(shù)和優(yōu)化后的XGBoost主要參數(shù)值可直接參考表1。

2.測(cè)試數(shù)據(jù)

2.1.數(shù)據(jù)集構(gòu)造

本研究旨在通過(guò)和現(xiàn)實(shí)場(chǎng)景進(jìn)行比對(duì)來(lái)驗(yàn)證可解釋性，因此選擇基于實(shí)際工程背景的交通事故數(shù)據(jù)集進(jìn)行測(cè)試。原始數(shù)據(jù)為浙江杭州上塘快速路2015年3個(gè)月間的交通流和事故記錄。交通流記錄包括傳感器每5 min內(nèi)記錄一次該時(shí)段內(nèi)的斷面交通量、平均車(chē)速和車(chē)道占有率。事故記錄由公安交警部門(mén)提供，共包括123起事故。為對(duì)事故風(fēng)險(xiǎn)進(jìn)行提前預(yù)警，對(duì)每一起事故，將事故點(diǎn)所在路段上下游傳感器采集的前5～10 min內(nèi)的交通量、占有率和車(chē)速數(shù)據(jù)作為特征變量，共6個(gè)自變量。

交通事故相對(duì)于正常行駛狀態(tài)是稀有事件，使用全樣本數(shù)據(jù)集容易導(dǎo)致數(shù)據(jù)不平衡問(wèn)題［18］。目前在風(fēng)險(xiǎn)預(yù)測(cè)研究中，普遍采用病例對(duì)照法來(lái)構(gòu)造數(shù)據(jù)集［19］，通過(guò)對(duì)每一個(gè)病例（事故）選取一定數(shù)量的正常樣本作為對(duì)照組，能在平衡數(shù)據(jù)樣本的同時(shí)探索病例（事故）的影響因素。因此，本研究參考病例對(duì)照法，對(duì)每條事故數(shù)據(jù)，隨機(jī)選擇了相同觀測(cè)路段、相同時(shí)間、不同日期的3條非事故數(shù)據(jù)進(jìn)行匹配，并作相應(yīng)的特征變量計(jì)算，最終數(shù)據(jù)集共計(jì)492條數(shù)據(jù)，數(shù)據(jù)結(jié)構(gòu)及變量描述見(jiàn)表2。

在使用表2交通事故數(shù)據(jù)集進(jìn)行性能測(cè)試時(shí)，對(duì)傳統(tǒng)的建模方法，依舊劃分訓(xùn)練集和測(cè)試集，兩個(gè)集合的數(shù)據(jù)比例為75%和25%，且兩個(gè)集合中事故數(shù)據(jù)和非事故數(shù)據(jù)的比例仍控制在約1∶3?？紤]到JITL策略獨(dú)特的“用后即棄”模型使用方法，為保持模型評(píng)價(jià)時(shí)精度指標(biāo)的一致性，所有應(yīng)用JITL策略的方法使用75%的數(shù)據(jù)作為歷史樣本數(shù)據(jù)，25%的數(shù)據(jù)作為測(cè)試數(shù)據(jù)。

2.2.精度評(píng)價(jià)指標(biāo)

杭州事故測(cè)試數(shù)據(jù)集為典型的二分類(lèi)問(wèn)題數(shù)據(jù)集，當(dāng)模型輸出為連續(xù)值時(shí)，使用受試者工作狀況（ROC）曲線(xiàn)下的面積Auc來(lái)表征模型的綜合精度。ROC曲線(xiàn)為在不同分類(lèi)閾值t下以假陽(yáng)性率Rfp為橫坐標(biāo)、真陽(yáng)性率Rtp為縱坐標(biāo)描畫(huà)的曲線(xiàn)。假陽(yáng)性率代表有多少正常狀況被誤檢為險(xiǎn)情，真陽(yáng)性率代表有多少險(xiǎn)情被正確識(shí)別，其分類(lèi)混淆矩陣見(jiàn)表3，計(jì)算方法如下

式中：nTP、nFP為真陽(yáng)性、假陽(yáng)性案例數(shù)量；nTN、nFN為真陰性、假陰性案例數(shù)量。

顯然一個(gè)高精度的模型應(yīng)當(dāng)具有低假陽(yáng)性率和高真陽(yáng)性率，此時(shí)ROC曲線(xiàn)會(huì)更飽滿(mǎn)，相應(yīng)Auc指標(biāo)更高。

通過(guò)調(diào)整不同的分類(lèi)閾值，可以在容許更高假陽(yáng)性率的前提下提高模型的真陽(yáng)性率，采用最大約登指數(shù)yd作為最終分類(lèi)閾值，即ROC曲線(xiàn)上的縱坐標(biāo)與橫坐標(biāo)之差最大時(shí)對(duì)應(yīng)的分類(lèi)閾值，并采用F1分?jǐn)?shù)指標(biāo)Fscore綜合評(píng)價(jià)此時(shí)的模型性能，兩者計(jì)算公式如下

3.結(jié)果和討論

分別使用SVM、XGBoost、JITL-SVM和SOM-JITL-SVM模型在事故數(shù)據(jù)集上對(duì)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)，各模型選擇參數(shù)后的性能測(cè)試結(jié)果如表4所示。從模型的Auc和Fscore指標(biāo)項(xiàng)可以發(fā)現(xiàn)，直接使用SVM模型進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè)效果不佳；在應(yīng)用了JITL策略后，性能得到提升，Auc指標(biāo)達(dá)到0.648；當(dāng)聯(lián)合應(yīng)用SOM-JITL策略時(shí)，Auc指標(biāo)為0.720，較SVM提升17.5%，較JITL-SVM提升11.1%，其Auc和Fscore指標(biāo)在各個(gè)模型中均表現(xiàn)最好，此時(shí)模型能正確識(shí)別77.4%的險(xiǎn)情，誤報(bào)率為37%。

在易用性方面，SOM-JITL-SVM模型僅需確定使用的聚類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)，XGBoost則需要專(zhuān)家知識(shí)確認(rèn)超參數(shù)優(yōu)化的上、下限，并使用貪心算法優(yōu)化超參數(shù)值。結(jié)合兩者的精度性能，SOM-JITL-SVM的調(diào)參過(guò)程更簡(jiǎn)單，精度能達(dá)到甚至超過(guò)XGBoost的水平，因此SOM-JITL-SVM具有更好的易用性。

此外，根據(jù)每一次待測(cè)數(shù)據(jù)從輸入到風(fēng)險(xiǎn)結(jié)果輸出的耗時(shí)，計(jì)算了各模型的平均預(yù)測(cè)時(shí)間。由表4耗時(shí)項(xiàng)可知，由于JITL策略是線(xiàn)上建模并輸出結(jié)果，對(duì)比傳統(tǒng)模型增加了訓(xùn)練模型所需的時(shí)間，但平均每一次預(yù)測(cè)用時(shí)都能控制在0.543 ms左右，考慮硬件性能和冗余，SOM-JITL的計(jì)算耗時(shí)能滿(mǎn)足短時(shí)風(fēng)險(xiǎn)預(yù)測(cè)的時(shí)效性需要。

下面，將具體論述SOM-JITL的精度性能、易用性和可解釋性。

3.1.精度性能討論

在SOM-JITL-SVM模型中，對(duì)多組SOM網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行測(cè)試，從2×1結(jié)構(gòu)遍歷至7×7，共比較27個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的模型精度，每種結(jié)構(gòu)進(jìn)行30次實(shí)驗(yàn)，以多次實(shí)驗(yàn)Auc指標(biāo)的均值為中心、標(biāo)準(zhǔn)差為長(zhǎng)度繪制誤差棒，結(jié)果如圖2所示。

由圖2易發(fā)現(xiàn)，當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)為4×2時(shí)，模型Auc的均值最高，達(dá)到0.720，標(biāo)準(zhǔn)誤差為0.015，在可接受范圍內(nèi)。因此，選擇4×2網(wǎng)絡(luò)結(jié)構(gòu)、Auc為0.720的SOM-JITL-SVM模型作為代表。

圖2中Auc均值隨網(wǎng)絡(luò)結(jié)構(gòu)的變化而波動(dòng)。性能穩(wěn)定、Auc均值較高且標(biāo)準(zhǔn)差較小的網(wǎng)絡(luò)結(jié)構(gòu)有3×1、 3×2、 3×3、 4×2、 5×2、 7×1，其神經(jīng)元數(shù)量均在3～10之間，每個(gè)神經(jīng)元命中的樣本數(shù)量期望為30～100，考慮到SOM相似樣本集選取算法會(huì)使多個(gè)簇聚為一類(lèi)，實(shí)際每個(gè)類(lèi)別的樣本會(huì)比期望值更多。

在JITL-SVM模型中采用了K近鄰相似樣本選擇法，即選取相似樣本的比例為原始數(shù)據(jù)集中歐氏距離最小的前10%、20%和30%個(gè)樣本，構(gòu)造相似樣本子集訓(xùn)練。最終實(shí)驗(yàn)結(jié)果表明，選擇前20%的相似樣本所獲得的效果最佳，與SOM聚類(lèi)的樣本數(shù)量結(jié)果類(lèi)似。即在JITL構(gòu)建相似樣本子集時(shí)，控制相似樣本集大小在30～140之間可以獲得最佳性能［20］，可以根據(jù)不同的基學(xué)習(xí)器微調(diào)樣本集大小，但低于或超過(guò)這個(gè)范圍的性能都會(huì)存在較大波動(dòng)。故SOM網(wǎng)絡(luò)中的神經(jīng)元數(shù)量N應(yīng)大致滿(mǎn)足與歷史樣本數(shù)M的如下關(guān)系

綜上，在精度要求上，SOM-JITL策略實(shí)現(xiàn)了基學(xué)習(xí)器性能的較大提升，所形成的風(fēng)險(xiǎn)預(yù)測(cè)模型達(dá)到和復(fù)雜機(jī)器學(xué)習(xí)一致的水平。

3.2.易用性討論

在建模過(guò)程中，SOM-JITL-SVM使用基學(xué)習(xí)器的默認(rèn)參數(shù)，僅在SOM的網(wǎng)絡(luò)結(jié)構(gòu)配置上進(jìn)行了一次參數(shù)調(diào)節(jié)，實(shí)際應(yīng)用時(shí)可以按式（7）推算。

在采用XGBoost算法進(jìn)行數(shù)據(jù)集測(cè)試時(shí)，遵循算法2，采用貪心算法進(jìn)行求解最優(yōu)超參數(shù)。使用初始參數(shù)時(shí)，訓(xùn)練集Auc指標(biāo)接近1，測(cè)試集Auc僅為0.6，形成巨大的訓(xùn)練測(cè)試集指標(biāo)差，顯然XGBoost在訓(xùn)練集上過(guò)擬合。進(jìn)行超參數(shù)調(diào)節(jié)后，模型Auc指標(biāo)的訓(xùn)練測(cè)試集指標(biāo)差為0.139，不再過(guò)擬合。如更換數(shù)據(jù)集，則需要再次進(jìn)行上述過(guò)程。

結(jié)合表4的模型精度對(duì)比結(jié)果，SOM-JITL策略極大地簡(jiǎn)化了機(jī)器學(xué)習(xí)模型的參數(shù)調(diào)試過(guò)程，使利用較少的調(diào)參知識(shí)完成風(fēng)險(xiǎn)預(yù)測(cè)建模成為可能。在考慮模型易用性并有較高精度需求時(shí)，SOM-JITL策略是一種行而有效的方法。

3.3.可解釋性討論

在驗(yàn)證了SOM-JITL的精度性能和易用性后，需進(jìn)一步對(duì)其在機(jī)器學(xué)習(xí)范疇內(nèi)的可解釋性進(jìn)行討論，以確定SOM-JITL的普適和易用性是從數(shù)據(jù)中自發(fā)學(xué)習(xí)風(fēng)險(xiǎn)特征得到，而不是通過(guò)一個(gè)復(fù)雜的過(guò)擬合過(guò)程產(chǎn)生。

以3.1中獲得的4×2網(wǎng)絡(luò)結(jié)構(gòu)的SOM-JITL-SVM模型為例，討論模型可解釋性。該模型中SOM簇心鄰接權(quán)重如圖3所示，權(quán)重顏色越深代表兩個(gè)簇心的距離越大，算法將距離較近的1、2、6號(hào)簇心連接為一個(gè)類(lèi)（1-2-6），其余簇心單獨(dú)成一個(gè)類(lèi)。按每一類(lèi)別內(nèi)的事故數(shù)和樣本數(shù)比值計(jì)算事故率，按事故率升序排列得到從風(fēng)險(xiǎn)等級(jí)Ⅰ到Ⅵ的6類(lèi)交通運(yùn)行場(chǎng)景。表5描述了SOM在杭州上塘快速路上識(shí)別的6類(lèi)交通運(yùn)行場(chǎng)景，以及每個(gè)場(chǎng)景的交通流和事故率特征。

由表5可知，第Ⅴ類(lèi)和第Ⅵ類(lèi)場(chǎng)景的事故率最高，事故數(shù)超過(guò)其他4類(lèi)總和的兩倍，需重點(diǎn)分析。第Ⅴ類(lèi)交通場(chǎng)景的特征是上下游交通量差距較大，且交通量和運(yùn)行速度都隨著車(chē)輛的前進(jìn)逐步升高，但車(chē)道占有率并沒(méi)有改變。檢查原始數(shù)據(jù)的采集編號(hào)可定位此類(lèi)場(chǎng)景是典型的車(chē)輛合流區(qū)［21-22］，在合流過(guò)程中交通運(yùn)行復(fù)雜，易發(fā)生事故。雖然第Ⅰ類(lèi)場(chǎng)景也存在類(lèi)似的交通量和速度增大、車(chē)道占有率不變的特征，但其速度更接近運(yùn)行限速［23］，是交通量總體較小、路況良好的自由流狀態(tài)。第Ⅵ類(lèi)場(chǎng)景的上下游車(chē)道占有率極大提高而速度顯著下降，該情況發(fā)生在擁堵的分流區(qū)，車(chē)道數(shù)減少但交通量未明顯減少［24］，會(huì)頻繁發(fā)生超車(chē)、別車(chē)、加塞等不良駕駛行為，導(dǎo)致事故高發(fā)。由第Ⅴ類(lèi)和第Ⅵ類(lèi)的高風(fēng)險(xiǎn)特征，結(jié)合第Ⅳ類(lèi)場(chǎng)景的車(chē)道占有率顯著高于第Ⅰ、第Ⅱ、第Ⅲ類(lèi)且第Ⅳ類(lèi)事故率也較高的現(xiàn)象可以得出，高車(chē)道占有率的交通運(yùn)行狀況是事故多發(fā)場(chǎng)景［25］，應(yīng)重點(diǎn)排查在交織區(qū)路段高車(chē)道占有率情況下的風(fēng)險(xiǎn)隱患，與現(xiàn)實(shí)場(chǎng)景一致。

綜上，不同于傳統(tǒng)機(jī)器學(xué)習(xí)模型的事后解釋?zhuān)琒OM-JITL將變量解釋工作遷移到建模之前，最大限度地保留了數(shù)據(jù)信息，易于理解，擁有良好的可解釋性，同時(shí)增強(qiáng)了SOM-JITL模型的易用性和實(shí)用性。如圖4所示，SOM的聚類(lèi)結(jié)果可作為風(fēng)險(xiǎn)評(píng)估的初步結(jié)論、JITL-SVM的預(yù)測(cè)值可作為精細(xì)化評(píng)估結(jié)論，形成兩階段、多層次的風(fēng)險(xiǎn)評(píng)估流程。

4.結(jié).論

考慮精度、可解釋性和易用性的平衡，本文提出了基于自組織映射改進(jìn)即時(shí)學(xué)習(xí)策略（SOM-JITL）的風(fēng)險(xiǎn)預(yù)測(cè)框架，采用交通事故數(shù)據(jù)集作為實(shí)例分析，主要結(jié)論如下。

（1）在交通事故數(shù)據(jù)集的測(cè)試中，應(yīng)用了SOM-JITL策略的SVM基學(xué)習(xí)器性能得到大幅提高。與不使用該策略的傳統(tǒng)SVM模型相比，Auc指標(biāo)提高17.5%達(dá)到0.720，能夠正確識(shí)別77%的高風(fēng)險(xiǎn)警情，達(dá)到和復(fù)雜機(jī)器學(xué)習(xí)XGBoost模型一致的水平，具有較高的精度；單次運(yùn)行時(shí)間為0.543 ms，亦滿(mǎn)足短時(shí)預(yù)測(cè)時(shí)效性的要求。

（2）SOM-JITL策略的參數(shù)調(diào)試簡(jiǎn)單，易于使用，作為其基學(xué)習(xí)器的SVM模型僅使用默認(rèn)推薦參數(shù)，性能即達(dá)到和進(jìn)行了較復(fù)雜調(diào)參的XGBoost模型一致的水平。SOM-JITL策略的參數(shù)調(diào)試工作主要是選擇SOM網(wǎng)絡(luò)結(jié)構(gòu)，本文提出了神經(jīng)元數(shù)量估算公式以簡(jiǎn)化該過(guò)程，當(dāng)每個(gè)神經(jīng)元的期望樣本數(shù)量在30～150時(shí)，SOM-JITL策略能達(dá)到較高的性能，以此實(shí)現(xiàn)了SOM-JITL策略的良好易用性。

（3）SOM-JITL策略在建模前采用SOM對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析，完成風(fēng)險(xiǎn)場(chǎng)景識(shí)別，在事故數(shù)據(jù)集中，SOM聚類(lèi)結(jié)果表明，高車(chē)道占有率場(chǎng)景下的事故率顯著提高，擁堵?tīng)顟B(tài)下的合流、分流區(qū)更容易發(fā)生交通事故，與實(shí)際相符。這表明SOM-JITL策略具有良好可解釋性，能夠快速學(xué)習(xí)數(shù)據(jù)中的風(fēng)險(xiǎn)特征。

（4）SOM-JITL策略結(jié)合不同的基學(xué)習(xí)器實(shí)現(xiàn)了風(fēng)險(xiǎn)預(yù)測(cè)框架的高精度、可解釋性和易用性的平衡，適用于各領(lǐng)域內(nèi)的風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題。但是，本研究?jī)H對(duì)風(fēng)險(xiǎn)的預(yù)測(cè)預(yù)警進(jìn)行了討論，尚未考慮發(fā)現(xiàn)風(fēng)險(xiǎn)后的主動(dòng)防控措施，這是未來(lái)研究中進(jìn)一步提高SOM-JITL風(fēng)險(xiǎn)預(yù)測(cè)框架應(yīng)用價(jià)值的研究方向。

參考文獻(xiàn)：

［1］NADARAJAH R， YOUNSI T， ROMER E， et al. Prediction models for heart failure in the community： a systematic review and meta-analysis ［J］. European Journal of Heart Failure， 2023， 25（10）： 1724-1738.

［2］ZELENKOV Y， FEDOROVA E， CHEKRIZOV D. Two-step classification method based on genetic algorithm for bankruptcy forecasting ［J］. Expert Systems with Applications， 2017， 88： 393-401.

［3］YU Le， DU Bowen， HU Xiao， et al. Deep spatio-temporal graph convolutional network for traffic accident prediction ［J］. Neurocomputing， 2021， 423： 135-147.

［4］HUO Xiaoyan， LENG Junqiang， LUO Lijun， et al. A mixed logit model with mean-variance heterogeneity to investigate factors of crash occurrence ［J］. International Journal of Injury Control and Safety Promotion， 2021， 28（3）： 301-308.

［5］KAMEL A， SAYED T， FU Chuanyun. Real-time safety analysis using autonomous vehicle data： a Bayesian hierarchical extreme value model ［J］. Transportmetrica： B.Transport Dynamics， 2023， 11（1）： 826-846.

［6］CHEN T K， LIAO H H， CHEN Gengdao， et al. Bankruptcy prediction using machine learning models with the text-based communicative value of annual reports ［J］. Expert Systems with Applications， 2023， 233： 120714.

［7］BRITO M P， STEVENSON M， BRAVO C. Subjective machines： Probabilistic risk assessment based on deep learning of soft information ［J］. Risk Analysis， 2023， 43（3）： 516-529.

［8］KRAFFT T D， ZWEIG K A， KNIG P D. How to regulate algorithmic decision-making： a framework of regulatory requirements for different applications ［J］. Regulation amp; Governance， 2022， 16（1）： 119-136.

［9］KHATTAK A， CHAN P W， CHEN Feng， et al. Interpretable ensemble imbalance learning strategies for the risk assessment of severe-low-level wind shear based on LiDAR and PIREPs ［J/OL］. Risk Analysis， 2023［2023-07-12］. https：//doi.org/10.1111/risa.14215.

［10］BOSTROM A， DEMUTH J L， WIRZ C D， et al. Trust and trustworthy artificial intelligence： a research agenda for AI in the environmental sciences ［J/OL］. Risk Analysis， 2023［2023-07-12］. https：//doi.org/10.1111/risa.14245.

［11］MANNERING F， BHAT C R， SHANKAR V， et al. Big data， traditional data and the tradeoffs between prediction and causality in highway-safety analysis ［J］. Analytic Methods in Accident Research， 2020， 25： 100113.

［12］GUTIERREZ-OSORIO C， PEDRAZA C. Modern data sources and techniques for analysis and forecast of road accidents： a review ［J］. Journal of Traffic and Transportation Engineering（English Edition）， 2020， 7（4）： 432-446.

［13］楊文臣，周燕寧，田畢江，等. 基于聚類(lèi)分析和SVM的二級(jí)公路交通事故嚴(yán)重度預(yù)測(cè) ［J］. 中國(guó)安全科學(xué)學(xué)報(bào)， 2022， 32（5）： 163-169.

YANG Wenchen， ZHOU Yanning， TIAN Bijiang， et al. Traffic accident severity prediction for secondary highways based on cluster analysis and SVM model ［J］. China Safety Science Journal， 2022， 32（5）： 163-169.

［14］QI Long， LIU Hui， XIONG Qian， et al. Just-in-time-learning based prediction model of BOF endpoint carbon content and temperature via vMF mixture model and weighted extreme learning machine ［J］. Computers amp; Chemical Engineering， 2021， 154： 107488.

［15］ZHAO Dan， PAN Tianhong， SHENG Biqi. Just-in-time learning algorithm using the improved similarity index ［C］//2016 35th Chinese Control Conference （CCC）. Piscataway， NJ， USA： IEEE， 2016： 9065-9068.

［16］WANG Ling， ABDEL-ATY M， LEE J， et al. Analysis of real-time crash risk for expressway ramps using traffic， geometric， trip generation， and socio-demographic predictors ［J］. Accident Analysis amp; Prevention， 2019， 122： 378-384.

［17］PARSA A B， MOVAHEDI A， TAGHIPOUR H， et al. Toward safer highways， application of XGBoost and SHAP for real-time accident detection and feature analysis ［J］. Accident Analysis amp; Prevention， 2020， 136： 105405.

［18］PARSA A B， TAGHIPOUR H， DERRIBLE S， et al. Real-time accident detection： coping with imbalanced data ［J］. Accident Analysis amp; Prevention， 2019， 129： 202-210.

［19］LI Qianwen， YAO Handong， LI Xiaopeng. A matched case-control method to model car-following safety ［J］. Transportmetrica： A.Transport Science， 2023， 19（3）： 2055198.

［20］ZHOU Ping， CHEN Weiqi， YI Chengming， et al. Fast just-in-time-learning recursive multi-output LSSVR [JP+3]for quality prediction and control of multivariable dynamic systems ［J］. Engineering Applications of Artificial Intelligence， 2021， 100： 104168.

［21］ZHENG Qikang， XU Chengcheng， LIU Pan， et al. Investigating the predictability of crashes on different freeway segments using the real-time crash risk models ［J］. Accident Analysis amp; Prevention， 2021， 159： 106213.

［22］SHI Qi， ABDEL-ATY M. Big data applications in real-time traffic operation and safety monitoring and improvement on urban expressways ［J］. Transportation Research： Part C.Emerging Technologies， 2015， 58， Part B： 380-394.

［23］YU Rongjie， QUDDUS M， WANG Xuesong， et al. Impact of data aggregation approaches on the relationships between operating speed and traffic safety ［J］. Accident Analysis amp; Prevention， 2018， 120： 304-310.

［24］YANG Kui， WANG Xuesong， YU Rongjie. A Bayesian dynamic updating approach for urban expressway real-time crash risk evaluation ［J］. Transportation Research： Part C.Emerging Technologies， 2018， 96： 192-207.

［25］陳豐，張婷，黃雅迪，等. 越江越海隧道入口段追尾事故風(fēng)險(xiǎn)預(yù)測(cè)模型研究［J］. 交通運(yùn)輸系統(tǒng)工程與信息， 2021， 21（6）： 167-175.

CHEN Feng， ZHANG Ting， HUANG Yadi， et al. Rear-end crash risk prediction model on entrance section of cross-river and cross-sea tunnels ［J］. Journal of Transportation Systems Engineering and Information Technology， 2021， 21（6）： 167-175.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

考慮易用性和可解釋性的自組織映射-即時(shí)學(xué)習(xí)風(fēng)險(xiǎn)預(yù)測(cè)框架