張 華
(湖北民族大學(xué)智能科學(xué)與工程學(xué)院,湖北 恩施 445000)
據(jù)公安部2022 年3 月發(fā)布的最新數(shù)據(jù),全國(guó)機(jī)動(dòng)車保有量為4.02 億輛,機(jī)動(dòng)車駕駛?cè)?.87 億人。2022年,我國(guó)道路交通事故萬(wàn)車死亡人數(shù)為1.80 人,同比有所下降,但整體比例仍然偏高,道路運(yùn)輸重大事故有所反彈,貨車、農(nóng)用車違規(guī)載人事故反復(fù)發(fā)生,客車重大事故和重大涉險(xiǎn)事故頻發(fā)。英美研究人員通過(guò)對(duì)大量事故數(shù)據(jù)的研究發(fā)現(xiàn),與駕駛員相關(guān)的交通事故影響因素占93%[1],嚴(yán)新平對(duì)國(guó)內(nèi)2001 年至2009 年死亡人數(shù)在3人/次以上的特大交通事故分析結(jié)果顯示:90%以上的交通事故是由駕駛?cè)酥饔^因素導(dǎo)致的[2],因此對(duì)駕駛員進(jìn)行全面評(píng)估顯得尤為重要。
目前國(guó)內(nèi)外已有較多駕駛?cè)讼嚓P(guān)的研究成果,比如駕駛?cè)诵袨樽R(shí)別[3]、駕駛?cè)松頎顟B(tài)識(shí)別[4]、駕駛?cè)诵袨楫嬒馵5]等,但對(duì)駕駛員信用評(píng)估研究較少,本文以交警歷史數(shù)據(jù)為基礎(chǔ)建立評(píng)價(jià)體系,通過(guò)IV 值篩選出重點(diǎn)特征,接著運(yùn)用邏輯回歸算法構(gòu)建評(píng)估模型,最后對(duì)駕駛員進(jìn)行信用評(píng)分,根據(jù)評(píng)分及時(shí)發(fā)現(xiàn)高風(fēng)險(xiǎn)人員以預(yù)防事故的發(fā)生。
本研究所有數(shù)據(jù)來(lái)自“公安部交通安全綜合服務(wù)管理平臺(tái)”(以下簡(jiǎn)稱六合一平臺(tái)),該平臺(tái)集機(jī)動(dòng)車登記系統(tǒng)、駕駛證管理系統(tǒng)、違法處理系統(tǒng)、事故處理系統(tǒng)、交警隊(duì)信息平臺(tái)和劇毒品公路運(yùn)輸六大業(yè)務(wù)系統(tǒng)為一體。由于交警數(shù)據(jù)龐大,而且太久遠(yuǎn)的數(shù)據(jù)意義不大,因而設(shè)置了通過(guò)指定時(shí)間范圍采集數(shù)據(jù),另外,因?yàn)樯婕皞€(gè)人隱私,在采集過(guò)程中將駕駛員的身份證信息做了脫敏處理。
根據(jù)交警數(shù)據(jù)的整體情況,將駕駛員的違章、事故、駕考、基本屬性四個(gè)維度作為一級(jí)指標(biāo),一級(jí)指標(biāo)下分9 個(gè)二級(jí)指標(biāo),分別是:違章程度(WZCD)、違章次數(shù)(WZCS)、違章頻率(WZPL)、事故程度(SGCD)、事故頻率(SGPL)、駕考全科目分?jǐn)?shù)(KM)、駕駛?cè)诵詣e(XB)、年齡(NL)、駕齡(JL)。本文使用的數(shù)據(jù)集共4392 條數(shù)據(jù),其中按照交警內(nèi)部評(píng)審規(guī)則制定的失信駕駛員人數(shù)為962人,守信駕駛員人數(shù)為3430人。
為提高模型預(yù)測(cè)的準(zhǔn)確率,選擇合適的指標(biāo)十分關(guān)鍵,前述數(shù)據(jù)采集規(guī)定的字段只是初選變量,還需要進(jìn)一步評(píng)估以確定最終特征變量。
信息值(IV)是評(píng)價(jià)變量對(duì)目標(biāo)影響程度的指標(biāo),即衡量變量的預(yù)測(cè)能力[6]。信用評(píng)分模型一般使用IV值篩選法篩選入模的特征變量,而IV 值的計(jì)算是基于證據(jù)權(quán)重(WOE),一種通過(guò)分組處理原始變量的編碼形式[6]。WOE 值反映了某些變量的特征區(qū)分度,需要先對(duì)特征變量進(jìn)行分箱處理,才能計(jì)算該變量的WOE值。分箱就是將一個(gè)連續(xù)型變量離散化,對(duì)其進(jìn)行分組,然后統(tǒng)計(jì)分組好壞樣本的個(gè)數(shù),即駕駛員中失信人數(shù)和守信人數(shù),計(jì)算出各自的占比,然后計(jì)算出當(dāng)前分組中失信駕駛員比例和守信駕駛員比例的差異,得出當(dāng)前特征變量的WOE 值,單個(gè)分箱的WOE 計(jì)算公式為:
IV 值的計(jì)算是以WOE 值為基礎(chǔ)的,具體的計(jì)算公式為:
經(jīng)過(guò)對(duì)數(shù)據(jù)的預(yù)處理之后,使用分箱函數(shù)對(duì)特征變量進(jìn)行WOE 分箱,進(jìn)而計(jì)算出特征變量的IV 值,如表1所示。
表1 特征變量IV值及操作
IV 值能較好地反映特征變量的預(yù)測(cè)能力,變量的IV值越高,表示該變量的預(yù)測(cè)能力越強(qiáng)。本文選擇IV值在0.1 以上的變量,最后保留違章次數(shù)、違章程度、違章頻率、駕考分?jǐn)?shù)、駕齡五個(gè)變量。
特征變量的多重共線性會(huì)直接影響模型預(yù)測(cè)結(jié)果的精確性,也會(huì)影響特征變量對(duì)結(jié)果的解釋性[7]。因此,使用IV 值對(duì)特征變量進(jìn)行篩選之后,還要檢測(cè)這些篩選出來(lái)的特征變量是否存在多重共線性,下面是五個(gè)變量的相關(guān)系數(shù)矩陣。
從表2可以看出違章程度和違章次數(shù)相關(guān)性系數(shù)超過(guò)了0.5,表示這兩個(gè)特征的相關(guān)性很強(qiáng),由于違章程度IV 值更高,保留它而刪除違章次數(shù),因此將違章程度、違章頻率、駕考分?jǐn)?shù)、駕齡四個(gè)特征作為最終輸入。
表2 特征變量相關(guān)系數(shù)
邏輯回歸模型用于數(shù)據(jù)分類,原理涉及線性回歸模型中的線性回歸方程,其表達(dá)式為:
線性回歸是用于預(yù)測(cè)連續(xù)變量的,而邏輯回歸是用于預(yù)測(cè)類別的,即預(yù)測(cè)離散變量的。通過(guò)Sigmoid函數(shù),邏輯回歸模型可以對(duì)線性回歸的輸出進(jìn)行非線性轉(zhuǎn)換,得到0 到1 之間的概率值。對(duì)于二分類問(wèn)題而言,其預(yù)測(cè)為1的概率可用如下公式計(jì)算:
其中,y 為線性回歸方程,當(dāng)P>0.5 時(shí)說(shuō)明當(dāng)前數(shù)據(jù)屬于1 類,即守信的駕駛員;當(dāng)P<0.5 時(shí)說(shuō)明當(dāng)前數(shù)據(jù)屬于0類,即失信的駕駛員。
將采集的數(shù)據(jù)集劃分為70%訓(xùn)練數(shù)據(jù)和30%測(cè)試數(shù)據(jù),訓(xùn)練后模型參數(shù)如表3所示。
當(dāng)P 值小于0.05 時(shí),特征變量與目標(biāo)變量有顯著相關(guān)性,通過(guò)表3可以看出,輸入模型四個(gè)特征變量的P 值都小于0.05,即通過(guò)IV 值篩選的四個(gè)特征變量都可以作為模型的輸入。
表3 模型參數(shù)
接下來(lái)利用訓(xùn)練的Logistic 模型對(duì)30%測(cè)試集樣本進(jìn)行預(yù)測(cè),使用分類評(píng)估器對(duì)Logistic 回歸的預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,準(zhǔn)確度為92.21%,說(shuō)明模型能夠較為準(zhǔn)確的預(yù)測(cè),如表4所示。
表4 分類結(jié)果評(píng)價(jià)指標(biāo)
Logisitc 回歸輸出的結(jié)果是駕駛員是否失信的概率,不夠直觀,因此還需要將預(yù)測(cè)的概率值轉(zhuǎn)換為具體的分值,即將模型輸出的失信樣本概率和正常樣本概率的比值通過(guò)線性轉(zhuǎn)換得到最終的信用評(píng)分。
根據(jù)邏輯回歸原理,客戶失信概率p可以如下表示:
其中,x為客戶特征,θ為特征系數(shù),式⑸整理得:
失信概率和正常概率比值稱為比率odds,即:
設(shè)評(píng)分卡分?jǐn)?shù)為:
其中,A、B是待求解數(shù),B前取負(fù)號(hào)表示失信概率越高分?jǐn)?shù)越低,信用也就越低。
假設(shè)比率為θ0時(shí)的基準(zhǔn)分為P0,比率翻倍為2θ0時(shí)分?jǐn)?shù)的變動(dòng)值為PD0,帶入公式⑼可得:
對(duì)公式⑽進(jìn)行求解,可以得到A、B的值:
其中,P0、θ0、PD0都為已知常數(shù),可以求出A、B的值,然后將A、B 的值帶入公式9,即可得出信用分?jǐn)?shù)的計(jì)算公式。
傳入評(píng)分卡公式及預(yù)測(cè)結(jié)果,即可計(jì)算出每個(gè)樣本的信用評(píng)分,結(jié)果如圖1所示。
圖1 信用評(píng)分分布
從圖1 可以看出,3198 人分?jǐn)?shù)集中在60 分以上,1001人分?jǐn)?shù)在30分以下,193人分?jǐn)?shù)在50~70分之間,符合本文所用數(shù)據(jù)集的數(shù)據(jù)分布情況,因而可對(duì)駕駛員進(jìn)行信用等級(jí)劃分,分為四個(gè)信用等級(jí):高風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)、正常、良好,信用評(píng)分等級(jí)如表5所示。
表5 信用評(píng)分等級(jí)表
本文為解決駕駛員評(píng)估的問(wèn)題,以某地區(qū)六合一平臺(tái)歷史數(shù)據(jù)為基礎(chǔ),在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和構(gòu)建信用評(píng)價(jià)指標(biāo)的前提下,通過(guò)IV 值篩選變量并運(yùn)用Logistic回歸算法構(gòu)建評(píng)估模型,最后計(jì)算用戶的信用評(píng)分并劃分風(fēng)險(xiǎn)等級(jí)。實(shí)驗(yàn)表明,該模型準(zhǔn)確度達(dá)到92.21%,能較好識(shí)別出高風(fēng)險(xiǎn)駕駛員。下一步計(jì)劃聯(lián)合其他機(jī)器學(xué)習(xí)算法,進(jìn)一步提高模型識(shí)別精度。