潘祥
摘 要:本文首先從NGSIM數(shù)據(jù)集中提取出自然行駛狀態(tài)下的加速度以及車(chē)頭時(shí)距的二維車(chē)輛運(yùn)動(dòng)數(shù)據(jù)。在K-means聚類(lèi)分析后,為對(duì)聚類(lèi)分析的準(zhǔn)確性進(jìn)行客觀評(píng)價(jià),提出一種基于遺傳模型改進(jìn)的HMM算法的車(chē)輛跟馳特性的驗(yàn)證方法對(duì)該聚類(lèi)方法的準(zhǔn)確性進(jìn)行驗(yàn)證。實(shí)驗(yàn)表明,該分類(lèi)方法可以通過(guò)準(zhǔn)確率來(lái)提供一種量化分類(lèi)精度的標(biāo)準(zhǔn)以客觀的評(píng)價(jià)聚類(lèi)方法的聚類(lèi)精度。
關(guān)鍵詞:智能交通;車(chē)輛跟馳特性;遺傳算法;HMM
0 引言
近年來(lái),交通領(lǐng)域發(fā)展迅猛,機(jī)動(dòng)車(chē)駕駛?cè)伺c機(jī)動(dòng)車(chē)數(shù)量呈顯著增長(zhǎng)的態(tài)勢(shì),民用機(jī)動(dòng)車(chē)保有量從2015年的16 284.45萬(wàn)輛增長(zhǎng)至2019年的25 387.2萬(wàn)輛[1],增幅近36%;機(jī)動(dòng)車(chē)駕駛?cè)藦?015年的32 853.05萬(wàn)人增至2018年的41 030.16萬(wàn)人,增幅近20%。但于此統(tǒng)計(jì)中,追尾事故數(shù)量占到了總交通事故數(shù)量的50%,可見(jiàn)跟馳狀態(tài)下行車(chē)安全性是亟待研究的課題。
本文著重討論跟馳狀態(tài)下的聚類(lèi)結(jié)果驗(yàn)證問(wèn)題。在聚類(lèi)結(jié)果驗(yàn)證方面,研究者俞立平通過(guò)對(duì)原始評(píng)價(jià)指標(biāo)進(jìn)行聚類(lèi),然后采用可行的多屬性評(píng)價(jià)方法進(jìn)行評(píng)價(jià)并對(duì)評(píng)價(jià)結(jié)果進(jìn)行二次聚類(lèi),最后根據(jù)評(píng)價(jià)結(jié)果聚類(lèi)與原始指標(biāo)聚類(lèi)結(jié)果一致度的高低來(lái)選擇評(píng)價(jià)方法,優(yōu)先選取聚類(lèi)結(jié)果一致度最高的評(píng)價(jià)方法[2]。徐濤、謝繼文和楊國(guó)慶三位研究者通過(guò)選取分類(lèi)簇的代表點(diǎn)并根據(jù)簇代表點(diǎn)及聚類(lèi)算法的相似性定義度量聚類(lèi)結(jié)果與外部數(shù)據(jù)的匹配程度后,根據(jù)匹配結(jié)果對(duì)聚類(lèi)質(zhì)量進(jìn)行分析[3]。
聚類(lèi)是一種無(wú)監(jiān)督的學(xué)習(xí)方法,事先沒(méi)有任何先驗(yàn)知識(shí),因此需要一定的措施或方法對(duì)聚類(lèi)結(jié)果進(jìn)行有效性驗(yàn)證及評(píng)價(jià)[4]。本文研究基于自然駕駛數(shù)據(jù)的車(chē)輛跟馳數(shù)據(jù)的聚類(lèi)精度的驗(yàn)證問(wèn)題,提出一種基于遺傳算法改進(jìn)HMM算法模型,通過(guò)模型輸出的車(chē)輛跟馳狀態(tài)系數(shù)的預(yù)測(cè)正確率以量化分析數(shù)據(jù)的聚類(lèi)質(zhì)量。
1 基本概念及理論
1.1 HMM聚類(lèi)驗(yàn)證算法
隱馬爾科夫模型是時(shí)間序列的概率模型,描述了由隱藏的狀態(tài)序列組成的一條馬爾科夫鏈和由其中的每一個(gè)狀態(tài)生成的觀測(cè)所構(gòu)成的觀測(cè)序列。將該模型運(yùn)用于跟馳狀態(tài)數(shù)據(jù)的聚類(lèi)驗(yàn)證中時(shí),通過(guò)對(duì)固定步長(zhǎng)的車(chē)頭時(shí)距數(shù)據(jù)以及加速度數(shù)據(jù)進(jìn)行最大似然估計(jì)后,將獲得的跟馳狀態(tài)轉(zhuǎn)移矩陣和行駛狀態(tài)混淆矩陣視為分類(lèi)簇特征的特征矩陣。
在獲得了分類(lèi)簇特征的矩陣后,通過(guò)viterbi算法輸出相同步長(zhǎng)的車(chē)頭時(shí)距預(yù)測(cè)序列以及車(chē)輛運(yùn)動(dòng)狀態(tài)預(yù)測(cè)序列。之后計(jì)算該預(yù)測(cè)序列的正確率,即可獲得量化評(píng)價(jià)值。
通常情況下,若分類(lèi)簇分類(lèi)越合理,則預(yù)測(cè)的正確率就會(huì)越高;相反,若分類(lèi)不合理,則會(huì)出現(xiàn)多個(gè)車(chē)頭時(shí)距狀態(tài)概率相接近的情況,導(dǎo)致預(yù)測(cè)狀態(tài)序列出現(xiàn)較大的誤差。
1.2 HMM聚類(lèi)驗(yàn)證算法的改進(jìn)
1.2.1 HMM聚類(lèi)驗(yàn)證算法存在的問(wèn)題
1.1節(jié)所述的HMM聚類(lèi)驗(yàn)證算法中,在分類(lèi)簇較少的情況下,若某個(gè)粗分類(lèi)簇較大,則會(huì)出現(xiàn)大簇吃小簇的情況。即預(yù)測(cè)正確率無(wú)法反映出大簇分類(lèi)較粗,未將數(shù)據(jù)特征進(jìn)行細(xì)化分類(lèi)的問(wèn)題。由于HMM是基于定步長(zhǎng)的車(chē)頭時(shí)距序列以及車(chē)輛運(yùn)動(dòng)狀態(tài)序列對(duì)分類(lèi)簇的分類(lèi)質(zhì)量進(jìn)行評(píng)估的。因此若步長(zhǎng)較短,則易陷入局部最優(yōu);若步長(zhǎng)較長(zhǎng),則會(huì)消耗大量硬件資源,僅可作為離線分析工具使用。因此,本文提出一種基于遺傳算法改進(jìn)的HMM聚類(lèi)驗(yàn)證算法,克服HMM聚類(lèi)驗(yàn)證算法檢測(cè)失靈問(wèn)題。
1.2.2 基于遺傳算法改進(jìn)的HMM聚類(lèi)驗(yàn)證算法
遺傳算法是一種基于自然選擇、基因遺傳以及優(yōu)勝劣汰的生物種群進(jìn)化思想進(jìn)行問(wèn)題求解的啟發(fā)式優(yōu)化算法。本次研究將通過(guò)遺傳算法對(duì)原有算法輸出的預(yù)測(cè)值進(jìn)行優(yōu)化,從而使得預(yù)測(cè)結(jié)果的可靠性更高。
在本研究的優(yōu)化模型中,車(chē)頭時(shí)距狀態(tài)轉(zhuǎn)移矩陣、行駛狀態(tài)混淆矩陣的閾值隨機(jī)生成的m個(gè)數(shù)據(jù)進(jìn)行浮點(diǎn)數(shù)編碼來(lái)作為遺傳算法的初始種群。
在適應(yīng)度函數(shù)的選取上,跟馳數(shù)據(jù)分類(lèi)簇以單個(gè)點(diǎn)距離簇中心的歐氏距離與簇內(nèi)最大歐式距離的差值作為評(píng)價(jià)該數(shù)據(jù)在算法中的適應(yīng)度。在車(chē)頭時(shí)距狀態(tài)轉(zhuǎn)移矩陣、行駛狀態(tài)混淆矩陣對(duì)應(yīng)的隨機(jī)矩陣的適應(yīng)度函數(shù)選取上,為克服局部最優(yōu)問(wèn)題,將m個(gè)步長(zhǎng)的車(chē)頭時(shí)距狀態(tài)轉(zhuǎn)移矩陣和行駛狀態(tài)混淆矩陣的適應(yīng)度函數(shù)進(jìn)行擬合,以點(diǎn)到擬合曲線的距離作為評(píng)價(jià)各個(gè)矩陣適應(yīng)度的標(biāo)準(zhǔn)。
基于遺傳算法優(yōu)良的全局尋優(yōu)能力,在搜尋行駛狀態(tài)混淆矩陣以及車(chē)頭時(shí)距狀態(tài)轉(zhuǎn)移矩陣的最優(yōu)解時(shí),優(yōu)化了原有算法易陷入局部最優(yōu)以及步長(zhǎng)過(guò)長(zhǎng)的問(wèn)題,使得預(yù)測(cè)結(jié)果能更加準(zhǔn)確的對(duì)聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià)。
2 實(shí)驗(yàn)對(duì)比分析
將5個(gè)駕駛員數(shù)據(jù)以50的定步長(zhǎng)輸入到HMM模型以及改進(jìn)HMM模型中,同時(shí)引用鄧恩指數(shù)對(duì)三個(gè)聚類(lèi)結(jié)果進(jìn)行客觀評(píng)價(jià),鄧恩指數(shù)越大,該次聚類(lèi)質(zhì)量越高。評(píng)價(jià)結(jié)果如表1所示。
由表1可知,本文建立的基于遺傳算法改進(jìn)的HMM跟馳特性狀態(tài)聚類(lèi)結(jié)果量化評(píng)價(jià)算法符合客觀評(píng)價(jià)指標(biāo),改善了原有HMM算法存在的低K值下評(píng)價(jià)可靠性低的缺陷。通過(guò)該實(shí)驗(yàn)證明了改進(jìn)后的HMM模型相較于未改進(jìn)的HMM模型更為優(yōu)異。
3 結(jié)論
本文提出一種基于HMM的車(chē)輛跟馳特性聚類(lèi)結(jié)果驗(yàn)證方法,可對(duì)車(chē)輛跟馳數(shù)據(jù)的聚類(lèi)分析結(jié)果進(jìn)行量化評(píng)估,并通過(guò)遺傳算法對(duì)其易陷入局部最優(yōu)以及對(duì)粗聚類(lèi)評(píng)估失效的缺陷進(jìn)行了改進(jìn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的HMM算法可對(duì)粗聚類(lèi)進(jìn)行準(zhǔn)確的評(píng)估,與其他聚類(lèi)評(píng)估方法結(jié)果保持一致。
參考文獻(xiàn):
[1]中國(guó)國(guó)家統(tǒng)計(jì)局,2019年年度數(shù)據(jù)[DB/OL].https://data.stats.gov.cn/easyquery.htm?cn=C01,2019.
[2]俞立平.基于聚類(lèi)分析的期刊多屬性評(píng)價(jià)方法選擇研究——聚類(lèi)結(jié)果一致度篩選法[J].圖書(shū)情報(bào)工作,2018,62(21):80-86.
[3]徐濤,謝繼文,楊國(guó)慶.一種基于層次聚類(lèi)的機(jī)場(chǎng)噪聲數(shù)據(jù)挖掘方法[J].南京航空航天大學(xué)學(xué)報(bào),2013,45(5):715-721.
[4]Shtern M,Tzerpor V.Refining clustering evaluation using structure indicators[C]. International Confer-ence on Software Maintenance. Edmonton,Alberta Canada:ICSM,2009:297-305.