王崢
(蘇州科技大學(xué),江蘇 蘇州212200)
準(zhǔn)確劃分城市快速路交通狀態(tài)能為交通信息發(fā)布與服務(wù)水平評(píng)價(jià)提供重要依據(jù),國(guó)內(nèi)外學(xué)者提出了許多有效的交通狀態(tài)判別方法,其中機(jī)器學(xué)習(xí)算法因其強(qiáng)大的性能得到廣泛關(guān)注。
聚類分析方法能夠在沒有任何先驗(yàn)標(biāo)簽數(shù)據(jù)的基礎(chǔ)上對(duì)交通流數(shù)據(jù)進(jìn)行分類。董紅召等[1]對(duì)交通流數(shù)據(jù)進(jìn)行模糊聚類,定量分析交通路網(wǎng)的狀態(tài),在此基礎(chǔ)上分析路網(wǎng)密度,對(duì)城市道路狀態(tài)進(jìn)行實(shí)時(shí)判別。錢超等[2]應(yīng)用FCM算法將交通狀態(tài)劃分為四個(gè)類別,并利用蒙特卡洛模擬法對(duì)聚類精度進(jìn)行評(píng)價(jià)。楊慶芳等[3]以高速公路收費(fèi)依據(jù)為基礎(chǔ)建立FCM算法模型判別交通狀態(tài)。
經(jīng)典有監(jiān)督學(xué)習(xí)算法支持向量機(jī)(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)也被廣泛運(yùn)用到交通狀態(tài)判別當(dāng)中。于榮,王國(guó)祥等[4]對(duì)比了SVM三種核函數(shù)在交通狀態(tài)分類中的優(yōu)劣性,并提出在數(shù)據(jù)預(yù)處理時(shí)歸一化的必要性。李清泉,高德荃等[5]結(jié)合模糊理論和SVM建立了模糊SVM模型用于交通狀態(tài)分類。董春嬌,邵春福等[6]建立了一種基于優(yōu)化SVM的城市快速路交通狀態(tài)判別方法。李曉斌,徐建閩等[7]利用RBF 神經(jīng)網(wǎng)絡(luò)建立了交通狀態(tài)判別模型。巫威眺,靳文舟等[8]提出了基于BP 神經(jīng)網(wǎng)絡(luò)的交通狀態(tài)判別模型。
上述文獻(xiàn)為城市快速路交通狀態(tài)判別提供了理論基礎(chǔ),但大部分的文獻(xiàn)都只是單純使用聚類或者分類,入手角度單一,由于數(shù)據(jù)量大且參數(shù)維度高,如果不對(duì)參數(shù)進(jìn)行預(yù)處理就容易造成運(yùn)算量大程序運(yùn)行時(shí)間過長(zhǎng)或分類結(jié)果不精準(zhǔn)等情況,因此本文運(yùn)用先聚類后分類的策略,構(gòu)建了基于GA-FCM的交通狀態(tài)聚類模型,先對(duì)大量數(shù)據(jù)進(jìn)行聚類預(yù)處理后,再使用SVM進(jìn)行交通狀態(tài)分類使之更容易找到分類邊界,提高數(shù)據(jù)處理效率和分類準(zhǔn)確度。
FCM采用梯度下降法尋找最優(yōu)解,這種計(jì)算方法收斂速度快,但存在著對(duì)初始化敏感與容易陷入局部最優(yōu)解等問題。上述缺點(diǎn)導(dǎo)致模糊C 均值應(yīng)用于交通流狀態(tài)劃分時(shí)可能無法給出正確的聚類結(jié)果。
遺傳算法(GA)[9]是一類借鑒生物界的進(jìn)化規(guī)律演化而來的隨機(jī)化搜索方法。在函數(shù)求解、參數(shù)尋優(yōu)方面性能強(qiáng)悍,已被廣泛運(yùn)用到各個(gè)領(lǐng)域。考慮到FCM可能會(huì)陷入局部最優(yōu),本文憑借遺傳算法優(yōu)秀的全局搜索能力對(duì)FCM進(jìn)行優(yōu)化。盡管遺傳算法能夠?qū)崿F(xiàn)全局優(yōu)化,但其本身也存在一定的缺陷。采用二進(jìn)制進(jìn)行染色體的編碼可能會(huì)帶來字符串長(zhǎng)度、計(jì)算精度、運(yùn)算量等一系列問題。
針對(duì)上文的不足,提出一種基于遺傳算法的模糊聚類,采用實(shí)數(shù)進(jìn)行編碼,然后進(jìn)行交叉、變異,最后再結(jié)合FCM 算法進(jìn)行聚類分析。該算法首先使用優(yōu)化的遺傳算法得到全局最優(yōu)解的近似解,然后把近似解作為FCM算法的初始值,最后再用FCM 算法求解得到全局最優(yōu)解[10]。
編碼:采用實(shí)數(shù)(實(shí)值)編碼策略,簡(jiǎn)化了編碼過程,提高了算法的收斂速度和全局搜索能力。將C 個(gè)聚類中心組成一個(gè)染色體,每個(gè)聚類中心有S 個(gè)特征值,則編碼長(zhǎng)度為C*S。染色體的編碼表示形式為:p11p12…pc1pc2…cs。
選擇:
①計(jì)算所有個(gè)體適應(yīng)度,找出適應(yīng)度最高的個(gè)體復(fù)制到下一代;
交叉:采用單點(diǎn)交叉,隨機(jī)產(chǎn)生交叉點(diǎn)并交換兩父體右半部分產(chǎn)生新個(gè)體。
變異:在初始交叉概率的基礎(chǔ)上增加了一個(gè)權(quán)值ω=1-f/fmax,個(gè)體的變異概率為ω*Pm,fmax表示種群中的最大適應(yīng)度,Pm為變異概率。
步驟1:編碼并初始化種群,確定三參數(shù)的上下界,分別在三參數(shù)上下界中生成3 個(gè)隨機(jī)數(shù)作為1 個(gè)初始聚類中心,本文聚類數(shù)為4,故執(zhí)行4 次生成四個(gè)聚類中心。將四個(gè)隨機(jī)生成的初始聚類中心按實(shí)數(shù)編碼組成一個(gè)染色體。
步驟2:確定種群規(guī)模,對(duì)種群中按步驟一操作生成的染色體進(jìn)行適應(yīng)度評(píng)價(jià)后進(jìn)行選擇、交叉、變異生成新種群,滿足終止條件后結(jié)束遺傳算法。
步驟3:將遺傳算法得到的聚類中心矩陣作為FCM的初始值帶入FCM計(jì)算。并輸出最終的聚類中心。
步驟4:將聚類過后的4 類數(shù)據(jù)分別打上標(biāo)簽,劃分測(cè)試集和訓(xùn)練集,選擇SVM核函數(shù)和確定參數(shù)值后進(jìn)行訓(xùn)練。
步驟5:分別使用網(wǎng)格搜索法、粒子群算法、遺傳算法對(duì)SVM參數(shù)值進(jìn)行優(yōu)化,確定最優(yōu)參數(shù)組后使用測(cè)試集對(duì)模型進(jìn)行測(cè)試。
本文選取上海市某城市快速路路段檢測(cè)器提供的2017 年8 月19 日24 小時(shí)的交通路參數(shù)(流量、速度、占有率),采集間隔時(shí)間為1 分鐘,共1440 組。
根據(jù)交通流運(yùn)行特性并參考中國(guó)道路服務(wù)四個(gè)等級(jí),采用基于改進(jìn)遺傳算法的模糊聚類將交通狀態(tài)劃分為四類。
算法基本參數(shù):種群數(shù)量n=50,最大進(jìn)化代數(shù)T=100,遺傳概率Pc=0.7,變異概率pm=0.1,聚類中心數(shù)目n=4,模糊系數(shù)m=2,最大迭代次數(shù)100,類內(nèi)距離ε=1*10-5。
4 種交通狀態(tài)的聚類中心矩陣:
第一至四行分別代表?yè)矶?、擁擠、平穩(wěn)、通暢4 種不同的交通狀態(tài)。其中第一類樣本271 個(gè),第二類樣本367 個(gè),第三類樣本378 個(gè),第四類樣本424 個(gè)。各類交通狀態(tài)參數(shù)空間分布如圖1 所示。
圖1 交通狀態(tài)聚類結(jié)果圖
算法收斂圖像如圖2 所示。
由于遺傳算法的全局搜索性能優(yōu)秀,經(jīng)過遺傳算法優(yōu)化得到的FCM目標(biāo)函數(shù)初始值已接近FCM目標(biāo)函數(shù)的極值,將此初始值帶入FCM算法求解迭代公式,由圖可以看到FCM算法迭代10 次以內(nèi)已經(jīng)收斂收斂,說明改進(jìn)過的算法收斂能力強(qiáng),比單純使用FCM效果好。
圖2 GA-FCM 與FCM 算法收斂曲線對(duì)比圖
利用基于遺傳算法的模糊聚類將1440 組交通流參數(shù)分成了四類,為確保支持向量機(jī)分類的準(zhǔn)確性隨機(jī)抽取40%的標(biāo)簽數(shù)據(jù)作為測(cè)試集,60%的標(biāo)簽數(shù)據(jù)作為訓(xùn)練集。
粒子群算法參數(shù)設(shè)定:局部搜索能力和全局搜索能力參數(shù)c1=1.5,c2=1.7,最大進(jìn)化數(shù)量200,最大種群數(shù)量20,速率關(guān)系參數(shù)0.6,速率彈性系數(shù)1,種群彈性系數(shù)1,搜索范圍C∈[0.1,100],g∈[0.1,100]交叉驗(yàn)證次數(shù)v=3,C=0.5172,g=0.01 時(shí)分類效果最優(yōu)97.7431%。優(yōu)化過程如圖3 所示。
圖3 粒子群算法迭代適應(yīng)度曲線
遺傳算法參數(shù)設(shè)定:最大進(jìn)化代數(shù)T=100,最大種群數(shù)量N=20,交叉概率Pc=0.95,變異概率Pm=0.1,搜索范圍C∈[0,100],g∈[0,100] 交 叉 驗(yàn) 證 次 數(shù)v=10,當(dāng)C=0.96292,g=0.0038147 時(shí)分類準(zhǔn)確率最優(yōu)為98.6111%。優(yōu)化結(jié)果過程圖4 所示。
通過3 種參數(shù)尋優(yōu)方法比較,最終確定最優(yōu)參數(shù)組合C=0.96292,g=0.0038147。通過選取的最優(yōu)參數(shù)組合對(duì)剩余的576 組標(biāo)簽數(shù)據(jù)進(jìn)行測(cè)試,準(zhǔn)確率達(dá)98.6111%,共錯(cuò)誤分類8個(gè)樣本,其中第一類誤判2 個(gè)樣本,第二類誤判3 個(gè)樣本,第三類誤判1 個(gè)樣本,第四類分類誤判2 個(gè)樣本。
圖4 遺傳算法迭代適應(yīng)度曲線
本文結(jié)合了FCM和SVM的優(yōu)勢(shì),構(gòu)建了基于模糊聚類和支持向量機(jī)的交通狀態(tài)判別模型。首先通過基于改進(jìn)遺傳算法的模糊聚類將交通流參數(shù)劃分成四類,分別代表四種交通狀態(tài),并將數(shù)據(jù)打上標(biāo)簽;然后劃分測(cè)試集和訓(xùn)練集,通過支持向量機(jī)進(jìn)行訓(xùn)練集分類,并使用網(wǎng)格搜索法、粒子群算法、遺傳算法進(jìn)行參數(shù)對(duì)尋優(yōu)得到最佳參數(shù)組合,最后將最優(yōu)參數(shù)組合用于測(cè)試集,實(shí)驗(yàn)結(jié)果表明模型性能良好,判別準(zhǔn)確率可達(dá)98.6111%,判別準(zhǔn)確率較高。