摘要:建立完善的交通事件檢測(cè)系統(tǒng),已經(jīng)成為我國(guó)智能交通系統(tǒng)的重要組成部分。文章從數(shù)據(jù)和算法2個(gè)方面深入分析了交通事件檢測(cè)場(chǎng)景特征,設(shè)計(jì)了一種基于深度學(xué)習(xí)的交通事件檢測(cè)系統(tǒng)。文章提出了一種混合架構(gòu)的聯(lián)合學(xué)習(xí)網(wǎng)絡(luò),通過(guò)綜合利用ViT和Swin Transformer的優(yōu)勢(shì)解決了圖像多標(biāo)簽分類問(wèn)題的挑戰(zhàn);設(shè)計(jì)了一系列數(shù)據(jù)增強(qiáng)方法,應(yīng)對(duì)數(shù)據(jù)不平衡性對(duì)深度學(xué)習(xí)模型的影響,并有效緩解了模型過(guò)擬合問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在交通事件檢測(cè)中具有更好的準(zhǔn)確性和泛化能力,已應(yīng)用到多個(gè)實(shí)際項(xiàng)目并取得了良好的應(yīng)用效果。
關(guān)鍵詞:交通事件檢測(cè);深度學(xué)習(xí);對(duì)抗生成網(wǎng)絡(luò);Transformer
中圖分類號(hào):TP312" 文獻(xiàn)標(biāo)志碼:A
0 引言
高速公路是一個(gè)國(guó)家運(yùn)輸體系現(xiàn)代化的重要標(biāo)志。隨著交通網(wǎng)絡(luò)不斷擴(kuò)大和機(jī)動(dòng)車保有量的逐年增長(zhǎng),由交通事件所導(dǎo)致的交通事故頻發(fā),嚴(yán)重影響了人們的日常生活和國(guó)家經(jīng)濟(jì)的正常運(yùn)轉(zhuǎn)。交通事件主要包括交通事故、車輛故障、貨物灑落等,交通事件發(fā)生的時(shí)間地點(diǎn)沒(méi)有規(guī)律性,常為偶發(fā)性事件。建立完善的公路交通事件檢測(cè)系統(tǒng),有效地檢測(cè)交通事件并及時(shí)處置,成為智能交通系統(tǒng)的重要組成部分。因此,研究交通事件檢測(cè)及其應(yīng)用具有重要現(xiàn)實(shí)意義。
1 現(xiàn)狀與挑戰(zhàn)
交通事件檢測(cè)系統(tǒng)是通過(guò)識(shí)別不同交通狀態(tài)下參數(shù)的變化,判別當(dāng)前是正常運(yùn)行狀態(tài)還是異常運(yùn)行狀態(tài)。早期的交通事件檢測(cè)系統(tǒng)主要使用傳統(tǒng)的間接檢測(cè)方法,包括加利福尼亞算法、標(biāo)準(zhǔn)偏差算法等。這些算法各具優(yōu)缺點(diǎn),在應(yīng)用過(guò)程中都暴露出很多缺陷,例如突發(fā)交通變化適應(yīng)能力較弱等。
近年來(lái),人工智能(AI)技術(shù)飛速發(fā)展,人們開(kāi)始將AI技術(shù)應(yīng)用到交通管理系統(tǒng),主要包括基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。在交通事件檢測(cè)中使用的機(jī)器學(xué)習(xí)方法主要包括支持向量機(jī)(SVM)、Bagging和隨機(jī)森林算法等,其中基于SVM的方法使用較為廣泛。傳統(tǒng)基于機(jī)器學(xué)習(xí)的方法存在泛化能力差等問(wèn)題,使用者將其和其他算法相結(jié)合,可以在一定程度上提升檢測(cè)精度。但對(duì)于復(fù)雜多變的交通環(huán)境,傳統(tǒng)機(jī)器學(xué)習(xí)算法性能有限且泛化能力較差,大多數(shù)方法只是針對(duì)特定數(shù)據(jù)集和特定應(yīng)用場(chǎng)景。
隨著數(shù)據(jù)增多、算力增強(qiáng)和應(yīng)用場(chǎng)景日益豐富,深度學(xué)習(xí)技術(shù)在工業(yè)界廣泛應(yīng)用成功。用于交通事件檢測(cè)的神經(jīng)網(wǎng)絡(luò)模型主要有多層前饋神經(jīng)網(wǎng)絡(luò)(MLFNN)、基本概率神經(jīng)網(wǎng)絡(luò)(BPNN)和建設(shè)性概率神經(jīng)網(wǎng)絡(luò)(CPNN)3種。其中,MLFNN檢測(cè)性能表現(xiàn)最好但訓(xùn)練時(shí)間較長(zhǎng),CPNN模型小而靈活且適應(yīng)性較好。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識(shí)別領(lǐng)域中表現(xiàn)優(yōu)異并逐步成為主流技術(shù)?;谏疃葘W(xué)習(xí)的方法網(wǎng)絡(luò)層次越深,數(shù)據(jù)越量多質(zhì)高,學(xué)習(xí)到的特征越多,識(shí)別能力就越強(qiáng)。因而,圖像數(shù)據(jù)的數(shù)量和質(zhì)量成為影響神經(jīng)網(wǎng)絡(luò)模型性能的關(guān)鍵要素?;谏疃葘W(xué)習(xí)的交通事件檢測(cè)方法需要大量交通數(shù)據(jù)進(jìn)行訓(xùn)練,且對(duì)數(shù)據(jù)的真實(shí)性和有效性要求很高。
然而,在實(shí)際場(chǎng)景中,交通事件數(shù)據(jù)遠(yuǎn)遠(yuǎn)少于正常狀態(tài)數(shù)據(jù),而且已標(biāo)記數(shù)據(jù)很少。從數(shù)據(jù)層面看,交通數(shù)據(jù)普遍存在類別不均衡,交通事件檢測(cè)本質(zhì)上是一個(gè)不平衡分類問(wèn)題。同時(shí),大多數(shù)情況下一個(gè)交通樣本數(shù)據(jù)中可能涉及多種交通事件,從算法層面看,交通事件檢測(cè)屬于多標(biāo)簽分類問(wèn)題?,F(xiàn)有交通事件檢測(cè)系統(tǒng)大多是一個(gè)算法只檢測(cè)某一種交通事件,這種串行方式效率較低,而且現(xiàn)有深度學(xué)習(xí)算法大多是針對(duì)均衡數(shù)據(jù)設(shè)計(jì)的,在交通事件檢測(cè)這種典型的不平衡數(shù)據(jù)樣本上可能導(dǎo)致模型訓(xùn)練的偏向性。
綜上所述,基于深度學(xué)習(xí)的方法在交通事件檢測(cè)中具有較好表現(xiàn),但仍存在著不平衡數(shù)據(jù)處理和多標(biāo)簽分類算法設(shè)計(jì)2個(gè)關(guān)鍵挑戰(zhàn)。
2 系統(tǒng)設(shè)計(jì)
本文以交通事件檢測(cè)為研究目標(biāo),以采集到的高速公路視頻序列為研究對(duì)象,通過(guò)深度學(xué)習(xí)的方法對(duì)交通事件進(jìn)行檢測(cè),如高速公路上行人、異常停車等。特別關(guān)注數(shù)據(jù)不平衡性對(duì)深度神經(jīng)網(wǎng)絡(luò)的影響,通過(guò)在數(shù)據(jù)層和算法層2個(gè)層面進(jìn)行優(yōu)化,提升檢測(cè)的精度和效果。核心技術(shù)路線是通過(guò)對(duì)樣本數(shù)據(jù)進(jìn)行增強(qiáng)緩解數(shù)據(jù)不均衡,然后訓(xùn)練網(wǎng)絡(luò)模型實(shí)現(xiàn)多目標(biāo)精準(zhǔn)識(shí)別。在檢測(cè)階段使用網(wǎng)絡(luò)模型對(duì)實(shí)時(shí)視頻數(shù)據(jù)流進(jìn)行分析,區(qū)分識(shí)別工作人員、工作車輛、工作標(biāo)識(shí)物與行人闖入、異常停車、拋灑物等異常事件,自動(dòng)報(bào)警并提供詳細(xì)信息。
針對(duì)上述交通事件檢測(cè)中的不平衡數(shù)據(jù)處理和多標(biāo)簽分類算法設(shè)計(jì)2個(gè)關(guān)鍵挑戰(zhàn),分別從數(shù)據(jù)增強(qiáng)方法和算法精度及泛化能力2個(gè)方面進(jìn)行優(yōu)化設(shè)計(jì),并重點(diǎn)考慮數(shù)據(jù)不平衡性對(duì)神經(jīng)網(wǎng)絡(luò)模型的影響,提升系統(tǒng)的檢測(cè)精度和效率。
2.1 數(shù)據(jù)增強(qiáng)
當(dāng)前的機(jī)器學(xué)習(xí)算法主要是針對(duì)樣本均衡數(shù)據(jù)設(shè)計(jì)的,而在交通流數(shù)據(jù)集樣本中,經(jīng)常面臨著樣本總數(shù)不足、樣本集多樣性不足以及正類樣本過(guò)少等挑戰(zhàn)。因此,解決數(shù)據(jù)不均衡問(wèn)題成為交通事件檢測(cè)系統(tǒng)首要解決的難題。
數(shù)據(jù)增強(qiáng)的目標(biāo)就是要解決交通事件檢測(cè)中數(shù)據(jù)集標(biāo)簽分布不均衡的問(wèn)題,常見(jiàn)的處理方法有樣本重采樣、合成少數(shù)過(guò)采樣技術(shù)(SMOTE)和生成對(duì)抗網(wǎng)絡(luò)(GAN)等。樣本重采樣方法主要是通過(guò)上采樣或下采樣來(lái)減輕數(shù)據(jù)集的非均衡程度,進(jìn)而提升少數(shù)類的分類性能。SMOTE是基于隨機(jī)過(guò)采樣算法的一種改進(jìn)方案,SMOTE算法對(duì)少數(shù)類樣本進(jìn)行分析,根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中,解決了傳統(tǒng)方法通過(guò)簡(jiǎn)單復(fù)制樣本以增加少數(shù)類樣本易導(dǎo)致模型過(guò)擬合的問(wèn)題。GAN是根據(jù)已知模型從真實(shí)數(shù)據(jù)中選擇一些位于不同類別分界面周圍的點(diǎn),通過(guò)對(duì)少數(shù)類樣本進(jìn)行擴(kuò)充的方式以達(dá)到使不同類別樣本數(shù)目均衡化的目的。與傳統(tǒng)方法相比,GAN可以取得更好的效果。但GAN生成的圖像是隨機(jī)的,難以控制生成圖像屬于哪種類別,這在某些特定場(chǎng)景下存在問(wèn)題。
為了應(yīng)對(duì)這些問(wèn)題,本文采用條件生成對(duì)抗網(wǎng)絡(luò)(CGAN)進(jìn)行數(shù)據(jù)增強(qiáng),CGAN通過(guò)給原始GAN的生成器和判別器(簡(jiǎn)記為D)添加額外的條件信息y,實(shí)現(xiàn)條件生成模型。采用類別標(biāo)簽one-hot向量作為額外的條件信息y,根據(jù)已知模型從真實(shí)數(shù)據(jù)中選擇一些位于不同類別分界面周圍的點(diǎn),通過(guò)CGAN按照數(shù)據(jù)集的不平衡比例合成一個(gè)新的數(shù)據(jù)集。例如原始查詢數(shù)據(jù)不平衡比例為10∶1∶2,則通過(guò)CGAN將數(shù)據(jù)集比例變成10∶10∶10,并對(duì)該合成數(shù)據(jù)集進(jìn)行標(biāo)注。接著利用新標(biāo)注的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,并重復(fù)上述合成方法生成新的待標(biāo)注數(shù)據(jù)。本方法不局限于標(biāo)注每個(gè)樣本屬于哪個(gè)類別,可以取得更好的效果。
2.2 算法改進(jìn)
通過(guò)分析交通事件場(chǎng)景特性發(fā)現(xiàn),交通事件檢測(cè)屬于多標(biāo)簽分類問(wèn)題,一個(gè)樣本數(shù)據(jù)中可能出現(xiàn)多種交通事件。傳統(tǒng)機(jī)器學(xué)習(xí)算法是將多標(biāo)簽問(wèn)題拆解成一個(gè)個(gè)單標(biāo)簽問(wèn)題,其性能和泛化能力難以滿足需求。基于深度學(xué)習(xí)的多標(biāo)簽分類算法能充分挖掘標(biāo)簽之間的內(nèi)在聯(lián)系,性能和泛化能力更佳。隨著大模型和AIGC的蓬勃發(fā)展,研究者將Transforme架構(gòu)與視覺(jué)組件相結(jié)合應(yīng)用于基于圖像的下游任務(wù)。以Vision Transformer(ViT)和Swin Transformer為代表的模型在圖像處理領(lǐng)域取得了良好表現(xiàn)[1-2]。
針對(duì)交通事件的場(chǎng)景特點(diǎn),本文設(shè)計(jì)了一種混合架構(gòu)的聯(lián)合學(xué)習(xí)架構(gòu)網(wǎng)絡(luò),通過(guò)綜合利用ViT-Base網(wǎng)絡(luò)的全局語(yǔ)義信息提取能力與Swin Transformer-Base網(wǎng)絡(luò)的多尺度語(yǔ)義信息提取能力,協(xié)同提取高質(zhì)量特征。聯(lián)合學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)通過(guò)將二者提取的特征進(jìn)行融合后,使用2個(gè)非共享權(quán)重的多層感知機(jī)組成的分類頭,分別進(jìn)行交通事件是否發(fā)生的二分類任務(wù)與細(xì)粒度事件分類的多分類任務(wù)的預(yù)測(cè)。通過(guò)聯(lián)合學(xué)習(xí)的方式,一方面能夠降低直接學(xué)習(xí)細(xì)粒度分類特征的難度;另一方面也可以學(xué)習(xí)更為通用性的特征,提升網(wǎng)絡(luò)的分類精度。
本文在訓(xùn)練聯(lián)合學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)時(shí),設(shè)計(jì)并對(duì)比驗(yàn)證了一系列數(shù)據(jù)增強(qiáng)方法。首先是真實(shí)樣本中的異常數(shù)據(jù)樣本擴(kuò)充,通過(guò)水平翻轉(zhuǎn)、圖像亮度對(duì)比度變化、圖像中加入隨機(jī)高斯噪聲和模糊等方法,先將異常事件數(shù)據(jù)進(jìn)行規(guī)模擴(kuò)充。隨著訓(xùn)練的深入,逐步引入CGAN合成樣本,進(jìn)一步緩解數(shù)據(jù)不平衡問(wèn)題。最后,為了避免網(wǎng)絡(luò)過(guò)擬合,受Mosaic數(shù)據(jù)增廣思想的啟發(fā)[3],采用比例抽樣法,根據(jù)異常事件的數(shù)據(jù)比例分別計(jì)算抽樣概率,其抽樣概率與該類別訓(xùn)練數(shù)據(jù)所占比例成反比。經(jīng)過(guò)以上抽樣每次得到4張相同或不同類別的圖像樣本,將其合并成一張大圖,將這些樣本的分類標(biāo)簽也進(jìn)行合并。通過(guò)這一方法,生成的樣本不僅在圖像多樣性上有了顯著提升,同時(shí)進(jìn)一步緩解了類別標(biāo)簽的不均衡。
為了驗(yàn)證聯(lián)合學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)在交通事件檢測(cè)中的有效性,從真實(shí)場(chǎng)景收集并構(gòu)建數(shù)據(jù)集,其中包括道路正常、道路擁堵、行人闖入、應(yīng)急車道占用、事故、拋灑物6種不同交通事件,按照8∶1∶1劃分了訓(xùn)練集、驗(yàn)證集和測(cè)試集。在該數(shù)據(jù)集上,分別評(píng)估了神經(jīng)網(wǎng)絡(luò)模型AlexNet、卷積神經(jīng)網(wǎng)絡(luò)模型ResNet50、Swin-Transformer模型和本文提出的聯(lián)合學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)模型。得出實(shí)驗(yàn)結(jié)果為:AlexNet、ResNet50、Swin Transformer的Top-1準(zhǔn)確率分別為78.2%、85.7%和91.5%,聯(lián)合學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)模型Top-1準(zhǔn)確率為95.3%。可見(jiàn),聯(lián)合學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)在處理交通事件分類任務(wù)時(shí)具有顯著的優(yōu)勢(shì),相較于AlexNet、ResNet50、Swin Transformer模型,聯(lián)合學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)模型的Top-1準(zhǔn)確率分別提升了約21%、11%和4%。
筆者還對(duì)本文所提出的數(shù)據(jù)增強(qiáng)方法進(jìn)行了分析驗(yàn)證,得出不同數(shù)據(jù)增強(qiáng)方法對(duì)聯(lián)合學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)模型Top-1準(zhǔn)確率的影響。實(shí)驗(yàn)結(jié)果為:在不使用數(shù)據(jù)增強(qiáng)方法情況下Top-1準(zhǔn)確率為95.3%;使用訓(xùn)練集數(shù)據(jù)增廣方法Top-1準(zhǔn)確率為96.7%;使用生成數(shù)據(jù)增廣方法Top-1準(zhǔn)確率為92.2%;使用訓(xùn)練集數(shù)據(jù)增廣+生成數(shù)據(jù)增廣,Top-1準(zhǔn)確率為97.1%;使用訓(xùn)練集數(shù)據(jù)增廣+生成數(shù)據(jù)增廣+漸進(jìn)訓(xùn)練,則Top-1準(zhǔn)確率提高到了98.2%。可見(jiàn),本文提出的訓(xùn)練集增廣和生成數(shù)據(jù)增廣等數(shù)據(jù)增強(qiáng)方法與漸進(jìn)訓(xùn)練策略,能夠有效提升交通事件檢測(cè)任務(wù)的準(zhǔn)確率。
3 結(jié)語(yǔ)
本文設(shè)計(jì)的交通事件檢測(cè)系統(tǒng)已在山西太古隧道、湖北保神高速等推廣使用,得到湖北日?qǐng)?bào)撰文《有“眼”有“嘴”還有“手”保神高速監(jiān)測(cè)系統(tǒng)盡顯智能》報(bào)道。展望未來(lái),多模態(tài)大模型展現(xiàn)出了強(qiáng)大的未見(jiàn)類別處理能力和知識(shí)涌現(xiàn)能力,為構(gòu)建更智能、精準(zhǔn)的交通管理系統(tǒng)提供了全新的可能性。
參考文獻(xiàn)
[1]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words:Transformers for image recognition at scale[EB/OL].(2021-06-03)[2024-01-29]. https://arxiv.org/abs/2010.11929v1.
[2]LIU Z, LIN Y, CAO Y, et al. Swin Transformer:Hierarchical vision transformer using shifted windows[EB/OL].(2021-08-17)[2024-01-29]. https://arxiv.org/abs/2103.14030 .
[3]BOCHKOVSKIY A, WANG C Y, LIAO H. YOLOv4:optimal speed and accuracy of object detection[EB/OL].(2020-04-23)[2024-01-29]. https://arxiv.org/abs/2004.10934.
Design of traffic event detection system based on deep learning
Abstract: "The establishment of comprehensive traffic incident detection systems have become an important component of China’s intelligent transportation system. This paper analyzes the characteristics of traffic event detection scenes in depth from both data and algorithms, and proposes a traffic event detection system based on deep learning. A hybrid architecture joint learning network is introduced, addressing the challenges of multi-label classification in image data by comprehensively leveraging the advantages of ViT and Swin Transformer. A series of data augmentation methods have been designed to cope with the impact of data imbalance on deep learning models, and effectively alleviating the problem of model overfitting.The experimental results demonstrate that the system has better accuracy and generalization ability in traffic event detection. The system has been applied to multiple practical projects, and has achieved favorable application outcomes.
Key words: traffic event detection; deep learning; generative adversarial networks; Transformer