李俊俊 楊華民 張澍裕 李松江
1(北京航天控制儀器研究所研發(fā)中心物聯(lián)網(wǎng)與智能結(jié)構(gòu)室 北京 100854)2(長春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 吉林 長春 130022)
隨著經(jīng)濟(jì)的快速發(fā)展,人們逐漸過上了幸福的生活,轎車逐漸成為人們?nèi)粘I钪械闹饕煌üぞ撸I車給人們生活帶來便利的同時(shí),也給不少人帶來了生命的危險(xiǎn)。交通事故的頻頻發(fā)生,使很多美好的家庭遭到沉重的打擊。在調(diào)查造成交通事故發(fā)生的原因時(shí),經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn)司機(jī)的不規(guī)范行為,比如在行駛過程中抽煙、玩手機(jī)是造成交通事故的很重要原因。通過制約司機(jī)的不規(guī)范行為可以在一定程度上減少不必要的交通事故。因此如何快速有效地識別出司機(jī)的不規(guī)范行為成為眾多研究者關(guān)心和關(guān)注的問題。
司機(jī)駕駛違規(guī)檢測技術(shù)的發(fā)展,離不開圖像識別技術(shù)的發(fā)展,通過在汽車駕駛室里安裝攝像頭,來實(shí)時(shí)檢測司機(jī)的駕駛行為。近年來隨著深度學(xué)習(xí)的發(fā)展,把圖像識別技術(shù)推向了前所未有的高度。圖像識別是計(jì)算機(jī)視覺領(lǐng)域的重要研究方向之一,其主要是利用計(jì)算機(jī)對圖像進(jìn)行處理、分析和理解,從而能夠識別多種不同情況下的目標(biāo)及對象。在本文中主要利用圖像識別技術(shù)來發(fā)現(xiàn)司機(jī)在行駛過程中的不規(guī)范行為。
深度學(xué)習(xí)作為近年來越來越熱門的技術(shù),其在圖像識別中表現(xiàn)出了極佳的效果。深度學(xué)習(xí)在2006年,由Geoffery Hinto和他的學(xué)生Ruslan Salakhutdinov在國際頂級學(xué)術(shù)期刊《Science》上發(fā)表的一篇文章[1]中第一次提出,隨后深度學(xué)習(xí)得到了迅速的發(fā)展。而作為深度學(xué)習(xí)中重量級的卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolution neural network)則可以追溯到20世紀(jì)60年代初期,當(dāng)時(shí)是由兩位著名的生物學(xué)家Hubel和Wiesel在文獻(xiàn)[2]中提出了感受野的概念。到了20世紀(jì)80年代中期Fukushima在文獻(xiàn)[3]提出的基于感受野概念的神經(jīng)認(rèn)知機(jī),在目前看來可以作為卷積神經(jīng)網(wǎng)絡(luò)第一次真正的實(shí)現(xiàn)。本文主要通過對深度學(xué)習(xí)中經(jīng)典的模型-卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),來檢測司機(jī)在駕駛過程中出現(xiàn)吸煙和玩手機(jī)這兩種行為,從而達(dá)到發(fā)出精準(zhǔn)警告信息的目的,進(jìn)而有效地降低交通事故的發(fā)生。因此司機(jī)違規(guī)行為識別研究就變得十分重要且有意義,本文正是基于此做的相關(guān)研究。
司機(jī)違規(guī)檢測[25-27]研究也是因?yàn)殡S著人們出行車輛逐漸變多,導(dǎo)致交通事故頻發(fā)才逐漸引起研究人員的注意。近期學(xué)者對司機(jī)行為檢測大多還是采用傳統(tǒng)機(jī)器學(xué)習(xí)的算法。文獻(xiàn)[28]采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法,提出一種基于自適應(yīng)特征聚類的特征檢測方法,該方法主要是將復(fù)雜環(huán)境下機(jī)車司機(jī)的操作行為特征提取出來,并通過和標(biāo)準(zhǔn)的操作行為進(jìn)行比較,從而判斷機(jī)車司機(jī)的操作行為是否違規(guī)。該文獻(xiàn)提出的方法雖然表現(xiàn)出了一定的優(yōu)勢,但僅限于小規(guī)模數(shù)據(jù)集,對于大場景大規(guī)模數(shù)據(jù)集表現(xiàn)一般,因此迫切需要采用最新的深度學(xué)習(xí)算法來解決司機(jī)行為檢測問題。另外對于司機(jī)行為檢測另一個(gè)研究熱點(diǎn)是對于疲勞駕駛的研究,其中文獻(xiàn)[29]對目前司機(jī)疲勞駕駛檢測方法做了最新的綜述,從綜述中看出,迫切需要新的方法來應(yīng)用于司機(jī)行為檢測的研究。文獻(xiàn)[30]針對司機(jī)疲勞駕駛檢測,設(shè)計(jì)了一種基于圖像處理DSP芯片DM6437的疲勞駕駛視覺檢測系統(tǒng),但采用硬件DSP來解決檢測問題,在算法上創(chuàng)新較少。本文所做的研究是采用最新的深度學(xué)習(xí)算法來更好地解決司機(jī)違規(guī)行為識別檢測。
圖像識別屬于計(jì)算機(jī)視覺領(lǐng)域的一個(gè)主要研究方向,在過去的歲月里,很多學(xué)者都投身于圖像識別的領(lǐng)域中,也涌現(xiàn)出一批優(yōu)秀的圖像識別算法。
最早的圖像識別技術(shù)可以追溯到20世紀(jì)60年代[4],不過當(dāng)時(shí)局限于硬件水平的發(fā)展,圖像識別技術(shù)一直處于低迷狀態(tài)。隨著科技的發(fā)展,計(jì)算機(jī)硬件的發(fā)展得到了空前的提高,尤其是GPU的快速發(fā)展,基于深度學(xué)習(xí)的圖像識別算法逐漸成為主流的算法。另外一個(gè)推動(dòng)圖像識別技術(shù)發(fā)展的是大規(guī)模數(shù)據(jù)集的發(fā)展,如ImageNet[5]、Places[6]、SUN397[7]等大規(guī)模數(shù)據(jù)集的出現(xiàn),其中ImageNet數(shù)據(jù)集主要集中于物體概念的圖像,當(dāng)然也包括少量的場景概念圖像,該數(shù)據(jù)集是推動(dòng)深度學(xué)習(xí)算法的重量級數(shù)據(jù)集。
Krizhevsky等[8]在ImgeNet競賽上取得了很好的成績,而這是他們第一次在ImageNet上訓(xùn)練出了一個(gè)8層的深度模型。自此之后卷積神經(jīng)網(wǎng)絡(luò)在圖像分類與識別領(lǐng)域受到前所未有的認(rèn)可。后續(xù)很多學(xué)者獻(xiàn)身于卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化與改良。Simonyan等[9]在原來Krizhevsky等[8]的模型基礎(chǔ)上,提出一個(gè)19層的CNN模型(VGG-19),VGG-19主要是通過增減卷積層來增加該模型的深度,同時(shí)采用較小的卷積濾波(3×3)。卷積神經(jīng)網(wǎng)絡(luò)能夠利用圖像的邊緣、角點(diǎn)、紋理等高層特征,對特定任務(wù)的有針對性的(specific)特征[10-11],通過逐層特征學(xué)習(xí)來模擬人腦分層處理信息機(jī)制。隨著ImageNet競賽的推進(jìn),Szegedy等[12]受Hebbian原理和多尺度處理的啟發(fā),提出了一個(gè)22層的深度學(xué)習(xí)模型GoogleNet[12]。GoogleNet主要由多個(gè)Inception Model堆疊形成,它主要利用不寬的卷積核對前一層的輸出做卷積,最后合并形成后一層的輸入。Zhou等則在Places[6]上對于多場景分類訓(xùn)練出不錯(cuò)的深度模型,可以有效解決多場景分類問題。Liu等[13]采用在MIT-67上提出一種采用跨卷積層池化技術(shù)將卷積層的特征作為通用特征的模型,表現(xiàn)出了不錯(cuò)的效果。Gong等[14]先使用卷積神經(jīng)網(wǎng)絡(luò)基于圖像塊提取特征,隨后使用主成分分析降低維度形成圖形特征,相比于直接從整幅圖上提取卷積神經(jīng)網(wǎng)絡(luò)特征,該方法提取的特征具有幾何不變性。
以上這些模型都在通用數(shù)據(jù)集上表現(xiàn)出了不錯(cuò)的效果,但在特定領(lǐng)域的數(shù)據(jù)集上還不能完全適用。本文在解決特殊領(lǐng)域司機(jī)違規(guī)行為識別問題時(shí),既要考慮性能問題,同時(shí)也要考慮效率問題。最終,本文提出了三級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)并通過改進(jìn)激活函數(shù)的方法來有效地解決司機(jī)違規(guī)行為識別問題。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)融合,通常是將兩個(gè)或多個(gè)網(wǎng)絡(luò)線性加權(quán)或者采用隨機(jī)梯度的方式進(jìn)行加權(quán)融合,而本文提出的神經(jīng)網(wǎng)絡(luò)融合是結(jié)合FCNN網(wǎng)絡(luò)與本文提出的三級級聯(lián)神經(jīng)網(wǎng)絡(luò)。首先我們使用FCNN網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)處理,對圖像進(jìn)行分割,這樣分割后的圖像僅僅包含我們需要的任務(wù)信息,過濾邊緣多余的信息,再通過本文提出的三級級聯(lián)的神經(jīng)網(wǎng)絡(luò)進(jìn)行最終的處理。整體架構(gòu)圖如圖1所示。
卷積神經(jīng)網(wǎng)絡(luò)通常是由輸入層、卷積層、池化層、全連接層以及輸出層這五個(gè)部分組成,其中卷積層和池化層一般交替進(jìn)行,即一個(gè)卷積層鏈接一個(gè)池化層,池化層后再鏈接一個(gè)卷積層,依次類推。從中也可以清晰地看到由于卷積層中輸出特征面的每個(gè)神經(jīng)元與其輸入進(jìn)行局部鏈接,并通過對應(yīng)的連接權(quán)值與局部輸入進(jìn)行加權(quán)求和,再加上偏置值,得到該神經(jīng)元輸入值,該過程等同于卷積過程,CNN名稱也由此而來[15]。
Yann LeCun教授在1998年提出了LeNet-5模型[15],LeNet-5目前被公認(rèn)為是第一個(gè)成功應(yīng)用于數(shù)據(jù)識別問題的卷積神經(jīng)網(wǎng)絡(luò),LeNet-5模型可以達(dá)到大約99.2%的正確率。文獻(xiàn)[16-23]分別提出了針對特定領(lǐng)域內(nèi)的問題設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),得到了精度很高的實(shí)驗(yàn)結(jié)果。雖然LeNet-5在公開的數(shù)據(jù)集中已經(jīng)表現(xiàn)出了良好的性能,但是在特定領(lǐng)域的數(shù)據(jù)集中還存在一些不足。因此本文基礎(chǔ)的對比模型是LeNet-5典型的卷積神經(jīng)網(wǎng)絡(luò),但在LeNet-5的結(jié)構(gòu)基礎(chǔ)上采用了文獻(xiàn)[24]中的激活函數(shù)來改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)中的激活函數(shù),從而更好地識別出司機(jī)的違規(guī)行為。
FCNN網(wǎng)絡(luò)使用Lonjong等在CVP2015中提出的對圖像進(jìn)行像素級的分類網(wǎng)絡(luò)模型,主要是為了更好地解決語義級別的圖像分割問題。它與經(jīng)典的CNN網(wǎng)絡(luò)最大不同在于,經(jīng)典的CNN網(wǎng)絡(luò)在卷積層后通常使用全連接層得到固定長度的特征向量進(jìn)行分類,也就是我們經(jīng)常用的全連接層后面緊跟著SoftMax進(jìn)行輸出,而FCNN網(wǎng)絡(luò)可以接受任意尺寸的輸入圖像,采用反卷積層對最后一個(gè)卷積層的feature map進(jìn)行上采樣,使它恢復(fù)到與輸入圖像相同的尺寸,從而對每個(gè)像素都產(chǎn)生一個(gè)預(yù)測,同時(shí)保留了原始輸入圖像的空間信息,并在上采樣的特征圖上進(jìn)行逐像素分類。最后逐個(gè)像素計(jì)算softmax分類的損失,相當(dāng)于每一個(gè)像素對應(yīng)一個(gè)訓(xùn)練樣本。
通過上面的描述,我們可以清晰地看到FCNN網(wǎng)絡(luò)主要應(yīng)用于圖像分類,而本文的主要任務(wù)是進(jìn)行圖像分類,那么如何利用FCNN網(wǎng)絡(luò)來提高分類性能,成為本文的主要工作點(diǎn)。本文采用FCNN網(wǎng)絡(luò)是在圖像預(yù)處理階段,對圖像先進(jìn)行語義分割,保留人物部分。之所以保留人物部分是因?yàn)槲覀儾杉膱D像,除了人物外還有很多車內(nèi)的其他物體,但我們主要是檢測司機(jī)的違規(guī)行為,因此只關(guān)注人物信息。在進(jìn)行分類之前首先對圖片進(jìn)行語義分割,可以有助于過濾掉其他無關(guān)特征,保留更加有效的特征。
在2.1節(jié)給出的神經(jīng)網(wǎng)絡(luò)是最基本的神經(jīng)網(wǎng)絡(luò),在大部分的識別任務(wù)中可以得到不錯(cuò)的效果,但是對于司機(jī)違規(guī)行為識別領(lǐng)域,則表現(xiàn)一般。其原因在于司機(jī)在開車過程中主要的違規(guī)行為表現(xiàn)在頭部與手臂部位,比如抽煙和玩手機(jī)這兩種行為。因此針對司機(jī)的違規(guī)行為識別,我們先利用2.2節(jié)提出的FCNN網(wǎng)絡(luò)對原始圖像進(jìn)行語義分割,再利用本文提出了三級級聯(lián)的深度卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行識別,每一級都使用Tensorflow框架來實(shí)現(xiàn),整體架構(gòu)圖如圖2所示,框架包含三級。
第一級是一個(gè)比較簡單的二分類卷積神經(jīng)網(wǎng)絡(luò),它只包含一個(gè)卷積層和一個(gè)Softmax分類器,其中卷積層采用5×5大小的卷積核,池化層采用最大Pooling,最后通過Softmax輸出分類結(jié)果。第一級卷積神經(jīng)網(wǎng)絡(luò)主要是用于快速剔除大量明顯的正常司機(jī)行為,減少樣本量,因此在本級神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)率采用0.5,以使其快速收斂。通過實(shí)驗(yàn)證明,第一級神經(jīng)網(wǎng)絡(luò)能剔除大量正常的司機(jī)行為,從而保留大量的司機(jī)駕駛異常行為,為接下來的第二級神經(jīng)網(wǎng)絡(luò)做準(zhǔn)備。
第二級神經(jīng)網(wǎng)絡(luò)是整個(gè)框架的中間層網(wǎng)絡(luò),它只包含三個(gè)卷積層和一個(gè)Softmax分類器,其中三個(gè)卷積層采用5×5大小的卷積核,第一個(gè)卷積層后采用最大Pooling,剩余的兩個(gè)卷積層后采用平均Polling。最后通過Softmax輸出分類結(jié)果。它的作用與第一層類似,主要是進(jìn)一步剔除司機(jī)的正常行為,由于第一級已經(jīng)剔除了一定規(guī)模的司機(jī)正常駕駛樣本,因此本級采用學(xué)習(xí)率為0.2,以使其能更好地剔除司機(jī)正常駕駛行為。如圖2所示,第二級神經(jīng)網(wǎng)絡(luò)有三個(gè)卷積層及一個(gè)Softmax分類器組成,從圖中可以明顯看出,它比第一級網(wǎng)絡(luò)要復(fù)雜一些,因此具有更高的區(qū)分力。
第三級神經(jīng)網(wǎng)絡(luò)將采用更加復(fù)雜的結(jié)構(gòu),經(jīng)過實(shí)驗(yàn)檢測,速度比較理想。這主要是因?yàn)榻?jīng)過第一級和第二級神經(jīng)網(wǎng)絡(luò)已經(jīng)剔除了大量的司機(jī)正常駕駛行為樣本,因此第三級神經(jīng)網(wǎng)絡(luò)在給出最終的識別結(jié)果時(shí)速度較快。同時(shí)由于第三級神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)更為復(fù)雜,層數(shù)也最多,因此在性能上也可以更好地識別出司機(jī)的異常駕駛行為,相比第二級神經(jīng)網(wǎng)絡(luò),第三級神經(jīng)網(wǎng)絡(luò)包括四層卷積層與一個(gè)Softmax層。其中四個(gè)卷積層采用5×5大小的卷積核,第一個(gè)卷積層后采用最大Pooling,剩余的三個(gè)卷積層后采用平均Polling。最后通過Softmax輸出分類結(jié)果,由于本級是最后一級,是輸出最后結(jié)果的一級,因此,本級學(xué)習(xí)率采用0.02,以使其達(dá)到更好的效果。
上述的三級級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是,前兩級網(wǎng)絡(luò)比較簡單,可以快速去掉大量司機(jī)正常駕駛樣本,雖然第三級網(wǎng)絡(luò)復(fù)雜,但是由于前兩級已經(jīng)去掉大量的樣本,因此第三級網(wǎng)絡(luò)雖然復(fù)雜但整體速度還是比較快,相對于從始至終都采用第三級網(wǎng)絡(luò)速度要快很多。
除了采用三級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)外,在激活函數(shù)方面,本文直接采用了文獻(xiàn)[24]中改進(jìn)的激活函數(shù)。該文提出的激活函數(shù)述結(jié)合ReLUs函數(shù)的稀疏性以及Softplus函數(shù)的光滑性,激活函數(shù)的公式如下:
(1)
為能夠確保數(shù)據(jù)的真實(shí)性,本文的實(shí)驗(yàn)數(shù)據(jù)通過真人模擬來采集,首先通過人工模擬吸煙與玩手機(jī)動(dòng)作后,通過車上安裝的攝像頭來采集本實(shí)驗(yàn)所需要的圖片素材,取幀軟件為Windows自帶的ffmpeg,采集到的圖片詳細(xì)數(shù)據(jù)如表1所示。為了防止模型容易訓(xùn)練過擬合,額外采集了5 000張正常司機(jī)行為的圖片,把這些司機(jī)正常的數(shù)據(jù)集與之前人工模擬采集的違規(guī)行為數(shù)據(jù)集混合在一起,然后把數(shù)據(jù)集分為訓(xùn)練集、測試集和驗(yàn)證集。實(shí)驗(yàn)獲取了吸煙、玩手機(jī)、正常3個(gè)類別的圖片,圖像為32(寬)×32(高)×3(RGB彩色通道),訓(xùn)練集15 000張,驗(yàn)證集圖片6 000張,測試集圖片9 000張。訓(xùn)練集、驗(yàn)證集和測試集中的司機(jī)行為類別個(gè)數(shù)始終保持相等,當(dāng)這兩個(gè)類別的概率都低于給定概率閥值時(shí),則為第三種既沒有吸煙也沒玩手機(jī)類別。為了保證實(shí)驗(yàn)的有效性,本文在數(shù)據(jù)集產(chǎn)生過程中使用了隨機(jī)采樣,即訓(xùn)練集是分別從正常數(shù)據(jù)(正常的司機(jī)行為)和異常數(shù)據(jù)(司機(jī)抽煙和玩手機(jī))中隨機(jī)抽取相應(yīng)數(shù)量的數(shù)據(jù)組成訓(xùn)練集,以同樣的方式形成測試集及驗(yàn)證集。
表1 人工摸擬采集的數(shù)據(jù)集詳情
下面給出實(shí)驗(yàn)中具體采集的圖片樣例:其中圖3是司機(jī)駕駛過程中玩手機(jī)的樣例圖,在我們的算法中主要檢測手機(jī)部分及相應(yīng)的位置,來判斷是否是在駕駛過程中使用手機(jī)。圖4是司機(jī)駕駛過程中抽煙樣例圖,算法檢測中主要檢測香煙及手部部分來判斷是否在駕駛過程中有抽煙行為。
圖3 司機(jī)駕駛過程中使用手機(jī)樣例圖
圖4 司機(jī)抽煙樣例圖
為了證明本文設(shè)計(jì)多級級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)在司機(jī)違規(guī)行為識別的有效性,進(jìn)行了以下六組實(shí)驗(yàn):
(1) 只采用三級級聯(lián)神經(jīng)網(wǎng)絡(luò)模型與LeNet-5算法的對比;
(2) 只采用三級級聯(lián)神經(jīng)網(wǎng)絡(luò)模型與AlexNet算法的對比;
(3) 本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)融合模型與LeNet-5的對比;
(4) 本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)融合模型與與AlexNet的對比;
(5) 本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)融合模型與只采用三級級聯(lián)的神經(jīng)網(wǎng)絡(luò)算法對比;
(6) 本身設(shè)計(jì)的算法在不同激活函數(shù)下的對比。
下面將對實(shí)驗(yàn)進(jìn)行詳細(xì)分析:
從圖5可以看出,只采用三級級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),隨著迭代次數(shù)的增加,當(dāng)?shù)? 000次左右能達(dá)到最大準(zhǔn)確率,而基于LeNet-5算法的結(jié)構(gòu)需要迭代4 000次左右準(zhǔn)確率才能達(dá)到最高,達(dá)到最大準(zhǔn)確率所需的迭代次數(shù)前者要小于后者。
圖5 LeNet-5算法和三級級聯(lián)神經(jīng)網(wǎng)絡(luò)隨迭代次數(shù)變化
圖6為只采用三級級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法在性能上與LeNet-5和AlexNet模型結(jié)構(gòu)算法的對比。從圖中可以看出,三級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)在準(zhǔn)確率方面要好于LeNet-5與AlexNet,原因在于三級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中,前兩級神經(jīng)網(wǎng)絡(luò)已經(jīng)過濾掉大量的司機(jī)正常駕駛行為數(shù)據(jù),因此到第三級神經(jīng)網(wǎng)絡(luò)識別時(shí)就能很輕易地識別出異常司機(jī)駕駛行為,從而準(zhǔn)確率要優(yōu)于LetNet-5與AlexNet。
圖6 各算法準(zhǔn)確率比較
圖7為本文提出的神經(jīng)網(wǎng)絡(luò)融合模型與三級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)對比,隨著迭代次數(shù)的增加,當(dāng)?shù)? 500次左右的時(shí)候本文提出的神經(jīng)網(wǎng)絡(luò)融合模型能達(dá)到最大準(zhǔn)確率,而三級級聯(lián)的神經(jīng)網(wǎng)絡(luò)要在3 000次左右。之所以神經(jīng)網(wǎng)絡(luò)融合的方法能更快收斂,是因?yàn)榻?jīng)過FCNN語義分割后,圖像變得更加簡單,在隨后的分類中更加容易識別出任務(wù)特征。
圖7 本文方法和三級級聯(lián)神經(jīng)網(wǎng)絡(luò)隨迭代次數(shù)變化
從圖8中可以看出本文提出的神經(jīng)網(wǎng)絡(luò)融合的方法相對于其他方法,在準(zhǔn)確率方便表現(xiàn)出明顯的優(yōu)勢,證明了本文提出的神經(jīng)網(wǎng)絡(luò)融合的模型在司機(jī)違規(guī)行為識別方面是一個(gè)行之有效的模型。
圖8 本文提出的模型與其他模型比較
本文通過使用神經(jīng)網(wǎng)絡(luò)融合的架構(gòu),結(jié)合FCNN網(wǎng)絡(luò)與三級級聯(lián)神經(jīng)網(wǎng)絡(luò),在每級卷積神經(jīng)網(wǎng)絡(luò)中采用更好的激活函數(shù),使用改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)對司機(jī)駕駛行為如抽煙、玩手機(jī)進(jìn)行識別。通過對比實(shí)驗(yàn)可以看出,本文提出的方法相對于經(jīng)典的LetNet-5與AlexNet表現(xiàn)出了良好的性能。實(shí)驗(yàn)結(jié)果表明本文提出的方法較之對比實(shí)驗(yàn)中的方法更能有效地進(jìn)行司機(jī)違規(guī)行為識別。后續(xù)除了研究提高數(shù)據(jù)集的準(zhǔn)確率外,還需要優(yōu)化訓(xùn)練速度,比如充分利用多個(gè)GPU并行化訓(xùn)練模型或者使用分布式系統(tǒng)來部署TensorFlow以加快訓(xùn)練速度等。