羅國榮,戚金鳳
(廣州科技職業(yè)技術(shù)大學(xué) 自動(dòng)化工程學(xué)院,廣州 510550)
隨著我國經(jīng)濟(jì)的快速發(fā)展,以及汽車電動(dòng)化、智能化的技術(shù)革新,人們對汽車的購買需求顯著增加,我國的汽車保有量也隨之增加,但伴隨的交通事故卻沒有明顯減少,究其原因,發(fā)現(xiàn)駕駛?cè)藛T不良駕駛行為引起的交通事故占95%以上[1]。因此,為了有效減少交通事故的發(fā)生,研究駕駛行為,輔助規(guī)范駕駛行為,對減少由不良駕駛行為引起的交通事故,具有重要的意義。
文獻(xiàn)[2]為挖掘汽車變道這一重要因素,研究汽車的速度和加速度,提取7個(gè)相關(guān)的駕駛行為特征參數(shù),利用K-means聚類算法,對駕駛行為進(jìn)行分類評價(jià),取得較好的效果。文獻(xiàn)[3]通過汽車OBD診斷儀采集汽車車速、發(fā)動(dòng)機(jī)轉(zhuǎn)速等行車數(shù)據(jù),綜合利用聚類法、主成分和因子法進(jìn)行駕駛行為分析,得出了危險(xiǎn)型、一般型和謹(jǐn)慎型三種駕駛行為。文獻(xiàn)[4]首先利用車聯(lián)網(wǎng)技術(shù)采集30輛車的行駛數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行清洗、分段、篩選,利用熵權(quán)—主成分分析法建立行車安全評價(jià)模型,分析其行駛安全狀況,最終得出行駛強(qiáng)度指標(biāo)。文獻(xiàn)[5]陶紅興搭建系統(tǒng)硬件和軟件完成車載OBD信息以及ADAS數(shù)據(jù)的信息采集,分析車輛的狀態(tài)和行駛軌跡特征,融合機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了三種駕駛行為辨識(shí)系統(tǒng)。文獻(xiàn)[6]黃俊提出了一種信息融合方法,該方法采集了駕駛員臉部特征信息和車輛行駛信息,通過計(jì)算車道中心線與圖像中心點(diǎn)間距離的變化率來判斷車輛行駛狀態(tài),并與駕駛員臉部特征信息進(jìn)行信息融合,實(shí)驗(yàn)結(jié)果表明,該方法可以較為準(zhǔn)確地檢測出駕駛員當(dāng)前的行為狀態(tài)。文獻(xiàn)[7]為了分析不同人格對駕駛員駕駛行為的影響,從駕駛員的“生理和心理”維度采集相關(guān)數(shù)據(jù),并利用K均值聚類算法對這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì)聚類,得到五種人格的關(guān)鍵指標(biāo)閾值,并在此基礎(chǔ)上建立駕駛能力評估模型,該模型能夠有效量化評估駕駛?cè)嗽诓煌榫诚碌鸟{駛行為。文獻(xiàn)[8]為了識(shí)別駕駛員的風(fēng)險(xiǎn)駕駛行為,從駕駛經(jīng)驗(yàn)與技能、駕駛員性格和駕駛態(tài)度、能力暫時(shí)性缺失、社會(huì)心理因素等影響因素進(jìn)行分析,獲得了良好的效果。文獻(xiàn)[9]提出了一個(gè)集成平臺(tái),該平臺(tái)收集、存儲(chǔ)、處理、分析車輛的不同數(shù)據(jù)流,應(yīng)用深度學(xué)習(xí)算法與聚類技術(shù)對來自不同車輛的數(shù)據(jù)進(jìn)行處理和分析,取得一定的效果。文獻(xiàn)[10]從駕駛員-車輛-環(huán)境(DVE)系統(tǒng)中獲取大量的汽車行駛數(shù)據(jù),通過機(jī)器學(xué)習(xí)(ML)模型處理,建立了一個(gè)影響駕駛員行為的多個(gè)維度的解釋框架,具有一定的現(xiàn)實(shí)意義。文獻(xiàn)[11]提出了一種車輛加速度預(yù)測模型,該模型提取車輛的相對距離、相對速度和加速度作為特征變量來描述駕駛行為,通過機(jī)器學(xué)習(xí)方法來分析、預(yù)測駕駛行為,結(jié)果表明,該模型能預(yù)測駕駛員的駕駛行為。文獻(xiàn)[12]應(yīng)用汽車跟蹤場景,將腦電圖的心理特征與行為反應(yīng)聯(lián)系起來。構(gòu)建一個(gè)偽影成分池的駕駛行為模型,為駕駛員的駕駛行為分析提供了一種思路。文獻(xiàn)[13]研發(fā)一個(gè)基于差分全球?qū)Ш叫l(wèi)星系統(tǒng)(DGNSS)模塊的車載終端平臺(tái),利用車輛實(shí)時(shí)跟蹤技術(shù),進(jìn)行駕駛員行為分析,結(jié)果表明,該平臺(tái)能夠自動(dòng)、準(zhǔn)確地提取出駕駛行為特征。文獻(xiàn)[14]提出了一種基于深度學(xué)習(xí)的時(shí)間序列建模方法的能量感知驅(qū)動(dòng)模式分析系統(tǒng)。對能量感知的縱向加減速行為和橫向變道行為進(jìn)行了統(tǒng)計(jì)分析,對小型汽車駕駛行為的個(gè)性化評估具有一定參考意義。文獻(xiàn)[15]為了減少渣土車駕駛員行車安全事故,通過采集汽車的行車數(shù)據(jù)和北斗定位數(shù)據(jù),利用K-means聚類算法分析、識(shí)別駕駛傾向,并建立模型評估渣土車駕駛員的駕駛行為,取得一定效果。文獻(xiàn)[16]為實(shí)時(shí)監(jiān)測駕駛員的駕駛行為,設(shè)計(jì)出一種智能安全駕駛監(jiān)測系統(tǒng),主要是通過檢測駕駛員酒精濃度,從而成功識(shí)別酒精駕駛的危險(xiǎn)駕駛行為。文獻(xiàn)[17]從OBD模擬器上獲取汽車的行車數(shù)據(jù),采用模糊綜合評價(jià)法分別從行車?yán)锍?、超速、急加速、急轉(zhuǎn)彎等方面構(gòu)建駕駛評價(jià)指標(biāo),取得不錯(cuò)的效果。文獻(xiàn)[18]提出一種駕駛行為評估模型,該模型通過模擬駕駛實(shí)驗(yàn)獲取相關(guān)行車數(shù)據(jù),利用信息熵和隨機(jī)森林算法分析歸納駕駛行為,實(shí)驗(yàn)結(jié)果表明,該模型的駕駛行為風(fēng)險(xiǎn)總體辨識(shí)精度達(dá)到80%。文獻(xiàn)[19]為優(yōu)化服務(wù)區(qū)入口匝道減速設(shè)施,通過模擬駕駛實(shí)驗(yàn),采集汽車車速、加速度和剎車踏板開度等數(shù)據(jù),分析減速設(shè)施對駕駛員駕駛行為的影響,成功預(yù)測了駕駛員駕駛行為的變化規(guī)律。文獻(xiàn)[20]為了研究標(biāo)線亮度對駕駛員駕駛行為的影響,通過模型駕駛實(shí)驗(yàn),采集車速、橫向位移和方向盤轉(zhuǎn)角等數(shù)據(jù),并據(jù)此擬合恰當(dāng)?shù)臄?shù)學(xué)模型,實(shí)驗(yàn)表明,該數(shù)學(xué)模型能在不同的夜間標(biāo)線亮度預(yù)測駕駛員的駕駛行為。
上述學(xué)者都是通過車載自診斷系統(tǒng)(OBD)或車聯(lián)網(wǎng)技術(shù)獲取車載傳感器的相關(guān)數(shù)據(jù),或是通過衛(wèi)星定位系統(tǒng)(GPS)獲取汽車的位置及速度數(shù)據(jù),通過統(tǒng)計(jì)、分析這些數(shù)據(jù),間接預(yù)測駕駛員的駕駛行為,具有一定的研究價(jià)值,由于駕駛行為的預(yù)測是通過分析汽車行駛數(shù)據(jù)間接得出,存在時(shí)間滯后的缺點(diǎn),因此本文通過研究駕駛員駕駛動(dòng)作的方式,直接采集駕駛室內(nèi)駕駛員玩手機(jī)、喝水等不良駕駛行為的視頻數(shù)據(jù),并將采集到的視頻數(shù)據(jù)轉(zhuǎn)換為圖像數(shù)據(jù)集,利用深度學(xué)習(xí)算法研究駕駛員的日常駕駛行為,挖掘日常駕駛圖像數(shù)據(jù)之間的內(nèi)在聯(lián)系,形成更有價(jià)值的信息,以幫助駕駛員糾正不良的駕駛行為,從而減少交通事故的發(fā)生。
實(shí)驗(yàn)數(shù)據(jù)采集選擇普通行車記錄儀作為數(shù)據(jù)采集設(shè)備,從副駕駛室向駕駛室的角度拍駕駛員的室內(nèi)駕駛視頻,再進(jìn)行取幀保存,選取974張較為清晰圖片,針對駕駛員玩手機(jī)、喝水兩種不良的駕駛行為進(jìn)行了數(shù)據(jù)標(biāo)注,并對圖片應(yīng)用旋轉(zhuǎn)、平移、縮放、添加噪聲、裁剪等方式進(jìn)行Mosaic擴(kuò)充。擴(kuò)充后數(shù)據(jù)為1 374張,如圖1所示。
圖1 數(shù)據(jù)圖像增強(qiáng)效果
YOLOV5s網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)可分為輸入網(wǎng)絡(luò)(input)、骨干網(wǎng)絡(luò)(backbone)、特征整合網(wǎng)絡(luò)(neck)和預(yù)測網(wǎng)絡(luò)(ouput)四部分。
圖2 YOLOV5s網(wǎng)絡(luò)結(jié)構(gòu)
輸入網(wǎng)絡(luò)進(jìn)行圖像數(shù)據(jù)增強(qiáng)、錨框的自適應(yīng)計(jì)算、圖片的自適應(yīng)縮放三個(gè)操作:1)圖像數(shù)據(jù)增強(qiáng)通過對每一幅圖像數(shù)據(jù)進(jìn)行旋轉(zhuǎn)、縮放、翻轉(zhuǎn)、色彩變換等來擴(kuò)大數(shù)據(jù)集。此外,還延用了YOLOV4的Mosaic圖像數(shù)據(jù)增強(qiáng),其顯著的優(yōu)點(diǎn)是豐富了檢測物體的背景,同時(shí)在標(biāo)準(zhǔn)BN計(jì)算時(shí),經(jīng)過Mosaic圖像數(shù)據(jù)增強(qiáng)的圖像相當(dāng)于4張圖像的數(shù)據(jù)量,有效加快了訓(xùn)練速度;2)錨框的自適應(yīng)計(jì)算是YOLOV5s網(wǎng)絡(luò)模型特有的操作,有一組應(yīng)用于COCO數(shù)據(jù)集的預(yù)設(shè)初始錨框,尺寸分別為(10,13),(16,30),(33,23),(30,61),(62,45),(59,119),(116,90),(156,198),(373,326);前三個(gè)是針對大特征圖的錨框,用于檢測盡可能多的小目標(biāo)信息,后三個(gè)是針對小特征圖的錨框,用于檢測大目標(biāo)信息;3)圖像的自適應(yīng)縮放采用letterbox自適應(yīng)圖像縮放技術(shù),該技術(shù)能夠在圖像縮放填充后,有效減少填充黑邊的信息冗余量,在一定程度上提高算法的推理速度。
骨干網(wǎng)絡(luò)(backbone)是由1個(gè)Focus網(wǎng)絡(luò)、4個(gè)CBL網(wǎng)絡(luò)、2個(gè)CSPNET網(wǎng)絡(luò)和1個(gè)SPP網(wǎng)絡(luò)組成[17-18]。Focus網(wǎng)絡(luò)的主要作用是減少網(wǎng)絡(luò)深度、模型參數(shù)以及模型計(jì)算量(FLOPs),在保證不影響mAP性能的情況下加快網(wǎng)絡(luò)前向傳播和反向傳播的速度。CSPNET網(wǎng)絡(luò)又稱跨階段局部網(wǎng)絡(luò),其作用有三點(diǎn):1)解決因網(wǎng)絡(luò)在優(yōu)化中梯度信息重復(fù)引起推理計(jì)算量大的問題,在降低計(jì)算量的同時(shí)保證了準(zhǔn)確率;2)由于該網(wǎng)絡(luò)將計(jì)算量均勻地分配到每一層,這樣可以將因網(wǎng)絡(luò)瓶頸結(jié)構(gòu)造成的部分閉置計(jì)算單元有效充分地利用起來,從而提升了每一個(gè)計(jì)算單元的利用率,降低了計(jì)算瓶頸;3)在特征金字塔生成過程中采用跨通道池(cross-channel pooling)來壓縮特征圖,從而降低內(nèi)存的使用率。SPP(spatial pyramid pooling)層又稱空間金字塔池化層,它能將任意尺寸大小的特征圖轉(zhuǎn)換成固定大小的特征向量,該層在完成這個(gè)轉(zhuǎn)換任務(wù)的同時(shí),不僅有效避免了圖像縮放帶來的圖像失真問題,還解決了卷積神經(jīng)網(wǎng)絡(luò)重復(fù)提取特征的問題,提高了網(wǎng)絡(luò)的運(yùn)行速度。
特征整合網(wǎng)絡(luò)是由特征金字塔網(wǎng)絡(luò)(FPN)與金字塔注意力網(wǎng)絡(luò)(PAN)相結(jié)合組成的網(wǎng)絡(luò)。其目的是將深層網(wǎng)絡(luò)表征強(qiáng)語義的特性和淺層網(wǎng)絡(luò)表征強(qiáng)定位的特性充分地利用起來,更好地表達(dá)圖像中的目標(biāo)和位置尺寸,為一階段的網(wǎng)絡(luò)預(yù)測提供堅(jiān)實(shí)的基礎(chǔ)。其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
預(yù)測網(wǎng)絡(luò)在輸出層直接對目標(biāo)框進(jìn)行回歸操作,以確定圖像中目標(biāo)的類別和位置[19]。具體操作如下:1)通過骨干網(wǎng)絡(luò)(backbone)和特征整合網(wǎng)絡(luò)(neck)將一幅輸入圖像分成S×K個(gè)網(wǎng)格,而預(yù)測網(wǎng)絡(luò)則需要對每個(gè)網(wǎng)格預(yù)測,若圖像中的某個(gè)目標(biāo)落在某個(gè)網(wǎng)格,該網(wǎng)格就負(fù)責(zé)預(yù)測這個(gè)目標(biāo)。因此,在S×K個(gè)網(wǎng)格中,每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測3個(gè)錨框(anchor)和1個(gè)類別,而每個(gè)錨框負(fù)責(zé)該框的4個(gè)位置信息(x,y,w,h)和1個(gè)置信度信息(confidence),這樣一幅圖像就預(yù)測出S×K×3個(gè)錨框;2)篩選錨框,去除冗余的錨框,保留包含目標(biāo)的錨框。首先計(jì)算錨框的類別置信度分值,通過設(shè)定閥值去除可能性低的錨框。
注意力機(jī)制類似于人類對外界事物的觀察機(jī)制,人類觀察事物時(shí),首先會(huì)觀察事物中較為吸引人的某些重要局部區(qū)域,對這些局部區(qū)域投入更多的注意力,以獲得更多的細(xì)節(jié)信息,然后再將其它局部區(qū)域聯(lián)合起來組成一個(gè)整體感觀。
空間注意力和通道注意力是注意力機(jī)制的兩種類型。通道注意力利用卷積特征通道之間的相互關(guān)系,從通道方面使網(wǎng)絡(luò)校準(zhǔn)有用的特征響應(yīng),從而抑制不相關(guān)的特征,有選擇地強(qiáng)調(diào)信息量大的特征。本文主要?jiǎng)?chuàng)新點(diǎn)是將通道注意力機(jī)制集成進(jìn)YOLOV5s中,即在網(wǎng)絡(luò)中引入ECABL模塊,如圖4所示??梢?,ECABL模塊可分為卷積、擠壓(squeeze)、激勵(lì)(excitation)和尺寸變換(scale)四個(gè)操作。
圖4 ECABL模塊網(wǎng)絡(luò)結(jié)構(gòu)
1)卷積操作。假設(shè)卷積結(jié)果U=[u1,u2,u3,…,uc],卷積核V=[v1,v2,v3,…,vc],輸入X=[x1,x2,x3,…,xc],卷積操作符號(hào)為*,則卷積操作Ftr可表示為:
(1)
式中,uc為第C通道的卷積結(jié)果;vc為第C通道的卷積核。
2)擠壓操作。其公式為:
(2)
式中,F(xiàn)sq為擠壓操作;H,W分別為特征圖的高和寬;uc(i,j)為第C個(gè)通道的第(i,j)個(gè)元素;zc為采用全局平均池化(global pooling)將高寬為 (H,W)的第C個(gè)通道的特征圖擠壓成一個(gè)通道權(quán)重。
3)激勵(lì)操作。其公式為:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
(3)
式中,F(xiàn)ex為激勵(lì)操作;σ()為sigmoid激活函數(shù);共進(jìn)行了兩次的全連接與sigmoid激活操作。
4)尺寸變換操作。其公式為:
(4)
式中,F(xiàn)scale為尺寸變換的操作;sc為激勵(lì)操作的結(jié)果,uc為卷積操作的結(jié)果。可以看出,尺寸變換就是將上述兩種操作結(jié)果進(jìn)行通道相乘操作。
綜上,通道注意力模塊首先進(jìn)行卷積操作,得到相應(yīng)通道的特征圖,每一個(gè)通道的特征圖都不一樣;再通過擠壓操作,得到每一個(gè)通道特征圖的通道權(quán)重;接著通過激勵(lì)操作過濾通道權(quán)重較低特征圖,保留通道權(quán)重較高特征圖,抑制與目標(biāo)位置形狀不相關(guān)的特征;最后進(jìn)行特征圖的尺寸變換,以適應(yīng)后續(xù)神經(jīng)網(wǎng)絡(luò)的輸入要求。
為了對比普通卷積與引入通道注意力的效果,將一張圖片分別進(jìn)行卷積操作和引入通道注意力,比較兩者的特征圖,圖5(a)為卷積操作后的32通道的特征圖,(a)中序號(hào)為3、5、6、11、14、22、27、28、30等9張?zhí)卣鲌D計(jì)算得到通道權(quán)重較高,強(qiáng)調(diào)目標(biāo)的位置和形狀信息,而圖中其它序號(hào)的特征圖計(jì)算得到通道權(quán)重較低,位置和形狀信息不明顯;圖5(b)為引入通道注意力機(jī)制后的32通道特征圖,(b)只有序號(hào)為5、6、17、23等4張?zhí)卣鲌D顯示的位置和形狀信息不明顯,其它大部分特征圖都突出了目標(biāo)的形狀和位置??梢姡跍\層網(wǎng)絡(luò)中引入通道注意力機(jī)制后,保留了與目標(biāo)位置形狀相關(guān)度大的特征圖,同時(shí)刪減了部分通道權(quán)重低的特征圖,從而減少了計(jì)算量,加快了訓(xùn)練和檢測速度。同理,在深層神經(jīng)網(wǎng)絡(luò)中,ECABL網(wǎng)絡(luò)模塊通過以上4個(gè)步驟的操作,也能將強(qiáng)調(diào)語義的通道特征圖保留下來,刪減與語義不相關(guān)的通道特征圖。
圖5 32個(gè)通道特征圖
實(shí)驗(yàn)環(huán)境使用win10操作系統(tǒng),軟件環(huán)境平臺(tái)為anconda+pytorch。在硬件配置上CPU使用英特爾酷睿i9-7900X;GPU為英偉達(dá)GTX 1080Ti 11G顯存。
模型的評價(jià)指標(biāo)很多,包括精準(zhǔn)度(precision)、召回率(recall)、mAP(mean average precision)等。識(shí)別結(jié)果包括真陽性 (TP,true positive)、真陰性 (TN,true negative)、假陽性FP(fasle positive)、假陰性 (FN,fasle negative)四種情況。精準(zhǔn)度(precision)是針對最后預(yù)測的結(jié)果,即指一個(gè)分類器預(yù)測出來的正類占所有真實(shí)正負(fù)類的比率。其計(jì)算公式為:
(5)
召回率(recall)是衡量一個(gè)分類器能否找出所有的正類能力,即是在所有正類的樣本中,分類器能預(yù)測出多少正類樣本。其計(jì)算公式為:
(6)
對于多標(biāo)簽樣本的分類還可以用mAP值來衡量檢測網(wǎng)絡(luò)的性能,mAP值也是綜合精準(zhǔn)度和召回率這兩個(gè)指標(biāo)的一個(gè)評估值。其計(jì)算公式為:
(7)
式中,N為測集中的樣本個(gè)數(shù);P(k)為同時(shí)識(shí)別k個(gè)樣本時(shí)精準(zhǔn)率的大??;ΔR(k)為檢測樣本個(gè)數(shù)從k-1個(gè)變?yōu)閗個(gè)時(shí)召回率的變化情況;C為多分類檢測任務(wù)類別的個(gè)數(shù)。
在卷積神經(jīng)網(wǎng)絡(luò)中嵌入通道注意力機(jī)制,可以使得網(wǎng)絡(luò)自適應(yīng)地保留重要的信息和忽略一些無關(guān)信息,從而提升網(wǎng)絡(luò)總體表現(xiàn)。本文在YOLOV5s中的不同位置去掉某一C3網(wǎng)絡(luò),再嵌入數(shù)量不等的通道注意力模塊。如圖6所示,分別在YOLOV5s的backbone和neck網(wǎng)絡(luò)中的不同位置嵌入數(shù)量不等的通道注意力(ECABL)模塊,實(shí)驗(yàn)結(jié)果如表1所列。觀察表1可知:
表1 帶ECABL模塊的YOLOV5s檢測識(shí)別性能
圖6 ECABL嵌入YOLOV5s不同位置的各種結(jié)構(gòu)
1)在YOLOV5s網(wǎng)絡(luò)中嵌入2個(gè)或3個(gè)ECABL模塊,即YOLOV5s_eca_2、YOLOV5s_eca_4和YOLOV5s_eca_6結(jié)構(gòu),雖然模型參數(shù)量和復(fù)雜度有所減少,但mAP50、精度率和召回率都有所下降,說明嵌入的模塊數(shù)量并不是越多越好。這可能是因?yàn)?,頻繁地強(qiáng)調(diào)通道注意力,導(dǎo)致過多地抑制了一些關(guān)聯(lián)小的通道特征,使得檢測識(shí)別性能略有下降。
2)在YOLOV5s的backbone網(wǎng)絡(luò)中嵌入1個(gè)ECABL模塊,即YOLOV5s_eca_1和YOLOV5s_eca_3結(jié)構(gòu),mAP50均為99.4%,相比原YOLOV5s網(wǎng)絡(luò)提升了0.3個(gè)百分點(diǎn);召回率分別為99.9%和97.6%,較YOLOV5s網(wǎng)絡(luò)的97.5%,略高于原YOLOV5s網(wǎng)絡(luò);而模型參數(shù)量分別減小了124.024×103和1 222.267×103,模型復(fù)雜度(GFLOPs)分別減少了1和1.4 (約6.3%和8.5%)。在YOLOV5s的neck網(wǎng)絡(luò)中嵌入1個(gè)ECABL模塊,即YOLOV5s_eca_5結(jié)構(gòu),也能獲得較好的效果,mAP50也為99.5%,召回率優(yōu)于原YOLOV5s網(wǎng)絡(luò),精度率相當(dāng),模型參數(shù)量減少369.529×103,模型復(fù)雜度(GFLOPs)減少了1.5(約9.2%)。這說明通道注意力機(jī)制起了作用,恰當(dāng)?shù)匾种屏瞬幌嚓P(guān)的通道特征,強(qiáng)調(diào)了有用的通道特征,從而減少了模型參數(shù)量和模型復(fù)雜度,在保證檢測識(shí)別性能的同時(shí)提升了檢測速度。
3)可以看出,YOLOV5s_eca_5結(jié)構(gòu)性能最優(yōu),YOLOV5s_eca_3結(jié)構(gòu)次之;從位置上看,兩者都是嵌入到Y(jié)OLOV5s網(wǎng)絡(luò)的中部,對網(wǎng)絡(luò)的影響更好。究其原因,在網(wǎng)絡(luò)的中部,已提取了一定數(shù)量代表位置輪廓的淺層特征和代表語義的深層特征,此時(shí)利用通道注意力機(jī)制刪除一些不相關(guān)的通道特征,可減少模型的參數(shù)量,同時(shí)也能保證模型原來的性能,如果嵌入的位置太前或太后,則通道注意力機(jī)制發(fā)揮的作用就不明顯。
為了驗(yàn)證所嵌入的ECABL模塊對YOLOV5s模型的改進(jìn)是否有效,進(jìn)行消融實(shí)驗(yàn)。根據(jù)表1采用綜合性能最好YOLOV5s_eca_5結(jié)構(gòu),分三種方案進(jìn)行:1)沒有嵌入ECABL模塊,保留原YOLOV5s的結(jié)構(gòu);2)在Neck網(wǎng)絡(luò)中的第一個(gè)C3網(wǎng)絡(luò)處嵌入ECABL模塊,稱之為YOLO_Neck_add;3)去掉Neck網(wǎng)絡(luò)中的第一個(gè)C3網(wǎng)絡(luò),再在此位置嵌入ECABL模塊,即用ECABL模塊代替C3網(wǎng)絡(luò),稱為YOLO_Neck_replace,得到的結(jié)果如表2所列。
表2 消融實(shí)驗(yàn)結(jié)果
從表2 中可以看出,方案2)直接在原YOLOV5s網(wǎng)絡(luò)中嵌入ECABL模塊,檢測識(shí)別性能有所提升,參數(shù)量和模型復(fù)雜度也有所下降。方案3)得出的結(jié)果,mAP性能比原網(wǎng)絡(luò)提升了0.4個(gè)百分點(diǎn),召回率提升了2.4個(gè)百分點(diǎn),精確率不變,并且參數(shù)量和模型復(fù)雜度有效減小,說明嵌入的通道注意力網(wǎng)絡(luò)起了一定作用,所提出的改進(jìn)YOLOV5s結(jié)構(gòu)有效可行。
圖7為YOLOV5s_eca_5結(jié)構(gòu)和原YOLOV5s網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練過程中損失曲線的變化情況。改進(jìn)的YOLOV5s_eca_5結(jié)構(gòu)在原YOLOV5s網(wǎng)絡(luò)結(jié)構(gòu)的左下方,這說明改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)收斂速度更快;并且在第180個(gè)至第195個(gè)epochs時(shí),兩者的損失率曲線重疊,說明兩者在性能上相當(dāng),隨后YOLOV5s_eca_5結(jié)構(gòu)損失曲線一直處于原網(wǎng)絡(luò)的下方,這進(jìn)一步表明改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)有效。
圖7 損失率變化曲線
為了進(jìn)一步展示改進(jìn)的YOLOV5s_eca_5結(jié)構(gòu)網(wǎng)絡(luò)的檢測效果,在測試集中隨機(jī)抽取30張圖像進(jìn)行檢測實(shí)驗(yàn),分三個(gè)測試組:1)第一組為10張僅有玩手機(jī)動(dòng)作的圖像;2)第二組為10張僅喝水動(dòng)作的圖像;3)第三組為同時(shí)含有玩手機(jī)和喝水動(dòng)作的圖像。其中2張圖像實(shí)驗(yàn)結(jié)果如圖8所示,圖8(a)為YOLOV5s檢測結(jié)果,圖8(b)為改進(jìn)的YOLOV5s檢測結(jié)果。在檢測第一張圖像時(shí),兩者都能檢測到玩手機(jī)動(dòng)作,其中改進(jìn)YOLOV5s網(wǎng)絡(luò)的置信度比原YOLOV5s網(wǎng)絡(luò)高0.5個(gè)百分點(diǎn);檢測第二張圖像時(shí),改進(jìn)YOLOV5s網(wǎng)絡(luò)的置信度比原YOLOV5s網(wǎng)絡(luò)高0.2個(gè)百分點(diǎn)。這說明改進(jìn)的YOLOV5s網(wǎng)絡(luò)與原YOLOV5s網(wǎng)絡(luò)的檢測性能相差不大,也就是改進(jìn)的YOLOV5s網(wǎng)絡(luò)繼承了原網(wǎng)絡(luò)的檢測性能。
圖8 改進(jìn)的YOLOV5s與原YOLOV5s網(wǎng)絡(luò)檢測結(jié)果對比
在檢測速度方面,在預(yù)處理、推理和極大值抑制(NMS)三個(gè)步驟上統(tǒng)計(jì)計(jì)算耗時(shí),三組圖像的檢測結(jié)果如表3所示??梢钥闯觯?)主要耗時(shí)體現(xiàn)在推理步驟上;2)改進(jìn)的YOLOV5s網(wǎng)絡(luò)模型的檢測總耗時(shí)比原YOLOV5s網(wǎng)絡(luò)快10.69 ms;單張圖片的平均耗時(shí)分別為1.38 ms和1.02 ms,即檢測速度提升了約(1.38-1.02)/1.41=26.08%。
表3 改進(jìn)的YOLOV5s網(wǎng)絡(luò)與原YOLOV5s網(wǎng)絡(luò)檢測時(shí)間結(jié)果對比
1)改進(jìn)的YOLOV5s方法是通過將不同數(shù)量的通道注意力ECABL模塊嵌入到Y(jié)OLOV5s原網(wǎng)絡(luò)中的不同位置(即backbone或neck)來實(shí)現(xiàn)的。對比實(shí)驗(yàn)、消融實(shí)驗(yàn)研究結(jié)果表明:①ECABL模塊嵌入到Y(jié)OLOV5s網(wǎng)絡(luò)的中部效果更好,且配置數(shù)量并非越多越好;②改進(jìn)的YOLOV5s可保留信息量大的特征、抑制不相關(guān)的特征,模型參數(shù)量和復(fù)雜度均有所降低因此檢測速度更快。
2)檢測結(jié)果顯示,較原YOLOV5s網(wǎng)絡(luò),改進(jìn)的YOLOV5s在目標(biāo)檢測識(shí)別性能上相當(dāng),而檢測速度提升了26.08%,能夠更好地滿足駕駛員手部動(dòng)作的實(shí)時(shí)監(jiān)控需求。