亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多視角數(shù)據(jù)融合的特征平衡YOLOv3行人檢測研究

        2021-06-10 17:08:02陳麗馬楠逄桂林高躍李佳洪張國平吳祉璇姚永強
        智能系統(tǒng)學(xué)報 2021年1期
        關(guān)鍵詞:特征融合檢測

        陳麗,馬楠,2,逄桂林,高躍,李佳洪,2,張國平,吳祉璇,姚永強

        (1. 北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點實驗室,北京 100101; 2. 北京聯(lián)合大學(xué) 機(jī)器人學(xué)院,北京 100101;3. 北京交通大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,北京 100044; 4. 清華大學(xué) 軟件學(xué)院,北京 100085)

        安全性是無人駕駛技術(shù)研究成果落地應(yīng)用的重要需求。無人駕駛技術(shù)需要與周圍環(huán)境形成良好的交互[1]。無人駕駛需要具備認(rèn)知能力,才能更好地學(xué)習(xí)。對周圍環(huán)境的感知、主動學(xué)習(xí)是無人駕駛技術(shù)必須攻克的一個難點[2]。其中,行人檢測就是無人駕駛進(jìn)行環(huán)境認(rèn)知的一個必備環(huán)節(jié)。行人檢測工作主要是判別在輸入的視頻、圖像中是否含有行人并返回其位置。在無人駕駛場景下,一旦未能及時、準(zhǔn)確地檢測出行人,就會造成傷亡,后果不堪設(shè)想,所以無人駕駛條件下對行人檢測的準(zhǔn)確性有極高的要求。因為行人存在不同的運動姿態(tài)、不同的穿衣風(fēng)格,行人被別的障礙物遮擋以及行人之間互相遮擋[3],復(fù)雜交通場景下光線不統(tǒng)一等問題,行人檢測一直是無人駕駛領(lǐng)域重點研究的問題[4]。

        復(fù)雜交通場景下的行人檢測要求在發(fā)生部分遮擋時,仍能檢測出行人,并且要求能快速有效地檢測出車輛前方遠(yuǎn)距離的小目標(biāo)行人(小目標(biāo)指在整張圖片中目標(biāo)的像素點小于 3 2×32,或者目標(biāo)尺寸低于原圖像尺寸的10%[5])。但是,在實際實驗中,依靠單一視角的數(shù)據(jù),行人發(fā)生遮擋時很難被檢測到。

        為了解決發(fā)生遮擋以及遠(yuǎn)距離行人檢測困難的問題,本文提出一種基于多視角數(shù)據(jù)融合的特征平衡YOLOv3行人檢測模型(multi-view data and balanced YOLOv3, MVBYOLO)。首先輸入不同視角的圖像,使用自監(jiān)督學(xué)習(xí)的多視角特征點融合網(wǎng)絡(luò)模型(self-supervised network for multiview fusion model, Self-MVFM)對其進(jìn)行特征點提取與匹配,實現(xiàn)多視角圖像融合。但是在實際問題中不同角度的攝像機(jī)采集的圖像融后會產(chǎn)生色差。本文在多視角圖像融合時引入改進(jìn)的加權(quán)平滑算法,有效解決不同視角圖像融合時產(chǎn)生色差的問題。此外,為了提高復(fù)雜交通場景下車輛前方遠(yuǎn)距離行人的檢測精度,本文提出了一個特征平衡的YOLOv3網(wǎng)絡(luò)(balanced YOLOv3, BYOLO),在接收到經(jīng)過Self-MVFM網(wǎng)絡(luò)融合的多視角圖像后,用Darknet-53網(wǎng)絡(luò)對圖像進(jìn)行特征提取,可以獲得分辨率不同的特征。分辨率高的低層特征包括行人的輪廓、衣著顏色、紋理等信息;分辨率低的高層特征包括肢體、人臉等語義信息。對獲得的低層特征與高層特征進(jìn)行采樣,映射到中間層級的分辨率進(jìn)行特征融合、修正,再通過相反的采樣方式適配到原分辨率的特征圖,與Darknet-53提取的原始特征進(jìn)行融合,再利用融合后的特征預(yù)測行人。在公共數(shù)據(jù)集VOC上的實驗結(jié)果表明,本文提出的MVBYOLO行人檢測模型可以有效提高復(fù)雜場景下的行人檢測精度。

        1 基于多視角數(shù)據(jù)的行人檢測研究

        1.1 多視角數(shù)據(jù)融合算法

        針對多角度、多尺度的特征如何進(jìn)行融合的問題,一直受到研究者們的關(guān)注。Farenzena等[6]提出了一種對稱驅(qū)動的局部特征累積方法,該方法從結(jié)構(gòu)元素成分分析模型[7]提取的行人輪廓中找到垂直對稱軸,然后根據(jù)像素的權(quán)重提取顏色和紋理特征。Wen等[8]提出從幾張已知相機(jī)位置的多視角彩色圖片生成三角網(wǎng)格模型的網(wǎng)絡(luò)結(jié)構(gòu),使用圖卷積神經(jīng)網(wǎng)絡(luò)從多視角圖片的交叉信息學(xué)習(xí)進(jìn)一步提升形狀質(zhì)量。相比于直接建立從圖像到最終 3D 形狀的映射,本文預(yù)測一系列形變,逐漸將由多視角圖片生成的粗略形狀精細(xì)化。Chen等[9]通過輸入多張不同角度的圖片,提取不同的點云特征,再進(jìn)行融合,從而生成最終的點云。與基于代價體的同類網(wǎng)絡(luò)相比,這種基于點云的網(wǎng)絡(luò)結(jié)構(gòu)具有更高的準(zhǔn)確性,更高的計算效率和更大的靈活性。Yi等[10]引入2種新穎的自適應(yīng)視圖融合(逐像素視圖融合和體素視圖融合),考慮在不同視角圖像間多重匹配的不同重要性,優(yōu)化了代價體的計算方法并且引入了新的深度圖聚合結(jié)構(gòu),提高了3D點云重建的魯棒性和完整性。曠世科技公司提出的雙向網(wǎng)絡(luò)[11],利用深度學(xué)習(xí)模型,對提取的空間信息特征和全局語義特征進(jìn)行融合,兼顧了語義分割任務(wù)的速度與語義信息。Su等[12]提出多視角卷積網(wǎng)絡(luò)(multi-view convolutional neural networks,MVCNN),利用二維的CNN網(wǎng)絡(luò)對多個視角的圖像進(jìn)行融合,實驗結(jié)果顯示比直接用3D檢測方法更好。Feng等[13]提出的組視圖卷積網(wǎng)絡(luò)框架,在MVCNN基礎(chǔ)上增加分組模型,將不同視角的信息根據(jù)相關(guān)性進(jìn)行分組后,再進(jìn)行特征融合。Dong等[14]在CVPR2019上提出一種利用外觀特征和幾何約束相似性矩陣共同尋找各個視角中滿足回路一致性的二維姿態(tài)匹配關(guān)系,實現(xiàn)了較好的多視角下多人的三維姿態(tài)估計結(jié)果。澳洲國立大學(xué)鄭良老師實驗室提出多視角檢測模型[15]聯(lián)合考慮多個相機(jī),利用特征圖的投影變換進(jìn)行多相機(jī)信息融合,提高虛擬場景下行人發(fā)生遮擋時的檢測效率。

        1.2 行人檢測方法

        行人檢測是目標(biāo)檢測領(lǐng)域的一個重要分支,其主要任務(wù)是找出輸入的圖像或視頻幀中存在的行人,并用矩形框輸出行人位置和大小。然而行人的著裝風(fēng)格、姿勢、形狀不同,并且面臨被物體遮擋以及行人互相遮擋、拍攝光照不同、拍攝角度不同等因素的影響,使得行人檢測任務(wù)一直受到視覺研究者們的關(guān)注。從研究歷史來看,行人檢測方法可以分為2個主要方向:基于傳統(tǒng)算法的行人檢測和基于深度學(xué)習(xí)的行人檢測。

        1.2.1 基于傳統(tǒng)算法的行人檢測

        傳統(tǒng)算法的典型代表是利用方向梯度直方圖(histogram of oriented gradient, HOG)進(jìn)行行人特征提取,并利用支持向量機(jī)(support vector machine,SVM)算法進(jìn)行分類[16]。HOG是一種重要有效的圖像局部紋理特征描述子。在深度學(xué)習(xí)特征提取方法未普及之前,被研究者們廣泛使用。Girshick[17]等提出形變部件模型(deformable parts model, DPM)算法,使用HOG提取特征,并獨立地對行人的不同部位進(jìn)行建模,從而在一定程度上解決了行人遮擋難以檢測的問題。DPM中包含2個部分:根部模型和部位模型。根部模型主要是定位對象的潛在區(qū)域,找出可能存在物體對象的區(qū)域,再與部位模型進(jìn)行確認(rèn),最終采用SVM和AdaBoost進(jìn)行分類。另外,也有部分學(xué)者從運動特征角度進(jìn)行研究。假設(shè)捕捉行人運動的攝像機(jī)是固定不動的,則使用背景建模算法提取出運動的前景目標(biāo),再對前景目標(biāo)進(jìn)行分類。背景建模算法的思路是:通過學(xué)習(xí)前一幀獲得背景模型,把當(dāng)前幀與背景幀數(shù)據(jù)進(jìn)行對比,得到運動的目標(biāo),代表性方法是高斯混合模型[18]、視頻前景提取算法算法[19]、樣本一致性建模算法[20]、基于像素的參數(shù)自適應(yīng)算法[21]。

        1.2.2 基于深度學(xué)習(xí)的行人檢測

        基于傳統(tǒng)算法的行人檢測在一定條件下可以達(dá)到較好的檢測效率或準(zhǔn)確性,但仍不能滿足實際的應(yīng)用需求。2012年Krizhevsky等[22]將深度學(xué)習(xí)技術(shù)應(yīng)用到圖像分類并取得良好效果,研究者們發(fā)現(xiàn)通過神經(jīng)網(wǎng)絡(luò)提取的特征具有很強的表達(dá)能力和魯棒性,使計算機(jī)視覺的發(fā)展邁上了一個新臺階。因此,對于行人檢測任務(wù),基于深度學(xué)習(xí)的方法受到越來越多研究者的青睞。

        基于深度學(xué)習(xí)的行人檢測又可分為雙階段檢測與單階段檢測。雙階段檢測方法首先生成一組稀疏的目標(biāo)候選框,然后對候選框進(jìn)行分類和回歸。Girshick[23]等提出區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(regions with CNN features,R-CNN),首次將CNN用于目標(biāo)檢測,極大提高了目標(biāo)檢測的性能。后來Girshick在R-CNN基礎(chǔ)上進(jìn)行改進(jìn),提出了快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型[24],將感興趣區(qū)域提取與特征分類合并在同一個網(wǎng)絡(luò)結(jié)構(gòu),提高了模型訓(xùn)練的速度和檢測的準(zhǔn)確率。Ren等[25]在 Fast RCNN 上增加區(qū)域卷積網(wǎng)絡(luò)來生成候選區(qū)域,構(gòu)成一種更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型,端到端的訓(xùn)練方式大大提高了運算速度。

        單階段的方法通過直接對圖像中的不同位置,尺度和長寬比進(jìn)行規(guī)則和密集采樣,以此來預(yù)測圖像中的目標(biāo)。以YOLO[26]為代表的單階段檢測方法將目標(biāo)檢測任務(wù)轉(zhuǎn)換為回歸問題,是一種快速的行人檢測方法。除了YOLO系列算法,單階段檢測的模型還包括單次檢測模型[27]。Zhang等[28]提出基于單次精化神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法,結(jié)合單階段檢測速度快及雙階段檢測準(zhǔn)確率高的優(yōu)點。方法包括錨窗精化模塊和目標(biāo)檢測模塊,2個模塊互相連接,兼顧了檢測的準(zhǔn)確率與速度。

        2 多視角數(shù)據(jù)融合的特征平衡

        本文提出的多視角數(shù)據(jù)融合的特征平衡YOLOv3行人檢測網(wǎng)絡(luò)(MVBYOLO)包括2部分:1)自監(jiān)督學(xué)習(xí)的多視角特征點融合網(wǎng)絡(luò)模型(Self-MVFM);2)特征平衡YOLOv3網(wǎng)絡(luò)(BYOLO)。首先對輸入的多視角圖像做特征匹配,融合成一個完備的圖像,之后再利用目標(biāo)檢測網(wǎng)絡(luò)對融合后的圖像做訓(xùn)練,提高遮擋及遠(yuǎn)距離小尺寸行人檢測的精度。網(wǎng)絡(luò)總體框架如圖1所示。

        圖1 MVBYOLO行人檢測網(wǎng)絡(luò)Fig. 1 Multi-view data fusion and balanced YOLOv3 for pedestrian detection

        2.1 自監(jiān)督學(xué)習(xí)的多視角特征點融合網(wǎng)絡(luò)模型

        自監(jiān)督學(xué)習(xí)的多視角數(shù)據(jù)融合模型工作流程如下:圖像獲取、自監(jiān)督特征點與描述子提取、特征匹配,最后進(jìn)行多視角圖像融合。本文提出自監(jiān)督學(xué)習(xí)的多視角特征點融合網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        2.1.1 數(shù)據(jù)集自標(biāo)注與模型訓(xùn)練

        多視角數(shù)據(jù)融合過程中的數(shù)據(jù)集特征點提取任務(wù)很難利用人工標(biāo)注。對于傳統(tǒng)的檢測、分割任務(wù)的標(biāo)注,給定一個圖像,通過標(biāo)注矩形框或者標(biāo)注物體的輪廓,可以得到確定的語義真值。但是對于特征點檢測任務(wù),人工很難判斷哪一個像素點可以作為特征點,因此本文利用僅包含簡單幾何形狀的基本數(shù)據(jù)集和自行采集數(shù)據(jù)集進(jìn)行數(shù)據(jù)集的自標(biāo)注[29],具體流程為

        1) 利用簡單幾何形狀數(shù)據(jù)集進(jìn)行模型的預(yù)訓(xùn)練

        簡單幾何形狀數(shù)據(jù)集是由一些線段、多邊形、立方體等特征點較為容易確定的圖像構(gòu)成的。利用尺度不變特征變換等進(jìn)行基本數(shù)據(jù)集的特征點提取,可以得到數(shù)據(jù)集和特征點真值。因為線段、三角形等基礎(chǔ)幾何形狀圖像的特征點是真實圖像特征點的子集。利用標(biāo)注好的簡單幾何形狀數(shù)據(jù)集對特征點檢測網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到了一個初級特征點檢測網(wǎng)絡(luò)。與尺度不變特征變換等傳統(tǒng)算法相比,在簡單幾何形狀數(shù)據(jù)集訓(xùn)練得到的初級特征點檢測網(wǎng)絡(luò)在精度方面具有一定的優(yōu)勢,但是在對真實圖像數(shù)據(jù)集進(jìn)行提取特征點時會出現(xiàn)一些特征點的遺漏問題,檢測精確度較低。因此本文利用單應(yīng)性適應(yīng)變換和初級特征點檢測網(wǎng)絡(luò)訓(xùn)練得到新的模型,提升真實圖像特征點提取的精度。

        2) 自行采集圖像自標(biāo)注

        利用多次復(fù)合幾何變換對輸入的圖像進(jìn)行處理,本文設(shè)置超參數(shù)Nh=80;即N1是未經(jīng)過復(fù)合幾何變換的原始圖像,剩余的79幀圖像是原始圖像經(jīng)過隨機(jī)生成的復(fù)合簡單幾何變換形成的圖像。利用步驟1)中生成的初級特征點檢測網(wǎng)絡(luò)對真實圖像數(shù)據(jù)集偽特征點進(jìn)行提取,將與源圖像對應(yīng)的79幀圖像映射回原圖像的特征點累加起來形成新的源圖像特征點。至此本文完成了真實圖像數(shù)據(jù)集的特征點標(biāo)注。

        圖2 Self-MVFM網(wǎng)絡(luò)模型Fig. 2 Self-supervised multi-view feature fusion model

        在復(fù)合簡單幾何變換中,本文獲取了79幀經(jīng)過已知變換矩陣形成的源圖像變換圖像,因此獲得了源圖像和其對應(yīng)的79幀圖像的79組已知位姿變換的圖像對。這樣就得到了原始圖像與變換圖像之間映射關(guān)系的真值。最終的自行采集數(shù)據(jù)集包含特征點和特征點描述子真值,用于特征點檢測網(wǎng)絡(luò)中特征點檢測和描述子檢測2個網(wǎng)絡(luò)分支的聯(lián)合訓(xùn)練。

        為了實現(xiàn)特征點檢測子網(wǎng)絡(luò)和描述子檢測子網(wǎng)絡(luò)在初級特征點檢測網(wǎng)絡(luò)中的聯(lián)合訓(xùn)練,將2個檢測子網(wǎng)絡(luò)的損失函數(shù)值加權(quán)相加,得到統(tǒng)一的損失函數(shù)。

        2.1.2 復(fù)合幾何變換

        為了將不同視角的信息進(jìn)行融合,需要先找到不同視角的對應(yīng)關(guān)系。利用自適應(yīng)單應(yīng)性變換求解不同視角的對應(yīng)關(guān)系矩陣H。單應(yīng)性變換為

        式中: (x1,y1) 代表來自第一個視角的圖片中的某一點; (x2,y2) 代表來自另一個視角圖片中與(x1,y1)對應(yīng)的某點。需要通過2張不同視角的照片計算出復(fù)合幾何變換矩陣H。

        通過自監(jiān)督學(xué)習(xí)到的復(fù)合簡單幾何變換矩陣并非都是有用的,需要進(jìn)行選擇。為了選取表現(xiàn)較好的復(fù)合簡單幾何變換矩陣,使用截斷正態(tài)分布在預(yù)定范圍內(nèi)進(jìn)行平移、縮放、平面內(nèi)旋轉(zhuǎn)和對稱透視變換采樣。

        2.1.3 增強特征點檢測網(wǎng)絡(luò)

        在獲得數(shù)據(jù)集的原始圖像與真實圖像之間映射關(guān)系的真值之后,就完成了真實數(shù)據(jù)集的自標(biāo)注,實現(xiàn)了難以人工進(jìn)行標(biāo)注的真實圖像數(shù)據(jù)集自標(biāo)注。增強特征點檢測網(wǎng)絡(luò)[11]用于訓(xùn)練前面獲得的自標(biāo)注圖像數(shù)據(jù)集,以提高特征點提取的 準(zhǔn)確性。增強特征點檢測網(wǎng)絡(luò)如圖3所示。

        圖3 增強特征點檢測網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Enhanced feature point detection network

        多層次編碼器:為了兼顧實時性與精確性,增強特征點檢測網(wǎng)絡(luò)被設(shè)計成2個分支,分別用來處理不同的任務(wù)。上邊的分支通過非對稱的編碼解碼網(wǎng)絡(luò)實現(xiàn)對原始圖像進(jìn)行深層特征點的提取。對原始單視圖像進(jìn)行特征描述子的生成,通過多通道、低層次的編碼器網(wǎng)絡(luò)(圖3的下方分支),提取原始圖像表層的特征描述。

        特征點檢測:在特征點檢測網(wǎng)絡(luò)部分時,經(jīng)過深層、少通道、非對稱的編碼解碼網(wǎng)絡(luò)得到圖像的特征點。

        融合網(wǎng)絡(luò)(fusion network, FN): 由于網(wǎng)絡(luò)的特征圖并不具有相同的通道和尺寸,描述子生成網(wǎng)絡(luò)提取到的特征是淺層的,包含大量的位置信息,而特征點檢測網(wǎng)絡(luò)經(jīng)過多層編碼器之后得到的是深層的特征點,包含胳膊、人臉等信息。為了融合不同層級的特征,融合網(wǎng)絡(luò)先通過Concatenate操作實現(xiàn)不同層次特征圖的簡單融合。為了平衡不同尺寸的特征,在Concatenate之后使用了BatchNorm操作。把相連接的特征經(jīng)過全局池化、1×1卷積得到一個新的權(quán)重。這樣做的目的是對連接后的特征進(jìn)行一個新的特征選擇和結(jié)合。至此,本文得到了W×H×D的描述子檢測結(jié)果,其中W是原始圖像的寬、H是原始圖像的長、D是原始圖像的通道。

        注意力模塊(attention model, AM):經(jīng)過全局池化之后,可以簡單得到深層全局語義信息,并通過1×1卷積操作平衡多層次編碼器得到的不同特征圖通道之間的差異。

        2.1.4 加權(quán)平滑算法

        在實際應(yīng)用中,自行采集的數(shù)據(jù)集由于相機(jī)的架設(shè)位置和光照條件變化原因,存在2個視角點信息因光場變化產(chǎn)生的色差問題,影響后續(xù)融合效果。因此,在融合時本文采用加權(quán)平滑算法來解決存在的色差問題。加權(quán)平滑算法主要思想:用f(x,y) 表示重疊區(qū)域融合后的圖像,由2幅待融合圖像fL和fR加權(quán)平均得到,即:f(x,y)=α×fL(x,y)+(1?α)fR(x,y) ,其中 α 是可調(diào)因子。

        一般情況下 0 <α<1,即在圖像交叉區(qū)域中,沿視角1圖像向視角2圖像的方向,α 由1 漸變?yōu)?,從而實現(xiàn)交叉區(qū)域的平滑融合。為了給2幅圖像建立更大的相關(guān)性,使用式(2)進(jìn)行融合處理:

        2.2 特征平衡的YOLOv3網(wǎng)絡(luò)

        YOLOv3網(wǎng)絡(luò)是一種單階段目標(biāo)檢測方法,與RCNN系列的目標(biāo)檢測框架不同,YOLOv3網(wǎng)絡(luò)不生成候選框,直接在輸出層返回邊界框的位置及其所屬類別。YOLOv3借鑒殘差網(wǎng)絡(luò)(residual network, ResNet)[30]、特征金字塔網(wǎng)絡(luò)[31]網(wǎng)絡(luò)的思想,添加跨層跳躍連接,融合粗細(xì)粒度的特征,能更好地實現(xiàn)檢測任務(wù)。添加多尺度預(yù)測,即在3個不同尺寸的特征圖層進(jìn)行預(yù)測,每種尺度預(yù)測3個錨框。錨框的設(shè)計方式使用聚類,得到9個聚類中心,將其按照大小均分給3個特征圖層。尺寸分別為 1 3×13 、 2 6×26、 5 2×52。本文將對3個不同尺寸的特征進(jìn)行融合。

        YOLOv3的特征提取網(wǎng)絡(luò)為Darknet-53,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。Darknet-53網(wǎng)絡(luò)中的Convolutional代表一個激活函數(shù)(darknetconv2d_BN_leaky, DBL)操作流程,包含卷積層、批量歸一化層(batch normalization, BN)和Leaky_Relu激活函數(shù)。對于YOLOv3來說,BN層和Leaky_Relu是和卷積層不可分離的部分,共同構(gòu)成了最小組件。此外,還包括Resn殘差模塊,圖4中最左面的數(shù)字1、2、8、8、4表示殘差單元的個數(shù)。

        Darknet-53加深了網(wǎng)絡(luò)結(jié)構(gòu),處理速度為78 張/s,比Darknet-19慢,但是與相同精度的ResNet-152相比,處理速度快了1倍,所以Darknet-53是兼顧速度與精度的特征提取網(wǎng)絡(luò)架構(gòu)。

        原YOLOv3網(wǎng)絡(luò)中通過3種不同尺度的特征圖直接做預(yù)測,不同尺度分別包括 1 3×13、 2 6×26、52×52。為了更好地使用深層特征與淺層特征進(jìn)行小尺寸行人檢測,本文提出一種特征平衡的YOLOv3網(wǎng)絡(luò)結(jié)構(gòu),如圖5所示。

        圖4 Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Darknet-53 Network

        圖5 特征平衡YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)Fig. 5 Architecture of balance YOLOv3 network

        特征融合是將不同類型、不同尺度的特征進(jìn)行整合,去除冗余信息,從而得到更好的特征表達(dá)。在神經(jīng)網(wǎng)絡(luò)中直觀的融合方式一般分為 Add和 Concatenate 2種。Add方式[32]是特征圖相加,從而增加描述圖像特征的信息量,即圖像本身的維度沒有增加,只是每一維下的信息量增加了,這樣的融合方式有利于圖像分類任務(wù)。Concatenate方式[33]則是通道數(shù)的合并,也就是說描述圖像本身的特征增加了,而每一特征下的信息并沒有增加。深度網(wǎng)絡(luò)中多層信息的直接拼接并不能更好地利用特征之間的互補性,所以本文考慮將特征采樣到相同分辨率大小進(jìn)行加權(quán)融合。

        神經(jīng)網(wǎng)絡(luò)提取的低層特征分辨率高,可以學(xué)習(xí)到一幅圖像中的細(xì)節(jié)特征,高層特征分辨率低,可以學(xué)習(xí)到更好的語義特征。為了更好地結(jié)合細(xì)節(jié)信息和語義信息的優(yōu)勢,本文采用對數(shù)據(jù)相加取平均的方式來進(jìn)行特征融合。假設(shè)Cl代表不同層級的特征數(shù)據(jù),則C1代表5 2×52 的特征,C2代表2 6×26 特征數(shù)據(jù),C3代表1 3×13 的特征。本文將3個分辨率的特征進(jìn)行不同的采樣方式統(tǒng)一到 26×26 的大小,再利用式(3)進(jìn)行相加取平均,得到一個融合后的特征:

        在進(jìn)行尺度縮放的具體操作中,針對13×13大小的特征圖,對其進(jìn)行2倍的上采樣,對于52×52大小的特征圖,對其進(jìn)行2倍的下采樣,這樣將原來不同尺度的特征圖全部變成了 2 6×26 的特征,可以直接進(jìn)行加權(quán)求和。得到融合后的特征C后,再通過與之前相反的采樣操作,即對特征分別進(jìn)行下采樣與上采樣的操作,還原成 1 3×13、52×52的尺寸,再與原來Darknet-53網(wǎng)絡(luò)提取的第36、61與74層的原始特征進(jìn)行融合,利用最終得到的具有細(xì)節(jié)信息和語義信息的特征去做預(yù)測。

        3 實驗結(jié)果與分析

        3.1 實驗環(huán)境

        本實驗平臺為云服務(wù)器,操作系統(tǒng)為Ubuntu 16.04,顯卡型號為GeForce GTX 2080Ti,顯存11 GB,內(nèi)存16 GB,Cuda版本:10.0.130, OpenCV版本:3.2.0。

        3.2 實驗數(shù)據(jù)集

        本實驗的訓(xùn)練與測試所使用的數(shù)據(jù)集全部來自PASCAL VOC數(shù)據(jù)集。訓(xùn)練使用VOC2007 train、valid與VOC2012 train、valid數(shù)據(jù)集,為了驗證算法的有效性,在VOC2007 test數(shù)據(jù)集上做驗證。總訓(xùn)練數(shù)據(jù)共22 136張圖片,其中包含行人的圖片為6 496張;總驗證數(shù)據(jù)共4 952張圖片,其中包含行人的圖片為2 097張。

        3.3 實驗參數(shù)設(shè)置

        本文只對行人這一類別做訓(xùn)練,輸入的圖片大小默認(rèn)為 4 16×416,輸入通道數(shù)為3,本文設(shè)定的迭代次數(shù)是50 200,batchsize為64,學(xué)習(xí)率為0.001,在迭代到40 000次的時候?qū)W習(xí)率更新為0.01。將處理好的數(shù)據(jù)集在同一性能服務(wù)器下用YOLOv3原模型進(jìn)行訓(xùn)練。在相同實驗環(huán)境以及實驗參數(shù)下,對MVBYOLO網(wǎng)絡(luò)進(jìn)行訓(xùn)練。將得到的檢測結(jié)果與 YOLOv3 原模型進(jìn)行對比,觀察改進(jìn)后的檢測模型針對有遮擋遠(yuǎn)距離行人檢測中存在的問題優(yōu)化效果及性能。

        3.4 實驗評價指標(biāo)及結(jié)果分析

        本文應(yīng)用準(zhǔn)確率(precision,P)、漏檢率(recall,R)來衡量檢測算法的性能。因為本算法只檢測行人,可以看做是一個二分類問題。為了計算準(zhǔn)確率和漏檢率,引入以下定義:

        1) True_Pedetrian(TP):真實目標(biāo)是行人且被訓(xùn)練模型檢測出來是行人;

        2) True_N-Pedestrian(TN):真實目標(biāo)不是行人且沒有被訓(xùn)練模型錯誤檢測為行人;

        3) False_Pedestrian(FP):表示為真實目標(biāo)不是行人但被模型錯誤檢測為行人(誤檢);

        4) False_N-Pedestrian(FN):表示真實目標(biāo)是行人 但是模型沒有將其檢測為行人(漏檢)。

        則評價的標(biāo)準(zhǔn)為

        將本文提出的MVBYOLO模型與原來YOLOv2和YOLOv3模型作對比,比較損失值下降趨勢,PR曲線以及AP值。

        從圖6可以看出,本文MVBYOLO網(wǎng)絡(luò)的訓(xùn)練損失值下降趨勢基本與原YOLOv3網(wǎng)絡(luò)保持一致,下降速度快于YOLOv2,經(jīng)過相同的訓(xùn)練批次,MVBYOLO網(wǎng)絡(luò)的損失值明顯低于YOLOv2,可以更快地收斂。

        圖6 不同網(wǎng)絡(luò)的訓(xùn)練損失值Fig. 6 Train loss of different network

        PR曲線與橫縱坐標(biāo)軸形成了一個平面,面積越大,AP值越高。圖7為不同模型的PR曲線,顯示了本文的模型具有更高的檢測精度。

        圖7 不同網(wǎng)絡(luò)的PR曲線Fig. 7 Precision of different network

        從表1可以看出,本文提出的MVBYOLO的2個模塊Self-MVFM與BYOLO對行人檢測的精度均有貢獻(xiàn)。結(jié)合提出的2個模塊,行人檢測的精度得到更好的提升,與YOLOv2相比,AP值提高了3.34%,與YOLOv3相比,AP值提高了2.89%。

        表1 不同網(wǎng)絡(luò)在VOC數(shù)據(jù)集上的AP值Table 1 AP of different network in the VOC dataset

        本文網(wǎng)絡(luò)在真實場景下采集的240張圖像上進(jìn)行了檢測,從中挑選了在2種不同真實場景下拍攝的圖像進(jìn)行展示,圖8為檢測結(jié)果。

        從圖8可以看出,在相同場景下,與YOLOv3網(wǎng)絡(luò)相比,本文能檢測出更多的行人。

        圖8 不同網(wǎng)絡(luò)的行人檢測結(jié)果Fig. 8 Pedestrian detection results for different network

        4 結(jié)束語

        本文提出的MVBYOLO行人檢測模型,通過Self-MVFM進(jìn)行自監(jiān)督多視角信息融合,之后利用平衡的YOLOv3網(wǎng)絡(luò),準(zhǔn)確地進(jìn)行復(fù)雜場景下車輛前方小尺寸行人檢測,提高行人檢測的效率。本文在VOC2007test做測試,AP 值達(dá)到80.14,與原YOLOv3網(wǎng)絡(luò)相比,檢測精度提高了2.89%,取得較好的實驗結(jié)果。但檢測性能還有待優(yōu)化。下一步研究工作主要針對2點:1) 優(yōu)化損失函數(shù),使模型更快收斂;2) 將多視角行人檢測模型作為動作識別的數(shù)據(jù)預(yù)處理模型,將預(yù)測的行人檢測框直接輸入骨架提取網(wǎng)絡(luò),降低后續(xù)骨架提取任務(wù)的難度。

        猜你喜歡
        特征融合檢測
        村企黨建聯(lián)建融合共贏
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        国产91精品清纯白嫩| 亚洲天堂2017无码中文| 女同恋性吃奶舌吻完整版| 国产av一区二区三区国产福利| 成人av毛片免费大全| 无码人妻aⅴ一区二区三区| 亚洲依依成人亚洲社区| 久久精品熟女不卡av高清| 国产特黄a三级三级三中国| 无套内射在线无码播放| 国精品无码一区二区三区在线| 亚洲制服无码一区二区三区| av网站免费在线不卡| 国产成人自拍高清在线| 久久精品麻豆日日躁夜夜躁| 久草国产视频| 蜜桃av噜噜噜一区二区三区| 久久综合久久美利坚合众国| 男同gay毛片免费可播放| 久久免费视亚洲无码视频| 国产高清不卡二区三区在线观看 | 亚洲成人一区二区av| 国内精品久久久久国产盗摄| 精品少妇人妻av免费久久久| 激情文学人妻中文字幕| 男女主共患难日久生情的古言 | 久久99精品久久久久久hb无码| 国产美女a做受大片免费| 青青草好吊色在线观看| 亚洲啪av永久无码精品放毛片| 国产女人18一级毛片视频| 日韩精品一级在线视频| 欧美牲交a欧美牲交aⅴ免费下载 | 一区二区三区精品免费| 日本午夜精品一区二区三区电影| 欧美午夜刺激影院| 国产成人综合亚洲国产| 激情综合婷婷色五月蜜桃| 成人做爰视频www| 天堂av无码大芭蕉伊人av孕妇黑人 | 国产美女爽到喷出水来视频|