亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于先驗顯著性信息的道路場景目標(biāo)檢測

        2023-11-20 10:58:42王鉦棋
        計算機(jī)工程與應(yīng)用 2023年21期
        關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)卷積顯著性

        王鉦棋,邵 潔

        上海電力大學(xué) 電子與信息工程學(xué)院,上海 201306

        道路場景目標(biāo)檢測指對道路上的行人、車輛進(jìn)行定位和識別,是自動駕駛技術(shù)中的核心算法之一。在車輛行駛途中,準(zhǔn)確地定位和識別道路目標(biāo),可以為車輛提供路況信息,幫助車輛做出決策,保障車輛的行駛安全。

        隨著深度學(xué)習(xí)的快速發(fā)展,道路場景目標(biāo)檢測取得了巨大的進(jìn)步。但是基于計算機(jī)視覺的道路場景目標(biāo)檢測算法也面臨諸多困難,總結(jié)為以下幾個方面:(1)汽車行駛途中路況復(fù)雜,難以精準(zhǔn)地檢測到目標(biāo);(2)道路上的目標(biāo)種類較多,目標(biāo)邊框的大小差異明顯;(3)檢測信息需要及時地傳輸回汽車的控制系統(tǒng)輔助汽車做出判斷,對算法的推理速度要求較高。

        目前主流的目標(biāo)檢測算法主要分為兩類。一類是雙階段目標(biāo)檢測,先預(yù)測出可能存在檢測目標(biāo)的區(qū)域再對預(yù)測出的區(qū)域進(jìn)行分類和位置回歸并計算得到檢測框,經(jīng)典模型包括Faster RCNN[1]、Mask-RCNN[2]、Cascade-RCNN[3]等。Bhargava[4]提出了一種跨域的Faster RCNN[1]模型,針對每個域設(shè)計了單獨的分類器/檢測器,多種不同的信息交互,豐富特征信息,增強(qiáng)了網(wǎng)絡(luò)的泛化能力。Wei 等[5]則在MS-CNN[6]模型的基礎(chǔ)上利用反卷積運(yùn)算并通過融合特征圖的方法提取更豐富的特征信息,提高檢測精度。文獻(xiàn)[7]提出一種融合了語義分割的目標(biāo)檢測框架,將語義分割掩膜與共享層特征融合,增強(qiáng)目標(biāo)特征,減少漏檢和誤檢情況。Shan等[8]將無監(jiān)督循環(huán)一致性生成對抗網(wǎng)絡(luò)CycleGAN[9]與Faster RCNN[1]網(wǎng)絡(luò)結(jié)合,利用CycleGAN[9]網(wǎng)絡(luò)生成與晴朗白天的圖像對應(yīng)的夜晚圖像,設(shè)計了一種端到端的訓(xùn)練方式,通過融合不同域的信息,增強(qiáng)網(wǎng)絡(luò)的泛化能力,提高檢測精度。 雙階段目標(biāo)檢測方法雖然能達(dá)到較高的精度,但檢測速度較慢,無法滿足道路目標(biāo)檢測任務(wù)實時檢測的要求。

        另一類是單階段目標(biāo)檢測,不需要對候選區(qū)域進(jìn)行預(yù)測,而是通過一個統(tǒng)一的CNN 網(wǎng)絡(luò)完成目標(biāo)的定位等一系列運(yùn)算,因此擁有比雙階段方法更快的檢測速度,標(biāo)志性模型有YOLO V3[10]、SSD[11]和YOLO V4[12]等。Wu 等[13]將交通目標(biāo)檢測、可駕駛區(qū)域分割和車道檢測三個任務(wù)同時整合在一個YOLO V4網(wǎng)絡(luò)上,分別構(gòu)建三個解碼器處理不同的任務(wù)并成功將模型移植到嵌入式設(shè)備上。類似的,Vu等[14]構(gòu)建了一種多任務(wù)融合網(wǎng)絡(luò),利用兩個獨立的解碼器處理不同的任務(wù)。單階段方法的優(yōu)勢是檢測速度較快,能夠?qū)崿F(xiàn)目標(biāo)的實時檢測但是檢測精度低于雙階段方法。

        道路場景復(fù)雜,目標(biāo)大小不一,種類繁多,有大量的無關(guān)因素對網(wǎng)絡(luò)的檢測產(chǎn)生影響,因此道路目標(biāo)檢測的難點在于:如何排除無關(guān)物體的干擾,在復(fù)雜的場景中準(zhǔn)確地檢測到目標(biāo)類。目前YOLO 系列最新提出的YOLO V5網(wǎng)絡(luò)在COCO數(shù)據(jù)集上達(dá)到了檢測精度和檢測速度的平衡,在實現(xiàn)較高檢測速度的同時還能保證檢測精度,但是在道路場景下YOLO V5網(wǎng)絡(luò)在處理形狀相近的目標(biāo)(如自行車和摩托車)和密集目標(biāo)時檢測效果并不理想。

        針對在道路場景目標(biāo)檢測任務(wù)中YOLO V5 網(wǎng)絡(luò)特征提取不充分導(dǎo)致的漏檢誤檢情況,提出一種利用顯著性信息增強(qiáng)檢測效果的道路目標(biāo)檢測網(wǎng)絡(luò),將顯著性信息與卷積層特征融合,增強(qiáng)目標(biāo)的位置信息,提高檢測準(zhǔn)確率,解決漏檢誤檢問題。同時采用檢測速度都較高的YOLO V5s模型作為主干網(wǎng)絡(luò),更好地滿足了道路目標(biāo)檢測的實時性要求。

        本文的主要貢獻(xiàn)如下:

        (1)提出了一種語義先驗信息融合的方法。利用語義先驗信息生成顯著性圖像,為網(wǎng)絡(luò)提供空間上的位置信息,有效增強(qiáng)了目標(biāo)特征,抑制了背景信息的干擾,提高了檢測的準(zhǔn)確率。

        (2)針對引入的顯著性信息,提出了一種有效的網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)在融合顯著性信息時仍保持原有的網(wǎng)絡(luò)特性。通過消融實驗證明在原始YOLO V5s 網(wǎng)絡(luò)中有效的即插即用模塊(CBAM)在新的模型中依然有效,并未因為網(wǎng)絡(luò)結(jié)構(gòu)的改變影響模型的整體穩(wěn)定性。

        (3)在Cityscapes 數(shù)據(jù)集中,對于7 類常見目標(biāo)物(汽車、自行車、行人、騎手、摩托車、公交車、卡車)本文改進(jìn)的Sa-YOLO V5s模型與YOLO V5s相比mAP_0.5提高了0.083,mAP_0.5:0.95提高了0.067;與BshapeNet+[15]模型相比mAP_0.5 提高了0.024:與DIDN[16]模型相比,mAP_0.5提高了0.072,在Cityscapes數(shù)據(jù)集上達(dá)到SOTA(state of the art)。在推理速度方面達(dá)到了33 FPS,滿足實時檢測的要求。

        1 本文算法

        本文提出的Sa-YOLO V5s 道路目標(biāo)檢測框架基于YOLO V5s 算法,首先對顯著性信息提取模塊(SaBlock)進(jìn)行講解,其次介紹了針對引入的顯著性信息構(gòu)建的一種新的網(wǎng)絡(luò)結(jié)構(gòu)。Sa-YOLO V5s網(wǎng)絡(luò)結(jié)構(gòu)框架如圖1所示。

        圖1 Sa-YOLO V5s網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Sa-YOLO V5s network structure

        1.1 顯著性信息提取模塊(SaBlock)

        顯著性目標(biāo)檢測主要通過劃分前景和背景,檢測出顯著性場景中最具吸引力的物體,已經(jīng)被廣泛地應(yīng)用于圖像分類[17-18]、語義分割[19-20]、機(jī)器人導(dǎo)航[21]等方向。在道路目標(biāo)檢測任務(wù)中,人眼通常最關(guān)注的是道路上的行人和車輛,因此本文將私家車、行人、公交車等7類常見目標(biāo)設(shè)置為顯著性目標(biāo)。

        1.1.1 語義分割網(wǎng)絡(luò)SaNet

        為了分割前景和背景從而提取出圖片的顯著性信息,本文參考文獻(xiàn)[22]設(shè)計了語義分割網(wǎng)絡(luò)SaNet,該網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖2 SaNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 SaNet network structure

        在車輛行駛過程中需要實時的對道路上的目標(biāo)進(jìn)行檢測,因此選擇處理速度更快,參數(shù)量更少的全卷積結(jié)構(gòu)作為SaNet 的網(wǎng)絡(luò)結(jié)構(gòu)。SaNet 由6 個3×3 卷積和一個8×8 卷積組成,為了保證圖像尺寸不變,除最后一層卷積外,在所有的卷積層執(zhí)行padding 補(bǔ)0 操作。在每一個3×3卷積后都添加批量歸一化(batch normalization,BN)層和激活函數(shù)(rectified linear unit,ReLu),在最后一層卷積對輸出值進(jìn)行L2標(biāo)準(zhǔn)化(L2 normalized),用以生成具有128 維單位長度的描述符進(jìn)行損失函數(shù)計算。

        利用SaNet對Cityscapes數(shù)據(jù)集中的19類目標(biāo)進(jìn)行逐像素預(yù)測。通過歸一化指數(shù)(Softmax)層將每個類的得分映射到(0,1)區(qū)間內(nèi)得到每個像素屬于類的概率,再從所有的類中取出道路上常見的7類目標(biāo),將其合并為前景,剩余的類別作為背景得到顯著性圖片。圖3中從左往右依次是原始圖片、逐像素語義標(biāo)記的顯著性標(biāo)簽和預(yù)測得到的顯著性圖片。比較圖3(b)和圖3(c)可以看到利用SaNet 網(wǎng)絡(luò)可以較為清楚地預(yù)測出目標(biāo)物體。由于顯著性圖片只是用來輔助檢測,為卷積特征提供顯著性信息,因此對于一些難以檢測的小目標(biāo)不需要對其形狀進(jìn)行精準(zhǔn)預(yù)測,只需要確定大概范圍并勾勒出基本輪廓,就可以幫助網(wǎng)絡(luò)獲取其位置信息增強(qiáng)網(wǎng)絡(luò)的檢測能力。

        圖3 基于SaNet生成的顯著性圖片F(xiàn)ig.3 Saliency pictures generated based on SaNet

        經(jīng)過淺層卷積輸出的特征圖具有較高的空間分辨率,包含更多像素信息,深層卷積產(chǎn)生的特征圖具有豐富的語義信息,但是會損失部分位置信息。因此將SaNet生成的顯著性圖像進(jìn)行下采樣后與不同尺度的卷積特征融合,使得顯著性信息與卷積特征充分結(jié)合,幫助特征提取網(wǎng)絡(luò)更好的定位目標(biāo),增強(qiáng)對目標(biāo)的特征提取能力。

        1.1.2 損失函數(shù)

        在SaNet網(wǎng)絡(luò)中,使用了一種基于尺度不變特征轉(zhuǎn)換(scale-invariant feature transform,SIFT)的度量損失[23]。該目標(biāo)函數(shù)模仿SIFT的匹配規(guī)則,生成n對有著相同特征點的匹配對X=(A1,P1,A2,P2,…,An,Pn)并通過描述符構(gòu)建它們之間的距離矩陣,分別尋找與A最相近的不匹配塊以及與P最相近的不匹配塊,選出距離更小的不匹配塊作為負(fù)樣本,分別得到匹配對(A,P)的描述符和負(fù)樣本N的描述符,利用三元損失函數(shù)計算損失。具體計算過程如下:

        在該損失函數(shù)的計算過程中,min(d(ai,pjmin),d(akmin,pi))已經(jīng)預(yù)先計算得到了,因此與隨機(jī)三元損失函數(shù)相比,只需要進(jìn)行距離矩陣的計算和最小值的計算,大大地減少了計算開銷,提高了程序運(yùn)行速度。

        1.2 融合顯著性信息的網(wǎng)絡(luò)結(jié)構(gòu)

        1.2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        如圖1所示,為了在不改變原有網(wǎng)絡(luò)特性的基礎(chǔ)上更好地融合顯著性信息,構(gòu)建了一種新的Sa-YOLO V5s網(wǎng)絡(luò)。

        該網(wǎng)絡(luò)主體部分由顯著性信息提取模塊(SaBlock)和YOLO V5s 特征提取網(wǎng)絡(luò)(backbone)組成。將網(wǎng)絡(luò)讀取到的圖片,同時輸入顯著性信息提取模塊和特征提取網(wǎng)絡(luò),在顯著性信息提取模塊中使用語義分割網(wǎng)絡(luò)(SaNet)提取圖片中的語義信息,生成顯著性圖像,獲得圖片的空間信息;在特征提取網(wǎng)絡(luò)中利用卷積層和殘差結(jié)構(gòu)充分提取圖片的全局特征。為了更充分地利用顯著性信息,對顯著性信息提取模塊生成的顯著性圖像進(jìn)行雙線性插值下采樣。將顯著性圖像下采樣到不同尺寸,與多種尺度的卷積特征融合,為特征圖提供空間上的注意力,幫助網(wǎng)絡(luò)更好地確定目標(biāo)所在的區(qū)域。

        為了驗證顯著性信息提取模塊并未影響模型的整體穩(wěn)定性,新的網(wǎng)絡(luò)結(jié)構(gòu)還保持原始網(wǎng)絡(luò)的結(jié)構(gòu)特性。使用即插即用的注意力模塊(CBAM)對Sa-YOLO Vs網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)穩(wěn)定性測試。

        1.2.2 網(wǎng)絡(luò)穩(wěn)定性測試

        Woo 等[24]提出了一種包含通道注意力和空間注意力的卷積注意力網(wǎng)絡(luò)(convolutional block attention module,CBAM),其中通道注意力模塊(channel attention module,CAM)對于輸入的特征圖,首先采用進(jìn)行基于寬(W)和高(H)的全局最大池化(global max pooling)和全局平均池化(global average pooling)操作提取通道特征,將得到的兩個1×1×C的特征圖送入一個兩層的多層感知機(jī)(multilayer perceptron,MLP)。而后,將MLP輸出的特征進(jìn)行加和操作,再經(jīng)過激活函數(shù)(sigmoid),生成最終的通道注意力特征,具體結(jié)構(gòu)如圖4。

        圖4 通道注意力模塊Fig.4 Channel attention module

        空間注意力模塊(spartial attention module,SAM)對于輸入的特征圖,分別采用基于通道的全局最大池化(global max pooling)和全局平均池化(global average pooling)操作,得到兩個H×W×1 的特征圖,然后對這2個特征圖進(jìn)行通道拼接(ConCat)通過一個7×7 卷積操作,降維為1 個通道,即H×W×1。再經(jīng)過激活函數(shù)(sigmoid),生成空間注意力特征,具體結(jié)構(gòu)如圖5。

        借著老婆和閨密們沒完沒了地煲電話粥的機(jī)會,我又仔細(xì)地想了下王姐這個人,雖說現(xiàn)在還談不上什么了解,至少也該對她有個評價了,那就是這個女人不尋常。雖說套用樣板戲的臺詞,但絕對沒有貶意。

        圖5 空間注意力模塊Fig.5 Spatial attention module

        將CBAM注意力模塊添加到每個C3模塊的后面如圖1所示,分別訓(xùn)練原始YOLO V5s網(wǎng)絡(luò)和融合了顯著性信息的Sa-YOLO V5s網(wǎng)絡(luò),結(jié)果如表1所示。

        表1 網(wǎng)絡(luò)穩(wěn)定性測試Table 1 Network stability test

        從表中可以看到在添加了CBAM 模塊后,原始的YOLO V5s 網(wǎng) 絡(luò) 在Cityscapes 數(shù) 據(jù) 集 上mAP_0.5 和mAP_0.5:0.95 分別提高了0.016 和0.009。引入顯著性信息的YOLO V5s 網(wǎng)絡(luò)在添加了CBAM 模塊后mAP_0.5和mAP_0.5:0.95分別提高了0.015和0.007。

        CBAM 模塊在原始YOLO V5s 網(wǎng)絡(luò)上的效果要略好于引入了顯著性信息的YOLO V5s 網(wǎng)絡(luò)這是因為顯著性信息本身就包含了位置信息,為網(wǎng)絡(luò)提供了空間上的注意力,因此CBAM 模塊中的空間注意力模塊難以再向網(wǎng)絡(luò)提供更豐富的空間信息,導(dǎo)致對網(wǎng)絡(luò)效果的提升不如原始的在原始的YOLO V5s網(wǎng)絡(luò)上明顯。

        由表1可以得到結(jié)論:在本文提出的針對引入的顯著性信息設(shè)計的新的網(wǎng)絡(luò)結(jié)構(gòu)中即插即用的CBAM模塊依然有效,網(wǎng)絡(luò)特性并未因結(jié)構(gòu)的改變而改變。在添加了顯著性信息提取模塊后網(wǎng)絡(luò)依舊保持原有的穩(wěn)定性。

        2 實驗及結(jié)果分析

        將改進(jìn)后的算法應(yīng)用在CityScape 數(shù)據(jù)集上,并與文獻(xiàn)[15]提出的BshapeNet+算法、文獻(xiàn)[16]提出的DIDN算法和原始YOLO V5s 算法進(jìn)行對比實驗。本文主要選取道路上常見的7 類物體作為目標(biāo)包括汽車、自行車、行人、騎手、摩托車、公交車、卡車。

        2.1 實驗設(shè)置

        采用道路場景數(shù)據(jù)集Cityscapes 進(jìn)行訓(xùn)練,包含從50個不同城市的街景中記錄的各種立體視頻序列。本文選取5 000幀像素級注釋作為數(shù)據(jù)集,其中包括2 975張訓(xùn)練圖、500 張驗證圖和1 525 張測試圖,每張圖片大小都是1 024×2 048。

        實驗環(huán)境使用Windows 操作系統(tǒng),顯卡為Nvidia RTX3080,顯存大小為10 GB,CUDA 版本11.0,cuDNN版本8.0.5,Pytorch 版本為1.9.0,編譯語言為Python3.8,總迭代次數(shù)為40次,迭代批量大小設(shè)置為18,優(yōu)化器選擇SGD。

        2.2 評估指標(biāo)與模型訓(xùn)練

        式中,TP 是正確檢驗個數(shù)、FP 是誤檢個數(shù)、FN 是漏檢個數(shù)。AP 為P-R 所圍成的曲線面積,N是檢測類別,mAP 是所有類別AP 的均值。mAP 的值越大檢測效果越好。

        在訓(xùn)練過程中為了解決遮擋物體檢測困難的問題,本文將NMS非極大值抑制算法修改為式(5)所示,用來剔除多余的目標(biāo)框,其中通過DIoU[25]判斷是否為同一物體的預(yù)測框。

        本文采用的DIoU計算方法在原始的IoU計算過程中增加了對不同目標(biāo)框中心點距離的計算,如式(6)所示:

        從圖6中可以看到黑色框與綠色框是兩個不同物體的預(yù)測框,分別記為A,B?;疑摼€的外框是同時包住預(yù)測框A和預(yù)測框B的最小方框,其中c是外框?qū)蔷€的長度,d是A框中心點與B框中心點的距離即式(10)中的ρ(A,B)。在計算DIoU時首先通過式(11)得到兩個預(yù)測框之間的IoU(交并比)值,然后計算中心點距離d與對角線距離c的比值,最后用IoU減去比值得到DIoU。

        圖6 不同種類目標(biāo)的預(yù)測框A和預(yù)測框BFig.6 Prediction box A and prediction box B for different types of objects

        DIoU綜合考慮了兩個預(yù)測框之間的重疊率和中心點距離,當(dāng)出現(xiàn)兩個不同種類預(yù)測框距離很近時,DIoU可以同時保留兩個預(yù)測框,減少漏檢率。

        如圖7 所示,在訓(xùn)練過程中本文改進(jìn)的Sa-YOLO V5s 隨著模型收斂,驗證集mAP 穩(wěn)定上升。mAP 在閾值為0.5和閾值為0.5∶0.95的情況下都明顯高于原始的YOLO V5s。在第10個epoch左右mAP值有些許下降,這是由于采用了Warmup預(yù)熱訓(xùn)練,學(xué)習(xí)率變化導(dǎo)致的訓(xùn)練誤差增大,隨著后續(xù)學(xué)習(xí)率的調(diào)整,模型逐漸達(dá)到收斂狀態(tài)。

        圖7 驗證集mAP曲線Fig.7 Mean average precision curve on validation set

        2.3 消融實驗

        為了驗證模型的有效性,在Cityscapes 數(shù)據(jù)集上進(jìn)行消融實驗。表2比較了Sa-YOLO V5s模型中不同組件對模型效果的影響。消融實驗以YOLO V5s 模型為基礎(chǔ),統(tǒng)一輸入大小為320×640 的圖片,評估指標(biāo)為mAP_0.5和mAP_0.5:0.95。

        表2 在CityScape數(shù)據(jù)集上測試每個組件的消融實驗Table 2 Ablation experiment of each component on CityScapes dataset

        從表2 可以看到在添加了顯著性信息后mAP 值得到大幅提升其中mAP_0.5 增加0.032,mAP_0.5:0.95 增加0.027;CBAM注意力模塊也對結(jié)果有小幅提升;而針對非極大值抑制(NMS)算法的改進(jìn)同樣極大地提高了mAP 值。經(jīng)過分析后認(rèn)為DIoU-NMS 之所以可以大幅提高檢測的準(zhǔn)確率是因為道路場景中包含大量待檢測目標(biāo),因此遮擋情況頻繁出現(xiàn)。

        DIoU-NMS 算法同時參考了不同預(yù)測框的IoU 值和中心點距離,成功避免了因遮擋導(dǎo)致的漏檢,從而顯著增強(qiáng)了網(wǎng)絡(luò)的檢測能力。

        2.4 實驗結(jié)果分析

        如表3 所示,比較了原始YOLO V5s 網(wǎng)絡(luò),改進(jìn)的Sa-YOLO V5s網(wǎng)絡(luò)、BshapeNet+網(wǎng)絡(luò)以及DIDN網(wǎng)絡(luò)在CityScapes數(shù)據(jù)集上的表現(xiàn),評估指標(biāo)為mAP_0.5。

        表3 不同算法性能對比結(jié)果Table 3 Performance comparison results of different algorithms

        (1)從表3 中可以看出,與原始的YOLO V5s 模型相比,本文提出的Sa-YOLO V5s 方法mAP_0.5 提高了0.083,在大多數(shù)類上都取得了較好的效果。即使是在外觀上高度相似的“自行車”和“摩托車”類別上也有了顯著的改進(jìn),這表明Sa-YOLO V5s 網(wǎng)絡(luò)可以過濾無關(guān)噪聲的干擾,提取物體更細(xì)節(jié)的特征。

        (2)結(jié)合圖8 中的標(biāo)簽數(shù)量分布可以看到雖然“公交車”“卡車”只有少量注釋,但其性能相比YOLO V5s也得到了顯著的提高。這是因為SaBlock和注意力模塊幫助網(wǎng)絡(luò)更好地注意到目標(biāo)的位置,從而使得網(wǎng)絡(luò)在處理圖片的時候在目標(biāo)位置投入更多的精力。在“卡車”類上YOLO V5s 和Sa-YOLO V5s 網(wǎng)絡(luò)的表現(xiàn)均不如DIDN網(wǎng)絡(luò),這與DIDN網(wǎng)絡(luò)的訓(xùn)練方式有關(guān)。DIDN網(wǎng)絡(luò)在訓(xùn)練過程中引入了Foggy Cityscapes,BDD100k等多個不同的數(shù)據(jù)集,大大增加了“卡車”類標(biāo)簽的數(shù)量,從而獲得了更好的效果。

        圖8 CityScapes數(shù)據(jù)集中的標(biāo)簽分布Fig.8 Label distribution in CityScapes dataset

        (3)在所有的類別中,只有在“行人”類中Sa-YOLO V5s網(wǎng)絡(luò)的表現(xiàn)不如基礎(chǔ)的YOLO V5s網(wǎng)絡(luò)。在對數(shù)據(jù)集進(jìn)行分析后,這一現(xiàn)象的產(chǎn)生是多種因素共同作用的結(jié)果?!靶腥恕鳖惖哪繕?biāo)框較小,而為了加快網(wǎng)絡(luò)的處理速度,本文在輸入時將尺寸為1 024×2 048 的圖片下采樣為320×640的大小,損失了一部分信息。因此在利用SaBlock對圖片的顯著性信息進(jìn)行提取時有一定的概率將“行人”目標(biāo)誤判為無關(guān)的背景類,最終拉低了檢測效果。

        最后,結(jié)合所有類的AP值和最終的mAP值,Sa-YOLO V5s算法在Cityscapes數(shù)據(jù)集上的效果好于所有目前已知的目標(biāo)檢測算法。其中mAP_0.5達(dá)到了0.548,mAP_0.5:0.95達(dá)到了0.324,檢測速度達(dá)到了33 FPS滿足了實時檢測的要求,在CityScapes數(shù)據(jù)集上實現(xiàn)SOTA。

        3 結(jié)語

        本文提出了一種基于顯著性信息改進(jìn)的Sa-YOLO V5s 網(wǎng)絡(luò),以CityScapes 為數(shù)據(jù)集,以YOLO V5s 為基礎(chǔ),提出了一種語義先驗信息的融合方法,利用語義信息生成顯著性圖像,為網(wǎng)絡(luò)提供空間上的注意力。針對提出的方法設(shè)計了一種有效的網(wǎng)絡(luò)結(jié)構(gòu),在保持網(wǎng)絡(luò)穩(wěn)定性的同時,充分利用顯著性信息,通過實驗證明新的網(wǎng)絡(luò)結(jié)構(gòu)依然保持原網(wǎng)絡(luò)的網(wǎng)絡(luò)特性;使用DIoU-NMS算法過濾多余的預(yù)測框,有效地減少了漏檢誤檢的概率。

        實驗結(jié)果證明,改進(jìn)后的方法在CityScapes數(shù)據(jù)集上相比原始網(wǎng)絡(luò)mAP_0.5和mAP_0.5:0.95分別提高了0.083和0.067,檢測速度也達(dá)到了33 FPS,滿足實時檢測的條件。

        下一步的工作準(zhǔn)備在本文的算法基礎(chǔ)上增強(qiáng)網(wǎng)絡(luò)的魯棒性和泛化能力,繼續(xù)改進(jìn)顯著性提取模塊Sa-Block,避免在處理小目標(biāo)時出現(xiàn)誤判成背景的情況,降低小目標(biāo)檢測的漏檢率。將網(wǎng)絡(luò)部署到移動端,與實際應(yīng)用場景中結(jié)合,以更好地滿足日常生活的實際需求。

        猜你喜歡
        網(wǎng)絡(luò)結(jié)構(gòu)卷積顯著性
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于顯著性權(quán)重融合的圖像拼接算法
        電子制作(2019年24期)2019-02-23 13:22:26
        基于視覺顯著性的視頻差錯掩蓋算法
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        一種基于顯著性邊緣的運(yùn)動模糊圖像復(fù)原方法
        論商標(biāo)固有顯著性的認(rèn)定
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
        滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
        大地资源网最新在线播放| 日本饥渴人妻欲求不满| 精品国产免费一区二区三区| 五月天激情婷婷婷久久| 亚洲av成人一区二区三区网址| 亚洲中文字幕一区高清在线 | 99精品国产一区二区三区| 欧美精品亚洲精品日韩专区 | 亚洲午夜看片无码| 亚洲综合久久中文字幕专区一区| 日日麻批免费40分钟无码| 爱情岛永久地址www成人| 欧美性爱一区二区三区无a| 亚洲av永久一区二区三区| 免费观看a级片| 久久亚洲中文字幕无码| 少妇特殊按摩高潮惨叫无码 | 亚洲精品乱码久久久久久不卡| 日本欧美视频在线观看| 啪啪网站免费观看| 日本不卡视频一区二区三区| 一区二区三区视频| 亚洲成aⅴ人在线观看| 亚洲av偷拍一区二区三区| 亚洲av区,一区二区三区色婷婷| 久久综合狠狠色综合伊人| 久久半精品国产99精品国产 | 日本无码欧美一区精品久久 | 中文字幕午夜精品一区二区三区| 午夜精品久久久久久久99热| 亚洲肥老太bbw中国熟女| 蜜臀av人妻一区二区三区| 大陆老熟女自拍自偷露脸| 无码毛片视频一区二区本码| 亚洲精品成人av观看| 亚洲av手机在线播放| 野外亲子乱子伦视频丶| 久久亚洲国产中v天仙www| 少妇呻吟一区二区三区| 欧美成人www在线观看| 亚洲熟妇无码av不卡在线播放 |