徐小偉 邢 凱 趙浩蘇 梁 科
1(中國(guó)科學(xué)技術(shù)大學(xué)軟件學(xué)院 江蘇 蘇州 215123)2(中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 安徽 合肥 230026)3(西安鐵路信號(hào)有限責(zé)任公司 陜西 西安 710054)
隨著物聯(lián)網(wǎng)和人工智能的快速發(fā)展,各類智能設(shè)備在生產(chǎn)生活中開(kāi)始扮演重要角色,如自動(dòng)駕駛汽車、服務(wù)機(jī)器人、工業(yè)機(jī)器人等。這些智能設(shè)備的視覺(jué)感知尤其是物體識(shí)別能力,在其對(duì)周圍環(huán)境感知學(xué)習(xí)的過(guò)程中往往會(huì)起到關(guān)鍵作用。這促使機(jī)器視覺(jué)尤其是物體識(shí)別研究成為當(dāng)前重要研究方向之一。
基于機(jī)器視覺(jué)的物體識(shí)別是指利用計(jì)算機(jī)視覺(jué)、模式識(shí)別等技術(shù),自動(dòng)識(shí)別視覺(jué)中存在的一個(gè)或多個(gè)物體,廣義擴(kuò)展的話還包括對(duì)物體進(jìn)行圖像區(qū)域和空間定位等?;跈C(jī)器視覺(jué)的物體識(shí)別研究從最早的模板匹配[1]、Booting算法[2-4]、支持向量機(jī)[5]發(fā)展到現(xiàn)在所廣泛使用的深層神經(jīng)網(wǎng)絡(luò)方法[6],其圖像特征抽取方式也從傳統(tǒng)的手工設(shè)定到基于模型的半自動(dòng)化提取[7-13],演變?yōu)槿缃竦淖詣?dòng)學(xué)習(xí)方法[14-20]。
隨著計(jì)算機(jī)算力的大幅度提升和大規(guī)模數(shù)據(jù)資源的成熟可用,基于深度學(xué)習(xí)的機(jī)器視覺(jué)物體識(shí)別技術(shù)發(fā)展迅速,其在現(xiàn)有的大規(guī)模數(shù)據(jù)集上,如ImageNet[21]、PASCAL VOC[22]、Microsoft COCO[23],均取得了較好的識(shí)別效果。深度學(xué)習(xí)網(wǎng)絡(luò)按使用途徑一般可分為:(1) 直接訓(xùn)練并識(shí)別,在待分類的數(shù)據(jù)集上直接訓(xùn)練一個(gè)深層神經(jīng)網(wǎng)絡(luò),例如VGG-16[24],GoogleNet[25]等;(2) 特征抽取+組合模型,深度學(xué)習(xí)網(wǎng)絡(luò)用作特征提取器,在已訓(xùn)練好的網(wǎng)絡(luò)上提取特征,提取的特征可以用做其他的后續(xù)操作。
近年來(lái)隨著物體識(shí)別領(lǐng)域的新技術(shù)不斷涌現(xiàn),新的研究問(wèn)題也不斷被提出。其中一個(gè)吸引了眾多研究者注意的問(wèn)題是,生產(chǎn)生活環(huán)境中各種光線干擾和復(fù)雜背景干擾,如自動(dòng)駕駛中來(lái)往汽車遠(yuǎn)光燈干擾等,會(huì)對(duì)物體識(shí)別的準(zhǔn)確性和健壯性帶來(lái)極大挑戰(zhàn)。如果要讓智能設(shè)備參與到人們生產(chǎn)生活中的各種場(chǎng)景,其必須擁有認(rèn)識(shí)所處環(huán)境的能力。那么如何解決各種光線干擾/復(fù)雜背景干擾下物體識(shí)別的準(zhǔn)確性和健壯性,是當(dāng)前基于機(jī)器視覺(jué)的物體識(shí)別領(lǐng)域亟需解決的問(wèn)題。
同時(shí),考慮到視覺(jué)/光線干擾和復(fù)雜背景干擾的場(chǎng)景紛繁復(fù)雜,建立這樣一個(gè)數(shù)據(jù)集所需要的數(shù)據(jù)量會(huì)大大超過(guò)ImageNet,從成本、時(shí)間和可行性上都具有極大挑戰(zhàn)。本文的研究目標(biāo)是,如何在強(qiáng)光干擾/復(fù)雜背景干擾環(huán)境下,在不額外增加海量干擾環(huán)境訓(xùn)練數(shù)據(jù)的前提下,實(shí)現(xiàn)健壯的、高準(zhǔn)確率的物體識(shí)別。
目前在強(qiáng)光干擾/復(fù)雜背景干擾下的物體識(shí)別研究工作主要是基于注意力的細(xì)微特征區(qū)分和基于多視角的目標(biāo)檢測(cè)。注意力機(jī)制[26-27]往往用來(lái)區(qū)分細(xì)微特征,這在解決背景干擾問(wèn)題中具有重要意義,但是并沒(méi)有證據(jù)表明其適用于強(qiáng)光干擾環(huán)境。多視角技術(shù)[28-29]一定程度上可以解決強(qiáng)光干擾、視角變化、背景淹沒(méi)導(dǎo)致物體識(shí)別準(zhǔn)確率下降的問(wèn)題,但目前這個(gè)方向的研究多聚焦于特定目標(biāo)檢測(cè),不適用于通用物體識(shí)別。理論上通過(guò)擴(kuò)展目標(biāo)種類的訓(xùn)練數(shù)據(jù)集可以解決干擾問(wèn)題。然而,考慮到物體種類、背景干擾場(chǎng)景和強(qiáng)光干擾場(chǎng)景的多樣、復(fù)雜性,制備一個(gè)完備的用于訓(xùn)練和測(cè)試各類干擾場(chǎng)景下各類物體識(shí)別的數(shù)據(jù)集是極其困難的。
本文根據(jù)仿生學(xué)的進(jìn)展[30-33],借鑒了生物復(fù)眼視覺(jué)系統(tǒng)具有多子眼、子眼結(jié)構(gòu)簡(jiǎn)單、三維信息豐富的特點(diǎn),提出了一種基于多目視覺(jué)交叉注意的物體識(shí)別方法。該方法基于子眼間的交叉注意提高物體識(shí)別準(zhǔn)確率,并對(duì)識(shí)別結(jié)果存在潛在沖突的多目數(shù)據(jù)進(jìn)行全局融合,有效解決了強(qiáng)光、背景等干擾問(wèn)題。
本文貢獻(xiàn)如下:
(1) 提出了一種不需要構(gòu)建海量強(qiáng)光/復(fù)雜背景干擾訓(xùn)練/測(cè)試數(shù)據(jù)集,能夠融合現(xiàn)有物體識(shí)別算法和多目視覺(jué)優(yōu)點(diǎn)的物體識(shí)別系統(tǒng),為當(dāng)前強(qiáng)光干擾和復(fù)雜背景干擾場(chǎng)景下的研究推進(jìn),特別是從特定目標(biāo)檢測(cè)到通用物體識(shí)別的研究提供了新的思路;
(2) 提出了一種多目視覺(jué)交叉注意方法,通過(guò)子眼間交叉注意來(lái)提高物體識(shí)別準(zhǔn)確率,提高了在強(qiáng)光、復(fù)雜背景等干擾下物體識(shí)別的準(zhǔn)確率;
(3) 基于證據(jù)融合理論,提出了一種針對(duì)子眼間識(shí)別結(jié)果存在潛在沖突的多目數(shù)據(jù)融合方法,提高了在強(qiáng)光、復(fù)雜背景等干擾下物體識(shí)別的查全率和準(zhǔn)確率;
(4) 實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有物體識(shí)別算法Faster R-CNN,SSD512,YOLOv2相比,本系統(tǒng)能顯著提高在強(qiáng)光、復(fù)雜背景干擾下物體識(shí)別的查全率、準(zhǔn)確率和可信度。
面向強(qiáng)光干擾環(huán)境的多目視覺(jué)的物體識(shí)別的相關(guān)工作劃分為兩個(gè)部分:物體識(shí)別和復(fù)眼系統(tǒng)。
物體類別檢測(cè)一直是計(jì)算機(jī)視覺(jué)的研究熱點(diǎn)。隨著深度學(xué)習(xí)的發(fā)展,傳統(tǒng)的物體識(shí)別算法慢慢退出歷史舞臺(tái)。文獻(xiàn)[34]提出了OverFeat特征提取器,綜合了識(shí)別、定位和檢測(cè)任務(wù),訓(xùn)練了兩個(gè)CNN模型,一個(gè)用于分類,一個(gè)用于定位。OverFeat在輸入圖像上使用滑動(dòng)窗口策略,通過(guò)使用分類CNN模型確定每個(gè)窗口中物體的類別,然后使用相應(yīng)類別的定位CNN模型預(yù)測(cè)物體的候選區(qū)域,并根據(jù)分類得分合并每個(gè)類別的候選區(qū)域獲得最終的檢測(cè)結(jié)果。Ross Girshick提出的R-CNN[35]使用選擇性搜索策略代替滑動(dòng)窗口機(jī)制提高了檢測(cè)效率。R-CNN使用選擇性搜索策略在輸入圖片上選擇若干個(gè)候選區(qū)域,使用CNN對(duì)每個(gè)候選區(qū)域提取特征并輸入到訓(xùn)練好的SVM物體分類器中,以獲得候選區(qū)域?qū)儆诿總€(gè)類別的分?jǐn)?shù),最后通過(guò)非最大抑制方法丟棄部分候選區(qū)域,得到檢測(cè)結(jié)果。受到R-CNN目標(biāo)識(shí)別框架的啟發(fā),Kaiming He提出的SSP-net[26]對(duì)整幅圖像進(jìn)行卷積運(yùn)算,得到整幅圖像的卷積特征,然后根據(jù)原始圖像中每個(gè)候選區(qū)域的位置,提取卷積特征圖中的卷積特征送入分類器。SSP-net解決RCNN需要對(duì)每個(gè)候選區(qū)經(jīng)行卷積的問(wèn)題。在fast-RCNN[27]中,Ross Girshick僅對(duì)候選區(qū)域進(jìn)行標(biāo)準(zhǔn)分割,然后直接降采樣得到特征向圖,將邊框回歸和分類任務(wù)統(tǒng)一到一個(gè)框架中,解決了SSP-net和RCNN網(wǎng)絡(luò)復(fù)雜的訓(xùn)練訓(xùn)過(guò)程同時(shí)提高了識(shí)別精度。Ross Girshick針對(duì)選擇性搜索策略計(jì)算速度慢等問(wèn)題,創(chuàng)建了區(qū)域推薦網(wǎng)絡(luò)替代選擇性搜索算法來(lái)選擇候選區(qū)域,實(shí)現(xiàn)了端到端的計(jì)算,把所有的任務(wù)都統(tǒng)一到深度學(xué)習(xí)的框架下,大大提高了計(jì)算速度和精度,這就有了著名的faster-RCNN[28]物體識(shí)別網(wǎng)絡(luò),其平均識(shí)別精度MAP(mean average precision)高達(dá)73.2%。盡管faster-RCNN物體識(shí)別網(wǎng)絡(luò)在計(jì)算速度方面取得了長(zhǎng)足的進(jìn)步,但仍不能滿足實(shí)時(shí)檢測(cè)的要求。因此,基于回歸的方法直接從圖片中回歸物體的位置和類型被提出。具有代表性的兩種物體識(shí)別網(wǎng)絡(luò)是SSD[18]和YOLO[19]。YOLO暴力的將輸入圖片劃分為7×7個(gè)網(wǎng)格代替區(qū)域推薦網(wǎng)絡(luò),將物體檢測(cè)視為回歸問(wèn)題,使得系統(tǒng)處理時(shí)間得到大幅提升,在GPU上每秒處理45張圖片。SSD使用回歸方法來(lái)檢測(cè)物體,同時(shí)引入Faster R-CNN的archor機(jī)制使物體的分類精度和定位有了很大的提高。
自然界中大多數(shù)昆蟲(chóng)都有一個(gè)或多個(gè)復(fù)眼作為其視覺(jué)器官。復(fù)眼由不定數(shù)量的子眼構(gòu)成,通常位于昆蟲(chóng)的頭部突出位置。不同昆蟲(chóng)的復(fù)眼子眼數(shù)量差別很大,從最少幾個(gè)到最多數(shù)萬(wàn)個(gè)不等。昆蟲(chóng)的敏捷性離不開(kāi)復(fù)眼對(duì)環(huán)境的感知,有些昆蟲(chóng)的視覺(jué)范圍可達(dá)到360度,具有廣闊的視野。成千上萬(wàn)的子眼同時(shí)工作,使其可以快速察覺(jué)周圍環(huán)境的細(xì)微變化,并作出反應(yīng)。學(xué)術(shù)界、工業(yè)界的放聲復(fù)眼分為二維(2D)平面結(jié)構(gòu)和三維(3D)曲面結(jié)構(gòu)[32-33]。在2D平面結(jié)構(gòu)復(fù)眼系統(tǒng)方面,文獻(xiàn)[36]提出的TOMBO復(fù)眼成像系統(tǒng),具有易于組裝、結(jié)構(gòu)緊湊等特點(diǎn)。經(jīng)過(guò)多年的發(fā)展,文獻(xiàn)[37]使用光刻膠技術(shù)制作的微透鏡陣列成功搭建了仿生復(fù)眼成像系統(tǒng)。張洪鑫等[38]提出了單層和三層兩種曲面復(fù)眼成像系統(tǒng),采用三層曲面復(fù)眼成像系統(tǒng)有效提高了邊緣成像質(zhì)量差、視野小等問(wèn)題。Floreano等[39]研究并生產(chǎn)了一種新型仿生復(fù)眼成像系統(tǒng)CurvACE,該系統(tǒng)創(chuàng)造性地利用平面微透鏡陣列來(lái)構(gòu)建曲面復(fù)眼,從而實(shí)現(xiàn)大角度成像,視場(chǎng)角度能夠達(dá)到180°×60°。復(fù)眼在獲取準(zhǔn)確的三維信息問(wèn)題上有著優(yōu)異的表現(xiàn)[32],文獻(xiàn)[40]模擬復(fù)眼功能,使導(dǎo)彈獲得目標(biāo)的三維空間位置信息。復(fù)眼在智能機(jī)器人的視覺(jué)導(dǎo)航中扮演者重要的角色[41]。智能機(jī)器人的視覺(jué)系統(tǒng)可以準(zhǔn)確地感知周圍環(huán)境中物體的位置,因此可順利穿行于有障礙物的環(huán)境中。
當(dāng)前物體識(shí)別研究所用的數(shù)據(jù)集,往往是具有較少干擾的圖像數(shù)據(jù),這就導(dǎo)致了其上訓(xùn)練的物體識(shí)別算法在強(qiáng)光干擾或者復(fù)雜背景干擾下的識(shí)別準(zhǔn)確率會(huì)明顯下降。
本文原理設(shè)計(jì)的出發(fā)點(diǎn)是從生產(chǎn)生活環(huán)境中各種光線干擾和復(fù)雜背景干擾出發(fā),基于多目間豐富的幾何三維信息和各子眼視覺(jué)結(jié)果互為冗余的特點(diǎn),在強(qiáng)光干擾、視角變化、背景淹沒(méi)等情況下提高物體識(shí)別的準(zhǔn)確率和查全率。
本文通過(guò)各子眼的空間幾何關(guān)聯(lián)和立體視覺(jué)來(lái)計(jì)算指定區(qū)域中特征點(diǎn)的空間三維坐標(biāo)和其在不同子眼圖像上的投影。
2.1.1 子眼模型
子眼相機(jī)將三維空間中的坐標(biāo)點(diǎn)(單位mm)映射到二維圖像平面(單位像素),用子眼相機(jī)模型可以對(duì)其建模,子眼相機(jī)投影模型如圖1所示。
圖1 子眼相機(jī)投影模型
空間點(diǎn)P在相機(jī)坐標(biāo)系o-x-y-z中坐標(biāo)設(shè)為[x,y,z],經(jīng)過(guò)小孔投影后落到物理成像平面Z=1上,在像素坐標(biāo)系上的坐標(biāo)為Puv=[u,v],坐標(biāo)關(guān)系為式:
(1)
式中:K為相機(jī)內(nèi)參數(shù)矩陣,為固定值,通過(guò)相機(jī)標(biāo)定可以獲得其值。在歸一化平面Z=1上,點(diǎn)P歸一化的相機(jī)坐標(biāo)為Pc=[X/Z,Y/Z,1]T。
2.1.2 交叉注意機(jī)制
視覺(jué)注意是人類信息加工過(guò)程中的一項(xiàng)重要的信息感知機(jī)制,它能夠?qū)τ邢薜男畔⒓庸べY源進(jìn)行分配,使感知具備選擇能力[42]。人眼的注意力機(jī)制保證了人眼信息獲取的高效性。人眼在從寬視野聚焦到感興趣區(qū)域時(shí),可以觀察到更多的細(xì)節(jié)。
本文通過(guò)各個(gè)子眼在不同視角下的圖像特征提取與匹配,得到各子眼可能的交叉注意區(qū)域,交叉注意系統(tǒng)模型如圖2所示。
圖2 交叉注意系統(tǒng)模型
其具體流程如下:對(duì)同一場(chǎng)景下不同子眼采集的圖像,各子眼對(duì)其進(jìn)行特征提取,對(duì)同一特征,通過(guò)驗(yàn)證其空間一致性可以增強(qiáng)檢測(cè)的置信度。當(dāng)某一子眼或部分子眼受光照或背景干擾強(qiáng)烈時(shí),通過(guò)其他子眼的特征提取結(jié)果和當(dāng)前視角,集中注意力到指定區(qū)域進(jìn)行特征提取,以提高物體識(shí)別準(zhǔn)確率和查全率。
給定子眼1在其圖像1中獲取該圖像中的特征點(diǎn),基于子眼1和其他子眼的空間3D位置關(guān)系,可以計(jì)算其他子眼在子眼1的視角下的投影,并與子眼1圖像中的特征點(diǎn)做匹配。對(duì)未匹配的特征點(diǎn)所在區(qū)域進(jìn)行圖像增強(qiáng)后進(jìn)行特征抽取?;谝哑ヅ涞奶卣鼽c(diǎn)和交叉注意后提取出的特征點(diǎn),子眼1可以利用現(xiàn)有物體識(shí)別的深度網(wǎng)絡(luò)模型進(jìn)行識(shí)別。
本文的多目視覺(jué)系統(tǒng)由四個(gè)子眼模塊組成,每個(gè)子眼負(fù)責(zé)一個(gè)視角下的圖像數(shù)據(jù)采集。其具體工作原理設(shè)計(jì)如下:基于特征抽取+組合模型的方式,利用已有的深度學(xué)習(xí)網(wǎng)絡(luò)作為單子眼的特征提取器,基于四目間的幾何三維關(guān)聯(lián)信息和各子眼的部分視覺(jué)數(shù)據(jù)互為冗余的特點(diǎn),利用子眼間的交叉注意來(lái)提高物體識(shí)別準(zhǔn)確率,然后對(duì)識(shí)別結(jié)果存在潛在沖突的多目數(shù)據(jù)進(jìn)行全局融合,多目視覺(jué)物體識(shí)別系統(tǒng)設(shè)計(jì)如圖3所示。
圖3 多目視覺(jué)物體識(shí)別系統(tǒng)設(shè)計(jì)
本文以SSD512為示例,取其全連接層的第一層及之前的卷積結(jié)構(gòu)作為特征提取器,如圖4所示。給定某一時(shí)刻子眼ei采集的圖片記做pici,特征提取結(jié)果記做rlti,rlti=feature(pici)。假設(shè)rlti包含m個(gè)特征,記做rlti={fi1,fi2,…,fim},然后得到所有子眼的特征全集U=U{rlti},找出各子眼與U的差集{fij}=diff{U,rlti},以及該特征fij在pici中對(duì)應(yīng)一個(gè)區(qū)域Region(fij)。子眼模塊將注意力集中到Region(fij),對(duì)區(qū)域Region(fij)圖像增強(qiáng)后進(jìn)行物體識(shí)別,這樣每個(gè)子眼識(shí)別后得到一個(gè)識(shí)別結(jié)果子集di。對(duì)所有di進(jìn)行置信度和不確定性計(jì)算,對(duì)所有數(shù)據(jù)包括有潛在沖突的子眼間數(shù)據(jù)進(jìn)行數(shù)據(jù)融合得到最終結(jié)果R=Weighted{di}。
本文的交叉注意機(jī)制由聚焦到目標(biāo)區(qū)域和目標(biāo)區(qū)域細(xì)節(jié)增強(qiáng)兩個(gè)部分組成。這和人眼的注意力機(jī)制相契合。首先,各子眼通過(guò)預(yù)注意來(lái)提取各自視角下的圖像特征,獲取其與特征全集的差集{fij},通過(guò)子眼的坐標(biāo)變換聚焦到區(qū)域Region(fij);然后,通過(guò)圖像增強(qiáng),弱化該區(qū)域的光線干擾,增強(qiáng)物體細(xì)節(jié)特征,進(jìn)行物體識(shí)別。
3.1.1 子眼預(yù)注意
子眼在預(yù)注意階段需要為子眼交叉注意階段提供場(chǎng)景中的可能存在的特征及其位置分布。我們通過(guò)現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行前期視覺(jué)特征提取。本文中以SSD512為示例,取其全連接層的第一層及之前的卷積結(jié)構(gòu)作為特征提取器來(lái)獲取其特征及其位置分布。直觀起見(jiàn),我們用SSD512自有的物體分類器作為其特征描述。
在這一特征提取階段,我們首先基于物體識(shí)別網(wǎng)絡(luò)對(duì)子眼采集圖片進(jìn)行預(yù)處理,將輸出值高于0.8的物體標(biāo)注為可信物體,無(wú)需進(jìn)行交叉注意,輸出值高于0.5但小于0.8的物體,標(biāo)注為疑似物體,需要進(jìn)行交叉注意來(lái)識(shí)別。各子眼識(shí)別結(jié)果如圖5所示,圖5中四張圖片分別是四個(gè)子眼采集的實(shí)景圖,紅色框表示識(shí)別出的特征物體fij。實(shí)驗(yàn)表明在強(qiáng)光干擾及背景干擾下,預(yù)注意階段各子眼只能識(shí)別出視野中的極少部分物體rlti,不足10%。
圖5 子眼預(yù)注意識(shí)別結(jié)果
這是因?yàn)槟承┳友凼軓?qiáng)光干擾下,其采集的圖片中的大部分物體不能被現(xiàn)有的物體識(shí)別網(wǎng)絡(luò)識(shí)別。因此需要對(duì)該區(qū)域進(jìn)行交叉注意識(shí)別。
3.1.2 子眼交叉注意
在交叉注意階段,首先將所有子眼識(shí)別結(jié)果合并得到U。將各子眼識(shí)別結(jié)果rlti按照式(3)在物體集合U中取差集di就是子眼未識(shí)別到的物體。利用標(biāo)定好的子眼陣列計(jì)算出物體在各個(gè)子眼中的區(qū)域位置Region(fij)。
為了得到大量、準(zhǔn)確的匹配關(guān)系,我們采用基于Grid的運(yùn)動(dòng)平滑估計(jì)來(lái)進(jìn)行指定局部區(qū)域的特征匹配估計(jì)[43]得到交叉注意區(qū)域,至此完成子眼間的交叉注意區(qū)域匹配,獲得物體在各個(gè)子眼中的區(qū)域位置Region(fij)。
在子眼交叉注意階段得到的區(qū)域Region(fij)即是子眼ei需要聚焦的目標(biāo)區(qū)域。然后對(duì)目標(biāo)區(qū)域進(jìn)行圖像增強(qiáng),弱化該區(qū)域的光線干擾,增強(qiáng)物體細(xì)節(jié)特征。考慮到Retinex方法[44]將成像分成光照分量(環(huán)境的入射光)和物體反射分量(物體的反射性質(zhì)),較為適合處理強(qiáng)光干擾情況。因此我們選用Retinex算法進(jìn)行圖像增強(qiáng)處理。本文使用單尺寸Retinex算法,高斯核半徑sigma設(shè)定為250,對(duì)圖像的R、G、B三個(gè)通道下分別進(jìn)行Retinex算法增強(qiáng)。
當(dāng)子眼完成交叉注意后,使用深度識(shí)別網(wǎng)絡(luò)如SSD512對(duì)新處理的交叉注意區(qū)域及其疑似物體進(jìn)行識(shí)別得到結(jié)果rdi,每個(gè)子眼的識(shí)別結(jié)果為r_rlti=rlti∪rdi。多目視覺(jué)系統(tǒng)的各個(gè)子眼預(yù)注意提取特征情況如圖5所示。
由于每個(gè)子眼的觀測(cè)角度不同,受干擾程度不一,對(duì)物體的識(shí)別結(jié)果可能存在沖突。怎樣解決不同子眼間識(shí)別結(jié)果的潛在沖突,是準(zhǔn)確識(shí)別物體的關(guān)鍵。
針對(duì)子眼間識(shí)別結(jié)果存在潛在沖突的情況,本文進(jìn)行多目數(shù)據(jù)融合的基本思路是:利用證據(jù)融合理論,首先對(duì)來(lái)自各個(gè)子眼的物體識(shí)別結(jié)果(即證據(jù))進(jìn)行預(yù)處理;然后構(gòu)建出物體識(shí)別場(chǎng)景下各個(gè)證據(jù)的基本可信度分配函數(shù),并據(jù)此計(jì)算出各個(gè)證據(jù)的可信度和似然度;再根據(jù)Dempster合成規(guī)則[45-46]來(lái)計(jì)算所有子眼物體識(shí)別結(jié)果聯(lián)合作用下的基本可信度分配函數(shù)、可信度和似然度。
物體識(shí)別場(chǎng)景下識(shí)別框架Θ可由PASCAL VOC數(shù)據(jù)集中20類物體類別和背景組成的集合表示。證據(jù)的基本可信度分配函數(shù)和計(jì)算規(guī)則如下:
m(A)=m1(A)⊕m2(A)⊕…⊕mn(A)=
(2)
表1 4個(gè)子眼的基本信任分配
由表1的4個(gè)子眼的基本信任賦值,根據(jù)Dempster合并法則式(2)的計(jì)算,可以得到由兩個(gè)子眼、三個(gè)子眼、四個(gè)子眼的數(shù)據(jù)組合后的基本概率賦值,結(jié)果如表2所示,其中m12、m123、m1234分別表示1~2號(hào)子眼的融合結(jié)果、1~3號(hào)子眼的融合結(jié)果和1~4號(hào)子眼的融合結(jié)果。
表2 不同子眼組合后的基本信任分配
從表2的D-S的融合結(jié)果可以看出參與融合的子眼越多各個(gè)證據(jù)的可信度分化越明顯,更利于決策。本文采用基于基本信任分配的決策方法,即物體類別應(yīng)具有最大的可信度,物體類別的可信度和其他類別的可信度的差值必須大于某一閾值ε1,不確定區(qū)間的長(zhǎng)度小于某一閾值ε2,且目標(biāo)物體的可信度必須大于不確定區(qū)間的長(zhǎng)度。本文閾值選擇ε1=ε2=0.1,最終的決策結(jié)果為Sub1。
本節(jié)分析了交叉注意機(jī)制對(duì)提高物體識(shí)別的準(zhǔn)確率和查全率的影響。實(shí)驗(yàn)圖片樣本選取自google圖片庫(kù)和baidu圖片庫(kù)中圖片背景以街道為主的cat類、dog類和person類。從中取出100張?jiān)谑褂梦矬w識(shí)別網(wǎng)絡(luò)一次識(shí)別未識(shí)別出全部物體的圖片作為交叉注意實(shí)驗(yàn)分析的圖片樣本,部分樣本圖片如圖6所示。
圖6 交叉注意實(shí)驗(yàn)分析的部分圖片樣本
采取本文的交叉注意機(jī)制之前和之后,物體識(shí)別網(wǎng)絡(luò)框架的物體識(shí)別查全率R(Recall)和準(zhǔn)確率P(Precision)對(duì)比分析如表3所示??梢钥闯霾扇〗徊孀⒁鈾C(jī)制后查全率顯著提高,從不到10%提高到90%以上,其中70%以上的物體在背景環(huán)境淹沒(méi)時(shí)通過(guò)交叉注意機(jī)制可以被正確識(shí)別,平均識(shí)別準(zhǔn)確率達(dá)到90.3%。該結(jié)果表明當(dāng)多目視覺(jué)系統(tǒng)中部分子眼被干擾或由于角度問(wèn)題無(wú)法識(shí)別目標(biāo)物體時(shí),可以通過(guò)未被干擾的子眼的識(shí)別結(jié)果將注意力聚焦到目標(biāo)物體區(qū)域,進(jìn)而通過(guò)背景增強(qiáng)來(lái)減少背景環(huán)境對(duì)其的干擾和提高識(shí)別的準(zhǔn)確率。
表3 背景干擾下的交叉注意識(shí)別結(jié)果
4.2.1 實(shí)驗(yàn)設(shè)置
本文借鑒2D平面結(jié)構(gòu)復(fù)眼系統(tǒng),在部分子眼受強(qiáng)光干擾情況下的目標(biāo)檢測(cè)及獲取3D信息,采用布置在2D平面上的4個(gè)相機(jī)構(gòu)成的相機(jī)陣列。相機(jī)間的位置關(guān)系通過(guò)棋盤法[47]標(biāo)定好。
本文多目視覺(jué)由四個(gè)索尼IMX179性攝像頭組成,如圖7所示。攝像頭分辨率1 920×1 080,上下間距40 cm,本文通過(guò)調(diào)節(jié)子眼間水平距離測(cè)試在強(qiáng)光干擾和復(fù)雜背景干擾下不同子眼的視角差變化對(duì)識(shí)別結(jié)果的影響。我們以左右子眼的的中線為基準(zhǔn)線實(shí)驗(yàn)數(shù)據(jù)采集了與多目視覺(jué)系統(tǒng)平面不同距離,與基準(zhǔn)線不同夾角的多組圖像。本文實(shí)驗(yàn)設(shè)置分為室內(nèi)場(chǎng)景實(shí)驗(yàn)設(shè)置和室外場(chǎng)景實(shí)驗(yàn)設(shè)置。
圖7 二維平面結(jié)構(gòu)簡(jiǎn)易多目視覺(jué)模型
本實(shí)驗(yàn)使用額定功率24 W,流明值為105 lm的一對(duì)汽車遠(yuǎn)光燈做干擾源,遠(yuǎn)光燈與多目視覺(jué)系統(tǒng)相距5~30米不等。待測(cè)物體與多目視覺(jué)系統(tǒng)水平相距1~20米不等。室內(nèi)場(chǎng)景如圖8所示,室外道路場(chǎng)景如圖9所示。
圖8 室內(nèi)場(chǎng)景采集圖像
圖9 道路場(chǎng)景采集圖
4.2.2 多目視覺(jué)系統(tǒng)物體識(shí)別性能分析
在強(qiáng)光干擾下,各子眼進(jìn)行快速的預(yù)注意處理,利用未被干擾的子眼識(shí)別出物體,將目標(biāo)物體信息傳遞給被干擾眼,從被干擾子眼采集的圖像中提取目標(biāo)區(qū)域,進(jìn)行增強(qiáng)處理后,進(jìn)行交叉注意的物體識(shí)別。本文通過(guò)實(shí)驗(yàn)評(píng)估了當(dāng)前表現(xiàn)最為優(yōu)異的三種物體識(shí)別網(wǎng)絡(luò):Faster R-CNN、SSD512和YOLOv2在強(qiáng)光干擾下的物體識(shí)別能力。
室內(nèi)場(chǎng)景,不同強(qiáng)度光照干擾下的多目視覺(jué)系統(tǒng)的物體準(zhǔn)確率如圖10所示,不同強(qiáng)度光照干擾下多目視覺(jué)系統(tǒng)的物體查全率如圖11所示。由圖10和圖11可以看出隨著光照增強(qiáng),單眼的識(shí)別準(zhǔn)確率和查全率都在急劇下降,當(dāng)光通量達(dá)到2 100 lm時(shí)單眼完全被干擾失去識(shí)別能力,但是此時(shí)多目視覺(jué)系統(tǒng)仍具有很高的識(shí)別準(zhǔn)確率和查全率。此結(jié)果說(shuō)明在強(qiáng)光干擾下,由于多目視覺(jué)系統(tǒng)的不同子眼間存在視角差,部分子眼受到較小的光干擾甚至沒(méi)有干擾,故多目視覺(jué)系統(tǒng)利用可以識(shí)別的圖像或區(qū)域,再經(jīng)過(guò)多目坐標(biāo)變換得到被干擾子眼中對(duì)應(yīng)的區(qū)域,子眼進(jìn)行交叉注意。由圖11可以看出,子眼交叉注意可以提高子眼的抗干擾能力。
圖10 不同強(qiáng)度光照干擾下的多目視覺(jué)系統(tǒng)的物體準(zhǔn)確率
圖11 不同強(qiáng)度光照干擾下多目視覺(jué)系統(tǒng)的物體查全率
室外道路場(chǎng)景,對(duì)采集的圖像進(jìn)行以下兩種處理進(jìn)行實(shí)驗(yàn)分析:
(1) 使用物體識(shí)別網(wǎng)絡(luò)處理采集的圖像數(shù)據(jù),物體識(shí)別網(wǎng)絡(luò)識(shí)別結(jié)果的準(zhǔn)確率(precision)和查全率(recall)曲線圖(P-R曲線圖)如圖12第一行圖所示,各物體識(shí)別網(wǎng)絡(luò)的平均識(shí)別精度MAP如表4所示。
表4 物體識(shí)別網(wǎng)絡(luò)的平均識(shí)別精度MAP
(2) 使用多目視覺(jué)系統(tǒng)進(jìn)行處理,物體識(shí)別的P-R曲線圖如圖12第二行圖所示,平均識(shí)別精度MAP如表5所示。
表5 多目視覺(jué)物體識(shí)別網(wǎng)絡(luò)的平均識(shí)別精度MAP
三種物體識(shí)別網(wǎng)絡(luò)都使用VOC2007和VOC2012數(shù)據(jù)集訓(xùn)練,表4和表5中data項(xiàng)表示用于測(cè)試的數(shù)據(jù)集,此列中Voc測(cè)試數(shù)據(jù)集為VOC2012,L_d表示測(cè)試數(shù)據(jù)集是強(qiáng)光干擾下的道路場(chǎng)景圖片集;MAP列表示該網(wǎng)絡(luò)框架的識(shí)別能力,以百分比計(jì)量;person到mbike列表示各網(wǎng)絡(luò)對(duì)此類別的平均識(shí)別精度。
從表4中容易看出在無(wú)干擾情況下,三種物體識(shí)別網(wǎng)絡(luò)都有優(yōu)異的識(shí)別效果,然而,在強(qiáng)光干擾好和復(fù)雜的背景干擾下,三種物體識(shí)別網(wǎng)絡(luò)的識(shí)別精度都急劇下降。在有干擾時(shí),F(xiàn)aster R-CNN網(wǎng)絡(luò)架構(gòu)的識(shí)別精度相對(duì)較高為55.9%,但處理速度慢[19],綜合考慮處理速度與識(shí)別精度,SDD512性能優(yōu)于Faster R-CNN和YOLOv2,但仍然達(dá)不到實(shí)際使用的要求。
從表4和表5可以看出,在強(qiáng)光干擾的道路場(chǎng)景中,多目視覺(jué)系統(tǒng)的物體識(shí)別的平均識(shí)別精度MAP比單目的提高了15%左右,其中基于SSD512物體識(shí)別框架的多目視覺(jué)系統(tǒng)的MAP提高最為顯著,提高了19.1%。基于Faster R-CNN物體識(shí)別網(wǎng)絡(luò)框架的多目視覺(jué)系統(tǒng)的在person類上的識(shí)別精度MAP提高最顯著,提高了24.9%。在car、bus、mbike三類物體上,基于SSD512物體識(shí)別框架的多目視覺(jué)系統(tǒng)的識(shí)別精度MAP提高較為顯著,分別提高了4.3%、25.0%和30.8%。就多目視覺(jué)系統(tǒng)而言,基于SSD512物體識(shí)別網(wǎng)絡(luò)框架的平均識(shí)別精度MAP最高,為72.4%。
圖12 物體識(shí)別P-R曲線圖
本文提出的基于交叉注意機(jī)制的多目視覺(jué)系統(tǒng)具有更強(qiáng)的光干擾能力。本文對(duì)交叉注意機(jī)制和多目視覺(jué)系統(tǒng)的性能進(jìn)行了實(shí)驗(yàn)分析,可以看出交叉注意機(jī)制在復(fù)雜背景下的物體識(shí)別有著優(yōu)異的表現(xiàn),其中在不損失物體識(shí)別網(wǎng)絡(luò)精度的前提下,將物體識(shí)別網(wǎng)絡(luò)的查全率從平均6.3%提高到84.6%。在強(qiáng)光干擾下的場(chǎng)景基于交叉注意機(jī)制的多目視覺(jué)系統(tǒng)物體識(shí)別的MAP(64.8%)相比于單目的物體識(shí)別的mAP(50.2%)提高了14.6個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明基于交叉注意機(jī)制的多目視覺(jué)系統(tǒng)可以在一定程度上降低復(fù)雜背景和強(qiáng)光照射對(duì)物體識(shí)別的干擾。并且,基于交叉注意機(jī)制的多目視覺(jué)系統(tǒng)物體識(shí)別系統(tǒng)使用現(xiàn)有的物體識(shí)別網(wǎng)絡(luò)框架不需要增加額外的訓(xùn)練數(shù)據(jù)。