亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        視覺(jué)深度估計(jì)與點(diǎn)云建圖研究進(jìn)展

        2021-07-14 14:11:00陳苑鋒
        液晶與顯示 2021年6期
        關(guān)鍵詞:深度圖單目視圖

        陳苑鋒

        (美的集團(tuán)(上海)有限公司,上海 201799)

        1 引 言

        同步定位與地圖構(gòu)建(Simultaneous Localization and Mapping,SLAM)主要用于實(shí)現(xiàn)移動(dòng)機(jī)器人在未知環(huán)境中運(yùn)行時(shí)定位導(dǎo)航與地圖構(gòu)建功能,通常包括特征提取、數(shù)據(jù)關(guān)聯(lián)、狀態(tài)估計(jì)、狀態(tài)更新以及特征更新等。一般分為3種形式:(1)在給定地圖的情況下,估計(jì)機(jī)器人的位姿;(2)同時(shí)估計(jì)機(jī)器人的位姿和環(huán)境地圖;(3)在給定機(jī)器人位姿的情況下,估計(jì)環(huán)境地圖。SLAM技術(shù)依賴于激光雷達(dá)傳感器,因其可提供高精度的3D點(diǎn)云信息。3D激光SLAM的幀間匹配方法包括以下3種:點(diǎn)云配準(zhǔn)算法、Point-to-Plane ICP、Feature-based Method。常用的3D激光SLAM的回環(huán)檢測(cè)方法包括Scan-to-Scan、Scan-to-Map、Branch and Bound和Lazy Decision。目前主流激光SLAM算法框架包括:(1)LOAM-純激光,勻速運(yùn)動(dòng)假設(shè),無(wú)回環(huán);(2)V-LOAM-視覺(jué)激光融合、漂移勻速假設(shè),無(wú)回環(huán);(3)VELO-視覺(jué)激光融合,無(wú)運(yùn)動(dòng)畸變假設(shè),有回環(huán)。

        因激光雷達(dá)價(jià)格昂貴,影響了其市場(chǎng)化的進(jìn)展。加上受制于線數(shù),在豎直方向的空間分辨率有限,難以精確反映目標(biāo)物體輪廓形態(tài),無(wú)法獲得精確的語(yǔ)義信息。相較之下,近些年隨著人工智能技術(shù)的快速發(fā)展,基于視覺(jué)的SLAM,即VSLAM逐漸成為研究熱點(diǎn)[1-2]。VSLAM涉及視覺(jué)深度估計(jì)和視覺(jué)建圖兩項(xiàng)核心技術(shù)。視覺(jué)建圖以3D視覺(jué)點(diǎn)云圖為輸入,通過(guò)多視角特征匹配進(jìn)行建圖,其方法邏輯與激光雷達(dá)點(diǎn)云建圖類(lèi)似,技術(shù)較為成熟,且難度可控[3-4]。視覺(jué)深度估計(jì)則比激光雷達(dá)深度測(cè)量在測(cè)量精度方面面臨著較大挑戰(zhàn),成為研究界的熱門(mén)方向。

        2 視覺(jué)深度估計(jì)

        基于單目、雙目和多目的深度估計(jì)對(duì)于場(chǎng)景理解和實(shí)現(xiàn)自主導(dǎo)航定位均具有重要意義。以常用的幾種視覺(jué)深度估計(jì)方法為例,基于雙目視覺(jué)的深度估計(jì)受基線長(zhǎng)度限制,導(dǎo)致設(shè)備體積與載具平臺(tái)難以良好匹配[5]。基于RGBD的深度估計(jì)量程較短、價(jià)格不菲,在實(shí)際應(yīng)用中能力有限,在室外環(huán)境中的表現(xiàn)也不盡理想,受環(huán)境變化影響較大。而單目攝像頭具有價(jià)格低廉、獲取信息內(nèi)容豐富、體積小等優(yōu)點(diǎn),可以有效克服上述傳感器的諸多不足。當(dāng)然,現(xiàn)有的單目攝像頭里,有監(jiān)督方案和無(wú)監(jiān)督方案均面臨著巨大的挑戰(zhàn)。有監(jiān)督方案需要大量的深度測(cè)量數(shù)據(jù),這些數(shù)據(jù)通常很難獲得,而無(wú)監(jiān)督方案在估計(jì)精度上受到限制。

        表1對(duì)業(yè)界視覺(jué)深度估計(jì)方法進(jìn)行了匯總,從攝像頭類(lèi)型、計(jì)算模型(以深度學(xué)習(xí)模型為主)、所采用的數(shù)據(jù)集名稱、數(shù)據(jù)量、深度學(xué)習(xí)模型監(jiān)督類(lèi)型和發(fā)布時(shí)間等方面進(jìn)行了對(duì)比。從攝像頭類(lèi)型角度看,近年來(lái)更多的研究集中于單目攝像頭的深度估計(jì),主要原因是一方面單目攝像頭在硬件布置和成本上具有優(yōu)勢(shì),另一方面神經(jīng)網(wǎng)絡(luò)加速芯片的性能提升進(jìn)一步推動(dòng)了單目算法的進(jìn)展。本文先從雙目和多目深度估計(jì)入手進(jìn)行總結(jié),最后討論單目深度估計(jì)。表1中神經(jīng)網(wǎng)絡(luò)的類(lèi)型包含了有監(jiān)督、半監(jiān)督、自監(jiān)督和無(wú)監(jiān)督,所列的文獻(xiàn)主要發(fā)表于2017~2020年間,是對(duì)近年來(lái)最新方法的總結(jié)。

        表1 視覺(jué)深度估計(jì)方案表Tab.1 Summary of visual depth prediction

        續(xù) 表

        2.1 雙目視覺(jué)深度估計(jì)

        雙目深度估計(jì),又稱視差估計(jì)(Disparity Estimation)[31],其輸入是一對(duì)在同一時(shí)刻捕捉到的、經(jīng)過(guò)極線校正的左右視圖,輸出是通過(guò)攝像頭焦距f、左右攝像頭基線長(zhǎng)度b、以及左右眼對(duì)于同一目標(biāo)的視差等參數(shù)計(jì)算出的目標(biāo)深度圖d。視差是三維場(chǎng)景中某一點(diǎn)在左右圖像中對(duì)應(yīng)點(diǎn)位置的像素級(jí)差距,通過(guò)深度和視差的相互轉(zhuǎn)換關(guān)系來(lái)得到結(jié)果。雙目攝像頭的左右眼原始圖像以及雙目匹配獲得的深度圖如圖1所示。

        圖1 雙目攝像頭的原始數(shù)據(jù),以及通過(guò)左右眼的視差計(jì)算出的深度圖[5]。Fig.1 Raw images of the binocular camera, as well as the depth map calculated through the difference between the left and right images[5].

        立體匹配是深度估計(jì)中的基本模塊,通過(guò)獲得左右圖片中像素的對(duì)應(yīng)關(guān)系計(jì)算出視差圖。過(guò)去幾十年間,科研人員探索了多種雙目立體視覺(jué)匹配算法,如SAD匹配算法、SURF算法、BM算法、SGBM算法、GC算法等[5,32];代表性的工作包括Yao等人[33]提出的一個(gè)深度感知系統(tǒng),在一個(gè)類(lèi)似于Kinect的激光投影機(jī)的兩側(cè)安裝兩個(gè)紅外攝像頭,采用雙目模式和單眼模式兩種匹配模式,可在不影響深度圖像質(zhì)量的前提下獲得更高精度的視差圖。

        深度學(xué)習(xí)算法在立體匹配領(lǐng)域也有進(jìn)展。立體匹配的深度學(xué)習(xí)方案將傳統(tǒng)立體匹配方法的4個(gè)步驟,即代價(jià)計(jì)算、代價(jià)聚合、視差計(jì)算和視差細(xì)化,融入到卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中[34]。大多數(shù)在KITTI數(shù)據(jù)集上排名靠前的方法均基于深度學(xué)習(xí)[35],例如Song等人[7]在算法上對(duì)雙目深度預(yù)測(cè)方法做了提升,提出了兩種新抗欺騙干擾的魯棒性特征:基于雙目深度的模板人臉匹配特征和基于空間金字塔編碼的高階微紋理特征,配以新的模板人臉配準(zhǔn)算法和空間金字塔編碼算法,實(shí)現(xiàn)了多模態(tài)人臉欺騙檢測(cè)。

        在計(jì)算機(jī)視覺(jué)中,雙目立體信息和單眼聚焦線索通常是分開(kāi)解決的。但Guo等人[6]同時(shí)使用這兩種類(lèi)型的線索進(jìn)行深度推斷,構(gòu)建了3個(gè)獨(dú)立的網(wǎng)絡(luò):Focus-Net用于單個(gè)焦堆棧中提取深度,EDoF-net用于焦堆棧中獲得擴(kuò)展景深圖像,stereo-net用于立體匹配,最后集成到統(tǒng)一BDfF-Net中以獲得高質(zhì)量的深度圖。

        使用監(jiān)督回歸的深度學(xué)習(xí)算法在視覺(jué)處理中能取得顯著的效果,但監(jiān)督學(xué)習(xí)需要為算法訓(xùn)練進(jìn)行昂貴的真值(Ground truth)注釋。為解決這一問(wèn)題,Pilzer等人[8]專(zhuān)門(mén)為雙目立體深度估計(jì)設(shè)計(jì)了一個(gè)新的計(jì)算框架——漸進(jìn)融合網(wǎng)絡(luò)(Progressive Fusion Network,PFN),該網(wǎng)絡(luò)結(jié)合了雙目攝像頭采集的兩個(gè)立體視圖,既可以從訓(xùn)練集圖像(前半周)學(xué)習(xí),也可以從合成圖像(后半周)學(xué)習(xí)。該架構(gòu)定性比較結(jié)果如圖2所示。作為無(wú)監(jiān)督學(xué)習(xí)方案在醫(yī)療領(lǐng)域的重大應(yīng)用,Xu等人[9]重建了雙目立體腹腔鏡的精確深度圖,讓外科醫(yī)生獲得了深度感知,從而克服了傳統(tǒng)的二維腹腔鏡成像缺乏深度感知、不能提供定量的深度信息,進(jìn)而限制手術(shù)時(shí)的視野和范圍等問(wèn)題。

        圖2 各種方法定性比較[8]。(a) RGB圖;(b) Eigen等人的方法;(c)Zhou等人的方法;(d)Garg等人的方法;(e)Godard等人的方法;(f)Pilzer等人的方法;(g)PFN;(h)深度圖真值。Fig.2 Qualitative comparison of various methods[8].(a) RGB images; (b) Eigen et al.; (c) Zhou et al.; (d) Garg et al.; (e) Godard et al.; (f)Pilzer et al.; (g)PFN; (h) Ground truth.

        通過(guò)上述代表性文獻(xiàn)可以發(fā)現(xiàn),利用雙目硬件分別實(shí)現(xiàn)單目算法和雙目算法有可能在產(chǎn)品落地方面產(chǎn)生不錯(cuò)的應(yīng)用效果,通過(guò)雙目立體線索和單眼聚焦線索獲得有效的三維感知、采用漸進(jìn)融合網(wǎng)絡(luò)(PFN)與對(duì)抗性學(xué)習(xí)共同訓(xùn)練也是值得探索的研究方向。

        2.2 多目視覺(jué)深度預(yù)測(cè)

        除雙目視覺(jué)外,學(xué)術(shù)界對(duì)多目視覺(jué)深度預(yù)測(cè)方法也開(kāi)展了一系列研究。基于多視角圖像的視差/深度估計(jì)算法,Anantrasirichai等人[36]提出使用窗口相關(guān)的動(dòng)態(tài)規(guī)劃方法和新的代價(jià)函數(shù),以視差/深度映射的平滑性和窗口的相關(guān)性為約束,得到適合多視圖圖像的深度圖。此外,Montserrat等人[37]提出了一種基于信念傳播的多視圖匹配與深度/顏色分割算法,并給出了一種信息傳遞壓縮策略。在此基礎(chǔ)上,Liu等人[38]通過(guò)引入深度候選對(duì)象將多視圖深度圖合并生成3D模型,將輪廓信息和外極約束集成到連續(xù)深度圖的變分方法中,通過(guò)多起始尺度框架生成多個(gè)深度候選對(duì)象,實(shí)現(xiàn)了路徑歸一化互相關(guān)度量合成到每個(gè)視圖的精細(xì)化深度圖。

        因上述方法并不適用于任意視角,Lee和Ho等[39]提出了一種基于視點(diǎn)一致性的多視點(diǎn)深度估計(jì)算法,使用傳統(tǒng)深度估計(jì)方法獲得左右視點(diǎn)的深度圖后,將其投影到中心視點(diǎn),采用多視點(diǎn)圖割算法使誤差最小化。Mieloch等人[40]提出了一種適用于任意攝像頭位置多視點(diǎn)系統(tǒng)的深度估計(jì)方法,通過(guò)在優(yōu)化圖中引入合適的連接,保證了對(duì)自由視點(diǎn)系統(tǒng)至關(guān)重要的深度圖的視圖間一致性,這使得該方法成為第一個(gè)使用基于分割估計(jì)和與生成空間一致的多視圖深度圖的方法,如圖3所示。

        圖3 深度圖與虛擬視點(diǎn)合成的比較[40]。(a)深度估計(jì)中使用的原始視圖的片段;(b)用DERS估算的深度圖片段;(c)使用建議的估計(jì)深度圖片段的方法;(d)原始視圖的片段(綜合的參考視圖);(e)用DERS估計(jì)的深度圖合在的視圖片段;(f)用建議的方法估計(jì)的深度圖合成的圖片段。Fig.3 Comparison of depth map and virtual viewpoint synthesis[40].(a) Fragment of the original view used in the depth estimation; (b) Fragment of the depth map estimated with DERS; (c) Fragment of the depth map estimated using the proposed method; (d) Fragment of the original view (the reference view for the synthesis); (e) Fragment of the view synthesized with depth maps estimated with DERS; (f) Fragment of the view synthesized with depth maps estimated using the proposed method.

        多視圖深度是高度精確的,但僅在高紋理區(qū)域和高視差的情況下;單視圖深度捕獲了中層區(qū)域的局部結(jié)構(gòu),包括無(wú)紋理區(qū)域,但估計(jì)的深度缺乏全局一致性。Facil等人[41]進(jìn)一步利用了基于CNN的單視圖深度估計(jì)與多視圖深度估計(jì)進(jìn)行了融合。

        另一方面,雖然之前的基于學(xué)習(xí)的方法已經(jīng)有了令人信服的結(jié)果,但大多數(shù)方法都是獨(dú)立地估計(jì)單個(gè)視頻幀的深度圖,而沒(méi)有考慮幀間強(qiáng)烈的幾何和時(shí)間一致性。而且,目前最先進(jìn)的(SOTA)模型大多采用全3D卷積網(wǎng)絡(luò),需要較高的計(jì)算成本,從而限制了其在現(xiàn)實(shí)應(yīng)用中的部署。Long等人[15]通過(guò)使用一個(gè)新的極時(shí)空變壓器來(lái)實(shí)現(xiàn)時(shí)間相干深度估計(jì),明確地關(guān)聯(lián)幾何和時(shí)間相關(guān)性,取得不錯(cuò)的深度估計(jì)結(jié)果。Yang等人[42]則提出了一種從多視點(diǎn)同步和校準(zhǔn)視頻流中恢復(fù)空間和時(shí)間一致的深度圖的方法,將左右視圖匹配和基于顏色的分割相結(jié)合對(duì)深度圖進(jìn)行初始化,并將色彩一致性和空間一致性引入優(yōu)化框架,以保證單一時(shí)刻的空間一致性。最后以時(shí)空一致性約束的形式加入深度和運(yùn)動(dòng)信息來(lái)細(xì)化和穩(wěn)定深度視頻,在每個(gè)瞬間的估計(jì)中不破壞原始的空間一致性。

        為進(jìn)一步提升深度估計(jì)的效率和精度,Ince等人[43]考慮了多視點(diǎn)視頻編碼中視點(diǎn)合成的深度估計(jì),可以有效地進(jìn)行視圖綜合預(yù)測(cè)和生成編碼比特?cái)?shù)更少的深度圖。Kusupati等人[12]利用正態(tài)估計(jì)模型和預(yù)測(cè)的法線圖提高了深度質(zhì)量。Hou等人[14]提出了一種求解非結(jié)構(gòu)化多視角圖像位姿以實(shí)現(xiàn)深度估計(jì)的新方法—MaskMVS,在平面掃描過(guò)程中,通過(guò)直方圖匹配對(duì)深度平面進(jìn)行采樣,確保覆蓋感的深度范圍。Sinha等人[10]提出了一種有效的步驟用于深度估計(jì)方法:(a)檢測(cè)和評(píng)估興趣點(diǎn)的描述符;(b)學(xué)習(xí)匹配和三角化一小組興趣點(diǎn);(c)使用CNN致密化這一稀疏的3D點(diǎn)集。他們采用端到端網(wǎng)絡(luò)在深度學(xué)習(xí)框架執(zhí)行所有這3個(gè)步驟,并通過(guò)中間2D圖像和3D幾何監(jiān)督以及深度監(jiān)督進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果如圖4所示。

        圖4 深度預(yù)測(cè)定性表現(xiàn)[10]。(a)圖像;(b)深度圖真值;(c)MVDepthNet;(d)GPMVSNet;(e)DPSNet;(f)DELAS。Fig.4 Qualitative performance of depth prediction[10]. (a)Image; (b) Ground truth; (c) MVDepthNet; (d)GPMVSNet; (e)DPSNet; (f) DELAS.

        Long等人[44]通過(guò)引入了聯(lián)合法向圖(CNM)約束來(lái)保持高曲率特征和全局平面區(qū)域,將多個(gè)相鄰視圖初始深度預(yù)測(cè)聚合到最終深度圖和當(dāng)前參考視圖的遮擋概率圖中,提高了深度估計(jì)的精度。Strecha和Gool[45]研究了一種對(duì)多幅校正圖像進(jìn)行深度提取的方法,通過(guò)系統(tǒng)對(duì)來(lái)自不同視圖數(shù)據(jù)的相對(duì)置信度分配不同權(quán)重,在匹配過(guò)程中對(duì)不同權(quán)重的視圖數(shù)據(jù)進(jìn)行融合,從而取得了較高的深度信息精度。

        綜上所述,多目視覺(jué)深度預(yù)測(cè)主要有以下幾個(gè)方向:(1)輪廓信息和外極約束集在連續(xù)深度預(yù)測(cè);(2)任意攝像頭位置的多視點(diǎn)系統(tǒng)的深度估計(jì);(3)多視點(diǎn)視頻編碼中視點(diǎn)合成的深度估計(jì)。另外,為提升深度預(yù)測(cè)準(zhǔn)確率,可以參考以下幾種方法:(1)端到端的深度學(xué)習(xí)架構(gòu)MVSNet;(2)利用正態(tài)估計(jì)模型和預(yù)測(cè)的法線圖來(lái)提高深度質(zhì)量;(3)使用單個(gè)局部移動(dòng)攝像頭連續(xù)估計(jì)深度地圖;(4)將單視圖深度估計(jì)與多視圖深度估計(jì)融合。在多視角圖像融合方面,從多視角同步和校準(zhǔn)視頻流中恢復(fù)空間和時(shí)間一致的深度圖已經(jīng)取得進(jìn)展;在一致性問(wèn)題上,Lee和Ho[39]考慮了視點(diǎn)一致性,而Liu等人[15]也考慮到了幀間強(qiáng)烈的幾何和時(shí)間一致性;為了更好地保持高曲率特征和全局平面區(qū)域,Liu等人[44]還引入了聯(lián)合法向圖(CNM)約束。這些方法為后續(xù)視覺(jué)深度估計(jì)方案創(chuàng)新提供了建設(shè)性的思路。

        2.3 單目視覺(jué)深度預(yù)測(cè)

        通過(guò)彩色圖像生成高質(zhì)量深度圖的研究有望以較低的成本實(shí)現(xiàn)深度建圖,通過(guò)使用大量未標(biāo)注數(shù)據(jù)集求解深度,可為下游具有識(shí)別任務(wù)的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)預(yù)訓(xùn)練的目的,但具有精確標(biāo)簽的訓(xùn)練數(shù)據(jù)集本身就是一個(gè)巨大的挑戰(zhàn),故本節(jié)僅針對(duì)自監(jiān)督和無(wú)監(jiān)督方案進(jìn)行分析探討。

        目前已有自監(jiān)督的方法可以只使用雙目攝像頭的左右視圖[46-47]或單目視頻[48]來(lái)訓(xùn)練單目深度估計(jì)模型。在這兩種自我監(jiān)督的方法中,基于單目視頻訓(xùn)練是一種有吸引力的替代立體圖像監(jiān)督的方法,但除了估計(jì)深度外,模型還需要估計(jì)訓(xùn)練過(guò)程中時(shí)序圖像對(duì)之間的幀間運(yùn)動(dòng)。這就需要訓(xùn)練一個(gè)以有限幀序列作為輸入,并輸出相應(yīng)的攝像頭變換的位姿估計(jì)網(wǎng)絡(luò)。Godard[16]采用單目自監(jiān)督的Monodepth2模型對(duì)每個(gè)像素的深度進(jìn)行學(xué)習(xí),使用損失小的重投影設(shè)計(jì)來(lái)處理遮擋,采用多尺度的采樣方法以及忽略明顯異常的訓(xùn)練像素,在KITTI數(shù)據(jù)集中實(shí)現(xiàn)了高精度的深度估計(jì),如圖5所示。

        圖5 Make3D定性結(jié)果(基于KITTI)[16]。 (a)輸入;(b)Zhou等;(c)DDVO;(d)Monodepth2(M);(e)深度圖真值。Fig.5 Qualitative results of Make3D (based on KITTI)[16].(a) Input; (b) Zhou et al.; (c) DDVO; (d) Monodepth2(M); (e) Ground truth.

        Aleotti等人[17]提出在GAN范式下進(jìn)行無(wú)監(jiān)督單目深度估計(jì),通過(guò)生成器網(wǎng)絡(luò)從參考圖像推斷深度以生成目標(biāo)圖像,訓(xùn)練鑒別器網(wǎng)絡(luò)學(xué)習(xí)如何區(qū)分由生成器生成的假圖像和通過(guò)立體裝備獲取的目標(biāo)幀,預(yù)測(cè)效果如圖6所示。

        圖6 GAN架構(gòu)與他人論文預(yù)測(cè)結(jié)果對(duì)比。(a)原始圖片;(b)由Godard等預(yù)測(cè)的深度圖;(c)由作者的GAN架構(gòu)預(yù)測(cè)的深度圖[17]。Fig.6 Comparison of GAN architecture and prediction results of other papers. (a)Original image; (b) Deth image predicted by Godard et al.; (c) Deth image predicted by the author's GAN architecture[17].

        Amir等人[18]利用風(fēng)格轉(zhuǎn)換和對(duì)抗性訓(xùn)練,實(shí)現(xiàn)了技術(shù)的優(yōu)化。Casser等人[20]在學(xué)習(xí)過(guò)程中引入幾何結(jié)構(gòu),通過(guò)對(duì)場(chǎng)景和單個(gè)物體的建模,以單目視頻為輸入學(xué)習(xí)攝像頭的自我運(yùn)動(dòng)和物體運(yùn)動(dòng),引入了一種在線求精方法來(lái)適應(yīng)未知領(lǐng)域的動(dòng)態(tài)學(xué)習(xí),結(jié)果如圖7所示。Mahjourian等人[25]提出了一種新的單目視頻深度和自我運(yùn)動(dòng)的無(wú)監(jiān)督學(xué)習(xí)方法,不僅強(qiáng)化3D點(diǎn)云和連續(xù)幀自我運(yùn)動(dòng)的一致性,而且采用了有效掩蔽,在KITTI數(shù)據(jù)集和在未校準(zhǔn)的手機(jī)攝像頭上驗(yàn)證了深度和自我運(yùn)動(dòng)。Li等人[26]提出了分類(lèi)(DABC)網(wǎng)絡(luò),將深度預(yù)測(cè)作為一個(gè)多類(lèi)分類(lèi)任務(wù),應(yīng)用Softmax分類(lèi)器對(duì)每個(gè)像素的深度標(biāo)簽進(jìn)行分類(lèi),引入全局池化層和通道關(guān)注機(jī)制,自適應(yīng)地選擇特征的區(qū)分通道,并通過(guò)賦予權(quán)重進(jìn)行預(yù)測(cè),可顯著提高單一圖像深度預(yù)測(cè)的魯棒性。低層次視覺(jué)中有幾個(gè)相互關(guān)聯(lián)問(wèn)題的無(wú)監(jiān)督學(xué)習(xí):?jiǎn)我晥D深度預(yù)測(cè)、攝像頭運(yùn)動(dòng)估計(jì)、光流以及將視頻分割到靜態(tài)場(chǎng)景和移動(dòng)區(qū)域。Ranjan等人[27]引入了競(jìng)爭(zhēng)協(xié)作框架,即采用多個(gè)專(zhuān)門(mén)神經(jīng)網(wǎng)絡(luò)協(xié)調(diào)訓(xùn)練以解決復(fù)雜問(wèn)題,其中神經(jīng)網(wǎng)絡(luò)既扮演著靜態(tài)或移動(dòng)區(qū)域?qū)?yīng)像素的競(jìng)爭(zhēng)對(duì)手角色,也扮演著將像素分配為靜態(tài)或獨(dú)立移動(dòng)的協(xié)作者的角色。Wang等人[13]通過(guò)引入MVDepthNet卷積網(wǎng)絡(luò),采用幾何數(shù)據(jù)增強(qiáng)技術(shù),多視圖被編碼后與參考圖像結(jié)合,解決了局部單目攝像頭在相鄰視點(diǎn)的圖像對(duì)下的深度估計(jì)問(wèn)題,提高了實(shí)時(shí)性和靈活性。

        圖7 各種方法預(yù)測(cè)結(jié)果比較[20]。(a)圖像;(b)Zhou等;(c)GeoNet;(d)DDVO;(e)HMP;(f)Casserole等;(g)深度圖真值。Fig.7 Comparison of prediction results of various methods[20]. (a) Images; (b) Zhou et al.; (c) GeoNet; (d) DDVO; (e) HMP; (f) Casserole et al.; (g) Ground truth.

        Eigen和Fergus[49]使用單一的多尺度卷積網(wǎng)絡(luò)架構(gòu)來(lái)處理3種不同的視覺(jué)任務(wù):深度預(yù)測(cè)、表面法線估計(jì)和語(yǔ)義標(biāo)記,如圖8所示。深度網(wǎng)絡(luò)不僅可適應(yīng)不同任務(wù),且使用一系列尺度逐步細(xì)化預(yù)測(cè),能捕獲許多圖像細(xì)節(jié)信息而不需要任何超像素或低水平分割,在未來(lái)有很好的應(yīng)用前景。

        圖8 3種任務(wù)的預(yù)測(cè)[49]。 (a)深度圖;(b)正常圖;(c)標(biāo)簽。Fig.8 Prediction of three tasks[49]. (a) Depth; (b) Normals; (c)Labels.

        Chen等人[50]研究了野外單幅圖像的深度感知,即從無(wú)約束環(huán)境下拍攝的單幅圖像中恢復(fù)深度,可通過(guò)使用注釋的相對(duì)深度估計(jì)度量深度的方法來(lái)得到預(yù)測(cè)結(jié)果,見(jiàn)圖9。

        圖9 各種數(shù)據(jù)集(采用的為最右邊的數(shù)據(jù)集)[50]。(a)NYU V2數(shù)據(jù)集; (b)KITTI數(shù)據(jù)集; (c)Make3D數(shù)據(jù)集; (d)野外深度數(shù)據(jù)集。Fig.9 Various data sets (the one used is the rightmost data set)[50]. (a) NYU V2 data set; (b) KITTI adta set; (c) Make 3D data set; (d) Field depth data set.

        單目深度估計(jì)對(duì)理解三維場(chǎng)景幾何結(jié)構(gòu)起著至關(guān)重要的作用。Fu等人[21]引入了一種間距遞增離散化(Spacing-Increasing Discretization, SID)策略,將深度離散化,并將深度網(wǎng)絡(luò)學(xué)習(xí)作為一個(gè)有序回歸問(wèn)題進(jìn)行重構(gòu)。通過(guò)使用普通的回歸損失訓(xùn)練網(wǎng)絡(luò),獲得了更高的精度和更快的同步收斂速度。Guo等人[22]采用圖形引擎生成的合成數(shù)據(jù)收集大量深度數(shù)據(jù),使用立體匹配網(wǎng)絡(luò)從合成數(shù)據(jù)中學(xué)習(xí)深度,并預(yù)測(cè)立體視差圖來(lái)監(jiān)控單目深度估計(jì)網(wǎng)絡(luò)。Jiang等人[23]

        為了從單個(gè)圖像中預(yù)測(cè)相對(duì)場(chǎng)景深度,在網(wǎng)絡(luò)中引入了一些特征,這些特征使得一組下游任務(wù)(包括語(yǔ)義分割、聯(lián)合道路分割和車(chē)輛檢測(cè)以及單目(絕對(duì))深度估計(jì))在從頭開(kāi)始訓(xùn)練的網(wǎng)絡(luò)上有了很大的改進(jìn);對(duì)于單目深度估計(jì),該文章實(shí)現(xiàn)的無(wú)監(jiān)督預(yù)訓(xùn)練方法甚至優(yōu)于ImageNet的有監(jiān)督預(yù)訓(xùn)練。Kendall等人[51]也提出了一種新的深度學(xué)習(xí)架構(gòu),用于從校正后的立體圖像對(duì)中回歸視差。

        有監(jiān)督的深度學(xué)習(xí)往往缺乏足夠的訓(xùn)練數(shù)據(jù)。特別是在單目深度圖預(yù)測(cè)的情況下,在真實(shí)的室外環(huán)境中,幾乎不可能確定地面深度信息。Kuznietsov等人[24]提出了一種基于半監(jiān)督學(xué)習(xí)的單目圖像深度圖預(yù)測(cè)方法,使用稀疏的真值進(jìn)行監(jiān)督學(xué)習(xí),同時(shí)通過(guò)圖像對(duì)齊損失函數(shù)來(lái)產(chǎn)生密集深度圖。Li和Snavely[52]提出了MegaDepth的大型深度數(shù)據(jù)集,從運(yùn)動(dòng)和多視角立體(Multi-View Stereo, MVS)方法生成訓(xùn)練數(shù)據(jù),建議使用多視角互聯(lián)網(wǎng)照片集;通過(guò)驗(yàn)證了大量互聯(lián)網(wǎng)數(shù)據(jù),驗(yàn)證了模型具有很強(qiáng)的泛化能力:不僅可用于新場(chǎng)景,而且可用于其他不同的數(shù)據(jù)集,包括Make3D、KITTI和DIW。Liu[53]將單目深度估計(jì)表述為一個(gè)離散-連續(xù)優(yōu)化問(wèn)題(其中連續(xù)變量編碼表示圖像中超像素的深度,離散變量表示相鄰超像素之間的關(guān)系),利用粒子信念傳播在圖形模型中進(jìn)行推理,獲得離散-連續(xù)優(yōu)化問(wèn)題的解,解決了單一圖像中估計(jì)場(chǎng)景深度的問(wèn)題。

        為了解決GPU功耗高的問(wèn)題,利用從單個(gè)輸入圖像中提取的特征金字塔,可在CPU或嵌入式系統(tǒng)上,實(shí)現(xiàn)快速推斷出準(zhǔn)確深度圖的功能[28]。Montie等人[54]介紹了一種基于特征的單目SLAM系統(tǒng),該系統(tǒng)對(duì)嚴(yán)重的運(yùn)動(dòng)雜波具有魯棒性,允許較寬的基線環(huán)路閉合和重新定位,并包括完整的自動(dòng)初始化,可在各種操作系統(tǒng)環(huán)境中實(shí)時(shí)運(yùn)行。Zhan等人[29]使用立體序列學(xué)習(xí)深度和視覺(jué)里程測(cè)量,使空間(左右對(duì)之間)和時(shí)間(前向后)光度偏差的應(yīng)用成為可能,并限制場(chǎng)景深度和攝像頭運(yùn)動(dòng)在一個(gè)共同的尺度,可使單目序列獲取不錯(cuò)的單視點(diǎn)深度和雙視點(diǎn)里程。Wu等人[55]從提取真實(shí)世界物體尺寸的標(biāo)簽并根據(jù)尺寸標(biāo)簽的幾何關(guān)系推斷出一個(gè)粗糙的深度映射,同時(shí)對(duì)條件隨機(jī)場(chǎng)(CRF)進(jìn)行能量函數(shù)優(yōu)化并對(duì)深度圖進(jìn)行細(xì)化,對(duì)單目圖像深度估計(jì)問(wèn)題進(jìn)行了新探索。

        高分辨率是實(shí)現(xiàn)高保真自監(jiān)督單目深度預(yù)測(cè)的關(guān)鍵。Pillai等人[30]提出了一種采用深度超分辨率的亞像素卷積層擴(kuò)展的方案,從相應(yīng)的低分辨率卷積特征中精確地合成出高分辨率特征,同時(shí)引入了一個(gè)翻轉(zhuǎn)增強(qiáng)層,可以準(zhǔn)確地融合來(lái)自圖像及其水平翻轉(zhuǎn)版本的預(yù)測(cè)結(jié)果,減少由于遮擋而產(chǎn)生的左右陰影區(qū)域的影響,如圖10所示。Yang等人[56]介紹了一種用于無(wú)監(jiān)督深度估計(jì)框架的表面法線標(biāo)識(shí)方法,估算深度被限制為與預(yù)測(cè)法線兼容,從而產(chǎn)生更穩(wěn)健的深度估計(jì)結(jié)果。

        圖10 深度效果圖[30]Fig.10 Depth maps[30]

        單目視覺(jué)深度估計(jì)的難度很大,但由于存在成本優(yōu)勢(shì)而被廣泛研究。近年來(lái),基于深度學(xué)習(xí)的單目深度估計(jì)得到了有效提升,如利用深度神經(jīng)網(wǎng)絡(luò)對(duì)單個(gè)圖像進(jìn)行端到端的稠密深度圖估計(jì)。為了提高深度估計(jì)的精度,學(xué)術(shù)界提出了多種網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和訓(xùn)練策略,如單目自監(jiān)督的Monodepth2、GAN范式下無(wú)監(jiān)督深度估計(jì)的MonoGAN和基于深度注意的DABC網(wǎng)絡(luò)等,這些工作推動(dòng)了單目深度估計(jì)的快速發(fā)展。Madhu等人[19]使用未標(biāo)記的雙目立體圖像對(duì)訓(xùn)練,提出了基于深度網(wǎng)絡(luò)的無(wú)監(jiān)督視覺(jué)里程計(jì)系統(tǒng),用于六自由度攝像頭姿態(tài)估計(jì)和單目密集深度圖的獲取。

        3 視覺(jué)建圖

        通常,構(gòu)建SLAM稠密地圖的規(guī)模和計(jì)算量都較大,導(dǎo)致地圖的構(gòu)建很難滿足實(shí)時(shí)性要求;而基于深度視覺(jué)的建圖方案旨在快速構(gòu)建稠密準(zhǔn)確的高質(zhì)量地圖,可以實(shí)時(shí)提供給SLAM算法用于定位。視覺(jué)建圖需要與視覺(jué)里程計(jì)(VO)、回環(huán)檢測(cè)、后端非線性優(yōu)化配合以形成精確的建圖。下文將按照?qǐng)D11所列舉的視覺(jué)SLAM模塊進(jìn)行展開(kāi)。

        圖11 SLAM模塊Fig.11 SLAM architecture

        Schneider等人[1]提出Maplab視覺(jué)慣性測(cè)繪定位系統(tǒng),包括映射合并、視覺(jué)慣性批優(yōu)化和環(huán)路閉合,通過(guò)可創(chuàng)建視覺(jué)-慣性地圖的在線前端,實(shí)現(xiàn)在定位地圖中跟蹤一個(gè)全局無(wú)漂移姿態(tài)的處理和操作多會(huì)話映射。Konolige等人[2]用大量的點(diǎn)特征匹配視覺(jué)幀以實(shí)現(xiàn)特征提取,通過(guò)經(jīng)典束調(diào)整技術(shù),簡(jiǎn)化保留相對(duì)的幀姿態(tài)信息(骨架) ,獲得了較好的建圖效果,如圖12所示。

        圖12 一個(gè)100 m城市場(chǎng)景的骨架縮小。完整貝葉斯圖是700 幀和約100 K的特征[2]。Fig.12 Scaled-down map of a 100 m city. The complete Bayesian diagram is 700 frames and about 100 K[2].

        Blake等人[57]采用混合不同圖像特征的方法,用以提高映射的準(zhǔn)確性和一致性。Qin等人[58]利用魯棒語(yǔ)義特征,構(gòu)建了停車(chē)場(chǎng)的地圖和車(chē)輛定位,如圖13所示。右下角的圖是地下停車(chē)場(chǎng),較大的圖形是該停車(chē)場(chǎng)的語(yǔ)義視覺(jué)地圖,由語(yǔ)義特征(引導(dǎo)標(biāo)志、停車(chē)線、減速帶)組成。這張地圖可用于以厘米級(jí)精度對(duì)車(chē)輛進(jìn)行定位。與傳統(tǒng)特征相比,這些語(yǔ)義特征對(duì)透視和光照變化具有長(zhǎng)期的穩(wěn)定性和魯棒性。Xavier等人[3-4]則提出了用人工標(biāo)記特征實(shí)現(xiàn)SLAM的方法。

        圖13 語(yǔ)義視覺(jué)地圖[58]Fig.13 Semantic visual map[58]

        如圖14所示, Fernandez等人[4]通過(guò)智能標(biāo)記系統(tǒng)實(shí)現(xiàn)運(yùn)動(dòng)估計(jì),根據(jù)一組校準(zhǔn)圖像和PMS單元收集的方向/距離測(cè)量數(shù)據(jù)來(lái)估計(jì)標(biāo)記的姿態(tài),可以對(duì)具有正確比例尺的單目攝像頭進(jìn)行高精度的定位。Saeedi等人[59]通過(guò)開(kāi)發(fā)新的度量,在不依賴任何SLAM或運(yùn)動(dòng)估計(jì)算法的情況下正確地評(píng)估軌跡和環(huán)境。

        圖14 智能標(biāo)記:前面一個(gè)正方形平面基準(zhǔn)標(biāo)記(a),以及一個(gè)嵌入式姿態(tài)測(cè)量系統(tǒng)(PMS)單元 (b)[4]。Fig.14 Smart marker: a square plane fiducial mark in the front (a), and an embedded attitude measurement system (PMS) unit (b)[4].

        回環(huán)誤差檢測(cè)方面,Usenko等人[60]提出了利用非線性因子從視覺(jué)慣性里程測(cè)量中提取相關(guān)信息來(lái)進(jìn)行視覺(jué)慣性映射,通過(guò)重建一組非線性因子,使VIO積累的軌跡上的信息成為最佳近似,可使用Bundle調(diào)整這些因素以獲得全局一致的映射。VIO因子使全局映射的橫傾角和俯仰角變得可見(jiàn),從而提高了映射的魯棒性和精度。Xiao等人[61]在跟蹤線程中通過(guò)選擇性跟蹤算法對(duì)動(dòng)態(tài)目標(biāo)的特征點(diǎn)進(jìn)行處理,顯著減少了由于不正確匹配而導(dǎo)致的姿態(tài)估計(jì)誤差。

        在建圖方面,視覺(jué)建圖也采用幀對(duì)幀匹配來(lái)生成詳細(xì)的局部映射以及大回路的閉合。Qin等人[58]采用4個(gè)全景攝像頭來(lái)增加感知范圍,在慣性測(cè)量單元和車(chē)輪編碼器的輔助下,生成全局視覺(jué)語(yǔ)義圖。Hong和Kim[62]主要通過(guò)調(diào)整一個(gè)二維坐標(biāo)系的局部圖像以生成一個(gè)全局地圖,并做出適當(dāng)?shù)募m正以生成3D面板,如圖15所示。

        圖15 3D面板的姿態(tài)估計(jì)示例。實(shí)際面板的方向可以通過(guò)對(duì)旋轉(zhuǎn)矩陣Rci進(jìn)行逆(轉(zhuǎn)置)來(lái)估計(jì)[62]。Fig.15 An example of pose estimation for a 3D panel. The direction of the actual panel can be estimated by inverting (transposing) the rotation matrix Rci[62].

        4 結(jié) 論

        本文從視覺(jué)SLAM視覺(jué)深度的預(yù)測(cè)及視覺(jué)建圖兩項(xiàng)核心技術(shù)入手,進(jìn)行研究分析。視覺(jué)深度預(yù)測(cè)部分的分析包含了視覺(jué)數(shù)據(jù)的采集方式和算法的監(jiān)督設(shè)計(jì),按照視覺(jué)數(shù)據(jù)的視覺(jué)采集技術(shù)從單目、雙目以及多目的不同角度進(jìn)行探討,根據(jù)算法的設(shè)計(jì)方案分別從全監(jiān)督、半監(jiān)督和無(wú)(自)監(jiān)督等角度進(jìn)行梳理;視覺(jué)建圖部分則包含了特征提取、運(yùn)動(dòng)估計(jì)、回環(huán)檢測(cè)和建圖等方面的最新方法綜述。研究表明:在視覺(jué)深度感知方面,未來(lái)的視覺(jué)深度感知策略仍然需要在硬件配置、算力需求和預(yù)測(cè)精度間尋求最優(yōu),單目雙目融合在成本和算力方面均有潛在優(yōu)勢(shì),并且可以同時(shí)實(shí)現(xiàn)對(duì)靜態(tài)和動(dòng)態(tài)目標(biāo)的三維重建,是未來(lái)的發(fā)展方向之一。在視覺(jué)語(yǔ)義建圖方面,由于可以提供更高層的語(yǔ)義特征,因而在算法上更具備魯棒性,是視覺(jué)建圖的發(fā)展方向,但由于語(yǔ)義分割算法本身對(duì)算力提出了較高的要求,算法需要與性能優(yōu)越的處理終端配合使用。在視覺(jué)建圖方面,特征提取是核心環(huán)節(jié)之一,按照計(jì)算量有小到大、精度由低到高可以分為點(diǎn)特征、圖像特征和語(yǔ)義特征匹配,所以需要根據(jù)計(jì)算量和精度的要求選擇合適的特征匹配策略;視覺(jué)建圖的另一項(xiàng)核心技術(shù)是運(yùn)動(dòng)估計(jì),其既可以通過(guò)視覺(jué)幀匹配來(lái)完成,也可以通過(guò)視覺(jué)融合慣性測(cè)量單元和車(chē)輪編碼器共同完成;后者由于提高了定位精度,可以生成更精準(zhǔn)的三維地圖。

        猜你喜歡
        深度圖單目視圖
        基于深度圖的3D-HEVC魯棒視頻水印算法
        一種單目相機(jī)/三軸陀螺儀/里程計(jì)緊組合導(dǎo)航算法
        單目SLAM直線匹配增強(qiáng)平面發(fā)現(xiàn)方法
        5.3 視圖與投影
        視圖
        Y—20重型運(yùn)輸機(jī)多視圖
        SA2型76毫米車(chē)載高炮多視圖
        一種基于局部直方圖匹配的深度編碼濾波算法
        基于CAD模型的單目六自由度位姿測(cè)量
        疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
        科技視界(2016年2期)2016-03-30 11:17:03
        亚洲一区二区三区av无| 女人张开腿让男桶喷水高潮| 中文字幕乱码亚洲精品一区| 国产suv精品一区二区6| 中国精学生妹品射精久久| 久久99久久99精品免观看女同| 日本黄色一区二区三区视频| 国产不卡视频在线观看| 日产精品99久久久久久| 色欲av蜜桃一区二区三| 亚洲国产成人精品无码区在线观看| 综合激情网站| 国产精品亚洲av国产| 国产激情自拍在线视频| 乱人妻中文字幕| 久久精品亚洲中文字幕无码网站 | 天天天天躁天天爱天天碰2018| а√天堂资源8在线官网在线 | 精品一区二区三区在线视频观看| 精品亚洲一区二区在线观看| 在线观看视频日本一区二区| 亚洲欧美国产精品久久| 国产精成人品| 国产亚洲精品综合一区| 日本精品久久中文字幕| 毛片成人18毛片免费看| 无码人妻一区二区三区免费视频| 人妻献身系列第54部| 午夜福利影院不卡影院| 精品av一区二区在线| 国产三级精品av在线| 国产乱子伦精品无码专区| a级国产乱理论片在线观看| 久久精品成人亚洲另类欧美| 久久精品女同亚洲女同 | 国产一区二区三区尤物| 精品无人码麻豆乱码1区2区| 精品高潮呻吟99av无码视频| 日本久久精品国产精品| 91九色国产老熟女视频| 日本中文字幕一区二区高清在线 |