亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        引入注意力機制的自監(jiān)督光流計算

        2022-11-02 11:22:56嚴仲興
        圖學(xué)學(xué)報 2022年5期
        關(guān)鍵詞:光流集上注意力

        安 峰,戴 軍,,韓 振,嚴仲興

        引入注意力機制的自監(jiān)督光流計算

        安 峰1,戴 軍1,2,韓 振2,嚴仲興1

        (1. 蘇州工業(yè)園區(qū)服務(wù)外包職業(yè)學(xué)院人工智能學(xué)院,江蘇 蘇州 215123;2. 同濟大學(xué)經(jīng)濟與管理學(xué)院,上海 210092)

        光流計算是諸多計算機視覺系統(tǒng)的關(guān)鍵模塊,廣泛應(yīng)用于動作識別、機器人定位與導(dǎo)航等領(lǐng)域。但目前端到端的光流計算仍受限于數(shù)據(jù)源的缺少,尤其是真實場景下的光流數(shù)據(jù)難以獲取。人工合成的光流數(shù)據(jù)占絕大多數(shù),且合成數(shù)據(jù)不能完全反應(yīng)真實場景(如樹葉晃動、行人倒影等),難以避免過擬合等情況。無監(jiān)督或自監(jiān)督方法可以利用海量的視頻數(shù)據(jù)進行訓(xùn)練,擺脫了對數(shù)據(jù)集的依賴,是解決數(shù)據(jù)集缺少的有效途徑?;诖舜罱艘粋€自監(jiān)督學(xué)習(xí)光流計算網(wǎng)絡(luò),其中的“Teacher”模塊和“Student”模塊集成了最新光流計算網(wǎng)絡(luò):稀疏相關(guān)體網(wǎng)絡(luò)(SCV),減少了計算冗余量;同時引入注意力模型作為網(wǎng)絡(luò)的一個節(jié)點,以提高圖像特征在通道和空間上的維度屬性。將SCV與注意力機制集成在自監(jiān)督學(xué)習(xí)光流計算網(wǎng)絡(luò)之中,在KITTI 2015數(shù)據(jù)集上的測試結(jié)果達到或超過了常見的有監(jiān)督訓(xùn)練網(wǎng)絡(luò)。

        光流計算;自監(jiān)督學(xué)習(xí);卷積注意力模塊;空間/通道注意力;稀疏相關(guān)體

        一直以來,光流計算被視為是一個優(yōu)化求解問題[1],近年來隨著深度學(xué)習(xí)的發(fā)展,涌現(xiàn)出較多的端到端深度網(wǎng)絡(luò)可直接計算光流值[2-5]。這些網(wǎng)絡(luò)的訓(xùn)練需要海量的圖像對和標(biāo)簽數(shù)據(jù),然而真實場景下光流標(biāo)簽數(shù)據(jù)的獲取是非常困難的,需要追蹤每一個像素的運動(如將場景布置上熒光粉,然后用特殊的運動捕獲系統(tǒng)來獲得相應(yīng)的光流)。所以,人們更多地使用人工合成的數(shù)據(jù)集進行相關(guān)訓(xùn)練,這又帶來與真實場景的不匹配問題。在真實場景下,行人與建筑物的倒影、移動的云朵就很難在合成數(shù)據(jù)集中體現(xiàn)出來,這就是很多光流計算方案在KITTI[6]數(shù)據(jù)集上表現(xiàn)不佳的原因。

        而無監(jiān)督訓(xùn)練的方式可以很好地彌補這一情況:數(shù)據(jù)來源可為互聯(lián)網(wǎng)上免費獲得的無標(biāo)記視頻。通過利用這些多樣化的無標(biāo)簽真實數(shù)據(jù)進行訓(xùn)練,提高了生成模型的通用性和計算效果。

        自監(jiān)督學(xué)習(xí)基于無監(jiān)督學(xué)習(xí)基礎(chǔ)之上,通常會包含2個相同的子網(wǎng)絡(luò):“Teacher”和“Student”。首先進行“Teacher”的無監(jiān)督學(xué)習(xí)并獲得光流,這個值作為“Student”的標(biāo)簽;然后通過對“Student”設(shè)置各種“障礙”,如圖像增強、生成陰影等操作,并基于這些數(shù)據(jù)進行監(jiān)督學(xué)習(xí),從而完成一次訓(xùn)練,也被稱為“數(shù)據(jù)提純”。在測試環(huán)節(jié),無需“Teacher”參與,只需“Student”進行預(yù)測,計算時長為毫秒級。圖1是自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)的體系結(jié)構(gòu)。

        圖1 自監(jiān)督學(xué)習(xí)的體系結(jié)構(gòu)

        自監(jiān)督學(xué)習(xí)通過這種方式改善了無監(jiān)督學(xué)習(xí)的不足,提高了光流計算效果。圖2描述了“Teacher”與“Student”的計算過程,兩者有相同的特征提取、注意力提取模塊和基礎(chǔ)光流計算網(wǎng)絡(luò);不同的輸入圖像和損失函數(shù)。

        圖2“Teacher”與“Student”的網(wǎng)絡(luò)結(jié)構(gòu)

        圖2中SCV(sparse correlation volume)指的是一款新的光流計算網(wǎng)絡(luò),其主要特點是計算稀疏相關(guān)體、通過門控循環(huán)單元(gated recurrent unit,GRU)完成光流迭代增量的計算,詳見2.4節(jié)。

        本文對自監(jiān)督學(xué)習(xí)中的子網(wǎng)絡(luò)進行了擴展,主要貢獻有以下幾點:

        (1) 采用SCV[7]作為基礎(chǔ)網(wǎng)絡(luò),僅對前個相關(guān)像素建立稀疏相關(guān)體,與計算稠密相關(guān)體的網(wǎng)絡(luò)相比,系統(tǒng)精簡且計算精度不變。

        (2) 將注意力機制引入到系統(tǒng)中,可以提取通道與空間維度上的更重要信息,提高了網(wǎng)絡(luò)整體處理能力,減少了網(wǎng)絡(luò)的參數(shù)量和復(fù)雜程度。

        (3) 完整的自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),在Sintel[8],F(xiàn)lying Chairs[9],Middlebury[10]和KITTI數(shù)據(jù)集上進行系統(tǒng)實驗。

        1 相關(guān)工作

        1.1 經(jīng)典方法

        經(jīng)典方法將光流計算視作求能量最小化的優(yōu)化問題,如式(1)。HORN[1]使用變分法求解這個連續(xù)優(yōu)化問題;Barron[11]第一次提出光流數(shù)據(jù)集和評估方法;BROX等[12]利用warping和LDOF方案來解決大位移運動。

        其中,Data為數(shù)據(jù)項;Prior為先驗項;為調(diào)節(jié)數(shù)據(jù)項與先驗項權(quán)重的因子。

        1.2 監(jiān)督學(xué)習(xí)光流計算

        文獻[9]設(shè)計了Flying Chairs數(shù)據(jù)集,首次使用卷積網(wǎng)絡(luò)進行光流計算,給出了“FlowNetS”和“FlowNetC”2個網(wǎng)絡(luò)框架;FlowNet2[13]通過堆疊FlowNetS和FlowNetC、改進訓(xùn)練方案和針對小位移的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計等,極大地提高了光流計算的精度和性能。但FlowNet2的網(wǎng)絡(luò)參數(shù)超過了160 M,同時需要較長的訓(xùn)練時間。文獻[14-15]均結(jié)合了“變形、代價體和金字塔”(warping,cost volume,pyramid,WCP)等技術(shù),不同程度地提高了準確度、降低了系統(tǒng)框架的參數(shù)大小和計算時間。

        1.3 無監(jiān)督學(xué)習(xí)光流計算

        上述這些無監(jiān)督的學(xué)習(xí)方法均只能處理遮擋像素的特定情況,或借助于除光流之外的信息,而缺乏對光流的進一步提取,通過自監(jiān)督學(xué)習(xí)的方式可以起到進一步的優(yōu)化作用。

        1.4 自監(jiān)督學(xué)習(xí)光流計算

        自監(jiān)督學(xué)習(xí)從數(shù)據(jù)中生成監(jiān)督信號,如DDFlow[20]通過數(shù)據(jù)提純的方式人為設(shè)置更大地學(xué)習(xí)障礙來達到自監(jiān)督學(xué)習(xí)效果。后續(xù)如SelFlow[21]等繼續(xù)設(shè)計更苛刻地學(xué)習(xí)障礙,如通過超像素達到遮擋效果,取得較好地計算精度。文獻[22-24]借助于事件相機、陀螺儀或激光雷達數(shù)據(jù)進行學(xué)習(xí),而本文在訓(xùn)練和測試時僅通過計算RGB圖像進行光流計算,不依賴其他硬件設(shè)備。DistillFlow[25]通過訓(xùn)練多個“Teacher”模式獲得高置信度標(biāo)簽數(shù)據(jù),對“Student”模塊起到監(jiān)督作用。SMURF[26]使用RAFT作為基本網(wǎng)絡(luò),甚至超過了部分監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)的計算效果,例如PWC-Net和FlowNet2。

        與上述網(wǎng)絡(luò)不同,本文首次結(jié)合SCV與注意力機制來進行特征提取與處理,通過計算稀疏相關(guān)體,既減輕了存儲與計算相關(guān)體的負擔(dān),同時在計算精度上仍然達到與SMURF相當(dāng)?shù)某潭取?/p>

        2 方 法

        2.1 基本定義

        2.2 特征提取

        2.3 特征注意力提取

        經(jīng)特征提取后,可以得到源圖像1/8分辨率的特征圖,經(jīng)典做法是直接通過特征圖進行后續(xù)計算。但光流的特性決定了其分布在圖像的特定區(qū)域內(nèi),可能位于空間相鄰的2個像素間,且運動特性完全不同。又如存在運動模糊的區(qū)域,光流很難被正確解析。因此,需要對特征進一步地進行提取,以得到需要特別注意的像素點,這樣在后續(xù)的光流計算階段,就可得到更好地解析結(jié)果,因此引入了特征注意力模塊。

        圖3 特征提取網(wǎng)絡(luò)

        經(jīng)過注意力模塊可以得到通道和空間維度上更重要的信息,這為后續(xù)的光流處理打下良好的基礎(chǔ)(圖4)。

        圖4 卷積注意力機制模塊CBAM

        2.4 基礎(chǔ)網(wǎng)絡(luò)SCV

        其中,(,)由式(2)定義;argmax為取出滿足相關(guān)性最大的個記錄;通常會被設(shè)置為較小的數(shù)字(如32)。

        2.5 網(wǎng)絡(luò)結(jié)構(gòu)與損失函數(shù)

        圖5 SCV網(wǎng)絡(luò)結(jié)構(gòu)

        其中,通過Census Loss[17]計算距離。

        其中,,為特征的長和寬,依次求圖像亮度在,方向的階導(dǎo)數(shù)平均值。

        借鑒SCV網(wǎng)絡(luò)的迭代增量式進行光流計算:每一步的光流預(yù)測值+1=f+D+1,計算所得的結(jié)果為一個光流序列。因此利用式(7)計算序列中每一步損失,即網(wǎng)絡(luò)總損失為

        其中,權(quán)重在數(shù)據(jù)集Sintel和KITTI上微調(diào)訓(xùn)練時設(shè)置為0.85,總步驟=8。

        3 實 驗

        3.1 實現(xiàn)細節(jié)

        實驗在MPI Sintel和KITTI數(shù)據(jù)集上進行,前者數(shù)據(jù)是人工合成;后者來自于真實場景(根據(jù)發(fā)布年份,可分為KITTI 2012和KITTI 2015,文中統(tǒng)稱KITTI)。與其他算法實驗流程不同,本文未在Flying Chairs和Flying Things等數(shù)據(jù)集上進行預(yù)訓(xùn)練,而是直接在Sintel和KITTI數(shù)據(jù)集上進行訓(xùn)練和微調(diào)。即先基于數(shù)據(jù)集提供的“raw”場景數(shù)據(jù)進行訓(xùn)練,然后在標(biāo)準數(shù)據(jù)集場景下進行微調(diào)訓(xùn)練。

        在Sintel數(shù)據(jù)集上訓(xùn)練時,首先基于Sintel數(shù)據(jù)集提供的raw影片進行幀提取,共獲得14 570個圖片對;然后在Sintel的標(biāo)準數(shù)據(jù)集序列“Clean”和“Final”上進行微調(diào),共1 041個圖片對。因為Sintel測試集不公開標(biāo)簽數(shù)據(jù),所以模型基于測試集進行訓(xùn)練,在訓(xùn)練集上評估。

        在KITTI上進行訓(xùn)練時,也是基于其提供的raw數(shù)據(jù)序列進行預(yù)訓(xùn)練,共包含28 058幅圖片對;然后在“多視角”數(shù)據(jù)序列中進行微調(diào),共包含3 600幅采樣圖片對。

        3.2 結(jié)果與分析

        表1顯示了在Sintel數(shù)據(jù)集上與已有網(wǎng)絡(luò)的量化比較,在“Clean”和“Final”序列上均達到或接近最新的計算效果。其中數(shù)據(jù)來源于各自論文中的測試結(jié)果。

        表1 在Sintel數(shù)據(jù)集上的結(jié)果對比

        注:-為部分算法未在train序列上提供結(jié)果

        表2顯示在KITTI數(shù)據(jù)集上的量化比較,從表中可以看出,與最新的有監(jiān)督訓(xùn)練相比,還存在著差距,但已經(jīng)達到或超過了部分的有監(jiān)督訓(xùn)練結(jié)果。

        表2 在KITTI數(shù)據(jù)集上的結(jié)果對比

        表3顯示了在引入注意力節(jié)點前后的數(shù)據(jù)對比,可以看到在引入注意力之后,EPE有較大的改善。同時,空間注意力對整體網(wǎng)絡(luò)的影響比通道注意力的影響稍大。

        表3 引入注意力前后的結(jié)果對比

        表4顯示不同基礎(chǔ)網(wǎng)絡(luò)對計算結(jié)果的影響,可看出基礎(chǔ)網(wǎng)絡(luò)本身的計算精度在很大程度上決定了整個系統(tǒng)的計算結(jié)果。

        表4 不同基礎(chǔ)網(wǎng)絡(luò)的結(jié)果對比

        圖6是特征經(jīng)過注意力節(jié)點前后的情況,第1行是原圖與目標(biāo)圖;第2行和第4行分別是沒有注意力時的6層特征;第3和第5行是加上注意力后的6層特征,其在空間與通道維度上的圖像特征更加集中、細節(jié)上更清晰,便于后續(xù)的光流計算。

        圖6 特征圖與注意力特征圖((a)源圖和目標(biāo)圖;(b) 1~3層特征圖;(c)注意力特征圖;(d) 4~6層特征圖;(e)注意力特征圖)

        圖7是在KITTI數(shù)據(jù)集上的光流計算結(jié)果圖形化顯示,圖左可正確捕捉到室外行駛車輛的運動情況,但錯誤地認為右側(cè)停放的車輛也在運動。

        圖7 KITTI數(shù)據(jù)集測試結(jié)果((a)源圖;(b)預(yù)測光流)

        表5是使用稀疏相關(guān)體的SCV網(wǎng)絡(luò)與使用稠密相關(guān)體的RAFT網(wǎng)絡(luò)的數(shù)據(jù)量與存儲空間的對比。從表中可以看出,當(dāng)=8時,稀疏相關(guān)體的數(shù)據(jù)量僅為RAFT的1/1000,可大大節(jié)省算力。

        表5 SCV與RAFT結(jié)果對比

        注:表中1/4分辨率的存儲空間未列出

        表6是在Sintel數(shù)據(jù)集上進行訓(xùn)練,不同網(wǎng)絡(luò)所占用的空間對比,從表中可以看出使用SCV網(wǎng)絡(luò)在訓(xùn)練時可以減少約50%的存儲空間。

        圖8中4幅圖為在Sintel數(shù)據(jù)集的光流計算結(jié)果圖形化顯示,包含了快速移動和細微運動(竹子擺動)等情況。第二列是對應(yīng)的光流標(biāo)簽數(shù)據(jù),第三、四列分別是RAFT和ARFlow,最后一列是本文所模型的計算結(jié)果。從圖中對比可以看到,在快速移動和細微運動時,本文模型均能捕捉到相應(yīng)的運動細節(jié)。尤其是在第一行的計算當(dāng)中,由于其左側(cè)的物體運動出圖片范圍,導(dǎo)致了在目標(biāo)圖像中并沒有相對應(yīng)的元素。如RAFT就沒有顯示出被遮擋物體的正確運動情況。而本方案可以比較清晰地看到被遮擋物體中的像素運動情況。

        表6 訓(xùn)練時占用空間對比(GB)

        圖8 在Sintel數(shù)據(jù)集上的測試結(jié)果((a)源圖;(b)標(biāo)簽數(shù)據(jù);(c) RAFT;(d) ARFLow;(e)本文)

        3.3 不 足

        本文提出的自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)與監(jiān)督網(wǎng)絡(luò)相比,不足之處是沒有將真實的光流標(biāo)簽作為訓(xùn)練目標(biāo):①難以處理一些具有迷惑類型的運動;②關(guān)注圖像視覺變化而不是實際對象的移動,如云彩或物體影子的運動;③錯誤的標(biāo)簽光流帶來負面的引導(dǎo)作用,所以需在“Teacher”訓(xùn)練時增加預(yù)測結(jié)果的可信度參數(shù),在計算“Student”損失函數(shù)時引入可信度參數(shù)。在后續(xù)的工作中,針對圖像進行語義分割、對象識別操作方面的預(yù)處理工作,或引入其他類型的傳感器以獲得更多輔助信息。

        4 結(jié) 論

        本文提出的自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),減少了對數(shù)據(jù)集的依賴,縮短了與監(jiān)督學(xué)習(xí)之間的差距,是光流計算方法的一種新探索。在后續(xù)研究當(dāng)中,會借鑒更多語義分割和事件相機方面的研究成果來輔助進行光流計算。

        [1] HORN B K P, SCHUNCK B G. Determining optical flow[J]. Artificial Intelligence, 1981, 17(1-3): 185-203.

        [2] SUN D, YANG X, LIU M Y, et al. Pwc-net: CNNs for optical flow using pyramid, warping, and cost volume[C]//The IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8934-8943.

        [3] TEED Z, DENG J. Raft: recurrent all-pairs field transforms for optical flow[M]// Computer Vision-ECCV 2020. Cham: Springer International Publishing, 2020: 402-419.

        [4] HUI T W, TANG X O, LOY C C. LiteFlowNet: a lightweight convolutional neural network for optical flow estimation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8981-8989.

        [5] ZHAO S Y, SHENG Y L, DONG Y, et al. MaskFlownet: asymmetric feature matching with learnable occlusion mask[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 6277-6286.

        [6] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.

        [7] JIANG S H, LU Y, LI H D, et al. Learning optical flow from a few matches[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognitio. New York: IEEE Press, 2021: 16587-16595.

        [8] BUTLER D J, WULFF J, STANLEY G B, et al. A naturalistic open source movie for optical flow evaluation[M]//Computer Vision - ECCV 2012. Cham: Springer International Publishing, 2012: 611-625.

        [9] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2758-2766.

        [10] BAKER S, SCHARSTEIN D, LEWIS J P, et al. A database and evaluation methodology for optical flow[J]. International Journal of Computer Vision, 2011, 92(1): 1-31.

        [11] BARRON J L, FLEET D J, BEAUCHEMIN S S. Performance of optical flow techniques[J]. International Journal of Computer Vision, 1994, 12(1): 43-77.

        [12] BROX T, BRUHN A, PAPENBERG N, et al. High accuracy optical flow estimation based on a theory for warping[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2004: 25-36.

        [13] ILG E, MAYER N, SAIKIA T, et al. FlowNet 2.0: evolution of optical flow estimation with deep networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1647-1655.

        [14] RANJAN A, BLACK M J. Optical flow estimation using a spatial pyramid network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2720-2729.

        [15] HUR J, ROTH S. Iterative residual refinement for joint optical flow and occlusion estimation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5747-5756.

        [16] YU J J, HARLEY A W, DERPANIS K G. Back to basics: unsupervised learning of optical flow via brightness constancy and motion smoothness[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2016: 3-10.

        [17] MEISTER S, HUR J, ROTH S. UnFlow: unsupervised learning of optical flow with a bidirectional census loss[EB/OL]. [2022-01-11]. https//arxiv.org/pdf/1711.07837.pdf.

        [18] JONSCHKOWSKI R, STONE A, BARRON J T, et al. What matters in unsupervised optical flow[M]//Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 557-572

        [19] LI J F, ZHAO J Q, SONG S F, et al. Unsupervised joint learning of depth, optical flow, ego-motion from video[EB/OL]. [2022-01-12]. https://arxiv.org/abs/2105.14520.

        [20] LIU P P, KING I, LYU M R, et al. DDFlow: learning optical flow with unlabeled data distillation[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33: 8770-8777.

        [21] LIU P P, LYU M, KING I, et al. SelFlow: self-supervised learning of optical flow[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 4566-4575.

        [22] LEE C, KOSTA A K, ZHU A Z, et al. Spike-FlowNet: event-based optical flow estimation with energy-efficient hybrid neural networks[M]//Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 366-382.

        [23] LI H P, LUO K M, LIU S C. GyroFlow: gyroscope-guided unsupervised optical flow learning[C]//2021 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2021: 12849-12858.

        [24] GUO X Z, LIN X H, ZHAO L L, et al. An unsupervised optical flow estimation for lidar image sequences[C]//2021 IEEE International Conference on Image Processing. New York: IEEE Press, 2021: 2613-2617.

        [25] LIU P, LYU M R, KING I, et al. Learning by distillation: a self-supervised learning framework for optical flow estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(9): 5026-5041.

        [26] STONE A, MAURER D, AYVACI A, et al. SMURF: self-teaching multi-frame unsupervised RAFT with full-image warping[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 3886-3895.

        [27] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

        Self-supervised optical flow estimation with attention module

        AN Feng1, DAI Jun1,2, HAN Zhen2, YAN Zhong-xing1

        (1. School of Artificial Intelligence, Suzhou Industrial Park Institute of Services Outsourcing, Suzhou Jiangsu 215123, China; 2. School of Economics & Management, Tongji University, Shanghai 210092, China)

        Optical flow estimation is the key module of many computer vision systems, which is widely utilized in motion recognition, robot positioning, and navigation. However, due to the absence of labeled optical flow datasets of real scenes, synthetic datasets were used as the main training data sources, and synthetic data could not fully represent real scenes (such as leaf movement and pedestrian reflection). Unsupervised or self-supervised methods could employ a large amount of video data for training, and at the same time facilitate fine-tuning of supervised training, which was an effective way to solve the lack of datasets. In this paper, a self-supervised learning optical flow calculation network was constructed, in which the “Teacher” module and the “Student” module adopted sparse correlation volume (SCV) network to reduce the redundancy of correlation computation, and the attention model was introduced as a node of the network, in order to enhance the dimension attribute of image feature in terms of channel and space. This paper marks the first endeavor to implement a self-supervised optical flow computing network based on SCV. The test results on the KITTI 2015 dataset could reach or outperform those of the common supervised training networks such as FlowNet and LightFlowNet.

        optical flow estimation; self-supervised learning; convolutional block attention module; spatial/channel attention; sparse correlation volume

        TP 242

        10.11996/JG.j.2095-302X.2022050841

        A

        2095-302X(2022)05-0841-08

        2022-04-08;

        2022-05-31

        8 April,2022;

        31 May,2022

        國家自然科學(xué)基金項目(71272048);江蘇省高?!扒嗨{工程”優(yōu)秀教學(xué)團隊項目(蘇教師函[2020]10號)

        National Natural Science Foundation of China (71272048); Jiangsu “Qing Lan Project” ([2020] 10)

        安 峰(1978-),男,碩士研究生。主要研究方向為光流計算與SLAM等。E-mail:anf@siso.edu.cn

        AN Feng (1978-), master student. His main research interests cover optical flow estimation and SLAM, etc. E-mail:anf@siso.edu.cn

        戴 軍(1976-),男,教授,博士。主要研究方向為系統(tǒng)工程與決策。E-mail:daij@siso.edu.cn

        DAI Jun (1976-), professor, Ph.D. His main research interests cover system engineering and decision, computer vision, etc. E-mail:daij@siso.edu.cn

        猜你喜歡
        光流集上注意力
        利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
        讓注意力“飛”回來
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        基于物理學(xué)的改善粒子圖像測速穩(wěn)健光流方法研究
        復(fù)扇形指標(biāo)集上的分布混沌
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        融合光流速度場與背景差分的自適應(yīng)背景更新方法
        幾道導(dǎo)數(shù)題引發(fā)的解題思考
        日韩欧群交p片内射中文| 好看的中文字幕中文在线| 激情五月开心五月麻豆| 337p人体粉嫩胞高清视频| a在线观看免费网站大全| 天堂AV无码AV毛片毛| 日本韩国三级在线观看| 欧美丰满熟妇xxxx性ppx人交 | 亚洲国产熟女精品传媒| 久久久国产乱子伦精品作者| 久久精品国产精品亚洲毛片 | 亚洲综合欧美日本另类激情| 一区二区三区蜜桃在线视频| 国产草逼视频免费观看| 色综合色狠狠天天综合色| 国产精品多人P群无码| 亚洲国产一区二区三区视频在线 | 成人欧美一区二区三区在线观看| 无码人妻精品一区二区三区在线| 久久一区二区三区不卡| 日韩一二三四区在线观看| 亚洲成熟丰满熟妇高潮xxxxx| 欧美最猛黑人xxxxx猛交| 国产精品亚洲A∨无码遮挡| 精彩视频在线观看一区二区三区| 男女猛烈xx00免费视频试看| 美女黄18以下禁止观看| 黄色三级视频中文字幕| 国产变态av一区二区三区调教| 中文字幕+乱码+中文字幕一区| 精品人妻无码中文字幕在线| 91麻豆精品久久久影院| 日本真人边吃奶边做爽电影| 在线播放亚洲第一字幕| 日本一区二区三区啪啪| 国产一区二区三区在线蜜桃| 国语精品一区二区三区| 亚洲精品中文字幕观看| 乳乱中文字幕熟女熟妇| 在线观看视频播放| 亚洲国产精品线路久久|