亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)受限條件下的多模態(tài)處理技術(shù)綜述

        2022-10-21 01:55:58王佩瑾閆志遠(yuǎn)容雪娥李俊希路曉男胡會揚嚴(yán)啟煒孫顯
        中國圖象圖形學(xué)報 2022年10期
        關(guān)鍵詞:模態(tài)深度監(jiān)督

        王佩瑾,閆志遠(yuǎn),容雪娥,李俊希,路曉男,胡會揚,嚴(yán)啟煒,孫顯

        1.中國科學(xué)院空天信息創(chuàng)新研究院,北京 100190;2.中國科學(xué)院大學(xué)電子電氣與通信工程學(xué)院,北京 100049;3.中國科學(xué)院空天信息創(chuàng)新研究院網(wǎng)絡(luò)信息體系技術(shù)科技創(chuàng)新重點實驗室,北京 100190

        0 引 言

        模態(tài)是事物的一種表現(xiàn)形式,是對事物某特定角度的描述。多模態(tài)通常包含兩個或者兩個以上的模態(tài)形式,是指從多個視角出發(fā)對事物進(jìn)行描述。人們在感知世界時,多種感官總是同時接收外在信息,如看見圖像、聽見聲音、聞到氣味和觸摸感知等。隨著多媒體技術(shù)的發(fā)展,可獲取的媒體數(shù)據(jù)在種類和量級上都大幅提升。例如,傳感器不僅可以生成圖像或者視頻,還包含與之匹配的深度、溫度信息等。為使人工智能技術(shù)更好地解譯數(shù)據(jù),必須使人工智能具有多模態(tài)學(xué)習(xí)的能力。

        在人工智能技術(shù)的早期研究中,學(xué)者通常使用單一模態(tài)的數(shù)據(jù)。受到人類感知方式的啟發(fā),研究認(rèn)為每個模態(tài)對事物的描述具有相對獨立性,使用多模態(tài)數(shù)據(jù)的互補(bǔ)表述能夠使事物呈現(xiàn)更立體、表現(xiàn)更全面(Baltru?aitis等,2019)。近年來,多模態(tài)數(shù)據(jù)的處理和應(yīng)用成為重點研究方向,在情感分析、機(jī)器翻譯、自然語言處理和生物醫(yī)學(xué)等前沿方向取得了重要突破。計算機(jī)視覺是深度學(xué)習(xí)的重要應(yīng)用領(lǐng)域和熱點研究問題,本文重點圍繞多模態(tài)在計算機(jī)視覺領(lǐng)域的發(fā)展進(jìn)行介紹。

        如圖1所示,計算機(jī)視覺領(lǐng)域內(nèi)的多模態(tài)學(xué)習(xí)主要是通過對圖像、視頻等多模態(tài)數(shù)據(jù)進(jìn)行分析,學(xué)習(xí)并互補(bǔ)不同模態(tài)間的信息,實現(xiàn)圖像檢測識別、語義分割和視頻動作預(yù)測等任務(wù)(Liu 和Wang,2015;Eigen和Fergus,2015),并廣泛應(yīng)用于自動駕駛、農(nóng)業(yè)監(jiān)測、生物醫(yī)療、交通管理和災(zāi)難預(yù)測等領(lǐng)域。如在醫(yī)學(xué)領(lǐng)域,醫(yī)學(xué)影像作為醫(yī)療診斷的重要依據(jù),相較于單角度描述病灶特征的圖像,多模態(tài)醫(yī)療影像能有效輔助醫(yī)生從多個層面聯(lián)合判斷病灶及其周邊部分,加快診斷時間;在遙感領(lǐng)域,單傳感器依據(jù)設(shè)備特點從某種固定的角度描述地理目標(biāo),獨立分析時會受到成像原理限制,而對不同成像方式、不同傳感器獲取到的多模態(tài)遙感影像進(jìn)行分析,可以有效提取地物目標(biāo)的綜合信息。

        圖1 多模態(tài)數(shù)據(jù)受限解決方法及應(yīng)用

        盡管多模態(tài)數(shù)據(jù)在描述事物特征時有著明顯的優(yōu)勢,但目前仍面臨著較大的挑戰(zhàn)。1)雖然成像技術(shù)層出不窮,但其同步帶來的圖像、視頻數(shù)據(jù)的處理和標(biāo)注任務(wù)有著不容忽視的工作量,需要耗費較多的時間成本和人力資源。2)傳統(tǒng)深度學(xué)習(xí)模型需要將多模態(tài)數(shù)據(jù)匹配成對用于研究,任一模態(tài)的缺失都會造成可用數(shù)據(jù)的減少。3)由于使用目的是利用多模態(tài)互補(bǔ)的特性,因此對數(shù)據(jù)內(nèi)部的完整度要求較高,但受到不同成像設(shè)備和傳感器的限制,數(shù)據(jù)量少、質(zhì)量模糊和缺失現(xiàn)象嚴(yán)重,這些現(xiàn)象都會對后續(xù)的研究造成不利影響。因此,在數(shù)據(jù)受限的前提下進(jìn)行的多模態(tài)處理研究具有重要的現(xiàn)實意義。

        面對以上的難點問題,根據(jù)多模態(tài)樣本數(shù)量、標(biāo)注信息和樣本質(zhì)量等不同的維度,目前處理多模態(tài)數(shù)據(jù)受限的方法主要分為以下幾類:

        1)小樣本學(xué)習(xí)方法。在多模態(tài)數(shù)據(jù)不足的情況下,小樣本學(xué)習(xí)方法僅通過學(xué)習(xí)少量樣本就能做出正確判斷的認(rèn)知能力,在數(shù)據(jù)量匱乏的情況下仍能夠有效地學(xué)習(xí)目標(biāo)特征。

        2)缺乏強(qiáng)監(jiān)督標(biāo)注信息的方法。由于數(shù)據(jù)標(biāo)注過程會產(chǎn)生高額的成本,較難獲取所有模態(tài)的全部真值標(biāo)簽對模型進(jìn)行強(qiáng)監(jiān)督學(xué)習(xí)。常見的非完全監(jiān)督的方法有基于弱監(jiān)督、無監(jiān)督、半監(jiān)督和自監(jiān)督的學(xué)習(xí)方法,這些方法可以有效改善模態(tài)缺乏標(biāo)注信息的問題,大大減少人工標(biāo)注成本。

        3)主動學(xué)習(xí)方法。該類方法通過設(shè)計具有自主學(xué)習(xí)能力的模型,將人類經(jīng)驗與學(xué)習(xí)規(guī)則充分結(jié)合,致力于研究如何使用標(biāo)注盡可能少的樣本來獲得盡可能較好的效果。通過選擇最有用的樣本,可以在保持性能的同時有效降低標(biāo)注成本。

        4)數(shù)據(jù)去噪方法。在多模態(tài)數(shù)據(jù)的獲取和處理的過程中,外界環(huán)境和設(shè)備內(nèi)部因素都可能會引入噪聲。任何模態(tài)的數(shù)據(jù)受到噪聲污染都可能會影響多模態(tài)數(shù)據(jù)處理的結(jié)果。多模態(tài)數(shù)據(jù)去噪是指減少數(shù)據(jù)中的噪聲,恢復(fù)原始數(shù)據(jù),進(jìn)而再提取感興趣的信息。

        5)數(shù)據(jù)增強(qiáng)。在樣本較少的前提下,為進(jìn)行有限多模態(tài)數(shù)據(jù)的充分利用,數(shù)據(jù)增強(qiáng)方法通過對原始數(shù)據(jù)集進(jìn)行一系列變換操作,擴(kuò)張數(shù)據(jù)的可使用性。

        本文主要對數(shù)據(jù)受限下的多模態(tài)數(shù)據(jù)處理方法進(jìn)行綜述。已有研究者對相關(guān)領(lǐng)域進(jìn)行了研究,在多模態(tài)學(xué)習(xí)、小樣本學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、主動學(xué)習(xí)、數(shù)據(jù)去噪和增強(qiáng)等方面進(jìn)行了深入研究。Baltru?aitis等人(2019)從整體的角度探討了多模態(tài)機(jī)器學(xué)習(xí)的進(jìn)展,并對多模態(tài)機(jī)器學(xué)習(xí)方法進(jìn)行分類,但沒有介紹具體的應(yīng)用場景。Wang等人(2020b)從網(wǎng)絡(luò)架構(gòu)的角度介紹了多模態(tài)模型,但沒有討論多模態(tài)數(shù)據(jù)本身的特點。Ramachandram和Taylor(2017)對多模態(tài)深度學(xué)習(xí)現(xiàn)狀進(jìn)行了總結(jié),并提出網(wǎng)絡(luò)體系結(jié)構(gòu)的設(shè)計應(yīng)該考慮融合模式、模態(tài)信息和對缺失的數(shù)據(jù)或模態(tài)的處理,但沒有詳細(xì)綜述目前處理缺失數(shù)據(jù)以提高模型的魯棒性的方法。Gao等人(2020)總結(jié)了具有代表性的處理異構(gòu)數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),并認(rèn)為一些深度學(xué)習(xí)模型只關(guān)注單模態(tài)噪聲數(shù)據(jù),未來迫切需要解決針對低質(zhì)量多模態(tài)數(shù)據(jù)的深度學(xué)習(xí)模型。上述綜述缺乏對數(shù)據(jù)受限條件下多模態(tài)數(shù)據(jù)發(fā)展的詳細(xì)介紹。Wang等人(2021c)綜述了近年來小樣本學(xué)習(xí)方法的進(jìn)展,并進(jìn)行統(tǒng)一分類。Zhou等人(2019)綜述了弱監(jiān)督學(xué)習(xí)的一些研究進(jìn)展。Settles(2011)回顧了將主動學(xué)習(xí)應(yīng)用于實踐遇到的挑戰(zhàn),并介紹為解決挑戰(zhàn)所做的工作。但上述文獻(xiàn)都僅基于單模態(tài)數(shù)據(jù)進(jìn)行總結(jié),并沒有關(guān)注多模態(tài)數(shù)據(jù)背景問題。

        針對在數(shù)據(jù)受限條件下多模態(tài)數(shù)據(jù)處理面臨的各種挑戰(zhàn)和難題,已有研究者提供了一些解決思路,但是尚未形成相關(guān)的綜述文獻(xiàn)。因此,本文總結(jié)了數(shù)據(jù)受限條件下多模態(tài)分析處理的研究方法和進(jìn)展,以及多模態(tài)數(shù)據(jù)在不同領(lǐng)域的應(yīng)用情況。首先闡述了多模態(tài)數(shù)據(jù)在計算機(jī)視覺方向的研究現(xiàn)狀與數(shù)據(jù)受限的難題挑戰(zhàn),介紹了對不同數(shù)據(jù)受限情況的處理方法,展示該研究的背景和目的。然后分類闡明不同數(shù)據(jù)受限處理方法的現(xiàn)狀與研究方法,區(qū)分不同的受限情況所面臨的困難和挑戰(zhàn)。最后對多模態(tài)數(shù)據(jù)的各個應(yīng)用領(lǐng)域的典型數(shù)據(jù)集進(jìn)行介紹,總結(jié)目前的研究成果,能夠啟發(fā)未來多模態(tài)的應(yīng)用前景,展望下一步研究方向。

        1 多模態(tài)數(shù)據(jù)的應(yīng)用

        首先介紹了多模態(tài)數(shù)據(jù)融合的方法,然后介紹了多模態(tài)數(shù)據(jù)在計算機(jī)視覺領(lǐng)域常見的應(yīng)用場景。

        1.1 多模態(tài)數(shù)據(jù)融合處理

        多模態(tài)數(shù)據(jù)融合是多模態(tài)數(shù)據(jù)挖掘的一種基本方法,旨在將不同分布、來源和類型的數(shù)據(jù)整合到一個全局空間中,在這個空間中,多模態(tài)和跨模態(tài)都以統(tǒng)一的方式表示(Bronstein等,2010;Bramon,2012;Poria等,2017)。

        根據(jù)融合過程是否直接與模型相關(guān)可將多模態(tài)數(shù)據(jù)融合方法總結(jié)為兩類:基于模型的方法和模型無關(guān)的方法。前者利用模型顯式地解決多模態(tài)融合問題,主要包括圖像模型方法(Song等,2012;Yang等,2017)、基于核的方法(G?nen和Alpaydn,2011;Liu等,2014;Wen等,2017;Wang等,2021d)和神經(jīng)網(wǎng)絡(luò)方法(Jin等,2017;Plis等,2018;Ortega等,2019;Gao等,2020)等;而后者不直接依賴特定的深度學(xué)習(xí)方法,因而靈活性更高,并可進(jìn)一步分為早期融合、晚期融合和混合融合(Tompson等,2015)。模型無關(guān)的3種融合方式如圖2所示。早期融合方法主要基于特征,包含特征層面和數(shù)據(jù)層面的融合,在對各個模態(tài)提取特征后其立即將得到的特征集成。晚期融合又叫做決策級融合,其集成操作發(fā)生在每種模態(tài)得到輸出結(jié)果(如分類或回歸)之后,主要采用不同的規(guī)則(如平均值融合、集成學(xué)習(xí)等規(guī)則)將不同模態(tài)的輸出結(jié)果進(jìn)行組合(Morvant等,2014;Liu等,2018)?;旌先诤?Joze等,2020)是早期融合和晚期融合的一個結(jié)合體,雖然綜合了兩種融合方法的優(yōu)點,但也帶來了如模型結(jié)構(gòu)復(fù)雜度高和訓(xùn)練難度大等劣勢。

        圖2 多模態(tài)特征融合的3種方式

        一些多模態(tài)數(shù)據(jù)融合方法被提出,以探索模態(tài)之間的互補(bǔ)和跨模態(tài)信息。如Kettenring(1971)提出了用于線性多模態(tài)關(guān)系以及跨模態(tài)泛化信息的多模態(tài)典型相關(guān)分析。Martínez-Montes等人(2004)提出了多變量的偏最小二乘模型線性關(guān)系,從多源數(shù)據(jù)集中發(fā)現(xiàn)變量。Groves等人(2011)提出了一種多模態(tài)獨立成分分析,這是一個使用貝葉斯框架的概率模型,將每個不同模態(tài)的獨立變量結(jié)合起來。

        上述傳統(tǒng)的多模態(tài)數(shù)據(jù)融合方法僅限于高容量、高速度、高多樣性和高精度的多模態(tài)數(shù)據(jù),原因是它們基于淺層特征,無法捕捉到多模態(tài)數(shù)據(jù)中的內(nèi)在內(nèi)部結(jié)構(gòu)和外部關(guān)系(Li等,2019b;Zhang等,2015)。因此,對隱藏在多模態(tài)和跨模態(tài)中的融合表示進(jìn)行全面建模,可以進(jìn)一步提高各種多模態(tài)應(yīng)用的性能。

        深度學(xué)習(xí)作為一種分層計算模型,可學(xué)習(xí)數(shù)據(jù)的多級抽象表示(Tompson等,2015),有利于充分挖掘多模態(tài)數(shù)據(jù)中隱藏的有用信息。這些基于深度學(xué)習(xí)的多模態(tài)方法在語言翻譯、圖像注釋和醫(yī)療輔助診斷等各個領(lǐng)域都取得了一些進(jìn)展。例如,Hou等人(2018)提出了一種多模態(tài)語音增強(qiáng)框架,用于捕獲音頻和視覺信號中的多模態(tài)特征。Abdulnabi等人(2018)設(shè)計了一種多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來標(biāo)記室內(nèi)場景,其中 RNN和變換層學(xué)習(xí)了多模態(tài)特征和跨模態(tài)特征。Narayanan等人(2019)使用多模態(tài)傳感器數(shù)據(jù)設(shè)計了門循環(huán)單元來模擬駕駛員行為。Sano等人(2019)提出了一種多模式BiLSTM(bidirectional long short-term memory)來檢測動態(tài)睡眠,其中 BiLSTM 用于提取從可穿戴設(shè)備收集的數(shù)據(jù)的特征。Madhuranga 等人(2021)通過從深度序列中提取輪廓,然后將深度信息與音頻描述融合以進(jìn)行日常生活活動識別。

        通過利用特定于模態(tài)的信息,多模態(tài)數(shù)據(jù)融合可以提供比單一模態(tài)更豐富的信息(Biessmann等,2011;Wagner等,2011)。并且通過不同模態(tài)之間的互補(bǔ)學(xué)習(xí),許多有價值的隱藏信息得到有效挖掘。如何設(shè)計合理的模塊有效融合多模態(tài)數(shù)據(jù),如何最大程度地挖掘不同模塊互補(bǔ)提供的隱藏寶貴信息,是現(xiàn)階段多模態(tài)數(shù)據(jù)挖掘關(guān)注的一個重點與難點。

        1.2 多模態(tài)數(shù)據(jù)檢測識別

        圖像分類指的是計算機(jī)可以識別圖像所屬的“類別”。本質(zhì)上是為圖像分配一個標(biāo)簽,例如,“汽車”、“動物”和“建筑”等。在分類技術(shù)的基礎(chǔ)上延伸出了目標(biāo)檢測技術(shù),它允許計算機(jī)在圖像或視頻中識別和定位目標(biāo)。通過這種識別和定位,目標(biāo)檢測可以用來計算場景中的目標(biāo)數(shù)量,確定并跟蹤它們的精確位置,同時準(zhǔn)確地標(biāo)記。檢測識別技術(shù)作為計算機(jī)視覺中的重要技術(shù),已經(jīng)應(yīng)用到如行人重識別、場景識別和人體動作識別等多模態(tài)數(shù)據(jù)場景下的任務(wù)中。

        行人重識別(person re-identification,Person Re-ID)是跨設(shè)備的特定人員檢索問題。目的是確定感興趣的人是否在不同的時間出現(xiàn)在另一個地方、由不同的攝像機(jī)拍攝。RGB—紅外跨模態(tài)行人重識別作為一個子領(lǐng)域,在24小時智能監(jiān)視方面取得了很大進(jìn)展,Wan等人(2021)等最新研究也在不斷推進(jìn)該領(lǐng)域的進(jìn)步。

        場景識別要求機(jī)器能識別出給定數(shù)據(jù)中出現(xiàn)的場景,在機(jī)器人領(lǐng)域有著廣泛的應(yīng)用,是計算機(jī)視覺研究中的一項基本問題。當(dāng)RGB和深度圖像兩種模態(tài)被結(jié)合分析處理時(Ferreri等,2021),深度圖像提供了有用的幾何信息,補(bǔ)充了RGB紋理信息,并幫助識別有區(qū)別的場景圖像特征。

        人體姿態(tài)識別是指識別圖像或視頻中人類的動作和姿態(tài),這也是計算機(jī)視覺研究領(lǐng)域的一個熱門研究方向,它在諸如應(yīng)用監(jiān)控、人機(jī)交互、健康監(jiān)控和智能系統(tǒng)等領(lǐng)域都有著重要的作用。采用單模態(tài)數(shù)據(jù)進(jìn)行人體動作識別往往無法取得很好的效果,在多模態(tài)人體動作識別中來自不同傳感器的多模態(tài)融合(Imran和Raman,2020)能夠很好地進(jìn)行模態(tài)間信息互補(bǔ),從而提升識別的準(zhǔn)確度。

        1.3 多模態(tài)圖像語義分割

        圖像語義分割是指根據(jù)圖像的語義為其每個像素分配類別標(biāo)簽。具體來說,在進(jìn)行圖像分割的過程中,每個像素歸類到某一個標(biāo)簽下,歸屬于同一標(biāo)簽的像素在視覺特性上具有某些共同點。同樣,該技術(shù)也在如道路場景分割、醫(yī)學(xué)圖像分割和遙感圖像分割等多模態(tài)數(shù)據(jù)場景中得到了廣泛應(yīng)用。

        道路場景分割在計算機(jī)視覺中有著重要的應(yīng)用,例如自動駕駛和行人檢測。與室內(nèi)場景相比,由于動態(tài)和復(fù)雜的環(huán)境,道路場景分割更具挑戰(zhàn)性。室外環(huán)境很容易在不同的時段隨光線或顏色的變化而變化?,F(xiàn)有的室外場景語義分割的數(shù)據(jù)集和方法大多基于RGB圖像,而將深度圖像、激光雷達(dá)、偏振圖像(Zhang等,2019b)等多模態(tài)數(shù)據(jù)的融合能豐富同一場景的互補(bǔ)特征信息,從而更好地完成復(fù)雜環(huán)境的場景分割任務(wù)。

        醫(yī)學(xué)圖像分割通過對解剖結(jié)構(gòu)和其他感興趣區(qū)域進(jìn)行提取,在許多醫(yī)學(xué)成像應(yīng)用中起著至關(guān)重要的作用。腫瘤分割是醫(yī)學(xué)圖像分割中的一個典型應(yīng)用。腫瘤分割表示對腫瘤空間位置的正確識別,是放射組學(xué)分析中的一個重要步驟,它將原始醫(yī)學(xué)圖像轉(zhuǎn)換為可以提取的圖像。準(zhǔn)確的腫瘤分割模型對于腫瘤的早期診斷和放療安排至關(guān)重要。與基于單模態(tài)的方法相比,多模態(tài)數(shù)據(jù)的應(yīng)用可以使模型獲得更好的性能(Li等,2021),原因是不同的成像方法可以捕獲更多關(guān)于腫瘤的信息。

        遙感圖像分割的任務(wù)主要是利用語義分割技術(shù)自動提取對地觀測數(shù)據(jù)中的地物要素信息,例如植被、水體等。遙感數(shù)據(jù)通常是從各種衛(wèi)星傳感器(如光學(xué)、激光雷達(dá)和紅外等)獲取的數(shù)據(jù)。但對于同一場景,成像方式、分辨率和視角等因素都會使圖像中的目標(biāo)特性產(chǎn)生差異。使用多源的遙感圖像可以綜合利用不同傳感器的特性,更加精準(zhǔn)地提取地物要素(Audebert等,2016)。

        1.4 多模態(tài)數(shù)據(jù)預(yù)測估計

        在深度學(xué)習(xí)領(lǐng)域,預(yù)測估計是一個重要的應(yīng)用方向,經(jīng)過訓(xùn)練的深度學(xué)習(xí)模型可以根據(jù)輸入的數(shù)據(jù)對當(dāng)前或未來的某些狀態(tài)或參數(shù)進(jìn)行估計或預(yù)測。在多模態(tài)數(shù)據(jù)預(yù)測估計領(lǐng)域,諸如單目深度估計、3維人體姿態(tài)估計和路徑規(guī)劃等技術(shù)都已經(jīng)得到了廣泛的應(yīng)用。

        單目深度估計是從2維圖像推測場景幾何結(jié)構(gòu)的關(guān)鍵步驟,其目標(biāo)是通過RGB圖像預(yù)測每個像素的深度值。深度估計對于機(jī)器人技術(shù)和計算機(jī)視覺任務(wù)中的許多挑戰(zhàn)至關(guān)重要,包括3維重建、自動駕駛和場景理解等。

        3維人體姿態(tài)估計是指從圖像或視頻中估計人體關(guān)節(jié)點位置,往往需要依賴RGB-D(RGB-Depth)(Zhang等,2019a)、RGB-LiDAR(Fürst等,2021)等多種模態(tài)的數(shù)據(jù)。由于3維人體姿態(tài)估計在人體運動分析、人機(jī)交互和機(jī)器人等諸多領(lǐng)域的廣泛應(yīng)用,近年來在計算機(jī)視覺領(lǐng)域引起了越來越多的關(guān)注,是一項具有挑戰(zhàn)性的任務(wù)。

        路徑規(guī)劃是機(jī)器人自主導(dǎo)航的基本能力。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于模仿學(xué)習(xí)的路徑規(guī)劃方法取得了良好的效果。然而,這些方法有兩個缺點:1)訓(xùn)練數(shù)據(jù)集的準(zhǔn)備耗費大量時間和人力;2)現(xiàn)有方法大多只能接收高級命令,如左轉(zhuǎn)/右轉(zhuǎn)。這些命令對于移動機(jī)器人的導(dǎo)航不夠充分,因為移動機(jī)器人需要獲取目標(biāo)更精確的姿態(tài)。因此,提出了一些基于自監(jiān)督的目標(biāo)導(dǎo)向路徑規(guī)劃方法(Wang等,2021a),通過RGB-D等多源傳感器采集多模態(tài)數(shù)據(jù),并將其應(yīng)用于路徑規(guī)劃中。

        2 多模態(tài)數(shù)據(jù)受限的處理方法

        本文根據(jù)多模態(tài)樣本數(shù)量、標(biāo)注信息和樣本質(zhì)量等不同的維度,將目前處理多模態(tài)數(shù)據(jù)受限的方法主要分為小樣本學(xué)習(xí)方法、缺乏強(qiáng)監(jiān)督信息的方法、主動學(xué)習(xí)方法、數(shù)據(jù)去噪和數(shù)據(jù)增強(qiáng)方法。

        2.1 小樣本學(xué)習(xí)方法

        小樣本學(xué)習(xí)的目的是從少量標(biāo)記的樣本中學(xué)習(xí)具備泛化能力的模型。在過去的幾年里,針對多模態(tài)視覺領(lǐng)域的小樣本學(xué)習(xí)提出了很多方法,大致可以分為基于傳統(tǒng)學(xué)習(xí)的小樣本學(xué)習(xí)方法、基于元學(xué)習(xí)的小樣本學(xué)習(xí)方法、基于遷移學(xué)習(xí)的小樣本學(xué)習(xí)方法和基于度量學(xué)習(xí)的小樣本學(xué)習(xí)方法,如表1所示。

        表1 多模態(tài)領(lǐng)域不同小樣本方法總結(jié)

        基于傳統(tǒng)模型的方法通過應(yīng)用不需要大量訓(xùn)練數(shù)據(jù)的傳統(tǒng)模型來解決小樣本任務(wù),但通常需要特定的手工設(shè)計,泛化能力不強(qiáng)?;谠獙W(xué)習(xí)的方法將經(jīng)典的元學(xué)習(xí)理論加以運用,以小樣本任務(wù)為基本訓(xùn)練單位學(xué)習(xí)任務(wù)間共有的特性,其對新任務(wù)的適應(yīng)能力強(qiáng),但通常計算復(fù)雜度高?;谶w移學(xué)習(xí)的方法將在輔助數(shù)據(jù)集上學(xué)習(xí)的知識遷移至新的小樣本任務(wù)中,實現(xiàn)簡單但有時遷移效果不佳。基于度量學(xué)習(xí)的方法則是學(xué)習(xí)數(shù)據(jù)間的度量函數(shù),進(jìn)而完成小樣本條件下的匹配問題。

        2.1.1 基于傳統(tǒng)模型的小樣本學(xué)習(xí)方法

        基于傳統(tǒng)模型的方法通過引入不需要大量訓(xùn)練樣本的傳統(tǒng)模型來解決深度學(xué)習(xí)模型在數(shù)據(jù)稀缺情況下產(chǎn)生的過擬合問題。

        在深度學(xué)習(xí)發(fā)展之前,傳統(tǒng)方法在解譯多模態(tài)數(shù)據(jù)領(lǐng)域取得先進(jìn)的進(jìn)展,主要操作為人為設(shè)計提取特征,然后使用支撐向量機(jī)、多層感知器、決策樹和隨機(jī)森林等模型對提取的特征進(jìn)行處理,輸出最終判別結(jié)果。這些傳統(tǒng)模型不需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,因此可以在小樣本條件下完成多模態(tài)數(shù)據(jù)的處理與分析。為了提升傳統(tǒng)方法在小樣本學(xué)習(xí)中的性能,主要在提取特征的設(shè)計以及模型算法的改進(jìn)等方面進(jìn)行了廣泛研究。

        Wan等人(2013)提出了一種融合RGB-D數(shù)據(jù)的3維增強(qiáng)運動尺度不變特征變換(3D enhanced motion scale-invariant feature transform,3D EMoSIFT),該特征具有豐富的視覺表示,并且具備尺度不變性和旋轉(zhuǎn)不變性。在學(xué)習(xí)判別模型時,從訓(xùn)練樣本中提取特征并進(jìn)行K-Means聚類,利用模擬正交匹配追蹤技術(shù)將每個特征表示為少量編碼的線性組合,實現(xiàn)較小的重構(gòu)誤差。Belgacem等人(2015)提出了手勢簽名的特征描述,由RGB-D數(shù)據(jù)的光流推導(dǎo)出手勢的全局運動的位置、速度和方向,并結(jié)合隱馬爾可夫模型的建模能力和條件隨機(jī)場的判別能力對提取的特征進(jìn)行判別。Lin等人(2016)提出了一種融合RGB-D數(shù)據(jù)的自適應(yīng)局部時空特征(adaptive local spatiotemporal feature,ALSTF),利用灰度和深度信息自適應(yīng)地提取運動感興趣區(qū)域,提升了手勢識別的精度。Lin等人(2019)將深度學(xué)習(xí)方法與經(jīng)典的實例分割方法(Lin等,2018)相結(jié)合,使用卷積神經(jīng)網(wǎng)絡(luò)提取的特征取代傳統(tǒng)方法中的人為設(shè)計特征,并利用單樣本學(xué)習(xí)的思想解決訓(xùn)練樣本容量小的問題。

        此外,還有一些工作在模型算法上進(jìn)行改進(jìn)。Pang等人(2021)提出了一種基于稀疏RGB-D輸入的人體渲染方法,該方法只在關(guān)鍵幀上進(jìn)行訓(xùn)練,通過雙分支模型分別編碼RGB圖像和深度信息。Wang等人(2021b)使用一個短視頻序列RGB-D圖像構(gòu)建相關(guān)的手網(wǎng)和目標(biāo)網(wǎng),以重建物體形狀缺失的部分,并估計重建目標(biāo)與場景中可見物體之間的相對變換,實現(xiàn)從單一視頻序列判斷目標(biāo)與手的相對姿態(tài)。

        2.1.2 基于元學(xué)習(xí)的小樣本學(xué)習(xí)方法

        元學(xué)習(xí)又稱為學(xué)會學(xué)習(xí)(Vilalta和Drissi,2002),即利用先前學(xué)習(xí)的知識指導(dǎo)新任務(wù)的學(xué)習(xí)?;谠獙W(xué)習(xí)的小樣本學(xué)習(xí)方法預(yù)先在一個數(shù)據(jù)量比較豐富的基本數(shù)據(jù)集上定義大量的小樣本任務(wù),如圖3所示,每個任務(wù)都包含支撐集和查詢集,并以任務(wù)為單位對模型進(jìn)行訓(xùn)練,使模型能夠快速地適應(yīng)當(dāng)前的小樣本學(xué)習(xí)任務(wù)。

        圖3 基于元學(xué)習(xí)的小樣本學(xué)習(xí)方法數(shù)據(jù)集構(gòu)建方式

        近年在深度學(xué)習(xí)領(lǐng)域涌現(xiàn)出許多元學(xué)習(xí)方法理論。Andrychowicz等人(2016)基于循環(huán)神經(jīng)網(wǎng)絡(luò)提出一個帶有可學(xué)習(xí)參數(shù)的優(yōu)化器,其根據(jù)當(dāng)前模型參數(shù)的梯度信息和隱含狀態(tài)輸出需要更新的步長以對模型參數(shù)進(jìn)行優(yōu)化。Ravi和Larochelle(2017)將深度學(xué)習(xí)模型的梯度下降優(yōu)化策略看成是一個長短期記憶網(wǎng)絡(luò)的狀態(tài)更新,隱含態(tài)是損失函數(shù)梯度,輸入門和遺忘門為損失函數(shù)梯度、損失函數(shù)、參數(shù)值和先前輸入門的函數(shù)。MAML(model-agnostic meta-learning)(Finn等,2017)使用支撐集對模型初始參數(shù)進(jìn)行一步或多步更新,然后使用在測試集上的損失更新初始參數(shù),其致力于構(gòu)建一個適合于許多任務(wù)的內(nèi)部表示作為初始化模型,使得參數(shù)的少量變化就可以對新任務(wù)帶來大幅度的性能提升。針對MAML中二階導(dǎo)計算復(fù)雜度高的問題,Nichol等人(2018)提出一種基于一階梯度下降的更新算法Reptile,其認(rèn)為不同的小樣本任務(wù)的參數(shù)梯度方向是相近的,因此跳過了支撐集和查詢集的劃分過程,直接使用各個小樣本任務(wù)的數(shù)據(jù)進(jìn)行參數(shù)更新。

        隨著元學(xué)習(xí)方法的不斷進(jìn)步,許多基于元學(xué)習(xí)的小樣本學(xué)習(xí)方法應(yīng)用到多模態(tài)領(lǐng)域。Shao等人(2020)提出了基于單樣本目標(biāo)檢測的學(xué)習(xí)框架,包含目標(biāo)檢測網(wǎng)絡(luò)和運動策略網(wǎng)絡(luò)。前者基于元學(xué)習(xí),將視頻序列的第1幀和最后1幀作為支撐集,其余序列的RGB圖像作為查詢集,預(yù)測出目標(biāo)的任務(wù)相關(guān)語義關(guān)鍵點;后者根據(jù)檢測出的關(guān)鍵點和深度信息進(jìn)行運動估計。Yeh等人(2021)提出了基于階段意識的注意力網(wǎng)絡(luò)(stage conscious attention network,SCAN),在少量的RGB-D樣本中檢索知識,使用共享的卷積網(wǎng)絡(luò)提取支撐集和查詢集中的RGB-D數(shù)據(jù)特征。然后對支撐集特征使用雙向長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)融合時間信息,并設(shè)計了一個注意力模塊識別不同時間戳下的重要幀,將重要幀的特征融合到查詢集的特征中,結(jié)合末端切片的嵌入特征一起送入后續(xù)的解碼器輸出動作姿態(tài)。董陽等人(2020)提出基于U-Net的原型網(wǎng)絡(luò)PU-Net對多模態(tài)圖像進(jìn)行分割,首先使用PU-Net對支撐集數(shù)據(jù)提取原型特征,然后利用提取的原型對查詢集數(shù)據(jù)進(jìn)行逐像素分類,并針對類別數(shù)量不均衡問題,提出自適應(yīng)權(quán)重交叉熵?fù)p失。Bao等人(2021)構(gòu)建了可見光和熱圖像(visible and thermal,V-T)的小樣本語義分割數(shù)據(jù)集Tokyo Multi-Spectral-4i,利用可見光和熱圖像兩者的互補(bǔ)信息來提高小樣本語義分割的性能。提出邊緣相似度融合模塊和紋理邊緣原型模塊,前者利用可見光圖像和熱圖像的邊緣相似性融合雙模態(tài)信息,后者從可見光特征和熱圖像特征中提取原型用于查詢集的語義分割。

        2.1.3 基于遷移學(xué)習(xí)的小樣本學(xué)習(xí)方法

        與元學(xué)習(xí)中構(gòu)建大量小樣本任務(wù)進(jìn)行訓(xùn)練不同,基于遷移學(xué)習(xí)的小樣本學(xué)習(xí)方法直接在數(shù)據(jù)量豐富的源域數(shù)據(jù)集上訓(xùn)練,通過知識遷移技術(shù)將在源域數(shù)據(jù)集學(xué)習(xí)到的知識遷移至新的小樣本任務(wù),提升模型在數(shù)據(jù)量少的目標(biāo)域數(shù)據(jù)集上的性能。

        李瑤(2019)認(rèn)為融合多個模態(tài)的數(shù)據(jù)可以改善由于樣本數(shù)量少導(dǎo)致的分類精度低的問題。進(jìn)而提出了融合兩種不同分辨率遙感影像的分類方法,使用卷積神經(jīng)網(wǎng)絡(luò)提取這兩種模態(tài)數(shù)據(jù)的特征,并構(gòu)建串行和并行融合策略進(jìn)行特征融合和分類;此外還利用遷移學(xué)習(xí)技術(shù),將在ImageNet數(shù)據(jù)集(源域)訓(xùn)練好的模型的前幾層參數(shù)固定,修改最后的一到兩層參數(shù),再用少量目標(biāo)域的遙感數(shù)據(jù)進(jìn)行微調(diào),達(dá)到較好的分類效果。Bessadok等人(2021)提出基于圖的多軌跡進(jìn)化網(wǎng)絡(luò)GmTE-Net來對嬰幼兒的腦連接組發(fā)育情況進(jìn)行預(yù)測,使用教師—學(xué)生范式處理多模態(tài)磁共振圖像(magnetic resonance image,MRI),教師網(wǎng)絡(luò)對新生兒MRI腦圖進(jìn)行學(xué)習(xí),并使用小樣本數(shù)據(jù)訓(xùn)練以提升泛化性能。學(xué)生網(wǎng)絡(luò)在一組不同時間點采集的模擬腦圖上學(xué)習(xí)。為了提升學(xué)生網(wǎng)絡(luò)的性能,提出局部拓?fù)涓兄恼麴s損失約束學(xué)生網(wǎng)絡(luò)圖拓?fù)渑c教師網(wǎng)絡(luò)圖拓?fù)涞囊恢滦?,從而將教師網(wǎng)絡(luò)在MRI腦圖數(shù)據(jù)學(xué)習(xí)的知識遷移至學(xué)生網(wǎng)絡(luò)對模擬腦圖的學(xué)習(xí)。

        2.1.4 基于度量學(xué)習(xí)的小樣本學(xué)習(xí)方法

        度量學(xué)習(xí)是在映射空間中學(xué)習(xí)適當(dāng)?shù)木嚯x度量函數(shù),使得相同類別的樣本距離更近,不同類別的樣本距離更遠(yuǎn),如圖4所示。這些方法主要使用常見的距離(如曼哈頓距離、歐氏距離等)的倒數(shù)或余弦相似度的變體來表示特征之間的相似度。

        圖4 基于度量學(xué)習(xí)的小樣本學(xué)習(xí)方法示意圖

        Kori和Krishnamurthi(2019)提出了一種圖像配準(zhǔn)方法,使用卷積網(wǎng)絡(luò)對一組靜態(tài)的和動態(tài)的多模態(tài)磁共振圖像MRI提取特征,并在特征維進(jìn)行關(guān)鍵點提取,并使用多種距離度量(如Dice分?jǐn)?shù)、結(jié)構(gòu)相似性和均方誤差等)實現(xiàn)多模態(tài)圖像之間的配準(zhǔn)。Zhang等人(2021)擴(kuò)展了以RGB數(shù)據(jù)為主流的方法,利用深度信息進(jìn)行互補(bǔ),提出一種基于度量學(xué)習(xí)的雙流深度神經(jīng)網(wǎng)絡(luò),分別在RGB和深度空間中學(xué)習(xí)每個類別特定的原型表示,并計算輸入數(shù)據(jù)和原型的余弦相似度,將得到的RGB和深度信息的概率進(jìn)行融合得到最終預(yù)測結(jié)果。Chaudhuri等人(2020)通過一種深度表征學(xué)習(xí)技術(shù),提出了多流編碼器和解碼器模型,在彩色圖像和素描圖像兩個模態(tài)數(shù)據(jù)之間學(xué)習(xí)關(guān)系映射函數(shù),解決了彩色圖像和素描圖像之間的零樣本跨模態(tài)圖像匹配問題。Ao等人(2019)提出了一種零樣本手寫字符識別的跨模態(tài)原型學(xué)習(xí)方法從打印字符中學(xué)習(xí)識別手寫字符,通過深度網(wǎng)絡(luò)提取打印字符的特征,同時使用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)手寫字符的特征,根據(jù)兩個特征之間的距離預(yù)測識別手寫字符。Memmesheimer等人(2021)將RGB-D骨骼運動信號編碼成圖像,并使用深度殘差網(wǎng)絡(luò)提取特征,利用三元損失學(xué)習(xí)特征嵌入,將動作識別問題轉(zhuǎn)化為嵌入空間中的最近鄰搜索。Yang等人(2020)認(rèn)為簡單地將不同模態(tài)的圖像(如可見光和熱圖像、打印字符到手寫字符等)映射到均勻空間的過程,未知類的流形特征不可避免地會發(fā)生變形,這直接導(dǎo)致了跨模態(tài)圖像檢索性能較差,因此提出雙向隨機(jī)遍歷方案,通過遍歷每個模態(tài)特征空間中的異質(zhì)流形挖掘圖像之間更可靠的關(guān)系,從而緩解跨模態(tài)特征空間中噪聲相似點帶來的干擾,實現(xiàn)更準(zhǔn)確的度量匹配。

        2.2 缺乏強(qiáng)監(jiān)督標(biāo)注信息的方法

        近年來,人工智能技術(shù)發(fā)展迅猛,研究人員不再局限于使用單一模態(tài)的數(shù)據(jù)對模型進(jìn)行訓(xùn)練。通過融合多個模態(tài)的信息對模型進(jìn)行訓(xùn)練將會更準(zhǔn)確和更具魯棒性。但是由于數(shù)據(jù)標(biāo)注過程會產(chǎn)生高額的成本,獲取所有模態(tài)的全部真值標(biāo)簽對模型進(jìn)行監(jiān)督學(xué)習(xí)具有局限性。因此,使用非完全監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)方法具有廣泛應(yīng)用前景。多模態(tài)領(lǐng)域中的非完全監(jiān)督學(xué)習(xí)指的是使用包含部分/不包含真值標(biāo)簽的兩種或多種模態(tài)的數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,其與多模態(tài)領(lǐng)域內(nèi)的強(qiáng)監(jiān)督學(xué)習(xí)的區(qū)別如圖5所示。圓形和五角星表示兩種模態(tài)的數(shù)據(jù),紅色、藍(lán)色和綠色表示具有真值標(biāo)簽的不同類別的數(shù)據(jù)?;疑硎緵]有真值標(biāo)簽的數(shù)據(jù),帶條紋的表示數(shù)據(jù)具有粗粒度標(biāo)簽,空心的表示無標(biāo)簽數(shù)據(jù)具有算法自構(gòu)造的監(jiān)督信息,實線表示類之間的決策邊界。

        圖5 5種多模態(tài)非完全監(jiān)督深度學(xué)習(xí)策略

        弱監(jiān)督學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個分支,其訓(xùn)練數(shù)據(jù)分為3類(Zhou,2018):不完全標(biāo)注數(shù)據(jù)、不確切標(biāo)注數(shù)據(jù)和不準(zhǔn)確標(biāo)注數(shù)據(jù)。不完全標(biāo)注數(shù)據(jù)指的是部分?jǐn)?shù)據(jù)包含標(biāo)注,另一部分?jǐn)?shù)據(jù)不包含標(biāo)注的數(shù)據(jù)集。對于沒有標(biāo)注的數(shù)據(jù),若存在一個系統(tǒng)能夠給出正確標(biāo)簽,即具備查詢功能,則屬于主動學(xué)習(xí)范圍;其他對沒有標(biāo)注的數(shù)據(jù)進(jìn)行處理的屬于半監(jiān)督學(xué)習(xí)范圍。不確切標(biāo)注數(shù)據(jù)指的是訓(xùn)練數(shù)據(jù)提供圖像級的標(biāo)簽、涂鴉級標(biāo)簽或包圍框級標(biāo)簽。不準(zhǔn)確標(biāo)注數(shù)據(jù)指的是樣本的標(biāo)簽具有不正確內(nèi)容。在本節(jié)中,多模態(tài)領(lǐng)域內(nèi)的弱監(jiān)督學(xué)習(xí)主要對訓(xùn)練數(shù)據(jù)是不確切標(biāo)注數(shù)據(jù)的方法在2.2.1小節(jié)進(jìn)行介紹,多模態(tài)領(lǐng)域內(nèi)的半監(jiān)督學(xué)習(xí)在2.2.2小節(jié)進(jìn)行介紹。自監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)中訓(xùn)練數(shù)據(jù)都不具備人工標(biāo)注的標(biāo)簽,分別在2.2.3和2.2.4進(jìn)行介紹。無監(jiān)督學(xué)習(xí)對數(shù)據(jù)內(nèi)部的潛在特征進(jìn)行挖掘;自監(jiān)督學(xué)習(xí)通過構(gòu)建輔助任務(wù),從大量無監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息,通過這種構(gòu)造的監(jiān)督信息對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。本節(jié)著重于對多模態(tài)領(lǐng)域內(nèi)的弱監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)進(jìn)行介紹,多模態(tài)領(lǐng)域內(nèi)的非完全監(jiān)督學(xué)習(xí)模型總結(jié)如表2所示。

        表2 多模態(tài)領(lǐng)域內(nèi)的非強(qiáng)監(jiān)督學(xué)習(xí)模型總結(jié)

        2.2.1 多模態(tài)領(lǐng)域內(nèi)的弱監(jiān)督學(xué)習(xí)

        隨著數(shù)據(jù)驅(qū)動的深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,減少標(biāo)注工作量的問題越來越受到關(guān)注。弱監(jiān)督學(xué)習(xí)指的是模型使用圖像級標(biāo)簽、涂鴉級標(biāo)簽或包圍框級標(biāo)簽等不確切標(biāo)簽的訓(xùn)練數(shù)據(jù)對模型進(jìn)行訓(xùn)練。通過使用不確切的標(biāo)簽對模型進(jìn)行訓(xùn)練,可以大大減少人工標(biāo)注成本。多模態(tài)領(lǐng)域內(nèi)的弱監(jiān)督學(xué)習(xí)針對于RGB-D、RGB-Lidar、RGB-IR等多種圖像模態(tài)融合方式進(jìn)行研究。

        多模態(tài)學(xué)習(xí)方法目前廣泛應(yīng)用于RGB-D目標(biāo)識別領(lǐng)域。這些多模態(tài)模型的網(wǎng)絡(luò)結(jié)構(gòu)通常包括針對于RGB和Depth模態(tài)數(shù)據(jù)的兩個網(wǎng)絡(luò)模型,通過在最后的全連接層進(jìn)行融合,然后開始聯(lián)合訓(xùn)練。但是在RGB圖像上進(jìn)行預(yù)訓(xùn)練的模型難以很好地學(xué)習(xí)深度數(shù)據(jù),所以大多數(shù)方法通過顏色映射將深度模態(tài)轉(zhuǎn)換為RGB模態(tài)或低級特征,以適應(yīng)在RGB數(shù)據(jù)集上預(yù)先訓(xùn)練的深度網(wǎng)絡(luò)模型。Sun等人(2017)提出了一種新穎的弱監(jiān)督學(xué)習(xí)架構(gòu),網(wǎng)絡(luò)直接在原始深度圖上進(jìn)行訓(xùn)練,通過使用許多自動生成的合成深度圖像來預(yù)訓(xùn)練深度,不需要代價高昂的數(shù)據(jù)轉(zhuǎn)換(從深度到RGB),使得深度信息得到充分利用。然后,該團(tuán)隊繼續(xù)提出針對于核廢料目標(biāo)檢測的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將參數(shù)模型(用于RGB和Depth模態(tài)的多模態(tài)模型)與非參數(shù)高斯過程分類相結(jié)合(Sun等,2019)。Li等人(2021)通過協(xié)調(diào)多模態(tài)輸入,通過迭代細(xì)化來維護(hù)每個像素的偽標(biāo)簽以實現(xiàn)弱監(jiān)督RGB-D顯著性目標(biāo)檢測。

        除了使用RGB-D圖像進(jìn)行融合,F(xiàn)ürst等人(2021)提出了使用RGB和Lidar數(shù)據(jù)的端到端架構(gòu),在3維人體姿態(tài)估計任務(wù)中取得了較好的成績。Chen等人(2018)關(guān)注于視頻中的信息,使用RGB-IR數(shù)據(jù),提出學(xué)習(xí)一個基于記憶網(wǎng)絡(luò)的策略模型。通過在視頻中利用光流提取運動信息,可以提取出對應(yīng)于人體運動的候選前景運動片段,以圖像和運動先驗作為模型輸入并預(yù)測人體分割結(jié)果,獲得了良好性能。Hu等人(2018)提出多模態(tài)變分自編碼器,利用專家相乘前向網(wǎng)絡(luò)和子采樣訓(xùn)練,解決多模態(tài)推理問題,使用的數(shù)據(jù)是磁共振(magnetic resonance,MR)圖像和術(shù)中經(jīng)直腸超聲圖像,實現(xiàn)弱監(jiān)督多模態(tài)圖像配準(zhǔn)。

        2.2.2 多模態(tài)領(lǐng)域內(nèi)的半監(jiān)督學(xué)習(xí)

        多模態(tài)領(lǐng)域內(nèi)的半監(jiān)督學(xué)習(xí)指的是通過使用有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)混合而成的兩種或多種模態(tài)的數(shù)據(jù)對模型進(jìn)行訓(xùn)練(Zhu和Goldberg,2009)。一般來講,無標(biāo)簽數(shù)據(jù)比有標(biāo)簽數(shù)據(jù)具有更高的比例。本文主要集中于對采用RGB-D兩種模態(tài)作為訓(xùn)練數(shù)據(jù)的半監(jiān)督模型進(jìn)行介紹。多模態(tài)領(lǐng)域內(nèi)的半監(jiān)督學(xué)習(xí)可以分為基于偽標(biāo)簽的半監(jiān)督學(xué)習(xí)和基于一致性正則的半監(jiān)督學(xué)習(xí)。

        由于數(shù)據(jù)標(biāo)注成本高,半監(jiān)督學(xué)習(xí)是一項具有挑戰(zhàn)性但又十分重要的任務(wù)。解決這個問題的一種常見方法是給未標(biāo)記的數(shù)據(jù)分配偽標(biāo)簽,然后在訓(xùn)練中使用偽標(biāo)簽作為額外的監(jiān)督,基于偽標(biāo)簽的半監(jiān)督方法流程如圖6所示。

        圖6 基于偽標(biāo)簽的半監(jiān)督學(xué)習(xí)方法流程

        通常偽標(biāo)簽是通過對標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練的模型獲得的,然后使用模型進(jìn)行自訓(xùn)練。在目標(biāo)識別領(lǐng)域,Cheng等人(2016)提出了一種半監(jiān)督多模態(tài)深度學(xué)習(xí)框架,核心是基于一種新穎的多樣性保持協(xié)同訓(xùn)練算法,通過充分利用目標(biāo)表示中RGB和深度數(shù)據(jù)的互補(bǔ)信息,成功地引導(dǎo)擴(kuò)散圖卷積網(wǎng)絡(luò)(diffu-sion convolutional recurrent neural network,DCNN)從未標(biāo)記的RGB-D數(shù)據(jù)中學(xué)習(xí)。在3維目標(biāo)檢測領(lǐng)域,Tang和Lee(2019)首次提出在沒有強(qiáng)監(jiān)督標(biāo)注的情況下訓(xùn)練基于點云的可遷移半監(jiān)督3維目標(biāo)檢測模型。他們使用跨類別半監(jiān)督學(xué)習(xí),其中一組目標(biāo)類需要3維真值標(biāo)簽,而所有目標(biāo)類都需要2維真值標(biāo)簽。作者采用重投影損失、檢測框先驗損失和框?qū)c云擬合網(wǎng)絡(luò), 使有用的3維信息在訓(xùn)練過程中有效地從強(qiáng)類傳輸?shù)饺躅?,從而在推理過程中檢測出弱類中的3維目標(biāo)。此外,Xiong等人(2021)提出了一種用于視頻學(xué)習(xí)的多視圖偽標(biāo)簽方法,這是一種利用外觀和運動信息形式的互補(bǔ)視圖進(jìn)行視頻半監(jiān)督學(xué)習(xí)的新框架。該方法采用RGB、光流和時間梯度的形式,對單個未標(biāo)記視頻片段學(xué)習(xí)多個互補(bǔ)視圖,并使用一個共享模型進(jìn)行半監(jiān)督學(xué)習(xí)。

        在遙感領(lǐng)域,大量的多模態(tài)對地觀測圖像,如多光譜圖像(multispectral image,MSI)或合成孔徑雷達(dá)(synthetic aperture radar,SAR)數(shù)據(jù),可在全球范圍內(nèi)公開使用,從而能夠通過遙感圖像對全球城市場景進(jìn)行智能解譯。然而,由于包含噪聲的采集環(huán)境以及經(jīng)過高質(zhì)量標(biāo)注的訓(xùn)練圖像數(shù)量有限,多模態(tài)數(shù)據(jù)在地物要素提取方向的發(fā)展仍然受限。Hong等人(2020)研究了有限跨模態(tài)數(shù)據(jù)的遙感半監(jiān)督遷移學(xué)習(xí)問題,提出了一種新型的跨模態(tài)深度學(xué)習(xí)框架,稱為X-ModalNet,包含3個模塊:自對抗模塊、交互學(xué)習(xí)模塊和標(biāo)簽傳播模塊,通過學(xué)習(xí)利用大規(guī)模MSI或SAR數(shù)據(jù)將小尺度高光譜圖像中更多的可判別信息轉(zhuǎn)移到分類任務(wù)中。作者在兩個多模態(tài)數(shù)據(jù)集上進(jìn)行了大量的實驗,表明了提出的X-ModalNet在RS數(shù)據(jù)分類任務(wù)中的有效性和優(yōu)越性。

        2.2.3 多模態(tài)領(lǐng)域內(nèi)的自監(jiān)督學(xué)習(xí)

        多模態(tài)學(xué)習(xí)主要集中于對多種模態(tài)及其復(fù)雜的相互作用進(jìn)行研究,目的是利用多模態(tài)數(shù)據(jù)中出現(xiàn)的互補(bǔ)信息,產(chǎn)生更魯棒的預(yù)測(Wang等,2014;Gao等,2019;Liang等,2019;Xu 等,2017)。研究人員使用自監(jiān)督學(xué)習(xí)的方式進(jìn)行跨模態(tài)學(xué)習(xí)發(fā)展迅速(Tian等,2020;Jing等,2020;Meyer等,2020;Shi等,2020;Jiao等,2020)。Mahendran等人(2018)學(xué)習(xí)像素嵌入,使像素嵌入之間的相似性與它們的光流向量之間的相似性相匹配。Han等人(2020)提出一種新的自監(jiān)督學(xué)習(xí)方法,改進(jìn)了InfoNCE損失函數(shù)的訓(xùn)練機(jī)制,利用來自RGB和光流的互補(bǔ)信息來學(xué)習(xí)視頻表示,在視頻動作識別和視頻檢索方面取得了優(yōu)異的性能。Liu等人(2020)提出對比“點像素對”,訓(xùn)練網(wǎng)絡(luò)能夠區(qū)分正負(fù)樣本數(shù)據(jù),為了提取有用的特征,模型必須學(xué)習(xí)模態(tài)之間的協(xié)同關(guān)系。

        可行駛區(qū)域和道路的分割是實現(xiàn)機(jī)器人自主導(dǎo)航的關(guān)鍵能力。Wang等人(2019)提出了一種自監(jiān)督學(xué)習(xí)方法,模型以RGB圖像和深度圖像作為輸入,首先生成自監(jiān)督標(biāo)簽,然后使用這些標(biāo)簽訓(xùn)練基于RGB-D數(shù)據(jù)的語義分割神經(jīng)網(wǎng)絡(luò)。運行時,配備RGB-D攝像機(jī)的機(jī)器人輪椅可以對可行駛區(qū)域和道路進(jìn)行在線分割。

        雖然RGB-IR跨模態(tài)行人重識別(RGB-IR ReID)在24 h智能監(jiān)視方面取得了很大進(jìn)展,但目前的技術(shù)水平仍然主要依賴于對ImageNet預(yù)訓(xùn)練網(wǎng)絡(luò)的微調(diào)。Wan等人(2021)提出了一種自監(jiān)督的預(yù)訓(xùn)練替代方案,直接在多模態(tài)ReID數(shù)據(jù)集上從頭開始訓(xùn)練模型。MMGL將RGB-IR圖像隨機(jī)全局映射到共享的排列空間中,并通過最大化循環(huán)一致的RGB-IR圖像塊之間的一致性來進(jìn)一步提高局部可判別性。

        現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的RGB-D顯著性目標(biāo)檢測網(wǎng)絡(luò)都需要在ImageNet上進(jìn)行預(yù)訓(xùn)練,然而,大規(guī)模數(shù)據(jù)集的采集和標(biāo)注耗時且昂貴。Zhao等人(2021)利用自監(jiān)督表示學(xué)習(xí)(self-supervised representation learning, SSL)設(shè)計了跨模態(tài)自編碼和深度輪廓估計任務(wù),只需要少量且未標(biāo)記的RGB-D數(shù)據(jù)集進(jìn)行預(yù)處理,這使得網(wǎng)絡(luò)可以學(xué)到豐富的語義上下文信息并減少兩種模態(tài)特征之間的差距,從而為下游任務(wù)提供有效的初始化。

        幾何特征提取是點云配準(zhǔn)的重要組成部分。監(jiān)督學(xué)習(xí)方法對真值標(biāo)簽的依賴限制了其可擴(kuò)展性。El Banani 和 Johnson(2021)提出了一種自監(jiān)督方法,可以從RGB-D視頻中學(xué)習(xí)視覺和幾何特征。BYOC結(jié)合了點云配準(zhǔn)的經(jīng)典思想和最新的表示學(xué)習(xí)方法,與當(dāng)前最先進(jìn)的監(jiān)督方法相比,同樣具有競爭力。

        場景識別在機(jī)器人領(lǐng)域應(yīng)用前景廣泛。深度信息可以為RGB圖像補(bǔ)充紋理信息,并幫助識別場景圖像特征。基于此,F(xiàn)erreri等人(2021)首次研究了一個集場景識別、多模態(tài)學(xué)習(xí)和領(lǐng)域適應(yīng)3個任務(wù)于一體的模型,引入了一種新穎的自適應(yīng)場景識別方法,可以學(xué)習(xí)模態(tài)之間的自監(jiān)督轉(zhuǎn)換。進(jìn)而可以在多個相機(jī)的數(shù)據(jù)上聯(lián)合訓(xùn)練,有助于擬合提取的特征分布之間的差距。

        2.2.4 多模態(tài)領(lǐng)域內(nèi)的無監(jiān)督學(xué)習(xí)

        由于無標(biāo)注數(shù)據(jù)獲取容易,多模態(tài)領(lǐng)域內(nèi)的無監(jiān)督學(xué)習(xí)集中于對領(lǐng)域自適應(yīng)、語義分割和圖像到圖像的轉(zhuǎn)換等方向的研究。

        Jaritz等人(2020)首次研究自適應(yīng)在多模態(tài)場景的2D/3D語義分割方面的工作。輸入多模態(tài)數(shù)據(jù),即RGB和LiDAR,提出了跨模態(tài)無監(jiān)督域自適應(yīng),通過KL(Kullback-Leibler)散度實現(xiàn)模態(tài)間的相互模仿,各模態(tài)可以互相學(xué)習(xí)以提高性能。Loghmani等人(2020)提出了一種新的RGB-D 無監(jiān)督域自適應(yīng)方法,表明了通過利用RGB和深度模態(tài)之間的互補(bǔ)減少合成圖像到真實圖像的域轉(zhuǎn)移,可以獲得更好的結(jié)果。在語義分割領(lǐng)域,Chen等人(2019)提出主要由兩個神經(jīng)網(wǎng)絡(luò)組成的框架:用于風(fēng)格傳遞的多模態(tài)圖像遷移網(wǎng)絡(luò)和用于圖像分割的級聯(lián)分割網(wǎng)絡(luò),實現(xiàn)無監(jiān)督LGE圖像分割。

        無監(jiān)督圖像到圖像的轉(zhuǎn)換是計算機(jī)視覺中一個重要而具有挑戰(zhàn)性的問題。給定源域中的一幅圖像,目標(biāo)是學(xué)習(xí)目標(biāo)域中對應(yīng)圖像的條件分布。Huang等人(2018)提出了一個多模態(tài)無監(jiān)督圖像到圖像轉(zhuǎn)換框架,將圖像表示分解為域不變的內(nèi)容編碼和目標(biāo)域特定屬性的樣式編碼。為了將圖像轉(zhuǎn)換到另一個域,將其內(nèi)容編碼與從目標(biāo)域的樣式空間中采樣的隨機(jī)樣式編碼進(jìn)行重組。通過對不同類型的編碼進(jìn)行采樣,模型能夠產(chǎn)生不同的、多模態(tài)的輸出。

        2.3 主動學(xué)習(xí)方法

        為了提高對已有的人工標(biāo)注數(shù)據(jù)的利用效率、最大程度減少標(biāo)注工作量并將專家經(jīng)驗與各種學(xué)習(xí)算法充分結(jié)合,除了上述提到的減少對帶標(biāo)注樣本依賴的小樣本學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)之外,研究者們還通過一些技術(shù)手段或者數(shù)學(xué)方法來降低樣本標(biāo)注的成本,這個方向稱為主動學(xué)習(xí)(active learning, AL)。

        小樣本學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)相關(guān)算法流程的執(zhí)行不需要跟人類進(jìn)行交互,通過利用已有標(biāo)注數(shù)據(jù)訓(xùn)練得到的具有一定分類性能的網(wǎng)絡(luò)來實現(xiàn)對無標(biāo)簽樣本的自動標(biāo)注,基于自身對無標(biāo)簽數(shù)據(jù)加以利用以提高模型的泛化能力。而主動學(xué)習(xí)的關(guān)注點在于如何利用盡可能少的樣本來保持跟用大量樣本訓(xùn)練得到的分類器相當(dāng)?shù)男阅?。更具體地說,主動學(xué)習(xí)的目標(biāo)是從無標(biāo)簽樣本集中選取出對提升模型性能價值最大的樣本,并將其交給相關(guān)專家進(jìn)行標(biāo)注,以在保持模型性能的同時盡可能地將樣本標(biāo)注成本最小化(Budd等,2021)。這是一種從樣本的角度提高數(shù)據(jù)利用效率的方案,因而應(yīng)用在標(biāo)注成本高、標(biāo)注難度大等任務(wù)中,例如醫(yī)療圖像(Wang等,2020c;Budd等,2021)、異常檢測(Zhu和Yang,2019;Russo等,2020)以及基于互聯(lián)網(wǎng)大數(shù)據(jù)(Faisal等,2014;Jahan等,2018)的相關(guān)問題。主動學(xué)習(xí)的整體思路為:借助機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的相關(guān)算法來獲取有助于提高模型性能但分類器易錯分的“困難”樣本數(shù)據(jù),交由相關(guān)專家再次進(jìn)行審核、確認(rèn)或標(biāo)注,然后采用有監(jiān)督或半監(jiān)督的學(xué)習(xí)算法對前一步驟得到的專家標(biāo)注的有價值數(shù)據(jù)再次進(jìn)行訓(xùn)練,通過重復(fù)上述過程逐步提升模型性能,從而將專家經(jīng)驗整合到模型的學(xué)習(xí)中。

        早在21世紀(jì)初,主動學(xué)習(xí)就已用于多模態(tài)領(lǐng)域。主動學(xué)習(xí)在多模態(tài)領(lǐng)域的應(yīng)用場景是:針對各個模態(tài)存在的大量無標(biāo)簽數(shù)據(jù),選擇有價值的數(shù)據(jù)進(jìn)行標(biāo)注以節(jié)省標(biāo)注工作量從而使得模型用較小的成本達(dá)到滿意的性能。

        依據(jù)每次訪問無標(biāo)簽樣本的不同,主動學(xué)習(xí)方法可以劃分為兩個主要的框架:基于流的選擇性采樣和基于池的選擇性采樣。兩者主要區(qū)別在于,基于池的采樣評估整個無標(biāo)簽樣本集,然后選擇最好的一個;而基于流的采樣則逐個查詢數(shù)據(jù),逐個做出決策。其中,基于池的采樣是最常見的場景,并且由于深度學(xué)習(xí)基于batch訓(xùn)練的機(jī)制,使得基于池的方法更容易與其契合;而基于流的選擇性采樣由于其自身存在的諸如采樣效率不高、閾值設(shè)置煩瑣等缺點,用于多模態(tài)數(shù)據(jù)的研究很少,故本文不再對該方法進(jìn)行介紹。

        在基于池的場景中,首先輸入批量的無標(biāo)簽數(shù)據(jù),然后根據(jù)策略選擇某些樣本交給專家進(jìn)行標(biāo)注。Bonnin等人(2011)提出了一種基于主動學(xué)習(xí)策略的深度圖像中人體部位檢測方法。其中,主動學(xué)習(xí)策略是利用訓(xùn)練數(shù)據(jù)的分布,從數(shù)據(jù)集的基于聚類的表示中進(jìn)行取樣。目標(biāo)是通過減少標(biāo)記樣本的數(shù)量來建立一個精確的分類器,以使訓(xùn)練計算成本和圖像標(biāo)記成本最小化。Jalal等人(2017)描述了一種適用于連續(xù)RGB-D視頻的方法,該方法利用活動的時空信息并結(jié)合主動學(xué)習(xí)方法對活動進(jìn)行時間分割。然而,在真實環(huán)境中采集的視頻數(shù)據(jù)通常是無標(biāo)簽的數(shù)據(jù),而這些未標(biāo)記的數(shù)據(jù)在無監(jiān)督的環(huán)境中識別率很低,并且人為地向這些數(shù)據(jù)添加屬性標(biāo)記的成本很高。針對這一問題,Wang等人(2018)提出了一種采用無監(jiān)督主動學(xué)習(xí)的方法從RGB-D視頻數(shù)據(jù)中識別人類行為的新方法。Bullard等人(2019)調(diào)查了如何使主動學(xué)習(xí)模型在動態(tài)變化的環(huán)境中推理其學(xué)習(xí)目標(biāo),使用決策理論的方法進(jìn)行主動學(xué)習(xí),使用RGB-D數(shù)據(jù)集用于評估。為了創(chuàng)建一個更接近真實世界的學(xué)習(xí)環(huán)境,模擬了多模態(tài)特征,這些多模態(tài)特征表示從機(jī)器人的其他傳感器中提取的特征。Zhang等人(2021)提出了第1個通過學(xué)習(xí)樣本數(shù)據(jù)的標(biāo)記過程,對RGB-D顯著性檢測引入不確定性的隨機(jī)框架。為了評估模型的性能,采用主動學(xué)習(xí)的流程來生成簡單和困難樣本。基于池的主動學(xué)習(xí)方法在多模態(tài)數(shù)據(jù)下的流程可總結(jié)為圖7所示。

        圖7 多模態(tài)數(shù)據(jù)下基于池的主動學(xué)習(xí)事例

        在多模態(tài)數(shù)據(jù)下應(yīng)用主動學(xué)習(xí)將加快每個模態(tài)的標(biāo)注進(jìn)程,有利于控制數(shù)據(jù)標(biāo)注成本并獲得較為理想的訓(xùn)練數(shù)據(jù)。相較于傳統(tǒng)的對多個模態(tài)的所有數(shù)據(jù)都進(jìn)行標(biāo)注的方法,主動學(xué)習(xí)能夠挑選有價值的數(shù)據(jù)進(jìn)行標(biāo)注,從而排除一些冗余數(shù)據(jù)、噪聲數(shù)據(jù)的干擾,有助于在保持甚至提升模型性能的同時減輕多模態(tài)數(shù)據(jù)下對大數(shù)據(jù)的依賴。

        2.4 數(shù)據(jù)去噪方法

        隨著計算機(jī)視覺技術(shù)的不斷發(fā)展,各種形式的數(shù)字圖像與人們的生活、工作和學(xué)習(xí)緊密結(jié)合起來。但圖像在采集、處理和傳輸?shù)冗^程中都極易受到噪聲的污染,導(dǎo)致圖像的質(zhì)量受損,重要信息無法準(zhǔn)確識別和獲取,進(jìn)而干擾人們后續(xù)對圖像信息的提取和分析。

        隨著采集設(shè)備逐漸豐富,各種多模態(tài)數(shù)據(jù)來源的涌現(xiàn)和數(shù)據(jù)處理方法的創(chuàng)新層出不窮,專注于各個領(lǐng)域的多模態(tài)任務(wù)也都不斷取得更好的結(jié)果。但目前學(xué)者進(jìn)行的大量研究是基于數(shù)據(jù)集無噪的理想前提下進(jìn)行的,實際上,在圖像的獲取和處理的過程中,外界環(huán)境和硬件設(shè)備內(nèi)部都可能會引入噪聲。在多模態(tài)任務(wù)中,任何一方數(shù)據(jù)受到噪聲污染而造成的質(zhì)量受損都會影響最終結(jié)果,因此,對含噪多源數(shù)據(jù)的處理研究需求十分迫切,具有重大研究價值和實際意義。

        圖像數(shù)據(jù)中的噪聲一般指妨礙有用信息的孤立像素點,通常以不必要或多余信息的形式出現(xiàn),對原始圖像的視覺效果產(chǎn)生不利影響。在各類圖像處理任務(wù)中,噪聲的存在通常會干擾模型性能,任務(wù)實現(xiàn)效果與無噪聲的情況相比顯著下降。例如,合成孔徑雷達(dá)對于災(zāi)害監(jiān)測等任務(wù)具有良好的觀測效果,但受到特殊成像機(jī)制的限制,合成孔徑雷達(dá)觀測到的圖像會受到相干斑噪聲的影響,加大了圖像解譯的難度。

        隨著多媒體和計算機(jī)技術(shù)的興起,數(shù)字圖像的獲取和采集形式日益豐富。但通過傳感器等設(shè)備采集到的圖像,會受到采集時刻所對應(yīng)的天氣環(huán)境、所使用的設(shè)備硬件的影響,從而引入噪聲。并且圖像在正常的傳遞過程中,也會因一次或多次的壓縮、解壓進(jìn)程而降低其本身的清晰度。通常存在于圖像中常見的噪聲主要包括高斯噪聲、泊松噪聲和椒鹽噪聲(脈沖噪聲)等,如圖8所示。噪聲的存在對圖像的現(xiàn)實應(yīng)用造成了不利影響。例如,在醫(yī)學(xué)影像中,醫(yī)療設(shè)備的成像機(jī)理可能導(dǎo)致采集的患者樣本圖像中存在噪聲,而在大多數(shù)醫(yī)學(xué)多模態(tài)任務(wù)中需對多源圖像進(jìn)行配準(zhǔn),圖像中的噪聲會在一定程度上影響配準(zhǔn)效果,使醫(yī)生不能對患者的病癥進(jìn)行綜合評估。在遙感圖像中,多傳感器會提供相同地區(qū)內(nèi)不同空間和光譜分辨率圖像,從不同的成像視角豐富細(xì)節(jié)信息,但含噪的模糊圖像會降低數(shù)據(jù)的可靠性和可用性,甚至出現(xiàn)圖像畸變。圖像去噪是旨在對受到噪聲干擾的圖像進(jìn)行恢復(fù),使其還原至真實干凈的圖像,從而有利于提取其重要特征信息的過程。因此,使用恰當(dāng)?shù)姆绞綄雸D像進(jìn)行清洗、重建,將得到的干凈圖像應(yīng)用于任務(wù),能夠更有效地輔助學(xué)者進(jìn)行相應(yīng)研究。

        圖8 3種類型的噪聲圖

        目前,針對多模態(tài)異構(gòu)圖像數(shù)據(jù)的去噪方法在國內(nèi)外的研究相對較少。自然世界中噪聲來源廣,對于不同領(lǐng)域、不同設(shè)備采集的圖像而言,其受噪聲干擾的程度也有差異性,圖像內(nèi)部的噪聲稱為特征噪聲。

        對于特征噪聲的處理研究出現(xiàn)較早,方法較為豐富。常見的去噪方法可歸納為基于濾波的去噪方法、基于偏微分的去噪方法、基于字典和稀疏表示的去噪方法、基于低秩矩陣的去噪方法和基于深度學(xué)習(xí)的去噪方法等。多模態(tài)領(lǐng)域內(nèi)的去噪方法總結(jié)如表3所示。

        表3 多模態(tài)領(lǐng)域去噪方法總結(jié)

        由于當(dāng)更多的研究開始注重將去噪算法用于多模態(tài)圖像和視頻等數(shù)據(jù)集時,應(yīng)用于單一圖像、特定領(lǐng)域的去噪算法本身已經(jīng)有了較為成熟的進(jìn)展和體系,因此在進(jìn)行多模態(tài)數(shù)據(jù)去噪時,學(xué)者更傾向于同時使用多種方法,以將不同算法的優(yōu)勢相結(jié)合,獲得更優(yōu)的去噪效果。

        2.4.1 基于濾波的去噪方法

        域濾波基本上可以劃分為空間域和變換域兩類??臻g域去噪是選擇合適的濾波器對圖像矩陣中的像素點及其鄰域內(nèi)的點進(jìn)行計算,直接進(jìn)行濾波操作。常用方法例如均值濾波、維納濾波等。這種方法易于理解,運算方便,但由于濾波器固定,每一個像素點進(jìn)行的處理相同,因此忽略了圖像內(nèi)部的相似性和差異性,重要特征和邊緣信息容易被平滑。變換域濾波包含傅里葉變換、小波變換和多尺度變換等方法。變換域濾波能夠?qū)⒃瓐D像轉(zhuǎn)換到另一個域,依據(jù)在該域中呈現(xiàn)的內(nèi)部差異性,使用某種計算方式過濾噪聲,再對其進(jìn)行逆操作恢復(fù)至原域圖像。

        變換域去噪方法具有一定的有效性,但由于變換域的特點,圖像邊緣易模糊。Lewis等人(2007)采用雙樹復(fù)小波變換對紅外和可見光圖像進(jìn)行聯(lián)合或單獨的特征分割,以抑制圖像中的不相關(guān)部分及噪聲。Achim等人(2005)在多尺度小波域中,提出了基于分?jǐn)?shù)低階矩的方法,應(yīng)用于磁共振圖像和計算機(jī)斷層掃描(computed tomography,CT)圖像。Scheunders和De Backer(2007)使用一種基于貝葉斯小波的多分量圖像去噪方法,為遙感領(lǐng)域多傳感器生成的圖像和醫(yī)學(xué)領(lǐng)域中不同的醫(yī)療圖像提供了多成分圖像的處理和去噪思路。Loza等人(2010)提出了基于小波系數(shù)非高斯統(tǒng)計建模,在紅外和可見光圖像對、高光譜圖像對和人腦磁共振兩種模態(tài)的圖像對上進(jìn)行了測試,其去噪表現(xiàn)優(yōu)于傳統(tǒng)去噪方法。

        域濾波主要是針對圖像中的每個像素點進(jìn)行操作,忽略了像素點的周邊信息,使圖像中的內(nèi)在關(guān)聯(lián)性不能較好體現(xiàn)。許多學(xué)者對圖像中的重復(fù)區(qū)域,即自然圖像的非局部自相似性(non-local self-similarity,NSS),進(jìn)行了相關(guān)去噪算法的研究。

        2.4.2 基于偏微分的去噪方法

        為了改善濾波去噪的過程中同時平滑了邊緣信息和重要特征的問題,許多學(xué)者對基于偏微分的去噪方法進(jìn)行了研究,該途徑通過數(shù)值計算方法對上述問題進(jìn)行彌補(bǔ)。Wang等人(2008)提出了一種像素域和小波域的變分模型,在多焦點圖像集合上進(jìn)行測試,其中像素域使用全變分模型(total variation,TV)作為降噪的正則化約束方法,全變分模型是圖像去噪領(lǐng)域的重要算法之一。Kumar和Dass(2009)也使用了全變分模型,并在醫(yī)療領(lǐng)域和飛機(jī)導(dǎo)航領(lǐng)域提供的兩種模態(tài)圖像上取得了優(yōu)秀結(jié)果。但為了抑制全變分模型極易產(chǎn)生的階梯效應(yīng)(Chan 等,2010),Zhao和Lu(2017)采用變分模型,同時利用多尺度交替序列濾波器,在含有噪聲的輸入圖像中提取有用特征。該方法在CT和MRI多模態(tài)醫(yī)學(xué)圖像上進(jìn)行了測試,結(jié)果提升了魯棒性,能夠有效地抑制階梯效應(yīng)。

        2.4.3 基于字典和稀疏表示的去噪方法

        稀疏表示(sparse representation, SR)是用基信號來表示圖像中的多維信號。使用完備和豐富的字典,具有比傳統(tǒng)的圖像轉(zhuǎn)換方式更有效揭示圖像特征的能力。由于圖像基本上都具備一定的稀疏性,稀疏先驗是近年來圖像領(lǐng)域重要的先驗信息之一,并已廣泛應(yīng)用于人臉識別、圖像去噪等方向。字典學(xué)習(xí)可以將圖像中有用的信息以合理的稀疏形式表示,近似認(rèn)為含噪聲的圖像是由無噪圖像和噪聲組成,無噪圖像可以稀疏表示,而噪聲是不可稀疏表示的,因此可以通過稀疏編碼的方式對無噪圖像進(jìn)行稀疏重構(gòu),將重構(gòu)圖像和原始圖像間的殘差進(jìn)行消除就是去噪的過程。

        一些研究采用正電子發(fā)射型計算機(jī)斷層顯像(positron emission computed tomography,PET)等醫(yī)學(xué)圖像對(如圖9所示)、紅外和可見光圖像對以及多焦點圖像對作為多模態(tài)測試數(shù)據(jù),Yang 和Li(2009)首次將稀疏表示引入多模態(tài)圖像的處理中,提出了使用超完備字典對多焦點圖像進(jìn)行稀疏表示的去噪方法。為了更加關(guān)注局部信息,Yang和Li(2012)使用小尺寸字典對圖像中重疊區(qū)域進(jìn)行稀疏表示,而不是面向全局。同時為使多源圖像分解為相同的字典庫子集,使用了同步正交匹配追蹤技術(shù)(simultaneous orthogonal matching pursuit,SOMP)。Yu等人(2011)提出了一種新的聯(lián)合稀疏表示對多源圖像去噪。Yin等人(2013)基于稀疏表示,提出了一種超分辨率的框架,更完整地重建原始圖像。Iqbal和Chen(2012)聯(lián)合訓(xùn)練低分辨率和高分辨率圖像的雙字典,更好地保留了圖像內(nèi)的邊緣信息并消除偽影。Liu等人(2014)提出基于SR的自適應(yīng)稀疏域選擇(SR with adaptive sparse domain selection, SR-ASDS)方法,大量高質(zhì)量圖像塊根據(jù)梯度信息分類,按類別訓(xùn)練相應(yīng)子字典,該方法比單一字典方法更有效和穩(wěn)定。Liu和Wang(2015b)提出了一種用于同時多模態(tài)圖像融合和去噪的自適應(yīng)稀疏表示模型。在該模型中,可以根據(jù)源圖像的噪聲強(qiáng)度調(diào)整重建誤差。Jiang和Wang(2014)使用了兩本不同的詞典來表示圖像細(xì)節(jié)。

        圖9 多模態(tài)醫(yī)學(xué)圖像

        以上方法都是基于圖像塊的稀疏表示,沒有過多考慮圖像內(nèi)在的結(jié)構(gòu)。為了更好地關(guān)注全局信息,Li等人(2012)使用了基于組的稀疏表示(group-based sparse representation,GSR)方法,提出組稀疏化和圖正則化的字典學(xué)習(xí),并將組稀疏表示用于圖像去噪。

        2.4.4 基于低秩矩陣的去噪方法

        低秩矩陣關(guān)注整幅圖像內(nèi)部的局部相關(guān)性,利用矩陣中的內(nèi)在關(guān)系更好地挖掘圖像全局的結(jié)構(gòu)信息,能夠有效去除噪聲,利于原圖的恢復(fù)重建。Li等人(2019b)提出了一種基于低秩和稀疏成分分解的方法應(yīng)用于多模態(tài)醫(yī)學(xué)圖像,對稀疏分量施加系數(shù)約束,增強(qiáng)了粗略尺度上的細(xì)節(jié),但模糊了精細(xì)尺度的細(xì)節(jié)。為了改善以上問題,Li等人(2020)將輸入的噪聲圖像分解為粗略尺度和精細(xì)尺度兩個分量,從損壞的數(shù)據(jù)中恢復(fù)精細(xì)尺度的細(xì)節(jié),在CT和MRI的醫(yī)學(xué)圖像對、紅外和可見光圖像對和多焦點圖像對上進(jìn)行了測試。

        2.4.5 基于深度學(xué)習(xí)的去噪方法

        隨著卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)框架不斷在圖像特征提取等領(lǐng)域取得優(yōu)秀結(jié)果,其學(xué)習(xí)訓(xùn)練樣本的內(nèi)部特征并做出預(yù)測的強(qiáng)大優(yōu)勢得到廣泛關(guān)注,其在圖像去噪方向的研究也有較大優(yōu)勢。Eitel等人(2015)在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出改進(jìn)的雙流結(jié)構(gòu),分別學(xué)習(xí)顏色和深度信息,并設(shè)置人工噪聲訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò),在RGB-D數(shù)據(jù)集上有效提高了識別精度。Nobis等人(2019)針對毫米波雷達(dá)和電荷耦合器件(charge coupled device,CCD)攝像機(jī)兩種模態(tài)的圖像提出了新的網(wǎng)絡(luò)結(jié)構(gòu),自動決定最有利的融合方式,并且受Dropout層(Srivastava等,2014)啟發(fā),提出新的訓(xùn)練策略BlackIn,提高了傳感器存在噪聲情況下的目標(biāo)檢測精度。

        由于數(shù)據(jù)集的獲取途徑日益豐富,對于研究人員來說可用的數(shù)據(jù)量逐漸龐大,在進(jìn)行有監(jiān)督學(xué)習(xí)任務(wù)時,需要與之對等的數(shù)據(jù)標(biāo)注工作。無論是通過人工標(biāo)注還是軟件分析,都不可避免地出現(xiàn)樣本標(biāo)注錯誤的情況,因此,用于訓(xùn)練和測試的數(shù)據(jù)集中會含有一定數(shù)量的標(biāo)簽噪聲。與特征噪聲不同,一幅圖像可以有大量特征,而僅有一個標(biāo)簽,因此,對于需要大規(guī)模數(shù)據(jù)作為輸入支撐的深度學(xué)習(xí)任務(wù)來說,準(zhǔn)確的標(biāo)簽是保證網(wǎng)絡(luò)模型魯棒性的重要支撐。

        對于單源圖像來說,標(biāo)簽噪聲的處理大多基于監(jiān)督學(xué)習(xí)方法進(jìn)行的模型訓(xùn)練,因此可將其對應(yīng)的去噪方法歸納為對標(biāo)簽本身的處理、對網(wǎng)絡(luò)結(jié)構(gòu)的處理、對損失函數(shù)的處理。但目前在多模態(tài)任務(wù)中對于標(biāo)簽噪聲的專門處理研究較少。如Ye和Yuen(2020)在行人重識別任務(wù)中構(gòu)建了具有魯棒性的深度網(wǎng)絡(luò)模型PurifyNet,調(diào)整并重用標(biāo)注錯誤的標(biāo)簽,采用硬感知實例重加權(quán)策略,提升了模型的有效性。

        2.5 數(shù)據(jù)增強(qiáng)

        由于某些樣本的稀缺性或采集成本過高,并不總能夠收集到體量足夠的樣本集。在樣本數(shù)足夠多的情況下,也可能因為數(shù)據(jù)質(zhì)量差的原因影響模型性能,導(dǎo)致模型陷入過擬合的狀態(tài)。過擬合狀態(tài)下模型的泛化能力會明顯下降。因此,已經(jīng)有許多正則化技術(shù)運用在模型設(shè)計中,如Dropout(Srivastava等,2014)、BatchNormalization(Tompson等,2015)等。除了這些基于模型架構(gòu)的技術(shù)之外,還有一項技術(shù)從根源出發(fā)直接針對數(shù)據(jù)集本身進(jìn)行操作,即數(shù)據(jù)增強(qiáng)。

        數(shù)據(jù)增強(qiáng)是一種增加數(shù)據(jù)豐度的方法,能有效提高模型的泛化能力和解決類不平衡的能力,旨在從現(xiàn)有的有限數(shù)據(jù)出發(fā),擴(kuò)展其數(shù)量并生成更具多樣性的數(shù)據(jù)。馬崠奡等人(2021)和Kaur等人(2021)的兩篇綜述對數(shù)據(jù)增強(qiáng)方法進(jìn)行了較為全面的概述和分類。綜合這兩篇論文對數(shù)據(jù)增強(qiáng)方法的概述,并結(jié)合多模態(tài)圖像數(shù)據(jù)分析處理中數(shù)據(jù)增強(qiáng)技術(shù)的應(yīng)用,可以將多模態(tài)數(shù)據(jù)下常用的數(shù)據(jù)增強(qiáng)方法分為3類:幾何變換、光學(xué)變換和基于深度學(xué)習(xí)的方法,如表4所示。本文將從以上3個方面對多模態(tài)數(shù)據(jù)分析處理中的數(shù)據(jù)增強(qiáng)方法進(jìn)行介紹。常用的幾何變換和光學(xué)變換樣例如圖10所示。

        圖10 常用的幾何變換和光學(xué)變換樣例

        表4 多模態(tài)領(lǐng)域不同數(shù)據(jù)增強(qiáng)方法總結(jié)

        2.5.1 幾何變換

        幾何變換是較為基本的圖像操作,同時也得到了廣泛的應(yīng)用,其包括但不限于旋轉(zhuǎn)、縮放、翻轉(zhuǎn)、裁剪、填充、平移和仿射變換等,通過特定規(guī)則的映射改變圖像中像素點的坐標(biāo)。假設(shè)原圖中的像素點坐標(biāo)為(x1,y1),將其映射到坐標(biāo)(x2,y2),就能獲得一幅新的圖像。只要改變基本坐標(biāo),就能夠獲得更多的數(shù)據(jù),在這幅圖像和類似圖像上訓(xùn)練的模型將獲得更多的特征,并且可以獲得更好的效果。

        一類方法采用固定的變換策略。Imran和Raman(2020)結(jié)合RGB-D圖像和慣性傳感器數(shù)據(jù)進(jìn)行人體動作識別,并對原始圖像采用3種策略分別生成3幅增強(qiáng)圖像,其中兩種策略使用不同尺寸裁剪并縮放至224×224像素,另一種則直接縮放至224×224像素;Zhang等人(2019b)使用了RGB圖像、偏振圖像等多種模態(tài)融合進(jìn)行道路場景語義分割,并采用旋轉(zhuǎn)和翻轉(zhuǎn)的方法進(jìn)行數(shù)據(jù)增強(qiáng)。

        另一類方法根據(jù)特定應(yīng)用場景對基本變換進(jìn)行改進(jìn)或設(shè)計了新的變換方法。Linder等人(2020)發(fā)現(xiàn)標(biāo)準(zhǔn)2D裁剪/擴(kuò)展增強(qiáng)不適用于深度數(shù)據(jù),提出了一種幾何上更精確的深度感知裁剪增強(qiáng)算法,用于RGB-D數(shù)據(jù)的訓(xùn)練,有利于提高3D定位精度;Quintana等人(2019)提出了一種基于光線投射實現(xiàn)的3D-2D投影的方法,用于人臉標(biāo)志點檢測的數(shù)據(jù)增強(qiáng);Salehinejad等人(2018)提出了一種基于極坐標(biāo)系中徑向變換的圖像增強(qiáng)采樣方法,可以生成原始圖像中最多像素數(shù)的徑向變換圖像,以增強(qiáng)數(shù)據(jù)的多樣性。Li等人(2019a)針對RGB-D數(shù)據(jù)提出了兩種數(shù)據(jù)增強(qiáng)策略:復(fù)制—轉(zhuǎn)換—粘貼合成策略和原始位置增強(qiáng)策略。第1個策略將RGB-D數(shù)據(jù)中的前景目標(biāo)復(fù)制出來,對該目標(biāo)進(jìn)行2維旋轉(zhuǎn)、縮放、遮擋和截斷等變換,然后將變化后的目標(biāo)融入到背景場景中。Wan等人(2016)基于RGB-D數(shù)據(jù)提出了一種時空特征,即基于稀疏關(guān)鍵點的混合特征,該特征對尺度、旋轉(zhuǎn)和部分遮擋具有魯棒性和不變性,并且為了緩解訓(xùn)練樣本不足的問題,通過人工合成不同時間尺度的數(shù)據(jù)來增加訓(xùn)練樣本。Wang等人(2018)將拍照姿態(tài)改變、光照變化和位置平移等方式讓有限數(shù)據(jù)中的一些屬性和特征改變,從而生成具有不同變化的新樣本,并通過端到端方法共同訓(xùn)練生成模型和分類算法。

        還有一類方法對一系列變換方法進(jìn)行隨機(jī)組合選取。Zhou等人(2019)針對RGB-D數(shù)據(jù)的目標(biāo)識別任務(wù)提出了MSANet(multimodal self-augmentation and adversarial network),并使用了兩個階段的數(shù)據(jù)增強(qiáng),在第1個階段的類無關(guān)數(shù)據(jù)增強(qiáng)中,定義了一系列變換,將變換序列表示為T={t,s,r,c},其中t表示采樣塊的垂直和水平變換;s是一個用于控制采樣塊大小的比例因子;r給出了訓(xùn)練樣本的旋轉(zhuǎn)角度;c將樣本塊從RGB顏色空間轉(zhuǎn)換為HSV顏色空間。

        2.5.2 光學(xué)變換

        光學(xué)變換主要通過圖像光學(xué)空間內(nèi)的調(diào)整對圖像進(jìn)行增強(qiáng)。光學(xué)變換是基于圖像顏色成分的變化對圖像的像素值進(jìn)行修改,而不是改變像素點的坐標(biāo)。光學(xué)變換增強(qiáng)包括更改圖像中的亮度、對比度、色調(diào)、飽和度和噪聲等。Valada等人(2016)對使用多光譜和多模態(tài)圖像進(jìn)行語義分割的方法進(jìn)行了研究,并開發(fā)了從RGB、近紅外和深度數(shù)據(jù)中學(xué)習(xí)的融合體系結(jié)構(gòu),提出了一種用于室外環(huán)境語義分割的結(jié)構(gòu),并采用色彩增強(qiáng)的方法進(jìn)行數(shù)據(jù)增強(qiáng)。Shahdoosti和Mehrabi(2018)將多模態(tài)醫(yī)學(xué)圖像融合中的系數(shù)選擇步驟建模為一項模式識別任務(wù),在模型中采用了強(qiáng)度—色調(diào)—飽和度變換進(jìn)行增強(qiáng),所提出的框架在對比度降低、顏色失真和精細(xì)細(xì)節(jié)丟失等情況下有較好的魯棒性。Nie等人(2020)提出了一種多模態(tài)融合框架,稱為集成多模態(tài)融合深度神經(jīng)網(wǎng)絡(luò),它可以靈活地完成目標(biāo)檢測和端到端驅(qū)動策略,用于預(yù)測轉(zhuǎn)向角和速度。Nie等人(2020)使用了隨機(jī)顏色空間對比度、顏色變化、隨機(jī)飽和度、隨機(jī)色調(diào)和光照變化等方法來增強(qiáng)訓(xùn)練數(shù)據(jù)以提升DNN(deep neural network)的魯棒性和泛化性能。

        2.5.3 基于深度學(xué)習(xí)的方法

        上面討論的幾種數(shù)據(jù)增強(qiáng)技術(shù)并不總能取得很好的效果,因為這些技術(shù)會改變圖像的幾何結(jié)構(gòu)或光學(xué)信息,從而可能導(dǎo)致丟失原始數(shù)據(jù)集的部分信息或特征。如今,基于深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法可以自動學(xué)習(xí)原始圖像的表征并生成新的“真實”圖像用以提升原數(shù)據(jù)集的數(shù)量和質(zhì)量,從而提高模型的泛化性能,并減少訓(xùn)練過程中的過擬合。以生成式對抗網(wǎng)絡(luò)(generative adversarial network,GAN)及其變體的深度學(xué)習(xí)方法已經(jīng)廣泛應(yīng)用在數(shù)據(jù)增強(qiáng)領(lǐng)域。典型的GAN主要由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分組成,可以通過學(xué)習(xí)輸入數(shù)據(jù)潛在的規(guī)律或分布生成合理的圖像?;綠AN的結(jié)構(gòu)如圖11所示。生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D在一個零和博弈中進(jìn)行對抗性訓(xùn)練,相互對抗并不斷調(diào)整參數(shù),促使兩個網(wǎng)絡(luò)在訓(xùn)練期間提升性能表現(xiàn)。在理想情況下,這種動態(tài)過程將最終達(dá)到平衡狀態(tài),此時生成網(wǎng)絡(luò)通過學(xué)習(xí)目標(biāo)數(shù)據(jù)的潛在分布產(chǎn)生新數(shù)據(jù),而判別網(wǎng)絡(luò)無法判斷新數(shù)據(jù)的真?zhèn)?,從而達(dá)到以假亂真的效果。

        圖11 GAN結(jié)構(gòu)圖

        Mondal等人(2018)將應(yīng)用在2維單模態(tài)圖像數(shù)據(jù)的生成對抗網(wǎng)絡(luò)擴(kuò)展至3維多模態(tài)數(shù)據(jù)生成合成圖像,并結(jié)合帶標(biāo)注的數(shù)據(jù)和不帶標(biāo)注的數(shù)據(jù)一起訓(xùn)練模型。Mehrotra和Dukkipati(2017)提出了生成對抗殘差成對網(wǎng)絡(luò),用生成器對不可見的數(shù)據(jù)分布提供有效的正則表示,并用殘差成對網(wǎng)絡(luò)作為判別器來度量成對樣本的相似性,進(jìn)而使得生成器更好的生成偽樣本用于模型訓(xùn)練。Li等人(2020)提出了一種新的基于GAN的腦腫瘤圖像增強(qiáng)框架TumorGAN。通過結(jié)合兩個不同患者的腦組織區(qū)域圖像和腫瘤區(qū)域影像,該方法可以通過來自n名患者的圖像數(shù)據(jù)產(chǎn)生n2-n個合成圖像數(shù)據(jù)對。實驗結(jié)果表明,在多模態(tài)和單模態(tài)數(shù)據(jù)集中,TumorGAN產(chǎn)生的合成圖像對均可以提升腫瘤分割的效果。Jiang等人(2019)提出了一種新的基于交叉模態(tài)先驗的深度學(xué)習(xí)方法,用于從小型專家標(biāo)記的MR數(shù)據(jù)集中訓(xùn)練具有高魯棒性的MR肺腫瘤分割模型。該方法通過跨模態(tài)先驗?zāi)P?,利用專家分割CT數(shù)據(jù)集的信息,克服了通過小數(shù)據(jù)集學(xué)習(xí)高魯棒性模型的難題。該方法在分割精度上取得了突出的表現(xiàn)。Zhang等人(2019c)提出了一個SkrGAN,它能夠生成高質(zhì)量的醫(yī)學(xué)圖像。SkrGAN引入了草圖先驗約束,來指導(dǎo)醫(yī)學(xué)圖像的合成,并生成具有真實前景結(jié)構(gòu)的圖像。通過對4種醫(yī)學(xué)圖像(視網(wǎng)膜彩色眼底、胸部X光、肺部CT和腦部MRI)的實驗表明,SkrGAN在醫(yī)學(xué)圖像增強(qiáng)方面取得了先進(jìn)的性能。

        在計算機(jī)視覺中,很多任務(wù)都可以歸納為將一幅輸入圖像轉(zhuǎn)換成一幅輸出圖像。在多模態(tài)數(shù)據(jù)分析處理中,也經(jīng)常使用這種方法產(chǎn)生新模態(tài)的數(shù)據(jù),并以此進(jìn)行數(shù)據(jù)增強(qiáng)。Lin等人(2020)提出了一種多模態(tài)AugGAN模型,并引入了循環(huán)結(jié)構(gòu)一致性,用于在復(fù)雜域(如白天和夜間)之間生成多樣且具有結(jié)構(gòu)一致性的圖像,用于目標(biāo)檢測器的訓(xùn)練。結(jié)果表明,該模型可以生成高可信度且多樣化的合成圖像。

        此外,還有一些其他的深度學(xué)習(xí)方法。Du等人(2021)提出了一種有效的識別網(wǎng)絡(luò)(TRecgNet),用于學(xué)習(xí)場景識別任務(wù)中特定模態(tài)的RGB-D表示。TRecgNet的核心是跨模態(tài)金字塔轉(zhuǎn)換分支,該分支能夠生成用于訓(xùn)練數(shù)據(jù)增強(qiáng)的多模態(tài)數(shù)據(jù)。Chen等人(2021)提出了一個由模態(tài)轉(zhuǎn)換器和語義轉(zhuǎn)換器組成的知識引導(dǎo)的數(shù)據(jù)增強(qiáng)框架,用于跨模態(tài)增強(qiáng)和語義增強(qiáng)。該知識引導(dǎo)的框架能夠合成多模態(tài)圖像,其圖像質(zhì)量和特征質(zhì)量都優(yōu)于傳統(tǒng)的圖到圖轉(zhuǎn)換機(jī)制。大量實驗表明,在使用了該增強(qiáng)方法后,使用相同的ResNet18分類器,AUC(area under curve)從84.36%顯著提高到86.71%,進(jìn)一步提高了分類精度。Pesteie等人(2019)提出了一種基于變分自動編碼器的生成網(wǎng)絡(luò),可以學(xué)習(xí)輸入數(shù)據(jù)的潛在分布。訓(xùn)練后的模型可用于合成新圖像以進(jìn)行數(shù)據(jù)增強(qiáng)。Pesteie等人(2019)在兩個獨立的臨床數(shù)據(jù)集(脊柱超聲圖像和大腦磁共振圖像)上證明了該方法的有效性。

        3 多模態(tài)數(shù)據(jù)集

        目前,在第1節(jié)提到的各個領(lǐng)域下的應(yīng)用場景對應(yīng)的多模態(tài)數(shù)據(jù)集種類、數(shù)量繁多,本文按照數(shù)據(jù)集的應(yīng)用領(lǐng)域、數(shù)據(jù)集名稱、包含的模態(tài)、提出的年份和其對應(yīng)的應(yīng)用場景等將這些領(lǐng)域常用的數(shù)據(jù)集總結(jié)整理為如表5所示。

        表5 不同領(lǐng)域下對應(yīng)的常用多模態(tài)數(shù)據(jù)集

        3.1 檢測識別領(lǐng)域

        檢測識別技術(shù)已經(jīng)廣泛應(yīng)用到如行人重識別、場景識別和人體動作識別等多模態(tài)數(shù)據(jù)場景下的任務(wù)當(dāng)中。因此,本文主要總結(jié)了檢測識別領(lǐng)域?qū)?yīng)于上述應(yīng)用場景的一些常用數(shù)據(jù)集。行人重識別的常用數(shù)據(jù)集主要包括:SYSU-MM01(Wu等,2017)和RegDB(Nguyen等,2017);場景識別的常用數(shù)據(jù)集主要有:SUN RGB+D(Song等,2015);人體動作識別的常用數(shù)據(jù)集有:NTU RGB+D(Shahroudy等,2016)和PKU-MMD(Liu等,2020)。

        SYSU-MM01(Wu等,2017)是目前最大的 RGB-IR ReID數(shù)據(jù)集之一,由4個RGB和2個紅外(infrared radiation,IR)攝像機(jī)收集。從統(tǒng)計上看,訓(xùn)練集包含395個行人的22 258幅RGB和11 909幅紅外圖像,而測試集由包含3 803幅紅外圖像的查詢集和一個RGB圖庫(gallery)集(紅外和RGB都是96個行人)組成。數(shù)據(jù)集包含兩種模式:在室內(nèi)搜索模式下,僅由兩個室內(nèi)攝像機(jī)參與捕獲圖像。對于全搜索模式,使用4個RGB攝像頭獲得的所有圖像。

        RegDB(Nguyen等,2017)是由雙攝像頭系統(tǒng)(即配對的RGB和熱成像攝像頭)獲取的跨模態(tài)行人重識別數(shù)據(jù)集。數(shù)據(jù)集中的采集對象包括412個行人,其中每個行人分別擁有10幅可見光圖像和10幅熱圖像??梢苑譃閮煞N評估模式,即可見熱和熱可見,通過交替使用所有可見/熱圖像作為查詢集。

        KITTI(Geiger等,2012)由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦,是目前國際上常用的自動駕駛場景下的計算機(jī)視覺算法評測數(shù)據(jù)集。該數(shù)據(jù)集可用于評測立體圖像、光流、視覺測距/SLAM、3D目標(biāo)檢測和3D跟蹤等計算機(jī)視覺任務(wù)在車載環(huán)境下的性能。數(shù)據(jù)采集平臺配備了4個高分辨率攝像機(jī)、一臺Velodyne激光掃描儀以及1個GPS導(dǎo)航系統(tǒng)。KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù),每幅圖像中最多可見15輛車和30個行人,圖像中有各種程度的遮擋與截斷。整個數(shù)據(jù)集由389個立體和光流圖像對、39.2 km視覺測距序列以及超過200 k個3D目標(biāo)標(biāo)注的圖像組成。

        nuScenes(Caesar等,2020)是一個大規(guī)模的自動駕駛數(shù)據(jù)集。該數(shù)據(jù)集包含在波士頓和新加坡收集的1 000個場景的3D邊界框,每個場景時長20 s。對23個類別和8個屬性的3維邊界框進(jìn)行了標(biāo)注,標(biāo)注頻率為2 Hz??偣灿?8 130個訓(xùn)練樣本、6 019個驗證樣本和6 008個測試樣本。該數(shù)據(jù)集具有完整的自動駕駛汽車數(shù)據(jù)套件:32束激光雷達(dá)、6個攝像頭和具有完整360°覆蓋范圍的雷達(dá)。

        SUN RGB+D(Song等,2015)數(shù)據(jù)集采集于4個不同的傳感器,包含10 335個RGB-D圖像,其規(guī)模與PASCAL VOC(pattern analysis statitical modeling and computational learning visual object classes)相似。整個數(shù)據(jù)集經(jīng)過密集標(biāo)注,包括146 617個2D多邊形和64 595個具有準(zhǔn)確目標(biāo)方向的3D邊界框,以及每個圖像的3D房間布局和場景類別。該數(shù)據(jù)集能夠為需要大量訓(xùn)練數(shù)據(jù)的場景識別任務(wù)提供數(shù)據(jù)支撐,避免模型過度擬合小型測試集,還可以研究跨傳感器偏差。

        NTU RGB+D(Shahroudy等,2016)是用于RGB加深度圖像人類動作識別的大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集包含從40個不同主題收集的56 578個視頻。每個身體有60個動作標(biāo)簽和25個關(guān)節(jié)點,包括日常的、相互的和與健康有關(guān)的動作。

        PKU-MMD(Liu等,2020)是多模態(tài)人類動作識別的一個大規(guī)?;鶞?zhǔn)數(shù)據(jù)集。它包括大約28 000個動作實例,并提供高質(zhì)量的多模態(tài)數(shù)據(jù)源,包括RGB、深度、紅外和骨架數(shù)據(jù)。為了使PKU-MMD更加實用,作者將數(shù)據(jù)集進(jìn)一步劃分為包括兩部分不同設(shè)置下的動作識別子集。第1部分包含1 076個未經(jīng)修剪的視頻序列,由66名受試者完成51個動作類別;而第2部分包含1 009個未經(jīng)修剪的視頻序列,由13名受試者完成41個動作類別。與第1部分相比,第2部分由于動作間隔短、同時進(jìn)行的動作和嚴(yán)重的遮擋而更具挑戰(zhàn)性。

        3.2 語義分割領(lǐng)域

        隨著傳感器技術(shù)以及雷達(dá)技術(shù)的發(fā)展,深度信息、紅外和近紅外等其他模態(tài)數(shù)據(jù)的獲取變得日趨容易,多模態(tài)數(shù)據(jù)下的語義分割研究已然成為當(dāng)下的研究熱點之一。目前,多模態(tài)數(shù)據(jù)下分割領(lǐng)域的應(yīng)用場景主要在如室內(nèi)場景、道路場景分割、醫(yī)學(xué)圖像分割和遙感語義分割等場景中得到了廣泛應(yīng)用。室內(nèi)場景分割的常用數(shù)據(jù)集主要包括:RGB-D NYUv2(Silberman等,2012)、3RScan(Wald等,2016)、ScanNet(Dai等,2017)和在檢測識別領(lǐng)域已經(jīng)提及并介紹過的SUN RGB+D(Song等,2015)數(shù)據(jù)集。道路場景分割常用的數(shù)據(jù)集有:Toronto-3D(Tan等,2020)。醫(yī)學(xué)圖像分割常用的數(shù)據(jù)集有:BraTS(Menze等,2015)和MSD(Simpson等,2019)。遙感圖像分割常用的數(shù)據(jù)集有:ISPRS Vaihingen(2018)、ISPRS Potsdam(2018)(http://www2.isprs.org/commissions/comm3/wg4/semantic-labeling.html)和Agriculture-Vision(Chiu等,2020)。

        RGB-D NYUv2(Silberman等,2012)是一個室內(nèi)場景數(shù)據(jù)集,由1 449幅RGB-D圖像組成,包含了464個不同的室內(nèi)場景,每幅圖像帶有詳細(xì)的標(biāo)注。

        3RScan(Wald等,2019)是一個大規(guī)模的真實室內(nèi)場景數(shù)據(jù)集,其特點是在多個時間步驟中對478個環(huán)境進(jìn)行1 482次RGB-D掃描。每個場景包括若干個位置隨時間變化的物體,以及物體實例的標(biāo)注和它們的6 DoF(degree of freedom)映射結(jié)果。

        ScanNet(Dai等,2017)是一個RGB-D視頻數(shù)據(jù)集,包含1 513個場景中的250萬個視圖。數(shù)據(jù)集除了帶有語義分割的標(biāo)注之外,還附有3維室內(nèi)場景重建和3D相機(jī)姿態(tài)的標(biāo)注。

        Toronto-3D(Tan等,2020)是通過車載MLS(mobile laser scanning)系統(tǒng)采集的大型城市室外點云數(shù)據(jù)集。該系統(tǒng)由32線激光雷達(dá)傳感器、ladybug5全景相機(jī)、GNSS(global navigation satellite system)系統(tǒng)和同步定位與建圖系統(tǒng)組成。數(shù)據(jù)集收集于加拿大多倫多,涵蓋了大約1 km的點云,由大約7 830萬個點組成,有8個標(biāo)記的物體類別。該數(shù)據(jù)集分為4個部分,每個部分覆蓋的范圍約為250 m。

        ISPRS Vaihingen(ISPRS,2018)數(shù)據(jù)集的每幅圖像均由近紅外(near infrared,NIR)、紅色和綠色通道(nir-red-green,按此順序)組成,空間分辨率為0.9 m,并且還提供了與圖像數(shù)據(jù)配準(zhǔn)的數(shù)字表面模型(digital surface model,DSM)。數(shù)據(jù)集由總共33幅圖像(平均尺寸為2 494×2 064像素)組成,這些塊被密集地分類為6個標(biāo)簽:不透水表面、建筑物、低矮植被、樹木、汽車和雜波/背景;其中16幅圖像帶有可用的標(biāo)注文件,而其余的則視為測試集的圖像,需要提交預(yù)測結(jié)果才能進(jìn)行評估。

        ISPRS Potsdam(ISPRS,2018)由四通道圖像(NIR-RGB)、DSM和標(biāo)準(zhǔn)化的DSM(normalized DSM,nDSM)組成。該數(shù)據(jù)集包含38個相同大小(6 000×6 000像素)的圖像,空間分辨率為0.5 m。其中,有24幅圖像有其對應(yīng)的標(biāo)注文件(標(biāo)注的類別與 Vaihingen 數(shù)據(jù)集的類相同),其余圖像則視為測試集,需要提交預(yù)測才能進(jìn)行評估。

        Agriculture-Vision(Chiu等,2020)包含從全美3 432個農(nóng)田收集的94 986幅高質(zhì)量的航空圖像,其中每幅圖像由RGB和近紅外(NIR)通道組成,每個像素的分辨率高達(dá)10 cm。該數(shù)據(jù)集標(biāo)注了對農(nóng)民最重要的9種田間異常模式,可作為航空農(nóng)業(yè)語義分割的試點研究。

        BraTS(Menze等,2015)是一個用于腦腫瘤圖像分割的數(shù)據(jù)集。它由220個高級別膠質(zhì)瘤和54個低級別膠質(zhì)瘤磁共振成像組成。其中包含4種模態(tài)的MRI圖像,分別為T1、T2、T1ce和Flair。其分割標(biāo)注提供了4種腫瘤內(nèi)分類:水腫、強(qiáng)化腫瘤、非強(qiáng)化腫瘤和壞死。

        MSD(Simpson等,2019)是一個包含各種臨床相關(guān)解剖結(jié)構(gòu)的醫(yī)學(xué)圖像數(shù)據(jù)集,廣泛應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域。它由2 633幅3維圖像構(gòu)成,其中存在多個解剖結(jié)構(gòu),并包含了MRI、CT等多種模態(tài)的圖像數(shù)據(jù)。具體來說,它包含以下身體器官或部位的數(shù)據(jù):大腦、心臟、肝臟、海馬、前列腺、肺、胰腺、肝血管、脾臟和結(jié)腸。

        3.3 預(yù)測估計領(lǐng)域

        基于深度學(xué)習(xí)的預(yù)測和估計技術(shù)已廣泛應(yīng)用在在多模態(tài)數(shù)據(jù)場景中,如人體姿態(tài)估計、深度估計和路徑規(guī)劃等。以下介紹一些預(yù)測領(lǐng)域中常用的多模態(tài)數(shù)據(jù)集。人體姿態(tài)估計的常用數(shù)據(jù)集主要有:Toyota Smarthome(Das等,2019)和PedX(Kim等,2019)。深度估計的常用數(shù)據(jù)集有:DIODE(Vasiljevic等,2019)和ReDWeb(Xian等,2018)。路徑規(guī)劃的常用數(shù)據(jù)集有:GMRP(Wang等,2019)。

        Toyota Smarthome(Das等,2019)是用于人體姿態(tài)估計的數(shù)據(jù)集,包含18位年長的受試者在一天中完成的各項活動。該數(shù)據(jù)集包含31個動作類的16 115個視頻,這些視頻來自7個不同的相機(jī)視點。

        PedX(Kim等,2019)是一個用于復(fù)雜城市交叉路口行人3維姿態(tài)估計的基準(zhǔn)數(shù)據(jù)集,由5 000多對高分辨率立體圖像和激光雷達(dá)數(shù)據(jù)組成,并提供行人的2維和3維標(biāo)簽,還提出了一種新的3維模型擬合算法,用于自動3維標(biāo)記,利用了不同模式的約束以及新的形狀和時間先驗。

        DIODE(Vasiljevic等,2019)是第1個用于單目深度估計的標(biāo)準(zhǔn)數(shù)據(jù)集,包括使用相同傳感器獲取的各種室內(nèi)和室外場景,由高分辨率RGB-D圖像構(gòu)成。訓(xùn)練集包括8 574個室內(nèi)樣本和16 884個室外樣本,每個樣本來自20次掃描。驗證集包含325個室內(nèi)和446個室外樣本,每組樣本來自10次不同的掃描,數(shù)據(jù)集的室內(nèi)和室外深度距離范圍分別為50 m和300 m。

        ReDWeb(Xian等,2018)是一個用于單目相對深度估計任務(wù)的數(shù)據(jù)集,由3 600個收集自不同場景的RGB-相對深度圖像對組成。該數(shù)據(jù)集涵蓋了廣泛的室內(nèi)外場景,如街道、辦公室、山丘、公園、農(nóng)場和夜景等。

        GMRP(Wang等,2019)是一個地面移動機(jī)器人可行駛區(qū)域和道路異常分割的RGB-D數(shù)據(jù)集。該數(shù)據(jù)集包含3 896幅RGB-D圖像,涵蓋地面移動機(jī)器人通常工作的30個常見場景(例如人行道和廣場)和地面移動機(jī)器人在真實環(huán)境中可能遇到的18種不同類型的道路異常情況。

        4 結(jié) 語

        多模態(tài)數(shù)據(jù)的處理和應(yīng)用成為重點研究方向,在情感分析、機(jī)器翻譯、自然語言處理和生物醫(yī)學(xué)等前沿方向取得了重要突破。國內(nèi)外研究學(xué)者針對數(shù)據(jù)受限條件下的多模態(tài)學(xué)習(xí)展開了大量研究。本文深入不同的數(shù)據(jù)受限形式,總結(jié)了計算機(jī)視覺領(lǐng)域中數(shù)據(jù)受限下的多模態(tài)數(shù)據(jù)處理發(fā)展現(xiàn)狀。此外,基于以上分析,本文簡要介紹了多模態(tài)數(shù)據(jù)處理領(lǐng)域未來仍需進(jìn)一步研究的方向。

        1)輕量級的多模態(tài)數(shù)據(jù)處理方法。數(shù)據(jù)受限條件下的多模態(tài)學(xué)習(xí)仍然存在模型應(yīng)用于移動式設(shè)備的挑戰(zhàn)性?,F(xiàn)有方法在融合多個模態(tài)的信息時,普遍需要使用兩個及以上的網(wǎng)絡(luò)進(jìn)行特征提取,進(jìn)而將特征進(jìn)行融合,因此模型的參數(shù)量大、模型結(jié)構(gòu)復(fù)雜限制了其應(yīng)用于移動式設(shè)備。在未來工作中,輕量化模型有待進(jìn)一步研究。

        2)通用的多模態(tài)智能處理模型。現(xiàn)有多模態(tài)數(shù)據(jù)處理方法多是為不同任務(wù)開發(fā)的不同算法,需要在特定的任務(wù)上進(jìn)行訓(xùn)練。這種針對特定任務(wù)的訓(xùn)練方法很大程度上增加了開發(fā)模型的成本,難以滿足快速增長的應(yīng)用場景的需求。因此,針對不同模態(tài)的數(shù)據(jù),需要提出適合的通用感知模型,學(xué)習(xí)多模態(tài)數(shù)據(jù)的通用表征,使得在不同的應(yīng)用場景可以共享通用模型的參數(shù)和特征。

        3)知識與數(shù)據(jù)混合驅(qū)動的模型。不同模態(tài)的數(shù)據(jù)往往包含不同的特性,本文認(rèn)為在進(jìn)行多模態(tài)數(shù)據(jù)處理時,除了使用多模態(tài)數(shù)據(jù)外,可以考慮引入數(shù)據(jù)特性和知識,建立知識與數(shù)據(jù)混合驅(qū)動的模型,增強(qiáng)模型的性能和可解釋性。

        猜你喜歡
        模態(tài)深度監(jiān)督
        深度理解一元一次方程
        突出“四個注重” 預(yù)算監(jiān)督顯實效
        深度觀察
        深度觀察
        深度觀察
        監(jiān)督見成效 舊貌換新顏
        夯實監(jiān)督之基
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        監(jiān)督宜“補(bǔ)”不宜“比”
        浙江人大(2014年4期)2014-03-20 16:20:16
        激情五月婷婷一区二区| av免费网址在线观看| 亚洲人成网址在线播放| 中文字幕乱伦视频| 无码人妻少妇久久中文字幕蜜桃 | 少妇的丰满3中文字幕| 人妻丰满熟妇AV无码区HD| 粉嫩极品国产在线观看| 日本一区二区三区在线视频观看| 国产在线观看一区二区三区av| 久久99亚洲精品久久久久| 男女猛烈xx00免费视频试看| 国产av人人夜夜澡人人爽麻豆| 妇女性内射冈站hdwwwooo | 日本一级二级三级在线| 国产精品成人亚洲一区| 亚洲老妈激情一区二区三区| 亚洲自拍另类欧美综合| 久久狠狠髙潮曰十八女人| 337p日本欧洲亚洲大胆色噜噜| 婷婷五月婷婷五月| 男女男在线精品网站免费观看| 一本久久精品久久综合桃色| 日韩精品人妻系列中文字幕| 亚洲精品电影院| 久久精品国产亚洲av麻| 国产v精品成人免费视频400条 | 乳乱中文字幕熟女熟妇| 国产乱人对白| 精品少妇人妻av免费久久久| 91短视频在线观看免费| 国产午夜精品综合久久久| 狠狠摸狠狠澡| 色五月丁香五月综合五月4438| 国产精品99精品一区二区三区∴| 人妻1024手机看片你懂的| 亚洲精品午夜久久久九九| 免费超爽大片黄| 色综合自拍| 成人在线视频自拍偷拍| 色综合天天综合网国产成人网 |