亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種殘差置亂上下文信息的場(chǎng)景圖生成方法

        2019-07-30 11:15:12徐云龍劉純平
        關(guān)鍵詞:全局殘差分類

        林 欣 田 鑫 季 怡 徐云龍 劉純平,3

        1(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇蘇州 215006)2(蘇州大學(xué)應(yīng)用技術(shù)學(xué)院 江蘇蘇州 215300)3(符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(吉林大學(xué)) 長(zhǎng)春 130012)

        Fig. 1 A sample of a ground truth scene graph圖1 場(chǎng)景圖示意圖

        場(chǎng)景圖[1]是真實(shí)圖像中目標(biāo)和目標(biāo)間關(guān)系的精細(xì)化語(yǔ)義抽取,通過對(duì)預(yù)定義的目標(biāo)實(shí)例、目標(biāo)屬性和目標(biāo)對(duì)間關(guān)系進(jìn)行預(yù)測(cè)來(lái)構(gòu)建,常用三元組的結(jié)構(gòu)化語(yǔ)言表示場(chǎng)景中目標(biāo)間的交互.圖1給出了一幅圖像三元組關(guān)系表示的場(chǎng)景圖實(shí)例,如boy-wearing-shirt.在場(chǎng)景圖中,節(jié)點(diǎn)描述類別信息連同邊界盒表示的目標(biāo)實(shí)體,有向邊則表示主、賓語(yǔ)間的關(guān)系類別.借助場(chǎng)景圖對(duì)一幅圖像可解釋結(jié)構(gòu)化表示的描述,圖像被重構(gòu)為連接圖結(jié)構(gòu)而不是孤立的目標(biāo)實(shí)體,可以支持高層視覺智能任務(wù),如圖像檢索[2]、目標(biāo)檢測(cè)[3-4]以及視覺問答[5-7]等視覺任務(wù).由于手工標(biāo)注海量圖像的三元組關(guān)系描述格外昂貴,因此訓(xùn)練一個(gè)模型來(lái)自動(dòng)生成高質(zhì)量的場(chǎng)景圖是近年來(lái)視覺理解的一種重要方向,再加上場(chǎng)景圖表示需要推理復(fù)雜的依賴關(guān)系,高效準(zhǔn)確地提取場(chǎng)景圖也是一個(gè)極具挑戰(zhàn)性的任務(wù).

        作為連接視覺與語(yǔ)言的橋梁,場(chǎng)景圖生成任務(wù)是盡可能生成一個(gè)精確映射真實(shí)視覺場(chǎng)景的圖表示.現(xiàn)有大多數(shù)基于目標(biāo)的場(chǎng)景圖方法,主要有基于目標(biāo)檢測(cè)和關(guān)系分類兩階段生成方法、基于目標(biāo)和關(guān)系聯(lián)合推理兩大類.基于推理的場(chǎng)景圖生成方法又可細(xì)分為基于消息傳遞[1,8-10]和全局上下文[11-12]2類.為得到更精準(zhǔn)的目標(biāo)標(biāo)簽,這類方法在候選場(chǎng)景圖上進(jìn)行消息傳遞與推理.

        基于消息傳遞的方法中,首先提取目標(biāo)區(qū)域的局部特征輸入循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),其次使用相鄰節(jié)點(diǎn)和邊的表示來(lái)生成消息,并在圖的拓?fù)浣Y(jié)構(gòu)中進(jìn)行傳遞,最終獲得主語(yǔ)、賓語(yǔ)和關(guān)系的最終表示結(jié)果.常見的消息傳遞策略包括迭代消息傳遞[1]、并行和串行消息傳遞[9]、空間加權(quán)消息傳遞[10]等.Xu等人[1]最早提出基于迭代消息傳遞的場(chǎng)景圖生成方法IMP(iterative message passing).該方法首先通過ROI-pooling[13]從VGG-16卷積層[14]中提取目標(biāo)和關(guān)系的特征,然后將視覺特征分別輸入節(jié)點(diǎn)和邊GRU(gated recurrent unit)[15]中,在之后的迭代過程中根據(jù)拓?fù)浣Y(jié)構(gòu),利用相鄰節(jié)點(diǎn)或邊的隱藏狀態(tài)生成消息,獲取最終目標(biāo)和關(guān)系表示.此外,還有一些改進(jìn)的消息傳遞方法被提出,如并行和串行消息傳遞策略[9]可以更好地在目標(biāo)和關(guān)系間傳遞信息;空間加權(quán)消息傳遞結(jié)構(gòu)和空間敏感關(guān)系推理模塊機(jī)制下的基于子圖連接圖[10]可有效加速推理過程和提高場(chǎng)景圖生成效率.但是由于不完全的數(shù)據(jù)集標(biāo)注,此類模型生成的消息受到局部上下文偏差的影響以及缺乏全局的視野.

        基于視覺和語(yǔ)義特征候選場(chǎng)景圖中節(jié)點(diǎn)間上下文傳遞下更新節(jié)點(diǎn)和關(guān)系表示能更加有效地學(xué)習(xí)到可靠邊的位置,減少不可能邊的影響.NM(neural motifs)模型[11]是最具代表性的全局上下文方法,此外還有注意力圖卷積網(wǎng)絡(luò)[12]的場(chǎng)景圖生成方法.相對(duì)于局部上下文方法局限于關(guān)系三元組進(jìn)行消息傳遞,全局上下文方法在全圖范圍內(nèi)進(jìn)行上下文更新,從而獲取更加全面的特征表示.在NM模型中,目標(biāo)候選框的特征以一個(gè)固定的順序被輸入到雙向LSTM(long short-term memory)網(wǎng)絡(luò)[16]中,從而獲得圖像的全局上下文,并通過連接主、賓語(yǔ)的全局上下文表示,實(shí)現(xiàn)對(duì)關(guān)系的分類.由于該類方法將原始圖像中呈二維空間分布的目標(biāo)排列成一個(gè)固定的從左至右的線性順序,全局上下文信息受到破壞,使模型更傾向于學(xué)習(xí)到數(shù)據(jù)集的偏差,而不是真正的視覺關(guān)系表示,同時(shí)損失了空間信息,無(wú)法獲得全面的全局上下文.

        鑒于上述問題,本文以NM模型[11]為基礎(chǔ),提出了殘差置亂上下文信息的場(chǎng)景圖生成模型(residual shuffle sequence model, RSSQ),其主要貢獻(xiàn)有3個(gè)方面:

        1) 提出隨機(jī)置亂策略,將固定順序的隱藏狀態(tài)迭代打亂重組.該策略就像紙牌游戲中的洗牌操作,可以加強(qiáng)目標(biāo)節(jié)點(diǎn)和其他所有相鄰節(jié)點(diǎn)的信息交換,提高模型的泛化能力,降低數(shù)據(jù)集偏差對(duì)場(chǎng)景圖生成的影響.

        2) 構(gòu)建不同雙向LSTM層之間的殘差連接,獲得不同層次的全局上下文信息,以形成更好的全局共享上下文表達(dá),同時(shí)因殘差的引入解決梯度消失問題.

        3) 提出顯式編碼目標(biāo)對(duì)間的位置信息嵌入,以增強(qiáng)場(chǎng)景圖生成中的空間上下文,改善目標(biāo)關(guān)系描述.

        1 相關(guān)工作

        場(chǎng)景圖生成是近幾年才發(fā)展起來(lái)的計(jì)算機(jī)視覺高級(jí)任務(wù)之一.與本文提出場(chǎng)景圖生成方法密切相關(guān)聯(lián)的工作主要有NM模型和殘差連接.下面分別介紹這2個(gè)方面.

        NM模型[11]是一種代表性的全局上下文方法.該模型將場(chǎng)景圖生成分為候選目標(biāo)邊界盒、區(qū)域標(biāo)簽和關(guān)系預(yù)測(cè)3個(gè)階段.在候選目標(biāo)邊界盒預(yù)測(cè)階段,計(jì)算邊界盒區(qū)域內(nèi)的上下文信息并進(jìn)行傳遞;然后將全局上下文用于預(yù)測(cè)邊界盒的標(biāo)簽,并基于全局上下文進(jìn)行邊預(yù)測(cè);最后在融合上下文邊界盒區(qū)域信息的基礎(chǔ)上給邊分配標(biāo)簽.具體實(shí)現(xiàn)中首先提取候選目標(biāo)的局部特征,并以候選區(qū)域中心點(diǎn)在原圖上的位置從左至右的線性順序?qū)⒕植刻卣鬏斎腚p向LSTM;然后用一個(gè)單向LSTM來(lái)解碼目標(biāo)類別,連同目標(biāo)上下文輸入到邊上下文雙向LSTM網(wǎng)絡(luò)中;最后組合主、賓語(yǔ)特征,獲取關(guān)系的最終表示.通過序列學(xué)習(xí),NM模型能夠?qū)W到視覺場(chǎng)景的強(qiáng)規(guī)則化信息,但是具有復(fù)雜空間分布和豐富語(yǔ)義信息的圖像被抽象為一個(gè)固定次序線性序列的簡(jiǎn)單操作造成了重要信息損失,如場(chǎng)景中的空間位置信息丟失;再加上雙向LSTM的強(qiáng)記憶能力使得NM模型更容易學(xué)習(xí)到數(shù)據(jù)集的偏差.

        與本文提出場(chǎng)景圖生成方法相關(guān)的另一個(gè)工作是殘差連接.殘差連接的關(guān)鍵思想是在網(wǎng)絡(luò)層之間增加短路連接,提供額外的梯度路徑[17].通過殘差連接,非常深的卷積網(wǎng)絡(luò)[17]被應(yīng)用與圖像分類和檢測(cè).殘差連接在深層卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用,提高了模型的泛化能力,解決了模型的“退化”問題.最近,Kim等人[18]提出了在LSTM模型中增加殘差連接的方法,并將該方法應(yīng)用于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別,證明了殘差連接可以提供短路,解決梯度消失問題.鑒于深度學(xué)習(xí)中,不同的網(wǎng)絡(luò)層可以表示低/中/高不同層次的特征[19],因此,在不同層次的LSTM中建立殘差連接能夠更好地學(xué)習(xí)抽象視覺關(guān)系,減少梯度消失問題.NM模型在雙向LSTM中使用高速連接的設(shè)計(jì),在時(shí)間維度上解決了梯度消失問題,但是隨著層數(shù)的增加,建立了高速連接的LSTM仍然存在退化問題[20],同時(shí)在空間維度上高速連接使得訓(xùn)練過程更加困難,殘差連接解決了這個(gè)問題[18].

        2 RSSQ方法

        為了獲取更優(yōu)的關(guān)系表示以生成更精確的場(chǎng)景圖,提出了RSSQ方法.該方法主要由目標(biāo)解碼模塊、殘差置亂模塊以及位置嵌入模塊3個(gè)部分組成,其整體框架如圖2所示.為了簡(jiǎn)潔和方便,下文雙向LSTM隱藏狀態(tài)均表述為上下文信息.

        Fig. 2 The framework of our Residual Shuffle Sequence Model (RSSQ)圖2 殘差置亂上下文信息場(chǎng)景圖生成方法框架

        (1)

        其中,fc(·)表示全連接,d表示目標(biāo)解碼模塊.主語(yǔ)目標(biāo)i和賓語(yǔ)目標(biāo)j之間的謂詞表示由置亂殘差邊上下文表示pri,j以及位置嵌入向量psi,j的最大全連接獲得.謂詞表示為

        reli,j=arg max(fc(pri,j,psi,j)).

        (2)

        2.1 目標(biāo)解碼

        目標(biāo)解碼階段的主要目的是實(shí)現(xiàn)目標(biāo)分類.該模塊首先使用Faster RCNN[21]來(lái)進(jìn)行目標(biāo)的預(yù)分類以及目標(biāo)邊界盒的回歸.由于Faster RCNN中,目標(biāo)分類是不考慮上下文信息的.為了引入上下文信息,采用NM模型[11]中的目標(biāo)上下文模塊構(gòu)建目標(biāo)預(yù)測(cè)的上下文表示.

        目標(biāo)上下文信息hi,o提取是利用中心點(diǎn)偏移從左至右將其目標(biāo)特征向量fi輸入到高速雙向LSTM[16]中獲得,即:

        hi,o=biLSTM(fi).

        (3)

        目標(biāo)的分類向量由目標(biāo)上下文信息hi,o輸入目標(biāo)解碼LSTM獲得,即:

        hi,d=LSTM(hi,o).

        (4)

        2.2 殘差置亂

        (5)

        殘差置亂模塊的輸入由目標(biāo)上下文編碼的隱藏狀態(tài)和詞向量編碼2部分拼接而成:

        (6)

        (7)

        (8)

        (9)

        最終殘差邊上下文表示pri,j為

        (10)

        其中,⊙表示點(diǎn)乘運(yùn)算.

        2.3 位置嵌入

        給定主語(yǔ)包圍盒boxi=(xi,yi,wi,hi),賓語(yǔ)包圍盒boxj=(xj,yj,wj,hj),主賓語(yǔ)間的相對(duì)幾何特征PE和區(qū)域比特征Aup,位置嵌入特征psi,j則可通過一個(gè)全連接層的融合得到:

        psi,j=fc(PE,Aup).

        (11)

        主、賓語(yǔ)間的相對(duì)幾何特征PE是一個(gè)高維嵌入表示.為了獲取平移和尺度不變的相對(duì)幾何特征,對(duì)主賓語(yǔ)間的4維相對(duì)幾何特征進(jìn)行對(duì)數(shù)轉(zhuǎn)換,轉(zhuǎn)換后的相對(duì)幾何特征為

        (12)

        在本文實(shí)驗(yàn)中,根據(jù)文獻(xiàn)[22]的方法,通過正弦和余弦函數(shù)分別計(jì)算主、賓語(yǔ)間的相對(duì)幾何特征PE的奇數(shù)(2m+1)和偶數(shù)(2m)維度的變換特征,將4維相對(duì)幾何特征pos換為64維表示.變換公式分別為

        PE(pos,2m)=sin(pos10002mdmod el),

        (13)

        PE(pos,2m+1)=cos(pos10002m+1dmod el).

        (14)

        除了相對(duì)幾何位置關(guān)系,目標(biāo)對(duì)間的空間關(guān)系通過目標(biāo)對(duì)之間面積關(guān)系和重疊關(guān)系來(lái)進(jìn)一步增強(qiáng)[23].文獻(xiàn)[23]中,通過相對(duì)位置、面積、形狀等描述空間分布.受到該文獻(xiàn)啟發(fā),本文引入4維區(qū)域比特征Ai,j,并利用一個(gè)ReLu函數(shù)激活的全連接層將其轉(zhuǎn)換至64維:

        Aup=ReLu(fc(Ai,j)).

        (15)

        區(qū)域比特征Ai,j=(Vi,j,Vo,i,Vo,j,Vo.u)由1個(gè)面積比Vi,j和3個(gè)重疊比Vo,i,Vo,j,Vo.u構(gòu)成:

        (16)

        其中,A(bi)表示包圍盒boxi的面積,A(oi,j)表示包圍盒的重疊面積,A(ui,j)表示主賓語(yǔ)的外包圍盒面積.

        3 實(shí)驗(yàn)與結(jié)果分析

        實(shí)驗(yàn)在公開數(shù)據(jù)集Visual Genome(VG)[24]上展開.為了驗(yàn)證提出RSSQ方法場(chǎng)景圖生成性能,進(jìn)行了模型本身的消融分析,同時(shí)進(jìn)一步在關(guān)系分類、場(chǎng)景圖分類和場(chǎng)景圖生成3個(gè)不同層次子任務(wù)上進(jìn)行方法性能的評(píng)價(jià).

        3.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        Visual Genome數(shù)據(jù)集是一個(gè)人工標(biāo)注的視覺關(guān)系數(shù)據(jù)集.根據(jù)不同的數(shù)據(jù)預(yù)處理方式和數(shù)據(jù)劃分方法,存在多種不同的版本[8,11-12,25].在實(shí)驗(yàn)中,使用最普遍使用的數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分方法[1],其中訓(xùn)練集和測(cè)試集分別有75 651圖像和32 422圖像.保留了最常見的150類目標(biāo)以及50類關(guān)系,每張圖像平均有11.5個(gè)目標(biāo)和6.2個(gè)關(guān)系.

        場(chǎng)景圖生成任務(wù)的目的是定位預(yù)定義的目標(biāo)以及預(yù)測(cè)目標(biāo)對(duì)間的關(guān)系.整個(gè)任務(wù)被分成3個(gè)子任務(wù):

        1) 關(guān)系分類任務(wù)(predicate classification, PredCls).給定真實(shí)目標(biāo)框以及真實(shí)標(biāo)簽,需要預(yù)測(cè)目標(biāo)對(duì)間關(guān)系;

        2) 場(chǎng)景圖分類任務(wù)(scene graph classification, SGCls).給定真實(shí)的目標(biāo)邊界盒,需要預(yù)測(cè)目標(biāo)標(biāo)簽和目標(biāo)對(duì)間關(guān)系;

        3) 場(chǎng)景圖生成任務(wù)(scene graph generation, SGGen).給定一張圖像,需要檢測(cè)其中的目標(biāo)和關(guān)系.

        實(shí)驗(yàn)評(píng)價(jià)指標(biāo)采用Recall@K,縮寫為R@K,是置信度最高的K個(gè)分類結(jié)果在關(guān)系真值中所占比例.本文根據(jù)在Visual Genome數(shù)據(jù)集中證明結(jié)論:隨機(jī)生成一個(gè)三元組關(guān)系Recall@100約為0.000 089[24],在實(shí)驗(yàn)中將K取值為50和100.

        3.2 RSSQ方法整體定量分析

        實(shí)驗(yàn)中,以場(chǎng)景圖中3個(gè)子任務(wù)為目標(biāo),將RSSQ方法與一些現(xiàn)存模型進(jìn)行對(duì)比,包括Language Priors(LP)模型[26]、IMP模型[1]、Graph R-CNN(GR)模型[12]以及NM模型[11].實(shí)驗(yàn)結(jié)果如表1所示:

        Table 1 Comparison with Some Existing Works表1 RSSQ方法與現(xiàn)有方法對(duì)比實(shí)驗(yàn)結(jié)果

        IMP模型[1]主要針對(duì)局部關(guān)系上下文進(jìn)行建模,丟失了全局上下文的視野.GR模型[12]使用特定線性變換方法根據(jù)相鄰節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)表示更新,但是更新的策略相對(duì)簡(jiǎn)單.NM模型[11]通過雙向LSTM網(wǎng)絡(luò)生成邊上下文,丟失了結(jié)構(gòu)化信息.從表1中可以看出,提出的RSSQ方法在3個(gè)子任務(wù)中都超過了現(xiàn)有方法.相對(duì)于2018年CVPR的NM模型,在子任務(wù)SGCls上超過0.9%,在PredCls子任務(wù)上超過0.5%.在SGGen子任務(wù)上,提出方法超過GR模型12%.這表明提出RSSQ方法可以更加有效地生成場(chǎng)景圖.

        Fig. 3 The accuracy of each relationship categories of SGCls of R@20 setting圖3 關(guān)系分類逐類分析

        為了更進(jìn)一步精確地對(duì)比提出地RSSQ方法和NM模型在分類性能上的改進(jìn).圖3給出了在SGCls子任務(wù)中Recall@20設(shè)置上進(jìn)行的關(guān)系分類準(zhǔn)確率統(tǒng)計(jì)分析.橫坐標(biāo)上關(guān)系類別以出現(xiàn)頻率的降序排列,只有在關(guān)系三元組全部被預(yù)測(cè)正確,包括主賓語(yǔ)和關(guān)系,才會(huì)被統(tǒng)計(jì).圖3給出了根據(jù)頻率將關(guān)系分為高頻(a)、中低頻(b)2個(gè)部分區(qū)段的實(shí)驗(yàn)對(duì)比.在高頻段(圖3(a)),NM模型和RSSQ方法對(duì)關(guān)系頻率高的分類均表現(xiàn)良好,在部分關(guān)系類別中,提出的RSSQ方法相對(duì)于NM模型有微弱提升.

        在中頻區(qū)域(如圖3(b)所示),NM模型的分類準(zhǔn)確率較低,這是因?yàn)镹M模型學(xué)到更多的數(shù)據(jù)集偏差而并非真正理解關(guān)系.提出的RSSQ方法在這個(gè)區(qū)間的關(guān)系分類精度有相對(duì)大的提升,比如of,holding,behind,above,riding,at,carrying,using以及covered in關(guān)系類別.受益于更好的全局上下文特征,提出的RSSQ方法在抽象關(guān)系分類精度方面有較明顯提升,如holding(+2.36%)、riding(+4.76%)、carrying(+9.75%)以及using(+6.79).基于位置嵌入對(duì)位置信息的增強(qiáng),提出的RSSQ方法對(duì)位置關(guān)系分類精度也有較大提升,如of(+2.43%)、behind(+1.12%)、above(+1.55%)、at(+2.14%)以及covered in(+2.55%).在低頻段的分類識(shí)別,2個(gè)模型均沒什么表現(xiàn),這就需要更多研究,比如少量學(xué)習(xí)[27].

        總之,由于Visual Genome是一個(gè)嚴(yán)重不均衡的數(shù)據(jù)集,使大多模型更容易學(xué)習(xí)數(shù)據(jù)集偏差.提出的RSSQ方法在中等頻率區(qū)間性能的明顯提升,表明提出的RSSQ方法更少地受數(shù)據(jù)集偏差的影響,在一定程度上較好地改善了數(shù)據(jù)偏差對(duì)關(guān)系分類的影響.

        3.3 殘差置亂模塊評(píng)價(jià)

        基于NM模型[10]中4層LSTM層組成的邊上下文模塊(如圖4(a)所示),本文通過置亂模塊和殘差連接基本架構(gòu)單元來(lái)構(gòu)成殘差置亂模塊.通過對(duì)圖4(a)分別插入1,2,4次置亂層和殘差連接構(gòu)成3種殘差置亂模塊結(jié)構(gòu)e1,e2和e4,如圖4(b)~4(d)所示.

        Fig. 4 The initial edge context module in NM[10] and structures of residual shuffle module insertion圖4 殘差置亂模塊示意圖

        由于NM模型[10]沒有給出未經(jīng)微調(diào)的SGGen子任務(wù)的實(shí)驗(yàn)結(jié)果,殘差置換模塊的實(shí)驗(yàn)分析在PredCls和SGCls兩個(gè)子任務(wù)上進(jìn)行.此外,也進(jìn)行了LSTM層之間的原始設(shè)置以及殘差連接2種不同連接方式的實(shí)驗(yàn).如表2所示,通過置亂操作,在SGCls任務(wù)中有0.3%相對(duì)提升;通過殘差連接,在PredCls子任務(wù)和SGCls子任務(wù)分別有0.5%和0.7%的相對(duì)提升.在單純加入置亂操作的設(shè)置中,PredCls子任務(wù)中有些許性能下降,這是由于PredCls使用目標(biāo)標(biāo)簽真值,置亂破壞了關(guān)系的固定模式.從實(shí)驗(yàn)結(jié)果來(lái)看,置亂操作不斷地打亂目標(biāo)序列輸入次序,在訓(xùn)練迭代過程中,即使是同一條訓(xùn)練數(shù)據(jù)也會(huì)有不同的輸入次序,增加了模型的魯棒性,提高了模型的泛化能力.殘差連接融合了不同層次的邊上下文,在不同LSTM層間建立短路,從而減少梯度消失問題,獲取了更豐富語(yǔ)義的邊上下文.

        Table 2 Evaluation of the Residual Shuffle Module表2 殘差置亂模塊分析

        Note: “raw” means regular connection of LSTM layers, and “res” means residual connection.

        3.4 消融實(shí)驗(yàn)

        為進(jìn)一步分析提出的RSSQ方法中殘差置亂和位置嵌入2個(gè)模塊對(duì)場(chǎng)景圖生成的性能影響,表3給出了在3個(gè)子任務(wù)上的消融學(xué)習(xí)結(jié)果.這部分實(shí)驗(yàn)以NM模型為基準(zhǔn)模型,單純用殘差置亂模塊替換NM模型中的邊上下文提取模塊,在PredCls子任務(wù)和SGCls子任務(wù)中分別有0.5%和0.7% 的提升.單純將位置嵌入模塊添加到NM模型的邊上下文模塊中,在PredCls子任務(wù)和SGCls子任務(wù)中有些許提升.在SGGen子任務(wù)的實(shí)驗(yàn)中,位置嵌入模塊與NM模型的結(jié)合是殘差置換與NM模型結(jié)合,是提出RSSQ方法中性能表現(xiàn)最好的組合.提出的RSSQ方法在2個(gè)子任務(wù)PredCls和SGCls是表現(xiàn)最好的.綜上分析,殘差置亂和位置嵌入2個(gè)模塊部分緩解了數(shù)據(jù)集偏差和全局上下文共享問題,完整的RSSQ方法在3個(gè)子任務(wù)中的綜合表現(xiàn)良好.

        Table 3 Ablation Study表3 消融實(shí)驗(yàn)結(jié)果

        Fig. 5 Qualitative results of SGCls圖5 場(chǎng)景圖分類結(jié)果可視化結(jié)果

        Fig. 6 Errors caused by tense disagreements圖6 時(shí)態(tài)不一致引起的錯(cuò)誤示例

        3.5 部分場(chǎng)景圖可視化結(jié)果

        為了更直觀展示提出的RSSQ方法在場(chǎng)景圖生成的效果,圖5、圖6給出了場(chǎng)景圖可視化結(jié)果.其中圖像中給出的是真值標(biāo)簽的邊界盒,場(chǎng)景圖給出了SGCls子任務(wù)中生成場(chǎng)景圖和真值場(chǎng)景圖的對(duì)比,方框表示目標(biāo)實(shí)體,有向箭頭從主語(yǔ)指向賓語(yǔ),橢圓形表示關(guān)系.每個(gè)給出的具體樣例中的完整場(chǎng)景圖是真值描述的場(chǎng)景圖,其中深色底紋表示正確預(yù)測(cè),淺色底紋表示錯(cuò)誤預(yù)測(cè).圖5(a)是原始帶有目標(biāo)真值標(biāo)簽的原始圖像,圖5(b)給出的是RSSQ方法生成的場(chǎng)景圖,圖5(c)是NM模型[10]生成的場(chǎng)景圖.

        圖6給出了由于謂詞的時(shí)態(tài)不一致性帶來(lái)的關(guān)系分類錯(cuò)誤,如圖6(a)中wears和圖6(b)中的wearing.從圖5第1行樣例可以看出,RSSQ方法和NM模型[10]均能比較吻合地生成比較簡(jiǎn)單的場(chǎng)景圖.從圖5第3行與第5行樣例可以看出,RSSQ方法相對(duì)于NM模型[10]改進(jìn)了相對(duì)位置關(guān)系(near,under,in front of)的分類.從圖5第2行與第5行樣例可以看出,RSSQ方法在中頻區(qū)間的關(guān)系類別(carrying,in front of)有一定改進(jìn),緩解了數(shù)據(jù)集偏差問題.圖5第4行樣例說(shuō)明,RSSQ方法對(duì)于高頻區(qū)間的關(guān)系分類(如of)也有改進(jìn).

        4 總 結(jié)

        鑒于場(chǎng)景圖生成方法更多的學(xué)習(xí)數(shù)據(jù)集偏差,本文從殘差置亂和位置嵌入角度改進(jìn)NM模型,提出了一個(gè)新的基于殘差置亂上下文信息的場(chǎng)景圖生成方法(RSSQ).置亂策略有效地改善了數(shù)據(jù)集偏差對(duì)場(chǎng)景圖生成的影響,尤其是在中頻段的關(guān)系分類性能的提升比較明顯;殘差連接在不同LSTM層之間建立短路連接,完成不同層次的信息交換,較好解決了全局上下文信息共享,此外,殘差連接還解決了梯度消失問題.位置嵌入從面積比和重疊比角度整合目標(biāo)位置信息,也有效地提升了提出的RSSQ方法對(duì)位置關(guān)系分類的性能.在Visual Genome數(shù)據(jù)集的實(shí)驗(yàn)中驗(yàn)證了提出的RSSQ方法可行且高效,可以更少地受到數(shù)據(jù)集偏差的影響.

        猜你喜歡
        全局殘差分類
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        基于雙向GRU與殘差擬合的車輛跟馳建模
        量子Navier-Stokes方程弱解的全局存在性
        分類算一算
        基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        分類討論求坐標(biāo)
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        国产一区二区三区小向美奈子| 亚洲 国产 韩国 欧美 在线| 中文字幕av无码一区二区三区电影| 中文字幕一区二区网站| 久久久99精品国产片| 激情视频在线观看好大| 亚洲成av人片在线天堂无| 青青草视频免费在线播放| 风韵犹存丰满熟妇大屁股啪啪| 精品露脸国产偷人在视频| 一本色道久久88综合日韩精品| 国产专区国产av| 日本成人久久| 中文字幕一区二区三区日韩网| 午夜一区二区三区在线观看| 午夜精品久久99蜜桃| 99久久精品无码一区二区毛片| 久久99精品九九九久久婷婷| 无码人妻品一区二区三区精99| 极品美女高潮喷白浆视频| 亚洲国产一区二区三区,| 麻豆成人久久精品二区三区免费| 热99re久久精品这里都是精品免费| 亚洲精品熟女国产| 国产日产高清欧美一区| 亚洲无码夜夜操| 色综合久久五月天久久久| 亚洲av少妇一区二区在线观看| 国产小视频在线看不卡| 大地资源在线观看官网第三页| 亚洲欧美日韩一区二区三区在线 | 中文字幕人成乱码熟女| 国产成人精品电影在线观看| 国产亚洲日韩一区二区三区| 欧美精品久久久久久三级| 久久久亚洲一区二区三区| 中文字幕乱码亚洲在线| 国产精品人人做人人爽| 中文字幕av无码一区二区三区| 久草国产视频| 国产亚洲av手机在线观看|