亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合外部知識(shí)庫(kù)與適應(yīng)性推理的場(chǎng)景圖生成模型

        2022-09-15 06:59:30王旖旎高永彬萬衛(wèi)兵楊淑群郭茹燕
        計(jì)算機(jī)工程 2022年9期
        關(guān)鍵詞:信息模型

        王旖旎,高永彬,萬衛(wèi)兵,楊淑群,郭茹燕

        (上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201600)

        0 概述

        場(chǎng)景圖[1]是圖像內(nèi)容的結(jié)構(gòu)化表示,不僅可以表示圖像中所有的實(shí)體,而且可以表示不同實(shí)體對(duì)之間的關(guān)系信息,由一系列有序的主語-謂語-賓語三元組來表達(dá)圖像中的語義、空間和從屬信息。一個(gè)完整的場(chǎng)景圖能夠代表一個(gè)場(chǎng)景數(shù)據(jù)集的詳細(xì)語義,場(chǎng)景圖的相關(guān)研究極大促進(jìn)了人們對(duì)于計(jì)算機(jī)視覺[2-3]、自然語言處理[4]及其跨領(lǐng)域任務(wù)[5]的理解。場(chǎng)景圖生成(Scene Graph Generation,SGG)任務(wù)相比于目標(biāo)檢測(cè)[6]、對(duì)象交互[7]、活動(dòng)識(shí)別[8]等任務(wù)不僅需要檢測(cè)場(chǎng)景中物體的類別和位置,還需要推理這些組件之間的復(fù)雜關(guān)系,因此場(chǎng)景圖生成成為近年來計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。

        現(xiàn)有的場(chǎng)景圖生成方法通常依賴檢測(cè)模型或者引入上下文信息輔助對(duì)象識(shí)別。文獻(xiàn)[9]利用目標(biāo)檢測(cè)模型對(duì)圖像中的物體進(jìn)行檢測(cè)與分類,并分別對(duì)物體和關(guān)系進(jìn)行建模。文獻(xiàn)[10]提出圖區(qū)域卷積神經(jīng)網(wǎng)絡(luò)

        (Graph Region Convolutional Neural Network,Graph RCNN),利用注意力機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)捕捉上下文信息以更好地進(jìn)行信息傳遞,優(yōu)化邊的連接。文獻(xiàn)[11]引入一種端到端模型,該模型通過基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的消息傳遞來迭代完善關(guān)系和實(shí)體預(yù)測(cè)。文獻(xiàn)[12]將實(shí)體和謂詞映射到一個(gè)低維的嵌入向量空間,其中謂詞為主體和客體的聯(lián)合框的嵌入特征之間的翻譯向量,這種關(guān)系被建模為一個(gè)簡(jiǎn)單的向量轉(zhuǎn)換,即主語+謂語≈賓語,極大改善了場(chǎng)景圖中的視覺關(guān)系。文獻(xiàn)[13]對(duì)Visual Genome(VG)數(shù)據(jù)集[14]上的關(guān)系和實(shí)體對(duì)之間的統(tǒng)計(jì)共現(xiàn)進(jìn)行分析,通過統(tǒng)計(jì)實(shí)體對(duì)及其子結(jié)構(gòu)(MOTIFS)的共現(xiàn)頻率,設(shè)計(jì)一種基于長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[15]的上下文信息傳遞模型,對(duì)實(shí)體和關(guān)系的全局上下文信息進(jìn)行編碼從而大幅改善了關(guān)系之間的特征表示。文獻(xiàn)[16]以結(jié)構(gòu)圖的形式表示數(shù)據(jù)集中的統(tǒng)計(jì)學(xué)知識(shí),并以此作為額外知識(shí)納入深度傳播網(wǎng)絡(luò),有效規(guī)范了可能的關(guān)系分布,改善了預(yù)測(cè)的模糊性。

        場(chǎng)景圖中的結(jié)構(gòu)化表示由實(shí)體及其關(guān)系構(gòu)成,隨著實(shí)體數(shù)量的增長(zhǎng),場(chǎng)景圖生成模型的計(jì)算量大幅增加。除此之外,現(xiàn)實(shí)世界中關(guān)系分布嚴(yán)重不均,視覺關(guān)系長(zhǎng)尾分布導(dǎo)致關(guān)系推理模型發(fā)生過擬合。事實(shí)上,實(shí)體在視覺圖像中并不是孤立存在的,實(shí)體和關(guān)系被放置在一個(gè)彼此共同變化的視覺環(huán)境中。根據(jù)先驗(yàn)知識(shí)推理規(guī)范化語義空間,將特定布局中的實(shí)體相連接,建立圖像中實(shí)體間的關(guān)系進(jìn)行高層次推理。例如,“person”與“horse”,根據(jù)常識(shí)知識(shí)推理,它們的關(guān)系應(yīng)該是“person riding horse”,而不僅是“person on horse”?;诖?,本文構(gòu)建一種結(jié)合外部知識(shí)庫(kù)與適應(yīng)性推理的場(chǎng)景圖生成模型,簡(jiǎn)稱為EASG,主要包括目標(biāo)檢測(cè)、上下文信息提取和適應(yīng)性推理3 個(gè)模塊。

        1 相關(guān)工作

        1.1 目標(biāo)檢測(cè)

        目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的研究重點(diǎn),同時(shí)也是視覺理解的基礎(chǔ)任務(wù)。文獻(xiàn)[17]將具有自主學(xué)習(xí)能力且魯棒性較強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)引入目標(biāo)檢測(cè)領(lǐng)域,之后便利用多種基于CNN的目標(biāo)檢測(cè)算法來提高物體檢測(cè)準(zhǔn)確率。YOLO系列[18-20]和SSD[21]作為一段式的代表模型,主要思想是將物體分類與定位在一個(gè)階段內(nèi)完成,但YOLO 模型目標(biāo)位置精度不足,SSD 模型結(jié)構(gòu)冗雜。兩段式的代表模型Faster-RCNN[6]通過設(shè)計(jì)一個(gè)區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)來代替?zhèn)鹘y(tǒng)的選擇性搜索算法,大大減少了目標(biāo)候選框的數(shù)量,具有較好的目標(biāo)檢測(cè)效率。Mask-RCNN[22]在Faster-RCNN 的基礎(chǔ)上引入ROI Align 代替原本的ROI Pooling,使得目標(biāo)檢測(cè)精度進(jìn)一步提高,因此本文采用Mask-RCNN 作為模型的底層檢測(cè)器。

        1.2 場(chǎng)景圖生成中的先驗(yàn)知識(shí)

        場(chǎng)景圖可以將圖像中有意義的信息表示為圖形節(jié)點(diǎn)和連線,具體細(xì)節(jié)如圖1 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。語言先驗(yàn)通常使用從外部知識(shí)庫(kù)嵌入語義詞的信息來微調(diào)關(guān)系預(yù)測(cè),從而提高視覺關(guān)系檢測(cè)的準(zhǔn)確性。語言先驗(yàn)可以通過對(duì)語義相關(guān)物體的觀察來幫助視覺關(guān)系的識(shí)別。例如,“horse”和“elephant”可能被安排在語義相似的環(huán)境中,盡管“person”和“elephant”共同出現(xiàn)在訓(xùn)練集中并不常見,但通過引入語言先驗(yàn)知識(shí)和研究“person riding horse”,模型就能學(xué)習(xí)到“person riding elephant”。對(duì)場(chǎng)景圖生成而言,關(guān)系是對(duì)象的連接,它的語義空間比對(duì)象的語義空間更寬。由于關(guān)系分布的空間大及其長(zhǎng)尾性質(zhì),因此僅使用訓(xùn)練集中的注釋是不夠的,并且研究人員也很難收集到足夠數(shù)量的標(biāo)記的訓(xùn)練數(shù)據(jù)。

        圖1 場(chǎng)景圖結(jié)構(gòu)示例Fig.1 Example of scene graph structure

        研究人員對(duì)語言先驗(yàn)知識(shí)的引入進(jìn)行了大量研究并取得了一定的研究成果。文獻(xiàn)[9]同時(shí)訓(xùn)練一個(gè)視覺外觀模塊和一個(gè)語言模塊,語言模塊將語義關(guān)系投射到一個(gè)嵌入空間,然后結(jié)合這兩個(gè)模塊來推斷圖像中的視覺關(guān)系。文獻(xiàn)[23]從網(wǎng)絡(luò)公開的文本收集外部語言知識(shí),提取語義信息,通過統(tǒng)計(jì)人類用來描述對(duì)象對(duì)之間的關(guān)系的詞匯和表達(dá)方式來實(shí)現(xiàn)外部知識(shí)庫(kù)的嵌入。文獻(xiàn)[24]使用詞嵌入來獲得語義圖,同時(shí)構(gòu)建一個(gè)空間場(chǎng)景圖來編碼圖像中的全局上下文信息之間的相互依賴關(guān)系,通過結(jié)合先前的語義和視覺場(chǎng)景有效地學(xué)習(xí)視覺關(guān)系的潛在表征。

        本文建立基于外部知識(shí)庫(kù)與適應(yīng)性推理的場(chǎng)景圖生成模型。首先,設(shè)計(jì)結(jié)合外部知識(shí)庫(kù)(Wikipedia)的目標(biāo)檢測(cè)模塊,利用GloVe 算法[25]對(duì)外部知識(shí)庫(kù)中的語言先驗(yàn)進(jìn)行編碼,為模型提供推斷關(guān)系的語言先驗(yàn)知識(shí),提高視覺關(guān)系預(yù)測(cè)的準(zhǔn)確性。然后,構(gòu)建基于Transformer[26]的上下文信息提取模塊(簡(jiǎn)稱為TRSG),利用兩個(gè)Transformer編碼層結(jié)構(gòu)對(duì)圖像中的候選框和實(shí)體對(duì)關(guān)系進(jìn)行處理,并分階段進(jìn)行上下文信息的合并,以此得到全局上下文信息,并由解碼層對(duì)實(shí)體對(duì)之間的關(guān)系進(jìn)行預(yù)測(cè),通過捕捉圖像中的上下文信息來推理圖結(jié)構(gòu)中的結(jié)構(gòu)化信息,得到更重要的全局上下文表達(dá)和圖像中的場(chǎng)景信息。最后,建立特征特殊融合的適應(yīng)性推理模塊,通過對(duì)數(shù)據(jù)集中的關(guān)系頻率分布進(jìn)行軟化,并根據(jù)每個(gè)實(shí)體對(duì)的視覺外觀適應(yīng)性推理其關(guān)系頻率分布來有效降低數(shù)據(jù)集中的長(zhǎng)尾分布影響,提升模型推理能力。

        2 基于外部知識(shí)庫(kù)與適應(yīng)性推理的場(chǎng)景圖生成模型

        場(chǎng)景圖是圖像中內(nèi)容信息的拓?fù)浣Y(jié)構(gòu)表示。給定一幅圖像I,通過場(chǎng)景圖生成模型可得到一幅由圖像中各個(gè)實(shí)體的類別和位置以及每個(gè)實(shí)體對(duì)之間的關(guān)系組成的關(guān)系圖,可將其定義為關(guān)系三元組:

        1)Β={b1,b2,…,bi,…,bn}表示一系列目標(biāo)候選框的集合,其中bi表示第i個(gè)區(qū)域的邊界框。

        2)O={o1,o2,…,oi,…,on}表示一系列和候選框Β對(duì)應(yīng)的實(shí)體集合,其中oi表示和bi區(qū)域?qū)?yīng)的實(shí)體。

        3)R={r1→2,r1→3,…,ri→j,…,rn→n-1}表示對(duì)應(yīng)的實(shí)體對(duì)之間的關(guān)系標(biāo)簽,其中ri→j表示(bi,oi)和(bj,oj)之間的關(guān)系。

        因此,場(chǎng)景圖p(G|I)的概率分布可以分解如下:

        本文提出的結(jié)合外部知識(shí)庫(kù)與適應(yīng)性推理的場(chǎng)景圖生成模型的整體框架和物體邊界框及對(duì)應(yīng)實(shí)體細(xì)節(jié)圖分別如圖2 和圖3 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。首先,在給定的一幅圖像中,通過目標(biāo)檢測(cè)模塊生成物體邊界框和物體的類別分類概率。然后,在Transformer 的上下文捕捉模塊中,輸出包含上下文信息的實(shí)體類別標(biāo)簽以及謂語關(guān)系的上下文信息表示。最后,將得到的關(guān)系上下文信息表示進(jìn)行特殊的特征融合,并且利用融合處理過的頻率偏差進(jìn)行實(shí)體對(duì)的關(guān)系預(yù)測(cè)。

        圖2 結(jié)合外部知識(shí)庫(kù)與適應(yīng)性推理的場(chǎng)景圖生成模型框架Fig.2 Framework of scene graph generation model combined with external knowledge base and adaptive reasoning

        圖3 物體邊界框及對(duì)應(yīng)實(shí)體細(xì)節(jié)圖Fig.3 Object bounding box and corresponding entity detail map

        2.1 結(jié)合外部知識(shí)庫(kù)的目標(biāo)檢測(cè)

        使用以ResNeXt-101-FPN[27-28]為主干網(wǎng)絡(luò)的Mask-RCNN 架構(gòu)作為模型的基礎(chǔ)目標(biāo)檢測(cè)器。對(duì)于給定的一幅圖像I,檢測(cè)器會(huì)生成一組候選框集合Β={b1,b2,…,bi,…,bn}表示圖像中每個(gè)實(shí)體的空間信息,并且提取通過ROI Align 層輸出的候選框bi對(duì)應(yīng)的特征向量以及實(shí)體標(biāo)簽概率的向量L=,同時(shí)引入類似Wikipedia的外部知識(shí)庫(kù)以此提供推斷關(guān)系的語言先驗(yàn)信息,采用GloVe 算法對(duì)語言先驗(yàn)進(jìn)行編碼,使用整個(gè)Wikipedia 進(jìn)行訓(xùn)練。

        2.2 基于Transformer 的上下文提取

        該模塊通過2 個(gè)Transformer 架構(gòu)進(jìn)行上下文信息提取。第1 個(gè)是實(shí)體上下文特征計(jì)算,第2 個(gè)是關(guān)系上下文特征計(jì)算。Transformer 架構(gòu)分為編碼器和解碼器部分,其中編碼器部分由多個(gè)注意力層組成,由于本文只涉及編碼器部分,因此解碼器部分在此不再贅述。注意力機(jī)制可以使深度學(xué)習(xí)模型關(guān)注特征向量的特征圖中的重要部分,并忽略其余冗雜信息。編碼器中的自注意力層作用于Q、K、V這3 組向量,并根據(jù)q和k向量之間的相似度分布對(duì)v向量進(jìn)行加權(quán)求和,計(jì)算公式如下:

        其中:Q、K、V分別表示nq、nk和nq向量的矩陣表達(dá),各矩陣維度相同;d表示維度。

        1)實(shí)體上下文特征計(jì)算?;诤蜻x區(qū)域Β的集合,構(gòu)造一個(gè)用于實(shí)體標(biāo)簽預(yù)測(cè)的上下文表示。首先將候選框中得到的每一個(gè)向量構(gòu)造成一個(gè)線性序列,如式(3)所示。然后送入Transformer 結(jié)構(gòu)中進(jìn)行編碼,如式(4)和式(5)所示。

        將經(jīng)過自注意力層和殘差操作后的S(X)送入解碼層,對(duì)每一個(gè)候選區(qū)域進(jìn)行解碼即可得到包含上下文信息的實(shí)體類別標(biāo)簽:

        其中:? 表示進(jìn)行線性變換操作;C表示常量。

        2)關(guān)系上下文特征計(jì)算。在該模塊中,為實(shí)體對(duì)關(guān)系預(yù)測(cè)構(gòu)建另一個(gè)Transformer結(jié)構(gòu)。將結(jié)合上下文信息后的 實(shí)體標(biāo)簽送入Transformer 以構(gòu)建候選框Β和實(shí)體O的上下文表達(dá),如式(7)所示:

        其中:D=(d1,d2,…,dn),di代表每一個(gè)候選區(qū)域的邊上下文特征;W是對(duì)應(yīng)的參數(shù)映射矩陣。

        2.3 特征特殊融合的適應(yīng)性推理模塊

        在獲得先驗(yàn)語言知識(shí)和實(shí)體上下文信息后,進(jìn)一步提出一個(gè)用于關(guān)系分類的特征特殊融合的自適應(yīng)推理模塊(簡(jiǎn)稱為ARE),主要包括數(shù)據(jù)集頻率軟化、特征特殊融合和實(shí)體對(duì)偏差適應(yīng)。

        1)采用數(shù)據(jù)集中關(guān)系頻率的先驗(yàn)信息改善關(guān)系分類性能。由于MOTIFS 中提出的頻率(FREQ)基線方法受數(shù)據(jù)集長(zhǎng)尾分布的影響,幾乎無法識(shí)別低頻關(guān)系,因此采用一個(gè)LogSoftmax 函數(shù)來穩(wěn)定數(shù)據(jù)的方差,保持原始長(zhǎng)尾分布在經(jīng)過Log變換后接近于正態(tài)分布,即:

        其中:Pi→j∈R 代表數(shù)據(jù)集中關(guān)系的原始頻率分布;代表線性化的原始頻率分布。

        2)為衡量中間狀態(tài)之間的距離,引入一種特殊的特征融合方式,通過中間狀態(tài)之間的歐幾里得距離來調(diào)整包含了上下文信息的關(guān)系特征ui,j[29],即DIST:x*y=ReLU(x+y) -(x-y)2。將包含了上下文信息的關(guān)系特征進(jìn)行特殊融合,如式(9)所示:

        其中:hi,j∈R4096;Wg、Wl∈R4096×150分別代表該實(shí)體對(duì)中的主語特征和賓語特征構(gòu)成的矩陣;ui,j表示實(shí)體i和j所在區(qū) 域bi、bj的并集對(duì)應(yīng)特 征。

        3)為使每個(gè)實(shí)體對(duì)的頻率先驗(yàn)可以根據(jù)不同實(shí)體對(duì)進(jìn)行調(diào)整,引入一種選擇性注意力機(jī)制。該機(jī)制可以根據(jù)實(shí)體對(duì)的視覺外觀特征修改先驗(yàn)知識(shí),如式(10)所示。因?yàn)閳?chǎng)景圖中關(guān)系都是成對(duì)存在的,所以對(duì)于每一個(gè)可能存在關(guān)系的邊,計(jì)算其關(guān)系概率,如式(11)所示。

        其中:Rpr?表示關(guān)系頻率偏差向量;Wr表示實(shí)體對(duì)并集特征所對(duì)應(yīng)的矩陣。

        3 實(shí)驗(yàn)結(jié)果與分析

        本節(jié)EASG 模型的實(shí)驗(yàn)細(xì)節(jié)和參數(shù)設(shè)置,在公開VG[14]數(shù)據(jù)集上與現(xiàn)有場(chǎng)景圖生成模型進(jìn)行對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)。為驗(yàn)證EASG 模型的場(chǎng)景圖生成性能,在VG 數(shù)據(jù)集的謂詞分類(Predicate Classification,PredCls)、場(chǎng)景圖分類(Scene Graph Classification,SGCls)、場(chǎng)景圖生成(Scene Graph Generation,SGGen)這3 個(gè)子任務(wù)和Top-K召回率(Recall@K,R@K)、平均Top-K召回率(mean Recall@K,mR@K)這2 類指標(biāo)下進(jìn)行性能評(píng)價(jià)。最后對(duì)EASG 模型在關(guān)系類別標(biāo)簽上的分布情況進(jìn)行可視化展示。

        3.1 數(shù)據(jù)集與評(píng)估標(biāo)準(zhǔn)

        采用VG 數(shù)據(jù)集訓(xùn)練和評(píng)估EASG 模型。VG 數(shù)據(jù)集包含108 077 張圖片,共有75 000 種實(shí)體類別和37 000種關(guān)系類別,平均每張圖片包含38個(gè)實(shí)體和22個(gè)關(guān)系標(biāo)注。根據(jù)文獻(xiàn)[11]提出的VG 拆分子集,其中包含了最頻繁的150 種實(shí)體類別和50 種關(guān)系類別(不包含背景標(biāo)簽),每張圖片平均有11.6 個(gè)目標(biāo)和6.2 個(gè)關(guān)系,出現(xiàn)頻率最高的10 種關(guān)系(on、has、wearing、of、in、near、with、behind、holding、above)幾乎占據(jù)所有數(shù)據(jù)的90%,而剩余的40 類關(guān)系(others)僅占10%,如圖4 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。整個(gè)數(shù)據(jù)集分別按照70%和30%分成訓(xùn)練集和測(cè)試集,還按照MOTIFS 從訓(xùn)練集中隨機(jī)采樣5 000 張圖片作為驗(yàn)證集調(diào)整超參數(shù)。

        圖4 關(guān)系類別標(biāo)簽在VG 數(shù)據(jù)集中的占比Fig.4 Proportion of relationship category labels in the VG dataset

        場(chǎng)景圖生成任務(wù)的目標(biāo)是輸出實(shí)體的位置及其類別標(biāo)簽,并以此為條件預(yù)測(cè)實(shí)體對(duì)之間的關(guān)系,最終預(yù)測(cè)主語-謂語-賓語類似三元組。因此,在以下3 個(gè)子任務(wù)上評(píng)估場(chǎng)景圖生成模型:1)PredCls,給定一組具有真實(shí)注釋的實(shí)體類別標(biāo)簽和邊界框預(yù)測(cè)實(shí)體對(duì)的關(guān)系類別;2)SGCls,給定一組具有真實(shí)注釋的實(shí)體邊界框,預(yù)測(cè)實(shí)體的類別標(biāo)簽以及實(shí)體對(duì)的關(guān)系類別;3)SGGen,給定一張圖像,預(yù)測(cè)圖像中的實(shí)體邊界框位置、實(shí)體類別標(biāo)簽以及實(shí)體對(duì)關(guān)系類別。

        因?yàn)椴豢赡軐?duì)圖像中所有關(guān)系進(jìn)行注釋,所以使用R@K作為場(chǎng)景圖生成的評(píng)價(jià)指標(biāo),即前K個(gè)預(yù)測(cè)中預(yù)測(cè)正確的比率。但在傳統(tǒng)召回率計(jì)算中,一對(duì)物體只能有一個(gè)關(guān)系參與最終的排序計(jì)算,約束給定實(shí)體對(duì)僅能獲取一種關(guān)系,因此采用由MOTIFS[13]提出的無關(guān)系約束的召回率,該指標(biāo)允許一對(duì)實(shí)體的所有關(guān)系都參與排序計(jì)算。另外,考慮到VG 數(shù)據(jù)集的長(zhǎng)尾效應(yīng),不同關(guān)系的分布嚴(yán)重不均,傳統(tǒng)召回率通常只需學(xué)會(huì)“on”、“has”和“near”等主要的關(guān)系類別,即使忽視大部分關(guān)系類別也能獲得很好的結(jié)果,因此還采用mR@K[16]作為評(píng)價(jià)指標(biāo),該指標(biāo)將所有謂語類別的召回率單獨(dú)計(jì)算再求平均值,使得所有類別的重要性相同。

        3.2 實(shí)驗(yàn)設(shè)置

        與文獻(xiàn)[11,13]中的場(chǎng)景圖生成模型類似,本文在實(shí)驗(yàn)中采用以ResNeXt-101-FPN 為主干網(wǎng)絡(luò)的Mask-RCNN 作為EASG 模型的底層檢測(cè)器,檢測(cè)器用于檢測(cè)圖像中的目標(biāo)候選框。在4 個(gè)GeForce RTX 1080Ti 上使用動(dòng)量為0.9 的SGD 來訓(xùn)練底層檢測(cè)器的模型參數(shù),批次大小為8,每個(gè)批次中每張圖采樣256 個(gè)ROIs,其中75%為背景圖。初始學(xué)習(xí)率為8×10-3,每經(jīng)過一個(gè)批次學(xué)習(xí)率修改為原本的1/10。檢測(cè)器閾值為0.5,最終在VG 數(shù)據(jù)集上的平均精度均值(Mean Average Precision,mAP)為28.49。

        使用SGD 算法在VG 數(shù)據(jù)集上訓(xùn)練EASG 模型。PredCls 和SGCls 這2 個(gè)任務(wù)的批次大小為16,初始學(xué)習(xí)率為0.001,SGGen 任務(wù)的批次大小和初始學(xué)習(xí)率分別為12 和0.001。對(duì)于SGGen,每張圖采樣80 個(gè)ROIs,并在實(shí)體類別預(yù)測(cè)中使用交并比(Intersection over Union,IoU)為0.5 的非極大值抑制(Non-Maximum Suppression,NMS)[30]。使用GloVe 預(yù)訓(xùn)練向量作為詞向量表征,GloVe 是由包含400 000 個(gè)詞匯的Wikipedia語料庫(kù)組成的預(yù)訓(xùn)練模型。

        3.3 與現(xiàn)有模型的比較

        EASG 模型與視覺關(guān)系檢測(cè)(Visual Relationships Detection,VRD)[9]、消息迭代傳遞(Iterative Message Passing,IMP)[11]、關(guān)聯(lián)式嵌入(Associative Embedding,AE)[31]、FREQ[13]、Graph-RCNN[10]、MOTIFS[13]、知識(shí)嵌入路由網(wǎng)絡(luò)(Knowledge-Embedded Routing Network,KERN)[16]、GPS-Net[32]、UVTransE[33]等模型在VG 數(shù)據(jù)集的3 個(gè)子任務(wù)設(shè)置下進(jìn)行性能比較。

        表1給出不同場(chǎng)景圖生成模型在VG 數(shù)據(jù)集的3 個(gè)子任務(wù)上的R@K,其中K設(shè)置為20、50、100,最優(yōu)指標(biāo)值用加粗字體標(biāo)示。為了有效區(qū)分語義相近情況下場(chǎng)景圖生成的性能變化,實(shí)驗(yàn)根據(jù)生成場(chǎng)景圖是否有關(guān)系約束[13,16]將實(shí)驗(yàn)結(jié)果劃分為實(shí)體對(duì)只有一種關(guān)系(constraint)和實(shí)體對(duì)可以有多種關(guān)系(unconstraint)兩類。

        表1 VG 數(shù)據(jù)集上不同場(chǎng)景圖生成模型的R@K 實(shí)驗(yàn)結(jié)果Table 1 R@K experimental results of different scene graph generation models on the VG dataset %

        由表1可以看出,EASG 模型在3 個(gè)子任務(wù)的R@20、R@50、R@100 指標(biāo)上均優(yōu)于對(duì)比模型。FREQ 模型對(duì)于預(yù)測(cè)給定實(shí)體和標(biāo)簽之間的頻繁關(guān)系,性能表現(xiàn)較好,這表明了實(shí)體對(duì)及其關(guān)系之間的統(tǒng)計(jì)相關(guān)性和其他線索(如上下文信息)具有同等重要的作用。MOTIFS 模型通過使用Bi-LSTM 對(duì)全局上下文編碼隱式地捕獲數(shù)據(jù)相關(guān)性,在3 個(gè)子任務(wù)上均取得了顯著進(jìn)步。KERN 模型通過知識(shí)圖顯示地統(tǒng)計(jì)了實(shí)體及其關(guān)系之間的相關(guān)性,進(jìn)一步提高了在3 個(gè)子任務(wù)上的性能表現(xiàn)。EASG 模型因?yàn)槔昧送獠恐R(shí)信息和Transformer 編碼結(jié)構(gòu)以及適應(yīng)性推理,進(jìn)一步改善了場(chǎng)景圖生成任務(wù)的性能,平均值相較于MOTIFS 模型和UVTransE 模型分別提高了3.8 和0.7 個(gè)百分點(diǎn)。

        由于VG中類別不平衡問題,已有研究通常在頻率較低的類別中性能較差。為了與現(xiàn)有模型進(jìn)行更全面的比較,在表2的VG 數(shù)據(jù)集的3個(gè)任務(wù)上給出了mR@50和mR@100的結(jié)果。由表2可以看出,在constraint和unconstraint 兩種情況下,EASG 模型的平均值分別為12.3%和27.3%,相比于MOTIFS模型提升了3.3和6.7個(gè)百分點(diǎn),相比于KERN模型提升了0.6和0.8個(gè)百分點(diǎn)。

        表2 VG 數(shù)據(jù)集上不同場(chǎng)景圖生成模型的mR@K 實(shí)驗(yàn)結(jié)果Table 2 mR@K experimental results of different scene graph generation models on the VG dataset %

        由以上討論和比較可以看出,EASG模型在mR@K和R@K指標(biāo)方面均有所改善,但因?yàn)镽@K指標(biāo)只關(guān)注圖像中的關(guān)系是否被完全預(yù)測(cè)而不關(guān)注不同關(guān)系標(biāo)簽之間的預(yù)測(cè)情況,所以為更直接地比較性能改善情況和樣本數(shù)量之間的關(guān)系,對(duì)不同關(guān)系標(biāo)簽的R@K指標(biāo)進(jìn)行比較。圖5 給出了在SGGen 子任務(wù)上MOTIFS和EASG 模型的R@50 實(shí)驗(yàn)結(jié)果。由圖5 可以看出:MOTIFS 模型對(duì)于“on”、“has”、“wearing”等高頻關(guān)系的預(yù)測(cè)表現(xiàn)較好,但是對(duì)于“part of”、“to”、“made of”等樣本較少的關(guān)系整體表現(xiàn)不佳,導(dǎo)致R@50 指標(biāo)數(shù)值較低,幾乎不可避免地偏向了更高頻的關(guān)系標(biāo)簽。EASG模型不僅利用Transformer的自注意力機(jī)制分階段進(jìn)行上下文信息合并,從而得到更有意義的全局上下文信息,而且利用外部知識(shí)庫(kù)提供先驗(yàn)信息,同時(shí)通過整合外部知識(shí)庫(kù)和視覺圖像中的上下文信息來明確規(guī)范化語義空間,并且利用適應(yīng)性推理去預(yù)測(cè)關(guān)系標(biāo)簽,從而引導(dǎo)模型更好地學(xué)習(xí)樣本數(shù)量較少的低頻關(guān)系標(biāo)簽,這樣就可以較好地解決關(guān)系分配不均的問題。由此可見,EASG 模型不僅在高頻關(guān)系標(biāo)簽表現(xiàn)較好,而且在中低頻關(guān)系標(biāo)簽預(yù)測(cè)上也得到了大幅度的性能提升,在一定程度上緩解了數(shù)據(jù)關(guān)系分布不平衡的問題。

        圖5 MOTIFS 和EASG 模型在不同關(guān)系類別標(biāo)簽下的R@50 實(shí)驗(yàn)結(jié)果Fig.5 R@50 experimental results of MOTIFS and EASG models under different relationship category labels

        3.4 消融實(shí)驗(yàn)結(jié)果分析

        通過設(shè)置消融實(shí)驗(yàn)驗(yàn)證EASG 模型中各個(gè)組件對(duì)場(chǎng)景圖生成的具體貢獻(xiàn)。表3 給出了消融實(shí)驗(yàn)結(jié)果。將結(jié)合類似Wikipedia 的外部知識(shí)庫(kù)的目標(biāo)檢測(cè)模塊、基于Transformer 的上下文提取模塊(TRSG)和特征特殊融合的適應(yīng)性推理模塊(ARE)逐一添加到MOTIFS基線模型中,驗(yàn)證引入外部知識(shí)庫(kù)對(duì)場(chǎng)景圖生成的影響。在MOTIFS 基線模型基礎(chǔ)上將實(shí)體預(yù)測(cè)到的詞向量替換為Wikipedia 外部知識(shí)庫(kù)的詞向量嵌入,3 個(gè)子任務(wù)相對(duì)于MOTIFS 基線模型均有不同程度的提升,其中SGCls 子任務(wù)平均提升了0.7 個(gè)百分點(diǎn)。對(duì)于MOTIFS 基線模型中的Bi-LSTM,將其替換為兩個(gè)Transformer結(jié)構(gòu)以此提取視覺中的上下文信息,TRSG中的自注意力機(jī)制極大地提升了場(chǎng)景圖生成性能,各項(xiàng)指標(biāo)均得到了大幅度提升,其中SGGen 子任務(wù)平均提升了5.4 個(gè)百分點(diǎn)。在此基礎(chǔ)上,本文在關(guān)系預(yù)測(cè)階段加入適應(yīng)性推理模塊,雖然該模塊在SGGen和SGCls子任務(wù)提升效果微弱,但在PredCls 子任務(wù)上相比于MOTIFS 基線模型得到了平均1.5 個(gè)百分點(diǎn)的大幅提升。最后,將所有組件進(jìn)行聯(lián)合,性能得到大幅度提升。這表明每個(gè)組件在實(shí)體標(biāo)簽及其成對(duì)關(guān)系預(yù)測(cè)中均具有關(guān)鍵作用。

        表3 消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiment results %

        3.5 定性分析

        為更直觀地展示EASG 模型的場(chǎng)景圖生成效果,圖6 給出了部分可視化結(jié)果,為每幅圖像選擇了SGCls子任務(wù)下的前10 個(gè)關(guān)系,其中,虛線表示檢測(cè)到的實(shí)體或謂詞被正確預(yù)測(cè)并且與真實(shí)情況重疊,實(shí)線表示正確的預(yù)測(cè)但在數(shù)據(jù)集中未被標(biāo)記,點(diǎn)直線表示被錯(cuò)誤分類的謂詞。由圖6 可以看出,EASG 模型對(duì)于常見錯(cuò)誤類型具有更好的預(yù)測(cè)性能,例如:在圖6(a)中,EASG模型預(yù)測(cè)了比原本標(biāo)注的“near”更合適的“in front of”;在圖6(b)中,由于謂詞的模糊性(“wears”與“wearing”),因此數(shù)據(jù)標(biāo)注是“man wears shirt”,但EASG 模型預(yù)測(cè)為“man wearing shirt”;在圖6(c)中,數(shù)據(jù)標(biāo)注是“cup in window”,但EASG 模型預(yù)測(cè)為“cup behind window”。由此可見,EASG 模型比定量分析結(jié)果更好,可預(yù)測(cè)許多看似正確的關(guān)系類別,而這些關(guān)系類別在原始數(shù)據(jù)標(biāo)注中并不存在。

        圖6 基于EASG 模型的場(chǎng)景圖生成可視化結(jié)果Fig.6 Visualization results of scene graph generation based on EASG model

        4 結(jié)束語

        本文提出一種結(jié)合外部知識(shí)庫(kù)和適應(yīng)性推理的場(chǎng)景圖生成模型(EASG)。鑒于先驗(yàn)知識(shí)已被證明可以顯著提高場(chǎng)景圖的生成質(zhì)量,設(shè)計(jì)結(jié)合外部知識(shí)庫(kù)的目標(biāo)檢測(cè)模塊來獲取額外的語義信息。利用改進(jìn)的Transformer 架構(gòu)對(duì)圖像中的全局上下文信息進(jìn)行編碼并分段實(shí)現(xiàn)信息合并,增強(qiáng)關(guān)系標(biāo)簽的信息量,規(guī)范化場(chǎng)景圖的語義空間。應(yīng)用特征特殊融合的適應(yīng)性推理模塊,緩解了數(shù)據(jù)集關(guān)系頻率受長(zhǎng)尾分布的影響。通過在VG 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)結(jié)果證明了EASG 模型相比于其他模型具有更優(yōu)的場(chǎng)景圖生成性能。后續(xù)將針對(duì)SGG 任務(wù)的數(shù)據(jù)不平衡現(xiàn)象,引入因果推理解決數(shù)據(jù)集偏置問題,進(jìn)一步提高場(chǎng)景圖生成的準(zhǔn)確性。

        猜你喜歡
        信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        展會(huì)信息
        一個(gè)相似模型的應(yīng)用
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        亚洲国产精品成人一区二区在线| 亚洲av综合色区无码专区桃色| 日本19禁啪啪吃奶大尺度| 香蕉久久久久久久av网站| 欧美激情αv一区二区三区| 无码一区二区丝袜| 中文字幕人妻久久久中出| 人妻少妇进入猛烈时中文字幕| 日本久久高清一区二区三区毛片| 欧美自拍区| 日本看片一区二区三区| 国产女主播一区二区三区| 色拍自拍亚洲综合图区| 久久久久亚洲av无码专区| 国产码欧美日韩高清综合一区| 亚洲精品在线一区二区| 亚洲精品动漫免费二区| 午夜三级a三级三点| 亚洲日韩区在线电影| 国产在线观看黄片视频免费| 日本真人边吃奶边做爽动态图| 亚洲av无码第一区二区三区| 4hu44四虎www在线影院麻豆| 国产精品自产拍在线18禁| 欧美老熟妇喷水| 四虎在线播放免费永久视频| 国产av大片在线观看| 护士人妻hd中文字幕| 亚洲av永久无码精品三区在线| 国产精品成人99一区无码| 无码成年性午夜免费网站蜜蜂| 国产av自拍在线观看| 新婚人妻不戴套国产精品| 色橹橹欧美在线观看视频高清| 国产精品青草视频免费播放| 日韩精品视频中文字幕播放| 性久久久久久| 日产精品久久久久久久| 亚洲天堂av另类在线播放| 欧美又大又硬又粗bbbbb| 精品无码一区二区三区亚洲桃色 |