亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        外部信息引導(dǎo)和殘差置亂的場景圖生成方法

        2021-10-12 08:50:18高海燕劉純平
        計算機與生活 2021年10期
        關(guān)鍵詞:知識庫殘差實體

        田 鑫,季 怡,高海燕,林 欣,劉純平,2+

        1.蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006

        2.符號計算與知識工程教育部重點實驗室(吉林大學(xué)),長春 130012

        場景圖[1]是圖像中所包含信息的結(jié)構(gòu)化表示,不僅可以表示圖像中所有的實體,并且還可以表達(dá)不同實體之間存在的關(guān)系信息。對在圖像中檢測到的實體以及關(guān)系通常使用<主語-謂語-賓語>三元組的形式表示。廣泛應(yīng)用于圖像識別與檢測[2-3]圖像理解[4-5]等任務(wù)中。因此圖像的場景圖生成任務(wù)近年引起了越來越多的關(guān)注。

        現(xiàn)存的場景圖生成方法通常依賴實體檢測模型,根據(jù)檢測得到的結(jié)果進(jìn)行進(jìn)一步的推理[6-7]。但由于場景圖的三元組表示由實體和關(guān)系構(gòu)成,假設(shè)有N個實體和M個關(guān)系,三元組所有可能組合數(shù)量為O(N2M),因此要生成一個高性能的場景圖,這些方法需要在大量實體關(guān)系數(shù)據(jù)集上進(jìn)行訓(xùn)練。然而現(xiàn)存的場景圖生成數(shù)據(jù)集關(guān)系數(shù)量分布十分不均衡,影響了模型最終的表現(xiàn)。

        為了解決數(shù)據(jù)集偏置問題,已經(jīng)開展了使用實體的位置、頻率分布等VG(visual genome)數(shù)據(jù)集內(nèi)部信息的研究。Chen 等人[8]挖掘數(shù)據(jù)集內(nèi)部信息,構(gòu)建了實體與關(guān)系之間的結(jié)構(gòu)化表示,使用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實體與關(guān)系之間的相互作用以生成場景圖。Zhan 等人[9]基于檢測視覺、空間和語義三種不同的信息提出多模型特征學(xué)習(xí)網(wǎng)絡(luò),比較實體對與標(biāo)注,自動生成未確定的關(guān)系。林欣等人[10]通過結(jié)合全局上下文、目標(biāo)解碼和位置嵌入的信息,減少數(shù)據(jù)集偏差影響。這些方法通過更好地利用圖像中的信息來改進(jìn)數(shù)據(jù)集中實體頻率較低的場景圖的生成,其整體方法的場景圖生成精度超過了現(xiàn)存?zhèn)鹘y(tǒng)的場景圖生成模型[6,11-12]。

        鑒于人腦對圖像內(nèi)容場景圖的構(gòu)建往往不僅僅依賴于圖像所展示的特征,還依賴于圖像中的某些實體之間的強烈的相關(guān)性,根據(jù)常識知識推理規(guī)范語義預(yù)測空間,建立圖像中實體間的關(guān)系,如人與馬,根據(jù)常識知識推理,它們可能的關(guān)系是人騎馬而不是人站在馬上,有助于校準(zhǔn)現(xiàn)存數(shù)據(jù)集中的噪聲,緩解數(shù)據(jù)集不平衡的問題。模擬人腦的場景圖構(gòu)建過程,融合提取的數(shù)據(jù)集中隱含信息以及數(shù)據(jù)集外部信息中的常識性知識,成為當(dāng)前場景圖生成方法研究的主流趨勢,并已有少量方法進(jìn)行了不同常識性知識的引入研究,如Zellers 等人[12]提取實體共同出現(xiàn)的頻率作為關(guān)系分類器的常識偏置,Chen 等人[8]將該頻率作為常識初始化圖神經(jīng)網(wǎng)絡(luò),而Gu 等人[13]將外部知識庫作為常識彌補數(shù)據(jù)集的錯漏,并將其應(yīng)用于解決場景圖生成因數(shù)據(jù)集標(biāo)注失衡導(dǎo)致的偏置問題,通過圖像重建方法正則化場景圖生成網(wǎng)絡(luò),規(guī)范模型的學(xué)習(xí)。

        本文針對數(shù)據(jù)集偏置問題,提出外部信息引導(dǎo)和殘差置亂的場景圖生成方法(scene graph generation method based on the combination of external information guidance and residual scrambling,EGRES)。該方法引入外部知識庫模擬人的常識性知識,明確場景圖生成任務(wù)中不同實體之間的語義聯(lián)系,規(guī)范預(yù)測關(guān)系的語義空間;同時結(jié)合殘差置亂網(wǎng)絡(luò),將得到的語義特征與現(xiàn)有的視覺語義特征相結(jié)合,以亂序輸入進(jìn)行正則化,避免了模型在場景圖生成中過擬合高頻標(biāo)簽的問題。在目前最廣泛使用的VG 數(shù)據(jù)集[14]上的實驗證明,提出方法在不影響高頻標(biāo)簽表達(dá)能力的前提下,有效改善了對于低頻標(biāo)簽的理解,提高了場景圖生成的表現(xiàn)。

        1 相關(guān)工作

        1.1 外部信息的融合

        知識庫的構(gòu)建和應(yīng)用成為人工智能領(lǐng)域研究的一個熱點。現(xiàn)有不少人工構(gòu)造的自然語言方面的知識庫,如DBpedia[15]根據(jù)維基百科構(gòu)造結(jié)構(gòu)化的數(shù)據(jù)。WordNet[16]根據(jù)單詞的詞義創(chuàng)建英語單詞之間的結(jié)構(gòu)化網(wǎng)絡(luò)。ConceptNet[17]以自然語言單詞或短語作為節(jié)點,通過帶有標(biāo)簽和權(quán)重的邊相互連接形成語義網(wǎng)絡(luò)。過去數(shù)年有許多工作致力于將外部知識庫融入計算機視覺領(lǐng)域,如Marino 等人[2]將外部知識庫(WordNet[16])構(gòu)建為知識圖譜,并應(yīng)用于視覺分類任務(wù)中。Lee 等人[18]將外部知識庫作為模型訓(xùn)練的額外約束,進(jìn)一步將其推廣到了Zero-Shot 多標(biāo)簽學(xué)習(xí)之中。Deng 等人[19]引入互斥、重疊和包含三種語義關(guān)系作為損失函數(shù)的約束條件訓(xùn)練分類器。此外使用深度神經(jīng)網(wǎng)絡(luò)從外部知識庫中提取信息也成為熱點,如Wu 等人[20]使用深度神經(jīng)網(wǎng)絡(luò)將從DBpedia[16]中發(fā)掘的信息編碼為向量,并與視覺特征相結(jié)合解決圖像描述和VQA(visual question answering)方向的問題。

        1.2 場景圖生成

        場景圖是由節(jié)點與連線構(gòu)成的數(shù)據(jù)結(jié)構(gòu)化表示。絕大多數(shù)場景圖生成方法基于對象檢測模型,檢測實體所在的區(qū)域并進(jìn)行分類,由實體作為節(jié)點,關(guān)系作為邊構(gòu)造場景圖。Lu 等人[6]首先提出場景圖生成任務(wù),結(jié)合視覺信息和語義信息檢測實體對的關(guān)系。近年來一些方法利用信息傳遞并結(jié)合上下文信息生成場景圖,如Xu 等人[11]首先提出了基于RNN(recurrent neural network)[21]傳遞消息微調(diào)特征的端到端模型。Yang 等人[22]設(shè)計了Graph R-CNN 框架去除無關(guān)實體對,通過注意力圖卷積網(wǎng)絡(luò)捕捉上下文信息,進(jìn)一步增強相關(guān)實體對之間的信息傳遞。Li等人[23]使用Bottom-up 的方式將整個圖分解為多個子圖,隔絕無關(guān)實體對之間的聯(lián)系,通過全連接子圖的拓?fù)浣Y(jié)構(gòu)簡化了推理的復(fù)雜度,極大地提高了場景圖生成效率。針對消息傳遞機制一視同仁地對待圖像中的節(jié)點的問題,Tang 等人[24]提出了動態(tài)樹結(jié)構(gòu),通過動態(tài)樹結(jié)構(gòu)傳遞消息,為每個實體提供了更相關(guān)的上下文信息,極大地提高了小樣本的學(xué)習(xí)能力。Lin 等人[25]提出GPS-Net(graph property sensing network),利用不同實體對應(yīng)的上下文增強特征,并通過節(jié)點優(yōu)先損失反映不同實體的有限度,促進(jìn)場景圖的生成。一些方法發(fā)掘數(shù)據(jù)集內(nèi)部關(guān)聯(lián)信息,如Dai等人[7]設(shè)計了深度網(wǎng)絡(luò)模型,借助統(tǒng)計信息,多次迭代條件隨機場(conditional random field,CRF)網(wǎng)絡(luò)解決關(guān)系分類的歧義問題。Zellers 等人[12]統(tǒng)計實體對共同出現(xiàn)的頻率作為先驗知識,使用LSTM(long short term memory)作為編碼器,并傳遞上下文信息,改善了關(guān)系的特征表示。Chen 等人[8]統(tǒng)計數(shù)據(jù)集內(nèi)實體對和關(guān)系共同出現(xiàn)的頻率,使用圖神經(jīng)網(wǎng)絡(luò)取代LSTM 作為消息傳遞機制,傳遞先驗統(tǒng)計信息。

        近年來一些方法也開始使用外部知識庫解決對應(yīng)的問題。由于外部知識庫對相同類不同實體有著相同的編碼,這類外部知識也被視作常識。Yu等人[26]從Wikipedia 中提取語義信息,利用語義信息規(guī)范網(wǎng)絡(luò)的學(xué)習(xí),借助教師學(xué)生框架,過濾掉數(shù)據(jù)中的噪聲,通過最小化KL-divergence(Kullback-Leibler divergence)得到外部知識庫的語義表示。不同于直接使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,Gu 等人[13]通過檢索外部知識庫查詢與實體最相關(guān)的知識,并借助圖像重建規(guī)范場景圖生成網(wǎng)絡(luò)。上述這些方法大多是借助外部知識,通過改進(jìn)圖像中的語義信息的描述來提升場景圖生成性能。Zareian 等人[27]將場景圖視為常識知識圖的圖像條件實例化,將圖像中的實體直接連接到外部知識庫對應(yīng)的實體,結(jié)合常識推理實體間的關(guān)系。

        2 方法

        給定一幅圖像I,場景圖通過拓?fù)浣Y(jié)構(gòu)表示圖像中的信息。這種拓?fù)浣Y(jié)構(gòu)表示的關(guān)系圖G可定義為:

        其中,實體O對應(yīng)節(jié)點,實體之間的關(guān)系R對應(yīng)連線,B={b1,b2,…,bi,…,bn},bi∈R4表示第i個區(qū)域的邊界框,實體集合O={o1,o2,…,oi,…,on}表示bi區(qū)域?qū)?yīng)的實體oi,實體間關(guān)系的集合R={r1→2,r1→3,…,ri→j,…,rn→n-1},ri→j∈R表示(bi,oi)與(bj,oj)之間的關(guān)系。

        因此根據(jù)式(1)可以將結(jié)合外部信息引導(dǎo)和殘差置亂的場景圖生成方法表示為一個概率模型P(G|I),具體描述為:

        其中,候選區(qū)域的集合概率P(B|I)定位輸入圖像中實體的位置,預(yù)測實體的概率分布P(O|B,I)依賴檢測到的候選區(qū)域,預(yù)測實體關(guān)系的概率分布P(R|B,O,I)依賴實體部分預(yù)測得到的實體標(biāo)簽。

        為了引導(dǎo)模型能夠?qū)W習(xí)到中低頻數(shù)據(jù)的特征,以P(O|B,I)預(yù)測的標(biāo)簽在外部知識庫中檢索,提取符合人腦認(rèn)知的合理的語義信息。由于數(shù)據(jù)集中高頻標(biāo)簽僅僅表達(dá)了少量的實體間關(guān)系種類,而不能較好地表達(dá)中低頻標(biāo)簽所代表的大量關(guān)系種類,為此提出殘差置亂方式,通過亂序輸入數(shù)據(jù),有效地避免模型過擬合于特定的數(shù)據(jù)順序,并且每一層殘差都用相同的外部信息引導(dǎo),保障了模型在保證高頻數(shù)據(jù)的表達(dá)能力的情況下強化了對中低頻數(shù)據(jù)的學(xué)習(xí),得到融合特征以更新式(2)中的P(R|B,O,I),從而得到最終場景圖概率P(G|I),圖1 給出了提出場景圖生成模型的整體結(jié)構(gòu)圖。

        因此,從概率模型的表示可以看出,外部信息引入與殘差置亂相結(jié)合的場景圖生成方法的核心在于P(R|B,O,I)概率生成,其生成方式如下所示:

        其中,Wr、Ws、Wo與bi,j是待學(xué)習(xí)的參數(shù),f′i是外部信息引導(dǎo)和殘差置亂融合后的實體i的視覺特征,fi,j表示Faster RCNN 提取的實體i與實體j并集區(qū)域的視覺特征。符號°表示矩陣中對應(yīng)元素相乘。

        2.1 候選框的生成

        對于給定的圖像I,為了獲得邊界框生成模塊的候選框集合概率P(B|I),模型使用Faster RCNN[28]作為基本的檢測器生成候選框?;贔aster RCNN 模型獲取候選框的坐標(biāo)集合B={b1,b2,…,bi,…,bn},并提取候選框的特征向量。將Faster RCNN 提取的特征向量構(gòu)造為線性序列,通過BiLSTM[29]模型得到經(jīng)過上下文微調(diào)后的視覺特征表示F={f1,f2,…,fi,…,fn}。

        2.2 外部信息的引入

        外部知識庫中的語義關(guān)系可以提供常識性知識,讓場景圖生成在一個規(guī)范的語義空間進(jìn)行推理,從而有效地緩解數(shù)據(jù)集標(biāo)注帶來的視覺關(guān)系標(biāo)簽分布不平衡的長尾效應(yīng)問題,改善場景圖生成質(zhì)量。因此借助多語言外部知識庫ConceptNet[17]中豐富的實體和關(guān)系的語義標(biāo)簽,獲得場景圖生成中關(guān)系表達(dá)的規(guī)范語義空間,并通過雙向GRU(gated recurrent unit)[30]獲得常識知識推理下視覺關(guān)系表示。

        根據(jù)實體向量fi,在對象檢測模塊P(O|B,I)可以預(yù)測得到實體標(biāo)簽li。語義空間規(guī)范是將預(yù)測標(biāo)簽li,在外部知識庫ConceptNet 進(jìn)行的檢索和匹配,提取實體的標(biāo)簽集合達(dá)成,具體表示為:

        其中,li表示圖像中檢索到的實體oi;lj表示外部知識庫中檢索到實體j的標(biāo)簽;表示匹配的關(guān)系標(biāo)簽;wi,j,d表示檢索到的三元組的相關(guān)度;D表示檢索和匹配的語義對個數(shù)。

        基于相關(guān)度wi,j,d可以檢索得到相關(guān)度最高的D個三元組。將每一個三元組視作含有三個單詞的短句。通過詞向量表示將每一個單詞li映射到相同的語義空間中得到xn。由于外部知識庫ConceptNet 中得到的相關(guān)系數(shù)wi,j,d不存在方向,為了使提取的信息更加適合場景圖生成模型的學(xué)習(xí),在此使用雙向GRU[30]提取句子的信息,其表示為:

        根據(jù)外部信息集的檢索結(jié)果,每個實體都檢索到了D個三元組,每個實體最終對應(yīng)D個句子特征。因此最終的外部信息引入后的特征表示是通過融合D個全連接特征,作為圖像中實體oi的外部信息增強的語義特征描述:

        其中,[;]表示拼接操作,We和be是待學(xué)習(xí)的參數(shù)。圖像I中實體的外部信息增強特征EI為:

        2.3 殘差置亂融合

        由于數(shù)據(jù)集的長尾問題,單純使用LSTM 進(jìn)行融合很容易導(dǎo)致模型過擬合高頻類別。因此本文使用殘差網(wǎng)絡(luò)的結(jié)構(gòu),避免深層網(wǎng)絡(luò)難以訓(xùn)練的問題,使外部信息可以在更深的網(wǎng)絡(luò)上進(jìn)行引導(dǎo)。使用亂序輸入的方法,極大地緩解了模型對特定順序輸入的過擬合問題。殘差置亂融合是將圖像實體的外部信息EI與視覺特征F進(jìn)行融合,得到一個由外部信息規(guī)范語義空間后的語義視覺特征F′。

        其中,C為殘差層數(shù)。在殘差網(wǎng)絡(luò)中的特征提取則是將實體的外部信息ei與視覺特征fi進(jìn)行逐層融合,每層融合后的特征表示如下:

        每一層殘差使用相同的外部信息增強的語義特征描述ei引導(dǎo)模型的學(xué)習(xí)。為了避免過擬合固定的序列順序特征,在輸入殘差網(wǎng)絡(luò)之前會隨機打亂輸入的序列順序。

        3 實驗結(jié)果與分析

        為了證明提出方法可以有效改善數(shù)據(jù)集中關(guān)系標(biāo)簽分布不平衡下的場景圖生成性能,在Visual Genome 數(shù)據(jù)集[14](簡稱VG 數(shù)據(jù)集)上進(jìn)行了與現(xiàn)有方法的對比實驗和消融實驗,并分別從PredCls、SGCls 和SGGen 三個子任務(wù)的R@K(recall@K)指標(biāo)下進(jìn)行了結(jié)果分析。最后可視化了提出方法在關(guān)系標(biāo)簽分布不平衡數(shù)據(jù)集上的改善情況對比。

        3.1 數(shù)據(jù)集與評價指標(biāo)

        實驗采用場景圖生成方法最廣泛使用的VG 基準(zhǔn)數(shù)據(jù)集[14],該數(shù)據(jù)集是目前最大的場景圖生成實驗數(shù)據(jù)集,包含108 077 張圖像,平均每張圖有38 個物體和22 個關(guān)系的標(biāo)注,包含150 個實體標(biāo)簽和50 個關(guān)系標(biāo)簽(不包含背景標(biāo)簽)。其中出現(xiàn)頻率最高的10 類關(guān)系幾乎占據(jù)所有數(shù)據(jù)的90%,剩余40 類關(guān)系僅占10%,分布極為不平衡,如圖2 所示。

        Fig.2 Proportion of each label on VG data set圖2 各標(biāo)簽在VG 數(shù)據(jù)集中的占比

        場景圖生成任務(wù)最終的目的是預(yù)測<主語-謂語-賓語>三元組,因此分別從已知實體位置與標(biāo)簽標(biāo)注預(yù)測分類(PredCls)、已知實體位置預(yù)測實體標(biāo)簽和實體對關(guān)系的場景圖分類(SGCls)以及已知檢測器檢測到的實體和實體標(biāo)簽預(yù)測實體對關(guān)系的場景圖生成(SGGen)三個子任務(wù)進(jìn)行實驗。并采用在場景圖生成任務(wù)中普遍采用的R@K作為以上三個任務(wù)中模型的評價指標(biāo)。實驗中使用R@20、R@50和R@100作為評價指標(biāo)。

        3.2 實驗相關(guān)設(shè)置

        鑒于提出方法需要相同大小的圖像作為輸入,因此將VG 數(shù)據(jù)集中的圖像通過縮放和填充0 的方式進(jìn)行圖像尺寸歸一化,統(tǒng)一大小為592×592。

        實體檢測器采用Fast RCNN 模型,并將其設(shè)置為與YOLO-9000[31]相同的錨定比和尺寸比例,用SGD算法訓(xùn)練檢測器,其中參數(shù)設(shè)置如下:批次大小為18,對每個批次,每張圖采樣256 個RoIs(region of interest),其中75%為背景圖。動量為0.9,權(quán)重衰減為0.000 1。初始學(xué)習(xí)率為0.001,每經(jīng)過一個批次學(xué)習(xí)率修改為原學(xué)習(xí)率的1/10。

        外部信息引入部分的相關(guān)參數(shù),實驗中設(shè)置D=10,并用GloVe 模型將檢索到的詞映射為向量。在殘差置亂模塊中,使用了層C=8 的殘差網(wǎng)絡(luò)融合視覺特征和檢索到的常識特征。

        在視覺特征提取方面,采用與Zellers 等人[12]類似的方式提取細(xì)節(jié),以Faster RCNN 檢測器檢測的實體區(qū)域RoIs 的中心點坐標(biāo)由左至右、由上到下的Leftright 排序方式進(jìn)行排序。將兩個實體的RoIs 的并集區(qū)域作為這兩個實體的謂語視覺區(qū)域,將通過檢測器提取的該區(qū)域特征作為謂語視覺特征,其特征維度為7×7×256。最終使用在ImageNet[32]上預(yù)訓(xùn)練的VGG16[33]模型的全連接層4 096 維特征作為該區(qū)域的最終視覺特征表示。

        3.3 對比實驗結(jié)果

        從圖2 中可以看出,VG 數(shù)據(jù)集中存在不同關(guān)系標(biāo)簽及其對應(yīng)分布極度不平衡的嚴(yán)重長尾效應(yīng),本文將占比高于1%的關(guān)系標(biāo)簽視為高頻標(biāo)簽,高于0.1%低于1%的關(guān)系標(biāo)簽視為中頻標(biāo)簽,而低于0.1%的關(guān)系標(biāo)簽視為低頻標(biāo)簽。

        實驗從場景圖生成的整體性能對比出發(fā),對比了現(xiàn)存的六種方法VRD[6]、IMP[11]、IMP+[11-12]、AE[34]、Mem[9]、SMN[12],三個子任務(wù)在R@20、R@50 和R@100三個評價指標(biāo)下的實驗結(jié)果如表1 所示。

        為了有效區(qū)分語義相近對場景圖生成的性能影響,采用文獻(xiàn)[11-12]的方式,根據(jù)生成場景圖關(guān)系是否是一對實體對對應(yīng)一個關(guān)系,將實驗結(jié)果劃分為constraint(要求一對一)和unconstraint(不做要求)兩類。

        在一對實體對只獲得一個關(guān)系的constraint 中,對比了六種模型。從表1 中可以看出,SMN 模型由于提取全局上下文信息,在SGGen、SGCls、PredCls三個子任務(wù)取得了顯著的進(jìn)步,但本文方法由于利用外部信息和殘差置亂緩解數(shù)據(jù)集偏置問題,在三個子任務(wù)的各個評價指標(biāo)均高于現(xiàn)有的方法,其結(jié)果相較于SMN 模型平均提高了1%。

        因為關(guān)系標(biāo)簽中存在一些語義相近的標(biāo)簽,如wears 和wearing,在constraint 條件下因要求每個三元組只能生成一個關(guān)系,所以一些數(shù)據(jù)量差距懸殊但是語義相近的標(biāo)簽的結(jié)果提高則會被constraint 的要求所掩蓋。為了充分展示提出方法可以較好地區(qū)分這些語義相近標(biāo)簽,在unconstraint 下,對比了三個子任務(wù)下的四種模型。從表1 中可以發(fā)現(xiàn),本文方法在三個子任務(wù)的三種評價指標(biāo)下,場景圖生成任務(wù)的提高更加明顯。尤其是在場景分類SGCls 子任務(wù)中的R@50 和R@100 兩個評價指標(biāo)上,相較SMN 模型均提高了1.6%。在預(yù)測關(guān)系PredCls 子任務(wù)中也提升了1.1%。

        從constraint 和unconstraint 兩方面的實驗結(jié)果分析可以發(fā)現(xiàn),由于提出方法利用外部知識庫中的常識性知識進(jìn)行語義空間的規(guī)范,以及采用殘差置亂策略引入更充分的信息表示,在場景圖生成的整體性能上有著較為顯著的提升。

        Table 1 Experimental results of methods on VG data set表1 幾種方法在VG 數(shù)據(jù)集上的對比實驗結(jié)果 %

        此外,鑒于場景圖生成任務(wù)常用R@K指標(biāo)進(jìn)行方法性能評價,但這個指標(biāo)只關(guān)注圖像中的關(guān)系是否被完全預(yù)測,不能關(guān)注不同關(guān)系標(biāo)簽的預(yù)測情況,本文還進(jìn)行了不同關(guān)系標(biāo)簽的R@K指標(biāo)比較實驗,實驗結(jié)果如圖3 所示。

        從圖3 可以看出,SMN 模型在高頻標(biāo)簽,如on、has、wearing 等,取得了良好的結(jié)果,而對于中低頻標(biāo)簽,如painted on、growing on、playing 的結(jié)果則不盡如人意,R@K數(shù)值較低,模型幾乎不可避免地偏向了出現(xiàn)頻率更高的標(biāo)簽。與現(xiàn)有的方法不同,本文方法引入外部信息,引導(dǎo)模型更好地學(xué)習(xí)樣本數(shù)低的關(guān)系標(biāo)簽。從圖3(b)中可以看出,提出方法在高頻關(guān)系標(biāo)簽的預(yù)測結(jié)果基本與對比模型SMN 持平,僅在on、has、wearing 略微下降。但對于一些出現(xiàn)頻率較低而語義明確的標(biāo)簽的預(yù)測上取得了顯著的進(jìn)步,如中頻標(biāo)簽eating 和using 的結(jié)果提高了近20%。對于一些極度低頻標(biāo)簽,如mount on、from 和made of,由于這三個關(guān)系類在VG 數(shù)據(jù)集中出現(xiàn)次數(shù)均小于100 次,并且語義模糊,本文方法對于這種情況改善不明顯。總之,本文方法對于中低頻關(guān)系標(biāo)簽取得了良好的結(jié)果,一定程度上緩解了數(shù)據(jù)關(guān)系分布不平衡的問題。

        3.4 消融實驗結(jié)果

        為了更深入分析提出方法中改進(jìn)模塊對解決數(shù)據(jù)集偏置的具體貢獻(xiàn),分別針對語義規(guī)范的外部知識庫信息引入和殘差置亂的語義增強設(shè)計了constraint和unconstraint條件下的詞向量消融(w/o e)和殘差消融(w/o r)實驗,消融實驗結(jié)果如表2 所示。

        為了驗證外部知識庫的常識性知識引入對語義空間規(guī)范的作用,將殘差置亂替換為單層LSTM 網(wǎng)絡(luò)進(jìn)行殘差消融(w/o r)實驗,分析外部信息引入對場景圖生成的性能改進(jìn),實驗結(jié)果見表2。在constraint條件下,相對基模型SMN,殘差消融模型在三個子任務(wù)上的性能均有所提升,其中在SGGen 子任務(wù)上平均提升了0.5%,在SGCls 子任務(wù)上平均提升1.0%,在PredCls 子任務(wù)上平均提升0.8%。在unconstraint 條件下,殘差消融模型在三個子任務(wù)上的性能相對于基模型SMN 也均有不同程度的提升,其中在SGGen子任務(wù)上平均提升了0.5%,在SGCls 子任務(wù)上平均提升了約1.0%,在PredCls 子任務(wù)上平均提升了約0.8%。實驗證明了外部信息引導(dǎo)確實有效地規(guī)范了語義空間,可以更好地引導(dǎo)模型學(xué)習(xí)恰當(dāng)?shù)奶卣?,提高模型的表達(dá)能力。在unconstraint條件下SGGen 子任務(wù)中,由于沒有外部信息的引導(dǎo),模型過擬合高頻關(guān)系類別,反而導(dǎo)致詞向量消融(w/o e)較完整的方法提高了0.2%,但是總體而言引入外部信息有利于場景圖的生成。

        Table 2 Ablation result表2 消融結(jié)果 %

        Fig.3 Comparison of results under different labels圖3 不同標(biāo)簽下的結(jié)果比較

        由于規(guī)范語義空間,對場景圖生成任務(wù)的性能改進(jìn)還受到外部信息量引入情況的影響,為此本文還進(jìn)行了不同檢索數(shù)量D對提出場景圖生成方法的性能比較分析實驗,實驗結(jié)果如表3 所示。從檢索數(shù)量D取5、10 和20 在場景圖生成的實驗結(jié)果可知,檢索數(shù)量D為10 時,提出模型的場景圖生成性能最好。

        對于殘差置亂策略融合外部信息并傳遞上下文信息以減輕場景圖生成受數(shù)據(jù)集偏置的影響,本文將外部信息的embedding 替換為實體預(yù)測得到的詞向量,進(jìn)行詞向量消融(w/o e)實驗。從表2 可以看到,在constraint 條件下,詞向量消融模型在三個子任務(wù)上的性能相對于基模型SMN 均有不同程度的提升,其中在SGGen 子任務(wù)上平均提升了0.5%,在SGCls 子任務(wù)上平均提升0.8%,在PredCls 子任務(wù)上平均提升0.5%。在unconstraint 條件下,詞向量消融模型在三個子任務(wù)上的性能相對于基模型SMN 也均有不同程度的提升,其中在SGGen 子任務(wù)上平均提升了0.9%,在SGCls 子任務(wù)上平均提升了約1.3%,在PredCls 子任務(wù)上平均提升了約0.8%。實驗證明了殘差置亂策略可以有效增強語義信息,緩解了數(shù)據(jù)偏置問題。

        Table 3 Influences of D on results表3 D 值對結(jié)果的影響 %

        總之,消融實驗證明,簡單引入外部信息或者殘差置亂可以一定程度改善場景圖生成性能,但并不能得到理想的效果。基于外部信息和殘差置亂結(jié)合的場景圖生成方法可以根據(jù)外部信息引導(dǎo)模型學(xué)習(xí),避免模型過擬合,有效改善了場景圖生成。

        4 總結(jié)

        數(shù)據(jù)集偏置嚴(yán)重影響場景圖在關(guān)系標(biāo)簽較少下的生成質(zhì)量,而外部知識庫提取的常識性知識可以有效地規(guī)范場景圖語義空間,殘差置亂可以增強關(guān)系標(biāo)簽的信息量,因此基于外部知識和殘差置亂結(jié)合的場景圖生成可以通過殘差置亂引導(dǎo)模型借助常識性知識進(jìn)行推理學(xué)習(xí),避免模型過擬合,從而有效地解決不同關(guān)系數(shù)據(jù)分布不平衡的問題。在VG 數(shù)據(jù)集上的實驗證明了使用外部信息引導(dǎo)和殘差置亂的方法代替人類的常識規(guī)范場景圖生成網(wǎng)絡(luò)的有效性,尤其有效地提高了數(shù)據(jù)集中低頻關(guān)系的場景圖生成的精度,緩解了數(shù)據(jù)長尾問題的影響。

        猜你喜歡
        知識庫殘差實體
        基于雙向GRU與殘差擬合的車輛跟馳建模
        基于殘差學(xué)習(xí)的自適應(yīng)無人機目標(biāo)跟蹤算法
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
        振興實體經(jīng)濟(jì)地方如何“釘釘子”
        高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        99999久久久久久亚洲| 蜜臀av人妻一区二区三区| 国产影院一区二区在线| 尹人香蕉久久99天天拍| 成人综合婷婷国产精品久久蜜臀| 亚洲视频天堂| 女同av免费在线播放| 中国亚洲一区二区视频| 中文字幕在线精品视频入口一区| 亚洲欧美另类自拍| 在线观看黄片在线播放视频| 日本熟女人妻一区二区| 少妇高潮惨叫久久久久久电影| 91麻豆国产香蕉久久精品| 亚洲美女性生活一级片| 成人麻豆视频免费观看| 三年片大全在线观看免费观看大全 | 免费人成视频在线观看视频| 亚洲av中文无码乱人伦在线咪咕 | 一区二区三区日本美女视频| 国产精品无码翘臀在线观看| 艳妇臀荡乳欲伦交换在线播放| 亚洲欧美日韩中文字幕网址| 精品久久精品久久精品| 在线观看特色大片免费视频| 大伊香蕉在线精品视频75| 久久99老妇伦国产熟女高清| 国产精品亚洲一区二区三区16| 人妻夜夜爽天天爽三区| 国产一区a| 国产视频一区二区三区在线看| 亚洲成熟女人毛毛耸耸多| 性色av无码一区二区三区人妻| 日本a在线天堂| 国产午夜免费一区二区三区视频| 国产肉体xxxx裸体784大胆| 五十路熟久久网| 亚洲一区二区三区av色婷婷| 久久亚洲精品中文字幕| 国产高清乱理伦片| 久久久久久无码AV成人影院|