亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向視覺對話的自適應(yīng)視覺記憶網(wǎng)絡(luò)

        2021-10-13 04:51:30高聯(lián)麗宋井寬
        關(guān)鍵詞:定位特征實(shí)驗(yàn)

        趙 磊,高聯(lián)麗,宋井寬

        (電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 成都 611731)

        當(dāng)前,計(jì)算機(jī)視覺[1]與自然語言處理[2]相結(jié)合的跨模態(tài)任務(wù)獲得大量關(guān)注,如圖像描述生成(image captioning)[3-4]、視覺問答(visual question answering)[5-6]等。視覺對話任務(wù)是指計(jì)算機(jī)根據(jù)圖片、圖片描述以及歷史對話信息對人所提出的問題進(jìn)行流暢自然地回答。視覺對話技術(shù)可以應(yīng)用于大量的實(shí)際生活場景中,如協(xié)助視覺障礙患者完成對周圍環(huán)境的感知;如升級客服系統(tǒng),使之智能化地對消費(fèi)者所提出的問題作答;或讓機(jī)器人擁有類似于人的交流能力。

        視覺對話是一項(xiàng)充滿挑戰(zhàn)性的任務(wù)。其中,視覺共指消解問題是關(guān)鍵的一個(gè)研究點(diǎn),它是指如何找到問題中的代詞在圖片中的具體目標(biāo)指代。在視覺對話任務(wù)中最常用的數(shù)據(jù)集VisDial 中,有近38%的問題以及19%的答案包含代詞,如‘he’‘his’‘it’‘there’‘they’‘that’‘this’等。文獻(xiàn)[7]通過神經(jīng)模塊網(wǎng)絡(luò)確定問題中的代詞在歷史對話中所指代的具體實(shí)體,然后從輸入的圖片完成視覺定位。文獻(xiàn)[8]提出了適用于視覺對話的雙重注意力網(wǎng)絡(luò),它通過多頭注意力機(jī)制學(xué)習(xí)問題與歷史對話信息之間的潛在關(guān)聯(lián),然后利用自底向上的注意力機(jī)制完成視覺上的目標(biāo)檢測。文獻(xiàn)[9]提出了遞歸的視覺注意力來對歷史對話進(jìn)行遍歷,直至找到高置信度的視覺指代。總結(jié)先前的工作,它們都是通過文本定位和視覺定位兩個(gè)步驟來解決視覺共指消解問題。然而,每一步過程都有可能產(chǎn)生誤差,從而導(dǎo)致最終回答的問題精度不足。誤差產(chǎn)生的主要原因是問題中的代詞在對話歷史中所指代的目標(biāo)依然難以確定。如在歷史對話中其指代的目標(biāo)在比較靠前的輪次,或者存在語義相近,容易混淆的文本目標(biāo),這都容易導(dǎo)致文本定位的誤差。而由歷史對話中所找到的文本指代完成視覺定位同樣容易產(chǎn)生誤差。其原因?yàn)閳D像中背景信息比較復(fù)雜,如背景中有同目標(biāo)類似的物體,亦或其背景的顏色特征、紋理特征與目標(biāo)相近等,容易誤檢而造成誤差。同時(shí)先前工作都忽視了在很多情況下,問題的回答不需要利用歷史對話,簡單的視覺信息可以直接完成作答。

        本文將對話過程中已完成定位的視覺信息存儲在外部的記憶庫中,從而將上述的兩個(gè)步驟進(jìn)行整合。在每回答一個(gè)問題時(shí),不需要從歷史對話中尋找問題中代詞具體的指代,而是直接從視覺記憶庫中進(jìn)行讀取。通過外部視覺記憶庫對文本定位和視覺定位的整合,將先前的兩步定位可能產(chǎn)生的誤差縮減為對單步視覺記憶讀取的誤差,理論上單步的誤差要小于兩步的誤差。為了更好地處理視覺信息可直接作答的情形,在讀取視覺記憶庫的時(shí)候,采用了自適應(yīng)的方式,即動態(tài)地學(xué)習(xí)一個(gè)置信度。進(jìn)一步地,引入視覺殘差連接來緩解此問題,從而更好地應(yīng)對不同的情況。

        1 自適應(yīng)視覺記憶網(wǎng)絡(luò)

        1.1 數(shù)據(jù)處理

        (q2,a2),···,(qt?1,at?1)),以及候選答案A。視覺類數(shù)據(jù)包括圖片I,以及視覺記憶庫Mt=(m0,m1,···,mt?1)。

        視覺對話任務(wù)中的輸入主要包括文本類數(shù)據(jù)和視覺類數(shù)據(jù)兩種模態(tài)數(shù)據(jù)。其中,文本類數(shù)據(jù)包括當(dāng)前輪次所提出的問題qt,歷史對話Ht=(C,(q1,a1),

        本文對文本類數(shù)據(jù)均利用詞嵌入方法將每一個(gè)詞映射為詞向量。隨后,映射后的當(dāng)前問題qt利用自注意力機(jī)制得到帶權(quán)重的詞向量qa,用以表示在問題中重要的詞語。同時(shí),將映射之后的歷史對話和候選答案都輸入LSTM 中,取最后一個(gè)隱藏層的狀態(tài)為其對應(yīng)特征,分別為=(h0,h1,···,ht?1)和Aλ。

        視覺類數(shù)據(jù)中的圖片I利用在Visual Genome上預(yù)訓(xùn)練好的Faster R-CNN 提取目標(biāo)級特征V=(v1,v2,···,vn)。本文將提取的目標(biāo)數(shù)量固定為36 個(gè)。初始的視覺記憶庫m0是由圖片描述C對圖片I進(jìn)行軟注意力計(jì)算所得。

        1.2 網(wǎng)絡(luò)模型

        本文所采用的網(wǎng)絡(luò)框架為編碼器?解碼器模式。整體框架圖如圖1 所示,其中自適應(yīng)視覺記憶模塊是整個(gè)網(wǎng)絡(luò)的重點(diǎn)。它的輸入為當(dāng)前問題的帶權(quán)重特征qa對圖片I的特征V進(jìn)行注意力計(jì)算所得到的視覺特征Vq,具體如下:

        圖1 本文所設(shè)計(jì)的自適應(yīng)視覺記憶網(wǎng)絡(luò)AVMN 的框架圖

        式中,fq和fv分別表示非線性變換函數(shù);“ ?”表示哈達(dá)瑪積;“·”表示矩陣相乘。

        之后,Vq輸入到自適應(yīng)視覺記憶模塊中讀取外部的視覺記憶庫以完成初步的目標(biāo)定位。其詳細(xì)流程如算法1 所示。

        算法1 自適應(yīng)視覺記憶模塊數(shù)據(jù)讀寫流程:

        考慮到在很多情形下問題的回答不需要用到視覺相關(guān)的歷史信息,直接利用問題便可從圖片中定位到目標(biāo)特征。因此,本文將Vq經(jīng)過線性變換處理后得到的特征輸入到sigmoid 函數(shù)中學(xué)習(xí)一個(gè)參數(shù)λ,并用此參數(shù)得到帶有權(quán)重的外部視覺記憶信息。然后利用軟注意力機(jī)制讀取到視覺記憶,具體如下:

        式中,fv_a表示非線性變換。進(jìn)一步地,將視覺特征Vq與取得的視覺記憶做融合,也可以視為對視覺特征Vq做殘差連接。具體融合方式為:

        式中,F(xiàn)C 均表示全連接線性變換;Norm 和Gate分別表示L2 正則化運(yùn)算和門函數(shù);[,]表示向量之間的級聯(lián)操作。此階段所讀取到的最終特征mt還要被更新到外部記憶庫中。

        為進(jìn)一步地提煉所讀取出來的視覺特征,使其更專注于所提出的問題,利用經(jīng)過自注意力計(jì)算的問題qa對mt做如下計(jì)算:

        式中,σ表示sigmoid 函數(shù)。同時(shí)將歷史對話作為答案生成的補(bǔ)充信息。同樣利用注意力機(jī)制使歷史對話中的有效信息集中到相關(guān)問題上,具體為:

        最終將當(dāng)前問題特征、外部記憶庫所讀出來的視覺特征及歷史對話特征進(jìn)行融合,具體方式為:

        式中,fq_h_v為線性變換;[,]表示級聯(lián)操作;F則是融合之后的特征,也是整個(gè)框架中編碼器的輸出。它之后被輸入到解碼器中,用以給候選的100 個(gè)答案進(jìn)行排序。

        本文中解碼器采用多任務(wù)學(xué)習(xí)機(jī)制,即判別式和生成式的融合。其中,判別式解碼器是通過計(jì)算每個(gè)候選答案的特征與編碼器輸出的融合特征之間的點(diǎn)乘相似度,用softmax 函數(shù)獲得候選答案的后驗(yàn)概率。并通過對交叉熵?fù)p失函數(shù)的最小化來訓(xùn)練模型。生成式編碼器是用LSTM 語言模型來直接生成答案,并通過對數(shù)似然損失函數(shù)完成訓(xùn)練。本文將兩者損失函數(shù)相加,完成對最終模型的訓(xùn)練。

        2 實(shí)驗(yàn)結(jié)果及分析

        2.1 數(shù)據(jù)集

        本文所有實(shí)驗(yàn)都在數(shù)據(jù)集VisDial1.0[10]上進(jìn)行。該數(shù)據(jù)集采集于Amazon Mechanical Turk 數(shù)據(jù)采集平臺。其中,訓(xùn)練集的圖片均來自于COCO 2014 數(shù)據(jù)集,共包含大約12.3 萬張圖片。驗(yàn)證集和測試集的圖片則采集于Flickr 數(shù)據(jù)集,分別包含2000 和8000 張圖片。訓(xùn)練集和驗(yàn)證集中,每張圖片對應(yīng)10 輪問答,測試機(jī)則僅有一輪問答。每個(gè)問題都包含有100 個(gè)候選答案。

        2.2 評價(jià)指標(biāo)

        實(shí)驗(yàn)中所采用的評價(jià)指標(biāo)共4 類,包括:平均排序(mean)、平均排序倒數(shù)(mean reciprocal rank,MRR)、召回率(recall@)、歸一化折現(xiàn)累計(jì)收益(normalized discounted cumulative gain,NDCG)。

        平均排序用于表示人工標(biāo)注的正確答案在所有候選答案排序中的平均排名。平均排序倒數(shù)是指將所有正確答案的排名取倒數(shù),并做平均化處理。召回率表示在所有候選答案的排序中人工標(biāo)注的正確答案位于前k所占的比例,本文將k設(shè)置為1、5 和10。歸一化折現(xiàn)累計(jì)收益則是考慮到候選答案中可能存在多個(gè)正確答案的情形,它旨在處罰那些正確但又排名較低的答案。

        2.3 實(shí)驗(yàn)設(shè)置

        本文所設(shè)計(jì)的模型主要基于PyTorch1.0 實(shí)現(xiàn)。模型在數(shù)據(jù)集上共訓(xùn)練15 個(gè)周期,批大小設(shè)為32,初始學(xué)習(xí)率設(shè)為0.001,經(jīng)歷一個(gè)熱身周期,并在第10 個(gè)周期后降至0.0001。訓(xùn)練優(yōu)化器選用Adam。

        2.4 定量及定性實(shí)驗(yàn)

        為驗(yàn)證本文所設(shè)計(jì)模型的有效性,將此模型和近年來效果最優(yōu)的算法進(jìn)行對比。對比方法包括:

        1)VGNN[11]:利用圖神經(jīng)網(wǎng)絡(luò)將視覺對話模擬為基于局部觀測節(jié)點(diǎn)的圖模型推導(dǎo)。每輪對話被視為圖節(jié)點(diǎn),對應(yīng)的回答表示為圖中缺失的一個(gè)值。

        2)CorefNMN[7]:利用模塊神經(jīng)網(wǎng)絡(luò)完成字詞級別的目標(biāo)定位。

        3)DVAN[12]:以雙重視覺注意力網(wǎng)絡(luò)來解決視覺對話中的跨模態(tài)語義相關(guān)性。充分地挖掘了局部視覺信息和全局視覺信息,并利用3 個(gè)階段的注意力獲取來生成最終的答案。

        4)FGA[13]:針對視覺對話的因子圖注意力方法,可以有效地整合多種不同模態(tài)的數(shù)據(jù)。

        5)RVA[9]:用于遍歷歷史對話信息的遞歸注意力機(jī)制。

        6)DualVD[14]:自適應(yīng)的雙重編碼模型。學(xué)習(xí)更豐富的、全面的視覺特征用以回答多樣的問題。

        表1 為本文所提出的算法AVMN 與上述方法在VisDial1.0 測試集上的實(shí)驗(yàn)結(jié)果在平均排序倒數(shù)(MRR)、召回率(recall@k)、平均排序(mean)、歸一化折現(xiàn)累計(jì)收益(NDCG)各項(xiàng)指標(biāo)上的對比。其中,AVMN*表示解碼器為判別式的,AVMN 表示解碼器采用多任務(wù)學(xué)習(xí)方式,在訓(xùn)練的時(shí)候加入了生成式損失函數(shù)。

        從表1 可看出,本文所提出的AVMN 即使在沒有加入生成式損失函數(shù)的情況下已經(jīng)在各項(xiàng)指標(biāo)上全面超過了各對比方法。在采用多任務(wù)學(xué)習(xí)方式后,實(shí)驗(yàn)結(jié)果又獲得了可觀的提升,進(jìn)一步和對比方法拉開了一定差距。具體地,完整的AVMN 在平均倒數(shù)排序MRR 上的結(jié)果比所有對比方法中最優(yōu)的方法DualVD 提升了0.6%,在召回率R@1 上比效果最佳的FGA 提升了0.59%,在同樣代表精確性的平均排序上取得了4.03 的結(jié)果。在保證答案的精確度的同時(shí),它在歸一化折現(xiàn)累計(jì)收益NDCG 上也取得了56.92 的結(jié)果,相比相關(guān)的最優(yōu)方法取得了0.7%的提升。FGA 在R@5 上的結(jié)果比AVMN 略高,但是它利用因子圖將多種類型數(shù)據(jù)進(jìn)行交互,所取得的提升建立在代價(jià)較大的計(jì)算上。以上實(shí)驗(yàn)結(jié)果證明了AVMN 的先進(jìn)性。

        表1 本文算法與其他算法的結(jié)果對比

        AVMN 在VisDial1.0 上的定性實(shí)驗(yàn)結(jié)果如圖2所示。其中Baseline 代表沒有加入自適應(yīng)視覺記憶模塊的基準(zhǔn)模型,GT 代表人工標(biāo)注的正確答案,Predict 代表AVMN 預(yù)測的答案。從圖中前兩個(gè)示例可以看出,AVMN 所生成的答案相較基準(zhǔn)模型更為準(zhǔn)確,和GT 一致。同時(shí),它也可以對不存在代詞的問題進(jìn)行準(zhǔn)確的回答,如后兩個(gè)示例所示。

        圖2 本文所設(shè)計(jì)的自適應(yīng)視覺記憶網(wǎng)絡(luò)AVMN 在VisDial1.0 數(shù)據(jù)集上的定性結(jié)果

        2.5 消融實(shí)驗(yàn)

        在此實(shí)驗(yàn)部分,設(shè)計(jì)針對本文所提出的算法AVMN 中主要組成部分在VISDial1.0 驗(yàn)證集上的消融實(shí)驗(yàn)。實(shí)驗(yàn)中主要設(shè)置了兩個(gè)算法的變體:1)沒有使用記憶庫的原始模型;2)僅使用了記憶庫,但沒有采用自適應(yīng)讀取的模型。表2 為消融實(shí)驗(yàn)的結(jié)果展示。值得注意的是,此實(shí)驗(yàn)部分中所有模型的解碼器是判別式的。

        表2 針對算法主要模塊的消融實(shí)驗(yàn)結(jié)果

        表2 中第一行是原始模型的實(shí)驗(yàn)結(jié)果。記憶代表AVMN 中使用的記憶庫。從數(shù)據(jù)可看出,原始模型相比完整模型的實(shí)驗(yàn)結(jié)果表現(xiàn)較差。第二行為加入記憶庫后模型的實(shí)驗(yàn)結(jié)果。它在平均排序倒數(shù)MRR 和歸一化折現(xiàn)累計(jì)收益NDCG 上提升明顯,尤其在NDCG 上,提升幅度超過1%。其原因是視覺記憶相比之前的方法縮減了定位步驟,其中間誤差減少,準(zhǔn)確性以及相關(guān)性隨之提升。第三行是加入對記憶庫自適應(yīng)讀取后完整模型的實(shí)驗(yàn)結(jié)果。相較于進(jìn)加入記憶庫后的模型,它主要在召回率R@5 和R@10 上取得了較大的提升。其原因是自適應(yīng)讀取的加入使得本不需要?dú)v史信息的問題得到了更精確的回答。

        3 結(jié)束語

        本文設(shè)計(jì)了一種為解決視覺對話中視覺共指消解的自適應(yīng)視覺記憶網(wǎng)絡(luò)AVMN。先前的方法為緩解指代模糊的問題,基本都是分兩步,先從歷史對話中找到代詞的具體指代,然后再從圖片中定位到視覺目標(biāo)。視覺記憶網(wǎng)絡(luò)直接將對話歷史中已完成定位的視覺信息存儲到外部的記憶模塊中。這種方式將兩步縮減為一步,減少在文本定位和視覺定位兩步過程中所產(chǎn)生的誤差。同時(shí)在面臨僅需要圖片便能回答的問題,加入了對外部視覺記憶的自適應(yīng)讀取,以及初始圖片的殘差連接。在視覺對話領(lǐng)域最流行的數(shù)據(jù)集VisDial 上的實(shí)驗(yàn)結(jié)果證明了本文所設(shè)計(jì)模型相較于其他優(yōu)秀算法的先進(jìn)性。消融實(shí)驗(yàn)驗(yàn)證了視覺記憶網(wǎng)絡(luò)內(nèi)對最終結(jié)果的影響,更進(jìn)一步地證明了它的有效性。

        猜你喜歡
        定位特征實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        《導(dǎo)航定位與授時(shí)》征稿簡則
        Smartrail4.0定位和控制
        如何表達(dá)“特征”
        做個(gè)怪怪長實(shí)驗(yàn)
        不忠誠的四個(gè)特征
        找準(zhǔn)定位 砥礪前行
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        日本av亚洲中文字幕| 乱人伦中文字幕在线不卡网站| 成人午夜福利视频镇东影视| 免费现黄频在线观看国产| 69国产成人综合久久精| 国产偷闻隔壁人妻内裤av| 日韩一区中文字幕在线| 国内自拍愉拍免费观看| 无码无套少妇毛多18p | 中文字幕色一区二区三区页不卡| 人人妻人人澡人人爽精品日本| 97人妻碰碰视频免费上线| 亚洲aⅴ无码成人网站国产app| 成人国产永久福利看片| 亚洲一区二区岛国高清| 蜜桃av人妻精品一区二区三区| 疯狂添女人下部视频免费| 国内少妇人妻丰满av| 精品无吗国产一区二区三区av| 亚洲福利av一区二区| 国产夫妻精品自拍视频| 成人免费无码大片a毛片| 久久久久久久综合狠狠综合| 高潮喷水无遮挡毛片视频| 一区二区高清视频免费在线观看| 国内精品久久久人妻中文字幕| 永久免费av无码入口国语片| 精品国产av无码一道| 亚洲福利网站在线一区不卡| 很黄很色的女同视频一区二区| 亚洲国产av玩弄放荡人妇| 女同亚洲女同精品| 亚洲视频在线视频在线视频 | 8090成人午夜精品无码| 人妖在线一区二区三区| 免费无码专区毛片高潮喷水| 国产精品亚洲二区在线观看| 亚洲AV无码国产精品久久l| 美女福利视频网址导航| 亚洲精品有码日本久久久| 无码任你躁久久久久久久|