亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進的全局注意機制圖像描述方法

        2019-04-22 08:03:08馬書磊張國賓石光明
        關(guān)鍵詞:機制特征文本

        馬書磊,張國賓,焦 陽,石光明

        (1.西安電子科技大學(xué) 人工智能學(xué)院,陜西 西安 710071;2.中國電子科技集團公司第二十七研究所,河南 鄭州 450047)

        圖像描述技術(shù)是通過計算機視覺及自然語言處理技術(shù)讓計算機自動描述圖像內(nèi)容。目前圖像描述方法一般分為3類:(1)基于檢索的方法;(2)基于模板的方法;(3)基于神經(jīng)網(wǎng)絡(luò)的方法。其中基于檢索和基于模板的方法因其受限于圖像的人工特征提取和文本的設(shè)計生成規(guī)則,往往效果并不理想。而基于神經(jīng)網(wǎng)絡(luò)的方法得益于網(wǎng)絡(luò)強大的圖像特征提取能力,在許多計算機視覺應(yīng)用[1]中都取得了非常好的效果。故文中僅針對基于神經(jīng)網(wǎng)絡(luò)的方法進行討論。

        文獻[2]早先提出神經(jīng)圖像描述(Neural Image Caption, NIC)模型,該模型由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)構(gòu)成。模型利用Google Inception[3]網(wǎng)絡(luò)作為圖像特征提取器,同時利用長短時記憶網(wǎng)絡(luò)(Long-Short Term Memory, LSTM)作為文本編解碼器。視覺注意機制作為一種常用技術(shù),在圖像問答[4]、細粒度分類[5]、動作識別[6]以及三位重建[7]等問題中被廣泛應(yīng)用。文獻[8]通過引入視覺哨兵機制,提出一種自適應(yīng)編碼器-解碼器模型。考慮到視覺注意機制大都基于固定尺寸感受野,文獻[9]提出基于自底向上和自頂向下的注意機制的圖像描述方法(Bottom-Up and Top-Down, BUTD),使注意機制的感受野尺寸可以隨著物體的大小而調(diào)整。

        現(xiàn)有方法中,雖然視覺注意機制可以很好地模擬人眼對圖像局部的理解,但單純的基于視覺注意機制其實并不完全符合人類感知機制,會造成圖像全局信息丟失。因此,筆者提出一種改進的全局注意機制圖像描述方法。實驗表明,基于全局注意機制的方法能夠有效克服全局信息丟失帶來的語義失真問題,并在主觀及客觀性能評價中獲得性能提升。

        1 動 機

        基于注意機制的圖像描述方法可以根據(jù)上下文針對圖像局部內(nèi)容進行增強或抑制,取得了很好效果。然而,目前基于視覺注意機制的圖像描述方法雖然可以有效加強圖像各個不同局部特征,但正如下文所述,單純的視覺注意模型并不完全符合人類感知機制。

        人類感知機制的研究[10-11]表示,人們可以通過感知周圍整體環(huán)境和高效地轉(zhuǎn)移局部注意力來完成對周圍場景的深刻理解。目前基于視覺注意機制的方法只模擬了后一點,但缺少對圖像場景的整體感知,導(dǎo)致網(wǎng)絡(luò)生成的文本不能夠生動準確地描述圖像的場景內(nèi)容。如圖1所示,可以看出,生成的文本雖然可以大致描述圖像主體,但錯誤理解了場景整體內(nèi)容(如圖1(a)中工藝場景,圖1(b)中的健身房場景等)。

        標簽文本:一個穿著白色上衣的男人在房間里制作手工品基于自底向上方法:一個穿著白色上衣的男人在房間里打臺球大廳里有三個穿著運動服抬起右臂的人在健身一群穿著運動服的女人在運動場上打排球

        圖1 全局信息缺失導(dǎo)致網(wǎng)絡(luò)生成的文本不能準確描述圖像場景

        因此,所提技術(shù)通過模擬人類感知機制全過程,在現(xiàn)有基于視覺注意機制方法的基礎(chǔ)上,加入全局先驗來指導(dǎo)網(wǎng)絡(luò),以生成更加準確、生動的描述文本,并提出改進的全局注意機制中文本描述方法。該方法先通過設(shè)計全局網(wǎng)絡(luò)來提取圖像全局特征fg,然后利用fg在長短時記憶網(wǎng)絡(luò)迭代過程中指導(dǎo)生成局部特征向量fatt,最后通過基于全局特征的fatt和長短時記憶網(wǎng)絡(luò)隱狀態(tài)h生成當前文本,并提升生成文本質(zhì)量。

        2 基于全局注意機制的圖像描述網(wǎng)絡(luò)設(shè)計

        2.1 基于神經(jīng)網(wǎng)絡(luò)的圖像描述框架

        典型的基于視覺注意機制的圖像描述網(wǎng)絡(luò)框架如圖2所示。主要包括兩個子網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)。

        圖2 基于神經(jīng)網(wǎng)絡(luò)的圖像描述框架

        其中,圖像I首先經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)進行特征提取,得到圖像高級語義特征f。其次圖像特征f將會通過注意網(wǎng)絡(luò)進行編碼,得到加權(quán)后的圖像特征fatt。注意網(wǎng)絡(luò)以圖像特征和當前時刻長短時記憶網(wǎng)絡(luò)的狀態(tài)作為輸入,通過生成圖像特征對應(yīng)的權(quán)值,對圖像特征進行加權(quán)。不同的權(quán)值大小反映了該時刻圖像局部特征之間受關(guān)注程度的不同。然后,長短時記憶網(wǎng)絡(luò)將加權(quán)后的圖像特征fatt、當前時刻隱狀態(tài)ht和細胞狀態(tài)ct,以及當前時刻詞向量WeΠt作為輸入,迭代學(xué)習(xí)不同時刻詞向量之間的關(guān)系,并通過歸一化指數(shù)函數(shù)對隱狀態(tài)ht進行解碼,得到當前時刻單詞yt。最后,上述步驟在時序上進行循環(huán),直到生成完整文本。需要注意的是,在基于視覺注意機制的圖像描述方法中,注意網(wǎng)絡(luò)雖然增強了圖像局部特征,但同時也減弱了圖像的全局特征。

        2.2 基于全局注意機制的圖像描述框架

        基于人類感知機制,在傳統(tǒng)圖像描述網(wǎng)絡(luò)結(jié)構(gòu)上加入了全局先驗通路,提出基于全局先驗的圖像描述框架結(jié)構(gòu),如圖3所示。

        圖3 基于全局注意機制的圖像描述框架

        如圖3中虛線所示,圖像I首先經(jīng)過全局網(wǎng)絡(luò)進行特征提取,得到全局特征向量fglb。全局網(wǎng)絡(luò)的設(shè)計可以采用經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)。然后,fglb、fatt和當前詞向量WeΠt將一同作為輸入傳給長短時記憶網(wǎng)絡(luò)。在長短時記憶網(wǎng)絡(luò)的設(shè)計中,全局特征向量fglb將會和局部特征向量fatt進行融合,以保證網(wǎng)絡(luò)在學(xué)習(xí)全局信息的基礎(chǔ)上學(xué)習(xí)圖像局部特征。

        2.3 基于全局注意機制的圖像描述網(wǎng)絡(luò)模型

        在圖像描述任務(wù)中,目前表現(xiàn)最好的神經(jīng)網(wǎng)絡(luò)是基于自底向上和自頂向下的注意機制的圖像描述方法(BUTD),下文簡稱為基于自底向上的方法。該算法以提出的網(wǎng)絡(luò)框架為基礎(chǔ),對自底向上的方法網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化改進,提出基于全局注意機制的圖像描述方法。網(wǎng)絡(luò)核心部分如圖4所示。

        圖4 基于全局注意機制的圖像描述網(wǎng)絡(luò)模型

        (1)

        3 實驗及分析

        3.1 數(shù)據(jù)集

        為了驗證模型的有效性,選取具有挑戰(zhàn)性的 “AI Challenger全球AI挑戰(zhàn)賽” 中文數(shù)據(jù)集進行對比實驗。在該數(shù)據(jù)集中,每一張圖片均有5句中文描述作為標簽。數(shù)據(jù)集總共包含30萬張圖片,對應(yīng)150萬句中文描述。其中包括訓(xùn)練集210 000張,驗證集30 000張,測試集60 000張。

        3.2 實現(xiàn)細節(jié)

        實驗采用VGG-16網(wǎng)絡(luò)結(jié)構(gòu)卷積部分作為全局網(wǎng)絡(luò)進行圖像全局特征提取,并將所有輸入圖像I均縮放為448×448像素大小。因此conv53輸出特征圖大小為[512,28,28],經(jīng)過全局平均池化后,全局特征向量f53大小為[512,1,1]。APN網(wǎng)絡(luò)中Faster R-CNN產(chǎn)生512個候選特征區(qū)域,即K=512。生成的特征向量fatt大小為[512,1,1]。長短時記憶網(wǎng)絡(luò)中層數(shù)為2,隱狀態(tài)h和細胞狀態(tài)c的長度均被設(shè)置為512,循環(huán)次數(shù)由生成文本的結(jié)尾標識符動態(tài)確定。對于中文文本描述來說,采用Jieba分詞對文本進行切割,然后利用Word2Vec方法進行編碼,得到We。

        網(wǎng)絡(luò)訓(xùn)練過程中批大小設(shè)置為20,學(xué)習(xí)率為5×10-4,最大迭代周期為15。網(wǎng)絡(luò)訓(xùn)練采用Adam優(yōu)化算法,其中動量設(shè)置為[0.9,0.999],權(quán)值衰減為0.001。

        3.3 結(jié)果對比

        將當前圖像描述任務(wù)中最優(yōu)網(wǎng)絡(luò)BUTD作為基準,和提出的方法在中文數(shù)據(jù)集上進行深入對比。在客觀對比方面,采用BLEU[12]、METEOR[13]、ROUGEL和CIDEr[14]等圖像描述評價標準,如表1所示。

        表1 客觀評價指標對比

        如上表所示,所提方法在相同的訓(xùn)練條件下,各項客觀評價指標均優(yōu)于基于自底向上的方法。其中在BLEU評價指標上平均比基于自底向上的方法高出0.003,在METEOR、ROUGEL和CIDEr指標上分別高出0.02、0.001和0.24。除了客觀評價指標,還進行大量主觀對比實驗,如圖5所示。

        基于自底向上方法: 全局注意機制方法: 一個穿著白色上衣的男人在房間里打臺球 一個穿著白色上衣的男人在房間里制作工藝品 一群穿著運動服的女人在運動場上打排球 三個穿著短袖的人在健身房鍛煉身體 兩個戴著帽子的男人站在道路的機器旁 兩個戴著帽子的男人在室外的道路上交談 基于自底向上方法: 全局注意機制方法: 大棚里有一個穿著深色褲子的男孩在摘草莓 大棚里有兩個穿著各異的人在摘草莓 一個左手拿著球桿的女人蹲在高爾夫球場上 一個左手拿著高爾夫球桿的女人蹲在綠茵茵的球場上 一個右手拿著話筒的男人坐在廣告牌前說話 一個右手拿著話筒的男人坐在廣告牌前的沙發(fā)上講話

        圖5 模型生成文本對比

        在以上對比實驗中可以看到,在樣例(a)、(b)、(c)中,基于自底向上的方法生成的文本甚至錯誤的描述了圖像內(nèi)容,而基于全局注意機制的方法由于加入了全局先驗信息,可以準確的表述圖像內(nèi)容。除此之外,基于全局注意機制的方法在描述上更傾向加入修飾性的形容詞,如“紅毯上”“綠茵茵”“汽車旁”等,使生成的文本更自然、生動,描述了更加豐富的圖像細節(jié)。

        4 結(jié)束語

        算法基于人類感知機制,在視覺注意模型的基礎(chǔ)上加入圖像全局信息,提出一種改進的全局先驗圖像描述方法。該方法通過融合圖像全局特征和區(qū)域局部特征,解決基于視覺注意機制方法中的全局信息丟失的問題。實驗證明,基于全局注意機制的方法在客觀評價標準上優(yōu)于目前最好算法;在客觀評價中,該方法可以更準確地描述圖像的整體內(nèi)容,并生成更加細致、生動、形象的自然語言文本。

        猜你喜歡
        機制特征文本
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        自制力是一種很好的篩選機制
        文苑(2018年21期)2018-11-09 01:23:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        破除舊機制要分步推進
        注重機制的相互配合
        打基礎(chǔ) 抓機制 顯成效
        中國火炬(2014年4期)2014-07-24 14:22:19
        亚洲最大在线视频一区二区| 久久精品国产精品亚洲毛片| 中文乱码人妻系列一区二区| 一本一道波多野结衣av中文| 在线视频青青草猎艳自拍69| 国产自产21区激情综合一区| 偷拍一区二区三区黄片| 日韩中文字幕不卡在线| 熟女一区二区三区在线观看| 中文字幕无线码免费人妻| 无码日韩精品一区二区三区免费| 无码精品黑人一区二区三区| 青春草国产视频| 少妇勾引视频网站在线观看| 亚洲精品中字在线观看| 国产精品天天看天天狠| 自愉自愉产区二十四区| 国产毛片视频一区二区| 国产精品videossex久久发布| 看黄a大片日本真人视频直播| 免费a级毛片出奶水| 亚洲AV无码久久久一区二不卡| 亚洲成AV人片无码不卡| 亚洲欧美日韩精品中文乱码| 中文字幕巨乱亚洲| 国产精品又污又爽又色的网站| 偷拍一区二区盗摄视频| 四虎成人精品国产永久免费无码| 亚洲av日韩综合一区在线观看| 97超级碰碰人妻中文字幕 | 亚洲av不卡一区二区三区| 精品久久久无码中文字幕| 亚洲成人免费无码| 日本一区二区偷拍视频| 手机免费在线观看av网址 | 粗壮挺进人妻水蜜桃成熟漫画| 国自产偷精品不卡在线| 国产激情一区二区三区成人免费| 蜜桃av噜噜噜一区二区三区| 白白色发布免费手机在线视频观看| 午夜天堂精品久久久久|