亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制引導(dǎo)的圖像描述生成

        2019-12-11 11:25:56董虎勝徐建峰孫浩吳銘儀
        現(xiàn)代計(jì)算機(jī) 2019年30期
        關(guān)鍵詞:特征信息模型

        董虎勝,徐建峰,孫浩,吳銘儀

        (1.江蘇省智能服務(wù)工程技術(shù)研究開(kāi)發(fā)中心,蘇州215009;2.蘇州經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院,蘇州215009)

        0 引言

        圖像描述生成(Image Caption)[1-2]是計(jì)算機(jī)視覺(jué)中一項(xiàng)新興的任務(wù),它的目標(biāo)是對(duì)給定的圖像自動(dòng)生成一段有意義的描述性內(nèi)容。由于該任務(wù)除了計(jì)算機(jī)視覺(jué)中傳統(tǒng)的檢測(cè)、分類等工作外,還涉及到對(duì)自然語(yǔ)言的處理,因此非常用具有挑戰(zhàn)性。作為對(duì)圖像的高層語(yǔ)意理解,圖像描述生成技術(shù)在圖像檢索、圖像與視頻事件分析、輿情分析等應(yīng)用中具有廣泛的前景,因此一經(jīng)提出便獲得了廣泛的關(guān)注。

        目前在對(duì)圖像描述生成方法的研究中,基本上都采用了Encoder-Decoder的系統(tǒng)架構(gòu)[3],借助于在其他視覺(jué)任務(wù)中取得了優(yōu)秀性能的深度卷積神經(jīng)網(wǎng)絡(luò)作為Encoder來(lái)獲得圖像的特征表達(dá),再使用Decoder網(wǎng)絡(luò)根據(jù)特征表達(dá)訓(xùn)練解碼器生成最終的文本描述序列。由于深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)具有優(yōu)秀的特征學(xué)習(xí)能力,而長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)[4]具有很好的序列數(shù)據(jù)處理性能,使用CNN+LSTM的圖像描述生成方法在獲得的圖像描述質(zhì)量上要顯著優(yōu)于圖像特征與描述語(yǔ)句特征匹配的方法,與使用固定文本描述模板添加關(guān)鍵詞的方法相比,更具有靈活多樣性[5]。

        在對(duì)圖像中的內(nèi)容使用自然語(yǔ)言進(jìn)行描述時(shí),除了從整體把握?qǐng)D像之外,人們也會(huì)更加關(guān)注圖中一些局部的信息,這對(duì)應(yīng)于表達(dá)語(yǔ)句中的一些關(guān)鍵詞語(yǔ),而句子中的其他詞語(yǔ)主要對(duì)這些關(guān)鍵詞語(yǔ)進(jìn)行上下文的描述。

        1 圖像特征的提取

        當(dāng)前的深度學(xué)習(xí)領(lǐng)域已經(jīng)提出了多種模型架構(gòu),如GoogleLeNet、VGG、ResNet等,這些架構(gòu)在諸如圖像識(shí)別、目標(biāo)檢測(cè)等其他計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出了優(yōu)秀的性能。另外這些優(yōu)秀的模型還提供了在ImageNet數(shù)據(jù)集上作了訓(xùn)練的參數(shù),在其他任務(wù)中作適當(dāng)調(diào)優(yōu)即可作為優(yōu)秀的特征提取器使用。因此,本文采用了在性能與網(wǎng)絡(luò)架構(gòu)上取得比較好的平衡的ResNet-101深度殘差網(wǎng)絡(luò)(Residual Net)[6]作為模型的 Encoder,模型的參數(shù)為在ImageNet上訓(xùn)練后的結(jié)果。

        與其他的網(wǎng)絡(luò)架構(gòu)相比,深度殘差網(wǎng)絡(luò)設(shè)計(jì)了一種特殊的“短路”結(jié)構(gòu)。若將輸入設(shè)為x,將某一網(wǎng)絡(luò)層設(shè)為H,那么以x作為輸入后該層的輸出將為H(x)。如AlexNet和VGG等一般架構(gòu)的CNN網(wǎng)絡(luò)會(huì)直接通過(guò)訓(xùn)練學(xué)習(xí)出H的各個(gè)參數(shù),即直接學(xué)習(xí)H:x?H(x)。但殘差學(xué)習(xí)的是使用多個(gè)網(wǎng)絡(luò)層學(xué)習(xí)輸入與輸出之間的殘差之間的殘差-x,即學(xué)習(xí)的是 H:x?+x,其中 x為恒等映射(identity mapping),而即為有參網(wǎng)絡(luò)層需要學(xué)習(xí)的輸入與輸出之間的殘差。在DCNN模型中基本上都采用了多個(gè)“卷積-池化”層的堆疊來(lái)實(shí)現(xiàn)對(duì)圖像進(jìn)行空間嵌入,隨著模型層數(shù)的加深,所獲得的特征圖在空間尺寸上越來(lái)越小,但是在通道數(shù)上越來(lái)越多,一方面達(dá)到對(duì)嵌入空間的降維,同時(shí)也能夠捕捉原始圖像不同方面的特征。總體上,隨著層數(shù)的加深,學(xué)習(xí)到的特征也越來(lái)越抽象,更接近于對(duì)圖像高層語(yǔ)義信息的提取。本文在使用ResNet-101架構(gòu)時(shí)丟棄了最后兩層,即全連接層與分類層,僅取最后輸出的2048個(gè)通道的14×14大小的特征圖(Feature Map)用作為Decoder的輸入。

        2 基于注意力機(jī)制的圖像描述生成模型

        作為圖像描述自動(dòng)生成模型中的Decoder,其主要任務(wù)是接收Encoder輸出的特征圖并逐字生成對(duì)圖像的描述的句子。由于生成句子時(shí)需要按序列逐字生成,因此當(dāng)前使用的Decoder模型均為循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[7]。不過(guò)盡管樸素的RNN模型具有比較強(qiáng)的序列處理能力,但是僅能利用前一時(shí)刻的信息,無(wú)法捕捉到較遠(yuǎn)間隔前的相關(guān)信息。與樸素RNN相比,常短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)采用了四個(gè)特殊的門結(jié)構(gòu)來(lái)實(shí)現(xiàn)對(duì)長(zhǎng)時(shí)依賴關(guān)系的處理,有效地解決了序列數(shù)據(jù)中的長(zhǎng)時(shí)記憶與短時(shí)依賴。圖1給出了LSTM網(wǎng)絡(luò)的結(jié)構(gòu)。

        如圖1所示,LSTM實(shí)際上是一種具有重復(fù)神經(jīng)網(wǎng)絡(luò)模塊(即LSTM Cell)的鏈?zhǔn)叫问?。在LSTM Cell中包含了遺忘門、輸入門、輸出門三個(gè)門結(jié)構(gòu),它們分別控制了當(dāng)前的輸入樣本與Cell前一時(shí)刻的狀態(tài)對(duì)當(dāng)前狀態(tài)Ct的影響,以及當(dāng)前Cell狀態(tài)中有多少信息被輸出到LSTM的輸出ht中。通過(guò)對(duì)這些處理的循環(huán)迭代,LSTM就實(shí)現(xiàn)了對(duì)Cell狀態(tài)的序列化更新處理。訓(xùn)練好的LSTM網(wǎng)絡(luò)就能夠捕獲序列數(shù)據(jù)中長(zhǎng)短時(shí)依賴關(guān)系及數(shù)據(jù)內(nèi)在模式。

        圖1 LSTM網(wǎng)絡(luò)展開(kāi)結(jié)構(gòu)圖

        LSTM中的遺忘門決定了當(dāng)前Cell需要從前一個(gè)時(shí)刻的狀態(tài)Ct-1中丟棄什么信息,遺忘門接收前一時(shí)刻的狀態(tài)ht-1與當(dāng)前輸入的樣本xt,并使用sigmoid函數(shù)輸出一個(gè)位于(0,1)之間的數(shù),實(shí)現(xiàn)對(duì)原有記憶信息進(jìn)行選擇性的保留和遺忘。該步驟的運(yùn)算式為:

        式中Wf和bf分別為權(quán)重矩陣與偏置向量,表示向量的拼接運(yùn)算,為sigmoid函數(shù)。

        在前一時(shí)刻的狀態(tài)ht-1與當(dāng)前輸入的樣本xt經(jīng)過(guò)遺忘門后,下一步需要決定讓多少新的信息被存儲(chǔ)進(jìn)Cell狀態(tài)中。這一過(guò)程分為兩步,首先是使用遺忘門來(lái)決定哪些信息需要被更新,即獲得圖1所示的it;其次是使用一個(gè)tanh層生成用于Cell狀態(tài)更新的備選向量接下來(lái),Cell新的狀態(tài)將由通過(guò)遺忘門的信息與通過(guò)輸入門的信息相加來(lái)獲得。整個(gè)過(guò)程可以被表達(dá)為如下的算式:

        式中的?表示對(duì)向量按元素進(jìn)行相乘的運(yùn)算。

        LSTM Cell最終的輸出是Ct過(guò)濾后信息,首先由輸出門來(lái)確定Cell中哪些信息將被輸出,即獲得一個(gè)過(guò)濾模板Ot,然后將通過(guò)tanh激活的Ct與Ot相乘獲得最終輸出ht。整個(gè)過(guò)程可表達(dá)為如下的算式:

        盡管直接使用LSTM作為Decoder即可實(shí)現(xiàn)對(duì)圖像描述的生成,但是語(yǔ)言描述生成時(shí)采用的是按序列逐詞生成的方式,這些詞與圖像中的內(nèi)容應(yīng)具有很強(qiáng)的圖-文相關(guān)性,但是從整幅圖像中提取的特征會(huì)引入不必要的噪聲,增強(qiáng)了圖像特征的語(yǔ)意模糊性。反之,若能夠生成的詞語(yǔ)找到圖像中的對(duì)應(yīng)的區(qū)域,再提取特征則可以增強(qiáng)圖像特征的表達(dá)能力。這種在圖像特征提取取對(duì)圖像不同區(qū)域施加不同權(quán)重的策略即為注意力機(jī)制。圖像的注意力機(jī)制應(yīng)滿足=1的條件,即圖中的各像素點(diǎn)的權(quán)重αp,t的和應(yīng)為1,p指代像素點(diǎn)位置。

        本文的注意力網(wǎng)絡(luò)接收Encoder網(wǎng)絡(luò)生成的特征圖后,首先將使用扁平化運(yùn)算將其變形為N×14×14×2048維的向量,然后通過(guò)由三層全連結(jié)層、一層ReLU激活層和一層Softmax層構(gòu)成的網(wǎng)絡(luò)。Softmax層的輸出即為獲得的注意力權(quán)重。

        獲得權(quán)重后,在描述句子的生成中的每一步中,都需要使用注意力網(wǎng)絡(luò)根據(jù)Encoder生成的特征圖與LSTM前一步的狀態(tài)ht-1計(jì)算每個(gè)像素的權(quán)重,然后再根據(jù)LSTM前一步生成的單詞與當(dāng)前加權(quán)的特征圖生成下一個(gè)單詞。完整的圖像描述生成模型如圖2所示。

        圖2本文基于注意力機(jī)制引導(dǎo)的圖像描述生成模型

        3 實(shí)驗(yàn)

        為了驗(yàn)證本文基于注意力機(jī)制引導(dǎo)的圖像描述生成模型的有效性,在MSCOCO(Microsoft Common Objects in Context)2014數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。MSCOCO2014數(shù)據(jù)集為每張圖像提供了至少5個(gè)文字描述句子,而且已經(jīng)作了訓(xùn)練集、驗(yàn)證集、測(cè)試集的劃分,其中分別包含113287、5000、5000張圖像。本文僅在訓(xùn)練集上對(duì)模型進(jìn)行訓(xùn)練,并在測(cè)試集上進(jìn)行圖像描述句子的生成,采用人工觀測(cè)圖像描述進(jìn)行評(píng)價(jià),未引入客觀量化評(píng)分標(biāo)準(zhǔn)。

        在實(shí)驗(yàn)中單詞嵌入維度為512維,由于訓(xùn)練集中圖像描述句子中單詞數(shù)量長(zhǎng)短不一,為了使輸入的序列具有相同的長(zhǎng)度,在對(duì)各個(gè)句子按單詞數(shù)量降序后進(jìn)行了填補(bǔ)。在LSTM與注意力網(wǎng)絡(luò)中設(shè)置隱藏層與Softmax輸出的維度均為512維。在訓(xùn)練時(shí)設(shè)置Encoder與Decoder模型的優(yōu)化器均為Adam,初始學(xué)習(xí)率分別為0.0001與0.0005,并每隔20個(gè)epoch進(jìn)行0.9倍的衰減。此外,實(shí)驗(yàn)中取批次大小為32,訓(xùn)練最大epoch數(shù)為120。模型使用Ubuntu環(huán)境下的PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn),采用NVIDIA GTX 1080顯卡進(jìn)行硬件加速。

        圖3給出本文模型在測(cè)試集上獲得的圖像描述生成結(jié)果,從圖中可以看出訓(xùn)練后的模型能夠生成比較流暢的文本描述,語(yǔ)句的結(jié)構(gòu)比較完整,與圖中內(nèi)容也比較匹配吻合。

        圖3

        4 結(jié)語(yǔ)

        本文提出了基于注意力機(jī)制引導(dǎo)的圖像描述生成算法。模型使用深度卷積神經(jīng)網(wǎng)絡(luò)作為圖像特征的提取器,在獲得圖像的特征圖后使用LSTM語(yǔ)言模型來(lái)生成圖像描述,為了使生成的描述句子更為準(zhǔn)確,根據(jù)LSTM的輸出與特征圖計(jì)算了注意力權(quán)重,使得提取的特征具有更好的表達(dá)能力。在MSCOCO數(shù)據(jù)集上的實(shí)驗(yàn)表明本文模型能夠生成比較優(yōu)秀的文本描述。

        猜你喜歡
        特征信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        日本色偷偷| 在线观看成人无码中文av天堂| 卡一卡二卡三无人区| 亚洲一区日韩无码| 国产精品一区区三区六区t区| 一本色道久久亚洲精品| 亚洲一级av大片在线观看| 精品国产一品二品三品| 六月婷婷亚洲性色av蜜桃| 尤物在线精品视频| 精品丝袜人妻久久久久久| 一级午夜视频| 国产精品视频免费一区二区三区 | 国产v精品成人免费视频400条| 久久精品国产一区老色匹| 中文字幕亚洲欧美在线不卡| 夜夜揉揉日日人人青青| 久久久无码人妻精品一区 | 精品四虎免费观看国产高清| 亚洲最黄视频一区二区| 91久久精品美女高潮喷白浆| 国产熟女一区二区三区不卡| 日韩丰满少妇无码内射| 国产成人久久精品77777综合| 国产精品亚洲综合色区韩国| 亚洲国产国语对白在线观看| 国产精品美女久久久久av福利 | 亚洲综合一区二区三区在线观看 | av免费网址在线观看| 乌克兰少妇xxxx做受野外| 人人狠狠综合久久亚洲婷婷| 亚洲av噜噜狠狠蜜桃| 亚洲三级视频一区二区三区| 精品国产第一国产综合精品| 狠狠色婷婷久久一区二区| 亚洲综合精品在线观看中文字幕 | 久久精品夜色噜噜亚洲a∨| 免费无码一区二区三区蜜桃| 亚洲av无码一区二区三区在线| 亚洲一区sm无码| 少妇被爽到自拍高潮在线观看 |