亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ResNet和LSTM的圖像描述生成效果優(yōu)化研究

        2020-08-04 20:30:40岳毅然李霆鋒陳鑫銳李煜
        數(shù)碼世界 2020年7期
        關(guān)鍵詞:長(zhǎng)短期記憶網(wǎng)絡(luò)

        岳毅然 李霆鋒 陳鑫銳 李煜

        摘要:本文基于殘差網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò),利用AI Challenger圖像中文描述挑戰(zhàn)賽的數(shù)據(jù)集,借助前人的研究基礎(chǔ),對(duì)圖像描述模型的網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)進(jìn)行優(yōu)化和改進(jìn),并加以對(duì)比試驗(yàn),通過(guò)恰當(dāng)?shù)脑u(píng)價(jià)指標(biāo)探究模型網(wǎng)絡(luò)結(jié)構(gòu)對(duì)圖像語(yǔ)義信息處理和描述匹配生成效果的影響,為提升標(biāo)注準(zhǔn)確度、流暢度提供參考依據(jù)。

        關(guān)鍵詞:圖像描述? 深度殘差網(wǎng)絡(luò)? 長(zhǎng)短期記憶網(wǎng)絡(luò)

        前言

        近年來(lái),隨著深度學(xué)習(xí)在CV(Computer Vision,計(jì)算機(jī)視覺(jué))和NLP(Natural Language Processing,自然語(yǔ)言處理)領(lǐng)域的發(fā)展和智能科學(xué)技術(shù)的突破,深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)成為了人工智能領(lǐng)域的熱點(diǎn)話題。其中,深度殘差網(wǎng)絡(luò)(Deep Residual Networks,ResNet)是卷積神經(jīng)網(wǎng)絡(luò)模型算法中最典型、最成功的算法之一,它是應(yīng)用最為廣泛的特征提取網(wǎng)絡(luò),具有權(quán)值共享、稀疏連接、網(wǎng)絡(luò)結(jié)構(gòu)更類似于生物神經(jīng)網(wǎng)絡(luò)等特點(diǎn)。

        圖像描述——看圖說(shuō)話(Image Caption)任務(wù)是結(jié)合計(jì)算機(jī)視覺(jué)CV和自然語(yǔ)言處理NLP兩個(gè)領(lǐng)域的一種比較綜合的任務(wù),Image Caption模型的輸入是一幅圖像,輸出是對(duì)該幅圖像進(jìn)行描述的一段文字。這項(xiàng)任務(wù)要求模型可以識(shí)別圖片中的物體、理解物體間的關(guān)系,并用一句自然語(yǔ)言表達(dá)出來(lái)。圖像描述在搜索引擎優(yōu)化、自動(dòng)配字、視障輔助閱讀等廣泛領(lǐng)域有著較高的應(yīng)用價(jià)值。

        AI Challenger圖像中文描述挑戰(zhàn)賽數(shù)據(jù)集是目前規(guī)模最大、語(yǔ)言使用和場(chǎng)景最為豐富的圖片中文描述數(shù)據(jù)集,涵蓋了超過(guò)100種復(fù)雜生活場(chǎng)景的含有人物的二十萬(wàn)張帶有標(biāo)注處理的圖片,其場(chǎng)景復(fù)雜度、人物動(dòng)作復(fù)雜度、身體遮擋情況都高于現(xiàn)有的其他數(shù)據(jù)集;而且,此數(shù)據(jù)集的語(yǔ)言描述標(biāo)注更符合中文語(yǔ)言使用習(xí)慣。相對(duì)于Flickr8k-CN等傳統(tǒng)數(shù)據(jù)集,該數(shù)據(jù)集創(chuàng)新性的引入了中文成語(yǔ),用以修飾圖片中的主要人物及背景事件,大大提升了描述語(yǔ)句的豐富度。

        本文基于深度殘差網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)在圖像描述算法模型的應(yīng)用研究,對(duì)傳統(tǒng)的ResNet與LSTM模型進(jìn)行優(yōu)化,改進(jìn)圖片語(yǔ)義信息特征提取、描述語(yǔ)義數(shù)據(jù)的預(yù)處理效果,在AI Challenger圖像中文描述挑戰(zhàn)賽數(shù)據(jù)集上驗(yàn)證準(zhǔn)確率和有效性。本文主要從圖像信息處理、描述數(shù)據(jù)處理、語(yǔ)句生成三個(gè)部分進(jìn)行參數(shù)優(yōu)化和網(wǎng)絡(luò)結(jié)構(gòu)研究。對(duì)整體網(wǎng)絡(luò)的卷積核、層數(shù)、批大小、學(xué)習(xí)率、分詞模型等參數(shù)或結(jié)構(gòu)進(jìn)行優(yōu)化,并針對(duì)全連接層傳遞效率較低、干擾到卷積層提取出的局部特征、收斂速率較低等問(wèn)題,對(duì)傳統(tǒng)的ResNet模型進(jìn)行改進(jìn)。

        1 模型介紹

        本研究的模型基于文獻(xiàn)[1]的研究結(jié)果,輸入分為圖像和描述兩部分,圖片經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取全連接層的輸入(2048維的向量)然后利用全連接層轉(zhuǎn)化成256維的向量。由此將圖像的語(yǔ)意空間轉(zhuǎn)化到了詞向量的語(yǔ)意空間。描述經(jīng)過(guò)嵌入層(Embedding)轉(zhuǎn)化成256維的向量。而后將上述得到的256維向量拼接在一起,輸入LSTM中,計(jì)算每個(gè)詞的輸出,根據(jù)輸出進(jìn)行分類,預(yù)測(cè)下一個(gè)詞。完整的流程框架如圖1-1所示。

        數(shù)據(jù)的預(yù)處理主要分為圖像預(yù)處理和描述預(yù)處理兩部分。圖像預(yù)處理即提取圖像特征,將圖片輸入ResNet網(wǎng)絡(luò),將最后一層替換成一個(gè)恒等映射,獲得在池化層的輸出(即全連接層的輸入,2048維的向量)。

        2 實(shí)驗(yàn)過(guò)程與效果

        2.1圖片語(yǔ)義信息

        圖片語(yǔ)義信息部分中,我們分別使用三種層數(shù)的深度殘差網(wǎng)絡(luò):ResNet 50、ResNet 101、ResNet 150。其三者的基本結(jié)構(gòu)如圖2-1所示。

        在修改與調(diào)整中,控制變量訓(xùn)練批次大?。╡poch)為20,更改采用的模型以及對(duì)應(yīng)的參數(shù)和維度量等,其他保持不變,樣例如圖2-2所示。實(shí)驗(yàn)表明,本文使用深度殘差網(wǎng)絡(luò)解決了增加深度而帶來(lái)的退化問(wèn)題,從而使增加網(wǎng)絡(luò)深度后的網(wǎng)絡(luò)性能顯著提高。隨著層數(shù)的增加,圖片特征提取效果逐漸上升,語(yǔ)句生成更加順暢、貼合實(shí)際。

        2.2描述數(shù)據(jù)處理

        在描述數(shù)據(jù)的預(yù)處理部分,本文通過(guò)優(yōu)化描述數(shù)據(jù)處理步驟中的參數(shù),優(yōu)化得到的caption.pth,減少模型訓(xùn)練時(shí)間和不必要的計(jì)算。主要方式有以下幾種:

        (1)丟棄低頻詞(如圖2-3所示):估算得到高頻詞與低頻詞分界公式,將min_appear定為10,減小word2ix,減少訓(xùn)練時(shí)間。

        (2)詞語(yǔ)長(zhǎng)度限制:為保證整體效率,本文選擇丟棄長(zhǎng)度過(guò)長(zhǎng)的詞組。

        (3)padding平均化句長(zhǎng):將不同長(zhǎng)度的句子變成同樣長(zhǎng)度,設(shè)置max_length為30,更加貼合實(shí)際需要。

        (4)用pack padded sequence函數(shù)對(duì)padding后的序列進(jìn)行操作(如圖2-4所示):經(jīng)過(guò)padding操作序列中與許多空白填充值,在計(jì)算RNN隱藏元時(shí)也會(huì)進(jìn)行不必要的計(jì)算,更可能會(huì)影響隱藏元的取值。于是針對(duì)不同長(zhǎng)度的句子,我們按長(zhǎng)度進(jìn)行排序并記錄每個(gè)句子長(zhǎng)短。對(duì)不同的句子,padding成一樣的長(zhǎng)度。將上一步的Variable和樣本長(zhǎng)度輸入pack padded sequence函數(shù),會(huì)輸出一個(gè)Packed Sequence對(duì)象,這個(gè)對(duì)象即可輸入到LSTM模型中。

        經(jīng)過(guò)實(shí)驗(yàn),我們發(fā)現(xiàn)描述數(shù)據(jù)處理的優(yōu)化對(duì)實(shí)驗(yàn)結(jié)果沒(méi)有顯著的影響,但是減少了不必要的計(jì)算,減少了大量模型的訓(xùn)練時(shí)間。

        2.3模型訓(xùn)練與描述生成

        描述語(yǔ)句的生成部分本文選取了一個(gè)RNN網(wǎng)絡(luò),模型中的組成成分有兩個(gè)全連接(linear)層:一個(gè)嵌入(embedding)層和一個(gè)LSTM(RNN)層。其中,LSTM層是Image Caption問(wèn)題中典型的decoder,用于解碼和生成詞序列。本文在保證收斂性的情況下,保持最佳學(xué)習(xí)率,調(diào)節(jié)了優(yōu)化器的種類,以獲取正確的語(yǔ)句生成效果和更快的訓(xùn)練速度。樣例如圖2-5所示。

        3 結(jié)論

        通過(guò)對(duì)上述實(shí)驗(yàn)數(shù)據(jù)的整理分析,結(jié)合相關(guān)文獻(xiàn)材料,我們以圖像描述為主體,探索了包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度殘差網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)等多種模型的結(jié)構(gòu)及其參數(shù)調(diào)整,對(duì)圖像描述生成的圖像信息預(yù)處理、描述數(shù)據(jù)預(yù)處理和訓(xùn)練模型等方面進(jìn)行了簡(jiǎn)單優(yōu)化。同時(shí),本文僅僅是針對(duì)網(wǎng)絡(luò)中的部分簡(jiǎn)單參數(shù)和結(jié)構(gòu)進(jìn)行了小范圍調(diào)整,由于作者水平有限資歷尚淺,本項(xiàng)目的研究時(shí)間較短,諸如局部最優(yōu)、多模型效果對(duì)比、優(yōu)化收斂、深度降維等各方面尚未涉獵到,相信能夠在日后的研究中進(jìn)一步探索深度學(xué)習(xí)的奧秘。

        參考文獻(xiàn)

        [1]劉國(guó)鈞,陳紹業(yè). 深度學(xué)習(xí)框架PyTorch:入門(mén)與實(shí)踐[M].北京:電子工業(yè)出版社,2018:260-281.

        [2] Mao J , Xu W . Explain Images with Multimodal Recurrent Neural Networks[J]. Computer Science, 2014.

        [3] Karpathy A , Li F F . Deep visual-semantic alignments for generating image descriptions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015.

        [4] Vinyals O , Toshev A , Bengio S , et al. Show and Tell: A Neural Image Caption Generator[J]. 2014.

        [5] Vinyals O , Toshev A , Bengio S , et al. Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016.

        作者簡(jiǎn)介

        岳毅然(2000年8月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級(jí)學(xué)生,研究方向:智能科學(xué)與技術(shù)、數(shù)據(jù)科學(xué)。李霆鋒(2000年3月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級(jí)學(xué)生,研究方向:智能科學(xué)與技術(shù)。陳鑫銳(2000年7月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級(jí)學(xué)生,研究方向:智能科學(xué)與技術(shù)。李煜(2000年3月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級(jí)學(xué)生,研究方向:智能科學(xué)與技術(shù)。

        猜你喜歡
        長(zhǎng)短期記憶網(wǎng)絡(luò)
        基于深度學(xué)習(xí)的電子病歷實(shí)體標(biāo)準(zhǔn)化
        基于深度學(xué)習(xí)的電子病歷命名實(shí)體識(shí)別的研究與實(shí)現(xiàn)
        軟件(2019年8期)2019-10-08 11:55:52
        基于長(zhǎng)短期記憶的車輛行為動(dòng)態(tài)識(shí)別網(wǎng)絡(luò)
        基于層次注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模型的虛假評(píng)論識(shí)別
        基于多注意力多尺度特征融合的圖像描述生成算法
        基于注意力機(jī)制的行人軌跡預(yù)測(cè)生成模型
        從餐館評(píng)論中提取方面術(shù)語(yǔ)
        多種算法對(duì)不同中文文本分類效果比較研究
        LSTM—RBM—NMS模型下的視頻人臉檢測(cè)方法研究
        餐飲業(yè)客流預(yù)測(cè)的深度聯(lián)合模型
        商情(2018年47期)2018-11-26 09:12:38
        亚洲精品一品二品av| 日韩高清在线观看永久| 99精品视频69V精品视频| 国产一区二区三精品久久久无广告| 国产精品6| 午夜人妻中文字幕福利| 久久国产精品精品国产色| 国产性自爱拍偷在在线播放| 国产二级一片内射视频插放| 国产第19页精品| 亚洲无码图| 伊人狼人影院在线视频| 久久天堂精品一区二区三区四区| 蜜臀色欲av在线播放国产日韩| 亚洲永久无码7777kkk| 99久久国产综合精品女乱人伦| 国产黄片一区视频在线观看| 亚洲一区二区三区av天堂| 成人免费av色资源日日| 日本熟妇人妻xxxx| 日韩精品无码中文字幕电影| 免费特级黄毛片| 久久亚洲精彩无码天堂 | 久久久av波多野一区二区 | 国产精品美女主播一区二区| 亚洲av无码一区东京热| 麻豆成人精品国产免费| 精品 无码 国产观看| 亚洲一区二区三区1区2区| www国产亚洲精品久久麻豆| 日本丰满熟妇videossex8k| 国产精品麻豆成人AV电影艾秋| 冲田杏梨av天堂一区二区三区| 日韩少妇人妻中文字幕| 天天躁日日躁狠狠躁av| 精品久久杨幂国产杨幂| 日韩av中文字幕少妇精品| 精品高朝久久久久9999| 国外精品视频在线观看免费| 久久国产精品老人性| 中文字幕av熟女中文av|