亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖像描述技術(shù)綜述

        2020-09-10 08:57:08吳小雪張慶輝
        關(guān)鍵詞:深度學(xué)習(xí)

        吳小雪 張慶輝

        摘要:圖像描述技術(shù)的出現(xiàn)滿(mǎn)足了人們追求的使計(jì)算機(jī)描述圖像的愿望,但關(guān)于這方面的研究目前還處于初級(jí)階段。介紹了圖片描述技術(shù)的發(fā)展,分析了早期圖像描述技術(shù)的短板,指出了深度學(xué)習(xí)應(yīng)用與圖像描述。詳細(xì)介紹了圖像描述的模型及發(fā)展,引出注意力機(jī)制與高層語(yǔ)義關(guān)系對(duì)圖像描述的改進(jìn)。

        關(guān)鍵詞:深度學(xué)習(xí);圖像描述;RNN;注意力機(jī)制;語(yǔ)義提取

        一、引言

        圖像描述,是指計(jì)算機(jī)根據(jù)輸入圖片內(nèi)容,自動(dòng)的對(duì)圖片生產(chǎn)一段描述性文字。對(duì)于人來(lái)說(shuō),完成圖像描述是簡(jiǎn)單而自然的事情,但對(duì)于計(jì)算機(jī)而言,要實(shí)現(xiàn)該操作主要面臨三個(gè)步驟:1)對(duì)圖像進(jìn)行目標(biāo)檢測(cè),獲得圖片中需要描述的物體;2)理解不同目標(biāo)之間的語(yǔ)義關(guān)系;3)使用合理的語(yǔ)言描述出物體之間的關(guān)系,這需要將計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理結(jié)合起來(lái)。

        傳統(tǒng)的圖像內(nèi)容描述方法可以分為兩類(lèi):基于模板的方法[1,2]和基于探索[3]的方法。但由于模板固定,靈活性較低,且嚴(yán)重依賴(lài)訓(xùn)練庫(kù)中的數(shù)據(jù),因此被逐漸舍棄。深度學(xué)習(xí)的出現(xiàn)為圖像描述問(wèn)題注入了新的活力,使用深度學(xué)習(xí)方法代替?zhèn)鹘y(tǒng)的圖片描述方法已經(jīng)取得了當(dāng)前在圖片描述問(wèn)題上的最佳結(jié)果。其中,基于CNN+LSTM的模型是深度學(xué)習(xí)描述圖片的主流模型,它最早是由Karpathy[4]提出的,其輸入經(jīng)CNN獲取圖像的特征,然后將生成的特征向量輸入到一個(gè)雙向的RNN中產(chǎn)生圖像描述語(yǔ)句,隨后,F(xiàn)ang[5]等結(jié)合最大熵語(yǔ)言模型和深度多模相似網(wǎng)生成圖像內(nèi)容描述語(yǔ)句,該模型先檢測(cè)出圖像中的屬性信息,然后利用屬性信息替代原始圖像信息輸入到LSTM中產(chǎn)生描述語(yǔ)句。

        二、圖像描述模型

        神經(jīng)網(wǎng)絡(luò)在圖像描述上的應(yīng)用離不開(kāi)RNN的E-D結(jié)構(gòu)。且隨著圖像識(shí)別技術(shù)的發(fā)展,各種新的結(jié)構(gòu)模型層出不窮。本節(jié)就E-D做出簡(jiǎn)要介紹,并描述目前圖像識(shí)別技術(shù)所涉及的最新模型。

        (一)Encoder-Decoder結(jié)構(gòu)

        在原始的RNN結(jié)構(gòu)中,輸入序列和輸出序列必須是嚴(yán)格等長(zhǎng)的,但在機(jī)器翻譯等任務(wù)中,源語(yǔ)言句子和目標(biāo)語(yǔ)言句子的長(zhǎng)度往往不同,因此需要將原始映射為一個(gè)不同長(zhǎng)度的序列。而Encoder-Decoder(E-D)模型的提出正是為了解決這樣一個(gè)長(zhǎng)度不一致的映射問(wèn)題。

        將E-D結(jié)構(gòu)應(yīng)用到圖像描述中,由于輸入是圖像,為了獲取圖像的特征向量,將原先的E RNN換成CNN,并將原先用于D的RNN換成了性能更好的LSTM,已解決RNN可能存在的梯度消失問(wèn)題,并擴(kuò)展模型的記憶能力。改進(jìn)的模型如圖,具體的做法是通過(guò)預(yù)訓(xùn)練的InceptionNet網(wǎng)絡(luò)提取圖像的特征,然后將softmax前一層的數(shù)據(jù)作為圖像編碼過(guò)后的特征,傳入LSTM解碼獲取目標(biāo)文字。

        (二)注意力模型

        沒(méi)有引入注意力的模型在輸入特征較少時(shí)性能較好,但當(dāng)輸入圖片的特征多,圖片表示的目標(biāo)類(lèi)別復(fù)雜時(shí),便會(huì)丟失很多細(xì)節(jié)信息。針對(duì)翻譯精度下降問(wèn)題,研究人員在已有模型的基礎(chǔ)上提出了注意力機(jī)制,總結(jié)來(lái)說(shuō)就是不再使用統(tǒng)一的語(yǔ)義特征,而讓D在輸入序列中自由選取需要的特征,從而大大提高E-D模型性能。引入注意力的框架仍使用CNN的空間特性給圖片的不同位置都提取一個(gè)特征,在獲得數(shù)量可觀的特征后,再讓D在解碼時(shí)擁有選擇特征的能力。在計(jì)算注意力時(shí)引入一個(gè)系數(shù)矩陣,用來(lái)表示注意力對(duì)于不同的輸出值的注意力分配概率分布信息,用表示,用表示CNN提取的圖像特征,設(shè)在第t階段傳入Decoder的向量是,LSTM前一時(shí)刻的隱層狀態(tài)為。則與a及的關(guān)系可以表示為(1)

        (三)加入高層語(yǔ)義特征后的模型

        除了使用注意力機(jī)制改善E-D結(jié)構(gòu)外,還可以通過(guò)使用高層語(yǔ)義特征來(lái)改進(jìn)原始模型。有研究人員認(rèn)為,高層語(yǔ)義關(guān)系與最終生成的語(yǔ)句非常相關(guān),不能輕易舍棄??梢园迅邔诱Z(yǔ)義理解為一個(gè)多標(biāo)簽分類(lèi)問(wèn)題,由于圖片與標(biāo)簽間可能存在一對(duì)一、一對(duì)多的關(guān)系,在新的模型中,對(duì)于一對(duì)一關(guān)系的卷積層后使用一個(gè)softmax,對(duì)于一對(duì)多的關(guān)系則使用多個(gè)softmax對(duì)應(yīng)多個(gè)標(biāo)簽。訓(xùn)練時(shí),首先在所有描述中提取出現(xiàn)最頻繁的c個(gè)單詞作為總標(biāo)簽數(shù),每個(gè)圖像的訓(xùn)練數(shù)據(jù)直接從其描述單詞中取得,訓(xùn)練完成后,針對(duì)每張圖片提取相應(yīng)的高層語(yǔ)義表達(dá)向量,然后經(jīng)過(guò)最大池化輸入到LSTM中用于描述生成。

        三、總結(jié)與展望

        圖像描述技術(shù)是機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺(jué)及自然語(yǔ)言領(lǐng)域結(jié)合的產(chǎn)物,在今后一段時(shí)間都將是人工智能領(lǐng)域研究的熱點(diǎn)問(wèn)題。本文重點(diǎn)介紹了當(dāng)前圖片描述技術(shù)所應(yīng)用的最新框架及原理。作為一種新興的技術(shù),圖片描述技術(shù)為科研人員提供了許多新的啟發(fā),如在未來(lái)機(jī)器學(xué)習(xí)的研究中,可以用語(yǔ)音描述圖片,在機(jī)器學(xué)習(xí)不同領(lǐng)域的交界處探索以期迸發(fā)出新的火花??偠灾?,圖像描述技術(shù)目前還處于發(fā)展初期,在未來(lái)的研究中還有更多的路值得我們?nèi)ヌ剿鳌?/p>

        參考文獻(xiàn):

        [1] Kulkarni G, Premraj V, Ordonez V, et al. BabyTalk: Understanding and Generating Simple Image Descriptions[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(12):2891-2903.

        [2] Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C] Fifteenth Conference on Computational Natural Language Learning. 2011.

        [3] Kuznetsova P , Ordonez V , Berg A C , et al. Collective generation of natural image descriptions[C] Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers - Volume 1. Association for Computational Linguistics, 2012.

        [4] Karpathy A, Feifei L. Deep Visual-Semantic Alignments for Generating Image Descriptions.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 39(4):664-676.

        [5] Fang H , Gupta S , Iandola F , et al. From Captions to Visual Concepts and Back[J]. 2014.

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
        搭建深度學(xué)習(xí)的三級(jí)階梯
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        亚洲av无码乱码国产精品久久| 亚洲一区精品一区在线观看| 午夜视频在线观看日本| 国产乱人伦偷精品视频免观看| 巨胸喷奶水www视频网站| a级国产乱理伦片| 51久久国产露脸精品国产| 午夜短无码| 亚洲不卡高清av在线| 公和我做好爽添厨房| 开心五月激情综合婷婷| 亚洲AV无码一区二区二三区我| 精品少妇一区二区三区四区| 职场出轨的人妻中文字幕| 欧美性巨大╳╳╳╳╳高跟鞋| 国产精品麻豆成人AV电影艾秋| 国内专区一区二区三区| 一本色道久久88加勒比一| 亚洲av无码xxx麻豆艾秋| 在线精品无码一区二区三区| 蜜桃一区二区三区在线视频| 国产精品亚洲一区二区三区| 免费无码av一区二区| 欧美午夜一区二区福利视频| 蜜桃成人永久免费av大| 开心久久综合婷婷九月| 国产一区二区女内射| 国产综合自拍| 第九色区Aⅴ天堂| 亚洲av高清不卡免费在线| 午夜免费福利小电影| 伊伊人成亚洲综合人网香| 亚洲成人中文| 亚洲欧美国产精品久久久| 深夜黄色刺激影片在线免费观看| 国产精品毛片一区二区三区| 欧洲人妻丰满av无码久久不卡| 国产一级黄色录像| 99久久精品人妻一区二区三区| 少妇被粗大的猛进出69影院| 无码国产精品一区二区免费16|