亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于IndRNN 與BN 的深層圖像描述模型

        2021-10-15 10:08:24曹渝昆魏健強
        計算機工程 2021年10期
        關(guān)鍵詞:深度效果模型

        曹渝昆,魏健強,孫 濤,徐 越

        (上海電力大學(xué)計算機科學(xué)與技術(shù)學(xué)院,上海 201306)

        0 概述

        圖像描述是指通過分析輸入圖像來生成恰當?shù)年P(guān)于圖像內(nèi)容的文字描述[1],可應(yīng)用于圖像檢索、機器人問答、兒童輔助教育、導(dǎo)盲等多個領(lǐng)域,對圖像描述進行研究具有重要的現(xiàn)實意義[2]。

        目前,主流圖像描述框架以基于深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]為主。RNN 一般由LSTM(Long-Short Term Memory)單元構(gòu)成,由于其使用sigmoid 等飽和激活函數(shù),使得網(wǎng)絡(luò)在訓(xùn)練過程中收斂較慢,并存在層間梯度消失等問題,導(dǎo)致無法使用LSTM 單元構(gòu)建一個深層網(wǎng)絡(luò)模型。因此,由上述單元構(gòu)成的模型性能有限,生成的描述語句缺乏豐富性與連貫性,需要構(gòu)建一個深層次的解碼端網(wǎng)絡(luò),使用正確的模型訓(xùn)練和優(yōu)化方法,使得語言生成模型具有更好的擬合能力與訓(xùn)練效果。

        本文提出一種深度圖像描述模型Deep-NIC。在Deep-NIC 中,編碼端由inception V3[5]提取圖像特征,解碼端由7 層解碼單元構(gòu)成,每個解碼單元包含IndRNN 層[6]和BN 層[7]。通過IndRNN 來有效避免層間梯度消失問題,利用BN 方法提升訓(xùn)練效率同時避免過擬合問題,在此基礎(chǔ)上,構(gòu)建深層解碼端來提升模型的擬合效果。

        1 相關(guān)工作

        圖像描述是一個綜合性任務(wù),涉及計算機視覺與自然語言處理兩大方面,近年來受到國內(nèi)外眾多研究人員的關(guān)注。圖像描述在提出初期,主要依靠固定模板:首先利用有效的算子提取圖像特征;然后通過機器學(xué)習(xí)中的分類算法進行分類,從而得到圖像中可能存在的目標;最后使用得到的目標及相關(guān)屬性,結(jié)合條件隨機場(CRF)或者特定的規(guī)則來生成圖像描述。文獻[8-9]等都是利用上述方法進行圖像描述,但是,這種基于固定模板的方法存在很大局限性,原因是這種方法在很大程度上依賴于圖像特征的提取和生成句子時的規(guī)則。

        現(xiàn)階段的主流模型基本采用編碼-解碼(encoderdecoder)框架來完成圖像描述。將機器翻譯中提取文字特征的RNN 部分替換為CNN 的相關(guān)深度模型,如Inception Net、VGGNet等,而在解碼端,使用RNN 接受CNN 網(wǎng)絡(luò)提取出的特征向量,其中,RNN 可以使用LSTM、GRU 等代替,這樣可以獲得更好的記憶效果。

        谷歌公司在文獻[10]中首先提出基于編碼-解碼框架的圖像描述模型,隨后的圖像描述模型幾乎都沿用了這個基本框架,并在此基礎(chǔ)上對編碼端和解碼端進行改進。

        在編碼端,圖像特征的提取效果直接影響所生成文字序列的質(zhì)量,進而影響整個圖像描述模型所生成語言的效果。基線模型NIC 采用谷歌的inception V3[5]提取圖像高級特征,文獻[11]采用VGG16 作為圖像編碼器提取圖像的低級局部特征,并在訓(xùn)練過程中加入attention 結(jié)構(gòu),使得提取出來的多個低級局部特征在生成語言時和指定單詞進行權(quán)重匹配,進而提升整個模型的描述效果。

        解碼端主要生成語言序列,其決定了語言表達的準確性。在獲取圖像特征后,利用圖像的特征向量生成符合人類表述方式的語言將成為整個任務(wù)的關(guān)鍵部分。深度神經(jīng)網(wǎng)絡(luò)在目標識別[12]、圖像分類[13]等任務(wù)中效果良好,但隨著網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)訓(xùn)練效果降低[14],即準確率增長速度會趨于飽和并出現(xiàn)下降[15],HE 等[16]提出的殘差網(wǎng)絡(luò)(Residual Learning Network,ResNet)有效地解決了網(wǎng)絡(luò)退化問題。但是,在實驗分析中發(fā)現(xiàn),上述研究仍有不足,如LSTM 面對長序列時收斂速度較慢,此外,由于深層模型層間梯度消失問題嚴重,導(dǎo)致無法多層疊加,使得所生成的句子描述效果欠佳。

        隨著對抗學(xué)習(xí)以及強化學(xué)習(xí)方法的逐漸普及,圖像描述領(lǐng)域也誕生出一些新的模型訓(xùn)練方法。文獻[17]使用對抗學(xué)習(xí)的思想,使得圖像和描述內(nèi)容之間關(guān)聯(lián)更加密切。文獻[18]提出一種強化學(xué)習(xí)訓(xùn)練策略,提升了模型的訓(xùn)練效果。此外,新的圖像描述模型評測方法的提出也對該領(lǐng)域的發(fā)展起到重要作用。文獻[19]提出新的度量指標,為評測描述語言多樣性方面作出了貢獻。文獻[20]通過加入噪聲的方式來檢測圖像描述系統(tǒng)的魯棒性。

        2 技術(shù)描述

        本文提出一種Deep-NIC 模型,該模型是在基線模型NIC 上的改進。在編碼端使用inception V3 模型獲取圖像的高級特征;在解碼端采用7 層解碼單元構(gòu)成深層解碼端(Deep Decoder),解碼單元由IndRNN 層和BN 層構(gòu)建;詞嵌入使用word2vec。圖1 所示為Deep-NIC 模型整體結(jié)構(gòu)。

        圖1 Deep-NIC 模型結(jié)構(gòu)Fig.1 Deep-NIC model structure

        2.1 圖像特征提取模型

        inception V3 是一款圖像識別模型,其主要使用多個不同尺度大小的卷積核和池化層進行深層疊加,從而達到提取圖像高級特征的目的。相較于上一代inception 模型,inception V3 采用多個小卷積核代替單個大卷積核,大幅減少了卷積運算的特征數(shù)量。同時,inception V3 將對應(yīng)尺度的卷積操作和池化操作堆疊到一起,在增加網(wǎng)絡(luò)寬度的同時也提升了網(wǎng)絡(luò)對圖片尺度的適應(yīng)性。

        本文采用預(yù)訓(xùn)練好的inception V3 模型作為圖片編碼器,將輸入的圖片編碼為512 維的特征向量,再輸入后續(xù)的語言生成模型中進行解碼。

        2.2 深層次語言生成模型

        深層次網(wǎng)絡(luò)具有更好的擬合效果,但是,僅僅簡單地疊加網(wǎng)絡(luò)層數(shù)會因網(wǎng)絡(luò)難以訓(xùn)練而無法收斂。同時,隨著網(wǎng)絡(luò)深度的疊加,收斂過慢、過擬合等問題突顯,因此,需要一種合理的深層網(wǎng)絡(luò)結(jié)構(gòu)。本文采用IndRNN 作為整個深層解碼端的基礎(chǔ)計算單元,結(jié)合BN 方法共同構(gòu)建一個高效的深層神經(jīng)網(wǎng)絡(luò)。

        2.2.1 獨立循環(huán)神經(jīng)網(wǎng)絡(luò)

        獨立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN)是對RNN 的一種改進,其采用哈達瑪積替代傳統(tǒng)的矩陣乘法,使用非飽和激活函數(shù)ReLU 替代sigmoid 等飽和激活函數(shù),因此,IndRNN 在處理長序列任務(wù)和面對層間梯度消失問題時具有良好表現(xiàn)。IndRNN 的計算公式表示為:

        第n個神經(jīng)元的計算方式為:

        和傳統(tǒng)RNN 以及LSTM 相比,IndRNN 在權(quán)重系數(shù)的計算方面做了調(diào)整,將權(quán)重矩陣U替換為獨立的權(quán)重向量u。在式(1)中,⊙表示矩陣元素積。在t時刻,每個神經(jīng)元只接受此刻的輸入以及t?1 時刻自身的狀態(tài)作為輸入。

        IndRNN 中的每個神經(jīng)元都可以獨立地處理自身的輸出,不再受上一時刻其他神經(jīng)元的影響,因此,在面對更長的時間序列時,也不會出現(xiàn)模型難以收斂的問題。此外,非飽和激活函數(shù)能夠避免深層網(wǎng)絡(luò)的層間梯度消失問題,使得IndRNN 單元可以有效構(gòu)建深層次的網(wǎng)絡(luò)結(jié)構(gòu)。

        2.2.2 批標準化

        批標準化(BN)常用于優(yōu)化深度神經(jīng)網(wǎng)絡(luò),其在提升訓(xùn)練速度的同時也在一定程度上放寬了對調(diào)參的要求。此外,BN 還可以起到類似于dropout 一樣的正則化效果,防止模型過擬合。BN 操作流程具體如下:

        1)批次均值(m為批次大?。?/p>

        2)批次方差:

        3)歸一化:

        4)縮放和平移:

        在訓(xùn)練過程中,BN 處理每一個mini-batch 數(shù)據(jù),使之服從N(0,1)的正態(tài)分布,從而減少內(nèi)部神經(jīng)元分布的改變。BN 結(jié)構(gòu)如圖2 所示。

        圖2 BN 結(jié)構(gòu)Fig.2 BN structure

        在傳統(tǒng)訓(xùn)練方法中,每個批次的數(shù)據(jù)分布不盡相同,因此,訓(xùn)練難度較高,通常通過減小學(xué)習(xí)率的方式使模型收斂,這會導(dǎo)致模型的訓(xùn)練效果在極大程度上受制于學(xué)習(xí)率。此外,過小的學(xué)習(xí)率還會導(dǎo)致模型收斂過慢、訓(xùn)練效率低下。在BN 中,一方面可以選用較大的學(xué)習(xí)率來加快模型收斂并提升訓(xùn)練效率,另一方面可以起到正則化作用,從而取消dropout并簡化網(wǎng)絡(luò)結(jié)構(gòu)。

        2.2.3 解碼單元

        為了構(gòu)建一個深層、有良好收斂效果的解碼端結(jié)構(gòu),本文模型使用IndRNN 與BN 來構(gòu)建深層網(wǎng)絡(luò)結(jié)構(gòu)解碼單元。在IndRNN 單元中,神經(jīng)元之間的相互連接依賴層間交互來完成,下一層的神將元會接受上一層所有神經(jīng)元的輸出作為輸入(相當于全連接層),并使用BN 層來起到加速網(wǎng)絡(luò)收斂、防止網(wǎng)絡(luò)過擬合等效果。

        數(shù)據(jù)在IndRNN多層結(jié)構(gòu)之間的傳遞通過如下方式:

        因此,IndRNN 可構(gòu)建深層結(jié)構(gòu)。

        此外,通過在每層循環(huán)神經(jīng)元之后連接BN 層,從而“規(guī)范化”神經(jīng)元的輸出,起到優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)的作用。因此,本文采用IndRNN+BN 的方式構(gòu)建解碼單元。

        在每個解碼單元中,第一層由512 個IndRNN 單元構(gòu)成,第二層是BN 層,兩層之間采用全連接方式,且BN 層的輸出為512 維向量。深層解碼端由7 層解碼單元構(gòu)成,每層解碼單元都將數(shù)據(jù)進行規(guī)范化后傳入下一層解碼單元。深層解碼端的具體結(jié)構(gòu)如圖3 所示。

        圖3 深層解碼端模型結(jié)構(gòu)Fig.3 Deep decoder model structure

        2.2.4 詞編碼

        詞編碼部分使用woed2vec 進行映射,使用MS COCO2014 數(shù)據(jù)集中的圖像描述語句對其實現(xiàn)預(yù)訓(xùn)練。

        3 實驗驗證

        本節(jié)首先通過加法實驗對IndRNN 與常用循環(huán)神經(jīng)元進行性能對比,以驗證IndRNN 在面對長序列、深層次網(wǎng)絡(luò)時的性能表現(xiàn);然后分別使用IndRNN、LSTM和GRU 單元搭建不同結(jié)構(gòu)的解碼端,在完成整個圖像描述模型的訓(xùn)練后,使用BLEU、METEOR、CIDER 等評分標準進行比較;最后使用本文解碼單元構(gòu)成深層解碼端,并結(jié)合編碼端共同構(gòu)建圖像描述模型,通過深度消融實驗,選擇效果最優(yōu)的解碼端網(wǎng)絡(luò)深度(7 層),驗證具有深層解碼端的圖像描述模型在訓(xùn)練效率和整體評分方面的性能表現(xiàn)。

        3.1 神經(jīng)元性能對比

        實驗通過加法問題[21]將IndRNN 單元與常用循環(huán)神經(jīng)元RNN、LSTM 進行性能對比。在加法任務(wù)中,向模型輸入2 個長度為T的序列,第一個序列是一串在(0,1)之間均勻采樣的數(shù)字,第二個序列是一串同等長度、其中只有2 個數(shù)字為1 而其余為0 的數(shù)字,要求找到第一個序列中對應(yīng)第二個序列中為1的2 個數(shù)字的位置,并將第一個序列對應(yīng)位置上的數(shù)字求和輸出。

        在此次實驗中,分別采用不同的網(wǎng)絡(luò)單元,將IndRNN、LSTM、RNN 進行對比(GRU 和LSTM 效果相近,沒有展示)。損失函數(shù)使用MSE(Mean Square Error),優(yōu)化器采用Adam,時間序列長度分別使用T=100、T=500 的步長,IndRNN、LSTM、RNN 的具體收斂效果如圖4 所示。

        圖4 神經(jīng)元在不同步長下的收斂效果Fig.4 Convergence effect of neurons under different step size

        從圖4 可以看出,在面對較長序列時,IndRNN單元具有更好的收斂效果。

        采用序列步長為100,在RNN、LSTM 和IndRNN 網(wǎng)絡(luò)中對神經(jīng)元進行簡單疊加,分別疊加2 層、3 層、4 層、5 層,在加法任務(wù)中RNN、LSTM、IndRNN 的收斂情況如圖5 所示。

        圖5 神經(jīng)元在不同層數(shù)下的收斂效果Fig.5 Convergence effect of neurons under different layers

        從圖5 可以看出,當網(wǎng)絡(luò)深度疊加到4 層時,較大的學(xué)習(xí)率(0.02)已經(jīng)無法使得模型收斂,因此,采用更小的學(xué)習(xí)率(0.000 2)訓(xùn)練模型。實驗結(jié)果表明,IndRNN 單元在多層疊加時具有更好的性能表現(xiàn),層間梯度消失導(dǎo)致的模型無法收斂程度降低。

        3.2 深度消融實驗

        深度消融實驗構(gòu)建完整的圖像描述模型,使用不同結(jié)構(gòu)的解碼端在MS COCO2014 數(shù)據(jù)集上進行模型訓(xùn)練,通過BLEU、METEOR、CIDER 等評判指標衡量模型效果。

        3.2.1 基于IndRNN 的解碼端

        利用不同神經(jīng)元構(gòu)建解碼端,采用簡單的全連接方式進行層數(shù)疊加。對比神經(jīng)元有LSTM、GRU、IndRNN 單元,結(jié)果如表1 所示,最優(yōu)結(jié)果加粗表示。

        表1 基于不同神經(jīng)元結(jié)構(gòu)的模型對比結(jié)果Table 1 Comparison results of models based on different neuron structures

        LSTM 和GRU 的多層疊加會導(dǎo)致模型難以訓(xùn)練,因此,本次實驗僅取2 層參與對比。由于IndRNN 層間梯度消失現(xiàn)象較輕,因此,設(shè)計更多層次的實驗。由表1 可以看出,IndRNN 單元在3 層結(jié)構(gòu)時具有最佳性能,更多層結(jié)構(gòu)時反而效果不佳,這是由于在多層結(jié)構(gòu)中,隨著網(wǎng)絡(luò)層數(shù)的堆積,學(xué)習(xí)率的初值設(shè)定需不斷減小,過小的學(xué)習(xí)率使得網(wǎng)絡(luò)收斂速度變得極為緩慢,而稍大的學(xué)習(xí)率則會導(dǎo)致模型收斂不佳。

        3.2.2 深層解碼端的深度消融實驗

        在本次實驗中,使用解碼單元搭建不同深度的解碼端結(jié)構(gòu),并參與圖像描述模型的訓(xùn)練,最后進行模型效果評分,結(jié)果如表2 所示,最優(yōu)結(jié)果加粗表示。

        表2 不同深度解碼端的模型效果對比Table 2 Comparison of model effects with different depth decoders

        由表2 可以看出:當解碼單元疊加至7 層(即深度為7 層的解碼端)時,模型整體評分已取得最佳(8 層的評分效果與7 層相差無幾,但層數(shù)的提升會導(dǎo)致模型訓(xùn)練復(fù)雜度提升),因此,本文最終選定深度為7 層的解碼單元構(gòu)成深層解碼端。此外,由于解碼單元中BN 層的加入,即使在整個模型的訓(xùn)練過程中采用0.2 的學(xué)習(xí)率(雙層LSTM 模型學(xué)習(xí)率為0.000 2 時方可收斂),模型依然能夠高效收斂。

        3.3 深層圖像描述模型

        在本次實驗中,詞編碼部分使用預(yù)訓(xùn)練好的word2vec 模型,詞向量映射大小為256 維,解碼端由深層解碼端(7 層解碼單元)構(gòu)成,利用端到端的方式進行訓(xùn)練,最終得到深層圖像描述模型Deep-NIC,并將Deep-NIC 與其他5 種模型進行比較,性能對比結(jié)果如表3 所示,最優(yōu)結(jié)果加粗表示。

        表3 不同解碼端結(jié)構(gòu)的模型對比結(jié)果Table 3 Model comparison results with different decoder structures

        Deep-NIC 模型通過word2vec 進行詞編碼,該編碼方式在生成詞向量的同時會顧及單詞的上下文信息,因此,向量包含的信息會更豐富。然而,在單個詞語的表征方面,不包含上下文信息的one-hot 編碼方式更具優(yōu)勢,因此,Deep-NIC 模型在BLEU-1(單個詞評價)的評分上稍有不佳,而在BLEU-4、METEOR、CIDER 評判指標下表現(xiàn)較好。

        3.4 Deep-NIC 模型應(yīng)用

        本次實驗通過實例展示Deep-NIC 模型的描述效果,并分析其執(zhí)行效率。

        3.4.1 描述效果

        分別使用3 張照片作為Deep-NIC 模型的輸入,觀察該模型在實際應(yīng)用中的描述效果,如圖6 所示。由圖6 可以看出,Deep-NIC 模型可以準確識別圖片中的主要目標,并能夠用恰當?shù)恼Z言對圖片內(nèi)容進行描述。

        圖6 Deep-NIC 模型在不同場景下的應(yīng)用效果Fig.6 Application effect of Deep-NIC model in different scenarios

        3.4.2 模型執(zhí)行效率

        除了要求對圖片內(nèi)容進行準確描述外,執(zhí)行效率也是考量圖像描述模型應(yīng)用性能的標準之一。分別選取100 張像素大小為1M 以下、1M~5M、5M~10M 的實景照片進行測試,分別統(tǒng)計Deep-NIC 模型和基線模型生成描述所需時間,結(jié)果如表4 所示。

        表4 不同模型的時間消耗對比Table 4 Comparison of time consumption of different models s

        從表4 可以看出,隨著模型復(fù)雜度的提升,Deep-NIC 在描述準確度提升的同時生成描述語言所消耗的時間也會增加,但和基線模型相比,由于Deep-NIC 特殊的深度結(jié)構(gòu),即使具有高達7 層的復(fù)雜解碼結(jié)構(gòu),其時間消耗也在可接受范圍之內(nèi)。

        4 結(jié)束語

        本文提出一種深層圖像描述模型Deep-NIC。由IndRNN 單元和BN 層構(gòu)成解碼單元,解碼單元能夠使得解碼端多層疊加,網(wǎng)絡(luò)也更加易于訓(xùn)練,同時防止了過擬合問題的出現(xiàn)。Deep-NIC 模型的解碼端由7 層解碼單元構(gòu)成,詞編碼部分使用預(yù)訓(xùn)練的word2vec。實驗結(jié)果表明,與基線模型相比,Deep-NIC 模型的BLEU-4、METEOR、CIDER 評分均有提升。Deep-NIC 模型中采用詞嵌入的方式,導(dǎo)致其整體性能提升幅度不大,下一步將對詞嵌入方式進行改進,以構(gòu)建效果更優(yōu)的圖像描述模型。

        猜你喜歡
        深度效果模型
        一半模型
        按摩效果確有理論依據(jù)
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        迅速制造慢門虛化效果
        深度觀察
        深度觀察
        深度觀察
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        一区在线视频免费播放| 精品国产一区二区三区亚洲人| 国产优质女主播在线观看| 91精品国产综合久久精品密臀| 精品av熟女一区二区偷窥海滩 | 丰满又紧又爽又丰满视频| 中文字幕精品一区二区精品| 人妻影音先锋啪啪av资源| 久久99久久99精品免观看不卡| 国产激情视频在线观看首页| 国产人妻高清国产拍精品| 久久国产热这里只有精品| 国产一级淫片免费播放电影| 清纯唯美亚洲经典中文字幕| 久久久亚洲欧洲日产国码二区| 无码国产色欲xxxxx视频| 中日韩欧美高清在线播放| 日本国产一区二区在线| 人人妻人人澡人人爽超污| 国产亚洲av手机在线观看| 天天摸天天做天天爽天天舒服| 国产一区二区三区青青草 | 久久精品国产亚洲av天美| 人妻丰满av无码中文字幕| 国产在线精品一区二区不卡| 国产美女av一区二区三区| 中文字幕午夜精品久久久| 日韩精品久久久肉伦网站| 久久久亚洲经典视频| 麻豆三级视频网站在线观看| 高清毛茸茸的中国少妇| 免费男人下部进女人下部视频| 无码三级国产三级在线电影| 亚洲一区精品在线中文字幕| 欧美最大胆的西西人体44| 无码毛片高潮一级一免费| 亚洲av天堂一区二区| 成人免费无遮挡在线播放| 国产欧美乱夫不卡无乱码| 美腿丝袜中文字幕在线观看| 极品美女扒开粉嫩小泬图片|