亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于門控循環(huán)單元的圖像描述方法

        2020-12-18 07:55:18王少暉莫建文
        關(guān)鍵詞:子網(wǎng)復(fù)雜度語句

        王少暉, 莫建文

        (桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)

        圖像描述能夠使計算機生成與圖像內(nèi)容對應(yīng)的描述性語句,這種計算機“視說能力”倍受研究人員青睞。20世紀(jì)90年代就有了相關(guān)的研究[1],由于當(dāng)時計算機計算能力的局限性,該技術(shù)的研究與發(fā)展受到了限制。近年來,計算機的計算能力得到飛躍的提升,圖像描述的研究得到有力支持,再次成為研究熱點。

        隨著神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域取得卓越成果,研究人員將卷積神經(jīng)網(wǎng)絡(luò)[2](convolutional neural networks,簡稱CNNs)和循環(huán)神經(jīng)網(wǎng)絡(luò)[3](recurrent neural networks,簡稱RNNs)引入到圖像描述任務(wù)中,實現(xiàn)了圖像語義特征的提取和語義特征語句的構(gòu)建,這種基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)模型簡稱為CNN-RNN模型。Mao等[4]最先采用CNN-RNN模型,其中CNN子網(wǎng)負(fù)責(zé)圖像的特征提取,RNN子網(wǎng)將CNN子網(wǎng)提取的特征作為輔助信息生成語句,值得一提的是該方法中RNN子網(wǎng)僅是傳統(tǒng)的RNN。Vinyals等[5]提出的方法中使用長短期記憶網(wǎng)絡(luò)[6](long short-term memory,簡稱LSTM)代替RNN來生成語句,訓(xùn)練網(wǎng)絡(luò)時出現(xiàn)的梯度消失和爆炸[7]狀況得到了改善。Karpathy等[8]在RNN子網(wǎng)中采用了一種改進的LSTM,稱為雙向長短期記憶網(wǎng)絡(luò)[9](bi-directional long short-term memory,簡稱BLSTM),并通過該網(wǎng)絡(luò)構(gòu)建了更緊密的映射關(guān)系。Wang等[10]借助斯坦福句法分析器將語句分解為結(jié)構(gòu)和屬性,用2個LSTM組成RNN子網(wǎng)分別生成結(jié)構(gòu)和屬性,根據(jù)先驗知識得到描述性語句。為了使圖像描述更快地生成語句和更高效地利用計算機資源,針對LSTM中采用3個門分別控制信息的傳遞方式過于復(fù)雜的問題,在Vinyals等[5]的方法中引入門控循環(huán)單元,提出一種基于門控循環(huán)單元的圖像描述方法。

        1 LSTM

        LSTM的內(nèi)部結(jié)構(gòu)如圖1所示。

        圖1 LSTM的內(nèi)部結(jié)構(gòu)

        LSTM內(nèi)部結(jié)構(gòu)有單元狀態(tài)c和狀態(tài)h兩個隱含狀態(tài),遺忘門、輸入門、輸出門3個門。LSTM的內(nèi)部運算為3個門對信息的處理。

        1)假設(shè)當(dāng)前LSTM處于t時刻且輸入為xt,前一時刻單元狀態(tài)ct-1的信息保留,遺忘門讀入當(dāng)前輸入xt和前一時刻隱含狀態(tài)ht-1,通過計算得到ft∈[0,1],ft控制單元狀態(tài)ct-1信息保留程度,即

        ft=σ(Wf[ht-1,xt]+bf)。

        ft=1時表示信息完全保留,ft=0時表示信息完全丟棄,σ(·)為Sigmoid激活函數(shù),保證了輸出為0~1的實數(shù)。

        2)輸入xt,保留前一時刻隱含狀態(tài)ht-1的信息,輸入門讀入當(dāng)前輸入xt和前一時刻隱含狀態(tài)ht-1,通過計算得到it,it∈[0,1],it通過對輸入xt和前一時刻隱含狀態(tài)ht-1的新表示形式gt進行操作來控制輸入xt和前一時刻隱含狀態(tài)ht-1的信息保留程度,即

        it=σ(Wi[ht-1,xt]+bi),

        gt=δ(Wg[ht-1,xt]+bg),

        其中δ(·)為Tanh函數(shù)。

        3)更新單元狀態(tài)ct-1,將遺忘門操作后的單元狀態(tài)ct-1與輸入門操作后的gt相加得到t時刻單元狀態(tài)ct,

        ct=ftct-1+itgt。

        4)輸出門讀入當(dāng)前輸入xt和前一時刻隱含狀態(tài)ht-1,通過計算得到ot∈[0,1],ot對經(jīng)δ轉(zhuǎn)換的當(dāng)前時刻單元狀態(tài)ct進行保留操作,得到LSTM的t時刻輸出ht,

        ot=σ(Wo[ht-1,xt]+bo),

        ht=otδ(ct)。

        LSTM的門結(jié)構(gòu)減緩了梯度消失或爆炸,但也增加了RNN子網(wǎng)的時間復(fù)雜度和空間復(fù)雜度。通過3個門逐一對信息的處理增加了計算量,各自的權(quán)重和偏置需要占用更多的計算機資源。

        2 基于門控循環(huán)單元的圖像描述

        2.1 門控循環(huán)單元

        門控循環(huán)單元[11](gated recurrent unit,簡稱GRU)的內(nèi)部結(jié)構(gòu)如圖2所示。

        圖2 GRU的內(nèi)部結(jié)構(gòu)

        從圖2可看出,僅需計算隱含狀態(tài)h和復(fù)位門、更新門。

        1)當(dāng)t時刻的輸入xt傳入GRU時,首先保留前一時刻隱含狀態(tài)ht-1轉(zhuǎn)換為候選信息前的信息,復(fù)位門讀入當(dāng)前輸入xt和前一時刻隱含狀態(tài)ht-1進行計算得到的rt∈[0,1],rt控制前一時刻隱含狀態(tài)ht-1的信息保留程度,即

        rt=σ(Wr[ht-1,xt]+br)。

        zt=σ(Wz[ht-1,xt]+bz),

        其中δ(·)為Tanh函數(shù)。

        3)對前一時刻隱含狀態(tài)ht-1進行更新,更新門的輸出zt減1后,將前一時刻隱含狀態(tài)ht-1控制后的結(jié)果與更新門保留操作后的候選信息ht相加,得到GRU的t時刻輸出ht,

        循環(huán)神經(jīng)網(wǎng)絡(luò)中,運算量主要集中在各個門權(quán)重矩陣與輸入的乘法上,因此在計算時間復(fù)雜度時將門的運算量記為N,則LSTM的時間復(fù)雜度為4N,GRU的時間復(fù)雜度為3N。占用存儲空間的參數(shù)主要是由隱含狀態(tài)和門的權(quán)重、偏置組成,隱含狀態(tài)參數(shù)個數(shù)與門總的參數(shù)個數(shù)相近,因此在計算空間復(fù)雜度時將隱含狀態(tài)和門的空間復(fù)雜度記為S,則LSTM的空間復(fù)雜度為5S,GRU的時間復(fù)雜度為3S。

        在LSTM與GRU的內(nèi)部結(jié)構(gòu)、運算過程分析和復(fù)雜度比較中,顯然GRU的內(nèi)部結(jié)構(gòu)更為簡潔,運算過程更為高效,復(fù)雜度更有優(yōu)勢,因此GRU可以有效地優(yōu)化內(nèi)部運算過程,減少RNN子網(wǎng)的網(wǎng)絡(luò)參數(shù)。通常,網(wǎng)絡(luò)在運行時需要將參數(shù)加載到內(nèi)存中,因此減少參數(shù)個數(shù)會使網(wǎng)絡(luò)占用的內(nèi)存相應(yīng)減少。考慮到GRU的這些優(yōu)點,引入GRU作為RNN子網(wǎng)的循環(huán)神經(jīng)網(wǎng)絡(luò),通過優(yōu)化RNN子網(wǎng)來提高網(wǎng)絡(luò)的實時性,減少網(wǎng)絡(luò)消耗的計算機資源。為了突顯方法的有效性,在Vinyals等[5]的方法基礎(chǔ)上進行改進,設(shè)計了基于門控循環(huán)單元的圖像描述網(wǎng)絡(luò)。

        2.2 基于門控循環(huán)單元的網(wǎng)絡(luò)結(jié)構(gòu)

        基于門控循環(huán)單元的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。CNN子網(wǎng)與Vinyals等[5]的方法相同,使用的是Google研究團隊提出的Inception v3,而RNN子網(wǎng)與Vinyals等[5]的方法不同,使用的是GRU這種循環(huán)神經(jīng)網(wǎng)絡(luò)。

        圖3 基于門控循環(huán)單元的網(wǎng)絡(luò)結(jié)構(gòu)

        網(wǎng)絡(luò)的運算過程分為2步:

        1)CNN子網(wǎng)將待描述的圖像I經(jīng)前向傳播生成圖像語義特征向量Ie。

        Ie=CNN(I),h0=GRU(Ie,0),

        其中:I為輸入圖像;CNN(·)為CNN的前向傳播計算;Ie為輸入圖像I經(jīng)CNN前向傳播計算后生成的圖像語義特征向量;GRU(·)為GRU的前向傳播計算;h0為0時刻隱含狀態(tài);E為詞嵌入矩陣;W、b分別為輸出層的權(quán)重、偏置;t=1,2,…,n。

        網(wǎng)絡(luò)訓(xùn)練時,CNN子網(wǎng)將圖像作為輸入樣本,將圖像對應(yīng)的語句標(biāo)簽P作為監(jiān)督信號,則損失函數(shù)為

        3 實驗設(shè)計及結(jié)果分析

        網(wǎng)絡(luò)驗證時,采用主流的MSCOCO數(shù)據(jù)集進行網(wǎng)絡(luò)訓(xùn)練和測試[12]。網(wǎng)絡(luò)性能的衡量采用BLEU、METEOR、ROUGE和CIDEr這4種評估方式,其中BLEU由B@1、B@2、B@3和B@4組成。

        為了更好地比較性能,采用與NIC[5]相同的訓(xùn)練方式和超參數(shù)設(shè)置。訓(xùn)練完成后,生成的示例如圖4所示。從圖4可看出,本方法生成的描述性語句能夠簡潔地反映出圖像內(nèi)容。

        圖4 本方法生成的示例

        客觀性能評估方面,將本方法(inception v3+GRU)與Deep VS、m-RNN、NIC(inception v3+LSTM)在MSCOCO測試集上進行比較,得到性能評價如表1所示。

        表1 4種方法在MSCOCO數(shù)據(jù)集上的性能評價

        從表1可看出,本方法在7種評估方式中的評分比Deep VS、m-RNN有明顯優(yōu)勢;與NIC(改進前的方法)在小數(shù)點后一位依然保持一致,因此這2種方法整體生成的語句質(zhì)量相差甚微,實際上,在訓(xùn)練時這2種方法的收斂情況并無顯著區(qū)別,具體收斂情況如圖5所示。

        圖5 2種方法的收斂情況

        從圖5可看出,在10×105次迭代中2種方法得到的曲線基本重合,即收斂情況相當(dāng),本方法與NIC[5]方法在生成語句的整體質(zhì)量及其收斂情況無法分出高低,但在生成語句時消耗的時間以及占用的計算機資源存在明顯差異,本方法中RNN子網(wǎng)生成語句時消耗的時間和占用的內(nèi)存均少于NIC方法。2種方法在不同模式下RNN子網(wǎng)生成語句消耗的時間如圖6所示。

        圖6 2種方法中RNN子網(wǎng)消耗的時間

        從圖6可看出,2種方法都遠(yuǎn)遠(yuǎn)超過了各自CPU模式所消耗的時間,本方法無論在CPU模式下還是GPU模式下RNN子網(wǎng)生成語句消耗的時間都更少。2種方法RNN子網(wǎng)生成語句的平均時間和參數(shù)個數(shù)如表2所示。

        表2 2種方法RNN子網(wǎng)生成語句的平均時間和參數(shù)個數(shù)

        從表2可看出,CPU模式下,本方法RNN子網(wǎng)生成語句的平均時間比NIC方法減少了0.03 s,占NIC方法平均時間的3.15%;GPU模式下,本方法RNN子網(wǎng)生成語句的平均時間比NIC方法減少了0.01 s,占NIC方法平均時間的2.5%;參數(shù)個數(shù)方面,本方法減少了25%,通過參數(shù)個數(shù)的大幅度減少,使得網(wǎng)絡(luò)運行時占用的內(nèi)存相應(yīng)地減少。

        4 結(jié)束語

        將門控循環(huán)單元引入圖像描述任務(wù)中,提出了一種基于門控循環(huán)單元的圖像描述方法。該方法有效地解決了RNN子網(wǎng)生成語句時消耗時間較長和網(wǎng)絡(luò)運行時占用的內(nèi)存較大的問題。在生成語句的性能評估中,本方法生成的語句質(zhì)量仍然保持原方法的水平,且生成語句消耗的時間顯著減少,其中CPU模式下僅需0.92 s,GPU模式下僅需0.39 s;同時,通過減少RNN子網(wǎng)大約77萬個參數(shù)的方式,使得網(wǎng)絡(luò)運行時占用的內(nèi)存更小。

        猜你喜歡
        子網(wǎng)復(fù)雜度語句
        一種簡單子網(wǎng)劃分方法及教學(xué)案例*
        計算機時代(2023年1期)2023-01-30 04:08:22
        重點:語句銜接
        子網(wǎng)劃分問題研究及應(yīng)用
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        精彩語句
        求圖上廣探樹的時間復(fù)雜度
        子網(wǎng)劃分的簡易方法
        某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進
        出口技術(shù)復(fù)雜度研究回顧與評述
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        乱人伦中文字幕在线不卡网站| 日韩中文字幕不卡网站| 亚洲aⅴ无码日韩av无码网站| 色婷婷狠狠97成为人免费| av最新版天堂在资源在线| 亚洲第一大av在线综合| 激情亚洲一区国产精品| 福利视频偷拍一区二区| 校园春色人妻激情高清中文字幕| 亚洲精品无码久久久久av老牛| 精品国精品无码自拍自在线 | 久久精品丝袜高跟鞋| 免费毛片a线观看| 一区二区三区不卡在线| 国产精品农村妇女一区二区三区| 综合久久精品亚洲天堂| 亚洲av无码乱码国产麻豆| 天天狠天天添日日拍| 一本大道无码av天堂| 久久久久久久98亚洲精品| av天堂一区二区三区| 第一九区另类中文字幕| 99国产精品99久久久久久| 97色伦综合在线欧美视频| 婷婷综合久久中文字幕蜜桃三电影| 久久中文字幕久久久久| 国产自产自现在线视频地址| 国产剧情av麻豆香蕉精品| 日韩人妻少妇一区二区三区| 国内精品人妻无码久久久影院导航| 午夜大片又黄又爽大片app| 国产精品亚洲综合天堂夜夜 | 日本熟妇中出高潮视频| 中文字幕一区二区三区四区五区| 国产精品美女久久久久久| 欧美丰满大爆乳波霸奶水多| 亚洲国产免费公开在线视频| 国产成人精品久久二区二区91 | 后入少妇免费在线观看| 国产毛片视频一区二区| 777午夜精品免费观看|