亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義分割的全卷積圖像描述模型

        2023-01-31 03:36:28李永生顏秉勇周家樂
        關(guān)鍵詞:語(yǔ)義特征信息

        李永生,顏秉勇,周家樂

        (華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)

        0 引 言

        如何讓設(shè)計(jì)好的模型有效地利用圖像信息生成更接近人類語(yǔ)言的描述是目前研究的熱點(diǎn)。通常模型會(huì)以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為編碼器提取圖像特征為固定大小的向量作為多層長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM)的輸入解碼生成描述性語(yǔ)句[1]。通過在權(quán)威數(shù)據(jù)集實(shí)驗(yàn),分析系統(tǒng)生成句子的語(yǔ)法和內(nèi)容的準(zhǔn)確性,達(dá)到對(duì)產(chǎn)生式模型的評(píng)估。

        目前,圖像描述主要分為3種研究方向:①模板法:基于圖像本身的特征進(jìn)行特征提取識(shí)別出圖像目標(biāo),再將圖像目標(biāo)填入相匹配的語(yǔ)言模板生成描述性語(yǔ)句[2];②檢索法:將圖像和圖像對(duì)應(yīng)的描述語(yǔ)句映射到相同特征空間再計(jì)算兩者之間的相似度生成描述性語(yǔ)句,把圖像描述當(dāng)成檢索任務(wù)來操作[3];③主流的基于深度學(xué)習(xí)的圖像描述法:以CNN作為編碼器提取圖像特征,以LSTM作為解碼器生成圖像描述語(yǔ)句[4-6]。為了生成更加接近人類語(yǔ)言的圖像描述,需要讓模型決定在每一個(gè)時(shí)間步更依賴于圖像信息還是語(yǔ)言模型[4],同時(shí)為了讓描述更具有多樣性和更符合場(chǎng)景可以基于抽象場(chǎng)景圖來關(guān)注使用者的意圖[5],對(duì)解碼器部分的改進(jìn)讓模型結(jié)果有了較大提升,然而普遍以LSTM作為解碼器將嚴(yán)重降低模型訓(xùn)練速度且非常消耗實(shí)驗(yàn)資源,不利于實(shí)驗(yàn)研究,而且直接采用圖像分類模型作為編碼器對(duì)圖像信息進(jìn)行編碼,缺乏對(duì)圖像語(yǔ)義信息的利用,目標(biāo)間也難以獲得明確的相互關(guān)系,雖然以Bottom-Up作為編碼器提取圖像感興趣區(qū)域獲得目標(biāo)特征和以Top-Down作為解碼器確定目標(biāo)特征對(duì)描述性語(yǔ)句的貢獻(xiàn)度相結(jié)合的圖像描述方法[6]能夠準(zhǔn)確獲得圖像類別,但編碼器部分對(duì)目標(biāo)間關(guān)系的理解仍然不夠,針對(duì)上述問題本文創(chuàng)新性提出結(jié)合語(yǔ)義分割和CNN解碼器的圖像描述方法,本文貢獻(xiàn)如下:

        (1)在圖像描述中引入語(yǔ)義分割方法,獲得豐富的語(yǔ)義信息進(jìn)而讓模型加深對(duì)圖像中物體間關(guān)系的理解,語(yǔ)義信息的增強(qiáng)有利于讓模型解碼出包含更豐富圖像間相互關(guān)系的描述語(yǔ)句,將語(yǔ)義分割與CNN解碼器相結(jié)合,提高圖像精度的同時(shí)加快模型訓(xùn)練速度。

        (2)增強(qiáng)查詢與注意力之間的關(guān)聯(lián)性,避免解碼器解碼時(shí)無(wú)關(guān)注意力結(jié)果影響,進(jìn)一步提高模型生成描述的能力。

        1 經(jīng)典模型結(jié)構(gòu)

        如圖1所示為目前主流的圖像描述編解碼模型,CNN作為編碼器會(huì)提取圖像特征生成固定大小的特征向量,LSTM作為解碼器將編碼器提取的特征向量作為輸入再解碼生成描述性語(yǔ)句。

        圖1 主流Encoder-Decoder模型結(jié)構(gòu)[7]

        主流的編解碼模型能夠在一定程度上解碼生成符合人類描述的描述性語(yǔ)言,但是仍然存在許多問題讓圖像描述無(wú)法取得進(jìn)一步的發(fā)展。

        1.1 編碼器

        編碼器負(fù)責(zé)提取圖像特征信息生成固定長(zhǎng)度的特征向量,在之前的研究中普遍采用圖像分類模型做編碼器,圖像分類模型更偏向于對(duì)目標(biāo)物的識(shí)別,而圖像描述不僅需要識(shí)別出圖像中的物體,還需要得到圖像中物體間的相互關(guān)系[8]。

        圖像的語(yǔ)義信息包含了圖像的底層特征語(yǔ)義和高層特征語(yǔ)義[9],是一幅圖像最想表達(dá)的信息,豐富的語(yǔ)義信息可以提高圖像對(duì)圖像中物體間相互關(guān)系的理解,加強(qiáng)模型對(duì)圖像物體間相互關(guān)系的理解有助于生成的描述性語(yǔ)言更具有邏輯性。而圖像分類模型多為經(jīng)過若干卷積得到的高層語(yǔ)義,感受野大有利于對(duì)物體的分類,難以獲得圖像中物體間豐富的相互關(guān)系而讓生成的描述十分僵硬,甚至只是圖像中目標(biāo)種類的堆疊。

        1.2 解碼器

        解碼器會(huì)輸入編碼器生成的固定長(zhǎng)度的特征向量解碼生成描述性語(yǔ)言,主流的編解碼模型一般使用LSTM或其變體作為解碼器。解碼器解碼過程主要由輸入字嵌入、LSTM解碼以及輸出字嵌入3部分共同組成[10]。首先將輸入字嵌入送入LSTM解碼,再選擇后驗(yàn)概率最大的單詞作為輸出單詞,但LSTM從yi(第i個(gè)輸出單詞)到y(tǒng)n(第n個(gè)輸出單詞)預(yù)測(cè)輸出單詞的時(shí)候每次只會(huì)有順序的預(yù)測(cè)一個(gè)單詞,在每一個(gè)時(shí)間步i內(nèi)選擇條件概率最大的作為預(yù)測(cè)下個(gè)單詞的輸入,正是由于在時(shí)間上存在固有順序,下一個(gè)LSTM的輸入必須依靠上一個(gè)LSTM的輸出,這種串聯(lián)訓(xùn)練的方式嚴(yán)重增加解碼器的訓(xùn)練速度,消耗訓(xùn)練時(shí)間和訓(xùn)練資源。

        1.3 注意力機(jī)制

        注意力機(jī)制負(fù)責(zé)在模型解碼時(shí)讓模型關(guān)注圖像重點(diǎn)區(qū)域,排除無(wú)關(guān)信息對(duì)生成描述的干擾。圖像描述的注意力機(jī)制與人眼的注意力機(jī)制頗為類似,當(dāng)我們觀察某一目標(biāo)的時(shí)候,只會(huì)去關(guān)注目標(biāo)本身,視野中的其它部分會(huì)被自動(dòng)忽略,將注意力集中在重點(diǎn)信息上從而獲取對(duì)我們更有效的資源。在實(shí)驗(yàn)中注意力模型會(huì)給重點(diǎn)關(guān)注的部分分配一組較高的權(quán)重,對(duì)不需要關(guān)注的部分較低的權(quán)重,讓模型自動(dòng)識(shí)別兩者,抑制不相干信息對(duì)實(shí)驗(yàn)的影響。

        經(jīng)典的注意力機(jī)制θatt(Q,K,V) 首先會(huì)計(jì)算Q(查詢向量,目標(biāo)語(yǔ)言所有詞的特征向量對(duì)應(yīng)的矩陣)和K(需要被翻譯語(yǔ)言經(jīng)過編碼器之后的詞向量表示)之間的相似性,然后使用相似度分?jǐn)?shù)計(jì)算V(輸入特征的向量)上的加權(quán)平均向量,如圖2所示,而具體計(jì)算公式如式(1)和式(2)所示

        圖2 傳統(tǒng)注意力機(jī)制

        (1)

        (2)

        2 基于語(yǔ)義分割的圖像描述模型

        針對(duì)主流編解碼模型出現(xiàn)的問題本文提出基于語(yǔ)義分割的全卷積圖像描述模型,創(chuàng)新性的在圖像描述中提出語(yǔ)義分割和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的圖像描述方法,編碼器部分融合語(yǔ)義分割模塊增強(qiáng)語(yǔ)義信息,提高對(duì)圖像中物體間關(guān)系的理解;以CNN作為解碼器加快模型訓(xùn)練速度;為避免注意力機(jī)制給與冗余信息分配不必要的權(quán)重信息,調(diào)整注意力的輸出,讓模型只關(guān)注模型需要關(guān)注的部分。

        2.1 模型架構(gòu)

        如圖3所示為本文模型結(jié)構(gòu)圖。模型主要是由編碼器、注意力機(jī)制和解碼器等3部分組成。圖像分類模塊和語(yǔ)義分割模塊組成的編碼器會(huì)提取圖像特征信息生成特征矩陣 [f1,f2,…,fn]; 圖3中黑白方塊為Masked卷積[7]代替LSTM作為解碼器生成描述性文字;注意力機(jī)制讓模型關(guān)注需要關(guān)注的部分,在生成描述語(yǔ)句的精確度和訓(xùn)練的速度上都得到了提升。

        圖3 本文模型結(jié)構(gòu)

        2.2 基于語(yǔ)義分割的編碼器模型

        提取圖像信息生成固定長(zhǎng)度的特征向量是編碼器的主要任務(wù)。而豐富的圖像語(yǔ)義信息可以加深模型對(duì)圖像中物體間相互關(guān)系的理解有助于解碼生成描述,因此在編碼器部分加入語(yǔ)義分割模塊提取語(yǔ)義信息,編碼器結(jié)構(gòu)公式化如式(3)所示

        E_out=C(img)+γF(img)

        (3)

        式(3)中img為模型輸入,即輸入圖像,C(img) 為圖像分類模塊,F(xiàn)(img) 為語(yǔ)義分割模塊,γ為模型的可訓(xùn)練參數(shù),E_out表示編碼器輸出,是固定長(zhǎng)度的特征向量。

        C(img) 是圖像分類模塊,本文選擇使用預(yù)訓(xùn)練的DenseNet特征提取網(wǎng)絡(luò)。該模型建立之前所有卷積層與之后卷積層之間的密集連接,充分利用圖像所有特征,同時(shí)前后卷積網(wǎng)絡(luò)之間的短路連接提高了梯度的反向傳播能力,讓卷積神經(jīng)網(wǎng)絡(luò)能夠訓(xùn)練更深的網(wǎng)絡(luò)結(jié)構(gòu),DenseNet的計(jì)算公式如式(4)所示

        D_outl=Hl([o0,o1,…,ol-1])

        (4)

        式(4)中Hl是包括卷積、池化、標(biāo)準(zhǔn)化和激活函數(shù)在內(nèi)一系列組合操作的非線性轉(zhuǎn)化函數(shù),o0,o1,…,ol-1表示第0到第l-1層輸出特征圖的通道合并,D_outl表示DenseNet第l層輸出。由式(4)可知該模型包含豐富的圖像信息對(duì)圖像物體識(shí)別十分有利。

        F(img) 是語(yǔ)義分割模塊,本文選擇使用UNet[11]語(yǔ)義分割網(wǎng)絡(luò)作語(yǔ)義特征提取器加強(qiáng)編碼器特征向量包含的語(yǔ)義信息。UNet是非常出色而且小巧的語(yǔ)義提取網(wǎng)絡(luò),與FCN[12]和Deeplab[13]相比,UNet只需4次上采樣在同一個(gè)stage跳躍連接,保證恢復(fù)出來的特征圖融合更多的low-level的特征,使得分割圖恢復(fù)邊緣等信息更加精細(xì)[12],UNet網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

        圖4 UNet網(wǎng)絡(luò)結(jié)構(gòu)

        UNet可以提取豐富的語(yǔ)義信息但是難以捕捉語(yǔ)義信息之間明確的相互關(guān)系,為此需要在UNet中添加注意力模塊,將位置注意力和通道注意力兩個(gè)并行連接的模塊插入U(xiǎn)Net下采樣與上采樣之間讓模型明確語(yǔ)義信息間的相關(guān)性。

        2.2.1 位置注意力

        位置注意力模塊可以將大范圍的圖像語(yǔ)義信息進(jìn)行編碼到圖像的局部感受野中來增強(qiáng)特征圖的表達(dá)能力。位置注意力Ej[14]計(jì)算公式如式(5)和式(6)所示

        (5)

        (6)

        式(5)中sij為第i個(gè)位置對(duì)第j個(gè)位置的影響,BiCjDi是圖像特征圖A經(jīng)過BN層和RELU層卷積操作后得到的新特征圖。根據(jù)式(5)通過Bi和Cj特征圖計(jì)算得到位置注意力映射圖sij, 由式(5)可知當(dāng)兩個(gè)不同位置的特征越相似sij受影響越大。得到注意力映射圖sij后將其與Di相乘的結(jié)果和最初的特征圖A逐元素相加得到輸出位置注意力Ej,尺度系數(shù)α一般初始化為0進(jìn)行學(xué)習(xí),由最后的輸出Εj可知任一位置都是圖像中所有位置的特征和初始特征加權(quán)得到的結(jié)果,因此可以聚合全部的語(yǔ)義結(jié)果,引入注意力機(jī)制獲取圖像中任意位置空間上的依賴關(guān)系。

        2.2.2 通道注意力

        多次卷積后圖像高層特征的每一個(gè)通道都可以看作是某一類別的明確響應(yīng)且不同語(yǔ)義間存在聯(lián)系,通過增強(qiáng)獲得的不同通道映射之間的依賴能提高特征圖對(duì)特定語(yǔ)義信息的表征能力,通道注意力Ej[14]計(jì)算公式如式(7)和式(8)所示

        (7)

        (8)

        式(7)中xji為第i個(gè)通道對(duì)第j個(gè)通道的影響,A是圖像特征圖。根據(jù)式(7)通過圖像原始特征計(jì)算得到通道注意力圖xji, 再將通道注意力圖與特征圖相乘的結(jié)果逐元素和特征圖A相加后得到最終的特征圖,與位置注意力一樣尺度系數(shù)β初始化為0開始訓(xùn)練。由式(8)可知每個(gè)通道的特征都是全部通道和特征圖的加權(quán)和,增強(qiáng)了通道特征圖之間的全局依賴。

        為了充分利用遠(yuǎn)程依賴性,將兩個(gè)注意力模塊并行連接添加到網(wǎng)絡(luò)結(jié)構(gòu)中,匯總注意力模塊的功能,加強(qiáng)特征表示能力。

        同時(shí)本文并沒有單純的將語(yǔ)義分割模塊與圖像分類模塊融合到一起,而是使用加權(quán)殘差連接的方式將兩者結(jié)合,式(3)中的參數(shù)γ為模型可訓(xùn)練參數(shù)從0開始訓(xùn)練,讓模型動(dòng)態(tài)自適應(yīng)的從提取的語(yǔ)義特征中提取模型所需要的信息,提高生成描述的能力。

        2.3 基于全卷積的語(yǔ)句生成模型

        解碼器會(huì)以編碼器生成的固定長(zhǎng)度的特征向量作為輸入,再解碼生成符合人類語(yǔ)言的描述性文字。LSTM網(wǎng)絡(luò)作為目前主流的解碼器模型在序列數(shù)據(jù)的預(yù)測(cè)和生成上具有較好的處理效果,但是LSTM難以并行訓(xùn)練的缺陷將會(huì)嚴(yán)重限制模型解碼的訓(xùn)練速度,為了縮短解碼器的訓(xùn)練時(shí)間本文選擇CNN代替LSTM作為模型解碼器。

        由于解碼器處理的數(shù)據(jù)是帶有時(shí)間序列的,同時(shí)圖像中物體間的關(guān)系也較為離散,而二維卷積更多處理具有連續(xù)像素的數(shù)據(jù),因此能夠?qū)?shù)據(jù)在某一方向的平移不變特征進(jìn)行提取的一維卷積在處理時(shí)間序列數(shù)據(jù)上可能更有優(yōu)勢(shì)。對(duì)比圖1與圖3發(fā)現(xiàn)解碼器輸入輸出與傳統(tǒng)編解碼模型一樣,改變只是將中間的LSTM替換為Masked卷積[7],在訓(xùn)練時(shí)Masked卷積會(huì)模擬LSTM生成描述的方式,Masked卷積會(huì)屏蔽當(dāng)前之后的部分只使用當(dāng)前和之前的部分預(yù)測(cè)單詞,保留卷積核中間點(diǎn)之前的像素信息。像素生成方式如圖5所示,隨著訓(xùn)練進(jìn)行模型會(huì)按照從左到右,從上到下順序預(yù)測(cè)下一個(gè)像素[15]。

        圖5 圖像中生成下一個(gè)像素的結(jié)構(gòu)

        在模型解碼時(shí)只需要記住與生成描述相關(guān)的信息,因此本文添加門控線性單元[16]過濾無(wú)關(guān)信息讓模型學(xué)會(huì)選擇有用的解碼信息。式(9)為門控線性單元的計(jì)算公式

        hl(X)=(X*W+b)?σ(X*V+c)

        (9)

        式(9)中X為卷積層的輸入,W,b,V,c為可學(xué)習(xí)參數(shù),σ為sigmoid函數(shù),?為矩陣間元素間的乘積。式(9)的后半部分為激活函數(shù),控制X*W+b的哪些信息輸入下一層。本文在Masked卷積后添加門控線性單元并以此為一個(gè)模塊Mn(f_v) 重復(fù)疊加不停獲取對(duì)解碼有用的信息,如式(10)所示

        (10)

        式(10)中Mn(f_v) 為融合了門控線性單元和Masked卷積的全卷積模塊,f_v是編碼器提取的特征向量。通過堆疊卷積層和門控線性單元來獲得更豐富、更抽象的網(wǎng)絡(luò)信息。但在實(shí)驗(yàn)中n的數(shù)量會(huì)影響解碼精度,Mn(f_v) 模塊越多獲取的信息越過于抽象,越難以解碼出流暢的描述性語(yǔ)言,因此n的數(shù)量需要根據(jù)實(shí)際情況確定。

        2.4 基于注意力的注意力模型

        圖像描述的注意力機(jī)制可以讓模型在解碼時(shí)注意力集中在重點(diǎn)信息上,但傳統(tǒng)的注意力機(jī)制即使是不相關(guān)的向量依然會(huì)生成加權(quán)平均向量,鑒于此本文在注意力機(jī)制上添加AOA模塊[17],為注意力再添加注意力。

        Lun等[17]提出的注意力機(jī)制結(jié)構(gòu)如圖6所示。通過兩個(gè)線性變換生成“信息向量”inf和“注意力門”gate,公式如式(11)和式(12)所示

        (11)

        (12)

        (13)

        ⊙表示逐元素相乘。在查詢向量與注意力結(jié)果之間添加注意力,讓模型自適應(yīng)選擇哪些信息需要送入之后的訓(xùn)練。圖6中Linear層可以并不是只有一層,而是許多Li-near層連接在一起,但是本文并沒有采取多層結(jié)構(gòu),而是只使用了一層Linear層,卷積層沒有類似的門限結(jié)構(gòu)來保留有用信息,過多的卷積操作會(huì)降低生成描述的能力,同時(shí)增加生成描述的時(shí)間。

        圖6 Attention on Attention

        3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        3.1 數(shù)據(jù)集預(yù)處理

        本文使用MSCOCO作為圖像描述數(shù)據(jù)集,MSCOCO數(shù)據(jù)集非常龐大,可以用于所有計(jì)算機(jī)視覺任務(wù)的研究,是目前最有說服力的數(shù)據(jù)集,實(shí)驗(yàn)中使用113 287個(gè)圖像作為訓(xùn)練圖像,5000張圖像進(jìn)行驗(yàn)證,5000張圖片進(jìn)行測(cè)試,每張圖片有5條描述。本文使用的單詞表總計(jì)有9221個(gè)單詞,對(duì)于描述中不在單詞表中的單詞使用來代替。為了有效防止過擬合,提高模型的性能,在訓(xùn)練前會(huì)對(duì)圖像做旋轉(zhuǎn)、裁剪等數(shù)據(jù)增強(qiáng)操作,可以在一定程度上提高模型的泛化能力,最后把圖片尺寸調(diào)整為 (224,224,3) 再統(tǒng)一送入模型進(jìn)行訓(xùn)練。

        3.2 模型訓(xùn)練

        實(shí)驗(yàn)環(huán)境是Ubuntu 20.04 64位系統(tǒng),使用Pycharm做開發(fā)工具,Python環(huán)境為Python3.7,深度學(xué)習(xí)框架選擇的是Pytorch,顯卡為NVIDIA GeForce RTX 3090。訓(xùn)練時(shí)部分網(wǎng)絡(luò)參數(shù)見表1。

        表1 網(wǎng)絡(luò)訓(xùn)練參數(shù)

        3.3 評(píng)價(jià)方法

        圖像描述中衡量描述性語(yǔ)句適當(dāng)性和流暢性兩方面的評(píng)價(jià)指標(biāo)采用的是BLEU、Meteor和ROUGE,這些都是經(jīng)過時(shí)間檢驗(yàn)?zāi)苷_評(píng)價(jià)實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)。

        BLEU使用的是N-gram匹配規(guī)則匹配描述性語(yǔ)句與參考描述,隨著N的增大表示重合程度越高,同時(shí)生成的語(yǔ)句也越流暢;METERO是基于BLEU缺乏對(duì)召回率評(píng)價(jià)的改進(jìn),同時(shí)考慮單詞在語(yǔ)句中的位置和成分;ROUGE為基于描述中n元詞的共現(xiàn)信息來評(píng)價(jià),是一種面向n元詞召回率的圖像描述評(píng)價(jià)方法,以上評(píng)價(jià)指標(biāo)分?jǐn)?shù)越高表明模型生成描述結(jié)果越好。

        3.4 結(jié)果分析

        以LSTM為解碼器的Adaptive模型是目前圖像描述領(lǐng)域表現(xiàn)最好的模型結(jié)構(gòu)之一,由表2(Seg_model為以CNN為解碼器同時(shí)編碼器搭配語(yǔ)義分割模塊的圖像描述模型,Noseg_model為以CNN為解碼器但是解碼器并沒有添加語(yǔ)義分割模塊的圖像描述模型)實(shí)驗(yàn)結(jié)果可知,本文模型在參數(shù)量高于Adaptive模型2到3倍的情況下依然有更快的訓(xùn)練速度,Seg_model和Noseg_model的訓(xùn)練速度幾乎只有Adaptive速度的一半,以LSTM作為解碼器的Adaptive模型因?yàn)長(zhǎng)STM無(wú)法向CNN一樣并行訓(xùn)練,所以即使有更少的參數(shù)量也難有更短的訓(xùn)練時(shí)間,因此以CNN作為解碼器在訓(xùn)練速度上要優(yōu)于LSTM的解碼器。

        表2 本文方法與LSTM作解碼器參數(shù)對(duì)比

        圖7為Seg_model和Adaptive在BLEU4分?jǐn)?shù)對(duì)比,橫坐標(biāo)為迭代次數(shù),縱坐標(biāo)為BLEU4評(píng)價(jià)分?jǐn)?shù),分?jǐn)?shù)越高代表評(píng)價(jià)效果越出色,Seg_model模型在迭代次數(shù)為55的時(shí)候開始收斂,而Adaptive模型在迭代次數(shù)為52時(shí)候會(huì)開始收斂,結(jié)合運(yùn)行訓(xùn)練時(shí)間,本文模型能更快收斂,更具實(shí)際意義。

        圖7 Seg_model和Adaptive在BLEU4分?jǐn)?shù)收斂

        為了保證實(shí)驗(yàn)結(jié)果的有效性和公平性,本文在同等條件下對(duì)其它模型進(jìn)行了多次實(shí)驗(yàn)。由表3(B1、B2、B3、B4分別代表BLEU1、BLEU2、BLEU3、BLEU4評(píng)價(jià)指標(biāo))實(shí)驗(yàn)數(shù)據(jù)可知,與其它5個(gè)經(jīng)典模型相比本文模型具有一定優(yōu)勢(shì)。B1表示只要有詞相同精度就高,并不要求語(yǔ)序,與B1分?jǐn)?shù)最高的S-A和H-A比較,Seg_model精度僅比H-A低0.2%,比S-A高0.1%,幾乎沒有差距,說明我們的模型能夠識(shí)別出描述圖片的語(yǔ)句,隨著Bn的n提高,評(píng)價(jià)標(biāo)準(zhǔn)開始注重生成描述的語(yǔ)序,n越高還能有較高的精度才是優(yōu)秀模型應(yīng)該有的表現(xiàn),以最高的B4為例,B4時(shí)Seg_model和Noseg_model精度高達(dá)0.278和0.266,比在B4表現(xiàn)最好的gLSTM和mRNN分別提升了1.2%和0.2%,比表現(xiàn)較次的NIC模型提高了7.5%和6.3%,在METEOR和ROUGH上Seg_model同樣比最高的H-A模型分別提升了0.6%和0.3%。由Noseg_model的B1和B3精度可知模型使用全卷積解碼后確實(shí)會(huì)導(dǎo)致模型精度降低,Noseg_model在B1上比S-A和H-A分別降低1.1%和1.4%,由此可知CNN解碼能力相較于LSTM解碼能力偏弱,LSTM門限結(jié)構(gòu)能夠儲(chǔ)存更多更長(zhǎng)依賴的信息,進(jìn)而生成較好的描述,但Seg_model添加了語(yǔ)義分割后各項(xiàng)評(píng)價(jià)指標(biāo)提升了約1%左右,語(yǔ)義信息的增強(qiáng)有利于圖像描述精度的提高。

        表3 本文方法與其它經(jīng)典模型的最佳結(jié)果比較

        表4的Convcap模型是同樣使用Masked卷積作為解碼器在相同條件下多次實(shí)驗(yàn)的對(duì)比結(jié)果,精度上除了B2相差0.2%以外,其余評(píng)價(jià)指標(biāo)都有提升,B1、B3、B4、METEOR、ROUGE分別提高1.2%、0.9%、0.2%、0.9%、0.5%,隨著Bn評(píng)價(jià)指標(biāo)n的提高本文模型精度在提高,說明本文模型生成的語(yǔ)句更具有順序性和邏輯性。METERO是基于BLEU的改進(jìn),精度更高說明單詞在語(yǔ)句中位置更合適。這更加表明語(yǔ)義信息的增強(qiáng)對(duì)圖像描述具有非凡的意義。

        表4 本文模型與Convcap結(jié)果比較

        表5是本文Seg_model模型和S-A在MSCOCO數(shù)據(jù)集上隨機(jī)生成的描述,對(duì)比兩種描述可知生成的描述都能表達(dá)出圖片的含義。由第5幅圖可知S-A模型只描述了一個(gè)女人,而本文模型卻描述出了圖像中所有人,語(yǔ)義信息的增強(qiáng)可以讓模型理解圖像中有哪些物體,但總體來說兩種優(yōu)秀模型生成的描述旗鼓相當(dāng)。

        表5 COCO數(shù)據(jù)集上生成描述對(duì)比

        由實(shí)驗(yàn)結(jié)果可知語(yǔ)義信息的增強(qiáng)確實(shí)對(duì)模型非常有利,語(yǔ)義分割提取的是像素級(jí)別的特征,能夠區(qū)分出屬于各個(gè)目標(biāo)類的像素[19],這對(duì)圖像描述是十分有利的,表6為從MSCOCO數(shù)據(jù)集中隨機(jī)挑選的部分圖片及其描述,由表6數(shù)據(jù)集描述可知MSCOCO并沒有描述圖片中每一個(gè)物體,這也正是本文靈感來源之一,圖像描述不需要太精細(xì)的特征,不需要把輸入圖像中的每一個(gè)目標(biāo)都識(shí)別出來,只需要提取出相同的目標(biāo)類并在此基礎(chǔ)上理解相互關(guān)系即可。

        表6 MSCOCO數(shù)據(jù)集個(gè)別數(shù)據(jù)展示

        然而并不是所有的語(yǔ)義分割模型都能提高模型精度,本文選擇UNet作為語(yǔ)義特征提取模塊是在相當(dāng)漫長(zhǎng)的失敗中做的選擇,由大量失敗實(shí)驗(yàn)可知模型結(jié)構(gòu)復(fù)雜同時(shí)包含過多的高低層特征融合的模型結(jié)構(gòu)既不會(huì)給模型精度帶來多大提升,還會(huì)因?yàn)檫^多的特征融合增加模型訓(xùn)練速度。因此選擇輕量級(jí)且有強(qiáng)語(yǔ)義提取能力的UNet可以讓模型生成描述能力進(jìn)一步提高。

        由表7實(shí)驗(yàn)結(jié)果對(duì)比表4實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),以Seg_model為例,B1、B2、B3、B4、METEOR、ROUGE分別提高了1.7%、0.7%、0.8%、1%、0.5%、1.6%,為注意力添加注意力后,加強(qiáng)了注意力結(jié)果與查詢向量之間的關(guān)聯(lián)性,抑制不相關(guān)信息對(duì)模型生成描述的誤導(dǎo),如果不添加注意力,受到冗余信息的影響,注意力機(jī)制把對(duì)應(yīng)區(qū)域帶入解碼器時(shí)會(huì)影響解碼器生成圖像描述,降低生成描述的能力。

        表7 未改進(jìn)注意力機(jī)制的模型最佳結(jié)果

        4 結(jié)束語(yǔ)

        本文在圖像描述中提出語(yǔ)義分割和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的圖像描述方法,編碼時(shí)使用語(yǔ)義分割提取圖像語(yǔ)義信息的同時(shí)并行連接圖像特征提取網(wǎng)絡(luò),加強(qiáng)編碼器對(duì)圖像中物體間關(guān)系的理解;解碼時(shí)為了加快訓(xùn)練速度,使用CNN代替LSTM作為解碼器縮短模型的訓(xùn)練時(shí)間;同時(shí)為了增加注意力與查詢之間的關(guān)聯(lián)性,在注意力機(jī)制上再添加注意力抑制不相關(guān)信息對(duì)模型生成描述的誤導(dǎo),進(jìn)一步提高實(shí)驗(yàn)效果。對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出的模型結(jié)構(gòu)要優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)圖像描述模型,在圖像描述領(lǐng)域有廣泛應(yīng)用。希望本文提出的語(yǔ)義分割和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型結(jié)構(gòu)能夠?yàn)閳D像描述的提供新的解決思路。

        猜你喜歡
        語(yǔ)義特征信息
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        語(yǔ)義分析與漢俄副名組合
        236宅宅理论片免费| 国产亚洲精品97在线视频一| 国模精品一区二区三区| 中文字幕日韩一区二区三区不卡| 亚洲av无码专区在线亚| 淫秽在线中国国产视频| 日本一区二区三区视频网站| 亚洲精品成人网线在线播放va| 精品手机在线视频| 加勒比亚洲视频在线播放| 亚洲av日韩一卡二卡| 免费毛片a线观看| 精品五月天| 国产精品久久国产三级国| 久久777国产线看观看精品| 中文字幕一区在线观看视频| 久久亚洲AV无码精品色午夜| 国产av一区麻豆精品久久| 亚洲精品久久国产精品| 三级4级全黄60分钟| 国产女奸网站在线观看| 国产午夜福利小视频在线观看| 在线看不卡的国产视频| 免费人成视频网站在在线| 精品日产卡一卡二卡国色天香| 无码 制服 丝袜 国产 另类| 国产无套粉嫩白浆内精| 国产精品成人无码久久久久久| 国产av人人夜夜澡人人爽| 日韩毛片久久91| 一本色道久久88综合亚精品| 免费在线观看av不卡网站| 国产真实老熟女无套内射| 一区五码在线| 中文字幕av素人专区| 亚欧中文字幕久久精品无码| 999国产精品亚洲77777| 亚洲色图少妇熟女偷拍自拍| 丝袜美腿亚洲一区二区| 久久综合精品国产丝袜长腿| 亚洲色偷偷偷综合网另类小说|