亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度神經(jīng)網(wǎng)絡(luò)圖像描述綜述

        2021-05-14 06:27:48田英杰種法廣王子超
        關(guān)鍵詞:特征文本模型

        許 昊,張 凱,田英杰,種法廣,王子超

        1.上海電力大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海201300

        2.國(guó)家電網(wǎng)公司 上海電器科學(xué)研究院,上海200437

        近十年是深度學(xué)習(xí)進(jìn)入高速發(fā)展的黃金時(shí)期,各領(lǐng)域基于深度學(xué)習(xí)算法的研究取得了豐富的成果,其工業(yè)化的應(yīng)用也惠及到人們生活中的方方面面。例如,可以使用指紋、人臉或者虹膜進(jìn)行手機(jī)解鎖,在YouTube 觀看外語(yǔ)視頻時(shí)可以實(shí)現(xiàn)實(shí)時(shí)翻譯字幕的顯示。在年初爆發(fā)新型冠狀病毒的關(guān)鍵時(shí)期,大部分車(chē)站、高速收費(fèi)站等都可以使用紅外線檢測(cè)儀來(lái)安全快捷地檢測(cè)人體的體溫,年初時(shí)由于疫情大家都戴起了口罩,這也帶來(lái)了一些小的生活煩惱:很多通過(guò)人臉識(shí)別解鎖的手機(jī)“認(rèn)不得”自己了,但是隨著深度學(xué)習(xí)在大數(shù)據(jù)中的學(xué)習(xí),這一問(wèn)題很快得到了解決。深度學(xué)習(xí)在圖像領(lǐng)域:圖像分類(lèi)[1-3]、目標(biāo)檢測(cè)[4-6]、場(chǎng)景識(shí)別[7-9]等得到了廣泛應(yīng)用,隨后出現(xiàn)了多模態(tài)的圖像語(yǔ)義技術(shù),也就是將圖像和文本跨模態(tài)建立聯(lián)系,進(jìn)而使計(jì)算機(jī)能夠從人類(lèi)思維的角度出發(fā)去處理圖像中的信息,并能夠識(shí)別各目標(biāo)之間的聯(lián)系,最終以文字的形式表示出來(lái)。這項(xiàng)技術(shù)在人們的生活中也得到了有效的應(yīng)用,例如能夠?qū)γと诉M(jìn)行導(dǎo)航?;谶@樣的需求,能夠通過(guò)實(shí)時(shí)采取和分析視頻圖像,將采取的圖像信息進(jìn)行處理并輸出成一段文本,最后通過(guò)文本轉(zhuǎn)語(yǔ)音傳入盲人的耳中,使得盲人能夠?qū)崟r(shí)地感知周?chē)沫h(huán)境。對(duì)于智能機(jī)器人的發(fā)展也同樣重要,圖像描述的技術(shù)能夠準(zhǔn)確識(shí)別出提取圖像中的關(guān)鍵內(nèi)容,并進(jìn)一步理解圖像中各物體間的關(guān)系,相當(dāng)于讓它有了一雙能夠感知世界的“眼睛”,這對(duì)于機(jī)器人技術(shù)的發(fā)展也具有巨大的推動(dòng)作用。圖像描述在圖像檢索系統(tǒng)也有著一定的應(yīng)用價(jià)值,傳統(tǒng)的圖像檢索技術(shù)主要是利用圖像的標(biāo)簽進(jìn)行對(duì)應(yīng)索引的建立,但如果標(biāo)簽存在錯(cuò)誤,圖像就不能被正確檢索,如果將圖像描述技術(shù)應(yīng)用其中,圖像檢索系統(tǒng)能正確地理解圖像內(nèi)在目標(biāo)的語(yǔ)義,這樣系統(tǒng)也就能對(duì)龐大的無(wú)標(biāo)簽圖像進(jìn)行正確有效地檢索,這樣圖像檢索的效率就能得到提高,檢索的范圍也得到拓展。除此之外,該技術(shù)在其他領(lǐng)域也有著應(yīng)用前景,例如生成醫(yī)學(xué)CT圖像的報(bào)告,新聞標(biāo)題的生成等。近年來(lái),圖像描述的技術(shù)也趨于成熟,圖像描述的技術(shù)也發(fā)展到視頻描述,例如根據(jù)短視頻進(jìn)行一篇新聞報(bào)告的生成等??梢钥闯觯瑘D像描述技術(shù)在現(xiàn)實(shí)中的有著巨大的實(shí)用價(jià)值。

        圖像描述作為把計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理相結(jié)合的跨模態(tài)跨領(lǐng)域的任務(wù)。一般地,它將輸入的圖片通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征并利用循環(huán)神經(jīng)網(wǎng)絡(luò)等方法生成一段文字的描述,這段描述要求和圖片的內(nèi)容高度相似。這對(duì)于人類(lèi)來(lái)說(shuō)是很簡(jiǎn)單的,通俗來(lái)說(shuō)就是看圖說(shuō)話,幾歲的兒童就能很詳細(xì)地描述一張圖片的內(nèi)容。但對(duì)于計(jì)算機(jī)來(lái)說(shuō)還是有很大的難度的,這要求計(jì)算機(jī)利用模型來(lái)提取圖片內(nèi)的特征以及一些高層語(yǔ)義信息,然后利用自然語(yǔ)言處理的方法表達(dá)圖片中的內(nèi)容。

        最初,傳統(tǒng)的圖像描述算法是通過(guò)模板填充[10-11]的方法來(lái)生成圖像描述,它主要是通過(guò)局部二值模式、尺度不變特征轉(zhuǎn)換或者方向梯度直方圖等算法提取圖像的視覺(jué)特征,并根據(jù)這些特征檢測(cè)對(duì)應(yīng)目標(biāo)、動(dòng)作及屬性對(duì)應(yīng)的單詞詞匯,最后將這些單詞填入到模板中。不難看出這樣的方法雖然能夠保證句型語(yǔ)法的正確性,也有著很大的局限性,由于使用的模板是固定的,它也依賴(lài)于硬解碼的視覺(jué)概念影響,這樣生成的語(yǔ)句格式相對(duì)固定且形式單一,應(yīng)用的場(chǎng)景也很局限,正因?yàn)檫@樣天然的缺陷,后續(xù)的改進(jìn)也變得更加繁瑣而無(wú)法應(yīng)用到實(shí)際的場(chǎng)景之中。還有一種是基于檢索[12-13]的方法,它主要是將大量的圖片描述存于一個(gè)集合中,然后通過(guò)比較有標(biāo)簽圖片和訓(xùn)練生成圖片描述兩者間相似度來(lái)生成一個(gè)候選描述的集合,再?gòu)闹羞x擇最符合該圖片的描述。這樣的方法能保證語(yǔ)句的正確性,但語(yǔ)義的正確性卻難以保證,因而對(duì)圖像描述的正確率較低。

        得益于深度學(xué)習(xí)的發(fā)展,借助深度學(xué)習(xí)的方法推進(jìn)跨模態(tài)學(xué)習(xí)成為當(dāng)前的主流,這也是目前使用最多的基于生成的方法。這類(lèi)方法的大致流程是先將圖像信息編碼后作為輸入放進(jìn)模型,隨后利用此模型生成該圖像對(duì)應(yīng)的文本描述。如圖1所示,這樣的模型一般采用編碼器-解碼器架構(gòu),編碼器使用卷積神經(jīng)網(wǎng)絡(luò)(CNN[1])提取圖像特征,解碼器采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN[14])來(lái)生成文本描述。這是在圖像描述中普遍應(yīng)用且效果最好的模型,它在語(yǔ)句結(jié)構(gòu)的完整性、語(yǔ)義的正確性,以及泛化能力得到了一致的認(rèn)可。

        圖1 基于CNN-RNN的圖像描述

        1 基本架構(gòu)及改進(jìn)

        1.1 編碼器-解碼器架構(gòu)

        本章對(duì)基于深度神經(jīng)網(wǎng)絡(luò)[15]的圖像描述[16-17]基本架構(gòu)和改進(jìn)進(jìn)行介紹。首先,當(dāng)前圖像描述基本都是在編碼器-解碼器架構(gòu)上進(jìn)行改進(jìn),基于編碼器、解碼器上的改進(jìn)主要如圖2所示。

        圖2 基本架構(gòu)概述

        在2015 年,Vinyals等人[18]提出一個(gè)NIC 的模型,這個(gè)模型的靈感來(lái)自于谷歌2014 年有關(guān)機(jī)器翻譯的工作,也就是著名的系列到序列(seq2seq)模型[19],它著重解決的是語(yǔ)言翻譯的問(wèn)題,最終也取得了很好的成績(jī),這也是編碼器-解碼器架構(gòu)的最初提出。在機(jī)器翻譯里,輸入的是源語(yǔ)言,輸出的是目標(biāo)語(yǔ)言的翻譯文字,由于兩句話的長(zhǎng)度可能不等,該模型采用RNN 網(wǎng)絡(luò)對(duì)句子進(jìn)行了編碼,轉(zhuǎn)化為一個(gè)固定長(zhǎng)度的向量,然后再將這個(gè)向量輸入到另一個(gè)RNN 網(wǎng)絡(luò)來(lái)進(jìn)行解碼,進(jìn)而輸出翻譯后的句子。這樣的結(jié)構(gòu)在機(jī)器翻譯的模型中實(shí)現(xiàn)了變長(zhǎng)序列到變長(zhǎng)序列的一個(gè)映射。對(duì)應(yīng)到NIC 模型中就是圖片到文字的一個(gè)映射。如圖3所示,這篇論文中的模型基于機(jī)器翻譯模型上進(jìn)行了改進(jìn),編碼器使用基于CNN的InceptionNet提取圖像特征信息,解碼器依舊使用RNN處理輸入的圖像信息來(lái)生成描述。在同一時(shí)期,Karpathy 等人[20]提出的結(jié)構(gòu)和NIC 模型幾乎一致,區(qū)別在于它使用VGGNet[21]作為圖像特征提取器。

        圖3 NIC模型

        在NIC 模型的訓(xùn)練階段使用的是COCO 數(shù)據(jù)集中訓(xùn)練集和數(shù)據(jù)集中的圖片及其對(duì)應(yīng)的文本描述。在編碼階段,模型用CNN 將圖片編碼為向量I,I是一個(gè)224×224×3 的向量,這里的CNN 使用的是Google Inception Net 后接一層全連接層。對(duì)于圖片相應(yīng)的文本描述,為每句描述添加一個(gè)start 和end 標(biāo)記,也就是圖3 中的<BOS>和<EOS>。假設(shè)提取的語(yǔ)料庫(kù)有m個(gè)詞,首先將句子中的每個(gè)單詞編碼成獨(dú)熱編碼(one-hot)的形式,如圖3中的每一個(gè)LSTM模塊的輸入都是一個(gè)m維的向量,然后通過(guò)一個(gè)矩陣變換將這個(gè)m維向量轉(zhuǎn)換為一個(gè)512 維的向量,即和圖像的編碼維度相同。而在解碼階段,模型使用的是單層的LSTM 網(wǎng)絡(luò),可以用下列公式描述這個(gè)過(guò)程:

        其中,N-1 表示句子的長(zhǎng)度,不包括<BOS><EOS>標(biāo)記,LSTM可以表述成ht+1=f(ht,xt),ht表示為t時(shí)刻LSTM的輸出,這個(gè)公式可以理解為每一步的輸出是上一步的輸出和當(dāng)前時(shí)刻的輸入的函數(shù)。對(duì)應(yīng)到公式(1)中,h-1=0,初始值為0,h0=f(h-1,x-1),x0=WeS0,如此循環(huán)。LSTM每一步的輸出后會(huì)接一個(gè)softmax分類(lèi)器,維度等于語(yǔ)料庫(kù)中的詞匯量,模型的損失是每一步正確預(yù)測(cè)單詞的負(fù)對(duì)數(shù)似然之和,如公式(2)所示:

        使用這個(gè)損失函數(shù)來(lái)最大化每一步輸出單詞的概率。在接下來(lái)的訓(xùn)練階段,NIC 模型選擇已經(jīng)在Imagenet上訓(xùn)練好的CNN模型,訓(xùn)練的第一階段固定CNN的參數(shù)不變,參與訓(xùn)練的有LSTM 和wordembedding 的參數(shù)。在第二階段再把CNN、LSTM 和wordembedding這三部分的參數(shù)一同進(jìn)行訓(xùn)練。在預(yù)測(cè)階段,有兩種生成描述的方式:第一種是在LSTM 生成單詞的每一步選擇模型輸出概率最大的一個(gè)單詞,直到預(yù)測(cè)輸出到<EOS>標(biāo)記停止。第二種是使用beamsearch,需預(yù)先設(shè)定一個(gè)值N,論文中選用的值是3,那么在第一步選擇輸出概率最大的三個(gè)單詞,第二步依舊選擇概率最大的三個(gè)單詞并與上一步生成三個(gè)單詞的組合,即九個(gè)短語(yǔ)的組合,然后再選取其中概率最大的三個(gè)短語(yǔ),以此類(lèi)推。最終模型訓(xùn)練出來(lái)的模型具有很好的泛化能力。

        Showandtell[18]和Neural Talk[20]介紹了圖像描述的編碼器-解碼器架構(gòu),可以說(shuō)是圖像描述在深度神經(jīng)網(wǎng)絡(luò)的啟蒙之作,對(duì)后續(xù)圖像描述的發(fā)展有著深遠(yuǎn)的影響,使編碼器-解碼器架構(gòu)成為圖像描述的主流,對(duì)其他相關(guān)預(yù)測(cè)模型也有著一定的借鑒意義。

        1.2 基于編碼器改進(jìn)

        Fang等人[22]對(duì)編碼器進(jìn)行了改進(jìn),該方法可以分為三步:第一步檢測(cè)單詞,采用使用多實(shí)例學(xué)習(xí)來(lái)訓(xùn)練視覺(jué)檢測(cè)器來(lái)識(shí)別生成描述中常見(jiàn)的單詞,包括名詞、動(dòng)詞和形容詞等不同部分。這樣的方法可以避免有些描述性詞匯如beautiful 不能在圖片中被框出。第二步生成句子,采用統(tǒng)計(jì)模型MELM 來(lái)預(yù)測(cè)下一個(gè)單詞的概率。第三步重新排序句子,選擇最符合的語(yǔ)句。通過(guò)提取關(guān)鍵詞作為輸入來(lái)生成描述的方法為后續(xù)結(jié)合圖像和語(yǔ)義的編碼方法提供了借鑒。

        Li 等人[23]在特征提取方法上使用目標(biāo)檢測(cè)算法Fast R-CNN 提取目標(biāo)檢測(cè)框作為圖像特征,并使用該特征額外訓(xùn)練屬性分類(lèi)器來(lái)獲取對(duì)象的屬性,比如物體的顏色、材質(zhì)等。隨后將圖像特征和屬性特征輸入到視覺(jué)語(yǔ)義LSTM 中進(jìn)行解碼。在編碼階段使用目標(biāo)檢測(cè)算法能夠提取帶有類(lèi)似注意力效果的圖像特征,為解碼器生成高質(zhì)量文本提供了可能。Anderson 等人[24]的工作使用類(lèi)似的編碼器并改進(jìn)了解碼器,得到了當(dāng)時(shí)的最優(yōu)結(jié)果。

        1.3 基于解碼器改進(jìn)

        編碼階段主要是基于圖像領(lǐng)域知識(shí)的應(yīng)用,解碼階段則是自然語(yǔ)言處理領(lǐng)域知識(shí)的創(chuàng)新改進(jìn)和應(yīng)用。

        Wang等人[25]提出了一種新型的解碼結(jié)構(gòu)。人類(lèi)在看圖描述的過(guò)程中,一般是先定位圖片的位置和他們之間的關(guān)系,然后再詳細(xì)說(shuō)明物體的屬性。以此為基礎(chǔ),他們?cè)O(shè)計(jì)了一種coarse-to-fine 的方法。首先由Skel-LSTM使用CNN提取的圖像特征來(lái)生成骨架語(yǔ)句,然后使用Attr-LSTM 為骨架語(yǔ)句中的詞語(yǔ)生成對(duì)應(yīng)的屬性詞,最后將這兩部分結(jié)合生成完整的最終描述語(yǔ)句。

        Mathews等人[26]為了生成高精度且具有語(yǔ)言風(fēng)格的圖像描述,提出了一個(gè)分離語(yǔ)義和風(fēng)格的結(jié)構(gòu),通過(guò)兩組GRU 單元來(lái)實(shí)現(xiàn)的。一組GRU 提取圖像特征中的語(yǔ)義對(duì)(詞語(yǔ)、屬性),另一組GRU是基于一本小說(shuō)訓(xùn)練得到。基于上述輸入的語(yǔ)義對(duì)來(lái)生成最終富有語(yǔ)言風(fēng)格的描述。

        此外,Aneja 等人[27]提出了一種不同于用LSTM 或者RNN 進(jìn)行解碼的方法,該工作啟發(fā)式地利用卷積來(lái)進(jìn)行圖像描述,達(dá)到不比傳統(tǒng)LSTM差的效果。它的輸入輸出和RNN 一樣,都進(jìn)行了wordembedding,但將RNN 的部分換成了MaskedCNN,使用這樣的方法能夠避免RNN 的時(shí)序限制,如此可以在相同的參數(shù)量下有更快的訓(xùn)練速度。

        受模板生成方法的啟發(fā),Lu 等人[28]提出了一種“插槽”的圖像描述方法,其生成句子中的插槽與圖像區(qū)域相關(guān)聯(lián),直接依據(jù)圖像特征去預(yù)測(cè)單詞。該結(jié)構(gòu)在編碼階段使用目標(biāo)檢測(cè)算法Fast R-CNN提取圖像的區(qū)域特征。解碼階段將句子中的詞語(yǔ)分為視覺(jué)詞與文本詞,如果當(dāng)前時(shí)刻所產(chǎn)生的詞是文本詞,那么這個(gè)單詞通過(guò)語(yǔ)言模型從文本詞匯庫(kù)中生成;如果是視覺(jué)詞,由目標(biāo)檢測(cè)算法直接由圖像標(biāo)定區(qū)域特征產(chǎn)生的視覺(jué)詞進(jìn)行填充,最終形成描述。使用神經(jīng)網(wǎng)絡(luò)模型來(lái)提取句子模板,有效地解決了傳統(tǒng)模板填充語(yǔ)句呆板的問(wèn)題。

        Yu等人[29]提出使用Transformer作為解碼器,Transformer是一種僅使用Attention而不使用RNN或CNN的模型。該工作使用Faster R-CNN模型從圖像中提取視覺(jué)特征,經(jīng)過(guò)Transformer 進(jìn)行再編碼后輸入另一個(gè)Transformer進(jìn)行解碼,編碼部分也可不經(jīng)過(guò)Transformer的編碼直接輸入到解碼器中。由于Transformer能夠獲得圖像和文本各自注意力狀態(tài)以及圖像文本間的聯(lián)合注意力,因此能夠生成更高質(zhì)量的描述文本。

        人類(lèi)在描述一張圖片時(shí),不僅從圖片本身獲得相關(guān)信息,還有著其他相關(guān)背景知識(shí)地支撐。知識(shí)圖譜的發(fā)展和應(yīng)用也為這一方向提供了可能。Lu 等人[30]在圖像描述中引入了知識(shí)圖譜相關(guān)的知識(shí)。該工作先使用CNN和LSTM的編碼器-解碼器架構(gòu)來(lái)生成圖像描述的文本模板,然后使用基于Knowledge Graph的集體推理算法,根據(jù)實(shí)體類(lèi)型和頻率在模板中為每個(gè)槽填充通過(guò)知識(shí)圖譜檢索的特定命名實(shí)體。最終的描述結(jié)果在結(jié)構(gòu)語(yǔ)義上能夠得到不錯(cuò)的提升。

        1.4 小結(jié)

        上述簡(jiǎn)要介紹了圖像描述在編碼器-解碼器架構(gòu)上的一些代表性工作。(1)在編碼階段主要表現(xiàn)在引入了目標(biāo)檢測(cè)和關(guān)鍵詞提取。對(duì)于圖像特征的提取影響著后續(xù)文本生成的工作,在編碼階段要求更好地提取圖片內(nèi)的信息以及圖片內(nèi)各目標(biāo)之間的聯(lián)系、目標(biāo)檢測(cè)以及注意力機(jī)制等方法的使用都是出于這樣的目的。(2)為了編碼器輸出的特征能夠更好的應(yīng)用,在解碼階段創(chuàng)造性地引入卷積神經(jīng)網(wǎng)絡(luò)(CNN)解碼、雙層解碼器和知識(shí)圖譜等外領(lǐng)域的知識(shí)。不難看出,在未來(lái)相當(dāng)一段時(shí)間內(nèi),圖像描述的研究工作還會(huì)在編碼器-解碼器架構(gòu)上進(jìn)行創(chuàng)新和發(fā)展。

        2 方法實(shí)現(xiàn)及改進(jìn)

        在編碼器-解碼器架構(gòu)上對(duì)于圖像描述算法的后續(xù)改進(jìn)主要有這樣四種方法:注意力機(jī)制、對(duì)抗生成網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)、圖卷積神經(jīng)網(wǎng)絡(luò)。圖4 簡(jiǎn)要概括了各類(lèi)方法。

        圖4 基于深度神經(jīng)網(wǎng)絡(luò)的圖像描述方法

        2.1 注意力機(jī)制

        2.1.1 概念

        從最基本的意義上講,注意力定義為從所有可用信息中選擇一個(gè)子集進(jìn)行進(jìn)一步處理的過(guò)程。視覺(jué)注意對(duì)于建立圖像內(nèi)部表示的時(shí)空連貫性至關(guān)重要。注意力機(jī)制在圖像描述領(lǐng)域的引入得到了驚人的效果。

        隨著生成描述語(yǔ)句的多樣復(fù)雜化,對(duì)應(yīng)的句子向量也變長(zhǎng),為了應(yīng)對(duì)這樣的長(zhǎng)序列,注意力機(jī)制在圖像描述中應(yīng)用逐漸廣泛。目前圖像描述主流的注意力機(jī)制有這樣幾種:自注意力(Self-Attention)[31]、硬注意力(Hard Attention)[32]、軟注意力機(jī)制(Soft Attention)[32]。

        自注意力機(jī)制是一種與單個(gè)序列自身不同位置相關(guān)聯(lián)的注意力機(jī)制,其目的是計(jì)算同一序列的表示形式。例如語(yǔ)句“A dog is running after a cat.”句中單詞的生成都依賴(lài)于與其余單詞的內(nèi)在聯(lián)系。每個(gè)單詞vi與序列中其他單詞vj的內(nèi)在聯(lián)系eij可以用公式(3)表示:

        在經(jīng)過(guò)softmax層歸一化后可以得到對(duì)應(yīng)每個(gè)單詞的注意力權(quán)重,以此來(lái)進(jìn)行選擇后續(xù)的單詞生成。

        在圖像描述模型應(yīng)用中,自注意力機(jī)制一般結(jié)合Transformer 模塊使用,Yu 等人[29]應(yīng)用的Transformer 模塊中有這樣的自注意力機(jī)制,這個(gè)模塊能夠獲得圖像信息和文本信息各自注意力狀態(tài)以及圖像信息和文本信息之間的聯(lián)合注意力狀態(tài),因此使得模型性能得到不錯(cuò)的提升。

        硬注意力機(jī)制將集合向量中權(quán)重最大的一個(gè)向量賦值為1,其他向量權(quán)重值為0,這樣就達(dá)到了只關(guān)注權(quán)值為1 向量對(duì)應(yīng)圖像區(qū)域的目的。其上下文向量z^t可以用公式(4)表示:

        其中,ai表示圖像區(qū)域i的向量,st,i表示當(dāng)圖像區(qū)域ai被選中時(shí)取值為1,否則為0。

        在圖像描述模型應(yīng)用中,應(yīng)用硬注意力機(jī)制能減少訓(xùn)練的時(shí)間成本,缺點(diǎn)是模型不可微,需要采用更復(fù)雜的技術(shù)進(jìn)行處理,例如使用蒙特卡洛方法或者強(qiáng)化學(xué)習(xí)等。

        軟注意力機(jī)制給以集合向量中每一個(gè)向量介于0與1 之間的注意力權(quán)重,權(quán)重之和為1。其上下文向量可以用公式(5)表示:

        其中,αt,i表示圖像區(qū)域ai在t時(shí)刻被解碼器選中輸入下一時(shí)間步長(zhǎng)的概率。

        在圖像描述模型應(yīng)用中,應(yīng)用軟注意力機(jī)制可以使得模型更加平滑且可微分,缺點(diǎn)是當(dāng)輸入數(shù)據(jù)量很大時(shí),相應(yīng)的參數(shù)量將很大,對(duì)于硬件要求很高。相比而言,由于軟注意力機(jī)制良好的解釋性,其在主流的研究中得到了更廣泛的應(yīng)用。

        2.1.2 相關(guān)工作

        Xu等人[32]在2016年在NIC模型的基礎(chǔ)上把注意力機(jī)制應(yīng)用在圖像描述的圖像特征中。其基本思想是將編碼階段獲取的圖像特征進(jìn)行注意力處理,解碼階段使用LSTM。在NIC模型中,生成預(yù)測(cè)句子中的每一個(gè)單詞時(shí),沒(méi)有考慮圖片中對(duì)應(yīng)的位置,它接受的輸入是上一步預(yù)測(cè)得到的單詞和隱藏層的輸出,注意力機(jī)制就是在預(yù)測(cè)每一步單詞的同時(shí)加入對(duì)應(yīng)在圖片中的位置信息,即ht+1=f(ht,xt,z^t),z^t∈RD。如圖5所示,模型在預(yù)測(cè)下劃線單詞能關(guān)注圖中亮點(diǎn)部分信息,而不是使用整張圖片的編碼信息進(jìn)行輸入。該文章提出了兩種注意力機(jī)制:硬注意力機(jī)制和軟注意力機(jī)制。訓(xùn)練時(shí)模型接受的輸入是一張圖片和對(duì)應(yīng)的描述,描述中的每一個(gè)詞會(huì)被編碼為一個(gè)one-hot向量。在LSTM中的解碼部分,與NIC 模型從CNN 的最后接一個(gè)全連接層來(lái)生成固定長(zhǎng)度的向量不同,而是直接獲得卷積的結(jié)果,也就是一張張?zhí)卣鲌D。特征圖的尺寸為n×n,數(shù)量為D,實(shí)驗(yàn)可知,每一張?zhí)卣鲌D中對(duì)應(yīng)位置也就是關(guān)注的圖片中的相同的位置,整張圖片關(guān)注區(qū)域的集合可以表示為a={a1,a2,…,aL},ai∈RD,L=n×n。這里集合中的每一個(gè)向量也就對(duì)應(yīng)圖片中某個(gè)區(qū)域的特征信息。

        圖5 Attention機(jī)制可視化

        Lu 等人[33]提出了注意力機(jī)制的改進(jìn)工作。這項(xiàng)工作考慮生成描述時(shí)與視覺(jué)信息無(wú)關(guān)詞的問(wèn)題,如“the”“of”這些詞和圖片內(nèi)容是無(wú)關(guān)的,而且有些需要視覺(jué)特征來(lái)生成的詞,也可以直接通過(guò)語(yǔ)言模型進(jìn)行預(yù)測(cè),例如“taking on a cell”后生成“phone”,因此在LSTM 上進(jìn)行了擴(kuò)展,加入了“崗哨向量”,存儲(chǔ)著解碼器中已有的知識(shí)信息。同時(shí)提出新的自適應(yīng)注意力機(jī)制,使得模型在生成每個(gè)詞時(shí),可以決定模型是關(guān)注視覺(jué)信息還是只依靠語(yǔ)言模型,如果需要關(guān)注視覺(jué)信息,通過(guò)空間注意力來(lái)決定關(guān)注圖像的哪個(gè)區(qū)域,其機(jī)制如圖6 所示。自適應(yīng)上下文的向量定義為C^t,這個(gè)向量融合圖像的空間特征和視覺(jué)哨崗向量βt。具體計(jì)算公式如公式(6)所示:

        這個(gè)創(chuàng)新的改進(jìn)在當(dāng)時(shí)達(dá)到了最好的水平,并且在現(xiàn)在的COCO排行榜上仍排名很高。

        圖6 視覺(jué)崗哨的自適應(yīng)注意力模型

        Anderson等人[24]引入了Top-down、Bottom-up機(jī)制。該模型編碼器使用目標(biāo)檢測(cè)算法Faster R-CNN來(lái)進(jìn)行提取圖像的區(qū)域特征。為了提升提取特征的能力,對(duì)Faster R-CNN 的輸出和損失函數(shù)進(jìn)行了改進(jìn),設(shè)計(jì)了屬性分類(lèi)的部分。Bottom-up機(jī)制用來(lái)提取圖像各區(qū)域的特征向量,Top-down的機(jī)制用來(lái)分配Bottom-up提取的特征對(duì)文本描述的貢獻(xiàn)度,兩者提取到的特征組合得到聯(lián)合注意力權(quán)重。在解碼階段使用一個(gè)雙層LSTM模型,分別是Attention LSTM和Language LSTM,由軟注意力加權(quán)后的圖像特征向量和Attention LSTM 的輸出作為L(zhǎng)anguage LSTM 的輸入,產(chǎn)生最終的描述。這樣的Top-down、Bottom-up 機(jī)制能夠使模型關(guān)注圖像中重要的對(duì)象目標(biāo),使得描述的結(jié)構(gòu)主次分明。這項(xiàng)工作在編碼和解碼階段的改進(jìn)在當(dāng)前仍具有極高的利用價(jià)值。

        Huang等人[34]在文獻(xiàn)[35]工作的基礎(chǔ)上加入了AoA(Attention on Attention)模塊,該模塊增加另一種注意來(lái)擴(kuò)展了常規(guī)注意機(jī)制。該模塊通過(guò)兩個(gè)線性變換生成一個(gè)“信息向量”和一個(gè)“注意門(mén)”。信息向量通過(guò)線性變換從當(dāng)前上下文和關(guān)注結(jié)果中導(dǎo)出,并存儲(chǔ)注意力信息與來(lái)自當(dāng)前上下文的信息。注意門(mén)獲取查詢(xún)信息和注意力結(jié)果,并通過(guò)另一個(gè)線性變換加以sigmoid 激活得出。隨后,AoA通過(guò)使用逐元素乘法將注意門(mén)應(yīng)用于信息向量來(lái)增加另一個(gè)注意力,得到“關(guān)注信息”,即預(yù)期的有用知識(shí)。在該模型中,AoA模塊應(yīng)用在編碼器和解碼器中,在編碼器中,首先提取圖像中的特征向量,并采用自注意力模塊對(duì)它們之間的關(guān)系進(jìn)行建模,然后應(yīng)用AoA 來(lái)衡量它們之間的關(guān)聯(lián)程度。在解碼器中,AoA 模塊能過(guò)濾詞嵌入向量ct中無(wú)關(guān)的信息,僅保留注意力部分,隨后使用LSTM進(jìn)行解碼輸出。這樣組成的一個(gè)AoANet,結(jié)合強(qiáng)化學(xué)習(xí)能夠更好地解決不相關(guān)注意力問(wèn)題,達(dá)到當(dāng)時(shí)最優(yōu)的性能。

        2.1.3 小結(jié)

        注意力機(jī)制最初在計(jì)算機(jī)視覺(jué)領(lǐng)域提出,在自然語(yǔ)言處理領(lǐng)域也得到了廣泛的應(yīng)用。對(duì)于結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的圖像描述研究來(lái)講,注意力機(jī)制已成為不可缺少的一個(gè)組件,也是當(dāng)前研究的重點(diǎn)之一。在解碼器生成下一時(shí)間步長(zhǎng)的單詞時(shí),注意力機(jī)制能夠起到讓模型將“注意力”集中到圖像中最相關(guān)的那個(gè)區(qū)域,使得圖像和生成文本間聯(lián)系更加緊密,因此能達(dá)到很好的效果。

        2.2 生成對(duì)抗網(wǎng)絡(luò)的方法

        2.2.1 概念

        先前的圖像描述方法主要通過(guò)極大似然估計(jì)(MLE)的思想來(lái)訓(xùn)練模型,即最大化訓(xùn)練樣本出現(xiàn)的可能性。傳統(tǒng)的編碼器-解碼器架構(gòu)在訓(xùn)練上多采用交叉熵作為損失函數(shù),這樣會(huì)使模型在生成的圖片描述會(huì)高度模仿Ground Truth,這是全監(jiān)督學(xué)習(xí)的優(yōu)勢(shì),也是局限所在,它生成的描述會(huì)更加泛化,從而抑制了多樣化的表達(dá)?;谶@樣的考慮,有研究者把在圖像領(lǐng)域有著優(yōu)異表現(xiàn)的生成對(duì)抗網(wǎng)絡(luò)方法融入到圖像描述中。

        生成對(duì)抗網(wǎng)絡(luò)(GAN)[36],由一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò)組成,二者互相競(jìng)爭(zhēng)訓(xùn)練,最后達(dá)到一種平衡。如圖7 所示,生成網(wǎng)絡(luò)通過(guò)機(jī)器生成數(shù)據(jù)(大部分情況下是圖像),目的是“騙過(guò)”判別網(wǎng)絡(luò),判別網(wǎng)絡(luò)判斷這張圖像是真實(shí)的還是機(jī)器生成的,目的是找出生成網(wǎng)絡(luò)做的“假數(shù)據(jù)”。GAN 的核心思想是基于判別網(wǎng)絡(luò)的“間接”訓(xùn)練,判別網(wǎng)絡(luò)本身也在動(dòng)態(tài)更新。

        圖7 GAN基本結(jié)構(gòu)

        2.2.2 相關(guān)工作

        Dai等人[37]首次將Conditional GAN 運(yùn)用在圖像描述,該方法生成的圖片描述貼近人類(lèi)的表達(dá),改善了句子的自然性和多樣性。如圖8所示,該模型由一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò)組成。生成網(wǎng)絡(luò)使用傳統(tǒng)的編碼器-解碼器架構(gòu),用CNN提取的圖像特征及噪聲作為輸入,用LSTM生成句子。隨后通過(guò)蒙特卡洛樹(shù)搜索算法從判別網(wǎng)絡(luò)得到損失,并通過(guò)策略梯度算法更新參數(shù),輸入圖像得到偽造的句子描述。判別網(wǎng)絡(luò)用LSTM 對(duì)句子編碼,然后與圖像特征一起處理,得到一個(gè)概率值。在訓(xùn)練判別網(wǎng)絡(luò)時(shí),把對(duì)自然性的判別和對(duì)相關(guān)性的判別區(qū)分開(kāi),也就是說(shuō),判別網(wǎng)絡(luò)既要判別句子是否像是人類(lèi)生成的,又要判別句子和圖片是否相關(guān)。這項(xiàng)工作以產(chǎn)生多樣性描述為切入點(diǎn)引入了Conditional GAN 的結(jié)構(gòu),實(shí)驗(yàn)證明在多樣性會(huì)明顯好于傳統(tǒng)的模型,但是該模型算法和人類(lèi)描述還是有著不小的差距。

        圖8 Dai等人模型

        同年,Shetty等人[38]也同樣使用了Conditional GAN的結(jié)構(gòu)在圖像描述上,其主體結(jié)構(gòu)與上一項(xiàng)工作差別不大。不同之處主要是在輸入項(xiàng)中除CNN 和噪聲特征外,還有目標(biāo)檢測(cè)的特征,通過(guò)常用的目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN 得到。為了讓生成網(wǎng)絡(luò)捕捉到更清晰的目標(biāo)信息,在改用Gumbel-Softmax[39]的技巧把采樣過(guò)程近似成連續(xù)可微的操作取代策略梯度算法來(lái)更新參數(shù)。與文獻(xiàn)[37]區(qū)別在于提出了一個(gè)判別網(wǎng)絡(luò),它接受圖片與其對(duì)應(yīng)的描述,并懲罰生成網(wǎng)絡(luò)組內(nèi)相似度高的描述。這個(gè)判別網(wǎng)絡(luò)有兩個(gè)計(jì)算距離的核心,一個(gè)計(jì)算圖片與描述間的距離來(lái)判斷描述是否準(zhǔn)確,另一個(gè)計(jì)算不同描述間的距離來(lái)判斷描述是否足夠多樣化。這種的機(jī)制能夠使得生成網(wǎng)絡(luò)生成更加多樣化的描述語(yǔ)句。

        此外,Zhang等人[40]提出的模型由兩個(gè)不同的GAN組成。第一個(gè)GAN 基于文本描述生成初始的形狀,基礎(chǔ)的顏色,然后從隨機(jī)noise中繪出背景分布,產(chǎn)生低分辨率圖像,第二個(gè)GAN通過(guò)結(jié)合文本描述,進(jìn)行圖像的細(xì)致化繪制,產(chǎn)生高質(zhì)量的圖像。Shekhar 等人[41]拓展了COCO數(shù)據(jù)集,并通過(guò)對(duì)抗樣本驗(yàn)證了Lavi模型的魯棒性,Dai 等人[42]則使用對(duì)抗樣樣本訓(xùn)練解決圖像描述任務(wù)生成的描述缺少獨(dú)特性的問(wèn)題??梢钥闯?,在使用生成對(duì)抗網(wǎng)絡(luò)來(lái)訓(xùn)練的模型能解決生成的描述缺少多樣化的問(wèn)題。

        以上的方法主要是基于公開(kāi)數(shù)據(jù)集上的有監(jiān)督學(xué)習(xí),近年來(lái)有些研究者開(kāi)始使用無(wú)監(jiān)督的方式訓(xùn)練圖像描述的模型。Feng 等人[43]首次提出了這樣的一個(gè)無(wú)監(jiān)督的模型,它使用對(duì)抗文本生成方法在語(yǔ)料庫(kù)中訓(xùn)練一個(gè)語(yǔ)言模型,生成網(wǎng)絡(luò)接收CNN提取的圖像特征,產(chǎn)生基于該特征的句子。判別網(wǎng)絡(luò)判斷該句子是模型產(chǎn)生的,還是來(lái)自語(yǔ)料庫(kù)的真實(shí)句子。生成網(wǎng)絡(luò)通過(guò)生成盡可能真實(shí)的句子來(lái)騙過(guò)判別網(wǎng)絡(luò),為了實(shí)現(xiàn)這個(gè)目標(biāo),模型在每個(gè)時(shí)間步驟給生成網(wǎng)絡(luò)一個(gè)獎(jiǎng)勵(lì),并將此獎(jiǎng)勵(lì)命名為對(duì)抗性獎(jiǎng)勵(lì)。通過(guò)預(yù)訓(xùn)練好一個(gè)視覺(jué)檢測(cè)器,對(duì)每幅圖像中檢測(cè)里面的視覺(jué)概念,如果生成的句子里包含了視覺(jué)概念,那么給獎(jiǎng)勵(lì)。為了產(chǎn)生的描述比較準(zhǔn)確,圖像和句子被投射到一個(gè)共同的潛在空間。給定投影圖像特征,可以解碼對(duì)應(yīng)的描述,進(jìn)一步用于重建圖像特征。同樣,可以將句子從語(yǔ)料庫(kù)編碼到潛在的空間特征,然后重建句子。通過(guò)對(duì)生成的句子進(jìn)行雙向重構(gòu),使得生成的句子能夠很好地表達(dá)圖像的語(yǔ)義,進(jìn)而改進(jìn)了圖像字幕模型。這樣基于無(wú)監(jiān)督學(xué)習(xí)的模型能夠更好地生成多樣性描述,為研究者的后續(xù)研究提供了一個(gè)新的方向。

        2.2.3 小結(jié)

        通過(guò)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)間的博弈,生成對(duì)抗網(wǎng)絡(luò)的在圖像描述算法中的應(yīng)用能使解碼器生成比較逼真的句子,文字更加自然和多樣。但也存在著在評(píng)價(jià)標(biāo)準(zhǔn)中得分不高的缺點(diǎn)。

        2.3 強(qiáng)化學(xué)習(xí)的方法

        2.3.1 概念

        強(qiáng)化學(xué)習(xí)[44]是機(jī)器學(xué)習(xí)一個(gè)領(lǐng)域,它主要包含智能體(Agent)、環(huán)境(Environment)、行動(dòng)(Action)、獎(jiǎng)勵(lì)(Reward)四個(gè)元素。智能體通過(guò)交互和反饋的方式進(jìn)行訓(xùn)練,環(huán)境從中獲得懲罰或者獎(jiǎng)勵(lì),最終解決特定的任務(wù)。圖9 描述了強(qiáng)化學(xué)習(xí)的基本流程。強(qiáng)化學(xué)習(xí)在深度學(xué)習(xí)各領(lǐng)域也有著廣泛的應(yīng)用,傳統(tǒng)的圖像描述研究,都是將單詞生成看成一個(gè)分類(lèi)的問(wèn)題,主流模型也是利用交叉熵?fù)p失函數(shù)來(lái)訓(xùn)練模型。但是利用交叉熵?fù)p失函數(shù)訓(xùn)練存在以下問(wèn)題:模型訓(xùn)練和測(cè)試階段存在曝光誤差,交叉熵?fù)p失函數(shù)無(wú)法直接對(duì)不可微分的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行微分運(yùn)算。強(qiáng)化學(xué)習(xí)能夠同時(shí)解決這兩個(gè)問(wèn)題,它能夠直接用來(lái)優(yōu)化不可微分的評(píng)價(jià)標(biāo)準(zhǔn)。

        圖9 強(qiáng)化學(xué)習(xí)基本結(jié)構(gòu)

        2.3.2 相關(guān)工作

        Ranzato等人[45]將BLEU和ROUGE-2評(píng)價(jià)指標(biāo)作為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)來(lái)訓(xùn)練模型。在訓(xùn)練階段,句子的前幾個(gè)單詞使用交叉熵?fù)p失函數(shù)訓(xùn)練,剩下單詞采用強(qiáng)化學(xué)習(xí)訓(xùn)練。隨著逐步提高強(qiáng)化學(xué)習(xí)的比例,最終整個(gè)語(yǔ)句都用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。針對(duì)在圖像描述中交叉熵?fù)p失函數(shù)無(wú)法直接對(duì)不可微分的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行微分運(yùn)算的問(wèn)題,Liu等人[46]提出在強(qiáng)化學(xué)習(xí)中將SPICE和CIDEr評(píng)價(jià)指標(biāo)作為獎(jiǎng)勵(lì),并使用策略梯度來(lái)優(yōu)化上述指標(biāo)的參數(shù)。該模型使用蒙特卡羅方法來(lái)抽取樣本并估計(jì)每次時(shí)序上的回報(bào)獎(jiǎng)勵(lì)。在加入強(qiáng)化學(xué)習(xí)后,圖像描述算法的效果有了顯著的提高。

        Ren 等人[47]同樣使用強(qiáng)化學(xué)習(xí)訓(xùn)練圖像描述模型,并采用了Actor-critic 結(jié)構(gòu)。該模型將智能體定義為圖像描述生成網(wǎng)絡(luò),環(huán)境狀態(tài)定義為當(dāng)前狀態(tài)的視覺(jué)特征和生成的描述,行動(dòng)定義為可用單詞,獎(jiǎng)勵(lì)定義為在同一向量空間內(nèi)圖像和其真實(shí)描述對(duì)應(yīng)的視覺(jué)向量和文本向量之間的相似度。其策略、獎(jiǎng)勵(lì)和價(jià)值函數(shù)利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行近似,視覺(jué)特征使用VGG-16網(wǎng)絡(luò)進(jìn)行編碼,語(yǔ)義特征使用RNN 網(wǎng)絡(luò)進(jìn)行編碼。它通過(guò)上述結(jié)構(gòu)訓(xùn)練一個(gè)“策略網(wǎng)絡(luò)”和“價(jià)值網(wǎng)絡(luò)”相互協(xié)同來(lái)生成圖像描述。策略網(wǎng)絡(luò)由VGG16 和LSTM 組成,它用于在給定當(dāng)前狀態(tài)預(yù)測(cè)下一步操作。價(jià)值網(wǎng)絡(luò)在策略網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上添加用于回歸任務(wù)的多層感知器,用于評(píng)估給定圖像特征的下一個(gè)單詞和生成語(yǔ)句的前一個(gè)單詞。實(shí)驗(yàn)證明在COCO 數(shù)據(jù)集上該結(jié)構(gòu)能夠達(dá)到當(dāng)時(shí)最優(yōu)的結(jié)果。

        Rennie等人[35]提出了一種新的序列訓(xùn)練方法,簡(jiǎn)稱(chēng)SCST(Self-Critical Sequence Training),并證明SCST算法可以極大地改善圖像描述算法的性能。該方法通過(guò)直接對(duì)CIDEr評(píng)分標(biāo)準(zhǔn)進(jìn)行優(yōu)化,該模型基于策略梯度的強(qiáng)化學(xué)習(xí)算法建立一個(gè)基線,即通過(guò)貪婪搜索算法選出概率前n大的句子作為這個(gè)基線,模型會(huì)抑制得分在基線以下的語(yǔ)句,激勵(lì)得分在基線以上的語(yǔ)句。這可以使模型更有效地對(duì)CIDEr評(píng)分標(biāo)準(zhǔn)進(jìn)行訓(xùn)練,并使用策略梯度來(lái)更新模型。這樣的SCST 方法在MSCOCO數(shù)據(jù)集上取得了當(dāng)時(shí)的最優(yōu)結(jié)果。后來(lái)的很多研究者也在這樣的一個(gè)模型進(jìn)行了改進(jìn)。

        2.3.3 小結(jié)

        強(qiáng)化學(xué)習(xí)在圖像描述算法中的應(yīng)用主要表現(xiàn)在對(duì)評(píng)價(jià)標(biāo)準(zhǔn)的直接優(yōu)化,從源頭上能顯著提升生成描述的質(zhì)量,因此在已有模型上加入強(qiáng)化學(xué)習(xí)算法能夠有效地提升模型的性能。

        2.4 圖卷積網(wǎng)絡(luò)的應(yīng)用

        2.4.1 概念

        圖卷積網(wǎng)絡(luò)(GCN)是對(duì)圖數(shù)據(jù)類(lèi)型執(zhí)行卷積的網(wǎng)絡(luò),而不是CNN對(duì)像素組成的圖像執(zhí)行卷積。一般地,圖數(shù)據(jù)可以用G=(V,E)來(lái)表示,V代表圖的頂點(diǎn),E代表圖的邊,圖10描繪出圖卷積網(wǎng)絡(luò)的基本框架。

        圖10 圖卷積網(wǎng)絡(luò)結(jié)構(gòu)

        CNN旨在從圖像中提取最重要的信息以對(duì)圖像進(jìn)行分類(lèi),GCN 也會(huì)在圖形上通過(guò)過(guò)濾器來(lái)尋找有助于對(duì)圖形中的節(jié)點(diǎn)進(jìn)行分類(lèi)的基本頂點(diǎn)和邊緣。在CNN中,所有像素之間的節(jié)點(diǎn)連接是統(tǒng)一的,這足以解決圖像分類(lèi)的問(wèn)題。但在節(jié)點(diǎn)連接是動(dòng)態(tài)的情況下,CNN將達(dá)到其極限,因?yàn)镃NN 僅適用于具有規(guī)則結(jié)構(gòu)的數(shù)據(jù)(歐幾里德域數(shù)據(jù)),而GCN 能夠處理非歐幾里德域數(shù)據(jù)。因此GCN在處理圖像分類(lèi)等任務(wù)上有著優(yōu)異的性能。

        2.4.2 相關(guān)工作

        Yao 等人[48]提出了一個(gè)層次解析(HIP)的結(jié)構(gòu)。該結(jié)構(gòu)會(huì)將圖片解析成樹(shù)狀結(jié)構(gòu):整張圖片作為該結(jié)構(gòu)的根節(jié)點(diǎn),由Faster R-CNN 提取圖片得到的一系列Region-level區(qū)域作為中間節(jié)點(diǎn),由另一個(gè)Faster R-CNN來(lái)提取圖片的Instance-level 區(qū)域作為葉子節(jié)點(diǎn)。在該層次結(jié)構(gòu)上,構(gòu)建具有區(qū)域級(jí)別的有向邊的語(yǔ)義圖,其中頂點(diǎn)表示每個(gè)區(qū)域,而邊緣表示各區(qū)域之間的關(guān)系。利用圖卷積網(wǎng)絡(luò)豐富該語(yǔ)義圖各區(qū)域間的視覺(jué)關(guān)系,這能顯著改善圖像描述的質(zhì)量。該模型使用了GCN結(jié)合圖像內(nèi)兩種不同的特征,使得能在解碼階段生成高質(zhì)量的描述,增強(qiáng)了模型的可解釋性。

        Chen等人[49]提出了一個(gè)抽象場(chǎng)景圖(Abstract Scene Graph,ASG)的結(jié)構(gòu),見(jiàn)圖11。應(yīng)用圖結(jié)構(gòu)來(lái)提取圖像內(nèi)主觀想表達(dá)的物體、屬性以及關(guān)系特征,該結(jié)構(gòu)能夠更細(xì)粒度反映出用戶(hù)主觀想表達(dá)的描述意圖,同時(shí)生成的描述也更加多樣化。ASG模塊中設(shè)置三類(lèi)節(jié)點(diǎn):物體節(jié)點(diǎn)(obj)、屬性節(jié)點(diǎn)(attr)和關(guān)系節(jié)點(diǎn)(rel),這樣能夠充分抽取出圖像中的特征,在應(yīng)用圖注意力機(jī)制和更新機(jī)制下,通過(guò)Up-Down Attention 中的雙層LSTM 來(lái)生成多樣性的描述。上述模型能夠基于給定的ASG模型來(lái)主動(dòng)地實(shí)現(xiàn)更好的交互性、可解釋性、多樣性描述。Wang等人[50]使用了類(lèi)似的圖結(jié)構(gòu)對(duì)圖片中的節(jié)點(diǎn)進(jìn)行增強(qiáng),并使用時(shí)序卷積神經(jīng)網(wǎng)絡(luò)(TCN)沿時(shí)間維度建立多張圖片之間的交互,得到集合中圖像內(nèi)部關(guān)系和跨圖像關(guān)系的特征,最后輸入到層次化解碼器中來(lái)生成一段小故事。上述跨圖片生成可解釋性段落的思路也是未來(lái)圖像描述的一個(gè)研究方向。

        圖11 ASG結(jié)構(gòu)

        2.4.3 小結(jié)

        人類(lèi)看圖描述時(shí),會(huì)將圖像抽象看作一個(gè)場(chǎng)景,然后觀看和推測(cè)圖像內(nèi)各目標(biāo)之間的關(guān)系,將這樣的關(guān)系轉(zhuǎn)化為圖結(jié)構(gòu)能夠更好地保存特征的可解釋性與推理性。因此在圖像描述中應(yīng)用GCN能更好將圖像中物體間的特征保留,并和文本更好地匹配來(lái)生成高質(zhì)量的描述文本。

        2.5 小結(jié)

        在現(xiàn)在主流的圖像描述模型中,都會(huì)在編碼器-解碼器的基本架構(gòu)上加入注意力機(jī)制來(lái)提高模型的性能,注意力機(jī)制能夠在生成文本時(shí)突出圖像中的主體,并能夠準(zhǔn)確表述出主體間以及與其他目標(biāo)之間的關(guān)系,這也是目前注意力機(jī)制在圖像描述模型廣泛應(yīng)用的原因。生成對(duì)抗網(wǎng)絡(luò)(GAN)的應(yīng)用,其通過(guò)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)間的博弈來(lái)生成更加生動(dòng)的、貼近原圖片的自然化描述,雖然其評(píng)價(jià)得分不高,其特點(diǎn)對(duì)于機(jī)器人視覺(jué)或者盲人導(dǎo)航卻很適用。強(qiáng)化學(xué)習(xí)從評(píng)價(jià)標(biāo)準(zhǔn)出發(fā),利用強(qiáng)化學(xué)習(xí)的方法對(duì)其進(jìn)行優(yōu)化,可以說(shuō)是更加標(biāo)準(zhǔn)化的一種措施。這對(duì)于圖像檢索、醫(yī)學(xué)CT 報(bào)告生成這樣有格式化需求的場(chǎng)景是個(gè)不錯(cuò)的選擇。GCN能有效地抽取圖像內(nèi)各個(gè)目標(biāo)之間的聯(lián)系,并對(duì)節(jié)點(diǎn)特征信息和結(jié)構(gòu)信息進(jìn)行端對(duì)端的學(xué)習(xí),其在圖像描述的公開(kāi)數(shù)據(jù)集上能夠生成具有交互性、可解釋性、多樣性描述。只是隨著網(wǎng)絡(luò)層數(shù)的增加,模型的性能會(huì)大幅下降,并且其可擴(kuò)展性差,模型參數(shù)過(guò)于冗余,收斂慢,訓(xùn)練時(shí)間長(zhǎng)。各方法的性能對(duì)比如表1所示。

        表1 不同圖像描述方法性能對(duì)比

        3 實(shí)驗(yàn)分析與對(duì)比

        本章首先整理了目前應(yīng)用于圖像描述的公開(kāi)圖像數(shù)據(jù)集,分別進(jìn)行介紹和對(duì)比,接著介紹了針對(duì)圖像描述領(lǐng)域的主流評(píng)價(jià)標(biāo)準(zhǔn),最后在此基礎(chǔ)上對(duì)現(xiàn)有不同圖像描述結(jié)構(gòu)的性能進(jìn)行實(shí)驗(yàn)對(duì)比和分析。

        3.1 數(shù)據(jù)集

        深度學(xué)習(xí)是在大量數(shù)據(jù)集的基礎(chǔ)上驅(qū)動(dòng)實(shí)現(xiàn)的,公開(kāi)數(shù)據(jù)集的提供有利于各領(lǐng)域的發(fā)展。在圖像描述領(lǐng)域,目前廣泛應(yīng)用的數(shù)據(jù)集主要有以下三種,主要對(duì)比如表2所示。

        表2 數(shù)據(jù)集對(duì)比

        (1)Microsoft COCO數(shù)據(jù)集[51]

        MSCOCO 數(shù)據(jù)集被廣泛運(yùn)用于目標(biāo)檢測(cè)、目標(biāo)追蹤以及圖像描述。該數(shù)據(jù)集旨在通過(guò)將對(duì)象識(shí)別問(wèn)題置于更廣泛的場(chǎng)景理解問(wèn)題的上下文中,從而提高對(duì)象識(shí)別的最新水平,并通過(guò)收集包含自然環(huán)境中常見(jiàn)對(duì)象的圖像來(lái)實(shí)現(xiàn)。該數(shù)據(jù)集使用專(zhuān)業(yè)機(jī)構(gòu)人為地對(duì)圖片進(jìn)行描述,每張圖片收錄5 句或者15 句參考描述,可以想象這項(xiàng)工作消耗了大量的人力物力。MSCOCO數(shù)據(jù)集對(duì)應(yīng)的標(biāo)注集,一般以json 格式保存。第一種是MSCOCO C5,每張圖像包含5 句參考描述。第二種是MSCOCO C40,這個(gè)標(biāo)注集對(duì)應(yīng)只包含著5 000 張圖片,這些圖片是從MSCOCO數(shù)據(jù)集中隨機(jī)篩選出來(lái)的,與C5 不同的是,它的每張圖片包含著40 句參考描述。一般使用C5 標(biāo)注集即可滿(mǎn)足訓(xùn)練的要求,通常使用MSCOCO數(shù)據(jù)集也一般默認(rèn)使用MSCOCO C5。這個(gè)數(shù)據(jù)集也是目前圖像描述研究者實(shí)驗(yàn)的首選。該數(shù)據(jù)集有超過(guò)33 萬(wàn)張圖片,其中20 萬(wàn)有標(biāo)注描述,包含91類(lèi)目標(biāo),328 000張圖像中總共有250萬(wàn)個(gè)帶有標(biāo)簽的實(shí)例,這也是目前最大的語(yǔ)義分割數(shù)據(jù)集。

        (2)Flickr8K[52]和Flickr30k[53]數(shù)據(jù)集

        從數(shù)據(jù)集的命名可以看出這兩個(gè)數(shù)據(jù)集分別包含了8 000和30 000(確切是31 783)張圖片。這些圖片從Flickr相冊(cè)網(wǎng)站選出。該數(shù)據(jù)集每張圖片具有5句人工標(biāo)注的參考描述,這兩個(gè)數(shù)據(jù)集的驗(yàn)證集和測(cè)試集使用的圖片數(shù)量都是1 000 張,剩余的圖片用于訓(xùn)練階段??梢钥闯觯啾萂SCOCO數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集在數(shù)量方面存在著明顯的不足,但由于MSCOCO數(shù)據(jù)量太大,在訓(xùn)練過(guò)程中會(huì)花費(fèi)大量的時(shí)間,F(xiàn)lickr 數(shù)據(jù)集在初探圖像描述時(shí)可以使用來(lái)進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證模型的效果。

        (3)Visual Genome數(shù)據(jù)集[54]

        Visual Genome(VG)數(shù)據(jù)集是斯坦福大學(xué)李飛飛組在2016 年發(fā)布的大規(guī)模圖像語(yǔ)義理解的數(shù)據(jù)集,初衷是該數(shù)據(jù)集能夠像ImageNet那樣推動(dòng)圖像在高級(jí)語(yǔ)義理解方面的研究。該數(shù)據(jù)集包含超過(guò)10 萬(wàn)張圖像,其中每個(gè)圖像平均具有21 個(gè)對(duì)象,18 個(gè)屬性以及對(duì)象之間的18 對(duì)關(guān)系,在標(biāo)注數(shù)據(jù)方面包含了每張圖片的目標(biāo),屬性以及圖像內(nèi)目標(biāo)間的關(guān)系。該數(shù)據(jù)集規(guī)范化區(qū)域描述中的對(duì)象、屬性、關(guān)系和名詞短語(yǔ),以及Word-Net同義詞集的問(wèn)題答案對(duì)。它代表了圖像描述、對(duì)象、屬性、關(guān)系和圖片問(wèn)答的最密集最大的數(shù)據(jù)集。而針對(duì)VG 數(shù)據(jù)集中的區(qū)域標(biāo)注過(guò)程,該數(shù)據(jù)集的人工標(biāo)注并不是直接標(biāo)注目標(biāo)間的關(guān)系,不然標(biāo)注員往往傾向于標(biāo)出一些高頻而瑣碎的關(guān)系,如wearing(woman,shoes),而非聚焦圖片中最顯眼的部分。在生活中,人們?cè)谟米匀徽Z(yǔ)言描述圖片時(shí),也更傾向于捕捉圖片的主體部分,所以,標(biāo)注員最終被要求先給出描述,再根據(jù)描述來(lái)標(biāo)注區(qū)域(region)、邊界框(bounding box)、目標(biāo)(object)、關(guān)系(relationship)等其他內(nèi)容。在最原始的VG數(shù)據(jù)集中,數(shù)據(jù)太過(guò)龐大,其中目標(biāo)的標(biāo)注也過(guò)于雜亂,還有命名模糊和boundingbox重疊的問(wèn)題。在2019年Liang等人[55]對(duì)這個(gè)數(shù)據(jù)集進(jìn)行了改進(jìn),該數(shù)據(jù)集旨在提取圖片中真正與視覺(jué)相關(guān)的聯(lián)系,同時(shí)也改善了原VG數(shù)據(jù)集中謂語(yǔ)冗余的問(wèn)題。在此使用此數(shù)據(jù)集進(jìn)行特征表示的預(yù)訓(xùn)練后,在圖像描述模型的性能上有著普遍的提升。該數(shù)據(jù)集提出時(shí)間相對(duì)較短,不少的研究工作開(kāi)始使用這個(gè)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,相信在不久的未來(lái),VG數(shù)據(jù)集會(huì)得到更加廣泛的應(yīng)用。

        3.2 評(píng)價(jià)指標(biāo)

        很顯然,評(píng)價(jià)標(biāo)準(zhǔn)有權(quán)威性的是人類(lèi)自己,但是要對(duì)深度學(xué)習(xí)中海量的數(shù)據(jù)進(jìn)行評(píng)價(jià)單靠人工是不現(xiàn)實(shí)的,因此人們也提出了各類(lèi)自動(dòng)評(píng)價(jià)標(biāo)準(zhǔn),旨在最終實(shí)驗(yàn)的結(jié)果盡可能和人工評(píng)價(jià)相關(guān)接近。最主流的評(píng)價(jià)標(biāo)準(zhǔn)有以下幾種:BLEU、ROUGE、METEOR和CIDEr。

        (1)BLEU[56]

        BLEU(Bilingual Evaluation Understudy)最初是用于評(píng)估從一種自然語(yǔ)言機(jī)器翻譯為另一種自然語(yǔ)言得到文本的質(zhì)量的一種算法。這和圖像描述算法評(píng)價(jià)生成文本的要求是一致的,即對(duì)生成的待評(píng)價(jià)語(yǔ)句和人工標(biāo)注語(yǔ)句間的差異進(jìn)行評(píng)分,得分輸出在0~1 之間。該標(biāo)準(zhǔn)現(xiàn)已成為圖像描述算法應(yīng)用最廣泛的計(jì)算標(biāo)準(zhǔn)之一。

        對(duì)于圖像Ii,圖像描述算法對(duì)于這個(gè)圖像生成的描述語(yǔ)句ci,人工標(biāo)注的五個(gè)描述語(yǔ)句集合Si={si1,si2,…,si5} ∈S,要對(duì)ci進(jìn)行評(píng)價(jià)。BLEU 的計(jì)算公式如下所示:

        其中,每一個(gè)語(yǔ)句用n 元組ωk來(lái)表示的,n 元組ωk在人工標(biāo)注語(yǔ)句sij中出現(xiàn)的次數(shù)記作hk(sij),n 元組ωk在待評(píng)價(jià)語(yǔ)句ci∈C 中出現(xiàn)的次數(shù)記作hk(ci),lC是待評(píng)價(jià)語(yǔ)句ci的總長(zhǎng),lS是人工標(biāo)注語(yǔ)句的總長(zhǎng)度。b(C,S )是一個(gè)簡(jiǎn)潔性懲罰機(jī)制,由于BLEU 的評(píng)價(jià)標(biāo)準(zhǔn)設(shè)計(jì)傾向于更短的句子,因?yàn)檫@樣的精度分?jǐn)?shù)會(huì)很高,為了解決這個(gè)問(wèn)題,該標(biāo)準(zhǔn)使用了乘以簡(jiǎn)潔性懲罰參數(shù)來(lái)防止很短的句子獲得很高的得分,具體規(guī)則在公式(7)中可以看出,如果有多個(gè)候選的參考語(yǔ)句,該標(biāo)準(zhǔn)會(huì)選擇待評(píng)價(jià)語(yǔ)句和參考語(yǔ)句兩者長(zhǎng)度最近的那個(gè)參考語(yǔ)句進(jìn)行計(jì)算評(píng)價(jià)。BLEU得分越高,性能也就越好。

        (2)ROUGE[57]

        ROUGE最初是用于評(píng)估自然語(yǔ)言處理中的自動(dòng)摘要和機(jī)器翻譯的評(píng)價(jià)標(biāo)準(zhǔn),它是由自然語(yǔ)言處理領(lǐng)域內(nèi)多名專(zhuān)家對(duì)指定數(shù)據(jù)給出專(zhuān)業(yè)的描述,然后將自動(dòng)生成的摘要或翻譯與其進(jìn)行比較。通過(guò)比較兩者之間如n元語(yǔ)法,詞序列和詞對(duì)重疊的數(shù)目來(lái)評(píng)價(jià)自動(dòng)摘要或者翻譯的質(zhì)量。通過(guò)與專(zhuān)業(yè)性摘要的對(duì)比評(píng)價(jià),能有效提高模型的可靠性。ROUGE得分越高,性能也就越好。

        (3)METEOR[58]

        METEOR 最初也是用來(lái)評(píng)價(jià)機(jī)器翻譯輸出的標(biāo)準(zhǔn)。該算法基于整個(gè)語(yǔ)料庫(kù)的精度和召回的調(diào)和平均值。簡(jiǎn)而言之,它對(duì)比待評(píng)價(jià)語(yǔ)句和參考語(yǔ)句之間一元組的重疊部分,并根據(jù)語(yǔ)義、詞干形式、精確度來(lái)匹配一元組。相比BLEU 標(biāo)準(zhǔn),由于這個(gè)標(biāo)準(zhǔn)引入了外部知識(shí),因此評(píng)價(jià)時(shí)更加接近人類(lèi)的判斷。METEOR 得分越高,性能也就越好。

        (4)CIDEr[59]

        不同于上述標(biāo)準(zhǔn),CIDEr是專(zhuān)門(mén)設(shè)計(jì)用于評(píng)價(jià)圖像描述算法的,它通過(guò)計(jì)算每個(gè)n 元組的TF-IDF 權(quán)重得到待評(píng)價(jià)語(yǔ)句和參考語(yǔ)句之間的相似度,以此評(píng)價(jià)圖像描述的效果。一個(gè)n 元組ωk在人工標(biāo)注語(yǔ)句sij中出現(xiàn)的次數(shù)記作hk(sij),在待評(píng)價(jià)語(yǔ)句中出現(xiàn)的次數(shù)記作hk(ci),n 元組ωk的TF-IDF權(quán)重gk(sij)如下所示:

        其中,Ω 是所有n 元組的語(yǔ)料庫(kù),I 是數(shù)據(jù)集中所有圖像的集合??梢钥闯?,當(dāng)有n 元組頻繁出現(xiàn)參考語(yǔ)句中,TF 給以該n 元組更高的權(quán)重,IDF 則會(huì)降低該n 元組在生成語(yǔ)句中的權(quán)重。簡(jiǎn)而言之,該方法會(huì)降低對(duì)圖像視覺(jué)內(nèi)容沒(méi)有幫助的高頻單詞的權(quán)重。

        對(duì)于長(zhǎng)度為n 的n 元組的CIDErn評(píng)分計(jì)算公式如下:

        其中,gn( ci),gn( sij)分別是gk( ci)和gk( sij)生成的向量,‖gn( ci)‖,‖gn( sij)‖則是對(duì)應(yīng)向量的模。同樣的,CIDEr的得分越高,表明待評(píng)價(jià)語(yǔ)句和參考語(yǔ)句之間的相似度越大,生成的語(yǔ)句的質(zhì)量也就越好。

        3.3 實(shí)驗(yàn)結(jié)果對(duì)比與分析

        本節(jié)主要進(jìn)行實(shí)驗(yàn)的復(fù)現(xiàn)和對(duì)比,以BLEU、METEOR、CIDEr三種不同的標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià)分析。實(shí)驗(yàn)環(huán)境基于Ubuntu18.04 系統(tǒng),CPU 為Inteli9-9900k,GPU為NVIDIA GeForce RTX 2080Ti,16 GB內(nèi)存,Python3.7+Cuda10.1的Pytorch或者Tensorflow深度學(xué)習(xí)環(huán)境。

        實(shí)驗(yàn)數(shù)據(jù)集使用MSCOCO2014的數(shù)據(jù)集和500 MB左右包含圖像描述注釋的json 文件,在處理注釋文件時(shí),刪除了非字母字符,將剩余的字符轉(zhuǎn)化為小寫(xiě)字母,并將所有出現(xiàn)小于5 次的單詞替換為特殊的單詞UNK。最終在MSCOCO數(shù)據(jù)集中得到9 517個(gè)單詞,也就是最終使用的語(yǔ)料庫(kù)。

        將生成語(yǔ)句的最大長(zhǎng)度設(shè)為16,采用Dropout 方法防止過(guò)擬合,參數(shù)一般設(shè)為0.5。在訓(xùn)練損失函數(shù)階段,訓(xùn)練輪數(shù)一般設(shè)為30,其他參數(shù)如解碼器輸出向量維度及解碼器隱藏層維度D,beam search(集束搜索)數(shù)量N,批處理大小B在表3 中列出,D列中有兩個(gè)維度(如500/1 000)表示解碼器中兩個(gè)不同的解碼器,其各自隱藏層的維度。

        表3 模型參數(shù)

        表4 和表5 中列舉主流的一些圖像描述模型。表4中列舉了上文所述在編碼器-解碼器架構(gòu)的代表模型。NIC[18]和模型[20]是傳統(tǒng)的編碼器-解碼器架構(gòu),一般地,以NIC 模型作為基準(zhǔn)模型進(jìn)行對(duì)比。模型[22-24]從編碼器端進(jìn)行改進(jìn),相比NIC 模型,這些模型的評(píng)價(jià)指標(biāo)得到了提升,這主要得益于更好地提取和利用圖像的特征。在模型[22]中是在編碼中將關(guān)鍵字語(yǔ)義和圖像的特征進(jìn)行結(jié)合,模型[23-24]利用目標(biāo)檢測(cè)的算法提取圖像特征,這樣可以提取圖像中的關(guān)鍵信息,能夠使得生成文本更加完整精確。模型[25-30]從解碼器端進(jìn)行改進(jìn),相比NIC 模型,這些模型的指標(biāo)也得到提升。利用LSTM、GRU、Transformer 以及知識(shí)圖譜等方法來(lái)解碼圖像特征,將圖像編碼更好地“翻譯”成文字描述。其中Transformer和知識(shí)圖譜的方法最終的指標(biāo)提升最為顯著,主要是由于Transformer結(jié)合圖像和文本各自的注意力信息以及兩者之間的聯(lián)合注意力信息,知識(shí)圖譜得益于引入了外部知識(shí)體系,以此來(lái)能生成更接近人類(lèi)的描述。可以得出這樣的結(jié)論:解碼器端更好地提取并利用圖像的特征是會(huì)得到性能的提升,在編碼器和解碼器端提高圖像信息和文本信息的關(guān)聯(lián)交互也能有效提高模型的效果。

        表4 編碼器-解碼器架構(gòu)的模型

        表5 不同方法融合模型

        表5中列舉了添加注意力機(jī)制(Up-Down[24]、Xu et al.[32]、Lu et al.[33]、AoANet[34])、生成對(duì)抗網(wǎng)絡(luò)(G-GAN[37]、Dai et al.[42]、Feng et al.[43])、強(qiáng)化學(xué)習(xí)(SCST[35]、Liu et al.[46]、Ren et al.[47])、圖卷積神經(jīng)網(wǎng)絡(luò)方法(HIP[48]、Chen et al.[49])融合后模型的性能。顯而易見(jiàn),加入注意力機(jī)制、強(qiáng)化學(xué)習(xí)后,實(shí)驗(yàn)的效果都得到了顯著的提高,所有的評(píng)價(jià)指標(biāo)都有著不錯(cuò)的提升。但是將對(duì)抗生成網(wǎng)絡(luò)應(yīng)用到模型中后,文獻(xiàn)[37]的指標(biāo)降低了,但生成的文本其實(shí)更加自然多樣化,這是由于評(píng)價(jià)指標(biāo)的限制,多樣的描述文本反而得不到很高的評(píng)分,這也是未來(lái)研究需要改進(jìn)的地方?;趫D卷積神經(jīng)網(wǎng)絡(luò)的模型[48-49]在CIDEr的評(píng)價(jià)中得到了所有模型中最高的得分,并有著顯著的優(yōu)勢(shì),可以看出圖結(jié)構(gòu)在圖像特征提取時(shí)能夠更加細(xì)粒度提取圖像內(nèi)各對(duì)象之間的關(guān)系,生成更加高質(zhì)量的文本。

        4 目前挑戰(zhàn)及未來(lái)發(fā)展方向

        4.1 主要挑戰(zhàn)分析

        近年來(lái),在某些格式要求相對(duì)固定的領(lǐng)域,圖像描述算法能很好地代替人類(lèi)生成滿(mǎn)足需求的文本,比如醫(yī)學(xué)圖像報(bào)告,通知文書(shū)等。目前,對(duì)于編碼器-解碼器架構(gòu)的改進(jìn)還有著很多的挑戰(zhàn)。

        (1)模型如何正確理解圖像的關(guān)鍵物體,并建立物體間的聯(lián)系,對(duì)最終模型的性能有著關(guān)鍵的影響。如何更好地提取和利用圖片中的特征,主流模型一般是使用卷積神經(jīng)網(wǎng)絡(luò)或者目標(biāo)檢測(cè)算法進(jìn)行特征提取,但圖片中的高層語(yǔ)義還是無(wú)法得到表述?;谧⒁饬C(jī)制的模型,能夠一定程度上從圖片部分區(qū)域出發(fā)去生成更符合人類(lèi)角度的描述,但還是存在一定的缺陷,當(dāng)前在公開(kāi)數(shù)據(jù)集下訓(xùn)練的模型對(duì)未知的物體還是無(wú)法正確地生成描述。

        (2)圖像描述的模型較為復(fù)雜,由于參數(shù)較多,模型訓(xùn)練的步驟比較復(fù)雜,訓(xùn)練時(shí)間也較長(zhǎng),一般都以指數(shù)量級(jí)繼續(xù)訓(xùn)練,使得在實(shí)際應(yīng)用時(shí)實(shí)時(shí)性不高。

        (3)目前的模型依賴(lài)公開(kāi)數(shù)據(jù)集訓(xùn)練,這樣模型輸入一般是固定的圖像特征,這樣對(duì)于同一個(gè)圖像的描述內(nèi)容基本沒(méi)有變化,生成的文本會(huì)相對(duì)單一。

        4.2 未來(lái)發(fā)展方向

        圖像描述是一個(gè)相對(duì)新的研究任務(wù),經(jīng)過(guò)研究人員近幾年的發(fā)展,取得了巨大的進(jìn)步?;诂F(xiàn)有的研究成果,圖像描述任務(wù)仍有著很大的發(fā)展空間。

        4.2.1 從有監(jiān)督到無(wú)監(jiān)督

        圖像描述一般都是采用成對(duì)的圖像-文本集的有監(jiān)督學(xué)習(xí),在實(shí)際應(yīng)用時(shí),獲取這樣成對(duì)的圖片文本是一個(gè)耗費(fèi)大量人力和時(shí)間成本的工程,這對(duì)于工業(yè)應(yīng)用來(lái)說(shuō),獲取數(shù)據(jù)的成本太高了。無(wú)監(jiān)督學(xué)習(xí)可以擺脫這樣的圖像-文本集,大大節(jié)省了人力物力。使用公開(kāi)數(shù)據(jù)集的圖片和從目標(biāo)網(wǎng)站爬取的文本語(yǔ)料庫(kù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),結(jié)合GAN的方法可以有效地解決問(wèn)題,這樣生成的文本也更加得豐富多樣化。

        4.2.2 從死板單一到豐富多樣化

        傳統(tǒng)方法從同一張圖片生成的描述基本是沒(méi)有變化的,這并不符合圖像描述的初衷,因此采用無(wú)監(jiān)督學(xué)習(xí)以及Conditional GAN、SeqGAN 的應(yīng)用,可以生成更加自然靈活的語(yǔ)句。

        4.2.3 從語(yǔ)句到段落化

        僅僅從圖像中生成一句話往往很難完整地概括圖片中的完整內(nèi)容,因此從圖片生成段落是一個(gè)必然的趨勢(shì),從幾張有關(guān)聯(lián)的圖片生成一段故事也成為可能。

        4.2.4 從復(fù)雜到輕量化

        當(dāng)前的圖像描述模型較為復(fù)雜,在實(shí)際應(yīng)用時(shí)往往很難落實(shí),設(shè)計(jì)出更加輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)能夠更方便地部署到工程落實(shí)中,乃至到手機(jī)等小型智能設(shè)備中,將這樣的技術(shù)落實(shí)到現(xiàn)實(shí)生活中能夠更好方便人類(lèi),自動(dòng)駕駛、導(dǎo)航視覺(jué)障礙者都急需這樣的技術(shù)支持。

        4.2.5 評(píng)價(jià)標(biāo)準(zhǔn)的更新

        現(xiàn)如今的圖像描述不再滿(mǎn)足接近訓(xùn)練文本,這在近幾年的發(fā)展中已經(jīng)趨于成熟,自然多樣化的文本描述才是圖像描述的要求歸宿,因此現(xiàn)如今的評(píng)價(jià)標(biāo)準(zhǔn)已經(jīng)無(wú)法滿(mǎn)足這樣的需求了,新的評(píng)價(jià)標(biāo)準(zhǔn)需求迫在眉睫。

        5 結(jié)束語(yǔ)

        本文從圖像描述在深度神經(jīng)網(wǎng)絡(luò)中的發(fā)展應(yīng)用出發(fā),結(jié)合模型結(jié)構(gòu)和算法的演變發(fā)展綜述具有代表性質(zhì)的圖像描述方法,并對(duì)此進(jìn)行不同方法的大致分類(lèi),在此基礎(chǔ)上進(jìn)行梳理和對(duì)比,并在公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)表明,圖像描述在基于編碼器-解碼器架構(gòu)上已逐漸趨于成熟,在編碼階段旨在提取更高層次的語(yǔ)義關(guān)系來(lái)為后續(xù)解碼階段生成更為相關(guān)的描述,生成對(duì)抗網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò)的引入為生成更多樣化、人性化的描述提供了可能。為了應(yīng)對(duì)當(dāng)前社會(huì)環(huán)境的應(yīng)用需求,圖像描述的發(fā)展還有著不少的挑戰(zhàn)。因此,基于深度神經(jīng)網(wǎng)絡(luò)的圖像描述進(jìn)一步研究還有很大的發(fā)展空間。

        猜你喜歡
        特征文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲精品国产成人| 精品人妻av区乱码| 熟妇人妻无乱码中文字幕真矢织江| 久久96国产精品久久久| 最近中文字幕mv在线资源| 亚洲一区中文字幕在线电影网| 精品国产av色一区二区深夜久久| 无码va在线观看| 色屁屁www影院免费观看入口| 久久久久久久综合狠狠综合 | 免费人成视频网站网址| 欧洲美熟女乱av亚洲一区| 国产精品无码一区二区三区| 亚洲人成人网站在线观看| 亚洲啪啪综合av一区| 二区久久国产乱子伦免费精品| 国产精品国产三级国产AvkTV| 中文字幕国内一区二区| 日本免费一区二区在线| 毛片在线播放亚洲免费中文网| 天堂视频在线观看一二区| 97碰碰碰人妻无码视频| 国内少妇偷人精品视频免费| 韩国精品一区二区三区| 加勒比熟女精品一区二区av| 色男色女午夜福利影院| 综合国产婷婷精品久久99之一 | 巨臀精品无码AV在线播放| 国产精品久久一区二区蜜桃| 野花视频在线观看免费| 国产精品久久久久久av| 国产性生大片免费观看性| 青青草国产成人99久久| 免费在线观看亚洲视频| 亚洲乱熟妇一区二区三区蜜桃| 极品嫩模大尺度av在线播放| 久久综合狠狠综合久久| 欧美日韩国产免费一区二区三区欧美日韩 | 国产一区二区三区av在线无码观看 | 国产视频一区二区三区在线看 | 按摩女内射少妇一二三区|