亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于目標(biāo)檢測與詞性分析的圖像描述算法

2021-03-23 07:41:00高逸凡

計算機(jī)與現(xiàn)代化 2021年3期

關(guān)鍵詞：單詞模型

高逸凡，王勇

(北京工業(yè)大學(xué)信息學(xué)部，北京 100124)

0 引言

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展、數(shù)碼設(shè)備的普及以及圖像數(shù)據(jù)的迅速增長，使用純?nèi)斯な侄螌D像內(nèi)容進(jìn)行鑒別已經(jīng)成為一項(xiàng)艱難的工作。因此，如何通過計算機(jī)自動提取圖像所表達(dá)的信息，成為圖像理解領(lǐng)域的研究熱點(diǎn)[1]。圖像描述生成是融合了自然語言處理和計算機(jī)視覺的一項(xiàng)較為綜合的任務(wù)，目的是將視覺圖像和語言文字聯(lián)系起來，通過對所輸入的圖像進(jìn)行特征提取分析，自動生成一段關(guān)于圖像內(nèi)容的文字描述。圖像描述生成能夠完成從圖像到文本信息的轉(zhuǎn)換，可以應(yīng)用到圖像檢索、機(jī)器人問答、輔助兒童教育及導(dǎo)盲等多個領(lǐng)域，對圖像理解的研究具有重要的現(xiàn)實(shí)意義[2]。

圖像描述生成的核心是在圖像處理分析的基礎(chǔ)上，結(jié)合計算機(jī)視覺和自然語言處理等相關(guān)理論，進(jìn)而分析、理解圖像內(nèi)容，并以文本語義信息的形式反饋給人類。因此計算機(jī)對圖像內(nèi)容理解的完成不僅需要圖像標(biāo)注，還需要圖像描述。圖像描述的任務(wù)是使用自然語言處理技術(shù)分析并產(chǎn)生標(biāo)注詞，進(jìn)而將生成的標(biāo)注詞組合為自然語言的描述語句。近年來，圖像描述引起了學(xué)術(shù)界的極大興趣，比起傳統(tǒng)的圖像標(biāo)注工作，它具有更廣闊的應(yīng)用前景。

1 相關(guān)工作

圖像描述生成克服了人類主觀認(rèn)識的固有限制，借助計算機(jī)軟件從一幅或多幅圖像序列中生成與圖像內(nèi)容相關(guān)的文字描述。圖像描述的質(zhì)量主要取決于以下2個方面：一是對圖像中所包含的物體及場景的識別能力；二是對物體間相互聯(lián)系等信息的認(rèn)知程度。按照圖像描述模型的不同，圖像描述方法可以分為3類：1)基于模板的方法，該方法生成的圖像描述依賴于模板類型，形式也較為單一；2)基于檢索的方法，該方法依賴于數(shù)據(jù)集中現(xiàn)存的描述語句，無法生成較為新穎的圖像描述；3)基于神經(jīng)網(wǎng)絡(luò)的方法，該方法將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)[3]與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)[4]相結(jié)合，使用端對端的方法訓(xùn)練模型，利用CNN提取特征的優(yōu)勢和RNN處理文字序列的優(yōu)勢，共同指導(dǎo)圖像描述語句的生成[5]。此類方法是目前比較先進(jìn)的圖像描述生成方法，該方法克服了圖像描述生成過程中生成的句式過于簡單，輸出嚴(yán)重依賴現(xiàn)存語句模板的問題，可以生成語法流暢，句式復(fù)雜多變的描述語句。但與此同時，卻帶來了新的問題：圖像描述生成的描述語句與圖片的關(guān)聯(lián)度有所下降。所以本文設(shè)計一種新的圖像描述模型，在之前端對端的Encoder-Decoder[6]結(jié)構(gòu)基礎(chǔ)上融合了圖像目標(biāo)檢測算法，使生成的描述語句中所有的名詞均依賴于目標(biāo)檢測結(jié)果，從而提高了描述語句與原圖像的關(guān)聯(lián)度。

2 算法描述

本文設(shè)計一種基于目標(biāo)檢測與詞性分析的圖像描述算法，并訓(xùn)練此算法對應(yīng)的模型使其可以根據(jù)圖像生成相應(yīng)的語言描述。模型的整體結(jié)構(gòu)如圖1所示。模型主要通過目標(biāo)檢測算法提取圖像中各目標(biāo)區(qū)域的特征，然后通過循環(huán)神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測算法生成的所有目標(biāo)區(qū)域中選擇一個或多個目標(biāo)區(qū)域作為下一個描述詞匯生成的依據(jù)，然后將其輸入到相關(guān)語言模型中，生成相應(yīng)的詞匯。

圖1 整體結(jié)構(gòu)圖

本文構(gòu)建的圖像描述算法主要由圖像信息提取和語言模型構(gòu)成。

2.1 圖像信息提取

本文選擇目標(biāo)檢測模型Faster R-CNN[7]進(jìn)行圖像信息的初步提取。如圖2所示，在結(jié)構(gòu)上，F(xiàn)aster R-CNN已經(jīng)將特征提取(feature extraction)、候選目標(biāo)區(qū)域(proposal region)提取、邊界框回歸(bounding box regression)和分類(classification)都整合在一個網(wǎng)絡(luò)中，使得其綜合性能有了較大的提高，在檢測速度方面尤為明顯。本文選取目標(biāo)檢測模型Faster R-CNN中ROI Pooling層輸出的各目標(biāo)候選區(qū)域特征向量{v1,v2,v3,…,vn}及其對應(yīng)的類別標(biāo)簽{l1,l2,l3,…,ln}作為對圖片信息的初步提取，在語言模型中，將會對提取到的數(shù)據(jù)進(jìn)行處理，生成描述語句。

2.2 語言模型

本文設(shè)計的語言模型主要由4個部分構(gòu)成，分別為特征選擇、名詞模塊、句型模塊和詞性分析。在預(yù)測的過程中，特征選擇模塊結(jié)合生成的文本上下文內(nèi)容，對目標(biāo)檢測提取到的目標(biāo)特征向量進(jìn)行融合，將融合后的特征向量分別輸入名詞模塊與句型模塊，名詞模塊主要用于生成描述語句中與目標(biāo)檢測結(jié)果相對應(yīng)的名詞(下文簡稱目標(biāo)名詞)，句式模塊主要用于生成描述語句中除目標(biāo)名詞外的其他詞匯和句型的整體結(jié)構(gòu)。名詞模塊與句型模塊生成描述單詞后，使用詞性分析模塊結(jié)合上下文特征對生成的2個單詞進(jìn)行選擇。下面舉例說明語言模型如何通過這4個部分生成完整的圖片描述語句。

如圖3所示，首先向模型輸入圖片，經(jīng)過Faster R-CNN運(yùn)算后，得到圖片中各目標(biāo)的特征向量和類別標(biāo)簽。圖3中圖片經(jīng)過目標(biāo)檢測后，得到8個特征向量和類別標(biāo)簽，分別對應(yīng)圖片中的8個物體。接下來向語言模塊輸入開始符“<”模型即開始計算第一個單詞，特征選擇模塊依據(jù)上下文融合各目標(biāo)特征向量后，將生成的目標(biāo)特征向量分別輸入句型模塊和名詞模塊。句型模塊依據(jù)上下文計算出單詞“a”，名詞模塊計算出單詞“dog”，由詞性分析模塊結(jié)合上下文對2個單詞進(jìn)行篩選，最終選擇并輸出詞匯“a”，模型判斷輸出的單詞“a”不是終止單詞，故將“a”重新輸入特征選擇模塊，進(jìn)行新一輪預(yù)測并輸出“dog”，最終模型在輸入motorcycle時，輸出終止符“>”，本次預(yù)測過程結(jié)束。

圖3 模型描述實(shí)例

如圖4所示，語言模型中的特征選擇部分由帶有Attention[8]的LSTM(Long Short-Term Memory)[9]構(gòu)成，Object Attention和Language LSTM相互配合并結(jié)合上下文融合各個目標(biāo)特征向量，句型模塊由LSTM構(gòu)成，名詞模塊由GRU(Gated Recurrent Unit)[10]構(gòu)成。詞性分析部分由Attention機(jī)制“Word Attention”構(gòu)成。下面詳細(xì)介紹，算法中所有模塊計算描述語句時，生成單詞的計算過程。

圖4 語言模塊結(jié)構(gòu)圖

(1)

(2)

(3)

(4)

(5)

(6)

Object Attention模塊的輸出分為2個部分，一部分作為名詞模塊的輸入，用于計算目標(biāo)檢測算法對應(yīng)的名詞；另一部分作為句型模塊的輸入，用于計算描述語句中非目標(biāo)名詞的詞匯。

(7)

lab=limax

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

算法1圖像描述生成算法

輸入：圖片i

輸出：描述語句y

1 將圖片i輸入Faster-RCNN，得到圖片內(nèi)各目標(biāo)的特征向量v和列表標(biāo)簽l，初始化表示描述語句的單詞隊列y為空隊列。

2 向語言模塊輸入前一時刻預(yù)測輸出的單詞編碼Πt-1(首次為開始符“<”)，根據(jù)上下文融合各目標(biāo)特征向量，計算過程如式(3)～式(6)所示。

3 使用名詞模塊計算名詞編碼，計算過程如式(7)～式(12)所示。

4 使用句型模塊計算其他詞匯編碼，計算過程如式(13)～式(15)所示。

5 使用詞性分析模塊，根據(jù)上下文選擇已預(yù)測出的單詞，計算過程如式(15)～式(18)所示。

6 判斷最終輸出的單詞是否為停止符，如果不是停止符“>”，將輸出的單詞yt加入y中，并跳轉(zhuǎn)至第2步，否則返回y，并退出。

本模型在訓(xùn)練過程中，采用的損失函數(shù)分為2個部分，分別用于計算模型在預(yù)測名詞時的準(zhǔn)確率和預(yù)測其他詞匯時的準(zhǔn)確率，計算過程如式(19)～式(21)所示：

(19)

(20)

(21)

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集的收集

本文數(shù)據(jù)集選取通用圖像理解/描述生成的競賽數(shù)據(jù)集MS COCO[14]，該數(shù)據(jù)集中有20 GB左右的圖片和500 MB左右的標(biāo)簽文件。標(biāo)簽文件標(biāo)記了每個圖片中各目標(biāo)的精確坐標(biāo)及其英文描述。本文統(tǒng)計了MS COCO數(shù)據(jù)集中所有英文描述的詞性，詞性分布如圖5所示。其中，名詞占所有詞匯的比重最大(名詞n.，介詞prep.，連詞conj.，動詞v.，形容詞adj.，副詞adv.，代詞pron.，數(shù)量詞num.)。

圖5 數(shù)據(jù)集詞性

3.2 數(shù)據(jù)預(yù)處理

本文在預(yù)處理過程中將所有的圖片數(shù)據(jù)縮放并裁剪為512×512大小的圖片，并且使用Faster R-CNN對MS COCO數(shù)據(jù)集中所有的圖片進(jìn)行目標(biāo)檢測；將Faster R-CNN在目標(biāo)檢測過程中ROI Pooling層生成的各目標(biāo)候選區(qū)域特征向量及各目標(biāo)對應(yīng)的類別儲存起來，作為后續(xù)訓(xùn)練語言模型的輸入使用。本文所采用的英文語料因?yàn)檎Z言特征，單詞有空格作為間隔，不需要進(jìn)行分詞處理?？梢灾苯訉⒄Z料進(jìn)行數(shù)據(jù)建模處理，并將語料字符串轉(zhuǎn)換成數(shù)據(jù)向量[15]。

3.3 模型的實(shí)現(xiàn)與訓(xùn)練

本文采用基于Python語言的深度學(xué)習(xí)框架PyTorch來完成模型的構(gòu)建。訓(xùn)練模型采用的硬件環(huán)境及軟件環(huán)境如表1和表2所示。

表1 實(shí)驗(yàn)硬件環(huán)境

表2 實(shí)驗(yàn)軟件環(huán)境

(22)

(23)

預(yù)訓(xùn)練結(jié)束后，開始對整個模型進(jìn)行訓(xùn)練，損失函數(shù)如式(19)～式(21)所示，訓(xùn)練的batch-size為 64，epoch為100次。模型的訓(xùn)練速率為0.02。本文模型在訓(xùn)練過程中采用Dropout[17]方法來避免模型出現(xiàn)過擬合現(xiàn)象，Dropout值為0.5。模型訓(xùn)練過程中的Loss和Top-5 Accuracy變化分別如圖6和圖7所示，由圖可以看出，算法在迭代過程中，損失函數(shù)值逐漸收斂于0.5。訓(xùn)練完成后本模型的描述效果如圖8～圖12所示，由描述效果可以看出，本文設(shè)計的模型所生成的描述語句相對于Show Attend and Tell模型所生成的描述語句其主體更加準(zhǔn)確，語句更加流暢，有效地提升了圖片與描述語句的關(guān)聯(lián)度。

圖6 Loss變化

圖7 Top-5 Accuracy

圖8 描述效果對比1

圖9 描述效果對比2

圖10 描述效果對比3

圖11 描述效果對比4

圖12 描述效果對比5

本文分別采用BLEU(Bilingual Evaluation Understudy)[18]、ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)[19]、METEOR[20], CIDEr(Consensus-based Image Description Evaluation)[21]算法對圖像描述生成的結(jié)果進(jìn)行評價，模型預(yù)測的準(zhǔn)確率與目前存在的主流圖像描述模型(mRNN[22]、Show Attend and Tell[23]、DeepVS[24]、Top-down[25])的對比如表3所示。由表3可以看出，在各項(xiàng)客觀評價標(biāo)準(zhǔn)下，本文模型相對于其他模型均有不同程度的提升。

表3 各圖像描述模型描述能力對比

4 結(jié)束語

本文設(shè)計了一種基于目標(biāo)檢測與詞性分析的圖像描述算法，該算法通過使用Faster R-CNN目標(biāo)檢測模型提取圖像中的信息，然后將提取到的信息輸入帶有注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)中，利用注意力機(jī)制與循環(huán)神經(jīng)網(wǎng)絡(luò)對需要生成的單詞進(jìn)行詞性分析，根據(jù)下一個單詞是否為目標(biāo)名詞，采用不同的模型進(jìn)行處理，從而增加了描述語句的準(zhǔn)確率和關(guān)聯(lián)度。實(shí)驗(yàn)表明，本文算法生成的描述語句，在主觀上要優(yōu)于目前的主流算法，在客觀評價標(biāo)準(zhǔn)中相對其他算法也略有提升。該算法能夠有效地對圖像理解領(lǐng)域的發(fā)展提供支持。下一步，將結(jié)合現(xiàn)有的圖像描述方法，針對圖片中的動作特征進(jìn)行提取來修正描述語句中的動詞，從而進(jìn)一步提升描述語句的準(zhǔn)確率。