亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于目標(biāo)檢測與詞性分析的圖像描述算法

        2021-03-23 07:41:00高逸凡
        計算機(jī)與現(xiàn)代化 2021年3期
        關(guān)鍵詞:特征向量語句單詞

        高逸凡,王 勇

        (北京工業(yè)大學(xué)信息學(xué)部,北京 100124)

        0 引 言

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展、數(shù)碼設(shè)備的普及以及圖像數(shù)據(jù)的迅速增長,使用純?nèi)斯な侄螌D像內(nèi)容進(jìn)行鑒別已經(jīng)成為一項(xiàng)艱難的工作。因此,如何通過計算機(jī)自動提取圖像所表達(dá)的信息,成為圖像理解領(lǐng)域的研究熱點(diǎn)[1]。圖像描述生成是融合了自然語言處理和計算機(jī)視覺的一項(xiàng)較為綜合的任務(wù),目的是將視覺圖像和語言文字聯(lián)系起來,通過對所輸入的圖像進(jìn)行特征提取分析,自動生成一段關(guān)于圖像內(nèi)容的文字描述。圖像描述生成能夠完成從圖像到文本信息的轉(zhuǎn)換,可以應(yīng)用到圖像檢索、機(jī)器人問答、輔助兒童教育及導(dǎo)盲等多個領(lǐng)域,對圖像理解的研究具有重要的現(xiàn)實(shí)意義[2]。

        圖像描述生成的核心是在圖像處理分析的基礎(chǔ)上,結(jié)合計算機(jī)視覺和自然語言處理等相關(guān)理論,進(jìn)而分析、理解圖像內(nèi)容,并以文本語義信息的形式反饋給人類。因此計算機(jī)對圖像內(nèi)容理解的完成不僅需要圖像標(biāo)注,還需要圖像描述。圖像描述的任務(wù)是使用自然語言處理技術(shù)分析并產(chǎn)生標(biāo)注詞,進(jìn)而將生成的標(biāo)注詞組合為自然語言的描述語句。近年來,圖像描述引起了學(xué)術(shù)界的極大興趣,比起傳統(tǒng)的圖像標(biāo)注工作,它具有更廣闊的應(yīng)用前景。

        1 相關(guān)工作

        圖像描述生成克服了人類主觀認(rèn)識的固有限制,借助計算機(jī)軟件從一幅或多幅圖像序列中生成與圖像內(nèi)容相關(guān)的文字描述。圖像描述的質(zhì)量主要取決于以下2個方面:一是對圖像中所包含的物體及場景的識別能力;二是對物體間相互聯(lián)系等信息的認(rèn)知程度。按照圖像描述模型的不同,圖像描述方法可以分為3類:1)基于模板的方法,該方法生成的圖像描述依賴于模板類型,形式也較為單一;2)基于檢索的方法,該方法依賴于數(shù)據(jù)集中現(xiàn)存的描述語句,無法生成較為新穎的圖像描述;3)基于神經(jīng)網(wǎng)絡(luò)的方法,該方法將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3]與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]相結(jié)合,使用端對端的方法訓(xùn)練模型,利用CNN提取特征的優(yōu)勢和RNN處理文字序列的優(yōu)勢,共同指導(dǎo)圖像描述語句的生成[5]。此類方法是目前比較先進(jìn)的圖像描述生成方法,該方法克服了圖像描述生成過程中生成的句式過于簡單,輸出嚴(yán)重依賴現(xiàn)存語句模板的問題,可以生成語法流暢,句式復(fù)雜多變的描述語句。但與此同時,卻帶來了新的問題:圖像描述生成的描述語句與圖片的關(guān)聯(lián)度有所下降。所以本文設(shè)計一種新的圖像描述模型,在之前端對端的Encoder-Decoder[6]結(jié)構(gòu)基礎(chǔ)上融合了圖像目標(biāo)檢測算法,使生成的描述語句中所有的名詞均依賴于目標(biāo)檢測結(jié)果,從而提高了描述語句與原圖像的關(guān)聯(lián)度。

        2 算法描述

        本文設(shè)計一種基于目標(biāo)檢測與詞性分析的圖像描述算法,并訓(xùn)練此算法對應(yīng)的模型使其可以根據(jù)圖像生成相應(yīng)的語言描述。模型的整體結(jié)構(gòu)如圖1所示。模型主要通過目標(biāo)檢測算法提取圖像中各目標(biāo)區(qū)域的特征,然后通過循環(huán)神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測算法生成的所有目標(biāo)區(qū)域中選擇一個或多個目標(biāo)區(qū)域作為下一個描述詞匯生成的依據(jù),然后將其輸入到相關(guān)語言模型中,生成相應(yīng)的詞匯。

        圖1 整體結(jié)構(gòu)圖

        本文構(gòu)建的圖像描述算法主要由圖像信息提取和語言模型構(gòu)成。

        2.1 圖像信息提取

        本文選擇目標(biāo)檢測模型Faster R-CNN[7]進(jìn)行圖像信息的初步提取。如圖2所示,在結(jié)構(gòu)上,F(xiàn)aster R-CNN已經(jīng)將特征提取(feature extraction)、候選目標(biāo)區(qū)域(proposal region)提取、邊界框回歸(bounding box regression)和分類(classification)都整合在一個網(wǎng)絡(luò)中,使得其綜合性能有了較大的提高,在檢測速度方面尤為明顯。本文選取目標(biāo)檢測模型Faster R-CNN中ROI Pooling層輸出的各目標(biāo)候選區(qū)域特征向量{v1,v2,v3,…,vn}及其對應(yīng)的類別標(biāo)簽{l1,l2,l3,…,ln}作為對圖片信息的初步提取,在語言模型中,將會對提取到的數(shù)據(jù)進(jìn)行處理,生成描述語句。

        2.2 語言模型

        本文設(shè)計的語言模型主要由4個部分構(gòu)成,分別為特征選擇、名詞模塊、句型模塊和詞性分析。在預(yù)測的過程中,特征選擇模塊結(jié)合生成的文本上下文內(nèi)容,對目標(biāo)檢測提取到的目標(biāo)特征向量進(jìn)行融合,將融合后的特征向量分別輸入名詞模塊與句型模塊,名詞模塊主要用于生成描述語句中與目標(biāo)檢測結(jié)果相對應(yīng)的名詞(下文簡稱目標(biāo)名詞),句式模塊主要用于生成描述語句中除目標(biāo)名詞外的其他詞匯和句型的整體結(jié)構(gòu)。名詞模塊與句型模塊生成描述單詞后,使用詞性分析模塊結(jié)合上下文特征對生成的2個單詞進(jìn)行選擇。下面舉例說明語言模型如何通過這4個部分生成完整的圖片描述語句。

        如圖3所示,首先向模型輸入圖片,經(jīng)過Faster R-CNN運(yùn)算后,得到圖片中各目標(biāo)的特征向量和類別標(biāo)簽。圖3中圖片經(jīng)過目標(biāo)檢測后,得到8個特征向量和類別標(biāo)簽,分別對應(yīng)圖片中的8個物體。接下來向語言模塊輸入開始符“<”模型即開始計算第一個單詞,特征選擇模塊依據(jù)上下文融合各目標(biāo)特征向量后,將生成的目標(biāo)特征向量分別輸入句型模塊和名詞模塊。句型模塊依據(jù)上下文計算出單詞“a”,名詞模塊計算出單詞“dog”,由詞性分析模塊結(jié)合上下文對2個單詞進(jìn)行篩選,最終選擇并輸出詞匯“a”,模型判斷輸出的單詞“a”不是終止單詞,故將“a”重新輸入特征選擇模塊,進(jìn)行新一輪預(yù)測并輸出“dog”,最終模型在輸入motorcycle時,輸出終止符“>”,本次預(yù)測過程結(jié)束。

        圖3 模型描述實(shí)例

        如圖4所示,語言模型中的特征選擇部分由帶有Attention[8]的LSTM(Long Short-Term Memory)[9]構(gòu)成,Object Attention和Language LSTM相互配合并結(jié)合上下文融合各個目標(biāo)特征向量,句型模塊由LSTM構(gòu)成,名詞模塊由GRU(Gated Recurrent Unit)[10]構(gòu)成。詞性分析部分由Attention機(jī)制“Word Attention”構(gòu)成。下面詳細(xì)介紹,算法中所有模塊計算描述語句時,生成單詞的計算過程。

        圖4 語言模塊結(jié)構(gòu)圖

        (1)

        (2)

        (3)

        (4)

        (5)

        (6)

        Object Attention模塊的輸出分為2個部分,一部分作為名詞模塊的輸入,用于計算目標(biāo)檢測算法對應(yīng)的名詞;另一部分作為句型模塊的輸入,用于計算描述語句中非目標(biāo)名詞的詞匯。

        (7)

        lab=limax

        (8)

        (9)

        (10)

        (11)

        (12)

        (13)

        (14)

        (15)

        (16)

        (17)

        (18)

        算法1圖像描述生成算法

        輸入:圖片i

        輸出:描述語句y

        1 將圖片i輸入Faster-RCNN,得到圖片內(nèi)各目標(biāo)的特征向量v和列表標(biāo)簽l,初始化表示描述語句的單詞隊列y為空隊列。

        2 向語言模塊輸入前一時刻預(yù)測輸出的單詞編碼Πt-1(首次為開始符“<”),根據(jù)上下文融合各目標(biāo)特征向量,計算過程如式(3)~式(6)所示。

        3 使用名詞模塊計算名詞編碼,計算過程如式(7)~式(12)所示。

        4 使用句型模塊計算其他詞匯編碼,計算過程如式(13)~式(15)所示。

        5 使用詞性分析模塊,根據(jù)上下文選擇已預(yù)測出的單詞,計算過程如式(15)~式(18)所示。

        6 判斷最終輸出的單詞是否為停止符,如果不是停止符“>”,將輸出的單詞yt加入y中,并跳轉(zhuǎn)至第2步,否則返回y,并退出。

        本模型在訓(xùn)練過程中,采用的損失函數(shù)分為2個部分,分別用于計算模型在預(yù)測名詞時的準(zhǔn)確率和預(yù)測其他詞匯時的準(zhǔn)確率,計算過程如式(19)~式(21)所示:

        (19)

        (20)

        (21)

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)集的收集

        本文數(shù)據(jù)集選取通用圖像理解/描述生成的競賽數(shù)據(jù)集MS COCO[14],該數(shù)據(jù)集中有20 GB左右的圖片和500 MB左右的標(biāo)簽文件。標(biāo)簽文件標(biāo)記了每個圖片中各目標(biāo)的精確坐標(biāo)及其英文描述。本文統(tǒng)計了MS COCO數(shù)據(jù)集中所有英文描述的詞性,詞性分布如圖5所示。其中,名詞占所有詞匯的比重最大(名詞n.,介詞prep.,連詞conj.,動詞v.,形容詞adj.,副詞adv.,代詞pron.,數(shù)量詞num.)。

        圖5 數(shù)據(jù)集詞性

        3.2 數(shù)據(jù)預(yù)處理

        本文在預(yù)處理過程中將所有的圖片數(shù)據(jù)縮放并裁剪為512×512大小的圖片,并且使用Faster R-CNN對MS COCO數(shù)據(jù)集中所有的圖片進(jìn)行目標(biāo)檢測;將Faster R-CNN在目標(biāo)檢測過程中ROI Pooling層生成的各目標(biāo)候選區(qū)域特征向量及各目標(biāo)對應(yīng)的類別儲存起來,作為后續(xù)訓(xùn)練語言模型的輸入使用。本文所采用的英文語料因?yàn)檎Z言特征,單詞有空格作為間隔,不需要進(jìn)行分詞處理??梢灾苯訉⒄Z料進(jìn)行數(shù)據(jù)建模處理,并將語料字符串轉(zhuǎn)換成數(shù)據(jù)向量[15]。

        3.3 模型的實(shí)現(xiàn)與訓(xùn)練

        本文采用基于Python語言的深度學(xué)習(xí)框架PyTorch來完成模型的構(gòu)建。訓(xùn)練模型采用的硬件環(huán)境及軟件環(huán)境如表1和表2所示。

        表1 實(shí)驗(yàn)硬件環(huán)境

        表2 實(shí)驗(yàn)軟件環(huán)境

        (22)

        (23)

        預(yù)訓(xùn)練結(jié)束后,開始對整個模型進(jìn)行訓(xùn)練,損失函數(shù)如式(19)~式(21)所示,訓(xùn)練的batch-size為 64,epoch為100次。模型的訓(xùn)練速率為0.02。本文模型在訓(xùn)練過程中采用Dropout[17]方法來避免模型出現(xiàn)過擬合現(xiàn)象,Dropout值為0.5。模型訓(xùn)練過程中的Loss和Top-5 Accuracy變化分別如圖6和圖7所示,由圖可以看出,算法在迭代過程中,損失函數(shù)值逐漸收斂于0.5。訓(xùn)練完成后本模型的描述效果如圖8~圖12所示,由描述效果可以看出,本文設(shè)計的模型所生成的描述語句相對于Show Attend and Tell模型所生成的描述語句其主體更加準(zhǔn)確,語句更加流暢,有效地提升了圖片與描述語句的關(guān)聯(lián)度。

        圖6 Loss變化

        圖7 Top-5 Accuracy

        圖8 描述效果對比1

        圖9 描述效果對比2

        圖10 描述效果對比3

        圖11 描述效果對比4

        圖12 描述效果對比5

        本文分別采用BLEU(Bilingual Evaluation Understudy)[18]、ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)[19]、METEOR[20], CIDEr(Consensus-based Image Description Evaluation)[21]算法對圖像描述生成的結(jié)果進(jìn)行評價,模型預(yù)測的準(zhǔn)確率與目前存在的主流圖像描述模型(mRNN[22]、Show Attend and Tell[23]、DeepVS[24]、Top-down[25])的對比如表3所示。由表3可以看出,在各項(xiàng)客觀評價標(biāo)準(zhǔn)下,本文模型相對于其他模型均有不同程度的提升。

        表3 各圖像描述模型描述能力對比

        4 結(jié)束語

        本文設(shè)計了一種基于目標(biāo)檢測與詞性分析的圖像描述算法,該算法通過使用Faster R-CNN目標(biāo)檢測模型提取圖像中的信息,然后將提取到的信息輸入帶有注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)中,利用注意力機(jī)制與循環(huán)神經(jīng)網(wǎng)絡(luò)對需要生成的單詞進(jìn)行詞性分析,根據(jù)下一個單詞是否為目標(biāo)名詞,采用不同的模型進(jìn)行處理,從而增加了描述語句的準(zhǔn)確率和關(guān)聯(lián)度。實(shí)驗(yàn)表明,本文算法生成的描述語句,在主觀上要優(yōu)于目前的主流算法,在客觀評價標(biāo)準(zhǔn)中相對其他算法也略有提升。該算法能夠有效地對圖像理解領(lǐng)域的發(fā)展提供支持。下一步,將結(jié)合現(xiàn)有的圖像描述方法,針對圖片中的動作特征進(jìn)行提取來修正描述語句中的動詞,從而進(jìn)一步提升描述語句的準(zhǔn)確率。

        猜你喜歡
        特征向量語句單詞
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        重點(diǎn):語句銜接
        單詞連一連
        看圖填單詞
        一類特殊矩陣特征向量的求法
        精彩語句
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        看完這些單詞的翻譯,整個人都不好了
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        狠狠色欧美亚洲综合色黑a| 最新国产福利在线观看精品| 中文字幕人妻熟女人妻洋洋| 人妻丰满熟妇av无码区hd| 性感人妻中文字幕在线| 美女被男人插得高潮的网站| 成人精品视频一区二区| 推油少妇久久99久久99久久| 99在线无码精品秘 人口| 久久亚洲免费精品视频| 成人试看120秒体验区| 97久久天天综合色天天综合色hd | 久久精品国产亚洲7777| 曰本无码人妻丰满熟妇5g影院| 亚洲AV无码乱码一区二区三区| 男女上床免费视频网站| 免费不卡在线观看av| 无码熟熟妇丰满人妻啪啪| 热re99久久精品国产66热6| 中文字幕一区二区av| 日本特黄特色特爽大片| 999国产一区在线观看| 一区二区三区免费观看在线视频| 国产精品亚洲二区在线看| 亚洲色欲色欲www在线观看| 欧美在线观看一区二区| 人妻少妇偷人精品久久人妻| 亚洲av片无码久久五月| 影音先锋每日av色资源站| 成人精品国产亚洲欧洲| 日本女优中文字幕在线播放 | 亚洲精品中文字幕91| 亚洲av综合av一区| 丰满少妇被猛烈进入无码| 情色视频在线观看一区二区三区 | 久久亚洲精品无码gv| 日本韩国黄色三级三级| 蜜桃视频网站在线观看一区| 双腿张开被9个男人调教| 久久国产乱子伦精品免费强| 亚洲成人av一区二区|