亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于自然語言的目標(biāo)檢測算法綜述

2021-03-27 13:06:03

中文信息 2021年1期

（重慶交通大學(xué) 信息科學(xué)與工程學(xué)院，重慶 400074）

目標(biāo)檢測是計算機(jī)視覺領(lǐng)域的重要研究內(nèi)容，近年來得益于GPU的并行計算能力以及深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力，深度學(xué)習(xí)在圖像處理領(lǐng)域取得了很大的進(jìn)步。但在目標(biāo)檢測中除了使用圖像信息以外，學(xué)術(shù)界早已提出使用多模態(tài)的信息來提升某一個任務(wù)的性能，其中自然語言就是一種重要的多媒體信息。與其他類型的信息相比，自然語言可以提供一種靈活而緊湊的方式來描述區(qū)分不同的視覺特征。

自然語言與圖像的匹配方法主要分為兩種類型，一種是匹配式：提取圖像特征與自然語言特征，將二者的特征進(jìn)行匹配，返回相似度最高的圖片區(qū)域。另一種是生成式：為每個圖像的候選區(qū)域生成自然語言描述，與目標(biāo)自然語言對比，返回相似度最高的區(qū)域。

本文將從匹配式和生成式兩個方面介紹基于自然語言的目標(biāo)檢測算法，并對該領(lǐng)域的發(fā)展趨勢進(jìn)行展望。

一、匹配式算法

2017年，Shuang Li等人首次提出使用自然語言進(jìn)行行人重識別，并且首次建立了一個包括不同來源圖片樣本和詳細(xì)自然語言注釋的大型行人資料數(shù)據(jù)集CUHK-PEDES，其中提出了一種基于門控神經(jīng)注意機(jī)制的遞歸神經(jīng)網(wǎng)絡(luò)GNA-RNN，該網(wǎng)絡(luò)中包含一個視覺子網(wǎng)絡(luò)和一個語言子網(wǎng)絡(luò)，視覺子網(wǎng)絡(luò)用于提取圖像特征，語言子網(wǎng)絡(luò)用于提取語言特征并為不同的詞語賦予權(quán)重，根據(jù)查詢對象的文本描述，利用搜索算法對數(shù)據(jù)庫中的所有樣本進(jìn)行排序，從而檢索出與描述最相關(guān)的樣本[1]。

Tianlang Chen等人針對Shuang Li的算法中對圖像空間中的關(guān)鍵屬性感知能力不強(qiáng)的問題，設(shè)計了一個動態(tài)閾值機(jī)制來計算單詞與局部圖像塊的關(guān)聯(lián)度。對于每個單詞都設(shè)置一個閾值來判定是否和圖像匹配，并對關(guān)聯(lián)度進(jìn)行一個動態(tài)壓縮以緩解匹配時的敏感問題。Ying Zhang在隱空間特征學(xué)習(xí)的跨模態(tài)檢索方法基礎(chǔ)上提出了兩個損失函數(shù)，分別為Cross-Modal Projection Matching（CMPM）和Cross-Modal Projection Classification（CMPC），用以提升跨模態(tài)特征的匹配性能。Dapeng Chen等人針對行人重識別的問題，提出在訓(xùn)練階段利用自然語言來輔助進(jìn)行圖像特征的學(xué)習(xí)，使用注意力函數(shù)構(gòu)建自然語言和圖像特定區(qū)域的關(guān)聯(lián)，形成加權(quán)聚合特征向量，最終測試時利用學(xué)習(xí)到的圖像特征進(jìn)行檢索。Kuang-Huei Lee分別對文本和圖像應(yīng)用注意力機(jī)制，學(xué)習(xí)比較好的文本和圖像表示，然后再在共享的子空間中利用三重?fù)p失度量文本和圖像之間的相似性。周炫余[2]首先利用圖像分析的方法初步獲取圖像目標(biāo)的候選框，其次通過文本分析的方法獲取文本中有關(guān)圖像目標(biāo)的實體表達(dá)，并提出一種基于馬爾科夫隨機(jī)場的模型用于推斷圖像候選框與文本實體表達(dá)之間的共指關(guān)系，以此聯(lián)合圖像和文本信息以輔助機(jī)器視覺提高交通場景下行人檢測精度。

匹配式方法計算量小、速度快，但是訓(xùn)練過程中圖像特征不能被優(yōu)化，模型準(zhǔn)確率不高。

二、生成式算法

Bokun Wang等人基于在不同模態(tài)之間進(jìn)行對抗學(xué)習(xí)可以獲得一個有效的共享子空間，提出了一種對抗性的跨模態(tài)檢索方法。Yan Huang等人發(fā)現(xiàn)使用券積神經(jīng)網(wǎng)絡(luò)提取特征向量時，背景的一些細(xì)節(jié)將會被忽略，像素級別的圖片描述缺少高層次的語義信息。針對該問題Yan Huang提出了語義增強(qiáng)圖片及語句匹配模型，該模型中設(shè)計了一個門融合單元將全局特征和局部特征組合在一起，通過對圖片進(jìn)行語義學(xué)習(xí)并組織為正確的語義順序來實現(xiàn)語句生成。

Jiuxiang Gu第一次同時利用生成對抗網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）和強(qiáng)化學(xué)習(xí)做跨媒體檢索，提出了可以同時做三件跨媒體任務(wù)的生成式跨模態(tài)特征學(xué)習(xí)框架（Generative Cross-modal Feature Learning Framework，GXN）。主要包含三個步驟：Look、Imageine、Match。Look：給出一個查詢文本或圖像，提取出對應(yīng)的抽象表示。Image：將第一步中得到的一種模態(tài)的特征表示生成為另一種模態(tài)表示，并將其和真實數(shù)據(jù)進(jìn)行比較來生成一個更加精細(xì)的底層表示。Match：使用組合了高層抽象表示和局部底層表示的特征表示來進(jìn)行圖像和文本對的關(guān)聯(lián)匹配。莫建文[3]在堆疊式文本到圖像生成模型的基礎(chǔ)上，針對其生成樣本分布不均勻?qū)е露鄻有圆蛔愕膯栴}，提出了一種結(jié)合局部－全局互信息最大化的堆疊式文本到圖像的生成對抗網(wǎng)絡(luò)模型。

生成式方法可以在訓(xùn)練的過程中端到端的訓(xùn)練圖像區(qū)域特征，但是對每個圖像區(qū)域特征都需要生成自然語言，計算量大。當(dāng)圖像中候選區(qū)域較多時，生成式方法計算速度慢，消耗資源多。

三、數(shù)據(jù)集

大量免費公開的數(shù)據(jù)集用于圖像及文本的研究，這些數(shù)據(jù)集中的圖像與文本描述相關(guān)聯(lián)，不同的數(shù)據(jù)集中圖像張數(shù)，自然語言描述的條數(shù)、句子長短、句子格式等也不相同。常用的數(shù)據(jù)集包括CUHK-PEDES數(shù)據(jù)集、Flickr8K數(shù)據(jù)集、Flickr30k數(shù)據(jù)集、MSCOCO數(shù)據(jù)集、Cops-Ref數(shù)據(jù)集等。

結(jié)語

目前基于自然語言的目標(biāo)檢測算法發(fā)展相對緩慢，主要原因在于建模理解圖像和自然語言之間的聯(lián)系比較難。圖像中有顏色、位置、紋理等多種屬性，自然語言可能描述其一種或多種屬性。針對這些挑戰(zhàn)，未來可以考慮結(jié)合更復(fù)雜的多任務(wù)或注意力機(jī)制，充分融合圖像特征和語言特征向量。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于自然語言的目標(biāo)檢測算法綜述

一、匹配式算法

二、生成式算法

三、數(shù)據(jù)集

結(jié)語

一、匹配式算法

二、生成式算法

三、數(shù)據(jù)集