(重慶交通大學(xué) 信息科學(xué)與工程學(xué)院,重慶 400074)
目標(biāo)檢測是計算機(jī)視覺領(lǐng)域的重要研究內(nèi)容,近年來得益于GPU的并行計算能力以及深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力,深度學(xué)習(xí)在圖像處理領(lǐng)域取得了很大的進(jìn)步。但在目標(biāo)檢測中除了使用圖像信息以外,學(xué)術(shù)界早已提出使用多模態(tài)的信息來提升某一個任務(wù)的性能,其中自然語言就是一種重要的多媒體信息。與其他類型的信息相比,自然語言可以提供一種靈活而緊湊的方式來描述區(qū)分不同的視覺特征。
自然語言與圖像的匹配方法主要分為兩種類型,一種是匹配式:提取圖像特征與自然語言特征,將二者的特征進(jìn)行匹配,返回相似度最高的圖片區(qū)域。另一種是生成式:為每個圖像的候選區(qū)域生成自然語言描述,與目標(biāo)自然語言對比,返回相似度最高的區(qū)域。
本文將從匹配式和生成式兩個方面介紹基于自然語言的目標(biāo)檢測算法,并對該領(lǐng)域的發(fā)展趨勢進(jìn)行展望。
2017年,Shuang Li等人首次提出使用自然語言進(jìn)行行人重識別,并且首次建立了一個包括不同來源圖片樣本和詳細(xì)自然語言注釋的大型行人資料數(shù)據(jù)集CUHK-PEDES,其中提出了一種基于門控神經(jīng)注意機(jī)制的遞歸神經(jīng)網(wǎng)絡(luò)GNA-RNN,該網(wǎng)絡(luò)中包含一個視覺子網(wǎng)絡(luò)和一個語言子網(wǎng)絡(luò),視覺子網(wǎng)絡(luò)用于提取圖像特征,語言子網(wǎng)絡(luò)用于提取語言特征并為不同的詞語賦予權(quán)重,根據(jù)查詢對象的文本描述,利用搜索算法對數(shù)據(jù)庫中的所有樣本進(jìn)行排序,從而檢索出與描述最相關(guān)的樣本[1]。
Tianlang Chen等人針對Shuang Li的算法中對圖像空間中的關(guān)鍵屬性感知能力不強(qiáng)的問題,設(shè)計了一個動態(tài)閾值機(jī)制來計算單詞與局部圖像塊的關(guān)聯(lián)度。對于每個單詞都設(shè)置一個閾值來判定是否和圖像匹配,并對關(guān)聯(lián)度進(jìn)行一個動態(tài)壓縮以緩解匹配時的敏感問題。Ying Zhang在隱空間特征學(xué)習(xí)的跨模態(tài)檢索方法基礎(chǔ)上提出了兩個損失函數(shù),分別為Cross-Modal Projection Matching(CMPM)和Cross-Modal Projection Classification(CMPC),用以提升跨模態(tài)特征的匹配性能。Dapeng Chen等人針對行人重識別的問題,提出在訓(xùn)練階段利用自然語言來輔助進(jìn)行圖像特征的學(xué)習(xí),使用注意力函數(shù)構(gòu)建自然語言和圖像特定區(qū)域的關(guān)聯(lián),形成加權(quán)聚合特征向量,最終測試時利用學(xué)習(xí)到的圖像特征進(jìn)行檢索。Kuang-Huei Lee分別對文本和圖像應(yīng)用注意力機(jī)制,學(xué)習(xí)比較好的文本和圖像表示,然后再在共享的子空間中利用三重?fù)p失度量文本和圖像之間的相似性。周炫余[2]首先利用圖像分析的方法初步獲取圖像目標(biāo)的候選框,其次通過文本分析的方法獲取文本中有關(guān)圖像目標(biāo)的實體表達(dá),并提出一種基于馬爾科夫隨機(jī)場的模型用于推斷圖像候選框與文本實體表達(dá)之間的共指關(guān)系,以此聯(lián)合圖像和文本信息以輔助機(jī)器視覺提高交通場景下行人檢測精度。
匹配式方法計算量小、速度快,但是訓(xùn)練過程中圖像特征不能被優(yōu)化,模型準(zhǔn)確率不高。
Bokun Wang等人基于在不同模態(tài)之間進(jìn)行對抗學(xué)習(xí)可以獲得一個有效的共享子空間,提出了一種對抗性的跨模態(tài)檢索方法。Yan Huang等人發(fā)現(xiàn)使用券積神經(jīng)網(wǎng)絡(luò)提取特征向量時,背景的一些細(xì)節(jié)將會被忽略,像素級別的圖片描述缺少高層次的語義信息。針對該問題Yan Huang提出了語義增強(qiáng)圖片及語句匹配模型,該模型中設(shè)計了一個門融合單元將全局特征和局部特征組合在一起,通過對圖片進(jìn)行語義學(xué)習(xí)并組織為正確的語義順序來實現(xiàn)語句生成。
Jiuxiang Gu第一次同時利用生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)和強(qiáng)化學(xué)習(xí)做跨媒體檢索,提出了可以同時做三件跨媒體任務(wù)的生成式跨模態(tài)特征學(xué)習(xí)框架(Generative Cross-modal Feature Learning Framework,GXN)。主要包含三個步驟:Look、Imageine、Match。Look:給出一個查詢文本或圖像,提取出對應(yīng)的抽象表示。Image:將第一步中得到的一種模態(tài)的特征表示生成為另一種模態(tài)表示,并將其和真實數(shù)據(jù)進(jìn)行比較來生成一個更加精細(xì)的底層表示。Match:使用組合了高層抽象表示和局部底層表示的特征表示來進(jìn)行圖像和文本對的關(guān)聯(lián)匹配。莫建文[3]在堆疊式文本到圖像生成模型的基礎(chǔ)上,針對其生成樣本分布不均勻?qū)е露鄻有圆蛔愕膯栴},提出了一種結(jié)合局部-全局互信息最大化的堆疊式文本到圖像的生成對抗網(wǎng)絡(luò)模型。
生成式方法可以在訓(xùn)練的過程中端到端的訓(xùn)練圖像區(qū)域特征,但是對每個圖像區(qū)域特征都需要生成自然語言,計算量大。當(dāng)圖像中候選區(qū)域較多時,生成式方法計算速度慢,消耗資源多。
大量免費公開的數(shù)據(jù)集用于圖像及文本的研究,這些數(shù)據(jù)集中的圖像與文本描述相關(guān)聯(lián),不同的數(shù)據(jù)集中圖像張數(shù),自然語言描述的條數(shù)、句子長短、句子格式等也不相同。常用的數(shù)據(jù)集包括CUHK-PEDES數(shù)據(jù)集、Flickr8K數(shù)據(jù)集、Flickr30k數(shù)據(jù)集、MSCOCO數(shù)據(jù)集、Cops-Ref數(shù)據(jù)集等。
目前基于自然語言的目標(biāo)檢測算法發(fā)展相對緩慢,主要原因在于建模理解圖像和自然語言之間的聯(lián)系比較難。圖像中有顏色、位置、紋理等多種屬性,自然語言可能描述其一種或多種屬性。針對這些挑戰(zhàn),未來可以考慮結(jié)合更復(fù)雜的多任務(wù)或注意力機(jī)制,充分融合圖像特征和語言特征向量。