亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)跨模態(tài)圖文檢索研究綜述

        2022-03-13 09:18:38郭瑩瑩范九倫劉繼明
        計(jì)算機(jī)與生活 2022年3期
        關(guān)鍵詞:語義模態(tài)特征

        劉 穎,郭瑩瑩,房 杰,2,3,范九倫,3,郝 羽,3,劉繼明

        1.西安郵電大學(xué) 圖像與信息處理研究所,西安710121

        2.陜西省無線通信與信息處理技術(shù)國際合作研究中心,西安710121

        3.西安郵電大學(xué) 電子信息現(xiàn)場勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,西安710121

        4.西安郵電大學(xué) 通信與信息工程學(xué)院,西安710121

        多模態(tài)學(xué)習(xí)(multi-modal learning)旨在處理與理解來自感官情態(tài)的多源信息。近年來,得益于深度學(xué)習(xí)的快速發(fā)展,多模態(tài)學(xué)習(xí)逐漸成為熱點(diǎn)課題。

        1976 年,文獻(xiàn)[1]提出視覺對言語感知的影響,后被用于視聽語音識別(audio visual speech recognition,AVSR)技術(shù)并成為多模態(tài)概念的雛形。自此,多模態(tài)信息處理經(jīng)過了漫長的發(fā)展。2010 年,以融合方法和融合水平為線索,文獻(xiàn)[2]對已有多模態(tài)融合研究方法進(jìn)行了分類。2015 年,文獻(xiàn)[3]提出多模態(tài)隱條件隨機(jī)場(multi-modal hidden conditional random field,M-HCRF),用以提升多模態(tài)數(shù)據(jù)分類效果。文獻(xiàn)[4]提出基于正交正則化約束的深度多模態(tài)哈希(deep multi-modal Hashing with orthogonal regularization,DMHOR)方法,用以減少多模態(tài)表示的信息冗余。2019 年,文獻(xiàn)[5]將多模態(tài)學(xué)習(xí)主要研究方向分為多模態(tài)表示、多模態(tài)翻譯、多模態(tài)對齊、多模態(tài)融合和多模態(tài)協(xié)同感知等。

        目前多模態(tài)學(xué)習(xí)已被成功應(yīng)用于人臉識別、人體姿態(tài)估計(jì)、多模態(tài)檢索、跨模態(tài)檢索、語義場景理解和情感識別等方面,成為一個(gè)潛力巨大且充滿活力的跨學(xué)科、跨領(lǐng)域研究熱點(diǎn)。

        跨模態(tài)學(xué)習(xí)是多模態(tài)學(xué)習(xí)的分支,其充分利用了多模態(tài)學(xué)習(xí)中模態(tài)間表示、翻譯和對齊等策略。跨模態(tài)學(xué)習(xí)與多模態(tài)融合的相似之處在于,二者的數(shù)據(jù)都來自所有模態(tài),但不同之處在于,前者的數(shù)據(jù)只在某一模態(tài)可用,而后者的數(shù)據(jù)則用于所有模態(tài)。

        跨模態(tài)檢索(cross-modal retrieval)是跨模態(tài)學(xué)習(xí)的重要應(yīng)用之一,又稱為跨媒體檢索,其特點(diǎn)是訓(xùn)練過程中所有模態(tài)的數(shù)據(jù)都存在,但在測試過程中只有一種模態(tài)可用??缒B(tài)檢索旨在實(shí)現(xiàn)兩個(gè)不同模態(tài)之間的信息交互,其根本目的在于挖掘不同模態(tài)樣本之間的關(guān)系,即通過一種模態(tài)樣本來檢索具有近似語義的另一種模態(tài)樣本。近年來,跨模態(tài)檢索逐漸成為國內(nèi)外學(xué)術(shù)界研究的前沿和熱點(diǎn),是信息檢索領(lǐng)域未來發(fā)展的重要方向??缒B(tài)圖文檢索是跨模態(tài)檢索的重要研究方向,定義如下:

        對于跨模態(tài)圖文檢索,關(guān)鍵字到圖像的檢索因?yàn)槠浔举|(zhì)是查詢關(guān)鍵字與圖像的標(biāo)注注釋之間的匹配,因此被稱為偽“跨模態(tài)”問題。跨模態(tài)圖文檢索以視覺數(shù)據(jù)和自然語言描述為基礎(chǔ),更關(guān)注圖像和文本兩種模態(tài)的交互,其目的是在不借助任何輔助信息的情況下,通過文本(圖像)查詢來檢索圖像(文本)。多模態(tài)檢索、跨模態(tài)檢索和跨模態(tài)圖文檢索關(guān)系如圖1 所示。

        圖1 多模態(tài)、跨模態(tài)檢索和跨模態(tài)圖文檢索關(guān)系圖Fig.1 Relationship among multi-modal retrieval,crossmodal retrieval and image-text cross-modal retrieval

        跨模態(tài)圖文檢索分為以圖搜文和以文搜圖兩種形式,文獻(xiàn)[9]提出圖像和文本間的語義關(guān)系可以定義為三個(gè)維度下的八種類別,包含不相關(guān)關(guān)系、互補(bǔ)關(guān)系、相互依賴關(guān)系、錨定關(guān)系、插圖關(guān)系、對比關(guān)系、插圖不良關(guān)系和錨定不良關(guān)系。針對圖像和文本之間復(fù)雜的語義交互作用,傳統(tǒng)的跨模態(tài)檢索主要采用統(tǒng)計(jì)分析方法,如典型相關(guān)性分析方法(canonical correlation analysis,CCA)和跨模態(tài)因子分析方法(cross-modal factor analysis,CFA),其對實(shí)際應(yīng)用場景中不同模態(tài)數(shù)據(jù)的復(fù)雜相關(guān)性難以建模。文獻(xiàn)[12]研究了多媒體信息中文本和圖像的聯(lián)合建模問題,用典型相關(guān)分析來學(xué)習(xí)兩個(gè)模態(tài)間的相關(guān)性,然而其學(xué)習(xí)到的都是線性映射,無法有效建立不同模態(tài)數(shù)據(jù)的高階相關(guān)性。近年來,深度學(xué)習(xí)(deep learning)的興起為跨模態(tài)圖文檢索提供了新選擇,并逐漸成為該領(lǐng)域的熱點(diǎn)和主流。一方面,相比于傳統(tǒng)方法,深度網(wǎng)絡(luò)因其高度非線性結(jié)構(gòu),更適合對模態(tài)內(nèi)特征和模態(tài)間語義關(guān)系進(jìn)行挖掘;另一方面,鑒于小批量訓(xùn)練策略的優(yōu)勢,深度網(wǎng)絡(luò)能夠支持對海量數(shù)據(jù)的處理。基于深度學(xué)習(xí)的跨模態(tài)圖文檢索研究因其良好的性能而倍受關(guān)注。

        當(dāng)前跨模態(tài)圖文檢索相關(guān)技術(shù)已被成功應(yīng)用于網(wǎng)絡(luò)輿情事件預(yù)警、多媒體事件檢測、醫(yī)學(xué)數(shù)據(jù)分類等領(lǐng)域。

        此外,近年來,國內(nèi)外已有不少跨模態(tài)檢索相關(guān)文獻(xiàn)及綜述對該主題研究狀況進(jìn)行了呈現(xiàn)。

        2014 年,文獻(xiàn)[15]將跨模態(tài)建模策略分為直接建模和間接建模,前者指通過建立共享層來直接度量不同模態(tài)數(shù)據(jù)間的相關(guān)性,后者指通過構(gòu)建公共表示空間來建立不同場景不同模態(tài)間的語義關(guān)聯(lián)。類似地,2015 年,文獻(xiàn)[16]將多模態(tài)數(shù)據(jù)間建立關(guān)聯(lián)的策略分為基于共享層與基于公共表示空間的兩種關(guān)聯(lián)方法,該文獻(xiàn)對跨模態(tài)深度學(xué)習(xí)模型的設(shè)計(jì)進(jìn)行了深入分析。2016 年,文獻(xiàn)[17]將已有的跨模態(tài)檢索方法歸納為實(shí)值表示學(xué)習(xí)和二進(jìn)制表示學(xué)習(xí)兩大類,并總結(jié)了各自的核心思想。2018 年,文獻(xiàn)[18]針對模態(tài)間內(nèi)容相似性度量的技術(shù)難點(diǎn),將跨模態(tài)檢索分為公共空間學(xué)習(xí)方法和跨模態(tài)相似性度量方法,并對不同跨模態(tài)檢索技術(shù)進(jìn)行總結(jié)。2018 年,文獻(xiàn)[7]將跨模態(tài)檢索方法分為基于子空間的方法、基于深度學(xué)習(xí)的方法、基于哈希變換的方法和基于主題模型的方法,指出當(dāng)前跨模態(tài)檢索面臨的主要問題是缺乏對模態(tài)內(nèi)局部數(shù)據(jù)結(jié)構(gòu)和模態(tài)間語義結(jié)構(gòu)關(guān)聯(lián)的研究。同年,文獻(xiàn)[19]從信息抽取與表示、跨模態(tài)系統(tǒng)建模兩個(gè)維度評述了基于表示學(xué)習(xí)的跨模態(tài)檢索模型,并總結(jié)了特征抽取方面的研究成果。2018 年,文獻(xiàn)[20]探索了聯(lián)合圖正則化的跨模態(tài)檢索方法。2019 年,文獻(xiàn)[21]簡要介紹了近年來跨模態(tài)特征檢索及優(yōu)化的研究進(jìn)展,并對跨模態(tài)數(shù)據(jù)聯(lián)合分析方法及跨模態(tài)特征檢索面臨的問題與挑戰(zhàn)進(jìn)行了概述。文獻(xiàn)[20-21]對跨模態(tài)檢索方法的具體分支進(jìn)行了梳理,為相關(guān)領(lǐng)域的探索提供了新思路。

        以上文獻(xiàn)從不同角度對跨模態(tài)檢索進(jìn)行了梳理與描述,本文更聚焦于針對圖像-文本的跨模態(tài)檢索。當(dāng)前,該領(lǐng)域相關(guān)成果歸納如下:2017 年,文獻(xiàn)[22]將跨模態(tài)圖文檢索的研究內(nèi)容分為多模態(tài)數(shù)據(jù)特征表示和模態(tài)間關(guān)聯(lián)機(jī)制兩方面。2019 年,文獻(xiàn)[23]根據(jù)構(gòu)建模態(tài)間關(guān)聯(lián)方式的區(qū)別,將跨模態(tài)圖文檢索分為基于典型關(guān)聯(lián)分析、基于深度學(xué)習(xí)和基于深度哈希的方法,并就各種跨模態(tài)關(guān)聯(lián)方式的缺陷探索了具體的解決思路。2021 年,文獻(xiàn)[24]重點(diǎn)對跨模態(tài)圖文檢索的各種研究工作進(jìn)行了對比評述,并從文獻(xiàn)計(jì)量的角度分析了該領(lǐng)域文獻(xiàn)的發(fā)表情況,同時(shí)也對跨模態(tài)檢索領(lǐng)域的實(shí)際應(yīng)用做了簡要介紹,然而,基于深度學(xué)習(xí)的方法只是其框架中的分支之一,并未詳盡介紹其發(fā)展?fàn)顩r。同文獻(xiàn)[24]相比,本文除涵蓋了實(shí)值表示和二進(jìn)制表示的方法外,更進(jìn)一步以多模態(tài)學(xué)習(xí)為背景,以深度學(xué)習(xí)技術(shù)為支撐,對基于深度學(xué)習(xí)的跨模態(tài)圖文檢索現(xiàn)有的研究成果進(jìn)行了總結(jié)。相比于已有綜述,本文主要有以下突破:(1)聚焦于近年來最新基于深度學(xué)習(xí)的跨模態(tài)檢索研究,彌補(bǔ)了現(xiàn)有文獻(xiàn)的不足;(2)著重分析公安、傳媒及醫(yī)學(xué)三大領(lǐng)域?qū)缒B(tài)圖文檢索的具體應(yīng)用。

        1 跨模態(tài)圖文檢索相關(guān)工作介紹

        本章主要對跨模態(tài)圖文檢索不同算法中涉及到的幾個(gè)重要概念和常用網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行介紹。

        1.1 相關(guān)概念

        現(xiàn)有跨模態(tài)圖文檢索不同算法過程中涉及到幾個(gè)重要概念,現(xiàn)對這些概念進(jìn)行介紹。

        (1)跨模態(tài)重構(gòu)

        在給定跨模態(tài)數(shù)據(jù)的情況下聯(lián)結(jié)輸入特征表示,然后相互重構(gòu)各模態(tài)數(shù)據(jù)且保留重構(gòu)信息,最后比較重構(gòu)信息與原始信息相似性的過程。

        (2)細(xì)粒度數(shù)據(jù)

        指信息非常詳細(xì)具體的數(shù)據(jù)。數(shù)據(jù)粒度指數(shù)據(jù)的詳細(xì)程度,粒度越小,數(shù)據(jù)的信息越具體,越容易在機(jī)器學(xué)習(xí)中把握數(shù)據(jù)的規(guī)律與本質(zhì)。

        (3)無監(jiān)督學(xué)習(xí)

        指事先沒有任何訓(xùn)練數(shù)據(jù)樣本而需要直接對數(shù)據(jù)建模的學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)僅使用共現(xiàn)信息來學(xué)習(xí)跨模態(tài)數(shù)據(jù)的公共表示。共現(xiàn)信息指在多模態(tài)文檔中所共存的不同形式的數(shù)據(jù)具有相同的語義。

        (4)監(jiān)督學(xué)習(xí)

        指通過有標(biāo)記的訓(xùn)練數(shù)據(jù)來推斷或建立一個(gè)最優(yōu)模型的學(xué)習(xí)方法。監(jiān)督學(xué)習(xí)利用標(biāo)簽信息來學(xué)習(xí)公共表示,強(qiáng)制不同類別樣本的學(xué)習(xí)表示距離盡可能遠(yuǎn),而相同類別樣本的學(xué)習(xí)表示盡可能接近。

        (5)端到端學(xué)習(xí)(end-to-end learning)

        也稱端到端訓(xùn)練,指在學(xué)習(xí)過程中縮減人工預(yù)處理和后續(xù)處理,使模型從原始輸入直接到最終輸出。其訓(xùn)練數(shù)據(jù)為“輸入-輸出”對的形式,無需提供其他額外信息。端到端學(xué)習(xí)為模型提供了更多根據(jù)數(shù)據(jù)自動(dòng)調(diào)節(jié)的空間,增加了模型的整體契合度。

        1.2 相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)

        跨模態(tài)圖文檢索在深度學(xué)習(xí)領(lǐng)域主要涉及七種網(wǎng)絡(luò)結(jié)構(gòu),現(xiàn)對這七種網(wǎng)絡(luò)結(jié)構(gòu)做如下介紹。

        深度自編碼器模型(deep autoencoder,DAE)由一個(gè)編碼器和一個(gè)生成重構(gòu)的解碼器組成。深度自編碼器可以產(chǎn)生對輸入進(jìn)行刻畫的編碼,其通常用于跨模態(tài)重構(gòu),從而發(fā)現(xiàn)跨模態(tài)相關(guān)性。

        深度信念網(wǎng)絡(luò)(deep belief nets,DBN)由Hinton在2006 年提出,該網(wǎng)絡(luò)既可以被視為自編碼器進(jìn)行非監(jiān)督學(xué)習(xí),也可以被視為分類器進(jìn)行監(jiān)督學(xué)習(xí)。

        受限玻爾茲曼機(jī)模型(restricted Boltzmann machine,RBM)可用于跨模態(tài)重建。2012 年,Srivastava等人提了一種由多種模態(tài)輸入組成的深度玻爾茲曼機(jī),該模型可實(shí)現(xiàn)模態(tài)融合與統(tǒng)一表示,也可應(yīng)用于分類識別和信息檢索任務(wù)。

        注意力機(jī)制模型最早提出于視覺圖像領(lǐng)域中,2015 年DeepMind 團(tuán)隊(duì)將其引入到循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型進(jìn)行圖像分類,取得了良好的效果。目前大多數(shù)注意力模型在跨模態(tài)圖文檢索中用于對模態(tài)局部特征的表示,以及對不同模態(tài)片段的對齊,有助于挖掘模態(tài)間細(xì)粒度的對應(yīng)關(guān)系,并在一定程度上能夠彌補(bǔ)模態(tài)數(shù)據(jù)缺失的問題。

        生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)能夠通過兩個(gè)模塊的互相博弈得到良好的輸出。在跨模態(tài)圖文檢索任務(wù)中,生成對抗網(wǎng)絡(luò)一般通過圖片和文本相互對抗,使數(shù)據(jù)間的潛在關(guān)系及語義結(jié)構(gòu)被更好地保留,同時(shí)生成過程可以學(xué)習(xí)強(qiáng)大的跨模態(tài)特征表示,從而增強(qiáng)跨模態(tài)語義一致性。

        卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)廣泛應(yīng)用于跨模態(tài)圖文檢索中,是深度學(xué)習(xí)的代表算法之一。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型有AlexNet、GoogLeNet、VGGNet、ResNet以 及DenseNet等,常用框架有Caffe、Torch及Tensorflow等。其優(yōu)點(diǎn)在于對高維數(shù)據(jù)的處理能力強(qiáng)、特征分類效果良好,具有強(qiáng)大的特征表示能力;缺點(diǎn)是依賴于大規(guī)模標(biāo)記樣本和復(fù)雜的調(diào)參過程??缒B(tài)圖文檢索中常用的卷積神經(jīng)網(wǎng)絡(luò)模型有ResNet、AlexNet等。

        長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)可以有效地將短時(shí)記憶與長時(shí)記憶相結(jié)合,借此聯(lián)合學(xué)習(xí)數(shù)據(jù)的上下文信息。在跨模態(tài)圖文檢索任務(wù)中,需首先確定從單元狀態(tài)中被遺忘的信息,進(jìn)而確定能夠被存放到單元狀態(tài)中的信息,最后通過tanh 的單元狀態(tài)乘以輸出門,用于確定輸出的部分。

        此外,雙向遞歸神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network,BRNN)、基于字嵌入(矢量)的卷積神經(jīng)網(wǎng)絡(luò)(word embedding (vector)based convolutional neural network,WCNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)、區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region convolutional neural network,RCNN)等也被廣泛應(yīng)用于跨模態(tài)圖文檢索的特征提取任務(wù)中。

        2 跨模態(tài)圖文檢索算法研究現(xiàn)狀

        對基于深度學(xué)習(xí)的跨模態(tài)圖文檢索,為確保檢索準(zhǔn)確度,需解決的主要問題是模態(tài)間底層數(shù)據(jù)特征異構(gòu)而導(dǎo)致的語義鴻溝;除此之外,出于對快速檢索的需求,跨模態(tài)圖文檢索效率的提升也是當(dāng)前的研究熱點(diǎn)。因此,基于跨模態(tài)圖文檢索的準(zhǔn)確度和效率,目前流行的算法可以被分為兩類:實(shí)值表示學(xué)習(xí)和二進(jìn)制表示學(xué)習(xí)。實(shí)值表示學(xué)習(xí)方法通常具備高準(zhǔn)確率,且更關(guān)注圖像和文本間的語義匹配問題,旨在學(xué)習(xí)一個(gè)實(shí)值公共表示空間,在該空間中不同模態(tài)的數(shù)據(jù)其通用表示是實(shí)值的。二進(jìn)制表示學(xué)習(xí)也稱為跨模態(tài)哈希,通常用于加速跨模態(tài)檢索,其將不同模態(tài)的數(shù)據(jù)映射到一個(gè)共同的漢明空間,但此類方法的二值化過程通常會(huì)導(dǎo)致檢索精度的降低。本章主要圍繞深度學(xué)習(xí)技術(shù)介紹近幾年跨模態(tài)圖文檢索領(lǐng)域的相關(guān)工作,其研究現(xiàn)狀分類如圖2所示。

        圖2 基于深度學(xué)習(xí)的跨模態(tài)圖文檢索的研究現(xiàn)狀分類圖示Fig.2 Research status of image-text cross-modal retrieval based on deep learning

        2.1 實(shí)值表示學(xué)習(xí)方法

        實(shí)值表示學(xué)習(xí)方法通??梢杂行Ы档蛨D像與文本間的語義鴻溝,進(jìn)而確保檢索準(zhǔn)確性,其旨在為不同形式的數(shù)據(jù)學(xué)習(xí)稠密特征表示。目前流行的基于深度學(xué)習(xí)的實(shí)值表示跨模態(tài)圖文檢索方法可分為兩類:基于特征表示的方法和基于圖文匹配的方法。前一類方法聚焦于對不同模態(tài)間特征進(jìn)行建模,以良好的特征提取來有效解決不同模態(tài)數(shù)據(jù)特征的異構(gòu)問題,從而保障檢索準(zhǔn)確度;后一類方法則關(guān)注圖像和文本模態(tài)間的語義對應(yīng)關(guān)系,旨在通過減小語義鴻溝以提高圖文匹配的準(zhǔn)確性,從而提高檢索的準(zhǔn)確度。

        特征提取是影響跨模態(tài)圖文檢索準(zhǔn)確度的重要因素,多模態(tài)信息的引入使得對不同模態(tài)數(shù)據(jù)進(jìn)行建模成為解決跨模態(tài)圖文檢索異構(gòu)鴻溝問題的關(guān)鍵,基于特征表示的方法將基于深度學(xué)習(xí)的單模態(tài)特征提取算法應(yīng)用在跨模態(tài)圖文檢索中,以便對不同模態(tài)間特征進(jìn)行建模。

        在基于特征表示的方法中,一些研究者建立了基于最大似然準(zhǔn)則的學(xué)習(xí)框架,通過反向傳播和隨機(jī)梯度下降來優(yōu)化網(wǎng)絡(luò)參數(shù)。針對模態(tài)特定的特征,文獻(xiàn)[8]提出了模態(tài)針對型深層結(jié)構(gòu)模型(modalityspecific deep structure,MSDS)。該模型使用CNN 和WCNN 分別提取圖像和文本表示,通過使用標(biāo)準(zhǔn)反向傳播技術(shù)來更新CNN 與WCNN 的參數(shù)。WCNN可以處理不同長度的序列并獲取具有相同維度的結(jié)果特征向量,能夠有效提取文本特征。實(shí)驗(yàn)表明,大規(guī)模數(shù)據(jù)集時(shí)模態(tài)特定特征學(xué)習(xí)能夠更好地提取輸入模態(tài)表示,且WCNN的文本特征提取能力優(yōu)于深度CNN。更進(jìn)一步,在文獻(xiàn)[8]基礎(chǔ)上,文獻(xiàn)[46]提出了基于深度雙向表示學(xué)習(xí)模型(deep and bidirectional representation learning model,DBRLM)的方法,利用文本描述中的序列和結(jié)構(gòu)信息對特征進(jìn)行增強(qiáng),利用雙向結(jié)構(gòu)探索匹配與不匹配圖像文本對的關(guān)系,增加了匹配對的相似性。實(shí)驗(yàn)對比發(fā)現(xiàn),雙向表示模型比只考慮單向模態(tài)不匹配對的情況有更好的效果,且該方法在匹配數(shù)據(jù)中能夠?qū)W習(xí)豐富的鑒別信息。

        針對單標(biāo)簽或多標(biāo)簽樣本跨模態(tài)圖文檢索問題,為了更好地彌合圖像和相應(yīng)語義概念間的差距,文獻(xiàn)[47]使用了深度卷積激活特征描述子(deep convolutional activation feature,DeCAF),將CNN 實(shí)現(xiàn)產(chǎn)生的1 000維度預(yù)測得分作為ImageNet的輸入視覺特征。實(shí)驗(yàn)表明,DeCAF 可以使學(xué)習(xí)到的視覺特征具有足夠的表征能力,特征提取效果良好。由于預(yù)訓(xùn)練的CNN 模型可以被直接遷移以提取圖像視覺特征,針對同一問題,文獻(xiàn)[48]對預(yù)訓(xùn)練的CNN 模型進(jìn)行微調(diào),提出了深度語義匹配方法(deep semantic matching,deep-SM),對不同的目標(biāo)數(shù)據(jù)集采用不同的損失函數(shù),使用微調(diào)的CNN 和訓(xùn)練的全連接神經(jīng)網(wǎng)絡(luò)將圖像和文本投影到高抽象級別的同構(gòu)語義空間中。實(shí)驗(yàn)表明,微調(diào)的方法可以提高其對目標(biāo)數(shù)據(jù)集的適應(yīng)性,有效降低圖像與相應(yīng)語義之間的鴻溝。文獻(xiàn)[49]利用同一思路,通過微調(diào)深度CNN 模型對圖像生成視覺嵌入,有效避免了部分語義信息的丟失。

        基于特征表示的方法一般通過兩種方式來獲取更好的跨模態(tài)輸入特征:第一種針對不同應(yīng)用場景,采用特殊的網(wǎng)絡(luò)結(jié)構(gòu)或提取特定的特征來獲得圖像文本表示;第二種方法則對經(jīng)典的CNN 模型進(jìn)行微調(diào)改進(jìn)。該類方法尤其對大規(guī)模、多標(biāo)簽數(shù)據(jù)集有良好的適應(yīng)性,可以為未來跨模態(tài)檢索提供更有效的設(shè)計(jì)思路。然而,目前研究者在該類方法中更傾向于對視覺特征的探索,文本數(shù)據(jù)在跨模態(tài)語義特征提取過程中并沒有得到很好的研究。因此,探索更合適的神經(jīng)網(wǎng)絡(luò)以建立文本數(shù)據(jù)由低級特征到高級語義之間的映射是該類方法所面臨的挑戰(zhàn)。

        基于特征表示的方法面向跨模態(tài)原始數(shù)據(jù),其關(guān)注點(diǎn)在于獲得更好的輸入特征,通過模態(tài)特征學(xué)習(xí)減小模態(tài)異構(gòu)問題;相比于基于特征表示的方法,基于圖文匹配的方法更關(guān)注于不同模態(tài)間的結(jié)構(gòu)關(guān)聯(lián),此類方法通過研究圖像和文本模態(tài)間的語義對應(yīng)關(guān)系來增強(qiáng)模態(tài)間特征表示的一致性。

        目前主流的基于圖文匹配的方法按照模態(tài)間語義結(jié)構(gòu)關(guān)聯(lián)的不同可分為三類:圖像-文本對齊的方法、跨模態(tài)重構(gòu)的方法和圖文聯(lián)合嵌入的方法。

        (1)圖像-文本對齊的方法

        圖像-文本對齊的方法一般通過學(xué)習(xí)同一實(shí)例不同模態(tài)特征之間的關(guān)系來推斷句子片段與圖像區(qū)域之間的潛在對齊,進(jìn)而實(shí)現(xiàn)圖文匹配。

        為了對圖像內(nèi)容及其在自然語言領(lǐng)域的表示同時(shí)進(jìn)行推理,文獻(xiàn)[50]提出了多模態(tài)雙向遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其核心觀點(diǎn)是將句子視為豐富的標(biāo)簽空間,使連續(xù)的單詞片段對應(yīng)于圖像中某個(gè)特定但未知的位置。該模型能夠?qū)崿F(xiàn)對小區(qū)域或相對罕見對象的視覺語義對應(yīng)關(guān)系的解釋,在圖像-句子排序?qū)嶒?yàn)中有良好的性能表現(xiàn)。進(jìn)一步,通過結(jié)合圖像表示和自然語言處理的研究進(jìn)展,為了回答關(guān)于圖像的自然語言問題,文獻(xiàn)[51]將問題意圖推理、視覺場景理解與單詞序列預(yù)測任務(wù)結(jié)合起來,提出了Neural-Image-QA 模型,其中問題與視覺表征一起被輸入LSTM 進(jìn)行聯(lián)合訓(xùn)練,其語言輸出取決于視覺和自然語言輸入,通過單詞和像素的端到端訓(xùn)練,獲取了良好的匹配結(jié)果。實(shí)驗(yàn)表明該方法在“單字”變體情況下能實(shí)現(xiàn)最佳性能。

        由于圖像-文本對齊的方法更關(guān)注局部精細(xì)的信息,也常用于細(xì)粒度的跨模態(tài)圖文檢索任務(wù)。文獻(xiàn)[52]針對服裝領(lǐng)域提出了FashionBERT 模型,相比于感興趣區(qū)域(region of interest,RoI)模型,時(shí)尚文本傾向于描述更精細(xì)的信息。因此,F(xiàn)ashionBERT 模型由BERT(bidirectional encoder representations from transformers)模型引申得到。BERT 是一種雙向注意力語言模型,作為Transformer在自然語言處理任務(wù)的變體之一,其主要作用是對單模態(tài)文本數(shù)據(jù)進(jìn)行編碼。FashionBERT 在提取圖像表示時(shí)將每個(gè)圖像分割成相同像素的補(bǔ)丁,作為BERT 模型的序列輸入,在匹配時(shí)將文本標(biāo)記和圖像補(bǔ)丁序列進(jìn)行連接。實(shí)驗(yàn)表明該方法可以在一定程度上掩蓋圖像中不相關(guān)的信息,減小了檢測到無用和重復(fù)區(qū)域的可能性。

        此外,由于注意力機(jī)制模型在圖像-文本對齊方法中的良好表現(xiàn),文獻(xiàn)[55]提出了堆疊交叉注意力模型(stacked cross attention network,SCAN)。該模型對圖像RoI 和文本標(biāo)記執(zhí)行跨模態(tài)匹配,利用注意力機(jī)制將每個(gè)片段與來自另一模態(tài)的所有片段對齊,以區(qū)分單詞及圖像區(qū)域的被關(guān)注度,有助于捕捉視覺和語言間的細(xì)粒度相互作用,增強(qiáng)匹配能力。該方法可以靈活地發(fā)現(xiàn)細(xì)粒度對應(yīng)關(guān)系,在多個(gè)基準(zhǔn)數(shù)據(jù)集上都獲得了最佳性能。

        然而,基于注意力機(jī)制的方法大多忽略了全局上下文中出現(xiàn)的多種語義情況?;诖?,文獻(xiàn)[56]提出了語境感知注意力網(wǎng)絡(luò)(context-aware attention network,CAAN),根據(jù)全局上下文有選擇地關(guān)注信息量最大的局部片段,綜合了模態(tài)間和模態(tài)內(nèi)注意過程,同時(shí)執(zhí)行圖像輔助的文本注意和文本輔助的視覺注意,很好地聚合了上下文信息,捕捉了潛在的模態(tài)內(nèi)相關(guān)性,實(shí)驗(yàn)表明自適應(yīng)檢索過程中考慮特定上下文能夠幫助模型獲得更好的檢索結(jié)果。類似地,針對語義模型的復(fù)雜性,文獻(xiàn)[57]提出了基于循環(huán)注意記憶的迭代匹配(iterative matching with recurrent attention memory,IMRAM)方法,該方法通過迭代匹配方案逐步更新跨模態(tài)注意力核心,挖掘圖文間細(xì)粒度的對應(yīng)關(guān)系。如圖3 所示,該模型首先通過跨模態(tài)注意單元估計(jì)V 和T 兩組特征點(diǎn)之間的相似度;然后通過記憶提取單元細(xì)化注意力結(jié)果,深化潛在對應(yīng)關(guān)系,以便為下一次比對提供更多信息。在個(gè)匹配步驟之后,該方法通過對匹配分?jǐn)?shù)求和得出圖文之間的相似度。實(shí)驗(yàn)表明=3 比=2 有更好的表現(xiàn),證明了迭代匹配方案有效地提高了檢索性能。

        圖3 IMRAM 模型框架Fig.3 Framework of IMRAM model

        可以看出,圖像-文本對齊的方法更加關(guān)注圖像和文本的局部區(qū)域片段信息。此類方法的優(yōu)勢在于,通過注意力機(jī)制等方式,能夠獲得更好的細(xì)粒度語義區(qū)分能力,有效解決多語義、圖像問答、圖像描述和細(xì)粒度交互等問題,進(jìn)而提高了圖文匹配的準(zhǔn)確度,具有良好的檢索性能。然而,此類方法由于更多聚焦于局部信息,對數(shù)據(jù)集的規(guī)模和質(zhì)量以及模型的精細(xì)度會(huì)有更高的要求,且大多并不適用于全局信息的匹配。如何在保證局部片段信息良好對齊的前提下實(shí)現(xiàn)圖文整體的準(zhǔn)確匹配仍是目前需要研究的方向。

        (2)跨模態(tài)重構(gòu)的方法

        與圖像-文本對齊的方法關(guān)注局部信息的方式不同,跨模態(tài)重構(gòu)的方法更關(guān)注全局信息,此類方法通常利用一種模態(tài)信息來重構(gòu)對應(yīng)模態(tài),同時(shí)保留重建信息,能夠增強(qiáng)跨模態(tài)特征一致性及語義區(qū)分能力。

        由于跨模態(tài)相關(guān)性是高度非線性的,而RBM 很難直接對這種相關(guān)性進(jìn)行學(xué)習(xí)?;诖?,考慮在每個(gè)模態(tài)的預(yù)訓(xùn)練層上訓(xùn)練RBM 的方法,文獻(xiàn)[58]提出不同模態(tài)數(shù)據(jù)共享權(quán)重的雙模深度自編碼器模型,在僅給定視頻數(shù)據(jù)的情況下進(jìn)行跨模態(tài)重建,從而發(fā)現(xiàn)跨模態(tài)的相關(guān)性。在此研究基礎(chǔ)上,文獻(xiàn)[59]提出了一種圖像字幕生成的方法,引入了結(jié)構(gòu)-內(nèi)容神經(jīng)語言(structure-content neural language model,SCNLM)模型,SC-NLM 通過編碼器學(xué)習(xí)圖像句子聯(lián)合嵌入,并根據(jù)編碼器產(chǎn)生的分布式表示,將句子的結(jié)構(gòu)與內(nèi)容分離,再通過解碼器生成新的字幕。該模型有效地統(tǒng)一了聯(lián)合圖像-文本嵌入模型和多模態(tài)神經(jīng)語言模型,實(shí)現(xiàn)了對圖像和字幕的排序及新字幕的生成。

        此外,由于源集和目標(biāo)集實(shí)例在不可擴(kuò)展跨模態(tài)檢索任務(wù)中通常被假定共享相同范圍的類,當(dāng)二者實(shí)例具有不相交的類時(shí),難以取得理想的檢索結(jié)果。針對此問題,文獻(xiàn)[60]提出了模態(tài)對抗語義學(xué)習(xí)網(wǎng)絡(luò)(modal-adversarial semantic learning network,MASLN),其中,跨模態(tài)重構(gòu)子網(wǎng)絡(luò)通過條件自編碼器相互重建各模態(tài)數(shù)據(jù),實(shí)現(xiàn)從源集到目標(biāo)集的知識轉(zhuǎn)移,使跨模態(tài)分布差異最小化;模態(tài)對抗語義學(xué)習(xí)子網(wǎng)絡(luò)通過對抗性學(xué)習(xí)機(jī)制產(chǎn)生語義表征,使學(xué)習(xí)到的公共表示對語義有區(qū)別而對模態(tài)無區(qū)別。實(shí)驗(yàn)表明,該方法在可擴(kuò)展和不可擴(kuò)展的檢索任務(wù)中結(jié)果都優(yōu)于其他方法,有效縮小了不同模態(tài)之間的異質(zhì)性差距。該網(wǎng)絡(luò)流程圖如圖4 所示。

        圖4 MASLN 模型框架Fig.4 Framework of MASLN model

        為了克服對嵌入空間的需求,文獻(xiàn)[61]提出了循環(huán)一致圖文檢索網(wǎng)絡(luò)(cycle-consistent text and image retrieval network,CyTIR-Net),將圖文檢索問題表述為文本和視覺轉(zhuǎn)換的問題。該方法利用文本項(xiàng)和視覺特征的相互翻譯建立重構(gòu)約束,如圖5 所示,txt2img和img2txt模型分別實(shí)現(xiàn)了圖像和文本域之間的前向和后向轉(zhuǎn)換,確保重構(gòu)的文本或圖像與原始文本或圖像向量相似,并包含足夠的重構(gòu)信息。實(shí)驗(yàn)表明該方法對中小型數(shù)據(jù)集表現(xiàn)更好,良好地展示了循環(huán)一致性約束的正則化能力和網(wǎng)絡(luò)的泛化能力,以及增強(qiáng)模型在跨模態(tài)檢索中的場景辨別能力。

        圖5 CyTIR-Net網(wǎng)絡(luò)架構(gòu)Fig.5 Network architecture of CyTIR-Net

        跨模態(tài)重構(gòu)的方法利用深度自編碼器等方式,有效縮小了模態(tài)間的異構(gòu)性差異,增強(qiáng)了語義辨別能力。此類方法對數(shù)據(jù)集的訓(xùn)練及其規(guī)模要求并不高,注釋成本低,更適用于中小型數(shù)據(jù)集,具有可擴(kuò)展性,多用于圖像字幕生成等任務(wù)。然而,此類方法在模型訓(xùn)練過程中容易忽略細(xì)節(jié)信息,對目標(biāo)數(shù)據(jù)集成對相關(guān)性的表現(xiàn)度不足。因此,如何在縮小模態(tài)間統(tǒng)計(jì)差距的前提下,共同學(xué)習(xí)局部文本與圖像信息的對齊,并據(jù)此來動(dòng)態(tài)地調(diào)節(jié)模態(tài)間的生成過程,是目前此類方法所面臨的挑戰(zhàn)。

        (3)圖文聯(lián)合嵌入的方法

        相比于圖像-文本對齊的方法和跨模態(tài)重構(gòu)的方法,圖文聯(lián)合嵌入的方法一般結(jié)合了全局和局部信息作為語義特征的嵌入,因此能夠?qū)W習(xí)到更好的特征判別性。此類方法一般通過圖像和文本模態(tài)數(shù)據(jù)的聯(lián)合訓(xùn)練及語義特征的嵌入來學(xué)習(xí)圖像文本的相關(guān)性,進(jìn)而實(shí)現(xiàn)圖文匹配。

        針對模態(tài)特征的不一致性導(dǎo)致的跨模態(tài)遷移困難的問題,文獻(xiàn)[62]使用弱對齊的數(shù)據(jù)來學(xué)習(xí)具有強(qiáng)對齊的跨模態(tài)表示,在共享層使用多層感知器將文本信息映射到與視覺模態(tài)相同維度的表示空間中。該模型同時(shí)用到了微調(diào)和統(tǒng)計(jì)正則化的方法,可以在訓(xùn)練數(shù)據(jù)沒有明確對齊的情況下跨模態(tài)檢測相同的概念,具有良好的檢索性能。為了尋找公共表示空間來直接比較不同模態(tài)的樣本,文獻(xiàn)[63]提出了深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval,DSCMR)方法,通過最小化樣本在標(biāo)簽空間和公共表示空間中的判別損失來監(jiān)督模型學(xué)習(xí)判別特征,以保持不同類別語義樣本間的區(qū)分度,并使用權(quán)重共享策略來消除多媒體數(shù)據(jù)在公共表示空間中的跨模態(tài)差異。相比以往的方法,DSCMR 的學(xué)習(xí)策略可充分利用成對標(biāo)簽信息和分類信息,有效學(xué)習(xí)了異構(gòu)數(shù)據(jù)的公共表示。

        值得注意的是,盡管以上方法已考慮到不同模態(tài)到公共空間的特征映射,但這種映射函數(shù)僅關(guān)注于學(xué)習(xí)模態(tài)內(nèi)或模態(tài)間的區(qū)分特征,而未能在跨模態(tài)學(xué)習(xí)方法中充分利用語義信息。

        為此,文獻(xiàn)[14]提出了基于正則化跨模態(tài)語義映射的深度神經(jīng)網(wǎng)絡(luò)(regularized deep neural network,RE-DNN),通過施加模態(tài)內(nèi)正則化,進(jìn)而獲得一個(gè)聯(lián)合模型來捕捉不同輸入之間的高度非線性關(guān)系。該模型在語義層同時(shí)捕獲模態(tài)內(nèi)和模態(tài)間的關(guān)系,且所學(xué)習(xí)的深層架構(gòu)能夠通過停用部分網(wǎng)絡(luò)來解決模態(tài)缺失問題,具有良好處理不成對數(shù)據(jù)的能力。該算法僅需要很少的模型訓(xùn)練先驗(yàn)知識,且對大規(guī)模數(shù)據(jù)集可擴(kuò)展。進(jìn)一步,為了減小低級視覺特征和高級用戶概念之間的“認(rèn)知鴻溝”,文獻(xiàn)[49]提出了多感官融合網(wǎng)絡(luò)(multi-sensory fusion network,MSFN)聯(lián)合模型,將同維CNN 視覺嵌入和LSTM 描述嵌入看作人類的兩種感官,從人類感知角度將視覺和描述性感官相結(jié)合。在測試集中的所有圖像和文本映射到公共語義空間后,跨模態(tài)檢索被轉(zhuǎn)化為用傳統(tǒng)相似性度量評估的同構(gòu)檢索問題,該方法通過最小化類別損失函數(shù)挖掘了跨模態(tài)豐富的語義相關(guān)性。

        此外,圖文聯(lián)合嵌入方法通常會(huì)學(xué)習(xí)內(nèi)嵌式嵌入函數(shù)(injective embedding functions),對于具有歧義的實(shí)例,內(nèi)嵌函數(shù)尋找單個(gè)點(diǎn)會(huì)嚴(yán)重限制其在現(xiàn)實(shí)世界中的應(yīng)用。對此,文獻(xiàn)[64]引入了多義實(shí)例嵌入網(wǎng)絡(luò)(polysemous instance embedding networks,PIE Nets),如圖6所示,通過結(jié)合輸入的全局和局部信息來提取每個(gè)實(shí)例的個(gè)嵌入,同時(shí)使用局部Transformer模塊關(guān)注輸入實(shí)例的不同部分,獲得局部引導(dǎo)特征表示,并利用殘差學(xué)習(xí)將局部和全局表示結(jié)合起來,進(jìn)而提升特征的判別性。針對內(nèi)嵌函數(shù)學(xué)習(xí)某一模態(tài)只能表示對應(yīng)模態(tài)的部分信息,進(jìn)而導(dǎo)致被忽略信息在映射點(diǎn)丟失的問題,文獻(xiàn)[64]還提出了多義視覺語義嵌入方法(polysemous visual-semantic embedding,PVSE),在多實(shí)例學(xué)習(xí)框架中對圖像和文本PIE 網(wǎng)絡(luò)進(jìn)行聯(lián)合優(yōu)化,且該方法通過最大平均差異(maximum mean discrepancy,MMD)來最小化兩個(gè)嵌入分布之間的差異。實(shí)驗(yàn)表明了殘差學(xué)習(xí)和多實(shí)例學(xué)習(xí)對于實(shí)例語義模糊數(shù)據(jù)檢索的重要性。

        圖6 多義視覺語義嵌入體系結(jié)構(gòu)Fig.6 Architecture of polysemous visual-semantic embedding

        同樣為解決多義實(shí)例問題,文獻(xiàn)[65]提出了生成式跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)(generative cross-modal feature learning,GXN),將基礎(chǔ)表示和抽象表示相結(jié)合。除了全局語義層的跨模態(tài)特征嵌入外,GXN 還引入了圖像到文本和文本到圖像兩種生成模型的局部跨模態(tài)特征嵌入,通過生成過程來學(xué)習(xí)全局抽象特征及局部基礎(chǔ)特征。該方法能夠有效處理多義實(shí)例問題,并能夠檢索具有局部相似性的圖像或具有詞級相似性的句子。另一方面,通過引入GAN 網(wǎng)絡(luò)的對抗思想,文獻(xiàn)[66]提出了對抗式跨模態(tài)檢索方法(adversarial cross-modal retrieval,ACMR),該模型在對抗機(jī)制下執(zhí)行語義學(xué)習(xí),其中,特征投影器從公共子空間中的不同模態(tài)生成模態(tài)不變表示,模態(tài)分類器根據(jù)生成的表示來區(qū)分不同的模態(tài),并以這種方式引導(dǎo)特征投影器的學(xué)習(xí)。通過對特征投影器施加三元組約束,將具有相同語義標(biāo)簽的跨模態(tài)表示差異最小化,同時(shí)最大化具有不同語義的圖像文本之間的距離。該方法在跨模態(tài)數(shù)據(jù)被投影到公共子空間中時(shí),數(shù)據(jù)的潛在語義結(jié)構(gòu)被更好地保留。

        圖文聯(lián)合嵌入的方法更關(guān)注對高級語義信息的探索。此類方法一般利用生成對抗等思想,通過最小化判別損失函數(shù)和模態(tài)不變性損失等方式挖掘豐富的語義相關(guān)性,能夠很大程度上消除跨模態(tài)異構(gòu)差異,減小“語義鴻溝”及“認(rèn)知鴻溝”,有效解決多義實(shí)例、模態(tài)缺失等問題,并能良好地捕獲成對信息相關(guān)性,提高圖文匹配的準(zhǔn)確度和可擴(kuò)展性,具有很好的檢索性能。

        2.2 二進(jìn)制表示學(xué)習(xí)方法

        實(shí)值表示學(xué)習(xí)方法具有良好的語義區(qū)分能力,能夠很大程度上減小“語義鴻溝”及“認(rèn)知鴻溝”,因此其檢索準(zhǔn)確性一般很好,但對于一些對檢索效率要求高的任務(wù)場景,實(shí)值表示學(xué)習(xí)并不適用。相比于實(shí)值表示學(xué)習(xí)方法,二進(jìn)制表示學(xué)習(xí)方法在檢索效率上具有優(yōu)勢,其在保證準(zhǔn)確率波動(dòng)幅度可控的前提下,可顯著提升檢索速度。

        二進(jìn)制表示學(xué)習(xí)方法將跨模態(tài)數(shù)據(jù)投影到一個(gè)公共漢明空間,目的在于給相似的跨模態(tài)內(nèi)容賦予相似的哈希碼。

        近十年來,基于二進(jìn)制表示學(xué)習(xí)的方法不斷取得突破性進(jìn)展與成果。2009 年,深度哈希算法由Hinton研究組提出。2014 年,文獻(xiàn)[68]提出了卷積神經(jīng)網(wǎng)絡(luò)哈希(convolutional neural network Hashing,CNNH)模型,使基于CNN 的深度哈希算法開始受到關(guān)注。2015 年,文獻(xiàn)[69]提出二進(jìn)制哈希碼的深度學(xué)習(xí)(deep learning of binary Hash codes,DLBHC)方法,利用深度CNN 的增量學(xué)習(xí)特性,以點(diǎn)的方式進(jìn)行編碼和圖像表示,同時(shí)學(xué)習(xí)特定圖像表征和類似哈希的函數(shù),實(shí)現(xiàn)了快速圖像檢索并使其適用于大規(guī)模數(shù)據(jù)集。此外,為了進(jìn)一步探索多標(biāo)簽關(guān)聯(lián)圖像的復(fù)雜多級語義結(jié)構(gòu),文獻(xiàn)[70]提出深度語義哈希排序(deep semantic ranking Hashing,DSRH)方法,利用深度CNN 與列表排序監(jiān)督哈希,共同學(xué)習(xí)特征表示和從它們到哈希碼的映射,避免了傳統(tǒng)方法特征語義表示能力不足的限制。

        基于二進(jìn)制表示學(xué)習(xí)方法由于二進(jìn)制哈希碼較短,有利于在現(xiàn)實(shí)世界中對大規(guī)模數(shù)據(jù)的處理,因而被廣泛應(yīng)用于跨模態(tài)圖文檢索任務(wù)中。

        為確保哈希碼和不同信息源所設(shè)計(jì)哈希函數(shù)的一致性,文獻(xiàn)[71]提出了多源信息復(fù)合哈希算法(composite Hashing with multiple information sources,CHMIS),通過調(diào)整權(quán)重的信息集成方法(CHMIS with adjusted weights,CHMIS-AW)調(diào)整每個(gè)單獨(dú)源的權(quán)重,將來自不同源的信息集成到二進(jìn)制哈希碼中,進(jìn)而最大化編碼性能,保留了訓(xùn)練示例之間的語義相似性。

        在基于深度哈希的跨模態(tài)圖文檢索算法中,一些研究者使用了端到端的方法。針對不同模態(tài)的異構(gòu)性,文獻(xiàn)[72]提出了深度視覺語義哈希(deep visual semantic Hashing,DVSH)模型,該模型是首個(gè)跨模態(tài)哈希的端到端學(xué)習(xí)方法,設(shè)計(jì)了學(xué)習(xí)圖文聯(lián)合嵌入的視覺語義融合網(wǎng)絡(luò),以橋接不同模態(tài)及兩個(gè)模態(tài)特定的哈希網(wǎng)絡(luò),其生成的緊湊哈希碼能夠捕捉視覺數(shù)據(jù)和自然語言之間的內(nèi)在對應(yīng)關(guān)系,進(jìn)而獲取判別性特征,且該模型有效克服了傳統(tǒng)融合網(wǎng)絡(luò)對雙峰對象聯(lián)合嵌入的需求,更適用于高精度的應(yīng)用程序。針對跨模態(tài)哈希(cross-modal Hashing,CMH)手工制作特性與哈希碼學(xué)習(xí)不能良好兼容的問題,文獻(xiàn)[73]介紹了跨模態(tài)深度哈希算法(deep crossmodal Hashing,DCMH),將特征學(xué)習(xí)和哈希碼學(xué)習(xí)集成到同一端到端學(xué)習(xí)框架,通過同時(shí)對不同類型樣本對施加約束使相似樣本間相互靠近,從而保證模態(tài)間的對齊,且DCMH 直接學(xué)習(xí)離散的哈希碼,避免了檢索準(zhǔn)確性的降低,提高了檢索性能。

        為了彌補(bǔ)模態(tài)差異以進(jìn)一步提高檢索準(zhǔn)確度,文獻(xiàn)[74]提出了自我監(jiān)督的對抗式哈希方法(selfsupervised adversarial Hashing,SSAH),將對抗式學(xué)習(xí)以自監(jiān)督方式結(jié)合到跨模態(tài)哈希中,由自監(jiān)督語義生成網(wǎng)絡(luò)(LabNet)和圖像文本對抗網(wǎng)絡(luò)(ImgNet和TexNet)組成。其中,自監(jiān)督語義生成網(wǎng)絡(luò)用來監(jiān)督兩個(gè)模態(tài)的語義空間以及對抗性學(xué)習(xí)。兩個(gè)對抗網(wǎng)絡(luò)用來共同學(xué)習(xí)不同模態(tài)的高維特征及其對應(yīng)的哈希碼。實(shí)驗(yàn)表明,SSAH 比DCMH 減少了90%的訓(xùn)練時(shí)間,且SSAH 學(xué)習(xí)了更充分的監(jiān)督信息,可以捕獲不同模態(tài)間更精確的相關(guān)性。

        針對跨模態(tài)哈希在有限數(shù)量標(biāo)記樣本上容易過擬合以及高維輸入轉(zhuǎn)換成二進(jìn)制代碼導(dǎo)致的信息丟失問題,文獻(xiàn)[75]提出了循環(huán)一致的深層生成哈希算法(cycle-consistent deep generative Hashing,CYC-DGH),通過循環(huán)一致的對抗學(xué)習(xí)在沒有成對對應(yīng)的情況下學(xué)習(xí)耦合的生成哈希函數(shù)。該算法通過深度生成模型從哈希碼中重新生成輸入,使學(xué)習(xí)到的哈希碼最大限度地關(guān)聯(lián)每個(gè)輸入-輸出對應(yīng)關(guān)系,且哈希嵌入過程中的信息損失被最小化,有效壓縮了輸入數(shù)據(jù),同時(shí)能夠最大限度地保留自身信息及不同模態(tài)樣本間的關(guān)系,對減小哈希函數(shù)間的模態(tài)差異有良好表現(xiàn)。

        二進(jìn)制表示學(xué)習(xí)方法更側(cè)重解決模態(tài)特征異構(gòu)引起的模態(tài)差異問題,運(yùn)用端到端、生成對抗等思想,致力于最大化特征分布的一致性。此類方法還有效解決了過擬合等問題。然而由于此類方法在二值化過程中會(huì)導(dǎo)致信息的丟失以及原有結(jié)構(gòu)被破壞,考慮模態(tài)內(nèi)數(shù)據(jù)結(jié)構(gòu)和模態(tài)間結(jié)構(gòu)匹配的關(guān)聯(lián),優(yōu)化計(jì)算等是目前需要研究的方向。

        2.3 小結(jié)

        本節(jié)主要介紹了現(xiàn)有基于深度學(xué)習(xí)的跨模態(tài)圖文檢索算法。針對檢索的準(zhǔn)確度與檢索效率,分別從實(shí)值表示學(xué)習(xí)和二進(jìn)制表示學(xué)習(xí)兩個(gè)方法出發(fā),對不同跨模態(tài)圖文檢索方法的研究現(xiàn)狀進(jìn)行了分類總結(jié)。表1、表2、表3 從類別、代表性方法、特點(diǎn)和適用場景四方面對一些具有重要作用的跨模態(tài)檢索算法進(jìn)行了對比分析。

        表1 基于特征表示的代表性方法總結(jié)Table 1 Summary of representative methods based on feature representation

        表2 基于圖文匹配的代表性方法總結(jié)Table 2 Summary of representative methods based on image-text matching

        表3 二進(jìn)制表示學(xué)習(xí)代表性方法總結(jié)Table 3 Summary of representative methods of binary representation learning

        3 常用數(shù)據(jù)集及評價(jià)指標(biāo)

        3.1 常用數(shù)據(jù)集

        對于圖像和文本等單模態(tài)或跨模態(tài)的信息處理一般都需要數(shù)據(jù)集來進(jìn)行評估。高質(zhì)量的數(shù)據(jù)集可以使神經(jīng)網(wǎng)絡(luò)充分學(xué)習(xí)各種潛在知識,同時(shí)避免神經(jīng)網(wǎng)絡(luò)的過擬合等問題。目前跨模態(tài)圖文檢索中常用的數(shù)據(jù)集有以下幾種。

        (1)NUS-WIDE

        NUS-WIDE 是由新加坡國立大學(xué)多媒體檢索實(shí)驗(yàn)室創(chuàng)建的網(wǎng)絡(luò)圖像數(shù)據(jù)集,其圖像主要來源于Flickr 網(wǎng)站。該數(shù)據(jù)集包括了269 648 幅圖像,平均每幅圖像帶有2~5 個(gè)標(biāo)簽語句,其中獨(dú)立標(biāo)簽共有5 018 個(gè)。該數(shù)據(jù)集只局限于圖像和文本兩種模態(tài),常用于跨模態(tài)哈希中?;谶@個(gè)數(shù)據(jù)集,可以探索有關(guān)于網(wǎng)絡(luò)圖像注釋和檢索的研究問題。

        (2)MSCOCO

        COCO 數(shù)據(jù)集是微軟團(tuán)隊(duì)發(fā)布的一個(gè)可以用于識別、分割和圖像語意描述等任務(wù)的數(shù)據(jù)集。該數(shù)據(jù)集以場景理解為目標(biāo),其圖像內(nèi)容主要從復(fù)雜的日常場景中截取而來。該數(shù)據(jù)集是一個(gè)大規(guī)?;诰渥拥膱D像描述數(shù)據(jù)集,包含了123 287 幅圖像,且每幅圖像至少包含5 句對應(yīng)的語句描述。數(shù)據(jù)集中的圖像來自91 個(gè)不同類別,包含了328 000 種影像和2 500 000 個(gè)標(biāo)簽。雖然COCO 數(shù)據(jù)集比ImageNet 類別少,但是各類別包含的圖像多,有利于獲得更多不同類別中的特定場景。

        (3)Flickr30k

        Flickr 數(shù)據(jù)集由雅虎發(fā)布,由1 億幅圖像和70 萬個(gè)視頻的統(tǒng)一資源定位器(uniform resource locator,URL)以及與之相關(guān)的元數(shù)據(jù)(標(biāo)題、描述、標(biāo)簽)組成,其焦點(diǎn)是人或動(dòng)物執(zhí)行的一些動(dòng)作。數(shù)據(jù)集中的圖像由6個(gè)不同的Flickr組手動(dòng)收集,由美國選定工作人員使用多種形式的標(biāo)題進(jìn)行注釋。其中Flickr30k數(shù)據(jù)集采集于Flickr 網(wǎng)站,包含31 783 張日常場景、活動(dòng)和事件的圖像,圖像與158 915 個(gè)標(biāo)題相關(guān)聯(lián),每一張都用5 個(gè)句子注釋。該數(shù)據(jù)集常用于圖像-句子檢索中。

        (4)Wikipedia

        Wikipedia 數(shù)據(jù)集采集于維基百科,是跨模態(tài)檢索研究使用最多的數(shù)據(jù)集,由帶有相關(guān)圖像文本對的文檔語料庫組成。該數(shù)據(jù)集是根據(jù)維基百科的特色文章設(shè)計(jì)的,由維基共享資源的一個(gè)或多個(gè)圖像補(bǔ)充,包含2 866 個(gè)圖像/文本數(shù)據(jù)對,共10 個(gè)不同的語義類。該數(shù)據(jù)集所囊括的樣本和語義類別相對較少且模態(tài)類型相對有限,且也只包含圖像和文本兩種模態(tài)。

        (5)IAPRTC-12

        IAPRTC-12 最初由Grubinger 等人發(fā)布,也稱為Image CLEF 2006,是為CLEF(cross-language evaluation forum)跨語言圖像檢索任務(wù)創(chuàng)建的,其目的在于評估基于視覺和文本檢索技術(shù)的效率。該數(shù)據(jù)集共有19 627 幅圖像,其描述由多種語言(主要是英語和德語)組成,每個(gè)圖像與1~5 個(gè)描述相關(guān)聯(lián),其中每個(gè)描述均指圖像的不同方面。該數(shù)據(jù)集詞匯量為4 424。值得注意的是,該數(shù)據(jù)集中的文本都是語法性的,幾乎沒有噪音。句子中的語言組織良好,其內(nèi)容與相應(yīng)的意象密切相關(guān)。

        對于以上常用數(shù)據(jù)集,主要參數(shù)如表4 所示,且各數(shù)據(jù)集的圖像文本對示例圖如圖7 所示。

        圖7 不同數(shù)據(jù)集圖像文本對示例圖Fig.7 Sample graph of image-text pairs in different datasets

        表4 常用數(shù)據(jù)集介紹Table 4 Introduction of common datasets

        3.2 性能評價(jià)指標(biāo)

        目前跨模態(tài)圖文檢索常用的性能評價(jià)指標(biāo)有召回率、精確率、準(zhǔn)確率和平均精度等。

        (1)召回率(,)

        召回率是指檢索系統(tǒng)返回的查詢樣本相關(guān)文檔與數(shù)據(jù)集所有匹配文檔之比。召回率的計(jì)算公式為:

        其中,表示檢索返回的與查詢樣本匹配的文檔數(shù)量,表示數(shù)據(jù)集中沒有返回的與查詢樣本匹配的文檔數(shù)量。

        對于圖文檢索,常用的一個(gè)評價(jià)標(biāo)準(zhǔn)是@,即為@。@計(jì)算在前個(gè)檢索的句子中找到至少一個(gè)正確結(jié)果的測試圖像或測試句子的百分比。對于圖像檢索,計(jì)算前個(gè)檢索的圖像的百分比,即測量在前個(gè)結(jié)果中檢索到正確項(xiàng)目的查詢的比例。其中,“@1”“@5”“@10”,分別表示前1、5、10 個(gè)結(jié)果的召回率。

        (2)精確率(,)

        精確率是指檢索系統(tǒng)中被正確檢索的樣本數(shù)與被檢索到樣本總數(shù)之比。精確率的計(jì)算公式為:

        其中,表示被檢索樣本中與查詢樣本不匹配的數(shù)量。

        一般而言,召回率和精確率互相矛盾,需要在不同的場合根據(jù)實(shí)驗(yàn)對于精確率和召回率的要求進(jìn)行判斷。精確率和召回率很少作為單獨(dú)評價(jià)指標(biāo)去使用,可以繪制-曲線來幫助分析。

        (3)準(zhǔn)確率(,)

        準(zhǔn)確率指檢索系統(tǒng)中被分類正確的樣本數(shù)占樣本總數(shù)的比率。準(zhǔn)確率的計(jì)算公式為:

        其中,表示檢索返回的與查詢樣本匹配的文檔數(shù)量;表示檢索后未能返回的與查詢樣本匹配的文檔數(shù)量;表示總樣本數(shù)。

        (4)綜合評價(jià)(-score,)

        綜合評價(jià)指標(biāo)-score(又稱為-measure)是和加權(quán)調(diào)和平均,其計(jì)算公式為:

        其中,用于調(diào)整權(quán)重,當(dāng)=1 時(shí)兩者權(quán)重相同,簡稱為1-score。在檢索過程中,若更重要?jiǎng)t減小,反之若更重要?jiǎng)t增大。

        由于和指標(biāo)會(huì)相互矛盾,而綜合評價(jià)指標(biāo)-score 既能夠參考與,又比的計(jì)算更加準(zhǔn)確,因此作為評價(jià)指標(biāo)更為常用。

        (5)平均精度(mean average precision,MAP)

        MAP 是目前跨模態(tài)圖文檢索任務(wù)中最流行的性能評價(jià)指標(biāo),在給定一個(gè)查詢和top-檢索到數(shù)據(jù)的情況下,平均精度定義為:

        其中,表示檢索文檔中第個(gè)樣本,()表示的是第個(gè)檢索樣本的精度。另外,如果第個(gè)樣本檢索返回的數(shù)據(jù)與其本身相關(guān),則()=1,否則()=0。

        MAP 可以解決、和-measure 的單點(diǎn)值局限性,用于衡量算法的檢索能力,能夠反映全局性能。

        3.3 不同算法對比

        本節(jié)對不同算法在不同數(shù)據(jù)集中的表現(xiàn)進(jìn)行了全面比較,其主要性能評價(jià)指標(biāo)為@和MAP。對于跨模態(tài)圖文檢索,F(xiàn)lickr30k 數(shù)據(jù)集常用性能評價(jià)指標(biāo)為@,其一般用于評估實(shí)值表示學(xué)習(xí)方法。Wikipedia 和NUS-WIDE 數(shù)據(jù)集通常用MAP 來評估算法性能,它們對于實(shí)值表示學(xué)習(xí)和二進(jìn)制表示學(xué)習(xí)方法的性能評估都適用。MSCOCO 數(shù)據(jù)集通常既可用@來評估算法性能,也可用MAP 來進(jìn)行評估,且對于實(shí)值表示和二進(jìn)制表示學(xué)習(xí)方法也都適用。IAPRTC-12 數(shù)據(jù)集通常用MAP 來評估二進(jìn)制表示學(xué)習(xí)方法的性能,用top@來評估實(shí)值表示學(xué)習(xí)方法的性能。top@計(jì)算公式為:

        其中,表示測試集中圖像文本對的數(shù)量,1()是指示函數(shù),r是第對圖像(文本)的排名位置。設(shè)置為{1,2,10,20,100,200,1 000}。

        對于實(shí)值表示學(xué)習(xí)方法,本文選擇了CyTIR-Net、IMRAM、BRNN 等算法,其中基于特征表示的算法有deep-SM、DeCAF、MSDS 和DBRLM,基于圖像-文本對齊的算法有IMRAM、BRNN、CAAN 和SCAN,基于跨模態(tài)重構(gòu)的方法有CyTIR-Net 和MASLN,基于圖文聯(lián)合嵌入的方法有ACMR、MSFN+TextNet、GXN、PVSE 和DSCMR;基于二進(jìn)制表示學(xué)習(xí)的方法有DVSH、CYC-DGH、SSAH 和DCMH 等。

        以下數(shù)據(jù)均為各經(jīng)典算法相關(guān)文獻(xiàn)中所報(bào)導(dǎo)的結(jié)果,對比結(jié)果如表5~表12 所示,對于最好的結(jié)果本節(jié)進(jìn)行加粗以示強(qiáng)調(diào),“—”表示結(jié)果未被提供。

        表5 對于Flickr30k 現(xiàn)有不同算法R@K 比較Table 5 R@K comparison of different existing algorithms for Flickr30k

        表6 對于MSCOCO 現(xiàn)有不同算法R@K 比較(1 000 幅測試圖像)Table 6 R@K comparison of different existing algorithms for MSCOCO(1000 test images)

        由表5~表7 可以看出,算法IMRAM 在跨模態(tài)圖文檢索中取得了更好的@值,該算法實(shí)驗(yàn)環(huán)境為Pytorch v1.0,在Flickr30k 數(shù)據(jù)集上分別將29 000、1 000、1 000 幅圖像用于訓(xùn)練、驗(yàn)證和測試模型,在MSCOCO 數(shù)據(jù)集上也分別將1 000 幅圖像用于驗(yàn)證和測試,其在小規(guī)模數(shù)據(jù)集(Flickr30k)上和大規(guī)模數(shù)據(jù)集(MSCOCO)上都有較好的表現(xiàn),證明了該算法的魯棒性,同時(shí)也得出對細(xì)粒度對應(yīng)關(guān)系進(jìn)行探索的必要性。此外,CAAN 算法在Flickr30k 數(shù)據(jù)集分別將29 000、1 000、1 000 幅圖像用于訓(xùn)練、驗(yàn)證和測試模型,該算法在前15 個(gè)epochs 的學(xué)習(xí)率為0.000 2,后15 個(gè)epochs的學(xué)習(xí)率降至0.000 02。PVSE 算法在MSCOCO 數(shù)據(jù)集上將113 287 幅圖像用于訓(xùn)練模型,并在完整的5 000 幅測試圖像上進(jìn)行測試,且以平均值超過5 倍以上來進(jìn)行1 000 幅圖像的測試,該算法初始學(xué)習(xí)率為0.036 6,并在損失停滯時(shí)減少一半,用批量大小為128 的樣本進(jìn)行50 個(gè)epochs 的訓(xùn)練。CAAN 算法和PVSE 算法分別在小規(guī)模數(shù)據(jù)集(Flickr30k)和大規(guī)模數(shù)據(jù)集(MSCOCO)上也取得了更好的@值,表明了注意力機(jī)制在跨模態(tài)圖文檢索中的優(yōu)勢。且這幾種方法都強(qiáng)調(diào)局部特征和全局特征的結(jié)合,以提升特征的判別性。對于該領(lǐng)域的后續(xù)發(fā)展具有借鑒意義。

        表7 對于MSCOCO 現(xiàn)有不同算法R@K 比較(5 000 幅測試圖像)Table 7 R@K comparison of different existing algorithms for MSCOCO(5000 test images)

        由表8 可以看出,ACMR 在數(shù)據(jù)集MSCOCO 上取得了更好的MAP 值,ACMR 算法分別將66 226 和16 557 個(gè)圖像文本對用于模型訓(xùn)練和測試,用到的圖像特征提取網(wǎng)絡(luò)為4 096 維的VGGNet,文本特征提取網(wǎng)絡(luò)為3 000 維的BoW(bag-of-words),批量大小為64。該算法利用GAN 的對抗思想,使數(shù)據(jù)的潛在跨模態(tài)語義結(jié)構(gòu)被更好地保留。結(jié)果顯示實(shí)值表示學(xué)習(xí)的方法在大規(guī)模數(shù)據(jù)集(MSCOCO)上MAP 值一般優(yōu)于二進(jìn)制表示學(xué)習(xí)的方法。其中,CYC-DGH算法在MSCOCO 上取得結(jié)果優(yōu)于其他二進(jìn)制表示學(xué)習(xí)方法,該算法初始學(xué)習(xí)率為0.000 2,在前100 個(gè)epochs 中保持不變,在后100 個(gè)epochs 中線性衰減到0,且以dropout 率為0.5 的卷積退出ReLU 層。CYC-DGH 同樣使用GAN 網(wǎng)絡(luò)的思想,在有效壓縮輸入數(shù)據(jù)的同時(shí),最大限度地保留其自身信息以及來自不同模態(tài)的樣本之間的關(guān)系。因此可以得出,GAN 的思想對于提升跨模態(tài)圖文檢索性能很有幫助,為相關(guān)工作提供了值得借鑒的研究思路。

        表8 對于MSCOCO 現(xiàn)有不同算法MAP 比較Table 8 MAP comparison of different existing algorithms for MSCOCO

        由表9 和表10 可以看出,CYC-DGH 和deep-SM分別在數(shù)據(jù)集Wikipedia 和NUS-WIDE 上取得了最佳MAP 值,CYC-DGH 從Wikipedia 數(shù)據(jù)集中隨機(jī)選擇75%的文檔作為數(shù)據(jù)庫,其余為查詢樣本,且批量大小為1。deep-SM 算法實(shí)驗(yàn)環(huán)境為開源Caffe CNN庫,分別將114 114 和76 303 個(gè)圖像文本對用于訓(xùn)練和測試,其dropout 率為0.5,動(dòng)量參數(shù)為0.9,且對不同模態(tài)采取不同學(xué)習(xí)率,在CNN 中分別將卷積層、前兩個(gè)完全連接層和最后一個(gè)完全連接層的學(xué)習(xí)率設(shè)置為0.001、0.002 和0.010,通過設(shè)置不同層的不同學(xué)習(xí)率來控制參數(shù)更新速率;在TextNet 中每層的初始學(xué)習(xí)率為0.010,然后根據(jù)交叉熵?fù)p失動(dòng)態(tài)變化。deep-SM 算法對預(yù)處理的CNN 模型進(jìn)行微調(diào)以提取CNN視覺特征,一定程度上提升了跨模態(tài)檢索性能。同時(shí),在Wikipedia 數(shù)據(jù)集上,MASLN 算法結(jié)果優(yōu)于其他實(shí)值表示學(xué)習(xí)方法,該算法學(xué)習(xí)率為0.000 1,批量大小為128,其將跨模態(tài)重構(gòu)和模態(tài)對抗性語義網(wǎng)絡(luò)進(jìn)行了聯(lián)合訓(xùn)練,對于小規(guī)模數(shù)據(jù)集上跨模態(tài)檢索性能的提升有很大幫助。

        表9 對于Wikipedia 現(xiàn)有不同算法MAP 比較Table 9 MAP comparison of different existing algorithms for Wikipedia

        表10 對于NUS-WIDE 現(xiàn)有不同算法MAP 比較Table 10 MAP comparison of different existing algorithms for NUS-WIDE

        表11 和表12 對不同算法在IAPRTC-12 數(shù)據(jù)集上的表現(xiàn)進(jìn)行了比較??梢钥闯觯M(jìn)制表示學(xué)習(xí)方法中,CYC-DGH 取得了更好的結(jié)果;實(shí)值表示學(xué)習(xí)方法中,MSDS 取得了更好的結(jié)果。MSDS 模型實(shí)驗(yàn)環(huán)境為Caffe,其分別將17 627 和2 000 個(gè)圖像文本對用于訓(xùn)練和測試,且在WCNN、CNN 和DNN 的學(xué)習(xí)率分別為0.010、0.001 和0.001。MSDS 在潛在空間中使用標(biāo)準(zhǔn)反向傳播技術(shù)來更新兩個(gè)卷積網(wǎng)絡(luò)的參數(shù),易應(yīng)用于大數(shù)據(jù)集。

        表11 對于IAPRTC-12 現(xiàn)有不同算法MAP 比較Table 11 MAP comparison of different existing algorithms for IAPRTC-12

        表12 對于IAPRTC-12 現(xiàn)有不同算法top@k 比較Table 12 top@k comparison of different existing algorithms for IAPRTC-12

        綜上,通過對不同算法對比,可以得出,對于跨模態(tài)圖文檢索性能的提升,以下方法值得進(jìn)一步探索研究:

        (1)基于細(xì)粒度的圖像-文本對齊的方法有助于探索模態(tài)間精細(xì)的潛在語義關(guān)系,可以更加靈活地應(yīng)用于語義更復(fù)雜的跨模態(tài)圖文檢索場景,能夠從語義的多樣性出發(fā),提高檢索性能。

        (2)不論是實(shí)值表示學(xué)習(xí)方法還是二進(jìn)制表示學(xué)習(xí)方法,生成對抗網(wǎng)絡(luò)的博弈思想都可用于保留模態(tài)間語義關(guān)系等信息,該網(wǎng)絡(luò)結(jié)構(gòu)能夠有效提升跨模態(tài)檢索的全局性能。

        (3)對預(yù)處理的CNN 模型進(jìn)行微調(diào)可以提高其對目標(biāo)數(shù)據(jù)集的適應(yīng)性,是避免從頭開始訓(xùn)練CNN模型的有效策略,且該策略也通過反向傳播來調(diào)整網(wǎng)絡(luò)。因此是一種對于提升跨模態(tài)圖文檢索性能簡單且有效的方法。

        (4)注意力機(jī)制模型可以捕捉圖像和文本中最具判別性的特征,有效區(qū)分單詞及圖像區(qū)域的被關(guān)注度,能有效解決信息過載問題,提高算法效率及準(zhǔn)確性。對于需要關(guān)注模態(tài)局部特征的跨模態(tài)檢索任務(wù)有很大助益。

        4 應(yīng)用

        目前,跨模態(tài)圖文檢索技術(shù)在公安、傳媒及醫(yī)學(xué)領(lǐng)域等都有著廣泛的應(yīng)用。其中在公安領(lǐng)域主要應(yīng)用于輿情分析以及對網(wǎng)絡(luò)輿論欺詐事件的預(yù)測和處理,現(xiàn)有的輿情檢測系統(tǒng)通常利用互聯(lián)網(wǎng)來實(shí)現(xiàn)輿情的收集、追蹤、監(jiān)控和預(yù)警;在傳媒領(lǐng)域主要應(yīng)用于多媒體事件檢測和意見挖掘,以及網(wǎng)絡(luò)推薦系統(tǒng)等;在醫(yī)學(xué)領(lǐng)域可應(yīng)用于醫(yī)學(xué)存儲數(shù)據(jù)的查詢。

        4.1 公安領(lǐng)域的應(yīng)用

        跨模態(tài)圖文檢索在公安領(lǐng)域主要用于網(wǎng)絡(luò)輿情分析和網(wǎng)絡(luò)輿論欺詐。

        網(wǎng)絡(luò)輿情具有自由性、交互性、多元性、偏差性和突發(fā)性的特點(diǎn),其分析流程如圖8 所示,事件發(fā)生后,首先要進(jìn)行突發(fā)事件的監(jiān)測,然后對熱點(diǎn)話題進(jìn)行識別跟蹤,對識別結(jié)果進(jìn)行語義分析以進(jìn)一步判斷其情感傾向,最后對不同的情感傾向做出相應(yīng)預(yù)警,同時(shí)也可通過信息索引數(shù)據(jù)庫對已有熱點(diǎn)事件進(jìn)一步呈現(xiàn),實(shí)現(xiàn)信息收集,并使其監(jiān)控相關(guān)敏感信息,以提高事件監(jiān)測效率。

        圖8 輿情分析一般流程圖Fig.8 General flow chart of public opinion analysis

        其中,熱點(diǎn)話題識別包括主題跟蹤、主題發(fā)現(xiàn)、相關(guān)發(fā)現(xiàn)等內(nèi)容,要求對不同領(lǐng)域的相關(guān)圖像與文本信息實(shí)現(xiàn)良好的信息提取,增強(qiáng)語義辨別能力;語義分析需要滿足情感互補(bǔ)性和情感一致性,可分別采用圖文融合和注意模型、模態(tài)貢獻(xiàn)計(jì)算等方法,要求所提取的特征要克服語義模型的復(fù)雜性,挖掘豐富的語義相關(guān)性;對于事件預(yù)警,可通過事件分類模塊來區(qū)分不同事件的等級。通過高效整合來自不同媒介的輿情,運(yùn)用跨模態(tài)圖文檢索相關(guān)技術(shù),可有效實(shí)現(xiàn)對突發(fā)事件的監(jiān)測及預(yù)警,幫助公安機(jī)關(guān)有效杜絕涉警網(wǎng)絡(luò)輿情發(fā)酵為群體性事件。

        對于突發(fā)事件的監(jiān)測,現(xiàn)有工作對相關(guān)問題研究較少,為了在實(shí)時(shí)的社交網(wǎng)絡(luò)數(shù)據(jù)流中對突發(fā)事件進(jìn)行監(jiān)測和深度挖掘,文獻(xiàn)[82]構(gòu)建了國民安全突發(fā)事件檢測系統(tǒng),通過多模態(tài)圖融合和話題恢復(fù)算法對突發(fā)事件進(jìn)行檢測,并利用國民安全突發(fā)事件分類模塊過濾得到相關(guān)突發(fā)事件。

        此外,對于網(wǎng)絡(luò)輿情分析,現(xiàn)有的研究工作更多關(guān)注熱點(diǎn)話題識別、語義分析和情感傾向分析三方面。針對輿情事件話題識別及語義分析,文獻(xiàn)[83]提出基于文本的情感顯著性特征提取方法和基于圖文融合的跨模態(tài)輿情回歸分析方法,將情感信息融入特征提取得到有利于文本情感分析的顯著特征,并進(jìn)行圖文融合以解決模態(tài)間情感互斥問題。為了通過輿情語義分析進(jìn)一步實(shí)現(xiàn)情感分析預(yù)測,文獻(xiàn)[84]提出了深度多模態(tài)注意融合(deep multi-modal attention fusion,DMAF)模型,利用視覺和語義間的區(qū)別性特征和內(nèi)在相關(guān)性,用視覺注意機(jī)制自動(dòng)聚焦情感區(qū)域,語義注意機(jī)制突出情感相關(guān)詞,分別捕捉最具辨別力的文本詞和視覺區(qū)域,然后由基于中間融合的多模態(tài)注意模型聯(lián)合情感分類,最后采用后期融合方案將三種注意力模型結(jié)合起來進(jìn)行情感預(yù)測。該模型可以捕獲互補(bǔ)和非冗余信息,能夠有效處理模態(tài)數(shù)據(jù)不完整問題。

        跨模態(tài)圖文檢索在公安領(lǐng)域還應(yīng)用于網(wǎng)絡(luò)輿論欺詐的預(yù)測與處理,現(xiàn)階段隨著互聯(lián)網(wǎng)發(fā)展,圖像式“網(wǎng)絡(luò)謠言”被頻繁地用在網(wǎng)絡(luò)輿論欺詐中。在圖像偵查中可以實(shí)時(shí)記錄、分析、存儲、再現(xiàn)證據(jù),通過圖像智能檢索平臺自動(dòng)解決對圖像的檢索,從而獲取所需畫面,減少工作量,并以此作為電子數(shù)據(jù)證據(jù)或偵查的輔助手段。針對網(wǎng)絡(luò)輿論欺詐問題,文獻(xiàn)[86]研究了圖文特征聯(lián)合的證據(jù)圖像檢索技術(shù),其工作原理如圖9 所示,通過聯(lián)合視覺和文本特征,在媒體上檢索與網(wǎng)絡(luò)輿論欺詐所用場景內(nèi)容相似的圖像,將此作為物證來實(shí)現(xiàn)對圖像式網(wǎng)絡(luò)輿論欺詐的反制。

        圖9 圖文特征聯(lián)合的證據(jù)圖像檢索系統(tǒng)工作原理圖Fig.9 Schematic diagram of evidence image retrieval system based on combination of image and text features

        目前,受已有的理論知識和技術(shù)手段的限制,復(fù)雜輿情傾向的判斷和輿情自動(dòng)監(jiān)測等方面仍存在不少問題。同時(shí),對于跨模態(tài)圖文檢索技術(shù),由于文字語義的多義性及視覺數(shù)據(jù)存在的“認(rèn)知鴻溝”,需要進(jìn)一步研究并將其應(yīng)用于該領(lǐng)域中來改善現(xiàn)狀。

        4.2 傳媒領(lǐng)域的應(yīng)用

        跨模態(tài)圖文檢索技術(shù)在傳媒領(lǐng)域主要應(yīng)用于多媒體事件檢測(multimedia event detection,MED)、意見挖掘以及網(wǎng)絡(luò)推薦系統(tǒng)等。此外,文獻(xiàn)[59],文獻(xiàn)[87]和文獻(xiàn)[88]利用跨模態(tài)特征表示及跨模態(tài)重構(gòu)的方法實(shí)現(xiàn)了圖像或視頻的字幕生成。

        多媒體事件檢測一般需要從視頻檔案中找到特定事件的視頻,并給出示例視頻及事件描述,與之相關(guān)聯(lián)的多媒體分類任務(wù)需要挖掘示例視頻以學(xué)習(xí)最具區(qū)別性的特征,通過多個(gè)互補(bǔ)特征的組合獲得最佳性能。對此,如圖10 所示,文獻(xiàn)[89]介紹了雙融合的多模態(tài)方案,在對多模態(tài)特征提取后,通過早期融合和晚期融合的結(jié)合來實(shí)現(xiàn)不同特征的結(jié)合。

        圖10 多媒體事件檢測系統(tǒng)示意圖Fig.10 Schematic diagram of multimedia event detection system

        對于不同用戶的意見挖掘,社交媒體一般通過將不同模態(tài)的數(shù)據(jù)進(jìn)行特征融合來完成情感分析,以進(jìn)一步判斷不同事件的情感極性。不同于以往簡單的將不同模態(tài)數(shù)據(jù)相結(jié)合的方法,用于意見挖掘的情感分析聚焦于對特征融合方式的探索,現(xiàn)有方法通過結(jié)合圖像內(nèi)容、用戶信息及媒體信息來實(shí)現(xiàn)良好的語義融合。

        為了判斷情感極性,文獻(xiàn)[90]主要研究了圖文聯(lián)合的情感預(yù)測問題,將兩個(gè)單獨(dú)的CNN 架構(gòu)用于學(xué)習(xí)文本和視覺特征,并將其組合作為另一個(gè)多頭CNN架構(gòu)的輸入,應(yīng)用于文本和圖像間的內(nèi)部關(guān)系,最后在兩個(gè)類別(正或負(fù))標(biāo)簽上產(chǎn)生分布。該方法在多媒體情感分析中取得了良好的效果。進(jìn)一步結(jié)合用戶數(shù)據(jù),文獻(xiàn)[91]提出了多特征融合的微博圖文情感分析方法,構(gòu)造了基于參數(shù)遷移和微調(diào)圖像的情感分類模型,并為文本和圖像情感分類模型設(shè)計(jì)特征層和決策層融合的方法。該方法結(jié)合了內(nèi)容特征和用戶特征,有效增強(qiáng)了模型捕捉情感語義的能力。受媒體中圖文數(shù)據(jù)間存在強(qiáng)烈語義關(guān)聯(lián)的啟發(fā),文獻(xiàn)[92]提出了端到端的深度融合卷積神經(jīng)網(wǎng)絡(luò),從訓(xùn)練實(shí)例中聯(lián)合學(xué)習(xí)文本和視覺情感表示,將兩種模態(tài)信息融合在匯聚層中,以預(yù)測情感極性。

        此外,對于意見挖掘,除考慮其情感極性外,還應(yīng)通過對媒體數(shù)據(jù)的分析發(fā)現(xiàn)準(zhǔn)確的話題熱點(diǎn)。對于該任務(wù),文獻(xiàn)[93]基于社交網(wǎng)絡(luò)媒體數(shù)據(jù)提出了多模態(tài)融合的話題發(fā)現(xiàn)算法,通過在文本和圖像上分別發(fā)掘潛在主題模型,構(gòu)建文本圖和視覺圖,并對兩個(gè)圖進(jìn)行語義融合得到多模態(tài)圖,最后在多模態(tài)圖上通過聚類和回歸得到最終話題發(fā)現(xiàn)結(jié)果。

        個(gè)性化網(wǎng)絡(luò)推薦系統(tǒng)一般需要結(jié)合圖像與相關(guān)語義屬性學(xué)習(xí)圖像語義特征表達(dá),以提高產(chǎn)品推薦度,該任務(wù)通常需要預(yù)測不同社交媒體間的聯(lián)系。為了應(yīng)對社交媒體數(shù)據(jù)的多樣性和異構(gòu)性等特點(diǎn),文獻(xiàn)[94]設(shè)計(jì)了一個(gè)關(guān)系生成深度信念網(wǎng)絡(luò)模型(relational generative deep belief nets,RGDBN),將非參數(shù)貝葉斯模型印度自助餐過程(Indian buffet process,IBP)集成到修改后的深度信念網(wǎng)絡(luò),學(xué)習(xí)能嵌入媒體內(nèi)容和媒體關(guān)系的潛在特征。IBP 的核心思想是一個(gè)數(shù)據(jù)點(diǎn)可以擁有多個(gè)隱性特征,且這些特征概率和不為1。該模型能夠分析異構(gòu)和同構(gòu)數(shù)據(jù)間的聯(lián)系并進(jìn)行跨模態(tài)檢索,可以通過社交媒體應(yīng)用到用戶推薦中。

        可以看出,跨模態(tài)圖文檢索技術(shù)的發(fā)展對于當(dāng)前社交媒體中事件檢測、意見挖掘和個(gè)性化推薦等任務(wù)有很大助益。但實(shí)際應(yīng)用中,一些復(fù)雜的情感分析需要處理更高層次的抽象概念,要求對主體性、概念和線索有更進(jìn)一步的理解,對于這類問題,還需對跨模態(tài)數(shù)據(jù)構(gòu)建更深層次的精細(xì)關(guān)聯(lián)。

        4.3 醫(yī)學(xué)領(lǐng)域的應(yīng)用

        跨模態(tài)圖文檢索技術(shù)在醫(yī)學(xué)領(lǐng)域主要用于醫(yī)學(xué)存儲數(shù)據(jù)的查詢。

        現(xiàn)有醫(yī)院信息系統(tǒng)主要面向特定類型的醫(yī)療數(shù)據(jù),醫(yī)學(xué)數(shù)據(jù)種類多、數(shù)據(jù)間語義關(guān)系明確的特點(diǎn)使得其成為了特殊的跨模態(tài)數(shù)據(jù)。文獻(xiàn)[95]提出跨模態(tài)生物醫(yī)學(xué)圖像多標(biāo)簽分類算法,通過融合圖像內(nèi)容和說明文本,運(yùn)用遷移學(xué)習(xí)技術(shù),有效地識別了復(fù)合醫(yī)學(xué)圖像中的信息,進(jìn)而提高了圖像檢索性能。作為現(xiàn)有醫(yī)學(xué)圖像數(shù)據(jù)處理的典型技術(shù),醫(yī)學(xué)影像存檔與通信系統(tǒng)(picture archiving and communication systems,PACS)可以對醫(yī)學(xué)圖像數(shù)據(jù)進(jìn)行獲取、存儲、檢索和展示,該系統(tǒng)在查詢時(shí),通過輸入關(guān)鍵字在關(guān)系數(shù)據(jù)庫中對相關(guān)字段進(jìn)行查詢,找出了文件系統(tǒng)中對應(yīng)的醫(yī)學(xué)影像。此外,多模態(tài)索引圖模型將不同數(shù)據(jù)間的語義關(guān)系傳導(dǎo)至數(shù)據(jù)索引之間,進(jìn)而計(jì)算出了不同模態(tài)間的相關(guān)性并對不同模態(tài)信息進(jìn)行了融合。該檢索算法流程圖如圖11 所示。

        圖11 基于模態(tài)網(wǎng)絡(luò)模型的醫(yī)學(xué)數(shù)據(jù)檢索技術(shù)流程圖Fig.11 Flow chart of medical data retrieval based on modal network model

        目前,由于醫(yī)療數(shù)據(jù)的敏感性,與其他應(yīng)用領(lǐng)域相比,醫(yī)學(xué)領(lǐng)域?qū)τ诳缒B(tài)圖文檢索技術(shù)的應(yīng)用主要還是采用已標(biāo)注的數(shù)據(jù)來優(yōu)化模型,導(dǎo)致其在真實(shí)場景下的泛化能力受限。如何結(jié)合更多數(shù)據(jù)來源,如病歷資料等來尋找更適合的深度學(xué)習(xí)方法有效地處理復(fù)雜的醫(yī)療數(shù)據(jù)是當(dāng)前面臨的一個(gè)挑戰(zhàn)。

        5 難點(diǎn)及未來研究趨勢展望

        盡管目前跨模態(tài)圖文檢索技術(shù)已經(jīng)取得了長足發(fā)展,但其在模態(tài)特征表示、復(fù)雜語義處理、不同模態(tài)特征對齊以及數(shù)據(jù)集的構(gòu)建等方面仍面臨嚴(yán)峻的挑戰(zhàn),這些問題的解決也將成為未來的研究趨勢,可概括如下:

        (1)更精細(xì)的模態(tài)數(shù)據(jù)特征表示。模態(tài)特征表示是決定跨模態(tài)圖文檢索準(zhǔn)確度的重要因素,不同的應(yīng)用場景對于單模態(tài)全局或局部特征的選取要求以及特征提取方法各不相同。隨著數(shù)據(jù)復(fù)雜度和用戶需求的不斷升級,對跨模態(tài)圖文檢索任務(wù)模態(tài)特征精細(xì)度會(huì)有更高的要求。

        (2)不同模態(tài)特征之間的細(xì)粒度對齊。由于圖像和文本之間存在異質(zhì)性差異,導(dǎo)致從視覺數(shù)據(jù)中提取的信息與給定條件下用戶對相同數(shù)據(jù)的解釋之間會(huì)缺乏一致性。針對這一不足,利用注意力模型等,通過捕捉圖像和文本間細(xì)粒度的對應(yīng)關(guān)系以更好地表達(dá)模態(tài)特性是圖文檢索領(lǐng)域未來研究的一個(gè)熱點(diǎn)。

        (3)上下文相關(guān)信息的開發(fā)。跨模態(tài)關(guān)聯(lián)往往與上下文信息有關(guān)?,F(xiàn)有方法大多只將共存關(guān)系和語義類別標(biāo)簽作為訓(xùn)練信息,而事實(shí)上,跨模態(tài)數(shù)據(jù)通常包含了鏈接關(guān)系等重要的上下文信息。上下文信息的準(zhǔn)確度是有效進(jìn)行跨模態(tài)檢索的重要保障,因此在復(fù)雜的實(shí)際應(yīng)用中,需要開發(fā)上下文信息以更好地表達(dá)模態(tài)間的共性,并就此開展進(jìn)一步的研究,以提高跨模態(tài)檢索性能。

        (4)簡化參數(shù)形式和提高跨模態(tài)檢索效率??缒B(tài)圖文檢索的模型參數(shù)個(gè)數(shù)往往非常多,以至于在很大程度上限制了其應(yīng)用場景,這也是目前研究者面臨的主要挑戰(zhàn)。到目前為止,雖然諸如跨模態(tài)哈希等技術(shù)已被用于提高跨模態(tài)檢索效率,但跨模態(tài)檢索速度的提升仍有待發(fā)展。

        (5)優(yōu)化目標(biāo)函數(shù)求解算法。目前跨模態(tài)深度學(xué)習(xí)的訓(xùn)練算法仍不能避免鞍點(diǎn)所導(dǎo)致的尋優(yōu)過程失敗問題。因此,盡快提出非凸優(yōu)化問題的優(yōu)化求解算法也是跨模態(tài)檢索領(lǐng)域需要解決的問題。

        (6)數(shù)據(jù)集的擴(kuò)展和標(biāo)注。對于跨模態(tài)信息處理,高質(zhì)量數(shù)據(jù)集可以有效避免過擬合等問題??缒B(tài)信息處理的數(shù)據(jù)集非常難以構(gòu)建,盡管Flickr 和MSCOCO 等數(shù)據(jù)集的圖像數(shù)據(jù)量以及每幅圖像的文本描述都很豐富,但是實(shí)際中的物體類別仍遠(yuǎn)超其所囊括的圖像種類。因此,擴(kuò)充數(shù)據(jù)集類別,對數(shù)據(jù)集進(jìn)行更加充分的標(biāo)注,能夠從另一方面促進(jìn)跨模態(tài)圖文檢索技術(shù)的發(fā)展和升級。

        猜你喜歡
        語義模態(tài)特征
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認(rèn)知范疇模糊與語義模糊
        由單個(gè)模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产免费av片在线观看播放 | 婷婷五月六月激情综合色中文字幕| 激情五月六月婷婷俺来也| 亚洲一区二区三区重口另类| 少妇真实被内射视频三四区| 国产成人久久精品激情| 精品无码AV无码免费专区| 国产精品亚洲综合天堂夜夜| 日本女u久久精品视频| 婷婷色综合视频在线观看| 99精品免费久久久久久久久日本| 亚洲第一无码精品久久| av免费网站不卡观看| 久久无码潮喷a片无码高潮| 国产午夜手机精彩视频| 久久亚洲精品ab无码播放| 国产成人综合久久久久久| 国语对白三级在线观看| 日本不卡一区二区三区久久精品| 国产在热线精品视频| 少妇spa推油被扣高潮| 亚洲无码激情视频在线观看| 中文字幕综合一区二区三区| 亚洲人成网站18禁止| 亚洲国产精品成人无码区| 岛国熟女一区二区三区| 美女丝袜诱惑在线播放蜜桃| 免费观看交性大片| 欧美做受视频播放| 国产高清丝袜美腿视频在线观看| 日韩有码在线免费视频| 国产精品久免费的黄网站| 亚洲av无码国产精品色午夜洪| 欧美喷潮久久久xxxxx| 人妻少妇精品一区二区三区| 中文字幕亚洲视频一区| 免费大黄网站| 久久精品国产9久久综合| 久久视频在线视频精品| 蜜桃传媒一区二区亚洲av婷婷| 少妇人妻精品一区二区三区|