亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        適用于網(wǎng)絡(luò)新聞數(shù)據(jù)的未配對(duì)跨模態(tài)哈希方法

        2024-04-29 02:42:14武昭盟張成剛
        關(guān)鍵詞:語(yǔ)義模態(tài)特征

        武昭盟,張成剛

        (1.長(zhǎng)春大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,吉林 長(zhǎng)春 130012;2.內(nèi)蒙古民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,內(nèi)蒙古 通遼 028000)

        0 引 言

        網(wǎng)絡(luò)數(shù)據(jù)的存在形式包羅萬(wàn)象,諸如聲音、文本、圖片、視頻、傳感器數(shù)據(jù)等??缒B(tài)檢索是人們面向這些多媒體數(shù)據(jù)開發(fā)的一種新型檢索方式。區(qū)別于傳統(tǒng)的單一模態(tài)檢索,跨模態(tài)檢索是指用一種模態(tài)的數(shù)據(jù)(如圖片)去查找與它有關(guān)的其它模態(tài)的數(shù)據(jù)(如文本),它所利用的條件是不同模態(tài)之間的語(yǔ)義關(guān)聯(lián)。近些年關(guān)于跨模態(tài)檢索的研究有很多[1],其中基于哈希技術(shù)的跨模態(tài)檢索[2-3]因計(jì)算資源小、檢索速度快的優(yōu)勢(shì)而更受研究人員的歡迎?;诠5目缒B(tài)檢索又可以分為有監(jiān)督和無監(jiān)督的檢索方式。無監(jiān)督的跨模態(tài)哈希檢索[4-6]不使用標(biāo)簽,節(jié)省人力成本,但檢索精度往往不高。有監(jiān)督的跨模態(tài)哈希檢索通常將類別標(biāo)簽作為監(jiān)督信息,在標(biāo)簽語(yǔ)義的引導(dǎo)下,能夠獲得更好的檢索精度。

        最近的一些有監(jiān)督的跨模態(tài)哈希方法,如Zhang等人[7]提出的深度語(yǔ)義交叉模態(tài)哈希對(duì)齊(Deep Semantic Cross Modal Hashing with Correlation Alignment,DSCA)方法,提取圖像和文本的深層表示,并通過構(gòu)建多標(biāo)簽數(shù)據(jù)相似度來利用更多的語(yǔ)義相關(guān)性。Xie等人[8]提出的多任務(wù)一致性保持對(duì)抗性哈希(Multi-Task Consistency-Preserving Adversarial Hashing,CPAH),把每個(gè)模態(tài)表示劃分為模態(tài)公共表示和模態(tài)私有表示,并對(duì)抗性地學(xué)習(xí)不同模態(tài)的公共表示,以有效地捕獲不同模態(tài)之間的語(yǔ)義一致性。Zhang等人[9]提出了基于聚合的圖卷積哈希(Aggregationbased Graph Convolutional Hashing,AGCH)方法,首先聚合來自多模態(tài)數(shù)據(jù)的不同角度的信息,生成聯(lián)合相似矩陣。然后在哈希碼的生成過程中,利用圖卷積網(wǎng)絡(luò)挖掘數(shù)據(jù)的語(yǔ)義結(jié)構(gòu)。這些方法都在一定程度上取得了先進(jìn)的效果,但應(yīng)用到實(shí)際中仍有多處掣肘。一方面,真實(shí)的互聯(lián)網(wǎng)數(shù)據(jù)沒有精確的標(biāo)簽注釋,往往只有簡(jiǎn)單的歸類,而表現(xiàn)相對(duì)更好的方法(如DSCA 等)都使用了多標(biāo)簽注釋。另一方面,大多數(shù)方法都是基于成對(duì)的數(shù)據(jù)(語(yǔ)義匹配的圖片和文本)進(jìn)行訓(xùn)練,而現(xiàn)實(shí)世界中的數(shù)據(jù)很少有成對(duì)樣本可以利用。盡管基于深度網(wǎng)絡(luò)的技術(shù)應(yīng)用火熱,但現(xiàn)有的跨模態(tài)檢索實(shí)際應(yīng)用還是依賴于“文本”關(guān)聯(lián)“文本”。

        考慮到以上問題,本文提出一種適用于網(wǎng)絡(luò)新聞數(shù)據(jù)的未配對(duì)跨模態(tài)哈希方法。該方法不局限于成對(duì)的樣本,其整體架構(gòu)可見圖1。首先,模型輸入圖像和文本數(shù)據(jù)的特征向量,成對(duì)的數(shù)據(jù)直接進(jìn)行不同模態(tài)的特征拼接,非成對(duì)的數(shù)據(jù)與O矩陣特征拼接。拼接后的特征分別經(jīng)過相應(yīng)的全連接層得到成對(duì)融合特征、文本融合特征和圖像融合特征,并生成相應(yīng)的二進(jìn)制編碼。其次,成對(duì)融合特征得到的二進(jìn)制碼分別重構(gòu)文本融合特征和圖像融合特征,并使用2 個(gè)分類網(wǎng)絡(luò)作為鑒別模型,判斷收到的特征是否為原融合特征。最后,構(gòu)造成對(duì)數(shù)據(jù)的模態(tài)間親和矩陣和非成對(duì)數(shù)據(jù)的模態(tài)內(nèi)親和矩陣,并將矩陣結(jié)構(gòu)作用于高維表示和待學(xué)習(xí)的二進(jìn)制碼,從而約束漢明空間。此外,模型進(jìn)一步預(yù)測(cè)融合特征的類別,以增強(qiáng)編碼的判別能力。在哈希學(xué)習(xí)過程中,采用梯度下降的優(yōu)化策略,不斷更新模型中需要的參數(shù),進(jìn)而獲得高質(zhì)量的二進(jìn)制碼。

        圖1 本文方法的框架

        1 相關(guān)基礎(chǔ)

        本文方法主要使用特征融合和生成式對(duì)抗網(wǎng)絡(luò),下面對(duì)二者分別進(jìn)行簡(jiǎn)單的介紹。

        1.1 特征融合

        特征融合方法的思想源于早期的信息融合(Information Fusion)[10],類似于人類在大腦中融合來自視覺、聽覺等多種感官的數(shù)據(jù),以更好地理解多模態(tài)數(shù)據(jù)的過程,計(jì)算機(jī)通過融合多個(gè)角度的空間特征、全局和局部多個(gè)層次的特征,能夠?qū)崿F(xiàn)更智能的信息處理。特征融合根據(jù)融合與預(yù)測(cè)的順序可分為早期融合和晚期融合。早期融合是指在預(yù)測(cè)任務(wù)之前就融合特征(包括特征拼接和特征相加),并在融合后的特征上訓(xùn)練得到結(jié)果。晚期融合是指先得到不同層的預(yù)測(cè)結(jié)果(包括多尺度特征預(yù)測(cè)和金字塔特征融合),再將多個(gè)預(yù)測(cè)結(jié)果進(jìn)行融合得到最終預(yù)測(cè)。本文用到的是早期融合中的特征拼接方法。

        假設(shè)數(shù)據(jù)X的p維特征為,數(shù)據(jù)Y的q維特征為,則拼接后的特征為:

        顯然,p+q即為拼接后的特征維度。這種方式實(shí)現(xiàn)簡(jiǎn)單,即使存在語(yǔ)義差距的不同特征也能互相融合、互為補(bǔ)充,能夠減少在跨模態(tài)檢索中只有單一特征時(shí)固有缺陷的影響。Srivastava 等人[11]提出基于玻爾茲曼機(jī)的多模態(tài)學(xué)習(xí)(Multimodal Learning with Deep Boltzmann Machines),用于將多種數(shù)據(jù)模態(tài)融合為一個(gè)統(tǒng)一的表示。該工作將跨模態(tài)學(xué)習(xí)應(yīng)用于圖像和文本2 種模態(tài),并且能夠補(bǔ)全缺失的模態(tài)。通過生成多種數(shù)據(jù)模態(tài)的融合表示,可以使用此表示進(jìn)行多模態(tài)或單模態(tài)信息的查詢檢索。Hu等人[12]搭建了一個(gè)三元組融合哈希網(wǎng)絡(luò)框架(Triplet Fusion Network Hashing,TFNH)用于不成對(duì)的跨模態(tài)檢索,在特征輸入階段,引入零填充運(yùn)算來分別對(duì)圖像和文本的特征進(jìn)行填充補(bǔ)齊,并進(jìn)一步通過3 層融合網(wǎng)絡(luò)同時(shí)處理配對(duì)和非配對(duì)的數(shù)據(jù)。

        1.2 生成式對(duì)抗網(wǎng)絡(luò)

        生成式對(duì)抗網(wǎng)絡(luò)(GAN)[13]是基于博弈論場(chǎng)景互相競(jìng)爭(zhēng),包括2個(gè)主干網(wǎng)絡(luò)——生成器D和鑒別器G。GAN 最初也是最著名的應(yīng)用是圖像生成。生成器G接收隨機(jī)噪聲z并生成圖像G(z),鑒別器D判別一副圖像x是否是真實(shí)的。在訓(xùn)練過程中,生成器G的目標(biāo)是不斷生成看起來更逼真的圖像,然后把它生成的圖像送給鑒別器D,鑒別器D的目標(biāo)則是判斷它接收到的圖像是真實(shí)的還是生成器生成的。理想狀態(tài)下,生成器和鑒別器“教學(xué)相長(zhǎng)、互相促進(jìn)”,并將趨于一個(gè)納什均衡。

        一般地,GAN的損失函數(shù)被定義為:

        式中,V(G,D)是價(jià)值函數(shù)。x~pdata(x)是指在真實(shí)數(shù)據(jù)中采樣,pdata(x)表示真實(shí)數(shù)據(jù)樣本的分布。x~pz(Z)是指在隨機(jī)噪聲中采樣,pz(Z)通常是一個(gè)簡(jiǎn)單的噪聲分布。D(·)是一個(gè)概率值,范圍是0~1,指示鑒別器對(duì)接收數(shù)據(jù)的判斷值,概率值D(·)越接近1,數(shù)據(jù)越接近真實(shí)的分布。2017 年,Wang 等人[14]第一次將生成式對(duì)抗網(wǎng)絡(luò)用于跨模態(tài)檢索,使得圖像和文本特征的分布趨于一致,這為此后GAN 在跨模態(tài)檢索中的應(yīng)用提供了靈感;Zhang等人[15]提出了HashGAN訓(xùn)練注意力生成模塊和哈希判別模塊,以保存不同模態(tài)的相似性。引入GAN 的大多數(shù)跨模態(tài)檢索算法的建模過程致力于使用生成對(duì)抗網(wǎng)絡(luò)以學(xué)習(xí)不同模態(tài)的共同表示,使相似的多模態(tài)數(shù)據(jù)的共同表示在統(tǒng)計(jì)上不可分。

        2 方法概述

        本章介紹本文提出的方法的具體實(shí)現(xiàn)過程。為不失一般性,僅選取圖像和文本2 種模態(tài)的檢索任務(wù)進(jìn)行介紹,該方法也可擴(kuò)展至其它或更多模態(tài)。給定訓(xùn)練集其中表示配對(duì)的圖像-文本數(shù)據(jù),即Xi=表示無配對(duì)文本的圖像數(shù)據(jù),同樣表示無配對(duì)圖像的文本數(shù)據(jù)。

        2.1 融合配對(duì)和未配對(duì)數(shù)據(jù)特征

        對(duì)于跨模態(tài)匹配任務(wù),首先要提取數(shù)據(jù)的特征。將得到的圖像模態(tài)的特征表示為FI∈Rq×d1,d1 是圖像特征維數(shù);文本模態(tài)的特征表示為FT∈R(n-q+p)×d2,d2 是文本特征維數(shù)。對(duì)于成對(duì)的樣本,算法對(duì)2 個(gè)不同模態(tài)的特征進(jìn)行拼接操作,得到融合后的新特征FIT,其具體表示為:

        式中,拼接后的特征(Ii,Ti)的維度為d1+d2,故融合特征FIT∈Rp×(d1+d2)。然而,這種方式只能解決數(shù)據(jù)樣本配對(duì)時(shí)的情況。為了處理輸入的未配對(duì)數(shù)據(jù),借鑒文獻(xiàn)[12]的思想,算法將特征FI和FT分別和矩陣O進(jìn)行拼接以獲得與配對(duì)特征FIT相同的維度。因此,無配對(duì)圖像和文本的融合特征定義如下:

        式中,F(xiàn)10∈Rq×(d1+d2),F(xiàn)OT∈R(n-q+p)×(d1+d2)。算法將融合后的特征分別送入共享權(quán)重的2 層全連接網(wǎng)絡(luò),以更好地對(duì)齊高層語(yǔ)義,并學(xué)習(xí)模態(tài)之間互補(bǔ)的信息。

        2.2 生成待學(xué)習(xí)二進(jìn)制碼

        將實(shí)值表示轉(zhuǎn)化為二進(jìn)制編碼是減少存儲(chǔ)、提升跨模態(tài)檢索效率的關(guān)鍵步驟。根據(jù)前面的介紹,算法對(duì)拼接后的特征進(jìn)行融合卷積生成了更豐富的表示HIT,HIO和HOT,通過使用sgn(·)函數(shù),可以直接得到它們對(duì)應(yīng)的二進(jìn)制碼,制定二進(jìn)制碼生成的公式為:

        式中,r是二進(jìn)制碼的長(zhǎng)度,θF是生成融合表示所需的參數(shù)。

        2.3 生成式對(duì)抗學(xué)習(xí)鑒別融合特征

        算法對(duì)生成的Brr進(jìn)行重構(gòu),重構(gòu)的模態(tài)包括融合后的文本特征H′OT和融合后圖像特征H′10,并作為GAN中的生成器,定義為:

        式中,θG是共享的參數(shù)。算法將繼續(xù)為重構(gòu)后的特征定義2 個(gè)分類器D1和D2,相當(dāng)于GAN 中的鑒別器。對(duì)于任意圖像-文本對(duì)的重構(gòu)特征,鑒別器D1區(qū)分特征是否為僅圖像融合特征。定義來自H10的特征為真,得到的對(duì)抗性損失為:

        式中,θD1是鑒別器D1的網(wǎng)絡(luò)參數(shù)。同樣,鑒別器D2區(qū)分特征是否為僅文本融合特征。定義來自HOT的特征為真,得到的對(duì)抗性損失為:

        式中,θD2是鑒別器D2的網(wǎng)絡(luò)參數(shù)。算法的目標(biāo)是盡可能使得相同語(yǔ)義的配對(duì)數(shù)據(jù)的分布與未配對(duì)數(shù)據(jù)的分布相同,具體表示為優(yōu)化以下整體對(duì)抗性損失:

        2.4 構(gòu)建模態(tài)內(nèi)和模態(tài)間親和矩陣

        算法為成對(duì)的數(shù)據(jù)構(gòu)建模態(tài)間親和矩陣,為所有數(shù)據(jù)構(gòu)建模態(tài)內(nèi)親和矩陣。具體來說,給定來自不同模態(tài)的2 個(gè)數(shù)據(jù)樣本Ii和Tj,引入標(biāo)簽構(gòu)造它們的模態(tài)間鄰居矩陣,矩陣元素Sij定義為:

        已知來自圖像模態(tài)的2個(gè)數(shù)據(jù)樣本Ii和Ij,引入閾值threshold=max(cos(Ii,Ij))構(gòu)造模態(tài)內(nèi)相似性矩陣,元素定義為:

        類似地,已知文本模態(tài)2個(gè)數(shù)據(jù)樣本Ti和Tj,有相似的閾值定義threshold=max(cos(Ti,Tj))來構(gòu)造模態(tài)內(nèi)鄰居矩陣并且元素的定義如下:

        2.5 分布結(jié)構(gòu)反向回歸特征和指導(dǎo)二進(jìn)制碼

        在本文算法中,利用矩陣結(jié)構(gòu)來減小原融合特征與具有分布信息的融合特征之間的差距,使得特征呈現(xiàn)的語(yǔ)義信息更為明確。因此算法將不同的矩陣作用于不同的融合特征,過程的具體公式為:

        其中,κ表示權(quán)衡參數(shù)。

        本文算法還嘗試?yán)糜H和矩陣增強(qiáng)學(xué)習(xí)的二進(jìn)制碼的質(zhì)量,在漢明空間中,同一類別的二進(jìn)制碼之間的距離應(yīng)該盡可能小,反之亦然。通過將親和矩陣包含的語(yǔ)義信息施加到二進(jìn)制碼,學(xué)習(xí)的編碼能夠更多保持原始特征空間中的分類信息,從而提高跨模態(tài)哈希性能。具體表示如下:

        2.6 類別預(yù)測(cè)損失

        為了得到有區(qū)分性的二進(jìn)制碼,模型進(jìn)一步預(yù)測(cè)每一個(gè)樣本的標(biāo)簽。對(duì)于融合后特征,設(shè)計(jì)簡(jiǎn)單的類別預(yù)測(cè)損失為:

        式中,h是指單實(shí)例的融合特征,θ1是分類參數(shù)。

        最終,結(jié)合生成式對(duì)抗學(xué)習(xí)項(xiàng)、分布結(jié)構(gòu)反向回歸特征項(xiàng)、相似關(guān)系指導(dǎo)二進(jìn)制碼和類別預(yù)測(cè)損失,整體目標(biāo)函數(shù)為:

        3 算法優(yōu)化

        為了優(yōu)化整體目標(biāo)函數(shù),需要求解參數(shù)θF、θG、θD1、θD2、θ1。由于這是一個(gè)多變量?jī)?yōu)化問題,算法通過對(duì)傳遞的參數(shù)逐一求偏導(dǎo)尋求最優(yōu)解。具體步驟如算法1所示。

        算法1 適用于網(wǎng)絡(luò)新聞的未配對(duì)跨模態(tài)哈希算法

        4 實(shí)驗(yàn)分析

        4.1 實(shí)驗(yàn)設(shè)置

        將本文方法分別在配對(duì)實(shí)例場(chǎng)景和未配對(duì)實(shí)例場(chǎng)景中進(jìn)行實(shí)驗(yàn)。在配對(duì)實(shí)例的場(chǎng)景中,將本方方法與DCMH[16]、AGAH[17]、SCH-GAN[18]、TFNH[12]這4個(gè)方法進(jìn)行“圖像檢索文本”和“文本檢索圖像”進(jìn)行跨模態(tài)哈希任務(wù)的性能比較,驗(yàn)證本文方法在2 個(gè)典型跨模態(tài)數(shù)據(jù)集和1 個(gè)現(xiàn)實(shí)新聞數(shù)據(jù)集上的先進(jìn)性。在未配對(duì)實(shí)例場(chǎng)景中,對(duì)Wiki 和網(wǎng)絡(luò)新聞數(shù)據(jù)集進(jìn)行不同比例數(shù)據(jù)的保留處理,驗(yàn)證本文方法處理非配對(duì)數(shù)據(jù)的出眾能力。實(shí)驗(yàn)主要使用平均精度均值(MAP)作為評(píng)價(jià)指標(biāo)來評(píng)估各個(gè)方法的檢索效果,還對(duì)采用本文方法學(xué)習(xí)之前和學(xué)習(xí)之后的特征表示進(jìn)行了可視化分析。

        MAP 是衡量哈希模型的常用度量方式。為了計(jì)算MAP,首先要計(jì)算查詢樣本的平均精確率(Average Precision,AP),AP 表示在設(shè)置的檢索結(jié)果數(shù)量下,模型返回的相關(guān)結(jié)果數(shù)量。

        取所有查詢項(xiàng)AP的平均值就可以計(jì)算出MAP:

        MAP 值越大表明檢索準(zhǔn)確率越高。另外,各數(shù)據(jù)集的詳細(xì)信息如下:

        1)Wiki數(shù)據(jù)集。

        Wiki 數(shù)據(jù)集[19]收集來自Wikipedia 的“專欄文章”,共有10 個(gè)類別的2866 篇文章及配圖。Wiki 數(shù)據(jù)集的許多文字和圖片關(guān)聯(lián)較弱,不具有強(qiáng)烈的對(duì)象一一對(duì)應(yīng)關(guān)系,這與現(xiàn)實(shí)新聞數(shù)據(jù)集的特點(diǎn)類似。其中2173個(gè)圖像-文本對(duì)作為訓(xùn)練集,693個(gè)圖像-文本對(duì)作為測(cè)試集。

        2)Pascal VOC數(shù)據(jù)集。

        Pascal VOC 數(shù)據(jù)集[20]由20 個(gè)類別的9963 個(gè)圖像-文本對(duì)組成,本文按照文獻(xiàn)[21]的方式,只保留單標(biāo)簽的實(shí)例,劃分為2808 個(gè)訓(xùn)練集,2841 個(gè)測(cè)試集。文字和圖片的關(guān)聯(lián)較強(qiáng)。

        3)網(wǎng)絡(luò)新聞數(shù)據(jù)集。

        網(wǎng)絡(luò)新聞數(shù)據(jù)集從光明日?qǐng)?bào)等多個(gè)新聞網(wǎng)站上下載,相對(duì)真實(shí)可靠。本文實(shí)驗(yàn)一共收集了2200 張圖片,每張圖片配有相應(yīng)的新聞文本,涉及政治、經(jīng)濟(jì)、文化、體育、國(guó)防、生態(tài)、民生、教育、科技、國(guó)際10個(gè)主要欄目。本文按照Wiki 數(shù)據(jù)集的格式進(jìn)行存放,如圖2 所示,images 文件夾里存放已分類的10 個(gè)欄目的圖像。texts 文件夾里存放全部文本。categories.list 文本里存放標(biāo)簽列表。trainset_txt_img_cat.list 文檔里存放訓(xùn)練集圖文對(duì)和對(duì)應(yīng)的標(biāo)簽。testset_txt_img_cat.list 文檔里存放測(cè)試集圖文對(duì)和對(duì)應(yīng)的標(biāo)簽。隨機(jī)選取1700個(gè)圖像-文本對(duì)作為訓(xùn)練集,剩余500個(gè)圖像-文本對(duì)作為測(cè)試集。

        所有進(jìn)行實(shí)驗(yàn)的數(shù)據(jù)集圖像特征為4096 維,由預(yù)訓(xùn)練的VGG16[22]提取,文本特征由300 維的doc2vec 向量[23]表示。對(duì)于中文新聞文本來說,本文首先進(jìn)行jieba 分詞,然后去掉符號(hào)和少量停用詞,最后同樣提取300維的文本向量。實(shí)驗(yàn)在PyCharm 集成開發(fā)環(huán)境(IDE)、tensorflow 1.13.0 框架中進(jìn)行。設(shè)置初始參數(shù)λ=2,μ=0.2,β=0.1,κ=1.5,并使用隨機(jī)梯度下降策略和Adam 優(yōu)化器,圖像和文本特征的初始學(xué)習(xí)率都設(shè)置為0.01,epoach設(shè)置為20。對(duì)于相比較的算法,除特征提取方式保持一致外,其它參數(shù)嚴(yán)格遵照原論文中給出的設(shè)置。

        4.2 實(shí)驗(yàn)結(jié)果

        本節(jié)進(jìn)行2 個(gè)場(chǎng)景的實(shí)驗(yàn)檢驗(yàn)方法效果:第1 個(gè)是傳統(tǒng)配對(duì)實(shí)例場(chǎng)景中的跨模態(tài)哈希實(shí)驗(yàn);第2 個(gè)是未配對(duì)實(shí)例場(chǎng)景中的跨模態(tài)哈希實(shí)驗(yàn)。

        4.2.1 配對(duì)實(shí)例場(chǎng)景中的實(shí)驗(yàn)結(jié)果

        本文方法及其比較的方法DCMH[16]、AGAH[17]、SCH-GAN[18]、TFNH[12]在Wiki 數(shù)據(jù)集、Pascal VOC數(shù)據(jù)集和網(wǎng)絡(luò)新聞數(shù)據(jù)集上的MAP結(jié)果如表1所示。本文設(shè)置了二進(jìn)制編碼的長(zhǎng)度分別為16 bits、32 bits、64 bits和128 bits。從表1中可以得知:

        表1 各方法在Wiki、Pascal VOC、網(wǎng)絡(luò)新聞數(shù)據(jù)集上的MAP結(jié)果

        1)本文方法在所有設(shè)置的比特位上都獲得了最佳的性能,表明本文方法的確是先進(jìn)的。本文方法的良好表現(xiàn)主要是由于它能夠?qū)⒉煌B(tài)的數(shù)據(jù)特征加以融合,獲得充分的互補(bǔ)信息,加強(qiáng)了同一語(yǔ)義不同模態(tài)的相關(guān)性。

        2)本文方法及其比較方法在Wiki 和網(wǎng)絡(luò)新聞數(shù)據(jù)集上的表現(xiàn)效果明顯不如在Pascal VOC 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,這是因?yàn)閃iki 和網(wǎng)絡(luò)新聞數(shù)據(jù)集都是圖像-文本弱相關(guān)的數(shù)據(jù)集,類別信息比較籠統(tǒng)且容易混淆,比如Wiki 數(shù)據(jù)集中“藝術(shù)”這一類別中的數(shù)據(jù)很容易和“歷史”中的數(shù)據(jù)混淆,新聞數(shù)據(jù)集中“經(jīng)濟(jì)”這一大類中的數(shù)據(jù)很可能和“民生”中的數(shù)據(jù)類似。而Pascal VOC數(shù)據(jù)集中的文本和圖像則具有強(qiáng)烈的語(yǔ)義對(duì)應(yīng)關(guān)系并且類別清晰,圖像當(dāng)中的物體和句子中的單詞大多數(shù)呈現(xiàn)一一對(duì)應(yīng)的關(guān)系。對(duì)于新聞來說,顯然Wiki數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果更具有參考意義。

        3)Text-to-Image 的實(shí)驗(yàn)結(jié)果一般比Image-to-Text 要高,表明提取的文本特征的語(yǔ)義信息更強(qiáng),可能的原因是文本提取的是以單詞劃分的細(xì)粒度特征,而圖像提取的是整體建模的粗粒度特征,盡管圖像也可以事先使用一些自下而上的目標(biāo)檢測(cè)方式來提取出以對(duì)象為單位的細(xì)粒度特征[24-27],但面向?qū)嶋H應(yīng)用的網(wǎng)絡(luò)文章時(shí),并非存在很多對(duì)象-單詞級(jí)的對(duì)應(yīng)關(guān)系,細(xì)粒度的建模未必見得其優(yōu)勢(shì),反而大大增加計(jì)算的復(fù)雜度。

        為了更直觀地驗(yàn)證本文方法的有效性,本節(jié)在網(wǎng)絡(luò)新聞數(shù)據(jù)集上對(duì)圖像特征和文本特征進(jìn)行了相關(guān)的可視化呈現(xiàn)。本文使用的工具是t-SNE,它可以對(duì)高維特征降維并在二維空間中進(jìn)行展示。另外,將哈希編碼長(zhǎng)度設(shè)置為64 位,其結(jié)果如圖3 所示。其中,“^”表示圖像樣本的特征表示,“o”表示文本樣本的特征表示。相同顏色的樣本表示屬于相同的語(yǔ)義類別。分析可知:

        圖3 網(wǎng)絡(luò)新聞數(shù)據(jù)原始特征和學(xué)習(xí)后特征的t-SNE可視化

        1)從圖3(a)和圖3(b)中可以看出,原始的圖像分布和原始的文本分布雜亂而且難以分離。相比較來說,對(duì)于原始文本特征的表示,相同顏色的樣本之間的距離還比較接近,這也反映了文本特征本身就含有一些語(yǔ)義信息。

        2)從圖3(c)和圖3(d)中可以看出,對(duì)比原始的圖像和文本特征表示,學(xué)習(xí)后的特征表示能夠明顯聚類,屬于同一類別的示例基本上分布在同一個(gè)簇中,表明圖像和文本模態(tài)都學(xué)習(xí)到了各自語(yǔ)義表示的分布。

        3)從圖3(e)中可以看出,混合后的圖像和文本特征表示能夠落在公共語(yǔ)義空間的相同位置,并且難以區(qū)分,這驗(yàn)證了本文方法可以很好地?cái)M合不同模態(tài)之間的語(yǔ)義鴻溝,在高層空間實(shí)現(xiàn)圖像和文本的相互匹配。

        4.2.2 非配對(duì)實(shí)例場(chǎng)景中的實(shí)驗(yàn)結(jié)果

        1)平均精度精值結(jié)果。

        為了驗(yàn)證本文方法處理非配對(duì)數(shù)據(jù)的能力,對(duì)Wiki 數(shù)據(jù)集和網(wǎng)絡(luò)新聞數(shù)據(jù)集進(jìn)行處理,使它們只保留部分圖像-文本對(duì),得到2 種不同情況的非配對(duì)數(shù)據(jù)集:①固定所有文本樣本,將圖像樣本按原數(shù)據(jù)的100%~10%進(jìn)行保留;②固定所有圖像樣本,將文本樣本按原數(shù)據(jù)的100%~10%進(jìn)行保留,本文將二進(jìn)制編碼分別設(shè)置為:16 bits、32 bits和64 bits。情況1的MAP 結(jié)果如表2 所示,情況2 的MAP 結(jié)果如表3 所示,從表2和表3觀察可得:①即使丟棄了一定的成對(duì)數(shù)據(jù),本文方法依然取得了較好的性能,表明了算法處理非配對(duì)數(shù)據(jù)時(shí)的有效性;②保持文本數(shù)據(jù)不變,按比例保留圖像數(shù)據(jù)的情況下,圖像檢索文本的性能明顯隨圖像數(shù)據(jù)的減少而降低,而文本檢索圖像的性能下降趨勢(shì)相對(duì)平緩,保持圖像數(shù)據(jù)不變,按比例保留文本數(shù)據(jù)的情況則與之相反;③通過在2 個(gè)任務(wù)上設(shè)置3 種不同的比特位可以看出,當(dāng)成對(duì)數(shù)據(jù)越來越少,算法的性能也逐漸降低,表明成對(duì)數(shù)據(jù)的語(yǔ)義信息對(duì)于模型訓(xùn)練的重要性。但是本文方法不局限于一一對(duì)應(yīng)的訓(xùn)練樣本,更能使用于真實(shí)的互聯(lián)網(wǎng)數(shù)據(jù)集。

        表3 在Wiki和網(wǎng)絡(luò)新聞數(shù)據(jù)集上,固定圖像數(shù)據(jù),按比例保留文本數(shù)據(jù)的MAP結(jié)果

        圖4 和圖5 繪制了方法在Wiki 和網(wǎng)絡(luò)新聞數(shù)據(jù)集上,對(duì)應(yīng)不同編碼長(zhǎng)度的MAP 曲線,從這2 幅圖中可以看出,當(dāng)固定文本數(shù)據(jù),不斷減少圖像數(shù)據(jù)時(shí),圖像檢索文本的曲線比文本檢索圖像的曲線下降得更快,而固定圖像數(shù)據(jù),不斷減少文本數(shù)據(jù)時(shí)的曲線恰恰相反,這與表2和表3中的結(jié)果一致。

        圖4 FeFH在非配對(duì)Wiki數(shù)據(jù)集上的MAP曲線

        圖5 FeFH在非配對(duì)網(wǎng)絡(luò)新聞數(shù)據(jù)集上的MAP曲線

        5 結(jié)束語(yǔ)

        本文提出了一種適用于網(wǎng)絡(luò)新聞數(shù)據(jù)的未配對(duì)跨模態(tài)哈希方法,用于解決現(xiàn)實(shí)世界中存在大量不成對(duì)跨模態(tài)數(shù)據(jù)的訓(xùn)練問題。通過融合配對(duì)的不同模態(tài)特征和融合非配對(duì)的同一模態(tài)特征學(xué)習(xí)模態(tài)之間的互補(bǔ)信息,并假設(shè)所有語(yǔ)義一致的融合特征應(yīng)呈現(xiàn)相同的分布,引入了生成式對(duì)抗學(xué)習(xí)來探索二進(jìn)制碼重構(gòu)的特征和原融合特征之間的關(guān)系,彌合特征分布之間的差距,處理輸入的未配對(duì)數(shù)據(jù)。通過在配對(duì)和未配對(duì)的場(chǎng)景中進(jìn)行的豐富實(shí)驗(yàn),驗(yàn)證了算法的優(yōu)異性能。同時(shí),在新聞數(shù)據(jù)集上的結(jié)果也表明本算法能夠有效地處理實(shí)際跨模態(tài)檢索任務(wù)。

        猜你喜歡
        語(yǔ)義模態(tài)特征
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        認(rèn)知范疇模糊與語(yǔ)義模糊
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产91网| 国产伦人人人人人人性| 无码午夜成人1000部免费视频| 美女在线国产| 国产日产免费在线视频 | 国产一区二区三区在线观看完整版| 国产成人无码av一区二区| 99久久精品自在自看国产| 日韩精品首页在线观看| 亚洲最大一区二区在线观看| 亚洲字幕av一区二区三区四区| 少妇的丰满3中文字幕| 美腿丝袜一区二区三区| 亚洲乱码中文字幕综合久久| 亚洲天堂av一区二区| 久久不见久久见免费影院| 青青草国产成人99久久| 中文字幕一区,二区,三区| 人妖一区二区三区在线| 天堂√在线中文官网在线| 国产婷婷丁香久久综合| 国产精品亚洲av无人区二区| 未满十八18禁止免费无码网站 | 久久久久99精品成人片试看 | 无码人妻久久一区二区三区蜜桃| 国产精品亚洲综合色区韩国| 无码人妻专区一区二区三区| 大香蕉国产av一区二区三区 | 狠狠色欧美亚洲综合色黑a| 国内自拍视频一区二区三区| 少妇厨房愉情理伦bd在线观看| 精品视频入口| 69久久精品亚洲一区二区| 狠狠色丁香婷婷综合潮喷| 四虎影视永久在线精品| 国产人妖赵恩静在线视频| 91在线视频在线视频| av潮喷大喷水系列无码| 亚洲香蕉毛片久久网站老妇人 | 丝袜美腿福利一区二区| 999久久久无码国产精品|