亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于二重語義相關(guān)性圖卷積網(wǎng)絡(luò)的跨模態(tài)檢索方法

        2024-04-29 00:00:00劉佳楠范晶晶趙建光朱杰

        摘 要:隨著深度神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,跨模態(tài)檢索模型的構(gòu)建也隨之取得了長(zhǎng)足的進(jìn)步。以圖卷積網(wǎng)絡(luò)(GCN)為基礎(chǔ)的跨模態(tài)檢索方法可以較好地捕獲數(shù)據(jù)的語義相關(guān)性,因此越來越受到人們的關(guān)注。但是,目前大部分研究多將標(biāo)簽之間和樣本之間的相關(guān)性融入到跨模態(tài)表示當(dāng)中,并沒有考慮到標(biāo)簽集合之間的相關(guān)性對(duì)于跨模態(tài)檢索模型性能的影響。在多標(biāo)簽場(chǎng)景下,標(biāo)簽集合之間的多標(biāo)簽相關(guān)性可以有效地描述對(duì)應(yīng)樣本之間的語義關(guān)系,因此充分發(fā)現(xiàn)多標(biāo)簽相關(guān)性并將其融入到跨模態(tài)表示中,對(duì)于提高跨模態(tài)檢索模型的性能有著重要的意義。提出了一種基于二重語義相關(guān)性圖卷積網(wǎng)絡(luò) (dual semantic correlation graph convolutional networks,DSCGCN) 的跨模態(tài)檢索方法,該方法利用GCN自適應(yīng)地發(fā)現(xiàn)標(biāo)簽之間和多標(biāo)簽之間的語義相關(guān)性,并將此二重語義相關(guān)性融入到樣本公共表示中。此外,還提出了一種多標(biāo)簽相似性損失,用于使生成的樣本公共表示相似性更接近于語義相似性。通過在NUS-WIDE、MIRFlickr-25K和MS-COCO三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)可以發(fā)現(xiàn),由于引入了多標(biāo)簽語義相關(guān)性,DSCGCN可以獲得令人滿意的檢索效果。

        關(guān)鍵詞: 語義相關(guān)性;自適應(yīng)相關(guān)性矩陣;圖卷積網(wǎng)絡(luò);跨模態(tài)檢索

        中圖分類號(hào): TP391文獻(xiàn)標(biāo)志碼:A 文章編號(hào): 1001-3695(2024)04-041-1239-08

        doi: 10.19734/j.issn.1001-3695.2023.08.0370

        Dual semantic correlation graph convolutional networks for cross-modal retrieval

        Liu Jianan Fan Jingjing Zhao Jianguang Zhu Jie2

        Abstract:With the continuous development of deep neural networks, significant progress has been made in the construction of cross-modal retrieval models. Cross-modal retrieval methods based on GCN have shown promising results in capturing semantic correlations in dat thus attracting increasing attention. However, most recent research focuses on incorporating correlations between labels and between samples into cross-modal representations, while the impact of correlations between label sets is neglected. In multi-label scenarios, the correlations between label sets can effectively describe semantic relationships between corresponding samples. Therefore, exploring the multi-label correlations and integrating it into cross-modal representations is important for improving the performance of cross-modal retrieval models. This paper proposed a dual semantic correlation graph convolutional networks (DSCGCN) cross-modal retrieval method. This method utilized GCN to explore the semantic correlations between labels and between multi-labels adaptively, and integrated the learned dual semantic correlations into the common representations. Additionally, it designed a multi-label similarity loss to make the similarities between the common representations more close to the semantic similarities. Experimental results on the NUS-WIDE, MIRFlickr-25K, and MS-COCO datasets demonstrate that because of multi-label correlations, DSCGCN achieves satisfactory retrieval performance. Key words:semantic correlation; adaptive correlation matrix; graph convolutional network(GCN); cross-modal retrieval

        0 引言近年來,隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,跨模態(tài)檢索領(lǐng)域出現(xiàn)了許多性能優(yōu)越的方法,這些方法的研究重點(diǎn)多集中在如何將不同模態(tài)數(shù)據(jù)映射到一個(gè)公共表示空間內(nèi),以便進(jìn)行匹配和檢索[1~4]。傳統(tǒng)方法通過線性或者非線性映射的方式對(duì)不同模態(tài)數(shù)據(jù)特征進(jìn)行映射。典型相關(guān)分析(canonical correlation analysis,CCA)[5]通過最大化不同模態(tài)數(shù)據(jù)之間的相關(guān)性,來學(xué)習(xí)一個(gè)公共表示空間??缒B(tài)因子分析 (cross-modal factor analysis,CFA)[6]的目標(biāo)是通過調(diào)整模型參數(shù),找到合適的共享因子表示,從而實(shí)現(xiàn)跨模態(tài)檢索。共正則化哈希(co-regularizedhashing,CRH)[7]嘗試將不同模態(tài)的數(shù)據(jù)映射到一個(gè)公共的漢明空間,以便在此空間上進(jìn)行快速的跨模態(tài)檢索。以上傳統(tǒng)方法從不同角度學(xué)習(xí)了跨模態(tài)表示空間,但它們均受到特征表示能力不足和映射方法存在諸多假設(shè)等方面的局限性。隨著深度學(xué)習(xí)的興起,基于深度網(wǎng)絡(luò)的跨模態(tài)檢索方法逐漸成為熱點(diǎn)。對(duì)抗跨模態(tài)檢索(adversarial cross-modal retrieval,ACMR)[1]基于生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)的構(gòu)建思想,嘗試通過對(duì)抗訓(xùn)練來實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的檢索任務(wù)。該方法使用一個(gè)生成器來學(xué)習(xí)不同模態(tài)數(shù)據(jù)的公共表示,并使用一個(gè)辨別器來區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù)。通過對(duì)抗訓(xùn)練,生成器逐漸學(xué)習(xí)到能夠生成更真實(shí)的公共表示,從而提高跨模態(tài)檢索模型的性能。深度跨模態(tài)哈希(deep cross-modal hashing,DCMH)[2]通過深度神經(jīng)網(wǎng)絡(luò)來提取不同模態(tài)數(shù)據(jù)的特征表示,并通過成對(duì)損失來約束模態(tài)間數(shù)據(jù)的成對(duì)語義關(guān)系。在DCMH基礎(chǔ)上,深度有監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval,DSCMR)[8]不僅考慮到了模態(tài)間數(shù)據(jù)的成對(duì)語義相似性關(guān)系,也考慮到了單一模態(tài)樣本自身的模態(tài)不變性?;谝恢滦员3值膶?duì)抗性哈希 (consistency-preserving adversarial hashing,CPAH)[9]提出了一種多任務(wù)對(duì)抗學(xué)習(xí)方法,這種方法可以使來自不同模態(tài)的樣本公共表示分布更加接近,增強(qiáng)了不同模態(tài)數(shù)據(jù)間的語義相似性。此外,自監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)近年來也被廣泛地應(yīng)用于跨模態(tài)檢索研究。這些方法充分利用數(shù)據(jù)本身的信息來輔助特征學(xué)習(xí),避免了大量的數(shù)據(jù)標(biāo)注。自監(jiān)督對(duì)抗性學(xué)習(xí)(self-supervised adversarial learning,SSAL)[10]提出了一種基于自監(jiān)督的跨模態(tài)檢索方法,此方法利用自監(jiān)督學(xué)習(xí)來尋找公共的子空間,并在公共子空間內(nèi)利用對(duì)抗學(xué)習(xí)來對(duì)齊不同模態(tài)的特征表示。雙向遞歸神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network,BRNN)[11]利用弱監(jiān)督學(xué)習(xí)方法獲取圖像特征,并通過圖像和對(duì)應(yīng)文本之間的語義關(guān)系對(duì)齊圖像,并進(jìn)行文本表示。以上跨模態(tài)檢索方法僅僅關(guān)注了不同模態(tài)特征之間的相似性,并沒有考慮到數(shù)據(jù)之間的相關(guān)性對(duì)檢索性能的影響。

        圖可以有效地描述數(shù)據(jù)之間的結(jié)構(gòu)信息,這些結(jié)構(gòu)信息可以有效地描述數(shù)據(jù)之間的相關(guān)性。因此,以圖結(jié)構(gòu)數(shù)據(jù)為基礎(chǔ)的GCN被廣泛地引入到跨模態(tài)檢索模型的構(gòu)建中。這些方法首先利用數(shù)據(jù)之間的相關(guān)性構(gòu)造圖,然后利用GCN提取出帶有相關(guān)性信息的數(shù)據(jù)表示。GCN的引入為跨模態(tài)檢索領(lǐng)域帶來了新的突破,使得模態(tài)之間的關(guān)聯(lián)不再僅限于淺層的特征表達(dá),而是為多模態(tài)數(shù)據(jù)的特征表示融入了更深層的語義相關(guān)性。

        圖卷積哈希(graph convolutional hashing,GCH)[12]方法通過GCN將樣本的語義相關(guān)性信息融入到樣本公共表示中,提升了跨模態(tài)檢索的準(zhǔn)確性。多標(biāo)簽語義監(jiān)督圖注意力哈希(multi-label semantic supervised graph attention hashing,MS2GAH)[13]提出了一種圖注意力網(wǎng)絡(luò)來進(jìn)行樣本公共表示學(xué)習(xí),使模型更加關(guān)注于樣本中信息量較高的內(nèi)容,增強(qiáng)了模型的魯棒性。圖卷積網(wǎng)絡(luò)離散哈希 (graph convolutional network discrete hashing,GCDH)[14]利用標(biāo)簽之間的語義關(guān)系,通過GCN學(xué)習(xí)標(biāo)簽特征,用于構(gòu)造標(biāo)簽分類器,從而將標(biāo)簽的語義相關(guān)性融入到多模態(tài)數(shù)據(jù)特征中。加權(quán)圖結(jié)構(gòu)語義限制網(wǎng)絡(luò)(weighted graph-structured semantics constraint network,WGSCN)[15]提出了一種基于圖的限制學(xué)習(xí)框架,用于挖掘跨模態(tài)數(shù)據(jù)之間的語義內(nèi)涵。這些通過GCN學(xué)習(xí)數(shù)據(jù)和標(biāo)簽特征的方法,融入了數(shù)據(jù)和標(biāo)簽內(nèi)在的相關(guān)性,因此提高了跨模態(tài)檢索的性能。隨著研究的不斷深入,研究人員發(fā)現(xiàn)數(shù)據(jù)相關(guān)性的準(zhǔn)確程度對(duì)GCN的特征學(xué)習(xí)效果具有較大的影響。深度關(guān)系相似性學(xué)習(xí)(deep relational similarity learning DRSL)[16]通過特征相似性來構(gòu)造數(shù)據(jù)圖,二重對(duì)抗圖神經(jīng)網(wǎng)絡(luò)(dual adversarial graph neural networks,DAGNN)[17]通過標(biāo)簽共現(xiàn)概率來構(gòu)造標(biāo)簽圖,這些方法均利用先驗(yàn)知識(shí)作為相關(guān)性的衡量標(biāo)準(zhǔn),無法獲得最優(yōu)的語義相關(guān)性,從而降低了生成特征的質(zhì)量。為了解決此問題,自適應(yīng)標(biāo)簽圖卷積網(wǎng)絡(luò)(adaptive label-aware graph convolutional networks,ALGCN)[18]通過自適應(yīng)的方式來動(dòng)態(tài)調(diào)整不同模態(tài)數(shù)據(jù)之間的語義相關(guān)性,這使得ALGCN可以更加準(zhǔn)確地發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性。然而,目前基于GCN的跨模態(tài)檢索方法多從多模態(tài)數(shù)據(jù)之間以及標(biāo)簽信息之間相關(guān)性的角度學(xué)習(xí)跨模態(tài)特征空間,并沒有考慮到多標(biāo)簽信息之間的相關(guān)性。因此,本文提出了一種基于二重語義相關(guān)性圖卷積網(wǎng)絡(luò)的跨模態(tài)檢索方法,該方法構(gòu)造了標(biāo)簽圖和多標(biāo)簽圖,然后利用GCN提取出帶有語義相關(guān)性的標(biāo)簽嵌入和多標(biāo)簽嵌入,并將兩者融入到跨模態(tài)公共表示的生成過程中。為了增強(qiáng)公共表示的判別性,DSCGCN構(gòu)造了標(biāo)簽和多標(biāo)簽分類器,用于對(duì)樣本公共表示進(jìn)行分類。此外,還提出了多標(biāo)簽相似性損失,用于保持跨模態(tài)公共表示與其語義內(nèi)容的特征一致性。

        本文模型的貢獻(xiàn)如下:a)構(gòu)造了標(biāo)簽圖和多標(biāo)簽圖,并利用GCN自適應(yīng)地發(fā)現(xiàn)了標(biāo)簽之間和多標(biāo)簽之間的語義相關(guān)性;b)將獲取的標(biāo)簽和多標(biāo)簽嵌入向量作為分類器,增強(qiáng)了不同模態(tài)樣本公共表示的判別性;c)提出一種多標(biāo)簽相似性損失,用于保持跨模態(tài)公共表示與其語義內(nèi)容的特征一致性,從而使生成的樣本公共表示更接近于其語義特征;d)通過在三個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)表明,DSCGCN方法具有良好的性能。

        1 問題定義與先驗(yàn)知識(shí)

        2.1 樣本表示學(xué)習(xí)

        樣本表示學(xué)習(xí)模塊分為圖像表示學(xué)習(xí)分支和文本表示學(xué)習(xí)分支。這兩個(gè)分支分別用于提取圖像和文本的公共表示。

        圖像表示學(xué)習(xí)分支使用19層的VGGNet[19]作為基礎(chǔ)網(wǎng)絡(luò),從FC7層提取出維度為dv的圖像特征,再經(jīng)過維度分別為4 096、4 096、1 024 的三個(gè)全連接層將圖像特征映射到公共表示空間內(nèi),生成圖像公共表示 v i,公共表示空間維度為d=1024。

        2.3 多標(biāo)簽表示學(xué)習(xí)

        多標(biāo)簽表示學(xué)習(xí)模塊主要用于生成帶有語義相關(guān)性的多標(biāo)簽嵌入向量。首先利用多標(biāo)簽頂點(diǎn)之間的語義相關(guān)性,構(gòu)造出多標(biāo)簽語義相關(guān)性矩陣,從而生成多標(biāo)簽圖。接下來再利用GCN提取出帶有語義相關(guān)性的多標(biāo)簽嵌入向量,用于構(gòu)造多標(biāo)簽分類器。此外,由于樣本之間的語義相關(guān)性取決于樣本對(duì)應(yīng)標(biāo)簽之間的語義相關(guān)性,所以,本模塊內(nèi)生成的多標(biāo)簽語義相關(guān)性矩陣可以有效地反映出樣本之間的語義相關(guān)性。

        多標(biāo)簽圖可以表示為GML=(VML,EML), 其中,VML為頂點(diǎn)集,EML為邊集,圖GML中包含m個(gè)頂點(diǎn),每個(gè)頂點(diǎn)包含不同的多標(biāo)簽集合,m為訓(xùn)練樣本中的多標(biāo)簽集個(gè)數(shù)。 K i=[ki ki2,…, kic]∈{0,1}c表示第i個(gè)多標(biāo)簽頂點(diǎn)的標(biāo)簽向量,如果第i個(gè)多標(biāo)簽頂點(diǎn)包含第j個(gè)標(biāo)簽,則kij= 否則kij=0。由于在多標(biāo)簽場(chǎng)景下,每個(gè)頂點(diǎn)包含的標(biāo)簽數(shù)量大于 所以| K i|0gt;1。在此基礎(chǔ)上,為任意第i個(gè)樣本分配一個(gè)向量 R i=[ri ri2,…,rim]∈{0,1}m,如果此樣本與第j個(gè)多標(biāo)簽頂點(diǎn)擁有相同的標(biāo)簽集,則rij= 否則rij=0??梢园l(fā)現(xiàn), R i為one hot向量。

        4 實(shí)驗(yàn)為了驗(yàn)證DSCGCN的性能,在NUS-WIDE[22]、 MIRFlickr[23]和MS-COCO[24]三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

        4.1 數(shù)據(jù)集

        NUS-WIDE數(shù)據(jù)集包含269 648個(gè)圖像-文本對(duì),共屬于81個(gè)類別。每幅圖像由224×224×3維矩陣來表示,每個(gè)文本由1 000維向量來表示。從原數(shù)據(jù)集中選擇出屬于21個(gè)常用類別的190 421個(gè)圖像-文本對(duì)作為數(shù)據(jù)集,其中,隨機(jī)選取的2 000個(gè)圖像-文本對(duì)作為測(cè)試集,其他為訓(xùn)練集。MIRFlickr數(shù)據(jù)集包含25 000個(gè)圖像-文本,共屬于24個(gè)類別。每幅圖像由224×224×3維矩陣來表示,每個(gè)文本由1 386維向量來表示。選取20 015個(gè)樣本對(duì)作為數(shù)據(jù)集,并從數(shù)據(jù)集中隨機(jī)選取2 000個(gè)圖像-文本對(duì)作為測(cè)試集,其他為訓(xùn)練集。

        MS-COCO數(shù)據(jù)集包含122 218個(gè)圖像-文本對(duì),共屬于80個(gè)類別。每幅圖像由224×224×3維矩陣來表示,每個(gè)文本由2 000維向量表示。從數(shù)據(jù)集中隨機(jī)選取2 000個(gè)圖像-文本對(duì)作為測(cè)試集,其他為訓(xùn)練集。

        4.2 實(shí)驗(yàn)設(shè)置

        DSCGCN在PyTorch框架上驗(yàn)證DSCGCN的有效性,并采用mini-batch Adam[25]優(yōu)化器來優(yōu)化DSCGCN。實(shí)驗(yàn)中, NUS-WIDE、MIRFlickr和MS-COCO數(shù)據(jù)集上batch-size分別設(shè)定為1 024、64、512,在三個(gè)數(shù)據(jù)集上的學(xué)習(xí)率ξ均設(shè)定為0.000 001。超參數(shù)α=0.5、β=0.5、τ=0.4、p=0.5、λ1=0.8、λ2=0.2。樣本表示學(xué)習(xí)模塊中,圖像網(wǎng)絡(luò)使用預(yù)訓(xùn)練的VGGNet提取圖像特征,文本網(wǎng)絡(luò)通過分類任務(wù)對(duì)MLP進(jìn)行預(yù)訓(xùn)練用于提取文本特征,圖像特征和文本特征經(jīng)過全連接層后均生成維度為1 024的公共表示。標(biāo)簽學(xué)習(xí)模塊和多標(biāo)簽學(xué)習(xí)模塊均采用三層GCN,輸出維度為1 024的標(biāo)簽嵌入向量和多標(biāo)簽嵌入向量。初始標(biāo)簽特征為由預(yù)訓(xùn)練GloVe生成的維度為300的向量。

        4.3 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)中采取平均精度均值(mean average precision,mAP)來衡量算法的性能,該算法主要通過對(duì)平均精度(average precision,AP)求平均值計(jì)算得出,并選取了SCM[26]、SePH[27]、 ACMR、GCH、DSCMR、CPAH、MS2GAH、GCDH、ALGCN與DSCGCN進(jìn)行比較。

        4.3.1 檢索性能對(duì)比

        表1分別列出了DSCGCN與九種跨模態(tài)檢索算法在三個(gè)數(shù)據(jù)集上的mAP分?jǐn)?shù)。實(shí)驗(yàn)由兩部分組成,即圖像檢索文本和文本檢索圖像,具體來說,圖像-文本指使用圖像作為查詢集且使用文本作為檢索集,文本-圖像指使用文本作為查詢集且使用圖像作為檢索集。由于DSCGCN采用實(shí)數(shù)值進(jìn)行跨模態(tài)數(shù)據(jù)表示,為了進(jìn)行公平的比較,表1中列舉的哈希方法均為去掉哈希層后生成特征的檢索結(jié)果。在以上方法中,SCM、SePH均為傳統(tǒng)的跨模態(tài)檢索方法,因此,其mAP值均低于剩余的八種深度跨模態(tài)檢索方法。ACMR通過在公共空間上的對(duì)抗學(xué)習(xí),提高了具有相同語義標(biāo)簽的樣本表示之間的相似性,同時(shí)增大語義不同樣本表示之間的差異性。不同模態(tài)數(shù)據(jù)之間往往具有一定的成對(duì)語義關(guān)系,這種語義關(guān)系可以提高公共表示空間的語義性,DSCMR不僅考慮到了模態(tài)間數(shù)據(jù)的成對(duì)語義關(guān)系,也考慮到了單一模態(tài)樣本自身的模態(tài)不變性,因此,該方法生成的樣本公共表示取得了較好的檢索效果,其mAP分?jǐn)?shù)比ACMR高出7%左右。 與DSCMR相同,CPAH同樣采用了模態(tài)間數(shù)據(jù)的成對(duì)損失,然而,其提出的多任務(wù)對(duì)抗學(xué)習(xí)方法可以使來自不同模態(tài)的樣本公共表示分布更加接近彼此,增強(qiáng)了不同模態(tài)數(shù)據(jù)間的語義相關(guān)性,因此CPAH的mAP分?jǐn)?shù)比DSCMR高出1%左右。

        GCH、MS2GAH、GCDH、ALGCN、DSCGCN這五種方法均將GCN引入樣本公共表示的構(gòu)建中。其中,GCH將不同模態(tài)數(shù)據(jù)的語義相關(guān)性融入樣本公共表示中,但由于其未考慮到單一模態(tài)樣本自身的模態(tài)不變性,其mAP分?jǐn)?shù)比DSCMR低2%左右。與GCH相比,MS2GAH提出一種圖注意力網(wǎng)絡(luò)來進(jìn)行樣本公共表示學(xué)習(xí),使模型更加關(guān)注于樣本中信息量較高的內(nèi)容,從而增強(qiáng)了模型的魯棒性。同時(shí),MS2GAH還設(shè)計(jì)了一個(gè)標(biāo)簽編碼器,用來提取樣本的多標(biāo)簽語義信息,并用于指導(dǎo)樣本公共表示的生成過程。因此,其整體性能優(yōu)于GCH,mAP分?jǐn)?shù)比GCH高出4%左右。然而GCH與MS2GAH僅僅將GCN用于學(xué)習(xí)帶有相關(guān)性的樣本特征,并未考慮標(biāo)簽的語義相關(guān)性。GCDH將GCN應(yīng)用于標(biāo)簽語義關(guān)系的學(xué)習(xí)上,增強(qiáng)了樣本的公共表示。

        此外,GCDH還提出了一個(gè)離散優(yōu)化策略,用于指導(dǎo)哈希碼的生成過程。因此,GCDH的mAP分?jǐn)?shù)比GCH和MS2GAH分別高出6%和1%左右。 然而,GCDH和 MS2GAH中基于標(biāo)簽和樣本特征構(gòu)造的圖結(jié)構(gòu)由先驗(yàn)知識(shí)獲得,無法隨著網(wǎng)絡(luò)的更新進(jìn)行自適應(yīng)調(diào)整。ALGCN在GCN的基礎(chǔ)上,通過數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)了標(biāo)簽的語義相關(guān)性,并通過構(gòu)造標(biāo)簽分類器,將學(xué)習(xí)到的標(biāo)簽嵌入向量用于樣本公共表示的生成。此外,ALGCN在公共表示空間的構(gòu)造過程中,還考慮到了模態(tài)內(nèi)和模態(tài)間數(shù)據(jù)的成對(duì)語義關(guān)系。因此,ALGCN的mAP分?jǐn)?shù)在三個(gè)數(shù)據(jù)集上,比GCDH和MS2GAH分別高出2%和3%左右。與ALGCN不同,DSCGCN不但考慮到了標(biāo)簽的語義相關(guān)性,還考慮到了多標(biāo)簽的語義相關(guān)性,且使生成的樣本公共表示的相似性與其語義相似性保持一致,因此DSCGCN的mAP分?jǐn)?shù)比ALGCN高出1%。

        與DSCGCN相似,ALGCN同樣采用自適應(yīng)的方式獲取標(biāo)簽相關(guān)性,為了更加全面地比較ALGCN與DSCGCN的性能,實(shí)驗(yàn)對(duì)這兩種算法的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)進(jìn)行了進(jìn)一步的分析。與ALGCN相比,DSCGCN在網(wǎng)絡(luò)結(jié)構(gòu)方面提出了多標(biāo)簽表示學(xué)習(xí)模塊,并構(gòu)造了一個(gè)多標(biāo)簽分類器,從標(biāo)簽集合的角度對(duì)樣本進(jìn)行分類。損失函數(shù)方面,DSCGCN提出了一種多標(biāo)簽語義相似性損失,將語義信息融入到樣本公共表示中。與DSCGCN相比,ALGCN提出了一種魯棒自監(jiān)督損失,用來學(xué)習(xí)一個(gè)更加有效且具有魯棒性的標(biāo)簽相關(guān)性矩陣。為了驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)對(duì)模型性能的影響,實(shí)驗(yàn)設(shè)計(jì)了兩個(gè)基于ALGCN的變體算法?;贏LGCN,引入多標(biāo)簽表示學(xué)習(xí)模塊并構(gòu)造多標(biāo)簽分類器,該算法命名為ALGCN-1。基于ALGCN引入多標(biāo)簽表示學(xué)習(xí)模塊和多標(biāo)簽語義相似性損失,并將此算法命名為ALGCN-2。從表2可以看出,ALGCN-1的mAP分?jǐn)?shù)高于ALGCN,原因在于引入多標(biāo)簽分類器,可以將樣本從標(biāo)簽集合的角度進(jìn)行分類,這提高了樣本對(duì)應(yīng)標(biāo)簽集合的整體性,使得其mAP分?jǐn)?shù)比ALCGN高出0.2%左右。但是由于ALGCN本身已經(jīng)引入標(biāo)簽分類器,所以在此基礎(chǔ)上引入多標(biāo)簽分類器的效果并不明顯。在ALGCN的基礎(chǔ)上引入多標(biāo)簽語義相似性損失,可以看出,ALGCN-2的mAP分?jǐn)?shù)相比ALGCN有著較大提升。這是因?yàn)锳LGCN-2引入的多標(biāo)簽語義相似性損失使樣本公共表示的相似性與其語義相似性保持一致,提高了樣本公共表示的語義性。還可以發(fā)現(xiàn),ALGCN-2的mAP分?jǐn)?shù)甚至超過了DSCGCN,這是因?yàn)锳LGCN-2與DSCGCN相比多引入了一個(gè)魯棒自監(jiān)督損失。由表2的結(jié)果可知,在擁有標(biāo)簽分類器的前提下,多標(biāo)簽分類器提升檢索精度的作用效果并不明顯。但是由于魯棒自監(jiān)督損失的引入,約束自適應(yīng)鄰接矩陣的生成過程,所以ALGCN-2的mAP分?jǐn)?shù)高于DSCGCN。通過以上實(shí)驗(yàn)對(duì)比可以發(fā)現(xiàn),DSCGCN提出的多標(biāo)簽分類器和多標(biāo)簽語義相似性損失均可以提高ALGCN的檢索精度,在同時(shí)具有多標(biāo)簽語義相似性損失的情況下,ALGCN的檢索精度要高于DSCGCN,說明了ALGCN提出魯棒自監(jiān)督損失的有效性。然而在不考慮多標(biāo)簽分類器的情況下,擁有多標(biāo)簽語義相似性損失的DSCGCN的mAP分?jǐn)?shù)仍要高于擁有魯棒自監(jiān)督損失的ALGCN-1的mAP分?jǐn)?shù)。通過損失的作用結(jié)果分析這個(gè)現(xiàn)象,即多標(biāo)簽語義相似性損失可以減少樣本公共表示與其語義相似性之間的差距,提高樣本公共表示的語義性,而魯棒自監(jiān)督損失僅僅可以生成一個(gè)更加準(zhǔn)確的標(biāo)簽相關(guān)性矩陣,卻沒有直接作用于樣本公共表示的生成過程。此結(jié)果說明多標(biāo)簽語義相似性損失的作用效果要優(yōu)于魯棒自監(jiān)督損失,故DSCGCN的mAP分?jǐn)?shù)要高于ALGCN-1。

        4.3.2 消融實(shí)驗(yàn)

        DSCGCN提出了標(biāo)簽分類損失1、多標(biāo)簽分類損失2、跨模態(tài)一致性損失3和多標(biāo)簽語義相似性損失4四個(gè)損失函數(shù),為了驗(yàn)證不同損失函數(shù)對(duì)DSCGCN性能的影響,針對(duì)DSCGCN進(jìn)行了消融實(shí)驗(yàn)?;谀繕?biāo)函數(shù)提出了五種消融實(shí)驗(yàn)。DSCGCN- 只去除損失1。DSCGCN-2,只去除損失2。DSCGCN-3,只去除損失3。DSCGCN-4,只去除損失4。DSCGCN-5,同時(shí)去除損失1和2。消融實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)的參數(shù)設(shè)置均與DSCGCN保持一致,結(jié)果如表3所示。

        在針對(duì)DSCGCN開展的消融實(shí)驗(yàn)中,損失函數(shù)的變化均對(duì)DSCGCN的性能造成了一定的影響,表3分別列出了去除不同損失函數(shù)對(duì)于DSCGCN算法mAP分?jǐn)?shù)的影響。其中,DSCGCN-3的mAP分?jǐn)?shù)僅次于DSCGCN,DSCGCN-3去除了跨模態(tài)一致性損失,這也說明了跨模態(tài)一致性損失在目標(biāo)函數(shù)的四個(gè)損失中所占的影響最小,此結(jié)果與實(shí)驗(yàn)參數(shù)的設(shè)置保持了一致,即λ2低于其他三個(gè)損失的參數(shù)值。DSCGCN-1與DSCGCN-2的mAP分?jǐn)?shù)與DSCGCN相比均下降了2%左右。這說明標(biāo)簽分類損失與多標(biāo)簽分類損失對(duì)DSCGCN性能的影響較大,引入標(biāo)簽分類器和多標(biāo)簽分類器有助于學(xué)習(xí)到更加具有判別性的樣本公共表示。通過觀察可以發(fā)現(xiàn),DSCGCN-1與DSCGCN-2之間mAP分?jǐn)?shù)的差距不大,說明標(biāo)簽分類器與多標(biāo)簽分類器之間的性能差異并不明顯,對(duì)網(wǎng)絡(luò)性能的影響差別不大。因此,在參數(shù)設(shè)置中將兩個(gè)分類損失的重要性合并,并通過參數(shù)λ1來衡量合并后的分類損失在目標(biāo)函數(shù)中的重要性。與DSCGCN相比,DSCGCN-5的mAP分?jǐn)?shù)出現(xiàn)了大幅度的下降,降幅為5%左右,與DSCGCN-1和DSCGCN-2相比mAP分?jǐn)?shù)也降低了2%左右,這說明同時(shí)去除標(biāo)簽分類損失和多標(biāo)簽分類損失對(duì)模型造成的影響遠(yuǎn)大于僅去除一個(gè)分類損失的影響。因此可以得出結(jié)論,同時(shí)去除標(biāo)簽分類損失和多標(biāo)簽分類損失會(huì)大幅度地降低檢索性能,但由于兩個(gè)分類損失單獨(dú)對(duì)模型的影響效果差距不大,所以引入任何一個(gè)分類損失就可以較好地彌補(bǔ)兩個(gè)分類損失同時(shí)缺失對(duì)網(wǎng)絡(luò)造成的影響。最后,去除多標(biāo)簽語義相似性損失而保留其他損失的DSCGCN-4相對(duì)于DSCGCN的 mAP分?jǐn)?shù)下降幅度最大,這個(gè)結(jié)果印證了多標(biāo)簽語義相似性損失對(duì)于目標(biāo)函數(shù)中的重要性要高于兩個(gè)分類損失之和,這一結(jié)果在目標(biāo)函數(shù)的參數(shù)設(shè)置上也能夠體現(xiàn)。但是,將DSCGCN-4與DSCGCN-5相比,mAP分?jǐn)?shù)差別并不明顯,DSCGCN-4性能略高于DSCGCN-5。這說明了分類損失在目標(biāo)函數(shù)中的重要性僅次于標(biāo)簽語義相似性損失,其重要性系數(shù)λ1=0.8,這在參數(shù)設(shè)置中也僅次于多標(biāo)簽語義相似性損失的重要性系數(shù)1。因此,可以通過此消融實(shí)驗(yàn)得出結(jié)論,多標(biāo)簽語義相似性損失在目標(biāo)函數(shù)中影響最大,分類損失重要性次之。其中,分類損失包括的標(biāo)簽分類損失與多標(biāo)簽分類損失的性能差別不大,因此在損失函數(shù)中設(shè)置了相同的重要性參數(shù)??缒B(tài)一致性損失在目標(biāo)函數(shù)的四個(gè)損失中所占的影響最小,其重要性參數(shù)也最低。

        4.3.3 參數(shù)敏感性分析

        DSCGCN的目標(biāo)函數(shù)中包含λ1與λ2,這兩個(gè)參數(shù)分別衡量了分類損失與跨模態(tài)一致性損失在目標(biāo)函數(shù)中的重要性,選擇合適的λ1與λ2對(duì)DSCGCN的檢索性能有著重要的意義。圖2展示了在三個(gè)數(shù)據(jù)集中不同λ1對(duì)應(yīng)的mAP分?jǐn)?shù),此時(shí)固定了參數(shù)λ2=0.2。從圖中觀察可知,當(dāng)λ1=0時(shí),目標(biāo)函數(shù)缺少了分類損失,學(xué)習(xí)到的樣本公共表示缺少了判別性,因此,其對(duì)應(yīng)的mAP分?jǐn)?shù)最低。當(dāng)λ1=0.8時(shí),在圖像檢索文本和文本檢索圖像兩個(gè)跨模態(tài)檢索任務(wù)中均能取得最好的mAP分?jǐn)?shù)。隨著λ1的不斷增大,分類損失對(duì)目標(biāo)函數(shù)的作用也在不斷增大,當(dāng)分類損失在目標(biāo)函數(shù)中所占的重要性僅次于多標(biāo)簽語義相似性損失時(shí),模型達(dá)到了最好的檢索效果。但是,當(dāng)λ1繼續(xù)增大并超過0.8時(shí),mAP分?jǐn)?shù)出現(xiàn)了下降的情況,這是因?yàn)榉诸悡p失重要性過大,導(dǎo)致多標(biāo)簽語義相似性損失的作用降低,造成了不同模態(tài)樣本的語義相關(guān)性降低,從而影響了跨模態(tài)檢索的性能。

        圖3為不同λ2對(duì)應(yīng)的mAP值,并在該實(shí)驗(yàn)中設(shè)置λ1=0.8。由圖3可以發(fā)現(xiàn),跨模態(tài)一致性損失在目標(biāo)函數(shù)中的重要性比較低,當(dāng)λ2=0.2時(shí),在兩個(gè)跨模態(tài)檢索任務(wù)中就已經(jīng)取得了最好的mAP分?jǐn)?shù)。但是通過觀察可以看出,當(dāng)參數(shù)λ2超過0.2時(shí),mAP分?jǐn)?shù)下降的速度比較緩慢,這也說明了相比于其他兩個(gè)損失,跨模態(tài)一致性損失對(duì)目標(biāo)函數(shù)的作用較低,即使加大跨模態(tài)一致性損失的重要性,也不會(huì)過于影響模型的性能。但是在參數(shù)λ2未超過0.2時(shí),mAP分?jǐn)?shù)也能保持一個(gè)上升的趨勢(shì),說明跨模態(tài)一致性損失對(duì)DSCGCN的性能也作出了一定的貢獻(xiàn)。

        在固定參數(shù)λ1與λ2的前提下學(xué)習(xí)參數(shù)α、β、τ和p。其中,參數(shù)α衡量了標(biāo)簽自適應(yīng)矩陣與標(biāo)簽語義相關(guān)性矩陣的重要性關(guān)系,參數(shù)β衡量了多標(biāo)簽自適應(yīng)矩陣與多標(biāo)簽語義相關(guān)性矩陣的重要性關(guān)系。對(duì)于參數(shù)τ與p,直接采用了ALGCN中的參數(shù)設(shè)定。在τ=0.4和p=0.5的前提下,調(diào)整參數(shù)α與β。在實(shí)驗(yàn)中可以發(fā)現(xiàn),隨著α與β的不斷變化,其mAP分?jǐn)?shù)有著相同的變化趨勢(shì)。因此,實(shí)驗(yàn)中固定α=β, 并且發(fā)現(xiàn)這兩個(gè)參數(shù)在三個(gè)數(shù)據(jù)集上的最優(yōu)值分別為0.5、0.55、0.5。

        4.3.4 數(shù)據(jù)可視化分析實(shí)驗(yàn)中使用在MIRFlickr數(shù)據(jù)集上學(xué)習(xí)到的標(biāo)簽嵌入、樣本公共表示和多標(biāo)簽嵌入進(jìn)行可視化分析,通過可視化結(jié)果來評(píng)估DSCGCN輸出的合理性。首先對(duì)標(biāo)簽進(jìn)行可視化,通過t-SNE [28]對(duì)標(biāo)簽初始特征和標(biāo)簽嵌入進(jìn)行降維,并對(duì)降維后的結(jié)果進(jìn)行可視化。如圖4、5所示,分別對(duì)未經(jīng)過DSCGCN學(xué)習(xí)的標(biāo)簽初始特征與經(jīng)過DSCGCN學(xué)習(xí)的標(biāo)簽嵌入進(jìn)行了可視化。對(duì)兩圖進(jìn)行觀察可以發(fā)現(xiàn),經(jīng)過DSCGCN學(xué)習(xí)后的標(biāo)簽嵌入包含了更多的語義相關(guān)性,如圖5所示,sunset與sea更為接近,baby與male更為接近。這都說明了在MIRFlickr數(shù)據(jù)集上,它們往往在同一個(gè)場(chǎng)景下出現(xiàn),因此學(xué)習(xí)到的標(biāo)簽嵌入包含更多的語義相關(guān)性。由圖5還可以發(fā)現(xiàn),night和portrait被單獨(dú)劃分為一類,沒有與這兩類語義相關(guān)的類別。但是,由圖4可以發(fā)現(xiàn),這兩類被劃分為不合理的類當(dāng)中。此結(jié)果同樣可以證明經(jīng)過DSCGCN學(xué)習(xí)到的標(biāo)簽嵌入的合理性。

        此外,還對(duì)學(xué)習(xí)到的樣本公共表示和多標(biāo)簽嵌入進(jìn)行可視化,由于多標(biāo)簽語義相似性損失最小化了樣本公共表示與對(duì)應(yīng)標(biāo)簽的語義相似性之差,所以將樣本公共表示與多標(biāo)簽嵌入在同一個(gè)圖中進(jìn)行可視化。如圖6所示,可以發(fā)現(xiàn),無法從模態(tài)角度區(qū)分樣本的公共表示,圖像與文本的公共表示特征可以很好地混合在一起,這說明不同模態(tài)的數(shù)據(jù)表示被較好地映射到了特征空間之中。此外還可以發(fā)現(xiàn),多標(biāo)簽嵌入與樣本公共表示有著相同的分布。因此,該可視化結(jié)果能夠體現(xiàn)樣本公共表示和多標(biāo)簽嵌入的合理性。

        4.3.5 模型的泛化能力為了評(píng)估DSCGCN在不同數(shù)據(jù)集上的泛化能力,提出了一個(gè)泛化實(shí)驗(yàn)。在某一個(gè)數(shù)據(jù)集上選取一定的數(shù)據(jù)作為訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,其次在其他數(shù)據(jù)集上挑選一定的數(shù)據(jù)作為測(cè)試集來對(duì)模型進(jìn)行測(cè)試,其中挑選的測(cè)試集與訓(xùn)練數(shù)沒有重復(fù)的樣本對(duì)。在本實(shí)驗(yàn)中,選擇MIRFlickr數(shù)據(jù)集中的18 015個(gè)圖像-文本對(duì)作為訓(xùn)練集對(duì)DSCGCN進(jìn)行訓(xùn)練,分別從NUS-WIDE和MS-COCO數(shù)據(jù)集上選取了2 000個(gè)圖像-文本對(duì)進(jìn)行測(cè)試,結(jié)果如表4所示。其中,DSCGCN-NUS與DSCGCN-MS方法分別代表從NUS-WIDE和MS-COCO數(shù)據(jù)集中選取樣本作為測(cè)試集的實(shí)驗(yàn)。為了便于比較,還列出了從MIRFlickr數(shù)據(jù)集中挑選2 000個(gè)樣本作為測(cè)試集的mAP分?jǐn)?shù),并以DSCGCN-MIR命名該實(shí)驗(yàn)。通過比較可以發(fā)現(xiàn),從NUS-WIDE和MS-COCO數(shù)據(jù)集中選取測(cè)試集與仍從MIRFlickr數(shù)據(jù)集中選取測(cè)試集的mAP分?jǐn)?shù)相差不大,說明DSCGCN經(jīng)過MIRFlickr數(shù)據(jù)集的訓(xùn)練,仍然可以在其他數(shù)據(jù)集上保持良好的檢索效果。因此,經(jīng)過訓(xùn)練的DSCGCN擁有良好的泛化能力。

        4.3.6 標(biāo)簽集合相關(guān)性的作用為了體現(xiàn)標(biāo)簽集合之間的相關(guān)性對(duì)于提升特征表示能力的作用,進(jìn)行了如下實(shí)驗(yàn)。在測(cè)試集中隨機(jī)選取一張圖像作為查詢,從剩余測(cè)試集中檢索出與該圖像公共表示特征最為相似的top-10個(gè)圖像。其中,圖7(b)檢索結(jié)果中的所有圖像均與查詢圖像具有至少一個(gè)相同的標(biāo)簽,而圖7(a)的檢索結(jié)果中則存在兩個(gè)錯(cuò)誤結(jié)果,分別處于第7和第9位。該結(jié)果說明標(biāo)簽集合相關(guān)性可以有效地增強(qiáng)樣本的表示能力。

        5 結(jié)束語

        本文基于GCN提出了一種跨模態(tài)檢索方法DSCGCN,該方法利用GCN學(xué)習(xí)標(biāo)簽之間和多標(biāo)簽之間的語義相關(guān)性,并將此二重語義相關(guān)性用于指導(dǎo)樣本公共表示的生成過程。其次,提出的多標(biāo)簽相似性損失可以有效縮小樣本的公共表示與其語義特征的差距。通過在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,DSCGCN可以取得良好的檢索性能。在未來的工作中,將深入研究標(biāo)簽嵌入、多標(biāo)簽嵌入以及樣本公共表示之間的內(nèi)在聯(lián)系,從而保持多標(biāo)簽樣本公共表示的語義一致性。

        參考文獻(xiàn):

        [1]Wang Bokun,Yang Yang,Xu Xing,et al. Adversarial cross-modal retrieval[C]// Proc of the 25th Annual International Conference on Machine Learning. New York: ACM Press,2017: 154-162.

        [2]Jiang Qingyuan,Li Wujun. Deep cross-modal hashing[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 3232-3240.

        [3]朱杰. 基于文本引導(dǎo)對(duì)抗哈希的跨模態(tài)檢索方法[J]. 計(jì)算機(jī)應(yīng)用研究,2022, 39 (2): 628-632. (Zhu Jie. Text-guided adversarial hashing for cross-modal retrieval[J].Application Research of Computers ,2022, 39 (2): 628-632.)

        [4]康培培,林澤航,楊振國(guó),等. 成對(duì)相似度遷移哈希用于無監(jiān)督跨 [J]. 計(jì)算機(jī)應(yīng)用研究,202 38 (10): 3025-3029. (Kang Peipei,Lin Zehang,Yang Zhenguo,et al. Pairwise similarity transferring hash for unsupervised cross-modal retrieval[J].Application Research of Computers ,202 38 (10): 3025-3029.)

        [5]Hotelling H. Relations between two sets of variates[M]// Kotz S,Johnson N L. Breakthroughs in Statistics. New York: Springer,1992: 162-190.

        [6]Li Dongge,Dimitrova N,Li Mingkun,et al. Multimedia content processing through cross-modal association[C]// Proc of ACM International Conference on Multimedia. New York: ACM Press,2003: 604-611.

        [7]Zhen Yi,Yeung D. Co-regularized hashing for multimodal data[C]// Proc of International Conference on Neural Information Processing Systems. Piscataway,NJ: IEEE Press,2012: 1385-1393.

        [8]Zhen Liangli,Hu Peng,Wang Xu,et al. Deep supervised cross-modal retrieval[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 10394-10403.

        [9]Xie De,Deng Cheng,Li Chao,et al. Multi-task consistency-preserving adversarial hashing for cross-modal retrieval[J].IEEE Trans on Image Processing ,2020, 29 : 3626-3637.

        [10]Wang Yangchao,He Shiyuan,Xu Xing,et al. Self-supervised adversarial learning for cross-modal retrieval[C]// Proc of the 2nd ACM International Conference on Multimedia in Asia. New York: ACM Press,2021: 1-7.

        [11]Karpathy A,Li Feifei. Deep visual-semantic alignments for generating image descriptions[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 3128-3137.

        [12]Xu Ruiqing,Li Chao,Yan Junchi,et al. Graph convolutional network hashing for cross-modal retrieval[C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 982-998.

        [13]Duan Youxiang,Chen Ning,Zhang Peiying,et al. MS2GAH: multi-labelsemantic supervised graph attention hashing for robust cross-modal retrieval[J].Pattern Recognition ,2022, 128 : 108676.

        [14]Bai Cong,Zeng Chao,Ma Qing,et al. Graph convolutional network discrete hashing for cross-modal retrieval[J/OL].IEEE Trans on Neural Networks and Learning Systems . (2022-05-23). http://doi.org/10.1109/tnnls.2022.3174970.

        [15]Zhang Lei,Chen Leiting,Zhou Chuan,et al. Weighted graph-structuredsemantics constraint network for cross-modal retrieval[J]. IEEE Trans on Multimedia ,2024, 26 : 1551-1564.

        [16]Wang Xu,Hu Peng,Zhen Liangli,et al. DRSL: deep relational similarity learning for cross-modal retrieval[J].Information Sciences ,202 546 : 298-311.

        [17]Qian Shengsheng,Xue Dizhan,Zhang Huaiwen,et al. Dual adversarialgraph neural networks for multi-label cross-modal retrieval[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2021: 2440-2448.

        [18]Qian Shengsheng,Xue Dizhan,F(xiàn)ang Quan,et al. Adaptive label-aware graph convolutional networks for cross-modal Retrieval[J].IEEE Trans on Multimedia ,202 24 : 3520-3532.

        [19]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-09-04). https://arxiv.org/abs/1409.1556.

        [20]David E,James L. A general framework for parallel distributed processing[M]// Parallel Distributed Processing: Explorations in the Microstructure of Cognition: Foundations. Cambridge,MA: MIT Press,1987: 45-76.

        [21]Pennington J,Socher R,Manning C D. GloVe: global vectors for word representation[C]// Proc of International Conference on Empirical Methods in Natural Language Processing. Piscataway,NJ: IEEE Press,2014: 1532-1543.

        [22]Chua T S,Tang Jinhui,Hong Richang,et al. NUS-WIDE: a real-world Web image database from National University of Singapore[C]// Proc of ACM International Conference on Image and Video Retrieval. New York: ACM Press,2009: article No.48.

        [23]Huiskes M,Thomee B,Lew M. New trends and ideas in visual concept detection: the MIRFlickr retrieval evaluation initiative[C]// Proc of International Conference on Multimedia Information Retrieval. New York: ACM Press,2010: 527-536.

        [24]Lin T Y,Maire M,Belongie S,et al. Microsoft COCO: common objects in context[C]// Proc of European Conference on Computer Vision. Piscataway,NJ: IEEE Press,2014: 740-755.

        [25]Kingma Diederik P,Ba J. A method for stochastic optimization[C]// Proc of International Conference on Learning Representations. Pisca-taway,NJ: IEEE Press,2015: 1-14.

        [26]Zhang Dongqing,Li Wujun. Large-scale supervised multimodal hashing with semantic correlation maximization[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2014: 2177-2183.

        [27]Lin Zijia,Ding Guiguang,Hu Mingqing,et al. Semantics-preserving hashing for cross-view retrieval[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 3864-3872.

        [28]Maaten L,Hinton G. Visualizing data using t-SNE[J].Journal of Machine Learning Research ,2008, 86 (9): 2579-2605.

        收稿日期:2023-08-22;修回日期:2023-10-18 基金項(xiàng)目:河北省自然科學(xué)基金資助項(xiàng)目(F2022511001);河北省高等學(xué)??茖W(xué)技術(shù)研究項(xiàng)目(ZC2022070);河北大學(xué)高層次人才科研啟動(dòng)項(xiàng)目(521100223212);張家口市市級(jí)科技計(jì)劃財(cái)政資助項(xiàng)目(2311010A);張家口市2022年度基礎(chǔ)研究專項(xiàng)資助項(xiàng)目(2221008A);河北建筑工程學(xué)院2024年校級(jí)研究生創(chuàng)新基金資助項(xiàng)目(XY2024068)

        作者簡(jiǎn)介: 劉佳楠(2001—),男,河南洛陽(yáng)人,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺;范晶晶(1980—),女,河北張家口人,副教授,碩士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí);趙建光(1978—),男,河北張家口人,教授,碩導(dǎo),博士,主要研究方向?yàn)榛ヂ?lián)感知與智能計(jì)算;朱杰(1982—),男(通信作者),河北保定人,副教授,碩導(dǎo),博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(arthurzhujie@163.com).

        无码国产精成人午夜视频一区二区| 色窝综合网| 亚洲av午夜福利一区二区国产 | 亚洲嫩模高清在线视频| 精品在线亚洲一区二区三区| 一区二区三区字幕中文| 无码任你躁久久久久久久| 99热这里只有精品3| 中国少妇和黑人做爰视频| 亚洲女同恋av中文一区二区 | 国产av精国产传媒| av资源在线看免费观看| 成年女人18毛片观看| 欧美日本精品一区二区三区| 亚洲综合无码无在线观看| 欧美人与禽交zozo| 亚洲av手机在线一区| 亚洲成av人综合在线观看| 中文字幕亚洲情99在线| 亚洲av影院一区二区三区四区| 性感的小蜜桃在线观看| 国产日韩欧美一区二区东京热| 国产成人vr精品a视频| 99久久亚洲国产高清观看| 国产av剧情精品麻豆| 性按摩xxxx在线观看| 国产精品露脸视频观看| 亚洲av粉色一区二区三区| 黄片小视频免费观看完整版| 曰本大码熟中文字幕| 欧美成人www免费全部网站| 亚洲一区二区三区精品久久| 亚洲精品一区久久久久一品av| 色综合中文综合网| 国产极品喷水视频| 成人免费av色资源日日| 大又大粗又爽又黄少妇毛片| 国产成人美女AV| 亚洲天堂av在线观看免费| 精品久久久bbbb人妻| 狠狠躁夜夜躁人人爽超碰97香蕉|