亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用類別信息和列表排序的跨模態(tài)檢索

        2021-03-11 06:20:50劉雨萍曾奕斌
        計(jì)算機(jī)與生活 2021年3期
        關(guān)鍵詞:類間排序檢索

        劉雨萍,葛 紅,曾奕斌

        華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州510631

        給定一個(gè)圖像(文本),跨模態(tài)檢索的目的是找到與其最相關(guān)的文本(圖像),但是很難直接測量多模態(tài)樣本特征之間的相似性。已經(jīng)有很多方法提出通過學(xué)習(xí)公共子空間來縮小不同模態(tài)樣本特征之間的差異性[1-3]。

        基于用于公共子空間學(xué)習(xí)的信息,跨模態(tài)檢索方法主要可分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、基于文檔對排序的方法和基于列表排序的方法。無監(jiān)督學(xué)習(xí)方法中最經(jīng)典的算法之一是典型相關(guān)分析(canonical correlation analysis,CCA)[4],其通過最大程度地利用不同模態(tài)數(shù)據(jù)之間的相關(guān)性來學(xué)習(xí)公共子空間。CCA 有很多變體,例如深度典型相關(guān)分析(deep canonical correlation analysis,DCCA)[5],該算法用于研究兩個(gè)數(shù)據(jù)視圖的復(fù)雜非線性變換以使樣本特征的最終表示形式高度相關(guān)。公共子空間的學(xué)習(xí)方法使跨模態(tài)檢索的發(fā)展向前邁進(jìn)了一步,像文檔[4,6]這樣的無監(jiān)督方法利用在模態(tài)文檔中共存的信息來學(xué)習(xí)跨模態(tài)數(shù)據(jù)的通用表示。偏最小二乘法(partial least squares,PLS)[6]與CCA[4]類似,它選擇善于區(qū)分不同標(biāo)簽的特征向量。

        有監(jiān)督的子空間學(xué)習(xí)方法使同一類別的樣本盡可能靠近,而不同類別的樣本盡可能遠(yuǎn)離。例如廣義多視角分析(generalized multiview analysis,GMA)[7]是CCA 的拓展算法,它使用數(shù)據(jù)的類別信息來學(xué)習(xí)子空間。學(xué)習(xí)耦合特征空間(learning coupled feature spaces,LCFS)[8]同時(shí)從兩種模態(tài)中選擇相關(guān)特征和判別特征,使得學(xué)習(xí)空間更加有效。

        近年來,跨模態(tài)檢索中普遍使用基于文檔對和列表排序的方法,使得檢索性能得到了很大的提高。文獻(xiàn)[9]提出了自適應(yīng)列表約束,通過強(qiáng)調(diào)樣本間的不相關(guān)信息與相關(guān)信息一樣重要來學(xué)習(xí)排序。文獻(xiàn)[10]提出了一種判別性排序模型,以利用單模態(tài)之間的關(guān)系來提高排序性能。文獻(xiàn)[3]通過成對約束找到隱藏在不同模態(tài)中的共同結(jié)構(gòu),并展示了具有語義誘導(dǎo)的成對約束的不同模態(tài)聯(lián)合建模的有效性。基于排序的方法,例如文獻(xiàn)[9-11],通過利用按列表排序的方法來學(xué)習(xí)樣本之間的共同表示?;谖臋n對的方法,例如文獻(xiàn)[12-14],對文檔對進(jìn)行分組,不僅考慮了單個(gè)文檔,而且考慮了各個(gè)文檔之間的分組是否合理。

        克服不同模態(tài)內(nèi)容的語義鴻溝是跨模態(tài)檢索的一大挑戰(zhàn)。文獻(xiàn)[15]運(yùn)用SAN(saliency-guided attention network)在跨模態(tài)數(shù)據(jù)之間建立非對稱連接,從而有效地學(xué)習(xí)細(xì)粒度的跨模態(tài)相關(guān)性。文獻(xiàn)[16]利用注意力機(jī)制來定位語義上有意義的部分,并利用記憶網(wǎng)絡(luò)捕獲長期的上下文知識來學(xué)習(xí)不同模態(tài)的有力和魯棒性表示。文獻(xiàn)[17]提出了SER2(squeeze-andexcitation recurrent residual)模型,并將其并入到端到端網(wǎng)絡(luò)中,能夠有效地生成多級語義特征,以增強(qiáng)兩種模態(tài)的表示能力。作者還提出了CMSD(crossmodal semantic discrepancy)損失,通過挖掘跨模態(tài)數(shù)據(jù)之間的常見語義相關(guān)性,在多個(gè)級別上減輕了跨模態(tài)之間的分布差異。文獻(xiàn)[18]利用對抗性學(xué)習(xí)指導(dǎo)的多標(biāo)簽注意模塊來增強(qiáng)特征學(xué)習(xí)部分,從而學(xué)習(xí)判別性特征表示并保持跨模態(tài)不變性。

        對于跨模態(tài)檢索,許多常見的子空間學(xué)習(xí)方法都取得了優(yōu)異的結(jié)果,但是仍然有很大的進(jìn)步空間,它們中的大多數(shù)方法未能有效地識別類內(nèi)相關(guān)性和類間相關(guān)性。為了同時(shí)充分利用類內(nèi)信息和類間信息,本文引入了支持鄰域(support neighbor,SN)損失[19],以更有效地區(qū)分相關(guān)樣本和無關(guān)樣本,為了使所提出方法的性能更好,使用了文檔列表排序方法,而不是文檔對排序方法。

        盡管已有很多方法致力于改進(jìn)訓(xùn)練模型,但損失函數(shù)在模型中也起著至關(guān)重要的作用。好的損失函數(shù)將大大改善模型的性能。因此,在本文方法中,為了加強(qiáng)類內(nèi)樣本凝聚力,集中于懲罰錨點(diǎn)到其最遠(yuǎn)的正樣本的距離與到其最近的正樣本的距離之差。為了確保類間樣本之間的分離,將正樣本與錨點(diǎn)的相似度最大化,同時(shí)將負(fù)樣本與錨點(diǎn)的相似度最小化。

        本文的主要貢獻(xiàn)如下:首先,將SN 損失函數(shù)使用到跨模態(tài)檢索中,使用該損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)模型,從而使樣本在共同學(xué)習(xí)子空間中具有更明顯的類內(nèi)和類間關(guān)系。然后,通過充分利用樣本之間的類別信息,提高對映射到公共子空間中的正樣本特征和負(fù)樣本特征的識別。最后,在最經(jīng)典的跨模態(tài)檢索數(shù)據(jù)集中進(jìn)行了大量實(shí)驗(yàn),通過與最經(jīng)典的幾種跨模態(tài)檢索方法進(jìn)行比較,證明了本文方法的有效性。

        1 C2MLR2算法

        1.1 問題描述

        給定包含有n對圖像-文本對的數(shù)據(jù)集,設(shè)定圖像模態(tài)特征集和文本模態(tài)特征集分別表示為I=I1,I2,…,In和T=T1,T2,…,Tn。令匹配對表示為Pi={xi,yi},其中xi∈I和yi∈T分別表示第i個(gè)輸入實(shí)例的圖像樣本和文本樣本。

        Fig.1 Overview of C2MLR2 model圖1 C2MLR2模型概覽

        在學(xué)習(xí)的公共子空間中使用歐氏距離來測量圖像和樣本之間的相似度,其表示如下:其中,f I(xi)是圖像映射函數(shù),fT(yi)是將文本映射到公共空間的函數(shù)。歐式距離通過測量空間中樣本之間的距離來度量樣本間的相似性。距離越大,樣本差異越大,否則差異越小。

        為了充分利用樣本之間的結(jié)構(gòu)信息,以學(xué)習(xí)到一個(gè)更好的使用類別信息的相似性排序模型,C2MLR2(cross-modal retrieval by listwise ranking and class information)采用了基于列表排序而不是基于文檔對排序的方法。在模型中,本文使用SN損失來訓(xùn)練模型,不僅考慮了同類樣本之間的相關(guān)信息,并且對不同類樣本之間的不相關(guān)信息賦予同樣的關(guān)注度,從而可以更好地對樣本進(jìn)行分類來實(shí)現(xiàn)圖像和文本的雙向查詢。

        1.2 模型表示

        如圖1 所示,SN 損失在模型中起著至關(guān)重要的作用。在SN損失的作用下,本文模型取得了很好的分類效果。為了符合本文的實(shí)際查詢需求,本文模型同時(shí)考慮了圖像-文本和文本-圖像的雙向檢索。

        該模型將SN損失用于處理種類信息,并通過兩個(gè)分支網(wǎng)絡(luò)將圖像和文本特征嵌入到公共子空間中,然后將處理后的特征通過最后一層的網(wǎng)絡(luò)傳遞,并使用基于列表排序的方法進(jìn)行圖像-文本和文本-圖像檢索。

        從模型圖中可以看出,隨著模型的訓(xùn)練學(xué)習(xí),本文算法對樣本實(shí)現(xiàn)了不錯(cuò)的分類效果。屬于同一類別的樣本彼此靠近,而不同類別的樣本則相互推離,形成了各自的類別區(qū)域,從而提高了樣本查詢的準(zhǔn)確性及效率。

        1.3 算法描述

        verification loss 和identification loss[20]廣泛應(yīng)用于行人重識別中,但是兩者都有一定的局限性。verification loss 旨在減少類內(nèi)差異,同時(shí)擴(kuò)大類間差異,但是當(dāng)數(shù)據(jù)集很大時(shí),verification loss 易于低收斂和不穩(wěn)定。盡管identification loss具有良好的分離性和可擴(kuò)展性,但它忽略了類內(nèi)差異,從而明顯降低了樣本判別的性能。為了避免這兩種損失的局限性,SN loss采用了雙損失的組合,而不是簡單地將兩種損失合并在一起。為了提高類內(nèi)樣本特征的聚攏性,SN 損失懲罰離錨點(diǎn)最遠(yuǎn)的正樣本和最近的正樣本之間的距離;為了確保類間特征的區(qū)別性,使用類似于softmax的損失函數(shù)來最大化錨點(diǎn)和正樣本之間的相似度,同時(shí)最小化錨點(diǎn)與負(fù)樣本之間的相似性。原理圖如圖2所示。

        Fig.2 Schematic illustration of SN loss圖2 SN loss示意圖

        具體上,SN loss 由separation loss 和squeeze loss組成。在行人重識別中,SN loss用于單模態(tài)樣本中,由于其不僅對樣本之間的相關(guān)信息還對樣本之間的不相關(guān)信息進(jìn)行探索,本文在跨模態(tài)檢索中對其進(jìn)行研究,克服不同模態(tài)間樣本的異構(gòu)性,通過不斷的努力,最后成功將其與基于列表排序而不是文檔對排序用于跨模態(tài)檢索中,充分考慮樣本特征之間的類別信息,并取得了可觀的效果。

        1.3.1 separation loss

        separation loss 的目標(biāo)在于將正樣本和負(fù)樣本分離開來。對于圖像-文本搜索,該損失旨在最大化圖像錨點(diǎn)(xi)和文本正樣本之間(yp)的相似性,同時(shí)最小化圖像錨點(diǎn)和文本負(fù)樣本(yn)之間的相似性。用于圖像-文本搜索中的separation loss表示為:

        separation loss 強(qiáng)調(diào)了樣本相關(guān)信息和不相關(guān)信息的重要性,不僅探索了同一類樣本之間的關(guān)聯(lián),同時(shí)將不同類樣本之間的不相關(guān)性擴(kuò)大,從而使得不同類樣本之間的距離盡可能遠(yuǎn),減少分類誤差。

        1.3.2 squeeze loss

        為了懲罰錨點(diǎn)的最近正樣本和最遠(yuǎn)正樣本之間距離的偏差,同時(shí)拉近正樣本之間的距離以形成更緊湊的樣本簇,引入了squeeze loss。

        對于圖像-文本檢索,squeeze loss損失表示如下:

        同理,對于文本-圖像檢索,squeeze loss表示為:

        squeeze loss考慮到了與查詢樣本屬于同一種類的樣本的相關(guān)特征信息,將相關(guān)信息之間的聯(lián)系擴(kuò)大化,將同一類別的樣本調(diào)整靠近,避免了同一類別的樣本距離過大,便于同類樣本的檢索。

        1.3.3 SN loss

        將separation loss和squeeze loss聯(lián)系起來,圖像-文本搜索的SN loss表示為:

        同理,文本-圖像搜索的SN loss表示為:

        為了取得更好的查詢效果,將以上兩個(gè)方向查詢的損失共同優(yōu)化為:

        其中,β是兩個(gè)方向查詢的平衡參數(shù)。因?yàn)榭缒B(tài)檢索不僅僅只是為了單向檢索,而是實(shí)現(xiàn)雙向檢索來滿足日常檢索需求。β平衡了圖像-文本和文本-圖像損失對雙向檢索的影響,使得兩個(gè)方向的檢索都占據(jù)著一定的比重,β的取值不同,檢索性能也會有差別,通過大量實(shí)驗(yàn)來確定其最佳值,使得雙向檢索性能達(dá)到最優(yōu)。

        本文方法結(jié)合了促進(jìn)類內(nèi)聚攏,同時(shí)確保類間分離的SN loss和充分考慮類間的結(jié)構(gòu)信息的列表排序,大大提高了算法的分類效果。在實(shí)際應(yīng)用中,跨模態(tài)檢索不僅涉及到一個(gè)方向而是多個(gè)方向的檢索。對于圖像和文本匹配,不僅要考慮到圖像-文本,還要考慮到文本-圖像之間的檢索,因此SN loss對兩個(gè)方向的檢索問題都加以考慮,使得檢索更富實(shí)用性。

        1.4 方法細(xì)節(jié)

        分析單個(gè)樣本對或三元組無法充分利用鄰域結(jié)構(gòu)之間的上下文信息,因此模型很難學(xué)習(xí)到所有樣本之間的聯(lián)系。為了解決這個(gè)問題,本文采用了列表排序的方法,將SN loss 用于模型訓(xùn)練中。與基于匹配對的方法不同,本文方法遍歷每一批樣本,并且將每個(gè)樣本作為錨點(diǎn)來查找其對應(yīng)的正負(fù)樣本集,也因此充分考慮了樣本之間的類別信息,充分發(fā)揮了SN loss的優(yōu)勢。

        對于網(wǎng)絡(luò)模型結(jié)構(gòu),很多方法由于沒有充分考慮類別信息,從而采用了混合結(jié)構(gòu),將一些常用的分類損失與自身的算法結(jié)合在一起。相反,本文算法充分考慮了類內(nèi)和類間關(guān)系,因此本文的網(wǎng)絡(luò)僅使用了SN loss來對樣本特征進(jìn)行分類而不需要借助其他的分類分支。

        實(shí)驗(yàn)結(jié)果表明,本文方法在性能上具有相當(dāng)大的優(yōu)勢。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 多模態(tài)數(shù)據(jù)集

        2.1.1 Wikipedia數(shù)據(jù)集

        Wikipedia數(shù)據(jù)集[21]由2 866對圖像-文本對組成,其中2 000對作為訓(xùn)練集,866對作為測試集,該數(shù)據(jù)集包含了10 個(gè)類別的樣本。在每對樣本中,圖像樣本涉及藝術(shù)、生物學(xué)、地理學(xué)、歷史等鄰域的內(nèi)容,文本是描述與圖像相關(guān)內(nèi)容的文章。為了增強(qiáng)實(shí)驗(yàn)的可比性,本文使用與文獻(xiàn)[22]相同的樣本組成分布。

        2.1.2 Pascal數(shù)據(jù)集

        Pascal 數(shù)據(jù)集[23]廣泛應(yīng)用于跨模態(tài)檢索中,其由包含20種類別信息的5 011/4 952(訓(xùn)練集/測試集)對圖像-文本對構(gòu)成,其中一個(gè)樣本特征對可能屬于一個(gè)類別也可能屬于多個(gè)類別。對數(shù)據(jù)集進(jìn)行處理,從數(shù)據(jù)集中刪除了不包含標(biāo)簽信息的樣本,因此最后用作訓(xùn)練集的樣本有5 000對圖像-文本對,用于測試集的有4 919對圖像-文本對。

        2.2 評估指標(biāo)

        為了測量樣本特征的相似性,使用了余弦相似度。平均精度均值(mean average precision,MAP)[8]是跨模態(tài)檢索中常用的評估指標(biāo),因此在實(shí)驗(yàn)中使用MAP評估算法的整體性能,而MAP是查詢結(jié)果中所得AP(average precision)的平均值,其中AP表示為:

        其中,T是檢索集中相關(guān)樣本集的數(shù)量,P(r)表示排序中前r個(gè)檢索樣本集的精度,如果第r個(gè)查詢與該查詢相關(guān),則δ(r)=1,否則δ(r)=0。

        將本文算法與跨模態(tài)檢索中幾種經(jīng)典算法進(jìn)行比較,例如CCA[4]、LCFS[8]、廣義多視角線性判別分析和廣義多視角臨界費(fèi)舍爾分析(generalized multiview linear discriminant analysis &generalized multiview marginal Fisher analysis,GMLDA&GMMFA)[7]、多標(biāo)簽典型相關(guān)分析(multilabel canonical correlation analysis,ml-CCA)[24]、基于局部組的一致性特征學(xué)習(xí)(local group based consistent feature learning,LGCFL)[25]、跨媒體多深度網(wǎng)絡(luò)(cross-media multiple deep network,CMDN)[26]和深度成對排序模型(deep pairwise ranking model with multi-label information for cross-modal retrieval,DPRCM)[12]等,實(shí)驗(yàn)結(jié)果證明了本文算法的有效性。

        2.3 實(shí)驗(yàn)結(jié)果

        2.3.1 實(shí)驗(yàn)對比方法

        (1)CCA

        CCA[4]是最流行的無監(jiān)督子空間學(xué)習(xí)方法之一,通過最大化圖像特征和文本特征空間之間的相關(guān)性來學(xué)習(xí)公共子空間。可以看作是找到兩組變量的基向量的問題,從而使變量在這些基向量上的投影之間的相關(guān)性最大,其尋求一對線性變換,每個(gè)變量對應(yīng)一個(gè)線性變換,當(dāng)變量組進(jìn)行變換時(shí),對應(yīng)的坐標(biāo)將最大程度相關(guān)。

        (2)LCFS

        LCFS[8]將耦合線性回歸、L21范數(shù)和跡范數(shù)統(tǒng)一到一般最小化公式中,以便可以同時(shí)執(zhí)行公共子空間學(xué)習(xí)和耦合特征選擇,其通過學(xué)習(xí)不同的投影矩陣來將不同的模態(tài)數(shù)據(jù)投影到由標(biāo)簽信息定義的公共子空間中,并且在投影中同時(shí)選擇耦合空間的相關(guān)性特征和判別特征。

        (3)GMLDA&GMMFA

        廣義多視角線性判別分析(GMLDA)[7]是廣義多視角分析(GMA)[7]和線性判別分析(linear discriminant analysis,LDA)[27]的結(jié)合,廣義多視角臨界費(fèi)舍爾分析(GMMFA)[7]是GMA 和臨界費(fèi)舍爾分析(marginal Fisher analysis,MFA)[28]的結(jié)合。GMA是一種泛化的多視角特征提取方法,是CCA的有監(jiān)督擴(kuò)展,可將其泛化到看不見的類,具有多視角和可內(nèi)核化的特性,提供了一個(gè)有效的基于特征值的解決方法。LDA將高維樣本投影到最佳鑒別向量空間,使得投影后的樣本在新的空間中有最小的類內(nèi)距離和最大的類間距離。MFA嘗試在特征空間中分離不同類和同類樣本。GMLDA&GMMFA[7]通過學(xué)習(xí)一個(gè)具有判別性的公共子空間來解決跨視角分類問題。

        (4)MMs

        基于多階空間的度量(metric based on multi-order spaces,MMs)[29]用于表示圖像以豐富語義信息,并且共同學(xué)習(xí)多空間之間的度量以測量兩種不同模態(tài)之間的相似性,其通過多階統(tǒng)計(jì)量豐富了圖像的表示方式,并且在多個(gè)空間之間的度量標(biāo)準(zhǔn)共同用于測量兩個(gè)模態(tài)之間的相似性。在MMs 中,度量框架同時(shí)使用正對和負(fù)對約束來約束損失函數(shù),從而可以有效地度量兩種不同模態(tài)之間的相似性。

        (5)ml-CCA

        ml-CCA[24]是CCA 的擴(kuò)展,它通過同時(shí)考慮以多標(biāo)簽注釋形式出現(xiàn)的高級語義信息來學(xué)習(xí)公共子空間。與CCA不同,ml-CCA不依賴于模態(tài)之間的顯式配對,而是使用多標(biāo)簽信息來建立對應(yīng)關(guān)系,這樣就產(chǎn)生了一個(gè)判別子空間,該子空間更適合于跨模態(tài)檢索任務(wù)。

        (6)CML2R

        通過潛在聯(lián)合表示進(jìn)行排序的跨模態(tài)學(xué)習(xí)(crossmodal learning to rank via latent joint representation,CML2R)[30]嘗試學(xué)習(xí)多模態(tài)數(shù)據(jù)之間的潛在聯(lián)合表示,而不是學(xué)習(xí)各個(gè)模態(tài)的單獨(dú)潛在表示,其通過條件隨機(jī)場和以列表排序方式的結(jié)構(gòu)學(xué)習(xí)來發(fā)現(xiàn)多模態(tài)數(shù)據(jù)對的潛在聯(lián)合表示。在CML2R 中,多模態(tài)數(shù)據(jù)之間的相關(guān)性是根據(jù)它們共享的隱藏變量(例如主題)來捕獲的,并且以列表排序的方式學(xué)習(xí)了隱藏主題驅(qū)動的判別排名函數(shù)。

        (7)LGCFL

        LGCFL[25]利用類標(biāo)簽進(jìn)行聯(lián)合特征學(xué)習(xí),將每種模態(tài)的原始特征投射到所學(xué)習(xí)的特征空間上以獲得特征編碼,并計(jì)算出特征編碼之間的相似度以進(jìn)行跨模態(tài)檢索。該方法提出基于局部組的先驗(yàn)以利用基于塊的特征,用監(jiān)督式聯(lián)合特征學(xué)習(xí)公式來學(xué)習(xí)跨模態(tài)匹配的一致特征。

        (8)CMDN

        CMDN[26]通過分層學(xué)習(xí)來利用復(fù)雜而豐富的跨媒體相關(guān)性。CMDN先對媒體和媒體間的信息進(jìn)行聯(lián)合建模,以獲取每種媒體數(shù)據(jù)的互補(bǔ)獨(dú)立表示,接著將媒體內(nèi)和媒體間的表示形式進(jìn)行分層組合,以通過更深層次的兩級網(wǎng)絡(luò)策略進(jìn)一步學(xué)習(xí)豐富的跨媒體相關(guān)性,最后通過堆疊式網(wǎng)絡(luò)樣式獲取共同表示。與現(xiàn)有僅采用具有媒體內(nèi)信息作為輸入的單級網(wǎng)絡(luò)方法相比,CMDN 以堆疊網(wǎng)絡(luò)的方式學(xué)習(xí)共同表示,以充分挖掘復(fù)雜的跨媒體相關(guān)性,與淺層網(wǎng)絡(luò)結(jié)構(gòu)相比,具有更好的學(xué)習(xí)能力。

        (9)DPRCM

        為了充分考慮圖像和文本之間的不相關(guān)信息,跨模態(tài)檢索的具有多標(biāo)簽信息的深度成對排序模型(DPRCM)[12]利用雙三元組損失來增大公共子空間中不相關(guān)的圖像和文本之間的距離,利用來自圖像和文本兩個(gè)方向的語義信息來學(xué)習(xí)更好的公共子空間。結(jié)合了兩個(gè)分類函數(shù)來捕獲多標(biāo)簽信息,從而減少圖像和文本特征之間的語義鴻溝。

        2.3.2 Wikipedia數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        表1展示了Wikipedia數(shù)據(jù)集上幾種不同方法的MAP 得分。從表1 中可以看出,本文方法優(yōu)于其他幾種方法,圖像-文本和文本-圖像檢索的MAP 分別為0.436 1 和0.337 8,平均MAP 達(dá)到0.387 0,比次優(yōu)的方法DPRCM(0.379 0)高出約2%,這是因?yàn)镃2MLR2同時(shí)考慮了類內(nèi)和類間信息,在拉近同類樣本的同時(shí)使得不同類樣本相互遠(yuǎn)離,從而可以達(dá)到很好的分類效果。

        Table 1 MAP scores on Wikipedia datasets表1 Wikipedia數(shù)據(jù)集上的MAP

        2.3.3 Pascal數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        表2 展示了跨模態(tài)檢索中幾種常見方法取得的MAP,從表中可以看出,LCFS 高于其他幾種方法對應(yīng)的MAP,這是因?yàn)長CFS同時(shí)從兩種模態(tài)中選擇了相關(guān)特征和判別特征。

        ml-CCA是CCA的擴(kuò)展,它通過考慮多標(biāo)簽注釋形式的高級語義信息來取得良好的效果。相比之下,本文方法在圖像-文本和文本-圖像檢索中均取得更好的結(jié)果,平均MAP 為0.476 0,優(yōu)于DPRCM(0.434 3),這是因?yàn)槠浠谖臋n對排序,并隨機(jī)選擇錨點(diǎn),而本文擴(kuò)大了排序范圍,采用了列表排序,每一訓(xùn)練批次的所有樣本都作為錨點(diǎn),來查找其對應(yīng)的正樣本和負(fù)樣本,從而加強(qiáng)了對樣本特征之間類別關(guān)系的探索。

        Fig.3 Visualization of Wikipedia datasets圖3 Wikipedia數(shù)據(jù)集的可視化

        Table 2 MAP scores on Pascal datasets表2 Pascal 數(shù)據(jù)集上的MAP

        2.4 結(jié)果可視化

        圖3展示了Wikipedia數(shù)據(jù)集上的跨模態(tài)特征可視化結(jié)果。圖中相同的顏色代表相同的種類,不同的顏色代表不同的類別。算法的分類性能越好,相同顏色的樣本就越聚攏,不同顏色的樣本就越遠(yuǎn)離。

        從圖3 可以看出,隨著實(shí)驗(yàn)迭代次數(shù)的增加,本文算法的分類效果越來越明顯,并且本文算法充分考慮了類內(nèi)樣本之間以及類間樣本之間的關(guān)系,使得分類后類內(nèi)樣本相對緊湊,而類間樣本之間則相對遠(yuǎn)離,從而達(dá)到理想的分類效果。

        3 結(jié)束語

        本文提出了一種新的方法(C2MLR2),用文檔列表排序的方法來學(xué)習(xí)跨模態(tài)數(shù)據(jù)的共同表示。對類內(nèi)和類間信息都賦予同等的重要性,充分考慮樣本之間的類別信息,使用SN loss來減少類內(nèi)偏差,同時(shí)增大類間偏差,從而同時(shí)考慮了樣本之間類內(nèi)和類間的類別信息,而沒有忽略掉其中任何一方,使得同類樣本相對緊湊而不同類樣本相對遠(yuǎn)離。C2MLR2采用批訓(xùn)練,將所有樣本都作為錨點(diǎn),并將正樣本拉向錨點(diǎn),同時(shí)將負(fù)樣本推離錨點(diǎn),從而提高了檢索的準(zhǔn)確性和效果。實(shí)驗(yàn)結(jié)果表明了本文方法在跨模態(tài)檢索中取得了相當(dāng)可觀的效果。

        猜你喜歡
        類間排序檢索
        排序不等式
        基于OTSU改進(jìn)的布匹檢測算法研究
        基于貝葉斯估計(jì)的多類間方差目標(biāo)提取*
        恐怖排序
        2019年第4-6期便捷檢索目錄
        節(jié)日排序
        基于類間相對均勻性的紙張表面缺陷檢測
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        基于改進(jìn)最大類間方差法的手勢分割方法研究
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        一级一片内射在线播放| 97精品依人久久久大香线蕉97| 真正免费一级毛片在线播放| 亚洲av一区二区国产精品| 人妻有码av中文幕久久| 久久婷婷五月综合色欧美| 国产精品视频二区不卡| 天天射色综合| 国产麻豆一区二区三区在| 久久精品国产只有精品96| 国产麻无矿码直接观看| 日韩久久无码免费看A| 国产传媒精品成人自拍| 国产成人综合亚洲看片| 亚洲色在线视频| 精品视频一区二区杨幂 | 久久亚洲精品成人av| 久久国产影视免费精品| 在线不卡精品免费视频| 无码无套少妇毛多18pxxxx| 国产精品污www一区二区三区| 国产360激情盗摄一区在线观看| 日本在线观看一二三区| 67194熟妇人妻欧美日韩| 亚洲综合一区二区三区四区五区 | 亚洲av永久无码精品网站| 日韩精品无码视频一区二区蜜桃 | 99re久久精品国产| 国产三级黄色片子看曰逼大片| 91三级在线观看免费| 国精产品推荐视频| 加勒比无码专区中文字幕| 一区二区三区一片黄理论片| 亚洲精品美女久久777777| 日本一区二区不卡视频| 高清亚洲成av人片乱码色午夜 | 久草视频福利| 久久婷婷色香五月综合激激情| 欧美性猛交aaaa片黑人| 少妇被爽到高潮动态图| 激情综合五月天开心久久|