亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于協(xié)同矩陣分解的單標(biāo)簽跨模態(tài)檢索

2018-11-22 12:02:24李新衛(wèi)荊曉遠(yuǎn)

計(jì)算機(jī)技術(shù)與發(fā)展 2018年11期

李新衛(wèi)，吳飛，荊曉遠(yuǎn)

(南京郵電大學(xué) 自動(dòng)化學(xué)院，江蘇南京 210023)

0 引言

隨著互聯(lián)網(wǎng)的迅速發(fā)展，社會(huì)步入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)通常以圖像、文本等多種不同的模態(tài)表示，而模態(tài)間的數(shù)據(jù)并不是獨(dú)立的，而是有著本質(zhì)的聯(lián)系，如何挖掘出數(shù)據(jù)之間的關(guān)聯(lián)信息成為了人們關(guān)注的熱點(diǎn)?？缒B(tài)檢索[1-3]作為一種基本的相關(guān)技術(shù)，在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和數(shù)據(jù)挖掘等領(lǐng)域應(yīng)用廣泛，然而大數(shù)據(jù)具有數(shù)據(jù)量大、維度高以及模態(tài)間的語義鴻溝[4]等一系列特點(diǎn)，從而使得針對(duì)大數(shù)據(jù)的跨模態(tài)檢索困難重重。

為了減輕模態(tài)間的差異性，相關(guān)學(xué)者提出了一系列方法，一部分關(guān)注于潛在子空間學(xué)習(xí)，主要是用來學(xué)習(xí)兩個(gè)投影，將文本與圖像數(shù)據(jù)投影到公共空間進(jìn)行相關(guān)性分析，比如CCA[5]及其變形[6]；而哈希算法[7-9]作為一種近似最近鄰檢索技術(shù)，具有存儲(chǔ)量小、檢索速度快等特點(diǎn)，典型方法有CVH[10]、IMH[11]和SCM[12]。然而，這些方法都有局限性，比如檢索精度低、速度慢，因此設(shè)計(jì)更好的算法是相關(guān)工作者亟需解決的難題?；诖?，文中提出一種基于協(xié)同矩陣分解的單標(biāo)簽跨模態(tài)檢索方法。

1 方法描述

基于協(xié)同矩陣分解的單標(biāo)簽跨模態(tài)哈希檢索方法由三部分構(gòu)成：矩陣分解、哈希函數(shù)和圖正則化項(xiàng)。矩陣分解學(xué)習(xí)訓(xùn)練集在低維潛在語義子空間的哈希碼表示；哈希函數(shù)學(xué)習(xí)投影，將訓(xùn)練集外的樣本表示成低維的哈希碼；圖正則化是用來保持原數(shù)據(jù)的局部幾何結(jié)構(gòu)的稀疏圖[9]。

1.1 協(xié)同矩陣分解

協(xié)同矩陣分解主要用于低秩表示學(xué)習(xí)[13]。假設(shè)圖像模態(tài)為X1，文本模態(tài)為X2，學(xué)習(xí)基矩陣U1∈Rd1×r、U2∈Rd2×r，將X1和X2投影到r維的二進(jìn)制語義空間V∈{0，1}r×N。其中r為二進(jìn)制哈希的長度，V表示不同模態(tài)的公共表示。一般來講，該過程可以通過下列目標(biāo)函數(shù)求得：

(1)

1.2 哈希函數(shù)

設(shè)訓(xùn)練集外的樣本為x，學(xué)習(xí)兩個(gè)哈希函數(shù)分別將x的圖像x1∈Rd1和文本x2∈Rd2進(jìn)行二進(jìn)制編碼。不妨假設(shè)采用簡單的線性函數(shù)

h(xi)=sign(xiPi+bi)

(2)

其中，sign(x)為符號(hào)函數(shù)；Pi∈Rdi×r為映射矩陣；bi為用來保證哈希編碼平衡的偏置向量。

通過哈希函數(shù)，原始的圖像x1和對(duì)應(yīng)的文本x2在低維的潛在語義空間分別表示為：

(3)

根據(jù)以上假設(shè)，相似的樣本經(jīng)過編碼后的哈希距離應(yīng)盡可能小，因此具有目標(biāo)函數(shù)：

(4)

1.3 多模態(tài)圖正則化項(xiàng)

圖正則項(xiàng)[14-15]在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等領(lǐng)域取得了不錯(cuò)的發(fā)展，其用來維護(hù)局部幾何結(jié)構(gòu)，保證模態(tài)內(nèi)相似性和模態(tài)間相似性。

模態(tài)間相似性：不同模態(tài)具有不同的特征表示，但是同一樣本共享相同的語義表示。為了在低維語義中能夠保持模態(tài)間的相似性，定義圖像和文本的模態(tài)間相似性矩陣：

(5)

模態(tài)內(nèi)相似性：單模態(tài)相似的實(shí)例投影到低維語義中應(yīng)該保持近鄰關(guān)系，即哈希碼的關(guān)聯(lián)性盡可能大。定義單模態(tài)KNN相似矩陣：

(6)

整體的相似性矩陣為：

(7)

其中，β為保證模態(tài)間相似性和模態(tài)內(nèi)相似性平衡的參數(shù)；W1、W2分別為圖像和文本的單模態(tài)相似性矩陣；W12、W21為模態(tài)間相似性矩陣，W12=W21。

1.4 整體目標(biāo)函數(shù)

綜上所述，整體目標(biāo)函數(shù)為：

(8)

其中，α和γ分別為對(duì)應(yīng)的權(quán)重因子。

2 算法求解步驟

目標(biāo)函數(shù)Φ整體來說是非凸的，是個(gè)NP難問題，然而對(duì)于其中一個(gè)參數(shù)是可解的，因此可以采用迭代優(yōu)化算法求解，具體步驟如下：

步驟1：更新U1、U2，固定V、P1和P2，通過拉格朗日乘子法可得：

(9)

步驟2：更新V，固定U1、U2、P1和P2，目標(biāo)函數(shù)可以寫成：

(10)

由于V是離散約束的，直接求解很棘手，故對(duì)其進(jìn)行松弛變換，將V∈{0,1}r×N松弛為0≤V≤1，通過拉格朗日乘子法可得:

(11)

利用KKT條件，得到V的更新公式為：

Vij=

(12)

步驟3：更新P1、P2，由拉格朗日乘子法解得：

(13)

3 實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)庫及評(píng)價(jià)指標(biāo)

為了驗(yàn)證該方法的有效性，在Wiki和Pascal VOC 2007數(shù)據(jù)集上與若干相關(guān)方法進(jìn)行了對(duì)比，包括CCA[4]、IMH[11]、CVH[10]、SCM_orth和SCM_seq[12]。

Wiki數(shù)據(jù)集[16]包含2 866多媒體數(shù)據(jù)，分為10個(gè)主題，比如戰(zhàn)爭、藝術(shù)、天空等，其中每個(gè)樣本是圖像-文本對(duì)，圖像是由128維的BOVW SIFT特征表示，文本是由10維的主題向量構(gòu)成。

Pascal VOC 2007數(shù)據(jù)集[17]包含5 011/4 952圖像文本對(duì)，分為20類。部分圖像是多標(biāo)簽的，文中只研究單標(biāo)簽，因此對(duì)該數(shù)據(jù)集進(jìn)行相應(yīng)處理，圖像由512維的Gist特征表示，文本對(duì)應(yīng)319維的詞頻特征。

實(shí)驗(yàn)中進(jìn)行了兩種跨模態(tài)檢索任務(wù)：以圖檢文，Img2Text，即用圖像去檢索相關(guān)的文本；以文檢圖，Text2Img，即用文本去檢索對(duì)應(yīng)的圖像。為了評(píng)估檢索精度，使用mAP[18]作為性能指標(biāo)，其公式為：

(14)

其中，qi為一查詢樣本；N為查詢樣本量；AP()的計(jì)算公式為：

(15)

其中，T表示檢索集中與q相關(guān)的總量；R表示檢索到的樣本量；ξ(r)為指示函數(shù)。

3.2 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)1：在Wiki數(shù)據(jù)集上進(jìn)行了Img2Text和Text2Img實(shí)驗(yàn)，隨機(jī)抽取2 173個(gè)樣本對(duì)作為訓(xùn)練集，其余的693個(gè)樣本為測試集，實(shí)驗(yàn)結(jié)果如表1所示。

表1 Wiki數(shù)據(jù)集下各方法的mAP

實(shí)驗(yàn)2：在Pascal VOC 2007數(shù)據(jù)集上進(jìn)行了Img2Text和Text2Img實(shí)驗(yàn)，訓(xùn)練集為2 808對(duì)樣本，測試集為2 841對(duì)樣本，實(shí)驗(yàn)結(jié)果如表2所示。

表2 Pascal VOC 2007數(shù)據(jù)集下各方法的mAP

由表1、表2可知，文中方法比其他方法效果好；隨著哈希碼變長，檢索精度也越來越好，說明了長的哈希碼更能夠保持結(jié)構(gòu)特征。

4 結(jié)束語

提出了一種基于協(xié)同矩陣分解的單標(biāo)簽跨模態(tài)哈希檢索方法，目標(biāo)函數(shù)由三部分構(gòu)成，即矩陣分解、哈希函數(shù)和圖正則化項(xiàng)。矩陣分解學(xué)習(xí)訓(xùn)練集在低維潛在語義子空間的哈希碼；哈希函數(shù)用來學(xué)習(xí)投影，將訓(xùn)練集外的樣本表示成低維空間上的哈希碼，進(jìn)行相似性搜索；圖正則化用來保持原數(shù)據(jù)的局部流行幾何結(jié)構(gòu)。在兩種常用的數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)，結(jié)果證明了該方法的優(yōu)越性。