亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于矩陣分解的標簽語義約束跨模態(tài)檢索

2022-03-07 04:35:00梁林清馮士華

現(xiàn)代計算機 2022年24期

梁林清，馮士華

（貴州師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院，貴陽 550025）

0 引言

隨著社交媒體的發(fā)展和普及，互聯(lián)網(wǎng)上產(chǎn)生了大量的多媒體數(shù)據(jù)，如圖像、文本、視頻等。大量多模態(tài)數(shù)據(jù)的產(chǎn)生導(dǎo)致單一模態(tài)的數(shù)據(jù)處理方法已不能滿足人們的需求，而是需要跨不同模態(tài)分析這些數(shù)據(jù)。例如從一種模態(tài)的數(shù)據(jù)出發(fā)，查詢與其語義相關(guān)的另一種模態(tài)數(shù)據(jù)，即跨模態(tài)檢索。由于不同模態(tài)數(shù)據(jù)存在異構(gòu)鴻溝與語義鴻溝，跨模態(tài)檢索面臨的關(guān)鍵挑戰(zhàn)是如何彌合語義差距，以便獲取來自不同模態(tài)的異構(gòu)數(shù)據(jù)之間的語義相關(guān)性。

為解決這些問題，直觀的思路是利用異構(gòu)數(shù)據(jù)學(xué)習(xí)一個共同的空間，并在此空間中直接度量來自不同模態(tài)數(shù)據(jù)之間的相似性。這種思路代表性的方法有CCA［1］，由于不同模態(tài)數(shù)據(jù)有不同的特征空間，CCA 方法只考慮共同語義表征的相關(guān)性顯然不夠。除此之外，現(xiàn)有的子空間方法需要計算大規(guī)模高維數(shù)據(jù)，計算量非常大。近年來，跨模態(tài)哈希檢索方法［2］由于存儲成本低和查詢速度快得到了大量的研究?？缒B(tài)哈希的主要思想是學(xué)習(xí)公共漢明空間，從而保留異構(gòu)數(shù)據(jù)之間的語義［3］相似性?，F(xiàn)有的跨模態(tài)哈希方法主要包括無監(jiān)督方法和有監(jiān)督方法。無監(jiān)督方法通過探索模態(tài)數(shù)據(jù)之間的相似性來學(xué)習(xí)公共漢明空間，如無監(jiān)督深度跨模態(tài)譜哈希（DCSH）［4］等。然而，在無監(jiān)督信息的情況下學(xué)習(xí)能保持異構(gòu)數(shù)據(jù)的語義相似性的哈希碼并不簡單，所以在樣本標簽的指導(dǎo)下，監(jiān)督方法可以學(xué)習(xí)到更有判別性的哈希碼。例如，Liu 等［5］提出通過集體矩陣分解的圖正則化來保持多模態(tài)原始特征之間的相似性。

雖然上述方法通過探索各種語義監(jiān)督信息取得了改進，但不同模態(tài)數(shù)據(jù)的異構(gòu)鴻溝并未有效彌合，我們應(yīng)該考慮公共語義表示是否能準確描述模態(tài)特定的表征。已有的很多工作都使用集體矩陣分解方法來建模公共語義表示，但只有共同的潛在語義表示，并不能充分表達各模態(tài)數(shù)據(jù)的特征，同時這些基于矩陣分解的方法都忽略了多標簽樣本對，不能發(fā)掘多標簽樣本對的語義信息。為了解決該問題，本文提出了一種標簽語義約束矩陣分解哈希方法，在學(xué)習(xí)模態(tài)特定的語義表示的同時，充分考慮到多標簽樣本對于模態(tài)間的語義相似性建模的重要性，即利用不同模態(tài)樣本的標簽信息來構(gòu)建語義相似度矩陣，以表征模態(tài)特定的語義表示的相關(guān)性。圖1為本文所提方法的框架圖，包括訓(xùn)練集哈希函數(shù)學(xué)習(xí)階段和訓(xùn)練集以外的樣本的哈希碼檢索階段?？蚣軋D的基本流程如圖1所示：首先學(xué)習(xí)不同模態(tài)的潛在語義表征V1和V2，然后利用標簽語義相似度矩陣對特定模態(tài)的語義表征V1和V2的相關(guān)性進行建模。最后，將所有特定模態(tài)的語義表示都投影到二進制碼中，得到哈希碼的封閉解。我們在一個多標簽數(shù)據(jù)集上做了廣泛的實驗，其結(jié)果表明，所提出的方法優(yōu)于大多數(shù)現(xiàn)有的方法。

圖1 本文所提方法的框架圖

1 研究現(xiàn)狀

Yao 等［6］提出了一種有效的離散監(jiān)督哈希（EDSH），該方法首先通過集體矩陣分解學(xué)習(xí)公共空間，然后學(xué)習(xí)正交旋轉(zhuǎn)矩陣，將共享空間與漢明空間之間的語義相關(guān)性連接起來，最后學(xué)習(xí)離散哈希碼。集體矩陣分解是將原始表示分解為共同的潛在語義表示，但由于不同模態(tài)的數(shù)據(jù)有不同的統(tǒng)計屬性，學(xué)到的共同語義表示并不能充分表達各模態(tài)的信息。

為了分別表達不同模態(tài)的獨特，Wang 等［7］提出使用聯(lián)合和私有矩陣分解哈希（JIMFH），該方法使用聯(lián)合矩陣分解和私有矩陣分解方法，并同時學(xué)習(xí)特定模態(tài)表示和共同語義表示，然后通過量化公共語義表示獲得哈希碼。Xiong等［8］提出了一種特定模態(tài)的矩陣分解哈希（MsMFH），該方法首先使用矩陣分解來學(xué)習(xí)特定模態(tài)的語義表示，然后使用正交旋轉(zhuǎn)矩陣進行對齊。Mandai 等［9］提出了一種基于哈希的標簽一致矩陣分解來學(xué)習(xí)特定模態(tài)的哈希函數(shù)。為了充分利用語義信息的判別性，Liu 等［10］提出了一種有效的快速鑒別離散哈希（FDDH）方法，該方法利用正交基將目標哈希碼化歸到相應(yīng)的語義標簽上，并利用ε拖拽技術(shù)保證了較大的語義邊緣。

以上方法都沒有考慮到具有多個類別標簽的樣本對信息。事實上，在許多標準的跨模態(tài)基準數(shù)據(jù)集中，如MIRFLICKR-25K［11］，NUSWIDE［12］，每對實例對都具有多個標簽，若能充分利用多標簽樣本對這一信息，則模態(tài)間和模態(tài)內(nèi)的語義相似性都能被準確挖掘。在大多數(shù)情況下，多標簽包含豐富的語義信息，可以為語義相似度的計算提供更詳細的語義信息。為此我們提出了特定模態(tài)的標簽語義約束矩陣分解哈希算法。

2 方法提出

2.1 符號說明

2.2 數(shù)學(xué)建模

受特定模態(tài)矩陣分解方法［8,13］的啟發(fā)，為充分利用各模態(tài)數(shù)據(jù)的語義，分別學(xué)習(xí)各個模態(tài)的表征，然后在語義空間中對各表征進行對齊，建模如下：

其中，Ut∈Rdt×k和Vt∈Rk×N分別是基矩陣和表示矩陣，αt(t=1,2)和μ為平衡參數(shù)。

在跨模態(tài)檢索的研究中，有樣本對中存在多個標簽的情況，因此為了更好地保留模態(tài)間的信息，定義一個語義相似矩陣S=，其中sij的定義如下：

其中，li為第i個樣本對的標簽向量，lj為第j個樣本對的標簽向量，‖· ‖是零范數(shù)。由sij的定義可看出，其值越大，則表明第i個樣本對與第j個樣本對在語義上更為相似。因此使用語義相似矩陣對模態(tài)間的語義關(guān)系進行約束建模：

其中β為平衡參數(shù)。

同時，為了保留模態(tài)間的信息，本文從潛在語義表示中分別引入正交旋轉(zhuǎn)矩陣Rt,t=1,2用以生成哈希碼，并且有：

其中Rt∈Rk×k,t=1,2。通過該公式，可以在訓(xùn)練階段直接獲得哈希碼，能在最大程度上減少量化誤差。

為了處理訓(xùn)練集外的樣本，我們將對圖像和文本分別學(xué)習(xí)哈希映射函數(shù)，以將原始的圖像和文本特征分別映射到潛在的空間中：

其中Wt∈Rk×d,t=1,2分別是圖像和文本的哈希映射矩陣，γ為平衡參數(shù)。

聯(lián)合公式（1）、（3）—（5），得到總的目標函數(shù)如下：

2.3 算法實現(xiàn)

公式（6）對所有變量而言都是非凸函數(shù)，但固定其他變量時，公式（6）關(guān)于非固定變量是凸函數(shù)，因此采用最優(yōu)化算法來對各變量進行更新。

若將除U1以外的所有變量都固定，則公式（6）可變?yōu)?/p>

將公式（7）對變量U1求導(dǎo)，并令該導(dǎo)數(shù)為0，得到關(guān)于Ut的封閉解如下：

同理，可求出其他變量的封閉解如下：

由于Rt∈Rk×k,t=1,2 是正交矩陣，故可使用奇異值分解算法（SVD）來求解。

重復(fù)以上迭代步驟，直至收斂。事實上，以上每個變量都能獲得封閉解。整體算法如算法1：

算法1：基于矩陣分解的標簽語義約束跨模態(tài)檢索

輸入：訓(xùn)練數(shù)據(jù){X,Y}，相應(yīng)的樣本標簽，哈希碼長度k以及平衡參數(shù)α1、α2、β、γ、μ

1：隨機初始化B、V1、V2、R1、R2，以及哈希投影矩陣W1、W2

2：for 從第一步開始do

3: 利用公式（8）更新U1

4: 利用公式（9）更新U2

5: 利用公式（10）更新V1

6: 利用公式（11）更新V2

7: 利用公式（12）更新W1

8: 利用公式（13）更新W2

9: 利用公式（14）更新B

10: 使用SVD更新Rt∈Rk×k,t=1,2

11：返回

輸出：輸出投影矩陣Rt，以及哈希投影矩陣Wt,t=1,2

3 實驗

3.1 數(shù)據(jù)集說明

本文所提方法在公開數(shù)據(jù)集NUS-WIDE 上進行了驗證。NUS-WIDE［12］是一個真實世界的圖像數(shù)據(jù)集。包括186776 對圖像-文本對，每個圖像-文本對從10 個語義類別中進行標記。其中，隨機選擇5000 對圖像-文本對作為訓(xùn)練集，并選擇1867對圖像-文本對作為測試集。

3.2 實驗細節(jié)和評估指標

本文通過實驗確定了參數(shù)：αt=1,β=1,γ=1,μ=5,t=1,2。驗證了本文所提出方法的兩個檢索任務(wù)：圖像檢索文本（I2T）和文本檢索圖像（T2I）。此外，使用平均精度（mAP）來評估本文方法的最終性能。

3.3 實驗結(jié)果和分析

本文方法與CCA［1］、STMH［13］、CMFH［5］、SMFH［2］、EDSH［6］、JIMFH［7］、MsMFH［8］、SCMFH［14］方法進行比較。

表1 為本文方法和其他方法在NUS-WIDE數(shù)據(jù)集上的mAP分數(shù)，其中，哈希碼長度從8位到64 位。從表1 可以看出，本文方法在多數(shù)情況下都是優(yōu)于其他方法的，這是因為我們采用了對各個模態(tài)數(shù)據(jù)的矩陣分解以學(xué)習(xí)到特定于各模態(tài)的語義表示，同時也利用標簽做語義相關(guān)性，這樣能極大地提高檢索精度。與此同時可以看到，在大多數(shù)方法上，T2I 檢索任務(wù)的性能優(yōu)于I2T 檢索任務(wù)，這是因為文本數(shù)據(jù)比圖像數(shù)據(jù)編碼更多的鑒別信息。

表1 各方法在NUS-WIDE數(shù)據(jù)集上哈希碼長度從8到64之間的mAP

4 結(jié)語

本文提出了一種用于跨模態(tài)檢索的標簽語義約束矩陣分解哈希算法，首先分別學(xué)習(xí)每個模態(tài)數(shù)據(jù)的語義表征，并且利用樣本類別來構(gòu)造的標簽語義相似度矩陣來建模不同模態(tài)之間的語義相關(guān)性，然后利用學(xué)到的模態(tài)表征學(xué)習(xí)哈希碼和哈希函數(shù)。在NUS-WIDE 數(shù)據(jù)集上做了大量實驗，實驗結(jié)果也證明了本文方法的有效性。