柯 川,李文波,汪美玲,李 孜
(中國科學院 軟件研究所,北京 100190)
基于語義蘊含關系的圖片語句匹配模型①
柯 川,李文波,汪美玲,李 孜
(中國科學院 軟件研究所,北京 100190)
本文提出一種基于蘊含關系的圖片語句匹配模型IRMatch,旨在解決圖片語句兩種不同模態(tài)語義之間的非對等匹配問題. 在利用卷積神經(jīng)網(wǎng)絡分別對圖片和語句進行語義映射的基礎上,IRMatch模型通過引入最大軟間隔的學習策略挖掘圖片與語句之間的蘊含關系,以強化相關圖片語句對在公共語義空間中位置的鄰近性,改善圖片語句匹配得分的合理性. 基于IRMatch模型,本文實現(xiàn)一種圖文雙向檢索方法,并在Flickr8k、Flickr30k以及Microsoft COCO數(shù)據(jù)集上與基于已有圖片語句匹配模型的圖文雙向檢索方法進行了比較. 實驗結果表明,基于IRMatch模型的檢索方法在上述三個數(shù)據(jù)集上的R@1,R@5,R@10以及Med r均優(yōu)于基于已有模型的檢索方法.
圖文非對等匹配; 蘊含關系; 最大間隔學習; 圖文雙向檢索; 卷積神經(jīng)網(wǎng)絡
圖片和自然語言語句(以下簡稱語句)的關聯(lián)在圖片字幕生成、圖片檢索等圖片相關應用中扮演著不可或缺的角色[1-4]. 圖片和語句關聯(lián)的關鍵是在圖片與語句之間建立合理的匹配,其實質(zhì)為一個多模態(tài)匹配問題,具體來說語義相關的圖片-語句對的匹配得分應該高于語義不相關的圖片-語句對的匹配得分.
目前已有的圖片-語句匹配方法主要有兩大類,一類是將圖片和語句映射到一個公共的語義空間,然后進行兩者之間的匹配; 另一類是采用諸如典型相關分析 (Canonical correlation analysis,CCA)[5,6]、深度學習[1]等方式來建立圖片和語句之間的關聯(lián). 在已有的這些方法中,圖片和描述它的語句通常被看作是語義上對等的. 然而,我們發(fā)現(xiàn)圖片與描述它的語句在語義上并非簡單的對等關系. 圖1 顯示了 Microsoft COCO[7]、Flickr30K[8]與Flickr8K[5]數(shù)據(jù)集中描述同一圖片的5條語句之間語義相似程度[9]的統(tǒng)計情況. 從圖1可以看出,上述三個數(shù)據(jù)集中5條語句語義彼此之間都相似的圖片數(shù)占數(shù)據(jù)集中圖片總數(shù)的比例分別為8.0%,6.6%以及15.3%(請見圖中橫坐標為10的數(shù)據(jù)),這表明描述同一幅圖片的不同語句之間往往是弱相似或者不相似的. 這是因為描述同一幅圖片的不同語句可能是出于不同的描述視角,例如在表1中,右側的語句“a girl sits on a bar stool”與“dark nightclub with chairs”都描述了左側的圖片,但是二者的語義相似度很低. 這說明,在語義上圖片與描述它的語句之間并非對等的關系,而是蘊含關系[3]. 如果按照對等關系進行圖片與語句的匹配,那么勢必會將弱相似或不相似的語句看作相似的,顯然是不合適的.
圖1 Microsoft COCO、Flickr30K 以及 Flickr8K 數(shù)據(jù)集中語句相似度的統(tǒng)計
表1 圖片與 5 條描述語句示例
本文基于圖片與語句在語義上的這種蘊含關系提出一種新的圖片語句匹配模型,稱為IRMatch模型.IRMatch模型利用卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN)分別實現(xiàn)圖片與語句的語義映射,在此基礎上,在圖片語句對得分學習中通過引入最大軟間隔的策略挖掘圖片與語句之間的語義蘊含關系,以強化相關圖片語句對在公共語義空間中位置的鄰近性,改善圖片語句匹配得分的合理性. 基于IRMatch模型,本文實現(xiàn)了圖文雙向檢索方法,并在Flickr8K[5]、Flickr30K[8]以及 Microsoft COCO[7]數(shù)據(jù)集上與基于已有圖片語句匹配模型的圖文雙向檢索方法進行比較.實驗結果表明,基于IRMatch模型的檢索方法在上述三個數(shù)據(jù)集上的R@1、R@5、R@10與Med r均優(yōu)于基于已有模型的檢索方法.
本文第2節(jié)對相關工作進行介紹,第3節(jié)描述所提出的IRMatch模型,第4節(jié)給出實驗結果,第5節(jié)對全文加以總結.
當前的圖片語句匹配方法[1,3,5,6,10-15]主要有兩大類:一類方法是將圖片和語句映射到同一語義空間,然后在該空間中進行兩者之間的語義匹配. Socher等[14]提出使用語義依賴樹遞歸神經(jīng)網(wǎng)絡(SDT-RNN) 來將語句映射到圖片所在語義空間,然后圖片與語句之間的關聯(lián)可以通過該空間上的距離來度量; Klein等[12]使用 Fisher vector(FV)作為語句的表示; Kiros 等[11]提出了Skip-thought vectors(STV)來對語句進行編碼以與圖片進行匹配; Wang,Jian 等[15]利用 WCNN 提取語句特征,利用CNN提取圖片深度特征,將兩者映射到同一公共空間,并使用 one vs more 的學習策略進行學習; Karpathy 等[10]的工作在一個更加精細的水平,他們將圖片的片段(對象)與語句的片段(類型依賴關系樹)嵌入到一個公共空間中從而對兩者的關聯(lián)性進行度量; Plummer等[13]使用實體來實現(xiàn)區(qū)域到短語(RTP)的對應關系,從而用于圖片-語句建模.
另一類方法利用諸如CCA,深度學習等方法來挖掘圖片和語句之間的語義關聯(lián). Hodosh等[5]提出核典型相關分析 (Kernel canonical correlation analysis,KCCA)用于發(fā)現(xiàn)圖片和語句之間共享的特征空間;Yan等[6]將全連接層堆疊在一起來表示語句,同時使用深度典型相關分析(DCCA)來匹配圖片和語句; Vendrov,Ivan 等[3]采用 Gated recurrent unit(GRU)來提取語句的特征,并將圖片和語句的關系看作是一種偏序關系,并在此關系的基礎上度量圖片和語句的關聯(lián)性. Ma,Lin等[1]使用m-CNNs將圖片與語句在word、phrase以及sentence級別進行匹配,從而實現(xiàn)圖片與語句在局部以及全局的混合匹配.
上述兩類已有方法通常將圖片和描述它的語句看作是語義上對等的,而本文所提出的IRMatch模型挖掘圖片與語句之間的語義蘊含關系,通過CNN將圖片與語句映射到公共語義空間,之后基于最大軟間隔的策略進行圖片語句的關聯(lián)學習.
圖片語句匹配的目標是語義相關的圖片語句對的匹配得分高于語義不相關的圖片語句對的匹配得分[1].解決思路通常有兩種: 一種是首先對圖片和語句進行表示學習,之后再利用典型相關分析等方法進行圖片和語句的語義關聯(lián)學習[5,6],另一種是將圖片與語句映射到一個公共的語義空間,之后再學習圖片語句對的匹配得分[10-15]. 其中第二種思路的優(yōu)勢在于圖片語句的表示學習和關聯(lián)學習是同時進行的而不是分離的,使得圖片語句匹配過程的整體性更強. 因而本文所提IRMatch模型采用第二種思路進行圖片語句匹配,步驟如下:
(1)設I為圖片集,S為語句集,建立映射p:I→Rk,q:S→Rk,以將I中圖片與S中語句映射到公共語義空間Rk中,其中k是公共空間 Rk的維度.
(2)令得分函數(shù)f:Rk×Rk→R量度圖片與語句語義映射的匹配度,即若圖片與語句越匹配則得分函數(shù)的值越大. 進而,基于p,q,f定義損失函數(shù)L,并通過求解以L為目標函數(shù)的最小化問題學習圖片語句對的匹配得分. 本文將匹配得分函數(shù)f視作超參數(shù).
更具體地,IRMatch模型利用卷積神經(jīng)網(wǎng)絡CNN分別實現(xiàn)圖片與語句的語義映射,在此基礎上,在圖片語句對得分學習中通過引入最大軟間隔的策略挖掘圖片語句之間的語義蘊含關系,以強化相關圖片語句對在公共語義空間中位置的鄰近性,改善圖片語句匹配得分的合理性.
下面分別針對基于CNN的圖片、語句的語義映射與基于最大軟間隔的圖片語句對匹配得分學習進行詳細的介紹.
近年來CNN已經(jīng)展現(xiàn)了其超強的圖片特征學習能力[16-19],因而本文也采用CNN進行圖片語義映射.如圖2所示,CNN可由卷積層、池化層以及全連接層等組成,其中卷積層提取圖像的特征,池化層針對原始特征信號進行抽象,以減少訓練參數(shù),而全連接層主要負責分類與回歸.
圖2 圖片語義映射架構
借鑒文獻[3]中的思想,IRMatch模型中用于圖片語義映射所采用的CNN是具有19層的VGG網(wǎng)絡[18],其包含19個卷積層、4個池化層以及3個全連接層.此CNN以RGB圖片作為輸入,使用其第二個全連接層的輸出作為圖片表示[3],其中圖片深度特征的維度
為了在圖片語句對匹配計算中使語句的表示與圖片的表示具有一致的形式,IRMatch模型采用CNN進行語句語義映射.
借鑒文獻[20]中的思想,用于語句語義映射所采用的CNN具有一個卷積層與一個最大池化層,如圖3所示.
圖3 語句語義映射架構
輸入語句中單詞的表示方式與文獻[20]一致,即用對應的詞向量表示. 輸入語句由詞嵌入矩陣(圖中藍色的部分)表示,詞嵌入矩陣中單詞的順序與該單詞在語句中的順序一致.
卷積過程采用了不同尺寸的卷積核,如圖3所示,紫色的卷積核的寬度是3,黃色的卷積核的寬度是4,紅色卷積核的寬度是5,它們的長度與詞向量的長度是一致的,例如圖中紫色卷積核卷積的輸入由圖中紫色的圓點表示. 卷積核可以看作是不同長度短語的特征提取器,使得整個卷積過程可以提取語句局部的語義特征. 卷積過程的步長均為1. 而所有卷積核的卷積輸出均是一個向量,最大池化層對卷積輸出的結果進行池化. 池化的寬度分別是每個卷積核卷積輸出向量的長度,這樣就把每個卷積核卷積的輸出池化成為一個點,最終整個CNN所提取特征的維度就是所有卷積核的個數(shù). 將此實現(xiàn)語句語義映射的CNN程序記作sCNN,其以語句為輸入,輸出為Rk中向量,則對任意的s∈S有:
sCNN在提取語句特征方面具有如下優(yōu)勢: 一是所提取語句特征的維度僅取決于卷積核的個數(shù),而與語句的長度無關; 二是卷積和池化操作考慮了語句的序列與結構的信息,因而很容易處理詞匯量很大的數(shù)據(jù)集,而輸出的維度不依賴于詞匯量的大小.
函數(shù)f以圖片和語句在公共空間Rk中的映射為輸入計算圖片語句對的匹配得分. 具體的,IRMatch模型將f視作超參數(shù)并選用余弦相似度函數(shù)作為f來計算匹配得分,即:
在此基礎上,定義如下排序損失函數(shù)L:
而基于最大軟間隔學習的損失函數(shù)定義如下:
本文在Flickr8k[5]、Flickr30k[8]以及Microsoft COCO[7]數(shù)據(jù)集上進行了圖文雙向檢索任務的實驗,以將所提圖片語句匹配模型與文獻[1-4,6,10-14,23-28]所提出的模型進行了比較.
本文選擇如下公開圖片語句基準數(shù)據(jù)集進行圖文雙向檢索任務的實驗.
(1) Flickr8K[5]: 此數(shù)據(jù)集由采自 Flickr的 8000 張圖片組成,每張圖片對應5句描述圖片內(nèi)容的語句. 此數(shù)據(jù)集提供了標準的訓練集、校驗集以及測試集劃分.
(2) Flickr30K[8]: 此數(shù)據(jù)集由采自 Flickr 的31783張圖片組成,每張圖片對應5句描述圖片內(nèi)容的語句. 其中大部分圖片的內(nèi)容與人類活動有關. 本文采用和[28]中相同的劃分方法劃分訓練集、校驗集以及測試集.
(3) Microsoft COCO[7]: 此數(shù)據(jù)集包含 82783 張訓練圖片以及40504張校驗圖片. 每張圖片對應5句描述圖片內(nèi)容的語句. 本文采用和文獻[26]中相同的劃分方法來劃分訓練集,校驗集以及測試集.
本文采用Med r與R@K評價圖文雙向檢索的結果[10]. Med r表示與查詢最相關的結果在結果列表中的平均排名,其值越小越好. R@K(K=1,5,10)表示在前K個結果中出現(xiàn)正確結果的百分比,其值越大越好.
在訓練過程中,本文采用公式(9)定義的損失函數(shù). 訓練batch-size設為250,即每一次從數(shù)據(jù)集中采樣250對不同的相關圖片-語句對,對于每一張圖片本文獲得249與之不相關的語句,同理對于每一個語句本文也可以獲得249個與之不相關的圖片. 使用Adam優(yōu)化算法訓練25-40個epochs,并且設置初始學習率為0.001,采用提前停止策略防止訓練過擬合. 公共空間的維度k設置為1200,詞向量的維度設置為300,間隔m的值設置為0.5. 這些超參數(shù),包括學習率以及batch-size,都是通過校驗集進行選擇的.
我們分別實現(xiàn)了IRMatch模型采用最大硬間隔策略 (記為IRMatchH)與最大軟間隔策略(記為IRMatchS)時的圖文雙向檢索方法,之后在數(shù)據(jù)集Flickr8k、Flickr30k 以及 Microsoft COCO 上,計算所實現(xiàn)的圖文雙向檢索方法的Med r與R@K(K=1,5,10),并與文獻[1-4,6,10-14,23-28]所提出的方法在上述三個數(shù)據(jù)集上的結果進行對比,分別如表2,表3,表4所示.
總體來看,基于IRMatchH的檢索方法的結果優(yōu)于基于已有圖片語句匹配方法的檢索方法的結果. 尤其是在Flickr30k數(shù)據(jù)集上,所有指標均優(yōu)于已有方法.這說明CNN能夠有效的提取語句的語義信息. 本文采用sCNN來對語句進行特征建模,使用了寬度為1到6的卷積核. 應用了不同寬度的多個卷積核,相當于可以提取蘊含1到6個詞的短語蘊含的語義信息. 除了具有提取不同長度短語的能力,該模型還能考慮到語句語序信息以及結構信息. 池化層中的最大池化操作能夠?qū)ι鲜稣Z義信息進行篩選. 將語句和圖片映射到同一空間中后,使用余弦相似度在公共空間Rk中直接計算語句和圖片之間的相似度,從而完成兩者之間的關聯(lián).
Flickr8K數(shù)據(jù)集上,FV[12]在語句檢索(以圖片檢索語句)任務中R@1指標略高于IRMatchH的結果,除此之外,兩者在各個指標上均取得了最好的結果. 這說明當訓練數(shù)據(jù)不是很充分的時候,本文的模型依然能夠很好地對語句和圖片進行建模,并且完成兩者之間的匹配. 而當數(shù)據(jù)充分時,在Flickr30k以及Microsoft COCO數(shù)據(jù)集上,IRMatchH遠好于FV[12]的結果.IRMatchH在這三個數(shù)據(jù)集上的試驗結果有效的證實了CNN在提取語句語義信息方面的優(yōu)越性.
從表2,表3,表4 可以看出,IRMatchS 的結果好于IRMatchH的結果,尤其是在Microsoft COCO數(shù)據(jù)集. 這組對比試驗表明最大軟間隔的學習方式能夠有效的解決圖片語句非對稱匹配問題. 本文采用公式(9)作為訓練模型中的損失函數(shù),引入松弛變量將硬間隔轉變成軟間隔. 由于Flickr8K、Flickr30K以及
Microsoft COCO這三個數(shù)據(jù)集中圖片和語句之間語義之間并非是對等關系,而是一種蘊含關系,并且描述同一圖片的語句語義之間存在不相似或者弱相似的情況.因此,若采用硬間隔(IRMatchH)的方式將彼此之間不相似的語句投影在公共空間Rk中的點,無法都臨近對應圖片的映射點,必然導致某些語句和圖片沒有匹配在一起. 而采用軟間隔的方式,容忍一定的偏差,可以將圖片和不同語義的語句關聯(lián)在一起,因此可以提高匹配的性能以及泛化能力. 對比IRMatchS以及IRMatchH在上述三個數(shù)據(jù)集上的實驗結果,可以佐證這種軟間隔(IRMatchS)的學習策略能夠很好的解決圖片和語句之間的語義非對等問題.
表2 Flickr8k 數(shù)據(jù)集上圖文雙向檢索比較結果
本文提出一種新的基于語義蘊含關系的圖片語句匹配模型IRMatch,能夠很好的解決圖片和語句語義之間的非對等匹配問題. 該模型使用兩種不同的卷積神經(jīng)網(wǎng)絡iCNN與sCNN來對圖片以及語句進行語義映射,從而將兩者投影到同一公共空間Rk中,有利于兩種不同模態(tài)數(shù)據(jù)的直接比較,而且模型采用最大軟間隔的學習策略來學習圖片語句之間的匹配得分,強化了相關圖片語句對在公共語義空間中位置的鄰近性,改善了圖片語句匹配得分的合理性. 本文分別在 Flickr8K,Flickr30K 以及 Microsoft COCO 數(shù)據(jù)集上進行了實驗,實驗表明基于所提IRMatch模型的圖文雙向檢索方法的結果優(yōu)于基于已有模型的檢索方法的結果.
未來我們將重點針對語句對應多個圖片的語句圖片蘊含關系的模型進行研究.
表3 Flickr30k 數(shù)據(jù)集上圖文雙向檢索比較結果
表4 Microsoft COCO 數(shù)據(jù)集上圖文雙向檢索比較結果
1Ma L,Lu ZD,Shang LF,et al. Multimodal convolutional neural networks for matching image and sentence. Proc. ofthe 2015 IEEE International Conference on Computer Vision(ICCV). Santiago,Chile. 2015. 2623–2631.
2Mao JH,Xu W,Yang Y,et al. Deep captioning with multimodal recurrent neural networks (m-RNN). Proc. of the International Conference on Learning Representations. San Diego,USA. 2015.
3Vendrov I,Kiros R,Fidler S,et al. Order-embeddings of images and language. Proc. of the International Conference on Learning Representations. San Juan,Puerto Rico. 2016.
4Vinyals O,Toshev A,Bengio S,et al. Show and tell: A neural image caption generator. Proc. of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,MA,USA. 2015. 3156–3164.
5Hodosh M,Young P,Hockenmaier J. Framing image description as a ranking task: Data,models and evaluation metrics. Journal of Artificial Intelligence Research,2013,47(1): 853–899.
6Yan F,Mikolajczyk K. Deep correlation for matching images and text. Proc. of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA,USA.2015. 3441–3450.
7Lin TY,Maire M,Belongie S,et al. Microsoft COCO:Common objects in context. Proc. of the 13th European Conference on Computer Vision. Zurich,Switzerland. 2014.740–755.
8Young P,Lai A,Hodosh M,et al. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Trans. of the Association for Computational Linguistics,2014,2(4): 67–78.
9Mueller J,Thyagarajan A. Siamese recurrent architectures for learning sentence similarity. Proc. of the Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16). Phoenix,Arizona,USA. 2016. 2786–2792.
10Karpathy A,Joulin A,Li FF. Deep fragment embeddings for bidirectional image sentence mapping. Proc. of the 27th International Conference on Neural Information Processing Systems. Montreal,Canada. 2014. 1889–1897.
11Kiros R,Zhu YK,Salakhutdinov R,et al. Skip-thought vectors. Proc. of the 28th International Conference on Neural Information Processing Systems. Montreal,Canada. 2015.3294–3302.
12Klein B,Lev G,Sadeh G,et al. Associating neural word embeddings with deep image representations using Fisher Vectors. Proc. of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA,USA.2015. 4437–4446.
13Plummer BA,Wang LW,Cervantes CM,et al. Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models. Proc. of the 2015 IEEE International Conference on Computer Vision (ICCV).Santiago,Chile. 2015. 2641–2649.
14Socher R,Karpathy A,Le QV,et al. Grounded compositional semantics for finding and describing images with sentences. Trans. of the Association for Computational Linguistics,2014,2(4): 207–218.
15Wang J,He YH,Kang CC,et al. Image-text cross-modal retrieval via modality-specific feature learning. Proc. of the 5th ACM on International Conference on Multimedia Retrieval. New York,NY,USA. 2015. 347–354.
16He KM,Zhang XY,Ren SQ,et al. Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification. Proc. of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago,Chile. 2015.1026–1034.
17Krizhevsky A,Sutskever I,Hinton GE. ImageNet classification with deep convolutional neural networks. Proc. of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe,Nevada,USA. 2012.1097–1105.
18Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition. Proc. of the International Conference on Learning Representations. San Diego,USA. 2015.
19Szegedy C,Liu W,Jia YQ,et al. Going deeper with convolutions. Proc. of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA,USA.2015. 1–9.
20Kim Y. Convolutional neural networks for sentence classification. Proc. of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha,Qatar. 2014. 1746–1751.
21Kingma DP,Ba J. Adam: A method for stochastic optimization. Proc. of the International Conference on Learning Representations. Banff,Canada. 2015. 1–13.
22Dahl GE,Sainath TN,Hinton GE. Improving deep neural networks for LVCSR using rectified linear units and dropout.Proc. of the 2013 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). Vancouver,BC,Canada. 2013. 8609–8613.
23Chen XL,Zitnick CL. Mind’s eye: A recurrent visual representation for image caption generation. Proc. of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA,USA. 2015. 2422–2431.
24Donahue J,Hendricks LA,Guadarrama S,et al. Long-term recurrent convolutional networks for visual recognition and description. Proc. of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA,USA.2015. 2625–2634.
25Frome A,Corrado GS,Shlens J,et al. DeViSE: A deep visual-semantic embedding model. Proc. of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe,Nevada,USA. 2013. 2121–2129.
26Karpathy A,Li FF. Deep visual-semantic alignments for generating image descriptions. Proc. of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,MA,USA. 2015. 3128–3137.
27Kiros R,Salakhutdinov R,Zemel RS. Unifying visualsemantic embeddings with multimodal neural language models. arXiv: abs/1411.2539,2014.
28Mao JH,Xu W,Yang Y,et al. Explain images with multimodal recurrent neural networks. arXiv: abs/1410.1090,2014.
Image Sentence Matching Model Based on Semantic Implication Relation
KE Chuan,LI Wen-Bo,WANG Mei-Ling,LI Zi
(Institute of Software,Chinese Academy of Sciences,Beijing 100190,China)
In this paper,we propose a model called IRMatch for matching images and sentences based on implication relation to solve the nonequivalent semantics matching problem between images and sentences. The IRMatch model first maps images and sentences to a common semantic space respectively by using convolutional neural networks,and then mines implication relations between images and sentences with a learning algorithm by introducing maximum soft margin strategies,which strengthens the proximity of locations of related images and sentences in the common semantic space and improves the reasonability of matching scores between images and sentences. Based on the IRMatch model,we realize approaches of bidirectional image and sentence retrieval,and compare them with approaches using existing models for matching images and sentences on datasets Flickr8k,Flickr30k and Microsoft COCO. Experimental results show that our retrieval approaches perform better in terms of R@1,R@5,R@10 and Med r on the three datasets.
nonequivalent match between images and sentences; implication relation; maximum margin learning; bidirectional image and sentence retrieval; convolutional neural network
柯川,李文波,汪美玲,李孜.基于語義蘊含關系的圖片語句匹配模型.計算機系統(tǒng)應用,2017,26(12):1–8. http://www.c-s-a.org.cn/1003-3254/6130.html
國家“863”項目 (2013AA01A603)
2017-03-22; 修改時間: 2017-04-13; 采用時間: 2017-04-24