亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于概率圖模型的多模態(tài)數(shù)據(jù)聯(lián)合檢索算法

        2017-04-01 23:24:51甘勝江孫連海何俊林盧穎
        現(xiàn)代電子技術(shù) 2017年5期

        甘勝江 孫連海 何俊林 盧穎

        摘 要: 為了提高多模態(tài)檢索的性能,提出一種多模態(tài)文檔語(yǔ)義生成模型以及基于該模型的多模態(tài)數(shù)據(jù)聯(lián)合檢索算法。多模態(tài)文檔語(yǔ)義生成模型認(rèn)為文檔中每個(gè)模態(tài)數(shù)據(jù)都是由相同的語(yǔ)義概念生成的,并且文檔是多個(gè)模態(tài)數(shù)據(jù)的聯(lián)合分布。為了簡(jiǎn)化模型的求解過(guò)程,假設(shè)各個(gè)模態(tài)數(shù)據(jù)之間的生成過(guò)程是相互獨(dú)立的,于是可以對(duì)每個(gè)模態(tài)的條件概率進(jìn)行單獨(dú)計(jì)算。在多模態(tài)聯(lián)合檢索中,通過(guò)計(jì)算查詢數(shù)據(jù)和待檢索文檔的聯(lián)合概率來(lái)計(jì)算它們之間的相似度。實(shí)驗(yàn)結(jié)果表明,提出的方法與兩步檢索、語(yǔ)義索引和排序?qū)W習(xí)三種多模態(tài)檢索方法相比具有更好的檢索性能。此外,該方法可以擴(kuò)展應(yīng)用到具有三個(gè)及以上模態(tài)數(shù)據(jù)的文檔聯(lián)合檢索中。

        關(guān)鍵詞: 多模態(tài)檢索; 概率圖模型; 極大似然估計(jì); 產(chǎn)生式模型

        中圖分類號(hào): TN919?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)05?0033?05

        Abstract: In order to improve the performance of the multi?modal retrieval, a semantic generation model of the multi?modal document and a joint retrieval algorithm for multi?modal data based on this model are proposed. The semantic generation model of the multi?modal document deems that the data of each modal in the document is generated by the same semantic concept, and the documents complies with the joint distribution of data of multiple modals. In order to simplify the solving process of model, the conditional probability of each modal can be calculated independently if assuming that the generation processes among all the modals′ data are mutual independent. During the multi?modal joint retrieval, the joint probability of the query data and the document under retrieval are calculated to obtain the similarity between them. The experimental results show that this algorithm has better retrieval performance than the two?step retrieval algorithm, semantic indexing algorithm and ranking learning algorithm. In addition, the algorithm can be applied to the document joint retrieval of data with three and more modals.

        Keywords: multi?modal retrieval; probabilistic graph model; maximum likelihood estimation; generative model

        0 引 言

        隨著互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng),網(wǎng)絡(luò)上聚集了海量的文本、圖片、音頻和視頻數(shù)據(jù),數(shù)據(jù)的多模態(tài)性和海量性給信息檢索提出了巨大的挑戰(zhàn)[1]。傳統(tǒng)的信息檢索方法,如文本檢索和圖片檢索,往往在某一模態(tài)數(shù)據(jù)上進(jìn)行相似性匹配并返回相似度高的相同模態(tài)的數(shù)據(jù)。針對(duì)本文數(shù)據(jù),經(jīng)典的檢索方法是基于關(guān)鍵字查詢的倒排索引[2?3]。針對(duì)圖片數(shù)據(jù),單模態(tài)圖片檢索往往將圖片表示為SIFT[4],SURF[5]或者BRISK[6]等特征,然后進(jìn)行圖片的特征匹配。

        在網(wǎng)絡(luò)中,每一篇文檔往往包含多種模態(tài)的數(shù)據(jù),如文本和圖片,有時(shí)也有音頻和視頻,傳統(tǒng)的單模態(tài)信息檢索方法往往針對(duì)某一模態(tài)的數(shù)據(jù)進(jìn)行檢索,其檢索結(jié)果很難達(dá)到用戶的預(yù)期期望。在應(yīng)用多種模態(tài)數(shù)據(jù)進(jìn)行信息檢索時(shí),存在著跨模態(tài)檢索和多模態(tài)檢索兩種方法[7]??缒B(tài)檢索要求檢索的輸入和檢索結(jié)果分別為兩種不同模態(tài)的數(shù)據(jù),如根據(jù)文本查詢檢索圖片,或者根據(jù)圖片內(nèi)容檢索文本??缒B(tài)檢索方法主要分為以下兩類[8]:第一類方法在不同模態(tài)的數(shù)據(jù)之間建立映射,使得在一種模態(tài)下相似的數(shù)據(jù)在另一種模態(tài)下也保持相似性,屬于這類方法的主要工作有[9?13]:當(dāng)文檔中包含多種模態(tài)的數(shù)據(jù)時(shí),這種方法需要在任意兩個(gè)模態(tài)之間建立一種映射,因而計(jì)算量非常大,并且很難移植到其他場(chǎng)景。第二類方法在所有的模態(tài)之上尋找一種共同的潛在語(yǔ)義空間,屬于這類方法的工作有[14?18]:通過(guò)將所有模態(tài)的數(shù)據(jù)映射到同一個(gè)語(yǔ)義空間,可以實(shí)現(xiàn)任意兩個(gè)模態(tài)數(shù)據(jù)的跨模態(tài)檢索。

        區(qū)別于跨模態(tài)信息檢索,在多模態(tài)檢索中,用戶可以輸入文本、圖片等多種模態(tài)的數(shù)據(jù),其檢索結(jié)果為包含多種模態(tài)數(shù)據(jù)的文檔。這些不同模態(tài)的數(shù)據(jù)之間相互補(bǔ)充可以更準(zhǔn)確地反應(yīng)用戶的檢索需求。此外,這些不同模態(tài)的數(shù)據(jù)相互關(guān)聯(lián),從而與單模態(tài)信息檢索相比可以提高檢索結(jié)果的準(zhǔn)確性。在進(jìn)行多模態(tài)檢索過(guò)程中,最簡(jiǎn)單的方法是分別對(duì)多個(gè)模態(tài)進(jìn)行單模態(tài)檢索,然后對(duì)檢索結(jié)果進(jìn)行過(guò)濾,如兩步檢索方法[19]。此外,還可以通過(guò)多個(gè)模態(tài)之間的聯(lián)合分布來(lái)描述不同模態(tài)之間的關(guān)系,從而進(jìn)行多模態(tài)數(shù)據(jù)的聯(lián)合檢索,如語(yǔ)義索引方法[20]和排序?qū)W習(xí)方法[21]。

        本文研究了文本和圖片兩個(gè)模態(tài)下的聯(lián)合信息檢索。每一個(gè)文檔數(shù)據(jù)項(xiàng)包含一張圖片及相應(yīng)的文本描述或者語(yǔ)義標(biāo)簽,本文的目的是根據(jù)用戶輸入的圖片以及對(duì)圖片的描述檢索出相似的圖片。本文假設(shè)每一個(gè)文檔為一個(gè)“圖片—文本”對(duì),并且圖片和文本都是由相同的語(yǔ)義空間生成的。在上述假設(shè)的前提下,提出一種包含多模態(tài)數(shù)據(jù)的文檔語(yǔ)義生成模型,并用圖模型的聯(lián)合概率來(lái)表示多模態(tài)文檔的生成概率。在給定的訓(xùn)練數(shù)據(jù)中,通過(guò)最大化訓(xùn)練數(shù)據(jù)集的生成概率進(jìn)行模型的求解。

        1 文檔的語(yǔ)義生成模型

        在文檔集合[D]中,每個(gè)文檔[d∈D]包含圖片和文本兩種模態(tài)的數(shù)據(jù),分別為[I]和[T。]令[S]表示模態(tài)無(wú)關(guān)的語(yǔ)義概念,并應(yīng)用[K]維向量進(jìn)行表示,即[S=[S1,S2,…,SK]],其中[Sk∈{0,1}]表示第[k]([1≤k≤K])個(gè)語(yǔ)義概念。[S1,S2,…,SK]中有一個(gè)或者多個(gè)值為1,其余所有的值為0,[S]所表達(dá)的語(yǔ)義空間的總語(yǔ)義概念個(gè)數(shù)為[2K]個(gè)。在可分類處理的文檔集合中,[S1,S2,…,SK]中只有一個(gè)值為1,而其余所有值都為0。依據(jù)語(yǔ)義概念[S,]本文提出如圖1所示的文檔語(yǔ)義生成模型。

        在圖1所示的文檔語(yǔ)義生成圖模型中,[S]服從先驗(yàn)參數(shù)為[μ]的多項(xiàng)式分布,其中先驗(yàn)參數(shù)[μ=[μ1,μ2,…,μK]]是一個(gè)[K]維向量。[I]為文檔中圖片的特征向量,服從概率條件分布[pIS,θI,]其中[θI]為先驗(yàn)參數(shù)。[T]為文檔中文本的特征向量,服從條件概率分布[pTS,θT,]其中[θT]為先驗(yàn)參數(shù)。包含圖片和文本兩個(gè)模態(tài)的文檔[d=(I,T)]的生成過(guò)程如下:

        (1) 依據(jù)多項(xiàng)式分布[Multi(μ)]生成語(yǔ)義概念[S;]

        (2) 依據(jù)條件概率分布[pIS,θI]生成圖片[I;]

        (3) 依據(jù)條件概率分布[pTS,θT]生成文本[T。]

        本文只考慮包含圖片和文本兩種模態(tài)數(shù)據(jù)的文檔,但是該模型可以擴(kuò)展到包含多種模態(tài)數(shù)據(jù)的文檔。

        2 模型估計(jì)

        為了得到模型的聯(lián)合概率分布,需要對(duì)模型中的先驗(yàn)參數(shù)進(jìn)行估計(jì)。本文只考慮圖片和文本兩種模態(tài)的數(shù)據(jù),因此需要估計(jì)模型的先驗(yàn)參數(shù)[μ,][θI]和[θT]。

        在給定的文檔集合[D]中,每一篇文檔[dn∈D]都是一個(gè)圖片—文檔對(duì),即[dn=(In,Tn)],其中[1≤n≤N,][N]為[D]中文檔的總數(shù)。依據(jù)極大似然估計(jì)原則,可以得到如下的對(duì)數(shù)似然函數(shù):

        在式(13)和式(14)中,[pSkμ]的計(jì)算見(jiàn)式(7)和式(8),[pXnSk,θX]和[pXqSk,θX]([X]為[I]或者[T])的計(jì)算見(jiàn)式(9)~式(11)。在得到每一個(gè)待檢索文檔[dn]與查詢數(shù)據(jù)[dq]之間的相似度以后,將相似度按照從大到小的順序進(jìn)行排序,并將排序靠前的若干項(xiàng)作為返回結(jié)果。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)采用公開(kāi)的Wikipedia數(shù)據(jù)集[22]和SUN數(shù)據(jù)集[23]。Wikipedia數(shù)據(jù)集包含2 866個(gè)文檔,每個(gè)文檔包含一張圖片,以及對(duì)圖片的相關(guān)說(shuō)明文本,每個(gè)圖片—文檔對(duì)屬于一個(gè)特定的類別目錄,整個(gè)數(shù)據(jù)集一共可以分為10個(gè)類別。SUN數(shù)據(jù)集是一個(gè)帶文本標(biāo)簽的場(chǎng)景圖片數(shù)據(jù)集,共包含14 340張圖片,整個(gè)數(shù)據(jù)集一共可以分為717個(gè)類別,每個(gè)類別包含20張圖片。

        對(duì)于這兩個(gè)數(shù)據(jù)集中的圖片,采用SIFT[4]特征描述符將圖片描述為128位的特征向量。對(duì)于Wikipedia數(shù)據(jù)集中的文本,采用LDA[24]模型將文本表示為10個(gè)主題的分布。對(duì)于SUN數(shù)據(jù)集中的標(biāo)簽,采用LDA模型將標(biāo)簽表示為717個(gè)主題的分布。在模型的學(xué)習(xí)過(guò)程中,將兩個(gè)數(shù)據(jù)集劃分為[23]的訓(xùn)練數(shù)據(jù)和[13]的測(cè)試數(shù)據(jù)。

        在檢索算法的性能評(píng)估過(guò)程中,采用[F]值和MAP(Mean Average Precision)兩種評(píng)價(jià)指標(biāo)。在算法的對(duì)比中,將本文提出的算法與兩步檢索[19],語(yǔ)義索引[20]和排序?qū)W習(xí)[21]三種算法進(jìn)行對(duì)比。

        4.2 實(shí)驗(yàn)結(jié)果分析

        首先,通過(guò)實(shí)驗(yàn)對(duì)比了四種算法在Wikipedia和SUN兩個(gè)數(shù)據(jù)集下的MAP,對(duì)比結(jié)果如圖2所示。從圖2中可以看出,兩步檢索方法雖然簡(jiǎn)單,但是檢索結(jié)果在兩個(gè)數(shù)據(jù)集下的MAP都是最低的。對(duì)于語(yǔ)義索引和排序?qū)W習(xí)兩種檢索算法,語(yǔ)義索引方法在Wikipedia數(shù)據(jù)集上的MAP低于排序?qū)W習(xí)方法,而在SUN數(shù)據(jù)集上的MAP卻高于排序?qū)W習(xí)方法,說(shuō)明這兩種方法對(duì)于不同的數(shù)據(jù)集各有優(yōu)劣。本文提出的基于概率圖模型的聯(lián)合檢索方法在兩個(gè)數(shù)據(jù)集上的MAP要高于其他三種方法,這表明該方法能更好地反應(yīng)查詢數(shù)據(jù)和待檢索數(shù)據(jù)之間的相似度。

        接下來(lái),通過(guò)實(shí)驗(yàn)對(duì)比了四種方法在Wikipedia和SUN兩個(gè)數(shù)據(jù)集下的F值,對(duì)比結(jié)果如圖3所示。依據(jù)F值的定義,F(xiàn)值是信息檢索中查準(zhǔn)率和召回率的調(diào)和平均值,因此可以反應(yīng)查詢結(jié)果的性能。在Wikipedia數(shù)據(jù)集中,兩步檢索、語(yǔ)義索引和排序?qū)W習(xí)三種方法的F值都處于0.29~0.32之間,并且它們之間的差距并不大,而本文提出的方法的F值卻超過(guò)了0.4,明顯提高了檢索的性能。在SUN數(shù)據(jù)集中,兩步檢索、語(yǔ)義索引和排序?qū)W習(xí)三種方法的F值都處于0.34~0.39之間,而本文方法的F值約為0.47,也明顯提高了檢索結(jié)果的性能。

        最后,通過(guò)一組實(shí)驗(yàn)對(duì)本文提出的方法的檢索結(jié)果進(jìn)行展示。在Wikipedia數(shù)據(jù)集中,隨機(jī)選取了一張圖片(見(jiàn)圖4(a))作為查詢圖片,圖片中一名男歌手在演唱,故同時(shí)將“Man singing”作為查詢文本與查詢圖片一起作為查詢數(shù)據(jù),檢索結(jié)果的前三張圖片見(jiàn)圖4(b)~(d)。在Wikipedia數(shù)據(jù)集中,查詢圖片所屬的類別為“music”,檢索結(jié)果的三張圖片的類別也為“music”。與此同時(shí),雖然這四張圖片中人的姿勢(shì)不同,背景也不同,但是可以看出它們的內(nèi)容都是一名男歌手在演唱。因此,可以認(rèn)為該方法能更好地進(jìn)行多模態(tài)信息的聯(lián)合檢索。

        5 結(jié) 語(yǔ)

        本文研究了文本和圖片兩個(gè)模態(tài)下的聯(lián)合信息檢索,提出了一種多模態(tài)文檔語(yǔ)義生成模型以及基于該模型的多模態(tài)數(shù)據(jù)聯(lián)合檢索算法。網(wǎng)絡(luò)中的文檔往往包含多種模態(tài)的數(shù)據(jù),本文假設(shè)同一文檔中多個(gè)模態(tài)的數(shù)據(jù)都是由相同的語(yǔ)義空間生成的。在上述假設(shè)的前提下,提出一種包含多模態(tài)數(shù)據(jù)的文檔語(yǔ)義生成模型,并用圖模型的聯(lián)合概率來(lái)表示多模態(tài)文檔的生成概率。實(shí)驗(yàn)結(jié)果表明,提出的方法與兩步檢索、語(yǔ)義索引和排序?qū)W習(xí)三種多模態(tài)檢索方法相比具有更好的檢索性能。此外,該方法可以擴(kuò)展應(yīng)用到具有三個(gè)及以上模態(tài)數(shù)據(jù)的文檔聯(lián)合檢索中。

        注:本文通訊作者為孫連海。

        參考文獻(xiàn)

        [1] 王大玲,馮時(shí),張一飛,等.社會(huì)媒體多模態(tài)、多層次資源推薦技術(shù)研究[J].智能系統(tǒng)學(xué)報(bào),2014,9(3):265?275.

        [2] ILIC M, SPALEVIC P, VEINOVIC M. Inverted index search in data mining [C]// Proceedings of 2014 the 22nd IEEE Telecommunications Forum. Serbia: IEEE, 2014: 943?946.

        [3] RAMOS J. Using TF?IDF to determine word relevance in document queries [C]// Proceedings of the First International Confe?rence on Machine Learning. [S.l.]: IEEE, 2003: 1?4.

        [4] LOWE D G. Distinctive image features from scale?invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91?110.

        [5] BAY H, ESS A, TUYTELAARS T, et al. Speeded?up robust features (SURF) [J]. Computer vision and image understan?ding, 2008, 110(3): 346?359.

        [6] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: binary robust invariant scalable keypoints [C]// Proceedings of 2011 IEEE International Conference on Computer Vision. Switzerland: IEEE, 2011: 2548?2555.

        [7] 何寧.圖像檢索中跨模語(yǔ)義信息獲取方法研究[D].武漢:武漢大學(xué),2013.

        [8] SPENCE C. Crossmodal correspondences: a tutorial review [J]. Attention, perception & psychophysics, 2011, 73(4): 971?995.

        [9] 劉亞楠,吳飛,莊越挺.基于多模態(tài)子空間相關(guān)性傳遞的視頻語(yǔ)義挖掘[J].計(jì)算機(jī)研究與發(fā)展,2009,46(1):1?8.

        [10] WANG Y, GUAN L, VENETSANOPOULOS A N. Kernel cross?modal factor analysis for information fusion with application to bimodal emotion recognition [J]. IEEE transactions on multimedia, 2012, 14(3): 597?607.

        [11] COSTA P J, COVIELLO E, DOYLE G, et al. On the role of correlation and abstraction in cross?modal multimedia retrieval [J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(3): 521?535.

        [12] 張鴻,吳飛,莊越挺.跨媒體相關(guān)性推理與檢索研究[J].計(jì)算機(jī)研究與發(fā)展,2008,45(5):869?876.

        [13] WANG K Y, HE R, WANG W, et al. Learning coupled feature spaces for cross?modal matching [C]// Proceedings of 2013 IEEE International Conference on IEEE Computer Vision. Beijing, China: IEEE, 2013: 2088?2095.

        [14] WANG W, OOI B C, YANG X, et al. Effective multi?modal retrieval based on stacked auto?encoders [J]. Proceedings of the VLDB endowment, 2014, 7(8): 649?660.

        [15] WANG W, YANG X Y, OOI B C, et al. Effective deep lear?ning?based multi?modal retrieval [J]. The VLDB journal, 2016, 25(1): 79?101.

        [16] SONG J, WANG Y, WU F, et al. Multi?modal retrieval via deep textual?visual correlation learning [C]// Proceedings of 2015 the 5th International Conference on Intelligence Science and Big Data Engineering. Suzhou, China: Springer International Publishing, 2015: 176?185.

        [17] WANG Y F, WU F, SONG J, et al. Multi?modal mutual to?pic reinforce modeling for cross?media retrieval [C]// Procee?dings of the 22nd ACM International Conference on Multimedia. Florida: ACM, 2014: 307?316.

        [18] TOEWS M, Z?LLEI L, WELLS W M. Feature?based alignment of volumetric multi?modal images [C]// Proceedings of 2013 International Conference on Information Processing in Medical Imaging. US: Springer Berlin Heidelberg, 2013: 25?36.

        [19] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. Firenze: ACM, 2010: 251?260.

        [20] CHANDRIKA P, JAWAHAR C V. Multi modal semantic indexing for image retrieval [C]// Proceedings of the ACM International Conference on Image and Video Retrieval. Xian, China: ACM, 2010: 342?349.

        [21] WU F, JIANG X, LI X, et al. Cross?modal learning to rank via latent joint representation [J]. IEEE transactions on image processing, 2015, 24(5): 1497?1509.

        [22] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM, 2010: 251?260.

        [23] PATTERSON G, HAYS J. Sun attribute database: discove?ring, annotating, and recognizing scene attributes [C]// Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 2751?2758.

        [24] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation [J]. Journal of machine Learning research, 2003, 3: 993?1022.

        蜜臀av一区二区三区人妻在线| 国产成a人亚洲精v品无码性色| 日本无遮挡真人祼交视频| 久久久久av综合网成人| 亚洲av日韩aⅴ无码色老头| 日韩视频中文字幕精品偷拍 | 国产性一交一乱一伦一色一情 | 久精品国产欧美亚洲色aⅴ大片| 国产97在线 | 中文| 午夜不卡久久精品无码免费| 国产欧美日韩视频一区二区三区| 日韩亚洲制服丝袜中文字幕| 99在线国产视频| 久久视频在线视频精品| 白白色福利视频在线观看| 午夜蜜桃视频在线观看| 日本黑人亚洲一区二区| 国产无套内射又大又猛又粗又爽| 鲁一鲁一鲁一鲁一曰综合网| 国产高颜值大学生情侣酒店| 99久久国语露脸精品国产| 亚洲an日韩专区在线| 丰满人妻一区二区乱码中文电影网| 国产精品毛片大尺度激情| 激情五月六月婷婷俺来也| 亚洲av无一区二区三区| 五月天国产成人av免费观看| 国产成人涩涩涩视频在线观看| 亚洲中久无码永久在线观看同| 日韩欧美在线播放视频| 少妇一区二区三区乱码| 精品人妻在线一区二区三区在线| 国产人妻熟女呻吟在线观看| 欧美性生交活xxxxxdddd| 国产精品理论片| 精品国产av最大网站| 麻豆AV免费网站| 精品国产迪丽热巴在线| 国产成人高清亚洲一区二区| 激情亚洲一区国产精品久久| 欧美成人看片一区二区三区尤物|