亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合稀疏編碼和金字塔匹配的視頻檢索

        2013-08-30 10:00:30汪子彧
        關(guān)鍵詞:金字塔矢量檢索

        甘 玲,汪子彧

        GAN Ling,WANG Ziyu

        重慶郵電大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065

        School of Computer Scienceand Technology of Chongqing University of Postsand Telecommunications,Chongqing 400065,China

        互聯(lián)網(wǎng)及相關(guān)技術(shù)的高速發(fā)展,使得多媒體信息呈海量增長,傳統(tǒng)的文本檢索只依賴于標(biāo)簽和短文本信息對視頻的描述,因而有著很大的局限性。隨著用戶對檢索需求的提高,基于內(nèi)容的檢索成為了研究的熱點(diǎn)。研究基于內(nèi)容的視頻檢索(Content Based Video Retrieval,CBVR),重在檢索視頻本身的內(nèi)容,并使用視覺基礎(chǔ)特征作為相似度度量的依據(jù),從而克服了傳統(tǒng)的基礎(chǔ)屬性和文本檢索的不足。

        基于內(nèi)容的檢索的難點(diǎn)是“語義鴻溝”問題,即基礎(chǔ)特征難以表示高層語義。目前對于使用基礎(chǔ)特征描述的視頻,圖像的區(qū)分通常采用金字塔匹配方法[1-5]。金字塔匹配方法的意義在于,通過多粒度劃分匹配子集合,就能利用基礎(chǔ)特征的組合重現(xiàn)一定的語義信息,從而提高檢索的準(zhǔn)確性??臻g金字塔匹配方法[1](Spatial Pyramid Matching,SPM)和時(shí)空金字塔匹配的方法[3](Spatio-Temporal Pyramid Matching,STPM)均在此基礎(chǔ)上提出。此外,近年一些對重復(fù)近似識別(Near Duplicates Identification,NDI)的研究[4-5]均使用了金字塔匹配的思想,解決了諸如此類的相似性度量問題。但大多數(shù)方法都著力于研究匹配策略,并不涉及研究在方法中結(jié)合改進(jìn)基礎(chǔ)特征的表示。以上大部分方法均采用矢量量化方法作對圖像基礎(chǔ)特征表示,但該方法在特征重建時(shí),會不可避免地丟失一些重要信息,導(dǎo)致檢索效率的下降。目前一些研究已經(jīng)將源自生物視覺感知研究的稀疏編碼技術(shù)[6-8]融入上述方法中[9],用于解決矢量量化特征描述不夠準(zhǔn)確的問題,本文首次通過結(jié)合稀疏編碼的SPM和STPM方法進(jìn)行基于內(nèi)容的視頻檢索,取得了比原方法更好的檢索效果。

        1 金字塔匹配

        1.1 SPM和STPM

        SPM和STPM均繼承了金字塔匹配的思想,前者在金字塔的每一級上將圖像按空間分布劃分成多粒度的子塊,然后在各級的子塊之間進(jìn)行匹配;后者將視頻的鏡頭看成一個(gè)時(shí)空延展的立方體,并按時(shí)空粒度劃分金字塔的匹配子集合用于匹配。因?yàn)橐曨l特征具有較強(qiáng)的時(shí)空相關(guān)性,所以STPM方法比SPM更適合度量視頻的相似度。

        如圖1所示[3],視頻在金字塔的L層上被分割為不同粒度大小的立方體,L=0層的金字塔其實(shí)就是BoF下的匹配。由圖1可以看出,在L=1層,將視頻分成2×2×2的子塊,在L=2層,視頻被分成4×4×4的子塊,以此類推。每一層上設(shè)置的時(shí)空立方體的長、寬、高分別為第0層的立方體長、寬、高的1/2L。匹配從各層的對應(yīng)子塊之間開始,最后通過合并各層的匹配結(jié)果得到視頻的相似度。

        圖1 STPM層級示意圖

        1.2 金字塔匹配核

        假設(shè)X和Y是D維特征空間中的2個(gè)向量集合。同時(shí)在0,1,…,L級分辨率上,構(gòu)造一系列的網(wǎng)格,l級上的每個(gè)網(wǎng)格在每一維度上有2l個(gè)單元,總共有 D=2dl個(gè)單元。令分別代表X和Y在l級分辨率下的直方圖,同時(shí)i)是X和Y第i個(gè)區(qū)間中的特征的數(shù)量。那么在l級下的匹配可以由式(1)的直方圖相交函數(shù)給出:

        因?yàn)樵趌級上的匹配數(shù)也包括了l+1級上的匹配數(shù),所以在l級上新增的匹配數(shù)為 Γl-Γl+1,l=0,1,…,L-1。為了削弱在大粒度下發(fā)現(xiàn)的匹配,每一層的權(quán)值被設(shè)置為1/2L-l。綜上所述,金字塔匹配核的定義如式(2)、(3)所示:

        上述直方圖相交和金字塔匹配核均為Mercer kernels[1]。

        2 本文方法

        2.1 算法思想

        本文結(jié)合稀疏編碼方法用于以SPM、STPM等為匹配引擎的視頻檢索系統(tǒng)。首先對視頻基礎(chǔ)特征進(jìn)行采樣,然后用稀疏編碼方法訓(xùn)練得到的特征密碼本對每個(gè)視頻的特征進(jìn)行編碼,將編碼后特征的前c組顯著分量分別做c次STPM或SPM計(jì)算,并用稀疏編碼計(jì)算得到的權(quán)值合并這c組匹配,作為修正后的匹配結(jié)果。

        2.2 視頻檢索的系統(tǒng)框架

        本文的工作均基于時(shí)空金字塔匹配下的視頻檢索系統(tǒng)應(yīng)用[3]。系統(tǒng)結(jié)構(gòu)如圖2所示。

        圖2 基于內(nèi)容的視頻檢索框架

        首先構(gòu)建鏡頭數(shù)據(jù)庫:對輸入的視頻進(jìn)行鏡頭檢測,然后從各個(gè)鏡頭中提出基礎(chǔ)特征進(jìn)行訓(xùn)練、編碼。最后使用匹配引擎(如:SPM、STPM等)計(jì)算視頻的相似度,并將編碼結(jié)果和匹配結(jié)果存入數(shù)據(jù)庫。

        當(dāng)用戶輸入一個(gè)查詢鏡頭時(shí),系統(tǒng)通過匹配引擎進(jìn)行相似性度量,然后返回前k個(gè)最相似的結(jié)果。

        2.3 矢量量化方法和稀疏編碼方法

        矢量量化方法和稀疏編碼方法,都是為了從大量的基礎(chǔ)特征中提取出相對重要的信息用于數(shù)據(jù)類別表示。

        2.3.1 矢量量化方法

        假設(shè)X表示D維空間中的特征集合,例如:

        那么矢量化方法,可以使用K-means算法解決式(4)的問題:

        其中,V=[v1,v2,…,vk]T是K-means算法的聚類中心,被稱為密碼本。這個(gè)優(yōu)化問題,可以被重新寫成式(5)中求解最優(yōu)矩陣因子的問題:

        其中,Card(um)=1是基數(shù)約束,意味著um中只有一個(gè)元素非零;‖‖.是L2范式;||um是L1范式,是um中所有元素絕對值的求和。由上式,可以看出um具有非負(fù)性。在訓(xùn)練階段,式(5)的求解同時(shí)依賴于U、V;在編碼階段,使用已經(jīng)訓(xùn)練好的V,求解U。

        2.3.2 稀疏編碼方法

        對于高維的特征來說,Card(um)=1的基數(shù)約束,往往過于嚴(yán)格,常常使得重建的特征丟失了一些重要的信息。針對這一問題,可以適當(dāng)放寬這一約束,讓um能夠有多個(gè)非零元素。這就是稀疏編碼的基本原理,如式(6)所示:

        其中λ是一個(gè)正則化參數(shù),密碼本V通常是一個(gè)超完備基向量集(K>D),式(6)中沒有寫上非負(fù)約束,原因是um的符號來實(shí)現(xiàn)。其中 um+=min(0,um),um-=max(0,um)。同矢量化方法一樣,稀疏編碼也需要先進(jìn)行訓(xùn)練,然后進(jìn)行編碼。

        2.4 討論與應(yīng)用

        本文結(jié)合稀疏編碼進(jìn)行視頻檢索的主要原因是:(1)圖像塊是稀疏信號;(2)稀疏編碼可以表示出圖像的顯著特征;(3)與矢量化方法相比,稀疏編碼能夠更精確地對特征編碼。

        實(shí)驗(yàn)中使用文獻(xiàn)[6]中的高效求解方法求解式(6)中的優(yōu)化問題,同時(shí)為了將稀疏編碼融入基于金字塔匹配的檢索工作,本文所使用的投影函數(shù)F將um每一列中絕對值最大的前c個(gè)分量的序號作為該特征的直方圖統(tǒng)計(jì)表示,同時(shí)對這c個(gè)分量的絕對值進(jìn)行加權(quán)平均,作為合并匹配結(jié)果的權(quán)值。即在獲得稀疏編碼后的矩陣U以后,使用式(7)計(jì)算:

        F是定義在um每一列上的操作,如式(8)所示:

        zcj表示F從|uj|中取出的第c個(gè)顯著元素的行序號,wcj表示從|uj|中取出的第c個(gè)元素值,uij是U中第i行j列的元素,M是密碼本的行數(shù),代表顯著局部特征的數(shù)量。在實(shí)驗(yàn)中,使用Zc做c次SPM、STPM運(yùn)算,然后使用式(9)中計(jì)算得到的權(quán)值合并匹配結(jié)果。

        本文中的實(shí)驗(yàn),從視頻的圖像塊中隨機(jī)抽取了51 200個(gè)sift[10]特征用于訓(xùn)練密碼本,然后用該密碼本對視頻特征進(jìn)行編碼、匹配。

        3 實(shí)驗(yàn)

        本文在UCF50視頻數(shù)據(jù)集上,分別對使用矢量量化方法和結(jié)合本文方法的關(guān)鍵幀匹配、SPM、STPM的視頻檢索做了對比實(shí)驗(yàn)。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        UCF50是美國中佛羅里達(dá)大學(xué)收集自Youtube等視頻網(wǎng)站的視頻數(shù)據(jù)集。視頻按行為劃分有50類,如:游泳、跳水、蕩秋千等,其中每一類視頻均包含了大量特殊場景下的鏡頭,可以作為本文視頻檢索的實(shí)驗(yàn)數(shù)據(jù)。在實(shí)驗(yàn)中按鏡頭中的行為和場景選取了復(fù)雜場景下的20類視頻(每一類10個(gè)鏡頭,共200個(gè)鏡頭)作為本文的實(shí)驗(yàn)數(shù)據(jù)。

        3.2 實(shí)驗(yàn)評價(jià)方法

        本文的實(shí)驗(yàn)使用文獻(xiàn)[3]中的二分法判別評價(jià)每次檢索返回的結(jié)果,用NDCG@k評價(jià)整體檢索質(zhì)量。

        3.2.1 二分法判別

        文獻(xiàn)[3]中的二分法判別對每次檢索的結(jié)果評價(jià),可以分為三種情況:(1)正確;(2)錯(cuò)誤;(3)不可分。

        假設(shè)用戶輸入一個(gè)鏡頭Q,這個(gè)鏡頭屬于一個(gè)特定的類別,再假設(shè)有兩個(gè)鏡頭A、B:A和Q為同一類;B和Q不屬于同一類。那么檢索返回的結(jié)果中,A和Q的相似度應(yīng)該比B和Q的大,即STPM(Q,A)>STPM(Q,B)。如果在限定返回的 k個(gè)結(jié)果中,全部滿足 STPM(Q,A)>STPM(Q,B),則判定為檢索成功;如果有 STPM(Q,A)<STPM(Q,B),則判定檢索錯(cuò)誤;除上述兩種情況的其他的情況判定為不可分。

        查詢返回結(jié)果的例子如圖3所示。

        圖3 查詢返回結(jié)果的例子

        圖3 為一次查詢和返回前5個(gè)結(jié)果的例子,第一行為從輸入的查詢鏡頭中提取的3幀,下面的5列,每一列均取自檢索返回的結(jié)果的3幀。按照二分法判別,這是一次成功的查詢,因?yàn)檩斎氩樵兊氖撬夏ν型У溺R頭,而返回的5個(gè)結(jié)果中,所有水上摩托艇的鏡頭按照相似度排序,均在其他鏡頭(圖中其他鏡頭為:皮劃艇,游泳)之前。注意到圖2中,也將匹配數(shù)結(jié)果歸一化,作為查詢得分。

        3.2.2 NDCG@k

        NDCG@k(Normalized Discounted Cumulative Gain at top k Ranks)是一種信息檢索和測量結(jié)果準(zhǔn)確率的度量標(biāo)準(zhǔn)。NDCG@k公式如式(10)所示:

        NDCG@k將檢索得到的1到k個(gè)結(jié)果用一個(gè)評價(jià)函數(shù)s(p)進(jìn)行計(jì)算。s(p)代表第p個(gè)結(jié)果的檢索效果。在實(shí)驗(yàn)中,s(p)的設(shè)置和文獻(xiàn)[3]相同,根據(jù)返回鏡頭和查詢鏡頭是否在同一類別下,s(p)=1或者0。參數(shù)Z是一個(gè)用于歸一化的因子,它是理想化的DCG(Discounted Cumulative Gain)值。

        3.3 實(shí)驗(yàn)結(jié)果

        從每個(gè)視頻鏡頭中,提取典型的8幀作為一個(gè)鏡頭的代表(因?yàn)樵趯?shí)際應(yīng)用中,該算法也往往是針對關(guān)鍵幀的集合進(jìn)行操作),然后對這8幀提取稠密SIFT特征來進(jìn)行稀疏編碼,密碼本V的維度設(shè)置為200×128(其中,200是一個(gè)常規(guī)的經(jīng)驗(yàn)取值,且該維度大于特征維度符合超完備基向量集的條件。128為sift特征描述符的維度)。

        用二分法判別對200次查詢中每次返回5個(gè)結(jié)果的統(tǒng)計(jì)情況如表1所示。

        表1 二分法判別的實(shí)驗(yàn)比較結(jié)果 (%)

        由表1中可以看出分別對關(guān)鍵幀、SPM和STPM使用矢量量化方法和稀疏編碼方法進(jìn)行比較實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果可以看出,使用了稀疏編碼后,基于關(guān)鍵幀的匹配雖然沒有提高檢索的正確率,但減少了不可分率。而SPM、STPM方法均增加了檢索的準(zhǔn)確率。尤其是基于STPM的視頻檢索,效果顯著增強(qiáng)。

        圖4 每次查詢的NDCG@k值

        圖4 中每一個(gè)數(shù)據(jù)點(diǎn)是200次查詢返回k個(gè)結(jié)果的NDCG@k均值,對使用了稀疏編碼方法和矢量量化方法的實(shí)驗(yàn)分別用實(shí)線和虛線表示??梢钥闯鲈趉<10的情況下,使用稀疏編碼的STPM、SPM的檢索效率均高于使用矢量量化方法時(shí)的效率。

        4 結(jié)束語

        金字塔匹配方法給出了一種快速高效的視頻、圖像檢索的解決方案。本文首次結(jié)合稀疏編碼和金字塔匹配用于基于內(nèi)容的相似視頻檢索,在線性時(shí)間復(fù)雜度增加的基礎(chǔ)上,取得了比用矢量量化方法的SPM、STPM更精確的檢索效果。在未來的工作中,將會使用更大的數(shù)據(jù)集(例如:在線數(shù)據(jù)集)來測試該方法的效率,同時(shí)嘗試使用合并的一些其他基礎(chǔ)特征,提高檢索的準(zhǔn)確性。

        [1]Kristen G,Trevor D.The pyramid match kernel:discriminative classification with sets of image features[C]//ICCV,2005:1458-1465.

        [2]Lazebnik S,Schmid C,Ponce J.Beyond bag of features:spatial pyramid matching for recognizing natural scene categories[C]//CVPR,2006:2169-2178.

        [3]Choi J,Jeon W,Lee S C.Spatio-temporal pyramid matching for sports videos[C]//ACM Multimedia,2008.

        [4]Xu Dong,Chang Shih-Fu.Visual event recognition in news video using kernel methods with multi-level temporal alignment[C]//CVPR,2007:1-8.

        [5]Xu Dong,Cham T J.Near duplicate image identification with spatially aligned pyramid matching[C]//TCSVT,2010:1068-1079.

        [6]Mairal J,Bach F.Online learning for matrix factorization and sparse coding[J].Machine Learning Research,2010,11.

        [7]Mairal J,Bach F.Discriminative learned dictionaries for local image analysis[C]//CVPR,2008:1-8.

        [8]Olshausen B A,F(xiàn)ield D J.Sparse coding with an overcomplete basis set:a strategy employed by V1[J].Vision Research,1997,37:3311-3325.

        [9]Yang Jianchao,Yu Kai.Linear spatial pyramid matching using sparse coding for image classification[C]//CVPR,2009:1794-1801.

        [10]Lowe D.Object recognition from local scale-invariant features[C]//ICCV,1999.

        猜你喜歡
        金字塔矢量檢索
        “金字塔”
        A Study of the Pit-Aided Construction of Egyptian Pyramids
        矢量三角形法的應(yīng)用
        2019年第4-6期便捷檢索目錄
        海上有座“金字塔”
        神秘金字塔
        童話世界(2017年11期)2017-05-17 05:28:25
        基于矢量最優(yōu)估計(jì)的穩(wěn)健測向方法
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        三角形法則在動(dòng)態(tài)平衡問題中的應(yīng)用
        色料減色混合色矢量計(jì)算
        出版與印刷(2013年3期)2013-01-31 03:26:11
        偷亚洲偷国产欧美高清| 成人影片麻豆国产影片免费观看 | 乱子轮熟睡1区| 日韩一卡2卡3卡4卡新区亚洲| 99久久国语露脸精品国产| 国产精品成人av电影不卡| 一区二区三区手机看片日本韩国| 好看的日韩精品视频在线| 亚洲二区三区四区太九| 日韩激情视频一区在线观看| 精品国产一区二区三区av | 日本a片大尺度高潮无码| 国产精品免费看久久久8| 亚洲AV无码一区二区二三区我| 日本中文字幕一区二区视频| 中文字幕一区乱码在线观看| 免费a级毛片又大又粗又黑| 97人人超碰国产精品最新| 精品性影院一区二区三区内射| 男女上床视频在线观看| 精华国产一区二区三区| 国产69精品久久久久app下载| 无码国产69精品久久久孕妇| 亚洲中文欧美日韩在线| 日本特殊按摩在线观看| 91成人自拍国语对白| 成人午夜福利视频镇东影视| 国产午夜亚洲精品理论片不卡 | 天天干夜夜操| 国产精品女丝袜白丝袜| 亚洲黄片高清在线观看| 国产一区二区三区男人吃奶| 人妻 丝袜美腿 中文字幕| 国产无遮挡无码视频免费软件| 久久国产综合精品欧美| 亚洲av自偷自拍亚洲一区| 久久精品国产亚洲av精东| 香蕉人人超人人超碰超国产 | 国产午夜激情视频在线看| 欧美又大粗又爽又黄大片视频| 亚洲v欧美v国产v在线观看|