袁慶升,張冬明,靳國(guó)慶,劉菲,包秀國(guó)
?
視頻檢索中圖像信息量度量
袁慶升1,2,張冬明3,4,靳國(guó)慶3,4,劉菲3,4,包秀國(guó)1,2
(1.中國(guó)科學(xué)院信息工程研究所,北京 100193;2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029; 3.中國(guó)科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190;4.中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100190)
綜合考慮信息量度量的速度、性能要求,提出了相適應(yīng)的顯著圖、多特征融合模型;基于區(qū)域劃分融入空間關(guān)系,提出了分塊信息熵的圖像信息量度量方法(SEII);構(gòu)建了信息量度量的標(biāo)注數(shù)據(jù)集,并設(shè)計(jì)了性能驗(yàn)證方法。實(shí)驗(yàn)結(jié)果表明該度量方法符合人眼視覺(jué)的評(píng)價(jià)結(jié)果。度量方法在實(shí)際視頻檢索系統(tǒng)中進(jìn)行對(duì)比應(yīng)用測(cè)試,測(cè)試表明提高4.4%,檢索速度提高1.5倍。
視頻檢索;關(guān)鍵幀選擇;圖像信息量;顯著區(qū)域;多特征融合
視頻檢索中,關(guān)鍵幀選擇是影響檢索性能的關(guān)鍵因素之一。現(xiàn)有關(guān)鍵幀選擇算法按功能分為2類(lèi):1)在時(shí)間軸上按照一定模型抽取幀圖像,去除視頻時(shí)域冗余信息,減小視頻特征數(shù)量,主要算法包括基于鏡頭的選擇方法[1]、基于運(yùn)動(dòng)分析的選擇方法[2]、基于聚類(lèi)的選擇方法[3];2)從內(nèi)容角度進(jìn)行幀的二次篩選,去除不符合條件的視頻幀。本文針對(duì)后者進(jìn)行研究。
現(xiàn)有基于幀內(nèi)容的篩選算法,主要從失真角度評(píng)價(jià)幀圖像內(nèi)容,目標(biāo)是去除視頻中模糊幀、切換幀,如文獻(xiàn)[4],由于模型單一,其不能準(zhǔn)確度量圖像內(nèi)容。如圖1所示的6幅圖像來(lái)自于6段視頻,在傳統(tǒng)的失真評(píng)估模型中,由于圖像的失真程度很低,所以圖1(a)~圖1(c)的質(zhì)量評(píng)分很高;而圖1(d)~圖1(f)則由于模糊等原因,導(dǎo)致其質(zhì)量評(píng)價(jià)較低。這恰好與人類(lèi)的主觀(guān)評(píng)估相悖,圖1(a)~圖1(c)相對(duì)于圖1(d)~圖1(f),內(nèi)容不夠豐富,信息量較低。
(a) 圖像1 (b) 圖像2(c) 圖像3 (d) 圖像4(e) 圖像5(f) 圖像6
對(duì)于視頻檢索,選擇圖1(d)~圖1(f)作為視頻的關(guān)鍵幀比圖1(a)~圖1 (c)更具有區(qū)分性。因此,信息量是關(guān)鍵幀選擇重要指標(biāo)。高信息量的視頻幀可增加視頻數(shù)據(jù)特征的區(qū)分性;反之,低信息量視頻幀,則可能導(dǎo)致檢索性能下降:一方面它可能導(dǎo)致虛匹配,這類(lèi)似于文本檢索中,使用停止詞檢索會(huì)導(dǎo)致大量無(wú)關(guān)結(jié)果;另一方面它帶來(lái)不必要的特征量增長(zhǎng),導(dǎo)致檢索計(jì)算開(kāi)銷(xiāo)增加。但是,目前信息量度量尚沒(méi)有在視頻檢索系統(tǒng)中取得有效應(yīng)用,這主要是由于信息量度量方法尚存在不足。
信息量是信息多少的量度,熵可用于衡量信息量高低。應(yīng)用于圖像領(lǐng)域,熵值反映圖像像素值的分布,與像素值大小無(wú)關(guān)。熵值越大,表示像素值越接近均勻分布。可通過(guò)融合局部空間信息將熵?cái)U(kuò)展至二維,若圖像深度為,令2,則像素值取值范圍為[0,?1],則可根據(jù)式(1)來(lái)計(jì)算圖像二維信息熵(),其中,是圖像像素值,是其鄰域像素均值,p是(,)像素值組合的分布概率。
但僅僅依靠信息熵并不足以實(shí)現(xiàn)對(duì)圖像的信息量全面度量,主要表現(xiàn)為如下幾方面不足:1)熵的計(jì)算方法具有對(duì)稱(chēng)性,即使圖像的顏色直方圖完全不同,但如果像素值具有相同的概率分布,那么信息熵相同;2)熵值易受噪聲影響,并且在度量雜亂紋理圖像時(shí)常常失效;3)全畫(huà)面計(jì)算,沒(méi)有突出圖像中顯著區(qū)域的重要性,不符合人眼視覺(jué)特點(diǎn)。
本文以圖像信息熵為基礎(chǔ),融合人類(lèi)視覺(jué)顯著性模型,利用分塊信息熵對(duì)圖像的信息量進(jìn)行度量,提出了多特征融合的圖像分塊信息熵度量(SEII, sub-region entropy based image information measurement)方法,從而實(shí)現(xiàn)對(duì)圖像信息量的度量。該方法不僅結(jié)合了人眼的視覺(jué)特性,還為信息熵增加了空間信息,同時(shí)融合了顏色、紋理、顯著性等特征,可以全面提升視頻檢索性能。
與實(shí)際應(yīng)用結(jié)合,理想的視頻幀信息量度量方法應(yīng)滿(mǎn)足如下要求:1)度量結(jié)果與人眼視覺(jué)一致;2)計(jì)算簡(jiǎn)單,以滿(mǎn)足各類(lèi)實(shí)時(shí)性要求高的應(yīng)用。
2.1 視覺(jué)顯著性模型
認(rèn)知心理學(xué)的研究表明,圖像中有些區(qū)域能顯著吸引人的注意,這些區(qū)域含有較大的信息量,這就是視覺(jué)顯著區(qū)域,它是圖像中最能引起用戶(hù)興趣、最能表現(xiàn)圖像內(nèi)容的區(qū)域。有許多數(shù)學(xué)模型可以用來(lái)模擬人的注意力機(jī)制,早期工作可以追溯到Koch和Ullman的基于生物視覺(jué)特性的計(jì)算模型[5],Itti等[6]在此模型的基礎(chǔ)上進(jìn)行了改進(jìn),通過(guò)結(jié)合多尺度的圖像特征,在快速場(chǎng)景識(shí)別上取得了很好的效果。
對(duì)比度是像素與其鄰域像素的差異程度,強(qiáng)對(duì)比度區(qū)域通常更能引起人們的注意,因而成為顯著性計(jì)算的重要特征之一。Ma等[7]首次提出基于局部對(duì)比度的分析方法,局部對(duì)比度的方法傾向于給物體邊緣賦予較大的顯著值,而并非高亮整個(gè)顯著區(qū)域。Zhai等[8]提出了基于全局對(duì)比度的亮度通道顯著模型,能夠高亮整個(gè)區(qū)域。Cheng等[9]提出了多顏色通道壓縮表達(dá)的顯著性模型,可進(jìn)一步提升檢測(cè)的準(zhǔn)確率。頻域分析是另一類(lèi)顯著性計(jì)算方法,文獻(xiàn)[10]指出,這些基于頻域分析的模型實(shí)際上等同于一個(gè)局部梯度算子并疊加一個(gè)高斯模糊,不適宜檢測(cè)較大的顯著區(qū)域。此外,還有一類(lèi)基于學(xué)習(xí)的顯著性模型,如文獻(xiàn)[11]。這類(lèi)方法在訓(xùn)練數(shù)據(jù)集上能取得不錯(cuò)的效果,但是通常十分耗時(shí),在不同數(shù)據(jù)集下的表現(xiàn)也會(huì)存在較大的差異。
本文結(jié)合信息度量算法的要求,最終選擇2類(lèi)經(jīng)典視覺(jué)特征——顏色和紋理的對(duì)比度來(lái)描述區(qū)域的顯著性,以下分別描述其計(jì)算方法。
紋理特征是圖像的基本特征,也是經(jīng)常被用來(lái)描述圖像,能夠有效度量圖像亮度的變化情況。圖像局部紋理的計(jì)算如下[6]
(3)
其中,()表示圖像像素值,是點(diǎn)()的去均值做除歸一化后的系數(shù),和,和分別為圖像的長(zhǎng)和寬,1是一個(gè)常量,防止分母為零的情況發(fā)生。和分別為
圖2展示了圖1中2個(gè)圖像對(duì)應(yīng)的顯著圖,可以看出,根據(jù)顏色對(duì)比度計(jì)算出的顯著圖對(duì)應(yīng)于圖像中的顯著物體,通過(guò)紋理對(duì)比度計(jì)算出的顯著區(qū)域與物體邊界十分接近,邊界部分在顏色和紋理上都具有較高的對(duì)比度值,上述模型能夠很好地捕捉顏色和紋理信息。
2.2 顯著圖融合模型
形成最終視覺(jué)顯著圖,需要把上述顏色顯著圖和紋理顯著圖進(jìn)行融合。現(xiàn)有融合算法可以分為3類(lèi):1)最直觀(guān)的線(xiàn)性融合算法[13,14],不同特征顯著圖給定不同權(quán)值,線(xiàn)性組合后得到最終的顯著圖;2)由于人腦的視覺(jué)系統(tǒng)是一個(gè)非線(xiàn)性處理系統(tǒng),線(xiàn)性的融合算法具有很大的局限性,因此,一些研究者提出了非線(xiàn)性的融合算法[15,16],為不同特征的顯著圖分別定義融合函數(shù),得到相應(yīng)的遞推關(guān)系式,計(jì)算最終的融合結(jié)果;3)基于空間緊湊性和顯著密度的方法[17]、采用遺傳算法的融合方法[18]、根據(jù)上下文內(nèi)容的融合方法[19]以及多種融合方式相結(jié)合的算法[20]等。
本文涉及到2個(gè)顯著圖的融合,在融合過(guò)程中,還考慮了其他顯著圖模型所忽略的鄰域顯著性。具體地,設(shè)計(jì)了式(5)對(duì)顯著圖進(jìn)行融合。
其中,w和w分別為區(qū)域D所對(duì)應(yīng)的×鄰域內(nèi)的顏色顯著值(D)和紋理顯著值(D)。(D)是D區(qū)域內(nèi)所有像素點(diǎn)的紋理信息(按照式(3)計(jì)算)的均值。
得到融合的顯著圖后,根據(jù)像素的顯著性進(jìn)一步生成掩碼圖像,以屏蔽圖中顯著性較低的部分,文中以7:3的比例將顯著圖劃分為顯著區(qū)域和非顯著區(qū)域。從圖3(c)中可以看出,當(dāng)圖像信息量不豐富時(shí),不顯著區(qū)域占了圖像的絕大多數(shù),當(dāng)圖像信息量豐富時(shí),顯著的區(qū)域占了圖像的絕大多數(shù)。
2.3 分塊信息熵評(píng)估模型
利用融合顯著圖針對(duì)全畫(huà)面計(jì)算,僅計(jì)算顯著區(qū)域比例并不能精準(zhǔn)地表達(dá)畫(huà)面的信息量高低,而通過(guò)分塊可以融合空間分布信息,顯著提高信息量的表達(dá)能力。為此,本文引入分塊信息熵概念。具體地,為避免復(fù)雜計(jì)算,保證信息度量的實(shí)時(shí)性,按下述步驟計(jì)算分塊信息熵:首先按照橫向3等分的方法將圖像劃分為3個(gè)區(qū)域;然后對(duì)圖像的顏色空間進(jìn)行簡(jiǎn)單變換,對(duì)變換后的圖像分別計(jì)算水平分塊后3個(gè)區(qū)域的水平方向信息熵X、垂直方向信息熵X和整體的信息熵X,為提高對(duì)像素值變化的頑健性,在信息熵計(jì)算中進(jìn)行不同程度的量化;另外計(jì)算分塊的均值X和標(biāo)準(zhǔn)差X以及顯著像素在每個(gè)區(qū)域中所占的比例這3個(gè)特征值。圖4給出特征提取的算法流程,最終形成54維特征向量。
為了得到圖像的信息量度量值,需要利用訓(xùn)練圖像集得到回歸模型。在特征維數(shù)較高時(shí),傳統(tǒng)擬合方法通常采用增加高階項(xiàng)的方法提高模型的適用性,容易造成模型過(guò)擬合問(wèn)題。本文采用支持向量回歸(support vector regression)模型[21],該模型使用核函數(shù)代替線(xiàn)性方程中的高階項(xiàng),使原來(lái)的線(xiàn)性算法非線(xiàn)性化,實(shí)現(xiàn)非線(xiàn)性回歸。引入核函數(shù)同時(shí)實(shí)現(xiàn)升維,低維空間中非線(xiàn)性問(wèn)題投影到高維空間后可能變成線(xiàn)性問(wèn)題,SVR模型通過(guò)升維后在高維空間中構(gòu)造線(xiàn)性決策函數(shù)實(shí)現(xiàn)回歸。訓(xùn)練好SVR模型后,用待評(píng)估圖像的分塊信息熵特征作為模型參數(shù),得到信息量度量值。
算法:圖像信息量特征提取 for each image of M×N pixels do計(jì)算顯著圖橫向3等分for each region D dofor each feature dosl=vector of the sum of value for each pixel of each row of region Dhl=histogram of sl on binsXl=entropy(hl)sc=vector of the sum of value for each pixel of each column of region Dhc=histogram of sc binsXc=entropy(hc)h=histogram of on binsXa=entropy(h)Xμ=mean of Xσ=std of =proportion of saliency pixelsend forend forend for
2.4 算法流程
基于分塊信息熵的圖像信息量度量方法流程如圖5所示。待檢測(cè)圖像首先經(jīng)過(guò)顏色和紋理特征的提取,形成視覺(jué)顯著性模型,然后對(duì)經(jīng)過(guò)視覺(jué)顯著性模型處理后的圖像進(jìn)行基于分塊信息熵的特征提取,再由訓(xùn)練集圖像得到SVR模型進(jìn)行距離度量,最后得到信息量的估計(jì)值。
從信息量度量與主觀(guān)測(cè)試一致性角度對(duì)度量方法的性能進(jìn)行測(cè)試,進(jìn)一步驗(yàn)證該度量方法在實(shí)際視頻檢索中的應(yīng)用效果,以檢驗(yàn)其實(shí)際應(yīng)用價(jià)值。
3.1 度量一致性驗(yàn)證
目前針對(duì)圖像的信息量度量方法還沒(méi)有公認(rèn)的評(píng)測(cè)數(shù)據(jù)集,本文參考圖像質(zhì)量評(píng)估模型的評(píng)價(jià)方法,采用主觀(guān)評(píng)價(jià)法獲得數(shù)據(jù)集構(gòu)建了首個(gè)圖像信息量度量標(biāo)注測(cè)試集。構(gòu)建方法如下:1)從50段網(wǎng)絡(luò)視頻中有選擇地截取500幅圖像;2)主觀(guān)評(píng)價(jià)方法得到的結(jié)果會(huì)受到觀(guān)測(cè)者自身?xiàng)l件和客觀(guān)環(huán)境因素的影響,為減少這類(lèi)因素帶來(lái)的評(píng)價(jià)誤差,選擇中國(guó)科學(xué)院計(jì)算技術(shù)研究所的50名視力或矯正視力正常的研究生作為觀(guān)測(cè)者,在安靜、僅有觀(guān)測(cè)者的房間中完成評(píng)測(cè);3)50名觀(guān)測(cè)者對(duì)500幅圖像按照表1所示的評(píng)分標(biāo)準(zhǔn)對(duì)圖像的信息量進(jìn)行打分,參考相關(guān)實(shí)驗(yàn)標(biāo)準(zhǔn)[22],評(píng)價(jià)標(biāo)準(zhǔn)包括絕對(duì)尺度和相對(duì)尺度,用觀(guān)測(cè)者給出的平均分?jǐn)?shù)計(jì)算評(píng)價(jià)結(jié)果;4)根據(jù)打分結(jié)果,去除評(píng)價(jià)爭(zhēng)議較大的圖像,最終形成469幅圖像的標(biāo)注數(shù)據(jù)集。
圖6給出所建立的數(shù)據(jù)集中的部分圖像,以及相應(yīng)的主觀(guān)評(píng)價(jià)的信息量得分。相對(duì)于客觀(guān)評(píng)價(jià)方法,主觀(guān)評(píng)價(jià)方法能夠從人類(lèi)視覺(jué)角度給出圖像的信息量,結(jié)果比較準(zhǔn)確。
在該標(biāo)注數(shù)據(jù)集基礎(chǔ)上,對(duì)本文的信息量度量方法與主觀(guān)評(píng)價(jià)的一致性進(jìn)行測(cè)試。與大多數(shù)訓(xùn)練模型相似,本文選取上述數(shù)據(jù)集中的80%作為訓(xùn)練集,剩下的20%作為測(cè)試數(shù)據(jù)[23]。為了減少實(shí)驗(yàn)對(duì)數(shù)據(jù)集的依賴(lài)性,本文對(duì)訓(xùn)練集和測(cè)試集進(jìn)行了10次隨機(jī)分割,分別進(jìn)行實(shí)驗(yàn),取平均值作為最終的實(shí)驗(yàn)結(jié)果。選擇SROCC[24]測(cè)量視頻幀的信息量度量模型與主觀(guān)評(píng)價(jià)值之間的相關(guān)性。本文還與Peng等[13]靜態(tài)顯著模型的算法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)中用該算法替換2.1節(jié)所提顯著圖模型,并在本文所提的數(shù)據(jù)集上進(jìn)行測(cè)試。表2給出10次隨機(jī)分割實(shí)驗(yàn)的結(jié)果以及10次結(jié)果的平均值和標(biāo)準(zhǔn)差??梢钥闯?,本文提出的基于分塊信息熵的信息量度量方法與主觀(guān)評(píng)價(jià)結(jié)果有較高的相關(guān)性,并且多次實(shí)驗(yàn)的評(píng)價(jià)結(jié)果變化不大,證明該方法能夠有效地度量圖像的信息量。使用文獻(xiàn)[13]的方法替換本文中的顯著圖模型,對(duì)應(yīng)SROCC均值降低、標(biāo)準(zhǔn)差增大,表明本文基于顏色和紋理的模型更適用于幀信息量度量。
表1 主觀(guān)圖像信息量度量標(biāo)準(zhǔn)
(a)33.6(b) 49.7(c) 53.6 (d)62.3(e)87.5(f)5.0
圖6 數(shù)據(jù)集中部分圖像及其主觀(guān)評(píng)價(jià)得分
表2 本文方法與文獻(xiàn)[13]方法的圖像信息量度量結(jié)果
3.2 應(yīng)用效果驗(yàn)證
本文將基于底層特征查詢(xún)的視頻檢索系統(tǒng)作為“基準(zhǔn)”,與融合了關(guān)鍵幀選擇檢索系統(tǒng)的實(shí)驗(yàn)結(jié)果進(jìn)行了比較。在“基準(zhǔn)”中,關(guān)鍵幀選擇利用顏色直方圖的變化選取關(guān)鍵幀。特征提取相似度度量與本文的方法一致。查詢(xún)結(jié)果都采用計(jì)算最長(zhǎng)公共關(guān)鍵幀序列的方法獲得。2個(gè)系統(tǒng)采用的檢索特征相同,都是基于直方圖投影和密度分布的混合特征。
本文就2個(gè)視頻檢索系統(tǒng)在平均準(zhǔn)確率(MAP, mean average precision)和時(shí)間性能上進(jìn)行了比較。測(cè)試平臺(tái)參數(shù):CPU,Intel Core i5,3.1 GHz;內(nèi)存,4 GB,操作系統(tǒng),Windows7。
測(cè)試數(shù)據(jù)集由TRECVID2013的評(píng)測(cè)數(shù)據(jù)和互聯(lián)網(wǎng)上收集到的視頻數(shù)據(jù)組成,共10 000個(gè)視頻片段。從中選擇了幾類(lèi)典型節(jié)目作為查詢(xún)片段,具體如表3所示。
表3 查詢(xún)節(jié)目對(duì)照
圖7給出baseline與本文系統(tǒng)的檢索結(jié)果,其中,準(zhǔn)確率的計(jì)算方法取前檢索結(jié)果的前15位返回給用戶(hù)??梢钥闯銎骄岣吡?.4%,且節(jié)目A的查全率和準(zhǔn)確率相對(duì)較高,這是由于這類(lèi)節(jié)目的內(nèi)容與其他節(jié)目存在明顯區(qū)別。訪(fǎng)談?lì)惞?jié)目之間存在相互影響,但并不嚴(yán)重。節(jié)目D由于其內(nèi)容上的豐富性,導(dǎo)致受其他類(lèi)節(jié)目影響比較嚴(yán)重,對(duì)于該類(lèi)節(jié)目,在信息量度量基礎(chǔ)上應(yīng)適當(dāng)提高關(guān)鍵幀提取的密度。節(jié)點(diǎn)E和節(jié)目F檢索結(jié)果相對(duì)較好。節(jié)目G涵蓋的內(nèi)容比較豐富,視頻內(nèi)容變化較大,因此檢索效果比其他類(lèi)型稍差。綜藝類(lèi)節(jié)目的檢索結(jié)果存在很大差異,這是由于其內(nèi)容的多樣性造成的。節(jié)目H和節(jié)目J都在場(chǎng)景和人物上保持著很強(qiáng)相關(guān)性,檢索結(jié)果較好。節(jié)目I的不同期節(jié)目?jī)?nèi)容存在較大差異,檢索結(jié)果較差。圖8給出2個(gè)系統(tǒng)的檢索時(shí)間,可以看出,本文提出的關(guān)鍵幀選擇方法可以有效減少系統(tǒng)在檢索時(shí)的時(shí)間消耗,檢索速度平均提高1.5倍。2個(gè)檢索系統(tǒng)采用相同的特征索引方法,檢索速度的提升主要是基于信息量度量結(jié)果的幀篩選:信息量過(guò)低的幀直接跳過(guò),去除了特征提取和匹配的時(shí)間;低信息量幀不進(jìn)入特征庫(kù),減少了匹配時(shí)間。
信息量度量對(duì)視頻檢索中關(guān)鍵幀選擇具有重要作用,本文提出了基于分塊信息熵的信息量度量方法,其融合了多個(gè)視覺(jué)顯著性模型,采用顏色對(duì)比度和紋理對(duì)比度相融合的方法獲得其顯著圖,模擬視覺(jué)顯著性模型的工作原理,并根據(jù)像素的顯著性對(duì)圖像進(jìn)行處理。該信息量度量方法以圖像的信息熵為基礎(chǔ),提取基于圖像分塊的信息量特征,通過(guò)基于顯著性分析的圖像分塊,不僅包含熵、均值、標(biāo)準(zhǔn)差等信息,還融合了方向和位置信息,實(shí)驗(yàn)表明其度量結(jié)果與人眼視覺(jué)保持較好一致性。
度量方法涉及計(jì)算量小,適用于大規(guī)模視頻檢索系統(tǒng),在實(shí)際視頻檢索系統(tǒng)中的應(yīng)用結(jié)果表明,其有助于減少視頻特征量,提高檢索準(zhǔn)確率和速度。
[1] SHAHRARAY B, GIBBON D C. Automatic generation of pictorial transcripts of video programs[C]//Proc SPIE. c1995: 512-518.
[2] WOLF W. Key frame selection by motion analysis[C]//Acoustics, Speech, and Signal Processing, International Conference, c1996: 1228-1231.
[3] 章毓晉. 基于內(nèi)容的視覺(jué)信息檢索[M]. 北京: 科學(xué)出版社, 2003. ZANG Y J, Content based video information retrieval[M]. Beijing: Science Press, 2003
[4] SAAD M A, BOVIK A C, CHARRIER C. Blind image quality assessment: a natural scene statistics approach in the DCT domain[J]. IEEE Transactions on Image Processing, 2012, 21(8): 3339-3352.
[5] KOCH C, ULLMAN S. Shifts in selective visual attention: towards the underlying neural circuitry[C]//Matters of Intelligence. c1987: 115-141.
[6] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998,20(11):1254-1259.
[7] MA Y F, ZHANG H J. Contrast-based image attention analysis by using fuzzy growing[C]//The eleventh ACM international conference on Multimedia. c2003:374-381.
[8] ZHAI Y, SHAH M. Visual attention detection in video sequences using spatiotemporal cues[C]//14th annual ACM international conference on Multimedia. c2006:815-824.
[9] CHENG M M, ZHANG G X, MITRA N J,. Global contrast based salient region detection[C]//Computer Vision and Pattern Recognition(CVPR). c2011:409-416.
[10] HOU X, HAREL J, KOCH C. Image signature: highlighting sparse salient regions[J]. IEEE Transactions on, Pattern Analysis and Machine Intelligence, 2012, 34(1):194-201.
[11] MAI L, NIU Y, LIU F. Saliency aggregation: a data-driven approach[C]//IEEE Conference. Computer Vision and Pattern Recognition(CVPR). c2013:1131-1138.
[12] BHATTACHARYYA B A. On a measure of divergence between two statistical populations defined by probability distributions[J]. Bulletin of the Calcutta Mathematical Society, 1943, 35:99-110,
[13] PENG J, QING X L. Keyframe-based video summary using visual attention clues[J]. IEEE MultiMedia, 2010, 17(2): 64-73.
[14] LAI J L, YI Y. Key frame extraction based on visual attention model[J]. Journal of Visual Communication and Image Representation, 2012, 23(1): 114-125.
[15] HUA X S, ZHANG H J. An attention-based decision fusion scheme for multimedia information retrieval[C]//Advances in Multimedia Information Processing-PCM 2004. Springer Berlin Heidelberg, c2005: 1001-1010.
[16] MA Y F, HUA X S, LU L, et al. A generic framework of user attention model and its application in video summarization [J]. IEEE Transactions on Multimedia, 2005, 7(5): 907-919.
[17] HU Y, XIE X, MA W Y, et al. Salient region detection using weighted feature maps based on the human visual attention model[C]//Advances in Multimedia Information Processing-PCM 2004. Springer Berlin Heidelberg, c2005: 993-1000.
[18] ARMANFARD Z, BAHMANI H, NASRABADI A M. A novel feature fusion technique in saliency-based visual attention[C]//Advances in Computational Tools for Engineering Applications, c2009:230-233.
[19] LAI J L, YI Y. Key frame extraction based on visual attention model[J]. Journal of Visual Communication and Image Representation, 2012, 23(1): 114-125.
[20] EJAZ N, MEHMOOD I, WOOK B S. Efficient visual attention based framework for extracting key frames from videos [J]. Signal Processing: Image Communication, 2013, 28(1): 34-44.
[21] SMOLA A J, SCH?LKOPF B. A tutorial on support vector regression[J]. Statistics and Computing, 2004, 14(3): 199-222.
[22] PARK J S, CHEN M S, YU P S. Using a hash-based method with transaction trimming for mining association rules[J]. IEEE Transactions on Knowledge and Data Engineering, 1997, 9(5): 813-825.
[23] MITTAL A, MOORTHY A K, BOVIK A C. No-reference image quality assessment in the spatial domain[J]. IEEE Transactions on Image Processing, 2012, 21(12): 4695-4708.
[24] SHEIKH H R, BOVIK A C. Image information and visual quality[J]. IEEE Transactions on Image Processing, 2006, 15(2): 430-444.
Image information measurement for video retrieval
YUAN Qing-sheng1,2, ZHANG Dong-ming3,4, JIN Guo-qing3,4, LIU Fei3,4, BAO Xiu-guo1,2
(1. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100193,China; 2. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China;3. Key Lab of Intelligent Information Processing, Chinese Academy of Sciences, Beijing 100190, China; 4. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China)
To meet the speed and performance requirements, Sub-region entropy based image information measurement (SEII) method was proposed, which integrates the salient region detection, region division and features fusion. And, performance evaluation method was designed and many experiments were carried out, proving SEII coordinates with human vision evaluation. Also, SEII is evaluated in a real video retrieval system, which shows increase about 4.4% ofwith 1.5 times speedup.
video retrieval, key frame selection, image information, salient region, features fusion
TP37
A
10.11959/j.issn.1000-436x.2016033
2015-05-05;
2015-07-21
張冬明,dmzhang@ict.ac.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61273247, No.61303159, No.61271428);國(guó)家高科技研究發(fā)展計(jì)劃(“863”計(jì)劃)基金資助項(xiàng)目(No.2013AA013205)
The National Natural Science Foundation of China (No.61273247, No.61303159, No.61271428), The National High Technology Research and Development Program of China (863 Program)(No.2013AA013205)
袁慶升(1980-),男,山東濟(jì)南人,中國(guó)科學(xué)院信息工程研究所博士生,國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心副高級(jí)工程師,主要研究方向?yàn)槎嗝襟w大數(shù)據(jù)處理、網(wǎng)絡(luò)與信息安全。
張冬明(1977-),男,江蘇鹽城人,中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員、碩士生導(dǎo)師,主要研究方向?yàn)槎嗝襟w內(nèi)容檢索、模式識(shí)別、視頻編碼等。
靳國(guó)慶(1988-),男,山東單縣人,主要研究方向?yàn)槎嗝襟w內(nèi)容檢索、模式識(shí)別等。
劉菲(1989-),女,河北唐山人,中國(guó)科學(xué)院計(jì)算技術(shù)研究所碩士生,主要研究方向?yàn)槎嗝襟w內(nèi)容檢索。
包秀國(guó)(1963-),男,江蘇如皋人,國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心教授級(jí)高級(jí)工程師、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全。