基于用戶興趣語(yǔ)義的視頻關(guān)鍵幀提取

2018-01-08 08:42:09俞璜悅郭夢(mèng)婷

計(jì)算機(jī)應(yīng)用 2017年11期

關(guān)鍵詞：關(guān)鍵幀近義詞檢索

俞璜悅，王晗，郭夢(mèng)婷

(北京林業(yè)大學(xué) 信息學(xué)院，北京 100083)

基于用戶興趣語(yǔ)義的視頻關(guān)鍵幀提取

俞璜悅，王晗*，郭夢(mèng)婷

(北京林業(yè)大學(xué) 信息學(xué)院，北京 100083)

目前，視頻關(guān)鍵信息提取技術(shù)主要集中于根據(jù)視頻低層特征進(jìn)行關(guān)鍵幀的提取，忽略了與用戶興趣相關(guān)的語(yǔ)義信息。對(duì)視頻進(jìn)行語(yǔ)義建模需收集大量已標(biāo)注的視頻訓(xùn)練樣本，費(fèi)時(shí)費(fèi)力。為緩解這一問題，使用大量互聯(lián)網(wǎng)圖像數(shù)據(jù)構(gòu)建基于用戶興趣的語(yǔ)義模型，這些圖像數(shù)據(jù)內(nèi)容豐富、同時(shí)涵蓋大量事件信息；然而，從互聯(lián)網(wǎng)獲取的圖像知識(shí)多樣且常伴隨圖像噪聲，使用蠻力遷移將大幅影響視頻最終提取效果，提出使用近義詞聯(lián)合權(quán)重模型衡量互聯(lián)網(wǎng)中存在差異但語(yǔ)義相近的圖像組，并利用這些圖像組構(gòu)建語(yǔ)義模型。通過(guò)聯(lián)合權(quán)重學(xué)習(xí)獲取語(yǔ)義權(quán)重，每一圖像組在知識(shí)遷移中所起的作用由權(quán)重值決定。使用來(lái)自不同視頻網(wǎng)站的多段視頻對(duì)所提方法進(jìn)行驗(yàn)證，實(shí)驗(yàn)結(jié)果表明對(duì)用戶感興趣的內(nèi)容進(jìn)行聯(lián)合權(quán)重語(yǔ)義建模能更加全面、準(zhǔn)確地獲取信息，從而有效指導(dǎo)視頻關(guān)鍵幀提取。

視頻檢索；關(guān)鍵幀提??；視頻分析；知識(shí)遷移

0 引言

隨著移動(dòng)拍攝技術(shù)和網(wǎng)絡(luò)的高速發(fā)展，每天都有海量的視頻數(shù)據(jù)生成和共享，用戶難以從如此海量的視頻數(shù)據(jù)中獲取到自己感興趣的內(nèi)容。如何對(duì)視頻關(guān)鍵幀進(jìn)行有效識(shí)別、提取，使用戶能快速而準(zhǔn)確地獲取視頻中感興趣的內(nèi)容成為亟須解決的問題。

傳統(tǒng)方法大多基于底層特征對(duì)視頻關(guān)鍵信息進(jìn)行提取[1-3]，忽略了對(duì)用戶感興趣內(nèi)容的選取。而視頻關(guān)鍵幀提取是一個(gè)相對(duì)主觀的工作，當(dāng)視頻內(nèi)容較為復(fù)雜或者持續(xù)時(shí)間較長(zhǎng)時(shí)，不同用戶對(duì)于同一段視頻感興趣的內(nèi)容區(qū)別較大。例如，對(duì)于一場(chǎng)籃球比賽視頻，用戶感興趣的內(nèi)容可能是灌籃、三分球等一些精彩片段，也可能集中在球員的控球姿勢(shì)、球場(chǎng)走位等技術(shù)動(dòng)作，這導(dǎo)致不同用戶對(duì)于視頻關(guān)鍵幀提取的期望有所不同。因此，本文考慮能為不同偏好的用戶在同一段視頻中提取出不同的關(guān)鍵幀。

近年來(lái)，通過(guò)使用視頻高層語(yǔ)義對(duì)關(guān)鍵幀進(jìn)行提取的研究逐漸引起研究人員的關(guān)注：Yao等[4]提出可根據(jù)用戶在互聯(lián)網(wǎng)中的搜索和點(diǎn)擊事件挖掘視頻語(yǔ)義，從而對(duì)視頻進(jìn)行標(biāo)注； El Sayad等[5]指出圖像的語(yǔ)義標(biāo)簽和底層特征決定了其是否能被觀看者記住并產(chǎn)生興趣；王晗等[6]提出收集聯(lián)想關(guān)鍵詞構(gòu)建遷移源域，進(jìn)一步遷移學(xué)習(xí)后實(shí)現(xiàn)視頻標(biāo)注。然而互聯(lián)網(wǎng)中的視頻，尤其體育賽事和影視作品，通常在復(fù)雜的背景下拍攝并包含大量類內(nèi)變化[7]，在這樣的訓(xùn)練和學(xué)習(xí)過(guò)程中，直接對(duì)視頻本身進(jìn)行語(yǔ)義建模需要標(biāo)注大量的視頻，費(fèi)時(shí)費(fèi)力，且視頻中可能存在的模糊、抖動(dòng)情況，給語(yǔ)義建模帶來(lái)極大困難?；ヂ?lián)網(wǎng)中包含大量的已標(biāo)注圖像[8]，這些圖像通常包含豐富信息，且由用戶經(jīng)過(guò)挑選上傳。通過(guò)給定與用戶興趣相關(guān)的關(guān)鍵字，并在互聯(lián)網(wǎng)圖像搜索引擎中進(jìn)行檢索即可獲得大量與用戶興趣語(yǔ)義相關(guān)圖像集。因此，本文考慮將從互聯(lián)網(wǎng)圖像集中習(xí)得的語(yǔ)義模型作為提取與用戶興趣相關(guān)的視頻關(guān)鍵幀的依據(jù)，從而避免為獲得用戶興趣語(yǔ)義模型而標(biāo)注大量視頻作為訓(xùn)練數(shù)據(jù)的繁重工作[9]。

在使用與用戶興趣相關(guān)的關(guān)鍵字進(jìn)行圖像檢索時(shí)，對(duì)于同一個(gè)內(nèi)容，不同用戶可能會(huì)以不同詞匯描述。例如，扣籃、灌籃、補(bǔ)扣、大風(fēng)車等在籃球比賽中都屬于同一種語(yǔ)義內(nèi)容，但這些關(guān)鍵字在互聯(lián)網(wǎng)中進(jìn)行檢索時(shí)，獲得的圖像集會(huì)產(chǎn)生差別[10]，如圖1所示?；诮x詞檢索差異，本文提出一種基于近義詞檢索的聯(lián)合權(quán)重學(xué)習(xí)模型，對(duì)不同用戶提供的興趣內(nèi)容進(jìn)行近似語(yǔ)義建模。通過(guò)對(duì)含有近似語(yǔ)義模型的興趣內(nèi)容進(jìn)行再加權(quán)聯(lián)合學(xué)習(xí)，可獲得關(guān)于一個(gè)用戶感興趣內(nèi)容更全面的視覺信息。另一方面, 為了提高關(guān)鍵幀提取效率，考慮到音頻信號(hào)中同樣蘊(yùn)含豐富信息[11]，且與視頻內(nèi)容有著密切聯(lián)系，本文使用伴生音頻特征對(duì)視頻進(jìn)行篩選，使提取結(jié)果更加高效、準(zhǔn)確。

圖1 近義詞檢索得到不同的圖像集Fig. 1 Different image sets got by synonym searching

本文提出一種面向用戶興趣的視頻關(guān)鍵幀提取算法。首先，根據(jù)用戶興趣從互聯(lián)網(wǎng)圖像搜索引擎中檢索與該興趣語(yǔ)義相關(guān)的圖像集，作為用戶興趣關(guān)鍵幀提取的知識(shí)來(lái)源；其次，通過(guò)對(duì)近義詞圖像組的聯(lián)合權(quán)重學(xué)習(xí)，將圖像中習(xí)得的知識(shí)遷移到視頻中；然后，使用伴生音頻特征對(duì)視頻進(jìn)行預(yù)處理，將視頻分割成為時(shí)長(zhǎng)較短的待提取片段；最后，使用圖像集中習(xí)得的語(yǔ)義模型對(duì)待提取片段進(jìn)行關(guān)鍵幀提取。本文算法框架如圖2所示。

圖2 基于用戶興趣的視頻關(guān)鍵幀提取算法框架Fig. 2 Framework of keyframe extraction based on users’ interests

1 用戶興趣語(yǔ)義獲取

考慮到互聯(lián)網(wǎng)中視頻具有復(fù)雜性和多樣性等特點(diǎn)，不同用戶對(duì)視頻期望關(guān)注的內(nèi)容有所不同[12]，用戶對(duì)于同一興趣語(yǔ)義的描述方式也可能存在差異，為搜集盡可能全面的事件知識(shí)，本文使用基于近義詞檢索的聯(lián)合權(quán)重學(xué)習(xí)模型，圍繞同一興趣語(yǔ)義選取多個(gè)含義相近但存在差異的近義詞構(gòu)建互聯(lián)網(wǎng)索引。例如籃球比賽視頻中球員扣籃行為的索引可為“扣籃”“灌籃”“扣球”等，從互聯(lián)網(wǎng)檢索一個(gè)近義詞可得到與之對(duì)應(yīng)的一組圖像，構(gòu)成近義詞圖像組，這些圖像組內(nèi)容存在差異(如圖1所示)，能從不同方面對(duì)語(yǔ)義進(jìn)行描述，使興趣語(yǔ)義圖像集內(nèi)容更加全面豐富。對(duì)于每一個(gè)興趣語(yǔ)義使用多個(gè)近義詞進(jìn)行檢索，通過(guò)索引構(gòu)建近義圖像組指導(dǎo)近似語(yǔ)義建模，通過(guò)對(duì)近似語(yǔ)義模型的聯(lián)合權(quán)重學(xué)習(xí)，進(jìn)一步提高遷移學(xué)習(xí)有效性，獲取更加完整的語(yǔ)義模型，識(shí)別內(nèi)容能更全面地表征用戶對(duì)于該視頻的關(guān)注點(diǎn)，有針對(duì)性獲取用戶所需的精彩內(nèi)容。

2 針對(duì)用戶興趣的視頻關(guān)鍵幀提取

2.1 基于用戶興趣語(yǔ)義建模

i=1,2,…,Ns,j=1,2,…,ns

(1)

(2)

其中αs表示第s個(gè)近似語(yǔ)義模型的權(quán)重。進(jìn)一步，為求不同近似語(yǔ)義模型的權(quán)重，提高知識(shí)遷移有效性，本文將第i個(gè)圖像集中的圖像視為正樣本，除去第i個(gè)圖像集以外的所有剩余圖像集中的圖像視為負(fù)樣本，構(gòu)建基于F(Zi)的概率預(yù)測(cè)函數(shù)，將求解語(yǔ)義模型轉(zhuǎn)換為計(jì)算邏輯模型參數(shù)α*：

(3)

(4)

2.2 近似語(yǔ)義聯(lián)合權(quán)重學(xué)習(xí)

興趣語(yǔ)義由多個(gè)近似語(yǔ)義組成，近似語(yǔ)義間含有相似語(yǔ)義信息，所描述行為基本一致，為使不同描述詞得到提取結(jié)果差異盡可能小，用戶使用不同描述能得到基本一致且較全面的結(jié)果。本文使用二次規(guī)劃對(duì)模型系數(shù)α*進(jìn)行優(yōu)化，根據(jù)測(cè)試數(shù)據(jù)的計(jì)算結(jié)果調(diào)整αs的取值，為效果較好的圖像組分配較高的權(quán)值。優(yōu)化函數(shù)可描述如下：

(5)

其中μ為函數(shù)系數(shù)。通過(guò)多次迭代計(jì)算模型系數(shù)α，縮小近似語(yǔ)義模型間的差異，用戶通過(guò)不同近義詞描述可得到較為一致且準(zhǔn)確的結(jié)果。

圖3 基于用戶興趣語(yǔ)義的語(yǔ)義模型算法框架Fig. 3 Semantic model framework based on users’ interests

2.3 視頻關(guān)鍵幀提取

本文提出一種基于聯(lián)合權(quán)重的語(yǔ)義模型，收集與興趣語(yǔ)義描述相似的近似語(yǔ)義，構(gòu)建多個(gè)近似圖像組，將多個(gè)圖像組訓(xùn)練所得的近似語(yǔ)義模型通過(guò)聯(lián)合優(yōu)化學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)各組的權(quán)重，構(gòu)建語(yǔ)義模型。該方法能廣泛全面地獲取該興趣語(yǔ)義的數(shù)據(jù)信息，提供更加全面的視覺信息。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)庫(kù)

1)圖像數(shù)據(jù)集。

本文針對(duì)用戶興趣，獲取不同用戶對(duì)視頻的不同關(guān)注點(diǎn)，將每個(gè)興趣語(yǔ)義用多個(gè)近似語(yǔ)義描述，并從互聯(lián)網(wǎng)中檢索與近似語(yǔ)義相關(guān)的圖像組，通過(guò)對(duì)近似語(yǔ)義模型的聯(lián)合權(quán)重學(xué)習(xí)得到最終興趣語(yǔ)義模型，該模型描述信息全面，符合用戶個(gè)性。本文使用百度圖片搜索引擎，每一興趣語(yǔ)義構(gòu)建3～5個(gè)近義詞索引，索引得圖像組由200～300張互聯(lián)網(wǎng)圖像構(gòu)成，使用的檢索關(guān)鍵詞在表1中列出。

2)視頻數(shù)據(jù)集。

現(xiàn)有的大部分視頻數(shù)據(jù)庫(kù)普遍存在時(shí)長(zhǎng)短、特例性強(qiáng)等特點(diǎn)，為充分驗(yàn)證本文方法的合理性與有效性，本文從NBA官網(wǎng)、南非世界杯官網(wǎng)和樂視視頻網(wǎng)站獲取大量視頻數(shù)據(jù)進(jìn)行測(cè)試。其中包含由普通攝像機(jī)拍攝，總時(shí)長(zhǎng)達(dá)300 min的4類體育視頻與一類事件視頻，每類視頻由20段時(shí)間在1～3 min的視頻片段組成。為了更好地分析提取結(jié)果，采用二級(jí)計(jì)分[13]的方式對(duì)目標(biāo)域視頻進(jìn)行關(guān)注點(diǎn)標(biāo)注：首先將原始視頻均勻的分割為時(shí)長(zhǎng)為4 s的視頻片段；然后邀請(qǐng)來(lái)自不同研究領(lǐng)域(包括語(yǔ)言學(xué)、物理學(xué)、經(jīng)濟(jì)管理學(xué)、計(jì)算機(jī)和設(shè)計(jì)美學(xué))的15位測(cè)試人員對(duì)視頻進(jìn)行關(guān)注點(diǎn)標(biāo)記評(píng)級(jí)，同時(shí)記錄測(cè)試員對(duì)視頻中感興趣行為的描述方式。對(duì)于任意一段4 s視頻段，測(cè)試人員可給出0或1兩種分?jǐn)?shù)，其中0代表沒有興趣，1代表產(chǎn)生興趣。結(jié)果統(tǒng)計(jì)時(shí)，同一視頻段的不同描述歸為同一類興趣語(yǔ)義，將15位測(cè)試人員的評(píng)判結(jié)果進(jìn)行統(tǒng)計(jì)，分?jǐn)?shù)高于9分的視頻段認(rèn)為存在用戶普遍感興趣的精彩內(nèi)容。將5類視頻關(guān)注點(diǎn)信息統(tǒng)計(jì)得表1，其中表格第一列指測(cè)試視頻類別，第二列指結(jié)果統(tǒng)計(jì)得出的該視頻中興趣語(yǔ)義個(gè)數(shù)，第三列指對(duì)興趣語(yǔ)義的不同描述(大括號(hào)內(nèi)為對(duì)同一行為的不同描述)。

表1 用戶關(guān)注點(diǎn)統(tǒng)計(jì)Tab. 1 List of user’ interest

3.2 實(shí)驗(yàn)設(shè)置

為降低提取結(jié)果重復(fù)率，本文提取10幀/秒，即一段4 s視頻中將提取40幀進(jìn)行處理。對(duì)視頻幀及互聯(lián)網(wǎng)圖像分別提取了以下特征：1)尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform, SIFT)特征[14]和方向梯度直方圖(Histogram of Oriented Gradients, HOG)特征[15]，通過(guò)量化局部特征比較圖像與視頻幀間的相似性；2)GIST(Generalized Search Trees)特征[16]，由于不同用戶興趣關(guān)注點(diǎn)不同，視頻常常表現(xiàn)為隨意且無(wú)重點(diǎn)，這時(shí)若通過(guò)局部特征去識(shí)別圖像，計(jì)算量巨大，因此本文利用GIST特征忽略圖像的局部特點(diǎn)，用一種更加“宏觀”的方式去描述圖像，降低計(jì)算復(fù)雜度；3)顏色直方圖特征[17]，用來(lái)描述不同色彩在圖像中所占的比例,將特征融合為4 324維特征向量，構(gòu)建訓(xùn)練集與測(cè)試集數(shù)據(jù)。

考慮到音頻信號(hào)蘊(yùn)含豐富的語(yǔ)義，并與視頻聯(lián)系緊密，能有效反映視頻內(nèi)容變化，本文使用音頻短時(shí)能量特征對(duì)視頻進(jìn)行預(yù)處理，篩選出能量值高的視頻段以提高算法準(zhǔn)確率。根據(jù)測(cè)試人員評(píng)分結(jié)果選取E=18為短時(shí)能量閾值，用于精彩片段篩選。進(jìn)一步，為盡可能客觀地對(duì)比不同方法間的結(jié)果差異，本文選用平均正確率(Average Precision， AP)、平均正確率均值(mean Average Precision, mAP)和運(yùn)行時(shí)間(Runtime, RT)對(duì)算法性能進(jìn)行評(píng)價(jià)。

3.3 實(shí)驗(yàn)結(jié)果

1)視頻預(yù)處理結(jié)果驗(yàn)證。

選取視頻長(zhǎng)度相同的各類視頻進(jìn)行測(cè)試，將未使用音頻預(yù)處理的方法與本文方法(使用音頻處理)進(jìn)行對(duì)比。表2展示了兩種方式算法總運(yùn)行時(shí)間(s)和結(jié)果mAP(%)對(duì)比，其中在計(jì)算使用本文方法測(cè)試的總運(yùn)行時(shí)間時(shí)，將音頻處理時(shí)間包含在內(nèi)。圖4給出本文方法的最終提取結(jié)果，其中對(duì)于每一類視頻由上至下依次為該視頻不同興趣語(yǔ)義的提取結(jié)果，紅叉標(biāo)記則表示提取錯(cuò)誤。由實(shí)驗(yàn)結(jié)果可看出，采用音頻信號(hào)指導(dǎo)視頻關(guān)鍵信息提取能有效縮減算法運(yùn)行時(shí)間，使用短時(shí)能量閾值對(duì)視頻進(jìn)行分割能將算法時(shí)間縮減76.5%以上，極大程度提高了算法運(yùn)行效率；同時(shí)，使用音頻信號(hào)指導(dǎo)視頻預(yù)處理能提高結(jié)果準(zhǔn)確率，有效排除計(jì)算過(guò)程中特例干擾，避免在計(jì)算過(guò)程中由于個(gè)別特征點(diǎn)引起分類函數(shù)偏移等情況。綜上所述，使用音頻信號(hào)指導(dǎo)視頻關(guān)鍵信息提取能有效縮減算法運(yùn)行時(shí)間，同時(shí)保證結(jié)果準(zhǔn)確可靠。

2)近似語(yǔ)義分組訓(xùn)練結(jié)果驗(yàn)證。

將對(duì)比實(shí)驗(yàn)設(shè)置為不對(duì)興趣語(yǔ)義進(jìn)行近似語(yǔ)義的聯(lián)合權(quán)重學(xué)習(xí)，直接對(duì)用戶選擇的興趣語(yǔ)義構(gòu)建索引，從互聯(lián)網(wǎng)檢索獲取該語(yǔ)義圖像集，根據(jù)圖像集進(jìn)行模型訓(xùn)練,將本文方法與對(duì)比實(shí)驗(yàn)進(jìn)行結(jié)果mAP對(duì)比。由實(shí)驗(yàn)結(jié)果表3可以看出，對(duì)同一語(yǔ)義進(jìn)行多個(gè)近似語(yǔ)義分組學(xué)習(xí)將mAP提高了51.5%，多組學(xué)習(xí)能有效提高結(jié)果準(zhǔn)確率，適用于不同用戶的不同描述。注意到本文方法與對(duì)比實(shí)驗(yàn)在生日類視頻上mAP值相近，僅提高3.1%，這是由于生日類視頻對(duì)比其他視頻可關(guān)注信息較少，且用戶描述較為統(tǒng)一，近似語(yǔ)義間差異較小，但對(duì)比籃球類視頻本文方法較對(duì)比實(shí)驗(yàn)mAP提高了134.6%，這是由于籃球類視頻中可關(guān)注點(diǎn)較多，且不同用戶興趣差異較大，容易產(chǎn)生不同的興趣語(yǔ)義描述，進(jìn)一步說(shuō)明本文方法針對(duì)內(nèi)容復(fù)雜、可關(guān)注點(diǎn)較多的視頻有較好分類效果。

表2 是否對(duì)視頻使用音頻預(yù)處理效果對(duì)比Tab. 2 Comparison results between keyframe extraction with and without audio preprocessing

圖4 使用本文方法提取結(jié)果Fig. 4 Results extracted by the proposed method

3)與傳統(tǒng)關(guān)鍵幀提取方法對(duì)比。

本文使用基于關(guān)鍵幀的視頻關(guān)鍵信息提取算法框架，下面將本文方法與下列傳統(tǒng)關(guān)鍵幀提取法進(jìn)行對(duì)比：

隨機(jī)選取法構(gòu)造隨機(jī)模擬器，模擬生成多個(gè)在[0,1]服從均勻分布的隨機(jī)樣本點(diǎn)ν，得到隨機(jī)數(shù)rand=ν·(NS·ns)，從測(cè)試視頻中選取對(duì)應(yīng)幀圖像作為視頻關(guān)鍵信息，該方法不考慮用戶需求且不使用圖像特征進(jìn)行訓(xùn)練。

表3 是否進(jìn)行近似語(yǔ)義分組學(xué)習(xí)mAP對(duì)比 %Tab. 3 mAP comparison between keyframe extraction with and without similar semantic group learning %

顏色直方圖對(duì)比法考慮使用文獻(xiàn)[18]提出的基于RGB顏色特征聚類算法，對(duì)訓(xùn)練圖像和視頻幀進(jìn)行基于顏色特征的聚類，定義4個(gè)聚類中心對(duì)彩色圖像進(jìn)行迭代聚類，將圖像每個(gè)像素的R、G和B的值都分成4×4區(qū)域，統(tǒng)計(jì)直方圖顏色信息，并對(duì)比測(cè)試圖像與訓(xùn)練幀間顏色直方圖的歐氏距離進(jìn)行關(guān)鍵信息提取。

特征向量比較法使用PCA(Principal Component Analysis)算法對(duì)本文算法中提取的4 324維特征向量(顏色直方圖、SIFT、GIST和HOG2x2)進(jìn)行降維處理，然后直接計(jì)算測(cè)試圖像與視頻幀特征空間的KNN(k-Nearest Neighbor)距離，不采用任何分類函數(shù)構(gòu)建分類器，設(shè)定k=4，提取距離較小的視頻幀作為視頻關(guān)鍵信息。

基于有向無(wú)環(huán)圖的支持向量機(jī)分類算法(Directed Acyclic Graph and Support Vector Machine, DAG-SVM)的線性分類法在獲取用戶對(duì)視頻的興趣語(yǔ)義后，使用Platt等[19]提出的分類算法，針對(duì)NS個(gè)興趣語(yǔ)義構(gòu)造NS(NS-1)個(gè)分類器(節(jié)點(diǎn))，所有分類器構(gòu)成兩面有向無(wú)環(huán)圖，當(dāng)對(duì)測(cè)試幀進(jìn)行分類時(shí)，從頂部根節(jié)點(diǎn)開始逐層細(xì)分直到底部葉子節(jié)點(diǎn)，每一段視頻導(dǎo)入后將根據(jù)分類結(jié)果對(duì)視頻幀進(jìn)行標(biāo)記提取。

表4展示了不同關(guān)鍵幀提取方法與本文方法的mAP對(duì)比，圖5給出不同算法運(yùn)行時(shí)間。

表4 不同關(guān)鍵幀提取方法的mAP結(jié)果對(duì)比 %Tab. 4 Comparison of mAP results by different keyframe extraction methods %

對(duì)比DAG-SVM算法和本文方法結(jié)果可以看出，同樣使用基于支持向量機(jī)(Support Vector Machine, SVM)分類的基本思想，本文方法mAP與DAG-SVM相比提高了82.9%，這是由于DAG-SVM僅使用單圖像集訓(xùn)練語(yǔ)義模型，沒有考慮同一語(yǔ)義有多種近似描述，無(wú)法全面獲取全部語(yǔ)義信息；顏色直方圖對(duì)比和特征向量比較法采用蠻力遷移的方式，計(jì)算過(guò)程中將測(cè)試視頻幀的每一項(xiàng)特征值與對(duì)應(yīng)訓(xùn)練圖像進(jìn)行對(duì)比，耗費(fèi)大量時(shí)間，準(zhǔn)確度較差；對(duì)于游泳、跳水等內(nèi)容顏色分布單一、主色調(diào)明顯的視頻，顏色直方圖對(duì)比算法能有較好表現(xiàn)。

圖5 本文方法與傳統(tǒng)關(guān)鍵幀提取方法的運(yùn)行耗時(shí)對(duì)比Fig. 5 Comparison of runtime between the proposed method and traditional keyframe extraction methods

4)與遷移學(xué)習(xí)方法對(duì)比。

在模型訓(xùn)練階段本文使用了遷移學(xué)習(xí)的算法思想，下面將本文方法與下列不同類別的遷移學(xué)習(xí)算法進(jìn)行對(duì)比：

子空間配準(zhǔn)(Domain Adaptation using Subspace Alignment，DA-SA)算法[20]將測(cè)試幀與訓(xùn)練圖像看作不同空間上的特征集合，采用構(gòu)建特征子空間的方式連接兩個(gè)空間中不同特征，從而對(duì)測(cè)試幀與訓(xùn)練圖像進(jìn)行相似度比較。

GFK(Geodesic Flow Kernel)核函數(shù)法[21]將源域(訓(xùn)練圖像集)和目標(biāo)域(測(cè)試幀集合)的數(shù)據(jù)在Grassmann流形空間標(biāo)記并連接，通過(guò)核函數(shù)最大限度地?cái)M合不同域間的差異，得到與源域數(shù)據(jù)最相近的目標(biāo)域視頻提取結(jié)果。

表5展示了不同種特征遷移方法與本文方法的mAP結(jié)果對(duì)比，圖6給出不同算法運(yùn)行時(shí)間。由提取結(jié)果可看出DA-SA算法和GFK算法在最后結(jié)果上表現(xiàn)相似，由于足球視頻多采用航拍方式，畫面中物體較小，在圖像歸一化中易將關(guān)鍵信息忽略[22]，因此該類視頻mAP僅有0.23和0.24。

表5 不同遷移學(xué)習(xí)算法的mAP結(jié)果對(duì)比 %Tab. 5 mAP results of different transfer learning methods %

4 結(jié)語(yǔ)

本文提出了一種基于用戶興趣的視頻關(guān)鍵幀提取框架，根據(jù)用戶興趣的不同使用網(wǎng)絡(luò)圖像提供的視覺知識(shí)對(duì)同一段視頻提取相應(yīng)關(guān)鍵幀。在這個(gè)框架下，通過(guò)使用同一語(yǔ)義多個(gè)近義詞在互聯(lián)網(wǎng)圖像搜索引擎中進(jìn)行檢索，將所得到的圖像集劃分為不同的組。根據(jù)不同圖像組與視頻之間的相關(guān)性，通過(guò)一種聯(lián)合優(yōu)化學(xué)習(xí)的方法，自動(dòng)學(xué)習(xí)各組的權(quán)重，從而獲得關(guān)于用戶興趣語(yǔ)義模型，進(jìn)一步指導(dǎo)視頻關(guān)鍵幀提取。實(shí)驗(yàn)結(jié)果表明，本文方法不僅能提取高質(zhì)量的視頻關(guān)鍵信息，并且通過(guò)用戶自主選擇能更加合理有效地針對(duì)用戶興趣得出結(jié)果，提高視頻用戶對(duì)視頻瀏覽的效率。

圖6 本文算法與不同遷移學(xué)習(xí)方法的運(yùn)行耗時(shí)對(duì)比Fig. 6 Comparison of runtime between the proposed method and different transfer learning methods

References)

[1] WOLF W H. Key frame selection by motion analysis[C]// Proceedings of the 1996 IEEE Conference on Acoustics, Speech, and Signal Processing. Washington, DC: IEEE Computer Society, 1996: 1228-1231.

[2] ZHANG H, WU J, ZHONG D, et al. An integrated system for content-based video retrieval and browsing[J]. Pattern Recognition, 1997, 30(4): 643-658.

[3] LU Z, GRAUMAN K. Story-driven summarization for egocentric video[C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 2714-2721.

[4] YAO T, MEI T, NGO C, et al. Annotation for free: video tagging by mining user search behavior[C]// Proceedings of the 21st ACM International Conference on Multimedia. New York: ACM, 2013: 977-986.

[5] EL SAYAD I, MARTINET J, URRUTY T, et al.A semantically significant visual representation for social image retrieval[C]// Proceedings of the 2011 IEEE International Conference on Multimedia and Expo. Washington, DC: IEEE Computer Society, 2011: 1-6.

[6] 王晗,吳心筱,賈云得. 使用異構(gòu)互聯(lián)網(wǎng)圖像組的視頻標(biāo)注[J]. 計(jì)算機(jī)學(xué)報(bào),2013,36(10):2062-2069.(WANG H, WU X X, JIA Y D. Video annotation by using heterogeneous multiple image groups on the Web[J].Chinese Journal of Computers, 2013,36(10): 2062-2069.)

[7] 王晗. 基于遷移學(xué)習(xí)的視頻標(biāo)注方法[D]. 北京:北京理工大學(xué), 2014.(WANG H. Video annotation based on transfer learning[D]. Beijing: Beijing Institute of Technology, 2014.)

[8] WANG H, WU X. Finding event videos via image search engine[C]// Proceedings of the 2015 IEEE International Conference on Data Mining Workshop. Washington, DC: IEEE Computer Society, 2015: 1221-1228.

[9] WANG H, WU X, JIA Y. Video Annotation via image groups from the Web[J]. IEEE Transactions on Multimedia, 2014, 16(5): 1282-1291.

[10] WANG H, SONG H, WU X, et al. Video annotation by incremental learning from grouped heterogeneous sources[C]// Proceedings of the 12th Asian Conference on Computer Vision. Berlin: Springer, 2014: 493-507.

[11] 余春艷,翁子林.音頻情感感知與視頻精彩片段提取[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2015, 27(10): 1890-1899.(YU C Y, WENG Z L. Audio emotion perception and video highlight extraction[J].Journal of Computer Aided Design and Computer Graphics,2015,27(10):1890-1899.)

[12] ZHANG K, CHAO W, SHA F, et al. Summary transfer: exemplar-based subset selection for video summarization[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1059-1067.

[13] YAO T, MEI T, RUI Y. Highlight detection with pairwise deep ranking for first-person video summarization[C]// Proceedings 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 982-990.

[14] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[15] HOIEM D,EFROS A, HEBERT M. Recovering surface layout from an image[J]. International Journal of Computer Vision, 2007,75(1): 151-172.

[16] OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175.

[17] SWAIN M J, BALLARD D H. Indexing via color histograms[C]// Proceedings of the 3rd International Conference on Computer Vision. Piscataway, NJ: IEEE, 1990: 390-393.

[18] MEI T, TANG L, TANG J, et al. Near-lossless semantic video summarization and its applications to video analysis[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2013, 9(3): Article No. 16.

[19] PLATT J C, CRISTIANINI N, SHAWE-TAYLOR J. Large margin DAGs for multiclass classification[J]. Advances in Neural Information Processing Systems, 2000, 12(3): 547-553.

[20] FERNANDO B, HABRARD A, SEBBAN M, et al. Unsupervised visual domain adaptation using subspace alignment[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 2960-2967.

[21] GRAUMAN K. Geodesic flow kernel for unsupervised domain adaptation[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 2066-2073.

[22] MENG J, WANG H, YUAN J, et al. From keyframes to key objects: video summarization by representative object proposal selection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1039-1048.

This work is partially supported by the Fundamental Research Funds for the Central Universities (2015ZCQ-XX).

YUHuangyue, born in 1996. Her research interests include digital image processing, video retrieval.

WANGHan, born in 1986, Ph. D., lecturer. Her research interests include video image retrieval, machine learning.

GUOMengting, born in 1996. Her research interests include image processing, image retrieval.

Videokeyframeextractionbasedonusers’interests

YU Huangyue, WANG Han*, GUO Mengting

(CollegeofInformationScienceandTechnology,BeijingForestryUniversity,Beijing100083,China)

At present, the video key information extraction technology mainly focuses on the extraction of key frames according to the characteristics of video low-level, and ignores the semantic information related to users’ interests. Semantic modeling of video requires a large number of marked video training samples, which is time consuming and laborious. To alleviate this problem, a large amount of Internet image data was used to construct a semantic model based on users’ interests, which was rich in content and covered a large amount of event information. However, the images obtained from the Internet were diversed and often accompanied by image noise, the final extraction of video would be greatly affected by brute force migration. The synonym-weight model was used to measure the differences of the semantically similar image groups on the Internet, and these image groups were used to construct a semantic model. The weight of each image group in knowledge migration was determined by the weight value. The experimental results on several challenging video datasets demonstrate that semantic modeling based on users’ interests combined with weights is more comprehensive and accurate, so as to effectively guide the video key frame extraction.

video retrieval; keyframe extraction; video analysis; knowledge transfer

2017- 05- 16;

2017- 06- 26。

中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(2015ZCQ- XX)。

俞璜悅(1996—)，女，江西南昌人，主要研究方向：數(shù)字圖像處理、視頻檢索；王晗(1986—)，女，湖南長(zhǎng)沙人，講師，博士，主要研究方向：視頻圖像檢索、機(jī)器學(xué)習(xí); 郭夢(mèng)婷(1996—),女，北京人，主要研究方向：圖像處理、圖像檢索。

1001- 9081(2017)11- 3139- 06

10.11772/j.issn.1001- 9081.2017.11.3139

(*通信作者電子郵箱wanghan@bjfu.edu.cn)

TP391.41

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于用戶興趣語(yǔ)義的視頻關(guān)鍵幀提取

0 引言

1 用戶興趣語(yǔ)義獲取

2 針對(duì)用戶興趣的視頻關(guān)鍵幀提取

2.1 基于用戶興趣語(yǔ)義建模

2.2 近似語(yǔ)義聯(lián)合權(quán)重學(xué)習(xí)

2.3 視頻關(guān)鍵幀提取

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)庫(kù)

3.2 實(shí)驗(yàn)設(shè)置

3.3 實(shí)驗(yàn)結(jié)果

4 結(jié)語(yǔ)