亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        短視頻場(chǎng)景在線起始檢測(cè)任務(wù)及方法研究

        2021-11-30 05:15:12李煜堃何艾蓮王亞立彭小江
        集成技術(shù) 2021年6期
        關(guān)鍵詞:特征檢測(cè)

        李煜堃 劉 熠 周 林 何艾蓮 王亞立 彭小江 喬 宇*

        1(中國科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)

        2(中國科學(xué)院大學(xué)深圳先進(jìn)技術(shù)研究院 深圳 518055)

        1 引 言

        視頻行為理解因其在視頻內(nèi)容分析、智能監(jiān)控、人機(jī)交互等方面的廣闊應(yīng)用前景而在人工智能和計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的研究。在學(xué)術(shù)界,關(guān)于視頻理解已存在許多相關(guān)主題,例如修剪視頻的行為分類[1]、未修剪視頻中的行為識(shí)別[2]、時(shí)序行為檢測(cè)[3]、時(shí)空行為定位[4]及視頻高光時(shí)刻檢測(cè)[5]。但是,這些任務(wù)所專注的研究都是離線設(shè)置下的,即需要以完整視頻作為輸入,待獲取全部視頻信息后輸出結(jié)果。

        自 2016 年以來,先后出現(xiàn)了一些在線設(shè)置下的視頻動(dòng)作研究工作,即在僅獲取過去及當(dāng)前視頻幀信息的條件下輸出當(dāng)前結(jié)果,如在線動(dòng)作檢測(cè)[6]、在線動(dòng)作預(yù)測(cè)[7]和在線動(dòng)作起始檢測(cè)[8-9]。在線任務(wù)除了需要解決離線設(shè)置下視頻理解任務(wù)的所有難點(diǎn)以外,還需要解決視頻幀下文信息不足的問題。因此,與離線任務(wù)相比,在線任務(wù)更具挑戰(zhàn)性。目前,上述任務(wù)的研究大多是在原本作為離線設(shè)置下動(dòng)作檢測(cè)的數(shù)據(jù)集上完成的,如 THUMOS’14[10]、ActivityNet[2]或一些從電視劇集中獲取的長視頻數(shù)據(jù)集(如TVseries[11])。這些數(shù)據(jù)集的視頻通常平均時(shí)長為數(shù)分鐘甚至數(shù)十分鐘,并且類別基本集中在人的動(dòng)作上。盡管短視頻在諸多移動(dòng)端應(yīng)用中無處不在,但豐富場(chǎng)景下的短視頻在線檢測(cè)的相關(guān)研究依然有所欠缺。

        基于此,本文著眼于手機(jī)端短視頻的視頻理解提出在線精彩時(shí)刻起始檢測(cè)(Online Highlight Start Detection,OHSD)任務(wù)。OHSD 任務(wù)的研究有助于在手機(jī)端 AI 相機(jī)應(yīng)用中實(shí)現(xiàn)智能啟用慢動(dòng)作錄制或觸發(fā)其他預(yù)設(shè)特定效果。為了適應(yīng)此任務(wù)的研究,本研究首先采集和構(gòu)建了一個(gè)名為Highlight45 的大規(guī)模手機(jī)短視頻數(shù)據(jù)集。該數(shù)據(jù)集包含來自日常生活中 45 個(gè)不同類別的 9 751 個(gè)高分辨率手機(jī)拍攝視頻。這些類別的設(shè)定主要是通過調(diào)研手機(jī)用戶在拍攝過程中的偏好確定,定義為精彩時(shí)刻(Highlight):一方面,因?yàn)楸緮?shù)據(jù)集中的類別不僅局限于人類動(dòng)作,還包括自然場(chǎng)景、動(dòng)物、人物交互等大類,因此需要與之前的動(dòng)作檢測(cè)進(jìn)行區(qū)分;另一方面,這一定義也契合本研究所關(guān)注的應(yīng)用場(chǎng)景。數(shù)據(jù)集中所有視頻均是未經(jīng)裁剪的原始手機(jī)視頻,并對(duì)每一個(gè)視頻進(jìn)行了精彩時(shí)刻起止點(diǎn)的標(biāo)注。針對(duì) OHSD 任務(wù),本研究設(shè)計(jì)了兩個(gè)評(píng)測(cè)指標(biāo)以評(píng)估在線起始檢測(cè)的效果:首次檢測(cè)時(shí)的平均查準(zhǔn)率(Average Precision@First,AP@1)和平均次數(shù)的平均召回率(Average Recall@Average Number,AR@AN)。具體來說,前者側(cè)重于在線評(píng)估,僅考慮網(wǎng)絡(luò)輸出的首個(gè)檢測(cè)結(jié)果;而后者則對(duì)完整視頻處理完后的所有檢測(cè)結(jié)果進(jìn)行整體評(píng)價(jià)。

        實(shí)驗(yàn)部分給出了在線檢測(cè)任務(wù)中常用的基于遞歸神經(jīng)網(wǎng)絡(luò)系列的幾種網(wǎng)絡(luò)的基準(zhǔn)結(jié)果,并設(shè)計(jì)了一種基于帶孔時(shí)序卷積的網(wǎng)絡(luò)結(jié)構(gòu)(Highlight-Net)以更好地利用圖像色彩(RGB)信息和光流(Flow)信息。為了更好地解決起始檢測(cè)任務(wù)中背景幀和前景幀之間難以區(qū)分的問題,本研究進(jìn)一步設(shè)計(jì)了序列對(duì)比損失函數(shù)。實(shí)驗(yàn)結(jié)果表明,新的網(wǎng)絡(luò)結(jié)構(gòu)及損失函數(shù)顯著地提升了檢測(cè)效果,可以作為 OHSD 任務(wù)很強(qiáng)的一個(gè)基線方法。在最后,本研究通過具體類別的實(shí)例分析,闡明了以往在線評(píng)價(jià)指標(biāo)存在的問題和本研究所提出的評(píng)價(jià)指標(biāo)的合理性。

        2 在線起始檢測(cè)數(shù)據(jù)集介紹

        2.1 數(shù)據(jù)采集

        鑒于手機(jī)短視頻場(chǎng)景下視頻在線檢測(cè)及在線起始檢測(cè)任務(wù)數(shù)據(jù)集較少,本文構(gòu)建了一個(gè)名為Highlight45 的大規(guī)模手機(jī)短視頻數(shù)據(jù)集:首先,通過調(diào)研日常生活中手機(jī)拍攝精彩時(shí)刻視頻內(nèi)容確定了涵蓋動(dòng)物、人類行為、人物交互和場(chǎng)景 4大類型共計(jì) 45 個(gè)類別的設(shè)定;然后,以眾包的方式收集視頻以確保每個(gè)類別內(nèi)容的多樣性,并經(jīng)過人工逐個(gè)檢查視頻質(zhì)量,剔除了分辨率低、攝像機(jī)運(yùn)動(dòng)劇烈等低質(zhì)量視頻。最終形成的數(shù)據(jù)集中每個(gè)類別均有約 200 個(gè)視頻,共計(jì) 9 751 個(gè)視頻,以保證樣本平衡。為了獲得盡可能準(zhǔn)確的精彩時(shí)刻起始標(biāo)注,首先對(duì)每個(gè)類別提供了起始判定的參考依據(jù)并給出參考實(shí)例。考慮到手機(jī)短視頻的特性及本任務(wù)應(yīng)用的側(cè)重點(diǎn),每個(gè)視頻僅標(biāo)注 1 個(gè)實(shí)例。經(jīng)過統(tǒng)計(jì),本數(shù)據(jù)集中大部分視頻幀數(shù)少于 200,同時(shí)有很大比例視頻的精彩時(shí)刻持續(xù)幀數(shù)少于 20,這意味著對(duì)本數(shù)據(jù)集精細(xì)化的時(shí)序起始檢測(cè)將更具難度。從結(jié)果分析來看,表現(xiàn)不好的類別也確實(shí)是這些幀數(shù)少的類別。圖 1展示了本數(shù)據(jù)集的統(tǒng)計(jì)特性。

        圖1 Highlight45 數(shù)據(jù)集統(tǒng)計(jì)特性Fig.1 Statics of Highlight45

        2.2 任務(wù)定義及評(píng)價(jià)指標(biāo)

        2.2.1 在線起始檢測(cè)任務(wù)

        對(duì)于 OHSD 任務(wù)而言,網(wǎng)絡(luò)需要在僅獲取過去和當(dāng)前幀信息的情況下,輸出當(dāng)前幀的類別以及 Highlight 分?jǐn)?shù)。整體而言,首先通過特征提取網(wǎng)絡(luò)提取幀級(jí)別特征,然后使用時(shí)序建模模塊集成歷史信息以幫助當(dāng)前幀的分類,最后使用分類器來判斷 Highlight 事件的起始。具體來說,可以劃分為類別相關(guān)和類別無關(guān)兩個(gè)子任務(wù)。在類別相關(guān)的設(shè)置中,網(wǎng)絡(luò)除了需要輸出判定為事件起始的分?jǐn)?shù)以外還需要作出正確的分類,而類別無關(guān)的設(shè)置下僅需要給出起始的分?jǐn)?shù)而對(duì)類別正確與否沒有要求。考慮到實(shí)際應(yīng)用中具體到幀級(jí)別的起始點(diǎn)判定方式過于嚴(yán)苛,同時(shí)不同類別實(shí)際上有不同程度的檢測(cè)敏感度要求,因此本文提出自適應(yīng)時(shí)間容差窗口(Time Tolerance Window)的概念,即網(wǎng)絡(luò)判定的起始幀只要落在實(shí)際標(biāo)注的起始幀前后若干幀內(nèi)即算正確,窗口大小與實(shí)例時(shí)長相關(guān)。

        2.2.2 評(píng)價(jià)指標(biāo)

        參考以往在線檢測(cè)任務(wù)中,在線動(dòng)作檢測(cè)(Online Action Detection)[11]通常使用幀級(jí)別平均查準(zhǔn)率(frame Average Precision,frame-AP)以及考慮了平衡背景影響的幀級(jí)別校準(zhǔn)平均查準(zhǔn)率(calibrated Average Precision,cAP)兩個(gè)指標(biāo)。鑒于這兩個(gè)指標(biāo)主要適用于在線幀分類問題而不適用于起始檢測(cè),有學(xué)者在在線起始檢測(cè)任務(wù)中[9]提出了點(diǎn)級(jí)別平均查準(zhǔn)率(point-level Average Precition,p-AP)——更多地適應(yīng)于多實(shí)例視頻下的起始點(diǎn)評(píng)價(jià)(如 THUMOS’14 數(shù)據(jù)集)。然而,該指標(biāo)統(tǒng)計(jì)評(píng)價(jià)整個(gè)視頻所有的檢測(cè)結(jié)果,并不能適配 OHSD 任務(wù)中面向?qū)嶋H應(yīng)用的情形。

        對(duì)于短視頻場(chǎng)景下的 OHSD 任務(wù),往往關(guān)注算法能否及時(shí)正確地輸出首個(gè)起始點(diǎn)的檢測(cè)結(jié)果。因此,本研究引入了兩個(gè)新穎的視頻級(jí)評(píng)價(jià)標(biāo)準(zhǔn)——AP@1 和 AR@AN。為了更加公平地評(píng)估不同難度下的起始查準(zhǔn)率,使用實(shí)例自適應(yīng)時(shí)間容差窗口來判定正確的預(yù)測(cè)。對(duì)于每個(gè)視頻,實(shí)例自適應(yīng)時(shí)間容差窗口的定義為:

        其中,Sgt和Egt分別為視頻中標(biāo)注的起始和結(jié)束時(shí)間點(diǎn);α為偏移容差系數(shù),其大小決定了評(píng)價(jià)指標(biāo)的嚴(yán)格程度,在實(shí)驗(yàn)中,該系數(shù)分別設(shè)置為0.1、0.2、0.3 以進(jìn)行比較。

        AP@1 是完全在線評(píng)估的指標(biāo),算法不能在處理完全部視頻后進(jìn)行后處理(如按照分?jǐn)?shù)進(jìn)行排序篩選),僅提供輸出的首個(gè)檢測(cè)結(jié)果作為評(píng)判。形式上 AP@1 可以表示為:

        其中,N為參與評(píng)價(jià)的視頻總數(shù); 為第i個(gè)視頻中首個(gè)起始檢測(cè)時(shí)間點(diǎn)(幀號(hào)); 為指示函數(shù),如果檢測(cè)到的幀號(hào)落入上述時(shí)間窗口內(nèi),則判定為 1,否則為 0。AP@1 反映了所有視頻在線輸出起始檢測(cè)的正確比例。

        AR@AN 作為離線評(píng)價(jià)指標(biāo)進(jìn)行輔助評(píng)價(jià),允許算法在處理完全部視頻后進(jìn)行后處理。對(duì)于每個(gè)視頻,系統(tǒng)首先將所有檢測(cè)出的起始結(jié)果按其置信度分?jǐn)?shù)排序,然后將前N個(gè)預(yù)測(cè)結(jié)果用于召回率評(píng)估。若前N個(gè)預(yù)測(cè)結(jié)果中有任何一個(gè)落入上述時(shí)間窗口,則正確值加 1。在本數(shù)據(jù)集的設(shè)置下,每個(gè)視頻只有一個(gè)實(shí)例需要判斷,因此設(shè)定 AN(Average Number)的值為 1 和 2 進(jìn)行評(píng)價(jià)。

        3 網(wǎng)絡(luò)設(shè)計(jì)

        3.1 混合雙流網(wǎng)絡(luò)

        在線動(dòng)作分析的方法流程通常是先通過雙流網(wǎng)絡(luò)分別提取 RGB 和 Flow 特征,然后將兩種模態(tài)的特征拼接起來作為后續(xù)網(wǎng)絡(luò)框架的輸入。這種簡(jiǎn)單且直接的先融合策略雖然同時(shí)利用了兩種模態(tài)的信息,但可能會(huì)使后續(xù)時(shí)序建模網(wǎng)絡(luò)對(duì)外觀和運(yùn)動(dòng)特征產(chǎn)生混淆,導(dǎo)致對(duì)時(shí)間維度信息更敏感的在線設(shè)置下任務(wù)產(chǎn)生更為顯著的混淆。經(jīng)過實(shí)驗(yàn)可以驗(yàn)證,在線起始檢測(cè)任務(wù)中,在幀級(jí)別的 RGB 特征上添加時(shí)序建模模塊對(duì)整體性能有負(fù)面影響。在線時(shí)序檢測(cè)任務(wù)中時(shí)序建模網(wǎng)絡(luò)通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)(如 LSTM[12]和GRU[13]),但 Wang 等[14]指出,使用帶孔因果卷積的效果會(huì)優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)。因此,本研究針對(duì) OHSD 任務(wù)設(shè)計(jì)了一種基于帶孔因果卷積的混合雙流網(wǎng)絡(luò)結(jié)構(gòu)(Highlight-Net)從而更有效地利用兩種不同模態(tài)的特征。

        圖 2 展示了該網(wǎng)絡(luò)結(jié)構(gòu)的整體流程圖。整個(gè)網(wǎng)絡(luò)劃分為 RGB 分支和 Flow 分支。對(duì)于 RGB分支,為了最大限度保留幀本身的信息,采用圖像領(lǐng)域常用的卷積神經(jīng)網(wǎng)絡(luò) ResNet50[15]進(jìn)行幀級(jí)別的特征提取和分類。對(duì)于 Flow分支,首先采取 BN-Inception[16]對(duì)過去L-1 幀及當(dāng)前幀的光流輸入進(jìn)行特征提取,這些特征通過全連接層和 ReLU 激活函數(shù)變形后組成片段級(jí)特征序列;然后將此特征序列輸入名為“帶孔因果卷積”(Dilated Casual Convolution,DCC)[17]的時(shí)序建模模塊中,用來替代之前序列任務(wù)一般采用的循環(huán)神經(jīng)網(wǎng)絡(luò)。因果卷積保證了網(wǎng)絡(luò)的“在線”性質(zhì),同時(shí)帶孔卷積保證了對(duì)長時(shí)歷史信息的保留。

        圖2 Highlight-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network architecture of Highlight-Net

        其中,r為帶孔卷積比例,反應(yīng)時(shí)序卷積在采樣幀的間隔幀數(shù);W表示尺寸為s、通道數(shù)為do的1D 卷積核。RGB 和 Flow 分支的分?jǐn)?shù)最終通過加權(quán)求和的方式進(jìn)行后融合以作為當(dāng)前幀最終的起始判定分?jǐn)?shù)。

        3.2 序列對(duì)比損失

        在 Flow 分支中,特征以時(shí)序序列的形式進(jìn)行輸入。由于視頻任務(wù)中幀的連續(xù)性特點(diǎn),起始點(diǎn)前后若干幀的特征十分相近,從而造成網(wǎng)絡(luò)難以準(zhǔn)確檢測(cè)起始點(diǎn)?;诖耍狙芯糠治鰯?shù)據(jù)特性,設(shè)計(jì)了序列對(duì)比損失函數(shù)(Sequential Contrastive Loss)以監(jiān)督網(wǎng)絡(luò)增大背景幀和前景幀光流特征建模的區(qū)分度,從而使最終輸出的起始點(diǎn)更加準(zhǔn)確。

        對(duì)于長度為L的特征序列,以相鄰兩幀作為一對(duì)計(jì)算對(duì)比損失。形式上可以表述為:

        3.3 實(shí)驗(yàn)設(shè)置細(xì)節(jié)

        在訓(xùn)練階段,RGB 分支和 Flow 分支獨(dú)立進(jìn)行。對(duì) RGB 分支,先采用在 ImageNet[18]上預(yù)訓(xùn)練的 ResNet50 模型進(jìn)行初始化,然后基于標(biāo)準(zhǔn)交叉熵?fù)p失(圖 2 中的Lcls)在 Highlight45數(shù)據(jù)集上進(jìn)行精調(diào)。對(duì) Flow 分支,先采用在Kinetics400[19]數(shù)據(jù)集上預(yù)訓(xùn)練的 BN-Inception 模型進(jìn)行初始化,然后進(jìn)行圖像級(jí)的精調(diào)以作為單幀特征抽取器。對(duì)于 Flow 分支的時(shí)序建模部分,在一個(gè) FC-ReLU 整合特征模塊之后,采用兩層帶孔因果卷積層(卷積核尺寸為 3,帶孔尺寸分別為 1、2,通道數(shù)為 3 072)作為時(shí)序建模模塊。每一層卷積層之后均使用 ReLU 和 dropout來控制過擬合。光流部分的損失函數(shù)可形式化表示為:

        其中,Lcls1和Lcls2均為交叉熵?fù)p失函數(shù),Lcls1作為一項(xiàng)提前監(jiān)督的策略來更加有效地訓(xùn)練深層網(wǎng)絡(luò);λ為平衡權(quán)重因子,在實(shí)驗(yàn)中設(shè)置為 0.5。

        數(shù)據(jù)處理階段,首先將短邊為 256 的圖片按長短邊比例調(diào)整尺寸,然后進(jìn)行中心裁剪為224×224 大小的圖片作為輸入。網(wǎng)絡(luò)訓(xùn)練過程中,使用動(dòng)量為 0.9 的 SGD 優(yōu)化器,正則化權(quán)重為 0.000 5,批處理規(guī)模為 64。初始學(xué)習(xí)率為 0.001,在第 3 和第 5 個(gè)迭代周期學(xué)習(xí)率衰減10 倍,共訓(xùn)練 10 個(gè)訓(xùn)練周期。所有代碼基于Pytorch 框架進(jìn)行實(shí)現(xiàn),使用 8 張 NVIDIA RTX 2080Ti GPU 顯卡進(jìn)行所有實(shí)驗(yàn)。

        在測(cè)試階段,Highlight-Net 以間距為 1 的滑動(dòng)窗口對(duì)輸入視頻流進(jìn)行逐幀在線檢測(cè)。RGB分支逐幀處理視頻流,F(xiàn)low 分支處理長度為L的幀序列。為了對(duì)齊兩分支的當(dāng)前幀位置,在測(cè)試開始階段對(duì)每個(gè)視頻的開頭添加空幀以填補(bǔ) Flow 分支的空缺。通過加和兩個(gè)分支的全連接層輸出分?jǐn)?shù)來融合二者的特征信息后,使用Softmax 函數(shù)來獲得用于 OHSD 任務(wù)的多分類或二分類概率。進(jìn)一步,通過計(jì)算當(dāng)前幀相對(duì)前一幀預(yù)測(cè)為前景概率值的差作為判斷當(dāng)前幀是否為起始幀的依據(jù)。在類別相關(guān)的設(shè)定下,還需要判定該幀的前景幀對(duì)應(yīng)分類是否與前一幀一致。

        4 實(shí)驗(yàn)與討論

        4.1 實(shí)驗(yàn)結(jié)果

        OHSD 任務(wù)最直觀的方法是進(jìn)行逐幀分類。因此,本研究最基本的對(duì)比方法是直接拼接 RGB和光流的雙流特征(Two Stream feature,TS)作為后續(xù)網(wǎng)絡(luò)輸入的逐幀分類器。實(shí)驗(yàn)中分別采用直接使用全連接層分類器以及遞歸神經(jīng)網(wǎng)絡(luò)(LSTM和 GRU)對(duì) TS 特征進(jìn)行時(shí)序建模后分類的方式作為基線方法。為了保證對(duì)比公平,所有的特征提取網(wǎng)絡(luò)均保持一致,時(shí)序建模層的通道數(shù)也與Highlight-Net 中 DCC 模塊的通道數(shù)相同。

        對(duì)于 OHSD 任務(wù)的性能評(píng)估,除了使用本文提出的更符合任務(wù)設(shè)定的指標(biāo)(AP@1 和 AR@AN)進(jìn)行測(cè)評(píng)以外,還采用了在線動(dòng)作起始檢測(cè)工作[9]中提出的 p-AP 指標(biāo)。由于 p-AP 指標(biāo)中起始評(píng)測(cè)范圍(1~10 s)是針對(duì)長視頻數(shù)據(jù)集設(shè)定的,與本文構(gòu)建的短視頻數(shù)據(jù)集的數(shù)據(jù)特性不相符,因此在評(píng)價(jià)過程中需對(duì)該指標(biāo)進(jìn)行修正(0.5~5 s)。所有實(shí)驗(yàn)均在兩套判定體系(類別相關(guān)和類別無關(guān))下進(jìn)行評(píng)估。偏移容差系數(shù)α對(duì)應(yīng)任務(wù)的難度,分別按 0.1、0.2、0.3 進(jìn)行評(píng)估。

        在本節(jié)中,首先對(duì)本研究提出的 Highlight-Net 和一系列經(jīng)典方法進(jìn)行比較,然后通過消融實(shí)驗(yàn)評(píng)估新提出的混合雙流結(jié)構(gòu)及序列對(duì)比損失函數(shù)的提升效果。

        從表 1 中 Highlight-Net 和其他經(jīng)典方法之間的實(shí)驗(yàn)結(jié)果可知:(1)從本文提出的新指標(biāo)及在線動(dòng)作起始檢測(cè)中采取的 p-AP 評(píng)價(jià)標(biāo)準(zhǔn)來看,混合雙流網(wǎng)絡(luò)的方法始終表現(xiàn)更好,尤其是在類別無關(guān)的設(shè)定下,提升效果非常顯著,這一定程度上反映了 RGB 特征的拼接會(huì)影響后續(xù)效果;(2)從 AP@1 和 AR@AN 的角度來看,當(dāng)容差系數(shù)變小時(shí),所有方法的性能都會(huì)顯著降低,這說明精確檢測(cè)起始點(diǎn)非常困難;(3)相對(duì)于只使用當(dāng)前幀進(jìn)行分類的方式,LSTM 和 GRU 在這兩套判定體系下均有一定提升,說明歷史時(shí)序信息的融合有助于起始檢測(cè)。

        表1 Highlight45 上各種指標(biāo)下 OHSD 任務(wù)的實(shí)驗(yàn)結(jié)果Table 1 Results of online highlight start detection with varied metrics on Highlight45

        4.2 消融實(shí)驗(yàn)

        本節(jié)對(duì)雙流模態(tài)融合方式、時(shí)序建模方法、序列對(duì)比損失以及提前監(jiān)督策略進(jìn)行消融實(shí)驗(yàn)研究,旨在證明本文提出方法的有效性。所有實(shí)驗(yàn)均在類別相關(guān)、偏移容差系數(shù)為 0.2 的設(shè)定下以AP@1 和 AR@1 兩大指標(biāo)進(jìn)行對(duì)比實(shí)驗(yàn)。

        4.2.1混合策略及時(shí)序模型

        表 2 展示了使用不同混合策略及時(shí)序模型的組合進(jìn)行實(shí)驗(yàn),共計(jì) 13 個(gè)模型的性能比較。Flow 分支均使用本文設(shè)計(jì)的提前監(jiān)督策略和序列對(duì)比損失函數(shù)進(jìn)行優(yōu)化從而保證對(duì)比的公平性。結(jié)果表明,(1)在兩個(gè)指標(biāo)中,由于是類別相關(guān)的設(shè)定,在不使用時(shí)序建模的情形下,僅使用 RGB 特征的性能略優(yōu)于 Flow 特征。(2)時(shí)序建??梢燥@著提升 Flow 分支的效果,但對(duì)RGB 特征卻會(huì)有所損害。具體來說,AP@1 指標(biāo)中,F(xiàn)low 分支提升 4.75%,而 RGB 分支卻下降 2.21%,這一現(xiàn)象說明了混合雙流結(jié)構(gòu)的必要性,時(shí)序建模對(duì)空間特征的融合并不友好。(3)對(duì)比不同時(shí)序模型,不論是哪種特征輸入方式,DCC 均略優(yōu)于 LSTM 和 GRU。(4)相較于特征拼接的輸入方式,使用混合模型可以顯著改善效果,帶有 DCC 的 Highlight-Net 可獲得最佳結(jié)果。

        表2 特征不同混合方式和時(shí)序模型的對(duì)比實(shí)驗(yàn)Table 2 Evaluation of hybrid strategy and temporal modeling methods

        4.2.2 損失函數(shù)

        表 3 中評(píng)估了 Highlight-Net 采用的序列對(duì)比損失函數(shù)和提前監(jiān)督策略,由于這兩個(gè)損失函數(shù)僅作用在 Flow 分支,因此表中僅對(duì)比使用光流模態(tài)的結(jié)果,時(shí)序建模網(wǎng)絡(luò)使用 DCC 模塊。從表 3 可以看出,二者一致地提高了性能。這說明序列對(duì)比損失可以監(jiān)督時(shí)序建模網(wǎng)絡(luò)更有效地將起始點(diǎn)前后前景幀、背景幀特征進(jìn)行區(qū)分,從而更好地服務(wù)于后續(xù)起始檢測(cè)任務(wù)。另外,提前監(jiān)督的策略輔助了整個(gè)模型的優(yōu)化。這二者共同將首個(gè)檢出的平均查準(zhǔn)率 AP@1 提高 2.82%。

        表3 損失函數(shù)的對(duì)比實(shí)驗(yàn)Table 3 Evaluation of the loss functions

        4.2.3 評(píng)價(jià)指標(biāo)

        本節(jié)挑選 3 個(gè)典型類別(Animal RunJump、Squart Jump、Throw Castnet)及全部數(shù)據(jù)(Whole data)進(jìn)行多個(gè)指標(biāo)的評(píng)估對(duì)比并對(duì)具體例子進(jìn)行可視化,用以說明本研究設(shè)計(jì)指標(biāo)的合理性。如圖 3 所示,frame-AP 是在線動(dòng)作檢測(cè)的評(píng)價(jià)指標(biāo),用以統(tǒng)計(jì)所有被判定為前景幀的查準(zhǔn)率,不能反映起始區(qū)域幀的準(zhǔn)確程度,從結(jié)果上反映出來每一類下該指標(biāo)的數(shù)值都非常高。p-AP 指標(biāo)對(duì)網(wǎng)絡(luò)所有檢測(cè)出的起始提名按置信度進(jìn)行排序,若起始提名位于統(tǒng)一的固定時(shí)間偏移(如 0.5 s)中,則認(rèn)為該提名是正確的,所有符合要求的檢測(cè)都會(huì)納入計(jì)算。本研究提出的指標(biāo)與 p-AP 之間的主要區(qū)別在于:(1)AP@1 和 AR@AN 使用實(shí)例自適應(yīng)時(shí)間偏移窗口,更契合視頻長短不同情形的不同檢測(cè)需求;(2)AP@1 僅評(píng)判首個(gè)檢出的結(jié)果,而 p-AP 指標(biāo)需要全部視頻作出輸出才進(jìn)行計(jì)算,本指標(biāo)更符合在線要求和實(shí)際需求;(3)AP@1 和 AR@AN 在視頻數(shù)量級(jí)別進(jìn)行平均。

        圖3 不同評(píng)價(jià)指標(biāo)詳細(xì)對(duì)比Fig.3 Comparison between different evaluation metrics

        綜上所述,p-AP 的評(píng)價(jià)會(huì)受到時(shí)間偏移量和當(dāng)前視頻中非首個(gè)檢測(cè)產(chǎn)生的誤報(bào)的影響,以 Animal RunJump 類為例可以發(fā)現(xiàn),該類別的p-AP 極低,但 AP@1 高出兩倍以上。從可視化情況來看,這一類別的首個(gè)實(shí)際預(yù)測(cè)往往是正確的,但 p-AP 指標(biāo)由于會(huì)考慮超過閾值的全部起始預(yù)測(cè)并且按照置信度排序,從而拉低了整體結(jié)果。而另一類 Throw Castnet 則正好相反,這是因?yàn)樵擃?Highlight 持續(xù)時(shí)間普遍較短,與 p-AP固定時(shí)間窗口模式相比,本研究指標(biāo)中自適應(yīng)窗口模式會(huì)判定更多的正確預(yù)測(cè)。實(shí)際需求下,時(shí)長短的類別往往需要更靈敏的起始檢測(cè),所以 AP@1 可以更好地反映類別難度,與該類別相似的幾個(gè)類別的起始檢測(cè)效果均不理想。圖 4中給出了 3 個(gè)類別典型例子的可視化結(jié)果圖來幫助解釋上述情形。

        圖4 可視化實(shí)例示意圖Fig.4 Visualization of online highlight start detection

        5 結(jié) 論

        本研究基于手機(jī)短視頻場(chǎng)景提出在線起始檢測(cè)任務(wù)(OHSD)并配套構(gòu)建了 Highlight45 數(shù)據(jù)集和契合 OHSD 任務(wù)需求的兩個(gè)新的評(píng)估指標(biāo),即AP@1 和 AR@AN。類別相關(guān)和類別無關(guān)設(shè)定下的大量實(shí)驗(yàn)表明,與傳統(tǒng)評(píng)估指標(biāo)相比,本研究的度量標(biāo)準(zhǔn)更合理實(shí)用。針對(duì) OHSD 任務(wù),本研究設(shè)計(jì)了 Highlight-Net 網(wǎng)絡(luò)結(jié)構(gòu),通過探索全新的雙流融合策略和使用新的損失函數(shù)監(jiān)督取得了較好的檢測(cè)效果,以作為強(qiáng)有力的基線方法。短視頻研究的應(yīng)用前景十分廣闊,本研究?jī)H初步進(jìn)行了數(shù)據(jù)、評(píng)價(jià)標(biāo)準(zhǔn)和方法上的探索,未來可以在數(shù)據(jù)的擴(kuò)充和方法的優(yōu)化上進(jìn)行更多的研究。

        猜你喜歡
        特征檢測(cè)
        抓住特征巧觀察
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        国产视频网站一区二区三区| 欧美三级不卡在线观看| 人妻聚色窝窝人体www一区| 丰满少妇人妻无码专区| 亚洲色无码中文字幕| 激情五月开心五月啪啪| 一本丁香综合久久久久不卡网站| 亚洲人成无码www久久久| 加勒比在线一区二区三区| 国产激情小视频在线观看| 国产精品美女一区二区视频| 99久久人人爽亚洲精品美女| 午夜精品一区二区三区无码不卡| 国产精品自拍视频免费看| 精品无码av无码专区| 精品国产人成亚洲区| ZZIJZZIJ亚洲日本少妇| 国产精品区二区东京在线| 无码少妇丰满熟妇一区二区 | 无码人妻丝袜在线视频| 蜜桃成熟时日本一区二区| 国产综合精品一区二区三区| 精品一区二区三区无码视频| 国产美女亚洲精品一区| 中文字字幕在线中文乱码解| 亚洲av片在线观看| 97成人精品| 琪琪av一区二区三区| 真人做爰试看120秒| www国产精品内射熟女| 午夜无码无遮挡在线视频| 精品女厕偷拍视频一区二区| 成人午夜视频精品一区| 国产自产精品露脸刺激91在线| 男女后入式在线观看视频| 亚洲综合欧美色五月俺也去| 日韩人妻精品无码一区二区三区 | 在线免费观看亚洲毛片| 级毛片内射视频| 亚洲依依成人亚洲社区| 亚洲日韩国产精品不卡一区在线|