亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的雙流程短視頻分類方法

        2022-07-14 13:11:46張璦涵石蘊(yùn)玉劉思齊
        計(jì)算機(jī)工程 2022年7期
        關(guān)鍵詞:準(zhǔn)確率卷積流程

        張璦涵,劉 翔,石蘊(yùn)玉,劉思齊

        (上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201620)

        0 概述

        視頻分類是指給定一個(gè)視頻片段并對(duì)其中包含的內(nèi)容進(jìn)行分類,廣泛應(yīng)用于視頻點(diǎn)播、網(wǎng)絡(luò)演示、遠(yuǎn)程教育等互聯(lián)網(wǎng)信息服務(wù)領(lǐng)域[1-2]。隨著深度學(xué)習(xí)[3-4]技術(shù)的發(fā)展,通常將視頻每一幀視為一幅單獨(dú)的圖像并利用二維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進(jìn)行圖像分類。該方法將視頻分類問(wèn)題簡(jiǎn)化為圖像分類問(wèn)題,對(duì)比圖像分類僅多了一個(gè)維度的時(shí)序特征。KARPATHY等[5]將時(shí)序語(yǔ)義融合分為識(shí)別動(dòng)作靠場(chǎng)景和識(shí)別場(chǎng)景靠物體的單融合、相鄰固定幀的兩幀做卷積而全連接接受時(shí)序信息的后融合、在二維卷積中增加深度的前融合、在前融合中增加長(zhǎng)度和步長(zhǎng)的緩融合4 類。根據(jù)3D卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neural Network,3DCNN)保留時(shí)序特征的特點(diǎn),TRAN等[6]在UCF101 數(shù)據(jù)集上的分類準(zhǔn)確率最高為85.2%,每秒傳輸幀數(shù)(Frame Per Second,F(xiàn)PS)為313.9。研究人員對(duì)3D 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行大量研究,CARREIRA等[7]提出增加網(wǎng)絡(luò)寬度的I3D 網(wǎng)絡(luò),在單一數(shù)據(jù)集RGB 流中的分類準(zhǔn)確率為84.5%,但需使用64 個(gè)GPU 并行訓(xùn)練,且計(jì)算量難以應(yīng)用于現(xiàn)實(shí)場(chǎng)景。為解決現(xiàn)實(shí)生活場(chǎng)景下的視頻分類問(wèn)題,楊曙光等[8-11]分別對(duì)3D 卷積提取進(jìn)行改進(jìn)并將其運(yùn)用于人體動(dòng)作識(shí)別、體育運(yùn)動(dòng)分類等任務(wù),獲得了較高的分類準(zhǔn)確 率。HARA等[12]將ResNet網(wǎng)絡(luò)[13]從2D 擴(kuò)展到3D,并將其與ResNeXt 網(wǎng)絡(luò)[14]、DenseNet網(wǎng)絡(luò)[15]在Kinetics 數(shù)據(jù)集上進(jìn)行分類準(zhǔn)確率對(duì)比,證明了預(yù)訓(xùn)練的簡(jiǎn)單3D 體系結(jié)構(gòu)優(yōu)于復(fù)雜2D 體系結(jié)構(gòu)。陳意等[16]改進(jìn)了NeXtVLAD,并且在VideoNet-100 數(shù)據(jù)集中的分類準(zhǔn)確率最高為85.4%。

        由于目前常用的UCF101[17]、Kinetics[7]、HMDB51等數(shù)據(jù)集主要是以人物動(dòng)作進(jìn)行分類,然而在現(xiàn)實(shí)生活場(chǎng)景中還有純風(fēng)景、純文字、卡通動(dòng)漫等識(shí)別類型,此類基于人物動(dòng)作的分類數(shù)據(jù)集并不適用,因此本文構(gòu)建來(lái)源于抖音、快手、今日頭條等平臺(tái)的短視頻數(shù)據(jù)集,并提出一種雙流程短視頻分類方法。在主流程中,通過(guò)考慮短視頻在時(shí)間維度的連續(xù)性、平衡性與魯棒性,設(shè)計(jì)更適合短視頻分類的A-VGG-3D 網(wǎng)絡(luò)模型和采樣策略。在輔助流程中,將幀差法判斷鏡頭切換抽取出的若干幀通過(guò)人臉檢測(cè)進(jìn)行人物類和非人物類的二分類,以進(jìn)一步提升短視頻分類準(zhǔn)確性。

        1 雙流程短視頻分類原理

        針對(duì)實(shí)際生活場(chǎng)景下的短視頻分類問(wèn)題,本文提出一種雙流程分類方法。主流程采用A-VGG-3D 網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)對(duì)特征的精準(zhǔn)提取并結(jié)合視頻時(shí)序特征實(shí)現(xiàn)短視頻分類。輔助流程通過(guò)鏡頭判別和人臉檢測(cè)進(jìn)行輔助分類。將輔助流程的分類結(jié)果與主流程分類結(jié)果進(jìn)行分析,得出最終的分類結(jié)果。該分類方法不局限于人物動(dòng)作,可將生活中的短視頻進(jìn)行更好的分類,適用于視頻推薦、視頻監(jiān)管、視頻查詢等任務(wù)。

        1.1 短視頻采樣策略

        在采樣過(guò)程中,為充分保留視頻的時(shí)序性,并且考慮到2D 卷積網(wǎng)絡(luò)在每次卷積運(yùn)算后都會(huì)丟失輸入的時(shí)間信息,而3D 卷積網(wǎng)絡(luò)除了2D 卷積網(wǎng)絡(luò)原有特征之外,還會(huì)保留輸入的時(shí)間信息,因此選擇3D 卷積用于視頻的相關(guān)特征提取。給定一個(gè)短視頻,將其按相等間隔分為k段,其中相等的間隔所獲取到的幀數(shù)即為網(wǎng)絡(luò)中3D 卷積采樣深度,采樣得到的片段序列T1,T2,…,Tk表示如下:

        2D 和3D 卷積操作如圖1 所示,其中,L、H、W分別表示為短視頻的時(shí)間長(zhǎng)度、通道數(shù)、高和寬,k、d、K表示卷積核的尺寸。

        圖1 2D 和3D 卷積操作Fig.1 2D and 3D convolution operations

        1.2 VGG 網(wǎng)絡(luò)

        牛津大學(xué)的SIMONYAN等[18]提出的VGG16 卷積神經(jīng)網(wǎng)絡(luò)模型在ImageNet 數(shù)據(jù)集中的Top-5 測(cè)試精確率達(dá)到92.7%。VGG16 網(wǎng)絡(luò)模型利用深度學(xué)習(xí)技術(shù),使得每個(gè)神經(jīng)元只能感覺(jué)到局部圖像區(qū)域,而全局信息則通過(guò)整合不同敏感的神經(jīng)元獲得,減少了卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的參數(shù)量和權(quán)值。

        1.3 注意力機(jī)制

        注意力機(jī)制是一種大腦信號(hào)處理機(jī)制,通過(guò)計(jì)算概率分布突出某個(gè)關(guān)鍵輸入對(duì)輸出的影響[19]。軟注意力機(jī)制考慮所有輸入,為每一個(gè)特征分配不同概率的注意力權(quán)重值,相對(duì)發(fā)散。硬注意力機(jī)制較為隨機(jī),在某一時(shí)刻只關(guān)注一個(gè)位置的信息,相對(duì)專注。通道注意力模塊通過(guò)對(duì)特征圖的各個(gè)通道之間的依賴性進(jìn)行建模,提高了對(duì)于重要特征的表征能力。HU等[20]提出SENet block,其核心思想在于網(wǎng)絡(luò)根據(jù)loss 學(xué)習(xí)特征權(quán)重,有選擇性地通過(guò)權(quán)重分配加強(qiáng)有關(guān)特征或抑制無(wú)關(guān)特征。BAHDANAU等[21]將注意力機(jī)制引入循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),實(shí)現(xiàn)機(jī)器翻譯。

        本文在VGG16 網(wǎng)絡(luò)模型的基礎(chǔ)上,引入壓縮注意力模塊(SENet block),SENet block 主要包含Squeeze 和Excitation 兩部分,如 圖2所示,其中X為輸入,C為通道數(shù),W為權(quán)重參數(shù),F(xiàn)tr為標(biāo)準(zhǔn)的卷積形式轉(zhuǎn)換操作,F(xiàn)sq為壓縮操作,F(xiàn)ex為激勵(lì)操作,F(xiàn)scale為通道上的乘積操作。

        圖2 SENet block 結(jié)構(gòu)Fig.2 SENet block structure

        壓縮操作(Squeeze)是一個(gè)全局平均池化操作,將C個(gè)大小為H×W的特征圖(H×W×C)的輸入轉(zhuǎn)換成的輸出,輸出結(jié)果為全局信息,如式(2)所示:

        其中:UC代表2D 矩陣的數(shù)值。

        激勵(lì)操作(Excitation)是一個(gè)全連接層操作,位于壓縮操作得到的結(jié)果Z后。權(quán)重參數(shù)W被用來(lái)學(xué)習(xí)顯式地建模特征通道間的相關(guān)性,經(jīng)過(guò)一個(gè)ReLU層,輸出的維度不變,與W2相乘也是一個(gè)全連接層的過(guò)程,再經(jīng)過(guò)sigmoid 函數(shù)得到S,如式(3)所示:

        其中:S用來(lái)刻畫(huà)U中C個(gè)特征圖的權(quán)重,該權(quán)重是通過(guò)前面的全連接層和非線性層學(xué)習(xí)得到的。激勵(lì)操作中兩個(gè)全連接層的作用是融合各通道的特征圖信息。

        規(guī)?;僮鳎⊿cale)是在得到S后對(duì)U進(jìn)行的操作,如式(4)所示:

        其中:SC代表2D 權(quán)重的數(shù)值。

        2 雙流程短視頻分類流程

        短視頻分類流程如圖3 所示,在主流程中選取網(wǎng)絡(luò)輸出的前5 類,從高到低設(shè)置為5 分至1 分,輔助流程輸出結(jié)果各占1 分,采用投票法計(jì)算出最終分值后進(jìn)行短視頻類別排序,最終輸出總排名第1的短視頻類別作為最終分類結(jié)果,進(jìn)一步提升短視頻分類準(zhǔn)確率。

        圖3 短視頻分類流程Fig.3 Procedure of short video classification

        2.1 自建的短視頻數(shù)據(jù)集

        選取典型短視頻,構(gòu)建C1 和C2 兩類數(shù)據(jù)集,其中,C1 是僅包含人物動(dòng)作類的數(shù)據(jù)集,細(xì)分為訪談、劇情、樂(lè)器、舞蹈、穿搭5 類短視頻,C2 數(shù)據(jù)集在C1數(shù)據(jù)集的基礎(chǔ)上增加了文字類和動(dòng)畫(huà)類短視頻,每類包括10~25 組短視頻,每組包括3~7 個(gè)短視頻。C1 和C2 數(shù)據(jù)集標(biāo)簽層級(jí)結(jié)構(gòu)關(guān)系如圖4 所示。

        圖4 C1 和C2 數(shù)據(jù)集標(biāo)簽層級(jí)結(jié)構(gòu)關(guān)系Fig.4 C1 and C2 dataset label hierarchy relationship

        通過(guò)觀察創(chuàng)作者的短視頻,自制數(shù)據(jù)集中的短視頻時(shí)長(zhǎng)為15 s 至1 min,主要集中在30 s 左右,分別選取對(duì)應(yīng)的388 條和504 條短視頻,以防止過(guò)擬合。本文提出的短視頻分類方法以短視頻實(shí)際展示內(nèi)容為視頻標(biāo)簽,在短視頻分類上更具實(shí)用性和魯棒性。C2 數(shù)據(jù)集中的部分短視頻如圖5 所示。

        圖5 C2 數(shù)據(jù)集部分短視頻Fig.5 Part of short videos of the C2 dataset

        2.2 短視頻分類流程

        短視頻分類主流程如圖6 所示,首先分割選取短視頻片段,保證幀圖像規(guī)格相同并確保相應(yīng)數(shù)量的片段樣本,然后把視頻段輸入A-VGG-3D 網(wǎng)絡(luò)進(jìn)行特征提取、訓(xùn)練和測(cè)試,最后網(wǎng)絡(luò)預(yù)測(cè)出前5 類分類結(jié)果。

        圖6 短視頻分類主流程Fig.6 Main procedure of short video classification

        目前,短視頻分辨率一般為720×1 280 像素。通過(guò)降采樣處理,將短視頻分割為224×224×3×15 的片段輸入A-VGG-3D 網(wǎng)絡(luò)特征提取部分,將Conv 3-3特征圖輸入短視頻分類部分,將調(diào)整特征圖做上采樣處理為112×112×3×15 的片段輸入A-VGG-3D 網(wǎng)絡(luò)分類部分,其中采樣深度為15,通道數(shù)為3,最終輸出為該短視頻類別。短視頻深度選擇方法主要分為給定固定值和選擇所有幀2 類,本文選擇所有視頻幀,這樣能減少特殊樣本對(duì)數(shù)據(jù)的影響。在式(5)中,Nframe為在視頻中被抽取的首幀序號(hào)、Nnframe為短視頻文件的總幀數(shù)、Ndepth為需要抽取的總幀數(shù),x(x=0,1,…,Ndepth)為從0 開(kāi)始依次遞增的整數(shù)。

        A-VGG-3D 網(wǎng)絡(luò)架構(gòu)分為特征提取部分和短視頻分類部分,其中特征提取部分為增加注意力機(jī)制的VGG 網(wǎng)絡(luò),短視頻分類部分為改進(jìn)的C3D 網(wǎng)絡(luò)。A-VGG-3D 網(wǎng)絡(luò)模型的創(chuàng)新之處在于:1)特征提取部分在VGG-16 網(wǎng)絡(luò)淺層增加注意力機(jī)制,可模擬人腦對(duì)感興趣區(qū)域合理分配權(quán)重;2)短視頻分類部分減少了卷積層和池化層,在幾乎不影響準(zhǔn)確度的情況下降低了計(jì)算復(fù)雜度,加快了分類速度,并具有較高的分類魯棒性;3)短視頻分類部分新增3 個(gè)BN層,解決了因網(wǎng)絡(luò)層數(shù)加深而產(chǎn)生的收斂速度慢甚至消失的問(wèn)題;4)短視頻分類部分增加了級(jí)聯(lián)融合模塊,將小尺度圖像放大至所需尺度,實(shí)現(xiàn)了多級(jí)特征融合。

        A-VGG-3D 網(wǎng)絡(luò)架構(gòu)如圖7 所示,彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版。在特征提取部分,卷積層為粉色(Convolution+ReLU)、池化層為藍(lán)色(max pool)、全連接層為黃 色(Fully connected+ReLU)、深橙色為注意力機(jī)制模塊(SENet block),最后輸出層為綠色(softmax)。該網(wǎng)絡(luò)在VGG 網(wǎng)絡(luò)Conv 1-1 和Conv 1-2 之間加入SENet block,主要包含Squeeze 和Excitation 兩部分,通過(guò)在淺層進(jìn)行學(xué)習(xí)并分配注意力權(quán)重從而選擇性地加強(qiáng)有關(guān)特征或抑制無(wú)關(guān)特征。然后將特征以Conv 3-3 特征圖作為短視頻分類部分輸入。在短視頻分類部分,綠色部分為本文加入的歸一化層,通過(guò)兩個(gè)跳躍連接的上采樣模塊(淺橙色)融合多尺度特征進(jìn)行預(yù)測(cè),從而加強(qiáng)對(duì)局部特征的學(xué)習(xí),其中32@3×3×3為32個(gè)3×3×3的卷積核。

        圖7 A-VGG-3D 網(wǎng)絡(luò)架構(gòu)Fig.7 A-VGG-3D network architecture

        短視頻分類輔助流程主要包括鏡頭判別和人臉檢測(cè)兩部分輔助流程。由于短視頻拍攝可分為航拍、弧型運(yùn)動(dòng)、銜接等鏡頭,因此不同類別短視頻采用的鏡頭拍攝方法存在差異。劇情類和訪談?lì)惗桃曨l的拍攝視角和場(chǎng)景切換頻率存在很大不同,以相同方式選取短視頻的46 幀,劇情類前景與背景均存在較多變化,如圖8(a)中黑框區(qū)域,訪談?lì)惽熬氨尘皫缀醪蛔儯鐖D8(b)所示。

        圖8 短視頻鏡頭拍攝差異圖Fig.8 Lens shot difference images in the short videos

        在鏡頭判別輔助流程中,采用幀差法來(lái)判斷鏡頭切換,根據(jù)視頻序列具有連續(xù)性的特點(diǎn):如果拍攝鏡頭內(nèi)沒(méi)有較大變化,則連續(xù)幀的變化很微弱;如果存在鏡頭切換,則連續(xù)的幀與幀之間會(huì)有明顯變化,即為本文選取的變換鏡頭幀。將相鄰兩幀圖像對(duì)應(yīng)像素點(diǎn)的灰度值進(jìn)行相減并取絕對(duì)值,fn(x,y)為當(dāng)前幀的直方圖特征,fn-1(x,y)為上一幀的直方圖特征,得到差分圖像Dn,如式(6)所示:

        設(shè)定閾值T,按照式(7)逐個(gè)對(duì)像素點(diǎn)進(jìn)行二值化處理得到二值化圖像

        其中:灰度值為255 的點(diǎn),即為前景點(diǎn);灰度值為0 的點(diǎn),即為背景點(diǎn)。

        為進(jìn)一步提升短視頻分類準(zhǔn)確性,將幀差法抽取出的若干幀通過(guò)人臉檢測(cè)輔助流程進(jìn)行人物類和非人物類的二分類。采用滑動(dòng)窗口機(jī)制與級(jí)聯(lián)分類器融合的方式進(jìn)行多尺度人臉檢測(cè),若抽取的短視頻幀中存在人臉,則將人臉框出作為人物類短視頻依據(jù)。因?yàn)槿宋镱惗桃曨l部分帶有人物特征,所以將改進(jìn)的行為識(shí)別網(wǎng)絡(luò)作為分類網(wǎng)絡(luò)進(jìn)行分類。最終根據(jù)分類網(wǎng)絡(luò)得到的分類結(jié)果進(jìn)行分析優(yōu)化,并與前幾次分類結(jié)果進(jìn)行比對(duì),得到最優(yōu)分類結(jié)果。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)參數(shù)設(shè)置

        實(shí)驗(yàn)操作系統(tǒng)為Windows 10 64 位旗艦版。實(shí)驗(yàn)環(huán)境GPU 為4 塊NVIDIA GeForce GTX 1080Ti 顯卡。A-VGG-3D以keras為框架,batch size設(shè)置為128,初始學(xué)習(xí)率為0.003,每經(jīng)過(guò)1.5×105次迭代,學(xué)習(xí)率除以2,在第1.9×106次迭代(大約13 個(gè)epoch)時(shí)停止,共訓(xùn)練100 個(gè)epoch。鏡頭判別采用灰度幀差法,其中鏡頭邊界閾值為0.5。人臉檢測(cè)采用Python腳本在鏡頭幀中進(jìn)行自動(dòng)檢測(cè)。

        3.2 評(píng)價(jià)指標(biāo)

        采用Top-1 準(zhǔn)確率和FPS 作為評(píng)價(jià)視頻分類方法主流程的性能指標(biāo)。Top-1 準(zhǔn)確率和FPS 計(jì)算公式分別如式(8)和式(9)所示:

        其中:A表示準(zhǔn)確率;T表示分類正確的樣本數(shù);F為分類錯(cuò)誤的樣本數(shù);NFrameNum表示每秒處理的圖像幀數(shù);Ttime表示時(shí)間間隔,取值為1 s。

        選擇查準(zhǔn)率(ATR)和查全率(APR)作為評(píng)價(jià)視頻分類方法輔助流程的性能指標(biāo)。ATR和APR計(jì)算公式分別如式(10)和式(11)所示:

        其中:AFP表示誤檢的數(shù)量;AFN表示漏檢的數(shù)量。

        3.3 結(jié)果分析

        由于數(shù)據(jù)集數(shù)量有限,在較多的短視頻樣本中選取少量推薦率高、代表性強(qiáng)的短視頻作為實(shí)驗(yàn)數(shù)據(jù)集。UCF101[17]為包含時(shí)間短于10 s的13320條實(shí)際動(dòng)作短視頻的公開(kāi)數(shù)據(jù)集,共分為101 類,其中每類有25 個(gè)人,每人做4~7 組刷牙、擊鼓、蛙泳等動(dòng)作。由于UCF101 數(shù)據(jù)集與短視頻分類研究數(shù)據(jù)集在時(shí)間上有相似性,因此選取UCF101 數(shù)據(jù)集和自建數(shù)據(jù)集以解決短視頻分類問(wèn)題。選擇C1、C2 和UCF101 數(shù)據(jù)集進(jìn)行5 類、7 類、101 類短視頻分類,并按照4∶1 的比例劃分為訓(xùn)練集和測(cè)試集。為確保結(jié)果的一致性,實(shí)驗(yàn)選取視頻的隨機(jī)性保持不變,使用RGB 幀輸入。在輔助流程中,鏡頭判別在C1、C2 數(shù)據(jù)集中進(jìn)行鏡頭切換數(shù)量判定,在表示訪談?lì)悺∏轭?、卡通類鏡頭切換數(shù)量與視頻幀總數(shù)量的關(guān)系中:訪談?lì)愮R頭切換數(shù)量基本保持在5 次左右,在視頻總幀數(shù)中占比不足5%;劇情類鏡頭切換數(shù)量基本大于10 次,集中于20~70 次,在視頻總幀數(shù)中占10%~20%;卡通類鏡頭切換數(shù)量并不穩(wěn)定,在切換數(shù)量上與劇情類更為相似,通過(guò)人臉檢測(cè)輔助流程可較好地將兩者進(jìn)行分類。在輔助流程中,人臉檢測(cè)準(zhǔn)確率高達(dá)99%,表明輔助流程在短視頻分類中具有較大作用。由于訪談?lì)惡蛣∏轭愒阽R頭切換數(shù)量上存在較大區(qū)別,因此以鏡頭數(shù)量判別非訪談?lì)惡头莿∏轭愋Ч^好,也可降低網(wǎng)絡(luò)對(duì)短視頻分類的誤判。為保證較高的查準(zhǔn)率與查全率,設(shè)置鏡頭切換數(shù)量閾值為10,查準(zhǔn)率與查全率結(jié)果如表1 所示。

        表1 鏡頭判別查準(zhǔn)率與查全率Table 1 Precision and recall of lens discrimination %

        通過(guò)雙流程權(quán)重設(shè)置,主流程A-VGG-3D 網(wǎng)絡(luò)判定中存在粗分類問(wèn)題,在分類層得出的前5 名分類結(jié)果得分從高到低為5 分至1 分,輔助流程結(jié)果各占1 分,采用投票法計(jì)算出最終分值作為分類結(jié)果,進(jìn)一步提升短視頻分類準(zhǔn)確率。由于鏡頭判別僅針對(duì)輔助訪談?lì)惡蛣∏轭愄嵘郎?zhǔn)確率,最終分類準(zhǔn)確率主要依據(jù)A-VGG-3D 網(wǎng)絡(luò)結(jié)果,因此本文權(quán)重設(shè)置較為合適。不同視頻分類方法的消融實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可以看出,與主流程A-VGG-3D 網(wǎng)絡(luò)分類相比,增加人臉檢測(cè)可提升人物類和非人物類的分類準(zhǔn)確率,在C2 數(shù)據(jù)集上提升了3.2 個(gè)百分點(diǎn),增加鏡頭判別在C1 數(shù)據(jù)集上提升了4.5 個(gè)百分點(diǎn),可見(jiàn)本文方法中的輔助流程可提升現(xiàn)實(shí)生活場(chǎng)景短視頻的分類準(zhǔn)確率。

        表2 消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experiment results %

        不同視頻分類方法的對(duì)比實(shí)驗(yàn)結(jié)果如表3 所示。由表3 可以看出,與基于C3D 的分類方法相比,本文方法的準(zhǔn)確率在UCF101 數(shù)據(jù)集上提升了9.7 個(gè)百分點(diǎn),在C1 和C2 數(shù)據(jù)集上表現(xiàn)也較為突出。綜上,本文方法針對(duì)不同數(shù)據(jù)集能快速高效地進(jìn)行短視頻分類,并且對(duì)于人物類和非人物類短視頻均具有較強(qiáng)的魯棒性。

        表3 對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Comparative experiment results %

        4 結(jié)束語(yǔ)

        本文提出一種針對(duì)生活場(chǎng)景的雙流程短視頻分類方法,構(gòu)建A-VGG-3D 網(wǎng)絡(luò)模型,采用帶有注意力機(jī)制的VGG 網(wǎng)絡(luò)提取特征,利用優(yōu)化的3DCNN 網(wǎng)絡(luò)進(jìn)行短視頻分類,并結(jié)合鏡頭判別和人臉檢測(cè)進(jìn)一步提高短視頻分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該方法相比基于2D 網(wǎng)絡(luò)的視頻分類方法可以更好地保留時(shí)間信息,并且在UCF101 數(shù)據(jù)集和自建的生活場(chǎng)景短視頻數(shù)據(jù)集上的分類效果均優(yōu)于傳統(tǒng)短視頻分類方法。后續(xù)將優(yōu)化A-VGG-3D 分類模型,通過(guò)匹配鏡頭判別和人臉檢測(cè)輔助流程進(jìn)一步提升分類效果。

        猜你喜歡
        準(zhǔn)確率卷積流程
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        吃水果有套“清洗流程”
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        違反流程 致命誤判
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        本刊審稿流程
        久久亚洲精品国产av| 午夜福利影院不卡影院| 精品女同一区二区三区不卡| 国产成人综合精品一区二区| 轻点好疼好大好爽视频| 精品人妻av一区二区三区| 韩日午夜在线资源一区二区 | 国产av国片精品| 亚洲精品乱码久久久久久按摩高清 | 人人妻人人澡人人爽国产| 国产午夜精品一区二区三区软件| 久久久亚洲经典视频| 国产精品丝袜美腿诱惑| 综合偷自拍亚洲乱中文字幕| 国产精品久久毛片av大全日韩| 精品推荐国产精品店| 无码av专区丝袜专区| 精品久久中文字幕系列| 久久婷婷五月综合色高清| 内谢少妇xxxxx8老少交| 国产成人久久蜜一区二区| 日韩精品国产一区二区| 人妻少妇中文字幕久久| 欧美一区二区三区红桃小说| 无码精品色午夜| 亚洲av毛片在线播放| 好大好湿好硬顶到了好爽视频| 亚洲另类自拍丝袜第五页| 亚洲中文字幕av一区二区三区人| 大香蕉av一区二区三区| 无码aⅴ精品一区二区三区浪潮| 性饥渴艳妇性色生活片在线播放| 亚欧免费无码AⅤ在线观看| 偷拍一区二区三区高清视频| 久久视频在线| 传媒在线无码| 亚洲国产一区二区视频| 国产乱码卡二卡三卡老狼| 麻豆成人在线视频| 亚洲片在线视频| 午夜男女靠比视频免费|