亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度混合注意力機(jī)制的視頻摘要算法

        2023-12-04 11:13:18張喻恩李澤平
        關(guān)鍵詞:注意力卷積機(jī)制

        張喻恩,李澤平

        (貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025)

        0 引 言

        目前視頻摘要主流使用的是方法是基于編碼器-解碼器架構(gòu)的深度學(xué)習(xí)算法,編解碼器通常使用的是RNN技術(shù),利用循環(huán)神經(jīng)網(wǎng)絡(luò)強(qiáng)大的處理序列信息的能力,從而能夠更好提取到時(shí)序特征。Zhang等[1]最先把長(zhǎng)短期記憶網(wǎng)絡(luò)應(yīng)用于視頻摘要的研究中,將視頻摘要視為序列到序列的問(wèn)題。Zhao等[2]提出一種分層的LSTM模型,提升了LSTM時(shí)序建模的能力,更好捕捉視頻幀的長(zhǎng)時(shí)間依賴性。如上所述,將編解碼器框架應(yīng)用到視頻摘要的任務(wù)中是可行有效的,但同時(shí)也暴露出了很多的缺點(diǎn):由于網(wǎng)絡(luò)訓(xùn)練過(guò)程中RNN存在著梯度消失、梯度爆炸等問(wèn)題,使得網(wǎng)絡(luò)訓(xùn)練更加難以進(jìn)行,權(quán)重也會(huì)因此確定不了;雖然考慮到了使用時(shí)序特征,但是提取到的視頻幀特征尺度太過(guò)單一;此外,忽略了視頻幀的通道和空間依賴性。最近,F(xiàn)ajtl等[3]提出,把RNN替換成注意力機(jī)制,只需要利用注意力機(jī)制就可以解決序列之間的轉(zhuǎn)換。受他們工作的啟發(fā),本文提出了一種基于多尺度混合注意力機(jī)制的視頻摘要算法,相較于使用RNN作為主干網(wǎng)絡(luò),利用注意力機(jī)制更容易實(shí)現(xiàn)并行計(jì)算。

        以下是本文的主要貢獻(xiàn):

        (1)提出了一種基于多尺度混合注意力機(jī)制的視頻摘要算法MHAVS,編碼器部分設(shè)計(jì)了一個(gè)金字塔空洞卷積模塊獲取視頻幀的多尺度特征,以及在解碼器中嵌入了混合注意力機(jī)制,利用通道注意力機(jī)制和空間注意力機(jī)制學(xué)習(xí)視頻幀的空間維度和通道維度依賴性,而且可以更容易實(shí)現(xiàn)并行計(jì)算。

        (2)在模型中加入了指針網(wǎng)絡(luò),指針網(wǎng)絡(luò)可以在任意的時(shí)間點(diǎn)注意到任意視頻中任何視頻幀,這樣的好處就是能夠有序的生成視頻幀的幀序列。

        (3)在現(xiàn)有的兩個(gè)公開(kāi)的視頻數(shù)據(jù)集TVSum和SumMe上,本文與其它視頻摘要算法相比取得了較好的性能。

        1 相關(guān)工作

        視頻摘要的研究是指從一段長(zhǎng)視頻中提取出關(guān)鍵幀或者關(guān)鍵的視頻鏡頭組合成摘要。視頻摘要的最開(kāi)始的研究方法是基于非深度學(xué)習(xí)的,包括字典學(xué)習(xí)、聚類、稀疏編碼等方法。而隨著現(xiàn)在深度學(xué)習(xí)發(fā)展的越來(lái)越好,深度學(xué)習(xí)廣泛的應(yīng)用在視頻摘要任務(wù)中,這也是在于卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)很強(qiáng)大的特征提取器,以及循環(huán)神經(jīng)網(wǎng)絡(luò)所擁有的強(qiáng)大的時(shí)序信息建模的能力。各種實(shí)驗(yàn)結(jié)果表明,把深度學(xué)習(xí)[4-6]應(yīng)用到視頻摘要的研究中也取得了最好的性能,目前看來(lái),深度學(xué)習(xí)仍將主導(dǎo)著視頻摘要任務(wù)。文獻(xiàn)[7]為了利用視頻中的多模態(tài)信息,使用雙流LSTM網(wǎng)絡(luò)融合音頻特征和視覺(jué)特征,加入音頻特征能更好的表達(dá)原始視頻的內(nèi)容。Chu等[8]將卷積LSTM與典型的CNN的深度表征結(jié)合起來(lái),通過(guò)處理原始幀和它們的光流圖來(lái)提取空間和時(shí)間信息,并在標(biāo)簽分布學(xué)習(xí)過(guò)程中學(xué)習(xí)幀的重要性。為了捕捉長(zhǎng)距離的高階依賴關(guān)系,Zhao等[9]使用LSTM網(wǎng)絡(luò)編碼幀級(jí)依賴關(guān)系以及圖卷積神經(jīng)網(wǎng)絡(luò)編碼鏡頭級(jí)依賴關(guān)系。Yuan等[10]提出了一種融合語(yǔ)義信息的模型,把語(yǔ)義和視覺(jué)信息結(jié)合起來(lái)生成文本摘要,同時(shí)也生成視頻摘要。由于視頻的數(shù)據(jù)太小導(dǎo)致訓(xùn)練出來(lái)的網(wǎng)絡(luò)泛化性能比較差,zhao等[11]設(shè)計(jì)了一種方法,通過(guò)將視頻摘要任務(wù)和視頻重構(gòu)任務(wù)作為基礎(chǔ)來(lái)訓(xùn)練網(wǎng)絡(luò),網(wǎng)絡(luò)的核心使用的是RNN摘要生成器,性能也得到了提高。除此之外,還有研究將強(qiáng)化學(xué)習(xí)和視頻摘任務(wù)相結(jié)合,DR-DSNsup[12]使用深度強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)訓(xùn)練視頻摘要,注重摘要的代表性和多樣性。3DST-UNet[13]使用U-Net網(wǎng)絡(luò)編碼輸入視頻的時(shí)空信息,再結(jié)合強(qiáng)化學(xué)習(xí)預(yù)測(cè)視頻幀的行動(dòng)。視頻是由幀-鏡頭-視頻組成的,為了能夠獲取視頻的自然結(jié)構(gòu)信息,HMT[14]使用分層Transformer捕捉幀和鏡頭之間的依賴關(guān)系。

        最近,基于注意力機(jī)制的視頻摘要技術(shù)越來(lái)越受歡迎。Lebron等[15]在LSTM的基礎(chǔ)上,引入了一種注意力機(jī)制來(lái)模擬用戶興趣的時(shí)間演化。然后,使用這些信息來(lái)獲取幀的重要性分?jǐn)?shù),并選擇關(guān)鍵幀來(lái)構(gòu)建視頻摘要。Ji等[16]將注意力機(jī)制進(jìn)行擴(kuò)展,集成了一個(gè)語(yǔ)義保持嵌入網(wǎng)絡(luò),該網(wǎng)絡(luò)利用定制的語(yǔ)義保持損失評(píng)估解碼器的輸出與視頻語(yǔ)義保持的關(guān)系。Fu等[17]將注意力機(jī)制和生成對(duì)抗網(wǎng)絡(luò)結(jié)合起來(lái),提出了一種對(duì)抗學(xué)習(xí)的監(jiān)督視頻摘要方法??梢钥闯鲎⒁饬C(jī)制在視頻摘要研究中都起到了很重要的作用,也發(fā)揮出了強(qiáng)大的性能,因此我們使用注意力機(jī)制對(duì)視頻摘要任務(wù)進(jìn)行探究。

        2 模 型

        有監(jiān)督視頻摘要研究可以視為一個(gè)序列到序列的預(yù)測(cè)問(wèn)題,基于此,設(shè)計(jì)了一個(gè)基于多尺度混合注意力機(jī)制的視頻摘要算法,采用的是編碼器-解碼器架構(gòu)。本文模型結(jié)構(gòu)如圖1所示。編碼器網(wǎng)絡(luò)使用卷積神經(jīng)網(wǎng)絡(luò)GoogLeNet提取圖像特征,然后通過(guò)金字塔空洞卷積模塊提取多尺度特征,在增大感受野同時(shí)不會(huì)提高參數(shù)計(jì)算量,采用Concatenate操作進(jìn)行特征融合,接著利用1×1的卷積將特征信息進(jìn)一步融合。解碼器網(wǎng)絡(luò)嵌入混合注意力機(jī)制來(lái)捕獲視頻幀之間局部特征的聯(lián)系,結(jié)合局部特征獲取全局上下文特征,并且建模視頻幀的重要性得分,并通過(guò)動(dòng)態(tài)規(guī)劃根據(jù)鏡頭得分選擇對(duì)應(yīng)的鏡頭,同時(shí)使用指針網(wǎng)絡(luò)生成優(yōu)勢(shì)摘要,組合成最終的視頻摘要。

        圖1 基于多尺度混合注意力機(jī)制的視頻摘要算法模型

        2.1 視頻幀特征提取

        輸入原始視頻的序列,通過(guò)神經(jīng)網(wǎng)絡(luò)提取特征,處理成特征向量。模型輸入特征序X={x1,x2,...,xT},T為原始視頻的幀數(shù)。我們需要對(duì)多個(gè)不同幀的重要性得分進(jìn)行建模,然后將其轉(zhuǎn)換為鏡頭得分,最后選擇相應(yīng)的視頻鏡頭形成最終摘要。模型的輸出序列為Y={y1,y2,…,yT}。其中yT∈(0,1]。我們的特征提取器使用的是GoogLeNet網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)是一個(gè)預(yù)訓(xùn)練好的網(wǎng)絡(luò),是通過(guò)ImageNet獲取到的。通過(guò)GoogLeNet網(wǎng)絡(luò)的pool5層提取視頻幀的特征xt。這個(gè)過(guò)程描述為

        ft=CNN(xt)

        (1)

        其中,ft∈1024,CNN(·) 代表卷積神經(jīng)網(wǎng)絡(luò)GoogLeNet,那一段視頻里的特征就可以用F={f1,f2,…,fT} 表示。

        2.2 具有金字塔空洞卷積模塊的編碼器網(wǎng)絡(luò)

        傳統(tǒng)的視頻摘要方法提取到的視頻幀的圖像特征都是單一尺度的,這樣提取到的特征是不完整的,圖像的特征信息得不到充分的利用,會(huì)漏掉許多有用的信息,每個(gè)神經(jīng)元的感受野都是相同的,沒(méi)有考慮到多尺度特征對(duì)視頻摘要質(zhì)量的影響。為了解決這個(gè)問(wèn)題,本算法采用了金字塔空洞卷積模塊提取不同尺度的圖像特征。在增大感受野的情況下,也不會(huì)提升網(wǎng)絡(luò)參數(shù)的運(yùn)算量,圖2展示的是金字塔空洞卷積模塊的結(jié)構(gòu)。由5個(gè)并行的分支組成,包括4個(gè)空洞卷積以及全局平均池化層。其中3個(gè)空洞卷積的大小為3×3,其中膨脹系數(shù)分別為1,6,12,18。每個(gè)卷積后面都添加了BN層和Relu激活函數(shù)。全局平均池化層的作用是過(guò)濾掉不相關(guān)的特征,篩選出更多有用的特征。接著利用Concatenate操作進(jìn)行不同尺度特征圖的融合操作,然后通過(guò)1×1卷積對(duì)特征信息進(jìn)一步融合,輸出視頻幀的多尺度特征。

        圖2 金字塔空洞卷積模塊

        2.3 具有混合注意力機(jī)制的解碼器網(wǎng)絡(luò)

        自注意力層的作用是關(guān)注到與整個(gè)視頻序列關(guān)系最密切的局部依賴特征,使得模型學(xué)習(xí)到全局上下文依賴信息,過(guò)濾掉模型的不相關(guān)信息,減少了一定的計(jì)算量。在自注意力機(jī)制的基礎(chǔ)之上,我們?cè)O(shè)計(jì)了一種混合注意力機(jī)制,包括空間注意力機(jī)制和通道注意力機(jī)制,可以捕獲到視頻幀空間維度和通道維度的依賴關(guān)系。自注意力機(jī)制為每個(gè)視頻幀獲取一個(gè)權(quán)重分?jǐn)?shù),權(quán)重代表了各個(gè)視頻幀在原始視頻里面的重要程度。

        2.3.1 空間注意力機(jī)制

        在空間注意力機(jī)制模塊中,利用空間注意力矩陣建模視頻幀圖像特征不同像素之間的空間依賴關(guān)系,并為每個(gè)視頻幀圖像特征分配不同的注意力權(quán)重??臻g注意力機(jī)制將視頻幀長(zhǎng)距離的上下文依賴信息作為局部特征進(jìn)行編碼,充分利用局部特征信息。結(jié)構(gòu)如圖3所示,輸入的特征圖為Z,尺寸為C×H×W。分別通過(guò)3個(gè)膨脹系數(shù)為2的空洞卷積,獲得3個(gè)尺寸為C×H×W的特征圖Za,Zb,Zc。對(duì)特征圖Za分別進(jìn)行Reshape與Transpose操作將尺寸轉(zhuǎn)換為N×C,N=H×W。對(duì)特征圖Zb進(jìn)行Reshape操作將尺寸轉(zhuǎn)換為C×N,N=H×W,接著使用矩陣乘法將得到的特征圖Za和Zb相乘,獲得兩個(gè)像素特征之間的強(qiáng)關(guān)聯(lián)矩陣,然后進(jìn)行softmax操作得到空間注意力圖M,尺寸為N×N。計(jì)算公式如式(2)中所示。接下來(lái),對(duì)特征圖Zc進(jìn)行Reshape操作將尺寸變化為C×N,N=H×W。接著使用矩陣乘法將特征圖Zc和M的轉(zhuǎn)置相乘之后,再乘上一個(gè)權(quán)重系數(shù)γ,將所得到的特征進(jìn)行Reshape操作將尺寸轉(zhuǎn)換為C×H×W,再與原始特征圖Z進(jìn)行相加操作得到最終的輸出P。計(jì)算公式如式(3)中所示

        圖3 空間注意力機(jī)制

        (2)

        (3)

        其中,Mij代表i位置對(duì)j位置特征的關(guān)聯(lián)強(qiáng)度,兩個(gè)位置的特征之間的關(guān)聯(lián)強(qiáng)度有越強(qiáng),Mij所取得的數(shù)值就會(huì)越大。權(quán)重系數(shù)γ初始化為0,在訓(xùn)練中自動(dòng)學(xué)習(xí)權(quán)重。從式(2)中可以看出,獲得的輸出p的特征是將所有特征和原始特征進(jìn)行加權(quán)求和得到的。

        2.3.2 通道注意力機(jī)制

        通道注意力機(jī)制模塊可以捕獲視頻幀特征圖通道維度之間的相互依賴關(guān)系,獲得視頻幀通道維度上的注意力權(quán)重,通道注意力機(jī)制對(duì)通道之間的依賴關(guān)系進(jìn)行建模,捕捉通道維度下的特征信息。結(jié)構(gòu)如圖4所示。輸入的特征圖為Z,尺寸為C×H×W。對(duì)特征圖Z進(jìn)行Reshape操作得到特征圖Z2,尺寸為C×N,N=H×W以及Reshape與Transpose操作得到特征圖Z1,尺寸為N×C。接著使用矩陣乘法將特征圖Z2和Z1相乘,然后進(jìn)行softmax操作得到通道注意力圖Q,尺寸為C×C。計(jì)算公式如式(4)所示。接著對(duì)特征圖Z進(jìn)行Reshape操作得到特征圖Z3,尺寸為C×N,N=H×W,使用矩陣乘法將通道注意力圖Q的轉(zhuǎn)置與特征圖Z3相乘之后,再乘上一個(gè)權(quán)重系數(shù)θ,將所得到的特征進(jìn)行Reshape操作將尺寸轉(zhuǎn)換為C×H×W,在與原始特征圖Z進(jìn)行相加操作得到最終的輸出T,計(jì)算公式如式(5)所示

        圖4 通道注意力機(jī)制

        (4)

        (5)

        其中,Qji代表i通道對(duì)j通道特征的關(guān)聯(lián)強(qiáng)度,兩個(gè)通道的特征之間的關(guān)聯(lián)強(qiáng)度有越強(qiáng),Qji所取得的數(shù)值就會(huì)越大。權(quán)重系數(shù)θ初始化為0,在訓(xùn)練中自動(dòng)學(xué)習(xí)權(quán)重。從式(4)中可以看出,獲得的輸出T的特征是將所有特征和原始特征進(jìn)行加權(quán)求和得到的。使得通道特征圖之間的長(zhǎng)期語(yǔ)義依賴關(guān)聯(lián)關(guān)系得到提高。特征圖的可識(shí)別性也大大增加。

        為了獲得更好的全局上下文依賴信息,對(duì)兩個(gè)輸出進(jìn)行了卷積操作之后,進(jìn)行Concatenate操作將兩個(gè)注意力機(jī)制特征輸出結(jié)果進(jìn)行融合,通過(guò)全連接層進(jìn)行輸出視頻幀重要性分?jǐn)?shù)。

        2.4 指針網(wǎng)絡(luò)

        傳統(tǒng)的視頻摘要方法中存在視頻幀被多次進(jìn)行分割使用以及在選取關(guān)鍵幀時(shí)將候選幀排除在外的問(wèn)題,而且輸入的視頻幀序列往往與輸出的視頻幀序列長(zhǎng)度是不一致的,這會(huì)在一定程度上造成生成視頻摘要質(zhì)量變差。為了解決這個(gè)問(wèn)題,我們引入了指針網(wǎng)絡(luò)。在選擇視頻幀的迭代過(guò)程中,指針網(wǎng)絡(luò)能選擇輸入幀序列中權(quán)重最大的幀作為輸出,而輸出的視頻幀是來(lái)自輸入序列的,而且可以自適應(yīng)輸入視頻幀序列的長(zhǎng)度。指針網(wǎng)絡(luò)表達(dá)式為

        (6)

        p(x1),…p(xi)=Softmax(ci)

        (7)

        其中,xi是輸入的視頻序列,ht是注意力機(jī)制中的隱藏狀態(tài),W1和W2是可學(xué)習(xí)的權(quán)重參數(shù),式(7)輸出選擇結(jié)果。

        2.5 損失函數(shù)

        視頻摘要任務(wù)是從原始視頻中選取一段視頻幀作為視頻摘要,也就是說(shuō),相對(duì)于非關(guān)鍵幀,這些關(guān)鍵幀的數(shù)量就比較少,因而各類別間存在著很大的不均衡性,也就是樣本不平衡。針對(duì)這個(gè)問(wèn)題我們使用損失函數(shù)Focal Loss,這個(gè)損失函數(shù)是處理樣本數(shù)不平衡的方法。損失函數(shù)定義如下

        (8)

        2.6 獲取鏡頭得分

        本文研究的是動(dòng)態(tài)視頻摘要,所以最終是把關(guān)鍵鏡頭組合成視頻摘要。模型輸出的是需要將其轉(zhuǎn)化為關(guān)鍵鏡頭得分的視頻幀重要性分?jǐn)?shù)。首先,把視頻進(jìn)行分段,本文采用的是基于內(nèi)核的時(shí)序分割算法(kernel temporal segmentation,KTS),然后將視頻分割為不同內(nèi)容的場(chǎng)景。關(guān)鍵鏡頭的分?jǐn)?shù)pi是由幀級(jí)重要性分?jǐn)?shù)求和取平均值計(jì)算出來(lái)的。我們最終選取的是關(guān)鍵鏡頭的子集,通過(guò)最大化關(guān)鍵鏡頭得分的同時(shí),生成的視頻摘要的總長(zhǎng)不能超過(guò)原始視頻總長(zhǎng)的15%。因?yàn)橐曨l摘要的工作中要將視頻鏡頭的分最大化,相當(dāng)于是一個(gè)NP難的問(wèn)題,所以選擇0/1背包算法選取對(duì)應(yīng)的關(guān)鍵鏡頭組成視頻摘要。此過(guò)程可形式化為

        (9)

        (10)

        式中:pi是第i個(gè)鏡頭,li是是第i個(gè)鏡頭的長(zhǎng)度,yi,j是第i個(gè)鏡頭里第j幀的幀級(jí)重要性分?jǐn)?shù)。ui∈{0,1} 是代表能不能被選為關(guān)鍵鏡頭,k為鏡頭的數(shù)目,L為視頻的總長(zhǎng)。

        3 實(shí)驗(yàn)及結(jié)果分析

        在上文中,把模型的結(jié)構(gòu)以及有關(guān)的工作進(jìn)行了詳細(xì)的介紹,現(xiàn)在開(kāi)始把重點(diǎn)轉(zhuǎn)向?qū)嶒?yàn)階段的細(xì)節(jié)介紹上,其中包括所采用的數(shù)據(jù)集、評(píng)價(jià)標(biāo)準(zhǔn)、參數(shù)設(shè)置以及分析對(duì)比。

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        3.1.1 數(shù)據(jù)集

        我們?cè)趦蓚€(gè)公開(kāi)的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括TvSum、SumMe。TvSum和 SumMe數(shù)據(jù)集是現(xiàn)存的帶有標(biāo)記的符合視頻摘要任務(wù)研究的數(shù)據(jù)集。視頻的播放時(shí)間在1 min到7 min不等,每個(gè)視頻都進(jìn)行了標(biāo)記,由15~18個(gè)用戶完成。TvSum數(shù)據(jù)集包括來(lái)源于10個(gè)不同主題的YouTube的50段視頻。每個(gè)主題包含5個(gè)視頻,主題包括美食節(jié)目、寵物護(hù)理等,視頻的播放時(shí)間在1 min到11 min不等。TvSum數(shù)據(jù)集由20個(gè)用戶進(jìn)行了標(biāo)記并且含有標(biāo)注得分。詳細(xì)數(shù)據(jù)見(jiàn)表1。

        表1 數(shù)據(jù)集具體信息

        3.1.2 評(píng)價(jià)指標(biāo)

        本文評(píng)估所生成的視頻摘要遵循文獻(xiàn)中的方法是為了和以往的工作進(jìn)行對(duì)比。使用F-score值評(píng)價(jià)算法生成的摘要和用戶選取的摘要的相似性。假設(shè)模型生成的摘要用R表示,人工選取的摘要用G表示,兩者的重疊部分為O。精準(zhǔn)率P和召回率R計(jì)算方法如下

        (11)

        (12)

        F-score為精確率和召回率的加權(quán)平均值,計(jì)算方法為

        (13)

        3.1.3 實(shí)驗(yàn)設(shè)置

        我們采納了zhang等[1]的建議,在TvSum和SumMe數(shù)據(jù)集上使用5折交叉驗(yàn)證,數(shù)據(jù)生成隨機(jī)的5組訓(xùn)練集以及測(cè)試集,用80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集,這么做不僅能防止模型產(chǎn)生過(guò)擬合,而且也能提升模型的性能。本文使用的特征提取網(wǎng)絡(luò)是GoogLeNet,這個(gè)網(wǎng)絡(luò)是一個(gè)預(yù)訓(xùn)練好的網(wǎng)絡(luò),是通過(guò)ImageNet獲取到的。每個(gè)視頻進(jìn)行采樣時(shí),幀率為2 fps,每一幀的圖像特征維數(shù)為1024。Epoch的最大值設(shè)置為300,學(xué)習(xí)率是0.000 05,還有生成的視頻摘要長(zhǎng)度不能超過(guò)原始視頻的15%。另外,從文獻(xiàn)[13]的研究中可知,選擇F-score值的平均值作為TvSum數(shù)據(jù)集的評(píng)估指標(biāo),選擇F-score值的最大值作為數(shù)據(jù)集SumMe的評(píng)估指標(biāo)。

        3.2 比較與分析

        3.2.1 模型比較

        為了驗(yàn)證本文模型性能,我們選擇了幾個(gè)使用廣泛的視頻摘要模型進(jìn)行對(duì)比。對(duì)比的模型性能都是基于原始論文的效果。

        同等實(shí)驗(yàn)條件下,通過(guò)表2我們可以得出,模型的性能優(yōu)于以前的視頻摘要模型。具體而言,本文所用方法在SumMe數(shù)據(jù)集上比當(dāng)前的方法的F-score值提升了1%,本文所用方法在TvSum數(shù)據(jù)集上比當(dāng)前對(duì)比的方法的F-score值提升了1.3%,如上所述,充分表明了本文所使用的方法進(jìn)行視頻摘要任務(wù)的研究是有效果的。

        表2 模型結(jié)果對(duì)比/%

        3.2.2 消融實(shí)驗(yàn)

        本文以SunMe數(shù)據(jù)集為例,通過(guò)消融實(shí)驗(yàn)驗(yàn)證視頻摘要算法中各個(gè)模塊對(duì)算法性能的影響,DCP為金字塔空洞卷積模塊,SAM為空間注意力機(jī)制,CAM為通道注意力機(jī)制,PN為指針網(wǎng)絡(luò)。

        表3顯示了不同模塊對(duì)算法性能的影響,使用不同的模塊時(shí),F(xiàn)-score的得分會(huì)逐步提高,同時(shí)使用4個(gè)模塊時(shí),算法取得了最好的效果。

        表3 SumMe不同模塊消融實(shí)驗(yàn)結(jié)果對(duì)比/%

        表4展示的是模塊中不同膨脹系數(shù)對(duì)算法的影響,結(jié)果表明,膨脹系數(shù)的不斷增加使得感受野逐漸擴(kuò)大,能夠使得模型獲取到更多的不同尺度的上下文特征,從而提高算法的性能。但如果膨脹系數(shù)過(guò)大,則會(huì)導(dǎo)致算法的性能降低。從表中可以看出,膨脹系數(shù)從(1,6,12,18)變成(1,12,24,36)時(shí),算法性能突然下降,這是由于膨脹系數(shù)太大,從而導(dǎo)致大量的無(wú)用信息,降低算法的性能。

        表4 DCP模塊中不同膨脹系數(shù)對(duì)算法的影響/%

        3.2.3 定性結(jié)果

        通過(guò)可視化本文模型生成摘要的準(zhǔn)確性,能夠更加直接觀察到模型所生成摘要的質(zhì)量。我們以TvSum數(shù)據(jù)集為基準(zhǔn),繪制了視頻16的真實(shí)值與預(yù)測(cè)值的對(duì)比圖?;疑€條代表的是人工標(biāo)注的重要性得分,也就是圖中的真實(shí)值,黑色線條代表的是本文模型所預(yù)測(cè)的幀級(jí)重要性得分,也就是圖中的預(yù)測(cè)值。從圖5我們可以得出,本文模型所預(yù)測(cè)的重要性得分和人工所標(biāo)注的重要性得分曲線的走勢(shì)基本相同,說(shuō)明了本文模型所預(yù)測(cè)的得分基本趨近于真實(shí)得分。這也反映出本文模型的有效性。

        圖5 視頻16預(yù)測(cè)值與真實(shí)值對(duì)比

        除此之外,我們還選擇數(shù)據(jù)集TvSum中的一個(gè)關(guān)于“自行車花式挑戰(zhàn)”的視頻來(lái)展示本文模型所生成視頻摘要的概況。原始視頻內(nèi)容中有除了有車手做了自行車技巧之外,很大一部分都是主持人在介紹自行車的相關(guān)知識(shí)。如圖6所示,采用直方圖能夠更直接的顯示,灰色部分代表的是真實(shí)的重要性得分,黑色部分表示模型選取的鏡頭。通過(guò)觀察圖中的最高峰值可知,模型所選取的摘要和人工所選取的摘要峰值是對(duì)齊的,說(shuō)明本文模型選取的鏡頭是人工標(biāo)注得分較高的,生成了高質(zhì)量的視頻摘要。

        圖6 生成摘要結(jié)果

        4 結(jié)束語(yǔ)

        本文提出了一種基于多尺度混合注意力機(jī)制視頻摘要算法MHAVS,考慮到了視頻摘要內(nèi)容的多層次上下文特征,在使用金字塔空洞卷積的基礎(chǔ)上增加了混合注意力機(jī)制?;旌献⒁饬C(jī)制能從序列到序列的問(wèn)題中獲取到空間維度和通道維度的上下文特征,關(guān)聯(lián)每幀之間的重要性。通過(guò)指針網(wǎng)絡(luò)選取視頻幀,生成有序的視頻摘要。實(shí)驗(yàn)證明,所提出的模型在視頻摘要任務(wù)中優(yōu)于其它視頻摘要模型。未來(lái)將會(huì)把研究重點(diǎn)放在在線視頻摘要生成和用戶個(gè)性化視頻摘要的研究上。同時(shí),也希望在今后的工作中,將本文提出的模型在應(yīng)用在其它領(lǐng)域中。

        猜你喜歡
        注意力卷積機(jī)制
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        破除舊機(jī)制要分步推進(jìn)
        注重機(jī)制的相互配合
        打基礎(chǔ) 抓機(jī)制 顯成效
        国产人与禽zoz0性伦| 女同恋性吃奶舌吻完整版| 漂亮人妻被强中文字幕乱码| 国产亚洲精品90在线视频| 亚洲av福利院在线观看| 亚洲成a v人片在线观看| 精品第一页| 一本大道加勒比东京热| 91久久国产香蕉熟女线看| 国产亚洲精品a片久久久| 羞羞视频在线观看| 国内精品伊人久久久久av| 亚洲一区二区三区在线中文| 一区二区三区成人av| 亚洲第一幕一区二区三区在线观看| 亚洲国产成人片在线观看| 四虎影永久在线观看精品| 国产亚洲欧美另类久久久| 国产色第一区不卡高清| 朋友的丰满人妻中文字幕| 男人和女人高潮免费网站| 日韩五十路| 久久这里只有精品黄色| 夜夜骚久久激情亚洲精品| 亚洲成在人网站av天堂| 亚洲精品第一国产麻豆| 日本视频一区二区这里只有精品| 人禽杂交18禁网站免费| 中文字幕无码不卡一区二区三区 | 国产麻豆一精品一AV一免费软件| 厕所极品偷拍一区二区三区视频 | 激情亚洲的在线观看| 日韩va高清免费视频| 日本真人边吃奶边做爽电影| 久久久无码人妻精品一区| 亚洲爆乳大丰满无码专区| 日本视频一区二区三区| 国产精品成人观看视频国产奇米| 人妻少妇邻居少妇好多水在线 | 一区二区三区视频偷拍| 97se色综合一区二区二区|