基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型

2025-08-04 00:00:00李玉潔賈皓楠零俐周文凱蔣政丁數(shù)學(xué)譚本英

濟(jì)南大學(xué)學(xué)報(自然科學(xué)版) 2025年4期

中圖分類號：TP391 文獻(xiàn)標(biāo)志碼：A

Unsupervised Video Summriztion Model Bsed on Multi-hed Concentrtion Mechnism

LI Yujie ^，b ， JIA Honn ， LING Li^a ， ZHOU Wenkai°， JIANG Zhenga，DING Shuxue ^a，b ， TAN Benying ^a，b （a.SchoolofArtificial Intelligence，b.KeyLaboratoryofArtificial IntellgenceAlgorithmEngineeringof Guangxi Universities，Guilin Universityof Electronic Technology，Guilin 541OO4，Guangxi，China）

Abstract：Toadressthelimitations of existing video summarization methods inestablishing long-range frame dependenciesand paralelized training，anovel unsupervisedvideosummarizationmodel basedonthe multi-headcentralized atention mechanism（MH-CASUM）was proposed.The multi-head atention mechanism was integrated intothecentralized atentionmodel，thelengthregularizationlossfunction wasimproved，andthelossthreshold formodelparameterselection was optimized.The uniquenessand diversityof video frames were leveraged to enrich thesummary information，thereby the video summarization task was more eficiently accomplished.The performanceofthe MH-CASUM model was validated through evaluation experiments on SumMe and TVSum datasets using F₁ score，Kendall correlation coefficient，and Spearmancorrelationcoeffcient.Theresultsshow thatthe introductionofmulti-headatentionmechanismandthe improved method for loss threshold inmodel parameter selection significantly enhance thevideo summarization performance of the MH-CASUM model. Compared to the previously best-performing unsupervised video summarization model CASUM，the （2號 F₁ score of MH-CASUM on TVSum dataset is increased by 0.98% ，which proves its superiority and competitiveness in video summarization task.

Keywords： video summarization；attention mechanism；multi-head concentrated attention；unsupervised approach

隨著互聯(lián)網(wǎng)和信息技術(shù)的迅速發(fā)展，多媒體技術(shù)的廣泛應(yīng)用給人們的生活帶了極大的便利，同時視頻的“信息爆炸”也給人們帶來諸多不便[1]。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心（CNNIC）發(fā)布的第53次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[2]，截至2023年12月，我國短視頻用戶規(guī)模達(dá)10.92億，互聯(lián)網(wǎng)普及率達(dá) 77.5% 。雖然視頻制作者將視頻的不同部分在播放進(jìn)度條處打上節(jié)點和標(biāo)簽，以便觀眾快速定位，但面對海量的信息，人們還是會感到難以應(yīng)對。由于尋找所需信息的成本可能遠(yuǎn)遠(yuǎn)超過信息本身的價值，因此，視頻摘要技術(shù)就顯得尤為重要，它能幫助人們更高效地獲取信息。視頻摘要通過提取視頻中的關(guān)鍵信息，形成一個較短的視頻或視頻故事以便于人們快速了解原視頻的主要內(nèi)容。人工處理視頻摘要任務(wù)需要花費大量時間和精力，且過程十分枯燥，由此產(chǎn)生的自動視頻摘要技術(shù)可以大幅度提高工作效率，符合當(dāng)今信息化社會的迫切需求

早期的視頻摘要方法主要依賴于傳統(tǒng)的閾值、聚類3或基于支配集4的關(guān)鍵幀提取。隨著深度學(xué)習(xí)的發(fā)展，基于深度學(xué)習(xí)的視頻摘要方法開始興起，深度學(xué)習(xí)的研究與發(fā)展為計算機(jī)視覺以及視頻摘要領(lǐng)域注人了源源不斷的活力與動力，為研究者們提供了更多探索和創(chuàng)新的方向。Zhou等[5]基于強(qiáng)化學(xué)習(xí)開發(fā)了一個深度學(xué)習(xí)視頻摘要模型（DSN），將視頻摘要形式化為一個順序決策過程，并通過一個端到端、基于強(qiáng)化學(xué)習(xí)的框架進(jìn)行訓(xùn)練。Chen等[在后續(xù)的研究中發(fā)現(xiàn)，傳統(tǒng)的基于強(qiáng)化學(xué)習(xí)的視頻摘要方法存在獎勵稀疏且難以收斂的問題，因此提出一種弱監(jiān)督的分層強(qiáng)化學(xué)習(xí)框架。Zhu等[7]提出了一種基于錨的從檢測到匯總的有監(jiān)督視頻摘要模型框架（DSNet）。Apostolidis 等[8]還提出了一個將演員（Actor）-評論家（Critic）模型嵌入到生成對抗網(wǎng)絡(luò)中的視頻摘要方法，設(shè)計的訓(xùn)練流程可以理解為演員與評論家參加一個游戲并從中逐步選擇視頻關(guān)鍵幀，他們在游戲中的每一步都會使判別器給出一組獎勵。

注意力機(jī)制的發(fā)展也為視頻摘要任務(wù)帶來了新的視角。Ghauri等[9]提出多源視覺注意力（MSVA）視頻摘要深度學(xué)習(xí)模型，展示了該領(lǐng)域的新視角。Ji等[10]將視頻摘要視為序列到序列的問題來解決，開發(fā)了基于注意力的深度模型編碼器-解碼器網(wǎng)絡(luò)（AVS），包括加法模型A-AVS、乘法模型M-AVS，編碼器使用雙向長短期記憶網(wǎng)絡(luò)（Bi-LSTM）來編碼輸入視頻幀的上下文信息，解碼器使用加法、乘法目標(biāo)函數(shù)研究框架中的LSTM網(wǎng)絡(luò)，在選擇關(guān)鍵幀方面更貼近人類的方式。Zhong等[1將更高層次的視覺特征與Bi-LSTM處理的語義特征結(jié)合，提出了用圖注意力網(wǎng)絡(luò)來調(diào)整Bi-LSTM的模型。針對LSTM網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)復(fù)雜、計算量大的問題，F(xiàn)ajtl等[12]提出一種基于自注意力機(jī)制的視頻摘要模型。Jung等[13]在變分自編碼器（VAE）-生成對抗網(wǎng)絡(luò)（GAN）架構(gòu)的基礎(chǔ)上加以擴(kuò)展與改進(jìn)，通過引入定制的注意力機(jī)制提出了一種通過引入塊和跨度的網(wǎng)絡(luò)（CSNet）和定制的差異注意力機(jī)制，用來評估不同時間粒度下幀之間的依賴性。Jung 等[14]引入一種用于估計幀重要性的方法，結(jié)合建模幀間相對位置的算法，通過分解幀序列來捕獲局部和全局依賴關(guān)系。Apostolidis 等[15-16]在無監(jiān)督視頻摘要（SUM）-GAN-sl模型的基礎(chǔ)上提出了改進(jìn)的SUM-GAN-對抗自編碼器（AAE）模型，使用確定性自動編碼器替換變分自動編碼器，從而提高了模型性能和訓(xùn)練速度。He等[17]提出的基于自注意力機(jī)制的GAN，生成器預(yù)測幀級重要性分?jǐn)?shù)，判別器則區(qū)分加權(quán)和原始幀特征，使用條件特征選擇器引導(dǎo)模型將注意力集中于重要時間區(qū)域。

此外，多層變換器（Transformer）模型在自然語言處理領(lǐng)域的成功應(yīng)用也啟發(fā)了視頻摘要領(lǐng)域的研究?；谧⒁饬C(jī)制的Transformer模型[18]解決了循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）模型長距離視頻幀依賴性的建模缺陷和無法并行化的問題。受到Transformer模型的啟發(fā)，Dosovitskiy等[19提出了VisionTrans-former（ViT）并應(yīng)用于計算機(jī)視覺領(lǐng)域[20-21]，自注意力是ViT的核心。與卷積神經(jīng)網(wǎng)絡(luò)（CNN）和RNN相比，自注意力復(fù)雜度更小同，參數(shù)更少，可以并行處理，解決了使用RNN存在的問題。Apostolidis等[22提出利用集中注意力機(jī)制和幀的唯一性與多樣性進(jìn)行視頻摘要的CA-SUM方法。該方法集成了集中注意力機(jī)制來專注注意力矩陣主對角線中的非重疊塊，并通過提取和利用幀的唯一性與多樣性的信息來完成視頻摘要任務(wù)。該機(jī)制涉及高度可并行化的矩陣乘法運算，考慮了整個幀序列，并且可以在單個正向和反向過程中易于訓(xùn)練，視頻幀的唯一性與多樣性豐富了已有的信息，減少了大量參數(shù)，可以更好地評估視頻中不同部分幀的重要性。

當(dāng)前基于無監(jiān)督的方法盡管解決了視頻摘要標(biāo)簽獲取成本昂貴的問題，但現(xiàn)有的視頻摘要方法仍存在無法有效建立長距離幀依賴性和并行化訓(xùn)練困難等問題。為了解決這些問題，本文中提出一種基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要（MH-CASUM）模型。其中，集中注意力包括提取注意力矩陣中相關(guān)視頻幀的唯一性與多樣性信息并生成一個塊對角稀疏注意力矩陣來豐富視頻摘要。集中注意力機(jī)制能夠?qū)崿F(xiàn)高度可并行化的矩陣乘法運算。本文中還改進(jìn)了長度正則化損失函數(shù)，優(yōu)化損失閾值以選擇模型參數(shù)，結(jié)合視頻幀的唯一性與多樣性以豐富摘要信息，更有效地完成視頻摘要任務(wù)。多頭注意力機(jī)制將注意力矩陣劃分為多個子矩陣，經(jīng)過處理再連接，能夠更好地獲取注意力矩陣中重要的內(nèi)容，很好地建立長距離幀依賴性，并減少大量學(xué)習(xí)參數(shù)。視頻幀的唯一性通過注意力矩陣的每一行的熵來計算，而多樣性通過所選幀之間的余弦相似度來計算，通過對多個注意力矩陣的唯一性和多樣性的關(guān)注，使得MH-CASUM模型能夠更好地優(yōu)化視頻幀信息，最終得出的視頻摘要更接近人類需要的摘要結(jié)果的同時，內(nèi)容更豐富有趣。最后在SumMe[23]和 TVSum^[24] 數(shù)據(jù)集上的實驗評估MH-CASUM模型的性能，利用Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)25]檢驗MH-CASUM模型生成的視頻摘要的內(nèi)容與人類需要的摘要內(nèi)容的相關(guān)性。

1 MH-CASUM模型

基于集中注意力機(jī)制的無監(jiān)督視頻摘要（CASUM）模型原本使用RNN來建模視頻幀間的長距離依賴關(guān)系。本文中通過將多頭注意力機(jī)制融入CASUM模型，并改進(jìn)原有的長度正則化損失函數(shù)，顯著提升了模型性能。具體步驟是，先對輸入數(shù)據(jù)進(jìn)行線性變換，分別生成查詢矩陣、鍵矩陣 K 和值矩陣 V ，并將其輸入多頭注意力機(jī)制進(jìn)行處理。該機(jī)制不僅能有效建模長距離幀依賴關(guān)系，還能實現(xiàn)訓(xùn)練過程的并行化，同時相較于原始RNN結(jié)構(gòu)，能夠大幅減少模型所需學(xué)習(xí)的參數(shù)量。此外，通過設(shè)置多個注意力頭，模型能夠從多個子空間充分學(xué)習(xí)視頻幀信息，從而增強(qiáng)了整體模型的穩(wěn)定性和魯棒性。此外，本文中在模型參數(shù)選擇過程中加入了損失閾值，選擇性能最優(yōu)的模型，最終完成無監(jiān)督視頻摘要任務(wù)。

基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型總體框架如圖1所示。框架包括多頭集中注意力模塊以及模型參數(shù)選擇2個部分。最后在訓(xùn)練產(chǎn)生的一系列模型中選擇一個性能最佳的模型用于無監(jiān)督的視頻摘要任務(wù)。

1.1 多頭集中注意力模塊

圖2所示為MH-CASUM中多頭集中注意力模塊的工作流程。

X={x_t}_t=1^T 是經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型預(yù)訓(xùn)練的一組視頻幀特征向量，其中 x_t 為視頻幀序列中第 χ_t 幀的特征向量， T 為視頻幀的數(shù)量， Z={z_t}_t=1^T 為經(jīng)多頭注意力模塊輸出的特征向量，并且將原始特征向量 X={x_t}_t=1^T 通過殘差連接添加到其中（殘差連接即如圖2中的符號操作），然后將此操作的結(jié)果 W={w_t}Ω_t=1^T 送人Dropout層，再經(jīng)過一個歸一化層被送入回歸網(wǎng)絡(luò)中，最后生成一組重要性分?jǐn)?shù) ）來表示視頻幀的重要性程度，其中 y_t 表示為視頻幀序列中第 χ_t 幀的重要性分?jǐn)?shù)。

在多頭注意力機(jī)制中，表示查詢操作，用于在視頻幀上查找特定區(qū)域或關(guān)鍵點， K 表示關(guān)鍵點，用于表示視頻幀中的特征點或特征區(qū)域， V 表示視頻幀中的特征值?？紤]到視頻幀中的某個位置可能只包含了很小一部分的信息，但是這一部分的信息對于視頻幀的理解可能有重要的作用，因此本文中使用多頭注意力機(jī)制提高模型關(guān)注視頻幀不同位置的能力，聯(lián)合來自不同的頭部學(xué)習(xí)到的信息，同時也實現(xiàn)了長距離幀依賴性的建模。相較于自注意力機(jī)制，多頭注意力機(jī)制對視頻幀的處理能夠得到更多、更有效的信息。自注意力機(jī)制將與 K 進(jìn)行相似度計算，求出的相似度值歸一化后會生成一組相似度向量，也稱相似度權(quán)重，而 V 表示的是單個輸入視頻幀特征的向量，將 V 乘以這一組相似度權(quán)重得到關(guān)注的視頻幀位置的輸入特征，最后得到視頻幀級重要性分?jǐn)?shù)。多頭注意力機(jī)制將輸人特征平均分為8個部分，每個部分的計算過程和自注意力機(jī)制的計算過程一致，將每個部分計算得到的幀級重要性分?jǐn)?shù)拼接起來，即可得到與輸人特征維度相同的幀級重要性分?jǐn)?shù)。多頭注意力機(jī)制融合了同一注意力池化產(chǎn)生的不同的信息，這些信息源于相同的 K 、的不同子空間表示，使模型關(guān)注視頻幀不同方面的特征信息，因此降低了每個部分中的維度，減少計算中維度的特征信息的損耗，并且可以在一定程度上防止過擬合的發(fā)生。

圖2基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型中多頭集中注意力模塊的工作流程

多頭注意力機(jī)制計算公式[18]如下：

f_mh（Q，K，V）=f_c（O_h，1，O_h，2，…，O_h，h）W^o，

O_h，i=f_atl（QW_i^Q，KW_i^K，VW_i^V），

式中：函數(shù) f_mh（?）表示整個機(jī)制的輸出，它通過拼接函數(shù) f_c（?）和注意力計算函數(shù) f_att（?）來處理; O_h，i 為每個注意力頭 h 的第 i 個輸出； W^o 為用于將多頭注意力的輸出連接并映射回原始維度的變化矩陣，能夠?qū)⒍鄠€注意力頭的結(jié)果合并成一個輸出， W^o∈ d_dim 為視頻幀的特征維度，多頭注意力中的值向量的維度 d_v=d_dim/h ; W_i^Q 、 W_i^K 、 W_i^V 分別為第 i 個注意力頭的查詢變化矩陣、鍵變化矩陣和值變化矩陣，，， W_i^V∈ R R‘dimdk，多頭注意力中的鍵向量dk=dim/h。

最終，所有注意力頭的輸出通過拼接函數(shù)合并，并通過權(quán)重矩陣 W^o 進(jìn)行線性變換，得到多頭注意力機(jī)制的最終輸出，以形成多個子空間，將輸入向量映射到不同的子空間中，進(jìn)而豐富了信息的特征表達(dá)。

對于自注意力塊稀疏矩陣的相關(guān)計算仍然使用CASUM模型的計算方法，其中 T 為視頻幀的數(shù)量，M 為矩陣塊的尺寸， N 為矩陣塊的數(shù)量， u_t 和 d_t 分別為第 Ψ_t 幀的注意力獨特性和注意力多樣性的值。該算法的輸入是一組幀特征向量 X={x_t}_t=1^T ，這些向量通過3個不同的線性變換層，分別轉(zhuǎn)換成查詢矩陣 Q={q_t}_t=1^T ，鍵矩陣 K={k_t}_t=1^T 和值矩陣 V= {ν_t}_t=1^T 。這些矩陣被劃分為8個部分，每個部分分別送入自注意力模塊。在模塊內(nèi)部，查詢矩陣和鍵矩陣 K 通過矩陣乘法計算得到初步的注意力分?jǐn)?shù)，然后通過歸一化層（softmax）處理，最終得到注意力特征矩陣 A={a_i，j}_i，j=1^T 。注意力特征矩陣 A 中的元素 a_i，j 表示第 i 個查詢向量 q_i 與第 j 個鍵向量k_j 之間的注意力權(quán)重，這個權(quán)重表示了在生成輸出時，第 j 個特征向量對第 i 個特征向量的影響程度。通過計算輸入矩陣 A 的每一行的熵來估計每個幀的注意力獨特性 u_t ，公式為

u=|e|₁，

式中： e_i 為注意力矩陣 A 第 i 行的熵; 為注意力特征矩陣 A 中第 i 行第 χ_t 列的元素； e 為由每一行的熵 e_i 組成的列向量；為使用所有行熵 e_i 的1范數(shù)對熵矩陣 e 進(jìn)行歸一化后的結(jié)果，其中 |e|₁ 表示對每一行的熵 e_i 組成的矩陣求1范數(shù)。

對于塊對角稀疏矩陣中的每一個塊，通過計算除當(dāng)前塊之外的幀的加權(quán)不相似性 D 的平均值來估計塊上每個幀的注意力多樣性 d_t ，公式為

式中： D（b，l）為第 l 幀中第 b 個塊的不相性似值；x_b 為第 Φ_t 幀中第 b 個塊的特征向量； x_l 為第 ξ_l 幀的特征向量，其中 ξ_l 是除當(dāng)前塊之外的幀的索引；|x_b|₂ 和 |x_l|₂ 分別為向量 Δ_xb 和向量 x_l 的2范數(shù)（歐幾里得范數(shù)）； d_b 為第 Ψ_t 幀中第 b 個塊的注意力多樣性； a_b，l 為注意力分?jǐn)?shù)。

根據(jù)不相似性值 D（b，l）和注意力分?jǐn)?shù) a_b，l 可以計算塊級注意力多樣性 d_b ，然后聚合所有的塊級注意力多樣性得到幀級注意力多樣性 d_t 。隨后，將幀的注意力多樣性 d_ι 與輸入矩陣 A 的對應(yīng)塊相加（2 （b_i，j=a_i，j+d_j）得到一個新的矩陣輸出 B={b_i，j}_i，j=1^T ，其中， b_i，j 是新矩陣中的第 i 行第 j 列的元素，是原始注意力分?jǐn)?shù) a_（i，j）與注意力多樣性 d_j 的和。最后將這個新矩陣與注意力值矩陣 V 相乘，并將幀注意力的獨特性 u_t 和多樣性 d_ι 連接到它的末尾，作為多頭稀疏矩陣中每一頭的輸出。將多個注意力頭全部連接起來得到該模塊的輸出 Z={z_t}_t=1^T 。

在模型訓(xùn)練過程中，將輸出的幀級重要性分?jǐn)?shù)通過改進(jìn)文獻(xiàn)[26]中深度網(wǎng)絡(luò)模型的長度正則化損失函數(shù)計算損失 L_reg 。

式中 σ 為長度正則化因子，可調(diào)超參數(shù)。

最后采用反向傳播和梯度更新來優(yōu)化模型參數(shù)，提高模型視頻摘要的能力。

1. 2 模型參數(shù)選擇中的損失閾值

在模型訓(xùn)練的過程中，將隨機(jī)劃分好的訓(xùn)練集和測試集輸入到模型中，訓(xùn)練400個批次，并將每個批次的訓(xùn)練損失值保存，用于選擇最佳的模型參數(shù)。為了能夠選擇到一個性能最佳的視頻摘要模型參數(shù)，需要一個選擇最佳模型參數(shù)的準(zhǔn)則，傳統(tǒng)參數(shù)選擇準(zhǔn)則是選取損失最小的批次所對應(yīng)的模型參數(shù)；但是單純考慮損失最小可能無法得到最佳的模型參數(shù)，存在一定的局限性，導(dǎo)致模型過度擬合訓(xùn)練數(shù)據(jù)而無法泛化新數(shù)據(jù)，因此在模型參數(shù)選擇的過程中應(yīng)當(dāng)過濾掉一部分損失值。本文中的模型參數(shù)選擇方法是設(shè)置損失閾值，對損失值加以限制以選擇到最優(yōu)的模型參數(shù)。

式中： γ 為選擇的最佳的模型參數(shù)； L（θ）為模型訓(xùn)練過程中的損失值。

圖3所示為MH-CASUM模型參數(shù)選擇的具體過程及損失閾值的使用方法。

圖3基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型參數(shù)選擇的具體過程及損失閾值的使用方法

2 實驗

2. 1 數(shù)據(jù)集

分別使用SumMe數(shù)據(jù)集[23]和TVSum數(shù)據(jù)集[24]來評估本文模型的性能。SumMe數(shù)據(jù)集包含25個視頻摘要，視頻時間為 1～6min 。TVSum數(shù)據(jù)集包含50個不同類型的視頻摘要（如新聞、紀(jì)錄片等），視頻時間為 1～11min ，每個視頻包含20個幀級重要性評分（分值1為不重要，分值5為非常重要，以此類推）。

2.2 評估方法

性能評估基于2種不同的評估方法：方法1是目前大多數(shù)現(xiàn)有視頻摘要技術(shù)采用的評估方法，通過機(jī)器生成的視頻摘要 A 和用戶標(biāo)注的視頻摘要 B 之間的時間重疊關(guān)系[27]，首先針對用戶摘要計算出精確率 P 和召回率 R ，計算 F₁ 值。

式中：n表示 A 與 B 之間的重合部分； ∥?∥ 表示的是時間長度。

方法2采用Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)[25]評價。

式中： τ 為Kendall相關(guān)系數(shù)； ρ 為 Spearman 相關(guān)系數(shù)； c 為視頻幀的相同對數(shù)； D 為視頻幀的不同對數(shù)； d 為2個視頻幀之間的差值； n 為視頻中的幀數(shù)； x_t 和 y_t 分別為2個視頻特征向量的第 χ_t 個元素（第 χ_t 幀）。

由于方法2須要使用幀級形式的用戶標(biāo)注，且SumMe數(shù)據(jù)集的用戶標(biāo)注是片段形式，因此針對SumMe數(shù)據(jù)集只能使用方法1來評估。TVSum數(shù)據(jù)集的用戶標(biāo)注是幀級的，方法2適用，并且可以通過文獻(xiàn)27中的方法關(guān)鍵幀到關(guān)鍵鏡頭和幀級分?jǐn)?shù)將幀級標(biāo)注數(shù)據(jù)轉(zhuǎn)換為關(guān)鍵片段的形式，因此該數(shù)據(jù)集也可以使用方法1來評估。

為了劃分測試集和訓(xùn)練集，本文中采用了隨機(jī)劃分的交叉驗證技術(shù)。具體做法是，隨機(jī)選擇 20% 的視頻作為測試集，其余 80% 的視頻用作訓(xùn)練集。

這個過程重復(fù)進(jìn)行5次，以確保結(jié)果的穩(wěn)定性和可靠性。最終的評估指標(biāo)，包括 F₁ 值、Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)，是基于這5次隨機(jī)劃分得到的結(jié)果的平均值。這種方法有助于減小隨機(jī)性對模型評估的影響，提供一個更加穩(wěn)健的性能估計結(jié)果。

2.3 實驗設(shè)置

本文中以CASUM模型以及ViT網(wǎng)絡(luò)模型為基礎(chǔ)，使用CASUM模型的稀疏矩陣框架，引入ViT的多頭注意力訓(xùn)練思想，并改進(jìn)了一些細(xì)節(jié)。

按每秒2幀提取視頻幀，然后通過在ImageNet數(shù)據(jù)集上訓(xùn)練的谷歌神經(jīng)網(wǎng)絡(luò)（GoogleNet-pool5）獲得深度為1024的輸入特征，將矩陣塊的尺寸 M 設(shè)置為60，分頭數(shù)量 N 設(shè)置為 8，SumMe 數(shù)據(jù)集、TV-Sum數(shù)據(jù)集的損失閾值分別設(shè)置為0.013、0.007，實驗研究這些參數(shù)對MH-CASUM模型性能的影響。學(xué)習(xí)率設(shè)置為 5×10^-4 ，二模正則化因子為 10^-5 。根據(jù)常用統(tǒng)一初始化方法初始化網(wǎng)絡(luò)參數(shù)[12]，其中增益為，偏置為0.1，使用Adam優(yōu)化器進(jìn)行訓(xùn)練，訓(xùn)練400個批次。

根據(jù)Mahasseni等[28關(guān)于長度正則化因子 σ 對模型性能影響的研究結(jié)果，參考CASUM模型的參數(shù)設(shè)置[22]，最終將 σ 設(shè)置為[0.5，0.9]，在最后的模型選擇時選取這2個長度正則化因子中幀的重要性得分 s 接近上限 δ 的部分。

訓(xùn)練結(jié)束后，根據(jù)本文中提出的損失閾值的方法選擇最優(yōu)模型。首先對每一個 σ 進(jìn)行判斷，然后在這5次隨機(jī)劃分訓(xùn)練得到的模型中（每一次劃分都訓(xùn)練出一個模型），分別選擇表現(xiàn)最好的 σ 值對應(yīng)的模型作為最終模型

采用CASUM模型中的公式[22]計算重要性得分。

式中 μ_u 和 μ_un 分別為訓(xùn)練過和未經(jīng)訓(xùn)練的模型在整個測試視頻集合中視頻幀的重要性分?jǐn)?shù)的平均值，

式中： X 為測試視頻的數(shù)量； T_m 為第 m 個測試視頻； y_un，n?y_ur，n 分別為未經(jīng)訓(xùn)練的模型、訓(xùn)練過的模型在當(dāng)前測試視頻的幀的重要性分?jǐn)?shù)。此外，對于選擇的模型有一個 s 值，當(dāng)此值接近實驗定義的上限 δ=1.5 時，表示模型的性能最佳，當(dāng) Sgt;δ 時表示該模型過擬合。

2.4 結(jié)果分析

MH-CASUM模型提取視頻摘要的效果如圖4所示。效果圖所展示的視頻原始長度為 70s ，該視頻描述的是飛機(jī)降落的過程，MH-CASUM模型提取出的視頻摘要的長度為8s，并且能夠僅根據(jù)摘要視頻理解視頻的信息，表明模型保留了絕大多數(shù)的有效信息，并有效減少了視頻的冗余程度。

圖4基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型提取的視頻摘要效果

2.4.1 定量實驗結(jié)果

對于多頭塊對角稀疏注意力矩陣，集中注意力機(jī)制是整個模型的核心，首先針對稀疏矩陣塊的尺寸 M 定量實驗，研究不同的矩陣塊尺寸對模型性能的影響，該矩陣塊尺寸表示在集中注意力機(jī)制中每次選取的視頻片段的長度。將分頭數(shù)量 N 定為8，只改變矩陣塊尺寸 M 的值，實驗結(jié)果見表1。

實驗結(jié)果顯示：隨著矩陣塊尺寸 M 的增大，MH-CASUM模型在TVSum數(shù)據(jù)集的性能整體呈現(xiàn)上升趨勢，而在SumMe數(shù)據(jù)集的性能波動較大。在當(dāng)矩陣塊尺寸M為6O時，MH-CASUM模型在SumMe、TVSum數(shù)據(jù)集的性能均較好，繼續(xù)增大矩陣塊尺寸，MH-CASUM模型在2個數(shù)據(jù)集的性能呈現(xiàn)下降趨勢，表明矩陣塊尺寸與選取的視瀕片段的長度密切相關(guān)。MH-CASUM模型按每秒2幀提取視頻幀，所以視頻片段的長度影響視頻幀的數(shù)量。當(dāng)視頻幀的數(shù)量少于或接近設(shè)置的矩陣塊尺寸M時，對本文模型來說塊對角稀疏矩陣就失去了價值，故設(shè) M=60 。

表1塊對角稀疏矩陣中不同矩陣塊尺寸 M 對基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型的性能影響SumMe數(shù)據(jù)的損失閾值

多頭注意力的引入有助于捕捉更加豐富的特征信息，本文中研究了不同的分頭數(shù)量 N 對特征信息捕捉的有效程度。根據(jù)表1的實驗結(jié)果，確定 M 為60，改變分頭數(shù)量 N 的實驗結(jié)果見表2。結(jié)果表明，分頭的數(shù)量對模型性能的影響并不是簡單的線性關(guān)系，當(dāng)分頭數(shù)量 N 為8時，模型在相關(guān)任務(wù)上的性能表現(xiàn)最好。這是因為適當(dāng)?shù)姆诸^數(shù)量不僅使得模型能夠在多個表示子空間中高效地捕捉和整合信息，而且還顯著提升了模型對視頻內(nèi)容的深層次理解能力。

表2不同分頭數(shù)量 N 對基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型的性能影響

對于模型的選擇，引入損失閾值并針對不同閾值設(shè)置開展實驗，控制損失閾值選擇最佳的模型，而不是只選擇對應(yīng)損失最小的模型，以消除訓(xùn)練過程中損失值的波動對模型參數(shù)選擇的影響。對于SumMe數(shù)據(jù)集，將損失閾值設(shè)置為 0.011～ 0.020（步長為0.001），計算每個閾值對應(yīng)的 F₁ 值，結(jié)果如圖5所示。由圖可以看出：當(dāng)損失閾值為 0.011～0.013 時， F₁ 值逐漸增大；而損失閾值為0.013～0.02 時， F₁ 值整體減小，因此將SumMe數(shù)據(jù)集的損失閾值設(shè)為0.013。將TVSum數(shù)據(jù)集的損失閾值設(shè)置為 0.001～0.010 （步長為0.001），實驗結(jié)果見圖5。由圖可見，當(dāng)損失閾值為 0.001～0.007 時， F₁ 值平穩(wěn)上升，并于閾值為0.007時達(dá)到峰值后開始下降且存在波動，所以將TVSum數(shù)據(jù)集的損失閾值設(shè)為0.007，以此選擇到最佳的模型

圖5損失閾值對基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型性能的影響

F₁ 值一精確率與召回率的調(diào)和平均值。

2.4.2 性能比較

為了評估MH-CASUM模型的性能，本文中選擇幾個目前性能較好的視頻摘要模型進(jìn)行比較。表3、4分別為不同視頻摘要模型應(yīng)用于SumMe、TV-Sum數(shù)據(jù)集的 F₁ 值、Kendall相關(guān)系數(shù)和 Spearman相關(guān)系數(shù)，以及排序情況。表3中的結(jié)果顯示：MH-CASUM模型在SumMe數(shù)據(jù)庫的 F₁ 值為 51.3% ，與之前的最佳方法塊跨步網(wǎng)絡(luò)（CSNet）[13]的性能相當(dāng)；MH-CASUM模型在TVSum數(shù)據(jù)庫的 F₁ 值為62.0% ，排名第一，比之前的最佳方法CASUM模型提高了 0.98% 。綜上所述，MH-CASUM模型在各項性能指標(biāo)上均優(yōu)于其他方法。

表3不同視頻摘要模型應(yīng)用于SumMe、TVSum數(shù)據(jù)集的 F₁ 值

注： ① AC-SUM-GAN為演員-評論家和生成對抗網(wǎng)絡(luò)模型。② DSR-RL-GRU為深度注意循環(huán)摘要網(wǎng)絡(luò)模型。 ③CSNet 為塊跨步網(wǎng)絡(luò)模型。 ④ CSNet-GL-RPE為具有全局和相對位置嵌入的跨步網(wǎng)絡(luò)模型。（5）SUM-GDA 為全局多元注意力摘要網(wǎng)絡(luò)模型。⑥ MCSF為多源塊和跨步融合技術(shù)網(wǎng)絡(luò)模型。 ⑦ SUM-GAN-AAE為帶有確定性自注意力編碼器的生成對抗網(wǎng)絡(luò)模型。 ⑧ SUM-GAN-sl為增量訓(xùn)練的生成對抗網(wǎng)絡(luò)模型。 ⑨ ERA為實體關(guān)系感知視頻摘要網(wǎng)絡(luò)模型。 ⑩ CASUM為基于集中注意力機(jī)制的無監(jiān)督視頻摘要模型。 ① MH-CASUM為基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型。 ?F₁ 值為精確率與召回率的調(diào)和平均值。

表4不同視頻摘要模型應(yīng)用于TVSum數(shù)據(jù)集的Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)

注： ①DR-DSN 為基于多樣性代表性獎勵的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型。 ②CSNet 為塊跨步網(wǎng)絡(luò)模型。 ③ RSGN為重建序列圖網(wǎng)絡(luò)模型。 ④ CSNet-GL-RPE為具有全局和相對位置嵌入的跨步網(wǎng)絡(luò)模型。 ⑤ DSR-RL-GRU為深度注意循環(huán)摘要網(wǎng)絡(luò)模型。 ⑥ CASUM為基于集中注意力機(jī)制的無監(jiān)督視頻摘要模型。⑦ MH-CASUM為基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型。

由于SumMe數(shù)據(jù)集的用戶標(biāo)注是片段形式，不適用于Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)評估，因此本文中只考察TVSum數(shù)據(jù)集的Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)。從表4中的結(jié)果可以看出，MH-CASUM模型的Spearman相關(guān)系數(shù)為0.200，與其他方法相比，更接近人類摘要的Spearman相關(guān)系數(shù)（O.204）。同時，MH-CASUM模型的Kendall相關(guān)系數(shù)（0.150）也比絕大數(shù)已有模型更接近人類摘要的Kendall相關(guān)系數(shù)（0.177），與性能最好的CASUM模型（Kendall相關(guān)系數(shù)為0.160）相比，也有很強(qiáng)的競爭力。

2.4.3 消融實驗

為了評估在CASUM模型中引入的主要改進(jìn)對模型性能的影響，本文中進(jìn)行了消融實驗。具體改進(jìn)內(nèi)容包括引入多頭注意力機(jī)制以及在模型參數(shù)選擇過程中加入損失閾值。實驗中考慮了以下變體：模型變體1——未進(jìn)行任何改進(jìn)的原始CASUM 模型；模型變體2—不使用損失閾值，只引入多頭集中注意力機(jī)制，以增加MH-CASUM模型對特征信息的捕捉，實驗結(jié)果見表5。結(jié)果表明，雖然引入多頭機(jī)制的模型在SumMe數(shù)據(jù)集的性能有所下降，但是在TVSum數(shù)據(jù)集的性能提升非常明顯，表明改進(jìn)的多頭注意力機(jī)制對提升模型的總體性能是有效的。此外，在模型參數(shù)選擇中加入損失閾值后，模型在2個數(shù)據(jù)集的性能均有明顯提升，說明加入損失閾值方法在優(yōu)化模型性能方面是可行、有效的。

表5不同視頻摘要模型應(yīng)用于SumMe、TVSum數(shù)據(jù)集的性能消融實驗結(jié)果

3結(jié)論

本文中將多頭注意力引入集中注意力機(jī)制用于選取關(guān)鍵幀，多頭注意力機(jī)制更好地估計了視頻不同部分的重要性，同時滿足了并行運算的需求。本文中探索了如何在模型參數(shù)選擇的過程中選取出最佳的模型參數(shù)結(jié)果，提出損失閾值方法。在SumMe、TVSum數(shù)據(jù)集的評估結(jié)果證明此方法與最先進(jìn)的無監(jiān)督摘要模型CASUM相比具有競爭力，Spearman相關(guān)系數(shù)和Kendall相關(guān)系數(shù)也表明了MH-CASUM模型的摘要結(jié)果與人類摘要結(jié)果趨勢相近。消融實驗證明，本文中引入多頭注意力機(jī)制和在模型參數(shù)選擇過程中加人損失閾值的改進(jìn)措施對模型性能的提升有明顯的效果。未來將嘗試學(xué)習(xí)和研究ViT的各種變體模型，以改進(jìn)先進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)，希望能將更新穎、效果更佳的ViT網(wǎng)絡(luò)及其變體模型應(yīng)用于視頻摘要任務(wù)中，以期達(dá)到更高的性能水平。

參考文獻(xiàn)：

[1] CHENZK，ZHONGFM，YUANX，etal.Frameworkof integrated bigdata：areview[C]//2O16 IEEE International Conferenceon BigData Analysis（ICBDA），March12-14，2016，Hangzhou， China.New York：IEEE，2016：1.

[2] 中國互聯(lián)網(wǎng)絡(luò)信息中心.第53次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng) 計報告》[EB/OL].（2024-03-22）[2024-06-07].https：//www. cnnic.net.cn/n4/2024/0322/c88-10964.html.

[3] 王方石，須德，吳偉鑫．基于自適應(yīng)閾值的自動提取關(guān)鍵幀的聚類算法[J]．計算機(jī)研究與發(fā)展，2005，42（10）：1752.

[4] 聶秀山，柴彥娥，滕聰．基于支配集的視頻關(guān)鍵幀提取方法 [J]．計算機(jī)研究與發(fā)展，2015，52（12）：2879.

[5] ZHOUKY，QIAOY，XIANGT.Deepreinforcementlearningfor unsupervised video summarization with diversity-representativeness reward[C]//Proceedings of the Thirty-Second AAAI Conference onArtificial Intelligence and Thirtieth Innovative Applicationsof Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence （AAAI'18/IAAI' 18/EAAI'18），F(xiàn)ebruary 2-7，2018，New Orleans，Louisiana， USA.MenloPark：AAAI Press，2018：7582.

[6] CHENYY，TAOL，WANGXT，etal.Weakly supervised video summarization by hierarchical reinforcement learning[C]//Prosummarize network for video summarization[J]. IEEE Transactions on Image Processing，2020，30：948.

[8]APOSTOLIDIS E，ADAMANTIDOU E，METSAI A I，et al. AC-SUM-GAN： connecting actor-critic and generative adversarial networks for unsupervised video summarization[J]. IEEE Transactions on Circuits and Systems for Video Technology， 2O2O，31（8）： 3278.

[9] GHAURI JA，HAKIMOV S，EWERTH R. Supervised video summarization via multiple feature sets with paralel attention [C]//2O21 IEEE International Conference on Multimedia and Expo（ICME），July 5-9，2021，Shenzhen，China.New York： IEEE， 2021： 1.

[10]JI Z，XIONG KL，PANG Y W，et al.Video summarization with attention-based encoder-decoder networks[J]. IEEE Transactions on Circuits and Systems for Video Technology，2019，30 （6）： 1709.

[11]ZHONG R，WANG R，ZOU Y，et al. Graph attention networks adjusted Bi-LSTM for video summarization[J]. IEEE Signal Processing Letters，2021，28：663.

[12]FAJTL J， SOKEHHS， ARGYRIOU V，et al. Summarizing videos with attention[C]//Computer Vision-ACCV 2018 Workshops： 14th Asian Conference on Computer Vision，December 2-6，2018， Perth，Australia. Cham：Springer International Publishing，2019： 39.

[13]JUNG YJ，CHO D H，KIM D H，et al. Discriminative feature learning for unsupervised video summarization[C]//Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence and Thirty-First InnovativeApplications of Artificial Intelligence Conference and Ninth AAAI Symposium on Educational Advances in Artificial Intellgence （AAAI' 19/IAAI' 19/EAAI' 19）， January （204號 27- February1，2019，Honolulu，Hawaii，USA.Menlo Park ： AAAI Press，2019： 8537.

[14]JUNG Y J，CHO D H，WOO S H，et al. Global-and-local relative position embedding for unsupervised video summarization [C]European Conference on Computer Vision，August 23-28， 2020，Glasgow，UK. Cham： Springer Intermational Publishing， 2020： 167.

[15]APOSTOLIDIS E，METSAI A I，ADAMANTIDOU E， et al. A stepwise，label-based approach for improving the adversarial training in unsupervised video summarization[ C]//Proceedings of the 1st International Workshop on AI for Smart TV Content Production，Access and Delivery（AI4TV'19），October 21，2019， Nice，F(xiàn)rance.New York ： Association for Computing Machinery， 2019： 17.

[16] APOSTOLIDIS E，ADAMANTIDOU E， METSAI A I， et al. Unsupervised video summarization via attention-driven adversarial learning[C]//MultiMedia Modeling：26th International Conference，MMM 2020，January 5-8，2020，Daejeon，Republic of Korea.Cham：Springer International Publishing，2O20：492.

[17]HE XF，HUAY，SONG T，et al.Unsupervised video summarization with attentive conditional generative adversarial networks [C]//Proceedings of the 27th ACM International Conference on Multimedia（MM’19），October 21-25，2019，Nice，F(xiàn)rance. New York：Association for Computing Machinery，2019：2296.

[18]VASWANI A， SHAZEER N，PARMAR N， et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems （NIPS’17）， December 4-9，2017，Long Beach，California，USA．Red Hook：Curran Associates Inc，2017：6000.

[19] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al. An image is worth 16x16 words：transformers for image recognition at scale[EB/OL].（2020-10-22）[2024-06-07]. htps：/doi. org/10.48550/arXiv.2010.11929.

［20］朱張莉，饒元，吳淵，等．注意力機(jī)制在深度學(xué)習(xí)中的研究進(jìn)展[J]．中文信息學(xué)報，2019，33（6）：1.

［21］李依依，王繼龍．自注意力機(jī)制的視頻摘要模型[J]．計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報，2020，32（4）：652.

[22]APOSTOLIDIS E，BALAOURAS G，MEZARIS V，et al. Summarizing videos using concentrated attention and considering the uniqueness and diversity of the video frames[C]//Proceedings of the 2022 International Conference on Multimedia Retrieval （（ICMR’22），June 27-30，2022，Newark，NJ，USA.New York： Association for Computing Machinery，2022：407.

[23] GYGLI M，GRABNER H，RIEMENSCHNEIDER H，et al. Creating summaries from user videos[C]//Computer Vision-ECCV 2014：13th European Conference，September 6-12，2014，Zurich Switzerland. Cham：Springer International Publishing，2014： 505.

[24]SONG YL，VALLMITJANA J，STENTA，et al. TVSum：summarizing web videos using titles[C]//2O15 IEEE Conference on Computer Vision and Pattern Recognition（CVPR），June 7-12， 2015，Boston，MA，USA.New York：IEEE，2015：5179.

[25]OTANI M，NAKASHIMA Y，RAHTU E，et al. Rethinking the evaluation of video summaries[C]//2O19 IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR），June 15-20，2019，LongBeach，CA，USA.NewYork：IEEE，2019： 7596.

[26] LEBRON CASAS L，KOBLENTS E. Video summarization with LSTM and deep attention models[C]//International Conference onMultimedia Modeling，January8-11，2019，Thessaloniki， Greece. Cham： Springer International Publishing，2018： 67.

[27]ZHANG K，CHAO W L，SHA F，et al. Video summarization with long short-term memory[C]//Computer Vision-ECCV 2016： 14th European Conference，October 11-14，2016，Amsterdam， The Netherlands.Cham; Springer International Publishing，2016： 766.

[28]MAHASSENI B，LAM M， TODOROVIC S. Unsupervised video summarization with adversarial LSTM networks[C]//2O17 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）， July 21－26，2017，Honolulu，HI，USA．New York：IEEE， 2017：202.

[29] PHAPHUANGWITTAYAKUL A，GUO Y，YING FL，et al. Self-attention recurrent summarization network with reinforcement learning for video summarization Task[C]//2021 IEEE International Conference on Multimedia and Expo （ICME）. July 5-9， 2021，Shenzhen，China.New York：IEEE，2021：1.

[30] LIP，YEQH，ZHANGL M，et al.Exploring global diverse attention via pairwise temporal relation for video summarization [J]．Pattern Recognition，2021，111：107677.

[31]KANAFANI H，GHAURI JA，HAKIMOV S，et al. Unsupervised video summarization via multi-source features[C]//Proceedings of the 2O21 International Conference on Multimedia Retrieval （ICMR'21），August 21-24，2021，Taipei，China.New York ：Association for Computing Machinery，2021： 466.

[32] WU G D，LINJ Z， SILVA C T. ERA：entity relationship aware video summarization with Wasserstein GAN[EB/OL]. （2021- 09-06）[2024-06-07]. https：//doi.org/10. 48550/arXiv. 2109. 02625.

[33] ZHAO B，LI H P，LU X Q，et al. Reconstructive sequencegraph network for video summarization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2021，44（5）： 2793.

（責(zé)任編輯：劉飚）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型