張浩萌,劉 斌
(南京工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,南京 211816)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,視頻已成為人們?nèi)粘+@取信息的主要來源之一,有關(guān)視頻理解的研究受到越來越多研究者的關(guān)注,其中,視頻描述作為計算機視覺和自然語言處理的交叉任務(wù),近年來已成為研究熱點之一.一方面,視頻描述技術(shù)的發(fā)展可以為視頻檢索、視頻問答等領(lǐng)域進一步研究和優(yōu)化提供原動力,另一方面,視頻描述的研究在人機交互和輔助殘障人士理解視頻內(nèi)容等方面也有一定的應(yīng)用價值.
在早期階段,視頻描述的主要方法是基于模板匹配[2,3],即首先從視頻中識別出顯著的對象和動作,然后將其填充到預(yù)先設(shè)定好的句子模板中,這種方式所生成的描述的句法結(jié)構(gòu)單一,缺乏靈活性.隨著深度學(xué)習(xí)在機器翻譯領(lǐng)域的成功應(yīng)用,基于序列學(xué)習(xí)的編解碼結(jié)構(gòu)[4]逐漸成為視頻描述的主流技術(shù).
在編碼階段,為了得到更加精準(zhǔn)的視覺特征,Yao等[4]引入注意力機制,該機制使得視頻描述的效果得到了很大提升.近年來,時空注意力機制[5,6]得到了大家的廣泛關(guān)注,即分別在時間和空間兩個維度提取視覺特征作為解碼器的輸入,突出了顯著區(qū)域的時空特征.Tan等[1]利用時空注意力機制構(gòu)建時空推理模塊,實現(xiàn)了生成過程中的可解釋性.
另外,在解碼階段,近年來的研究表明,將從訓(xùn)練集的標(biāo)簽中提取到的語義特征作為先驗知識融入到解碼器中可以提高視頻描述的準(zhǔn)確性[7-9].Chen等[10]使用mean Average Precision(mAP,平均精度)方法來獲得質(zhì)量更高的語義特征.在考慮視頻描述的句法結(jié)構(gòu)方面,一些方法引入了視頻描述的詞性標(biāo)簽[11,12],來指導(dǎo)解碼器生成更符合人類閱讀習(xí)慣的句子.由標(biāo)簽提取出的語義特征有助于提高視頻描述的準(zhǔn)確性,但忽視了不同詞性的語義特征在句子結(jié)構(gòu)上的不同;句法結(jié)構(gòu)的引入可以幫助編碼器生成更符合人類閱讀習(xí)慣的視頻描述,但在單個詞語的生成上缺乏準(zhǔn)確性.Perez-Martin等[13]雖然提出同時結(jié)合詞性信息和語義特征來生成描述,但并沒有針對性的挑選視覺特征,使該描述生成過程缺乏可解釋性,也造成了不相關(guān)的視覺特征對生成結(jié)果的干擾.
針對上述存在的問題,本文提出了一種兼顧句法結(jié)構(gòu)和描述準(zhǔn)確性的方法:采用結(jié)合時空注意力機制的模塊推理網(wǎng)絡(luò)[1]提取視覺特征;采用結(jié)合Part-of-Speech(POS,詞性)損失函數(shù)[1]的模塊選擇網(wǎng)絡(luò)挑選視覺特征;采用語義檢測網(wǎng)絡(luò)[9]提取語義特征,并使用mAp方法[10]選擇語義特征;在解碼過程中,嘗試并比較3種不同的特征融合網(wǎng)絡(luò)來結(jié)合視覺特征和語義特征.該方法使得在生成過程可解釋的前提下,輸出兼顧流暢性和準(zhǔn)確性的視頻描述.
基于模板匹配的方法[2,3]提取視頻中的對象和動作,生成主語、動詞和賓語,并填充到預(yù)先定義好的句子模板中,這種方式采用了固定的句法結(jié)構(gòu),只適用于特定領(lǐng)域的視頻描述.
在基于深度學(xué)習(xí)技術(shù)的序列學(xué)習(xí)方法成功應(yīng)用于機器翻譯領(lǐng)域之后,S2VT[14]將序列到序列模型應(yīng)用于視頻描述領(lǐng)域,考慮到了視覺特征的時序信息,實現(xiàn)可變長度的輸入和輸出.
Yan等[4]采用注意力機制計算每個視頻幀的權(quán)重得到加權(quán)和來預(yù)測當(dāng)前單詞.Cherian等[5]在使用時間注意力機制的基礎(chǔ)上加入了空間注意力機制,進一步關(guān)注視頻幀中的顯著區(qū)域.Tan等[1]提出了一種視覺推理網(wǎng)絡(luò),引入對象特征,并使用時空注意力機制完成推理過程.
Pan等[7]通過分析標(biāo)簽文本和視頻內(nèi)容的相關(guān)性生成語義特征,使標(biāo)簽除了作為最終損失函數(shù)的參數(shù)外,在句子生成過程中也發(fā)揮作用,但所得到的語義特征是從文本標(biāo)簽中提取出來的整體表示,并沒有用于指導(dǎo)描述生成過程中的每個時間點的單詞生成.基于此,Pan等[8]將從視頻中提取到的靜態(tài)語義特征和動態(tài)語義特征進行融合用于指導(dǎo)解碼階段每個單詞的生成;Zhe等[9]提出了一種語義檢測網(wǎng)絡(luò),人工挑選在訓(xùn)練集和驗證集中經(jīng)常出現(xiàn)的單詞,形成了每個視頻的語義標(biāo)簽,來指導(dǎo)解碼器生成每個單詞.為了對語義質(zhì)量進行評價,Chen等[10]采用mAP的方法選擇最合適的語義特征.
在最近的研究中,采用POS信息以提升視頻描述的流暢性,Wang等[11]將預(yù)測句子的POS信息用于指導(dǎo)解碼器生成單詞.Hou等[12]則通過推測每個單詞的POS標(biāo)簽來選擇合適的視覺線索生成單詞.
Perez-Martin等[13]同時考慮到了POS信息和語義特征,但使用視頻的整體特征作為輸入,并沒有針對性的挑選視覺特征.因此,本文所提出的視頻描述方法中,既結(jié)合了語法結(jié)構(gòu)和語義信息,又使用時空推理模塊挑選相關(guān)的視覺特征,減少了噪音的干擾.
在視頻描述領(lǐng)域,推理方法主要被用來進行常識推理和關(guān)系推理[15,16],引入先驗知識指導(dǎo)下一個單詞的生成,這種推理方式使用單一的推理網(wǎng)絡(luò),并沒有考慮到語言中不同語法成分的組合.
神經(jīng)模塊網(wǎng)絡(luò)(NMN,Neural Module Networks)[17-19]由一組神經(jīng)模塊組成,每個模塊為推理的一個環(huán)節(jié),通過動態(tài)組合這些模塊得到推理結(jié)果.NMN能夠?qū)φZ言描述中不同語法成分進行組合,已成功應(yīng)用于圖像描述領(lǐng)域[20-23].本文使用Tan等[1]所提出的時空推理模塊實現(xiàn)視頻描述中不同語法成分的視覺推理,并采用動態(tài)模塊選擇器在每個單詞的生成過程中挑選相關(guān)的視覺推理特征作為解碼器的輸入,實現(xiàn)了可解釋性.
本文提出的方法采用編碼器-解碼器框架,整體架構(gòu)見圖1.在編碼階段,一方面,采用Tan等[1]提出的特征提取網(wǎng)絡(luò)、模塊推理網(wǎng)絡(luò)和模塊選擇網(wǎng)絡(luò)得到視覺推理特征;另一方面,采用Zhe等[9]提出的語義檢測網(wǎng)絡(luò)和Chen等[10]提出的評價指標(biāo)得到語義特征.在解碼階段,提出一個語言解碼網(wǎng)絡(luò),結(jié)合視覺推理特征和語義特征進行解碼,得到對應(yīng)視頻的描述.本文的創(chuàng)新點在于將視覺推理特征和語義特征結(jié)合起來得到兼具流暢性和準(zhǔn)確性的視頻描述語句,并嘗試不同的特征融合網(wǎng)絡(luò)以達(dá)到最優(yōu)的融合效果.
圖1 整體框架圖Fig.1 Overall frame diagram
2.1.1 特征提取網(wǎng)絡(luò)
采用類似于Tan等[1]的方法進行特征提取:使用2D-CNN提取視頻幀的靜態(tài)特征Va,使用3D-CNN提取視頻幀的動態(tài)特征Vm,使用R-CNN 提取視頻幀的對象特征Vo.為了得到視覺特征的動態(tài)時間信息,使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)分別對靜態(tài)特征Va和動態(tài)特征Vm進行建模,并在對象特征Vo中添加格外的時間和空間信息.
2.1.2 模塊推理網(wǎng)絡(luò)
采用類似于Tan等[1]中的模塊推理網(wǎng)絡(luò)進行特征推理,該網(wǎng)絡(luò)由LOCATE(視覺屬性)模塊、RELATE(動作屬性)模塊、FUNC(關(guān)聯(lián)屬性)3個基礎(chǔ)的時空推理模塊構(gòu)成,其中LOCATE模塊用于生成名詞和形容詞的視覺特征,例如“man”,“ball”等;RELATE模塊用于生成動詞的視覺特征,例如“run”、“throw”等;FUNC模塊用于生成關(guān)聯(lián)詞的特征信息,例如“and”、“the”等.
(1)
(2)
其中,AoT表示時間維度的注意力機制,AoS表示空間維度的注意力機制,⊕表示連接操作.
RELATE模塊生成動詞的推理過程分為兩步:確定動作的發(fā)出者;識別發(fā)出者位置及形態(tài)的變化.推理過程如下:
(3)
(4)
其中P(·,·)表示動態(tài)特征的連接函數(shù),即Pij(A,B)=Ai⊕Bj,因為動作的發(fā)生通常是一個連續(xù)的過程,所以本文考慮兩個連續(xù)場景生成動態(tài)視覺特征.
FUNC模塊將句子的各個成分連接在一起.關(guān)聯(lián)詞的生成不需要視覺特征信息,只需要考慮過去生成單詞的語言信息.推理過程如下:
(5)
(6)
其中,C表示解碼過程中deLSTM中的記憶單元,包含已生成單詞的歷史信息.
2.1.3 模塊選擇網(wǎng)絡(luò)
模塊選擇網(wǎng)絡(luò)分為兩部分[1]:首先,分別計算上述的3個模塊的得分來表示該模塊被選擇的概率,各模塊的得分計算公式為:
(7)
其次,挑選得分最高的模塊,得到該模塊所對應(yīng)的屬性特征vt作為解碼器的輸入.然而,直接采用argmax函數(shù)會導(dǎo)致選擇過程不可微,本文采用Gumbel Softmax[25]實現(xiàn)這一過程.
2.1.4 語義檢測網(wǎng)絡(luò)
(8)
其中,σ(·)表示sigmoid激活函數(shù),f(·)表示多層前饋神經(jīng)網(wǎng)絡(luò),并使用最小化交叉熵?fù)p失函數(shù)進行訓(xùn)練.
另外,使用mAP評價訓(xùn)練結(jié)果,選擇平均精度最高的語義特征作為解碼器的輸入[10].
本文在解碼階段提出一個語言解碼網(wǎng)絡(luò),首先通過特征融合網(wǎng)絡(luò)結(jié)合視覺特征和語義特征,然后使用deLSTM生成視頻描述語句.特征融合網(wǎng)絡(luò)由匹配模塊和融合模塊組成,解碼階段的整體流程圖如圖2所示.
圖2 解碼階段的整體流程圖Fig.2 Overall flow chart of the decoding
2.2.1 匹配模塊
本文提出了兩種特征匹配模塊:語義匹配模塊和視覺匹配模塊,分別突出所選特征中與語義特征或視覺特征相似的部分.由于視覺特征的選擇遵循描述生成語句的語法特性,因此,這兩種匹配模塊分別滿足由語義特征引導(dǎo)的準(zhǔn)確性要求和視覺推理特征引導(dǎo)的流暢性要求.下面主要介紹語義匹配模塊,如圖3所示,視覺匹配模塊類似.
圖3 語義匹配模塊Fig.3 Semantic matching module
(9)
(10)
(11)
其中,z∈{c,i,f,o},c,i,f,o分別表示記憶單元、輸入門、遺忘門和輸出門.
2.2.2 融合模塊
本文提出了兩種特征融合模塊:加法融合模塊和乘法融合模塊.
加法融合模塊參照SCN模型[9],如圖4所示.
圖4 加法融合模塊Fig.4 Add fusion module
將匹配模塊所得到的3個量相加,作為LSTM的輸入,計算方法如下:
(12)
使用deLSTM網(wǎng)絡(luò),得到記憶單元ct和隱藏狀態(tài)ht:
TCP協(xié)議的通信過程為:服務(wù)器端必須首先通過指定IP地址以及端口名建立偵聽,等待客戶端響應(yīng)連接;然后客戶端向?qū)?yīng)的服務(wù)器所設(shè)定的IP地址和端口發(fā)出連接請求;待服務(wù)器與客戶端成功建立連接后,雙方方可通過讀寫函數(shù)控件收發(fā)數(shù)據(jù),完成數(shù)據(jù)傳輸時,需先從客戶端斷開連接后服務(wù)器才能斷開連接。
(13)
(14)
(15)
(16)
(17)
hi=ot×tanh(ct)
(18)
總體來說,加法融合模塊以較為公平的方式使各個特征都參與到了視頻描述語句的生成.
(19)
圖5 乘法融合模塊Fig.5 MutalFusion Module
記憶單元ct和隱藏狀態(tài)ht的計算方式不變.這種融合模式加強了視覺特征和文本特征之間的相互引導(dǎo).
2.2.3 特征融合網(wǎng)絡(luò)
本文提出3種特征融合網(wǎng)絡(luò):特征參與的融合網(wǎng)絡(luò)、特征引導(dǎo)的融合網(wǎng)絡(luò)和結(jié)合權(quán)重的融合網(wǎng)絡(luò).
特征參與的融合網(wǎng)絡(luò)由語義匹配模塊和加法融合模塊組成,在實驗階段表示為“baesline+1”.
特征引導(dǎo)的融合網(wǎng)絡(luò)由語義匹配模塊和乘法融合模塊組成,在實驗階段表示為“baseline+2”.
圖6 結(jié)合權(quán)重的融合網(wǎng)絡(luò)Fig.6 A weighted fusion network
計算方式如下:
(20)
ht=β⊙hs,t+(1-β)⊙hv,t
(21)
ct=β⊙cs,t+(1-β)⊙cv,t
(22)
3種方式的比較結(jié)果和具體分析請參照3.3中的消融實驗和3.4中的質(zhì)量分析
除采用傳統(tǒng)的交叉熵?fù)p失函數(shù)外,本文使用POS標(biāo)簽監(jiān)督模塊選擇的結(jié)果[1],使得所選擇的視覺推理特征在某種程度上包含了視頻描述的句法結(jié)構(gòu)信息,公式如下:
(23)
(24)
L=Lcap+λLpos
(25)
更多細(xì)節(jié)請參照文獻[1].
3.1.1 數(shù)據(jù)集
MSVD[27]數(shù)據(jù)集包含1970個短視頻片段,每個視頻片段描述了任意領(lǐng)域的單個活動,并具有多語言標(biāo)簽,本文僅考慮英語標(biāo)簽,每個視頻大約包含41個英語句子,1200個視頻用于訓(xùn)練,100個視頻用于驗證,670個視頻用于測試.
MSRVTT[28]數(shù)據(jù)集包含10000個視頻片段,內(nèi)容涉及20多個領(lǐng)域,每個視頻有20條不同的英文描述,6513個視頻用于訓(xùn)練,497個視頻用于驗證,2990個視頻用于測試.
3.1.2 評價指標(biāo)
使用在機器翻譯和圖像描述領(lǐng)域常用的評價指標(biāo):BLEU-4[29]、ROUGE[30]、METEOR[31]以及CIDEr[32],分?jǐn)?shù)越高說明生成的描述質(zhì)量越好.
3.2.1 數(shù)據(jù)處理
首先,本文將所有注釋轉(zhuǎn)換為小寫字母,移除標(biāo)點符號,設(shè)置注釋長度為26,對于超出長度的注釋部分進行截取,不足的用零填充.MSVD數(shù)據(jù)集的詞匯表大小為7351,MSRVTT數(shù)據(jù)集的詞匯表大小為9732,這里分別忽略出現(xiàn)次數(shù)少于兩次和5次的單詞.
3.2.2 特征提取
本文提取了視覺特征和語義特征,并進行融合來生成視頻描述.
采用類似于Tan等[1]的方法進行視覺特征提取,每個視頻平均提取26個視頻幀,使用在ILSVRC-2012-CLS圖像分類數(shù)據(jù)集[33]中預(yù)訓(xùn)練的InceptionResNetV2(IRV2)網(wǎng)絡(luò)作為2D CNN來提取視頻幀的靜態(tài)特征,使用在Kinetics動作分類數(shù)據(jù)集[34]中預(yù)訓(xùn)練的I3D網(wǎng)絡(luò)作為3D CNN來提取視頻幀的動態(tài)特征.使用預(yù)訓(xùn)練的Faster-RCNN[35]網(wǎng)絡(luò)在每個視頻幀中提取36個區(qū)域特征作為對象特征.
采用Zhe 等[9]的方法進行語義特征的提取,首先從數(shù)據(jù)集中選擇出現(xiàn)頻率較高的300個詞,并按照2.1.4中的語義檢測網(wǎng)絡(luò)來獲取語義特征.
3.2.3 訓(xùn)練細(xì)節(jié)
模型采用Adam優(yōu)化器進行優(yōu)化,初始學(xué)習(xí)率設(shè)置為1e-4.對于MSVD數(shù)據(jù)集,LSTM的隱藏狀態(tài)維度為512,學(xué)習(xí)率每10個周期除以10;對于MSRVTT數(shù)據(jù)集,LSTM的隱藏狀態(tài)維度為1300,學(xué)習(xí)率每5個周期除以3.在測試期間,使用大小為2的波束搜索來生成最終的標(biāo)題.
3.3.1 MSVD數(shù)據(jù)集
基模型來自Tan等[1]的方法,在MSVD數(shù)據(jù)集中驗證3種特征融合網(wǎng)絡(luò),“Baseline+1”、“Baseline+2”、“Baseline+3”分別表示3種特征融合網(wǎng)絡(luò),實驗結(jié)果見表1.可以看到,3種特征融合網(wǎng)絡(luò)均優(yōu)于基模型,證明了本文提出的融合方式的有效性.其中特征參與的融合網(wǎng)絡(luò)在各個指標(biāo)上效果最好,因此本文選擇該網(wǎng)絡(luò)進行對比實驗.
表1 在MSVD數(shù)據(jù)集上的消融實驗Table 1 Performance of ablated model on MSVD
3.3.2 MSRVTT數(shù)據(jù)集
基模型來自Tan等[1]的方法,本文在MSRVTT數(shù)據(jù)集中驗證3種特征融合網(wǎng)絡(luò).實驗結(jié)果見表2,可以看到,3種特征融合網(wǎng)絡(luò)均優(yōu)于基模型,證明了所提融合網(wǎng)絡(luò)的有效性,其中特征引導(dǎo)的融合網(wǎng)絡(luò)和結(jié)合權(quán)重的融合網(wǎng)絡(luò)分別在不同指標(biāo)上達(dá)到了最好效果.但與在MSVD數(shù)據(jù)集上的結(jié)果不同,3種融合網(wǎng)絡(luò)在評價指標(biāo)上的結(jié)果差距并不大,因此本文選擇“Baseline+2”、“Baseline+3”兩種融合網(wǎng)絡(luò)進行對比實驗.
表2 在MSRVTT數(shù)據(jù)集上的消融實驗Table 2 Performance of ablated model on MSRVTT
表3為3種融合方式所生成的描述的比較結(jié)果,其中,前3列為在MSVD數(shù)據(jù)集中生成的視頻描述,后3列為在MSRVTT數(shù)據(jù)集中生成的視頻描述.在MSVD數(shù)據(jù)集中,特征參與的融合網(wǎng)絡(luò)所生成的描述與真實描述更為接近;在MSRVTT數(shù)據(jù)集中,特征引導(dǎo)的融合網(wǎng)絡(luò)和結(jié)合權(quán)重的融合網(wǎng)絡(luò)所生成的描述與真實描述更為接近.該實驗結(jié)果與上述消融實驗中的評價指標(biāo)大致吻合.
表3 3種融合方式所生成的描述對比Table 3 Description comparison generated by three fusion methods
在兩個數(shù)據(jù)集中出現(xiàn)了不同的描述結(jié)果,這是因為與MSVD數(shù)據(jù)集相比,MSRVTT數(shù)據(jù)集屬于更大范圍的視頻數(shù)據(jù)集,在視頻長度、視頻類別和詞匯數(shù)量等方面更加豐富和龐大.因此MSRVTT數(shù)據(jù)集在某種程度上彌補了后兩種融合方式在MSVD數(shù)據(jù)集中的不足:1)在視覺單詞的生成過程中,由于MSRVTT數(shù)據(jù)集視覺元素比較豐富,經(jīng)過選擇后的視覺推理特征所蘊含的特征信息比MSVD數(shù)據(jù)集更加豐富,因此將視覺推理特征與其他特征進行融合可以幫助其進一步挑選出更適合的特征信息.例如“a man is showing how to fix a car”成功識別出“a man”和“a car”兩個視覺對象.而在MSVD數(shù)據(jù)集中,融合操作擾亂了其原本比較簡單的視覺特征信息,導(dǎo)致生成的描述在識別視覺對象和數(shù)量上存在誤差,例如將“dog”識別為“cat”,將“a dog”識別為“two dogs”等;2)在生成描述的完整性方面,由于MSRVTT數(shù)據(jù)集中的視頻種類更加多樣,詞匯數(shù)量也更多,因此將詞向量特征更多地參與到融合過程中,會使得生成的描述更符合人類閱讀習(xí)慣,也蘊含更加豐富的信息,例如“a woman is applying makeup to her face”成功加入“to her face”描述;“a man is showing how to fix a car”成功生成蘊含更多內(nèi)容信息的描述;3)在MSVD數(shù)據(jù)集中,過度考慮詞向量信息則會出現(xiàn)過度解析現(xiàn)象,例如將“a dog is playing in water”識別為“a dog is swimming”,將“the dog climbed into the dryer”識別為“a cat is playing in the water”,前者視頻中并沒有出現(xiàn)“swimming”這個動作,考慮可能是由“water”聯(lián)系到“swimming”,后者視頻中也沒有“water”,考慮是由“dryer”聯(lián)系到“water”,從而生成視頻中并沒有體現(xiàn)的描述.
在MSVD和MSRVTT數(shù)據(jù)集中分別與其他模型進行比較,比較結(jié)果如表4和表5所示.結(jié)果表明,所提的模型在MSVD和MSRVTT數(shù)據(jù)集中都有良好的表現(xiàn),證明了本文提出的方法對視頻描述任務(wù)的有效性.
表4 在MSVD數(shù)據(jù)集上的對比實驗Table 4 Comparing with the state-of-the-art on MSVD dataset
表5 在MSRVTT數(shù)據(jù)集上的對比實驗Table 5 Comparing with the state-of-the-art on MSRVTT dataset
與單獨考慮詞性信息和語義信息的模型相比:POS[11]和JSRL-VCT[12]模型使用不同的方式引入詞性信息來增強生成描述的質(zhì)量.LSTM-E[7]、LSTM-TSA[8]、SCN[9]、SAMSS[10]4種模型使用不同的方式引入語義信息來增強生成描述的質(zhì)量,通過比較實驗結(jié)果,所提的模型在大多數(shù)指標(biāo)上有明顯的提升,尤其是在MSVD數(shù)據(jù)集中,驗證了所提出的結(jié)合語義信息和詞性信息的方法在視頻描述任務(wù)中的有效性.
與融合詞性信息與語義信息的模型相比:將本文提出的模型與SemSynAN[13]模型進行對比,該模型將整體視覺特征參與到解碼過程,實驗結(jié)果表明,本文提出的模型在兩個數(shù)據(jù)集中的CIDEr指標(biāo)上優(yōu)于SemSynAN模型,進一步表明所提出的特征推理方法的有效性.
與考慮對象特征的模型相比:將本文提出的模型與STaTS(I3D+FL)[5]、ORG-TRL[6]、HRNAT(IR+I)[36]、OSTG[37]模型進行了對比,上述4種模型均使用對象特征參與到視頻描述過程中,但并沒有考慮到生成描述的句法結(jié)構(gòu)和準(zhǔn)確性問題,實驗結(jié)果表明,本文的模型在兩個數(shù)據(jù)集中的所有指標(biāo)上都超過了這4種模型,證明語義信息和詞性信息在指導(dǎo)描述生成過程中的有效性.
本文提出了一種結(jié)合視覺推理特征和語義特征的視頻描述生成方法,既考慮到了描述生成語句中的句法結(jié)構(gòu),又提高了描述的準(zhǔn)確性,在兩個常用的數(shù)據(jù)集上的對比實驗驗證了所提方法的有效性和先進性.未來可以進一步考慮視頻的音頻信息和種類特征,來生成更準(zhǔn)確且更具有種類特色的描述.