劉明陽(yáng) 王若梅 周 凡 林 格
(中山大學(xué)計(jì)算機(jī)學(xué)院國(guó)家數(shù)字家庭工程技術(shù)研究中心 廣州 510006)
(liumy77@mail2.sysu.edu.cn)
視頻問(wèn)答任務(wù)旨在通過(guò)問(wèn)答的形式來(lái)幫助人們快速檢索、解析和總結(jié)視頻內(nèi)容.相較于基于靜態(tài)圖像的問(wèn)答任務(wù)[1],視頻問(wèn)答需要處理的信息從圖像變成由連續(xù)圖像序列、音頻等多模態(tài)信息組成的視頻,復(fù)雜的人物關(guān)系和上下文關(guān)聯(lián)分散在這些多模態(tài)信息序列中,蘊(yùn)含著一個(gè)完整的故事情節(jié).這使得視頻問(wèn)答面臨著更為復(fù)雜的多模態(tài)特征提取、數(shù)據(jù)融合以及跨模態(tài)邏輯推理[2-3]等人工智能關(guān)鍵問(wèn)題的挑戰(zhàn),成為比圖像問(wèn)答更高層次的人工智能任務(wù).
為了實(shí)現(xiàn)視頻問(wèn)答的任務(wù),研究人員使用了一系列的深度神經(jīng)網(wǎng)絡(luò)[4-6]來(lái)進(jìn)行視頻內(nèi)豐富的外觀信息、空間位置信息、動(dòng)作信息、字幕、語(yǔ)音和問(wèn)題文本等多模態(tài)信息的特征編碼,為數(shù)據(jù)融合與推理提供必要的上下文語(yǔ)義線索.為了理解分散在連續(xù)視頻圖像序列內(nèi)的完整故事情節(jié)和獲取準(zhǔn)確的答案預(yù)測(cè),研究人員提出了跨模態(tài)注意力機(jī)制[7],動(dòng)作-外觀記憶網(wǎng)絡(luò)[8]和圖神經(jīng)網(wǎng)絡(luò)[9]等一系列數(shù)據(jù)融合與推理模型,嘗試通過(guò)跨模態(tài)語(yǔ)義的計(jì)算與推理,從繁雜的多模態(tài)特征編碼中識(shí)別和整合出那些可能在時(shí)間上相鄰或不相鄰的有效特征序列,過(guò)濾掉不相關(guān)甚至不利于解答問(wèn)題的多模態(tài)信息,為給定問(wèn)題預(yù)測(cè)準(zhǔn)確的答案.
文獻(xiàn)[7-9]在多模態(tài)特征提取和數(shù)據(jù)融合與推理方面取得了許多有意義的研究成果.但是由于視頻問(wèn)答任務(wù)的多元性和復(fù)雜性,視頻問(wèn)答任務(wù)中多模態(tài)特征提取以及數(shù)據(jù)融合和推理的研究仍然是具有挑戰(zhàn)性的難點(diǎn)問(wèn)題.通過(guò)對(duì)中外文獻(xiàn)的研究與分析,我們發(fā)現(xiàn)在視頻問(wèn)答的研究中仍存在2 點(diǎn)不足:
1)特征提取方法對(duì)于視頻的細(xì)節(jié)表示不足.目前的多模態(tài)特征提取方法更注重關(guān)于視頻圖像和視頻片段粗粒度的特征提取[10-11],粗粒度的外觀信息或動(dòng)作信息缺乏對(duì)圖像序列內(nèi)視覺(jué)目標(biāo)等細(xì)粒度信息的關(guān)注,致使在數(shù)據(jù)融合與推理過(guò)程中,視頻中重要的視覺(jué)目標(biāo)及其動(dòng)作細(xì)節(jié)可能被遺漏,影響了正確的空間位置和時(shí)序關(guān)系的建立,導(dǎo)致數(shù)據(jù)融合與推理過(guò)程可能建立錯(cuò)誤的因果關(guān)系.
2)數(shù)據(jù)融合與推理的主動(dòng)學(xué)習(xí)能力不足.現(xiàn)階段的數(shù)據(jù)融合與推理模型主要是針對(duì)視覺(jué)線索的單向篩選處理[12-13],缺少主動(dòng)使用已經(jīng)掌握的內(nèi)容來(lái)完善多模態(tài)信息的能力.更確切地說(shuō),現(xiàn)階段數(shù)據(jù)融合與推理模型無(wú)法使用已經(jīng)掌握的知識(shí)去主動(dòng)學(xué)習(xí)或猜測(cè)那些還沒(méi)有掌握的內(nèi)容,導(dǎo)致在數(shù)據(jù)融合與推理過(guò)程中只能對(duì)特征提取階段所獲取的多模態(tài)特征編碼進(jìn)行計(jì)算與推理,很難在數(shù)據(jù)融合與推理階段獲取特征提取之外的多模態(tài)先驗(yàn)知識(shí),影響了模型對(duì)多模態(tài)內(nèi)容的深度理解,加劇了語(yǔ)義鴻溝對(duì)跨模態(tài)數(shù)據(jù)融合與推理的影響.
針對(duì)這2 點(diǎn)不足,本文提出了基于多模態(tài)知識(shí)主動(dòng)學(xué)習(xí)的視頻問(wèn)答方案,如圖1 所示.該方案由3 個(gè)部分組成:顯性多模態(tài)特征提取模塊、知識(shí)自增強(qiáng)多模態(tài)數(shù)據(jù)融合與推理模型、答案解碼模塊.首先,為了解決特征提取方法對(duì)于視頻的細(xì)節(jié)表示不足的問(wèn)題,我們?cè)O(shè)計(jì)了一種顯性多模態(tài)特征提取模塊.該模塊通過(guò)計(jì)算帶有語(yǔ)義約束、空間約束和動(dòng)態(tài)約束的顯式軌跡,得到每個(gè)視覺(jué)目標(biāo)的運(yùn)動(dòng)軌跡,從而抑制可能存在的目標(biāo)位置偏移、重疊或變形所引起的語(yǔ)義偏移,實(shí)現(xiàn)了對(duì)視覺(jué)目標(biāo)的精準(zhǔn)動(dòng)態(tài)特征提取.接著,該模塊借助動(dòng)態(tài)特征對(duì)靜態(tài)內(nèi)容的補(bǔ)充,有效避免錯(cuò)誤時(shí)序關(guān)聯(lián)的建立和錯(cuò)誤因果關(guān)系的推斷,為數(shù)據(jù)融合與推理提供了更加精準(zhǔn)的視頻特征表達(dá).
Fig.1 The overview of our proposed video question answering scheme圖1 本文提出的視頻問(wèn)答方案概述
為了解決邏輯推理的主動(dòng)學(xué)習(xí)能力不足的問(wèn)題,我們?cè)O(shè)計(jì)了一種知識(shí)自增強(qiáng)多模態(tài)數(shù)據(jù)融合與推理(knowledge auto-enhancement multimodal data fusion and reasoning,KAFR)模型.該模型以顯性多模態(tài)特征提取模塊的外觀信息、動(dòng)作信息和包含了視覺(jué)目標(biāo)、復(fù)雜運(yùn)動(dòng)軌跡和多維時(shí)空交互的視頻細(xì)節(jié)信息作為輸入,通過(guò)時(shí)序表達(dá)與推理、多模態(tài)表示再學(xué)習(xí)、聚焦表示學(xué)習(xí)和匯總表示學(xué)習(xí)4 種模塊組成的數(shù)據(jù)融合與推理網(wǎng)絡(luò),賦予了視頻問(wèn)答模型從初次審題與推理,到信息的重學(xué)習(xí),再到思維聚焦,最后歸納總結(jié)的完整邏輯思維能力.
在數(shù)據(jù)融合與推理過(guò)程中,該模型能夠利用已經(jīng)掌握的多模態(tài)信息來(lái)完善視頻問(wèn)答系統(tǒng)的先驗(yàn)知識(shí),同時(shí)通過(guò)邏輯思維的聚焦能力,減少視頻中需要理解的多模態(tài)信息,改善對(duì)先驗(yàn)知識(shí)的依賴.
為了獲取分散在視頻片段和圖像中的視覺(jué)語(yǔ)義線索,我們將KAFR 按照視頻的層次結(jié)構(gòu)如圖像、視頻片段等進(jìn)行排列,使得視頻問(wèn)答模型能夠自底向上地收集視頻所提供的視覺(jué)語(yǔ)義線索.然后通過(guò)答案解碼模塊對(duì)分散在不同模態(tài)下的答案線索進(jìn)行匯總,為特定問(wèn)題提供準(zhǔn)確的答案預(yù)測(cè).
本文的主要貢獻(xiàn)包括3 個(gè)方面:
1)提出了一種顯性的視頻細(xì)節(jié)描述方法.該方法能夠?qū)⒁曨l的靜態(tài)細(xì)節(jié)描述推廣到動(dòng)態(tài)細(xì)節(jié)描述,為數(shù)據(jù)融合與推理提供更精準(zhǔn)的視頻描述表達(dá).
2)設(shè)計(jì)了一種KAFR 模型.該模塊能夠在數(shù)據(jù)融合與推理計(jì)算過(guò)程中主動(dòng)完善多模態(tài)信息的深度理解,還能通過(guò)思維的聚焦學(xué)習(xí),減少視頻中需要理解的多模態(tài)信息,降低數(shù)據(jù)融合與推理對(duì)于先驗(yàn)知識(shí)的依賴,改善特征提取不足所帶來(lái)的挑戰(zhàn).
3)基于對(duì)1)和2)的改進(jìn),提出了一種新穎的基于多模態(tài)知識(shí)主動(dòng)學(xué)習(xí)的視頻問(wèn)答解決方案,該方案能夠自底向上地收集視頻所提供的視覺(jué)語(yǔ)義線索,有效地完成視頻問(wèn)答任務(wù).在TG?F-QA[14],MSVDQA[15],MSRVTT-QA[16]視頻問(wèn)答標(biāo)準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)表明,本文提出的解決方案的性能優(yōu)于現(xiàn)有最先進(jìn)的視頻問(wèn)答算法.
視頻問(wèn)答任務(wù)需要通過(guò)視覺(jué)和語(yǔ)言之間的跨模態(tài)數(shù)據(jù)推理來(lái)實(shí)現(xiàn)對(duì)復(fù)雜視頻場(chǎng)景的理解,這需要視頻問(wèn)答模型能夠?qū)σ曨l內(nèi)容進(jìn)行精準(zhǔn)編碼,并通過(guò)數(shù)據(jù)融合與推理計(jì)算將分散在空間和時(shí)間內(nèi)的多模態(tài)語(yǔ)義線索聯(lián)系起來(lái).這使得視頻特征提取和數(shù)據(jù)融合與推理成為現(xiàn)階段視頻問(wèn)答2 個(gè)關(guān)鍵的研究點(diǎn).本節(jié)將對(duì)這2 個(gè)關(guān)鍵研究問(wèn)題的國(guó)內(nèi)外研究現(xiàn)狀進(jìn)行分析和總結(jié).
視頻特征提取旨在獲取視頻中包含的目標(biāo)、動(dòng)作、復(fù)雜的動(dòng)態(tài)位置關(guān)系和上下文關(guān)聯(lián)等豐富的視覺(jué)語(yǔ)義,組成能夠反映整個(gè)故事情節(jié)的特征表達(dá),為后續(xù)的跨模態(tài)數(shù)據(jù)融合與推理提供完整的視覺(jué)語(yǔ)義線索.視頻問(wèn)答的早期方法主要通過(guò)VGG[17],ResNet[4],ResNeXt[5]等一系列深度網(wǎng)絡(luò)從原始視頻中提取和整合視覺(jué)語(yǔ)義特征[10,12,18].然而,文獻(xiàn)[4-5,10,12,17-18]僅僅利用了圖像級(jí)或視頻片段等粗粒度視覺(jué)特征來(lái)描述故事情節(jié),缺乏對(duì)視頻細(xì)節(jié)信息的關(guān)注.最近,針對(duì)對(duì)象級(jí)信息進(jìn)行視頻特征提取展現(xiàn)出卓越的性能[19-20],為視頻問(wèn)答模型提供了故事情節(jié)的細(xì)節(jié)描述,增強(qiáng)了視覺(jué)關(guān)系推理的能力.Huang 等人[19]通過(guò)建立圖像幀間與幀內(nèi)的位置編碼來(lái)豐富對(duì)象特征的時(shí)空關(guān)系.Seo 等人[20]將對(duì)象級(jí)特征提取推廣到運(yùn)動(dòng)特征的提取,增強(qiáng)了對(duì)象特征的動(dòng)態(tài)表達(dá).
文獻(xiàn)[4-5,10,12,17-20]方法通過(guò)對(duì)視頻的細(xì)節(jié)特征提取,有效地提升了視頻問(wèn)答的性能.但是這些方法只關(guān)注到圖像所提供的靜態(tài)細(xì)節(jié)特征和時(shí)空進(jìn)行關(guān)聯(lián),沒(méi)有顯式地捕獲視覺(jué)目標(biāo)的動(dòng)態(tài)細(xì)節(jié)特征,這樣可能會(huì)導(dǎo)致錯(cuò)誤的關(guān)系理解,如擁抱和打架,也可能無(wú)法捕獲視覺(jué)目標(biāo)的動(dòng)作細(xì)節(jié),如揮手和親吻.為了解決上述問(wèn)題,本文顯式地計(jì)算出每一個(gè)視覺(jué)目標(biāo)的運(yùn)動(dòng)軌跡,對(duì)每一個(gè)視覺(jué)目標(biāo)進(jìn)行精準(zhǔn)的細(xì)節(jié)特征提取,同時(shí)通過(guò)動(dòng)態(tài)信息對(duì)靜態(tài)內(nèi)容的補(bǔ)充,有效地避免了錯(cuò)誤時(shí)序關(guān)聯(lián)的建立,糾正了錯(cuò)誤的因果關(guān)系.
數(shù)據(jù)融合與推理的目的是從復(fù)雜的視頻故事情節(jié)中獲取能夠指引出正確答案的視覺(jué)線索.在視頻問(wèn)答的早期發(fā)展中,研究人員專注于將視頻圖像或視頻片段作為數(shù)據(jù)融合與推理的對(duì)象,提出了跨模態(tài)注意力機(jī)制、動(dòng)作外觀記憶網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)等一系列數(shù)據(jù)融合與推理技術(shù),試圖通過(guò)單個(gè)問(wèn)答模型來(lái)獲取整個(gè)視頻的內(nèi)容[21-22].近年來(lái),為了獲取對(duì)視頻細(xì)節(jié)內(nèi)容的理解,避免問(wèn)答模型忽略掉那些影響視頻故事走向的重要線索,基于模塊化的視頻問(wèn)答模型成為了主流[9,12],它們將數(shù)據(jù)融合與推理過(guò)程滲透到視頻的各個(gè)層次,通過(guò)多步推理的方式,完成對(duì)視頻從對(duì)象級(jí)、圖像級(jí)到片段級(jí)的語(yǔ)義線索整合.Le 等人[12]設(shè)計(jì)了一種能夠重復(fù)使用的條件關(guān)系模塊,并且將這些模塊按照視頻的時(shí)序結(jié)構(gòu)進(jìn)行排列,以捕獲存在于視頻幀之間和視頻片段之間的時(shí)序關(guān)系.為了進(jìn)一步完善對(duì)視頻層次行的利用,Dang 等人[9]利用圖神經(jīng)網(wǎng)絡(luò)對(duì)視頻內(nèi)的對(duì)象及其軌跡進(jìn)行關(guān)系推理,使得數(shù)據(jù)融合與推理能夠深入到場(chǎng)景目標(biāo)的時(shí)空關(guān)系中,獲取更精準(zhǔn)的視覺(jué)語(yǔ)義線索.
文獻(xiàn)[9,12,21-22]方法通過(guò)對(duì)數(shù)據(jù)融合與推理模塊的結(jié)構(gòu)創(chuàng)新,使視頻問(wèn)答任務(wù)的性能方面得到了改進(jìn).進(jìn)一步分析這些方法的數(shù)據(jù)融合與推理原理,我們發(fā)現(xiàn)這些研究都建立在有限的視頻特征提取之上,只能獲取基于?magenet[23],Kinetics[24]等數(shù)據(jù)集的視頻先驗(yàn)知識(shí).然而相較于復(fù)雜的視頻內(nèi)容,這些從數(shù)據(jù)集中獲取的有限先驗(yàn)知識(shí)很難對(duì)視頻內(nèi)容進(jìn)行準(zhǔn)確的描述,無(wú)法為后續(xù)的數(shù)據(jù)融合與推理提供充足的視覺(jué)知識(shí),使得文獻(xiàn)[9,12,21-22]方法不得不在缺失信息的情況下進(jìn)行答案預(yù)測(cè),嚴(yán)重限制了這些方法的問(wèn)答性能.為了應(yīng)對(duì)這種先驗(yàn)知識(shí)不足的問(wèn)題,Zeng 等人[25]提出了一種先驗(yàn)知識(shí)檢索模塊,旨在從外部知識(shí)獲取先驗(yàn)知識(shí),并將其整合到問(wèn)題特征中,以豐富多模態(tài)信息的特征表達(dá).同時(shí),研究人員也使用開(kāi)放域視覺(jué)-文本數(shù)據(jù)[26]進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練[27-28],以改善視頻問(wèn)答模型先驗(yàn)知識(shí)不足的問(wèn)題.雖然文獻(xiàn)[25-28]方式獲取了不錯(cuò)的性能提升,但是不論是數(shù)據(jù)的獲取和標(biāo)注,還是信息的檢索,都是一種費(fèi)時(shí)費(fèi)力的方法.因此在本文中,我們?cè)O(shè)計(jì)了一種KAFR 模型,使得視頻問(wèn)答模型不僅能夠在跨模態(tài)數(shù)據(jù)融合與推理過(guò)程中,增強(qiáng)對(duì)多模態(tài)內(nèi)容的理解,彌補(bǔ)先驗(yàn)知識(shí)不足的缺陷,還能夠通過(guò)邏輯思維的聚焦能力,將邏輯推理聚焦于與問(wèn)題相關(guān)聯(lián)的多模態(tài)信息,進(jìn)一步減少對(duì)先驗(yàn)知識(shí)的依賴.
對(duì)于任意視頻V以及對(duì)應(yīng)的任意自然語(yǔ)言問(wèn)題q,視頻問(wèn)答需要設(shè)計(jì)出一個(gè)算法 F,從候選答案空間 A中推導(dǎo)出正確答案a*.該過(guò)程可以定義為:
為了實(shí)現(xiàn)視頻問(wèn)答任務(wù),本文提出的視頻問(wèn)答方案 F被分為3 個(gè)部分進(jìn)行闡述:1)顯式多模態(tài)特征提取模塊(見(jiàn)2.2 節(jié));2)KAFR 模型(見(jiàn)2.3 節(jié)和2.4 節(jié));3)答案預(yù)測(cè)模塊(見(jiàn)2.5 節(jié)).
為了能夠更好地獲取視覺(jué)目標(biāo)在靜態(tài)圖像內(nèi)的語(yǔ)義關(guān)系和視覺(jué)目標(biāo)與周圍環(huán)境的動(dòng)態(tài)關(guān)系,我們建立了一種顯性的多模態(tài)特征提取模塊.該模塊主要包括了粗粒度視覺(jué)特征提取和顯性視頻細(xì)節(jié)描述.粗粒度視覺(jué)特征提取能夠獲取蘊(yùn)含在視頻圖像或片段內(nèi)的全局靜態(tài)特征和動(dòng)態(tài)特征,顯性視頻細(xì)節(jié)描述能夠通過(guò)顯式軌跡計(jì)算得到每一個(gè)視覺(jué)目標(biāo)的運(yùn)動(dòng)軌跡,從而實(shí)現(xiàn)關(guān)于視覺(jué)目標(biāo)的精準(zhǔn)動(dòng)態(tài)特征提取.
2.2.1 粗粒度視覺(jué)特征提取方法
粗粒度視覺(jué)特征提取模塊的目的是為了獲取視頻圖像和圖像序列內(nèi)蘊(yùn)含的粗粒度動(dòng)態(tài)特征和靜態(tài)表觀特征,我們首先將視頻V分割為等長(zhǎng)的片段C=C1,C2,…,CN,并從每一個(gè)片段Ci均勻采樣出T幀表示視頻內(nèi)容.接著應(yīng)用ResNet[4]和線性投影矩陣Wapp∈R2048×d來(lái)獲取每一段視頻Ci內(nèi)的靜態(tài)表觀特征序列最后應(yīng)用ResNeXt-101[5]以及線性投影矩陣Wmot∈R2048×d來(lái)獲取每一段視頻Ci內(nèi)的運(yùn)動(dòng)特征
2.2.2 顯性視頻細(xì)節(jié)描述方法
粗粒度的視覺(jué)特征能夠?yàn)楹罄m(xù)的數(shù)據(jù)融合和推理提供視頻內(nèi)豐富的全局信息,但是高度耦合的信息表達(dá)不利于視頻細(xì)節(jié)的獲取.為了補(bǔ)充視頻內(nèi)的細(xì)節(jié)信息,更好地獲取視覺(jué)目標(biāo)在靜態(tài)圖像內(nèi)的語(yǔ)義關(guān)系和與周圍環(huán)境的動(dòng)態(tài)關(guān)系,我們?cè)O(shè)計(jì)了一種顯性視頻的細(xì)節(jié)描述方法,方法流程如圖2 所示.
Fig.2 Detail description method of explicit video圖2 顯性視頻的細(xì)節(jié)描述方法
具體來(lái)說(shuō),我們首先利用目標(biāo)檢測(cè)器[6]從視頻片段Ci的每一幀圖像Ii,j中提取K個(gè)視覺(jué)目標(biāo)特征和相應(yīng)的空間位置信息由于目標(biāo)檢測(cè)結(jié)果可能存在由于目標(biāo)位置偏移、重疊或變形所引起的語(yǔ)義偏移,使得目標(biāo)檢測(cè)的結(jié)果順序無(wú)法被預(yù)測(cè),這就需要我們對(duì)這些檢測(cè)目標(biāo)重新排序,以避免獲取錯(cuò)誤的上下文關(guān)系和動(dòng)態(tài)信息.為了對(duì)齊每一個(gè)視覺(jué)目標(biāo)的特征序列,我們定義了一種相似度得分score來(lái)衡量相鄰幀之間的視覺(jué)目標(biāo)相似度:
其中cos()表示余弦相似度,用于評(píng)估相鄰幀的視覺(jué)目標(biāo)之間的語(yǔ)義相似度,以區(qū)分不同視覺(jué)目標(biāo),避免由于錯(cuò)誤的時(shí)序關(guān)聯(lián)而造成的語(yǔ)義偏移;IoU()表示交并比,用于計(jì)算視覺(jué)目標(biāo)之間的空間位置關(guān)聯(lián),以區(qū)分在相同位置或大小不同的視覺(jué)目標(biāo)之間的語(yǔ)義相似性,避免由于錯(cuò)誤的空間關(guān)聯(lián)而造成的語(yǔ)義偏移;z表示視覺(jué)目標(biāo)位置的中心位置,tanh()表示激活函數(shù),用于限制每個(gè)視覺(jué)目標(biāo)的運(yùn)動(dòng)范圍,評(píng)估視覺(jué)目標(biāo)的運(yùn)動(dòng)趨勢(shì),以避免目標(biāo)重疊時(shí)產(chǎn)生的語(yǔ)義偏移,j∈{1,2,…,T-1},k1∈{1,2,…,K},k2∈{1,2,…,K}.借助于這些度量方法,我們可以以每一個(gè)視頻片段Ci的第1 幀檢測(cè)到的K個(gè)視覺(jué)目標(biāo)作為基準(zhǔn)目標(biāo),逐幀計(jì)算相鄰幀之間的score得分,接著應(yīng)用貪心算法獲取最大化的score得分,將相似視覺(jué)目標(biāo)連接起來(lái),從而捕獲視覺(jué)目標(biāo)在視頻片段中的運(yùn)動(dòng)軌跡,實(shí)現(xiàn)視覺(jué)目標(biāo)的對(duì)齊.上述方式有效地避免錯(cuò)誤的時(shí)序關(guān)聯(lián),為視頻問(wèn)答模型提供了對(duì)齊后的視覺(jué)目標(biāo)特征序列 和空間位置序列
現(xiàn)階段的數(shù)據(jù)融合與推理模型主要是針對(duì)視覺(jué)線索的單向篩選處理[12-13],缺少主動(dòng)獲取特征提取之外先驗(yàn)知識(shí)的手段,影響了模型對(duì)多模態(tài)內(nèi)容的深度理解和跨模態(tài)數(shù)據(jù)融合與推理的能力.為此,本文提出了KAFR模型.該模塊的輸入是長(zhǎng)度為X的視頻特征序列和問(wèn)題特征qor,通過(guò)4個(gè)跨模態(tài)數(shù)據(jù)融合與推理過(guò)程:時(shí)序表示學(xué)習(xí)與推理、多模態(tài)表示再學(xué)習(xí)、聚焦表示學(xué)習(xí)和匯總表示學(xué)習(xí)賦予視頻問(wèn)答模型從初次審題與推理,到信息的重學(xué)習(xí),再到思維聚焦,最后歸納總結(jié)的完整邏輯思維能力.使得數(shù)據(jù)融合與推理過(guò)程中不僅能夠利用所收集的視覺(jué)線索填補(bǔ)對(duì)多模態(tài)信息的理解,還能通過(guò)邏輯思維的聚焦能力,改善邏輯推理對(duì)于先驗(yàn)知識(shí)的依賴.
2.3.1 時(shí)序表示學(xué)習(xí)與推理
時(shí)序表示學(xué)習(xí)與推理旨在建立視覺(jué)特征的上下文關(guān)系,以理解視頻內(nèi)容并整理與問(wèn)題相關(guān)聯(lián)的視覺(jué)語(yǔ)義線索,例如從視覺(jué)目標(biāo)中獲取與問(wèn)題所關(guān)注的視覺(jué)對(duì)象及其動(dòng)態(tài)軌跡.為了實(shí)現(xiàn)這樣的目的,我們首先使用多頭注意力模型[30]來(lái)捕獲視頻特征序列F中各個(gè)特征向量之間的語(yǔ)義關(guān)系,使得F中每個(gè)特征向量能夠在多個(gè)維度上共享其特征,賦予模型理解視頻的能力.該過(guò)程如式(3)(4)所示:
2.3.2 多模態(tài)表示再學(xué)習(xí)
多模態(tài)表示再學(xué)習(xí)的目的是利用已經(jīng)獲取的視覺(jué)語(yǔ)義線索,增強(qiáng)對(duì)多模態(tài)信息的深度理解,并彌補(bǔ)先驗(yàn)知識(shí)的不足.例如,該模塊可以利用已經(jīng)明確的視覺(jué)目標(biāo)及其軌跡信息,來(lái)強(qiáng)化或補(bǔ)充那些在特征提取階段無(wú)法獲取的視覺(jué)目標(biāo)先驗(yàn)知識(shí).為此,我們首先使用式(6)獲取視覺(jué)語(yǔ)義特征和文本特征之間的復(fù)雜語(yǔ)義關(guān)系A(chǔ),以便指導(dǎo)后續(xù)的多模態(tài)信息之間的語(yǔ)義補(bǔ)充理解.
其中Wr1∈R2d×d和Wr2∈R2d×d是線性投影矩陣,qor] 將視覺(jué)特征h與問(wèn)題原始特征qor組合到同一向量中.接著在關(guān)系網(wǎng)絡(luò)A的引導(dǎo)下,利用已經(jīng)掌握的多模態(tài)語(yǔ)義補(bǔ)充每一個(gè)視覺(jué)信息和問(wèn)題詞匯的深度理解
其中Wr3∈R2d×d是線性投影矩陣,Ni表示除第i個(gè)特征節(jié)點(diǎn)外的節(jié)點(diǎn)特征集合,表示特征之間的關(guān)聯(lián)程度,ReLU表示修正線性單元激活函數(shù).經(jīng)過(guò)上述的迭代操作,重復(fù)地對(duì)多模態(tài)語(yǔ)義進(jìn)行補(bǔ)充與被補(bǔ)充,最終獲取到充分理解后的視頻和問(wèn)題序列接著應(yīng)用BiLSTM()進(jìn)行針對(duì)問(wèn)題的重新審閱,獲取理解更為準(zhǔn)確的問(wèn)題表達(dá)通過(guò)對(duì)多模態(tài)信息的再學(xué)習(xí),實(shí)現(xiàn)了模型對(duì)多模態(tài)特征的深度理解,填補(bǔ)了多模態(tài)先驗(yàn)知識(shí)的不足.
2.3.3 聚焦表示學(xué)習(xí)
為了進(jìn)一步實(shí)現(xiàn)對(duì)多模態(tài)內(nèi)容關(guān)鍵點(diǎn)的聚焦,減少與問(wèn)題弱相關(guān)或無(wú)關(guān)的視覺(jué)信息對(duì)數(shù)據(jù)融合與推理的干擾,從復(fù)雜的視頻場(chǎng)景中找出與問(wèn)題強(qiáng)相關(guān)視覺(jué)語(yǔ)義線索,例如蘊(yùn)含著答案的潛在視覺(jué)目標(biāo)以及其運(yùn)動(dòng)軌跡更有利于問(wèn)題的解答.為此,一種聚焦表示學(xué)習(xí)模塊被提出,旨在實(shí)現(xiàn)邏輯思維的聚焦能力.該模塊的目的是利用問(wèn)題的關(guān)鍵詞,使視頻問(wèn)答模型能夠聚焦多模態(tài)內(nèi)容中的關(guān)鍵內(nèi)容,減少推理過(guò)程中可能造成混淆的無(wú)關(guān)或弱相關(guān)的內(nèi)容.在該模塊的設(shè)計(jì)中,我們首先使用關(guān)鍵詞檢測(cè)技術(shù)①https://github.com/maartengr/keybert從問(wèn)題中獲取每個(gè)關(guān)鍵詞的語(yǔ)義表達(dá)其中n表示關(guān)鍵詞的個(gè)數(shù).視頻問(wèn)答模型借助關(guān)鍵詞qk從隱藏的語(yǔ)義線索中準(zhǔn)確地識(shí)別出與關(guān)鍵信息相關(guān)的視覺(jué)信息,以總結(jié)出與問(wèn)題強(qiáng)相關(guān)的視覺(jué)語(yǔ)義線索.
2.3.4 匯總表示學(xué)習(xí)
上述特征表達(dá)不僅涵蓋了充足且準(zhǔn)確的多模態(tài)先驗(yàn)知識(shí),還包含了對(duì)多模態(tài)信息的深層次理解,為答案解碼提供了豐富的視覺(jué)語(yǔ)義線索.高度濃縮的視覺(jué)語(yǔ)義限線索也為視頻問(wèn)答模型獲取更高層次的視覺(jué)語(yǔ)義線索提供了便利.
2.3 節(jié)提出的KAFR 模型能夠在數(shù)據(jù)融合與推理過(guò)程中主動(dòng)完善多模態(tài)信息的深度理解,還能通過(guò)思維的聚焦學(xué)習(xí),減少視頻中需要理解的多模態(tài)信息,降低數(shù)據(jù)融合與推理過(guò)程對(duì)于先驗(yàn)知識(shí)的依賴,改善特征提取不足所帶來(lái)的挑戰(zhàn).接著我們將KAFR按照視頻的層次結(jié)構(gòu),如圖像、視頻片段等進(jìn)行排列,搭建了靜態(tài)外觀與語(yǔ)言、動(dòng)態(tài)信息與語(yǔ)言和視覺(jué)目標(biāo)與語(yǔ)言等多層次視頻問(wèn)答網(wǎng)絡(luò),進(jìn)一步從視頻中理解完整的故事情節(jié),獲取視頻層級(jí)所提供的多層次視覺(jué)語(yǔ)義線索,為視頻問(wèn)答提供更加準(zhǔn)確的答案預(yù)測(cè).
我們?cè)诤罄m(xù)的實(shí)驗(yàn)中對(duì)于所提出方案中的網(wǎng)絡(luò)結(jié)構(gòu)的合理性以及多層次設(shè)計(jì)方案進(jìn)行了嚴(yán)格的消融實(shí)驗(yàn)(見(jiàn)3.4.1 節(jié)),實(shí)驗(yàn)結(jié)果表明,多層次網(wǎng)絡(luò)設(shè)計(jì)的問(wèn)答性能優(yōu)于單層次的網(wǎng)絡(luò)設(shè)計(jì),證實(shí)了多層次結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)越性.
本節(jié)針對(duì)多項(xiàng)選擇任務(wù)、開(kāi)放性任務(wù)和重復(fù)計(jì)數(shù)任務(wù)等不同類型的視頻問(wèn)題設(shè)計(jì)了不同的解碼器,使視頻問(wèn)答模型能夠應(yīng)對(duì)不同類型任務(wù)的挑戰(zhàn).
在這類視頻問(wèn)答中,交叉熵?fù)p失函數(shù)被用于網(wǎng)絡(luò)模型的優(yōu)化.
針對(duì)開(kāi)放性任務(wù),特征Hob,Happ,Hmot,作為輸入,式(16)被用于得到每個(gè)候選答案的最終得分δopen∈
其中Wopen∈Rd×Nopen,Wopen′∈R4d×d是不同的線性投影矩陣,Nopen表示答案空間 |A|的長(zhǎng)度.最后我們選擇得分最高的答案作為預(yù)測(cè)答案.
在這類視頻問(wèn)答任務(wù)中,交叉熵?fù)p失函數(shù)被用于優(yōu)化網(wǎng)絡(luò)模型.
針對(duì)重復(fù)計(jì)數(shù)任務(wù),線性回歸函數(shù)被用來(lái)預(yù)測(cè)整數(shù)值的答案 δcount∈R1:
其中Wcount∈Rd×1,Wc∈R4d×d是不同的線性投影矩陣.在這類視頻問(wèn)答任務(wù)中,均方誤差損失被用于優(yōu)化網(wǎng)絡(luò)模型.
為了能夠客觀公正地評(píng)估本文的方法,我們選取了3 個(gè)現(xiàn)階段廣泛使用且極具挑戰(zhàn)性的視頻問(wèn)答數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)測(cè)試.
1)TG?F-QA[14].該數(shù)據(jù)集包含有16.5 萬(wàn)個(gè)問(wèn)題對(duì),按照問(wèn)題的獨(dú)特屬性將數(shù)據(jù)集劃分為4 類子任務(wù):Repeating Action,Transition,Repeating counting,F(xiàn)rame QA.
2)MSVD-QA[15].該數(shù)據(jù)在1 970 個(gè)視頻片段中標(biāo)注了5 萬(wàn)個(gè)開(kāi)放性視頻問(wèn)題對(duì),其中訓(xùn)練集、驗(yàn)證集、測(cè)試集中分別有3.09 萬(wàn)、0.64 萬(wàn)、1.3 萬(wàn)個(gè)問(wèn)題對(duì),答案空間的長(zhǎng)度為1 852.
3)MSRVTT-QA[16].該數(shù)據(jù)在10 萬(wàn)個(gè)視頻片段中標(biāo)注了24.3 萬(wàn)個(gè)問(wèn)題對(duì),其中訓(xùn)練集、驗(yàn)證集、測(cè)試集中分別有15.8 萬(wàn)、1.22 萬(wàn)、7.28 萬(wàn)個(gè)問(wèn)題對(duì),答案空間的長(zhǎng)度為4 000.相較于前2 種視頻問(wèn)答數(shù)據(jù)集,該數(shù)據(jù)集擁有10~30 s 的視頻序列,這使得視頻內(nèi)的場(chǎng)景更加復(fù)雜,對(duì)數(shù)據(jù)融合與推理能力提出了更高的挑戰(zhàn).
本文方法是基于Pytorch 深度學(xué)習(xí)框架實(shí)現(xiàn).在實(shí)驗(yàn)設(shè)置中,視頻片段數(shù)N=8,并在每個(gè)片段中采樣,T=16 幀表示該片段的內(nèi)容,在每一幀圖像中提取K=10 個(gè)視覺(jué)目標(biāo)特征.針對(duì)每一個(gè)問(wèn)題,關(guān)鍵字?jǐn)?shù)n=3.對(duì)于外觀特征、運(yùn)動(dòng)特征和目標(biāo)特征,我們分別使 用了L=2,L=2,L=1 層 的KAFR 模 型.設(shè)置在每一個(gè)模塊內(nèi)的多頭注意力網(wǎng)絡(luò)的頭數(shù)均為H=8,設(shè)置特征維度d=512.在訓(xùn)練過(guò)程中,模型被訓(xùn)練25 輪.Adam 優(yōu)化器被用來(lái)優(yōu)化模型參數(shù),數(shù)據(jù)的批大小設(shè)置為32,學(xué)習(xí)率設(shè)置為0.5E-4.
為了便于與現(xiàn)有方法進(jìn)行比較,我們使用均方誤差(mean square error,MSE)對(duì)TG?F-QA 數(shù)據(jù)集中的Repeating counting 任務(wù)進(jìn)行評(píng)估.MSE 值越小,性能越好.對(duì)于數(shù)據(jù)集的其他任務(wù),采用準(zhǔn)確率來(lái)評(píng)估模型的性能.準(zhǔn)確率越高,性能越好.
為了驗(yàn)證本文所做出的貢獻(xiàn),我們?cè)谒岢龅幕诙嗄B(tài)知識(shí)主動(dòng)學(xué)習(xí)的視頻問(wèn)答方案上進(jìn)行了廣泛的消融實(shí)驗(yàn),以驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)及其模塊的合理性、顯性細(xì)節(jié)特征提取的有效性和超參數(shù)的合理性.
3.4.1 網(wǎng)絡(luò)結(jié)構(gòu)及其模塊的合理性
在本文中,KAFR 模型按照視頻的層次結(jié)構(gòu)如圖像、視頻片段等構(gòu)建了不同層次的數(shù)據(jù)融合與推理計(jì)算網(wǎng)絡(luò),以獲取分散在視頻內(nèi)不同層次的濃縮視覺(jué)語(yǔ)義線索.為了驗(yàn)證這種網(wǎng)絡(luò)結(jié)構(gòu)的合理性,我們?cè)贛SRVTT-QA 和MSVD-QA 中比較了網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于性能的影響.從表1 可以看出,當(dāng)使用單個(gè)KAFR模型時(shí),算法的性能有明顯的下降.而多層次的網(wǎng)絡(luò)設(shè)計(jì)展現(xiàn)了優(yōu)異的問(wèn)答性能,這展示了多層次結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)越性.
Table 1 Verify the Rationality of the Network Structures and Their Modules表1 驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)及其模塊的合理性 %
除此之外,本節(jié)還在每一個(gè)KAFR 模型中,嘗試引入主動(dòng)學(xué)習(xí)和思維聚焦來(lái)幫助視頻問(wèn)答模型應(yīng)對(duì)先驗(yàn)知識(shí)不足的問(wèn)題,進(jìn)一步深化模型對(duì)多模態(tài)信息的理解,并收集歸納與問(wèn)題強(qiáng)相關(guān)的視覺(jué)語(yǔ)義線索.為了驗(yàn)證該模型的有效性,我們?cè)诒? 進(jìn)行了詳細(xì)的消融實(shí)驗(yàn).可以看出,KAFR 的所有模塊都很重要,刪除其中任何一個(gè)都會(huì)降低相應(yīng)的性能.值得注意的是,傳統(tǒng)的數(shù)據(jù)融合與推理過(guò)程缺乏思維聚焦和主動(dòng)學(xué)習(xí),其性能明顯低于KAFR,這有力證明了KAFR 的優(yōu)越性,并支持了本文對(duì)于視頻問(wèn)答存在先驗(yàn)知識(shí)不足的猜想.同時(shí),這也進(jìn)一步表明在數(shù)據(jù)融合與推理過(guò)程中,增加主動(dòng)學(xué)習(xí)能力和思維聚焦能力是提升問(wèn)答性能和增強(qiáng)視頻理解能力的有效策略.此外,通過(guò)對(duì)邏輯思維過(guò)程順序的消融實(shí)驗(yàn)結(jié)果分析可以發(fā)現(xiàn),主動(dòng)學(xué)習(xí)能夠?yàn)榫劢箤W(xué)習(xí)提供正確的多模態(tài)語(yǔ)義理解,指導(dǎo)思維聚焦過(guò)程,這進(jìn)一步證實(shí)了本文所設(shè)計(jì)的數(shù)據(jù)融合與推理模型的合理性.
3.4.2 顯性細(xì)節(jié)特征提取有效性驗(yàn)證
在本節(jié)中,顯性細(xì)節(jié)特征提取模塊提取了視覺(jué)目標(biāo)、靜態(tài)和動(dòng)作等多模態(tài)特征信息,以期望為視頻問(wèn)答提供完整的視覺(jué)語(yǔ)義線索.為了驗(yàn)證不同模態(tài)特征對(duì)性能的影響,本文比較了在MSRVTT-QA 和MSVDQA 中以不同模態(tài)信息作為輸入對(duì)性能的影響.從表2 可以看出,所提出的模型都能夠有效地對(duì)每一種模態(tài)信息進(jìn)行數(shù)據(jù)融合和推理計(jì)算,證明了本文提出的顯性細(xì)節(jié)特征提取方法的有效性.同時(shí),通過(guò)進(jìn)一步比較可以發(fā)現(xiàn),去掉視覺(jué)目標(biāo)的對(duì)齊會(huì)導(dǎo)致性能下降,這也證明了本文提出的顯性視頻細(xì)節(jié)特征提取方法能夠有效地減少視覺(jué)目標(biāo)混亂所造成的性能損失,完善視頻的特征表達(dá),提高問(wèn)答性能.
Table 2 Verify the Effectiveness of Explicit Detail Feature Extraction表2 驗(yàn)證顯性細(xì)節(jié)特征提取的有效性 %
3.4.3 超參數(shù)合理性驗(yàn)證
本節(jié)使用了K=10 個(gè)的視覺(jué)目標(biāo)特征來(lái)描述視頻的細(xì)節(jié)信息.為了驗(yàn)證這種設(shè)置的合理性,我們?cè)贛SVD-QA 數(shù)據(jù)集上比較了不同K值對(duì)性能和模型參數(shù)的影響.從圖3 中可以看出,性能與K值不存在正相關(guān)關(guān)系,并且在K=10 處獲取了最優(yōu)的問(wèn)答性能.這是因?yàn)檫^(guò)多的目標(biāo)采樣導(dǎo)致視頻細(xì)節(jié)冗余,影響了正常的數(shù)據(jù)融合與推理計(jì)算,從而降低了性能.同時(shí),KAFR 與現(xiàn)階段流行的模型HCRN 的比較結(jié)果可以看出,KAFR 雖然參數(shù)增加了2×106,但性能提升明顯,這證明了KAFR 設(shè)計(jì)的合理性.
Fig.3 Verify the rationality of K value圖3 驗(yàn)證K 值的合理性
除此之外,為了實(shí)現(xiàn)跨模態(tài)的語(yǔ)義融合,本文使用了大量的映射矩陣.為了驗(yàn)證投影矩陣維度d=512的合理性,我們?cè)贛SVD-QA 比較了不同d值對(duì)性能和網(wǎng)絡(luò)參數(shù)的影響.結(jié)果如圖4 所示,d=512 時(shí)的問(wèn)答性能優(yōu)于d=256 或(d=1 024)時(shí)的問(wèn)答性能.這是由于高維度的特征投影(d=1 024)雖然有助于建立跨模態(tài)語(yǔ)義的穩(wěn)定映射關(guān)系,但是也帶來(lái)冗余的網(wǎng)絡(luò)參數(shù),從而導(dǎo)致網(wǎng)絡(luò)難以收斂,影響了問(wèn)答的性能.而低維度的特征映射(d=256)無(wú)法提供穩(wěn)定的語(yǔ)義的穩(wěn)定映射關(guān)系,影響了問(wèn)答的性能.因此,我們所選取的投影矩陣參數(shù)設(shè)置是合理的.
Fig.4 Verify the rationality of d value圖4 驗(yàn)證d 值的合理性
為了更好地評(píng)估本文的工作,我們將本文提出的KAFR 與近幾年的算法進(jìn)行比較.
1)L-GCN[19].該模型通過(guò)位置感知圖來(lái)構(gòu)建視頻問(wèn)答任務(wù)中檢測(cè)到的對(duì)象之間的關(guān)系,將對(duì)象的位置特征融入列圖和構(gòu)建中.
2)HGA[21].該模型設(shè)計(jì)了一個(gè)深度異構(gòu)圖對(duì)齊網(wǎng)絡(luò),從表示、融合、對(duì)齊和推理4 個(gè)步驟來(lái)推斷答案.
3)HCRN[12].該模型是一種條件關(guān)系網(wǎng)絡(luò),作為構(gòu)建塊來(lái)構(gòu)建更復(fù)雜的視頻表示和推理結(jié)構(gòu).
4)HOSTR[9].該模型是一種面向視頻內(nèi)對(duì)象的視頻問(wèn)答方法,利用位置信息對(duì)視頻內(nèi)實(shí)體關(guān)系進(jìn)行建模,獲取細(xì)粒度的時(shí)空表達(dá)和邏輯推理能力.
5)MASN[20].該模型是一種運(yùn)動(dòng)外觀協(xié)同網(wǎng)絡(luò),以融合和創(chuàng)建運(yùn)動(dòng)外觀特征與靜態(tài)外觀特征之間的協(xié)同融合.
6)HRNAT[31].該模型是一個(gè)帶有輔助任務(wù)的分層表示網(wǎng)絡(luò),用于學(xué)習(xí)多層次表示并獲得句法感知的視頻字幕.
7)DualVGR[11].該模型是一種用于視頻問(wèn)答的雙視覺(jué)圖推理單元,該單元通過(guò)迭代堆疊來(lái)模擬視頻片段之間與問(wèn)題相關(guān)的豐富時(shí)空交互.
8)PKOL[25].該模型是一種面向視頻問(wèn)答的先驗(yàn)知識(shí)探索和目標(biāo)敏感學(xué)習(xí)方法,探索了先驗(yàn)知識(shí)對(duì)數(shù)據(jù)融合與推理性能的影響.
9)ClipBERT[27].該模型是一種用于端到端的視頻問(wèn)答框架,在訓(xùn)練過(guò)程中使用圖像-文本的預(yù)訓(xùn)練.
10)CoMVT[28].該模型是一種基于雙流多模態(tài)視頻transformer 的數(shù)據(jù)融合與推理框架,它能有效地聯(lián)合處理文本中的單詞和視覺(jué)對(duì)象,利用網(wǎng)絡(luò)中的在線教學(xué)視頻數(shù)據(jù)集進(jìn)了預(yù)訓(xùn)練.
KAFR 與多個(gè)視頻問(wèn)答數(shù)據(jù)集上最先進(jìn)的方法進(jìn)行比較,結(jié)果如表3 所示.KAFA 在所有任務(wù)中都優(yōu)于現(xiàn)有未經(jīng)預(yù)訓(xùn)練的方法.具體來(lái)說(shuō),在Action,Transition,F(xiàn)rameQA,Count,MSVD-QA,MSRVTT-QA 測(cè)試中,相較于未經(jīng)預(yù)訓(xùn)練的模型,KAFR 分別提高了0.8%,2.7%,1.3%,0.04%,2.0%,1.8%.而相較于那些預(yù)訓(xùn)練模型,KAFA 也能獲取與之相匹配的性能,甚至除MSRVTT-QA 測(cè)試之外,都有性能的提升.這說(shuō)明KAFA 能夠獲取更為準(zhǔn)確的視頻表達(dá),而數(shù)據(jù)融合與推理模型能夠通過(guò)邏輯推理計(jì)算過(guò)程中的思維聚焦與主動(dòng)學(xué)習(xí),有效地完善了視頻問(wèn)答系統(tǒng)的先驗(yàn)知識(shí),降低了對(duì)先驗(yàn)知識(shí)的依賴,獲取了更為合理、充分的視覺(jué)語(yǔ)義線索和高性能的視頻問(wèn)答能力.
Table 3 Comparison of Our Method with the Most Advanced Methods on Multiple Video Question Answering Datasets表3 本文方法與多個(gè)視頻問(wèn)答數(shù)據(jù)集上最先進(jìn)的方法的比較 %
為了更好地理解我們?cè)跀?shù)據(jù)融合與推理方面所做出的貢獻(xiàn),本節(jié)在圖5 中給出了一些特征分布的可視化結(jié)果.從圖5(a)中可以看出,視覺(jué)特征與問(wèn)題特征序列非均勻地分布在原始特征空間內(nèi),存在著明顯的語(yǔ)義鴻溝問(wèn)題.而在圖5(b)中,視覺(jué)特征和問(wèn)題特征通過(guò)時(shí)序表示學(xué)習(xí)與推理計(jì)算后,特征空間縮小了近50%,視覺(jué)特征與問(wèn)題特征在空間中相互接近,但語(yǔ)義鴻溝依舊存在,多模態(tài)特征依舊分布在不同的子空間,阻礙了數(shù)據(jù)融合與推理的進(jìn)行.在圖5(c)中,視覺(jué)特征與問(wèn)題特征通過(guò)多模態(tài)表示再學(xué)習(xí)的自主學(xué)習(xí)過(guò)程后,補(bǔ)充后的子問(wèn)題與填充后的視覺(jué)信息能夠彼此糾纏,分布于相同的語(yǔ)義空間內(nèi),有效克服了語(yǔ)義鴻溝的問(wèn)題,為接下來(lái)的數(shù)據(jù)融合與推理計(jì)算提供了有利的條件.上述結(jié)果表明,KAFR能夠很好地利用已經(jīng)掌握的視覺(jué)內(nèi)容填補(bǔ)對(duì)多模態(tài)特征的深度理解,減小了語(yǔ)義鴻溝對(duì)跨模態(tài)數(shù)據(jù)融合與推理計(jì)算的影響,提升了模型的問(wèn)答性能.
Fig.5 Visual t-SNE graph for multimodal embedding distribution圖5 用于多模態(tài)嵌入分布的可視化t-SNE 圖
接著,我們還給出了一些視頻問(wèn)答預(yù)測(cè)結(jié)果的演示,如圖6 所示,包括3 個(gè)視頻問(wèn)答問(wèn)題.在圖6(a)中,KAFR 通過(guò)對(duì)視覺(jué)細(xì)節(jié)的特征提取與視覺(jué)目標(biāo)的對(duì)齊,深入理解了視頻場(chǎng)景內(nèi)所發(fā)生的故事情節(jié)“競(jìng)爭(zhēng)(race)”,而缺少視覺(jué)目標(biāo)對(duì)齊的結(jié)果只能淺顯地理解每個(gè)所做的動(dòng)作“跑步(run)”.在圖6(b)中,缺少視覺(jué)目標(biāo)對(duì)齊的結(jié)果缺少對(duì)視頻景深的理解,只能片面地理解2 維平面的“behind”,而將“l(fā)ady”也考慮在答案中.而通過(guò)視覺(jué)目標(biāo)運(yùn)動(dòng)信息對(duì)靜態(tài)信息的糾正,修正了模型對(duì)于“l(fā)ady”位置的理解,使得KAFR 能夠準(zhǔn)確預(yù)測(cè)出了答案“two”.在圖6(c)中,KAFR 只理解了由人、馬、植被和草地所組成的復(fù)雜場(chǎng)景,未能準(zhǔn)確地識(shí)別出沙地和山峰等復(fù)雜要素,致使模型將深層次的復(fù)合場(chǎng)景語(yǔ)義“desert”被錯(cuò)誤認(rèn)定為了“yard”.
Fig.6 Video question answering result demonstration圖6 視頻問(wèn)答結(jié)果演示
最后,還展示了思維聚焦的可視化演示結(jié)果,以2 個(gè)視頻問(wèn)答問(wèn)題為例,結(jié)果如圖7 所示.在圖7(a)中,缺少思維聚焦功能的注意力熱圖缺少焦點(diǎn).但經(jīng)過(guò)對(duì)關(guān)鍵信息“tears,piece,paper”的定位后,邏輯推理聚焦到與問(wèn)題密切相關(guān)的橙色虛線標(biāo)注視頻片段,準(zhǔn)確地找出了包含正確答案的視覺(jué)線索,正確預(yù)測(cè)了答案“man”.而在圖7(b)中,KAFR 通過(guò)定位關(guān)鍵信息“woman,scoop,ice cream”,準(zhǔn)確找出了與問(wèn)題緊密相關(guān)的2 個(gè)紫色虛線標(biāo)注視頻片段,正確預(yù)測(cè)了答案“two”.以上結(jié)果表明,KAFR 通過(guò)思維聚焦能夠縮小特征空間,減少需要理解的多模態(tài)信息,改善了對(duì)先驗(yàn)知識(shí)的依賴,從而提高了算法的性能.
Fig.7 Visualization of the thinking focus process圖7 思維聚焦過(guò)程的可視化
本文針對(duì)視頻問(wèn)答任務(wù)中視頻細(xì)節(jié)提取不足和模型主動(dòng)學(xué)習(xí)能力不足的問(wèn)題,提出了一種基于多模態(tài)知識(shí)主動(dòng)學(xué)習(xí)的視頻問(wèn)答方案KAFR.在該方案中,顯性細(xì)節(jié)表達(dá)提取模塊首先通過(guò)將視頻的靜態(tài)細(xì)節(jié)表達(dá)推廣到動(dòng)態(tài)細(xì)節(jié)描述,以防止由于視頻細(xì)節(jié)內(nèi)容的缺失導(dǎo)致的錯(cuò)誤因果關(guān)系,建立了更為準(zhǔn)確的視頻模型.接著,KAFR 模型通過(guò)多模態(tài)信息深度理解的自我完善以及思維的聚焦,為數(shù)據(jù)融合與推理計(jì)算提供更準(zhǔn)確和精煉的多模態(tài)特征表達(dá).在多個(gè)公開(kāi)視頻問(wèn)答數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:顯性細(xì)節(jié)表達(dá)提取模塊能夠有效獲取視頻的細(xì)節(jié)表達(dá)和更為完整的視頻多模態(tài)表達(dá).同時(shí),帶有自主學(xué)習(xí)和思維聚焦能力的KAFR 模型能夠有效緩解特征提取階段先驗(yàn)知識(shí)不足的問(wèn)題,從而提高了模型的性能.
結(jié)合人工智能技術(shù)的視頻問(wèn)答研究不僅具有重要的理論研究意義,更重要的是具有廣泛的應(yīng)用價(jià)值.通過(guò)視頻問(wèn)答技術(shù)與機(jī)器人技術(shù)的結(jié)合,未來(lái)機(jī)器人將能夠更好地理解人類的語(yǔ)言和意圖,并通過(guò)觀察和分析視頻內(nèi)容來(lái)獲取更多的環(huán)境信息,在我們的日常生活中發(fā)揮更加重要的作用.特別是在未來(lái)的數(shù)字家庭和智慧社區(qū)中,這些配備視頻問(wèn)答技術(shù)的機(jī)器人將成為我們生活中的智能伙伴,提供個(gè)性化、便捷和智能化的服務(wù)和支持.
作者貢獻(xiàn)聲明:劉明陽(yáng)提出算法思路,完成實(shí)驗(yàn)并撰寫論文;王若梅提出指導(dǎo)意見(jiàn);周凡參與論文校對(duì)和實(shí)驗(yàn)方案指導(dǎo);林格提出指導(dǎo)意見(jiàn)和審核論文.