劉欣宜
(武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079)
幾十年前,無(wú)人機(jī)僅僅在科幻小說(shuō)或有關(guān)未來(lái)的概念中出現(xiàn)。如今,無(wú)人機(jī)已經(jīng)逐漸并迅速成為我們?nèi)粘I畹囊徊糠?。根?jù)美國(guó)聯(lián)邦航空管理局的統(tǒng)計(jì)數(shù)據(jù),僅在美國(guó),已注冊(cè)的民用無(wú)人機(jī)數(shù)量已從2015 年的14 萬(wàn)架攀升至2020 年的114 萬(wàn)架[1]。
毋庸置疑,與衛(wèi)星相比,大批量無(wú)人機(jī)投入使用不僅可以促進(jìn)實(shí)現(xiàn)低成本訪問(wèn)實(shí)時(shí)、高分辨率的視頻,還可以輔助完成各類應(yīng)用,例如災(zāi)后破壞程度估算、精準(zhǔn)農(nóng)業(yè)流程優(yōu)化、野生動(dòng)物保護(hù)監(jiān)測(cè)等。也正因如此,如何更好地發(fā)展基于深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)化視頻解譯方法,現(xiàn)如今是遙感與計(jì)算機(jī)科學(xué)領(lǐng)域的研究熱點(diǎn)之一。
廣義的視頻理解是一個(gè)綜合性任務(wù),它包含了場(chǎng)景或環(huán)境、物體、行為、事件及各種屬性在內(nèi)的多種語(yǔ)義識(shí)別。航拍視頻理解通常可以通過(guò)執(zhí)行各種計(jì)算機(jī)視覺(jué)任務(wù)來(lái)實(shí)現(xiàn),比如視頻分類、目標(biāo)檢測(cè)和目標(biāo)跟蹤等任務(wù)。
圖像中包含的信息被稱為空間信息。對(duì)于視頻數(shù)據(jù),除此之外,多個(gè)視頻幀之間還存在時(shí)間信息。也就是說(shuō),視頻可以提供時(shí)空信息。深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)具有從圖像中學(xué)習(xí)有效視覺(jué)表征的超強(qiáng)能力。同樣的,對(duì)于視頻數(shù)據(jù),深度卷積神經(jīng)網(wǎng)絡(luò)也能夠通過(guò)其時(shí)空信息,來(lái)實(shí)現(xiàn)視頻理解。
現(xiàn)有的視頻理解CNNs 可以被分為兩類,即主要使用三維卷積或二維卷積來(lái)學(xué)習(xí)全局時(shí)空表征。三維CNN 方法運(yùn)用具有時(shí)間維度的三維卷積來(lái)提取全局時(shí)空特征,經(jīng)典的網(wǎng)絡(luò)包括C3D[2],I3D[3],P3D[4]等。對(duì)于二維CNN 方法,二維卷積被應(yīng)用于每一幀視頻以提取空間特征,而幀之間的時(shí)間信息通過(guò)一個(gè)附加模塊來(lái)捕捉。代表性二維CNN 方法包括TRN[5]。
在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練離不開(kāi)大量數(shù)據(jù)。對(duì)于航拍視頻理解任務(wù)來(lái)說(shuō),實(shí)驗(yàn)數(shù)據(jù)的標(biāo)注、描述方法對(duì)最終網(wǎng)絡(luò)時(shí)空特征提取能力的提升至關(guān)重要。
當(dāng)下,絕大多數(shù)航拍視頻數(shù)據(jù)集都是單標(biāo)簽標(biāo)注的,即通過(guò)給每個(gè)實(shí)例一個(gè)分類標(biāo)簽來(lái)描述視覺(jué)現(xiàn)象(活動(dòng)、事件或動(dòng)作等)。包括關(guān)于人- 人,人- 物體間關(guān)系的UCLA 空中事件數(shù)據(jù)集[6]、關(guān)于人類動(dòng)作的Okutama-Action 數(shù)據(jù)集[7]、關(guān)于緊急事件響應(yīng)的AIDER 數(shù)據(jù)集[8],和由2864 個(gè)時(shí)長(zhǎng)5 秒、來(lái)源于YouTube 網(wǎng)站(https://www.youtube.com/)、分屬于25個(gè)事件類別的無(wú)人機(jī)航拍視頻數(shù)據(jù)集ERA Dataset[9]。注意到該ERA 數(shù)據(jù)集規(guī)模較廣、視頻內(nèi)容多樣化,可以作為航拍視頻深度學(xué)習(xí)領(lǐng)域的一個(gè)基準(zhǔn),具有進(jìn)一步標(biāo)注、開(kāi)發(fā)、豐富的潛力。
高級(jí)別的表達(dá)包括基于類別的表達(dá)和基于屬性的表達(dá),因此,對(duì)于視角廣、信息量大的航拍視頻而言,僅僅賦予視頻一個(gè)類別單標(biāo)簽是遠(yuǎn)遠(yuǎn)不夠的。為了更全面地描述、感知視頻中關(guān)于地面物體、場(chǎng)景特征及人類觀看感受的信息,基于屬性的多標(biāo)簽標(biāo)注和在此基礎(chǔ)上開(kāi)展多屬性學(xué)習(xí)是不可忽視、亟待解決的一項(xiàng)研究任務(wù)。注意到當(dāng)下基于多屬性的航拍視頻數(shù)據(jù)集還是一片空白,相關(guān)的基于CNN 的視頻理解方法就更加有限,相關(guān)領(lǐng)域研究人員也因此還需要做出進(jìn)一步的努力。
通過(guò)對(duì)現(xiàn)有無(wú)人機(jī)視頻數(shù)據(jù)集進(jìn)行調(diào)查,我們發(fā)現(xiàn)ERA 數(shù)據(jù)集[9]具有進(jìn)一步被標(biāo)注的潛力,因此我們采用對(duì)ERA 數(shù)據(jù)集進(jìn)行標(biāo)注的方式來(lái)用較低成本建立第一個(gè)高質(zhì)量的多屬性無(wú)人機(jī)視頻數(shù)據(jù)庫(kù)Multi-Attribute ERA 數(shù)據(jù)庫(kù)。整個(gè)創(chuàng)建過(guò)程包括屬性集合的確定、標(biāo)注與質(zhì)量檢測(cè)。此外,本章還對(duì)Multi-Attribute ERA 數(shù)據(jù)庫(kù)進(jìn)行了包括數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)庫(kù)特性與挑戰(zhàn)在內(nèi)的進(jìn)一步介紹。
為了找到合適的多屬性標(biāo)簽集合,我們遵循兩個(gè)原則:原則一為場(chǎng)景分類法,意在找出每個(gè)場(chǎng)景對(duì)應(yīng)的目標(biāo)屬性。首先,我們將ERA 數(shù)據(jù)集中的25 個(gè)事件類標(biāo)簽(震后、賽車、打籃球、洪水、山體滑坡、耕作等)歸為如圖1 所示的四大場(chǎng)景類,其中居民區(qū)場(chǎng)景可以細(xì)分為三個(gè)次類。每個(gè)類、次類對(duì)應(yīng)的比較普適的目標(biāo)屬性包括:樓房、人、車輛、停車場(chǎng)、運(yùn)動(dòng)場(chǎng)、賽車道、山、泥石流、田地、自然水域和游泳池。然后,回歸到ERA 數(shù)據(jù)集的25 個(gè)事件類中,我們找到對(duì)應(yīng)事件類的特定目標(biāo)屬性:條幅/標(biāo)語(yǔ)牌,旗幟,自行車,船,塔吊,耕作機(jī),火焰/煙霧,收割機(jī),舞臺(tái),水炮。
圖1 將ERA 數(shù)據(jù)集[9]中的事件標(biāo)簽按場(chǎng)景歸類
由于人工智能的目標(biāo)是像人類一樣感知視頻內(nèi)容,原則二為人類對(duì)視頻的描述。當(dāng)人類觀看視頻時(shí),不可避免會(huì)產(chǎn)生對(duì)視頻的情感,同時(shí)還會(huì)注意到視頻中發(fā)生的活動(dòng)、天氣等屬性。由于ERA 數(shù)據(jù)集本身已經(jīng)有了活動(dòng)標(biāo)簽,這里我們選擇天氣和情感兩個(gè)屬性類。結(jié)合ERA 數(shù)據(jù)集的內(nèi)容,最后確定下來(lái)的對(duì)應(yīng)屬性有:天氣:夜晚;情感:競(jìng)爭(zhēng)性,擁擠,危險(xiǎn),快樂(lè),壓力,緊張。
至此,我們得到了涵蓋地面目標(biāo)、天氣情況、人類情感在內(nèi)的Multi-attribute ERA 數(shù)據(jù)集的全部屬性標(biāo)簽,共有28個(gè)。
Multi-attribute ERA 數(shù)據(jù)庫(kù)的標(biāo)注工作是在我們?yōu)槠湓O(shè)計(jì)的MATLAB 視頻數(shù)據(jù)多標(biāo)簽標(biāo)注平臺(tái)上完成的。為了保證數(shù)據(jù)集的完整性與準(zhǔn)確性,我們還制定并施行了包括標(biāo)注中準(zhǔn)則、標(biāo)注后檢查在內(nèi)的質(zhì)量控制流程。
標(biāo)注中準(zhǔn)則包括參考人對(duì)視頻內(nèi)容的理解、參考視頻片段的源視頻和參考屬性的字面定義三項(xiàng)。標(biāo)注過(guò)程中,無(wú)法通過(guò)準(zhǔn)則進(jìn)行決策的數(shù)據(jù)記錄在了標(biāo)準(zhǔn)日志上。整個(gè)標(biāo)注階段完成后,由4 名標(biāo)注員對(duì)不明確的項(xiàng)目進(jìn)行檢查、討論并調(diào)整。
Multi-attribute ERA 數(shù)據(jù)庫(kù)非常適合多屬性視頻分類的任務(wù)。它包含28 個(gè)有代表性的屬性,每個(gè)視頻數(shù)據(jù)有0 到11 個(gè)屬性標(biāo)簽。而對(duì)于每個(gè)標(biāo)簽,樣本數(shù)從82 到1887 不等,總共有2864 個(gè)樣本。我們給出一些典型示例及其多屬性標(biāo)簽如圖2。Multi-attribute ERA 數(shù)據(jù)庫(kù)的數(shù)據(jù)分布非常不平衡(如圖3 所示)、數(shù)據(jù)集規(guī)模不大、類間相似度大、類內(nèi)差異大,為訓(xùn)練航拍視頻理解算法帶來(lái)了挑戰(zhàn)。
圖2 事件類視頻示例的中間幀及其在Multi-Attribute ERA 數(shù)據(jù)庫(kù)中對(duì)應(yīng)的多屬性標(biāo)簽
在創(chuàng)建Multi-attribute ERA 數(shù)據(jù)集的基礎(chǔ)上,我們?cè)O(shè)計(jì)并完成了第一個(gè)多屬性航拍視頻理解的任務(wù),即多標(biāo)簽食品分類。在這個(gè)實(shí)驗(yàn)中,4 個(gè)當(dāng)下最有代表性的、先進(jìn)的CNN視頻分類模型在所提出的Multi-attribute ERA 數(shù)據(jù)集上進(jìn)行了評(píng)估。
本實(shí)驗(yàn)所選擇的四個(gè)基線網(wǎng)絡(luò)為C3D[2],I3D[3],P3D[4]和TRN[5]。由于是多標(biāo)簽分類任務(wù),網(wǎng)絡(luò)的分類層激活函數(shù)為Sigmoid 函數(shù)。
對(duì)于視頻多標(biāo)簽分類任務(wù),我們將主要評(píng)價(jià)指標(biāo)設(shè)定為平均F1值、平均F2值,此外,參考指標(biāo)還有基于實(shí)例平均精度pe、召回率re、基于標(biāo)簽的平均精度pl、召回率rl。計(jì)算方法如下所示并取均值:
如表1 所示,就平均F1值、平均F2值來(lái)看,模型TRN-Inception-v3表現(xiàn)最好,分別為67.27%和67.57%。這可能是因?yàn)樗慕Y(jié)構(gòu)是一個(gè)帶有時(shí)間推理模塊的二維CNN,可以在捕捉時(shí)間信息的同時(shí)有效提取足夠的空間特征。就平均精度而言,模型P3D-Resnet-199的表現(xiàn)最佳,基于實(shí)例、標(biāo)簽的平均精度分別為73.73%和67.88%。
表1 在Multi-Attribute ERA 上進(jìn)行基線實(shí)驗(yàn)的定量結(jié)果(\%)。最佳結(jié)果用粗體表示
圖4 展示了以上兩個(gè)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果示例。很明顯,大部分樣本的主要屬性被成功預(yù)測(cè),模型TRN -Inception-v3和P3D-Resnet-199已經(jīng)顯示出它們?cè)趯W(xué)習(xí)航拍視頻的各種屬性方面的出色能力。與此同時(shí),注意到夜間場(chǎng)景視頻的預(yù)測(cè)值假陰性比例較高,屬于比較有挑戰(zhàn)性的樣本。
圖4 TRN - Inception-v3 和P3D- Resnet-199 在多Multi Attribute ERA 數(shù)據(jù)庫(kù)上的多屬性視頻分類實(shí)驗(yàn)結(jié)果(預(yù)測(cè)值)及真實(shí)值示例。圖示為對(duì)應(yīng)視頻第一幀與最后一幀。[方括號(hào)]的預(yù)測(cè)值代表假陽(yáng)性,而(圓括號(hào))真實(shí)值代表兩個(gè)模型結(jié)果的假陰性。
我們提出了第一個(gè)多標(biāo)簽無(wú)人機(jī)視頻數(shù)據(jù)庫(kù):Multi-attribute ERA 數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)在原有最大事件識(shí)別航拍視頻數(shù)據(jù)集ERA 數(shù)據(jù)集[9]的基礎(chǔ)上,標(biāo)注了28 個(gè)涵蓋地面目標(biāo)、天氣和人類情緒的,有代表性的多屬性標(biāo)簽,更好地對(duì)航拍視頻進(jìn)行了描述。它質(zhì)量高、規(guī)模大、類內(nèi)差異大、類間相似度高。此外,我們?cè)O(shè)計(jì)并完成了視頻分類的多屬性學(xué)習(xí)任務(wù),即將4 個(gè)最先進(jìn)的視頻分類深度學(xué)習(xí)CNN 模型在Multi-attribute ERA 數(shù)據(jù)庫(kù)上進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明,這是一項(xiàng)可行且艱巨的任務(wù),所提出的數(shù)據(jù)集是一個(gè)新的挑戰(zhàn),可以用來(lái)開(kāi)發(fā)、優(yōu)化更好的航拍視頻理解模型。望眼未來(lái),我們可以在此數(shù)據(jù)庫(kù)基礎(chǔ)上研發(fā)專注于視頻屬性識(shí)別的深度學(xué)習(xí)模型、探索屬性和視頻類別之間的相互作用、屬性之間的相關(guān)性等,最大化本數(shù)據(jù)庫(kù)在遙感與計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用與貢獻(xiàn)。