劉欣宜
(武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079)
幾十年前,無人機僅僅在科幻小說或有關(guān)未來的概念中出現(xiàn)。如今,無人機已經(jīng)逐漸并迅速成為我們?nèi)粘I畹囊徊糠帧8鶕?jù)美國聯(lián)邦航空管理局的統(tǒng)計數(shù)據(jù),僅在美國,已注冊的民用無人機數(shù)量已從2015 年的14 萬架攀升至2020 年的114 萬架[1]。
毋庸置疑,與衛(wèi)星相比,大批量無人機投入使用不僅可以促進實現(xiàn)低成本訪問實時、高分辨率的視頻,還可以輔助完成各類應(yīng)用,例如災(zāi)后破壞程度估算、精準農(nóng)業(yè)流程優(yōu)化、野生動物保護監(jiān)測等。也正因如此,如何更好地發(fā)展基于深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)的自動化視頻解譯方法,現(xiàn)如今是遙感與計算機科學(xué)領(lǐng)域的研究熱點之一。
廣義的視頻理解是一個綜合性任務(wù),它包含了場景或環(huán)境、物體、行為、事件及各種屬性在內(nèi)的多種語義識別。航拍視頻理解通常可以通過執(zhí)行各種計算機視覺任務(wù)來實現(xiàn),比如視頻分類、目標檢測和目標跟蹤等任務(wù)。
圖像中包含的信息被稱為空間信息。對于視頻數(shù)據(jù),除此之外,多個視頻幀之間還存在時間信息。也就是說,視頻可以提供時空信息。深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)具有從圖像中學(xué)習(xí)有效視覺表征的超強能力。同樣的,對于視頻數(shù)據(jù),深度卷積神經(jīng)網(wǎng)絡(luò)也能夠通過其時空信息,來實現(xiàn)視頻理解。
現(xiàn)有的視頻理解CNNs 可以被分為兩類,即主要使用三維卷積或二維卷積來學(xué)習(xí)全局時空表征。三維CNN 方法運用具有時間維度的三維卷積來提取全局時空特征,經(jīng)典的網(wǎng)絡(luò)包括C3D[2],I3D[3],P3D[4]等。對于二維CNN 方法,二維卷積被應(yīng)用于每一幀視頻以提取空間特征,而幀之間的時間信息通過一個附加模塊來捕捉。代表性二維CNN 方法包括TRN[5]。
在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練離不開大量數(shù)據(jù)。對于航拍視頻理解任務(wù)來說,實驗數(shù)據(jù)的標注、描述方法對最終網(wǎng)絡(luò)時空特征提取能力的提升至關(guān)重要。
當下,絕大多數(shù)航拍視頻數(shù)據(jù)集都是單標簽標注的,即通過給每個實例一個分類標簽來描述視覺現(xiàn)象(活動、事件或動作等)。包括關(guān)于人- 人,人- 物體間關(guān)系的UCLA 空中事件數(shù)據(jù)集[6]、關(guān)于人類動作的Okutama-Action 數(shù)據(jù)集[7]、關(guān)于緊急事件響應(yīng)的AIDER 數(shù)據(jù)集[8],和由2864 個時長5 秒、來源于YouTube 網(wǎng)站(https://www.youtube.com/)、分屬于25個事件類別的無人機航拍視頻數(shù)據(jù)集ERA Dataset[9]。注意到該ERA 數(shù)據(jù)集規(guī)模較廣、視頻內(nèi)容多樣化,可以作為航拍視頻深度學(xué)習(xí)領(lǐng)域的一個基準,具有進一步標注、開發(fā)、豐富的潛力。
高級別的表達包括基于類別的表達和基于屬性的表達,因此,對于視角廣、信息量大的航拍視頻而言,僅僅賦予視頻一個類別單標簽是遠遠不夠的。為了更全面地描述、感知視頻中關(guān)于地面物體、場景特征及人類觀看感受的信息,基于屬性的多標簽標注和在此基礎(chǔ)上開展多屬性學(xué)習(xí)是不可忽視、亟待解決的一項研究任務(wù)。注意到當下基于多屬性的航拍視頻數(shù)據(jù)集還是一片空白,相關(guān)的基于CNN 的視頻理解方法就更加有限,相關(guān)領(lǐng)域研究人員也因此還需要做出進一步的努力。
通過對現(xiàn)有無人機視頻數(shù)據(jù)集進行調(diào)查,我們發(fā)現(xiàn)ERA 數(shù)據(jù)集[9]具有進一步被標注的潛力,因此我們采用對ERA 數(shù)據(jù)集進行標注的方式來用較低成本建立第一個高質(zhì)量的多屬性無人機視頻數(shù)據(jù)庫Multi-Attribute ERA 數(shù)據(jù)庫。整個創(chuàng)建過程包括屬性集合的確定、標注與質(zhì)量檢測。此外,本章還對Multi-Attribute ERA 數(shù)據(jù)庫進行了包括數(shù)據(jù)統(tǒng)計、數(shù)據(jù)庫特性與挑戰(zhàn)在內(nèi)的進一步介紹。
為了找到合適的多屬性標簽集合,我們遵循兩個原則:原則一為場景分類法,意在找出每個場景對應(yīng)的目標屬性。首先,我們將ERA 數(shù)據(jù)集中的25 個事件類標簽(震后、賽車、打籃球、洪水、山體滑坡、耕作等)歸為如圖1 所示的四大場景類,其中居民區(qū)場景可以細分為三個次類。每個類、次類對應(yīng)的比較普適的目標屬性包括:樓房、人、車輛、停車場、運動場、賽車道、山、泥石流、田地、自然水域和游泳池。然后,回歸到ERA 數(shù)據(jù)集的25 個事件類中,我們找到對應(yīng)事件類的特定目標屬性:條幅/標語牌,旗幟,自行車,船,塔吊,耕作機,火焰/煙霧,收割機,舞臺,水炮。
圖1 將ERA 數(shù)據(jù)集[9]中的事件標簽按場景歸類
由于人工智能的目標是像人類一樣感知視頻內(nèi)容,原則二為人類對視頻的描述。當人類觀看視頻時,不可避免會產(chǎn)生對視頻的情感,同時還會注意到視頻中發(fā)生的活動、天氣等屬性。由于ERA 數(shù)據(jù)集本身已經(jīng)有了活動標簽,這里我們選擇天氣和情感兩個屬性類。結(jié)合ERA 數(shù)據(jù)集的內(nèi)容,最后確定下來的對應(yīng)屬性有:天氣:夜晚;情感:競爭性,擁擠,危險,快樂,壓力,緊張。
至此,我們得到了涵蓋地面目標、天氣情況、人類情感在內(nèi)的Multi-attribute ERA 數(shù)據(jù)集的全部屬性標簽,共有28個。
Multi-attribute ERA 數(shù)據(jù)庫的標注工作是在我們?yōu)槠湓O(shè)計的MATLAB 視頻數(shù)據(jù)多標簽標注平臺上完成的。為了保證數(shù)據(jù)集的完整性與準確性,我們還制定并施行了包括標注中準則、標注后檢查在內(nèi)的質(zhì)量控制流程。
標注中準則包括參考人對視頻內(nèi)容的理解、參考視頻片段的源視頻和參考屬性的字面定義三項。標注過程中,無法通過準則進行決策的數(shù)據(jù)記錄在了標準日志上。整個標注階段完成后,由4 名標注員對不明確的項目進行檢查、討論并調(diào)整。
Multi-attribute ERA 數(shù)據(jù)庫非常適合多屬性視頻分類的任務(wù)。它包含28 個有代表性的屬性,每個視頻數(shù)據(jù)有0 到11 個屬性標簽。而對于每個標簽,樣本數(shù)從82 到1887 不等,總共有2864 個樣本。我們給出一些典型示例及其多屬性標簽如圖2。Multi-attribute ERA 數(shù)據(jù)庫的數(shù)據(jù)分布非常不平衡(如圖3 所示)、數(shù)據(jù)集規(guī)模不大、類間相似度大、類內(nèi)差異大,為訓(xùn)練航拍視頻理解算法帶來了挑戰(zhàn)。
圖2 事件類視頻示例的中間幀及其在Multi-Attribute ERA 數(shù)據(jù)庫中對應(yīng)的多屬性標簽
在創(chuàng)建Multi-attribute ERA 數(shù)據(jù)集的基礎(chǔ)上,我們設(shè)計并完成了第一個多屬性航拍視頻理解的任務(wù),即多標簽食品分類。在這個實驗中,4 個當下最有代表性的、先進的CNN視頻分類模型在所提出的Multi-attribute ERA 數(shù)據(jù)集上進行了評估。
本實驗所選擇的四個基線網(wǎng)絡(luò)為C3D[2],I3D[3],P3D[4]和TRN[5]。由于是多標簽分類任務(wù),網(wǎng)絡(luò)的分類層激活函數(shù)為Sigmoid 函數(shù)。
對于視頻多標簽分類任務(wù),我們將主要評價指標設(shè)定為平均F1值、平均F2值,此外,參考指標還有基于實例平均精度pe、召回率re、基于標簽的平均精度pl、召回率rl。計算方法如下所示并取均值:
如表1 所示,就平均F1值、平均F2值來看,模型TRN-Inception-v3表現(xiàn)最好,分別為67.27%和67.57%。這可能是因為它的結(jié)構(gòu)是一個帶有時間推理模塊的二維CNN,可以在捕捉時間信息的同時有效提取足夠的空間特征。就平均精度而言,模型P3D-Resnet-199的表現(xiàn)最佳,基于實例、標簽的平均精度分別為73.73%和67.88%。
表1 在Multi-Attribute ERA 上進行基線實驗的定量結(jié)果(\%)。最佳結(jié)果用粗體表示
圖4 展示了以上兩個網(wǎng)絡(luò)的預(yù)測結(jié)果示例。很明顯,大部分樣本的主要屬性被成功預(yù)測,模型TRN -Inception-v3和P3D-Resnet-199已經(jīng)顯示出它們在學(xué)習(xí)航拍視頻的各種屬性方面的出色能力。與此同時,注意到夜間場景視頻的預(yù)測值假陰性比例較高,屬于比較有挑戰(zhàn)性的樣本。
圖4 TRN - Inception-v3 和P3D- Resnet-199 在多Multi Attribute ERA 數(shù)據(jù)庫上的多屬性視頻分類實驗結(jié)果(預(yù)測值)及真實值示例。圖示為對應(yīng)視頻第一幀與最后一幀。[方括號]的預(yù)測值代表假陽性,而(圓括號)真實值代表兩個模型結(jié)果的假陰性。
我們提出了第一個多標簽無人機視頻數(shù)據(jù)庫:Multi-attribute ERA 數(shù)據(jù)庫。該數(shù)據(jù)庫在原有最大事件識別航拍視頻數(shù)據(jù)集ERA 數(shù)據(jù)集[9]的基礎(chǔ)上,標注了28 個涵蓋地面目標、天氣和人類情緒的,有代表性的多屬性標簽,更好地對航拍視頻進行了描述。它質(zhì)量高、規(guī)模大、類內(nèi)差異大、類間相似度高。此外,我們設(shè)計并完成了視頻分類的多屬性學(xué)習(xí)任務(wù),即將4 個最先進的視頻分類深度學(xué)習(xí)CNN 模型在Multi-attribute ERA 數(shù)據(jù)庫上進行了評估。實驗結(jié)果表明,這是一項可行且艱巨的任務(wù),所提出的數(shù)據(jù)集是一個新的挑戰(zhàn),可以用來開發(fā)、優(yōu)化更好的航拍視頻理解模型。望眼未來,我們可以在此數(shù)據(jù)庫基礎(chǔ)上研發(fā)專注于視頻屬性識別的深度學(xué)習(xí)模型、探索屬性和視頻類別之間的相互作用、屬性之間的相關(guān)性等,最大化本數(shù)據(jù)庫在遙感與計算機視覺領(lǐng)域的應(yīng)用與貢獻。