亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多屬性學(xué)習(xí)的航拍視頻理解

        2022-03-09 01:50:42劉欣宜
        關(guān)鍵詞:航拍標簽卷積

        劉欣宜

        (武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079)

        幾十年前,無人機僅僅在科幻小說或有關(guān)未來的概念中出現(xiàn)。如今,無人機已經(jīng)逐漸并迅速成為我們?nèi)粘I畹囊徊糠帧8鶕?jù)美國聯(lián)邦航空管理局的統(tǒng)計數(shù)據(jù),僅在美國,已注冊的民用無人機數(shù)量已從2015 年的14 萬架攀升至2020 年的114 萬架[1]。

        毋庸置疑,與衛(wèi)星相比,大批量無人機投入使用不僅可以促進實現(xiàn)低成本訪問實時、高分辨率的視頻,還可以輔助完成各類應(yīng)用,例如災(zāi)后破壞程度估算、精準農(nóng)業(yè)流程優(yōu)化、野生動物保護監(jiān)測等。也正因如此,如何更好地發(fā)展基于深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)的自動化視頻解譯方法,現(xiàn)如今是遙感與計算機科學(xué)領(lǐng)域的研究熱點之一。

        1 航拍視頻理解

        廣義的視頻理解是一個綜合性任務(wù),它包含了場景或環(huán)境、物體、行為、事件及各種屬性在內(nèi)的多種語義識別。航拍視頻理解通常可以通過執(zhí)行各種計算機視覺任務(wù)來實現(xiàn),比如視頻分類、目標檢測和目標跟蹤等任務(wù)。

        圖像中包含的信息被稱為空間信息。對于視頻數(shù)據(jù),除此之外,多個視頻幀之間還存在時間信息。也就是說,視頻可以提供時空信息。深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)具有從圖像中學(xué)習(xí)有效視覺表征的超強能力。同樣的,對于視頻數(shù)據(jù),深度卷積神經(jīng)網(wǎng)絡(luò)也能夠通過其時空信息,來實現(xiàn)視頻理解。

        現(xiàn)有的視頻理解CNNs 可以被分為兩類,即主要使用三維卷積或二維卷積來學(xué)習(xí)全局時空表征。三維CNN 方法運用具有時間維度的三維卷積來提取全局時空特征,經(jīng)典的網(wǎng)絡(luò)包括C3D[2],I3D[3],P3D[4]等。對于二維CNN 方法,二維卷積被應(yīng)用于每一幀視頻以提取空間特征,而幀之間的時間信息通過一個附加模塊來捕捉。代表性二維CNN 方法包括TRN[5]。

        在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練離不開大量數(shù)據(jù)。對于航拍視頻理解任務(wù)來說,實驗數(shù)據(jù)的標注、描述方法對最終網(wǎng)絡(luò)時空特征提取能力的提升至關(guān)重要。

        當下,絕大多數(shù)航拍視頻數(shù)據(jù)集都是單標簽標注的,即通過給每個實例一個分類標簽來描述視覺現(xiàn)象(活動、事件或動作等)。包括關(guān)于人- 人,人- 物體間關(guān)系的UCLA 空中事件數(shù)據(jù)集[6]、關(guān)于人類動作的Okutama-Action 數(shù)據(jù)集[7]、關(guān)于緊急事件響應(yīng)的AIDER 數(shù)據(jù)集[8],和由2864 個時長5 秒、來源于YouTube 網(wǎng)站(https://www.youtube.com/)、分屬于25個事件類別的無人機航拍視頻數(shù)據(jù)集ERA Dataset[9]。注意到該ERA 數(shù)據(jù)集規(guī)模較廣、視頻內(nèi)容多樣化,可以作為航拍視頻深度學(xué)習(xí)領(lǐng)域的一個基準,具有進一步標注、開發(fā)、豐富的潛力。

        高級別的表達包括基于類別的表達和基于屬性的表達,因此,對于視角廣、信息量大的航拍視頻而言,僅僅賦予視頻一個類別單標簽是遠遠不夠的。為了更全面地描述、感知視頻中關(guān)于地面物體、場景特征及人類觀看感受的信息,基于屬性的多標簽標注和在此基礎(chǔ)上開展多屬性學(xué)習(xí)是不可忽視、亟待解決的一項研究任務(wù)。注意到當下基于多屬性的航拍視頻數(shù)據(jù)集還是一片空白,相關(guān)的基于CNN 的視頻理解方法就更加有限,相關(guān)領(lǐng)域研究人員也因此還需要做出進一步的努力。

        2 Multi-Attribute ERA 數(shù)據(jù)庫

        通過對現(xiàn)有無人機視頻數(shù)據(jù)集進行調(diào)查,我們發(fā)現(xiàn)ERA 數(shù)據(jù)集[9]具有進一步被標注的潛力,因此我們采用對ERA 數(shù)據(jù)集進行標注的方式來用較低成本建立第一個高質(zhì)量的多屬性無人機視頻數(shù)據(jù)庫Multi-Attribute ERA 數(shù)據(jù)庫。整個創(chuàng)建過程包括屬性集合的確定、標注與質(zhì)量檢測。此外,本章還對Multi-Attribute ERA 數(shù)據(jù)庫進行了包括數(shù)據(jù)統(tǒng)計、數(shù)據(jù)庫特性與挑戰(zhàn)在內(nèi)的進一步介紹。

        2.1 設(shè)計多屬性標簽集合

        為了找到合適的多屬性標簽集合,我們遵循兩個原則:原則一為場景分類法,意在找出每個場景對應(yīng)的目標屬性。首先,我們將ERA 數(shù)據(jù)集中的25 個事件類標簽(震后、賽車、打籃球、洪水、山體滑坡、耕作等)歸為如圖1 所示的四大場景類,其中居民區(qū)場景可以細分為三個次類。每個類、次類對應(yīng)的比較普適的目標屬性包括:樓房、人、車輛、停車場、運動場、賽車道、山、泥石流、田地、自然水域和游泳池。然后,回歸到ERA 數(shù)據(jù)集的25 個事件類中,我們找到對應(yīng)事件類的特定目標屬性:條幅/標語牌,旗幟,自行車,船,塔吊,耕作機,火焰/煙霧,收割機,舞臺,水炮。

        圖1 將ERA 數(shù)據(jù)集[9]中的事件標簽按場景歸類

        由于人工智能的目標是像人類一樣感知視頻內(nèi)容,原則二為人類對視頻的描述。當人類觀看視頻時,不可避免會產(chǎn)生對視頻的情感,同時還會注意到視頻中發(fā)生的活動、天氣等屬性。由于ERA 數(shù)據(jù)集本身已經(jīng)有了活動標簽,這里我們選擇天氣和情感兩個屬性類。結(jié)合ERA 數(shù)據(jù)集的內(nèi)容,最后確定下來的對應(yīng)屬性有:天氣:夜晚;情感:競爭性,擁擠,危險,快樂,壓力,緊張。

        至此,我們得到了涵蓋地面目標、天氣情況、人類情感在內(nèi)的Multi-attribute ERA 數(shù)據(jù)集的全部屬性標簽,共有28個。

        2.2 建立Multi-attribute ERA 數(shù)據(jù)庫

        Multi-attribute ERA 數(shù)據(jù)庫的標注工作是在我們?yōu)槠湓O(shè)計的MATLAB 視頻數(shù)據(jù)多標簽標注平臺上完成的。為了保證數(shù)據(jù)集的完整性與準確性,我們還制定并施行了包括標注中準則、標注后檢查在內(nèi)的質(zhì)量控制流程。

        標注中準則包括參考人對視頻內(nèi)容的理解、參考視頻片段的源視頻和參考屬性的字面定義三項。標注過程中,無法通過準則進行決策的數(shù)據(jù)記錄在了標準日志上。整個標注階段完成后,由4 名標注員對不明確的項目進行檢查、討論并調(diào)整。

        2.3 數(shù)據(jù)庫描述

        Multi-attribute ERA 數(shù)據(jù)庫非常適合多屬性視頻分類的任務(wù)。它包含28 個有代表性的屬性,每個視頻數(shù)據(jù)有0 到11 個屬性標簽。而對于每個標簽,樣本數(shù)從82 到1887 不等,總共有2864 個樣本。我們給出一些典型示例及其多屬性標簽如圖2。Multi-attribute ERA 數(shù)據(jù)庫的數(shù)據(jù)分布非常不平衡(如圖3 所示)、數(shù)據(jù)集規(guī)模不大、類間相似度大、類內(nèi)差異大,為訓(xùn)練航拍視頻理解算法帶來了挑戰(zhàn)。

        圖2 事件類視頻示例的中間幀及其在Multi-Attribute ERA 數(shù)據(jù)庫中對應(yīng)的多屬性標簽

        3 實驗與分析

        在創(chuàng)建Multi-attribute ERA 數(shù)據(jù)集的基礎(chǔ)上,我們設(shè)計并完成了第一個多屬性航拍視頻理解的任務(wù),即多標簽食品分類。在這個實驗中,4 個當下最有代表性的、先進的CNN視頻分類模型在所提出的Multi-attribute ERA 數(shù)據(jù)集上進行了評估。

        3.1 視頻分類基線網(wǎng)絡(luò)模型

        本實驗所選擇的四個基線網(wǎng)絡(luò)為C3D[2],I3D[3],P3D[4]和TRN[5]。由于是多標簽分類任務(wù),網(wǎng)絡(luò)的分類層激活函數(shù)為Sigmoid 函數(shù)。

        3.2 評價指標

        對于視頻多標簽分類任務(wù),我們將主要評價指標設(shè)定為平均F1值、平均F2值,此外,參考指標還有基于實例平均精度pe、召回率re、基于標簽的平均精度pl、召回率rl。計算方法如下所示并取均值:

        3.3 實驗結(jié)果與分析

        如表1 所示,就平均F1值、平均F2值來看,模型TRN-Inception-v3表現(xiàn)最好,分別為67.27%和67.57%。這可能是因為它的結(jié)構(gòu)是一個帶有時間推理模塊的二維CNN,可以在捕捉時間信息的同時有效提取足夠的空間特征。就平均精度而言,模型P3D-Resnet-199的表現(xiàn)最佳,基于實例、標簽的平均精度分別為73.73%和67.88%。

        表1 在Multi-Attribute ERA 上進行基線實驗的定量結(jié)果(\%)。最佳結(jié)果用粗體表示

        圖4 展示了以上兩個網(wǎng)絡(luò)的預(yù)測結(jié)果示例。很明顯,大部分樣本的主要屬性被成功預(yù)測,模型TRN -Inception-v3和P3D-Resnet-199已經(jīng)顯示出它們在學(xué)習(xí)航拍視頻的各種屬性方面的出色能力。與此同時,注意到夜間場景視頻的預(yù)測值假陰性比例較高,屬于比較有挑戰(zhàn)性的樣本。

        圖4 TRN - Inception-v3 和P3D- Resnet-199 在多Multi Attribute ERA 數(shù)據(jù)庫上的多屬性視頻分類實驗結(jié)果(預(yù)測值)及真實值示例。圖示為對應(yīng)視頻第一幀與最后一幀。[方括號]的預(yù)測值代表假陽性,而(圓括號)真實值代表兩個模型結(jié)果的假陰性。

        4 結(jié)論

        我們提出了第一個多標簽無人機視頻數(shù)據(jù)庫:Multi-attribute ERA 數(shù)據(jù)庫。該數(shù)據(jù)庫在原有最大事件識別航拍視頻數(shù)據(jù)集ERA 數(shù)據(jù)集[9]的基礎(chǔ)上,標注了28 個涵蓋地面目標、天氣和人類情緒的,有代表性的多屬性標簽,更好地對航拍視頻進行了描述。它質(zhì)量高、規(guī)模大、類內(nèi)差異大、類間相似度高。此外,我們設(shè)計并完成了視頻分類的多屬性學(xué)習(xí)任務(wù),即將4 個最先進的視頻分類深度學(xué)習(xí)CNN 模型在Multi-attribute ERA 數(shù)據(jù)庫上進行了評估。實驗結(jié)果表明,這是一項可行且艱巨的任務(wù),所提出的數(shù)據(jù)集是一個新的挑戰(zhàn),可以用來開發(fā)、優(yōu)化更好的航拍視頻理解模型。望眼未來,我們可以在此數(shù)據(jù)庫基礎(chǔ)上研發(fā)專注于視頻屬性識別的深度學(xué)習(xí)模型、探索屬性和視頻類別之間的相互作用、屬性之間的相關(guān)性等,最大化本數(shù)據(jù)庫在遙感與計算機視覺領(lǐng)域的應(yīng)用與貢獻。

        猜你喜歡
        航拍標簽卷積
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        航拍下的苗圃與農(nóng)場
        中外文摘(2021年10期)2021-05-31 12:10:40
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        難忘的航拍
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于傅里葉域卷積表示的目標跟蹤算法
        《航拍中國》美得讓人想哭
        陜西畫報航拍
        陜西畫報(2017年1期)2017-02-11 05:49:48
        標簽化傷害了誰
        国产精品熟女视频一区二区| av网站在线观看二区| 全国一区二区三区女厕偷拍| 中国免费看的片| 亚洲一区二区三区中文字幂| 亚洲成人777| 一区二区亚洲 av免费| 猫咪www免费人成网最新网站| 欧美精品久久久久久三级| 日韩在线视频不卡一区二区三区 | 日本丰满熟妇videossex一| 狼人青草久久网伊人| 久久人人97超碰超国产| 欧美人妻日韩精品| 久热香蕉av在线爽青青| 中文字幕一区二区三区四区久久| 美女下蹲露大唇无遮挡| 免费无码一区二区三区蜜桃| 精品无码人妻一区二区三区品| 亚洲aⅴ无码日韩av无码网站| 中文字幕一区二区三区喷水| 青青草 视频在线观看| 国产亚洲美女精品久久久2020| 国产乱子伦一区二区三区| 在线亚洲AV成人无码一区小说| 精品国产一品二品三品| 国产亚洲av看码精品永久| 国产精品欧美一区二区三区不卡| 久久99精品国产99久久6男男 | 四虎影库久免费视频| 乱人伦人妻中文字幕不卡| 青青草手机免费播放视频| 国产不卡视频一区二区三区 | 中文字幕精品久久天堂一区 | 久久亚洲国产成人精品v| 在线观看的a站免费完整版| 欲女在线一区二区三区| 无码不卡av东京热毛片| 亚洲中文字幕在线爆乳| 人妻少妇精品一区二区三区| 日韩黄色大片免费网站|