亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        視覺場景描述及其效果評價*

        2019-05-20 06:56:04王伯龍
        軟件學報 2019年4期
        關鍵詞:語句語義模態(tài)

        馬 苗,王伯龍,吳 琦,武 杰,郭 敏

        1(現代教學技術教育部重點實驗室(陜西師范大學),陜西 西安 710062)

        2(陜西師范大學 計算機科學學院,陜西 西安 710119)

        3(School of Computer Science,The University of Adelaide,Adelaide SA5005,Australia)

        視覺場景描述技術通過對輸入圖像或視頻的內容分析,自動生成一個語句或若干語句的形式對視覺場景中的內容進行描述,屬于計算機視覺、多媒體、人工智能和自然語言處理等領域的交叉性研究課題.視覺場景描述問題可歸結為視覺語義理解、多媒體語義學習、場景理解等領域中的子問題,其歷史可追溯到多模態(tài)檢索、跨模態(tài)學習等問題的研究.

        近年來,得益于深度學習相關模型、方法的突破性進展和大樣本數據集的出現,尤其是隨著 MS COCO、Flickr等基準數據集的出現和深度學習框架下卷積神經網絡(convolution neural network,簡稱CNN)、循環(huán)神經網絡(recurrent neural network,簡稱RNN)、長短時記憶網絡(long short-term memory,簡稱LSTM)等深度網絡模型研究的日益成熟,視覺場景描述技術再度掀起研究高潮,并正在變?yōu)楝F實.然而,由于視覺場景中呈現內容的豐富性和自然語言表達的形式多樣性,使得視覺場景描述成為一項復雜而富于變化的挑戰(zhàn)性任務.

        視覺場景描述問題在業(yè)界和學術界均引起了高度重視,國內外相關研究機構包括Google實驗室、Baidu研究院、微軟研究院、中國科學院、斯坦福大學、伯克利大學、加利福尼亞大學等.在國際知名的學術論文圖書館ACM、IEEE、Elsevier、Springer和國內外學術論文搜索引擎Google Scholar和百度學術中,以“image description、video description、image captioning或video captioning”等為關鍵字,檢索論文,其結果表明:近年來,與視覺場景描述有關的學術論文發(fā)表數量一直呈增長趨勢,反映最新成果的一系列論文在許多知名國際會議中如雨后春筍般產生.例如,“計算機視覺與模式識別國際會議(IEEE Conf. on Computer Vision and Pattern Recognition,簡稱CVPR)”[1-22]、“計算機視覺國際會議(IEEE Int’l Conf. on Computer Vision,簡稱 ICCV)”[23-33]、“歐洲計算機視覺會議(European Conf. on Computer Vision,簡稱 ECCV)”[34-40]、“神經信息處理系統(tǒng)國際會議(Int’l Conf. on Neural Information Processing Systems,簡稱 NIPS)”[41-49]和“自然語言處理國際會議(Int’l Joint Conf. on Natural Language Processing,簡稱 NLP)”[50,51]等.

        圖1所示為近年來關于“視覺場景描述”在計算機視覺領域中三大會議上論文發(fā)表數量的統(tǒng)計圖,直觀地展現了該技術的研究趨勢.這些研究成果不僅推動了計算機視覺、自然語言處理等相關學科的融合發(fā)展,而且展現了其在視覺信息相關的跨模態(tài)檢索、智能監(jiān)控、海量數據壓縮、幫助視覺障礙人士感知與理解周圍環(huán)境等眾多領域的潛在應用.

        Fig.1 Papers on visual scene description published in the proceedings of three top conferences圖1 三大頂級會議關于“視覺場景描述”論文的發(fā)表情況

        本文綜述視覺場景描述及其效果評價的研究現狀和進展.具體來說,第 1節(jié)論述視覺場景描述的定義、研究任務,簡要分析視覺場景描述與跨模態(tài)學習、場景理解等相關技術的關系.第 2節(jié)分類總結視覺場景描述的主要方法、模型及研究成果.第 3節(jié)整理可用于圖像描述和視頻描述研究與競技的基準數據集.第 4節(jié)討論客觀評價視覺場景描述效果的主要指標、方法和存在的問題.最后,第5節(jié)展望視覺場景描述的應用前景.

        1 視覺場景描述

        1.1 定義與研究內容

        視覺場景描述是指用計算機視覺技術模擬人眼觀察到一幅靜態(tài)圖像或觀看了一段視頻片段后,用自然語言的形式描述觀察到的視覺場景內容的方法與技術.由于視覺場景主要源于圖像和視頻,故視覺場景描述的研究主要針對圖像和視頻兩類輸入信息展開.前者用自然語言形式的文本語句描述圖像的場景內容,稱為圖像字幕(image captioning)或圖像描述(image description);后者用自然語言形式的文本語句描述視頻片段提供的場景內容,稱為視頻字幕(video captioning)或視頻描述(video description).

        視覺場景描述的研究任務是自動生成一個或多個句子來描述輸入圖像或視頻中呈現的視覺場景內容,最終目標是用自然語言準確、快速、詳細地重述人眼可以觀察到的場景,內容涉及場景中存在的目標檢測、跟蹤(如所在區(qū)域、目標屬性、目標狀態(tài))及各目標或相應事件之間關系的生成與表達等.

        圖2所示的3個例子給出了通過視覺場景描述技術自動生成自然語言形式描述1幅圖像和2段視頻片段內容的語句.

        Fig.2 Examples of visual scene description圖2 視覺場景描述的一組例子

        獲得理想視覺場景描述效果的前提是計算機具有和人類類似的視覺感知能力,能夠對靜態(tài)或動態(tài)的場景進行感知、分析和理解,并能得出符合人類習慣的語義描述.因此,從這個角度來看,視覺場景描述是場景語義分析和視覺場景理解任務的重要組成部分,也是對場景語義理解和分析結果的進一步呈現方式之一.

        1.2 相關技術

        鑒于視覺場景描述技術的多學科交叉性質,下面我們分別簡要論述與之密切相關的多模態(tài)檢索、跨模態(tài)學習、場景理解、場景分類、場景解析、視覺關系檢測、場景圖生成、視覺問答、指示表達生成等技術.

        (1) 多模態(tài)檢索、跨模態(tài)檢索和跨模態(tài)學習

        模態(tài)是指數據的存在形式.現實世界中,人們可以用文本、音頻、圖像、視頻等不同模態(tài)的數據描述同一對象或事件,得到同步數據.因此,計算機也可以利用這些同步數據學習同一對象或事件的視覺、聲音或文本等不同模態(tài)的特征.

        多模態(tài)檢索(multimodal retrieval):這是指融合不同模態(tài)的檢索方法和技術.其特點在于,它不對各模態(tài)信息間的關系建模.查詢和待檢索的文檔不止包含1個模態(tài),但至少有1個模態(tài)是相同的.顯然,對多媒體數據進行多模態(tài)檢索可有效提高單模態(tài)檢索的準確度[53].

        跨模態(tài)檢索(cross-modal retrieval):這是指通過尋找不同模態(tài)樣本之間的關系,實現利用某一種模態(tài)樣本搜索近似語義的其他模態(tài)樣本的方法和技術.其特點在于,檢索結果的模態(tài)和查詢的模態(tài)不同.例如用圖像檢索文本、視頻或音頻,其關鍵在于對不同模態(tài)的關系進行建模,難點在于需要跨越不同模態(tài)間的語義鴻溝[54].

        跨模態(tài)學習(cross-modal learning):這是指通過對已有多模態(tài)訓練樣本的學習,努力學習到無標記數據的單一模態(tài)的更好表示的方法和技術.其特點在于,多模態(tài)數據僅在特征學習期間可用,在監(jiān)督訓練和測試階段,只有單一模態(tài)數據可用.

        視覺場景描述可看作是一種跨模態(tài)學習,即通過大樣本視覺場景及其對應的文本形式的描述語句的學習,掌握如何用自然語言去描述未標記的場景內容,包括場景中的對象、對象屬性或狀態(tài),以及對象之間的關系.在此基礎上,可以完成跨模態(tài)檢索、視覺問答等更高級的場景分析及理解任務.

        (2) 場景理解、場景識別/分類、場景解析[55-59]

        場景理解(scene understanding):這是指以圖像及視頻為研究對象,分析什么場景(場景分類或場景識別)、場景中有什么目標(目標檢測、目標識別、場景解析)、目標之間的相互關系(場景圖、視覺關系)以及如何表達場景(場景描述)的方法和技術.該領域中的大規(guī)模場景理解挑戰(zhàn)賽 LSUN(large-scale scene understanding)主要聚焦于場景分類、顯著預測、房間布置估計和字幕生成這4類任務.

        場景識別(visual place recognition或scene recognition):這是指將一幅圖像或一段視頻片段中的場景標記為不同類別的方法和技術.若事先給出待識別場景的類別標簽,則場景識別問題可歸結為一個分類問題,即場景分類(scene classification)[55-59].

        場景解析(scene parsing):這是指對場景圖像進行分割,并進一步解析為與語義類別相關的不同區(qū)域的方法和技術.其特點在于,它預測場景中每個像素的類別標簽、位置以及形狀,提供了對場景的完全理解,是自動駕駛、機器人感知等應用的前提和基礎.

        顯然,場景理解涵蓋了場景識別、場景解析與場景描述.場景識別與場景解析的結果可以作為場景描述的基礎和前提,而場景描述是場景理解、場景識別和場景解析的一種自然語言形式的表達和呈現.

        (3) 視覺關系檢測、場景圖生成和指示表達生成

        視覺關系檢測(visual relation detection):這是指將對象置于一個上下文語義環(huán)境中,研究如何提取不同對象的位置和對象間的空間邏輯關系等內容的方法和技術.不同于視覺內容與自然語言之間的關系,視覺關系檢測研究的是各對象之間交互的直接關系,可以為圖像注釋、問答系統(tǒng)等應用提供深層語義信息[60].

        視覺問答(visual question and answer)[26-29,34,41,61]:這是指讓計算機根據輸入的圖像(視頻)和問題,研究如何輸出符合人類表達習慣且內容合理的答案的方法和技術.目前,該研究多集中在看圖問答方面,相關技術涉及目標識別、行為識別和問題解析等.

        場景圖生成(scene graphs generation):這是指通過顯式建模對象、對象屬性和對象之間的關系來捕獲視覺場景的詳細語義的方法和技術.該技術可以為視覺場景描述和視覺問答等應用提供深層次的語義信息,有助于發(fā)現和利用場景中各對象之間的關系[62].

        指示表達生成(referring expression generation)[63,64]:這是指研究如何明確、清晰地描述特定對象的方法和技術.該技術常使用屬性來描述特定對象,進而能夠在給定的上下文中輔助識別相應對象.理解和生成是與指示表達相關的兩個任務:理解任務要求系統(tǒng)選擇給定表達所描述的對象;生成任務是為圖像內的指定對象生成表達.

        從場景內容分析角度,視覺關系檢測、視覺場景圖和指示表達生成的相關研究致力于場景中存在的對象、關系及屬性、狀態(tài),因此,其研究結論均可引入到場景描述中來深入發(fā)掘場景構成、對象屬性與狀態(tài)等信息,這均有利于提高視覺場景描述的準確度.

        2 主要方法和研究進展

        如第 1.1節(jié)所述,按照場景載體的不同,視覺場景描述從圖像描述和視頻描述兩個維度展開.根據研究思路的不同,視覺場景描述方法可細分為基于模板的方法(template based approaches)、基于檢索的方法(retrieval based approaches)以及目前主流的基于序列學習的方法(sequence learning based approaches).根據生成語句的數目不同,視覺場景描述也可分為基于單一語句的視覺場景描述(用一句話描述場景內容)、基于多語句的視覺場景描述(用一段話去描述場景內容)和基于密集描述的視覺場景描述(以不同區(qū)域、不同對象或不同事件為單位,詳細地描述場景內容),如圖3所示.

        Fig.3 Categories of visual scene description methods圖3 視覺場景描述方法的分類

        下面以視覺場景描述的原理為主線,分別討論基于模板、檢索以及序列學習的視覺場景描述方法、原理和代表性成果.

        2.1 基于模板的場景描述方法

        該類方法預先定義生成語句的一些特定語法規(guī)則,如將句子分為主語、動詞和賓語等組成成分,然后檢測給定場景的內容、屬性,使用概率圖模型將狀態(tài)對齊到屬性,并用預定義的句子模板推導出句子結構.

        在圖像描述方面的代表性工作中,Yang等人(2011年)從Gigaword語料庫訓練的語言模型獲得動作的估計以及名詞、場景和介詞共同定位的概率,然后將其作為隱馬爾可夫模型(hidden Markov model,簡稱HMM)的參數,模擬句子生成過程[51].Mitchell等人(2012年)給出計算機視覺檢測中產生圖像描述的 Midge系統(tǒng),它過濾不可能的屬性,并將對象放置到有序的句法結構來生成場景內容的語句描述[65].Krishnamoorthy等人(2013年)利用SVO語言模型來選擇“主語、動作、對象”三元組,并生成語句[66].Kulkarni等人(2013年)通過檢測圖像中的對象和屬性及它們的介詞關系,使用條件隨機場來預測包含這些對象、修飾符和關系的最佳結構[67].Lebret等人(2015年)從圖像中預測短語,然后將它們與一個簡單的語言模型結合起來,生成關于圖像內容的場景描述[68].

        在視頻描述方面的代表性工作中,Kojima等人(2002年)引入動作的概念層次來描述人類活動[69].Rohrbach等人(2013年)采用條件隨機場(conditional random field,簡稱CRF)算法模擬對象和視覺輸入的活動之間的連接,并生成描述的語義特征[33].Guadarrama等人(2013年)定義語義層次以學習不同句子成分之間的語義關系[32].此外,Xu等人(2015年)提出了一個由語義語言模型、深度視頻模型和聯合嵌入模型組成的統(tǒng)一框架,來學習視頻和自然語句之間的關聯[70].

        顯然,基于模板的場景描述方法總是能夠在預定義的語句模板中直接生成具有檢測關鍵字且語法正確的句子,其不足在于,該類方法高度依賴于預定義的語句模板,生成語句受到固定句法結構的限制,句子描述的內容和形式失去了新穎性和靈活性.

        2.2 基于檢索的場景描述方法

        該類方法的主要思路是通過在數據庫中搜索視覺上與輸入圖像相似的圖像,并從檢索到的圖像標題中利用最近鄰法找到最佳描述語句.因此,該類方法本質上是通過從數據庫中的句子池中選擇語義最相似的句子來生成輸出圖像的視覺場景描述.

        該類方法主要出現在圖像描述應用中.Farhadi等人(2010年)使用近鄰法則選出候選的圖像描述語句,將這些語句和對應圖像映射到Meaning Space,并用Tree-F1法則進行匹配,得到5個最佳描述語句[40].Ordonez等人(2011年)提出 Web圖像字幕生成方法,該方法依賴于從互聯網收集的大量圖像數據,使用全局檢索或結合內容估計檢索這兩種策略產生新的圖像標題[49].Kuznetsova等人(2014年)提出基于樹結構的語句生成方法,其主要思想是從現有的圖像描述中收集表達短語,然后選擇性地組合所提取的片段來產生新的描述語句[71].Hodosh等人(2015年)提出基于 KCCA的基準系統(tǒng)來進行圖像描述和搜索,通過構建序列核及能夠捕獲語義相似性的核來建立圖像與文本間的聯合空間,進而描述圖像內容[72].Devlin等人(2015年)利用 CNN獲得圖像的候選詞袋,然后用k鄰近檢索模型獲得該圖像的共識描述,在COCO基準數據集上性能優(yōu)良[73].

        易知,該類方法產生的視覺場景描述語句與人工標注的描述語句在表達方式和風格上較為一致,不足在于生成效果受檢索數據庫中句子池里人工標注的樣本數量、樣本描述精細粒度以及輸出圖像與檢索圖像的相似程度的約束和影響.

        2.3 基于序列學習的場景描述方法

        基于序列學習的場景描述方法是深度網絡模型獲得突破性進展以來主流的視覺場景描述方法.“編碼器-解碼器(encoder-decoder)”框架下的“CNN(或 3D CNN)+RNN”和“CNN(或 3D CNN)+LSTM”是該類方法的常見組合.其中,RNN在傳統(tǒng)神經網絡中引入時序概念,將上一時刻的輸出作為下一時刻的輸入重新進入到網絡,可分為單向 RNN、Bi-RNN和 m-RNN;LSTM模型可視為 RNN的改進版本,又可細分為單向 LSTM 模型、雙向LSTM模型、深層結構的雙向LSTM模型以及GRU模型等[74-76].該類方法的一般過程如圖4所示.

        Fig.4 General framework of visual scene description based on sequence learning圖4 基于序列學習的視覺場景描述方法的一般框架

        在圖像描述方面的代表性工作包括:(1) 在“CNN+RNN”方法研究中,Vinyals等人(2015年)從圖像中提取特征并與人工標注語句輸入到RNN中訓練,得到圖像內容描述[20].Karpathy等人(2015年)以RCNN(regions with CNN features)為 Encoder提取圖像中各個目標區(qū)域,再以 BRNN(bidirectional recurrent neural network)作為Decoder,并參考上下文來生成語句,最終得到圖像中各個區(qū)域的描述[17].(2) 在“CNN+LSTM”方法研究中,Donahue等人(2015年)利用 LSTM 模型生成內容描述[18].Huang等人(2016年)提出具有選擇性的多通道LSTM模型,以改進局部圖像信息與生成文本語句之間的匹配效果,提升圖像描述的合理性[9].Ren等人(2017年)利用局部預測模型“政策網絡”和全局評估模型“價值網絡”共同協(xié)作生成圖像描述[2].以上方法均未考慮場景中的感興趣區(qū)域.(3) 在引入注意機制的方法研究中,Xu等人(2015年)將LSTM模型與人類視覺中的注意機制相結合,在生成對應的單詞時自動聚焦于顯著對象[77].Lu等人(2017年)引入視覺“哨兵”策略,設計自適應視覺注意模型[3].You等人(2016年)使用預生成的語義概念建議來指導描述生成,并學習在不同時刻選擇性地關注這些概念[13].Wang等人(2017年)則利用基于視覺注意機制的 CNN提取圖像特征,設計了 Skel-LSTM 模型和 Atrr-LSTM 模型,分別用來產生文本語句中的“主、謂、賓”和“定、狀、補”[4].(4) 在引入外部知識場景和屬性方法的研究中,Wu等人(2016年)用高層次的概念(屬性),顯著改進了RNN的圖像描述質量[14].該屬性進一步被You等人(2016年)用來增強圖像描述性能[13].

        在視頻描述方面的代表性工作包括:(1) 在“3D CNN+RNN”方法研究中,Socher等人(2014年)利用RNN和C3D從視頻幀序列中提取出來的三維特征進行時序上的編碼并進行建模,最后融合音頻特征完成視頻分類與單句視頻內容描述[78];為了產生更多的句子來詳細描述視頻場景中的內容,Yu等人(2016年)利用分層遞歸神經網絡結合視覺注意機制建模句子間的依賴性,從而生成視頻的多句描述[12];(2) 在“CNN+LSTM”方法研究中,Subhashini等人(2014年)利用CNN提取每個視頻幀序列特征圖并將它們進行平均池化,再利用LSTM模型生成描述語句[52].Torabi等人(2016年)用 CNN提取待描述視頻的 C3D矩陣作為視頻信息的三維特征,再通過LSTM模型生成描述語句[79];Pan等人(2017年)利用基于 COCO數據集的弱監(jiān)督多實例學習的語義檢測器,分別提取圖像和視頻的語義屬性,將整合后的語義屬性送入 LSTM-TSA網絡實現視頻場景內容的語義描述[5].同年,Zhang等人(2017年)提出任務驅動的動態(tài)融合機制來降低視頻描述中的模糊度,細化對視頻內容的刻畫程度[6];Shen等人(2017年)利用弱監(jiān)督的多事例多標記學習方法建立視頻區(qū)域與詞標注的全卷積網絡,實現視頻內容的多樣化密集描述[7].(3) 在引入事件概念的方法研究中,Krishna等人(2017年)以事件為單位,通過檢測事件、分析事件間的時序關系,建立基于事件驅動的視頻描述模型[8].在此基礎上,Wang等人(2018年)將“只利用過去上下文來進行建議預測”改進為“用雙向建議模塊編碼過去和將來的上下文”,提出雙向視覺融合的密集視頻描述方法.該方法能夠區(qū)分和描述時間上高度重疊的事件,進一步提高對視頻內容進行密集描述的能力[1].

        該類方法的特點在于,利用深度網絡模型在視覺內容和文本句子的聯合空間中學習概率分布,來生成句法結構靈活的句子,能夠提供較為準確的場景描述效果.其優(yōu)點體現在,通過“CNN+RNN”等深度網絡結構自動獲取場景內容的特征表達能力,去掉了繁雜的人工特征提取過程,屬于端到端的解決問題方式,但是該類方法依賴于大樣本基準數據集的支撐,其在應用中的性能取決于實際場景與大量樣本場景間的相似性.相似度高的場景內容描述質量高,反之,場景內容描述結果可能與實際情況不符.

        3 視覺場景描述的基準數據集

        在視覺場景描述的研究中,尤其是Encoder-Decoder框架下基于序列學習的方法及模型構建大多屬于有監(jiān)督的機器學習方法,因此離不開人工標注的基準數據集的發(fā)展.這些基準數據集不僅提供了大量的圖像和視頻等資源,而且提供了對數據集中圖像、視頻對應的人工標注語句.它們一方面供研究人員對所提出模型或方法的正確性與有效性進行檢驗,另一方面也為不同場景描述方法或模型的性能對比提供了開放的平臺.

        下面給出人工標注的產生和視覺場景描述的常用基準數據集.

        3.1 人工標注的產生

        近年來,人工智能技術被引入各類復雜應用,如語音理解、物體識別、環(huán)境感知等.然而,這些智能系統(tǒng)的構建往往需要含有標注的大量數據樣本作為訓練資源,而提供這些符合分類規(guī)則和人類認知規(guī)律的標注還不能完全由計算機生成.實際上,絕大多數圖像、視頻的標注還是人工完成的.

        隨著機器學習應用的不斷普及,人工主導、監(jiān)督學習、半監(jiān)督學習和無監(jiān)督學習的混合訓練方法將是未來人工智能系統(tǒng)的主要學習方式.這意味著越來越多的數據需要被正確標記.實際上,針對此任務,亞馬遜、蘋果、谷歌、微軟等均有自己的勞務眾包平臺或直接使用第三方服務.其中,始于 2005年的亞馬遜勞務眾包平臺(Amazon mechanical turk,簡稱AMT)是最有影響的在線勞務眾包平臺之一.目前AMT注冊工作人員累計超過50萬.這些工作人員被稱為Turker,他們通過互聯網可以全天候地完成數據標定任務.例如,在計算機視覺領域產生重要影響的ImageNet數據集中大部分標注工作是在AMT上由50 000名Turker歷時約2年完成.

        3.2 視覺場景描述的基準數據集

        目前,國際上可用于視覺場景描述研究與競技的公開基準數據集有 10余種.其中,圖像描述基準數據集包括 Pascal VOC[80]、Flickr系列[72,81,82]、MS COCO[83]、YFCC100M[84]、Visual Genome[85]和 ICC[86]等,見表 1.

        Table 1 Datasets on image captioning表1 圖像描述的基準數據集

        與之類似,現有的國際上通用的視頻描述基準數據集包括 MSVD[87]、YouCook[22]、TACoS multilevel dataset[88]、YouTube2Text[32]、MPII-MD[89]、M-VAD[90]、MSR-VTT[11]、ActivityNet Captions[8]和 YouCook2[91]等數據集,見表2.

        Table 2 Datasets on video captioning表2 視頻描述的基準數據集

        Table 2 Datasets on video captioning (Continued)表2 視頻描述的基準數據集(續(xù))

        4 視覺場景描述的效果評價

        隨著視覺場景描述生成方法及模型日漸增多和基準數據集的不斷豐富,研究人員希望能夠通過設計一些客觀指標自動判斷視覺場景描述生成的深度網絡模型及方法的有效性,由此提出了一些客觀的性能評價指標[9,19,92-105].這些指標的本質是對人工標注語句和自動生成語句的相似度比較.

        常見的客觀評價指標見表3.

        Table 3 Performance evaluation on visual scene description表3 視覺場景描述的性能評價

        4.1 基于n元組匹配的客觀評價

        早期的研究工作主要集中在基于n元組的匹配情況來評價生成語句與人工標注語句之間的相似程度.然而,由于此類方法未考慮語義信息的一致性,有時這些方法的評價結果與人類感知不符.

        (1) BLEU指標系列[92,93].包括BLEU-1、BLEU-2、BLEU-3、BLEU-4,主要思想是基于人工標注語句與生成語句之間n個連續(xù)字符的嚴格匹配情況進行評價.它的計算過程是對生成語句與人工標注語句的n元組進行比較,并計算出匹配片段的個數.這些匹配片段與它們在文字中的位置無關.匹配片段數越多,該指標取值越大,說明生成語句與人工標注語句相似度越高,場景描述效果越好.因該系列指標計算簡單,故廣泛用于機器翻譯的效果評價.不足之處在于,計算過程中人工標注語句的單詞會被重復利用,易引起評價結果出現偏差.

        (2) ROUGE指標系列[94].包括ROUGE-L、ROUGE-N、ROUGE-W和ROUGE-S[95].其中,ROUGE-L用于計算一個生成語句與一個人工標注語句之間的相似度,主要思想是對比系統(tǒng)生成語句與人工標注語句,通過統(tǒng)計二者之間基本單元的重疊數目來評價生成語句的質量;ROUGE-N用于計算一個生成語句與多個人工標注語句之間的相似度,當單一生成語句與多個人工標注語句計算評分時,ROUGE-N最終取值為生成語句與各人工標注語句ROUGE-L評分中的最高分.該指標取值越大,說明生成語句與人工標注語句相似度越高.不足在于,其計算過程只是簡單地采用人工標注語句與生成語句間的公共子序列長度進行計算,未考慮生成語句與人工標注語句之間的語句關聯度.

        (3) CIDEr-D指標[19].主要思想是將每個句子都看作“文檔”,將其表示成 TF-IDF向量的形式來計算每個n元組的權重,將句子表示成向量形式,每個人工標注語句和待評價語句之間通過TF-IDF向量的余弦距離來度量其相似性,在n元組的計算過程中同時考慮了精度與召回率,提高了以往計算指標在度量共識方面的準確性.當單一生成語句與多個人工標注語句計算評分時,CIDEr-D最終取值為生成語句與各人工標注語句 CIDEr-D評分中的最高分.該指標常用于圖像描述的語句評價,取值越大,說明生成語句與人工標注語句相似度越高.

        (4) GRAO指標[100].主要思想是先用單一性能指標對源于不同描述生成算法得到的語句給出評分,再對這些評分結果進行帶權值的灰色關聯分析,實現對各種描述生成算法的性能優(yōu)劣排序.該評價指標的特點在于把人們主觀評價時的先驗知識映射為權值,與多個客觀評價指標相結合進行綜合性能評價.不足在于,其計算結果依賴于各單一指標的取值.

        4.2 基于語義信息匹配的指標

        基于n元組匹配的度量指標在“因單詞不同而語義相同”或“句子中的n元組相同但語義不同”兩類場景描述語句評價時,結果往往與人類感知不符,難以合理地度量和反映視覺場景內容生成的形式多變的語句與內容的一致性,嚴重時可能會得到與人類感知相反的結果.為解決此類問題,研究人員提出了基于語義信息匹配的度量指標[6].

        (1) WMD指標[98].主要思想是在計算人工標注語句與生成語句的相似度時,把其中一個語句的多個單詞映射到多個隱層向量里,分別計算各單詞間的距離,再通過加上單詞的權重來計算兩個語句間的距離.該指標取值越大,說明生成語句與人工標注語句的相似度越低.

        (2) METEOR指標[96].將“準確匹配的單詞”擴展到基于WordNet同義詞庫或“Stemmed Tokens”的“語義相似單詞”,計算最佳生成語句與人工標注語句之間的精度與召回率的調和均值.當單一生成語句與多個人工標注語句計算評分時,METEOR最終取值為生成語句與各人工標注語句 METEOR評分中的最高分.該指標考慮了人工標注語句與生成語句的單詞或詞組的前后順序,但因其依賴語句間n元組的相似性,無法評估待評價語句的語義相關度.該指標取值越大,說明生成語句與人工標注語句相似度越高.

        (3) ATEC指標[97].將選擇的單詞及其語序視為句子表達中的兩個關鍵要素,根據多匹配模板和單詞信息量化評價選擇的單詞,通過對單詞的位置距離及詞序的差異性評價單詞的語序,并通過訓練的方式來確定兩者的最佳權重.該指標取值越大,說明生成語句與人工標注語句相似度越高.

        (4) SPICE指標[99].考慮了同義詞現象,并運用WordNet模塊的Synset功能來進行同義詞合并與匹配.該指標計算語句間的單詞相似度,也參考了語句間的關聯度,與人類判斷有很好的相關性,其不足在于未參考句子的句法結構,仍依賴n元組的匹配情況.該指標取值越大,說明生成語句與人工標注語句相似度越高.

        (5) SM LSTM指標[9].主要思想是用全局“視覺-語義”相似度度量圖像和句子之間的匹配關系.全局相似性可看作由圖像(對象)和語句(詞)成對實例之間的多個局部相似性的復合聚集.因此,Huang等人(2016年)提出了一個選擇性多模態(tài)的長短時記憶網絡,用來計算圖像和句子間的匹配程度.

        綜上所述,人們提出了很多客觀指標或評價方法來判斷視覺場景描述方法的性能優(yōu)劣.但是,合理、有效、快速地評價視覺場景描述結果仍然充滿挑戰(zhàn),主要原因包括:

        ① 用不同方法或模型對同一場景進行描述時,場景內容與生成語句之間的關系為“一對多”映射,即生成語句具有非唯一性.

        ② 同一場景或視頻序列的生成描述已經可以由一個語句擴展到多個語句組成的一段語句.但是,如何用現有數據集提供的一個人工標注語句去匹配若干語句形成的段落還有待進一步研究.

        ③ 人類語言表達方式的多樣性使得即使在語義相同的情況下,對同一場景的描述語句也會千差萬別.例如,生成語句和人工標注語句之間由于表述問題可能存在主謂倒裝、一義多詞的現象,這使得生成語句與人工標注語句間的主、謂、賓匹配變得更加復雜,因此有必要研究基于語義的性能評價指標.

        ④ 已有文獻表明,注意力機制、概念(屬性)等策略可以用來有效提升語句的描述能力,但是現有的評價指標并不支持基于感興趣區(qū)域或關注對象的描述效果評價.

        5 視覺場景描述面臨的問題與挑戰(zhàn)

        盡管視覺場景描述的研究得到了國內外計算機視覺、自然語言處理、多媒體等相關領域研究人員的普遍重視,但其真正走向實際應用還有很多關鍵問題需要解決,包括:

        (1) 從場景描述內容角度來看,現階段最先進的視覺場景描述模型都是有監(jiān)督方法,即公開的基準數據集提供了人工標注語句作為理想輸出,而實際應用中的場景數據往往是特定場合的,如記錄公安偵查過程、描述學生課堂行為等.這些特殊應用中的詞匯往往不能被現有公開基準數據集所涵蓋,因此沒有現成的語句可供參考,無法生成符合真實場景的詞匯和描述語句.

        (2) 從描述準確性的角度來看,生成語句的精細度取決于訓練階段和驗證階段選用的訓練樣本和驗證樣本的人工標注語句的精細程度.現實中的視覺場景可能千變萬化、轉瞬即逝,是否能夠準確地捕捉到各個事件及其起止時間,給出相應細微變化的內容描述非常困難,如人臉微表情變化的判斷與精細描述.

        (3) 從場景描述的時長角度來看,現有基準數據集提供的視頻多是幾秒或幾分鐘的短視頻,而在實際應用中,各類視頻文件歷時較長,需要能夠支撐更長序列預測的模型來完成,例如在標準化考試場景中,潛在的作弊行為的關注需要持續(xù)更長時間才能捕獲有用信息,這不僅涉及由短時間視頻向長時間視頻方法轉換的問題,而且還包括了“微弱動作”的時序檢測等問題.

        (4) 從場景描述的語言呈現角度來看,絕大多數基準數據集提供的人工標注是英文的,少數有其他語言的標注.盡管從技術環(huán)節(jié)來看,不同語言的描述轉換可以通過機器翻譯的手段完成,但是不同語言間的轉換結果受各國文化背景、生活習俗及表達風格等因素的影響.

        (5) 從場景載體的質量角度來看,真實應用中的實際場景與訓練樣本集中圖像、視頻的質量匹配情況,以及訓練資源的豐富程度(數量、質量)是決定描述語句質量的關鍵因素.此外,場景載體文件的低分辨率、低對比度、復雜背景和其中可能存在的不同方向、樣式、顏色、對齊方式的文字信息也使場景內容的理解與描述變得復雜.

        (6) 從視覺場景描述的多學科交叉角度來看,根據第1.2節(jié)和第2節(jié),現有的場景描述技術與場景圖、視覺關系檢測、指示表達生成等相關技術的最新結果并未被充分應用在改善視覺場景描述語句的生成質量上.如何以管道(pipeline)方式將其集成在場景描述模型中,以及如何優(yōu)化和完善深度網絡的體系結構,使之能夠以更少的參數、更小的內存,更快地加以訓練,是未來值得深入研究的又一問題.

        6 未來應用前景

        視覺場景描述技術利用計算機模仿人眼的“視覺功能”和大腦的“語言功能”,以自然語言的形式自動描述視覺場景內容,有效連接了視覺信息和語言信息,是集計算機視覺、人工智能、多媒體、自然語言處理等領域的交叉性研究課題.隨著更多特定場景數據集的出現,我們相信,該技術在未來 10年內會在許多行業(yè)和領域中有力地推動視頻內容分析與理解的研究進程,并加速跨模態(tài)檢索、視覺問答技術相關應用的發(fā)展,具有重要的應用價值,例如:

        (1) 個性化教育中的學生行為分析:各類視頻監(jiān)控系統(tǒng)為代表的現代化教育設施迅速普及到傳統(tǒng)教室、圖書館、報告廳、標準化考場等,由此產生了海量的與學習者行為、活動及狀態(tài)相關的學習場景原始數據.通過視覺場景描述技術可將這些海量數據轉換為文字表達的描述語句,利用跨模態(tài)檢索技術準確地捕獲學習者的個性化特征并綜合分析不同學習者的共性特征,進而提供有針對性的評估、引導與干預.例如,在智慧課堂教學中,利用計算機實時分析統(tǒng)計學生行為,幫助老師及時掌握學生的學習特征和狀態(tài);在軍訓等集體活動中,預判學生可能發(fā)生的危險行為,提高安全防范能力;在中小學生課堂紀律維持方面,通過行為分析對學生的不良行為予以及時警告,避免其因課堂注意力不集中而導致學業(yè)警示等.

        (2) 智能服務中的人機交互應用:有效的人機交互在任何服務型機器人應用中都至關重要.視覺場景描述技術提供了人機交互的自然語言交互接口.通過該技術,智能機器人能夠以人類易于理解的自然語言方式來實現視覺場景內容信息的表達.另一方面,視頻場景內容的自然語言描述也可以作為機器人內部場景的表現形式,為基于自然語言問答的智能環(huán)境感知提供了良好基礎[76].使這些機器人可以像人一樣有“感情”地進行語言表達,提供高質量的服務和陪伴是未來的研究重點之一.

        (3) 視力障礙人員的輔助視聽:該類應用旨在對人類活動場所中的視覺感知物體進行檢測、識別、分析和判斷,并給視力障礙人員予以提示,以輔助視力障礙人員順利完成行為活動.其中,如何有效地將感知到的信息正確地傳遞給視力障礙人員是輔助視聽應用技術的關鍵問題之一.如何快速、有效地感知人類活動場景中與活動相關的環(huán)境信息,通過視覺問答,并以友好的方式將相關信息傳遞給視力障礙人員是視覺場景描述應用中需解決的重要問題.

        猜你喜歡
        語句語義模態(tài)
        重點:語句銜接
        語言與語義
        精彩語句
        “上”與“下”語義的不對稱性及其認知闡釋
        現代語文(2016年21期)2016-05-25 13:13:44
        國內多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認知范疇模糊與語義模糊
        由單個模態(tài)構造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        精品人妻无码视频中文字幕一区二区三区| 91热久久免费频精品99| 女同性恋看女女av吗| 一区二区三区免费观看日本| 综合国产婷婷精品久久99之一| 狠狠躁18三区二区一区| 亚洲精品午夜无码专区| 欧美不卡视频一区发布| 亚洲成年网站在线777| 98精品国产高清在线xxxx| 亚洲一区二区三区ay| 中文字幕精品亚洲字幕| 亚洲成av人片乱码色午夜| 亚洲av日韩av天堂一区二区三区 | 国产精品黑丝高跟在线粉嫩| 亚洲人成精品久久久久| 男男受被攻做哭娇喘声视频| 老熟女多次高潮露脸视频| 亚洲中文久久久久无码| 国产精品亚洲一区二区三区妖精| 国产免费操美女逼视频| av影院在线免费观看不卡| 狠狠人妻久久久久久综合蜜桃 | 精品一区二区三区久久| 国产成人精品无码片区在线观看| 色爱无码av综合区| 五月中文字幕| 久久偷拍国内亚洲青青草| 日韩极品视频免费观看| 99久久免费只有精品国产| 三上悠亚久久精品| 成人综合久久精品色婷婷| 中文无字幕一本码专区| 国产黄污网站在线观看| 国产又色又爽又黄的| 8888四色奇米在线观看| 99re6久精品国产首页| 翘臀诱惑中文字幕人妻| av在线观看免费天堂| 777精品久无码人妻蜜桃| .精品久久久麻豆国产精品|