亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)深度學(xué)習(xí)綜述

        2020-11-10 07:10:10孫影影賈振堂朱昊宇
        關(guān)鍵詞:模態(tài)融合模型

        孫影影,賈振堂,朱昊宇

        上海電力大學(xué) 電子與信息工程學(xué)院,上海 200090

        1 引言

        每一種信息的來源都可以稱為一種模態(tài),模態(tài)是指人接受信息的方式,人有聽覺、視覺、嗅覺、觸覺等多種感知方式來認(rèn)識事物,當(dāng)某一種模態(tài)信息缺失時(shí),能否準(zhǔn)確地認(rèn)知事物是人們關(guān)注的重點(diǎn)。由于多媒體數(shù)據(jù)通常是多種信息的傳遞媒介,例如一段視頻中會同時(shí)含有文字信息、視覺信息和聽覺信息,多模態(tài)學(xué)習(xí)已成為多媒體內(nèi)容分析與理解的主要手段。隨著深度學(xué)習(xí)的發(fā)展,諸如圖像、文本、聲音、視頻等多媒體數(shù)據(jù)的急劇增長,催生出對圖像文本對、圖像聲音對等多模態(tài)問題的研究。多模態(tài)學(xué)習(xí)由來自不同模態(tài)的信息組成,一般都是包含兩個(gè)或兩個(gè)以上的模態(tài),旨在聯(lián)合表示不同模態(tài)的數(shù)據(jù),捕捉不同模態(tài)之間的內(nèi)在關(guān)聯(lián),實(shí)現(xiàn)各個(gè)模態(tài)的信息相互轉(zhuǎn)化,即使在某些模態(tài)缺失的情況下能夠填充在傳遞過程中缺少的信息。多模態(tài)深度學(xué)習(xí)給機(jī)器學(xué)習(xí)帶來了巨大的機(jī)遇與挑戰(zhàn),文獻(xiàn)[1]將多模態(tài)深度學(xué)習(xí)實(shí)現(xiàn)過程中的共有問題分為模態(tài)表示、模態(tài)傳譯、模態(tài)融合和模態(tài)對齊四類,并對各問題進(jìn)行子分類和論述,同時(shí)列舉了為解決各問題產(chǎn)生的神經(jīng)網(wǎng)絡(luò)模型。

        通過多模態(tài)學(xué)習(xí)能夠處理和關(guān)聯(lián)來自多種模式信息的模型,對于許多實(shí)際問題,深度多模態(tài)學(xué)習(xí)常常為涉及多模式數(shù)據(jù)的問題提供了很多改進(jìn)的性能。例如,手勢識別旨在理解人體的動態(tài)手勢,是人機(jī)交互領(lǐng)域極其重要的交互方式之一,由于視頻樣本中手勢的短期、中期以及長期時(shí)空特征性,文獻(xiàn)[2]提出了一種基于淺三維稠密網(wǎng)的多模態(tài)手勢識別方法,所提出的方法在手勢識別公開數(shù)據(jù)集大規(guī)模離散手勢數(shù)據(jù)集上進(jìn)行了評估,并取得了目前最好效果。多模態(tài)學(xué)習(xí)區(qū)別于傳統(tǒng)機(jī)器學(xué)習(xí)方法的特點(diǎn)可體現(xiàn)在表1中分析[3]。

        表1 多模態(tài)學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)方法比較

        多模態(tài)研究支持計(jì)算機(jī)視覺領(lǐng)域的許多關(guān)鍵應(yīng)用,如圖像字幕、跨模態(tài)檢索。由于許多多模態(tài)數(shù)據(jù)具有顯著的弱配對特性,即模態(tài)之間沒有樣本到樣本的對應(yīng)關(guān)系,而是一種模態(tài)中的樣本類別對應(yīng)另一種模態(tài)中的樣本類別。這為跨模式的檢索學(xué)習(xí)提供了巨大的挑戰(zhàn)[4]。本文的目的是針對深度多模態(tài)學(xué)習(xí)的幾個(gè)應(yīng)用方面進(jìn)行的介紹,進(jìn)而指出多模態(tài)學(xué)習(xí)的本質(zhì)問題。由于近些年來在主要會議和期刊上發(fā)表此類文章的數(shù)量的不斷增加,更加堅(jiān)信了多模態(tài)深度學(xué)習(xí)的廣大應(yīng)用前景。如圖1為深度多模態(tài)學(xué)習(xí)論文的發(fā)表數(shù)量,涉及到計(jì)算機(jī)科學(xué)、工程方面的文章。

        圖1 多模態(tài)學(xué)習(xí)論文的發(fā)表情況

        從圖1的增長趨勢可以看出,近年來有關(guān)多模態(tài)學(xué)習(xí)的論文數(shù)量增長較快,并有持續(xù)增長的趨勢。重要的原因是多模態(tài)涉及到的領(lǐng)域的普遍化,例如,在圖像配準(zhǔn)問題的處理上,由于圖像灰度特性的非線性變化,如何對多模態(tài)圖像有效測量,就需要依靠多模態(tài)深度學(xué)習(xí)來分析圖像特征[5];醫(yī)療上綜合反映研究對象的生物學(xué)信息仍然是一種迫切的需求和重大的挑戰(zhàn),多模態(tài)核磁共振圖像聯(lián)合分析為揭開腦結(jié)構(gòu)變化和腦功能變化的關(guān)系提供了可能,另外這種聯(lián)合分析提供的全面醫(yī)學(xué)影像信息對探索腦工作原理具有重要作用[6];在航天領(lǐng)域研究太陽射電頻譜時(shí),由于頻率的多樣性,需要將不同頻率信道捕獲的太陽射電頻譜看作不同的模態(tài),學(xué)習(xí)這些不同頻率信道的太陽射電頻譜也是多模態(tài)學(xué)習(xí)的范疇[7]。多模態(tài)深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的最新發(fā)展,其研究成果在軍事、農(nóng)業(yè)、醫(yī)學(xué)、安防等諸多場景都具有重要的應(yīng)用前景。作為一種能讓機(jī)器擁有更多人類智能特性的學(xué)習(xí)方法,多模態(tài)深度學(xué)習(xí)定能在之后的一個(gè)時(shí)期獲得長足的發(fā)展。

        2 應(yīng)用發(fā)展過程

        1956 年,心理學(xué)家Frank Rosenblatt 首次提出了可以模擬人類感知能力的機(jī)器,并稱之為感知機(jī)(Perceptron),感知機(jī)是有單層計(jì)算單元的神經(jīng)網(wǎng)絡(luò)。由于單層感知機(jī)的局限性,后來有了多層感知機(jī),但由于多層感知機(jī)對隱藏層權(quán)值的訓(xùn)練存在問題,有很長一段時(shí)期神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了瓶頸[8]。最經(jīng)典的發(fā)展就是反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation algorithm,BP),這是一種監(jiān)督學(xué)習(xí)算法,為以后的多模態(tài)深度學(xué)習(xí)打下了堅(jiān)實(shí)的基礎(chǔ)。2006年,Hinton提出多層人工神經(jīng)網(wǎng)絡(luò)模型有很強(qiáng)的學(xué)習(xí)能力,深度學(xué)習(xí)模型可以學(xué)習(xí)到原始數(shù)據(jù)更本質(zhì)的表示,且對于深度神經(jīng)網(wǎng)絡(luò)很難訓(xùn)練到最優(yōu)問題,提出了逐層訓(xùn)練的方法[9]。

        多模態(tài)學(xué)習(xí)作為深度學(xué)習(xí)的一種,最早始于1970年,經(jīng)歷了幾個(gè)發(fā)展階段,在2010年后全面步入深度學(xué)習(xí)階段。最早的多模態(tài)研究應(yīng)用之一是視聽語音識別,這一點(diǎn)在McGurk 效應(yīng)中首次得到證明,大多數(shù)受試者都將帶有語音ba 和視覺ga 視為da,這是由于在語音感知過程中聽覺和視覺之間的相互作用而產(chǎn)生的結(jié)果[10],這些結(jié)果促使許多研究人員將他們的研究領(lǐng)域擴(kuò)展到視覺信息上。于是在進(jìn)行聲音識別過程中,研究人員開始聯(lián)合視頻和聲音兩個(gè)模態(tài),結(jié)果比在原來的只有單個(gè)聲音模態(tài)輸入的系統(tǒng)上實(shí)現(xiàn)了較大的飛躍,多模態(tài)機(jī)器學(xué)習(xí)開始表現(xiàn)出其優(yōu)秀的學(xué)習(xí)能力。

        另一種重要的多模態(tài)應(yīng)用是對多媒體數(shù)據(jù)內(nèi)容的檢索,從1990 年開始,隨著信息領(lǐng)域的發(fā)展,多媒體數(shù)據(jù)所占的比例越來越大,網(wǎng)絡(luò)信息不再只是單純的文字信息,圖形圖像、視頻、聲音等多媒體信息在因特網(wǎng)中所占比重越來越大[11]。但多媒體數(shù)據(jù)的檢索技術(shù)還遠(yuǎn)遠(yuǎn)跟不上多媒體數(shù)據(jù)的迅速產(chǎn)生,這在一定程度上影響了多媒體信息檢索技術(shù)的應(yīng)用和推廣。于是研究人員開始關(guān)注對多媒體內(nèi)容的檢索,基于內(nèi)容的檢索已經(jīng)成為多媒體領(lǐng)域研究的熱點(diǎn)。

        第三類應(yīng)用是在21世紀(jì)初圍繞著新興的多模式交互領(lǐng)域建立起來的,目的是了解人類的多模態(tài)行為。在計(jì)算機(jī)視覺領(lǐng)域,單項(xiàng)生物特征識別技術(shù)已經(jīng)不能滿足客戶的要求了,多模態(tài)的解決辦法被業(yè)內(nèi)專家提出,并成為眾多計(jì)算機(jī)視覺公司逐步去落實(shí)的事情[12]。例如虹膜識別、識別距離與人臉識別技術(shù)同時(shí)工作,兩種技術(shù)實(shí)現(xiàn)了真正意義上的融合。由于在自動人臉檢測、面部標(biāo)志檢測和面部表情方面取得了很大的進(jìn)步,情感識別和情感計(jì)算領(lǐng)域在2010年初開始蓬勃發(fā)展。

        最具代表性的應(yīng)用程序之一是圖像描述,它類似于給定一幅圖片來獲取它的文字表述。圖像描述自動生成是一個(gè)融合計(jì)算機(jī)視覺、自然語言處理和機(jī)器學(xué)習(xí)的綜合性問題,圖像描述自動生成的主要挑戰(zhàn)是如何評估預(yù)測描述的質(zhì)量,該任務(wù)不僅需要利用模型去理解圖片的內(nèi)容并且還需要用自然語言去表達(dá)它們之間的關(guān)系[13]。例如,通過攝像頭獲取到的圖像或視頻,結(jié)合圖像描述以及語音生成技術(shù),可以獲得對眼前事物的準(zhǔn)確描述。

        3 多模態(tài)學(xué)習(xí)的應(yīng)用研究

        多模態(tài)學(xué)習(xí)依據(jù)模態(tài)判別的標(biāo)準(zhǔn)不同可以有多種多樣的應(yīng)用。例如在太陽射電爆發(fā)分類的多模式深度學(xué)習(xí)一文中,把從不同頻率信道捕獲的太陽射電頻譜看作不同的模態(tài),學(xué)習(xí)這些不同頻率信道的太陽射電頻譜也是多模態(tài)學(xué)習(xí)的范疇[7]。多模式機(jī)器學(xué)習(xí)旨在建立能夠從多種模式中處理和關(guān)聯(lián)信息的模型。由于數(shù)據(jù)的異質(zhì)性,不同模態(tài)之間存在鴻溝,阻礙了信息間的直接交互,多模態(tài)機(jī)器學(xué)習(xí)的研究給研究者帶來了一些獨(dú)特的挑戰(zhàn)。本文主要介紹多模態(tài)學(xué)習(xí)的幾個(gè)主要應(yīng)用研究領(lǐng)域,僅關(guān)注三種模式:自然語言、視覺信號以及語音信號。多模態(tài)學(xué)習(xí)的應(yīng)用涉及許多方面,目前比較熱門的研究方向包括計(jì)算機(jī)視覺領(lǐng)域,醫(yī)療領(lǐng)域以及自動駕駛汽車等。

        3.1 視聽語音識別

        多模態(tài)研究中應(yīng)用較成熟的是視聽語音識別,一種融合了語音和視覺模式的深度多模學(xué)習(xí)方法。在視聽語音識別中,說話人的錄音和視頻都可以在培訓(xùn)時(shí)使用。針對視聽雙通道的語音識別,文獻(xiàn)[14]建立了基于隱馬爾科夫(HMM)的視聽融合模型,并對模型進(jìn)行訓(xùn)練和識別,實(shí)現(xiàn)了視聽雙通道的語音識別系統(tǒng)。文獻(xiàn)[15]最先聯(lián)合聲音和視頻對兩個(gè)獨(dú)立的網(wǎng)絡(luò)分別進(jìn)行音頻和視覺特征的訓(xùn)練,利用隨機(jī)梯度下降算法對網(wǎng)絡(luò)進(jìn)行優(yōu)化。并引入了雙線性DNN 模型,如圖2 所示。融合發(fā)生在最后一個(gè)隱藏層,可以通過雙線性DNN 模型捕捉模態(tài)中的非線性特征之間的相關(guān)性。然后保持固定的特征空間,而在這個(gè)融合空間中訓(xùn)練一個(gè)深的或淺的Softmax網(wǎng)絡(luò),直到達(dá)到目標(biāo)。

        圖2 雙線性DNN

        結(jié)果顯示使用雙線性DNN模型對兩種模態(tài)進(jìn)行訓(xùn)練比單一模態(tài)達(dá)到的效果好,語音識別準(zhǔn)確度提高,但針對噪聲影響較大的語音效果不好。又由于噪聲因素不可避免,文獻(xiàn)[16]以噪聲環(huán)境下的自動語音識別為研究背景,建立視聽信息決策層的多模態(tài)融合模型,在隱馬爾科夫(HMM)統(tǒng)計(jì)模型的基礎(chǔ)上,通過多模態(tài)融合處理來降低或消除音頻噪聲,通過HMM的訓(xùn)練步驟估計(jì)模型的參數(shù),由關(guān)聯(lián)處理最終進(jìn)行融合判決,仿真結(jié)果表明應(yīng)用多模態(tài)視聽信息融合能有效克服噪聲干擾,提高識別準(zhǔn)確度。

        3.2 圖文情感分析

        多模態(tài)的研究可用于學(xué)習(xí)多模態(tài)數(shù)據(jù)的情感分析,可以幫助更好地理解對某些事件的態(tài)度或觀點(diǎn),情感分析中的多模態(tài)數(shù)據(jù)處理一直是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。首先,與傳統(tǒng)的單一情態(tài)情感分析相比,多模態(tài)情感分析中包含著不同的表現(xiàn)形式,因此,情感分析方法應(yīng)該有效地彌合不同模式之間的差距。

        傳統(tǒng)的情感分析方法往往不能同時(shí)考慮圖片影響、特殊符號信息以及上下文信息,而導(dǎo)致情感分析方法準(zhǔn)確率不高的問題,文獻(xiàn)[17]提出了一種基于轉(zhuǎn)移變量的圖文融合微博情感分析方法,通過處理句子的情感從屬和主題從屬,引入圖片因素為情感濃度來影響文本的情感分布,最后計(jì)算微博的整體情感傾向。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)情感分析模型相比,本模型測試數(shù)據(jù)集的準(zhǔn)確率更高。由于微博文本具有長度受限、寫作不規(guī)范、風(fēng)格隨意、主題發(fā)散等特點(diǎn),針對這個(gè)問題,文獻(xiàn)[18]提出了一種基于依存關(guān)系的情感詞識別方法,通過對情感詞相關(guān)依存關(guān)系的統(tǒng)計(jì)和分析,構(gòu)建情感詞識別模版以識別微博語料中的網(wǎng)絡(luò)情感詞,再利用基于點(diǎn)互信息量方法計(jì)算情感詞的傾向性,從而構(gòu)建網(wǎng)絡(luò)情感詞典。

        為了挖掘不同模式下的互補(bǔ)信息和非冗余信息,文獻(xiàn)[19]提出了基于視覺關(guān)注模型、語義關(guān)注模型和多模態(tài)關(guān)注模型三種模型的后期融合方案,即融合到一個(gè)多模態(tài)情感分析的整體框架中,運(yùn)用了一種結(jié)合視覺注意機(jī)制的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),用于捕捉圖像與文本之間的關(guān)聯(lián),以達(dá)到正確獲取社會圖像情感的目的,模型結(jié)構(gòu)如圖3。實(shí)驗(yàn)在Getty image、Twitter和Flickr三個(gè)大型數(shù)據(jù)集上對該模型的性能進(jìn)行了一系列實(shí)驗(yàn),結(jié)果表明,提出的方法在三個(gè)數(shù)據(jù)集上的性能優(yōu)于目前最新的方法。所提出的融合模型有效地將不同的數(shù)據(jù)模式結(jié)合在一起,從而實(shí)現(xiàn)較理想的情感分類性能。

        圖3 圖文情感識別模型

        3.3 協(xié)同標(biāo)注

        多模態(tài)的研究可用于多媒體數(shù)據(jù)標(biāo)注,多媒體數(shù)據(jù)由文本、圖像、視頻、音頻、時(shí)間序列等多種形式組成。有時(shí)模態(tài)數(shù)據(jù)可能會存在缺乏標(biāo)注數(shù)據(jù)、樣本含大量噪聲以及數(shù)據(jù)收集質(zhì)量不可靠等問題,可通過不同模態(tài)間的知識遷移提高質(zhì)量較差模態(tài)的性能。文獻(xiàn)[19]提出一種基于注意力機(jī)制的LSTM 網(wǎng)絡(luò),利用語義一致性,捕捉視頻的顯著結(jié)構(gòu),探索多模態(tài)表示之間的關(guān)系來完成視頻標(biāo)注,但針對復(fù)雜視頻信息效果不好;文獻(xiàn)[20]在利用注意力機(jī)制的基礎(chǔ)上,基于語言知識選擇性地關(guān)注視覺屬性的標(biāo)注方法,該方法將神經(jīng)網(wǎng)絡(luò)中的隱藏狀態(tài)映射到潛在嵌入空間,從而獲得語言與視覺屬性的對應(yīng)關(guān)系;后來文獻(xiàn)[21]提出一種包含屬性的LSTM和RNN網(wǎng)絡(luò)來發(fā)現(xiàn)圖像視覺屬性與語義表達(dá)之間的復(fù)雜關(guān)系,還關(guān)注了句子和視頻的對應(yīng)關(guān)系。文獻(xiàn)[22]提出了一種跨模態(tài)知識遷移網(wǎng)絡(luò),利用源域和目標(biāo)域的模式作為橋梁,將知識同時(shí)遷移到兩種模態(tài),而層共享相關(guān)子網(wǎng)絡(luò)保留固有的跨模態(tài)語義相關(guān)性以進(jìn)一步適應(yīng)跨模式檢索任務(wù)。事實(shí)上,不同模態(tài)的多媒體內(nèi)容從各自的形式描述給定的標(biāo)簽,并相互補(bǔ)充,探索異類數(shù)據(jù)分析和多媒體注釋的先進(jìn)技術(shù)變得至關(guān)重要?;谶@一思想,文獻(xiàn)[23]提出了一種新的異構(gòu)多媒體協(xié)同標(biāo)注多模態(tài)相關(guān)學(xué)習(xí)方法,即統(tǒng)一空間學(xué)習(xí),將異構(gòu)媒體數(shù)據(jù)投影到一個(gè)統(tǒng)一的空間中,所提出的投影空間如圖4所示。

        圖4 統(tǒng)一空間映射模型

        將多媒體標(biāo)注任務(wù)轉(zhuǎn)化為半監(jiān)督學(xué)習(xí)框架,學(xué)習(xí)不同媒體類型的不同投影矩陣。對于一個(gè)新的媒體樣本,可以很容易地將其嵌入到統(tǒng)一的空間中,然后將其相鄰的相關(guān)標(biāo)簽分配給該樣本[24]。通過對圖像、音頻片段、視頻和三維模型數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,不同的媒體內(nèi)容相互協(xié)調(diào),共同為給定的語義標(biāo)簽提供了一個(gè)更為互補(bǔ)的輪廓,可以學(xué)習(xí)到異構(gòu)媒體數(shù)據(jù)的更有效表示[25]。

        3.4 匹配和分類

        多模態(tài)的研究可學(xué)習(xí)圖像和文本之間的共享表示特征,用于多模態(tài)的匹配和分類,匹配即特征嵌入問題,分類即預(yù)測類標(biāo)簽。與目前僅關(guān)注多模式匹配或分類的方法不同,文獻(xiàn)[23]提出了一個(gè)統(tǒng)一的網(wǎng)絡(luò)來共同學(xué)習(xí)圖像和文本之間的多模態(tài)匹配和分類。所提出的多模態(tài)匹配和分類網(wǎng)絡(luò)模型涉及視覺和語言之間,它可以無縫集成匹配和分類組件。其中實(shí)現(xiàn)兩個(gè)組件的融合是關(guān)鍵,這就涉及到多模態(tài)融合問題。多模態(tài)信息的融合能獲得更全面的特征,提高模型魯棒性,并且保證模型在某些模態(tài)缺失時(shí)仍能有效工作[26]。

        針對多模態(tài)融合問題,包括網(wǎng)絡(luò)結(jié)構(gòu)上的改進(jìn)以及算法的優(yōu)化兩大方面:在網(wǎng)絡(luò)結(jié)構(gòu)方面,常用的是帶注意力機(jī)制的遞歸神經(jīng)網(wǎng)絡(luò),再利用注意力機(jī)制將文本與圖像特征融合[27]。但是這種網(wǎng)絡(luò)結(jié)構(gòu)往往不能高度集中地表示數(shù)據(jù),于是有了一種新型端到端的深度融合卷積神經(jīng)網(wǎng)絡(luò),將二維與三維數(shù)據(jù)輸入網(wǎng)絡(luò)進(jìn)行特征提取和融合,進(jìn)而獲得高度集中的特征表示,可應(yīng)用于人臉表情識別[28]。在算法優(yōu)化方面:新型高效的融合方法是哈希算法,它將弱監(jiān)督方式提取出的多模態(tài)特征統(tǒng)一整合為二進(jìn)制編碼,從而使用核函數(shù)配合SVM 進(jìn)行分類[29]。文獻(xiàn)[23]不僅提出了一個(gè)統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu),還提出了一種結(jié)合匹配和分類損失的多級訓(xùn)練算法,它可以使匹配和分類組件在一個(gè)統(tǒng)一的模型中更加兼容。通過四個(gè)眾所周知的基實(shí)驗(yàn)表明,所提出的網(wǎng)絡(luò)模型具有較好的魯棒性,優(yōu)于匹配或分類單獨(dú)作用時(shí)的效果,對與匹配或分類相關(guān)的多模態(tài)任務(wù)有很好的推廣應(yīng)用前景。

        3.5 對齊表示學(xué)習(xí)

        多模態(tài)研究還可用于不同模態(tài)之間的對齊表示,可在不同模式之間傳遞所學(xué)的知識。對齊旨在挖掘不同模態(tài)之間的對應(yīng)關(guān)系,從而促使學(xué)習(xí)到的多模態(tài)表示更加精確,并且也為多媒體檢索提供更細(xì)致的檢索線索[30]。在多模態(tài)的對齊學(xué)習(xí)中,常用最大邊距學(xué)習(xí)方式結(jié)合局部對齊和全局對齊方法學(xué)習(xí)共同嵌入表示空間[29]。在跨模態(tài)檢索方法中,模態(tài)與模態(tài)之間存在一定的數(shù)據(jù)相關(guān)性,基于判別性字典學(xué)習(xí)的跨模態(tài)檢索方法可以增強(qiáng)來自不同類別的模態(tài)內(nèi)數(shù)據(jù)的辨別能力,運(yùn)用判別性字典來解釋每種模態(tài),通過標(biāo)簽對齊方法進(jìn)一步增強(qiáng)跨模態(tài)數(shù)據(jù)的區(qū)分性和相關(guān)性[31]。

        對齊的跨模態(tài)表示將對計(jì)算機(jī)視覺產(chǎn)生很大的影響,因?yàn)樗鼈兪菣C(jī)器感知理解模式之間關(guān)系的基本組成部分。在實(shí)際學(xué)習(xí)詞、句子、圖像以及圖像區(qū)域的特征對齊表示時(shí),提出了層次化多模態(tài)LSTM 的密集視覺-語義嵌入方法,可以有效地學(xué)習(xí)詞、句子、圖像以及圖像區(qū)域的對齊表示[32]。文獻(xiàn)[33]設(shè)計(jì)了一個(gè)跨模態(tài)網(wǎng)絡(luò)模型,它可以接受圖像、聲音或句子作為輸入,并產(chǎn)生一個(gè)跨模式共享的通用表示。通過實(shí)驗(yàn)表明,深度跨模態(tài)表示法比以往的聚類CCA 和線性回歸都有很大的優(yōu)勢。因?yàn)樗岢龅木W(wǎng)絡(luò)能夠?qū)W習(xí)高層次的特性,更容易跨模式對齊。但是當(dāng)模態(tài)之間不匹配或者匹配程度低時(shí),不容易學(xué)習(xí)它們的對齊表示,就需要設(shè)計(jì)一種深層跨模態(tài)對齊網(wǎng)絡(luò)多次進(jìn)行訓(xùn)練學(xué)習(xí)以盡可能消除模態(tài)間的不匹配問題[34]。

        表示學(xué)習(xí)的目的是將被研究對象中所蘊(yùn)含的語義信息抽象為實(shí)值向量,研究對象包括結(jié)構(gòu)化數(shù)據(jù)以及圖像、視頻、語音、文本等非結(jié)構(gòu)化數(shù)據(jù)[30]。最初基于模態(tài)相關(guān)性約束,出現(xiàn)了一種面向多模態(tài)表達(dá)的緊致哈希編碼方法,該方法首先基于模態(tài)內(nèi)和模態(tài)間的相關(guān)性約束,提出了一種新的深度學(xué)習(xí)模型生成哈希編碼[35]。但是由于數(shù)據(jù)不是連續(xù)的,會造成部分模態(tài)數(shù)據(jù)的缺失問題,又發(fā)展了一種基于自適應(yīng)相似結(jié)構(gòu)正則化的部分多模態(tài)稀疏編碼模型,能很好地解決數(shù)據(jù)稀疏造成的模態(tài)缺失問題[36]。

        多模態(tài)學(xué)習(xí)的研究起源于人們?nèi)粘I钪械脑S多實(shí)際問題,目的是幫助人們解決復(fù)雜度更高的問題。多模態(tài)學(xué)習(xí)應(yīng)用可以很廣泛,涉及計(jì)算機(jī)視覺領(lǐng)域、醫(yī)療領(lǐng)域、天文學(xué)探測方面以及自動駕駛汽車等[37]。從以上多模態(tài)深度學(xué)習(xí)的幾個(gè)應(yīng)用領(lǐng)域看,深度多模式學(xué)習(xí)的研究已取得較大的成果,有巨大的發(fā)展?jié)摿?。從最近幾年的多模態(tài)應(yīng)用方面的文章看,多模態(tài)學(xué)習(xí)有極好的發(fā)展前景,應(yīng)用實(shí)際生活中具有重要的現(xiàn)實(shí)意義。越來越多的文章致力于從圖像、聲音、視頻和文本等熱門方向著手來尋求各個(gè)模態(tài)之間的互聯(lián)想,逐漸形成一個(gè)以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的完善的理論體系結(jié)構(gòu),通過一系列基準(zhǔn)實(shí)驗(yàn)證明了該結(jié)構(gòu)的可實(shí)現(xiàn)性[38]。第4章將針對多模態(tài)學(xué)習(xí)的具體實(shí)現(xiàn)細(xì)節(jié)加以說明。

        4 實(shí)現(xiàn)細(xì)節(jié)

        4.1 多模態(tài)本質(zhì)問題

        從多模態(tài)在第3章的幾個(gè)典型應(yīng)用可以發(fā)現(xiàn),來自不同模態(tài)的信息要想達(dá)到較好的實(shí)驗(yàn)效果,它們區(qū)分單一模態(tài)的關(guān)鍵在于如何構(gòu)建一個(gè)共享表示空間,該共享表示空間可以融合來自兩個(gè)或多個(gè)模態(tài)的特征,從而可以找出各個(gè)模態(tài)之間的對應(yīng)關(guān)系[39]。研究多模態(tài)學(xué)習(xí)的目的就是通過建立共享空間表示,學(xué)習(xí)不同模態(tài)之間的關(guān)系,最后實(shí)現(xiàn)模態(tài)之間的互聯(lián)想。這樣,同一現(xiàn)象的多個(gè)模態(tài)信息可以相互補(bǔ)充,當(dāng)某一模態(tài)數(shù)據(jù)缺失時(shí),多模態(tài)學(xué)習(xí)仍能達(dá)到很好的效果。

        多模態(tài)學(xué)習(xí)有重要的現(xiàn)實(shí)意義,但是目前針對多模態(tài)學(xué)習(xí)的研究仍然十分有限。對于多模態(tài)學(xué)習(xí),比較熱門的研究方向包括多模態(tài)的表示學(xué)習(xí)、不同模態(tài)之間的相互轉(zhuǎn)化、多模態(tài)融合、多模態(tài)對齊和共同學(xué)習(xí)等等。盡管多模態(tài)應(yīng)用廣泛,但其本質(zhì)問題是在不同模態(tài)之間實(shí)現(xiàn)某種關(guān)聯(lián)。下面主要介紹建立一個(gè)共享表示空間的兩個(gè)關(guān)鍵過程:多模態(tài)融合和多模態(tài)對齊,并對多模態(tài)學(xué)習(xí)中常用的數(shù)據(jù)集進(jìn)行介紹。

        4.2 多模態(tài)融合

        在多模態(tài)學(xué)習(xí)的早期就已經(jīng)開始了對多模態(tài)融合的研究,這是多模態(tài)學(xué)習(xí)研究最多的方面之一,它的工作可以追溯到25 年前[40]。首先,多模態(tài)融合從技術(shù)上講,是將來自多種模態(tài)的信息集成在一起的概念,目的是通過分類方法來預(yù)測一個(gè)類。例如在醫(yī)學(xué)領(lǐng)域,醫(yī)生就診更多根據(jù)圖像在局部區(qū)域高層語義特征(如是否病變、病變類型等)的差異,粗粒度地判斷圖像的相似程度,針對現(xiàn)有的醫(yī)學(xué)圖像特征表達(dá)忽略了醫(yī)學(xué)圖像特有的高層語義特征,致使醫(yī)學(xué)圖像聚類效果不佳的問題,文獻(xiàn)[41]提出了一種多模態(tài)醫(yī)學(xué)圖像聚類方法,就融合了醫(yī)學(xué)圖像紋理特征和特有形態(tài)學(xué)特征,并通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性??梢姸喾N模態(tài)的信息相互融合可以實(shí)現(xiàn)信息補(bǔ)充,提升預(yù)測結(jié)果的精度,提高預(yù)測模型的魯棒性,使最后的結(jié)果更可靠。

        一般的融合分為特征融合和決策融合,特征融合指網(wǎng)絡(luò)一起提取的表達(dá)融合,之后接一個(gè)分類層;決策融合指模型組合,融合網(wǎng)絡(luò)計(jì)算的分類得分。在此主要介紹特征融合,特征融合即輸入兩個(gè)模態(tài)的特征向量,輸出融合后的向量,最常用的方法是拼接、按位乘、按位加。特征融合能有效提高某些算法的準(zhǔn)確度,例如,針對單模態(tài)行人檢測在光照條件較差、目標(biāo)部分遮擋、目標(biāo)多尺度時(shí)檢測效果較差的問題,文獻(xiàn)[42]提出了一種基于可見和紅外雙模態(tài)特征金字塔融合的行人檢測算法,實(shí)驗(yàn)結(jié)果表明在KAIST 數(shù)據(jù)集上的檢測效果超過了目前該數(shù)據(jù)集上的最佳模型。從特征融合的結(jié)構(gòu)上分,可分為早期融合、后期融合,后來又有了中間融合[43]。三種融合結(jié)構(gòu)的特點(diǎn)如表2所示。

        表2 融合結(jié)構(gòu)特點(diǎn)

        早期融合主要用于分類,在進(jìn)行特征提取后立即集成,通常只是簡單連接它們的表示,廣泛出現(xiàn)在多模態(tài)學(xué)習(xí)任務(wù)中;晚期融合用于回歸,一般在每個(gè)模塊之后再執(zhí)行集成,可以有效地處理數(shù)據(jù)的異步性,但實(shí)現(xiàn)程度較早期融合較難;中間融合用于分類回歸,它結(jié)合了早、晚期融合的優(yōu)點(diǎn),同時(shí)模型復(fù)雜度和實(shí)現(xiàn)難度也增加了[44]。

        從融合方法上看,又可分為基于核融合、基于圖像模型和基于神經(jīng)網(wǎng)絡(luò)的方法,其中基于神經(jīng)網(wǎng)絡(luò)的融合方法是比較流行的方法。文獻(xiàn)[45]把多模態(tài)表示分為聯(lián)合表示和協(xié)同表示,聯(lián)合表示是將多個(gè)單模信號合并到同一個(gè)表示空間,學(xué)習(xí)各個(gè)模態(tài)間的共享表示;協(xié)同表示是在信號投影之前強(qiáng)制執(zhí)行一定相似性約束來協(xié)調(diào)它們[46]。

        以圖像、文本的融合為例,(Xi,Yi)表示經(jīng)過預(yù)處理后得到的圖像和文本特征,i=1~N。假設(shè)所提取的特征向量的維數(shù)相同,最簡單的方法是采用直接疊加的方式將它們的特征向量加在一起,然后采用卷積運(yùn)算來學(xué)習(xí)自適應(yīng)權(quán)值,但是并沒有改變原始的基網(wǎng)絡(luò)[47]。在融合過程中,將得到的這兩個(gè)分支中的嵌入圖像、文本特征經(jīng)過正則化處理分別表示為S(Xi)和S(Yi)。融合后的視覺特征f(Xi),文本特征g(Yi)可以由下式計(jì)算:

        匹配損失函數(shù)目的減少匹配對距離,增加非匹配對的距離,較小的匹配距離表示圖像文本對存在某種關(guān)聯(lián)[48]。所采用的直接融合只適應(yīng)于維數(shù)相同的情況,但是針對神經(jīng)網(wǎng)絡(luò)維數(shù)不同的問題,通常處理方法是將某一模態(tài)的維數(shù)進(jìn)行PCA降維處理至與另一模態(tài)相同的維數(shù),然后再進(jìn)行相同的融合操作[49]。僅僅通過上面計(jì)算余弦相似度來設(shè)置匹配函數(shù)是不夠的,為了保持潛在空間中的相似性約束,通常需要在匹配損失上加約束函數(shù)。例如,文獻(xiàn)[50]是基于一個(gè)類似于有效雙向秩損失函數(shù)重新定義了匹配損失。為了利用更有代表性的非匹配對,該文在每一小批中選出了最具代表性的K類最不同的候選對象。直觀地,這個(gè)損失函數(shù)是為了減小匹配對的距離和增加非匹配對的距離而設(shè)定的。損失函數(shù)的計(jì)算公式如下:

        m為邊緣參數(shù),用來平衡兩個(gè)三重因子,其中的d(f(Xi),g(Yi))表示匹配對的距離,d(f(Xi),g(Yiˉ,k)) ,d(f(Xiˉ,k),g(Yi))表示非匹配對的距離。將這一損失函數(shù)最小化將產(chǎn)生一個(gè)理想的潛在空間,其中匹配對的距離應(yīng)小于任何不匹配對之間的距離。為了使用損失函數(shù)得到的結(jié)果直觀的表示,使用了t-SNE 算法可視化特征嵌入f(Xi)和g(Yi),就可以得到圖像文字特征的可視化表示??梢暬Y(jié)果表明:相匹配的圖像文本在可視圖中距離較近,不匹配的圖像文本距離較遠(yuǎn),該文所用的嵌入模型能夠有效學(xué)習(xí)到圖像文本的對齊表示,也即融合效果較好。

        4.3 多模態(tài)對齊

        在多模態(tài)學(xué)習(xí)中,除模態(tài)之間的融合外,模態(tài)對齊也是多模態(tài)學(xué)習(xí)的核心問題[51]。多模態(tài)的對齊負(fù)責(zé)對來自同一個(gè)實(shí)例的不同模態(tài)信息的子分支元素尋找對應(yīng)關(guān)系。這個(gè)對應(yīng)關(guān)系可以是時(shí)間維度的,例如電影畫面、語音、字幕的自動對齊;對齊又可以是空間維度的,比如圖片語義分割:嘗試將圖片的每個(gè)像素對應(yīng)到某一種類型標(biāo)簽,實(shí)現(xiàn)視覺和詞匯對齊。多模態(tài)對齊指的是分別處理多個(gè)單模信號,但在信號投影之前通過強(qiáng)制執(zhí)行一定相似性約束來協(xié)調(diào)它們,即多模態(tài)表示中的協(xié)調(diào)表示,如圖5為模態(tài)對齊示意圖。每種模式都有相應(yīng)的投影函數(shù),它們在一定相似性約束下互相對應(yīng)。

        圖5 模態(tài)對齊結(jié)構(gòu)示意圖

        目前針對多模態(tài)對齊,常見的兩種分類為:隱式對齊和顯式對齊[52]。隱式對齊一般是另一個(gè)任務(wù)的中間步驟,例如在基于文字的圖像檢索中,指單詞和圖像區(qū)域之間的對齊步驟,它確定了兩種類型的隱式對齊模型;顯示對齊是顯式地將感興趣的子模式之間的對齊[33]。它主要介紹如何實(shí)現(xiàn)不同子模式的對齊表示,以圖像和聲音兩種模態(tài)作為研究對象,對于超過兩種模態(tài)之間的對齊,采用兩兩對齊的方式以實(shí)現(xiàn)多模態(tài)對齊。

        在實(shí)際中,僅僅依靠相似度判別對齊實(shí)現(xiàn)的效果并不可靠,希望多模態(tài)的對齊表示既有一致性又有區(qū)分性,即判別對齊的準(zhǔn)確度較高。目前有兩種方法來解決這個(gè)問題:模型傳遞對齊和按等級對齊[53]。模型傳遞對齊是利用有區(qū)別的視覺模型來教學(xué)生模型一個(gè)有對齊的表示方法。以圖像Xi和聲音Yi兩種模態(tài)作為研究對象,例如Xi代表一個(gè)圖像,Yi代表圖像對應(yīng)的聲音。用fX(Xi)和fY(Yi)分別表示圖像和聲音模態(tài)的特征表示。假設(shè)g(Xi)是某一特定模態(tài)類概率的教師模型,它可以估定特定模態(tài)的概率,由于各個(gè)模式是同步的,可以用另一種模式fY(Yi)來預(yù)測教師模型g(Xi)的概率問題,使用KL散度作為損失函數(shù)計(jì)算公式如下:

        這一目標(biāo)本身將使對齊能夠出現(xiàn)在g(Xi)所預(yù)測的類別級別上。為了使內(nèi)部表示出現(xiàn)對齊,需要限制網(wǎng)絡(luò)上層跨模態(tài)的共享參數(shù)來實(shí)現(xiàn),網(wǎng)絡(luò)的上層參數(shù)在前期是特定于單個(gè)模態(tài)的,添加限制條件后上層參數(shù)將被各個(gè)模態(tài)共享,通過約束上層參數(shù)來轉(zhuǎn)化為對齊表示[54]。為使對齊的區(qū)分效果更好,通常用按等級對齊方式的排序損失函數(shù)來獲得有區(qū)分的對齊表示,該函數(shù)表示為:

        其中,Δ代表邊緣超參數(shù),ψ是一個(gè)相似函數(shù),j是迭代負(fù)例子。這一損失函數(shù)區(qū)別于前面僅僅靠余弦相似度判別對齊的好處在于,各自對齊的例子在表示空間中更加緊密的推到一起,達(dá)到一定的邊緣設(shè)置參數(shù)。最后在三個(gè)基準(zhǔn)實(shí)驗(yàn)上,在給定一個(gè)模式查詢的情況下,在所有模式中都找到了相似的示例,驗(yàn)證了提出的對齊模型在視覺、聲音和文本方面學(xué)到了更好的對齊[33]。

        4.4 數(shù)據(jù)集

        多模態(tài)深度學(xué)習(xí)具有極大的發(fā)展?jié)摿Γ罅康难芯吭趯ΜF(xiàn)有的模型不斷地進(jìn)行改善和創(chuàng)新。除了尋求一切算法結(jié)構(gòu)模型上的突破之外,不斷更新完善數(shù)據(jù)集,提高多模態(tài)深度學(xué)習(xí)模型運(yùn)算速度,提高輸出預(yù)測準(zhǔn)確率,對多模態(tài)學(xué)習(xí)的發(fā)展至關(guān)重要[55]。在本章列舉常見的多模態(tài)任務(wù)相應(yīng)的數(shù)據(jù)集,多模態(tài)學(xué)習(xí)區(qū)分單一模態(tài)在數(shù)據(jù)集上也有很大不同,下面介紹幾種多模態(tài)常用的數(shù)據(jù)集。最初為了對會議室環(huán)境下說話人進(jìn)行更好的研究,便于運(yùn)用語音視頻處理技術(shù),需要大量的語音視頻數(shù)據(jù)庫。在這一領(lǐng)域收集的第一個(gè)里程碑?dāng)?shù)據(jù)集之一是AMI會議語料庫,這是到目前為止信息量最多,功能最全面的音視頻語料會議庫,其中包含100多個(gè)小時(shí)的會議視頻記錄,每場會議由4到5個(gè)人組成,所有這些都經(jīng)過了完整的轉(zhuǎn)錄和注釋,以便人們更好地進(jìn)行會議室環(huán)境下視頻處理和語義分割等方面的研究[56]。另一個(gè)重要的數(shù)據(jù)集是信號語料庫,主要研究說話者和聽者之間的動態(tài)關(guān)系[57]。

        這些數(shù)據(jù)集通常以人為中心的視覺理解,以及包括情感識別在內(nèi)的變體,群體行為分析等[58]。例如:對于字母識別,avletters是最常用的數(shù)據(jù)庫之一,包含來自10個(gè)揚(yáng)聲器的錄音,每個(gè)字母重復(fù)3次,分辨率為376×288像素和25 幀[59]。后來又進(jìn)行了改進(jìn),avletters2 解決了avletters 的一些問題,例如低分辨率或揚(yáng)聲器數(shù)量有限[60]。具體來說,avletters2 增加了發(fā)聲次數(shù),每個(gè)揚(yáng)聲器重復(fù) 3 到 7 次和分辨率 1 920×1 080 像素和 50 幀。Pascal數(shù)據(jù)集:它包含來自20個(gè)類別的1 000幅圖像(每類50 幅),其中一幅圖像由5 個(gè)不同的句子描述[61]。Flowers數(shù)據(jù)集:包含102個(gè)類,共有8 189幅圖像。在訓(xùn)練階段使用2 040 幅圖像,其余6 149 幅圖像用于測試[62]。CUB-Bird 數(shù)據(jù)集:它包含來自200 個(gè)類別的11 788 張鳥類圖像,其中5 994 張圖像用于培訓(xùn),5 794張圖像用于測試[63]。表3為常用的多模態(tài)數(shù)據(jù)集。

        表3 多模態(tài)數(shù)據(jù)集

        5 發(fā)展趨勢與結(jié)論

        關(guān)于目前的多模態(tài)深度學(xué)習(xí),未來的發(fā)展趨勢主要從以下幾點(diǎn)說起:(1)探索如何應(yīng)用神經(jīng)網(wǎng)絡(luò)研究多模態(tài)學(xué)習(xí),還需要進(jìn)一步研究形成一個(gè)以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的完善的理論體系結(jié)構(gòu),這取決于神經(jīng)網(wǎng)絡(luò)的理論體系的成熟發(fā)展;(2)與多模態(tài)相關(guān)的數(shù)據(jù)集也應(yīng)該進(jìn)一步完善,將直接決定深度學(xué)習(xí)模型的運(yùn)算速度,輸出預(yù)測準(zhǔn)確率的高低,對多模態(tài)學(xué)習(xí)的發(fā)展也至關(guān)重要;(3)不同模態(tài)特征在融合過程中會受到噪聲影響,使融合后信息不準(zhǔn)確,并且在包含時(shí)序關(guān)系的多模態(tài)學(xué)習(xí)中,每種模態(tài)可能遭受噪聲干擾的時(shí)刻也可能不同,因此在融合方式方面看是否還有更適合的方法;(4)現(xiàn)階段的對齊方法顯示對齊的數(shù)據(jù)信息量較少,且不同模態(tài)間信息甚至無法匹配使模型性能嚴(yán)重下降,在未來的工作中,還需設(shè)計(jì)同時(shí)進(jìn)行度量學(xué)習(xí)和對齊的方法提高相關(guān)模型的性能。

        隨著深度學(xué)習(xí)的快速發(fā)展,人們獲取信息的方式的不斷更新,由于信息數(shù)據(jù)的廣泛性,數(shù)據(jù)庫也不可能包含所需的全部信息,因此建立模態(tài)之間的相互聯(lián)想能力格外重要,即使在數(shù)據(jù)信息不足,同樣能夠根據(jù)模態(tài)間的映射關(guān)系獲取對事件的正確認(rèn)知[64]。當(dāng)然多模態(tài)應(yīng)用很廣,比較熱門的研究方向用在自動駕駛汽車、多媒體應(yīng)用和醫(yī)療領(lǐng)域等[65]。在這篇文章中,回顧了在深度多模式學(xué)習(xí)在視聽語音識別、協(xié)同標(biāo)注、匹配和分類以及對齊表示學(xué)習(xí)上的幾個(gè)熱門應(yīng)用,對它們的具體實(shí)現(xiàn)過程作了簡要概述,所提出的試聽語音自動識別模型、統(tǒng)一空間映射模型、統(tǒng)一的多模式匹配和分類網(wǎng)絡(luò)模型和跨模態(tài)對齊模型都有較好的實(shí)驗(yàn)效果。多模態(tài)學(xué)習(xí)是一個(gè)充滿活力的多學(xué)科領(lǐng)域,具有日益重要和巨大的潛力。不可否認(rèn),將多種模式納入學(xué)習(xí)問題會對網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)處理、目標(biāo)函數(shù)設(shè)置等方面產(chǎn)生各種各樣的影響,這在很大程度上是一個(gè)有很大挑戰(zhàn)的領(lǐng)域,必然會出現(xiàn)許多新的創(chuàng)新,也期待著多模態(tài)學(xué)習(xí)領(lǐng)域這個(gè)方向更加蓬勃發(fā)展。

        猜你喜歡
        模態(tài)融合模型
        一半模型
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        重要模型『一線三等角』
        《融合》
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        91情侣在线精品国产免费| 国产精品久久久免费精品| 国产免费久久精品99久久| 亚洲精品久久中文字幕| 综合无码综合网站| 国产h视频在线观看网站免费| 国产优质女主播在线观看| 国产麻豆剧传媒精品国产av| 免费一级淫片日本高清| а天堂8中文最新版在线官网| 国内a∨免费播放| 久久精品无码鲁网中文电影| 午夜av内射一区二区三区红桃视| 尤物精品国产亚洲亚洲av麻豆| 亚洲 欧美 国产 制服 动漫| 成人三级a视频在线观看| 中文字幕无线码中文字幕| 亚洲精品黄网在线观看| 日本最新一区二区三区免费看| 中文字幕日韩精品亚洲精品| 国产视频一区二区三区观看| 午夜免费福利小电影| 国产美女遭强高潮网站| 精品国产福利一区二区三区| 中文字幕一区二区三区四区| 亚洲人成网站在线播放2019 | 国产老熟女精品一区二区| 色偷偷偷在线视频播放| 大香伊蕉国产av| 国产亚洲欧美在线| 超清无码AV丝袜片在线观看| 亚洲国产精品嫩草影院久久av| 青草久久婷婷亚洲精品| 内射口爆少妇麻豆| 97人人超碰国产精品最新o| 蜜桃视频免费在线视频| 蜜桃一区二区三区视频| 中国人妻与老外黑人| 欧美va亚洲va在线观看| 亚洲色四在线视频观看| 日韩人妻免费视频一专区|