亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向跨模態(tài)數(shù)據(jù)協(xié)同分析的視覺問答方法綜述

        2022-10-12 12:35:48胡永利孫艷豐尹寶才
        關(guān)鍵詞:注意力模態(tài)特征

        崔 政,胡永利,孫艷豐,尹寶才

        (北京工業(yè)大學(xué)信息學(xué)部,北京 100124)

        如何使算法可以像人類一樣同時(shí)理解和利用多種模態(tài)數(shù)據(jù)是人工智能領(lǐng)域中的一個(gè)重要研究課題.隨著深度學(xué)習(xí)技術(shù)的成熟,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺和自然語言處理技術(shù)飛速發(fā)展,在此基礎(chǔ)上視覺問答(visual question answering, VQA)這一涉及圖像理解和自然語言處理2個(gè)領(lǐng)域的研究課題受到越來越多的關(guān)注.雖然人工智能領(lǐng)域的學(xué)者已經(jīng)提出了多種基于深度學(xué)習(xí)的VQA模型,但是如何準(zhǔn)確地學(xué)習(xí)跨模態(tài)數(shù)據(jù)特征,目前還沒有一個(gè)完整的解決方案.

        1 VQA簡介

        隨著大數(shù)據(jù)時(shí)代的到來,全球的數(shù)據(jù)量正在呈指數(shù)級(jí)增長.每個(gè)用戶都在社交媒體和互聯(lián)網(wǎng)應(yīng)用上產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)包括圖片、文本、聲音、視頻和瀏覽記錄等,具有明顯的跨模態(tài)性質(zhì).面對龐大的跨模態(tài)數(shù)據(jù),如何提取有效的信息和進(jìn)行準(zhǔn)確的分析成為了一個(gè)研究難點(diǎn)和熱點(diǎn).在此背景下,VQA這一研究課題被提出.如圖1所示,當(dāng)給定一張圖片和一個(gè)對應(yīng)的問題,VQA系統(tǒng)需要根據(jù)問題來提取圖片上的有效信息,進(jìn)而得出正確的答案.這就要求算法能夠?qū)D像和問題的語義信息具有高層次的理解,并且能夠同時(shí)處理和分析圖像和文本2種模態(tài)的數(shù)據(jù).

        圖1 VQA示意圖Fig.1 Schematic diagram of VQA

        近年來,許多基于深度學(xué)習(xí)的方法被提出以解決VQA任務(wù)[1-8],為了更加清晰地闡述不同方法的研究思路和便于學(xué)者參考,本文按照原理的不同將這些方法分為數(shù)據(jù)融合、跨模態(tài)注意力和知識(shí)推理3類,介紹了每一類方法的相關(guān)工作和常用的VQA數(shù)據(jù)集,并對最新出現(xiàn)的基于視頻和文本問題的VQA任務(wù)進(jìn)行了介紹.最后,對每一類方法做出總結(jié)并對未來的研究方向進(jìn)行了展望.

        2 VQA研究現(xiàn)狀及方法

        首先,給出VQA系統(tǒng)的定義,給定一個(gè)圖像v和一個(gè)問題q,VQA系統(tǒng)的目的是預(yù)測一個(gè)與真實(shí)標(biāo)簽a*相匹配的答案,目前VQA中常用的方法通過分類器fθ()的得分來獲得正確答案的預(yù)測,即

        (1)

        一個(gè)完整的VQA系統(tǒng)通常由4個(gè)部分組成:圖像特征提取器、文本特征提取器、跨模態(tài)特征學(xué)習(xí)模塊和答案分類器.

        最初各種卷積神經(jīng)網(wǎng)絡(luò)被用來作為圖像特征提取器,包括亞歷克斯網(wǎng)絡(luò)(Alex network,AlexNet)[9]、谷歌網(wǎng)絡(luò)(Google network,GoogLeNet)[10]、視覺幾何組網(wǎng)絡(luò)(visual geometry group network,VGGNet)[11]和殘差網(wǎng)絡(luò) (residual network,ResNet)[12].AlexNet是一個(gè)具有5個(gè)卷積層的深層網(wǎng)絡(luò),是第1個(gè)大幅度提高分類精度的深度卷積網(wǎng)絡(luò),并獲得了2012年的ImageNet數(shù)據(jù)集大規(guī)模視覺識(shí)別挑戰(zhàn)賽冠軍.在2014年的挑戰(zhàn)賽中,GoogLeNet獲得了第1名、VGGNet獲得了第2名,這2類模型結(jié)構(gòu)的共同特點(diǎn)是層次更深了.VGGNet采用連續(xù)的幾個(gè)3×3的卷積核代替AlexNet中的較大卷積核,在保證具有相同感知野的條件下提升了網(wǎng)絡(luò)的深度,在一定程度上提升了神經(jīng)網(wǎng)絡(luò)的效果.GoogLeNet使用1×1的卷積來進(jìn)行降維,并且在多個(gè)尺寸上同時(shí)進(jìn)行不同尺度的卷積,然后再進(jìn)行聚合,最終取得了更加優(yōu)越的性能.ResNet有效地解決了深層神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的問題,是卷積網(wǎng)絡(luò)發(fā)展史上具有里程碑意義的工作.采用卷積網(wǎng)絡(luò)作為圖片的特征提取器可以得到包含豐富語義信息的優(yōu)質(zhì)的圖像特征表示,這也推動(dòng)了VQA這一課題的發(fā)展.雖然這些卷積網(wǎng)絡(luò)通常能夠提取具有概括性的全局圖像特征描述,但是也丟失了大量有用的細(xì)粒度信息,這些細(xì)粒度的信息可以幫助算法得到精準(zhǔn)的圖像理解.因此,最近的研究工作探討了目標(biāo)檢測器提取的區(qū)域級(jí)特征的可用性.Anderson等[13]提出了自下而上的注意力機(jī)制來提取圖像的特征,這一方法類似于人類視覺系統(tǒng)中的注意力機(jī)制,可以過濾掉不重要信息的特征,最終通過在視覺基因數(shù)據(jù)庫[14]上預(yù)訓(xùn)練的快速目標(biāo)檢測模型[15]得到區(qū)域級(jí)的圖像特征.這些區(qū)域特征包含了豐富的細(xì)粒度語義信息,非常有利于圖像的細(xì)粒度理解和跨模態(tài)特征的學(xué)習(xí).

        文本特征提取器被用來抽取文本問題的特征,通常首先利用文本特征提取方法[16-22]將每個(gè)單詞或整個(gè)問題嵌入到問題的文本語義空間,然后通過遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來得到序列化的特征.長短時(shí)記憶網(wǎng)絡(luò)(long and short term memory network,LSTM)、門循環(huán)單元(gate recurrent unit,GRU)常被用作文本特征編碼器,因?yàn)樗鼈儗τ谛蛄袛?shù)據(jù)的處理非常有效.

        跨模態(tài)特征學(xué)習(xí)模塊是整個(gè)VQA系統(tǒng)的核心,這一模塊的主要目的是綜合分析和利用2種模態(tài)的數(shù)據(jù),挖掘2種模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,通過數(shù)據(jù)融合、跨模態(tài)注意力、知識(shí)推理等方法學(xué)習(xí)一個(gè)對于輸入數(shù)據(jù)的跨模態(tài)特征表示.

        答案分類器通常由一個(gè)多層全連接神經(jīng)網(wǎng)絡(luò)組成,輸入是圖片和問題的跨模態(tài)特征表示,其最終輸出維度是預(yù)選答案的個(gè)數(shù).通過這一模塊可以得到每個(gè)預(yù)選答案的置信度得分,從而選擇得分最高的答案作為預(yù)測的正確答案.

        2.1 數(shù)據(jù)融合

        在VQA算法中,核心在于文本和視覺這2種模態(tài)數(shù)據(jù)的聯(lián)合表示.基于數(shù)據(jù)融合的方法將圖像和文本模態(tài)的特征向量進(jìn)行數(shù)據(jù)融合,從而得到跨模態(tài)特征表示.

        2.1.1 多模態(tài)緊湊雙線性池化(multimodal compact bilinear pooling,MCB)模型

        Fukui等[23]提出了MCB模型,這一模型利用MCB得到一個(gè)特征的聯(lián)合表示.雙線性池化方法是計(jì)算2個(gè)向量之間的外積,與元素積不同,它允許2個(gè)向量的所有元素之間的乘法交互.當(dāng)特征向量的維度較大時(shí)會(huì)導(dǎo)致學(xué)習(xí)參數(shù)的激增,因此,MCB模型使用了Count Sketch函數(shù)將外積投影到低維空間,避免了直接計(jì)算外積.

        MCB方法使用152層的ResNet作為圖像特征提取器、LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)作為文本特征提取器,然后計(jì)算問題特征向量和每個(gè)圖像網(wǎng)格特征向量之間的融合表示和每個(gè)融合向量的權(quán)重,最后將融合向量按照權(quán)重求和,這樣就得到了經(jīng)過2個(gè)模態(tài)交互的加權(quán)圖像特征表示.接著將文本向量和加權(quán)后的視覺向量再進(jìn)行一次數(shù)據(jù)融合,得到跨模態(tài)的特征表示.最終以跨模態(tài)特征作為輸入,使用一個(gè)全連接網(wǎng)絡(luò)計(jì)算每個(gè)候選問題的得分.

        MCB方法的主要特點(diǎn)是降低了雙線性池化的參數(shù)量,實(shí)現(xiàn)了文本和圖像2種模態(tài)數(shù)據(jù)的交互,并進(jìn)行了深度的數(shù)據(jù)融合.

        2.1.2 基于Hadamard積的多模態(tài)低秩雙線性池化(multimodal low-rank bilinear pooling,MLB)模型

        與線性模型相比,雙線性模型提供了更豐富的信息,也被應(yīng)用于各種視覺任務(wù),如對象識(shí)別、分割和VQA,并且也獲得了優(yōu)良的性能.然而,由于特征的維度往往很高,導(dǎo)致了雙線性表示的計(jì)算復(fù)雜性較高,這也限制了該模型的適用性.Kim等[24]提出了一種基于Hadamard積的MLB模型來實(shí)現(xiàn)有效的多模態(tài)注意力機(jī)制學(xué)習(xí)和數(shù)據(jù)融合.

        MLB將雙線性池化中的三維權(quán)重張量分解為3個(gè)二維權(quán)重矩陣,使權(quán)重張量變?yōu)榈椭葟埩?模型首先計(jì)算經(jīng)過2個(gè)權(quán)重矩陣線性投影的2個(gè)輸入特征向量的Hadamard積,并且使用非線性函數(shù)進(jìn)行激活,添加了殘差連接.在得到融合向量后,使用MLB方法得到了一個(gè)有效的面向VQA任務(wù)的視覺特征注意力機(jī)制.最后,通過另一個(gè)MLB融合文本特征和注意力加權(quán)的視覺特征,得到跨模態(tài)特征表示.

        MLB模型利用Hadamard積來降低計(jì)算的復(fù)雜性,得到了更加緊湊的特征表示,也實(shí)現(xiàn)了跨模態(tài)數(shù)據(jù)間的深度融合.

        2.1.3 多級(jí)注意力網(wǎng)絡(luò)(multi-level attention networks,MLAN)模型

        許多VQA的方法主要從抽象的低級(jí)視覺特征推斷答案,而忽略了圖像高層語義和豐富的文本語義空間的建模.Yu等[25]提出了一種MLAN,這一網(wǎng)絡(luò)通過語義注意力機(jī)制縮小不同模態(tài)數(shù)據(jù)之間的語義鴻溝,通過視覺注意力增強(qiáng)細(xì)粒度圖像特征的空間推理.

        MLAN模型包括3個(gè)部分,分別是語義注意力、上下文意識(shí)的視覺注意力和聯(lián)合注意力.語義注意力模塊的目的是從圖像中挖掘出對于回答問題更重要的概念.上下文意識(shí)的視覺注意力模塊把圖片進(jìn)行卷積計(jì)算后的特征按區(qū)域輸入到雙向GRU中,將每一步GRU中的前向和后向隱層向量組合起來,為每個(gè)區(qū)域形成一個(gè)新的特征向量.新的特征向量不僅包含了對應(yīng)區(qū)域的視覺信息,而且還包含了來自周邊區(qū)域的上下文信息.然后,將每個(gè)包含上下文信息的圖像特征加權(quán)求和.聯(lián)合注意力模塊將問題向量和學(xué)習(xí)到的視覺向量進(jìn)行融合,最終得到了跨模態(tài)的特征表示.

        MLAN模型在數(shù)據(jù)融合的過程中考慮了不同視覺特征的重要性和視覺特征的上下文語境,得到了更加優(yōu)良的數(shù)據(jù)融合特征表示.

        2.1.4 多模態(tài)塔克融合模型

        雙線性模型是VQA任務(wù)中信息融合的一種有效的方法.它有助于學(xué)習(xí)問題意義和圖像中視覺概念之間的高級(jí)關(guān)聯(lián),但也始終面臨著數(shù)據(jù)維度太大的問題.為了解決這一問題,Ben-Younes等[26]提出了多模態(tài)塔克融合模型MUTAN,這一模型通過多模態(tài)張量的塔克分解有效地實(shí)現(xiàn)了視覺和文本特征表示之間的雙線性交互.

        雙線性模型是對數(shù)據(jù)融合問題有效的解決方案,它對矢量q和v之間的雙線性相互作用進(jìn)行了編碼,即

        y=(E×1q)×2v

        (2)

        式中E為約束張量.盡管雙線性模型有很強(qiáng)的建模能力,但完全參數(shù)化的數(shù)據(jù)雙線性交互在VQA中很難實(shí)現(xiàn),因?yàn)槲谋?、視覺和輸出特征向量使用相同的維度,使得參數(shù)量變得非常龐大.因此,MUTAN使用塔克分解將式(2)重寫為

        y=((E×1(qTWq))×2(vTWv))×3Wo

        (3)

        式中Wq、Wv和Wo為可學(xué)習(xí)的投影矩陣.這一方法對q和v的投影進(jìn)行雙線性相互作用編碼.MUTAN模型在降低了計(jì)算復(fù)雜性的基礎(chǔ)上實(shí)現(xiàn)了更強(qiáng)的表現(xiàn)力,得到了較優(yōu)的預(yù)測準(zhǔn)確性.

        MCB模型和MLB模型在雙線性池化的基礎(chǔ)上進(jìn)行了改良,實(shí)現(xiàn)了跨模態(tài)數(shù)據(jù)之間的交互,計(jì)算了數(shù)據(jù)之間的高級(jí)關(guān)聯(lián).MUTAN利用塔克分解得到了表現(xiàn)力更強(qiáng)的跨模態(tài)特征表示.MLAN模型創(chuàng)新地考慮了視覺向量的上下文語境信息.

        以上幾種模型對VQA任務(wù)進(jìn)行了初步的探索,通過池化和矩陣分解的方式融合圖像和文本特征,從而得到可以預(yù)測答案的跨模態(tài)特征表示.然而,數(shù)據(jù)融合的方法缺乏對圖像和文本特征之間關(guān)聯(lián)關(guān)系的深度挖掘,缺乏對特征的精細(xì)化計(jì)算,得到的跨模態(tài)特征中冗余數(shù)據(jù)和噪聲較多.

        2.2 跨模態(tài)注意力

        視覺場景往往包含大量信息,如何利用有限的感知和計(jì)算資源從大量信息中篩選出高價(jià)值的信息是計(jì)算機(jī)視覺中的核心問題.在長期進(jìn)化中,人類形成了一種特有的大腦信號(hào)處理機(jī)制——視覺注意力機(jī)制.這一機(jī)制極大地提高了視覺信息處理的效率與準(zhǔn)確性.具體而言,當(dāng)看到一張圖片時(shí),人類視覺系統(tǒng)可以快速掃描整個(gè)圖片并獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,形成注意力焦點(diǎn),然后對目標(biāo)區(qū)域投入較多的感知和計(jì)算資源,從而獲取更多關(guān)注區(qū)域的細(xì)節(jié)信息,同時(shí)抑制其他無用信息[27].

        在VQA任務(wù)中,跨模態(tài)注意力是一種非常高效的方法.通過注意力機(jī)制,可以得到跨模態(tài)數(shù)據(jù)之間準(zhǔn)確的關(guān)聯(lián)關(guān)系和語義理解.最初,研究者利用視覺注意力機(jī)制[13,28-41]得到圖像中與問題相關(guān)的區(qū)域.之后,考慮到單向注意力機(jī)制沒有有效利用文本信息,研究者提出了基于跨模態(tài)協(xié)同注意力的方法[42-53],利用圖像和文本的雙向注意力信息挖掘出有效知識(shí).下面就典型方法進(jìn)行介紹.

        2.2.1 堆疊注意力網(wǎng)絡(luò)(stacked attention networks,SAN)模型

        Yang等[41]提出了SAN模型, 這一模型根據(jù)問題特征在圖像上進(jìn)行多步推理,最終得到圖像上的關(guān)鍵特征.

        SAN模型利用VGGNet提取圖像的特征,并利用文本卷積網(wǎng)絡(luò)或LSTM提取問題特征,得到圖像特征矩陣V和問題特征向量Q.SAN模型通過多步迭代計(jì)算的方式預(yù)測答案.首先計(jì)算以問題特征為查詢,每個(gè)視覺向量的權(quán)重公式為

        h1=tanh(WvV⊕(wqQ+b))

        (4)

        p=softmax(Wph1+bp)

        (5)

        式中:Wq和Wp為可學(xué)習(xí)的投影矩陣;b和bp為偏執(zhí)向量.基于第1次得到的視覺向量的注意力分布p,將視覺向量的權(quán)重求和,并加上文本特征形成新的查詢向量u,公式為

        (6)

        (7)

        然后,可以根據(jù)新的查詢向量進(jìn)行下一步的注意力權(quán)重分布計(jì)算,并延續(xù)到第k次,即

        (8)

        (9)

        2.2.2 由下到上和由上到下的注意力模型

        Anderson等[13]提出了由下到上和由上到下的注意力模型, 由下到上注意力模塊相當(dāng)于對整個(gè)圖片上的所有像素點(diǎn)進(jìn)行了注意力分布的計(jì)算,最終得到了包含豐富語義特征目標(biāo)級(jí)別的視覺特征.如果輸入是一張廚房的圖片,那么這一模塊可以得到很多顯著性區(qū)域,包括食物、人、湯勺、平底鍋等.以顯著性區(qū)域特征作為跨模態(tài)特征學(xué)習(xí)模塊的輸入,算法可以精確地找到視覺特征和問題特征之間的對應(yīng)關(guān)系.由上到下的注意力模塊以文本特征為查詢向量找到圖像上的關(guān)鍵區(qū)域,甚至是答案所對應(yīng)的區(qū)域.

        由下到上和由上到下的注意力模型是一個(gè)在VQA領(lǐng)域具有里程碑意義的工作,大幅提高了VQA的準(zhǔn)確性,同時(shí),其提出的目標(biāo)級(jí)別的視覺特征也讓各種任務(wù)受益.

        2.2.3 雙線性注意力網(wǎng)絡(luò)(bilinear attention networks,BAN)模型

        Kim等[49]提出了BAN模型.這一模型首先將圖像編碼為顯著性區(qū)域特征,并提取問題中每個(gè)單詞的特征.在得到圖像和文本的特征后,計(jì)算2種模態(tài)特征之間的雙線性注意力,也就是計(jì)算2組特征中兩兩之間的相似性.BAN模型通過多個(gè)雙線性特征圖按相關(guān)性的大小融合2種模態(tài)的數(shù)據(jù),在每一次融合后都添加了殘差連接.這一模型考慮了模態(tài)之間雙向的高級(jí)關(guān)聯(lián),實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)之間細(xì)粒度的交互.

        2.2.4 密集的對稱協(xié)同注意力網(wǎng)絡(luò)(dense symmetric co-attention network,DCN)模型

        Nguyen等[50]提出了DCN模型,這一模型利用協(xié)同注意力機(jī)制以改善視覺特征與文本特征的融合.得到圖像和問題后,首先計(jì)算每個(gè)單詞的特征和圖像的卷積特征,然后在DCN中執(zhí)行3種計(jì)算:1) 注意力特征圖的計(jì)算;2) 多模態(tài)特征的拼接;3) 殘差連接的整流線性單元(rectified linear unit,ReLU)映射.這些計(jì)算被封裝成一個(gè)復(fù)合的計(jì)算模塊,被稱為密集協(xié)同注意力模塊,因?yàn)樗紤]了任何圖像區(qū)域和任何問題詞之間的每一次交互.該模塊在2種模態(tài)的計(jì)算之間具有完全對稱的架構(gòu),并且可以堆疊,形成一個(gè)層次結(jié)構(gòu),使得圖像和問題數(shù)據(jù)對之間能夠進(jìn)行多步交互.

        2.2.5 動(dòng)態(tài)融合的模態(tài)內(nèi)和模態(tài)間注意力流(dynamic fusion with itra-and inter-modality attention flow,DFAF)模型

        Gao等[51]提出了DFAF模型.如圖2所示,DFAF模型整合了跨模態(tài)的自注意力和協(xié)同注意力來實(shí)現(xiàn)視覺和文本2種模態(tài)內(nèi)部和之間的有效信息流.DFAF模型首先通過模態(tài)間注意力模塊生成模態(tài)間的注意力信息流來實(shí)現(xiàn)信息的交互,在模態(tài)間注意力模塊中,視覺和語言特征生成一個(gè)聯(lián)合模態(tài)協(xié)同注意力矩陣.每個(gè)視覺區(qū)域和文本單詞根據(jù)聯(lián)合模態(tài)協(xié)同注意力矩陣選擇特征,模態(tài)間注意力模塊根據(jù)來自另一模態(tài)的注意加權(quán)信息流融合和更新每個(gè)圖像區(qū)域和每個(gè)單詞的特征.在這一模塊之后,DFAF計(jì)算動(dòng)態(tài)的模態(tài)內(nèi)注意力信息流,用于在每個(gè)模態(tài)中傳遞信息以捕獲復(fù)雜的模態(tài)內(nèi)關(guān)系.視覺區(qū)域和單詞產(chǎn)生自注意力權(quán)重,并從其他實(shí)例中按照注意力權(quán)重整合信息.在動(dòng)態(tài)的模態(tài)內(nèi)注意力模塊中,雖然信息流只在相同的模態(tài)中傳播,但是另一個(gè)模態(tài)的信息被考慮并用于調(diào)節(jié)模態(tài)內(nèi)注意力權(quán)重和信息流.

        圖2 DFAF示意圖[51]Fig.2 Schematic diagram of DFAF[51]

        DFAF模型多次堆疊模態(tài)間注意力模塊和動(dòng)態(tài)的模態(tài)內(nèi)注意力模塊,實(shí)現(xiàn)了模態(tài)間和模態(tài)內(nèi)的注意力信息流的深度交互.

        2.2.6 多模態(tài)潛在交互(multi-modality latent interaction,MLI)模型

        Gao等[52]提出了MLI模型,這一模型由一系列疊加的多模態(tài)潛在交互模塊組成,其目的是將輸入的視覺區(qū)域和問題詞信息匯總為每個(gè)模態(tài)的少量潛在具有高級(jí)語義的摘要向量.其核心思想是在潛在摘要向量之間傳播視覺和語言信息,從全局角度對復(fù)雜的跨模態(tài)交互進(jìn)行建模.在潛在交互摘要向量之間進(jìn)行信息傳播后,視覺區(qū)域和單詞特征將整合跨域摘要中的信息以更新其特征.MLI模塊的輸入和輸出具有相同的維度,整個(gè)網(wǎng)絡(luò)將MLI模塊分多個(gè)階段堆疊,逐步精煉視覺和語言特性.最后,將視覺區(qū)域和問題詞的平均池化特征進(jìn)行元素相乘后作為跨模態(tài)特征來預(yù)測最終答案.

        注意力模型在VQA任務(wù)中取得了極大的成功,大幅度提高了答案預(yù)測的準(zhǔn)確性,促進(jìn)了這一領(lǐng)域的發(fā)展.基于注意力機(jī)制的方法,通過計(jì)算模態(tài)內(nèi)數(shù)據(jù)和模態(tài)間數(shù)據(jù)的關(guān)聯(lián)關(guān)系,對數(shù)據(jù)進(jìn)行了細(xì)粒度的關(guān)聯(lián)建模,成功提取了有效信息,抑制了冗余數(shù)據(jù).

        相比于特征融合的方式,基于注意力模型的方法同時(shí)考慮了模態(tài)內(nèi)和模態(tài)間的信息流,利用多層的神經(jīng)網(wǎng)絡(luò)對信息進(jìn)行深度建模,實(shí)現(xiàn)了數(shù)據(jù)間的深度交互,得到了擁有更高級(jí)語義信息的較為精煉的特征表示.因此,基于注意力機(jī)制的方法獲得了較高的預(yù)測準(zhǔn)確性.

        2.3 知識(shí)推理

        在邏輯學(xué)中,推理是一種思維的基本形式,是由一個(gè)或幾個(gè)已知的判斷(前提)推出新判斷(結(jié)論)的過程,包含直接推理、間接推理等.人類具有強(qiáng)大的推理能力,在面對一些問題時(shí),通過深度的思考和多步的推理使問題得以解決.在人工智能領(lǐng)域,如何讓算法具有推理能力是一個(gè)核心課題.

        在VQA中,一個(gè)問題往往無法直接得出答案,問題中描述了場景和不同物體之間的聯(lián)系,因此,算法必須具備推理能力,可以根據(jù)問題描述推理判斷物體之間和物體與所處場景之間的關(guān)系.

        2.3.1 基于圖表示的VQA模型

        Teney等[54]提出了一種基于場景內(nèi)容和問題的結(jié)構(gòu)化表示的VQA系統(tǒng)模型Graph VQA.VQA中的一個(gè)關(guān)鍵挑戰(zhàn)是需要在視覺域和文本域上進(jìn)行聯(lián)合推理.

        針對每一對圖片和問題數(shù)據(jù),Graph VQA生成一個(gè)視覺場景圖和一個(gè)文本問題圖.視覺場景圖以每一個(gè)視覺向量作為節(jié)點(diǎn),2個(gè)特征之間的空間關(guān)系作為它們的連接邊;文本問題圖以每個(gè)單詞作為節(jié)點(diǎn),單詞之間的語法關(guān)系作為連接邊.GRU被用來編碼2個(gè)圖上的節(jié)點(diǎn),在多次迭代中,GRU更新每個(gè)節(jié)點(diǎn)的表示,該節(jié)點(diǎn)集成了圖中相鄰節(jié)點(diǎn)的上下文語境信息.所有圖像目標(biāo)和所有單詞的特征被成對地組合,并以注意力的形式對它們進(jìn)行加權(quán),有效地匹配了問題和場景之間的元素.經(jīng)過注意力加權(quán)的特征通過最終的分類器得到每個(gè)固定候選答案的預(yù)測分?jǐn)?shù).

        2.3.2 復(fù)合關(guān)系注意力網(wǎng)絡(luò)(composed relation attention network,CRA-Net)模型

        現(xiàn)有的VQA模型一部分利用注意力機(jī)制來定位相關(guān)的目標(biāo)區(qū)域,另一部分利用關(guān)系推理的方法來檢測目標(biāo)關(guān)系.然而,這些模型大多對簡單的關(guān)系進(jìn)行編碼,不能為回答復(fù)雜的視覺問題提供足夠的復(fù)雜知識(shí),也很少組合、利用目標(biāo)視覺特征和對象間的關(guān)系特征.

        Peng等[55]提出了CRA-Net模型,這一模型包括2個(gè)問題自適應(yīng)關(guān)系注意力模塊,不僅可以提取細(xì)粒度和精確的二元關(guān)系,而且可以提取更復(fù)雜的三元關(guān)系.這2種與問題相關(guān)聯(lián)的目標(biāo)關(guān)系都能揭示更深層次的語義,從而提高問答的推理能力.此外,CRA-Net在相應(yīng)問題的指導(dǎo)下,將目標(biāo)的視覺特征與關(guān)系特征相結(jié)合,有效地融合了這2類特征,得到了擁有豐富知識(shí)的特征表示.

        在得到圖片目標(biāo)區(qū)域特征和問題中每個(gè)單詞的特征后,CRA-Net首先利用單詞自注意力計(jì)算每個(gè)單詞的權(quán)重,然后把所有問題單詞進(jìn)行加權(quán)求和,得到問題的向量表示.接著,CRA-Net以問題向量作為語境學(xué)習(xí)目標(biāo)之間的細(xì)粒度、精確的二元關(guān)系和更復(fù)雜的三元關(guān)系.這2種問題的相關(guān)關(guān)系都能揭示更深層次的語義,提高推理能力.此外,推導(dǎo)出的三元關(guān)系將多個(gè)重要對象聯(lián)系起來,提供了一種更全面的視覺關(guān)系表示,彌補(bǔ)了二元關(guān)系對復(fù)雜關(guān)系表達(dá)的局限性.最后,融合了問題特征的單目標(biāo)注意力特征、二元關(guān)系特征和三元關(guān)系特征通過元素級(jí)的點(diǎn)積得到用于預(yù)測答案的跨模態(tài)特征.

        2.3.3 深度模塊化協(xié)同注意力網(wǎng)絡(luò)(modular co-attention networks,MCAN)模型

        VQA要求對圖像的視覺內(nèi)容和問題的文本內(nèi)容同時(shí)進(jìn)行精細(xì)的理解.因此,設(shè)計(jì)一個(gè)有效的協(xié)同注意力模型,將問題中的關(guān)鍵詞與圖像中的關(guān)鍵對象聯(lián)系起來是VQA系統(tǒng)具有良好性能的核心.到目前為止,大多數(shù)成功的協(xié)同注意力學(xué)習(xí)嘗試都是通過淺層模型實(shí)現(xiàn)的,而深度協(xié)同注意力模型與淺層模型相比幾乎沒有改善.

        Yu等[56]提出了MCAN模型,這一模型的靈感來自于Transformer模型[57].Transformer是第一個(gè)只用注意力機(jī)制搭建的自然語言處理模型,不僅計(jì)算速度更快,在翻譯任務(wù)上也獲得了更好的結(jié)果.MCAN模型是由多個(gè)協(xié)同注意力模塊組成的具有編碼和解碼兩部分的深度模塊化網(wǎng)絡(luò).每個(gè)協(xié)同注意力模塊由2個(gè)基礎(chǔ)的注意力單元組成,這2個(gè)單元對問題和圖像的自注意力以及圖像的引導(dǎo)注意力進(jìn)行建模.協(xié)同注意力的基礎(chǔ)注意力計(jì)算由多頭點(diǎn)積注意力機(jī)制組成,在給定查詢q、鍵值k和特征值v對后,可以得到經(jīng)過注意力加權(quán)后的特征值

        (10)

        式中dk為特征向量的維度,然后將不同通道拼接,公式為

        hi=Att(qWq,kWk,vWv)

        (11)

        MHead(q,k,v)=Concat(h1,…,hn)Wo

        (12)

        式中:Wq、Wk和Wv為注意力計(jì)算中的特征投影矩陣;Concat()為特征拼接函數(shù);Wo為投影矩陣.

        MCAN在編碼和解碼的框架下對跨模態(tài)數(shù)據(jù)進(jìn)行了深度的注意力編碼,取得了較高的預(yù)測精度.

        2.3.4 關(guān)系感知的圖注意力網(wǎng)絡(luò)模型

        為了回答與圖像相關(guān)的具有復(fù)雜語義的問題,VQA模型需要充分理解圖像中的視覺場景,尤其是不同對象之間的動(dòng)態(tài)交互.Li等[58]提出了關(guān)系感知的圖注意力網(wǎng)絡(luò)模型ReGAT,將每個(gè)圖像編碼成一個(gè)圖,通過圖注意力機(jī)制建立多類型的對象間關(guān)系模型,學(xué)習(xí)基于問題特征的圖像自適應(yīng)關(guān)系表示.

        ReGAT建模了2類視覺對象關(guān)系:1) 表示對象之間幾何位置和語義交互的顯式關(guān)系;2) 捕捉圖像區(qū)域間隱藏的動(dòng)態(tài)隱式關(guān)系.在得到問題特征和圖像上的目標(biāo)區(qū)域特征后,ReGAT首先將問題特征和每個(gè)目標(biāo)的特征進(jìn)行融合,得到了包含問題特征的目標(biāo)特征.利用新的目標(biāo)特征,ReGAT構(gòu)建了一個(gè)目標(biāo)之間的關(guān)系圖,并在3種尺度上學(xué)習(xí)目標(biāo)間的高級(jí)關(guān)聯(lián)關(guān)系,分別是語義關(guān)系、空間位置關(guān)系和隱藏關(guān)系.在對目標(biāo)特征進(jìn)行圖關(guān)聯(lián)學(xué)習(xí)后,融合視覺特征和問題特征進(jìn)行答案預(yù)測.

        2.3.5 多模態(tài)關(guān)系推理模型

        Cadene等[59]提出了多模態(tài)關(guān)系推理模型MUREL,這一多模態(tài)關(guān)系推理模型在問題和圖像的推理學(xué)習(xí)方面取得了領(lǐng)先的效果.MUREL由多個(gè)多模態(tài)關(guān)系單元組成,它能夠表示問題和圖像區(qū)域之間豐富的交互作用,并顯式地為區(qū)域之間的關(guān)系建模.整個(gè)模型將多模態(tài)關(guān)系單元嵌入一個(gè)迭代推理過程中,該過程逐步精煉內(nèi)部的知識(shí)表示來回答問題.通過迭代推理計(jì)算,圖像中與問題相符的二元組關(guān)系被準(zhǔn)確提取,進(jìn)而得到問題的準(zhǔn)確答案.

        2.3.6 基于線性調(diào)制的視覺推理模型

        Perez等[60]提出了一種基于線性調(diào)制模塊的視覺推理模型,利用包含調(diào)制模塊的殘差單元進(jìn)行迭代推理,實(shí)現(xiàn)對視覺信息的深度理解.

        對于給定的圖片和問題,首先提取問題向量和圖片的卷積特征,然后利用問題向量中的信息對視覺特征中不同通道的數(shù)據(jù)進(jìn)行線性映射,進(jìn)而調(diào)整卷積特征.多次使用這一調(diào)制方法,可以學(xué)習(xí)到圖像中與問題相關(guān)的特征信息.

        2.3.7 組合注意力網(wǎng)絡(luò)

        神經(jīng)網(wǎng)絡(luò)已在圖像識(shí)別、語音識(shí)別等感知層面取得巨大成功,但是在更進(jìn)一步的推理層面仍有欠缺.為解決這一問題,Hudson等[61]提出了一種記憶、關(guān)注和組合(memory, attention, and composition,MAC)網(wǎng)絡(luò)架構(gòu).

        MAC網(wǎng)絡(luò)由一個(gè)輸入神經(jīng)元、一個(gè)核心的循環(huán)神經(jīng)網(wǎng)絡(luò)以及一個(gè)輸出神經(jīng)元組成.輸入神經(jīng)元將原始圖像和問題轉(zhuǎn)化為分布式向量表征.核心的循環(huán)神經(jīng)網(wǎng)絡(luò)將問題分解為一系列運(yùn)算(也叫控制),它們可以從圖像(知識(shí)庫)中檢索信息,并將結(jié)果聚合為循環(huán)記憶.通過這些運(yùn)算,網(wǎng)絡(luò)按照序列推理問題.答案分類器使用問題特征和最終記憶狀態(tài)特征得出最終答案.

        2.3.8 基于隱式信息和符號(hào)重表示的知識(shí)推理模型

        Marino等[62]提出了一種基于隱式信息和符號(hào)重表示的知識(shí)推理模型KRISP,如圖3所示.這一模型在知識(shí)庫上集成了隱式知識(shí)和基于顯式圖的推理.隱式知識(shí)模型接受視覺特征和問題編碼,而顯式知識(shí)模型處理圖像和問題符號(hào).

        KRISP首先對自然語言處理算法無監(jiān)督學(xué)習(xí)得到的隱式知識(shí)進(jìn)行預(yù)訓(xùn)練,并利用基于Transformer的模型進(jìn)行監(jiān)督訓(xùn)練;然后利用知識(shí)圖譜對符號(hào)知識(shí)進(jìn)行編碼;最后對這2種知識(shí)進(jìn)行知識(shí)推理計(jì)算和融合學(xué)習(xí).

        圖3 KRISP示意圖[62]Fig.3 Schematic diagram of KRISP[62]

        基于知識(shí)推理的方法在VQA任務(wù)中取得了突破性的進(jìn)展,這一類方法結(jié)合跨模態(tài)注意力機(jī)制和推理學(xué)習(xí)的思路對圖像和問題的聯(lián)合輸入數(shù)據(jù)進(jìn)行推理學(xué)習(xí),進(jìn)而取得了較高的準(zhǔn)確率.

        基于注意力機(jī)制的方法注重于對數(shù)據(jù)的關(guān)聯(lián)關(guān)系進(jìn)行建模,面對較為復(fù)雜的場景,答案通常無法直接得出,必須根據(jù)多組特征之間的關(guān)聯(lián)信息推理得出,因此,由單純的關(guān)聯(lián)建模得到的特征仍然包含較多的冗余數(shù)據(jù).

        基于知識(shí)推理的方法通過推理計(jì)算在提煉有效信息的基礎(chǔ)上大大減少了特征中的冗余數(shù)據(jù),同時(shí),可以對特征之間的多元關(guān)系進(jìn)行建模學(xué)習(xí).這類方法通常對輸入數(shù)據(jù)進(jìn)行多步迭代計(jì)算,對信息進(jìn)行逐步地建模和推理學(xué)習(xí),進(jìn)而得到較優(yōu)的跨模態(tài)特征表示.

        2.4 基于視頻的VQA

        視頻問答是VQA領(lǐng)域的一個(gè)新興課題,由于其在人工問答系統(tǒng)、機(jī)器人對話、視頻檢索等方面的廣泛應(yīng)用,近年來受到越來越多的關(guān)注.與基于圖像的問答任務(wù)不同,視頻問答更加實(shí)用,因?yàn)檩斎氲囊曈X信息經(jīng)常動(dòng)態(tài)變化.

        與圖像問答相比,視頻問答更具有挑戰(zhàn)性.視頻中的視覺內(nèi)容更為復(fù)雜,一個(gè)視頻可能包含數(shù)千幀.視頻中經(jīng)常包含多種動(dòng)作,但只有一部分動(dòng)作是關(guān)注者感興趣的.視頻問答任務(wù)中的問題往往包含著與時(shí)間線索有關(guān)的信息,這意味著在進(jìn)行答案推理時(shí),既要考慮目標(biāo)的時(shí)間位置,又要考慮目標(biāo)之間的復(fù)雜交互作用.

        Huang等[63]提出了位置意識(shí)的圖卷積網(wǎng)絡(luò)模型來完成視頻問答任務(wù).這一模型整合視頻中目標(biāo)的位置信息,構(gòu)建具有位置意識(shí)的圖,在圖中每個(gè)節(jié)點(diǎn)都由其特征向量和位置特征進(jìn)行聯(lián)合表示.基于所構(gòu)造的圖,這一模型使用圖卷積來推斷動(dòng)作的類別和時(shí)間位置.由于圖形是建立在對象上的,因此,該方法能夠聚焦于前景的動(dòng)作內(nèi)容,以便更好地進(jìn)行視頻問答.

        Jiang等[64]提出了一種問題引導(dǎo)的時(shí)空上下文注意力網(wǎng)絡(luò)模型.這一模型將問題產(chǎn)生的語義特征分為兩部分:空間部分和時(shí)間部分,分別從空間和時(shí)間2個(gè)維度指導(dǎo)語境注意力的構(gòu)建過程.在相應(yīng)的語境注意力的引導(dǎo)下,視覺特征可以在空間和時(shí)間維度上得到更好的利用.

        3 VQA數(shù)據(jù)集

        1) Visual Genome[14]:該數(shù)據(jù)集包含108 077張圖片、1 445 233個(gè)圖片和問題的數(shù)據(jù)對,圖像來源為YFCC100M和COCO數(shù)據(jù)集,共有約540萬張圖像中的區(qū)域描述信息,這些信息能夠達(dá)到精細(xì)的語義層次,問題類型是6W(what、 where、 how、 when、 who、 why).

        2) VQA-v1[65]:訓(xùn)練集包含82 783張圖片、248 349個(gè)問題和2 483 490個(gè)答案.驗(yàn)證集包含40 504張圖片、121 512個(gè)問題和1 215 120個(gè)答案.測試集包含81 434張圖片和244 302個(gè)問題.數(shù)據(jù)集中的圖片來源于COCO數(shù)據(jù)集.

        3) VQA-v2[66]:訓(xùn)練集包含82 783張圖片、443 757個(gè)問題和4 437 570個(gè)答案.驗(yàn)證集包含40 504張圖片、214 354個(gè)問題和2 143 540個(gè)答案.測試集包含81 434張圖片和447 793個(gè)問題.數(shù)據(jù)集中的圖片來源于COCO數(shù)據(jù)集.

        4) CLEVR[67]:該數(shù)據(jù)集包含10萬張經(jīng)過渲染的圖像和大約100萬個(gè)自動(dòng)生成的問題,其中有85.3萬個(gè)問題是互不相同的.其中包含了測試計(jì)數(shù)、比較、邏輯推理和在記憶中存儲(chǔ)信息等視覺推理能力的圖像和問題.盡管CLEVR中的圖像可能看起來很簡單,但它的問題卻很復(fù)雜,需要一系列的推理能力.例如:歸納未見過的物體和屬性的組合可能需要分解表征;計(jì)數(shù)或比較這樣的任務(wù)可能需要短期記憶或關(guān)注特定的物體;以多種方式結(jié)合多個(gè)子任務(wù)的問題可能需要組合式系統(tǒng)來回答.

        5) TGIF-QA[68]:該數(shù)據(jù)集包含72 000個(gè)的動(dòng)畫GIF文件和165 000個(gè)的問答對.這個(gè)數(shù)據(jù)集提供了4種任務(wù)來處理視頻的獨(dú)特屬性.重復(fù)計(jì)數(shù)是檢索一個(gè)動(dòng)作的出現(xiàn)次數(shù).重復(fù)動(dòng)作是一項(xiàng)任務(wù),用于識(shí)別在多項(xiàng)選擇中重復(fù)給定次數(shù)的動(dòng)作.狀態(tài)轉(zhuǎn)換是一項(xiàng)多項(xiàng)選擇任務(wù),用于根據(jù)動(dòng)作狀態(tài)的時(shí)間順序確定動(dòng)作.幀定位是在視頻中找到一個(gè)能回答問題的特定幀.

        6) MSRVTT-QA[69]: 該數(shù)據(jù)集包含10 000個(gè)視頻和243 000個(gè)問答對.這些問題由5種類型組成,包括what、who、how、when和where.視頻的長度為10~30 s.

        4 方法對比

        在表1和表2中分別對多種方法在VQA-v1和VQA-v2數(shù)據(jù)庫上的準(zhǔn)確率進(jìn)行對比.可以看出,數(shù)據(jù)融合的方法取得了初步的結(jié)果,基于跨模態(tài)的注意力的方法可以學(xué)習(xí)到更加精確的數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,準(zhǔn)確率高于數(shù)據(jù)融合的方法.基于知識(shí)推理的方法利用了推理的思路,經(jīng)過多次迭代的推理計(jì)算來學(xué)習(xí)更加有效的信息,也取得了最好的結(jié)果.

        表1 VQA-v1數(shù)據(jù)庫上的準(zhǔn)確率對比

        表2 VQA-v2數(shù)據(jù)庫上的準(zhǔn)確率對比

        5 結(jié)論

        綜上所述,目前VQA方法研究的核心問題有2點(diǎn):視覺和文本數(shù)據(jù)的特征表示、多模態(tài)特征聯(lián)合學(xué)習(xí).由于細(xì)粒度的特征表示可以提供豐富的細(xì)節(jié)語義信息,這一表示方法也取得了較好的效果.然而,對于圖像的特征表示還有不足之處,目前,還沒有找到能夠準(zhǔn)確提取和表示圖像語義信息的方法.在多模態(tài)特征聯(lián)合學(xué)習(xí)中,注意力機(jī)制發(fā)揮了重要作用,這一機(jī)制可以深度挖掘模態(tài)間和模態(tài)內(nèi)信息之間的關(guān)聯(lián)關(guān)系,因此,取得了較好的效果.但是,注意力機(jī)制缺乏推理學(xué)習(xí)的能力,對于包含復(fù)雜語義信息的圖像和文本信息其無法有效學(xué)習(xí)2種跨模態(tài)數(shù)據(jù)之間的語義關(guān)聯(lián)關(guān)系.面對這一問題,知識(shí)推理的方法通過多步迭代的推理學(xué)習(xí)對多模態(tài)的信息進(jìn)行語義學(xué)習(xí)和關(guān)聯(lián)學(xué)習(xí),可以挖掘出深層次的關(guān)聯(lián)信息.

        本文結(jié)合現(xiàn)有的VQA方法,對未來的有潛力的研究方向進(jìn)行展望.

        1) 在特征表示方面,研究者一直在探索圖像的特征表示方法,在VQA中,圖像的特征提取也是一個(gè)重要環(huán)節(jié).目前,基于卷積網(wǎng)絡(luò)的網(wǎng)格特征和基于目標(biāo)檢測方法的區(qū)域特征均有所不足,這2種特征都無法充分保留全局語義信息和細(xì)粒度語義信息,在如何提取適用于VQA任務(wù)、精度高并包含細(xì)粒度語義信息的圖像特征方面具有較大的研究價(jià)值.在圖像的特征表示過程中結(jié)合知識(shí)圖譜進(jìn)行結(jié)構(gòu)化的特征提取和表示是一個(gè)值得探索的方向.

        2) 在跨模態(tài)特征學(xué)習(xí)方面,知識(shí)推理的方向具有較大的研究價(jià)值.多年來,研究者都在探索知識(shí)的表示和推理學(xué)習(xí)的方法,人類面對復(fù)雜問題展現(xiàn)出強(qiáng)大的推理能力,通過推理分析得到解決辦法.在VQA中推理也非常重要,推理的方法可以對特征之間的復(fù)雜關(guān)系進(jìn)行提取和建模.結(jié)合知識(shí)圖譜中的先驗(yàn)知識(shí)來解答真實(shí)場景中的VQA任務(wù)是一個(gè)有價(jià)值的研究方向.如何利用跨模態(tài)的知識(shí)圖譜對視覺特征和文本問題進(jìn)行有效的推理計(jì)算具有較大的研究潛力.

        猜你喜歡
        注意力模態(tài)特征
        讓注意力“飛”回來
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产99视频一区二区三区| 亚洲永久精品ww47| 久久精品国产热| 国产av一区二区三区香蕉| 偷拍一区二区三区四区| 国产精品亚洲αv天堂无码| 国内精品视频一区二区三区| 中文字幕有码高清| 亚洲一区二区三区视频免费看| 日韩精品真人荷官无码| 国产免费一区二区三区在线观看| 亚洲AV无码一区二区三区精神| 国产激情一区二区三区不卡av | 97久人人做人人妻人人玩精品| 天天摸日日摸狠狠添| 欧美日韩一区二区三区视频在线观看 | 人人妻人人爽人人做夜欢视频九色 | 精品国产18禁久久久久久久| 亚洲综合天堂av网站在线观看 | 小雪好紧好滑好湿好爽视频| 乱人伦视频中文字幕| 精品视频在线观看一区二区三区 | 中文字幕人成乱码中文乱码| av免费不卡一区二区| 激性欧美激情在线| 精品人妻VA出轨中文字幕| 一区二区在线观看日本免费| 免费a级毛片18禁网站免费| 国产啪精品视频网站| 98精品国产高清在线xxxx| 精品乱色一区二区中文字幕| 国产成人亚洲精品无码av大片| 欧美激情五月| 亚洲一区二区三区av无| 深夜放纵内射少妇| 黄又色又污又爽又高潮动态图| 亚洲av熟女天堂系列| 国产成人久久精品一区二区三区 | 中文精品久久久久中文| 五月激情四射开心久久久| 亚洲精品无码av人在线播放|