亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模態(tài)語義增強的跨模態(tài)食譜檢索方法

        2024-04-29 00:00:00李明周棟雷芳曹步清
        計算機應(yīng)用研究 2024年4期
        關(guān)鍵詞:特征提取

        摘 要:在跨模態(tài)食譜檢索任務(wù)中,如何有效地對模態(tài)進行特征表示是一個熱點問題。目前一般使用兩個獨立的神經(jīng)網(wǎng)絡(luò)分別獲取圖像和食譜的特征,通過跨模態(tài)對齊實現(xiàn)跨模態(tài)檢索。但這些方法主要關(guān)注模態(tài)內(nèi)的特征信息,忽略了模態(tài)間的特征交互,導(dǎo)致部分有效模態(tài)信息丟失。針對該問題,提出一種通過多模態(tài)編碼器來增強模態(tài)語義的跨模態(tài)食譜檢索方法。首先使用預(yù)訓(xùn)練模型提取圖像和食譜的初始語義特征,并借助對抗損失縮小模態(tài)間差異;然后利用成對跨模態(tài)注意力使來自一個模態(tài)的特征反復(fù)強化另一個模態(tài)的特征,進一步提取有效信息;接著采用自注意力機制對模態(tài)的內(nèi)部特征進行建模,以捕捉豐富的模態(tài)特定語義信息和潛在關(guān)聯(lián)知識;最后,引入三元組損失最小化同類樣本間的距離,實現(xiàn)跨模態(tài)檢索學(xué)習(xí)。在Recipe 1M數(shù)據(jù)集上的實驗結(jié)果表明,該方法在中位數(shù)排名(MedR)和前K召回率(R@K)等方面均優(yōu)于目前的主流方法,為跨模態(tài)檢索任務(wù)提供了有力的解決方案。

        關(guān)鍵詞:跨模態(tài)食譜檢索; 特征提??; 模態(tài)語義增強; 多模態(tài)編碼器

        中圖分類號:TP391文獻標(biāo)志碼: A文章編號:1001-3695(2024)04-025-1131-07

        doi:10.19734/j.issn.1001-3695.2023.07.0350

        Cross-modal recipe retrieval method based on modality semantic enhancement

        Li Ming Zhou Dong2, Lei Fang Cao Buqing1

        Abstract:Effectively representing features of modalities is a hot issue in cross-modal recipe retrieval. The current methods generally adopt two independent neural networks to extract the features of images and recipes respectively, achieving retrieval through cross-modal alignment. However, these methods mainly focus on the intra-modal information and ignore the inter-modal interactions, resulting in the loss of some effective modality information. To address the problem,this paper proposed a cross-modal recipe retrieval method to enhance modality semantics through multimodal encoders. Firstly, it used a pre-trained model to extract initial semantic features of images and recipes and utilizing modality alignment to reduce the inter-model differences. Secondly, it employed the pairwise cross-modal attention to repeatedly reinforce the features of one modality by using features from another modality, extracted valid information. Thirdly,it used the self-attention mechanism to modal the internal features of modalities to capture rich modality-specific semantic information and potential associations. Finally, it introduced the triplet loss to minimize the distance between similar samples, achieved cross-modal retrieval learning. Experimental results on Recipe 1M dataset show that the proposed approach outperforms the current mainstream methods in terms of median ranking(MedR) and recall rate at top K(R@K), providing a powerful solution for cross-modal retrieval tasks.

        Key words:cross-modal recipe retrieval; feature extraction; modality semantic enhancement; multimodal encoder

        0 引言

        食物[1]對人類的生活、健康和福祉都有著極其深遠的影響。隨著社交網(wǎng)絡(luò)以及移動應(yīng)用的發(fā)展,涌現(xiàn)了大量與食物相關(guān)的數(shù)據(jù),例如食物圖像和烹飪食譜等。得益于這些豐富的食物數(shù)據(jù),食物計算成為了一個熱門的研究課題[2]。在該領(lǐng)域中,跨模態(tài)食譜檢索是一項重要的任務(wù),旨在實現(xiàn)烹飪食譜與食物圖像之間的相互檢索[3]。當(dāng)人們面對數(shù)以億計的圖像和食譜時,跨模態(tài)食譜檢索可以幫助人們快速且有效地找到所需的食物信息。

        目前,跨模態(tài)食譜檢索的實現(xiàn)主要包括特征提取和跨模態(tài)對齊兩個過程。其中,特征提取是跨模態(tài)食譜檢索任務(wù)的基石,在該階段學(xué)習(xí)到的模態(tài)特征的質(zhì)量直接影響檢索性能;模態(tài)對齊階段旨在捕獲不同模態(tài)間的交互信息,以生成增強的模態(tài)表示?,F(xiàn)有的大多數(shù)檢索方法[3~13]主要使用兩個不同的深度神經(jīng)網(wǎng)絡(luò)分別提取圖像特征和食譜特征,并通過跨模態(tài)對齊實現(xiàn)不同模態(tài)數(shù)據(jù)間的相互檢索[14]。Carvalho等人[4]提出一種用于學(xué)習(xí)語義文本-圖像嵌入的多模態(tài)神經(jīng)網(wǎng)絡(luò)模型,以實現(xiàn)文本和圖像信息的有效融合和對齊,其中圖像分支由ResNet-50[15]組成,文本分支由word2vec[16]和長短期記憶(long short-term memory recurrent,LSTM)網(wǎng)絡(luò)[17]組成。Wang等人[6]提出對抗性跨模態(tài)嵌入方法(ACME),其目標(biāo)是學(xué)習(xí)不同模態(tài)間的公共嵌入特征空間,在模型的前向傳播過程中,食物圖像和食譜分別使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[18]和LSTM進行編碼,以獲得高級視覺特征和高級食譜特征。Fu等人[8]提出MCEN模型,通過將圖像和文本投影到同一嵌入空間中來學(xué)習(xí)不同模態(tài)的嵌入,并引入隨機變量顯式地利用文本和視覺特征之間的相互作用,以實現(xiàn)跨模態(tài)對齊。這些方法雖然取得了一定成效,但它們在特征學(xué)習(xí)過程中獨立地對單模態(tài)數(shù)據(jù)進行編碼,主要關(guān)注模態(tài)內(nèi)部的特征信息,忽略了模態(tài)間的交互信息,未能充分挖掘跨模態(tài)數(shù)據(jù)特征,導(dǎo)致部分有效信息丟失。

        雖然圖像和食譜的數(shù)據(jù)形式不同,但它們的關(guān)鍵信息通常是同時出現(xiàn)、相互關(guān)聯(lián)且互相補充的,單獨對不同模態(tài)的特征進行建??赡軣o法很好地表示不同模態(tài)間的關(guān)系。因此,深度挖掘圖像和食譜之間潛在的關(guān)聯(lián)語義信息,以彌補因模態(tài)限制產(chǎn)生的信息缺失,從而增強模態(tài)特征,對于實現(xiàn)不同模態(tài)數(shù)據(jù)間的精準(zhǔn)檢索具有積極意義。

        基于此,本文提出一種通過多模態(tài)編碼器來增強模態(tài)語義的跨模態(tài)食譜檢索方法(modality alignment-based cross-modal retrieval,MACMR)。該方法首先使用視覺Transformer(vision transformer,ViT)模型[19]和BERT(bidirectional encoder representations from Transformers)模型[20]分別提取圖像和食譜的初始語義特征,并利用對抗損失[21]對齊它們的特征分布,以縮小因?qū)δB(tài)獨立編碼帶來的特征間差異。然后,通過跨模態(tài)注意力機制,使來自一個模態(tài)的特征反復(fù)強化另一個模態(tài)的特征,實現(xiàn)圖像和食譜之間的充分交互,進一步提取有效信息,實現(xiàn)穩(wěn)固的表征學(xué)習(xí)。接著,基于自注意力機制對各模態(tài)內(nèi)的信息進行建模,以獲得豐富的模態(tài)特定語義信息和潛在關(guān)聯(lián)知識,從而增強圖像和食譜的特征表示。最后,引入三元組損失,使同類樣本更加接近,不同樣本更加分離,實現(xiàn)跨模態(tài)檢索學(xué)習(xí)。

        本文的主要貢獻如下:

        a) 提出了一種基于模態(tài)語義增強的跨模態(tài)食譜檢索方法,利用成對的堆疊跨模態(tài)注意力網(wǎng)絡(luò)和自注意力機制構(gòu)建多模態(tài)編碼器,以同時捕捉模態(tài)內(nèi)和模態(tài)間信息,從而豐富模態(tài)的語義表示,有效解決了現(xiàn)有方法中存在的模態(tài)信息丟失問題。

        b)提出將模態(tài)對齊嵌入到特征提取過程中,即在跨模態(tài)交互前利用對抗學(xué)習(xí)從全局角度實現(xiàn)不同模態(tài)間的初步對齊,從而彌合因?qū)Σ煌B(tài)獨立編碼導(dǎo)致的模態(tài)間差異,同時使得多模態(tài)編碼器可以更容易地學(xué)習(xí)圖像和食譜之間的交互。

        c) 在大規(guī)?;鶞?zhǔn)數(shù)據(jù)集Recipe 1M[3]上的實驗結(jié)果表明,本文方法在中位數(shù)排名(MedR)和前K召回率(R@K)等方面均優(yōu)于基線方法,驗證了其在跨模態(tài)食譜檢索任務(wù)中的有效性。

        1 相關(guān)工作

        多模態(tài)食物數(shù)據(jù)的急劇增長,推動了人們對跨模態(tài)食譜檢索方法的研究[22]。在該任務(wù)中,通常需要檢索具有特殊屬性的食物圖像和食譜文本,因此,有效且準(zhǔn)確地提取圖像特征和食譜特征是實現(xiàn)跨模態(tài)食譜檢索任務(wù)的關(guān)鍵。

        近年來,深度學(xué)習(xí)在視覺和自然語言處理領(lǐng)域中不斷取得突破,大量基于深度神經(jīng)網(wǎng)絡(luò)的特征提取方法被應(yīng)用在跨模態(tài)食譜檢索任務(wù)中[3,4,6~9,11],如使用LSTM提取食譜文本特征[3,4],使用殘差神經(jīng)網(wǎng)絡(luò)(residual neural network,ResNet)[15]提取食物圖像特征[6,7]。然而,這些方法大多關(guān)注食譜和圖像的全局特征,忽略了信息豐富的細粒度區(qū)域,因此需要考慮利用多模態(tài)數(shù)據(jù)的細粒度信息作為補充以進一步改善特征表示。

        一些研究[11~13,23~25]開始嘗試通過深入理解食譜信息來改善食譜嵌入學(xué)習(xí)。Wang等人[6]將自注意力機制與LSTM相結(jié)合,在不需要食物圖像的情況下,學(xué)習(xí)具有較強辨別力的食譜特征。Salvador等人[23]利用層級Transformer作為食譜編碼器對食譜的標(biāo)題、原材料和操作說明進行編碼,并引入一種自監(jiān)督損失函數(shù)實現(xiàn)跨模態(tài)檢索,該損失函數(shù)可以利用食譜內(nèi)部語義關(guān)系。Zan等人[24]對食譜標(biāo)題、原材料、操作說明進行句子級編碼,并利用注意力機制從食物圖像中選擇有效特征,將兩者結(jié)合后,采用對抗學(xué)習(xí)策略增強模態(tài)對齊。Pham等人[25]引入Tree-LSTM作為文本編碼器,使得模型可以在無監(jiān)督情況下識別食譜中的原材料和操作說明,并學(xué)習(xí)更有意義的食譜特征表示。Li等人[10]提出一種名為HF-ICMA的檢索模型,以學(xué)習(xí)準(zhǔn)確的圖像-食譜相似性。該模型包含食譜融合模塊和圖像-食譜融合模塊,前者關(guān)注食譜中原材料與操作說明間的相互關(guān)系,后者探索細粒度圖像區(qū)域與食譜中原材料間的潛在關(guān)系,兩者共同從局部和全局方面得出最終的圖像-食譜相似性。Xie等人[12]提出了一種多模態(tài)語義增強聯(lián)合嵌入方法(MSJE),從食譜的標(biāo)題、原材料和操作說明中提取TFIDF特征,并將其與從LSTM中提取的食譜序列特征相結(jié)合,以確定單詞序列的重要性并捕獲食譜與圖像之間的關(guān)系,從而改善圖像模態(tài)的特征并增強類別語義。Voutharoja等人[13]提出了一種基于掩碼增強的局部匹配網(wǎng)絡(luò)(MALM),其中圖像與文本進行局部匹配,以明確細粒度的跨模態(tài)對應(yīng)關(guān)系,該匹配模塊與所設(shè)計的掩碼自蒸餾模塊相互促進,從而學(xué)習(xí)具有更好泛化能力的通用跨模態(tài)表示。針對食物圖像和食譜文本,上述方法大多采用兩個不同的神經(jīng)網(wǎng)絡(luò)對不同模態(tài)數(shù)據(jù)進行語義表示學(xué)習(xí)。雖然保留了大量模態(tài)內(nèi)的原始特征信息,但缺乏對圖像和食譜之間交互作用的深入挖掘,導(dǎo)致部分有效模態(tài)信息丟失。

        目前,Transformer[26]廣泛應(yīng)用于多模態(tài)任務(wù)[27]、視覺任務(wù)[19]和表示學(xué)習(xí)[28,29]中。Tsai等人[27]提出了一種用于分析人類多模態(tài)語言序列的多模態(tài)Transformer模型,通過關(guān)注其他模態(tài)中的低級特征來融合多模態(tài)信息。Dosovitskiy等人[19]提出了ViT模型,將圖像轉(zhuǎn)換成Transformer結(jié)構(gòu)可以處理的序列數(shù)據(jù),利用自注意力機制學(xué)習(xí)圖像的特征表示。然而,上述模型的架構(gòu)與標(biāo)準(zhǔn)的Transformer不同,它們不采用編碼器-解碼器結(jié)構(gòu),而僅基于Transformer的編碼過程?;赥ransformer的編碼器可以直接對圖像和文本進行操作,生成嵌入向量,并且不同模態(tài)的信息在轉(zhuǎn)換成向量后,可以直接在Transformer的輸入端進行融合。

        基于此,本文提出了一種基于Transformer編碼過程的多模態(tài)編碼器,實現(xiàn)對圖像和食譜數(shù)據(jù)的深度特征挖掘,從而提取更準(zhǔn)確和更豐富的特定于模態(tài)以及模態(tài)間共享的特征,進而提高跨模態(tài)食譜檢索的準(zhǔn)確性。

        2 問題定義

        跨模態(tài)食譜檢索任務(wù)要求根據(jù)一種模態(tài)的數(shù)據(jù)(如食譜文本)檢索出另一種與之相關(guān)的模態(tài)數(shù)據(jù)(如食物圖像),并對檢索結(jié)果進行排序。其中,食譜文本包括原材料和操作說明。本文將圖像-食譜對表示為(vi,ri),其中i=1,2,…,N,vi∈V為食物圖像, ri∈R為食譜(V、R分別與圖像域和食譜域?qū)?yīng))。雖然食物圖像和食譜文本所表達的含義一致,但它們屬于兩種不同的模態(tài)數(shù)據(jù),所以vi和ri的特征分布存在一定差異,導(dǎo)致兩者無法直接進行相似度度量。因此,本文的目標(biāo)是分別學(xué)習(xí)兩個映射函數(shù)V→Ev和R→Er,使位于不同特征空間的模態(tài)數(shù)據(jù)vi和ri映射到同一個公共子空間中,以直接進行相似度計算,從而實現(xiàn)跨模態(tài)檢索。其中,Ev∈Euclid ExtraaBpn×d,Er∈Euclid ExtraaBpn×d分別表示最終的圖像嵌入和食譜嵌入,d為學(xué)習(xí)到的嵌入向量的維度,n為樣本個數(shù)。

        3 跨模態(tài)食譜檢索方法

        圖1為本文提出的基于模態(tài)語義增強的跨模態(tài)食譜檢索模型的總體框架。該模型由初始嵌入生成組件、模態(tài)對齊組件、多模態(tài)編碼器組件和跨模態(tài)學(xué)習(xí)組件四部分組成。首先,在初始嵌入生成組件中,分別使用預(yù)訓(xùn)練模型ViT[19]和BERT[20]對原始圖像vi和食譜ri進行編碼,得到對應(yīng)的初始語義特征向量 S v和 S r。其次,將初始特征輸入到模態(tài)對齊組件中,利用對抗損失[21]對圖像和食譜進行模態(tài)對齊,彌合因獨立編碼導(dǎo)致的模態(tài)間差異,獲得對齊后的圖像嵌入 H v和食譜嵌入 H r。然后,將對齊后的特征嵌入輸入到多模態(tài)編碼器組件中, 對圖像和食譜進行深度特征挖掘,得到包含豐富語義信息和交互信息的特征向量 Z v和 Z r。接著,通過一個權(quán)值共享的全連接層,將特征向量轉(zhuǎn)換為最終的圖像表示 E v和食譜表示 E r。最后,在跨模態(tài)學(xué)習(xí)組件中通過最小化三元組損失函數(shù),促使模型學(xué)習(xí)到更好的特征表示,從而實現(xiàn)跨模態(tài)檢索學(xué)習(xí)。

        3.1 初始嵌入生成

        雖然CNN能有效提取圖像的局部特征,但是其模型結(jié)構(gòu)復(fù)雜且訓(xùn)練時間較長[30]。為了提高訓(xùn)練效率并減少訓(xùn)練參數(shù)量,本文使用在ImageNet數(shù)據(jù)集[31]上預(yù)訓(xùn)練的ViT模型[19]提取食物圖像的初始語義特征。先將食物圖像裁剪為固定大小的圖像塊并對其進行線性映射,然后輸入到Transformer編碼器中,得到食物圖像的初始嵌入,用 S v=( s v s v2,…, s vn)表示,

        3.2 模態(tài)對齊

        由于圖像和食譜的初始特征由兩個不同的神經(jīng)網(wǎng)絡(luò)獨立編碼得到,導(dǎo)致它們的特征存在于各自的空間中。由此帶來的模態(tài)間差異,使得多模態(tài)編碼器難以直接學(xué)習(xí)它們之間的交互信息。為解決該問題,本文將模態(tài)對齊嵌入到圖像和食譜的特征提取過程中,通過最小化跨模態(tài),促進多模態(tài)編碼器可以更容易地挖掘不同模態(tài)間的交互特征,從而使得模型能夠充分學(xué)習(xí)圖像與食譜之間的互補信息和關(guān)聯(lián)知識。

        目前的相關(guān)研究[6,7,32,33]大多利用生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[34]來彌合圖像和食譜之間的差異,從而提高跨模態(tài)食譜檢索的性能。然而,在訓(xùn)練階段,GAN存在一定的不穩(wěn)定性。為解決該問題,Gulrajani等人[21]提出了基于梯度懲罰的Wasserstein生成對抗網(wǎng)絡(luò)(WGAN-GP)。受此啟發(fā),本文將生成對抗網(wǎng)絡(luò)WGAN-GP作為模態(tài)對齊組件來實現(xiàn) S v和 S r間的跨模態(tài)對齊。對于語義相似的食物圖像和食譜,對抗學(xué)習(xí)試圖實現(xiàn)一種特征表示,使得經(jīng)過訓(xùn)練的鑒別器DM無法區(qū)分特征表示是來自食譜文本還是食物圖像,從而有效地減小圖像和食譜之間的差異。在該模塊中,對抗損失函數(shù)LMA計算公式為

        其中:DM表示判別器; S v(v)和 S r(r)分別表示從初始嵌入生成組件中獲取的食物圖像和食譜文本的初始特征序列,將 S v(v)作為真實數(shù)據(jù), S r(r)作為由生成器生成的假數(shù)據(jù)。當(dāng)判別器DM無法判別出特征向量是來自食物圖像還是食譜時,即判別概率為0.5時,對抗學(xué)習(xí)過程結(jié)束,此時也可以認為 S v(v)和 S r(r)對齊。

        3.3 多模態(tài)編碼器

        多模態(tài)編碼器組件由多層跨模態(tài)注意力模塊(cross-modal attention)和自注意力模塊(self-attention)組成。

        在多層跨模態(tài)注意力模塊中,利用成對的堆疊跨模態(tài)注意力網(wǎng)絡(luò)來建模模態(tài)間的交互作用。這些網(wǎng)絡(luò)通過學(xué)習(xí)跨模態(tài)特征注意力,利用來自源模態(tài)的特征反復(fù)強化目標(biāo)模態(tài)的特征,實現(xiàn)圖像和食譜之間的充分交互和信息融合。在跨模態(tài)注意力模塊的每一層中,任意一個模態(tài)都能接收自身與另一模態(tài)之間細粒度關(guān)系所提供的信息?;谶@些細粒度信息,模型可以更加關(guān)注源模態(tài)與目標(biāo)模態(tài)之間的對應(yīng)部分。在該模塊,本文采用多頭注意力機制,這與單頭注意力機制[26]有所不同。單頭注意力機制使用向量的全部維度進行計算,而多頭注意力機制則是先將向量的維度分為多個矩陣,然后對每個矩陣進行點積計算,僅利用原始向量的部分信息。這使得模型可以同時關(guān)注不同位置的信息,從多個角度捕捉更加精準(zhǔn)的潛在相關(guān)性,促進模型更好地理解和表示圖像與食譜文本之間的關(guān)聯(lián)信息。

        其中:查詢的值來自一種模態(tài)(源模態(tài)),鍵和值的值來自另一種模態(tài)(目標(biāo)模態(tài))。目標(biāo)模態(tài)的信息被轉(zhuǎn)換成不同的鍵值對,并與源模態(tài)的查詢進行注意力計算,實現(xiàn)了源模態(tài)與目標(biāo)模態(tài)間更加細粒度的交互,從而促進不同模態(tài)間的信息更好地相互融合和傳遞。

        本文使用D層多頭跨模態(tài)注意力,其通過計算多個注意力頭來捕捉不同模態(tài)之間的相關(guān)性,以獲得增強的跨模態(tài)表示。以使用圖像特征增強食譜特征為例(圖2),在計算過程中,每層跨模態(tài)注意力都會接收來自上一層的輸出 Z [i-1]v→r,并將其與當(dāng)前層的輸入 H v進行融合,以生成新的輸出。該過程會在多個層中重復(fù)進行,直到最后一層。隨著該過程的進行,文本模態(tài)會根據(jù)圖像模態(tài)的信息不斷更新自己的特征序列。在模態(tài)交互結(jié)束后,將交互后的信息輸入前饋神經(jīng)網(wǎng)絡(luò),并進行層歸一化操作,得到最終的增強模態(tài)表示。多模態(tài)編碼器中從第一層到第D層的計算公式為

        其中: ME [i],mulv→r表示在第i層(1≤i≤D)的 ME v→r的多頭形式;LN表示層歸一化操作;fθ是θ參數(shù)化的前饋子層,用于計算不同模態(tài)間的相關(guān)性。在該過程中,每個模態(tài)都可以利用來自多頭跨模態(tài)注意力的外部信息不斷更新其序列,生成更豐富和準(zhǔn)確的跨模態(tài)表示。

        3.4 跨模態(tài)學(xué)習(xí)

        最近的研究[4,6,23,33]表明,三元組損失在跨模態(tài)檢索任務(wù)中取得了不錯的效果。Carvalho等人[4]提出使用雙向LSTM模型學(xué)習(xí)文本語義表征,并基于排序損失函數(shù)和三元組學(xué)習(xí)函數(shù)獲取文本和圖像的一致性語義表示。Wang等人[6]提出一種名為ACME的對抗性跨模態(tài)嵌入方法,使用生成對抗網(wǎng)絡(luò)實現(xiàn)跨模態(tài)對齊和兩種模態(tài)的翻譯一致性,以學(xué)習(xí)兩種模態(tài)之間的共同嵌入特征空間。Salvador等人[23]提出一種基于單個食譜組件(標(biāo)題、原材料以及操作說明)計算的自監(jiān)督損失函數(shù),以學(xué)習(xí)食譜文本的內(nèi)部語義關(guān)系,所提方法支持使用圖像-食譜對和單獨的食譜文本樣本進行訓(xùn)練。Sugiyama等人[33]提出將食物圖像信息分離為食譜圖像特征和非食譜形狀特征,然后整合食譜嵌入和形狀特征來生成食物圖像。

        在跨模態(tài)學(xué)習(xí)組件中,將從多模態(tài)編碼器中獲得的增強特征向量 Z v和 Z r通過一個權(quán)值共享的全連接層,得到最終的圖像表示 E v和食譜表示 E r,然后使用三元組損失進行跨模態(tài)檢索學(xué)習(xí)。其目標(biāo)是最小化相似圖像-食譜對之間的距離,并最大化不相似圖像-食譜對之間的距離。此外,為了提高模型的魯棒性和泛化能力,本文將困難樣本挖掘策略[11]嵌入到三元組損失的學(xué)習(xí)過程中,以進一步學(xué)習(xí)最后的模態(tài)特征。損失函數(shù)Ltri-loss為

        其中:λ是權(quán)衡參數(shù),用于調(diào)整對抗損失函數(shù)和三元組損失函數(shù)在總體目標(biāo)函數(shù)中的權(quán)重。通過最小化上述目標(biāo)函數(shù),實現(xiàn)本文模型端到端的訓(xùn)練。

        4 實驗與分析

        4.1 數(shù)據(jù)集

        本文在大規(guī)?;鶞?zhǔn)數(shù)據(jù)集Recipe 1M[3]上進行實驗。該數(shù)據(jù)集包含從24個流行烹飪網(wǎng)站上收集的約100萬份烹飪食譜和80萬張食物圖像,并提供了可供公眾使用的圖像-食譜對。為了保持實驗的一致性,本文采用與文獻[3]相同的數(shù)據(jù)分割方法,使用238 999對圖像-食譜對作為訓(xùn)練樣本,51 119對作為驗證樣本,51 303對作為測試樣本。

        4.2 實驗設(shè)置

        4.2.1 評價標(biāo)準(zhǔn)

        本實驗涉及兩個跨模態(tài)檢索任務(wù),以圖像檢索食譜和以食譜檢索圖像。本文使用在檢索任務(wù)中[6~8,11]廣泛使用的評價指標(biāo)來衡量模型的檢索性能,即中位數(shù)排名(MedR)和前K召回率(R@K)。MedR是指被檢索樣本在所有檢索結(jié)果中排名的中位數(shù),其值越小,表示模型的性能越好。R@K表示與查詢項相匹配的樣本在前K個檢索結(jié)果中的比例,其值越大,表明模型的檢索性能越好。

        4.2.2 實施細節(jié)

        在模型訓(xùn)練過程中,對于食譜文本,使用HuggingFace預(yù)訓(xùn)練的BERT-base-uncased模型[20]對食譜文本中的原材料和操作說明進行編碼,選?。跜LS]標(biāo)記的輸出作為表征向量,拼接兩者并通過一個全連接層得到1 024維的初始食譜文本特征;對于食物圖像,使用預(yù)訓(xùn)練的ViT-B/32模型[19]進行編碼,并通過一個全連接層得到1 024維的初始食物圖像特征。接著,將初始特征輸入生成對抗網(wǎng)絡(luò)WGAN-GP,通過生成器和判別器的對抗機制,學(xué)習(xí)公共特征空間。然后,借助跨模態(tài)注意力機制和自注意力機制學(xué)習(xí)不同模態(tài)數(shù)據(jù)的高級抽象語義表示。最后,將其通過一個共享權(quán)重的全連接層得到最終的模態(tài)表示。檢索時,將模型最后一個全連接層的輸出作為模態(tài)特征,采用余弦距離度量食譜文本與實物圖像之間的相似度,然后根據(jù)此相似度返回檢索結(jié)果。

        在多模態(tài)編碼器組件中,使用3層、每層有4個注意力頭的跨模態(tài)注意力網(wǎng)絡(luò),隱藏狀態(tài)的維度為1 024。訓(xùn)練過程中,批次大小設(shè)置為32,采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 1,動量設(shè)置為0.999。在式(8)中,誤差范圍α設(shè)置為0.3。式(9)中,目標(biāo)函數(shù)的權(quán)衡參數(shù)λ設(shè)置為0.005。

        4.3 基線方法

        實驗選取以下九種基線方法與本文方法進行比較:

        a)CCA[35]:CCA旨在最大化相似對之間的相關(guān)性。

        b)AdaMine[4]:使用雙三重損失并提出自適應(yīng)學(xué)習(xí)模式。

        c)R2GAN[7]:使用一個生成器和兩個鑒別器學(xué)習(xí)跨模態(tài)嵌入。

        d)ACME[6]:提出了一種改進的三元組損失,并利用對抗學(xué)習(xí)策略實現(xiàn)模態(tài)對齊。

        e)MCEN[8]:通過隨機潛在變量捕捉圖像和食譜之間的相關(guān)性。

        f)SCAN[11]:將自注意力機制與LSTM相結(jié)合,學(xué)習(xí)食譜特征,并通過語義一致性損失增強模態(tài)對齊。

        g)CHEF[25]:將樹型結(jié)構(gòu)的LSTM作為文本編碼器,以此學(xué)習(xí)到更有意義的食譜特征。

        h)IMHF[30]:提出一個基于Transformer結(jié)構(gòu)的預(yù)訓(xùn)練視覺-語言模型,對圖像和食譜進行統(tǒng)一建模,以促進模態(tài)間的信息交互。

        i)MEFC[36]:該方法首先利用多模態(tài)編碼器提取特征,然后通過對抗損失實現(xiàn)模態(tài)對齊。注意該方法并沒有考慮初始語義特征的一致性。

        4.4 實驗結(jié)果與分析

        表1展示了本文方法與基線方法在不同評價指標(biāo)下在Recipe 1M數(shù)據(jù)集上的實驗結(jié)果。由表1可知,在1K測試子集上,本文方法在跨模態(tài)檢索任務(wù)中實現(xiàn)了比所有基線方法更優(yōu)異的檢索性能。MedR值與目前最優(yōu)的結(jié)果相當(dāng),均達到1.0。與最佳基線MEFC相比,本文方法在以圖像檢索食譜和以食譜檢索圖像任務(wù)上,R@1分別提高了5.6%和5.1%,R@5分別提高3.8%和5.4%,R@10分別提高1.9%和3.2%。實驗結(jié)果驗證了將模態(tài)對齊嵌入到特征提取過程中,并充分利用多模態(tài)編碼器對不同模態(tài)間的相互增強作用建模,從而顯著增強模態(tài)特征的效果是十分有效的。

        在10 K測試子集中,隨著檢索數(shù)據(jù)數(shù)量的增加,相似樣本也隨之增加,這導(dǎo)致檢索最佳匹配項變得更具挑戰(zhàn)性。然而,本文方法仍然取得了令人滿意的結(jié)果,這表明本文方法在大規(guī)模數(shù)據(jù)集中同樣適用。

        由表1中在10K測試子集上的實驗結(jié)果可知,與MEFC方法相比,本文方法在以圖像檢索食譜和以食譜檢索圖像任務(wù)上,R@1分別提高了13.4%和10.0%,R@5略有提高。在R@10上,其值低于MEFC。這可能是由于MEFC是在多模態(tài)編碼器作用后再進行模態(tài)對齊,其中的對抗學(xué)習(xí)在大量的圖像和食譜特征中建立關(guān)聯(lián),并以全局的角度來增強模態(tài)特征的一致性。而本文方法是在跨模態(tài)對齊后使用多模態(tài)編碼器組件進行不同模態(tài)間的交互,其中的跨模態(tài)注意力機制可以從多個角度關(guān)注不同模態(tài)的細粒度特征。因此,即使在大規(guī)模數(shù)據(jù)集中,也可以利用食物圖像中的特殊區(qū)域區(qū)分關(guān)鍵信息,從而更容易地定位到與查詢項最匹配的樣本。值得注意的是,本文方法的R@10顯著優(yōu)于其他基線方法。

        4.5 消融實驗

        為了分析不同組件對模型性能的影響,本文設(shè)計了消融實驗,通過移除、替換或重新組合組件的方式進行實驗并比較分析。

        CM+MA(圖3(a))表示先通過多模態(tài)編碼器,再進行模態(tài)對齊;MACMR(圖3(b))表示先對齊圖像特征和食譜特征的分布,再利用多模態(tài)編碼器增強特征表示,即本文方法;w/o MA(圖3(c))表示移除模態(tài)對齊組件。這些變體方法在1K測試子集上進行實驗,得到的實驗結(jié)果如圖4所示。

        從圖4可以看出,本文方法優(yōu)于其變體方法。對比CM+MA與MACMR的結(jié)果可知,先進行模態(tài)對齊,得到分布趨于一致的圖像特征和食譜特征,再利用 多模態(tài)編碼器捕獲模態(tài)間的交互特征和不同模態(tài)的底層細節(jié)特征,可以實現(xiàn)更好的檢索性能。對比MACMR與w/o MA的結(jié)果可知,相比于未經(jīng)初步對齊的數(shù)據(jù)流,在特征提取過程中實現(xiàn)初步對齊后的模態(tài)特征更能促進多模態(tài)編碼器識別重要特征和注意力計算,從而更容易地對不同模態(tài)間的相互增強作用進行建模,進而提高模型的準(zhǔn)確度。

        同時,由圖4和表1可知,變體方法均優(yōu)于基線方法。這是因為在對未對齊的特征序列進行建模時,多模態(tài)編碼器并不是簡單地將不同模態(tài)對齊,而是借助跨模態(tài)注意力塊關(guān)注與源模態(tài)對應(yīng)的另一模態(tài)中的信息,以此促進模態(tài)對齊,并取得了相對可觀的檢索效果。

        為了進一步評估不同組件對模型的貢獻,本文進行了詳細的消融研究。表2展示了本文方法在10K測試子集上的消融實驗結(jié)果。其中,MA表示模態(tài)對齊組件,CM表示多模態(tài)編碼器組件。w/o MA+w/o CM表示移除模態(tài)對齊組件和多模態(tài)編碼器組件,僅使用BERT和ViT對食譜和圖像進行處理。本文(LSTM+ResNet-50)表示在本文方法的初始嵌入生成組件中,使用預(yù)訓(xùn)練模型ResNet-50和LSTM替代本文使用的ViT和BERT對食物圖像和食譜文本進行編碼。w/o CM(LSTM+ResNet-50)表示在本文(LSTM+ResNet-50)的基礎(chǔ)上移除多模態(tài)編碼器組件。

        由表2可知,缺少或替換任一組件都會導(dǎo)致模型性能下降。與LSTM和ResNet-50相比,使用BERT和ViT提取模態(tài)特征更具優(yōu)勢。其中,w/o CM和w/o CM(LSTM+ResNet-50)的性能下降最為明顯,這表明本文提出的多模態(tài)編碼器組件對檢索性能影響最大,同時說明多模態(tài)編碼器可以有效增強模態(tài)語義,從而提高檢索準(zhǔn)確率。

        4.6 定性分析

        為了研究語義表達和特征對齊情況,本文對檢索結(jié)果進行了可視化分析。圖5展示了使用本文方法、IMHF和MEFC方法在食物圖像中檢索與食譜文本最匹配的樣本,檢索結(jié)果排名在前三的樣本示例。

        圖5左側(cè)為檢索成功的示例,右側(cè)為檢索失敗的示例??梢杂^察到,在排名靠前的檢索結(jié)果中,大多數(shù)圖像都與文本查詢在語義上相似。對于右側(cè)檢索失敗的樣例,雖然未能正確檢索出與食譜文本最匹配的食物圖像,但排名靠前的圖像在語義上仍然非常相似,該結(jié)果依舊具有合理性。由此也說明了本文方法在實現(xiàn)特征對齊方面取得了一定的成功。

        5 結(jié)束語

        本文提出了一種基于模態(tài)語義增強的跨模態(tài)食譜檢索方法MACMR。該方法首先使用預(yù)訓(xùn)練模型對食譜文本和食物圖像進行編碼,然后利用多模態(tài)編碼器捕獲模態(tài)內(nèi)和模態(tài)間的特征信息,從而有效解決模態(tài)信息丟失問題。同時,為使多模態(tài)編碼器能更容易地對模態(tài)間的交互作用進行建模,將模態(tài)對齊嵌入到特征提取過程中,使初始特征實現(xiàn)跨模態(tài)對齊。最后,使用三元組損失最小化同類樣本間的距離實現(xiàn)跨模態(tài)檢索學(xué)習(xí)。本文方法與九種基線方法、三種變體方法在Recipe 1M數(shù)據(jù)集上進行了比較,本文方法的實驗結(jié)果均優(yōu)于其他方法,從而驗證了本文方法能夠有效提高檢索性能。

        目前,本文方法主要針對圖像和文本兩種模態(tài)數(shù)據(jù)進行探究,未來的研究將考慮把所提思想擴展到視頻、音頻等其他模態(tài)數(shù)據(jù),并深入探索其在其他多模態(tài)場景下的潛在應(yīng)用性。

        參考文獻:

        [1]Achananuparp P, Lim E P, Abhishek V. Does journaling encourage healthier choices? Analyzing healthy eating behaviors of food journalers[C]//Proc of International Conference on Digital Health. New York: ACM Press, 2018: 35-44.

        [2]Min Weiqing, Jiang Shuqiang, Liu Linhu,et al . A survey on food computing[J].ACM Computing Surveys , 2019, 52 (5): 1-36.

        [3]Salvador Hynes N, Aytar Y,et al . Learning cross-modal embeddings for cooking recipes and food images[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 3020-3028.

        [4]Carvalho M, Cadène R, Picard D,et al . Cross-modal retrieval in the cooking context: learning semantic text-image embeddings[C]//Proc of the 41st International ACM SIGIR Conference on Research amp; Development in Information Retrieval. New York: ACM Press, 2018: 35-44.

        [5]Chen Jingjing, Ngo C W, Feng Fuli,et al . Deep understanding of cooking procedure for cross-modal recipe retrieval[C]//Proc of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 1020-1028.

        [6]Wang Hao, Sahoo D, Liu Chenghao,et al . Learning cross-modal embeddings with adversarial networks for cooking recipes and food images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 11572-11581.

        [7]Zhu Bin, Ngo C W, Chen Jingjing,et al . R2GAN: cross-modal recipe retrieval with generative adversarial network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2019: 11477-11486.

        [8]Fu Han, Wu Rui, Liu Chenghao,et al . MCEN: bridging cross-modal gap between cooking recipes and dish images with latent variable model[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2020: 14558-14568.

        [9]Xie Zhongwei, Liu Ling, Li Lin,et al . Learning joint embedding with modality alignments for cross-modal retrieval of recipes and food images[C]//Proc of the 30th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2021: 2221-2230.

        [10]Li Jiao, Xu Xing, Yu Wei,et al . Hybrid fusion with intra-and cross-modality attention for image-recipe retrieval[C]//Proc of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2021: 244-254.

        [11]Wang Hao, Sahoo D, Liu Chenghao,et al . Cross-modal food retrieval: learning a joint embedding of food images and recipes with semanticconsistency and attention mechanism[J].IEEE Trans on Multimedia ,2022,24 : 2515-2525.

        [12]Xie Zhongwei, Liu Ling, Wu Yanzhao,et al . Learning TFIDF enhanced joint embedding for recipe-image cross-modal retrieval service[J].IEEE Trans on Services Computing , 2022, 15 (6): 3304-3316.

        [13]Voutharoja B P, Wang Peng, Wang Lei,et al . MALM: mask augmentation based local matching for food-recipe retrieval[EB/OL]. (2023).https://arxiv.org/abs/2305.11327.

        [14]劉穎, 郭瑩瑩, 房杰, 等. 深度學(xué)習(xí)跨模態(tài)圖文檢索研究綜述[J]. 計算機科學(xué)與探索, 2022, 16 (3): 489-511. (Liu Ying, Guo Yingying, Fang Jei,et al . Review of research for deep learning cross-modal image-text retrieval[J].Computer Science and Exploration , 2022, 16 (3): 489-511.)

        [15]He Kaiming, Zhang Xiangyu, Ren Shaoqing,et al . Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2016: 770-778.

        [16]Mikolov T, Sutskever I, Chen K,et al . Distributed representations of words and phrases and their compositionality[C]//Proc of the 26th International Conference on Neural Information Processing Systems. 2013: 3111-3119.

        [17]Hochreiter S, Schmidhuber J. Long short-term memory[J].Neural Computation , 1997, 9 (8): 1735-1780.

        [18]LeCun Y, Boser B E, Denker J S,et al . Backpropagation applied to handwritten zip code recognition[J].Neural Computing ,1989, 1 (4): 541-551.

        [19]Dosovitskiy Beyer L, Kolesnikov A,et al . An image is worth 16×16 words: transformers for image recognition at scale[C]//Proc of the 9th International Conference on Learning Representations. 2021.

        [20]Devlin J, Chang Mingwei, Lee K,et al . BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019: 4171-4186.

        [21]Gulrajani I, Ahmed F, Arjovsky M,et al . Improved training of Wasserstein GANs[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2017: 5767-5777.

        [22]馮霞, 胡志毅, 劉才華. 跨模態(tài)檢索研究進展綜述[J]. 計算機科學(xué), 2021,48 (8): 13-23. (Feng Xi Hu Zhiyong, Liu Caihua. Review of research progress in cross-modal retrieval[J].Computer Science,2021,48 (8): 13-23.)

        [23]Salvador Gundogdu E, Bazzani L,et al . Revamping cross-modal recipe retrieval with hierarchical transformers and self-supervised learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2021: 15475-15484.

        [24]Zan Zichen, Li Lin, Liu Jiangquan,et al . Sentence-based and noise-robust cross-modal retrieval on cooking recipes and food images[C]//Proc of International Conference on Multimedia Retrieval. New York: ACM Press, 2020: 117-125.

        [25]Pham H X, Guerrero R, Pavlovic V,et al . CHEF: cross-modal hierarchical embeddings for food domain retrieval[C]//Proc of the 35th AAAI Conference on Artificial Intelligence. Palto, CA: AAAI Press,2021: 2423-2430.

        [26]Vaswani Shazeer N, Parmar N,et al . Attention is all you need[C]//Advances in Neural Information Processing Systems. Red Hook,NY:Curran Associate Inc., 2017: 6000-6010.

        [27]Tsai Y H H, Bai Shaojie, Liang P P,et al . Multimodal transformer for unaligned multimodal language sequences[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA:Association for Computational Linguistics, 2019: 6558-6569.

        [28]Chen Y C, Li Linjie, Yu Licheng,et al . UNITER: universal image-text representation learning[C]//Proc of the 16th European Confe-rence on Computer Vision. Cham: Springer, 2020: 104-120.

        [29]Li Gen, Duan Nan, Fang Yuejian,et al . Unicoder-VL: a universal encoder for vision and language by cross-modal pre-training[C]//Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2020: 11336-11344.

        [30]Li Jiao, Sun Jialiang, Xu Xing,et al . Cross-modal image-recipe retrieval via intra-and inter-modality hybrid fusion[C]//Proc of the 11th ACM International Conference on Multimedia Retrieval. New York: ACM Press, 2021: 173-182.

        [31]Deng Ji Dong Wei, Socher R,et al . ImageNet: a large-scale hierarchical image database[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2009: 248-255.

        [32]Guerrero R, Pham H X, Pavlovic V. Cross-modal retrieval and synthesis (X-MRS): closing the modality gap in shared subspace lear-ning[C]//Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press, 2021: 3192-3201.

        [33]Sugiyama Y, Yanai K. Cross-modal recipe embeddings by disentangling recipe contents and dish styles[C]//Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press, 2021: 2501-2509.

        [34]Goodfellow I, Pouget-Abadie J, Mirza M,et al . Generative adversa-rial networks[J].Communications of the ACM , 2020,63 (11): 139-144.

        [35]Hotelling H. Relations between two sets of variates[M]//Kotz S,Johnson N L. Breakthroughs in Statistics: Methodology and Distribution. Berlin: Springer,1992: 162-190.

        [36]Chen Ying, Zhou Dong, Li Lin,et al . Multimodal encoders for food-oriented cross-modal retrieval[C]//Proc of Asia-Pacific Web(APWeb) and Web-Age information Management(WAIM) Joint International Conference on Web and Big Data. Cham: Springer, 2021: 253-266.

        收稿日期:2023-07-23;修回日期:2023-09-11基金項目:國家自然科學(xué)基金資助項目(62376062);廣東省哲學(xué)社會科學(xué)“十四五”規(guī)劃項目(GD23CTS03);廣東省自然科學(xué)基金資助項目(2023A1515012718);湖南省自然科學(xué)基金資助項目(2022JJ30020);教育部人文社會科學(xué)研究資助項目(23YJAZH220)

        作者簡介:李明(1998—),女,四川南部人,碩士研究生,CCF會員,主要研究方向為跨模態(tài)檢索、自然語言處理;周棟(1979—),男(通信作者),湖南長沙人,教授,博士,主要研究方向為信息檢索、自然語言處理(dongzhou1979@hotmail.com);雷芳(1998—),女,湖南衡陽人,碩士,主要研究方向為跨模態(tài)檢索、自然語言處理;曹步清(1979—),男,湖南湘鄉(xiāng)人,教授,博士,主要研究方向為軟件工程、服務(wù)計算.

        猜你喜歡
        特征提取
        特征提取和最小二乘支持向量機的水下目標(biāo)識別
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于DNN的低資源語音識別特征提取技術(shù)
        Bagging RCSP腦電特征提取算法
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        基于DSP的直線特征提取算法
        基于改進WLD的紋理特征提取方法
        計算機工程(2015年4期)2015-07-05 08:28:02
        淺析零件圖像的特征提取和識別方法
        機電信息(2015年3期)2015-02-27 15:54:46
        基于CATIA的橡皮囊成形零件的特征提取
        av影片手机在线观看免费网址| 欧美人妻日韩精品| 成人日韩av不卡在线观看| 手机在线免费av网址| 成人国产精品一区二区八戒网 | 一区二区三区在线日本视频| 久久久久人妻精品一区二区三区| 国产乱子伦农村叉叉叉| 日韩h网站| 成人在线视频自拍偷拍| 日韩av一区二区网址| 国产乱码一二三区精品| 无码一区二区三区AV免费换脸| 精品人妻一区二区三区蜜臀在线| av免费不卡一区二区| 欧美日韩国产码高清综合人成 | 人与嘼av免费| 亚洲中文字幕精品一区二区| 日韩女优视频网站一区二区三区 | 加勒比日韩视频在线观看 | 熟女中文字幕一区二区三区 | 精品一二区| 侵犯了美丽丰满人妻中文字幕| 国产成人精品无码一区二区三区| 7777精品伊人久久久大香线蕉| 国产三级精品美女三级| 不卡免费在线亚洲av| 无码国产色欲xxxx视频| 国产亚洲蜜芽精品久久| 国产亚洲三级在线视频| 免费在线观看av不卡网站| 欧洲熟妇色xxxxx欧美老妇伦| 免费 无码 国产在线观看不卡| 亚洲一区域二区域三区域四| 好大好湿好硬顶到了好爽视频| 欧美俄罗斯乱妇| 精品亚洲人伦一区二区三区| 精品亚洲一区二区三区四区五| 亚洲av无码xxx麻豆艾秋| 亚洲人成人一区二区三区| 青青草在线免费观看视频|