亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        悟道·文瀾:超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型帶來(lái)了什么?

        2022-05-20 09:10:56盧志武LUZhiwu金琴JINQin宋睿華SONGRuihua文繼榮WENJirong
        中興通訊技術(shù) 2022年2期
        關(guān)鍵詞:文瀾圖文語(yǔ)義

        盧志武/LU Zhiwu,金琴/JIN Qin,宋睿華/SONG Ruihua,文繼榮/WEN Jirong,

        (1.中國(guó)人民大學(xué)高瓴人工智能學(xué)院,中國(guó)北京100872;2.中國(guó)人民大學(xué)信息學(xué)院,中國(guó)北京100872)

        人腦是一個(gè)復(fù)雜的系統(tǒng),能夠處理多種感官模態(tài)例如視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)等的信息。這使得人們能夠準(zhǔn)確、有效地完成感知、理解和決策任務(wù)。為了模仿人類的這些核心認(rèn)知能力,人工智能模型利用大規(guī)模多模態(tài)數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。如何利用從互聯(lián)網(wǎng)上爬取的大規(guī)模多模態(tài)數(shù)據(jù)進(jìn)行模型訓(xùn)練,成為近期業(yè)界的研究熱點(diǎn)。如何能有效地利用這些爬取數(shù)據(jù)是一個(gè)巨大的挑戰(zhàn),因?yàn)槲覀儫o(wú)法對(duì)其進(jìn)行詳細(xì)的人工標(biāo)注。另外,這些數(shù)據(jù)不可避免地存在一定量的數(shù)據(jù)噪聲。如圖1所示,學(xué)術(shù)界數(shù)據(jù)集多為由人工編寫(xiě)的強(qiáng)相關(guān)文本,如“水果蛋糕上有一些蠟燭在燃燒”,規(guī)模多為幾萬(wàn)到百萬(wàn)圖文對(duì)。與此不同的是,從互聯(lián)網(wǎng)上搜集到的圖像的周邊文本通常與內(nèi)容弱相關(guān)。

        圖1 兩種不同的圖文數(shù)據(jù)

        多模態(tài)預(yù)訓(xùn)練的目標(biāo)是對(duì)齊不同模式的大規(guī)模數(shù)據(jù),從而可以將所學(xué)知識(shí)遷移到各種下游任務(wù)中,并最終接近通用人工智能。目前,多模態(tài)預(yù)訓(xùn)練模型已經(jīng)在廣泛的多模態(tài)任務(wù)中取得了巨大成功。然而,學(xué)術(shù)界往往只重視在有限規(guī)模的標(biāo)注數(shù)據(jù)集上取得更好的效果,因此多采用單塔模型,并在英文數(shù)據(jù)集上進(jìn)行訓(xùn)練。這使得其應(yīng)用場(chǎng)景被規(guī)模、性能和語(yǔ)言所局限。在北京智源研究院悟道項(xiàng)目的支持下,文繼榮教授帶領(lǐng)中國(guó)人民大學(xué)盧志武教授、宋睿華長(zhǎng)聘副教授、金琴教授等師生團(tuán)隊(duì)搜集了6.5億對(duì)中文圖文數(shù)據(jù),率先提出圖文弱相關(guān)是更為現(xiàn)實(shí)的假設(shè),并利用跨模態(tài)對(duì)比學(xué)習(xí)來(lái)自監(jiān)督地訓(xùn)練超大規(guī)模圖像-文本多模態(tài)預(yù)訓(xùn)練模型文瀾B(tài)riVL。另外,我們認(rèn)為:不同模態(tài)和不同語(yǔ)言都有可能表示相同的語(yǔ)義信息。如圖2所示,中文單詞“狗”、英文單詞“dog”或是一張狗的視覺(jué)圖像,都能表示狗這一動(dòng)物。因此,我們研究了如何通過(guò)預(yù)訓(xùn)練來(lái)捕捉視覺(jué)與語(yǔ)言在語(yǔ)義上的共通點(diǎn),提供更好的視覺(jué)和語(yǔ)言特征,以支持不同的多語(yǔ)言多模態(tài)下游任務(wù);同時(shí)提出文瀾多語(yǔ)言多模態(tài)預(yù)訓(xùn)練模型MLMM。實(shí)驗(yàn)證明,兩個(gè)模型均能在多項(xiàng)下游任務(wù)中獲得國(guó)際最佳性能。

        圖2 不同語(yǔ)言和模態(tài)能夠表達(dá)相同的語(yǔ)義

        此外,我們還著重討論了超大規(guī)模多模態(tài)預(yù)訓(xùn)練帶來(lái)的影響,包括對(duì)文本編碼、圖像生成和圖文互檢的影響。總之,多模態(tài)預(yù)訓(xùn)練帶來(lái)的改變才剛剛開(kāi)始,它在人工智能方面有著巨大的潛力。

        1 文瀾B(tài)riVL超大規(guī)模圖文預(yù)訓(xùn)練模型

        1.1 相關(guān)工作

        自2018年以來(lái),單模態(tài)預(yù)訓(xùn)練模型(如BERT、GPT、ViT等)的出現(xiàn),極大地促進(jìn)了相關(guān)領(lǐng)域的發(fā)展。人們也在持續(xù)探索具有更強(qiáng)通用性的多模態(tài)預(yù)訓(xùn)練模型,具有代表性的工作有UNITER、OSCAR等。然而,由于視覺(jué)數(shù)據(jù)集的標(biāo)注需要的成本高昂,多模態(tài)數(shù)據(jù)集往往維持在百萬(wàn)的數(shù)據(jù)量級(jí),因此,難以在此基礎(chǔ)上訓(xùn)練出具備良好通用性與泛化性的多模態(tài)模型。多模態(tài)預(yù)訓(xùn)練模型根據(jù)其框架可分為兩類:?jiǎn)嗡碗p塔。

        最近的UNITER、Oscar、M6、VisualBERT、Unicoder-VL、VL-BERT等模型都采用單塔網(wǎng)絡(luò),它們利用一個(gè)特征融合模塊(例如Transformer)來(lái)得到圖像-文本對(duì)的嵌入。其中,一些單塔模型還使用對(duì)象檢測(cè)器來(lái)檢測(cè)圖像區(qū)域,并將這些區(qū)域與相應(yīng)的單詞進(jìn)行匹配。UNITER作為單塔模型的代表,對(duì)560萬(wàn)圖文對(duì)進(jìn)行遮擋語(yǔ)言建模(MLM)、遮擋區(qū)域建模(MRM)和圖像文本匹配(ITM)的聯(lián)合訓(xùn)練,從而學(xué)到通用的圖像文本表示。Oscar將語(yǔ)義相同的對(duì)象(名詞)作為圖像和文本對(duì)齊的基礎(chǔ),從而簡(jiǎn)化圖像和文本語(yǔ)義對(duì)齊的學(xué)習(xí)任務(wù),即使用快速目標(biāo)檢測(cè)器(Fast R-CNN)就可以將檢測(cè)到的對(duì)象標(biāo)簽與文本中的單詞建立關(guān)聯(lián)?,F(xiàn)有單塔結(jié)構(gòu)通常依賴于強(qiáng)相關(guān)的圖文對(duì)數(shù)據(jù),而這一強(qiáng)相關(guān)假設(shè)對(duì)大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)集來(lái)說(shuō)通常是無(wú)效的。此外,單塔模型在推理階段需要較高的計(jì)算成本。例如,需要將查詢內(nèi)容(圖像或文本)輸入到單塔模型中,計(jì)算它和所有候選對(duì)象的匹配分?jǐn)?shù)。

        相比之下,采用雙塔結(jié)構(gòu)的多模態(tài)預(yù)訓(xùn)練模型使用單獨(dú)的圖像和文本編碼器,分別對(duì)圖像和文本進(jìn)行編碼,然后進(jìn)行圖文對(duì)匹配來(lái)完成檢索任務(wù)。這種模式的檢索效率更高,但由于缺乏更深層次的圖像-文本交互(即圖像區(qū)域與單詞的交互),通常只能達(dá)到次優(yōu)性能。最近的雙塔工作,如LigntningDot,通過(guò)重新設(shè)計(jì)目標(biāo)檢測(cè)過(guò)程來(lái)應(yīng)對(duì)這一挑戰(zhàn);CLIP、ALIGN、WenLan 1.0和WenLan 2.0則放棄了昂貴的對(duì)象檢測(cè)器,利用跨模態(tài)對(duì)比學(xué)習(xí)任務(wù)來(lái)進(jìn)行模型訓(xùn)練。

        1.2 模型介紹

        文瀾B(tài)riVL模型在預(yù)訓(xùn)練數(shù)據(jù)的選擇上,不再遵循強(qiáng)相關(guān)語(yǔ)義假設(shè),而是轉(zhuǎn)向弱相關(guān)假設(shè);在網(wǎng)絡(luò)架構(gòu)上,選擇雙塔結(jié)構(gòu)而不是單塔結(jié)構(gòu);使用了更加節(jié)約計(jì)算資源的跨模態(tài)對(duì)比學(xué)習(xí)算法來(lái)進(jìn)行預(yù)訓(xùn)練。具體來(lái)說(shuō):(1)在弱相關(guān)語(yǔ)義假設(shè)下,圖文數(shù)據(jù)不再需要任何人工標(biāo)注,互聯(lián)網(wǎng)上的海量多模態(tài)數(shù)據(jù)成為文瀾B(tài)riVL模型的預(yù)訓(xùn)練數(shù)據(jù)來(lái)源。相比于人工標(biāo)注的幾百上千萬(wàn)強(qiáng)語(yǔ)義相關(guān)圖文數(shù)據(jù),文瀾B(tài)riVL模型使用的預(yù)訓(xùn)練數(shù)據(jù)全部爬取自互聯(lián)網(wǎng),規(guī)模達(dá)到了6.5億對(duì)。更重要的是,弱語(yǔ)義相關(guān)數(shù)據(jù)包含了復(fù)雜、抽象的人類情感和想法,能夠幫助我們把文瀾B(tài)riVL模型訓(xùn)練成一個(gè)更具認(rèn)知能力的模型。(2)文瀾B(tài)riVL模型不再需要耗時(shí)的目標(biāo)檢測(cè)器,使用的雙塔網(wǎng)絡(luò)架構(gòu)在應(yīng)用時(shí)也有明顯的效率優(yōu)勢(shì)。雙塔包含兩個(gè)獨(dú)立的編碼器:一個(gè)用于圖片,另一個(gè)用于文本。因此,在跨模態(tài)檢索時(shí),候選的圖片或者文本可以提前計(jì)算出嵌入表示并做好索引,以滿足現(xiàn)實(shí)應(yīng)用的效率需求。(3)受到單模態(tài)對(duì)比學(xué)習(xí)算法MoCo的啟發(fā),文瀾B(tài)riVL模型在使用跨模態(tài)對(duì)比學(xué)習(xí)的同時(shí)也引入Momentum機(jī)制以及動(dòng)態(tài)維護(hù)負(fù)樣本隊(duì)列(如圖3所示)。這樣就解構(gòu)了batch大小與負(fù)樣本數(shù)量,從而在相對(duì)較小的batch下(即較少的圖形處理器資源)就可以得到性能較好的預(yù)訓(xùn)練模型。

        圖3 文瀾B(tài)riVL的網(wǎng)絡(luò)架構(gòu)圖與圖像編碼器

        1.3 實(shí)驗(yàn)分析

        我們?cè)趫D像零樣本分類、文本零樣本分類兩個(gè)下游任務(wù)上進(jìn)行實(shí)驗(yàn),以驗(yàn)證文瀾B(tài)riVL模型的遷移能力。

        (1)下游任務(wù)1:ImageNet的零樣本分類

        我們利用文瀾B(tài)riVL的圖文編碼器,可以直接在ImageNet數(shù)據(jù)集的200類圖像子集上進(jìn)行零樣本分類。這需要提前將這200個(gè)類名翻譯成中文。ImageNet 200類挑選的原則為:英文類名在翻譯成中文時(shí)無(wú)明顯錯(cuò)誤。OpenAI CLIP則直接在英文數(shù)據(jù)集上進(jìn)行測(cè)試。從表1可以發(fā)現(xiàn),文瀾B(tài)riVL 2.0的零樣本圖片分類準(zhǔn)確率要高于CLIP。這說(shuō)明我們的模型具有更好的泛化能力。

        表1 ImageNet 200類的零樣本分類結(jié)果

        (2)下游任務(wù)2:中文學(xué)科的零樣本分類

        我們利用文瀾B(tài)riVL1.0以及2.0的文本編碼器,在中文學(xué)科分類數(shù)據(jù)集(CSLDCP)上進(jìn)行小樣本分類。我們采用被廣泛使用的prompt-tuning方法來(lái)為1-shot分類。針對(duì)文瀾B(tài)riVL模型,我們同時(shí)利用了視覺(jué)和文本兩個(gè)模態(tài)的信息來(lái)進(jìn)行prompt-tuning。對(duì)比實(shí)驗(yàn)考慮了單模態(tài)預(yù)訓(xùn)練的RoBERTa-base和RoBERTa-large。從表2可以發(fā)現(xiàn),相比于單模態(tài)預(yù)訓(xùn)練模型RoBERTa,文瀾B(tài)riVL模型具有更好的中文小樣本分類能力。這說(shuō)明多模態(tài)預(yù)訓(xùn)練在純粹的NLP下游任務(wù)中也發(fā)揮了重要的作用。

        表2 中文學(xué)科的1-shot小樣本分類結(jié)果

        1.4 模型可視化

        文瀾B(tài)riVL模型的可視化流程為:

        (1)給定一個(gè)文本,輸入一張隨機(jī)噪聲圖像;

        (2)通過(guò)模型的文本編碼器得到文本的特征表示;

        (3)多模態(tài)神經(jīng)元可視化的目標(biāo)函數(shù)為:讓當(dāng)前輸入圖像的視覺(jué)特征表示逼近文本特征;

        (4)固定文瀾的所有參數(shù),通過(guò)反向傳播來(lái)更新輸入的噪聲圖像。

        總之,算法收斂后,得到的圖像是文瀾B(tài)riVL認(rèn)為的對(duì)輸入文本最為接近的可視化處理結(jié)果。如圖4所示,大規(guī)模多模態(tài)預(yù)訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠理解古詩(shī)句的意境,展示了強(qiáng)大的中文理解能力。

        圖4 文瀾B(tài)riVL對(duì)詩(shī)句的神經(jīng)元可視化

        2 文瀾MLMM多語(yǔ)言多模態(tài)預(yù)訓(xùn)練模型

        2.1 相關(guān)工作

        目前,在多語(yǔ)言多模態(tài)的語(yǔ)義學(xué)習(xí)方面,已有一些工作陸續(xù)開(kāi)展。M3P首次采用了預(yù)訓(xùn)練來(lái)學(xué)習(xí)多語(yǔ)言多模態(tài)知識(shí),以多任務(wù)學(xué)習(xí)的方式輪流將英文的圖像描述數(shù)據(jù)和單模態(tài)的多語(yǔ)言語(yǔ)料輸入到模型中,以進(jìn)行預(yù)訓(xùn)練;UC2使用機(jī)器翻譯對(duì)現(xiàn)有的圖像描述數(shù)據(jù)集進(jìn)行多語(yǔ)言擴(kuò)充,同時(shí)遮蔽兩種語(yǔ)言相同意義的詞來(lái)迫使模型根據(jù)圖像內(nèi)容進(jìn)行還原。文獻(xiàn)[17]采用英文圖像描述數(shù)據(jù)和平行語(yǔ)料進(jìn)行預(yù)訓(xùn)練,將Unicoder擴(kuò)展到多語(yǔ)言多模態(tài)上。

        這些工作雖然取得了一定的成果,但其預(yù)訓(xùn)練規(guī)模仍局限于Conceptual Caption 3M數(shù)據(jù)集。較小規(guī)模的預(yù)訓(xùn)練使得模型的零樣本跨語(yǔ)言遷移能力較弱。因此,我們致力于利用更大規(guī)模、更加開(kāi)放領(lǐng)域的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以獲得更加通用、更加強(qiáng)大的多語(yǔ)言多模態(tài)預(yù)訓(xùn)練模型。

        2.2 模型介紹

        我們?cè)O(shè)計(jì)的MLMM模型的整體結(jié)構(gòu)如圖5所示。我們首先使用在Visual Genome數(shù)據(jù)集上預(yù)訓(xùn)練的Faster R-CNN目標(biāo)檢測(cè)器來(lái)提取圖像中的區(qū)域特征,并將這些特征與相應(yīng)的多語(yǔ)言文本Token一同輸入到Transformer Encoder中。

        圖5 MLMM模型結(jié)構(gòu)圖

        為了捕獲不同層次的視覺(jué)與語(yǔ)言特征,MLMM采用4個(gè)任務(wù)進(jìn)行預(yù)訓(xùn)練:

        (1)ITM。為了建模圖像與多語(yǔ)言文本的全局語(yǔ)義信息,我們使用ITM任務(wù)對(duì)MLMM模型進(jìn)行預(yù)訓(xùn)練。該任務(wù)的目標(biāo)是,判斷輸入的圖像和多語(yǔ)言文本是否是語(yǔ)義匹配的。在ITM任務(wù)中,模型需要理解輸入圖像和多語(yǔ)言文本的全局語(yǔ)義信息,進(jìn)而做出判斷。

        (2)MLM。我們采用MLM任務(wù)來(lái)建模多語(yǔ)言文本的細(xì)粒度語(yǔ)義信息。MLM的目標(biāo)是根據(jù)圖像區(qū)域信息和文本上下文,讓模型來(lái)預(yù)測(cè)被遮蔽的多語(yǔ)言文本單詞。

        (3)圖像區(qū)域回歸(MRFR)。為了增強(qiáng)模型對(duì)圖像的細(xì)致建模能力,MRFR任務(wù)要求模型根據(jù)文本和其他圖像區(qū)域還原被遮蔽的圖像區(qū)域特征。

        (4)圖像區(qū)域分類(MRC)。為了讓模型能夠細(xì)粒度地識(shí)別圖像語(yǔ)義,我們實(shí)施了MRC任務(wù),因此讓模型來(lái)預(yù)測(cè)被遮蔽圖像區(qū)域所屬類別。雖然數(shù)據(jù)集中沒(méi)有區(qū)域語(yǔ)義的標(biāo)注信息,但是目標(biāo)檢測(cè)器檢測(cè)得到的類別可以作為該任務(wù)的偽標(biāo)注。目標(biāo)檢測(cè)器預(yù)測(cè)的類別并不是完美的,我們將目標(biāo)檢測(cè)器在目標(biāo)類別上的分布作為軟標(biāo)簽,通過(guò)計(jì)算MLMM預(yù)測(cè)分布與目標(biāo)檢測(cè)器軟標(biāo)簽的KL divergence,來(lái)優(yōu)化整個(gè)模型。

        我們使用的多語(yǔ)言多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集涵蓋漢語(yǔ)、英語(yǔ)、德語(yǔ)、法語(yǔ)、捷克語(yǔ)、日語(yǔ)、韓語(yǔ)7種語(yǔ)言和與語(yǔ)義相匹配的圖像,包含2.1億對(duì)多語(yǔ)言圖文數(shù)據(jù)。該數(shù)據(jù)集在以下兩個(gè)數(shù)據(jù)集的基礎(chǔ)上通過(guò)機(jī)器翻譯進(jìn)行構(gòu)建:

        (1)英文圖文數(shù)據(jù)集Conceptual Caption 3M+12M。該數(shù)據(jù)集是目前圖文預(yù)訓(xùn)練的通用數(shù)據(jù)集,約有1 500萬(wàn)圖文對(duì)。數(shù)據(jù)集中的文本具體描述了圖像中所包含的內(nèi)容。針對(duì)該數(shù)據(jù)集,我們采用4種預(yù)訓(xùn)練任務(wù)進(jìn)行訓(xùn)練。

        (2)中文圖文數(shù)據(jù)集RUC-CAS-WenLan。該數(shù)據(jù)集是我們構(gòu)建的,涵蓋新聞、百科、微博、微信等領(lǐng)域,文本內(nèi)容與對(duì)應(yīng)的圖像呈弱相關(guān)關(guān)系。我們選取其中的1 500萬(wàn)圖文對(duì)進(jìn)行預(yù)訓(xùn)練。針對(duì)該數(shù)據(jù)集的特點(diǎn),我們僅訓(xùn)練ITM任務(wù)。

        2.3 實(shí)驗(yàn)分析

        我們?cè)诙嗾Z(yǔ)言圖文檢索、多語(yǔ)言視覺(jué)問(wèn)答兩個(gè)下游任務(wù)中進(jìn)行了實(shí)驗(yàn),以驗(yàn)證MLMM的多語(yǔ)言多模態(tài)能力。

        (1)下游任務(wù)1:多語(yǔ)言圖文檢索

        多語(yǔ)言圖文檢索任務(wù)為:給定一段多語(yǔ)言文本,模型可以從數(shù)據(jù)庫(kù)中找到與之語(yǔ)義最相關(guān)的一張圖像,或通過(guò)一張圖片找到與之最相關(guān)的多語(yǔ)言文本。對(duì)于多語(yǔ)言圖文檢索,我們?cè)趦蓚€(gè)常用的多語(yǔ)言圖文數(shù)據(jù)集Multi30K和MSCOCO上進(jìn)行評(píng)測(cè)。Multi30K是英文圖文數(shù)據(jù)集Flickr30K的擴(kuò)展,支持英語(yǔ)、德語(yǔ)、法語(yǔ)和捷克語(yǔ)4種語(yǔ)言;文獻(xiàn)[19-20]分別將最初的英文MSCOCO數(shù)據(jù)集擴(kuò)展到中文和日文。通常,多語(yǔ)言圖文檢索評(píng)測(cè)包含以下幾個(gè)設(shè)定:

        ?Finetune on en。只使用英文下游數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),然后測(cè)試模型在其他語(yǔ)言上的表現(xiàn),以衡量模型在多語(yǔ)言上的擴(kuò)展性。

        ?Finetune on each。使用多種語(yǔ)言的下游數(shù)據(jù),分別對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),以衡量模型的單語(yǔ)言能力

        ?Finetune on all。同時(shí)使用多種語(yǔ)言的下游數(shù)據(jù)對(duì)一個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào),以衡量模型的多語(yǔ)言容量。

        與M3P和UC2相同,我們采用平均召回率,即圖像檢索文本、文本檢索圖像兩個(gè)檢索方向上的Recall@1、5、10的平均值,來(lái)衡量模型的檢索效果。3種微調(diào)設(shè)定下的實(shí)驗(yàn)結(jié)果如表3所示。

        從表3中可以看出,在3種設(shè)定上,MLMM都超過(guò)了現(xiàn)有最好的多語(yǔ)言預(yù)訓(xùn)練模型M3P和UC2,達(dá)到當(dāng)前最佳性能。尤其在英文上進(jìn)行微調(diào)時(shí),英文與其他語(yǔ)言之間的性能差距明顯小于現(xiàn)有的工作中兩者間的性能差距。這說(shuō)明得益于更大規(guī)模的預(yù)訓(xùn)練,MLMM能夠表現(xiàn)出很強(qiáng)的跨語(yǔ)言遷移能力。

        表3 多語(yǔ)言圖文檢索平均召回率

        (2)下游任務(wù)2:多語(yǔ)言視覺(jué)問(wèn)答

        給定一張圖像和一個(gè)與圖像內(nèi)容相關(guān)的特定語(yǔ)言上的提問(wèn),多語(yǔ)言視覺(jué)問(wèn)答任務(wù)要求模型能夠給出正確的答案。我們采用VQA 2.0和VQA VG Japanese兩個(gè)數(shù)據(jù)集進(jìn)行多語(yǔ)言視覺(jué)問(wèn)答的實(shí)驗(yàn)。其中,VQA 2.0是英文視覺(jué)問(wèn)答數(shù)據(jù)集,而VQA VG JA則是日文視覺(jué)問(wèn)答數(shù)據(jù)集。與UC2相同,MLMM將視覺(jué)問(wèn)答任務(wù)視為多標(biāo)簽分類任務(wù),即模型從一個(gè)固定的候選池中選擇問(wèn)題的答案。對(duì)于VQA 2.0數(shù)據(jù)集,我們選擇最常見(jiàn)的3 129個(gè)回答作為答案候選池;對(duì)于VQA VG Japanese,我們選擇最常見(jiàn)的3 000個(gè)回答作為答案候選池。表4展示了MLMM在多語(yǔ)言視覺(jué)回答上的實(shí)驗(yàn)結(jié)果。

        從表4中可以看出,MLMM在多語(yǔ)言圖文檢索上超越了目前的預(yù)訓(xùn)練模型,在兩個(gè)多語(yǔ)言視覺(jué)問(wèn)答數(shù)據(jù)集上同樣表現(xiàn)出色。這驗(yàn)證了通過(guò)大規(guī)模的預(yù)訓(xùn)練,MLMM能夠輕松適配各種多語(yǔ)言多模態(tài)的下游任務(wù)。

        表4 多語(yǔ)言視覺(jué)問(wèn)答準(zhǔn)確率

        2.4 可視化分析

        我們對(duì)MLMM學(xué)習(xí)到的跨語(yǔ)言跨模態(tài)的通用知識(shí)進(jìn)行了可視化。我們將語(yǔ)義相匹配的多語(yǔ)言文本和圖像輸入到MLMM中,將最后一層Transformer Encoder的文本對(duì)圖像區(qū)域的注意力權(quán)重進(jìn)行可視化,如圖6所示。對(duì)于中文和英文相同語(yǔ)義的單詞,其注意力權(quán)重在圖像區(qū)域上的分布基本一致。這說(shuō)明通過(guò)大規(guī)模的預(yù)訓(xùn)練,MLMM學(xué)習(xí)到了多語(yǔ)言單詞之間以及和圖像區(qū)域之間的語(yǔ)義對(duì)應(yīng)關(guān)系。

        圖6 MLMM模型在多語(yǔ)言圖文檢索中的注意力權(quán)重可視化

        3 超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型帶來(lái)的影響

        3.1 多模態(tài)信息對(duì)文本編碼的影響

        公平起見(jiàn),哈爾濱工業(yè)大學(xué)的車(chē)萬(wàn)翔老師團(tuán)隊(duì)使用文瀾的圖文訓(xùn)練集中的所有文字,對(duì)RoBERTa進(jìn)行了微調(diào)。在17萬(wàn)的詞表上進(jìn)行統(tǒng)計(jì)的結(jié)果如圖7所示。和微調(diào)后的RoBERTa相比,RoBERTa看上去是一個(gè)相似度均值在0.4附近的正態(tài)分布;但和微調(diào)后的RoBERTa相比,WenLan的相似度明顯變低,大部分樣本集中在0.1以下。這說(shuō)明圖像對(duì)文本詞向量有著顯著的影響。

        圖7 同樣的詞在兩個(gè)空間中的詞向量相似性分布

        我們?cè)诓榭戳讼嗨贫容^低的詞語(yǔ)后發(fā)現(xiàn)了一些共同點(diǎn):

        (1)如圖8所示,在單模態(tài)語(yǔ)言模型中,由于上下文類似,反義詞的詞嵌入向量經(jīng)常會(huì)非常相似。例如,在圖8的左部分中,當(dāng)RoBERTa微調(diào)后,離“成功”不遠(yuǎn)的地方有一組與“失敗”相關(guān)的詞語(yǔ);經(jīng)過(guò)文瀾多模態(tài)預(yù)訓(xùn)練,“成功”周?chē)鷦t以“成功”為主了(如圖8右部分所示)。這可能是因?yàn)榕c“成功”和“失敗”相關(guān)聯(lián)的圖像在色調(diào)和內(nèi)容上相差較大。

        圖8 “成功”在單模態(tài)RoBERTa微調(diào)模型與多模態(tài)文瀾模型中所對(duì)應(yīng)的空間上的鄰近詞語(yǔ)

        (2)視覺(jué)上相似的詞語(yǔ)會(huì)被拉近距離。以圖9為例,RoBERTa微調(diào)模型會(huì)把“王子”與“王公”“獅子王”“貴公子”等語(yǔ)義上比較相近的詞語(yǔ)拉近。多模態(tài)預(yù)訓(xùn)練模型會(huì)將“王子”和“美男子”“帥哥”“英俊小生”等詞語(yǔ)拉近。這些概念在人們的印象中確實(shí)有很強(qiáng)的視覺(jué)語(yǔ)義相關(guān)性。

        圖9 “王子”在單模態(tài)RoBERTa微調(diào)模型與多模態(tài)文瀾模型中所對(duì)應(yīng)的空間上的鄰近詞語(yǔ)

        (3)同一情境的詞語(yǔ)被拉近。如圖10所示,RoBERTa微調(diào)模型通常會(huì)找到和“教育”同層次的近義詞語(yǔ),如“保育”“國(guó)民教育”“教育界”等;文瀾模型則會(huì)找到一些“課業(yè)”“課堂”等詞語(yǔ),這些詞語(yǔ)可能出現(xiàn)在類似的圖片周?chē)⑼ㄟ^(guò)跨模態(tài)之間的對(duì)比學(xué)習(xí)拉近距離。

        圖10 “教育”在單模態(tài)RoBERTa微調(diào)模型與多模態(tài)文瀾模型中所對(duì)應(yīng)空間上的鄰近詞語(yǔ)

        3.2 多模態(tài)預(yù)訓(xùn)練對(duì)圖像生成的影響

        基于單模態(tài)預(yù)訓(xùn)練生成模型的主要問(wèn)題是,輸入句子嵌入是由在單一模態(tài)中預(yù)先訓(xùn)練的文本編碼器提取的,這在語(yǔ)義上與圖像模態(tài)不一致。因此,單模態(tài)預(yù)訓(xùn)練生成模型需要學(xué)習(xí)、處理視覺(jué)和自然語(yǔ)言的不同統(tǒng)計(jì)特性,以便生成與給定文本對(duì)齊的真實(shí)圖像。為此,現(xiàn)有方法采用了對(duì)比學(xué)習(xí),并仔細(xì)設(shè)計(jì)了基于注意的單詞和區(qū)域自我調(diào)節(jié),以便更好地進(jìn)行訓(xùn)練,這種方式是相當(dāng)耗時(shí)的。在跨模態(tài)生成中(如文本生成圖像),高效地彌補(bǔ)這兩種模態(tài)之間的差距非常具有挑戰(zhàn)性。

        與以往方法不同,我們可以利用多模態(tài)預(yù)訓(xùn)練模型對(duì)圖像和文本進(jìn)行編碼。例如,借助VQGAN inversion,可以實(shí)現(xiàn)基于文瀾B(tài)riVL的文生成圖。具體地,給定一個(gè)文本,輸入一張隨機(jī)噪聲圖像,通過(guò)文瀾B(tài)riVL的文本編碼器就可以得到文本的特征表示。VQGAN inversion的目標(biāo)函數(shù)為:當(dāng)前輸入圖像經(jīng)過(guò)VQGAN后輸出的圖像,其視覺(jué)特征(通過(guò)文瀾圖像編碼器得到)必須逼近輸入文本的特征。固定VQGAN和文瀾模型的所有參數(shù),通過(guò)反向傳播可以更新輸入的噪聲圖像。算法收斂后,最終得到的圖像即可看作關(guān)于給定文本的文生成圖結(jié)果。如圖11所示,借助VQGAN,文瀾B(tài)riVL模型能夠生成更貼近自然的圖像。

        圖11 借助VQGAN inversion得到的文瀾文生成圖結(jié)果

        這里的關(guān)鍵之處在于,由多模態(tài)預(yù)訓(xùn)練模型提取的文本嵌入可以自然地與圖像模態(tài)對(duì)齊,這避免了之前方法中的額外復(fù)雜架構(gòu)。總之,多模態(tài)預(yù)訓(xùn)練模型給文生成圖任務(wù)帶來(lái)了新的研究思路。

        3.3 多模態(tài)預(yù)訓(xùn)練對(duì)文本-圖像檢索的影響

        當(dāng)文瀾模型將圖像和文本映射到同一空間時(shí),文本與圖像的互檢就變得非常容易。當(dāng)文本檢索圖像時(shí),不再需要圖像周?chē)奈淖肿鳛闃蛄?,因此文瀾模型可以匹配圖像周?chē)淖植](méi)有描述的意境。圖像檢索文本也成為可能,不僅能識(shí)別出物體、場(chǎng)景或情感等類別標(biāo)簽,還可以和任意的句子、段落進(jìn)行多模態(tài)共享語(yǔ)義空間上的匹配。這首次跨越了圖文的語(yǔ)義鴻溝,實(shí)現(xiàn)了真正的跨模態(tài)檢索。

        基于文瀾B(tài)riVL模型,文瀾團(tuán)隊(duì)實(shí)現(xiàn)了多個(gè)在線演示系統(tǒng),具體見(jiàn)圖12。

        圖12 基于文瀾模型開(kāi)發(fā)的3款跨模態(tài)檢索小應(yīng)用

        4 結(jié)束語(yǔ)

        我們嘗試了利用億級(jí)的、來(lái)自互聯(lián)網(wǎng)的圖文對(duì)數(shù)據(jù)來(lái)訓(xùn)練多模態(tài)雙塔模型BriVL和多語(yǔ)言多模態(tài)單塔模型MLMM。這兩個(gè)預(yù)訓(xùn)練模型均在多個(gè)下游任務(wù)中獲得了國(guó)際最佳性能。通過(guò)實(shí)驗(yàn),我們發(fā)現(xiàn)多模態(tài)預(yù)訓(xùn)練模型將更多視覺(jué)相似或在同一場(chǎng)景中的詞語(yǔ)拉近;能為文生成圖提供統(tǒng)一的語(yǔ)義基礎(chǔ),提升圖像生成的泛化能力和效果;能讓文字和圖像可以在映射到同一空間后實(shí)現(xiàn)真正的跨模態(tài)檢索。目前,文瀾B(tài)riVL 1.0已開(kāi)源,可以通過(guò)以下網(wǎng)址訪問(wèn)或者申請(qǐng)下載:

        ?文瀾B(tài)riVL 1.0源碼下載:https://github.com/BAAIWuDao/BriVL

        ?文瀾B(tài)riVL 1.0模型申請(qǐng):https://wudaoai.cn/model/detail/BriVL

        ?文瀾B(tài)riVL 1.0在線API:https://github.com/chuhaojin/WenLan-api-document

        自2021年3月發(fā)布以來(lái),文瀾受到了騰訊、酷我音樂(lè)、愛(ài)奇藝、網(wǎng)易等多家企業(yè)的關(guān)注。與長(zhǎng)城汽車(chē)合作,文瀾完成了由圖像檢索金句的“歐拉喵語(yǔ)”小應(yīng)用,并在上海和成都車(chē)展以及ChinaJoy上與參觀者進(jìn)行現(xiàn)場(chǎng)的品牌互動(dòng);與OPPO合作,文瀾模型實(shí)現(xiàn)了為視障人士讀取收集圖片的功能,踐行科技向善的理念。

        文瀾模型的強(qiáng)大能力也產(chǎn)生了一些跨學(xué)科研究成果。由中國(guó)人民大學(xué)新聞學(xué)院和高瓴人工智能學(xué)院合作的《空間漫游與想象生產(chǎn)——線上影像策展中的網(wǎng)紅城市建構(gòu):基于視覺(jué)·語(yǔ)言多模態(tài)預(yù)訓(xùn)練模型的計(jì)算傳播研究》,獲得了2021年計(jì)算傳播學(xué)年會(huì)學(xué)生論文三等獎(jiǎng)。中國(guó)人民大學(xué)藝術(shù)學(xué)院師生與上海大學(xué)教師組成的“云端藝術(shù)”團(tuán)隊(duì),將文瀾融合到他們的微信程序“紅色夏天智能航宇”作品中,獲得2021年上海圖書(shū)館開(kāi)放數(shù)據(jù)競(jìng)賽優(yōu)秀設(shè)計(jì)獎(jiǎng)。

        最后,如何平衡單雙塔的有效性和效率是未來(lái)的重要問(wèn)題,目前主要方法有兩種:(1)對(duì)于單塔模型,可以在跨模式融合模塊之前放置雙塔體系結(jié)構(gòu),以減少巨大的檢索延遲,同時(shí)盡可能保持高性能優(yōu)勢(shì);(2)對(duì)于雙塔模式,可以考慮建立更精細(xì)/更緊密的模式相關(guān)性的學(xué)習(xí)目標(biāo),以提高其性能,同時(shí)保持高效率的優(yōu)勢(shì)。

        猜你喜歡
        文瀾圖文語(yǔ)義
        畫(huà)與理
        語(yǔ)言與語(yǔ)義
        Reflections on American Society
        “文瀾杯”全國(guó)詩(shī)詞大獎(jiǎng)賽獲獎(jiǎng)作品
        文瀾情
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        李文瀾
        圖文配
        圖文配
        国内精品毛片av在线播放| 成年视频网站在线观看777| 在线观看一区二区女同| 韩国主播av福利一区二区| 亚洲性爱区免费视频一区| 二区三区亚洲精品国产| 91久久精品一二三区色| 久久老熟女一区二区三区福利| 亚洲欧美v国产蜜芽tv| 亚洲av专区一区二区| 日韩精品第一区二区三区| 女人张开腿让男人桶爽| 亚洲av永久无码精品网站在线观看| 国产suv精品一区二区6| 精品国产黑色丝袜高跟鞋| 欧美成人www免费全部网站| 无遮高潮国产免费观看韩国| 狼狼色丁香久久女婷婷综合| 高潮抽搐潮喷毛片在线播放| 40岁大乳的熟妇在线观看| 无码中文字幕人妻在线一区二区三区| 亚洲一区二区综合色精品| 一区二区久久不射av| 日韩一二三四区免费观看| 国产一区二区资源在线观看| 国产一区二区视频免费在线观看| 亚洲国产aⅴ成人精品无吗| 成熟丰满熟妇高潮xxxxx| 无码人妻一区二区三区免费手机| 香蕉久久夜色精品国产| 亚洲av区一区二区三区| 97精品人妻一区二区三区在线| 奇米影视色777四色在线首页| 国产一区二区三区在线观看免费 | 四虎永久在线精品免费观看地址| 日本不卡的一区二区三区| 国产精品一区二区偷拍| 人妻中文字幕无码系列| 欧美 日韩 国产 成人 在线观看| 无码国产精品色午夜| 日韩麻豆视频在线观看|