亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖文多模態(tài)門控增強(qiáng)的文本平行句對(duì)抽取方法

2022-07-14 09:01:30霍茜曈

電視技術(shù) 2022年6期

霍茜曈

（昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院，云南昆明 650500）

0 引言

從互聯(lián)網(wǎng)海量文本中爬取和整理平行句對(duì)，是提升機(jī)器翻譯性能的重要工作之一。網(wǎng)絡(luò)信息中存在大量偽平行的句對(duì)，因此需要從海量偽平行句對(duì)中抽取雙語平行句對(duì)。目前，主流平行句對(duì)抽取方法大都基于句子級(jí)語義相似性來進(jìn)行，因此容易出現(xiàn)語義相近但完全不平行的句對(duì)。這樣的低質(zhì)量句對(duì)嚴(yán)重影響了后續(xù)機(jī)器翻譯的性能。因此，研究平行句對(duì)抽取方法，對(duì)于提升平行句對(duì)的質(zhì)量、提高機(jī)器翻譯性能具有重要的意義和價(jià)值。

雙語嚴(yán)格平行的句對(duì)需要同時(shí)保證句對(duì)內(nèi)詞級(jí)粒度的對(duì)齊和句子語義的對(duì)齊。平行句對(duì)的質(zhì)量和數(shù)量是提升機(jī)器翻譯性能的重要因素之一。目前，互聯(lián)網(wǎng)存在海量的可比平行句對(duì)資源，其主要存在詞級(jí)不對(duì)齊或句子語義不一致等噪聲。如何從大量帶噪聲的可比平行句對(duì)中抽取質(zhì)量相對(duì)較高的偽平行句對(duì)，是平行句對(duì)抽取工作主要解決的問題之一。

主流平行句對(duì)抽取方法主要采用預(yù)訓(xùn)練模型加微調(diào)的方式。基于預(yù)訓(xùn)練的偽平行句對(duì)抽取最早由CHAUDHARY 等[1]提出，論文基于LASER[2]在WMT19 數(shù)據(jù)集進(jìn)行平行句對(duì)任務(wù)，得到較好效果。隨著預(yù)訓(xùn)練模型的發(fā)展，多語言預(yù)先訓(xùn)練模型被認(rèn)為能表達(dá)更豐富的語義信息，因此被廣泛應(yīng)用到平行句對(duì)抽取任務(wù)中，如RoBERTa[3]的多語言版本、XLM-R[4]以及序列到序列去噪自動(dòng)編碼器MBART[5]等。該類方法主要依賴訓(xùn)練策略或規(guī)則，基于雙語句子語義表征實(shí)現(xiàn)平行句對(duì)的判別。

在表1 的英-越雙語偽平行句對(duì)實(shí)例中，英語-越南語偽平行句（第1 列和第2 列）對(duì)語義信息基本一致，但是詞級(jí)粒度存在較大的不一致，因此基于預(yù)訓(xùn)練模型的語義對(duì)齊判別方法會(huì)將其判別為平行句對(duì)，但是例子中詞級(jí)粒度明顯存在較大的差異。如何在保證句子級(jí)語義一致的情況下考慮詞級(jí)對(duì)齊問題，是偽平行句對(duì)需要解決的重要問題之一。

表1 英-越雙語偽平行句對(duì)實(shí)例

圖像信息作為一種語言無關(guān)的信息，容易獲取，且基于計(jì)算機(jī)視覺領(lǐng)域目標(biāo)識(shí)別、目標(biāo)檢測等方法可以有效地對(duì)圖像信息進(jìn)行挖掘，建立圖文信息關(guān)聯(lián)（如multi30k[6]、COCO[7]等圖像數(shù)據(jù)集構(gòu)建了大量圖像文字對(duì)齊信息），用于跨語言語義對(duì)齊，實(shí)現(xiàn)文本關(guān)聯(lián)信息的檢索和融合。近年來，在自然語言理解領(lǐng)域，融合圖像的多模態(tài)機(jī)器翻譯[8-12]、多模態(tài)跨語言摘要[13-16]等任務(wù)已經(jīng)成為熱門研究方向。通過融合圖像信息，大大提升了純文本跨語言理解任務(wù)的性能。相關(guān)前期工作已經(jīng)證明，融合圖像模態(tài)的信息有助于提升跨語言對(duì)齊和跨語言理解的能力。

受圖文多模態(tài)融合方法的啟發(fā)，針對(duì)偽平行句對(duì)抽取問題，本文以語言無關(guān)的圖像信息作為跨語言語義對(duì)齊的錨點(diǎn)，融合圖像特征，實(shí)現(xiàn)跨語言句對(duì)的語義對(duì)齊。通過對(duì)源語言、目標(biāo)語言分別融合其關(guān)聯(lián)的圖像信息，提升跨語言表征和對(duì)齊的性能，借助語言無關(guān)的圖像信息，增強(qiáng)偽平行句對(duì)在句子級(jí)和詞級(jí)語義對(duì)齊的能力，最終提升偽平行句對(duì)抽取的性能。本文的研究主要有以下創(chuàng)新點(diǎn)：

（1）提出了一種以語言無關(guān)圖像模態(tài)增強(qiáng)的偽平行句對(duì)抽取方法，通過融合圖像模態(tài)，提升雙語句子級(jí)和詞級(jí)語義表征的能力，實(shí)現(xiàn)了高質(zhì)量偽平行句對(duì)的抽??；

（2）提出了一種無監(jiān)督的、以文本檢索圖像的方法，基于詞級(jí)相似度匹配方法，分別實(shí)現(xiàn)了雙語文本相關(guān)聯(lián)圖像信息的檢索，為后續(xù)的圖文融合提供數(shù)據(jù)基礎(chǔ)；

（3）提出了一種基于圖文多模態(tài)門控的圖像融合方法，借助多模態(tài)門控，實(shí)現(xiàn)噪聲圖像中有效圖像特征的融合，提升了文本的語義表征能力；

（4）基于英語-越南語、英語-德語偽平行句對(duì)抽取任務(wù)進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果證明了所提方法的有效性，偽平行句對(duì)抽取性能得到提升。

1 相關(guān)工作

目前已經(jīng)有主流平行句對(duì)框架使用預(yù)訓(xùn)練模型提取文本特征并結(jié)合訓(xùn)練策略進(jìn)行微調(diào)，之后將該任務(wù)轉(zhuǎn)化為二分類任務(wù)的方法[17-18]。但是該方法關(guān)注于句子級(jí)表征而忽略了詞級(jí)對(duì)齊信息。這個(gè)問題在其他文本任務(wù)中也有出現(xiàn)，如翻譯任務(wù)[19-20]、摘要生成任務(wù)[13]等。已有方法可證明融入圖像信息能跨越語種鴻溝，拉近不同語種信息細(xì)粒度對(duì)齊效果，有效提升模型性能。

1.1 平行句對(duì)抽取研究現(xiàn)狀

目前，主流平行句對(duì)抽取方法主要基于使用預(yù)訓(xùn)練模型獲取句子級(jí)表示然后轉(zhuǎn)化為二分類方式的方法，基本可以分為三類，依次為依賴傳統(tǒng)方法、增強(qiáng)訓(xùn)練策略以及使用多語言預(yù)訓(xùn)練模型。傳統(tǒng)的方法主要基于句法特征、轉(zhuǎn)換或關(guān)系提取[21-22]，認(rèn)為需要將提取出的信息融入句子表征來提升模型效果。第二類基于訓(xùn)練策略的方式，ACCARCCICCEK 等人[23]證明，在分類任務(wù)中正負(fù)例的比例會(huì)影響最后模型效果，且負(fù)例多于正例更有利于模型性能的提升，由此引出了如何構(gòu)造高質(zhì)量負(fù)例的問題。文獻(xiàn)[24-26]使用模糊匹配等算法構(gòu)建了高質(zhì)量負(fù)例，成功提升了最終模型性能，其實(shí)驗(yàn)結(jié)果表明在合理構(gòu)建訓(xùn)練數(shù)據(jù)后，模型仍然有一定的提升空間。在自然語言處理任務(wù)中，BERT[27]提出以后，刷新了多項(xiàng)任務(wù)記錄，在平行句對(duì)抽取中也是如此。使用多語言預(yù)訓(xùn)練模型，可以將不同語言的信息編碼到同一語義空間。有研究者認(rèn)為這一過程可以將更多語言信息融入到模型，利用多語言模型實(shí)現(xiàn)的不同語言在同一語義空間的“對(duì)齊”可以提升模型性能[18，28]，實(shí)驗(yàn)證明，使用多語言預(yù)訓(xùn)練模型可以提升最后的評(píng)價(jià)分?jǐn)?shù)。預(yù)訓(xùn)練語言模型僅僅可以實(shí)現(xiàn)句子級(jí)的語義對(duì)齊，對(duì)詞粒度的直接對(duì)齊考慮不足。因此，基于多語言預(yù)訓(xùn)練模型的方法仍然有提升空間。

1.2 圖文模態(tài)信息融合研究現(xiàn)狀

多模態(tài)信息融合是多種模態(tài)任務(wù)的一大難點(diǎn)。近年來，圖文檢索、圖像描述生成、多模態(tài)神經(jīng)機(jī)器翻譯任務(wù)的相關(guān)研究表明，采用視覺模態(tài)，可以潛在地使機(jī)器對(duì)真實(shí)世界有更全面的感知[29]，并且，基于圖像目標(biāo)特征實(shí)現(xiàn)圖文語義對(duì)齊的方法可有效提升模型性能。這些任務(wù)的難點(diǎn)都圍繞如何拉近文字、圖像模態(tài)空間距離并且融合展開?，F(xiàn)有的研究成果按照使用的方法可分為三種類型。

第一種融合方法關(guān)注不同模態(tài)表征對(duì)齊。LEE K H 等人[30]在2018 年使用文字模態(tài)和圖像模態(tài)相互進(jìn)行Attention 得到的特征實(shí)現(xiàn)圖文檢索任務(wù)、圖像問答任務(wù)模型實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果達(dá)到了當(dāng)時(shí)最高。IACER C 等人[20]將圖像全局信息融入編碼端，將源語言和圖像的表征對(duì)齊后生成多模態(tài)編碼端表征輸入解碼端，有效提升了翻譯模型性能。隨著翻譯任務(wù)transformer[31]框架的提出，YAO S W 等人[19]提出一種基于多模態(tài)自注意力機(jī)制，該方法將圖像的細(xì)粒度目標(biāo)檢測結(jié)果表征和編碼端文本模態(tài)融合進(jìn)行自注意力機(jī)制計(jì)算，得到圖像文字多模態(tài)表征作為解碼端的輸入，有效提升了翻譯模型性能。

第二種融合方法關(guān)注多模態(tài)多粒度圖（graph）的使用。這種方法相信依靠抽取圖特征可以有效獲得文本信息或圖像信息中的語義信息，并且可以通過拉近不同模態(tài)生成的圖特征空間距離間接拉近圖文模態(tài)特征空間距離從而實(shí)現(xiàn)跨越模態(tài)間間隙，實(shí)現(xiàn)高效融合的目的。這種方法首先在圖文檢索任務(wù)中提出[32]，達(dá)到了當(dāng)時(shí)圖文檢索任務(wù)的最高分?jǐn)?shù)。YIN Y J 等人[1]在2020 年將基于圖的融合模態(tài)方式融入神經(jīng)機(jī)器翻譯任務(wù)并作出創(chuàng)新，有效提升了模型性能并達(dá)到多模態(tài)神經(jīng)機(jī)器翻譯的最好效果。

第三種方式致力于將圖像模態(tài)表征和文字模態(tài)表征投射到同一空間，實(shí)現(xiàn)語義空間對(duì)齊，最終構(gòu)建多模態(tài)語義共享空間，如IACER C[20]等人提出的構(gòu)造跨模態(tài)隱空間的方式拉近不同模態(tài)向量距離幫助有效融合的方法，也在若干任務(wù)上取得效果。但是多模態(tài)對(duì)齊融合技術(shù)在偽平行句對(duì)任務(wù)的研究較少，因此本文進(jìn)行了融入圖像模態(tài)增強(qiáng)抽取過程的研究。

在本文平行句對(duì)抽取的任務(wù)中，融入圖像特征的重點(diǎn)在于如何有效地提取非噪聲數(shù)據(jù)以輔助文本信息的判斷，因此受文獻(xiàn)[20]的啟發(fā)，本文使用多模態(tài)門控的方式進(jìn)行圖文模態(tài)信息融合，實(shí)驗(yàn)證明該方法可有效提升性能。

2 方法

本文針對(duì)平行句對(duì)抽取任務(wù)中的詞級(jí)匹配問題，基于圖文檢索匹配和圖文多模態(tài)融合的思想，提出通過融入文本相關(guān)的圖像特征提升文本表征能力的方法，融合句對(duì)表征，實(shí)現(xiàn)偽平行句對(duì)的判別。所提方法的總體思路如圖1 所示。首先介紹不同語種語言文本相關(guān)圖像檢索方法，其次介紹圖文多模態(tài)融合方法，最后介紹預(yù)測模塊算法。

圖1 模型圖

2.1 無監(jiān)督圖像檢索算法

已有圖像數(shù)據(jù)集的文字描述主要描述圖像中的物體、物體特征及動(dòng)作。結(jié)合該特點(diǎn)，本文使用標(biāo)注句子中的名詞和動(dòng)詞作為該圖像匹配關(guān)鍵詞，并根據(jù)無順序關(guān)鍵詞匹配個(gè)數(shù)作為衡量匹配程度的“打分”，篩選出圖像庫中與檢索文本語義最接近的圖像。

2.2 基于圖文多模態(tài)融合的句子語義表征

2.3 文本和圖像表征融合

圖文模態(tài)信息融合一直是多模態(tài)任務(wù)的一個(gè)難點(diǎn)。如果輔助模態(tài)融入信息噪聲過多，會(huì)導(dǎo)致整體性能下降。因此，本文提出多模態(tài)門控對(duì)圖文模態(tài)信息融合進(jìn)行控制，如圖2 所示。

圖2 圖文多模態(tài)門控

2.4 平行句對(duì)判斷模塊

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集

本章節(jié)使用章節(jié)2.2 所示的無監(jiān)督檢索方式構(gòu)建英語-越南語、英語-德語圖像文字平行數(shù)據(jù)庫。各訓(xùn)練數(shù)據(jù)集43 500 對(duì)，驗(yàn)證集7 250 對(duì)，測試集7 250 對(duì)。采用以下方法進(jìn)行負(fù)例構(gòu)建：

（1）對(duì)正例進(jìn)行隨機(jī)洗牌；

（2）使用fuzzy 打分將模糊相近的非平行句子作為負(fù)例；

（3）隨機(jī)替換句子中20%單詞和原平行句子作為負(fù)例。

已有工作[24]證明使用較大的負(fù)比率會(huì)導(dǎo)致更好的性能。但太大的正負(fù)比會(huì)造成數(shù)據(jù)失衡從而影響模型性能，因此本文訓(xùn)練集使用正負(fù)比1 ∶2 進(jìn)行訓(xùn)練。

3.2 參數(shù)設(shè)置

本文使用了Multi30K[6]數(shù)據(jù)集來生成圖像檢索標(biāo)簽。該數(shù)據(jù)集樣例如圖3 所示，使用的詞性標(biāo)注工具為stanza[33]。

圖3 Multi30K 數(shù)據(jù)集

訓(xùn)練過程中，分別使用XLM-100 和mBART 預(yù)訓(xùn)練模型提取文本特征。使用XLM-100 提取文本特征時(shí)，凍結(jié)除最后兩層線性變化層外的所有參數(shù)。使用mBART 提取文本特征時(shí)，凍結(jié)encoder 所有參數(shù)，訓(xùn)練decoder 層參數(shù)的微調(diào)策略。其他模型基本訓(xùn)練參數(shù)如表2 所示。本文所有代碼在fairseq的基礎(chǔ)上實(shí)現(xiàn)。

表2 實(shí)驗(yàn)參數(shù)

3.3 圖文多模態(tài)門控增強(qiáng)的偽平行句對(duì)抽取實(shí)驗(yàn)

為了探究圖文多模態(tài)門控過濾效果下，融入本章節(jié)檢索算法得到的語義相關(guān)圖像特征對(duì)抽取平行句對(duì)模型的增強(qiáng)效果，本文進(jìn)行了編碼實(shí)驗(yàn)。

分別使用XLM-100 預(yù)訓(xùn)練模型和mBART 預(yù)訓(xùn)練模型提取不同語種文本特征后進(jìn)行拼接再進(jìn)行二分類的方法作為基線。分別在越南語-英語、德語-英語語種對(duì)進(jìn)行實(shí)驗(yàn)。評(píng)價(jià)標(biāo)準(zhǔn)為精確度，結(jié)果如表3 所示。

表3 圖文多模態(tài)門控增強(qiáng)的偽平行句對(duì)抽取實(shí)驗(yàn)結(jié)果

其中，基線模型在兩對(duì)語言的實(shí)驗(yàn)都可以達(dá)到較好效果，在添加圖像增強(qiáng)后依舊可以提升模型性能。在基于XLM-100 的模型中，越南語-英語任務(wù)的精確度從96%提升至96.8%，德語-英語任務(wù)中精確度從97.5%提升至98.2%，說明通過細(xì)粒度檢索得到的圖像語義表征信息作為跨越語言壁壘的樞軸信息，有效地對(duì)細(xì)粒度語義信息進(jìn)行了篩選和評(píng)估，使得得到的多模態(tài)語義表征向量同時(shí)具有原有句子文本表征向量信息以及句子細(xì)粒度對(duì)齊信息，其語義特征空間以圖像模態(tài)特征作為樞軸聯(lián)系了不同語種語義空間向量，增強(qiáng)了平行句對(duì)平行判斷信息，增強(qiáng)了模型性能。

3.4 圖像消融實(shí)驗(yàn)

為了探究圖像表征融入模型后，通過圖文多模態(tài)門控增強(qiáng)后得到的融合了本章所提算法檢索到的圖像信息的多模態(tài)語義表征向量和單一文本模態(tài)的向量表征更有豐富的語義信息，和通過圖像多模態(tài)門控增強(qiáng)后融合原有與句子語義相關(guān)的“正確”圖像信息得到的多模態(tài)信息表征相比是否擁有更多語義表征，本章節(jié)進(jìn)行了圖像消融實(shí)驗(yàn)。如表4 所示，分別將章節(jié)2.3 實(shí)驗(yàn)中提出的檢索算法獲得的句子相關(guān)語義表征向量換成“正確”匹配圖像進(jìn)行實(shí)驗(yàn)，并與原有單一模態(tài)文字基線模型進(jìn)行對(duì)比分析。

表4 圖像消融實(shí)驗(yàn)結(jié)果

3.5 圖文門控消融實(shí)驗(yàn)

為了探究多模態(tài)門控的噪聲控制能力，本文進(jìn)行了門控消融實(shí)驗(yàn)。由表4 可見，本章節(jié)進(jìn)行刪除圖文多模態(tài)門控時(shí)，加入“正確”圖像信息表征的模型性能。

如表5 所示，分別在兩個(gè)語種和不同的預(yù)訓(xùn)練模型基線進(jìn)行實(shí)驗(yàn)對(duì)比，分別探究在“正確”圖像表征融入模型進(jìn)行實(shí)驗(yàn)的前提下，進(jìn)行加入或刪除圖文多模態(tài)門控的消融實(shí)驗(yàn)。

表5 圖文門控消融實(shí)驗(yàn)結(jié)果

由實(shí)驗(yàn)結(jié)果可以得到，在融入“正確”圖像的前提下，刪除圖文多模態(tài)門控的噪聲過濾，會(huì)降低模型性能。由此證明，在圖文多模態(tài)門控進(jìn)行控制前提下融入圖像信息，可以有效過濾一定的噪聲，提升模型性能。

4 實(shí)例分析

表6 給出了基類模型與本文模型匹配結(jié)果對(duì)比情況。第3 行越南語句子的意思是“一個(gè)人走得很快?！?，英語句子的意思是“一個(gè)人正在快速地騎自行車?！保黠@為非平行句對(duì)，但基線模型得到的模型預(yù)測結(jié)果為兩個(gè)句子平行。本文模型進(jìn)行細(xì)粒度圖像檢索匹配時(shí)，得到了兩個(gè)句子并非平行句對(duì)的正確預(yù)測結(jié)果。由此可得，通過圖文多模態(tài)門控增強(qiáng)融入細(xì)粒度檢索圖像表征，可以使模型獲得語義更豐富的多模態(tài)語義表征向量，使原有具有單一句子語義表征的文本向量具有細(xì)粒度信息的語義表征向量，有效解決了原有基線模型中因句子結(jié)構(gòu)相似而被判斷為平行的“錯(cuò)誤”判斷結(jié)果，提升了模型判斷平行句對(duì)的能力。

表6 實(shí)例分析

5 結(jié)語

本文提出細(xì)粒度圖文檢索匹配算法得到文字語義相關(guān)圖像，使用圖文多模態(tài)門控進(jìn)行多模態(tài)融合，有效提升了平行句對(duì)抽取模型性能，同時(shí)探究了不同圖像模態(tài)信息對(duì)文本模態(tài)信息輔助效果以及圖文多模態(tài)門控效果，為后續(xù)研究提供了基礎(chǔ)。