基于跨語(yǔ)言詞嵌入對(duì)齊增強(qiáng)少數(shù)民族預(yù)訓(xùn)練語(yǔ)言模型

2023-12-06 02:41:22申影利趙小兵周毛克

中文信息學(xué)報(bào) 2023年9期

申影利, 鮑薇, 趙小兵, 周毛克

(1. 中央民族大學(xué) 中國(guó)少數(shù)民族語(yǔ)言文學(xué)學(xué)院,北京100081;2. 中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院,北京100007;3.中央民族大學(xué) 信息工程學(xué)院,北京100081;4.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心,北京100081)

0 引言

隨著深度學(xué)習(xí)的快速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的詞嵌入(Word Embeddings)成為單詞分布表示的主流方法。從海量未標(biāo)注的語(yǔ)料中學(xué)習(xí)詞嵌入的過(guò)程被稱為預(yù)訓(xùn)練,而經(jīng)由預(yù)訓(xùn)練更新過(guò)參數(shù)的語(yǔ)言模型及其學(xué)習(xí)到的詞嵌入則被稱為預(yù)訓(xùn)練語(yǔ)言模型(Pre-trained Language Models,PLMs)[1]。早期以Word2Vec(CBOW、Skip-gram)[2]、Glove[3]為代表的靜態(tài)詞嵌入(Static Embeddings)預(yù)訓(xùn)練語(yǔ)言模型PLMs專注于學(xué)習(xí)詞嵌入表示,但只能將詞語(yǔ)映射到一個(gè)上下文無(wú)關(guān)的靜態(tài)詞表示空間上,無(wú)法解決一詞多義等問(wèn)題,并且在下游任務(wù)中仍要從零學(xué)習(xí)上下文信息。為了解決上述問(wèn)題,以ELMo[4]、GPT[5]、BERT[6]引領(lǐng)的上下文詞嵌入預(yù)訓(xùn)練語(yǔ)言模型(Contextual Embeddings PLMs),可以將詞匯的語(yǔ)境信息融入其表示中,并從各個(gè)方面提升了預(yù)訓(xùn)練模型的效果。

最近,以XLM-R[7]為代表的上下文詞嵌入預(yù)訓(xùn)練語(yǔ)言模型表現(xiàn)出驚人的跨語(yǔ)言能力,在多項(xiàng)跨語(yǔ)言理解任務(wù)中的應(yīng)用刷新了最好性能記錄。然而這種性能在很大程度上取決于跨語(yǔ)言詞嵌入的對(duì)齊質(zhì)量,相比于近距離語(yǔ)言對(duì)(如英語(yǔ)、德語(yǔ)),跨語(yǔ)言遷移能力在語(yǔ)言差異性較大的遠(yuǎn)距離語(yǔ)言對(duì)(如漢語(yǔ)與國(guó)內(nèi)少數(shù)民族語(yǔ)言)上表現(xiàn)很差。另一方面,盡管靜態(tài)詞嵌入的表示能力不如上下文詞嵌入,但靜態(tài)詞嵌入對(duì)齊[8-9]已經(jīng)得到了很好的研究,通過(guò)簡(jiǎn)單的映射就可以產(chǎn)生高對(duì)齊質(zhì)量的跨語(yǔ)言詞嵌入表示,而由于上下文詞嵌入具有動(dòng)態(tài)特性,為跨語(yǔ)言對(duì)齊工作帶來(lái)一定的挑戰(zhàn)。

近期,哈工大訊飛聯(lián)合實(shí)驗(yàn)室[10]基于跨語(yǔ)言預(yù)訓(xùn)練模型XLM-R,在多種國(guó)內(nèi)少數(shù)民族語(yǔ)言語(yǔ)料上進(jìn)行了二次預(yù)訓(xùn)練,發(fā)布了首個(gè)面向少數(shù)民族語(yǔ)言以及漢語(yǔ)的多語(yǔ)言預(yù)訓(xùn)練模型CINO(Chinese Minority Pre-trained Language Model)(1)https://github.com/iflytek/cino,填補(bǔ)了民族語(yǔ)言預(yù)訓(xùn)練模型這一研究空白。為了改善預(yù)訓(xùn)練語(yǔ)言模型在漢語(yǔ)與少數(shù)民族語(yǔ)言這類遠(yuǎn)距離語(yǔ)言對(duì)上的跨語(yǔ)言遷移效果,我們?cè)诿嫦蛏贁?shù)民族語(yǔ)言的跨語(yǔ)言預(yù)訓(xùn)練模型CINO的基礎(chǔ)上,探討如何結(jié)合靜態(tài)詞嵌入、上下文詞嵌入各自的優(yōu)勢(shì),來(lái)提高民漢雙語(yǔ)空間的對(duì)齊質(zhì)量,以促進(jìn)自然語(yǔ)言處理技術(shù)更好地遷移到資源稀缺的民族語(yǔ)言信息化處理任務(wù)中。

本文的主要工作包括:

(1) 提出了一個(gè)將靜態(tài)詞嵌入對(duì)齊到少數(shù)民族預(yù)訓(xùn)練語(yǔ)言模型CINO上下文詞嵌入空間中的新框架,以進(jìn)一步提升CINO預(yù)訓(xùn)練模型在下游任務(wù)中的表現(xiàn)。

(2) 通過(guò)設(shè)計(jì)雙語(yǔ)詞典歸納損失、對(duì)比學(xué)習(xí)損失兩個(gè)損失函數(shù),改善民漢遠(yuǎn)距離語(yǔ)言對(duì)的跨語(yǔ)言對(duì)齊表示。

由于國(guó)內(nèi)少數(shù)民族語(yǔ)言資源主要集中在蒙語(yǔ)、藏語(yǔ)以及維吾爾語(yǔ),因此,我們?cè)诿烧Z(yǔ)-漢語(yǔ)、藏語(yǔ)-漢語(yǔ)、維吾爾語(yǔ)-漢語(yǔ)三種遠(yuǎn)距離語(yǔ)言對(duì)上開展相關(guān)實(shí)驗(yàn)。結(jié)果表明,與多個(gè)魯棒的基線系統(tǒng)相比,本文提出的基于跨語(yǔ)言詞嵌入對(duì)齊的少數(shù)民族預(yù)訓(xùn)練語(yǔ)言增強(qiáng)模型,應(yīng)用到雙語(yǔ)詞典歸納、文本分類以及機(jī)器翻譯下游任務(wù)中均取得了一致的效果提升,驗(yàn)證了方法的有效性。

1 相關(guān)工作

為了將模型從資源豐富的語(yǔ)言遷移到資源匱乏的語(yǔ)言上,早期的工作通常利用大規(guī)模單語(yǔ)語(yǔ)料訓(xùn)練靜態(tài)詞嵌入進(jìn)行跨語(yǔ)言對(duì)齊研究,使用簡(jiǎn)單的映射(包括線性映射[11]與非線性映射[12])就可以生成高質(zhì)量的跨語(yǔ)言詞嵌入。特別地,靜態(tài)詞嵌入在許多低資源場(chǎng)景具備無(wú)法替代的優(yōu)勢(shì): 無(wú)須使用大型標(biāo)注數(shù)據(jù),采用無(wú)監(jiān)督學(xué)習(xí)就能獲得良好的詞表示。例如,Conneau等人[13]提出了無(wú)監(jiān)督的跨語(yǔ)言詞對(duì)齊MUSE框架,通過(guò)對(duì)抗學(xué)習(xí)將兩個(gè)單語(yǔ)詞向量空間對(duì)齊,不斷迭代更新映射矩陣來(lái)建立兩種語(yǔ)言之間的雙語(yǔ)詞典。Artetxe等人[14]提出了跨語(yǔ)言詞嵌入映射框架VecMap,在不需要監(jiān)督信號(hào)的情況下學(xué)習(xí)跨語(yǔ)言詞嵌入映射,在標(biāo)準(zhǔn)數(shù)據(jù)集上的結(jié)果甚至超越了之前的監(jiān)督系統(tǒng)。但是這種詞嵌入是靜態(tài)的,一個(gè)單詞對(duì)應(yīng)唯一的詞向量表示,不會(huì)隨著新的上下文而變化,因而在許多應(yīng)用中逐漸被上下文詞嵌入對(duì)齊所取代。

相比靜態(tài)詞嵌入,上下文詞嵌入可以根據(jù)上下文語(yǔ)境動(dòng)態(tài)地獲得每個(gè)單詞的上下文表示,從而獲得更加合理和靈活的詞嵌入,在多語(yǔ)言及跨語(yǔ)言任務(wù)上表現(xiàn)出色。目前,上下文跨語(yǔ)言詞嵌入對(duì)齊工作通常依賴于平行語(yǔ)料或可比語(yǔ)料庫(kù)。例如,Aldarmaki等人[15]將學(xué)習(xí)到的句子級(jí)別對(duì)齊的映射關(guān)系應(yīng)用到單詞級(jí)上下文詞嵌入;Nagata等人[16]將詞對(duì)齊作為一項(xiàng)任務(wù),并利用詞對(duì)齊訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行微調(diào);Gritta等人[17]使用機(jī)器翻譯平行語(yǔ)料庫(kù)提升跨語(yǔ)種預(yù)訓(xùn)練語(yǔ)言模型XLM-R關(guān)于特定任務(wù)的對(duì)齊效果。然而,盡管上下文表示包含豐富的語(yǔ)義信息,但也正是由于其動(dòng)態(tài)特性,詞級(jí)別的跨語(yǔ)言對(duì)齊表現(xiàn)仍然不能超過(guò)靜態(tài)詞嵌入。

為了充分利用靜態(tài)詞嵌入和上下文詞嵌入之間互補(bǔ)的優(yōu)勢(shì),Zhang等人[18]提出結(jié)合靜態(tài)詞嵌入和上下文詞嵌入的相似性插值運(yùn)算實(shí)現(xiàn)跨語(yǔ)言詞嵌入對(duì)齊,在有監(jiān)督及無(wú)監(jiān)督雙語(yǔ)詞典歸納任務(wù)上帶來(lái)一定的性能提升。隨后,H?mmerl等人[19]在40種語(yǔ)言上結(jié)合靜態(tài)詞嵌入和上下文詞嵌入來(lái)改進(jìn)多語(yǔ)言詞嵌入對(duì)齊表示,并在問(wèn)答系統(tǒng)、序列標(biāo)記、信息檢索任務(wù)上驗(yàn)證了有效性。

由于國(guó)內(nèi)少數(shù)民族語(yǔ)言自身的特點(diǎn),如蒙古語(yǔ)族的蒙古語(yǔ)動(dòng)詞變化豐富、藏緬語(yǔ)族的藏語(yǔ)黏著性強(qiáng)以及突厥語(yǔ)族的維吾爾語(yǔ)借詞豐富,導(dǎo)致民漢單語(yǔ)語(yǔ)義空間差異性大。而上述相關(guān)研究方法的性能在很大程度上取決于跨語(yǔ)言詞嵌入的對(duì)齊質(zhì)量,這對(duì)國(guó)內(nèi)少數(shù)民族語(yǔ)言與漢語(yǔ)之間這類數(shù)據(jù)不平衡以及遠(yuǎn)距離語(yǔ)言對(duì)并不友好;另一方面,目前專門針對(duì)民漢跨語(yǔ)言詞嵌入的研究相對(duì)匱乏,這嚴(yán)重阻礙了跨語(yǔ)言應(yīng)用在民族語(yǔ)言上的發(fā)展。因此,本文提出一種基于跨語(yǔ)言詞嵌入對(duì)齊的少數(shù)民族預(yù)訓(xùn)練語(yǔ)言增強(qiáng)模型,促進(jìn)預(yù)訓(xùn)練語(yǔ)言模型在低資源、遠(yuǎn)距離語(yǔ)言對(duì)上的遷移應(yīng)用,以期為相關(guān)研究提供參考。

2 方法

為了充分利用靜態(tài)詞嵌入的魯棒性以及上下文詞嵌入包含的豐富句法及語(yǔ)義信息,改善民漢跨語(yǔ)言詞嵌入的對(duì)齊質(zhì)量。本文提出一個(gè)將靜態(tài)詞嵌入對(duì)齊到基于CINO模型抽取出來(lái)的上下文詞嵌入空間的新框架。具體地,本文方法分為三步: 首先,將兩種大規(guī)模單語(yǔ)語(yǔ)言的靜態(tài)詞嵌入進(jìn)行跨語(yǔ)言對(duì)齊;其次,給定民漢平行句對(duì),從CINO模型中抽取上下文詞嵌入,并設(shè)計(jì)兩種損失函數(shù)(雙語(yǔ)詞典歸納損失、對(duì)比學(xué)習(xí)損失)將靜態(tài)詞嵌入對(duì)齊到上下文詞嵌入的語(yǔ)義空間中;最后,將經(jīng)過(guò)跨語(yǔ)言詞嵌入對(duì)齊的CINO增強(qiáng)模型應(yīng)用于資源匱乏的民族語(yǔ)言下游任務(wù)(如雙語(yǔ)詞典歸納、文本分類、機(jī)器翻譯等)。以蒙語(yǔ)-漢語(yǔ)這一語(yǔ)言對(duì)為例,本文提出的模型框架如圖1所示。在這一部分中,首先介紹本文用到的符號(hào)定義(2.1節(jié)),再介紹靜態(tài)詞嵌入的跨語(yǔ)言對(duì)齊方式(2.2節(jié))以及將其對(duì)齊到上下文詞嵌入空間所設(shè)計(jì)的兩種損失函數(shù)(2.3節(jié))。

圖1 模型架構(gòu)圖

2.1 符號(hào)定義

2.2 單語(yǔ)靜態(tài)詞嵌入的跨語(yǔ)言對(duì)齊

近年來(lái),一些工作[13-14]在研究沒有任何監(jiān)督信號(hào)的情況下,采用從源語(yǔ)言到目標(biāo)語(yǔ)言的單向映射實(shí)現(xiàn)雙語(yǔ)空間對(duì)齊。但是,他們所提出的方法在很大程度上依賴于兩種語(yǔ)言相似的語(yǔ)言特性,即兩種語(yǔ)言之間含有大量的詞匯重疊。然而,國(guó)內(nèi)少數(shù)民族語(yǔ)言與漢語(yǔ)之間不存在任何詞匯重疊,并且語(yǔ)言形態(tài)不同,屬于遠(yuǎn)距離語(yǔ)言對(duì)。因此,受語(yǔ)法、構(gòu)詞上的差異及單語(yǔ)訓(xùn)練語(yǔ)料主題不一致等因素的影響,漢語(yǔ)與國(guó)內(nèi)少數(shù)民族語(yǔ)言的單語(yǔ)詞嵌入空間并不同構(gòu),而傳統(tǒng)單向投影的跨語(yǔ)言詞嵌入方法沒有考慮這種差異性帶來(lái)的影響,導(dǎo)致最終獲取到的民漢跨語(yǔ)言詞嵌入效果不佳。另一方面,在賴文等[20]的工作中對(duì)少數(shù)民族語(yǔ)言與漢語(yǔ)之間的跨語(yǔ)言詞向量進(jìn)行了深入研究,他們發(fā)現(xiàn),少數(shù)民族語(yǔ)言與漢語(yǔ)之間的無(wú)監(jiān)督跨語(yǔ)言詞嵌入的性能極差,但是在加入少量的雙語(yǔ)詞典作為監(jiān)督信號(hào)時(shí),會(huì)極大改善跨語(yǔ)言詞嵌入的表現(xiàn)。因此,本文參照相同思路,利用少量的雙語(yǔ)詞典,提升了跨語(yǔ)言詞嵌入對(duì)齊的性能。

(1)

(2)

2.3 詞嵌入對(duì)齊下的預(yù)訓(xùn)練語(yǔ)言增強(qiáng)模型

在2.2節(jié)獲得兩種單語(yǔ)語(yǔ)言對(duì)齊的靜態(tài)跨語(yǔ)言詞嵌入之后,我們研究如何將對(duì)齊后的靜態(tài)詞嵌入進(jìn)一步對(duì)齊到少數(shù)民族預(yù)訓(xùn)練語(yǔ)言模型CINO的上下文詞嵌入中。為此,本文設(shè)計(jì)了兩個(gè)目標(biāo)損失函數(shù): 雙語(yǔ)詞典歸納損失和對(duì)比學(xué)習(xí)損失。下面將分別詳細(xì)介紹這兩種損失函數(shù)。

2.3.1 雙語(yǔ)詞典歸納損失

最終,我們?cè)O(shè)計(jì)的雙語(yǔ)詞典歸納損失函數(shù)如式(5)所示。

LBLI=Distance+Coverage

(5)

2.3.2 對(duì)比學(xué)習(xí)損失

對(duì)比學(xué)習(xí)(Contrastive Learning)[21]目的是: 將模型中語(yǔ)義相似的實(shí)例(正樣本)在詞嵌入表示中盡可能地接近,而偏離那些語(yǔ)義不同的實(shí)例(負(fù)樣本),所以如何構(gòu)建正樣本和負(fù)樣本成為對(duì)比學(xué)習(xí)中最關(guān)鍵的問(wèn)題。對(duì)于正樣本,已經(jīng)對(duì)齊的目標(biāo)語(yǔ)言單詞即為正樣本;在語(yǔ)義上相近但是并沒有對(duì)齊的單詞即為負(fù)樣本。更具體地,對(duì)于一個(gè)單詞ws,我們將集合Cstatic中除wt以外的單詞作為負(fù)樣本。

本文采用了InfoNCE損失[22],這是一個(gè)在對(duì)比學(xué)習(xí)研究中普遍使用的一個(gè)損失函數(shù)。我們將該損失結(jié)合目標(biāo)實(shí)現(xiàn)了靜態(tài)詞嵌入與上下文詞嵌入的對(duì)齊。具體地,目標(biāo)函數(shù)表示如式(6)所示。

(6)

其中,sim(·)計(jì)算的是兩個(gè)向量之間的余弦相似度,+和-分別表示正例和負(fù)例,R(s)(表示單詞的上下文詞向量,τ是一個(gè)溫度系數(shù),使用它來(lái)控制鑒別正例和負(fù)例的難度(τ越大表示從負(fù)例中鑒別正例的難度越大)。

2.3.3 靜態(tài)詞嵌入的跨語(yǔ)言對(duì)齊

我們最終的訓(xùn)練目標(biāo)由2.3.1和2.3.2節(jié)的兩部分損失函數(shù)進(jìn)行迭代優(yōu)化,如式(7)所示。

Ltotal=λ·LBLI+(1-λ)·LCL

(7)

其中,λ為超參數(shù)(我們將在5.3節(jié)中對(duì)該超參數(shù)進(jìn)行分析),來(lái)詳細(xì)說(shuō)明雙語(yǔ)詞典歸納損失、對(duì)比學(xué)習(xí)損失對(duì)總體損失的重要程度。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)

單語(yǔ)數(shù)據(jù)集漢語(yǔ)單語(yǔ)數(shù)據(jù)來(lái)自CCMT2021(3)http: //sc.cipsc.org.cn/mt/conference/2021/,使用Jieba(4)https://github.com/fxsjy/jieba分詞。由于目前缺少開源的大規(guī)模蒙語(yǔ)、藏語(yǔ)以及維吾爾語(yǔ)的單語(yǔ)數(shù)據(jù),所以我們對(duì)相關(guān)民族語(yǔ)言文字網(wǎng)站進(jìn)行語(yǔ)料爬取,通過(guò)句子切分、過(guò)濾掉含有亂碼的句子、去重、Moses(5)https://github.com/moses-smt/mosesdecoder/tree/master/scripts預(yù)處理等步驟,最終構(gòu)建了1 000萬(wàn)句漢語(yǔ)、蒙語(yǔ)、藏語(yǔ)以及維吾爾語(yǔ)的單語(yǔ)語(yǔ)料庫(kù),用于單語(yǔ)靜態(tài)詞嵌入的訓(xùn)練。

雙語(yǔ)數(shù)據(jù)集本文使用第17屆全國(guó)機(jī)器翻譯大會(huì)(CCMT2021)提供的蒙漢、藏漢以及維漢機(jī)器翻譯平行句對(duì),通過(guò)CINO模型抽取上下文詞嵌入。

3.2 實(shí)驗(yàn)設(shè)置

我們使用FastText(6)https://github.com/facebookresearch/fastText/對(duì)漢語(yǔ)、蒙語(yǔ)、藏語(yǔ)以及維吾爾語(yǔ)四種單語(yǔ)語(yǔ)料進(jìn)行靜態(tài)詞嵌入訓(xùn)練,詞嵌入維度設(shè)為300。對(duì)于上下文詞嵌入,本文使用X2Static[23]工具分別對(duì)少數(shù)民族預(yù)訓(xùn)練語(yǔ)言模型CINO的base和large版本抽取獲得,該工具即使利用少量數(shù)據(jù)也能取得更好的效果,其中當(dāng)使用CINO-base時(shí),詞嵌入維度為768;使用CINO-large時(shí),詞嵌入維度為1 024。同時(shí),我們使用詞對(duì)齊工具Fast_Align(7)https://github.com/clab/fast_align從民漢平行句對(duì)中獲得所有翻譯詞對(duì),并作為額外知識(shí)指導(dǎo)不同語(yǔ)言之間的詞嵌入的對(duì)齊訓(xùn)練。

3.3 下游任務(wù)

預(yù)訓(xùn)練上下文語(yǔ)言模型在大量未標(biāo)注的語(yǔ)料上進(jìn)行預(yù)訓(xùn)練,能夠獲得通用的詞嵌入表示,然后應(yīng)用到下游任務(wù)中,并根據(jù)任務(wù)的特點(diǎn)進(jìn)行微調(diào)以修正網(wǎng)絡(luò),這種預(yù)訓(xùn)練加微調(diào)的方式不僅能大幅度提升下游任務(wù)性能,而且避免從頭訓(xùn)練的額外開銷。以下內(nèi)容將依次評(píng)估我們提出的基于跨語(yǔ)言詞嵌入對(duì)齊的少數(shù)民族預(yù)訓(xùn)練語(yǔ)言增強(qiáng)模型CINO在雙語(yǔ)詞典歸納、文本分類以及機(jī)器翻譯三個(gè)下游任務(wù)中的表現(xiàn)。

4 實(shí)驗(yàn)結(jié)果

4.1 雙語(yǔ)詞典歸納

在有監(jiān)督雙語(yǔ)詞典歸納任務(wù)中,我們使用的雙語(yǔ)詞典來(lái)自本實(shí)驗(yàn)室經(jīng)相關(guān)母語(yǔ)專家人工標(biāo)注及校正的蒙漢、藏漢以及維漢詞典。由于上述民漢詞典中的一些詞語(yǔ)不一定出現(xiàn)在單語(yǔ)語(yǔ)料庫(kù)中,所以需要進(jìn)一步抽取出全部包含在單語(yǔ)數(shù)據(jù)集中的詞組。最終,我們篩選出蒙古語(yǔ)、藏語(yǔ)、維吾爾語(yǔ)與漢語(yǔ)之間相互6個(gè)方向的雙語(yǔ)詞典,并在詞典具有唯一的源語(yǔ)言單詞的情況下,劃分為5 000對(duì)訓(xùn)練集、1 000對(duì)驗(yàn)證集及測(cè)試集。該任務(wù)的基線系統(tǒng)包括:

(1)MUSE[13]: 基于普氏分析(Procrustes analysis,PA)[24]執(zhí)行對(duì)齊算法歸納種子詞典,使用對(duì)抗的方式學(xué)習(xí)映射矩陣。

(2)VecMap[14]: 一個(gè)學(xué)習(xí)雙語(yǔ)詞嵌入的通用框架,包括: 歸一化、白化、正交映射、重加權(quán)、去白化和降維等步驟。

(3)RCSLS[25]: 通過(guò)優(yōu)化跨域相似性局部縮放(Cross-domain similarity local scaling,CSLS)損失[13],學(xué)習(xí)非正交映射,其目標(biāo)函數(shù)直接面向雙語(yǔ)詞典歸納任務(wù)。

(4)InterpolationRCSLS[18]: 提出一種spring network來(lái)拉近翻譯詞對(duì)的詞嵌入距離,并建立靜態(tài)雙語(yǔ)詞嵌入和上下文雙語(yǔ)詞嵌入相結(jié)合的統(tǒng)一詞表示空間,隨后在統(tǒng)一詞表示空間和上下文詞嵌入空間之間執(zhí)行相似性插值運(yùn)算。

(5)X2S-MA[19]: 從XLM-R中提取靜態(tài)詞嵌入X2S-M,并使用VecMap對(duì)其進(jìn)行對(duì)齊獲得X2A-MA,再通過(guò)對(duì)齊損失將X2S-MA更好地對(duì)齊XLM-R的表示空間,我們利用這個(gè)方法在CINO模型上進(jìn)行實(shí)驗(yàn)。

(6)CINO[10]: 通過(guò)少數(shù)民族預(yù)訓(xùn)練語(yǔ)言模型CINO(包括base、large版本)編碼整個(gè)句子并抽取每個(gè)單詞的上下文詞嵌入表示,我們參照基線(5)使用VecMap(8)https://github.com/artetxem/vecmap工具進(jìn)行對(duì)齊。

表1展示了基于跨語(yǔ)言詞嵌入對(duì)齊的CINO模型與基線在雙語(yǔ)詞典歸納任務(wù)上的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)分為四組: ①靜態(tài)詞嵌入跨語(yǔ)言對(duì)齊(MUSE、VecMap和RCSLS); ②預(yù)訓(xùn)練語(yǔ)言模型CINO抽取的上下文詞嵌入跨語(yǔ)言對(duì)齊(CINO-base、CINO-large); ③結(jié)合靜態(tài)詞嵌入與上下文詞嵌入的跨語(yǔ)言對(duì)齊(Interpolation、X2S-MA); ④文本提出的靜態(tài)詞嵌入對(duì)齊到CINO模型上下文詞嵌入的跨語(yǔ)言對(duì)齊(Our-CINO-base、Our-CINO-large)。評(píng)價(jià)指標(biāo)使用詞匯對(duì)齊的準(zhǔn)確率P@k,選取k=1,5,即P@1、P@5表示基于跨語(yǔ)言詞嵌入的源語(yǔ)言中的某個(gè)單詞中尋找最近鄰的1,5個(gè)單詞,有多大的概率是在詞典測(cè)試集的目標(biāo)單詞中。

表1 雙語(yǔ)詞典歸納任務(wù)實(shí)驗(yàn)結(jié)果 (單位: %)

通過(guò)表1的實(shí)驗(yàn)結(jié)果,可得出以下結(jié)論:

(1) 預(yù)訓(xùn)練語(yǔ)言模型抽取的上下文詞嵌入(表中CINO-base和CINO-large)在沒有任何輔助信息的情況下,詞嵌入對(duì)齊準(zhǔn)確率遠(yuǎn)不如靜態(tài)詞嵌入對(duì)齊(MUSE、VecMap和RCSLS),這是因?yàn)轭A(yù)訓(xùn)練模型是在大規(guī)模單語(yǔ)語(yǔ)料中訓(xùn)練獲得并且其預(yù)訓(xùn)練目標(biāo)為一些常規(guī)的掩碼語(yǔ)言模型,并不是如雙語(yǔ)詞典歸納這種嚴(yán)格的詞級(jí)別的對(duì)齊任務(wù)。

(2) 相比于從預(yù)訓(xùn)練語(yǔ)言模型中抽取的上下文詞嵌入對(duì)齊,結(jié)合靜態(tài)詞嵌入與上下文詞嵌入的跨語(yǔ)言對(duì)齊(InterpolationRCSLS和X2S-MA)表現(xiàn)出較好的性能,但是在民漢語(yǔ)言對(duì)上,由于語(yǔ)言差異性大(如藏語(yǔ)的黏著性及曲折性變化、維吾爾語(yǔ)的形態(tài)豐富性等)而表現(xiàn)出不穩(wěn)定性,即并不能超過(guò)所有的靜態(tài)詞嵌入基線。

(3) 本文提出的方法,在雙語(yǔ)詞典歸納任務(wù)中具有更優(yōu)秀的表現(xiàn),其中Our-CINO-large方法超過(guò)了以上基線系統(tǒng)的對(duì)齊性能,這歸功于我們?cè)O(shè)計(jì)的雙語(yǔ)詞典歸納損失,進(jìn)一步提高了民族語(yǔ)言與漢語(yǔ)這類遠(yuǎn)距離語(yǔ)言對(duì)的跨語(yǔ)言詞嵌入對(duì)齊準(zhǔn)確率。

4.2 文本分類

Yang等人[10]為了評(píng)估少數(shù)民族預(yù)訓(xùn)練語(yǔ)言模型CINO的跨語(yǔ)言及多語(yǔ)言能力,根據(jù)少數(shù)民族語(yǔ)言維基百科語(yǔ)料及其分類體系標(biāo)簽,首先構(gòu)建了分類任務(wù)數(shù)據(jù)集Wiki-Chinese-Minority(WCM),以及后來(lái)的WCM-v2(9)https://github.com/iflytek/cino版本調(diào)整了各類別與語(yǔ)言的樣本數(shù)量,分布相對(duì)更均衡。該數(shù)據(jù)集覆蓋蒙古語(yǔ)、藏語(yǔ)、維吾爾語(yǔ)、粵語(yǔ)、朝鮮語(yǔ)、哈薩克語(yǔ)以及漢語(yǔ)普通話,包括藝術(shù)、地理、歷史、自然、自然科學(xué)、人物、技術(shù)、教育、經(jīng)濟(jì)和健康十個(gè)類別,并在漢語(yǔ)訓(xùn)練集上訓(xùn)練模型,在其他語(yǔ)言上進(jìn)行zero-shot測(cè)試。

在該下游任務(wù)中,我們同樣使用少數(shù)民族分類數(shù)據(jù)集WCM-v2訓(xùn)練我們提出的基于詞嵌入對(duì)齊的預(yù)訓(xùn)練語(yǔ)言增強(qiáng)模型,并使用其中的蒙語(yǔ)測(cè)試集(2 973條)、藏語(yǔ)測(cè)試集(1 110條)以及維吾爾語(yǔ)測(cè)試集(300條)進(jìn)行測(cè)試。基線包括: XLM-R的base版本、large版本以及CINO的base版本、large版本。

為了考慮民族語(yǔ)言資源匱乏導(dǎo)致類別分布不均衡問(wèn)題,比如在300條維吾爾語(yǔ)測(cè)試集,除地理類別占據(jù)256條外,其他9個(gè)類別的樣本數(shù)量為個(gè)位數(shù)或者是零樣本。因此,在這種極度不均衡情況下,評(píng)價(jià)指標(biāo)選取多分類評(píng)價(jià)指標(biāo)weight-F1值(10)https://scikit-learn.org/stable/modules/generated/sklearn.me-trics. f1_score. html,即通過(guò)把每個(gè)類別的樣本數(shù)量作為權(quán)重,計(jì)算加權(quán)F1值,以充分考慮不同類別的重要性。實(shí)驗(yàn)結(jié)果如圖2所示,其中所有基線系統(tǒng)中的實(shí)驗(yàn)結(jié)果源自CINO模型的github(11)https://github.com/iflytek/cino公布的最新實(shí)驗(yàn)結(jié)果。

圖2 WCM-v2數(shù)據(jù)集上文本分類任務(wù)實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在文本分類任務(wù)中性能表現(xiàn)良好,超過(guò)了所有的基線。具體地,在蒙語(yǔ)測(cè)試集(覆蓋10個(gè)類別)上,weight-F1值相比基線中性能最優(yōu)的CINO-large-v2模型提升4.7%;同時(shí)在維吾爾語(yǔ)測(cè)試集(僅覆蓋6個(gè)類別)上,CINO-large-v2的weight-F1值已經(jīng)達(dá)到90.1%,而我們的方法仍能進(jìn)一步提高2.2個(gè)百分點(diǎn)。這一性能的取得很大程度上取決于我們?cè)O(shè)計(jì)的對(duì)比學(xué)習(xí)損失,因?yàn)閷?duì)比學(xué)習(xí)使得模型中同一類別的句子在表示空間中比較接近,而不同類別的句子在表示空間中距離比較遠(yuǎn)。

4.3 機(jī)器翻譯

在該任務(wù)中,我們使用CCMT2021蒙漢、藏漢、維漢的訓(xùn)練集、驗(yàn)證集以及CWMT2018(12)http: //www.cipsc.org.cn/cwmt/2018/測(cè)試集,選取神經(jīng)機(jī)器翻譯模型Transformer[26]以及在機(jī)器翻譯任務(wù)上微調(diào)CINO模型作為基線,同時(shí)微調(diào)我們提出的預(yù)訓(xùn)練語(yǔ)言增強(qiáng)模型。評(píng)測(cè)指標(biāo)為機(jī)器雙語(yǔ)互譯評(píng)估值(BLEU)[27],實(shí)驗(yàn)結(jié)果如表2所示。

表2 民漢機(jī)器翻譯任務(wù)實(shí)驗(yàn)結(jié)果 (單位: %)

由表2可知,雖然預(yù)訓(xùn)練語(yǔ)言模型(CINO-base和CINO-large)在許多跨語(yǔ)言任務(wù)中表現(xiàn)出很強(qiáng)的性能,但是在機(jī)器翻譯這類傳統(tǒng)的句子級(jí)別對(duì)齊的任務(wù)中表現(xiàn)稍差。原因在于,預(yù)訓(xùn)練語(yǔ)言模型是在大規(guī)模單語(yǔ)語(yǔ)料上訓(xùn)練獲得的,盡管預(yù)訓(xùn)練加微調(diào)的方式能為低資源神經(jīng)機(jī)器翻譯模型提供更多的跨語(yǔ)言信息,其效果還是與有監(jiān)督神經(jīng)機(jī)器翻譯模型Transformer有一定的差距。不過(guò),本文方法仍能遠(yuǎn)遠(yuǎn)超過(guò)不經(jīng)過(guò)任何修改的CINO系統(tǒng),其中Our-CINO-large方法的翻譯效果甚至可以與強(qiáng)大的Transformer基線相媲美。這主要?dú)w功于我們?cè)O(shè)計(jì)的兩種損失函數(shù)將兩種語(yǔ)言在詞級(jí)別的層次上做了很好的對(duì)齊,使得預(yù)訓(xùn)練語(yǔ)言模型可以在機(jī)器翻譯模型訓(xùn)練初期提供樸素的詞對(duì)翻譯信息,能夠有效改善翻譯質(zhì)量。

5 分析

5.1 消融實(shí)驗(yàn)

為了提升CINO模型的跨語(yǔ)言詞嵌入對(duì)齊效果,我們?cè)?.3節(jié)中引入了雙語(yǔ)詞典歸納損失LBLI、對(duì)比學(xué)習(xí)損失LCL兩個(gè)損失函數(shù),為了探究哪個(gè)損失函數(shù)更重要,我們?cè)O(shè)計(jì)了兩組實(shí)驗(yàn)進(jìn)行驗(yàn)證。第一組實(shí)驗(yàn),我們探究?jī)蓚€(gè)損失函數(shù)在雙語(yǔ)詞典歸納任務(wù)中的表現(xiàn);第二組實(shí)驗(yàn),我們探究?jī)蓚€(gè)損失函數(shù)在文本分類中的表現(xiàn)。我們將分別在5.1.1節(jié)和5.1.2節(jié)中分析這兩組實(shí)驗(yàn)。

5.1.1 雙語(yǔ)詞典歸納任務(wù)

以維漢雙語(yǔ)詞典歸納任務(wù)為例,基于跨語(yǔ)言詞嵌入對(duì)齊的預(yù)訓(xùn)練語(yǔ)言增強(qiáng)模型(Our-CINO-Large)的實(shí)驗(yàn)結(jié)果如表3所示。

表3 損失函數(shù)對(duì)維漢雙語(yǔ)詞典歸納的影響 (單位: %)

實(shí)驗(yàn)結(jié)果表明,在維吾爾語(yǔ)與漢語(yǔ)之間的詞典歸納任務(wù)中,如果不添加所設(shè)計(jì)的兩種損失函數(shù),我們的模型盡管結(jié)合了靜態(tài)與上下文詞嵌入,但是總體效果無(wú)法超越表1中的靜態(tài)詞嵌入對(duì)齊(MUSE、VecMap和RCSLS)表現(xiàn)。而一旦引入雙語(yǔ)詞典歸納損失LBLI或者對(duì)比學(xué)習(xí)損失LCL后,雙語(yǔ)詞嵌入對(duì)齊效果會(huì)得到明顯改善,其中LBLI對(duì)于性能的提升占據(jù)了主要的作用,例如,在維-漢方向P@1值相對(duì)提高5.68個(gè)百分點(diǎn),遠(yuǎn)遠(yuǎn)超過(guò)LCL的作用(提升僅3.16個(gè)百分點(diǎn))。此外,將兩個(gè)損失結(jié)合能夠進(jìn)一步提升性能,但加入LCL后提升的效果沒有LBLI明顯。

5.1.2 文本分類任務(wù)

我們使用少數(shù)民族分類數(shù)據(jù)集WCM-v2,記錄基于跨語(yǔ)言詞嵌入對(duì)齊的預(yù)訓(xùn)練語(yǔ)言增強(qiáng)模型(Our-CINO-large)分別在蒙語(yǔ)、藏語(yǔ)、維吾爾語(yǔ)測(cè)試集上的表現(xiàn),weight-F1值評(píng)價(jià)結(jié)果如表4所示。

表4 損失函數(shù)對(duì)文本分類的影響 (單位: %)

實(shí)驗(yàn)結(jié)果表明,模型在引入雙語(yǔ)詞典歸納損失LBLI或者對(duì)比學(xué)習(xí)損失LCL損失函數(shù)后,文本分類的效果會(huì)進(jìn)一步提高。其中,LCL起了更重要的作用,例如在蒙語(yǔ)測(cè)試集上,weight-F1值能夠再增加3.1個(gè)百分點(diǎn)。這一實(shí)驗(yàn)現(xiàn)象與4.2節(jié)中的結(jié)論保持一致,即對(duì)比學(xué)習(xí)損失使相同類別的句子盡可能地接近,并分散不同類別的句子。

5.2 k的取值對(duì)實(shí)驗(yàn)結(jié)果的影響

在2.3.1節(jié)中,本文方法提到雙語(yǔ)詞典歸納損失中的超參數(shù)k,下面我們以藏-漢雙向翻譯任務(wù)為例,分析k的不同取值對(duì)實(shí)驗(yàn)性能的影響,使用BLEU值的評(píng)價(jià)結(jié)果如表5所示。

表5 k值對(duì)翻譯性能的影響 (單位: %)

由表5可知,在k=5的取值下,我們的方法在base和large版本均中取得了最優(yōu)的性能。這一現(xiàn)象符合我們的預(yù)期,因?yàn)?當(dāng)k=1的時(shí)候,這種方式為嚴(yán)格的雙語(yǔ)詞對(duì)齊,表1中的實(shí)驗(yàn)結(jié)果同樣顯示其詞對(duì)齊準(zhǔn)確率不佳,所以對(duì)機(jī)器翻譯任務(wù)沒有很好的性能提升;當(dāng)k=5時(shí),這種方式在詞的對(duì)齊層面取得了很好的效果,進(jìn)而對(duì)機(jī)器翻譯任務(wù)有了正面的提升。但是,當(dāng)k=10時(shí),因其在雙語(yǔ)對(duì)齊任務(wù)中含有大量的噪聲,在一定程度上阻礙了機(jī)器翻譯任務(wù)的性能。

5.3 λ取值對(duì)實(shí)驗(yàn)結(jié)果的影響

在2.3.3節(jié)中提到訓(xùn)練目標(biāo)中的超參數(shù)λ,分別對(duì)這個(gè)參數(shù)取不同的值,基于跨語(yǔ)言詞嵌入對(duì)齊的預(yù)訓(xùn)練語(yǔ)言增強(qiáng)模型(Our-CINO-large),依次判斷其在雙語(yǔ)詞典歸納、文本分類以及機(jī)器翻譯各個(gè)任務(wù)中的重要程度,實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 λ對(duì)下游任務(wù)的作用程度

實(shí)驗(yàn)結(jié)果表明,λ的不同取值與5.1節(jié)中的結(jié)論保持一致:

(1)λ作為雙語(yǔ)詞典歸納損失LBLI的權(quán)重,隨著λ取值的不斷增大,LBLI占據(jù)了目標(biāo)函數(shù)的主要成分,其詞嵌入對(duì)齊提升的效果越加明顯,即LBLI對(duì)雙語(yǔ)詞典歸納任務(wù)更重要。其中,最優(yōu)超參數(shù)取值分別為蒙漢方向(λ=0.8)以及漢蒙方向(λ=0.9),表示LBLI、LCL兩個(gè)損失結(jié)合,進(jìn)一步提升了性能。

(2) (1-λ)是對(duì)比學(xué)習(xí)損失LCL的權(quán)重,因此文本分類效果隨著λ的增大,整體呈現(xiàn)單調(diào)遞減,即LCL對(duì)文本分類任務(wù)更加重要。其中,當(dāng)λ=0.2時(shí),蒙語(yǔ)文本分類性能達(dá)到最優(yōu)。

(3) 與上述兩個(gè)任務(wù)不同的是,我們發(fā)現(xiàn),這兩種損失在機(jī)器翻譯任務(wù)中表現(xiàn)出相同的重要性,當(dāng)λ取值約為中間值時(shí),即兩個(gè)損失函數(shù)在訓(xùn)練目標(biāo)中的占比相當(dāng),蒙語(yǔ)與漢語(yǔ)互譯方向的翻譯效果達(dá)到最佳。

6 結(jié)論

針對(duì)民漢低資源場(chǎng)景下語(yǔ)言差異性大、跨語(yǔ)言詞嵌入對(duì)齊效果差,導(dǎo)致預(yù)訓(xùn)練語(yǔ)言模型在下游任務(wù)中的遷移效果不佳的問(wèn)題。本文提出將靜態(tài)詞嵌入對(duì)齊到少數(shù)民族預(yù)訓(xùn)練語(yǔ)言模型CINO的上下文詞嵌入空間中的新框架,進(jìn)一步提升下游任務(wù)的性能。我們通過(guò)設(shè)計(jì)雙語(yǔ)詞典歸納損失、對(duì)比學(xué)習(xí)損失兩個(gè)損失函數(shù)將靜態(tài)詞嵌入對(duì)齊到CINO模型的上下文詞嵌入,以提高遠(yuǎn)距離語(yǔ)言對(duì)的跨語(yǔ)言詞嵌入對(duì)齊質(zhì)量。此外,我們還進(jìn)行了一系列更精細(xì)的評(píng)估、分析和消融研究。在蒙語(yǔ)-漢語(yǔ)、藏語(yǔ)-漢語(yǔ)、維吾爾語(yǔ)-漢語(yǔ)三種民漢遠(yuǎn)距離語(yǔ)言對(duì)上的實(shí)驗(yàn)表明,相比魯棒的基線系統(tǒng),本文方法充分結(jié)合了靜態(tài)詞嵌入和上下文詞嵌入互補(bǔ)的優(yōu)點(diǎn),并在雙語(yǔ)詞典歸納、文本分類以及機(jī)器翻譯下游任務(wù)中都實(shí)現(xiàn)了顯著的性能提升,驗(yàn)證了本文方法的有效性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放