BERT 跨語言詞向量學(xué)習(xí)研究

2021-08-07 07:42:16王玉榮李艷玲

計(jì)算機(jī)與生活 2021年8期

王玉榮，林民，李艷玲

內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，呼和浩特 010022

隨著互聯(lián)網(wǎng)多語言信息的發(fā)展，不同語言的知識(shí)共享與聯(lián)系日益緊密，如何有效地表示不同語言文本所隱含的動(dòng)態(tài)特征信息，已成為當(dāng)下的研究熱點(diǎn)。文本詞向量能夠表示文本語義、語法和結(jié)構(gòu)等特征信息，跨語言詞向量是單語文本詞向量在多語言環(huán)境下的一種自然擴(kuò)展。它認(rèn)為具有相同概念的不同語言的詞向量在向量空間中的距離非常接近，使得跨語言詞向量可以在不同語言間進(jìn)行詞義推理和特征共享[1]。通過多語言的知識(shí)可以構(gòu)建動(dòng)態(tài)的共享特征空間，使得有利于發(fā)現(xiàn)跨語言相關(guān)知識(shí)的對(duì)齊效果，增強(qiáng)相關(guān)但不同的分類知識(shí)域間的聯(lián)系。

近年來，跨語言詞向量被應(yīng)用于多個(gè)自然語言處理（natural language processing，NLP）任務(wù)中，如面向任務(wù)的對(duì)話系統(tǒng)[2-3]、詞性標(biāo)注[4-6]、命名實(shí)體識(shí)別[7-8]、信息檢索[9]、依存分析[10]和個(gè)性化對(duì)話代理[11]。與其他跨語言模型相比，如基于多語言本體的跨語言模型[12]，跨語言詞向量模型有兩大優(yōu)勢(shì)。第一，跨語言詞向量模型能夠?qū)缯Z言語義信息進(jìn)行建模，準(zhǔn)確計(jì)算跨語言詞語相似度等信息，是跨語言詞典構(gòu)建[13]、跨語言信息管理[14]、跨語言信息檢索[15]等多種跨語言應(yīng)用的基礎(chǔ)[16]。第二，跨語言詞向量支持語言之間的模型轉(zhuǎn)移，為遷移學(xué)習(xí)提供了橋梁。例如，跨語言遷移學(xué)習(xí)的一個(gè)重要研究方向是[17-20]，通過提供公共的表示空間，實(shí)現(xiàn)資源豐富的語言和資源貧乏的語言之間的模型轉(zhuǎn)移[1]。

大多數(shù)跨語言詞向量模型都使用單語詞向量模型，并將其擴(kuò)展到雙語以及多語言環(huán)境中。單語詞向量模型成為很多跨語言詞向量模型的一個(gè)重要的初步工作。

早在Bengio等[21]提出的神經(jīng)網(wǎng)絡(luò)語言模型（neural network language model，NNLM）及Mikolov[22]提出的Word2Vec 特征表示學(xué)習(xí)模型，將文本訓(xùn)練成為用分布式詞向量表示的詞向量，能有效捕捉隱含在單詞上下文的語法、語義信息，在許多需要這些語言特征建模的應(yīng)用任務(wù)中取得了較好的效果，如情感分析[23]、依存分析[24]、機(jī)器翻譯[25]等任務(wù)。但該模型的缺陷是：（1）只考慮固定大小窗口內(nèi)的單詞，在獲取句子上下文語義信息方面存在困難；（2）獲得的詞向量具有聚義現(xiàn)象，將處于不同語境的詞匯多種語義綜合表示成一個(gè)詞向量，不能表達(dá)一詞多義，是一種靜態(tài)的詞向量。為了有效學(xué)習(xí)詞匯的多重含義，Peters等[26]提出基于雙向LSTM（long short-term memory）的深度語境化詞向量模型ELMo（embedding from language models），對(duì)單詞的復(fù)雜特征，以及單詞使用時(shí)語境中的變化進(jìn)行建模。Devlin等[27]提出了BERT（bidirectional encoder representations from transformers）模型。它摒棄了雙向LSTM 的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)，把Transformer[28]編碼器當(dāng)作模型的主體結(jié)構(gòu)，并利用注意力機(jī)制對(duì)句子進(jìn)行建模。BERT 模型的突出優(yōu)勢(shì)是通過海量語料的訓(xùn)練，得到了一組適用性十分廣泛的詞向量，同時(shí)還能在具體任務(wù)中進(jìn)一步動(dòng)態(tài)優(yōu)化（fine-tuning），生成上下文語境敏感的動(dòng)態(tài)詞向量，解決了以往Word2Vec、Glove（global vectors for word representation）等模型的聚義問題。BERT 預(yù)訓(xùn)練模型的出現(xiàn)，使靜態(tài)的跨語言特征共享空間走向了動(dòng)態(tài)的跨語言特征共享空間，解決了在多語言環(huán)境中一詞多義的問題。例如，“蘋果”這個(gè)詞的向量在英漢跨語言詞向量空間中，可以根據(jù)不同的上下文與英文的“fruits”類詞匯或“enterprises”類詞匯向量接近。

因而本文重點(diǎn)分析基于BERT 的跨語言詞向量學(xué)習(xí)方法，按照訓(xùn)練方式的不同分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)，并對(duì)各類訓(xùn)練方法的原理進(jìn)行分析和比較。結(jié)合闡述的文獻(xiàn)，以構(gòu)建基于BERT 的蒙漢文跨語言詞向量進(jìn)行展望。

1 預(yù)訓(xùn)練模型BERT 和跨語言詞向量模型相關(guān)概念及訓(xùn)練數(shù)據(jù)需求

BERT 模型通過預(yù)訓(xùn)練和微調(diào)的方式得到語義更豐富的詞向量表示，能夠克服傳統(tǒng)詞向量的聚義現(xiàn)象，通過微調(diào)的方法將模型應(yīng)用到特定的下游任務(wù)，提升泛化能力[29]。在預(yù)訓(xùn)練方面，通過堆疊Transformer模型的編碼器部分構(gòu)建基礎(chǔ)模型，如圖1 所示。通過掩蔽語言模型（masked language model，MLM）和預(yù)測(cè)下一句（next sentence prediction，NSP）兩個(gè)任務(wù)聯(lián)合訓(xùn)練達(dá)到捕獲詞級(jí)和句子級(jí)上下文語義向量表示的目的，其中掩蔽語言模型真正實(shí)現(xiàn)了雙向語言模型的效果[30]。在遷移到下游任務(wù)方面，BERT 借鑒了OpenAI 的GPT（generative pre-training）預(yù)訓(xùn)練模型的做法，設(shè)計(jì)了比GPT 更通用的輸入層和輸出層[30]。

Fig.1 Model structure of BERT圖1 BERT 模型結(jié)構(gòu)

Mikolov 等[22]觀察發(fā)現(xiàn)，不同語言的詞向量在向量空間中有著相似的幾何排列，如圖2 所示，左圖為英語，右圖為西班牙語。不論是數(shù)字詞匯還是動(dòng)物詞匯，英語和西班牙語詞向量的分布非常相似?；谶@一發(fā)現(xiàn)，提出一種線性映射的方法實(shí)現(xiàn)源語言向量空間到目標(biāo)語言向量空間的轉(zhuǎn)換。后續(xù)，學(xué)者們通過雙語詞典學(xué)習(xí)該轉(zhuǎn)換[31]，又通過自學(xué)習(xí)減少詞典的規(guī)模[32]，最終通過無監(jiān)督初始化啟發(fā)式學(xué)習(xí)[33-34]和對(duì)抗性學(xué)習(xí)[35-36]實(shí)現(xiàn)源語言詞向量到目標(biāo)語言詞向量的映射。此外，通過從單語設(shè)置轉(zhuǎn)換到雙語設(shè)置[23]構(gòu)建共享的雙語向量空間，可以在不同語言間進(jìn)行擴(kuò)展和概括語義任務(wù)[37]，例如，語義相似性[38]計(jì)算、同義詞檢測(cè)或單詞類比計(jì)算[39]等。

Ruder 等[1]將跨語言詞向量按照語料對(duì)齊方式分為基于詞對(duì)齊、基于句子對(duì)齊、基于文檔對(duì)齊的學(xué)習(xí)方法。其中基于詞對(duì)齊的方法是所有方法的核心和基礎(chǔ)。為方便理解，圖3 分別給出了不同對(duì)齊語料的示例，其中圖3（a）是詞對(duì)齊的平行語料示例，圖3（b）是句對(duì)齊的平行語料示例，圖3（c）是類似于文檔對(duì)齊的語料示例。

Fig.2 English and Spanish word embedding representation圖2 英語、西班牙語詞向量表示

Fig.3 Examples of alignment of different types of corpus圖3 不同類型語料對(duì)齊示例

有監(jiān)督的學(xué)習(xí)方法一般需要大量的標(biāo)注數(shù)據(jù)，對(duì)于英文和中文而言，存在各種任務(wù)的標(biāo)注數(shù)據(jù)集，而對(duì)于資源缺乏的語言，獲取這樣大量的數(shù)據(jù)比較困難。半監(jiān)督的學(xué)習(xí)方法可以緩解這一問題，使用較少的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。無監(jiān)督學(xué)習(xí)不需要任何人工標(biāo)注的數(shù)據(jù)。本文將有監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法一起進(jìn)行分析，對(duì)所需的語料單獨(dú)進(jìn)行歸納總結(jié)。下面分別從有監(jiān)督學(xué)習(xí)及無監(jiān)督學(xué)習(xí)兩方面對(duì)基于BERT 的跨語言詞向量學(xué)習(xí)方法的主要研究展開詳述。

2 基于BERT的有監(jiān)督跨語言詞向量學(xué)習(xí)方法

2.1 有監(jiān)督跨語言詞向量學(xué)習(xí)方法

2.1.1 基于共享空間映射的方法

跨語言詞向量映射是學(xué)習(xí)雙語詞向量的有效方法[22]。其基本思想是利用單語語料庫(kù)獨(dú)立訓(xùn)練不同語言的詞向量，通過線性變換將它們映射到同一個(gè)共享空間。Mikolov 等[22]提出的映射方法包含一個(gè)雙語詞典和對(duì)應(yīng)的向量，其中xi∈X是源語言詞向量，yi∈Y是目標(biāo)語言詞向量。學(xué)習(xí)任務(wù)是找到一個(gè)變換矩陣W，使Wxi無限接近yi。訓(xùn)練優(yōu)化公式如式（1）所示：

為提高模型的性能，研究者們?cè)诰仃嚭拖蛄可霞恿嗽S多約束。Xing 等[40]提出源語言和目標(biāo)語言的詞向量長(zhǎng)度需要先進(jìn)行歸一化操作。Faruqui 等[41]使用典型相關(guān)分析（canonical correlation analysis，CCA）將源語言和目標(biāo)語言的向量映射到共享空間，最大限度地提高兩種單語向量空間映射的相關(guān)性。之后，在跨語言詞向量學(xué)習(xí)過程中，為了降低種子詞典的規(guī)模，許多研究者提出采用自學(xué)習(xí)的策略在迭代中擴(kuò)充詞典。

為了解決不同語言、不同領(lǐng)域的詞匯分布差異問題，樊艷[42]提出了基于多個(gè)矩陣的軟分段映射模型（soft piecewise mapping model，SPMM），其中每個(gè)矩陣對(duì)源語言向量空間中的每個(gè)主題分布進(jìn)行建模。在SPMM 中，訓(xùn)練集中的每個(gè)實(shí)例(xi,yi)∈D（雙語訓(xùn)練的詞典），對(duì)應(yīng)著一組權(quán)重值構(gòu)成的向量，其中每個(gè)權(quán)重值ai,r>0 是實(shí)例(xi,yi)與第r個(gè)隱含主題的相關(guān)程度。在SPMM 中，目標(biāo)函數(shù)定義為：

其中，W1,W2,…,WR代表R個(gè)映射矩陣，每個(gè)實(shí)例(xi,yi)對(duì)應(yīng)著一個(gè)用于學(xué)習(xí)第r個(gè)映射矩陣Wr的權(quán)重值ai,r。并提出一種自動(dòng)詞典擴(kuò)充算法，在迭代中提升詞典數(shù)量。在每一次迭代中，首先在源語言和目標(biāo)語言詞匯中進(jìn)行采樣，得到集合DS（源語言詞匯集）和DT（目標(biāo)語言詞匯集）。DS和DT中的每個(gè)詞是以概率正比于它在語料庫(kù)中的頻率進(jìn)行采樣得到的。在維基百科的可比語料上相比前人的方法有了一定的提高，在非同一語系英文-中文、低資源的越南語-英語跨語言術(shù)語翻譯下游任務(wù)中有明顯的提升。并證明在跨領(lǐng)域知識(shí)體系遷移任務(wù)中，預(yù)訓(xùn)練模型BERT 的效果最好。該方法適用于語言差距較大的跨語言任務(wù)中，非同一語系的詞匯在向量空間中的分布差異較大，需要多個(gè)矩陣進(jìn)行細(xì)粒度的映射。利用源語言向量空間的詞向量分布信息，可以學(xué)習(xí)到每個(gè)聚類的權(quán)重，使得細(xì)粒度的映射可以在跨語言、跨領(lǐng)域中進(jìn)行知識(shí)的遷移。該方法能夠緩解雙語詞典語料缺乏問題，但需要高質(zhì)量的初始詞典，文中主要采用了公開的詞典[43]，并在維基百科的可比語料上做了自動(dòng)詞典擴(kuò)充。

用雙語詞典生成法來學(xué)習(xí)跨語言詞向量，克服了需要大規(guī)模語料的問題，但是對(duì)種子詞典的要求比較高，需要高質(zhì)量的種子詞典。Wang 等[44]提出了基于詞對(duì)齊的跨語言BERT 映射，在學(xué)習(xí)上下文跨語言詞向量時(shí)在單詞級(jí)別上進(jìn)行監(jiān)督而不再是詞典級(jí)別上。其主要思想是：首先，通過無監(jiān)督的詞對(duì)齊工具獲得一組包含上下文信息的詞對(duì)；然后，用預(yù)訓(xùn)練好的BERT 模型獲得詞向量表示；最后，找到一個(gè)合適的線性映射矩陣W，使得源語言詞向量空間與目標(biāo)語言詞向量空間的距離盡可能接近。在依存分析的下游任務(wù)中，該方法遠(yuǎn)超過了之前使用靜態(tài)跨語言嵌入的模型，平均增益為2.91%，相比其他跨語言模型，所需的訓(xùn)練數(shù)據(jù)、計(jì)算資源和訓(xùn)練時(shí)間要少得多，但實(shí)現(xiàn)了極具競(jìng)爭(zhēng)力的結(jié)果。該方法能夠在有限的雙語語料上較快地獲取跨語言上下文相關(guān)的詞向量。但只是單一地解決了資源稀少語言學(xué)習(xí)詞向量的問題，沒有很好地體現(xiàn)跨語言語義融合的詞向量。因?yàn)樵摲椒ㄖ皇前涯繕?biāo)語言詞向量映射到源語言詞向量，使得目標(biāo)語言的詞向量盡量與源語言詞向量對(duì)齊，而對(duì)于學(xué)習(xí)跨語言語義融合詞向量模型的貢獻(xiàn)還是較少。

2.1.2 基于聯(lián)合學(xué)習(xí)方法

Klementiev 等[45]將跨語言表征的學(xué)習(xí)視為一個(gè)多任務(wù)學(xué)習(xí)問題。聯(lián)合優(yōu)化源語言和目標(biāo)語言模型以及跨語言正則化術(shù)語，使得在并行語料庫(kù)中對(duì)齊單詞的詞向量在向量空間中更加相近。Castellucci等[46]提出BERT-Joint 模型，在多語言BERT 模型上設(shè)計(jì)了一種聯(lián)合學(xué)習(xí)方法，應(yīng)用于多語言聯(lián)合文本分類和序列標(biāo)注工作。通過多語言BERT（multilingual BERT，Multi-BERT）模型的[CLS]詞項(xiàng)的最終隱狀態(tài)h0的固定維數(shù)序列來實(shí)現(xiàn)文本分類，通過詞項(xiàng)對(duì)應(yīng)的最終隱狀態(tài)對(duì)該詞項(xiàng)進(jìn)行標(biāo)注。為實(shí)現(xiàn)該目標(biāo)，作者在模型上添加了句子級(jí)分類矩陣，分別實(shí)現(xiàn)了文本分類和序列標(biāo)注功能。該方法在英文基準(zhǔn)數(shù)據(jù)上得到了較好的結(jié)果。在跨語言方面，用翻譯器實(shí)現(xiàn)源語言詞匯和目標(biāo)語言詞匯對(duì)齊，在有少量標(biāo)注的意大利語數(shù)據(jù)集上得到了較好的效果。但該模型的跨語言詞向量學(xué)習(xí)完全依賴Multi-BERT 模型，通過機(jī)器翻譯源語言的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)多語言的任務(wù)，實(shí)質(zhì)上訓(xùn)練數(shù)據(jù)的意圖標(biāo)簽和語義槽填充值并沒有改變，因此并沒有實(shí)現(xiàn)真正意義上的任務(wù)遷移。此外，利用機(jī)器翻譯會(huì)丟失源語言本身的語法等內(nèi)部信息，翻譯結(jié)果需花費(fèi)大量的時(shí)間去矯正，這也不利于該方法的訓(xùn)練。

Multi-BERT 雖然能夠?qū)W習(xí)跨語言詞向量，但其訓(xùn)練過程仍是一種語言接著另一種語言的訓(xùn)練，源語言和目標(biāo)語言單獨(dú)進(jìn)行編碼，二者之間沒有交互，產(chǎn)生的句子表示之間關(guān)聯(lián)性差，擬合后得到的分?jǐn)?shù)也會(huì)低。陸金梁等[47]提出一種基于Multi-BERT 跨語言聯(lián)合編碼的詞向量學(xué)習(xí)方法。在預(yù)訓(xùn)練好的Multi-BERT 模型基礎(chǔ)上使用少量的平行語料進(jìn)行二次訓(xùn)練，將其應(yīng)用到譯文質(zhì)量估計(jì)任務(wù)中，并分析了該模型在句子級(jí)跨語言任務(wù)上的效果，如圖4 所示。該模型預(yù)訓(xùn)練的任務(wù)與BERT 一樣，包括掩蔽詞匯預(yù)測(cè)和是否為互譯文句的預(yù)測(cè)兩個(gè)任務(wù)。在預(yù)訓(xùn)練過程中與BERT 模型不同的是，源語言句子中沒有掩蔽詞匯，掩蔽詞匯都在目標(biāo)語言句子中，即在知道源語言句子的情況下預(yù)測(cè)目標(biāo)語言句子中掩蔽的詞匯。該方法在德語->英語、中文->英文的譯文質(zhì)量估計(jì)上都得到了較好的效果。在跨語言詞向量學(xué)習(xí)方面，以中文單詞和英文單詞為例，用平行語料進(jìn)行二次訓(xùn)練的Multi-BERT 得到的詞向量在向量空間中的相似度遠(yuǎn)高于用單語語料二次訓(xùn)練的Multi-BERT 得到的詞向量。他們通過觀察從源語言句子到目標(biāo)語言句子的注意力權(quán)重分配，發(fā)現(xiàn)該方法使得在兩種語言中具有相似語義的單詞注意力分布基本一致。通過聯(lián)合編碼的預(yù)訓(xùn)練方法，可以幫助相互注意在不同語言間具有關(guān)系的單詞，尤其是具有相似語義的單詞。

Fig.4 Multi-BERT quadratic training method using parallel corpus圖4 使用平行語料的Multi-BERT 二次訓(xùn)練方法

Fig.5 Pre-training cross-lingual models圖5 跨語言模型預(yù)訓(xùn)練

Lample 等[48]將平行數(shù)據(jù)的跨語言監(jiān)督納入到學(xué)習(xí)跨語言的語言模型（cross-lingual language model pretraining，XLM）中。結(jié)合掩蔽語言模型（masked language modeling，MLM）和翻譯語言模型（translation language modeling，TLM）實(shí)現(xiàn)半監(jiān)督的跨語言詞向量學(xué)習(xí)，如圖5 所示。掩蔽語言模型基本與Devlin 等[27]提出的想法一樣，類似于完形填空任務(wù)。與其不同的是，掩蔽語言模型使用由任意數(shù)量的句子組成的文本流代替成對(duì)的句子。翻譯語言模型的輸入是平行的翻譯句子，并隨機(jī)掩蔽源語言句子和目標(biāo)語言句子中的一些詞匯。在訓(xùn)練中，預(yù)測(cè)源語言句子中掩蔽的詞匯時(shí)，該模型不僅能注意到源語言詞匯上下文信息，還能夠注意到目標(biāo)語言的上下文信息。該方法以高出4.9%的準(zhǔn)確率刷新了XNLI（cross-lingual natural language inference）[49]的記錄。該方法的翻譯語言模型，在預(yù)測(cè)掩蔽詞匯的時(shí)候不僅捕獲了該語言詞匯的語義、語法信息，而且捕獲了另一種語言的深層次信息。

2.1.3 基于偽雙語語料的方法

基于偽雙語語料的詞向量學(xué)習(xí)方法使用雙語詞典，隨機(jī)替換源語言語料庫(kù)中的單詞來構(gòu)建偽雙語語料庫(kù)。Xiao 等[50]首次提出該方法，使用初始種子詞典，創(chuàng)建一個(gè)聯(lián)合跨語言詞匯表，其中每個(gè)翻譯對(duì)占據(jù)相同的向量表示。他們通過提供源語言和目標(biāo)語言語料庫(kù)的上下文窗口使用最大邊界損失（max-margin loss，MML）[51]對(duì)這個(gè)模型進(jìn)行訓(xùn)練。Qin 等[52]在該方法的基礎(chǔ)上，提出跨語言零樣本學(xué)習(xí)的多語言文本混合（code-switching）數(shù)據(jù)增強(qiáng)方法（multi-lingual codeswitching data augmentation for zero-shot cross-lingual，CoSDA-ML），實(shí)現(xiàn)更好地微調(diào)Multi-BERT。該模型通過混合上下文信息來一次性對(duì)齊源語言和多目標(biāo)語言的詞表示。如圖6 所示，首先使用數(shù)據(jù)增強(qiáng)的多語言文本混合對(duì)Multi-BERT 進(jìn)行微調(diào)，即將“It's a very sincere work”數(shù)據(jù)，變化成“It's a 非常aufrichtig work”。微調(diào)結(jié)束后，直接將其應(yīng)用到零樣本遷移測(cè)試。其中，數(shù)據(jù)增強(qiáng)方法包括選句子、選詞和替換已選詞三個(gè)步驟。經(jīng)過CoSDA-ML 微調(diào)后在多語言環(huán)境中語義相近詞的向量變得更接近并相互重疊。但該方法的局限在于需要高質(zhì)量的多語言的雙語詞典，對(duì)于資源稀少的語言還是有一定的困難。

Fig.6 Training and zero-shot transfer圖6 訓(xùn)練和零樣本遷移過程

Table 1 Comparison of supervised cross-lingual word embedding learning methods based on BERT表1 基于BERT 的有監(jiān)督跨語言詞向量學(xué)習(xí)方法對(duì)比

2.2 基于BERT 的有監(jiān)督跨語言詞向量學(xué)習(xí)方法的分析與比較

基于共享空間映射的跨語言詞向量學(xué)習(xí)方法通過利用豐富的雙語詞典或詞對(duì)齊語料實(shí)現(xiàn)有效的跨語言詞向量學(xué)習(xí)。但該方法存在一個(gè)缺點(diǎn)，一次只考慮一對(duì)源語言和目標(biāo)語言，因此導(dǎo)致每種目標(biāo)語言要有單獨(dú)的模型。近年來，隨著多語言BERT 的盛行，基于聯(lián)合學(xué)習(xí)的跨語言詞向量學(xué)習(xí)方法頗受研究者的青睞。通過預(yù)訓(xùn)練和微調(diào)，實(shí)現(xiàn)多語言詞向量的語義對(duì)齊，并且克服了共享空間映射方法的缺點(diǎn)，成為目前較為流行的跨語言詞向量學(xué)習(xí)方法。在實(shí)際應(yīng)用中，偽雙語語料方法的成本較高，在大型單語語料上從頭開始訓(xùn)練。相比之下，基于共享空間映射方法的計(jì)算效率高，因?yàn)樗昧祟A(yù)訓(xùn)練的單語詞向量?；诠蚕砜臻g映射的方法、基于聯(lián)合學(xué)習(xí)的方法和基于偽雙語語料的方法看起來非常不同，但它們有時(shí)非常相似，事實(shí)上，它們是等價(jià)的[1]，等價(jià)性證明這里不做贅述。根據(jù)上文的論述，表1 是對(duì)基于BERT 的有監(jiān)督跨語言詞向量學(xué)習(xí)方法的大致歸納總結(jié)。

3 基于BERT的無監(jiān)督跨語言詞向量學(xué)習(xí)方法

3.1 無監(jiān)督跨語言詞向量學(xué)習(xí)方法

上文介紹的基于BERT 跨語言詞向量學(xué)習(xí)方法需要一些平行語料或雙語詞典，但這對(duì)資源稀缺的語言還是比較難獲得。Multi-BERT 在完全無監(jiān)督的情況下能進(jìn)行跨語言遷移，改變了跨語言詞向量學(xué)習(xí)方法。通過聯(lián)合訓(xùn)練Transformer 模型來執(zhí)行多種語言的掩蔽語言建模，然后在下游任務(wù)上進(jìn)行微調(diào)。Wu 和Dredze[53]發(fā)現(xiàn)，Multi-BERT 的跨語言泛化能力基于三個(gè)因素：（1）種子詞典的共享詞匯；（2）多種語言語料的聯(lián)合訓(xùn)練；（3）深度的跨語言表征。Artetxe 等[54]提出單語言的跨語言遷移模型（crosslingual transfer of monolingual model，MONOTRANS），通過將單語種模型遷移到詞匯級(jí)別的新語言中的方法來反駁此假設(shè)。首先，使用L1未標(biāo)注的語料訓(xùn)練BERT 模型，訓(xùn)練任務(wù)為掩蔽的語言模型和下一句話的預(yù)測(cè)；然后，凍結(jié)訓(xùn)練好的BERT模型的Transformer主體結(jié)構(gòu)（embedding 層和softmax 層除外），用L2未標(biāo)注數(shù)據(jù)訓(xùn)練新的BERT 模型，訓(xùn)練任務(wù)與上一步相同；其次，使用L1的標(biāo)注數(shù)據(jù)在下游任務(wù)中，微調(diào)第一步訓(xùn)練好的模型，微調(diào)過程中凍結(jié)embedding 層；最后，使用第二步得到的embedding 層替換第三步的embedding 層，得到新的模型，應(yīng)用于L2中相同的下游任務(wù)，如圖7 所示。在標(biāo)準(zhǔn)的跨語言分類基準(zhǔn)和新的跨語言問答數(shù)據(jù)集上，該方法與Multi-BERT 有一定的競(jìng)爭(zhēng)力。該方法中的詞匯表是在各自的單語語料庫(kù)上訓(xùn)練的，沒有為每種語言構(gòu)建單獨(dú)的詞匯表，即沒有共享子詞匯的概念，成功地反駁了Multi-BERT 跨語言泛化能力的三個(gè)因素。他們還發(fā)現(xiàn)，在跨語言預(yù)訓(xùn)練的模型中貢獻(xiàn)較大的是每種語言的有效詞匯，而不是有一個(gè)聯(lián)合的詞匯表或多種語言的共享詞匯表。無需共享詞匯只需要單語語料，對(duì)資源信息缺乏的語言是個(gè)較好的方法，是無監(jiān)督學(xué)習(xí)跨語言詞向量的一個(gè)新臺(tái)階。

Fig.7 Zero-shot cross-lingual transfer圖7 零樣本跨語言遷移

跨語言模型，在大量的跨多種語言的單語或雙語資源上進(jìn)行了預(yù)先訓(xùn)練，并對(duì)它們進(jìn)行微調(diào)以適應(yīng)下游的跨語言任務(wù)，取得了良好的效果[55]。然而在微調(diào)過程中可能會(huì)改變模型參數(shù)，削弱跨語言的泛化能力。為了緩解這一問題，Liu 等[56]提出一種持續(xù)學(xué)習(xí)的方法，在微調(diào)下游的跨語言任務(wù)時(shí)，能夠保持預(yù)先訓(xùn)練過模型的原始跨語言能力。假設(shè)：模型已經(jīng)學(xué)習(xí)了n-1 個(gè)任務(wù)，并且需要學(xué)習(xí)第n個(gè)任務(wù)。梯度情景記憶（gradient episodic memory，GEM）的主要特性是情景記憶Mk，它存儲(chǔ)觀察到示例的一個(gè)子集任務(wù)k(k∈[1,n])。第k個(gè)任務(wù)的內(nèi)存損失定義為：

為了在學(xué)習(xí)第n個(gè)任務(wù)的同時(shí)保持模型在前n-1 個(gè)任務(wù)中的性能，GEM 將前n-1 個(gè)任務(wù)的損失作為不等式約束。在觀察第n個(gè)任務(wù)的訓(xùn)練樣本(x,y) 時(shí)，GEM 的作用是最小化L(fθ(x,n),y)，其中,Mk)，k

此外，在少數(shù)民族語言跨語言詞向量學(xué)習(xí)方面，孔祥鵬等[57]提出了一種基于遷移學(xué)習(xí)的聯(lián)合深度神經(jīng)網(wǎng)絡(luò)模型，通過共享權(quán)重的方法學(xué)習(xí)跨語言詞向量表示，應(yīng)用于維吾爾語命名實(shí)體識(shí)別。首先用中文訓(xùn)練BERT 語言模型獲得中文的語義詞向量表示，將詞向量輸入到空洞卷積神經(jīng)網(wǎng)絡(luò)減少神經(jīng)元層數(shù)和參數(shù)，再通過雙向門控循環(huán)單元進(jìn)行上下文語義信息提取，最后通過條件隨機(jī)場(chǎng)（conditional random fields，CRF）得到最優(yōu)標(biāo)簽序列。中文實(shí)體識(shí)別模型訓(xùn)練好后，采用共享深度神經(jīng)網(wǎng)絡(luò)隱藏層的方法捕捉維吾爾語字符之間的語義依賴關(guān)系，從而提高命名實(shí)體識(shí)別的性能，其準(zhǔn)確率為91.39%，召回率為90.11%，F(xiàn)1 值達(dá)到了90.75%。該方法中跨語言詞向量學(xué)習(xí)主要依賴于BERT 的語義學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)權(quán)重的共享。模型在中文信息上學(xué)到的表示信息遷移到維吾爾語上，實(shí)現(xiàn)了從維吾爾語詞向量到中文詞向量的對(duì)齊。

對(duì)于資源缺乏的語言來說，獲取大量的標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練是比較困難的，因此如何從已訓(xùn)練好的高資源語言遷移到一個(gè)低資源的語言，并且不需要標(biāo)注數(shù)據(jù)成為一個(gè)新的挑戰(zhàn)。無監(jiān)督的跨語言學(xué)習(xí)方法無需人工標(biāo)注數(shù)據(jù)且具有領(lǐng)域無關(guān)性，適合有大規(guī)模開放的無結(jié)構(gòu)化數(shù)據(jù)的語言，但這種訓(xùn)練方法對(duì)硬件的消耗也比較大。表2 是對(duì)以上各種基于BERT 的無監(jiān)督跨語言詞向量方法給出的其適用范圍和資源消耗情況。

Table 2 Comparison of unsupervised cross lingual word embedding learning methods based on BERT表2 基于BERT的無監(jiān)督跨語言詞向量學(xué)習(xí)方法對(duì)比

3.2 基于BERT 的有監(jiān)督和無監(jiān)督的跨語言詞向量學(xué)習(xí)方法的對(duì)比與分析

基于BERT 的有監(jiān)督跨語言詞向量學(xué)習(xí)方法通過豐富的對(duì)齊語料，實(shí)現(xiàn)從源語言詞向量到目標(biāo)語言詞向量的遷移。但需要大量的標(biāo)注數(shù)據(jù)或高質(zhì)量的種子詞典。而基于BERT 的無監(jiān)督的跨語言詞向量學(xué)習(xí)方法不需要任何監(jiān)督數(shù)據(jù)，并證明部分無監(jiān)督方法能獲得與有監(jiān)督方法相媲美的結(jié)果，從而得到了許多研究者的青睞。表3 是對(duì)基于BERT 的有監(jiān)督和無監(jiān)督跨語言詞向量學(xué)習(xí)方法的大致歸納總結(jié)，表4 是按照訓(xùn)練語料多少排序的跨語言詞向量模型。

Table 3 Comparison of cross-lingual word embedding learning methods based on BERT表3 基于BERT 的跨語言詞向量學(xué)習(xí)方法對(duì)比

Table 4 Cross-lingual word embedding model sorted according to the number of training corpus表4 按照訓(xùn)練語料多少排序的跨語言詞向量模型

4 跨語言詞向量學(xué)習(xí)的評(píng)估方法

跨語言詞向量的質(zhì)量評(píng)估，通常分為兩類：內(nèi)在評(píng)估方法和外在評(píng)估方法[1]。內(nèi)在評(píng)估是度量?jī)煞N語言詞向量的相似性，直接評(píng)估詞之間的語法、語義關(guān)系。其方法是：先用詞向量計(jì)算兩個(gè)詞對(duì)的余弦相似性值，然后計(jì)算其與人工標(biāo)注的相似性值的斯皮爾曼等級(jí)相關(guān)系數(shù)。該方法雖然簡(jiǎn)單、快速，但是存在幾個(gè)明顯的缺點(diǎn)：（1）人為標(biāo)注的相似性值過于主觀；（2）數(shù)據(jù)集評(píng)估的是語義相似性而不是基于某個(gè)任務(wù)上的相似性；（3）沒有標(biāo)準(zhǔn)的分割；（4）詞向量在下游任務(wù)上的相關(guān)度不高；（5）沒有考慮詞匯的聚義現(xiàn)象[16]。外在評(píng)估是將訓(xùn)練好的跨語言詞向量作為NLP 下游任務(wù)的輸入特征，通過下游任務(wù)的表現(xiàn)來評(píng)估跨語言詞向量的質(zhì)量。

5 總結(jié)與展望

5.1 總結(jié)

本文主要對(duì)基于BERT 的跨語言詞向量學(xué)習(xí)方法進(jìn)行了介紹。按照詞向量訓(xùn)練方法的不同，將其分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類。在有監(jiān)督的學(xué)習(xí)方法中，重點(diǎn)概述了基于詞對(duì)齊的跨語言詞向量學(xué)習(xí)方法，分為基于映射的學(xué)習(xí)方法、基于聯(lián)合學(xué)習(xí)方法、基于偽雙語語料學(xué)習(xí)方法。在無監(jiān)督的方法中主要論述基于多語言BERT 的跨語言詞向量學(xué)習(xí)的方法和一些無需共享詞典和聯(lián)合學(xué)習(xí)的學(xué)習(xí)方法。在無監(jiān)督跨語言詞向量學(xué)習(xí)方法中，一個(gè)典型的辦法是利用對(duì)抗性訓(xùn)練[34]映射共享語義空間，但作者并沒有找到先用BERT 預(yù)訓(xùn)練模型學(xué)習(xí)單語詞向量，再用對(duì)抗性訓(xùn)練學(xué)習(xí)跨語言詞向量的方法。此外，跨語言詞向量映射的自學(xué)習(xí)[33]方法也是一種無監(jiān)督的跨語言詞向量學(xué)習(xí)方法，但學(xué)習(xí)單語詞向量時(shí)并沒有用到BERT 模型。

跨語言詞向量將不同的語言映射到一個(gè)共享語言特征低維度稠密的向量空間，在不同語言間進(jìn)行知識(shí)轉(zhuǎn)移，從而在多語言環(huán)境中能有效捕捉隱含在單詞上下文中的語法、語義信息。對(duì)于資源信息缺乏的語言，跨語言詞向量模型是一種研究方向，它能很好地學(xué)習(xí)跨語言詞向量表示。

5.2 展望

蒙古文帶標(biāo)注數(shù)據(jù)資源稀少，屬于低資源語言，無法構(gòu)建成熟的動(dòng)態(tài)蒙古文詞向量模型，構(gòu)建基于BERT 的蒙漢文跨語言詞向量模型是一種研究方向，但同時(shí)伴隨著新的挑戰(zhàn)，需要進(jìn)一步探索和研究，重點(diǎn)有如下問題亟待解決：

（1）一詞多義的表達(dá)。蒙古文與土耳其文、日文、朝鮮文一樣，是一種粘著性語言，具有復(fù)雜的形態(tài)變化結(jié)構(gòu)。在實(shí)際應(yīng)用中常會(huì)有一詞多義現(xiàn)象。例如，“這一句中兩個(gè)的含義不同，第一個(gè)是“頂”的意思，第二個(gè)是“頭”的意思，這句話的中文意思為“到了山頂后我頭疼了”。因而必須要考慮如何構(gòu)建上下文語境敏感的動(dòng)態(tài)詞向量模型和蒙古文復(fù)雜的形態(tài)變化結(jié)構(gòu)。

（2）子詞的融合。BERT 模型的出現(xiàn)，將子詞級(jí)的信息納入跨語言詞匯表征的學(xué)習(xí)中，但學(xué)習(xí)蒙古文詞向量需要將這些子詞進(jìn)行融合，需要考慮用什么樣的融合方法才能表達(dá)單詞的真實(shí)語義。

（3）多音詞。蒙古文有一些多音詞，一種形式對(duì)應(yīng)多種拼寫、發(fā)音、意義，如這個(gè)詞有“hvta”“hvda”“hqta”“hqda”“hvte”“hvde”“hqte”“hqde”等8種不同拼寫方式，其中“hqta”（意思：城市）和“hvda”（意思：親家）是正確的拼寫（微軟輸入法鍵盤映射），但輸入者往往只關(guān)注它的形式而不關(guān)心其正確的鍵盤映射?！啊边@句話也會(huì)因這個(gè)的多義性產(chǎn)生歧義句“我來到市里的家了”和“我來到親家的家里了”兩個(gè)意思。這些問題在蒙古文中較常見，構(gòu)建蒙漢文跨語言詞向量模型時(shí)需考慮進(jìn)去。

（4）功能詞的表述?？缯Z言詞向量模型與其他單語詞向量模型一樣，對(duì)功能詞不太敏感，例如“給我一支筆”和“給我這支筆”。這種功能詞對(duì)跨語言對(duì)話系統(tǒng)中尤為重要，需要考慮進(jìn)去。

（5）數(shù)據(jù)集的獲取。目前大多數(shù)跨語言詞向量模型都基于雙語詞典或平行數(shù)據(jù)，蒙古文屬于低資源語言，獲取這樣的數(shù)據(jù)集比較困難。一個(gè)重要的相關(guān)研究方向是在多語言預(yù)訓(xùn)練模型的基礎(chǔ)上，用少量的平行數(shù)據(jù)進(jìn)行微調(diào)。

（6）語言差異性。蒙古文和中文不屬于同一個(gè)語系，差異性較大。將兩種語言映射到一個(gè)共享語義空間還需要考慮語內(nèi)翻譯和語際翻譯。語內(nèi)翻譯多指詞對(duì)應(yīng)翻譯，比較嚴(yán)謹(jǐn)，準(zhǔn)確復(fù)現(xiàn)了原文本內(nèi)容，語際翻譯偏向于意譯，更加靈活，也能體現(xiàn)出語言文化和語言表達(dá)方式的不同。因此模型的約束條件中，既要體現(xiàn)語內(nèi)翻譯中詞匯的對(duì)應(yīng)正確性，也要涵蓋語際翻譯中的文本語義一致性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放