亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        BERT 跨語言詞向量學(xué)習(xí)研究

        2021-08-07 07:42:16王玉榮李艷玲
        計(jì)算機(jī)與生活 2021年8期
        關(guān)鍵詞:源語言目標(biāo)語言語料

        王玉榮,林 民,李艷玲

        內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特 010022

        隨著互聯(lián)網(wǎng)多語言信息的發(fā)展,不同語言的知識(shí)共享與聯(lián)系日益緊密,如何有效地表示不同語言文本所隱含的動(dòng)態(tài)特征信息,已成為當(dāng)下的研究熱點(diǎn)。文本詞向量能夠表示文本語義、語法和結(jié)構(gòu)等特征信息,跨語言詞向量是單語文本詞向量在多語言環(huán)境下的一種自然擴(kuò)展。它認(rèn)為具有相同概念的不同語言的詞向量在向量空間中的距離非常接近,使得跨語言詞向量可以在不同語言間進(jìn)行詞義推理和特征共享[1]。通過多語言的知識(shí)可以構(gòu)建動(dòng)態(tài)的共享特征空間,使得有利于發(fā)現(xiàn)跨語言相關(guān)知識(shí)的對(duì)齊效果,增強(qiáng)相關(guān)但不同的分類知識(shí)域間的聯(lián)系。

        近年來,跨語言詞向量被應(yīng)用于多個(gè)自然語言處理(natural language processing,NLP)任務(wù)中,如面向任務(wù)的對(duì)話系統(tǒng)[2-3]、詞性標(biāo)注[4-6]、命名實(shí)體識(shí)別[7-8]、信息檢索[9]、依存分析[10]和個(gè)性化對(duì)話代理[11]。與其他跨語言模型相比,如基于多語言本體的跨語言模型[12],跨語言詞向量模型有兩大優(yōu)勢(shì)。第一,跨語言詞向量模型能夠?qū)缯Z言語義信息進(jìn)行建模,準(zhǔn)確計(jì)算跨語言詞語相似度等信息,是跨語言詞典構(gòu)建[13]、跨語言信息管理[14]、跨語言信息檢索[15]等多種跨語言應(yīng)用的基礎(chǔ)[16]。第二,跨語言詞向量支持語言之間的模型轉(zhuǎn)移,為遷移學(xué)習(xí)提供了橋梁。例如,跨語言遷移學(xué)習(xí)的一個(gè)重要研究方向是[17-20],通過提供公共的表示空間,實(shí)現(xiàn)資源豐富的語言和資源貧乏的語言之間的模型轉(zhuǎn)移[1]。

        大多數(shù)跨語言詞向量模型都使用單語詞向量模型,并將其擴(kuò)展到雙語以及多語言環(huán)境中。單語詞向量模型成為很多跨語言詞向量模型的一個(gè)重要的初步工作。

        早在Bengio等[21]提出的神經(jīng)網(wǎng)絡(luò)語言模型(neural network language model,NNLM)及Mikolov[22]提出的Word2Vec 特征表示學(xué)習(xí)模型,將文本訓(xùn)練成為用分布式詞向量表示的詞向量,能有效捕捉隱含在單詞上下文的語法、語義信息,在許多需要這些語言特征建模的應(yīng)用任務(wù)中取得了較好的效果,如情感分析[23]、依存分析[24]、機(jī)器翻譯[25]等任務(wù)。但該模型的缺陷是:(1)只考慮固定大小窗口內(nèi)的單詞,在獲取句子上下文語義信息方面存在困難;(2)獲得的詞向量具有聚義現(xiàn)象,將處于不同語境的詞匯多種語義綜合表示成一個(gè)詞向量,不能表達(dá)一詞多義,是一種靜態(tài)的詞向量。為了有效學(xué)習(xí)詞匯的多重含義,Peters等[26]提出基于雙向LSTM(long short-term memory)的深度語境化詞向量模型ELMo(embedding from language models),對(duì)單詞的復(fù)雜特征,以及單詞使用時(shí)語境中的變化進(jìn)行建模。Devlin等[27]提出了BERT(bidirectional encoder representations from transformers)模型。它摒棄了雙向LSTM 的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),把Transformer[28]編碼器當(dāng)作模型的主體結(jié)構(gòu),并利用注意力機(jī)制對(duì)句子進(jìn)行建模。BERT 模型的突出優(yōu)勢(shì)是通過海量語料的訓(xùn)練,得到了一組適用性十分廣泛的詞向量,同時(shí)還能在具體任務(wù)中進(jìn)一步動(dòng)態(tài)優(yōu)化(fine-tuning),生成上下文語境敏感的動(dòng)態(tài)詞向量,解決了以往Word2Vec、Glove(global vectors for word representation)等模型的聚義問題。BERT 預(yù)訓(xùn)練模型的出現(xiàn),使靜態(tài)的跨語言特征共享空間走向了動(dòng)態(tài)的跨語言特征共享空間,解決了在多語言環(huán)境中一詞多義的問題。例如,“蘋果”這個(gè)詞的向量在英漢跨語言詞向量空間中,可以根據(jù)不同的上下文與英文的“fruits”類詞匯或“enterprises”類詞匯向量接近。

        因而本文重點(diǎn)分析基于BERT 的跨語言詞向量學(xué)習(xí)方法,按照訓(xùn)練方式的不同分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),并對(duì)各類訓(xùn)練方法的原理進(jìn)行分析和比較。結(jié)合闡述的文獻(xiàn),以構(gòu)建基于BERT 的蒙漢文跨語言詞向量進(jìn)行展望。

        1 預(yù)訓(xùn)練模型BERT 和跨語言詞向量模型相關(guān)概念及訓(xùn)練數(shù)據(jù)需求

        BERT 模型通過預(yù)訓(xùn)練和微調(diào)的方式得到語義更豐富的詞向量表示,能夠克服傳統(tǒng)詞向量的聚義現(xiàn)象,通過微調(diào)的方法將模型應(yīng)用到特定的下游任務(wù),提升泛化能力[29]。在預(yù)訓(xùn)練方面,通過堆疊Transformer模型的編碼器部分構(gòu)建基礎(chǔ)模型,如圖1 所示。通過掩蔽語言模型(masked language model,MLM)和預(yù)測(cè)下一句(next sentence prediction,NSP)兩個(gè)任務(wù)聯(lián)合訓(xùn)練達(dá)到捕獲詞級(jí)和句子級(jí)上下文語義向量表示的目的,其中掩蔽語言模型真正實(shí)現(xiàn)了雙向語言模型的效果[30]。在遷移到下游任務(wù)方面,BERT 借鑒了OpenAI 的GPT(generative pre-training)預(yù)訓(xùn)練模型的做法,設(shè)計(jì)了比GPT 更通用的輸入層和輸出層[30]。

        Fig.1 Model structure of BERT圖1 BERT 模型結(jié)構(gòu)

        Mikolov 等[22]觀察發(fā)現(xiàn),不同語言的詞向量在向量空間中有著相似的幾何排列,如圖2 所示,左圖為英語,右圖為西班牙語。不論是數(shù)字詞匯還是動(dòng)物詞匯,英語和西班牙語詞向量的分布非常相似?;谶@一發(fā)現(xiàn),提出一種線性映射的方法實(shí)現(xiàn)源語言向量空間到目標(biāo)語言向量空間的轉(zhuǎn)換。后續(xù),學(xué)者們通過雙語詞典學(xué)習(xí)該轉(zhuǎn)換[31],又通過自學(xué)習(xí)減少詞典的規(guī)模[32],最終通過無監(jiān)督初始化啟發(fā)式學(xué)習(xí)[33-34]和對(duì)抗性學(xué)習(xí)[35-36]實(shí)現(xiàn)源語言詞向量到目標(biāo)語言詞向量的映射。此外,通過從單語設(shè)置轉(zhuǎn)換到雙語設(shè)置[23]構(gòu)建共享的雙語向量空間,可以在不同語言間進(jìn)行擴(kuò)展和概括語義任務(wù)[37],例如,語義相似性[38]計(jì)算、同義詞檢測(cè)或單詞類比計(jì)算[39]等。

        Ruder 等[1]將跨語言詞向量按照語料對(duì)齊方式分為基于詞對(duì)齊、基于句子對(duì)齊、基于文檔對(duì)齊的學(xué)習(xí)方法。其中基于詞對(duì)齊的方法是所有方法的核心和基礎(chǔ)。為方便理解,圖3 分別給出了不同對(duì)齊語料的示例,其中圖3(a)是詞對(duì)齊的平行語料示例,圖3(b)是句對(duì)齊的平行語料示例,圖3(c)是類似于文檔對(duì)齊的語料示例。

        Fig.2 English and Spanish word embedding representation圖2 英語、西班牙語詞向量表示

        Fig.3 Examples of alignment of different types of corpus圖3 不同類型語料對(duì)齊示例

        有監(jiān)督的學(xué)習(xí)方法一般需要大量的標(biāo)注數(shù)據(jù),對(duì)于英文和中文而言,存在各種任務(wù)的標(biāo)注數(shù)據(jù)集,而對(duì)于資源缺乏的語言,獲取這樣大量的數(shù)據(jù)比較困難。半監(jiān)督的學(xué)習(xí)方法可以緩解這一問題,使用較少的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。無監(jiān)督學(xué)習(xí)不需要任何人工標(biāo)注的數(shù)據(jù)。本文將有監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法一起進(jìn)行分析,對(duì)所需的語料單獨(dú)進(jìn)行歸納總結(jié)。下面分別從有監(jiān)督學(xué)習(xí)及無監(jiān)督學(xué)習(xí)兩方面對(duì)基于BERT 的跨語言詞向量學(xué)習(xí)方法的主要研究展開詳述。

        2 基于BERT的有監(jiān)督跨語言詞向量學(xué)習(xí)方法

        2.1 有監(jiān)督跨語言詞向量學(xué)習(xí)方法

        2.1.1 基于共享空間映射的方法

        跨語言詞向量映射是學(xué)習(xí)雙語詞向量的有效方法[22]。其基本思想是利用單語語料庫(kù)獨(dú)立訓(xùn)練不同語言的詞向量,通過線性變換將它們映射到同一個(gè)共享空間。Mikolov 等[22]提出的映射方法包含一個(gè)雙語詞典和對(duì)應(yīng)的向量,其中xi∈X是源語言詞向量,yi∈Y是目標(biāo)語言詞向量。學(xué)習(xí)任務(wù)是找到一個(gè)變換矩陣W,使Wxi無限接近yi。訓(xùn)練優(yōu)化公式如式(1)所示:

        為提高模型的性能,研究者們?cè)诰仃嚭拖蛄可霞恿嗽S多約束。Xing 等[40]提出源語言和目標(biāo)語言的詞向量長(zhǎng)度需要先進(jìn)行歸一化操作。Faruqui 等[41]使用典型相關(guān)分析(canonical correlation analysis,CCA)將源語言和目標(biāo)語言的向量映射到共享空間,最大限度地提高兩種單語向量空間映射的相關(guān)性。之后,在跨語言詞向量學(xué)習(xí)過程中,為了降低種子詞典的規(guī)模,許多研究者提出采用自學(xué)習(xí)的策略在迭代中擴(kuò)充詞典。

        為了解決不同語言、不同領(lǐng)域的詞匯分布差異問題,樊艷[42]提出了基于多個(gè)矩陣的軟分段映射模型(soft piecewise mapping model,SPMM),其中每個(gè)矩陣對(duì)源語言向量空間中的每個(gè)主題分布進(jìn)行建模。在SPMM 中,訓(xùn)練集中的每個(gè)實(shí)例(xi,yi)∈D(雙語訓(xùn)練的詞典),對(duì)應(yīng)著一組權(quán)重值構(gòu)成的向量,其中每個(gè)權(quán)重值ai,r>0 是實(shí)例(xi,yi)與第r個(gè)隱含主題的相關(guān)程度。在SPMM 中,目標(biāo)函數(shù)定義為:

        其中,W1,W2,…,WR代表R個(gè)映射矩陣,每個(gè)實(shí)例(xi,yi)對(duì)應(yīng)著一個(gè)用于學(xué)習(xí)第r個(gè)映射矩陣Wr的權(quán)重值ai,r。并提出一種自動(dòng)詞典擴(kuò)充算法,在迭代中提升詞典數(shù)量。在每一次迭代中,首先在源語言和目標(biāo)語言詞匯中進(jìn)行采樣,得到集合DS(源語言詞匯集)和DT(目標(biāo)語言詞匯集)。DS和DT中的每個(gè)詞是以概率正比于它在語料庫(kù)中的頻率進(jìn)行采樣得到的。在維基百科的可比語料上相比前人的方法有了一定的提高,在非同一語系英文-中文、低資源的越南語-英語跨語言術(shù)語翻譯下游任務(wù)中有明顯的提升。并證明在跨領(lǐng)域知識(shí)體系遷移任務(wù)中,預(yù)訓(xùn)練模型BERT 的效果最好。該方法適用于語言差距較大的跨語言任務(wù)中,非同一語系的詞匯在向量空間中的分布差異較大,需要多個(gè)矩陣進(jìn)行細(xì)粒度的映射。利用源語言向量空間的詞向量分布信息,可以學(xué)習(xí)到每個(gè)聚類的權(quán)重,使得細(xì)粒度的映射可以在跨語言、跨領(lǐng)域中進(jìn)行知識(shí)的遷移。該方法能夠緩解雙語詞典語料缺乏問題,但需要高質(zhì)量的初始詞典,文中主要采用了公開的詞典[43],并在維基百科的可比語料上做了自動(dòng)詞典擴(kuò)充。

        用雙語詞典生成法來學(xué)習(xí)跨語言詞向量,克服了需要大規(guī)模語料的問題,但是對(duì)種子詞典的要求比較高,需要高質(zhì)量的種子詞典。Wang 等[44]提出了基于詞對(duì)齊的跨語言BERT 映射,在學(xué)習(xí)上下文跨語言詞向量時(shí)在單詞級(jí)別上進(jìn)行監(jiān)督而不再是詞典級(jí)別上。其主要思想是:首先,通過無監(jiān)督的詞對(duì)齊工具獲得一組包含上下文信息的詞對(duì);然后,用預(yù)訓(xùn)練好的BERT 模型獲得詞向量表示;最后,找到一個(gè)合適的線性映射矩陣W,使得源語言詞向量空間與目標(biāo)語言詞向量空間的距離盡可能接近。在依存分析的下游任務(wù)中,該方法遠(yuǎn)超過了之前使用靜態(tài)跨語言嵌入的模型,平均增益為2.91%,相比其他跨語言模型,所需的訓(xùn)練數(shù)據(jù)、計(jì)算資源和訓(xùn)練時(shí)間要少得多,但實(shí)現(xiàn)了極具競(jìng)爭(zhēng)力的結(jié)果。該方法能夠在有限的雙語語料上較快地獲取跨語言上下文相關(guān)的詞向量。但只是單一地解決了資源稀少語言學(xué)習(xí)詞向量的問題,沒有很好地體現(xiàn)跨語言語義融合的詞向量。因?yàn)樵摲椒ㄖ皇前涯繕?biāo)語言詞向量映射到源語言詞向量,使得目標(biāo)語言的詞向量盡量與源語言詞向量對(duì)齊,而對(duì)于學(xué)習(xí)跨語言語義融合詞向量模型的貢獻(xiàn)還是較少。

        2.1.2 基于聯(lián)合學(xué)習(xí)方法

        Klementiev 等[45]將跨語言表征的學(xué)習(xí)視為一個(gè)多任務(wù)學(xué)習(xí)問題。聯(lián)合優(yōu)化源語言和目標(biāo)語言模型以及跨語言正則化術(shù)語,使得在并行語料庫(kù)中對(duì)齊單詞的詞向量在向量空間中更加相近。Castellucci等[46]提出BERT-Joint 模型,在多語言BERT 模型上設(shè)計(jì)了一種聯(lián)合學(xué)習(xí)方法,應(yīng)用于多語言聯(lián)合文本分類和序列標(biāo)注工作。通過多語言BERT(multilingual BERT,Multi-BERT)模型的[CLS]詞項(xiàng)的最終隱狀態(tài)h0的固定維數(shù)序列來實(shí)現(xiàn)文本分類,通過詞項(xiàng)對(duì)應(yīng)的最終隱狀態(tài)對(duì)該詞項(xiàng)進(jìn)行標(biāo)注。為實(shí)現(xiàn)該目標(biāo),作者在模型上添加了句子級(jí)分類矩陣,分別實(shí)現(xiàn)了文本分類和序列標(biāo)注功能。該方法在英文基準(zhǔn)數(shù)據(jù)上得到了較好的結(jié)果。在跨語言方面,用翻譯器實(shí)現(xiàn)源語言詞匯和目標(biāo)語言詞匯對(duì)齊,在有少量標(biāo)注的意大利語數(shù)據(jù)集上得到了較好的效果。但該模型的跨語言詞向量學(xué)習(xí)完全依賴Multi-BERT 模型,通過機(jī)器翻譯源語言的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)多語言的任務(wù),實(shí)質(zhì)上訓(xùn)練數(shù)據(jù)的意圖標(biāo)簽和語義槽填充值并沒有改變,因此并沒有實(shí)現(xiàn)真正意義上的任務(wù)遷移。此外,利用機(jī)器翻譯會(huì)丟失源語言本身的語法等內(nèi)部信息,翻譯結(jié)果需花費(fèi)大量的時(shí)間去矯正,這也不利于該方法的訓(xùn)練。

        Multi-BERT 雖然能夠?qū)W習(xí)跨語言詞向量,但其訓(xùn)練過程仍是一種語言接著另一種語言的訓(xùn)練,源語言和目標(biāo)語言單獨(dú)進(jìn)行編碼,二者之間沒有交互,產(chǎn)生的句子表示之間關(guān)聯(lián)性差,擬合后得到的分?jǐn)?shù)也會(huì)低。陸金梁等[47]提出一種基于Multi-BERT 跨語言聯(lián)合編碼的詞向量學(xué)習(xí)方法。在預(yù)訓(xùn)練好的Multi-BERT 模型基礎(chǔ)上使用少量的平行語料進(jìn)行二次訓(xùn)練,將其應(yīng)用到譯文質(zhì)量估計(jì)任務(wù)中,并分析了該模型在句子級(jí)跨語言任務(wù)上的效果,如圖4 所示。該模型預(yù)訓(xùn)練的任務(wù)與BERT 一樣,包括掩蔽詞匯預(yù)測(cè)和是否為互譯文句的預(yù)測(cè)兩個(gè)任務(wù)。在預(yù)訓(xùn)練過程中與BERT 模型不同的是,源語言句子中沒有掩蔽詞匯,掩蔽詞匯都在目標(biāo)語言句子中,即在知道源語言句子的情況下預(yù)測(cè)目標(biāo)語言句子中掩蔽的詞匯。該方法在德語->英語、中文->英文的譯文質(zhì)量估計(jì)上都得到了較好的效果。在跨語言詞向量學(xué)習(xí)方面,以中文單詞和英文單詞為例,用平行語料進(jìn)行二次訓(xùn)練的Multi-BERT 得到的詞向量在向量空間中的相似度遠(yuǎn)高于用單語語料二次訓(xùn)練的Multi-BERT 得到的詞向量。他們通過觀察從源語言句子到目標(biāo)語言句子的注意力權(quán)重分配,發(fā)現(xiàn)該方法使得在兩種語言中具有相似語義的單詞注意力分布基本一致。通過聯(lián)合編碼的預(yù)訓(xùn)練方法,可以幫助相互注意在不同語言間具有關(guān)系的單詞,尤其是具有相似語義的單詞。

        Fig.4 Multi-BERT quadratic training method using parallel corpus圖4 使用平行語料的Multi-BERT 二次訓(xùn)練方法

        Fig.5 Pre-training cross-lingual models圖5 跨語言模型預(yù)訓(xùn)練

        Lample 等[48]將平行數(shù)據(jù)的跨語言監(jiān)督納入到學(xué)習(xí)跨語言的語言模型(cross-lingual language model pretraining,XLM)中。結(jié)合掩蔽語言模型(masked language modeling,MLM)和翻譯語言模型(translation language modeling,TLM)實(shí)現(xiàn)半監(jiān)督的跨語言詞向量學(xué)習(xí),如圖5 所示。掩蔽語言模型基本與Devlin 等[27]提出的想法一樣,類似于完形填空任務(wù)。與其不同的是,掩蔽語言模型使用由任意數(shù)量的句子組成的文本流代替成對(duì)的句子。翻譯語言模型的輸入是平行的翻譯句子,并隨機(jī)掩蔽源語言句子和目標(biāo)語言句子中的一些詞匯。在訓(xùn)練中,預(yù)測(cè)源語言句子中掩蔽的詞匯時(shí),該模型不僅能注意到源語言詞匯上下文信息,還能夠注意到目標(biāo)語言的上下文信息。該方法以高出4.9%的準(zhǔn)確率刷新了XNLI(cross-lingual natural language inference)[49]的記錄。該方法的翻譯語言模型,在預(yù)測(cè)掩蔽詞匯的時(shí)候不僅捕獲了該語言詞匯的語義、語法信息,而且捕獲了另一種語言的深層次信息。

        2.1.3 基于偽雙語語料的方法

        基于偽雙語語料的詞向量學(xué)習(xí)方法使用雙語詞典,隨機(jī)替換源語言語料庫(kù)中的單詞來構(gòu)建偽雙語語料庫(kù)。Xiao 等[50]首次提出該方法,使用初始種子詞典,創(chuàng)建一個(gè)聯(lián)合跨語言詞匯表,其中每個(gè)翻譯對(duì)占據(jù)相同的向量表示。他們通過提供源語言和目標(biāo)語言語料庫(kù)的上下文窗口使用最大邊界損失(max-margin loss,MML)[51]對(duì)這個(gè)模型進(jìn)行訓(xùn)練。Qin 等[52]在該方法的基礎(chǔ)上,提出跨語言零樣本學(xué)習(xí)的多語言文本混合(code-switching)數(shù)據(jù)增強(qiáng)方法(multi-lingual codeswitching data augmentation for zero-shot cross-lingual,CoSDA-ML),實(shí)現(xiàn)更好地微調(diào)Multi-BERT。該模型通過混合上下文信息來一次性對(duì)齊源語言和多目標(biāo)語言的詞表示。如圖6 所示,首先使用數(shù)據(jù)增強(qiáng)的多語言文本混合對(duì)Multi-BERT 進(jìn)行微調(diào),即將“It's a very sincere work”數(shù)據(jù),變化成“It's a 非常aufrichtig work”。微調(diào)結(jié)束后,直接將其應(yīng)用到零樣本遷移測(cè)試。其中,數(shù)據(jù)增強(qiáng)方法包括選句子、選詞和替換已選詞三個(gè)步驟。經(jīng)過CoSDA-ML 微調(diào)后在多語言環(huán)境中語義相近詞的向量變得更接近并相互重疊。但該方法的局限在于需要高質(zhì)量的多語言的雙語詞典,對(duì)于資源稀少的語言還是有一定的困難。

        Fig.6 Training and zero-shot transfer圖6 訓(xùn)練和零樣本遷移過程

        Table 1 Comparison of supervised cross-lingual word embedding learning methods based on BERT表1 基于BERT 的有監(jiān)督跨語言詞向量學(xué)習(xí)方法對(duì)比

        2.2 基于BERT 的有監(jiān)督跨語言詞向量學(xué)習(xí)方法的分析與比較

        基于共享空間映射的跨語言詞向量學(xué)習(xí)方法通過利用豐富的雙語詞典或詞對(duì)齊語料實(shí)現(xiàn)有效的跨語言詞向量學(xué)習(xí)。但該方法存在一個(gè)缺點(diǎn),一次只考慮一對(duì)源語言和目標(biāo)語言,因此導(dǎo)致每種目標(biāo)語言要有單獨(dú)的模型。近年來,隨著多語言BERT 的盛行,基于聯(lián)合學(xué)習(xí)的跨語言詞向量學(xué)習(xí)方法頗受研究者的青睞。通過預(yù)訓(xùn)練和微調(diào),實(shí)現(xiàn)多語言詞向量的語義對(duì)齊,并且克服了共享空間映射方法的缺點(diǎn),成為目前較為流行的跨語言詞向量學(xué)習(xí)方法。在實(shí)際應(yīng)用中,偽雙語語料方法的成本較高,在大型單語語料上從頭開始訓(xùn)練。相比之下,基于共享空間映射方法的計(jì)算效率高,因?yàn)樗昧祟A(yù)訓(xùn)練的單語詞向量?;诠蚕砜臻g映射的方法、基于聯(lián)合學(xué)習(xí)的方法和基于偽雙語語料的方法看起來非常不同,但它們有時(shí)非常相似,事實(shí)上,它們是等價(jià)的[1],等價(jià)性證明這里不做贅述。根據(jù)上文的論述,表1 是對(duì)基于BERT 的有監(jiān)督跨語言詞向量學(xué)習(xí)方法的大致歸納總結(jié)。

        3 基于BERT的無監(jiān)督跨語言詞向量學(xué)習(xí)方法

        3.1 無監(jiān)督跨語言詞向量學(xué)習(xí)方法

        上文介紹的基于BERT 跨語言詞向量學(xué)習(xí)方法需要一些平行語料或雙語詞典,但這對(duì)資源稀缺的語言還是比較難獲得。Multi-BERT 在完全無監(jiān)督的情況下能進(jìn)行跨語言遷移,改變了跨語言詞向量學(xué)習(xí)方法。通過聯(lián)合訓(xùn)練Transformer 模型來執(zhí)行多種語言的掩蔽語言建模,然后在下游任務(wù)上進(jìn)行微調(diào)。Wu 和Dredze[53]發(fā)現(xiàn),Multi-BERT 的跨語言泛化能力基于三個(gè)因素:(1)種子詞典的共享詞匯;(2)多種語言語料的聯(lián)合訓(xùn)練;(3)深度的跨語言表征。Artetxe 等[54]提出單語言的跨語言遷移模型(crosslingual transfer of monolingual model,MONOTRANS),通過將單語種模型遷移到詞匯級(jí)別的新語言中的方法來反駁此假設(shè)。首先,使用L1未標(biāo)注的語料訓(xùn)練BERT 模型,訓(xùn)練任務(wù)為掩蔽的語言模型和下一句話的預(yù)測(cè);然后,凍結(jié)訓(xùn)練好的BERT模型的Transformer主體結(jié)構(gòu)(embedding 層和softmax 層除外),用L2未標(biāo)注數(shù)據(jù)訓(xùn)練新的BERT 模型,訓(xùn)練任務(wù)與上一步相同;其次,使用L1的標(biāo)注數(shù)據(jù)在下游任務(wù)中,微調(diào)第一步訓(xùn)練好的模型,微調(diào)過程中凍結(jié)embedding 層;最后,使用第二步得到的embedding 層替換第三步的embedding 層,得到新的模型,應(yīng)用于L2中相同的下游任務(wù),如圖7 所示。在標(biāo)準(zhǔn)的跨語言分類基準(zhǔn)和新的跨語言問答數(shù)據(jù)集上,該方法與Multi-BERT 有一定的競(jìng)爭(zhēng)力。該方法中的詞匯表是在各自的單語語料庫(kù)上訓(xùn)練的,沒有為每種語言構(gòu)建單獨(dú)的詞匯表,即沒有共享子詞匯的概念,成功地反駁了Multi-BERT 跨語言泛化能力的三個(gè)因素。他們還發(fā)現(xiàn),在跨語言預(yù)訓(xùn)練的模型中貢獻(xiàn)較大的是每種語言的有效詞匯,而不是有一個(gè)聯(lián)合的詞匯表或多種語言的共享詞匯表。無需共享詞匯只需要單語語料,對(duì)資源信息缺乏的語言是個(gè)較好的方法,是無監(jiān)督學(xué)習(xí)跨語言詞向量的一個(gè)新臺(tái)階。

        Fig.7 Zero-shot cross-lingual transfer圖7 零樣本跨語言遷移

        跨語言模型,在大量的跨多種語言的單語或雙語資源上進(jìn)行了預(yù)先訓(xùn)練,并對(duì)它們進(jìn)行微調(diào)以適應(yīng)下游的跨語言任務(wù),取得了良好的效果[55]。然而在微調(diào)過程中可能會(huì)改變模型參數(shù),削弱跨語言的泛化能力。為了緩解這一問題,Liu 等[56]提出一種持續(xù)學(xué)習(xí)的方法,在微調(diào)下游的跨語言任務(wù)時(shí),能夠保持預(yù)先訓(xùn)練過模型的原始跨語言能力。假設(shè):模型已經(jīng)學(xué)習(xí)了n-1 個(gè)任務(wù),并且需要學(xué)習(xí)第n個(gè)任務(wù)。梯度情景記憶(gradient episodic memory,GEM)的主要特性是情景記憶Mk,它存儲(chǔ)觀察到示例的一個(gè)子集任務(wù)k(k∈[1,n])。第k個(gè)任務(wù)的內(nèi)存損失定義為:

        為了在學(xué)習(xí)第n個(gè)任務(wù)的同時(shí)保持模型在前n-1 個(gè)任務(wù)中的性能,GEM 將前n-1 個(gè)任務(wù)的損失作為不等式約束。在觀察第n個(gè)任務(wù)的訓(xùn)練樣本(x,y) 時(shí),GEM 的作用是最小 化L(fθ(x,n),y),其中,Mk),k

        此外,在少數(shù)民族語言跨語言詞向量學(xué)習(xí)方面,孔祥鵬等[57]提出了一種基于遷移學(xué)習(xí)的聯(lián)合深度神經(jīng)網(wǎng)絡(luò)模型,通過共享權(quán)重的方法學(xué)習(xí)跨語言詞向量表示,應(yīng)用于維吾爾語命名實(shí)體識(shí)別。首先用中文訓(xùn)練BERT 語言模型獲得中文的語義詞向量表示,將詞向量輸入到空洞卷積神經(jīng)網(wǎng)絡(luò)減少神經(jīng)元層數(shù)和參數(shù),再通過雙向門控循環(huán)單元進(jìn)行上下文語義信息提取,最后通過條件隨機(jī)場(chǎng)(conditional random fields,CRF)得到最優(yōu)標(biāo)簽序列。中文實(shí)體識(shí)別模型訓(xùn)練好后,采用共享深度神經(jīng)網(wǎng)絡(luò)隱藏層的方法捕捉維吾爾語字符之間的語義依賴關(guān)系,從而提高命名實(shí)體識(shí)別的性能,其準(zhǔn)確率為91.39%,召回率為90.11%,F(xiàn)1 值達(dá)到了90.75%。該方法中跨語言詞向量學(xué)習(xí)主要依賴于BERT 的語義學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)權(quán)重的共享。模型在中文信息上學(xué)到的表示信息遷移到維吾爾語上,實(shí)現(xiàn)了從維吾爾語詞向量到中文詞向量的對(duì)齊。

        對(duì)于資源缺乏的語言來說,獲取大量的標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練是比較困難的,因此如何從已訓(xùn)練好的高資源語言遷移到一個(gè)低資源的語言,并且不需要標(biāo)注數(shù)據(jù)成為一個(gè)新的挑戰(zhàn)。無監(jiān)督的跨語言學(xué)習(xí)方法無需人工標(biāo)注數(shù)據(jù)且具有領(lǐng)域無關(guān)性,適合有大規(guī)模開放的無結(jié)構(gòu)化數(shù)據(jù)的語言,但這種訓(xùn)練方法對(duì)硬件的消耗也比較大。表2 是對(duì)以上各種基于BERT 的無監(jiān)督跨語言詞向量方法給出的其適用范圍和資源消耗情況。

        Table 2 Comparison of unsupervised cross lingual word embedding learning methods based on BERT表2 基于BERT的無監(jiān)督跨語言詞向量學(xué)習(xí)方法對(duì)比

        3.2 基于BERT 的有監(jiān)督和無監(jiān)督的跨語言詞向量學(xué)習(xí)方法的對(duì)比與分析

        基于BERT 的有監(jiān)督跨語言詞向量學(xué)習(xí)方法通過豐富的對(duì)齊語料,實(shí)現(xiàn)從源語言詞向量到目標(biāo)語言詞向量的遷移。但需要大量的標(biāo)注數(shù)據(jù)或高質(zhì)量的種子詞典。而基于BERT 的無監(jiān)督的跨語言詞向量學(xué)習(xí)方法不需要任何監(jiān)督數(shù)據(jù),并證明部分無監(jiān)督方法能獲得與有監(jiān)督方法相媲美的結(jié)果,從而得到了許多研究者的青睞。表3 是對(duì)基于BERT 的有監(jiān)督和無監(jiān)督跨語言詞向量學(xué)習(xí)方法的大致歸納總結(jié),表4 是按照訓(xùn)練語料多少排序的跨語言詞向量模型。

        Table 3 Comparison of cross-lingual word embedding learning methods based on BERT表3 基于BERT 的跨語言詞向量學(xué)習(xí)方法對(duì)比

        Table 4 Cross-lingual word embedding model sorted according to the number of training corpus表4 按照訓(xùn)練語料多少排序的跨語言詞向量模型

        4 跨語言詞向量學(xué)習(xí)的評(píng)估方法

        跨語言詞向量的質(zhì)量評(píng)估,通常分為兩類:內(nèi)在評(píng)估方法和外在評(píng)估方法[1]。內(nèi)在評(píng)估是度量?jī)煞N語言詞向量的相似性,直接評(píng)估詞之間的語法、語義關(guān)系。其方法是:先用詞向量計(jì)算兩個(gè)詞對(duì)的余弦相似性值,然后計(jì)算其與人工標(biāo)注的相似性值的斯皮爾曼等級(jí)相關(guān)系數(shù)。該方法雖然簡(jiǎn)單、快速,但是存在幾個(gè)明顯的缺點(diǎn):(1)人為標(biāo)注的相似性值過于主觀;(2)數(shù)據(jù)集評(píng)估的是語義相似性而不是基于某個(gè)任務(wù)上的相似性;(3)沒有標(biāo)準(zhǔn)的分割;(4)詞向量在下游任務(wù)上的相關(guān)度不高;(5)沒有考慮詞匯的聚義現(xiàn)象[16]。外在評(píng)估是將訓(xùn)練好的跨語言詞向量作為NLP 下游任務(wù)的輸入特征,通過下游任務(wù)的表現(xiàn)來評(píng)估跨語言詞向量的質(zhì)量。

        5 總結(jié)與展望

        5.1 總結(jié)

        本文主要對(duì)基于BERT 的跨語言詞向量學(xué)習(xí)方法進(jìn)行了介紹。按照詞向量訓(xùn)練方法的不同,將其分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類。在有監(jiān)督的學(xué)習(xí)方法中,重點(diǎn)概述了基于詞對(duì)齊的跨語言詞向量學(xué)習(xí)方法,分為基于映射的學(xué)習(xí)方法、基于聯(lián)合學(xué)習(xí)方法、基于偽雙語語料學(xué)習(xí)方法。在無監(jiān)督的方法中主要論述基于多語言BERT 的跨語言詞向量學(xué)習(xí)的方法和一些無需共享詞典和聯(lián)合學(xué)習(xí)的學(xué)習(xí)方法。在無監(jiān)督跨語言詞向量學(xué)習(xí)方法中,一個(gè)典型的辦法是利用對(duì)抗性訓(xùn)練[34]映射共享語義空間,但作者并沒有找到先用BERT 預(yù)訓(xùn)練模型學(xué)習(xí)單語詞向量,再用對(duì)抗性訓(xùn)練學(xué)習(xí)跨語言詞向量的方法。此外,跨語言詞向量映射的自學(xué)習(xí)[33]方法也是一種無監(jiān)督的跨語言詞向量學(xué)習(xí)方法,但學(xué)習(xí)單語詞向量時(shí)并沒有用到BERT 模型。

        跨語言詞向量將不同的語言映射到一個(gè)共享語言特征低維度稠密的向量空間,在不同語言間進(jìn)行知識(shí)轉(zhuǎn)移,從而在多語言環(huán)境中能有效捕捉隱含在單詞上下文中的語法、語義信息。對(duì)于資源信息缺乏的語言,跨語言詞向量模型是一種研究方向,它能很好地學(xué)習(xí)跨語言詞向量表示。

        5.2 展望

        蒙古文帶標(biāo)注數(shù)據(jù)資源稀少,屬于低資源語言,無法構(gòu)建成熟的動(dòng)態(tài)蒙古文詞向量模型,構(gòu)建基于BERT 的蒙漢文跨語言詞向量模型是一種研究方向,但同時(shí)伴隨著新的挑戰(zhàn),需要進(jìn)一步探索和研究,重點(diǎn)有如下問題亟待解決:

        (1)一詞多義的表達(dá)。蒙古文與土耳其文、日文、朝鮮文一樣,是一種粘著性語言,具有復(fù)雜的形態(tài)變化結(jié)構(gòu)。在實(shí)際應(yīng)用中常會(huì)有一詞多義現(xiàn)象。例 如,“這一句中兩個(gè)的含義不同,第一個(gè)是“頂”的意思,第二個(gè)是“頭”的意思,這句話的中文意思為“到了山頂后我頭疼了”。因而必須要考慮如何構(gòu)建上下文語境敏感的動(dòng)態(tài)詞向量模型和蒙古文復(fù)雜的形態(tài)變化結(jié)構(gòu)。

        (2)子詞的融合。BERT 模型的出現(xiàn),將子詞級(jí)的信息納入跨語言詞匯表征的學(xué)習(xí)中,但學(xué)習(xí)蒙古文詞向量需要將這些子詞進(jìn)行融合,需要考慮用什么樣的融合方法才能表達(dá)單詞的真實(shí)語義。

        (3)多音詞。蒙古文有一些多音詞,一種形式對(duì)應(yīng)多種拼寫、發(fā)音、意義,如這個(gè)詞有“hvta”“hvda”“hqta”“hqda”“hvte”“hvde”“hqte”“hqde”等8種不同拼寫方式,其中“hqta”(意思:城市)和“hvda”(意思:親家)是正確的拼寫(微軟輸入法鍵盤映射),但輸入者往往只關(guān)注它的形式而不關(guān)心其正確的鍵盤映射?!啊边@句話也會(huì)因這個(gè)的多義性產(chǎn)生歧義句“我來到市里的家了”和“我來到親家的家里了”兩個(gè)意思。這些問題在蒙古文中較常見,構(gòu)建蒙漢文跨語言詞向量模型時(shí)需考慮進(jìn)去。

        (4)功能詞的表述??缯Z言詞向量模型與其他單語詞向量模型一樣,對(duì)功能詞不太敏感,例如“給我一支筆”和“給我這支筆”。這種功能詞對(duì)跨語言對(duì)話系統(tǒng)中尤為重要,需要考慮進(jìn)去。

        (5)數(shù)據(jù)集的獲取。目前大多數(shù)跨語言詞向量模型都基于雙語詞典或平行數(shù)據(jù),蒙古文屬于低資源語言,獲取這樣的數(shù)據(jù)集比較困難。一個(gè)重要的相關(guān)研究方向是在多語言預(yù)訓(xùn)練模型的基礎(chǔ)上,用少量的平行數(shù)據(jù)進(jìn)行微調(diào)。

        (6)語言差異性。蒙古文和中文不屬于同一個(gè)語系,差異性較大。將兩種語言映射到一個(gè)共享語義空間還需要考慮語內(nèi)翻譯和語際翻譯。語內(nèi)翻譯多指詞對(duì)應(yīng)翻譯,比較嚴(yán)謹(jǐn),準(zhǔn)確復(fù)現(xiàn)了原文本內(nèi)容,語際翻譯偏向于意譯,更加靈活,也能體現(xiàn)出語言文化和語言表達(dá)方式的不同。因此模型的約束條件中,既要體現(xiàn)語內(nèi)翻譯中詞匯的對(duì)應(yīng)正確性,也要涵蓋語際翻譯中的文本語義一致性。

        猜你喜歡
        源語言目標(biāo)語言語料
        林巍《知識(shí)與智慧》英譯分析
        淺析日語口譯譯員素質(zhì)
        教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        跨文化視角下對(duì)具有修辭手法諺語英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        以口譯實(shí)例談雙語知識(shí)的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        二語習(xí)得過程中的石化現(xiàn)象分析
        《苗防備覽》中的湘西語料
        國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        日出白浆视频在线播放| 亚洲熟妇大图综合色区| 亚洲av网站首页在线观看| 国产精品久色婷婷不卡| 久久久亚洲av成人网站| 国产av一区二区三区日韩| 好爽~又到高潮了毛片视频| 免费人妖一区二区三区| 国产无夜激无码av毛片| 蜜臀av一区二区| 狠狠亚洲婷婷综合久久久 | 久久婷婷综合色拍亚洲| 少妇我被躁爽到高潮在线影片| 久久精品国产99国产精品澳门 | 国产日韩在线播放观看| 久久久国产视频久久久| 99久久精品在线视频| 日韩毛片免费无码无毒视频观看| 精品国产AⅤ无码一区二区| 中文字幕一区二区区免| 欲香欲色天天天综合和网| 亚洲五月天综合| 人妻少妇精品无码专区app| 精品人妻码一区二区三区红楼视频| 亚洲 欧美 国产 制服 动漫 | 亚洲综合精品一区二区| 久久精品国产字幕高潮| ā片在线观看| 国产综合一区二区三区av| 亚洲综合偷自成人网第页色| 无码免费一区二区三区| 精品久久久久久无码不卡| 亚洲男人的天堂色偷偷| 久久精品国产99国产精偷| 亚洲av有码在线天堂| 亚洲双色视频在线观看| 中文字幕av高清人妻| 三级在线看中文字幕完整版| 国产欧美曰韩一区二区三区 | 亚洲色www成人永久网址| 中文精品久久久久中文|