亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于混合語料的無監(jiān)督雙語詞典抽取

2021-12-01 05:26:48韓夢凡曹海龍

智能計算機(jī)與應(yīng)用 2021年8期

韓夢凡，曹海龍

（哈爾濱工業(yè)大學(xué) 計算學(xué)部機(jī)器智能與翻譯實驗室，哈爾濱 150001）

0 引言

雙語詞典抽取能夠抽取出不同語言中含義相同的單詞。作為機(jī)器翻譯的基礎(chǔ)，雙語詞典也被應(yīng)用到跨語言自然語言處理任務(wù)中。在跨語言任務(wù)中，雙語詞典作為共享的跨語言特征將在一個語言上訓(xùn)練得到的模型應(yīng)用到其它語言上?？缯Z言命名實體識別、跨語言信息檢索以及跨語言文檔分類等都利用該思想進(jìn)行跨語言任務(wù)學(xué)習(xí)。

雙語詞典的抽取需要大規(guī)模高質(zhì)量的平行語料，例如Mikolov 和Xing 等人的工作都采用了規(guī)模較大的詞典作為監(jiān)督方式學(xué)習(xí)跨語言詞向量，進(jìn)而抽取雙語詞典。由于高質(zhì)量大規(guī)模的平行語料難以獲取，不需要任何監(jiān)督信息的無監(jiān)督方法逐步成為研究熱點［1－2］；Barone 等人首次提出采用生成對抗訓(xùn)練進(jìn)行無監(jiān)督學(xué)習(xí)［3］；zhang 等人在此基礎(chǔ)上提升生成對抗訓(xùn)練方法的性能［4］；Artetxe 等人利用無監(jiān)督初始化和迭代自學(xué)習(xí)進(jìn)行無監(jiān)督跨語言詞向量表示學(xué)習(xí)來抽取詞典［5］；Lample 等人將生成對抗訓(xùn)練與迭代學(xué)習(xí)過程進(jìn)行結(jié)合，利用對抗訓(xùn)練獲取初始化詞典之后進(jìn)行迭代增強(qiáng)［6］。盡管無監(jiān)督方法在部分語言上（如英語－西班牙語）的性能與有監(jiān)督方法不相上下，但是無監(jiān)督方法隱含了不同語言的詞向量是同構(gòu)的假設(shè)。S?gaard 等人的研究表明詞向量之間的同構(gòu)性受到多種因素的影響，不同語言的同構(gòu)程度是不同的［7］。基于以上原因，本文提出了一種同構(gòu)性增強(qiáng)的方法，來提升無監(jiān)督方法在雙語詞典抽取上的性能，該方法首先利用基線模型抽取雙語詞典，根據(jù)雙語詞典替換且合并單語語料，對混合語料進(jìn)行訓(xùn)練，提升不同語言詞向量的同構(gòu)性，進(jìn)而提升雙語詞典性能。在維基百科語料英文－中文實驗上，本文提出的方法有明顯的提升。

1 基于混合語料的無監(jiān)督雙語詞典構(gòu)建模型

本文在Artetxe 等人提出的無監(jiān)督雙語詞典抽取模型（vecmap）的基礎(chǔ)上，提出了一個基于混合語料的無監(jiān)督雙語詞典構(gòu)建模型，模型的示意圖如圖1 所示。

基于混合語料的無監(jiān)督雙語詞典構(gòu)建模型包含3 部分，第一部分利用基線模型將單語詞向量映射至同一個空間并抽取詞典；第二部分利用抽取的詞典將源語言及目標(biāo)語言單語語料中的單詞替換并合并為混合語料，訓(xùn)練混合語料得到新的單語詞向量XN與YN；第三部分利用基線模型映射詞向量XN與YN至同一空間并抽取詞典。

訓(xùn)練混合語料過程中被詞典替換后的單詞能夠影響上下文單詞，使對應(yīng)上下文單詞更加接近，從而可以增強(qiáng)不同語言之間單語詞向量的同構(gòu)性。

2 基于混合語料的無監(jiān)督雙語詞典模型細(xì)節(jié)

本文提出的模型結(jié)構(gòu)中，基線模型vemcap 采用了無監(jiān)督初始化詞典以及迭代自學(xué)習(xí)，不斷更新詞典和映射矩陣，最終利用映射矩陣W把源語言詞向量映射到同一個空間。本文采用Lample 等人提出的跨域相似性局部縮放方法（cross－domain similarity local scaling，CSLS）［6］替代最近鄰方法抽取詞典。

在抽取詞典時采用CSLS 方法尋找源語言到目標(biāo)語言的翻譯，得到對應(yīng)的翻譯對，根據(jù)翻譯對抽取詞典。本文提出了兩種抽取詞典方式：

（1）基于頻率進(jìn)行詞典抽取。在抽取詞典的過程中，根據(jù)源語言單詞出現(xiàn)的頻率作為選取準(zhǔn)則，源語言單詞出現(xiàn)的頻率越高，該源語言單詞對應(yīng)的翻譯對越優(yōu)先被抽?。辉凑Z言單詞出現(xiàn)的頻率越低，該源語言單詞對應(yīng)的翻譯對越靠后被抽取；

（2）基于CSLS值進(jìn)行詞典抽取。該方式在抽取詞典的過程中，根據(jù)已有翻譯對對應(yīng)的CSLS值進(jìn)行詞典抽取，翻譯對對應(yīng)的CSLS值越大，對應(yīng)翻譯對越容易被抽??；翻譯對對應(yīng)的CSLS值越小，對應(yīng)翻譯對越難以被抽取。

利用抽取得到詞典替換合并語料：首先將詞典中的詞對聯(lián)結(jié)成為一個特殊的聯(lián)結(jié)對，接下來將單語語料中出現(xiàn)在詞典中的單詞替換成對應(yīng)的聯(lián)結(jié)對，具體例子見表1。

表1 替換合并語料例子Tab.1 Example of replacing and merging corpus

在訓(xùn)練混合語料過程中，本文采用了word2vec方法進(jìn)行混詞向量的訓(xùn)練?；旌险Z料訓(xùn)練詞向量中，根據(jù)上下文預(yù)測中心詞的過程如圖2 所示。

圖2 混合語料預(yù)測中心詞Fig.2 Example of predicting center word from Mixed Corpus

根據(jù)圖2 可以發(fā)現(xiàn)，數(shù)學(xué)???math 的翻譯聯(lián)結(jié)對能夠影響“學(xué)習(xí)”和“l(fā)earning”，根據(jù)單詞的語義是由上下文決定的分布假設(shè)，經(jīng)過詞向量訓(xùn)練后的“學(xué)習(xí)”和“l(fā)earning”會更加接近彼此。采用混合語料訓(xùn)練詞向量的方式能夠提升單語詞向量的同構(gòu)性。

在得到混合詞向量后，將混合詞向量分離為源語言單語詞向量與目標(biāo)語言單語詞向量，具體見表2。

表2 分離混合詞向量Tab.2 Example of separating mixed word embedding

3 實驗

本文的實驗在維基百科中文和英文單語語料進(jìn)行，評價指標(biāo)包括抽取雙語詞典的準(zhǔn)確率以及詞向量同構(gòu)性的程度。詞向量同構(gòu)性程度的衡量采用了S?gaard 等人提出的奇異向量相似度（Eigenvector Similarity，EVS）［7］。EVS值越低，同構(gòu)性越好；EVS值越高，同構(gòu)性越差。

本文提出的方法在雙語詞典抽取任務(wù)上的結(jié)果見表3，其中CSLS、frequency 分別表示基于CSLS值抽取詞典以及基于頻率抽取詞典，參數(shù)dict 表示抽取詞典的規(guī)模。

表3 基于混合語料的詞典抽取結(jié)果Tab.3 Dictionary induction accuracy based on mixed corpus

可以發(fā)現(xiàn)不論是基于頻率方法還是基于CSLS值方法，在詞典規(guī)模合適的情況下，本方法面向詞典抽取任務(wù)上的結(jié)果有明顯的提升。在基于CSLS值替換的方法中最高能夠達(dá)到51.14%，在基于頻率替換的方法中最高能夠達(dá)到51.97%，遠(yuǎn)遠(yuǎn)超過基線模型的46.44%。驗證了本文提出的方法在雙語詞典抽取任務(wù)上的有效性。

根據(jù)表3 可以發(fā)現(xiàn)，隨著抽取詞典規(guī)模的增大，雙語詞典的性能并沒有隨著提升。一個可能的原因是由于隨著抽取詞典規(guī)模的增大，詞典對應(yīng)的質(zhì)量隨之降低。詞典中錯誤翻譯對上下文也產(chǎn)生了影響，最終導(dǎo)致雙語詞典抽取任務(wù)性能下降。

本文基于混合語料訓(xùn)練得到單語詞向量在同構(gòu)性評價指標(biāo)上的結(jié)果見表4，其中10 k、20 k 表示抽取最常用10 k 或者20 k 單詞衡量對應(yīng)詞向量之間的同構(gòu)性。

表4 詞向量同構(gòu)性結(jié)果Tab.4 Isomorphism results of word embedding

通過表4 可以發(fā)現(xiàn)，本文提出方法詞向量同構(gòu)性相對于原始方法有明顯的提升，驗證了本文提出方法能夠提升不同語言詞向量之間的同構(gòu)性。對比在10k 與20k 的結(jié)果可以發(fā)現(xiàn)，頻率越高的單詞對應(yīng)的同構(gòu)性越好。

4 結(jié)束語

本文提出了一種基于混合語料訓(xùn)練的無監(jiān)督雙語詞典構(gòu)建方法。該方法根據(jù)單語詞向量訓(xùn)練方法，采用分布假設(shè)的特性，提出了將單語語料中的單詞替換成抽取詞典翻譯聯(lián)結(jié)對，并將原始單語語料合并的混合語料的方法。該方法增強(qiáng)了單語詞向量之間的同構(gòu)性，同時在雙語詞典抽取任務(wù)上有明顯的提升。無監(jiān)督雙語詞典抽取的同構(gòu)性假設(shè)制約了無監(jiān)督算法的性能，除了增強(qiáng)不同語言詞向量之間的同構(gòu)性，未來還可以探索其它不需要同構(gòu)性假設(shè)的方法。