亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合詞簇約束的漢越跨語言詞嵌入

        2023-01-27 08:27:40武照淵余正濤黃于欣
        計(jì)算機(jī)工程 2023年1期
        關(guān)鍵詞:效果語言模型

        武照淵,余正濤,黃于欣

        (1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500;2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500)

        0 概述

        跨語言詞嵌入將不同語言具有相同含義的詞映射至同一空間中對齊,是跨語言文本分類[1-3]、跨語言情感分析[4-5]、機(jī)器翻譯[6-8]、跨語言實(shí)體鏈接[9-10]等任務(wù)的基礎(chǔ),具有重要的應(yīng)用價(jià)值。

        漢越跨語言詞嵌入是面向低資源語言的雙語詞嵌入任務(wù),目前低資源跨語言詞嵌入方法主要包括無監(jiān)督、半監(jiān)督和有監(jiān)督3 類。無監(jiān)督方法利用不同語言單語嵌入空間的相似性,無需標(biāo)注數(shù)據(jù)即可學(xué)習(xí)映射矩陣實(shí)現(xiàn)對齊。文獻(xiàn)[11]通過初始化一個(gè)映射矩陣作為生成器,使映射后的源語言詞嵌入更加接近目標(biāo)語言詞嵌入以欺騙鑒別器,利用對抗思想迭代優(yōu)化映射矩陣。文獻(xiàn)[12]將兩種語言的詞嵌入空間視作兩個(gè)分布,通過最小化分布間的沃瑟斯坦距離實(shí)現(xiàn)跨語言詞嵌入。文獻(xiàn)[13]則是將沃瑟斯坦距離同對抗訓(xùn)練相結(jié)合,使生成器構(gòu)建出的源語言詞嵌入更加接近目標(biāo)語言詞嵌入,以提升對抗方法在低頻詞上的性能。半監(jiān)督方法相比無監(jiān)督方法引入了少量詞對齊信息用于提升映射的準(zhǔn)確性,主要包括兩種策略:一種是使用小規(guī)模平行詞對作為監(jiān)督信號來解決映射矩陣在迭代訓(xùn)練過程中初始化階段的不足;另一種則是將無監(jiān)督模型學(xué)習(xí)到的嵌入空間相似性同有監(jiān)督模型相結(jié)合來提升對齊效果。文獻(xiàn)[14]使用少量的雙語詞對學(xué)習(xí)初始映射矩陣,并將映射得到的翻譯詞對作為擴(kuò)展數(shù)據(jù)迭代學(xué)習(xí)新的映射矩陣。文獻(xiàn)[15]發(fā)現(xiàn)統(tǒng)計(jì)翻譯模型僅憑少量平行語料即可實(shí)現(xiàn)不同語言高頻詞間的準(zhǔn)確對齊,而映射模型則能通過大規(guī)模的單語語料實(shí)現(xiàn)低頻詞間的對齊,因此提出一種融合統(tǒng)計(jì)與映射方法的跨語言詞嵌入模型。文獻(xiàn)[16]發(fā)現(xiàn)無監(jiān)督模型更傾向于學(xué)習(xí)大范圍的空間對齊,而有監(jiān)督模型更善于學(xué)習(xí)詞對間的精確對齊,基于這一思想提出將無監(jiān)督損失同有監(jiān)督損失進(jìn)行聯(lián)合優(yōu)化來提升映射效果。目前已有的半監(jiān)督與無監(jiān)督方法在相近語言上取得了不錯(cuò)的效果,例如英語-西班牙語由于詞根、構(gòu)詞方式上具有相似性,兩者詞嵌入空間包含大量的共現(xiàn)詞與同構(gòu)詞(如“possible”與“posible”),僅憑少量標(biāo)注數(shù)據(jù)就能實(shí)現(xiàn)較好的對齊。然而,詞源學(xué)上差異較大的語言通常單語嵌入空間之間的相似性也較低[17],對于漢越這種差異較大的語言,無監(jiān)督和半監(jiān)督的方法對齊效果不佳[18]。當(dāng)前,通過雙語詞典學(xué)習(xí)映射矩陣的有監(jiān)督方法可以有效提升遠(yuǎn)距離語言上的對齊效果,如文獻(xiàn)[19]提出使用雙語詞典作為監(jiān)督信號,通過最小化詞典詞對間的歐氏距離平方和來學(xué)習(xí)映射矩陣,在英語-捷克語上取得了不錯(cuò)的效果。一些后續(xù)研究則在此基礎(chǔ)上通過引入歸一化處理[20]和為映射矩陣添加正交約束[21]來進(jìn)一步提升映射的準(zhǔn)確性。為緩解遠(yuǎn)距離語言間語法差異帶來的影響,文獻(xiàn)[22]提出分別為兩種語言學(xué)習(xí)單獨(dú)的映射矩陣,將不同語言詞嵌入映射至一個(gè)同語言無關(guān)的共享空間中來最大化其相似度。文獻(xiàn)[23]通過引入語言學(xué)中語言家族樹的概念,利用層次化映射將文獻(xiàn)[22]中的方法擴(kuò)展至多語言任務(wù)上。然而,傳統(tǒng)有監(jiān)督方法僅使用詞典中的詞對齊信息學(xué)習(xí)映射矩陣,漢越作為低資源語言對其雙語詞典在規(guī)模及質(zhì)量上同資源富集型語言(如:漢語-英語)仍有較大差距,導(dǎo)致學(xué)習(xí)到的映射矩陣在詞典外的非標(biāo)注詞上對齊效果不佳。

        本文提出一種融合詞簇對齊約束的漢越跨語言詞嵌入模型,用于改善低資源場景下漢越雙語空間的對齊效果。使用不同類型的關(guān)聯(lián)關(guān)系充分挖掘雙語詞典中蘊(yùn)含的詞簇對齊信息,通過構(gòu)建詞與詞簇兩種粒度的聯(lián)合損失將其融入到映射矩陣的訓(xùn)練中,以提升映射矩陣在非標(biāo)注詞上的泛化性,在此基礎(chǔ)上結(jié)合漢越雙語詞典的特點(diǎn)設(shè)置了近義詞、同類詞和同主題詞3 種類型的對齊詞簇,并通過實(shí)驗(yàn)研究不同類型詞簇及其組合對模型效果的提升。

        1 漢越跨語言詞嵌入模型

        基于雙語詞典學(xué)習(xí)跨語言詞嵌入的關(guān)鍵步驟是學(xué)習(xí)單語嵌入空間之間的映射關(guān)系[24],傳統(tǒng)有監(jiān)督模型通常使用雙語詞典中的詞對齊信息學(xué)習(xí)映射矩陣,對齊兩種語言的嵌入空間,如圖1(a)所示。但漢越作為低資源語言對缺乏大規(guī)模的雙語詞典,導(dǎo)致學(xué)習(xí)到的映射矩陣Ww在雙語詞典外的非標(biāo)注詞上泛化性較弱,無法準(zhǔn)確對齊雙語空間。例如圖中的非標(biāo)注詞“茉莉”,經(jīng)過映射后仍與對應(yīng)的越南語翻譯“hoa_nhài”距離較遠(yuǎn),對齊效果欠佳。實(shí)際上,詞典中存在一些近義詞與同類詞,如圖1(b)所示,“缺少”、“稀缺”、“缺失”和“蘭花”、“花朵”、“玫瑰”這種具有相近含義的詞在漢語詞嵌入空間中的距離比較接近,可以構(gòu)建為詞簇,且詞典中相應(yīng)的翻譯“thiu”、“khan_him”、“thiu_st”和“hoa_lan”、“hoa”、“hoa_hng”在越南語詞嵌入空間中也具有鄰近的分布。

        圖1 融合詞簇約束前后的漢越詞嵌入空間對齊效果Fig.1 Alignment effect of Chinese and Vietnamese word embedding space before and after with word cluster constraints

        文獻(xiàn)[25]提出來自不同語言具有相近含義的詞簇在映射后的距離也應(yīng)接近。因此,本文提出一種融合詞簇對齊約束的漢越跨語言詞嵌入方法,通過使用詞簇對齊數(shù)據(jù)讓映射矩陣Ww+cls學(xué)習(xí)到詞簇粒度的映射關(guān)系。例如詞簇對齊信息“蘭花,花朵,玫瑰| hoa_lan,hoa,hoa_hng”可以使映射矩陣學(xué)習(xí)到具有“花朵”含義的漢越單語詞嵌入之間的一些共性特征及映射關(guān)系(如“花”與“hoa”),使模型在映射過程中盡可能精準(zhǔn)地識別和保留這些特征,并通過映射拉近漢越相近語義詞在共享空間中的距離。這種共性特征間的映射關(guān)系還可以遷移到其他未標(biāo)注詞簇上,通過局部詞簇空間的準(zhǔn)確對齊提升模型在非標(biāo)注詞上的泛化性,進(jìn)一步改善低資源環(huán)境下漢越整體嵌入空間的對齊效果。例如圖1(b)中非標(biāo)注詞“茉莉”與“hoa_nhài”經(jīng)過映射矩陣Ww+cls后,更接近具有“花朵”含義的詞簇,詞簇空間準(zhǔn)確對齊的同時(shí)也使兩詞間的距離更近,更容易實(shí)現(xiàn)對齊。

        1.1 漢越單語詞嵌入訓(xùn)練

        實(shí)現(xiàn)漢越跨語言詞嵌入的首要步驟是獲取漢越單語詞嵌入。模型使用漢語與越南語的單語訓(xùn)練語料作為輸入,通過Word2Vec 模型[26]訓(xùn)練獲取漢語與越南語的單語詞嵌入空間X∈Rn×d,Y∈Rm×d,其中,n為訓(xùn)練得到的漢語詞嵌入個(gè)數(shù),m為越南語詞嵌入個(gè)數(shù),d代表詞嵌入維度。然后通過漢越雙語詞典,分別得到詞典對應(yīng)的漢語與越南語詞嵌入矩陣X′,Y′∈Rv×d,其中,v為詞典大小,與分別代表雙語詞典第i條詞對所對應(yīng)的漢、越單語詞嵌入。

        1.2 融合詞簇對齊約束的映射矩陣訓(xùn)練

        漢越雙語詞典中存在許多近義詞、同類詞和同主題詞可以構(gòu)建為詞簇,近義詞是指具有相近含義的詞,例如“缺少”、“稀缺”、“缺失”;同類詞代表具有某種聯(lián)系的詞,例如“蘭花”、“花朵”、“玫瑰”;同主題詞指圍繞某一主題概念的詞,例如表示數(shù)字的“零”、“一”、“二”,表示顏色為“紅色”、“藍(lán)色”等。模型基于3 種不同類型的關(guān)聯(lián)關(guān)系充分挖掘雙語詞典中的詞簇對齊信息,數(shù)據(jù)構(gòu)建詳見2.3 節(jié)。為了更好地將詞簇對齊信息融入映射矩陣的訓(xùn)練過程中,模型通過平均操作將詞簇對齊進(jìn)一步轉(zhuǎn)換為簇心對齊。設(shè)現(xiàn)有詞簇對齊信息為代表漢語詞簇中的詞嵌入個(gè)數(shù),t代表越南語詞簇中的詞嵌入個(gè)數(shù),所對應(yīng)的簇心嵌入與的構(gòu)建如式(1)、式(2)所示:

        這種簇心嵌入與詞典中的詞嵌入維度相同,因此詞對齊數(shù)據(jù)同詞簇對齊數(shù)據(jù)可以直接融合為訓(xùn)練數(shù)據(jù)D3,應(yīng)用到映射矩陣的訓(xùn)練中。CX,CY∈Rl×d分別代表詞簇對齊數(shù)據(jù)中漢語與越南語的簇心嵌入矩陣,l代表詞簇對齊數(shù)據(jù)的規(guī)模。分別代表訓(xùn)練數(shù)據(jù)D3中融合詞對齊與詞簇對齊數(shù)據(jù)后的漢語與越南語嵌入矩陣,其中

        受語法、構(gòu)詞上的差異及單語訓(xùn)練語料主題不一致等因素的影響,漢語與越南語的詞嵌入空間并不同構(gòu),而傳統(tǒng)跨語言詞嵌入方法通常采用從源語言到目標(biāo)語言的單向映射實(shí)現(xiàn)雙語空間對齊,并沒有考慮這種差異性帶來的影響,導(dǎo)致最終獲取到的漢越跨語言詞嵌入效果不佳。因此,在映射矩陣的訓(xùn)練步驟中,模型的目標(biāo)為漢語與越南語分別學(xué)習(xí)兩個(gè)單獨(dú)的映射矩陣WX與WY,從而將兩種語言的單語詞嵌入映射至一個(gè)同語言無關(guān)的共享嵌入空間中,以減小漢越語言差異性對模型效果的影響。同時(shí),為兩個(gè)映射矩陣添加正交約束WTW=Ι,以保證映射后的單語詞嵌入性能不變。依據(jù)訓(xùn)練數(shù)據(jù)D3中的對齊關(guān)系,詞典中對應(yīng)的漢語與越南語詞嵌入經(jīng)過映射后應(yīng)盡可能相似。同理,詞簇對齊數(shù)據(jù)中的漢語與越南語簇心嵌入經(jīng)過映射后也應(yīng)盡可能相似。這一問題可以通過最小化它們之間歐氏距離的平方和求解,模型在詞對齊與詞簇對齊上的聯(lián)合損失函數(shù)如式(3)所示:

        不同于僅使用詞對齊約束構(gòu)建映射損失的傳統(tǒng)有監(jiān)督方法,融合詞簇對齊約束后的聯(lián)合損失函數(shù)可以使模型進(jìn)一步學(xué)習(xí)到漢越相近詞間的共性特征及其映射關(guān)系,使不同語言具有相近含義的詞嵌入在映射后的距離更近。這種距離縮減可以使后期雙語詞典歸納任務(wù)中檢索到的越南語候選詞同漢語檢索詞的語義相關(guān)性更強(qiáng),從而提升模型在非標(biāo)注詞上的泛化能力,以彌補(bǔ)低資源環(huán)境下詞粒度對齊關(guān)系學(xué)習(xí)不充分的問題。因?yàn)閮蓚€(gè)損失中的映射矩陣是共享的,所以通過訓(xùn)練數(shù)據(jù)D3可以將損失函數(shù)進(jìn)一步簡化為:

        當(dāng)WX與WY滿足正交約束時(shí),最小化歐氏距離的平方和可以等價(jià)于最大化點(diǎn)積,如式(5)所示:

        其中:Tr(*)為跡運(yùn)算,代表矩陣主對角線上所有元素之和,該問題的最優(yōu)正交解為WX=U,WY=V,其中的SVD 解。

        1.3 跨語言映射

        基于1.2 節(jié)中獲得的漢語與越南語的映射矩陣WX與WY,模型通過跨語言映射將兩種語言的單語詞嵌入映射至同一空間中對齊。跨語言映射步驟主要基于文獻(xiàn)[27]提出的跨語言映射框架VecMap 實(shí)現(xiàn),分為歸一化、白化、正交映射、去白化、重賦權(quán)重5 個(gè)步驟??蚣苁褂脻h語與越南語的單語詞嵌入空間X、Y作為輸入,最終得到漢語與越南語的共享詞嵌入空間,使具有相同含義的漢越單語詞嵌入在空間中彼此接近。

        1.4 漢越詞典歸納

        雙語詞典歸納(Bilingual Lexicon Induction,BLI)是評測跨語言詞嵌入對齊準(zhǔn)確性的通用任務(wù),對于詞典外任何一個(gè)未經(jīng)標(biāo)注的漢語或越南語單詞,均可根據(jù)空間余弦相似度來查找該詞在共享空間中對應(yīng)的翻譯詞。設(shè)與分別為漢語與越南語單詞分別為兩個(gè)單詞在共享空間中對應(yīng)的漢語與越南語詞嵌入,兩詞余弦相似度的計(jì)算過程如式(6)所示:

        例如在漢語到越南語的正向詞典歸納任務(wù)中,以漢語單詞“耳朵”作為檢索詞,經(jīng)過計(jì)算選取余弦相似度最高的越南語單詞“tai”作為候選詞,構(gòu)建漢越對齊詞對“耳朵,tai”。通過詞典歸納任務(wù),可以為所有漢越單語詞嵌入查找對應(yīng)的翻譯詞,實(shí)現(xiàn)漢越跨語言詞嵌入。

        基于以上思想,本文提出融合詞簇約束的漢越跨語言詞嵌入模型,由漢越單語詞嵌入訓(xùn)練、詞簇對齊數(shù)據(jù)融合、映射矩陣訓(xùn)練和跨語言映射四部分組成。模型首先使用獨(dú)立的單語語料訓(xùn)練獲取漢越單語詞嵌入,然后基于雙語詞典中的對齊詞對構(gòu)建詞簇對齊數(shù)據(jù)融入映射矩陣的訓(xùn)練過程中,最后通過跨語言映射獲取漢越共享詞嵌入空間,模型架構(gòu)如圖2 所示。

        圖2 融合詞簇約束的漢越跨語言詞嵌入模型Fig.2 Chinese-Vietnamese cross-lingual word embedding model with word cluster constraints

        2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備及實(shí)驗(yàn)設(shè)置

        2.1 漢越單語詞嵌入訓(xùn)練

        漢語與越南語均使用開源新聞數(shù)據(jù)集作為單語訓(xùn)練語料,漢語的單語語料來源于brightmart 新聞數(shù)據(jù)集,使用jieba 工具進(jìn)行分詞。越南語單語語料來源于binhvq 新聞數(shù)據(jù)集,使用Vncorenlp 工具進(jìn)行分詞。

        漢語與越南語的單語詞嵌入訓(xùn)練采用相同的參數(shù)設(shè)置,均使用Word2Vec 模型中的CBOW(Continuous Bag-Of-Words)模型進(jìn)行訓(xùn)練,詞嵌入維度為300 維,詞窗大小設(shè)置為10,最低詞頻為50,迭代次數(shù)為5 輪。經(jīng)過訓(xùn)練,共得到32萬漢語詞嵌入和15萬越南語詞嵌入。

        2.2 漢越雙語詞典構(gòu)建

        有監(jiān)督跨語言詞嵌入模型的效果很大程度上依賴于雙語詞典的質(zhì)量,本文使用同主題詞對和高頻詞對兩種數(shù)據(jù)構(gòu)建高質(zhì)量的漢越雙語詞典。詞典中的同主題詞對來源于多語公開數(shù)據(jù)集CLDR(Unicode Common Locale Data Repository),其中包含月份、數(shù)字、顏色等常用主題詞的對齊詞對,如表1所示。這些詞屬于日常生活中的常用詞,具有較高的詞頻和豐富的語義資源。

        表1 同主題對齊詞對Table 1 Aligned word pairs with the same subject

        傳統(tǒng)雙語詞典依據(jù)源語言訓(xùn)練語料的詞頻構(gòu)建,該策略認(rèn)為高頻詞具有更高的權(quán)重和更豐富的語義特征。但漢語不同于其他語言,詞頻最高的詞往往是一些助詞、介詞或單個(gè)文字,例如“的”、“在”、“了”等。這些詞并不具備具體的含義,很難使映射矩陣捕捉到較為精確的映射關(guān)系。針對這一問題,本文提出一種面向漢越場景的高頻詞對構(gòu)建流程。首先利用網(wǎng)上開源資源構(gòu)建停用詞表,剔除漢語高頻詞中的助詞、介詞和語氣詞,然后對剩余高頻詞進(jìn)行人工篩選,去除特有名詞及噪聲詞,最后使用Lingea 在線詞典人工標(biāo)注相應(yīng)的越南語翻譯,并剔除不包含在漢越單語詞嵌入文件中的OOV(Out Of Vocabulary)詞對。本文一共構(gòu)建了5 500 對高質(zhì)量的漢越雙語詞對,并從中隨機(jī)抽取500 對作為測試詞典Test,剩余5 000 對作為漢越雙語詞典Seed。

        2.3 詞簇對齊數(shù)據(jù)的構(gòu)建

        為使映射矩陣能夠更好地學(xué)習(xí)到相近詞間的共性特征及映射關(guān)系,詞典中的詞簇對齊數(shù)據(jù)主要利用近義詞和同類詞兩種關(guān)系進(jìn)行構(gòu)建,構(gòu)建流程如圖3 中1)、2)所示。首先查找漢越雙語詞典中越南語翻譯相同的詞對,這些詞對通常具有極為相近的含義,可以構(gòu)建為一個(gè)初始的詞簇對齊。然后使用在線詞典和開源詞庫Babelnet 查找初始詞簇在詞典中的近義詞對和同類詞對用于擴(kuò)充詞簇對齊。除近義詞簇和同類詞簇外,詞典中來源于多語公開數(shù)據(jù)集CLDR 的同主題詞對作為一種封閉詞類,本身具有一定的弱相關(guān)性,可以構(gòu)建為大范圍的隱性對齊詞簇,如圖3 中3)所示。3 種不同類型的詞簇對齊數(shù)據(jù)共同構(gòu)成詞簇對齊詞典Seed_Cls,各詞典規(guī)模如表2 所示。

        圖3 對齊詞簇構(gòu)建流程Fig.3 Alignment word clusters construction process

        表2 詞典規(guī)模Table 2 The scale of dictionaries

        2.4 跨語言映射參數(shù)設(shè)置

        為便于同基線模型進(jìn)行對比,本文在單語詞嵌入上采用相同的維度設(shè)置,模型中的漢語與越南語詞嵌入維度均為300 維。由于簇心嵌入是經(jīng)單語詞嵌入進(jìn)行平均操作獲得,因此其維度也為300 維。此外,訓(xùn)練得到的映射矩陣WX與WY的大小為300×300 維,同詞嵌入維度設(shè)置保持一致。VecMap 跨語言映射框架中的歸一化步驟使用長度歸一化(unit)和中心化(center)作為預(yù)處理,執(zhí)行順序?yàn)椋踰nit,center,unit]。框架其余步驟中的參數(shù)設(shè)置均同文獻(xiàn)[27]保持一致,白化步驟中模型使用ZCA 白化;在重賦權(quán)重步驟中,漢語與越南語的權(quán)重值分別設(shè)置為0.5 和0.5。

        2.5 評價(jià)指標(biāo)

        為更好地與現(xiàn)有工作進(jìn)行比較,本文采用同mikolov、Artetxe、Conneau 等在詞典歸納任務(wù)上相同的評價(jià)指標(biāo),以詞匯對齊的準(zhǔn)確率P@N(選取N個(gè)候選詞時(shí)的對齊準(zhǔn)確率)作為衡量模型效果的標(biāo)準(zhǔn),具體計(jì)算過程如式(7)所示:

        其中:T代表測試詞典的規(guī)模;C(wi)代表模型依據(jù)余弦相似度為單詞wi檢索到的N個(gè)候選詞集合,若集合中包含正確的翻譯詞則取1,否則取0。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 漢語到越南語詞典歸納任務(wù)評測

        為驗(yàn)證融合詞簇對齊方法的有效性,模型同3 個(gè)有監(jiān)督模型和1 個(gè)無監(jiān)督模型進(jìn)行了對比,基線模型設(shè)置如下:

        1)Multi_w2v 模型。文獻(xiàn)[19]基于線性回歸思想提出的跨語言Word2Vec 模型,使用隨機(jī)梯度下降最小化雙語詞典詞對間的均方誤差(Mean Squared Error,MSE)來學(xué)習(xí)映射矩陣。

        2)Orthogonal 模型。文獻(xiàn)[21]提出的正交映射模型引入了長度歸一化與中心化處理,并為映射矩陣添加正交約束。

        3)VecMap 模型。文獻(xiàn)[27]提出的雙向正交映射模型分別為源語言和目標(biāo)語言訓(xùn)練單獨(dú)的正交映射矩陣,并將兩種語言的詞嵌入映射至同一共享空間。

        4)Muse 模型。文獻(xiàn)[11]基于無監(jiān)督思想,利用單語嵌入空間之間的相似性,使用對抗的方式學(xué)習(xí)映射矩陣。

        所有模型使用相同數(shù)據(jù)集進(jìn)行訓(xùn)練與測試,參數(shù)設(shè)置同各文獻(xiàn)保持一致,并在漢語到越南語的正向詞典歸納任務(wù)上進(jìn)行了對比,實(shí)驗(yàn)結(jié)果如表3 所示。

        表3 漢越正向詞典歸納任務(wù)實(shí)驗(yàn)結(jié)果Table 3 Experimental results of the Chinese-Vietnamese forward lexicon induction tasks %

        分析表3 的實(shí)驗(yàn)數(shù)據(jù)可知,融合詞簇對齊約束的方法可以有效提升漢越低資源場景下跨語言詞嵌入的對齊準(zhǔn)確率,模型效果明顯優(yōu)于其他傳統(tǒng)方法。由于漢越語言差異性大,詞嵌入空間相似度低,Muse 無監(jiān)督模型在實(shí)驗(yàn)中的表現(xiàn)明顯弱于其他有監(jiān)督基線模型。而在有監(jiān)督模型的對比中,基于線性回歸方法實(shí)現(xiàn)的Multi_w2v 模型在P@1 和P@5 任務(wù)上的效果優(yōu)于單向正交映射模型Orthogonal,但表現(xiàn)不如基于雙向正交映射的VecMap 模型。本文模型ClsMap 相較于表現(xiàn)最好的基線模型,在P@1 和P@5 任務(wù)上的對齊準(zhǔn)確率提升了2.2 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果充分證明了在訓(xùn)練過程中融合詞簇對齊約束的方法可以有效提升漢越低資源場景下映射矩陣在非標(biāo)注詞上的泛化性,提高了漢越雙語空間的對齊準(zhǔn)確率。

        3.2 越南語到漢語詞典歸納任務(wù)評測

        為驗(yàn)證融合詞簇對齊的方法在反向詞典歸納任務(wù)上的表現(xiàn),本文將訓(xùn)練集與測試集中的語言進(jìn)行了置換,以越南語作為源語言,漢語作為目標(biāo)語言進(jìn)行了測試,實(shí)驗(yàn)結(jié)果如表4 所示。

        表4 漢越反向詞典歸納任務(wù)實(shí)驗(yàn)結(jié)果Table 4 Experimental results of the Chinese-Vietnamese reverse lexicon induction tasks %

        分析表4 可知,在以越南語作為檢索詞的反向詞典歸納任務(wù)中,本文方法在P@5 任務(wù)上的對齊準(zhǔn)確率達(dá)到了54.76%,相比VecMap 模型與Orthogonal模型提升了1.48 個(gè)百分點(diǎn),取得了最好效果。而在P@1 任務(wù)上,無監(jiān)督方法取得了最好效果,但除Multi_w2v 模型外,有監(jiān)督模型與無監(jiān)督模型在P@1任務(wù)上的差異并沒有漢越正向詞典歸納任務(wù)中那樣明顯。主要原因是由于雙語詞典是以漢語為源語言進(jìn)行構(gòu)建所致,這一問題在初始詞簇的構(gòu)建中就有所體現(xiàn),詞典中包含許多越南語相同的詞對,證明漢語相較于越南語的標(biāo)注更為精確。因此,用于訓(xùn)練的漢越雙語詞典在反向詞典歸納任務(wù)中并不具備優(yōu)勢。ClsMap 模型雖然在P@1 任務(wù)上的表現(xiàn)一般,但在多候選詞的P@5 任務(wù)上依然取得了最好效果,證明融合詞簇對齊約束的方法在越南語到漢語的反向詞典歸納任務(wù)中仍具有一定的提升效果。

        3.3 不同詞典規(guī)模對模型效果的影響

        為驗(yàn)證本文方法在低資源場景下的有效性,模型在不同規(guī)模的漢越雙語詞典上進(jìn)行了對比實(shí)驗(yàn)。詞典以2 000 詞作為最低規(guī)模,并逐次擴(kuò)展到500 詞。模型在不同詞典規(guī)模下的實(shí)驗(yàn)結(jié)果如表5所示,其中,詞簇詞典規(guī)模代表從雙語詞典中提取出的對齊詞簇?cái)?shù)量。

        表5 本文模型在不同詞典規(guī)模下的對齊準(zhǔn)確率Table 5 Alignment accuracy of this model under different dictionary scales

        通過對比表5 與表3 可知,在漢語到越南語的正向詞典歸納任務(wù)(Zh→Vi)中,融合詞簇對齊約束的方法僅使用2 000 詞就超越了大部分基線模型在5 000 詞上的訓(xùn)練效果。當(dāng)詞典規(guī)模達(dá)到3 000 詞時(shí),通過融合從中提取到710 條詞簇對齊信息,模型在P@1 和P@5 任務(wù)上的對齊效果就已超越了最好基線模型在5 000詞上的訓(xùn)練效果。隨著詞典規(guī)模的增長,在4 000~5 000詞時(shí),模型在P@5 任務(wù)上的效果逐步趨于穩(wěn)定,但在P@1 任務(wù)上的效果有略微下降,推測這是由于在詞典擴(kuò)展過程中引入了更多近義詞所導(dǎo)致,例如“好看,?p”與“漂亮,xinh”。這種近義詞對在共享詞嵌入空間中的距離較近,容易使映射出現(xiàn)偏差,導(dǎo)致模型在單個(gè)候選詞任務(wù)上的效果下降。但隨著數(shù)據(jù)規(guī)模的擴(kuò)展,模型效果再次提升。在越南語到漢語的反向詞典歸納任務(wù)(Vi→Zh)中,隨著詞典規(guī)模的擴(kuò)大,模型在P@1 和P@5 任務(wù)上的效果穩(wěn)步提升,波動(dòng)并不明顯,并在5 000 詞規(guī)模時(shí)取得了最好效果。

        實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)跨語言詞嵌入方法,融合詞簇對齊約束的方法可以使模型在有限規(guī)模的雙語詞典中學(xué)習(xí)到更為精確的映射關(guān)系,以提升漢越雙語空間的對齊效果,驗(yàn)證了本文方法在漢越低資源任務(wù)上的有效性。

        3.4 詞簇類型及其組合對模型效果的影響

        為探索不同類型的詞簇對齊信息及其組合對模型效果的影響,本文依據(jù)構(gòu)建時(shí)所使用的關(guān)聯(lián)關(guān)系將詞簇詞典劃分為近義詞簇、同類詞簇和同主題詞簇三部分。其中,近義詞簇251 條、同類詞簇534 條、同主題詞簇44 條,模型在不同類型詞簇及其組合上的實(shí)驗(yàn)結(jié)果如表6 所示。

        表6 本文模型在不同類型詞簇及其組合下的對齊準(zhǔn)確率Table 6 Alignment accuracy of this model under different types of word clusters and their combinations

        通過對比表6 中基線模型與本文模型在漢越正向詞典歸納任務(wù)中的實(shí)驗(yàn)結(jié)果可知,融合不同類型的詞簇對齊信息均可提升模型在P@1 與P@5 任務(wù)上的對齊準(zhǔn)確性。在前三組單一類型詞簇的融合實(shí)驗(yàn)中,近義詞簇的效果明顯優(yōu)于其他兩種詞簇,這是因?yàn)榻x詞通常具有極為相近的含義,在單語嵌入空間中的距離更近,能使映射矩陣較為精準(zhǔn)地學(xué)習(xí)到漢越相近語義詞間共有的結(jié)構(gòu)特征和映射關(guān)系,提升模型在非標(biāo)注詞上的泛化能力。但由于越南語的近義詞較難獲取,導(dǎo)致詞典提取到的詞簇?cái)?shù)量有限,模型難以達(dá)到最優(yōu)效果,因此還需引入其他類型的對齊詞簇作為補(bǔ)充。而同類詞簇對語義相關(guān)性的要求較低且容易獲取,可以作為近義詞簇的補(bǔ)充融入訓(xùn)練。從實(shí)驗(yàn)數(shù)據(jù)可知,模型在近義詞簇與同類詞簇組合上的訓(xùn)練效果已十分接近最優(yōu)。雖然使用同類詞簇學(xué)習(xí)到的結(jié)構(gòu)特征不如近義詞簇精確,但依賴其數(shù)量上的優(yōu)勢依然可以給模型帶來較大提升。除近義詞簇與同類詞簇外,詞典中的同主題詞對間本身具有一定的弱相關(guān)性,可以構(gòu)建為一種大范圍的對齊詞簇。雖然同主題詞簇因涵蓋范圍較廣,但其主體來源于多語公開數(shù)據(jù)集CLDR,無需人工標(biāo)注,且在同近義詞簇與同類詞簇進(jìn)行組合后,依然可以給模型帶來微小的提升,以取得最佳的對齊效果。

        3.5 不同參數(shù)設(shè)置對模型效果的影響

        為更好地與現(xiàn)有工作進(jìn)行比較,模型采用同mikolov、Artetxe、Conneau 等相同的詞嵌入維度設(shè)置。因此,本文將重點(diǎn)探索歸一化步驟設(shè)置及重賦權(quán)重步驟中漢語與越南語的權(quán)重值配比對模型效果的影響。

        1)在歸一化設(shè)置中,鑒于文獻(xiàn)[21]已詳細(xì)分析了歸一化對跨語言詞嵌入模型效果的影響,本文直接使用其推薦的歸一化方式作為組合的基礎(chǔ)選項(xiàng),即長度歸一化(unit)和中心化(center)。由于連續(xù)執(zhí)行長度歸一化(unit+unit)和中心化(center+center)的操作是無意義的,因此共設(shè)置了如下6 組歸一化組合,模型在不同組合上的實(shí)驗(yàn)效果如表7 所示。

        表7 不同歸一化組合對模型效果的影響Table 7 The influence of different normalization combinations on the model effect %

        通過分析表7 中的實(shí)驗(yàn)數(shù)據(jù)可知,使用[center+unit+center]作為預(yù)處理組合時(shí),模型在漢越正向詞典歸納任務(wù)P@1 與P@5 上取得了較好的效果,但考慮到跨語言詞嵌入在實(shí)際應(yīng)用場景中的主要目標(biāo)是實(shí)現(xiàn)雙語詞間的精確對齊,因此最終選取在P@1 任務(wù)上表現(xiàn)最好的預(yù)處理組合[unit+center+unit]作為首選的歸一化設(shè)置。

        2)考慮到不同語言的單語訓(xùn)練語料有時(shí)更偏向于某一特定領(lǐng)域,如金融、法律等,此時(shí)依據(jù)語料詞頻構(gòu)建的雙語詞典無法準(zhǔn)確代表單語詞嵌入的整體分布,導(dǎo)致學(xué)習(xí)到的映射關(guān)系存在一定的偏差。因此,提出重賦權(quán)重步驟,通過為兩種語言賦予不同比例的權(quán)重值來對映射后的詞嵌入進(jìn)行微調(diào),以實(shí)現(xiàn)更好的對齊效果[27]。以漢越正向詞典歸納P@1 與P@5 任務(wù)為例,模型在不同比例權(quán)重值上的對齊效果如圖4 所示。其中,src 代表漢語對應(yīng)的權(quán)重值,而trg 代表越南語對應(yīng)的權(quán)重值。

        圖4 模型在不同權(quán)重值比例上的對齊效果Fig.4 Alignment effect of the model on different weight value scales

        從圖4 中數(shù)據(jù)可知,當(dāng)漢語與越南語的權(quán)重值配比分別為0.5 和0.5 時(shí),模型在P@1 任務(wù)上取得了最佳的對齊效果;當(dāng)權(quán)重值配比為0.6 和0.4 時(shí),模型在P@5任務(wù)上取得了最佳效果。此外,隨著兩端權(quán)重值配比差異的增大,模型效果逐漸降低??紤]到P@1 任務(wù)相較于P@5 任務(wù)對齊難度更大,本文最終選?。?.5,0.5)作為重賦權(quán)重步驟中漢語與越南語的權(quán)值配比。

        3.6 實(shí)例分析

        為直觀反映融合詞簇約束方法對模型映射準(zhǔn)確性的影響,本文選取了3 個(gè)漢越詞典歸納任務(wù)中的實(shí)例進(jìn)行了對比說明,如表8、表9 所示。

        表8 漢越詞典歸納任務(wù)實(shí)例Table 8 Examples of Chinese-Vietnamese lexicon induction tasks

        表9 缺陷實(shí)例Table 9 Example of defects

        表8 為基線模型VecMap 與本文模型ClsMap 在漢越詞典歸納任務(wù)中的兩個(gè)實(shí)例,模型分別輸出5 個(gè)與檢索詞余弦相似度最高的越南語單詞作為候選詞,候選詞下面為對應(yīng)的漢語翻譯。表8 的對齊詞簇代表詞簇詞典中是否包含同檢索詞相關(guān)的對齊詞簇,例如實(shí)例1 中以非標(biāo)注詞“禮拜五”作為檢索詞,同時(shí)詞簇詞典中也含有表示“星期”的同主題對齊詞簇。通過分析實(shí)例1 可知,在P@5 任務(wù)上,本文模型中的正確翻譯詞“th_sáu”在相似度排序上相比基線模型前移了一位,效果更好。此外,基線模型的第一候選詞為“th”,對應(yīng)漢語為“東西”,同檢索詞的語義相關(guān)性較低,而ClsMap 模型中的前3 位候選詞同檢索詞的語義相關(guān)性更高。實(shí)例1 充分證明融合詞簇對齊信息可以使映射矩陣學(xué)習(xí)到不同語言相近語義詞間的共性特征及映射關(guān)系,能夠通過映射拉近漢越相近詞在共享空間中的距離,減小對齊難度。實(shí)例2 則體現(xiàn)了當(dāng)詞簇詞典中無相關(guān)詞簇對齊信息時(shí),模型在非標(biāo)注詞上的性能。通過對比表中數(shù)據(jù)可知,以非標(biāo)注詞“情感”作為檢索詞時(shí),基線模型在P@1 任務(wù)上的對齊并不準(zhǔn)確,而本文方法在P@1 任務(wù)上實(shí)現(xiàn)了精確對齊,同時(shí)候選詞的相似度排序同檢索詞的語義相關(guān)性更強(qiáng)。實(shí)例2 充分證明模型可以將學(xué)習(xí)到的相近詞間的映射關(guān)系遷移到其他未標(biāo)注詞簇上,進(jìn)一步提升模型在非標(biāo)注詞上的泛化能力,改善漢越低資源場景下雙語空間的對齊效果。

        然而,本文方法在個(gè)別實(shí)例上也體現(xiàn)出了一些問題,例如表9 中的實(shí)例3 所示,兩個(gè)模型以非標(biāo)注詞“紫色”作為檢索詞,并且詞簇詞典中包含表示“顏色”的同主題對齊詞簇。通過對比可知,在P@5 任務(wù)上,本文方法相比基線模型,正確翻譯詞在相似度排序上后退了兩位。推測這是由于在詞簇對齊數(shù)據(jù)中,缺乏帶有“紫色”含義的詞,而具有“紅色”含義的詞較多。因此,融合詞簇對齊約束后,結(jié)果中的“?_son”、“?”、“hng”的距離更加接近,導(dǎo)致正確翻譯詞“tím”后移,但該實(shí)例也從側(cè)面反映出本文方法能有效拉近相近語義詞間的距離。

        4 結(jié)束語

        針對漢越低資源場景下語言差異性大、雙語詞典規(guī)模小導(dǎo)致跨語言詞嵌入對齊效果較差的問題,本文提出一種融合詞簇對齊約束的方法。通過使用近義詞、同類詞和同主題詞3 種類型的關(guān)聯(lián)關(guān)系抽取漢越雙語詞典中的詞簇對齊信息融入映射矩陣的訓(xùn)練中,使映射矩陣學(xué)習(xí)到不同語言相近詞間的共性特征及映射關(guān)系,以提升模型在非標(biāo)注詞上的泛化性。實(shí)驗(yàn)結(jié)果表明,本文方法在漢越詞典歸納任務(wù)中P@1 和P@5 上的對齊效果相比基線模型均有明顯提升,能有效提高漢越低資源環(huán)境下雙語空間的對齊準(zhǔn)確性。由于依據(jù)雙語詞典提取出的對齊詞簇雖然質(zhì)量較高但數(shù)量有限,因此下一步考慮引入迭代的思想使模型自行構(gòu)建高質(zhì)量的對齊詞簇用于訓(xùn)練,以提升模型的映射準(zhǔn)確性。

        猜你喜歡
        效果語言模型
        一半模型
        按摩效果確有理論依據(jù)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        迅速制造慢門虛化效果
        讓語言描寫搖曳多姿
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
        3D打印中的模型分割與打包
        日本丰满熟妇videossex8k| 亚洲av成人波多野一区二区| 人妖一区二区三区视频| 精品成在人线av无码免费看| 色一情一区二| 日韩精品欧美激情国产一区| 亚洲精品一区二区三区在线观| 高h小月被几个老头调教| 亚州少妇无套内射激情视频| 97色综合| 国产av天堂一区二区二区| 欧美村妇激情内射| 中文字幕亚洲综合久久天堂av| 亚洲色大成网站www久久九九| 久久精品国产夜色| 人妻丰满少妇一二三区| 亚洲国产精品高清在线| 亚瑟国产精品久久| 日日摸夜夜添夜夜添一区二区| 一区二区免费国产a在亚洲| 黄片视频免费在线观看国产| 国产精品爽黄69天堂a | 亚洲欧美日韩中文v在线| 亚洲天堂av在线观看免费| 亚洲色图片区| 少妇精品久久久一区二区三区| 国产爆乳美女娇喘呻吟久久| 国产精品久色婷婷不卡| 97精品超碰一区二区三区| 黄色毛片视频免费| 日韩精品成人一区二区三区| 亚洲 欧美 综合 在线 精品| 牛鞭伸入女人下身的真视频| 亚洲熟妇中文字幕日产无码| 国产在线91精品观看| 久久国产精品久久久久久| 91久久精品无码人妻系列 | 国产欧美激情一区二区三区| 国产一区二区av免费观看| 性无码免费一区二区三区在线| AV无码中文字幕不卡一二三区 |