亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合語(yǔ)法及結(jié)構(gòu)特征的漢老雙語(yǔ)句子相似度計(jì)算方法

        2023-12-06 02:41:24周蕾越周蘭江
        中文信息學(xué)報(bào) 2023年9期
        關(guān)鍵詞:特征信息方法

        雷 歆, 周蕾越, 周蘭江

        (1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3.昆明理工大學(xué)津橋?qū)W院 電氣與信息工程學(xué)院,云南 昆明 650500)

        0 引言

        老撾屬社會(huì)主義國(guó)家,與我國(guó)云南省接壤。2021年是中老建交60周年,兩國(guó)關(guān)系經(jīng)歷了國(guó)際社會(huì)不斷變化的考驗(yàn),中老兩國(guó)是具有戰(zhàn)略意義的命運(yùn)共同體。2021年12月3日,習(xí)近平總書記與老撾國(guó)家主席通倫舉行了視頻會(huì)晤,以視頻連線的方式一同見證中老鐵路正式通車。中老鐵路的正式開通標(biāo)志著老撾成為“一帶一路”倡議的紐帶,因此開展老撾語(yǔ)自然語(yǔ)言處理工作對(duì)兩國(guó)政治、經(jīng)濟(jì)上的交流具有極其重要的推進(jìn)作用??缯Z(yǔ)言句子相似度計(jì)算指的是雙語(yǔ)句子的語(yǔ)義相似程度,漢老雙語(yǔ)句子相似度計(jì)算是機(jī)器翻譯、雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建和雙語(yǔ)跨語(yǔ)言信息檢索等的核心技術(shù)之一。

        句子相似度計(jì)算的方法目前主要包含基于字符串的方法、基于知識(shí)庫(kù)的方法和基于語(yǔ)料庫(kù)的方法。其中基于知識(shí)庫(kù)的方法分為基于本體與基于網(wǎng)絡(luò)知識(shí)兩種,基于語(yǔ)料庫(kù)的方法分為基于詞袋模型,基于搜索引擎和基于神經(jīng)網(wǎng)絡(luò)三種;在基于字符串的方法中,相似度計(jì)算只停留在原始的表面層次上。在類似于應(yīng)用語(yǔ)義詞典的基于本體的方法中,語(yǔ)義詞典構(gòu)建的質(zhì)量對(duì)相似度評(píng)估性能的影響顯著,其無法適應(yīng)隨著時(shí)代發(fā)展而產(chǎn)生出的眾多新詞,而且它幾乎沒有考慮到詞法與句法因素;在基于網(wǎng)絡(luò)知識(shí)的方法中,處理數(shù)據(jù)噪聲十分困難,且結(jié)構(gòu)層次不如語(yǔ)義詞典;在基于主題模型的方法中,它的語(yǔ)義表征還不夠充分,同時(shí)需要大規(guī)模平行語(yǔ)料庫(kù);在基于搜索引擎的方法中,處理網(wǎng)頁(yè)的質(zhì)量則不盡相同。

        隨著計(jì)算機(jī)硬件的發(fā)展和算力的大幅度提升,在基于語(yǔ)料庫(kù)的方法中,利用神經(jīng)網(wǎng)絡(luò)的方法受到了學(xué)者們的廣泛關(guān)注與研究。對(duì)于跨語(yǔ)言句子相似度的研究多是將語(yǔ)料進(jìn)行分布式表達(dá),映射到向量空間中,然后連接神經(jīng)網(wǎng)絡(luò)提取語(yǔ)料中豐富的特征來進(jìn)行相似度計(jì)算。

        老撾語(yǔ)在時(shí)態(tài)的表達(dá)上有帶著標(biāo)記的清晰的語(yǔ)序結(jié)構(gòu),同時(shí)在定語(yǔ)的位置表示上也有著特征標(biāo)記。本文利用老撾語(yǔ)中含有眾多標(biāo)記的語(yǔ)言學(xué)特點(diǎn),根據(jù)老撾語(yǔ)中的標(biāo)記與漢語(yǔ)中具有標(biāo)記作用的結(jié)構(gòu),設(shè)置了漢老時(shí)態(tài)標(biāo)簽與定語(yǔ)標(biāo)簽,然后將特征融入雙語(yǔ)向量空間表征中。接著連入三種不同尺度的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)與雙向門控循環(huán)單元(Bi-Gated Recurrent Units,BiGRU),CNN能更好地提取句子中的局部特征,BiGRU能更好地提取句子中的長(zhǎng)距離特征。將提取完特征的雙語(yǔ)信息連入局部推理的交互聚合結(jié)構(gòu),該機(jī)制利用差異計(jì)算來進(jìn)行局部推理,使?jié)h老雙語(yǔ)信息進(jìn)行交互,最終計(jì)算出漢老雙語(yǔ)句子的相似度分?jǐn)?shù)。老撾語(yǔ)屬于低資源語(yǔ)言,對(duì)比目前學(xué)界使用的主流方法,本實(shí)驗(yàn)在利用有限的語(yǔ)料的情況下取得了突出的表現(xiàn)。

        本文的主要貢獻(xiàn)如下:

        (1) 通過判斷雙語(yǔ)句子的不同時(shí)態(tài)及定位定語(yǔ)位置,提出了一種融合語(yǔ)法及結(jié)構(gòu)特征的漢老雙語(yǔ)句子相似度計(jì)算方法。

        (2) 通過一種自學(xué)習(xí)的無監(jiān)督方法將雙語(yǔ)詞語(yǔ)映射到共享的向量空間中。

        (3) 通過CNN和BiGRU提取局部特征和長(zhǎng)距離特征,加入局部推理的交互聚合結(jié)構(gòu)能夠使雙語(yǔ)信息進(jìn)行交互,從而提高漢老跨語(yǔ)言句子相似度計(jì)算模型的性能。

        本文組織結(jié)構(gòu)如下: 首先在引言部分介紹本文的研究背景及意義,第1部分介紹相關(guān)工作,綜述句子相似度計(jì)算的各種方法及相關(guān)文獻(xiàn);第2部分介紹漢老雙語(yǔ)的特征選取及表示;第3部分介紹本文使用模型的結(jié)構(gòu)及技術(shù)路線;第4部分為本文的實(shí)驗(yàn)結(jié)果及分析;第5部分為總結(jié)與展望。

        1 相關(guān)工作

        句子相似度計(jì)算方法目前主要分為基于字符串的方法、基于知識(shí)庫(kù)的方法和基于語(yǔ)料庫(kù)的方法。

        (1)基于字符串的方法其思想主要是直接作用于原始語(yǔ)料中,通過計(jì)算語(yǔ)料中不同字符串的匹配程度,如共現(xiàn)程度、重復(fù)程度等來度量相似度。俞婷婷等人[1]通過滑動(dòng)窗口機(jī)制將文本分割,計(jì)算分割后的k個(gè)字符在文本中的頻率與權(quán)重,通過Jaccard系數(shù)來判斷兩個(gè)文本間的相似度;李圣文等人[2]構(gòu)建文本間的公共字符串,利用它的熵來衡量文本相似度。

        (2)基于知識(shí)庫(kù)的方法其思想主要是使用有組織體系的知識(shí)庫(kù)計(jì)算句子相似度。在基于本體的方法中,最主要的是基于語(yǔ)義詞典來計(jì)算相似度,如,石杰等人[3]在漢泰雙語(yǔ)語(yǔ)料特征篩選后,利用WordNet把雙語(yǔ)文本轉(zhuǎn)換為中間語(yǔ)言,在此基礎(chǔ)上進(jìn)行文本相似度計(jì)算;Farouk[4]利用了詞序相似度,通過預(yù)訓(xùn)練的詞向量和WordNet來衡量句子相似度。在基于網(wǎng)絡(luò)知識(shí)的方法中,主要通過維基百科來計(jì)算相似度,Zhang等人[5]解決了以往方法中維基百科路徑利用不充分的問題,提出了一種雙邊最短路徑算法來計(jì)算文本相似度;荊琪等人[6]通過挖掘維基百科的結(jié)構(gòu)特征如摘要中的鏈接結(jié)構(gòu)等,提出一種相關(guān)度結(jié)合的詞語(yǔ)相似度計(jì)算方法,在此基礎(chǔ)上,利用主題詞權(quán)重等特征計(jì)算句子相似度。

        (3)基于語(yǔ)料庫(kù)的方法其思想主要是從語(yǔ)料庫(kù)中找出相關(guān)信息,以此來確定句子相似度,其中基于主題模型的方法和基于神經(jīng)網(wǎng)絡(luò)的方法最為普遍。主題模型的流行方法是將文本建模到主題空間中,通過Gibbs抽樣進(jìn)行推理,使用Jensen-Shannon距離來計(jì)算相似度。程蔚等人[7]首先用雙語(yǔ)語(yǔ)料庫(kù)訓(xùn)練出LDA模型,再結(jié)合新語(yǔ)料集在同一映射下的分布,使用余弦相似度計(jì)算出漢泰雙語(yǔ)文本相似度;Yuan等人[8]通過從維基百科上提取漢藏實(shí)體來擴(kuò)充漢藏詞典,利用主題模型將文本映射到主題空間中,根據(jù)新聞文本的特點(diǎn)計(jì)算出了漢藏文本相似度?;谏窠?jīng)網(wǎng)絡(luò)的方法的主要思想是將語(yǔ)料進(jìn)行分布式表示,通過神經(jīng)網(wǎng)絡(luò)提取語(yǔ)料中所含的語(yǔ)義信息,基于神經(jīng)網(wǎng)絡(luò)的方法是近年來自然語(yǔ)言處理領(lǐng)域運(yùn)用得最為廣泛的方法。Mueller等人[9]使用孿生LSTM(Siamese LSTM)來編碼句子中潛在的信息,提取完上下文特征信息后計(jì)算曼哈頓距離以求得句子相似度;Pontes等人[10]使用了孿生CNN和LSTM結(jié)合的方法,運(yùn)用CNN提取局部特征,運(yùn)用LSTM提取上下文特征,這種網(wǎng)絡(luò)組合有利于保存句子相關(guān)信息,提高了句子相似度分?jǐn)?shù);Zhang等人[11]在BiLSTM的網(wǎng)絡(luò)基礎(chǔ)上加入注意力機(jī)制,通過注意力機(jī)制,考慮到不同組件的不同貢獻(xiàn)來增強(qiáng)語(yǔ)義,使相似度計(jì)算性能進(jìn)一步提高。

        2 漢老雙語(yǔ)特征選取及表示

        本節(jié)通過研究漢老雙語(yǔ)語(yǔ)言學(xué)上的特點(diǎn),辨別雙語(yǔ)時(shí)態(tài)和定位定語(yǔ)位置,將其作為特征融入相似度計(jì)算模型中,從而擴(kuò)充嵌入層中句子的語(yǔ)義信息,因此能夠更好地讓神經(jīng)網(wǎng)絡(luò)提取局部特征和長(zhǎng)距離特征,提高神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)并提取句子中特征的能力。

        2.1 時(shí)態(tài)特征

        表1 漢語(yǔ)-老撾語(yǔ)時(shí)態(tài)標(biāo)記及標(biāo)簽示例

        2.2 定語(yǔ)定位

        表2 定語(yǔ)定位標(biāo)記及標(biāo)簽示例

        3 模型和方法

        本文提出了融合語(yǔ)法及結(jié)構(gòu)特征的方法來計(jì)算漢老雙語(yǔ)句子相似度,在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取前,首先對(duì)漢老雙語(yǔ)語(yǔ)料進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、分詞、詞性標(biāo)注,用本文所示的方法對(duì)時(shí)態(tài)特征與定語(yǔ)位置特征進(jìn)行特征標(biāo)記,將語(yǔ)料進(jìn)行向量化的表示,通過無監(jiān)督的方法將漢老雙語(yǔ)詞語(yǔ)映射到共享的語(yǔ)義向量空間中;然后將含有特征標(biāo)記的雙語(yǔ)分布式表示接入到CNN與BiGRU中提取局部特征與長(zhǎng)距離語(yǔ)義信息特征;接著將提取到的信息送入局部推理層的交互聚合結(jié)構(gòu)進(jìn)行信息交互;最后將得到的雙語(yǔ)信息進(jìn)行按位減與按位乘操作,將處理后的信息接入全連接層得到最終的漢老雙語(yǔ)句子相似度分?jǐn)?shù)。模型框架如圖1所示,它分為五個(gè)層次:

        圖1 融合語(yǔ)法及結(jié)構(gòu)特征的漢老雙語(yǔ)句子相似度計(jì)算模型圖

        (1)句子預(yù)處理層: 將漢老雙語(yǔ)句子語(yǔ)料進(jìn)行數(shù)據(jù)清洗、分詞、詞性標(biāo)注,用本文所示的方法并借助語(yǔ)言工具添加特征標(biāo)簽。

        (2)嵌入層: 將含有特征標(biāo)簽的漢老雙語(yǔ)進(jìn)行分布式表示。

        (3)網(wǎng)絡(luò)層: 接入CNN與BiGRU提取句子的局部特征和全局特征,生成隱藏狀態(tài)向量,將得到的向量進(jìn)行拼接。

        (4)交互層: 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到句子的特征后,局部推理交互聚合結(jié)構(gòu)將漢老雙語(yǔ)信息交互。

        (5)預(yù)測(cè)層: 對(duì)交互后的語(yǔ)義信息進(jìn)行計(jì)算并連入多層全連接層,得到最終相似度計(jì)算結(jié)果。

        3.1 句子預(yù)處理

        首先清洗掉影響實(shí)驗(yàn)的語(yǔ)料中的標(biāo)點(diǎn)符號(hào)等,漢語(yǔ)通過中文語(yǔ)言工具進(jìn)行分詞、詞性標(biāo)注和依存句法分析,老撾語(yǔ)通過昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院實(shí)驗(yàn)室依托國(guó)家自然科學(xué)基金《老撾語(yǔ)詞法分析及老-漢雙語(yǔ)平行語(yǔ)料抽取方法》研發(fā)的老撾語(yǔ)語(yǔ)言工具來進(jìn)行分詞[12]和詞性標(biāo)注[13],最后通過本文所示方法為雙語(yǔ)句子添加特征標(biāo)簽。

        3.2 漢老雙語(yǔ)的共享映射

        詞向量的分布式表示將詞表示成連續(xù)的稠密向量,映射到低維的向量空間中,詞向量的表征質(zhì)量對(duì)嵌入層任務(wù)有重要的影響。Mikolov等[14]發(fā)現(xiàn)兩種語(yǔ)言在各自單語(yǔ)料庫(kù)嵌入完成后在向量空間中有著諸多共同特點(diǎn),Faruqui和Dyer[15]將兩種語(yǔ)言嵌入到完全共享的語(yǔ)義空間中。有監(jiān)督訓(xùn)練需要高質(zhì)量的雙語(yǔ)語(yǔ)料庫(kù),Artetxe等人[16]等提出一種無監(jiān)督的映射方法,該方法甚至在一定程度上超過了有監(jiān)督的方法。老撾語(yǔ)是一種資源貧乏的小語(yǔ)種,缺乏大規(guī)模且高質(zhì)量的語(yǔ)料庫(kù),本文使用一種自學(xué)習(xí)的無監(jiān)督的跨語(yǔ)言映射方法來將漢老雙語(yǔ)嵌入到共享的語(yǔ)義空間中。此方法主要包含以下步驟:

        (1)嵌入標(biāo)準(zhǔn)化(Embedding normalization)對(duì)漢老雙語(yǔ)的每個(gè)詞向量進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,首先進(jìn)行長(zhǎng)度標(biāo)準(zhǔn)化,然后進(jìn)行均值中心化,最后再一次進(jìn)行長(zhǎng)度標(biāo)準(zhǔn)化處理。

        (3)自學(xué)習(xí)(Self-Learning)過程自學(xué)習(xí)是為了提高詞典的相似性,求解最佳的正交映射矩陣和最佳字典,需要循環(huán)直至收斂,根據(jù)式(1)求得出WX=U,WZ=V,并將此結(jié)果用來更新D矩陣,當(dāng)式(2)成立時(shí)Dij=1,表明目標(biāo)語(yǔ)言的第j個(gè)與源語(yǔ)言的第i個(gè)詞互譯,反之為0,最后經(jīng)過對(duì)稱再加權(quán),雙語(yǔ)詞嵌入矩陣就映射到同一共享空間中。

        3.3 特征的融入

        為了將特征表示到句子中,本文把包含著特征的詞語(yǔ)向量值相加并求其平均值,然后拼接到句子末尾,使該句子包含添加的特征信息。例如,設(shè)句子長(zhǎng)度為N,即句子中含有N個(gè)詞,句子向量表示為S=(a1,a2,a3,…,aN),a為每個(gè)詞的向量表示,假設(shè)a2和a3含有特征標(biāo)簽,則得到的aM=(a2+a3)/2為句子內(nèi)的特征關(guān)系,最后得到新的含有特征信息的句子S′=(a1,a2,a3,…,aN,aM)。

        3.4 網(wǎng)絡(luò)層

        本文構(gòu)建了分別含有CNN和BiGRU的雙塔網(wǎng)絡(luò)層。CNN用于獲取句子信息的局部特征,BiGRU用于獲取長(zhǎng)距離信息,雙塔結(jié)構(gòu)能夠全方位地獲取句子信息及隱藏特征。

        3.4.1 長(zhǎng)距離語(yǔ)義信息提取

        傳統(tǒng)RNN(Recurrent Neural Networks)在實(shí)驗(yàn)中存在長(zhǎng)期依賴問題和梯度消失問題,同時(shí)LSTM(Long Short Term Memory)在實(shí)驗(yàn)中訓(xùn)練時(shí)間更長(zhǎng),Cho等人[17]提出的GRU(Gated Recurrent Unit)是RNN的一種變體模型,它能很好地克服傳統(tǒng)RNN存在的問題,且比LSTM更為優(yōu)異。GRU的內(nèi)部結(jié)構(gòu)如圖2所示。

        圖2 GRU內(nèi)部結(jié)構(gòu)

        GRU將LSTM的輸入門、輸出門和遺忘門精簡(jiǎn)為重置門與更新門,因?yàn)闈h老雙語(yǔ)序列存在著廣泛的正負(fù)時(shí)序,GRU可以運(yùn)用單元內(nèi)部的門控部件來有效處理語(yǔ)料序列時(shí)序。GRU在某一時(shí)刻t的工作流程如式(3)~式(6)所示。

        3.4.2 局部信息提取

        本文使用卷積神經(jīng)網(wǎng)絡(luò)來提取雙語(yǔ)句子的局部特征。實(shí)驗(yàn)設(shè)置了三種不同尺度的卷積核,一維卷積主要用以處理時(shí)序數(shù)據(jù),能將嵌入矩陣轉(zhuǎn)換為一維向量,對(duì)于句子來說卷積的方向是沿著詞的方向進(jìn)行,卷積核大小分別為1,2,3,它們可以獲取序列間不同角度的隱藏特征,因此可以獲取到更加全面的局部特征信息。卷積神經(jīng)網(wǎng)絡(luò)能夠提取漢老雙語(yǔ)句子中類似于N-gram的重要的局部信息。

        (1)輸入層: 嵌入層的輸出矩陣即為CNN的輸入,設(shè)句子的第i個(gè)詞向量為ai∈Rm×n,其中m為句子長(zhǎng)度即詞語(yǔ)數(shù)量,n為詞向量的維度。

        (2)卷積層: 即對(duì)輸入進(jìn)行卷積操作,使用ReLU函數(shù)為激活函數(shù),卷積層有權(quán)值共享和系數(shù)連接的性質(zhì),可以將輸入的維度降低,這樣可以防止過擬合現(xiàn)象發(fā)生。卷積操作如式(10)所示。

        Ci=ReLU(W·ai:i+h-1+b)

        (10)

        其中,W為卷積權(quán)重,b為偏置項(xiàng),從序列ai:i+h-1中提取特征,即第i個(gè)詞到第i+h-1個(gè)詞組成的句子序列。

        (3)池化層: 池化層的主要作用為降低篩選出的特征的維度,同時(shí)對(duì)卷積后的句子中的特征進(jìn)行采樣,篩選出關(guān)鍵的特征,提高特征的魯棒性。實(shí)驗(yàn)用最大池化的方法來輸出池化向量,設(shè)置padding參數(shù)為same,即對(duì)邊緣補(bǔ)0。Cmax即表示最大池化層提取的特征如式(11)所示。

        Cmax=max (ci)

        (11)

        3.5 局部推理層

        在傳統(tǒng)的雙塔結(jié)構(gòu)中,雙語(yǔ)信息相對(duì)獨(dú)立,孿生網(wǎng)絡(luò)直接將雙語(yǔ)特征輸出到相似度計(jì)算層,沒有進(jìn)行句子間的特征交互,而交互聚合結(jié)構(gòu)能夠很好地解決這一問題,從而使模型性能進(jìn)一步提升。實(shí)驗(yàn)使用了Chen等人[19]提出的增強(qiáng)的順序推理模型(Enhanced Sequential Inference Model)以交互注意力機(jī)制推進(jìn)漢老雙語(yǔ)信息進(jìn)行詞語(yǔ)級(jí)別的交互。

        首先將雙塔網(wǎng)絡(luò)中輸出的語(yǔ)義信息進(jìn)行拼接,即對(duì)CNN與BiGRU提取到的特征向量進(jìn)行拼接。局部特征推理層主要用于將上述拼接后的序列進(jìn)行對(duì)齊操作,將漢老雙語(yǔ)信息進(jìn)行交互,得到交互后的特征。實(shí)驗(yàn)所用的為軟對(duì)齊方式,最后得到句子詞向量之間的乘積,如式(12)所示。

        (12)

        接著,進(jìn)行兩個(gè)句子之間的交互,表示為:

        最后,將新老特征進(jìn)行融合,把得到的交互后的向量與交互前的向量做差與乘。局部推理后的漢老雙語(yǔ)信息的特征得到增強(qiáng),得到差異特征以使模型增強(qiáng)特征學(xué)習(xí),式(15)和式(16)為計(jì)算過程。

        3.6 預(yù)測(cè)層雙語(yǔ)句對(duì)相似度表示

        經(jīng)過局部推理層的交互后,得到了漢語(yǔ)和老撾語(yǔ)的交互后的最終表示,最后進(jìn)入預(yù)測(cè)層來計(jì)算漢老雙語(yǔ)句子的相似度分?jǐn)?shù)。采用類似于Shao[20]的方法,得到漢語(yǔ)最終信息和老撾語(yǔ)最終信息后,對(duì)它們進(jìn)行按位減和按位乘。其中按位減要取絕對(duì)值,最終進(jìn)行拼接操作得到漢老雙語(yǔ)句子的相似度表示情況,其計(jì)算過程如式(17)所示,最后輸入到多層次的全連接層,從而得到雙語(yǔ)的相似度概率分布。

        P=Concat(|SC?SL|),(SC?SL)

        (17)

        其中,Concat表示拼接操作,?表示雙語(yǔ)信息按位減,?則表示對(duì)應(yīng)相乘。

        旅游景觀翻譯。旅游景觀翻譯屬于實(shí)用文本翻譯的范疇,是“為旅游活動(dòng)、旅游專業(yè)和行業(yè)所進(jìn)行的翻譯實(shí)踐,是一種跨語(yǔ)言、跨社會(huì)、跨時(shí)空、跨文化、跨心理的交際活動(dòng)”〔2〕。根據(jù)功能翻譯理論,旅游景觀翻譯的策略和方法應(yīng)由譯文的功能或預(yù)期目的決定,強(qiáng)調(diào)在分析原文的基礎(chǔ)上,以譯文預(yù)期功能為依歸,結(jié)合外國(guó)游客的社會(huì)文化背景和對(duì)譯文的期待、感應(yīng)力或社會(huì)知識(shí)以及交際需要等各種因素,靈活選擇最佳處理方法。因此,對(duì)旅游景觀翻譯而言,不僅需要傳遞源語(yǔ)文本所含的旅游信息,還要把景觀相關(guān)的旅游文化傳遞給目標(biāo)讀者。由此可見,功能翻譯理論對(duì)旅游翻譯,尤其是景觀翻譯具有相當(dāng)?shù)闹笇?dǎo)意義。

        4 實(shí)驗(yàn)及分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        數(shù)據(jù)集分為用于得到漢老雙語(yǔ)分布式表示及特征標(biāo)簽向量的數(shù)據(jù)集和用于本文模型訓(xùn)練的數(shù)據(jù)集。前者中漢語(yǔ)詞向量使用Li[21]運(yùn)用百度百科語(yǔ)料來訓(xùn)練的詞向量,大小為1.69 GB,老撾語(yǔ)詞向量通過老撾語(yǔ)維基百科爬取的110 MB的語(yǔ)料訓(xùn)練得到,由此來獲得漢老雙語(yǔ)詞向量。后者使用中文維基百科和老撾語(yǔ)維基百科爬取的篇章級(jí)對(duì)齊語(yǔ)料,經(jīng)過老撾語(yǔ)專家人工對(duì)齊校驗(yàn)后得到89 300對(duì)漢老雙語(yǔ)平行句對(duì)。非平行句對(duì)語(yǔ)料庫(kù)通過1:7(正樣本: 負(fù)樣本)的比例來構(gòu)建,得到625 100對(duì)非平行句對(duì)。本實(shí)驗(yàn)在構(gòu)建好的雙語(yǔ)語(yǔ)料數(shù)據(jù)集中,取90%為訓(xùn)練集,取10%為測(cè)試集。數(shù)據(jù)集處理完成后對(duì)漢老雙語(yǔ)語(yǔ)料的預(yù)處理如下:

        (1) 對(duì)語(yǔ)料進(jìn)行清洗,使用語(yǔ)言工具對(duì)漢語(yǔ)進(jìn)行分詞、詞性標(biāo)注處理,同時(shí)根據(jù)句法關(guān)系確定漢語(yǔ)句子中的賓語(yǔ)與定語(yǔ),使用老撾語(yǔ)語(yǔ)言工具對(duì)老撾語(yǔ)進(jìn)行分詞、詞性標(biāo)注處理,通過本文所示方法在雙語(yǔ)語(yǔ)料中添加特征標(biāo)簽。

        (2) 使用無監(jiān)督的方法將已經(jīng)訓(xùn)練好的漢老雙語(yǔ)詞向量映射到同一共享的語(yǔ)義空間中,使雙語(yǔ)詞嵌入產(chǎn)生聯(lián)系,使詞向量的表示更為精確。

        (3) 將句長(zhǎng)默認(rèn)值設(shè)置為30,句子中超出部分進(jìn)行截?cái)?少于30的部分進(jìn)行補(bǔ)0操作。

        4.2 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)使用Python作為實(shí)驗(yàn)語(yǔ)言,使用Keras框架。詞向量嵌入維度設(shè)置為300,最大句子長(zhǎng)度設(shè)置為30,Batch size設(shè)置為128,學(xué)習(xí)率設(shè)置為0.001,Dropout率設(shè)置為0.2;在卷積神經(jīng)網(wǎng)絡(luò)中,卷積核大小設(shè)置為1,2,3,步長(zhǎng)設(shè)置為1;在雙向門控循環(huán)單元中,隱藏神經(jīng)元個(gè)數(shù)為50,實(shí)驗(yàn)采用Adam優(yōu)化算法[22]作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法。本文按照傳統(tǒng)評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)判,通過精確度(Precision,P)、召回率(Recall,R)和F1值(F1-Score,F1)來作為指標(biāo)衡量漢老雙語(yǔ)句子相似度模型的性能,其中F1值為最關(guān)鍵的評(píng)測(cè)指標(biāo)。將0.5設(shè)置為評(píng)測(cè)基線,當(dāng)雙語(yǔ)句子相似度分?jǐn)?shù)大于0.5時(shí)判定為相似句子對(duì),反之則為不相似句子對(duì)。

        4.3 實(shí)驗(yàn)結(jié)果與分析

        本文使用添加特征標(biāo)簽的方法,將漢老雙語(yǔ)詞語(yǔ)映射到共享的向量空間,通過CNN與BiGRU進(jìn)行編碼,使用局部推理的交互聚合結(jié)構(gòu),最后連入全連接層計(jì)算相似度分?jǐn)?shù)。為驗(yàn)證本文所示實(shí)驗(yàn)的有效性,本文設(shè)置了三組對(duì)比實(shí)驗(yàn),分別為使用不同模型的對(duì)比實(shí)驗(yàn)、添加不同特征對(duì)相似度計(jì)算性能提升的對(duì)比實(shí)驗(yàn)和不同卷積核大小對(duì)實(shí)驗(yàn)影響的對(duì)比實(shí)驗(yàn)。

        4.3.1 對(duì)比模型

        (2) BiGRU,使用雙向門控循環(huán)單元提取漢老雙語(yǔ)句子全局信息。

        (3) CNN+BiGRU,在上述模型的基礎(chǔ)上添加卷積神經(jīng)網(wǎng)絡(luò),使模型能夠提取句子的局部特征。

        (4) CNN+BiGRU+Attention,加入注意力機(jī)制,篩選出關(guān)鍵信息,通過賦予權(quán)重篩選出關(guān)鍵信息。

        (5) CNN+BiGRU+Self-attention,使用自注意力機(jī)制,它是注意力機(jī)制的變體,用于篩選重要信息。

        (6) CNN+BiGRU+局部推理交互聚合結(jié)構(gòu),加入局部推理的交互聚合結(jié)構(gòu),使?jié)h老雙語(yǔ)信息進(jìn)行交互。

        (7) CNN+BiGRU+局部推理交互聚合結(jié)構(gòu)+Features,加入本文所示特征,添加特征標(biāo)簽。

        模型(1)到模型(3)主要將編碼網(wǎng)絡(luò)拆解,依次進(jìn)行對(duì)比,模型(4)和模型(5)主要對(duì)比不同注意力對(duì)提取重要信息的影響,模型(6)主要加入局部推理的交互聚合結(jié)構(gòu)對(duì)比傳統(tǒng)雙塔結(jié)構(gòu)對(duì)實(shí)驗(yàn)產(chǎn)生的影響,模型(7)加入了本文所示的特征,比較特征對(duì)實(shí)驗(yàn)的影響效果,不同模型對(duì)比結(jié)果如表3所示。

        表3 不同模型對(duì)比結(jié)果 (單位: %)

        由表3可知,模型(1)的F1值最低,是因?yàn)槠渲荒芴崛【渥泳植刻卣?模型(2)的F1值比模型(1)提升了1.31%,是因?yàn)锽iGRU內(nèi)的門控結(jié)構(gòu)能夠提取句子的重要特征,且雙向結(jié)構(gòu)使提取全局信息的效果更好;模型(3)證明了兩個(gè)網(wǎng)絡(luò)的拼接能夠起到互補(bǔ)作用;模型(4)和模型(5)加入了注意力機(jī)制,使F1值進(jìn)一步提升,自注意力機(jī)制因?yàn)闇p少了外部信息的依賴,捕捉數(shù)據(jù)內(nèi)部相關(guān)性的能力更強(qiáng);模型(6)加入了局部推理的交互注意力,在模型(3)的基礎(chǔ)上使?jié)h老雙語(yǔ)句子信息進(jìn)行交互,增強(qiáng)了句子間的關(guān)聯(lián)性,使F1值提升了1.39%;模型(7)為本文模型,在模型(6)上融入漢老雙語(yǔ)的特征,使雙語(yǔ)語(yǔ)義信息進(jìn)一步豐滿,實(shí)驗(yàn)效果比模型(6)有了一定的提升,F1值達(dá)到了77.67%。

        4.3.2 特征融入有效性的實(shí)驗(yàn)

        由上述對(duì)比模型實(shí)驗(yàn)的模型(6)和模型(7)的對(duì)比可知,通過融入特征,能夠有效提高模型的相似度計(jì)算性能。以上述模型(6)為基準(zhǔn)模型,通過分別添加不同特征來驗(yàn)證特征的有效性,添加PAST即過去時(shí)特征,PRESENT即現(xiàn)在時(shí)特征,FUTURE即將來時(shí)特征,再添加融合三個(gè)時(shí)態(tài)的特征,然后在基準(zhǔn)模型上添加定語(yǔ)位置特征,最后添加融入的所有特征,具體實(shí)驗(yàn)結(jié)果如表4所示。

        表4 不同特征對(duì)實(shí)驗(yàn)的影響 (單位: %)

        將模型(2)到模型(7)與基準(zhǔn)模型對(duì)比,發(fā)現(xiàn)添加特征對(duì)模型相似度計(jì)算性能有一定提升,模型(2)到模型(4)性能相似,是因?yàn)椴煌瑫r(shí)態(tài)的句子數(shù)量是相似的,沒有太大差別。模型(6)顯示加入定語(yǔ)位置特征后,F1值提升略大,提高了1.33%,是因?yàn)槎ㄕZ(yǔ)廣泛存在于不同句子之中。將不同特征相互融合來增強(qiáng)語(yǔ)義信息對(duì)模型性能的提升最大,F1值提升了1.4%。

        4.3.3 不同尺寸卷積核提取局部特征的有效性實(shí)驗(yàn)

        在編碼環(huán)節(jié)中的卷積神經(jīng)網(wǎng)絡(luò)中使用了三種不同大小的卷積核來提取句子的局部特征,大小分別設(shè)置為1,2,3,實(shí)驗(yàn)結(jié)果如表5所示。

        表5 不同卷積核對(duì)實(shí)驗(yàn)的影響 (單位: %)

        卷積核大小為1時(shí)F1值最低,是因?yàn)榫矸e網(wǎng)絡(luò)只能單獨(dú)提取雙語(yǔ)的特征,當(dāng)卷積核為2和3時(shí),卷積網(wǎng)絡(luò)能夠提取到漢老雙語(yǔ)中不同的句子結(jié)構(gòu)特征,將三個(gè)卷積核一起使用時(shí)能發(fā)揮出卷積網(wǎng)絡(luò)提取句子局部特征的最大性能。

        5 結(jié)論

        本文依據(jù)漢老雙語(yǔ)語(yǔ)言學(xué)的特點(diǎn),提出了一種融合漢語(yǔ)和老撾語(yǔ)的語(yǔ)法和結(jié)構(gòu)特征的雙語(yǔ)句子相似度計(jì)算方法。通過一種自學(xué)習(xí)的無監(jiān)督的方法,將漢老雙語(yǔ)詞向量映射到同一共享空間中,使雙語(yǔ)詞語(yǔ)產(chǎn)生關(guān)聯(lián),將特征融入雙語(yǔ)句子中,使用神經(jīng)網(wǎng)絡(luò)提取漢老雙語(yǔ)的特征,局部推理的交互聚合結(jié)構(gòu)使雙語(yǔ)信息進(jìn)行交互,進(jìn)一步提升了相似度計(jì)算模型的性能。實(shí)驗(yàn)表明,本文提出的方法在漢老相似度計(jì)算方法中有突出的表現(xiàn)。句子相似度計(jì)算是自然語(yǔ)言處理的核心任務(wù)之一,老撾語(yǔ)屬于低資源語(yǔ)言,下一步考慮將該方法融入平行語(yǔ)料庫(kù)的構(gòu)建、跨語(yǔ)言信息檢索等其他自然語(yǔ)言處理任務(wù)中。

        猜你喜歡
        特征信息方法
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产精品三级av一区二区| 国产成人av一区二区三区无码 | 丰满少妇在线观看网站| 国产精品一区二区暴白浆| 国产偷国产偷高清精品| 免费a级毛片无码a∨免费| 久久久精品国产亚洲av网不卡| 中文字幕久久精品一区二区| av影片在线免费观看| 婷婷综合另类小说色区| 日韩精品极品视频在线观看免费| 人人爽人人爱| 久久精品岛国av一区二区无码| 亚洲AV无码精品色午夜超碰| 亚洲每天色在线观看视频| h视频在线观看视频在线| 美女露出奶头扒开内裤的视频| 国产精品一区二区三久久不卡| 亚洲日韩中文字幕无码一区| 国产福利一区二区三区在线观看 | 人妻秘书被社长浓厚接吻| 国内精品亚洲成av人片| 日本成本人片视频免费| 精品亚洲一区二区三区在线观看| 日本55丰满熟妇厨房伦| 国产杨幂AV在线播放| 丝袜美腿亚洲综合一区| 精品人妻码一区二区三区剧情| 成人a级视频在线观看| 亚洲精品成AV无在线观看| 日韩精品一区二区三区四区五区六| 中文字幕在线乱码日本| 久久久久人妻精品一区二区三区| 东京道一本热中文字幕| 精品久久久久久久久久久aⅴ| 日本一区二区三区四区在线看| 男人的天堂一区二av| 欧美乱人伦人妻中文字幕| 国产精品va在线播放我和闺蜜| 精品午夜一区二区三区久久| 中文字幕一区二区三区四区久久|