亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)增強(qiáng)的藏文改寫檢測(cè)研究

        2019-12-30 02:36:18趙小兵包烏格德勒
        中文信息學(xué)報(bào) 2019年12期
        關(guān)鍵詞:藏漢度值藏文

        趙小兵, 鮑 薇, 董 建, 包烏格德勒

        (1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院,北京 100007;3. 呼和浩特民族學(xué)院 計(jì)算機(jī)系,內(nèi)蒙古 呼和浩特 010051)

        0 引言

        文本改寫檢測(cè)旨在判斷給定的句對(duì)是否表達(dá)相同的含義,該研究是剽竊檢測(cè)(plagiarism detection)的基礎(chǔ)任務(wù)。本文首先給文本改寫檢測(cè)任務(wù)進(jìn)行公式定義: 源句子(或片段)S1,目標(biāo)句子(或片段)S2,文本改寫檢測(cè)的任務(wù)是判斷S1和S2在語(yǔ)義上是否表達(dá)相同的意思,計(jì)算結(jié)果用sim(S1, S2)表示。最終判定的結(jié)果在文本剽竊檢測(cè)中對(duì)判斷句對(duì)是否存在抄襲嫌疑發(fā)揮重要作用。

        ACL從2012年起舉辦的SemEval評(píng)測(cè),以及PAN@CLEF從2009年開始舉辦的剽竊檢測(cè)評(píng)測(cè)都推動(dòng)了文本改寫檢測(cè)、文本語(yǔ)義相似度計(jì)算的研究。尤其是SemEval 2014[1]的英語(yǔ)文本相似度計(jì)算任務(wù)產(chǎn)生了一大批成功的系統(tǒng),其中的評(píng)測(cè)語(yǔ)料SICK沿用至今。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)方法在自然語(yǔ)言處理領(lǐng)域取得了巨大成功,逐漸代替了傳統(tǒng)的機(jī)器學(xué)習(xí)方法,成為主流研究方法。其中,基于神經(jīng)語(yǔ)言模型的詞向量方法是目前文本表示的重要方法,在機(jī)器翻譯、文本分類、問(wèn)答系統(tǒng)等應(yīng)用中都起著重要作用。

        文本改寫檢測(cè)研究在英文、中文等語(yǔ)料豐富的語(yǔ)言中的成果較多,而在低資源語(yǔ)言方面起步較晚,相關(guān)研究成果較少,且缺乏語(yǔ)料。本文擬對(duì)藏文文本改寫檢測(cè)進(jìn)行研究,并探索藏漢跨語(yǔ)言文本改寫檢測(cè)的研究。

        近幾年,基于字位的分詞策略在漢語(yǔ)、藏文信息處理中已取得顯著成效。音節(jié)是藏文中最小的、不可劃分的語(yǔ)素或單音節(jié)詞,如圖1所示,音節(jié)之間通過(guò)音節(jié)點(diǎn)(也叫音節(jié)分割符、隔字符)分隔開,每個(gè)藏文的音節(jié)相當(dāng)于漢文中的一個(gè)字。一個(gè)或多個(gè)音節(jié)組成一個(gè)藏文詞。

        圖1 藏文音節(jié)與藏文詞示例

        基于藏文音節(jié)的研究在藏文信息處理各個(gè)任務(wù)中也逐漸成為主流方法。珠杰等[2]基于藏文音節(jié)的特有結(jié)構(gòu)建立藏文音節(jié)規(guī)則庫(kù),可用于拼寫檢查校正、語(yǔ)音標(biāo)注等任務(wù)中。龍從軍等[3]在藏文詞性標(biāo)注研究中采用音節(jié)標(biāo)注的方法,緩解藏文分詞中未登錄詞切分不準(zhǔn)確、標(biāo)注不準(zhǔn)確等問(wèn)題,對(duì)藏文詞性標(biāo)注起到了積極作用。何向真等[4]把藏文分詞任務(wù)看作是判斷藏文音節(jié)在一個(gè)詞語(yǔ)中位置的過(guò)程,然后采用機(jī)器學(xué)習(xí)方法對(duì)藏文詞進(jìn)行標(biāo)注。于洪志等[5]在最大熵藏文詞性標(biāo)注模型中融入了藏文音節(jié)特征,對(duì)詞性標(biāo)注模型結(jié)果有顯著提升。賴文等[6]將藏文音節(jié)應(yīng)用到藏漢機(jī)器翻譯研究中,在Seq2Seq、RNNSearch、Fairseq、Transformer四種方法中均驗(yàn)證基于藏文音節(jié)切分的方法優(yōu)于藏文詞切分的方法。可見,藏文音節(jié)切分的方法在藏文信息處理的多個(gè)任務(wù)中都取得了較大成功。

        1 相關(guān)工作

        大部分的基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的文本相似度計(jì)算都使用特征工程(feature engineer)、外部資源相結(jié)合的方法。其中,常用的特征有基于句子內(nèi)部的(如句子組成成分、句法特征等),以及使用外部方法或工具抽取的特征(如詞語(yǔ)相似度、主題模型、神經(jīng)語(yǔ)言模型等)。常用的外部資源如WordNet、名實(shí)體詞典、本體庫(kù)等。將特征與外部資源組合后,使用一個(gè)或多個(gè)模型組合的方法,搭建句子語(yǔ)義相似度計(jì)算系統(tǒng)。

        最近,深度神經(jīng)網(wǎng)絡(luò)的各種方法也被廣泛應(yīng)用到文本相似度計(jì)算任務(wù)中。He等[7]提出多視角卷積神經(jīng)網(wǎng)絡(luò)的方法(multi-perspective convolutional neural networks,MPCNN)進(jìn)行句子相似度計(jì)算。該方法首先在卷積神經(jīng)網(wǎng)絡(luò)層對(duì)輸入的句對(duì)分別建模,在句子表示層提出兩種卷積核和三種池化方法,從多視角提取句子特征,然后傳輸?shù)骄渥酉嗨贫扔?jì)算層、全連接層,輸出相似度值或類別概率值。Kai等[8]針對(duì)傳統(tǒng)LSTM模型只能處理序列信息,無(wú)法處理樹狀結(jié)構(gòu)信息的缺點(diǎn),提出了TreeLSTM模型,分別針對(duì)樹狀多分支、子節(jié)點(diǎn)無(wú)序和多分支、子節(jié)點(diǎn)有序的樹提出Dependency Tree-LSTMs和Constituency Tree-LSTMs兩種模型,在英文的句子語(yǔ)義相關(guān)性測(cè)量任務(wù)中均取得較好結(jié)果。

        相對(duì)于單語(yǔ)言文本相似度計(jì)算任務(wù),跨語(yǔ)言文本相似度計(jì)算由于源語(yǔ)言、目標(biāo)語(yǔ)言在詞、語(yǔ)序等各方面均存在較大差異的原因而更具挑戰(zhàn)性。為了解決這些問(wèn)題,很多人將跨語(yǔ)言文本相似度計(jì)算任務(wù)通過(guò)機(jī)器翻譯方法,轉(zhuǎn)變成單語(yǔ)問(wèn)題,然后計(jì)算單語(yǔ)文本之間的相似度。該方法存在很多缺陷: (1) 本文的研究?jī)?nèi)容是跨語(yǔ)言文本剽竊檢測(cè)研究的子任務(wù),所以待檢測(cè)的文本內(nèi)容大多是領(lǐng)域相關(guān)的,而當(dāng)前的低資源語(yǔ)言機(jī)器翻譯系統(tǒng)還不足以生成高質(zhì)量的譯文,無(wú)法確保是否能覆蓋原文的意思;(2) 機(jī)器翻譯造成的譯文不準(zhǔn)確等問(wèn)題會(huì)形成累積誤差,并傳輸?shù)轿谋鞠嗨贫扔?jì)算任務(wù)中,影響系統(tǒng)性能?;谝陨蠁?wèn)題,本文提出一種有效解決方法,直接使用跨語(yǔ)言句對(duì)作為輸入來(lái)計(jì)算句子間的語(yǔ)義相似度。

        SemEval 2016的第一個(gè)評(píng)測(cè)子任務(wù)是英語(yǔ)—西班牙語(yǔ)跨語(yǔ)言文本相似度計(jì)算,評(píng)測(cè)給出了包含 2 973個(gè)訓(xùn)練句對(duì),以及兩個(gè)測(cè)試集,分別是301句對(duì)新聞?lì)I(lǐng)域語(yǔ)料、294句對(duì)多來(lái)源語(yǔ)料。參加評(píng)測(cè)的11個(gè)系統(tǒng)中,只有3個(gè)系統(tǒng)嘗試使用真正的跨語(yǔ)言方法[9]。CNRC首先抽取句子的詞法語(yǔ)義特征,結(jié)合句對(duì)的淺層語(yǔ)義結(jié)構(gòu),在英語(yǔ)—西班牙語(yǔ)任務(wù)上的皮爾遜相關(guān)系數(shù)為0.567。FBK使用機(jī)器翻譯中的質(zhì)量評(píng)估特征(quality estimation features)和雙語(yǔ)詞向量特征,結(jié)合回歸模型,在該任務(wù)上的皮爾遜相關(guān)系數(shù)為0.395 3。

        2 方法

        2.1 基于注意力機(jī)制的孿生LSTM網(wǎng)絡(luò)

        孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(siamese long-short term memory network)由Mueller等人提出[10],已成功應(yīng)用在英語(yǔ)文本語(yǔ)義相似度計(jì)算任務(wù)中[11]。孿生LSTM網(wǎng)絡(luò)由兩個(gè)平行的、共享權(quán)重的LSTM網(wǎng)絡(luò)構(gòu)成,模型的輸入為英文句對(duì)以及英文詞向量,Mueller等人在實(shí)驗(yàn)中計(jì)算句對(duì)相似度值時(shí)僅取句子在隱層中的最后一個(gè)狀態(tài)(對(duì)應(yīng)圖2中的h4(a)和h5(b)),而丟棄了句中的其他信息。因此,本文在隱層和輸出層之間加入注意力機(jī)制層,旨在充分利用每個(gè)句子的信息,該部分內(nèi)容可參考文獻(xiàn)[12]。

        基于注意力機(jī)制的孿生LSTM網(wǎng)絡(luò)框架圖如圖2所示,模型共包括5層。輸入層: 輸入待檢測(cè)的單語(yǔ)或雙語(yǔ)句對(duì);嵌入層: 將輸入的句子進(jìn)行向量表示;隱藏層: 挖掘句對(duì)的深層語(yǔ)義信息;注意力層: 生成句子的權(quán)重向量;輸出層: 輸出句對(duì)的相似度值。本文所提出的基于注意力機(jī)制的孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)不同于傳統(tǒng)的文本剽竊檢測(cè)方法,可以直接以待檢測(cè)句對(duì)和詞向量作為輸入,無(wú)需任何先驗(yàn)知識(shí)。

        圖2 基于注意力機(jī)制的孿生LSTM網(wǎng)絡(luò)框架

        2.2 詞(音節(jié)/字)向量

        本文基于FastText方法訓(xùn)練詞向量和音節(jié)/字向量,F(xiàn)astText是Facebook于2016年開源的高效訓(xùn)練詞向量的方法。表1中給出了實(shí)驗(yàn)中漢文、藏文訓(xùn)練語(yǔ)料的具體統(tǒng)計(jì)數(shù)據(jù)。

        表1 訓(xùn)練語(yǔ)料統(tǒng)計(jì)數(shù)據(jù)

        表1中的漢文、藏文詞向量為Facebook開源的預(yù)訓(xùn)練詞向量,因其未公開訓(xùn)練詞向量的語(yǔ)料,無(wú)法統(tǒng)計(jì)其訓(xùn)練語(yǔ)料的句子數(shù)量、詞語(yǔ)數(shù)量和音節(jié)數(shù)量,因此表中只列出了預(yù)訓(xùn)練詞向量的文件規(guī)模以及詞向量文件中的詞數(shù),以供參考。其中藏文的訓(xùn)練詞向量規(guī)模較小,僅有32.1MB,因此本文重新訓(xùn)練一個(gè)稍大規(guī)模的藏文詞向量。實(shí)驗(yàn)中所使用的詞向量均為300維。

        2.3 實(shí)驗(yàn)語(yǔ)料及基于數(shù)據(jù)增強(qiáng)的藏漢訓(xùn)練語(yǔ)料擴(kuò)充方法

        在低資源語(yǔ)言自然語(yǔ)言處理任務(wù)中,缺少語(yǔ)料資源,尤其跨語(yǔ)言資源是非常普遍的問(wèn)題,給研究帶來(lái)了巨大挑戰(zhàn)。在本文的藏文改寫檢測(cè)任務(wù)中,由于在訓(xùn)練過(guò)程中缺少藏文和藏漢跨語(yǔ)言語(yǔ)料,不可避免地會(huì)帶來(lái)數(shù)據(jù)稀疏問(wèn)題,訓(xùn)練的模型也不能充分地學(xué)習(xí)到深層語(yǔ)義特征,而數(shù)據(jù)增強(qiáng)(data augment)方法的提出可以有效利用現(xiàn)有的語(yǔ)料資料擴(kuò)充模型訓(xùn)練所需的語(yǔ)料,在一定程度上緩解數(shù)據(jù)稀疏問(wèn)題。該技術(shù)已被成功應(yīng)用在圖像處理任務(wù)、語(yǔ)言模型訓(xùn)練以及機(jī)器翻譯任務(wù)中[13-14]。Sennrich 首次提出在低資源語(yǔ)言機(jī)器翻譯任務(wù)中使用單語(yǔ)語(yǔ)料構(gòu)造偽平行句對(duì)[15],來(lái)擴(kuò)充訓(xùn)練語(yǔ)料的方法。蔡子龍等[16]對(duì)句子中最相似的兩塊內(nèi)容進(jìn)行位置的互換,形成新的句子,將訓(xùn)練語(yǔ)料規(guī)模擴(kuò)充了一倍。

        本文中使用的實(shí)驗(yàn)語(yǔ)料為SemEval 2014中的評(píng)測(cè)語(yǔ)料SICK,共10 000個(gè)句對(duì),每句帶有人工標(biāo)注的范圍為[0,5]句子相似度值標(biāo)簽,其中,0表示兩個(gè)句子的內(nèi)容無(wú)任何相似性,5表示兩個(gè)句子的內(nèi)容完全相同。本文將英文、漢文、藏文單語(yǔ)SICK語(yǔ)料分別記作SICK_en、SICK_cn、SICK_tib,將漢—藏跨語(yǔ)言SICK語(yǔ)料記作SICK_cn-tib。關(guān)于論文中實(shí)驗(yàn)語(yǔ)料的詳細(xì)介紹可參考文獻(xiàn)[12]。單語(yǔ)語(yǔ)料樣例如表2所示。第一組句子間的相似度值為4.7,第二組句子間的相似度值為1.2。

        表2 實(shí)驗(yàn)語(yǔ)料樣例

        續(xù)表

        本文提出基于數(shù)據(jù)增強(qiáng)的訓(xùn)練語(yǔ)料擴(kuò)充方法,即在已訓(xùn)練好的漢語(yǔ)孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型上,對(duì)藏漢平行語(yǔ)料中的漢語(yǔ)句子進(jìn)行相似度計(jì)算,并將計(jì)算所得的相似度值引申到相應(yīng)的藏漢句對(duì)中,生成具有相似度值標(biāo)簽的藏漢句對(duì)。此處,默認(rèn)藏漢平行句對(duì)中平行的句子語(yǔ)義完全相同,相似度值為5。

        本文首先使用SCIK_cn語(yǔ)料庫(kù)中的10 000個(gè)漢文句對(duì)訓(xùn)練漢文單語(yǔ)Siamese LSTM網(wǎng)絡(luò)模型,基于該模型對(duì)其他語(yǔ)料計(jì)算漢文句對(duì)的相似度值,從而獲得包含相似度值標(biāo)簽的偽句對(duì)。本文的目的是對(duì)跨語(yǔ)言實(shí)驗(yàn)中的訓(xùn)練語(yǔ)料規(guī)模進(jìn)行擴(kuò)充,即擴(kuò)充SICK_cn-tib語(yǔ)料庫(kù)中的帶相似度值標(biāo)簽的藏漢句對(duì)數(shù)量。CWMT評(píng)測(cè)中提供了14.6萬(wàn)的藏漢平行語(yǔ)料,其中的藏漢平行句對(duì)意義相同,本文將其相似度值標(biāo)為5,然后基于漢文單語(yǔ)Siamese LSTM網(wǎng)絡(luò)模型對(duì)藏漢平行句對(duì)中的漢語(yǔ)句子計(jì)算相似度值,并將相似度值擴(kuò)展至藏漢句對(duì)之間,生成的句對(duì)樣例如表3所示。

        cn和tib代表CWMT藏漢平行語(yǔ)料中的漢語(yǔ)句子和藏文句子。cn1、cn2是任意兩個(gè)漢語(yǔ)句子,因平行句對(duì)的句子意義是完全相同的,漢—漢句子的相似度值可推至藏—藏句子,然后推至藏漢句子,具體計(jì)算如式(1)~式(3)所示。

        表3 基于數(shù)據(jù)增強(qiáng)方法生成的藏漢句對(duì)樣例

        續(xù)表

        根據(jù)上述的構(gòu)造語(yǔ)料方法,本文共構(gòu)造了21萬(wàn)藏漢句對(duì)用于訓(xùn)練Siamese LSTM藏漢跨語(yǔ)言網(wǎng)絡(luò)模型。

        3 實(shí)驗(yàn)與分析

        3.1 藏文改寫檢測(cè)實(shí)驗(yàn)

        本文在進(jìn)行藏漢跨語(yǔ)言改寫檢測(cè)實(shí)驗(yàn)前,首先基于SICK_cn、SICK_tib漢文和藏文語(yǔ)料進(jìn)行了藏文改寫檢測(cè)實(shí)驗(yàn),旨在訓(xùn)練漢文和藏文改寫檢測(cè)模型,為數(shù)據(jù)增強(qiáng)擴(kuò)充訓(xùn)練語(yǔ)料方法提供生成語(yǔ)料的模型。

        為獲取最優(yōu)的漢文和藏文改寫檢測(cè)模型,本文對(duì)比了藏文音節(jié)向量和藏文詞向量在藏文改寫檢測(cè)任務(wù)中的實(shí)驗(yàn)結(jié)果,也對(duì)漢語(yǔ)的字向量和詞向量在漢語(yǔ)文本改寫檢測(cè)任務(wù)中的結(jié)果,如表4、表5所示。

        表4 基于藏文詞向量/音節(jié)向量的對(duì)比實(shí)驗(yàn)

        表5 基于漢文詞向量/字向量的對(duì)比實(shí)驗(yàn)

        可以看出,基于藏文音節(jié)向量的注意力機(jī)制的孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型的皮爾森相關(guān)系數(shù)可達(dá)到0.678,明顯高于藏文詞向量模型的結(jié)果。同樣,漢文字向量的實(shí)驗(yàn)結(jié)果也優(yōu)于漢文詞向量的實(shí)驗(yàn)結(jié)果。

        表6中列舉的藏文句對(duì)是基于藏文音節(jié)向量方法和基于藏文詞向量方法訓(xùn)練模型的輸出結(jié)果,表格中“標(biāo)注值”一列是指人工標(biāo)注的句對(duì)相似度值;“輸出值_音節(jié)”一列的結(jié)果是使用訓(xùn)練的藏文音節(jié)向量作為輸入時(shí)基于注意力機(jī)制的孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的輸出值;“輸出值_詞”一列的結(jié)果是使用藏文詞向量作為輸入時(shí)基于注意力機(jī)制的孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的輸出值。

        表6 藏文單語(yǔ)句對(duì)檢測(cè)結(jié)果樣例分析

        總體看來(lái),基于音節(jié)向量的模型的效果明顯優(yōu)于基于詞向量的模型的實(shí)驗(yàn)效果。進(jìn)一步驗(yàn)證了前文中藏文音節(jié)向量的實(shí)驗(yàn)結(jié)果優(yōu)于詞向量實(shí)驗(yàn)結(jié)果的結(jié)論,為藏文單語(yǔ)文本剽竊檢測(cè)研究打下了良好基礎(chǔ)。

        3.2 藏漢跨語(yǔ)言改寫檢測(cè)實(shí)驗(yàn)

        本文在藏漢跨語(yǔ)言改寫檢測(cè)實(shí)驗(yàn)中,以數(shù)據(jù)增強(qiáng)方法生成的21萬(wàn)藏漢句對(duì)作為訓(xùn)練語(yǔ)料,分析不同語(yǔ)料規(guī)模對(duì)藏漢跨語(yǔ)言改寫檢測(cè)實(shí)驗(yàn)的影響,實(shí)驗(yàn)結(jié)果如表7和圖3所示。

        表7 基于數(shù)據(jù)增強(qiáng)方法生成語(yǔ)料對(duì)實(shí)驗(yàn)的影響

        基線實(shí)驗(yàn)結(jié)果為使用Sick_tib的10 000藏文句對(duì)訓(xùn)練模型的結(jié)果,其皮爾遜相關(guān)系數(shù)為0.150 5,表明系統(tǒng)輸出的相似度值與人工標(biāo)注的相似度值僅僅達(dá)到弱相關(guān)程度,可信度極低;增加到14 994句對(duì)后,實(shí)驗(yàn)結(jié)果顯著提高,實(shí)驗(yàn)的皮爾森相關(guān)系數(shù)達(dá)到了0.229 1,當(dāng)增加到50 994句對(duì)時(shí),實(shí)驗(yàn)的皮爾森相關(guān)系數(shù)可達(dá)到0.406 2,較1萬(wàn)句對(duì)的基線實(shí)驗(yàn)結(jié)果提升了0.25,表明系統(tǒng)輸出的句對(duì)相似度值與人工標(biāo)注的相似度值已達(dá)到中等相關(guān)程度。

        圖3 基于注意力機(jī)制的孿生LSTM網(wǎng)絡(luò)框架

        當(dāng)訓(xùn)練語(yǔ)料累加到207 975句對(duì)時(shí),實(shí)驗(yàn)結(jié)果的皮爾森相關(guān)系數(shù)為0.547 6,系統(tǒng)輸出的結(jié)果與人工標(biāo)注的相似度值達(dá)到了中等相關(guān)程度,可見訓(xùn)練語(yǔ)料的增加對(duì)系統(tǒng)性能的提升比較明顯。當(dāng)訓(xùn)練語(yǔ)料增加到217 975句對(duì)時(shí),皮爾森相關(guān)系數(shù)開始下降,分析其原因是因?yàn)樯烧Z(yǔ)料是使用漢語(yǔ)單語(yǔ)基于注意力機(jī)制的孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)生成的,而漢語(yǔ)單語(yǔ)模型實(shí)驗(yàn)結(jié)果最高時(shí),皮爾森相關(guān)系數(shù)為0.678,雖然該結(jié)果表明系統(tǒng)輸出的句對(duì)相似度值與人工標(biāo)注的相似度值已達(dá)到強(qiáng)相關(guān),但是尚未達(dá)到極強(qiáng)相關(guān)。在生成語(yǔ)料的過(guò)程中會(huì)存在誤差,隨著訓(xùn)練語(yǔ)料的增多,誤差也逐漸累積,當(dāng)達(dá)到一定程度時(shí),對(duì)模型效果會(huì)產(chǎn)生負(fù)面影響。

        Marzieh Fadaee等人在英德神經(jīng)機(jī)器翻譯研究中基于單語(yǔ)語(yǔ)料,使用實(shí)驗(yàn)系統(tǒng)生成英德偽平行句對(duì),然后用生成的偽平行句對(duì)訓(xùn)練英德機(jī)器翻譯系統(tǒng)。在實(shí)驗(yàn)中分析了真實(shí)語(yǔ)料與生成語(yǔ)料在不同比例下的系統(tǒng)性能,發(fā)現(xiàn)真實(shí)語(yǔ)料與生成語(yǔ)料在1∶4的時(shí)候效果最優(yōu),在1∶10的時(shí)候系統(tǒng)性能開始下降,翻譯質(zhì)量與語(yǔ)料量并未呈線性增長(zhǎng)趨勢(shì)。作者分析原因,認(rèn)為生成的偽平行句對(duì)并無(wú)法像人工翻譯的句子一樣精確、流利,而神經(jīng)機(jī)器翻譯模型對(duì)于許多種噪聲的容錯(cuò)能力并不好,導(dǎo)致用生成語(yǔ)料作為訓(xùn)練語(yǔ)料時(shí),隨著訓(xùn)練語(yǔ)料的增加,生成語(yǔ)料中的誤差也逐漸遞增,在語(yǔ)料增加到一定階段時(shí),系統(tǒng)性能開始下降。本文所使用的生成訓(xùn)練語(yǔ)料的方法與Marzieh Fadaee等人的方法類似,在真實(shí)語(yǔ)料與生成語(yǔ)料比例達(dá)到1∶20時(shí),系統(tǒng)性能開始下降,與Marzieh Fadaee等人在英德神經(jīng)機(jī)器翻譯研究中的實(shí)驗(yàn)結(jié)果基本一致。

        此外,本文在增加訓(xùn)練語(yǔ)料實(shí)驗(yàn)的過(guò)程中抽取部分句對(duì)樣例進(jìn)行對(duì)比分析。在此抽取了14 994,151 988, 207 975語(yǔ)料規(guī)模的3種實(shí)驗(yàn)的句對(duì)樣例進(jìn)行對(duì)比分析,因?yàn)檫@三個(gè)實(shí)驗(yàn)的皮爾遜相關(guān)系數(shù)具有明顯的區(qū)分度。輸出樣例如表8所示。

        表8 不同訓(xùn)練語(yǔ)料規(guī)模下跨語(yǔ)言實(shí)驗(yàn)句對(duì)樣例

        從表8中的句對(duì)可以看出,增加訓(xùn)練語(yǔ)料后,模型對(duì)句對(duì)相似度值的判定更接近人工標(biāo)注值,也進(jìn)一步證明了本文在藏漢跨語(yǔ)言文本剽竊檢測(cè)研究中針對(duì)缺少訓(xùn)練語(yǔ)料的問(wèn)題,提出的基于數(shù)據(jù)增強(qiáng)的訓(xùn)練語(yǔ)料擴(kuò)充方法的有效性。但該方法在擴(kuò)充訓(xùn)練語(yǔ)料的同時(shí)也在藏漢文本剽竊檢測(cè)模型中引入了噪聲,當(dāng)噪聲累積到一定程度時(shí),對(duì)系統(tǒng)性能造成了負(fù)面影響。

        4 結(jié)論

        本文提出基于數(shù)據(jù)增強(qiáng)的訓(xùn)練語(yǔ)料擴(kuò)充方法生成21萬(wàn)句對(duì)帶有相似度值標(biāo)簽的訓(xùn)練語(yǔ)料。實(shí)驗(yàn)結(jié)果表明,訓(xùn)練語(yǔ)料的增加對(duì)藏漢跨語(yǔ)言文本剽竊檢測(cè)模型性能的提升有明顯的作用,實(shí)驗(yàn)在訓(xùn)練語(yǔ)料為21萬(wàn)句對(duì)時(shí)實(shí)驗(yàn)的皮爾森相關(guān)系數(shù)為0.547 6,相比于未擴(kuò)充訓(xùn)練語(yǔ)料時(shí)的1萬(wàn)句對(duì)的實(shí)驗(yàn)結(jié)果有大幅度的提升。最終,藏漢跨語(yǔ)言文本剽竊檢測(cè)模型對(duì)藏漢文本的檢測(cè)結(jié)果與人工標(biāo)注的藏漢句對(duì)的相似度值可達(dá)到中等程度的相關(guān),證明了本文所提出方法的有效性。在藏文單語(yǔ)文本剽竊檢測(cè)研究任務(wù)中,針對(duì)藏文語(yǔ)料稀疏、分詞結(jié)果存在錯(cuò)誤等問(wèn)題,本文使用藏文音節(jié)向量的方法,緩解了藏文詞向量帶來(lái)的誤差,提高了藏文剽竊檢測(cè)模型的效果,基于藏文音節(jié)實(shí)驗(yàn)的皮爾森相關(guān)系數(shù)可達(dá)到0.678,表明基于注意力機(jī)制的孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型輸出的句對(duì)相似度值與人工標(biāo)注的句對(duì)相似度值達(dá)到強(qiáng)相關(guān)程度。

        猜你喜歡
        藏漢度值藏文
        探討公路項(xiàng)目路基連續(xù)壓實(shí)質(zhì)量檢測(cè)技術(shù)
        日常交際用語(yǔ)之藏漢對(duì)比分析
        客聯(lián)(2022年4期)2022-07-06 05:46:23
        藏漢孩子是一家
        黃河之聲(2022年4期)2022-06-21 06:54:52
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        無(wú)線傳輸中短碼長(zhǎng)噴泉碼的度分布優(yōu)化算法*
        微博網(wǎng)絡(luò)較大度值用戶特征分析
        科技傳播(2016年17期)2016-10-10 01:46:58
        現(xiàn)代語(yǔ)境下的藏文報(bào)刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        基于Android 平臺(tái)的藏漢雙語(yǔ)學(xué)習(xí)軟件的研究與實(shí)現(xiàn)
        西藏科技(2015年12期)2015-09-26 12:13:51
        丝袜美腿亚洲综合久久| 国产无遮挡裸体免费视频| 精品国产黑色丝袜高跟鞋| 免费无码又爽又刺激又高潮的视频| 国内国外日产一区二区| 国产精品亚洲第一区二区三区| 蜜桃久久精品成人无码av| japanese无码中文字幕| 欧美精品一本久久男人的天堂| 日韩av中文字幕波多野九色| 波多野结衣中文字幕一区二区三区| ā片在线观看免费观看| 国产精品偷伦视频免费手机播放| 区一区一日本高清视频在线观看| 四虎影视永久地址www成人| 911精品国产91久久久久| 亚洲人成网站在线播放小说| 国产精品久久av色婷婷网站 | 丰满少妇一区二区三区专区 | 亚洲国产成人精品一区刚刚| 国产黄污网站在线观看| 人人妻人人澡人人爽精品欧美| 国产男女插插一级| 亚洲第一页在线观看视频网站| 国产成人av一区二区三区不卡| 欧美 变态 另类 人妖| 国产精品每日更新在线观看| 丝袜美腿亚洲综合一区| 国内少妇毛片视频| 亚洲人成网7777777国产| 亚洲性爱区免费视频一区| 午夜福利视频一区二区二区| 97久久超碰国产精品旧版| 亚洲成av人片天堂网九九| 欧美激情国产一区在线不卡| 亚洲av狠狠爱一区二区三区| 成 人 免 费 黄 色| 香色肉欲色综合| 久久国产亚洲av高清色| 一本色道久久hezyo无码| а√天堂资源8在线官网在线|