亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于融合句法特征的翻譯方法研究

        2021-08-20 10:28:58劉晶
        電子設(shè)計(jì)工程 2021年16期
        關(guān)鍵詞:句法特征方法

        劉晶

        (陜西鐵路工程職業(yè)技術(shù)學(xué)院,陜西渭南 714000)

        機(jī)器翻譯以高性能的計(jì)算機(jī)作為運(yùn)算核心來(lái)實(shí)現(xiàn)不同自然語(yǔ)言之間的轉(zhuǎn)換,在人工智能與機(jī)器學(xué)習(xí)領(lǐng)域中占據(jù)了較大的比重[1]。目前較為常見(jiàn)的機(jī)器翻譯應(yīng)用場(chǎng)景為一些互聯(lián)網(wǎng)公司(百度、谷歌、有道等)提供的在線翻譯服務(wù),這些服務(wù)均可實(shí)現(xiàn)多種語(yǔ)言間的相互粗糙翻譯。雖然這些翻譯結(jié)果與翻譯從業(yè)人員的翻譯結(jié)果相比仍有差距,但在翻譯質(zhì)量要求較低的場(chǎng)景下,仍有較為廣泛的使用價(jià)值。

        到目前為止,機(jī)器翻譯技術(shù)已經(jīng)發(fā)展了幾十年。雖然不斷推出了各種算法模型,但機(jī)器翻譯準(zhǔn)確程度仍較低,無(wú)法替代專業(yè)譯員。其中,最突出的問(wèn)題為單詞較多、句型結(jié)構(gòu)復(fù)雜的長(zhǎng)句、從句翻譯效果較差[2]。在英語(yǔ)中,長(zhǎng)句的結(jié)構(gòu)成分較為復(fù)雜,除了主要的句子結(jié)構(gòu)外還有各種修飾詞、連接詞等。此外,長(zhǎng)句還可能會(huì)包含有一個(gè)以上的從句。從句之間的關(guān)系也有嵌套、并列及平行等組成方式,所以句法分析是長(zhǎng)句翻譯的必要前提[3]。因此,對(duì)長(zhǎng)句和難句進(jìn)行句法分析預(yù)處理是提高長(zhǎng)句翻譯質(zhì)量的有效解決方式之一。

        文中針對(duì)英漢機(jī)器翻譯的長(zhǎng)句翻譯質(zhì)量較差的問(wèn)題,對(duì)長(zhǎng)句進(jìn)行算法訓(xùn)練與處理,將其分離成易翻譯的短句進(jìn)行組合翻譯,進(jìn)而提高機(jī)器翻譯的質(zhì)量。

        1 英漢句法翻譯方法

        基于句法分析的機(jī)器翻譯方法在機(jī)器語(yǔ)言翻譯領(lǐng)域占據(jù)著重要地位,句法分析主要是對(duì)整個(gè)句子序列的成分結(jié)構(gòu)進(jìn)行分析。而機(jī)器會(huì)與句法庫(kù)中的句式結(jié)構(gòu)進(jìn)行比較,進(jìn)而對(duì)長(zhǎng)句的句法進(jìn)行判斷后再進(jìn)行翻譯。機(jī)器翻譯的最終目標(biāo)是將源語(yǔ)言翻譯成為高質(zhì)量的譯文,雖然對(duì)句子進(jìn)行句法分析不是機(jī)器翻譯的最終目的,但是句法分析卻影響著機(jī)器翻譯的質(zhì)量。因此,句法特征分析也是諸多專家與學(xué)者極為關(guān)注的一項(xiàng)技術(shù),近幾年提出了眾多關(guān)于句法分析的理論方法[4-6]。

        目前,句法分析翻譯方法大體可以分為兩類:基于語(yǔ)言模板的翻譯方法與基于統(tǒng)計(jì)學(xué)的翻譯方法。

        基于語(yǔ)言模板的翻譯方法是最早關(guān)于語(yǔ)法翻譯的技術(shù)方法,語(yǔ)言模板是指句子的表面特征,比如:根據(jù)句子的單詞數(shù)量、句子標(biāo)點(diǎn)的位置、句子所擁有的特征詞匯等進(jìn)行模板匹配,并在語(yǔ)料庫(kù)中進(jìn)行準(zhǔn)確度匹配進(jìn)而實(shí)現(xiàn)句子的翻譯?;谡Z(yǔ)言模板翻譯方法的優(yōu)點(diǎn)是在句子模板特征較強(qiáng)時(shí)翻譯最為準(zhǔn)確,其不足之處是句子模板特征較弱時(shí)翻譯不準(zhǔn)確甚至無(wú)法進(jìn)行翻譯。

        為了對(duì)基于語(yǔ)言模板的翻譯方法進(jìn)行改進(jìn),各地學(xué)者均進(jìn)行了深入的研究[7-11],逐漸演變成為基于統(tǒng)計(jì)學(xué)的翻譯方法。該方法可以使用機(jī)器學(xué)習(xí)的方法,對(duì)句子的弱特征進(jìn)行大量的數(shù)據(jù)挖掘與特征學(xué)習(xí),例如對(duì)長(zhǎng)句的連詞特征、句式特征及標(biāo)點(diǎn)使用特征進(jìn)行學(xué)習(xí),這可以彌補(bǔ)模板匹配翻譯方法中對(duì)句子特征匹配不全的缺陷。但基于統(tǒng)計(jì)學(xué)的方法也有自身的局限性,例如雖然在長(zhǎng)句中可以通過(guò)挖掘句中逗號(hào)、連詞、特殊句式之間的聯(lián)系等處理方法解決基于規(guī)則方法的語(yǔ)言現(xiàn)象覆蓋度不足的問(wèn)題。但若句子本身標(biāo)點(diǎn)符號(hào)或連接詞數(shù)量較少,則基于統(tǒng)計(jì)學(xué)翻譯方法的準(zhǔn)確率也會(huì)下降。

        因此,文中結(jié)合基于語(yǔ)言模板的翻譯方法與基于統(tǒng)計(jì)學(xué)的翻譯方法,提出了融合句法特征的機(jī)器翻譯方法。

        2 基于融合句法特征的翻譯方法

        2.1 句法特征模型建立

        句法特征方法也稱為依存句法分析或從屬關(guān)系文法,其關(guān)注的對(duì)象是長(zhǎng)句中各個(gè)單詞之間的聯(lián)系。在英文語(yǔ)法中,句子成分關(guān)系常見(jiàn)的有主謂關(guān)系、動(dòng)賓關(guān)系、并列關(guān)系等。而在一個(gè)句子中,動(dòng)詞一般被看作是句子中的核心詞,該句中的其他詞與核心詞均有直接或間接的關(guān)系[12]。

        而對(duì)一個(gè)句子進(jìn)行句法特征分析,分析過(guò)程通常使用一個(gè)有向圖進(jìn)行表示,如圖1 所示。句子中的單詞為一個(gè)個(gè)單獨(dú)的節(jié)點(diǎn),核心詞與依存詞的句法關(guān)系使用有向的箭頭進(jìn)行標(biāo)示,在箭頭的上方對(duì)其關(guān)系進(jìn)行說(shuō)明。

        圖1 句法特征有向圖模型

        而在文中所提出的句法特征模型中,其是按照單元進(jìn)行存儲(chǔ),下面將建立句法特征單元模型。該模型直接將單詞之間的句法關(guān)系存儲(chǔ)到相應(yīng)的句法單元中,單元構(gòu)建規(guī)則如下:

        式(1)中,Mi表示句子中第i個(gè)單詞的存儲(chǔ)句法單元,MPxi、MCxi、MBxi表示句子中第i個(gè)父節(jié)點(diǎn)單詞、子節(jié)點(diǎn)單詞及相鄰節(jié)點(diǎn)單詞的位置。

        雖然句法特征模型可以對(duì)句子成分進(jìn)行判斷,構(gòu)建的翻譯模型也可達(dá)到較優(yōu)的正確率。但由于模型本身的局限性,該模型不能夠較優(yōu)地學(xué)習(xí)句子的弱特征。因此仍需要在句法特征的基礎(chǔ)上加入統(tǒng)計(jì)學(xué)的模型,以強(qiáng)化長(zhǎng)句中各個(gè)單詞的詞義聯(lián)系,從而進(jìn)一步生成正確的結(jié)果。

        2.2 基于條件隨機(jī)場(chǎng)的統(tǒng)計(jì)學(xué)模型

        在對(duì)長(zhǎng)句進(jìn)行切割的過(guò)程中,并不是任意長(zhǎng)句均可被切分成為適當(dāng)?shù)亩叹?。只有?dāng)切分出來(lái)的句子擁有獨(dú)立的句法特征結(jié)構(gòu),才會(huì)認(rèn)為對(duì)長(zhǎng)句的切分是有意義的。因此,文中引入了條件隨機(jī)場(chǎng)模型對(duì)長(zhǎng)句中的詞匯與逗號(hào)進(jìn)行有意義的切分。在條件隨機(jī)場(chǎng)的模型中,所有語(yǔ)料應(yīng)適當(dāng)?shù)谋黄溆?xùn)練,進(jìn)而判斷語(yǔ)料集中的句子分割是否具有合理性。

        條件隨機(jī)場(chǎng)的從屬分類為無(wú)向圖模型,該模型具有最大熵與隱性馬爾科夫鏈的特征,該統(tǒng)計(jì)學(xué)模型在自然語(yǔ)言處理領(lǐng)域中的應(yīng)用較為廣泛。其可將條件隨機(jī)場(chǎng)定義為一個(gè)條件概率事件,用X代表觀測(cè)序列集條件,用Y代表標(biāo)記序列集條件,則條件隨機(jī)場(chǎng)模型可以用條件概率P(Y|X)表示。下面根據(jù)統(tǒng)計(jì)數(shù)學(xué)模型對(duì)條件隨機(jī)場(chǎng)進(jìn)行定義[13-14]。

        條件隨機(jī)場(chǎng)的數(shù)學(xué)定義為:假設(shè)某無(wú)向圖為T(V,E),其中V為各項(xiàng)頂點(diǎn)的集合,E為各邊的集合。假設(shè)Y={Yv|v∈V},即頂點(diǎn)集合中的每一項(xiàng)單獨(dú)元素均會(huì)有一變量Yv。設(shè)X為可滿足Yv的條件,則變量Yv可以滿足下式:

        其中,u、v表示包含在圖T中的兩個(gè)頂點(diǎn),則(X,Y)為一個(gè)條件隨機(jī)場(chǎng)。該隨機(jī)場(chǎng)的示意圖如圖2所示。

        圖2 隨機(jī)場(chǎng)的示意圖

        而目前條件隨機(jī)場(chǎng)模型的實(shí)現(xiàn)工具有多種,文中使用CRF 工具實(shí)現(xiàn)句子的標(biāo)注及切分。

        2.3 融合模型建立

        由上文可知,基于句法特征的模型無(wú)法對(duì)句子的弱特征進(jìn)行學(xué)習(xí)。因此,文中結(jié)合基于語(yǔ)言模板的翻譯方法與基于統(tǒng)計(jì)學(xué)的翻譯方法,建立基于融合句法特征的翻譯模型。該模型可強(qiáng)化長(zhǎng)句中各個(gè)單詞的詞義聯(lián)系,進(jìn)一步提升長(zhǎng)句切割后的翻譯質(zhì)量。兩種簡(jiǎn)單模型的結(jié)合方式使用并列執(zhí)行的方式,即基于句法特征對(duì)句子進(jìn)行分析;基于條件隨機(jī)場(chǎng)對(duì)句子進(jìn)行分析,進(jìn)而得到兩種長(zhǎng)句切分方式。然后對(duì)這兩種方式進(jìn)行融合,融合方法包括合并、去重等。最終,在翻譯引擎中進(jìn)行翻譯。模型的處理流程圖如圖3 所示。

        圖3 融合模型執(zhí)行過(guò)程

        圖3 中,在使用融合句法特征模型進(jìn)行句子切分前,首先要對(duì)條件隨機(jī)場(chǎng)模型進(jìn)行訓(xùn)練。模型訓(xùn)練過(guò)程如下:

        1)選取語(yǔ)料集合并進(jìn)行預(yù)處理,對(duì)語(yǔ)料中的句子進(jìn)行前處理,包括重復(fù)句子的去除、句子特殊符號(hào)的去除等;

        2)對(duì)語(yǔ)料集合中的句子進(jìn)行特征提取,此時(shí)使用句法特征濾波器對(duì)句子進(jìn)行成分分析與依存有向圖的建立,隨即完成對(duì)句子特征進(jìn)行提??;

        3)將句子特征輸入至條件隨機(jī)場(chǎng)模型中進(jìn)行訓(xùn)練即可。

        在模型訓(xùn)練完畢后,預(yù)處理模塊中條件隨機(jī)場(chǎng)的訓(xùn)練結(jié)果,會(huì)輸入至分割過(guò)程中的條件隨機(jī)場(chǎng)解碼器中進(jìn)行解碼。同時(shí)與使用句法特征處理的句子進(jìn)行比較處理,完成合并、去重等操作,最終將處理好的句子送入翻譯模型進(jìn)行翻譯。

        2.4 模型訓(xùn)練過(guò)程

        文中模型訓(xùn)練腳本語(yǔ)言使用Python 編寫,作為一種面向?qū)ο蟮木幊陶Z(yǔ)言,Python 以其簡(jiǎn)單、高效的特點(diǎn)被廣泛應(yīng)用于機(jī)器翻譯與腳本語(yǔ)言中。相對(duì)于Java 或C++等語(yǔ)言而言,Python 效率更高,可以與其他語(yǔ)言編寫的模塊相結(jié)合。同時(shí)擁有豐富的第三方功能庫(kù),能夠適應(yīng)于多種編程需求。訓(xùn)練腳本的代碼執(zhí)行過(guò)程,如圖4 所示。

        圖4 代碼執(zhí)行過(guò)程

        圖4中,第一行命令為依賴項(xiàng)的安裝,包括Python版本的設(shè)置、模型的路徑設(shè)置及訓(xùn)練模型的版本設(shè)置等。第二行命令為執(zhí)行Fenge.py 腳本,該腳本的輸入為語(yǔ)料集合,輸出為長(zhǎng)句切割后的準(zhǔn)確率與召回率,同時(shí)將切割完畢的句子輸出到下一條命令中。第3 條命令為執(zhí)行Test.py 腳本,該腳本執(zhí)行翻譯引擎,對(duì)句子進(jìn)行翻譯,同時(shí)使用典型的翻譯評(píng)價(jià)標(biāo)準(zhǔn)(BLEU 與NIST 分?jǐn)?shù))對(duì)句子的翻譯質(zhì)量進(jìn)行評(píng)估。

        文中訓(xùn)練腳本使用到的硬件設(shè)備列表,如表1所示。

        表1 模型訓(xùn)練環(huán)境

        3 實(shí)驗(yàn)仿真與結(jié)果分析

        3.1 模型預(yù)訓(xùn)練

        由上文可知,在檢驗(yàn)?zāi)P头g質(zhì)量前,首先要對(duì)條件隨機(jī)場(chǎng)模型進(jìn)行訓(xùn)練。在自然語(yǔ)言處理領(lǐng)域,國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)年會(huì)(ACL)是該領(lǐng)域的國(guó)際頂級(jí)會(huì)議,而每年ACL 會(huì)議在官方網(wǎng)站會(huì)發(fā)布用于機(jī)器翻譯的訓(xùn)練集。文中選擇ACL2019 發(fā)布的新聞?lì)愋烷L(zhǎng)句“News Crawl:articles from 2017”英語(yǔ)訓(xùn)練集作為訓(xùn)練語(yǔ)料集。為了更優(yōu)地訓(xùn)練條件隨機(jī)場(chǎng)模型,在語(yǔ)料集中仍要繼續(xù)進(jìn)行抽取。使用文中模型的目的是提高長(zhǎng)句翻譯質(zhì)量,因此語(yǔ)句抽取規(guī)則為單詞數(shù)量大于或等于15,每句逗號(hào)數(shù)量大于或等于1。則文中訓(xùn)練語(yǔ)料集,如表2 所示。

        表2 訓(xùn)練集信息

        3.2 模型訓(xùn)練結(jié)果

        文中實(shí)驗(yàn)需要解決如下兩個(gè)問(wèn)題:

        1)對(duì)長(zhǎng)句進(jìn)行切分處理后,使用模型還原切分前的長(zhǎng)句,以驗(yàn)證模型切分的準(zhǔn)確性;

        2)對(duì)長(zhǎng)句處理完成后,使用文中建立的模型訓(xùn)練,然后再對(duì)句子進(jìn)行翻譯,觀察長(zhǎng)句翻譯質(zhì)量是否有提高。

        因此,文中首先驗(yàn)證長(zhǎng)句,再進(jìn)行合理切分,最終從上文提及的語(yǔ)料集中抽取了3 000 個(gè)長(zhǎng)句進(jìn)行訓(xùn)練。實(shí)驗(yàn)步驟如下:

        1)使用句法分析工具對(duì)語(yǔ)料集中的長(zhǎng)句進(jìn)行句子特征提??;

        2)刪除長(zhǎng)句中的逗號(hào)后,使用文中模型對(duì)句子、逗號(hào)進(jìn)行重新添加,進(jìn)而對(duì)比插入位置的準(zhǔn)確率。表3 為切分合理性實(shí)驗(yàn)結(jié)果。

        表3 句子切分實(shí)驗(yàn)結(jié)果

        由表3 實(shí)驗(yàn)結(jié)果可以看出,使用條件隨機(jī)場(chǎng)方法與使用融合句法方法對(duì)句子進(jìn)行切分的準(zhǔn)確率是大致相同的。但融合句法特征方法的召回率更高,這充分證明了融合句法特征方法對(duì)句子切分的合理性。

        下面進(jìn)行翻譯準(zhǔn)確度實(shí)驗(yàn),對(duì)長(zhǎng)句處理后,使用文中建立的模型訓(xùn)練,再對(duì)句子進(jìn)行翻譯,觀察長(zhǎng)句翻譯質(zhì)量是否有提高。實(shí)驗(yàn)使用Moses 作為翻譯引擎[15],Moses 翻譯引擎在使用前基于100 萬(wàn)個(gè)英語(yǔ)平行語(yǔ)料進(jìn)行訓(xùn)練。翻譯質(zhì)量使用BLEU 與NIST[16]譯文評(píng)價(jià)指標(biāo)進(jìn)行打分。BLEU 標(biāo)準(zhǔn)是用來(lái)評(píng)價(jià)機(jī)器翻譯結(jié)果與人工翻譯結(jié)果的相近程度,該標(biāo)準(zhǔn)使用便捷,比較接近人類的評(píng)分;NIST 標(biāo)準(zhǔn)是美國(guó)國(guó)標(biāo)局建立的機(jī)器翻譯自動(dòng)評(píng)價(jià)體系。BLEU 與NIST 譯文評(píng)價(jià)標(biāo)準(zhǔn)現(xiàn)已成為國(guó)際通用譯文評(píng)價(jià)系統(tǒng),因此文中使用BLEU 與NIST 對(duì)模型翻譯質(zhì)量進(jìn)行評(píng)估。實(shí)驗(yàn)測(cè)試結(jié)果如表4 所示。

        表4 翻譯準(zhǔn)確度試驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果表明,文中提出的融合句法特征的翻譯方法對(duì)翻譯質(zhì)量有大幅度的提升,BLEU 分?jǐn)?shù)較單一地使用基于句法特征的模型與基于條件隨機(jī)場(chǎng)模型更高,同時(shí)NIST 分?jǐn)?shù)也有所提高。因此,文中提出基于融合句法特征的翻譯方法對(duì)長(zhǎng)句翻譯質(zhì)量有一定程度的提升。

        4 結(jié)束語(yǔ)

        文中針對(duì)英漢機(jī)器翻譯的長(zhǎng)句翻譯質(zhì)量較差的問(wèn)題,提出了融合句法特征的機(jī)器翻譯方法。對(duì)長(zhǎng)句進(jìn)行算法訓(xùn)練與處理,將其分離為易翻譯的短句進(jìn)行組合翻譯。在實(shí)驗(yàn)測(cè)試中,對(duì)經(jīng)過(guò)模型訓(xùn)練的句子進(jìn)行翻譯。實(shí)驗(yàn)結(jié)果表明,句子的BLEU 與NIST 值均有不同程度的提高,因此文中提出的模型對(duì)機(jī)器翻譯的翻譯質(zhì)量有一定程度的提升。

        猜你喜歡
        句法特征方法
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        抓住特征巧觀察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        人妻被公上司喝醉在线中文字幕| 国产精品半夜| 亚洲地区一区二区三区| 成年女人18毛片观看| 国产av在线观看久久| 超清纯白嫩大学生无码网站| 亚洲天堂资源网| 日日噜噜夜夜久久密挑| 一本色道久久婷婷日韩| 亚洲精品一区二区| 免费看一级a女人自慰免费| 亚洲天堂一二三四区在线| 人妻夜夜爽天天爽三区丁香花| 在线精品国产一区二区三区| 免费高清日本中文| 国产亚洲一区二区毛片| 蜜臀av在线观看| 国产精品成人一区二区三区| 国产码欧美日韩高清综合一区 | 亚洲综合中文日韩字幕| 亚洲av成人无码一区二区三区在线观看 | 中文字幕一区二区三区乱码人妻| 亚洲av无码片vr一区二区三区| 中文在线а√天堂官网| 国产激情视频免费观看| 久久精品av在线观看| 人人爽人人爽人人爽人人片av | 18禁高潮出水呻吟娇喘蜜芽 | 国产亚洲日韩欧美久久一区二区| 男男互吃大丁视频网站| 国产日本精品视频一区二区| 曰批免费视频播放免费直播 | 日日噜噜夜夜狠狠视频| www国产亚洲精品久久网站| 高潮社区51视频在线观看| 水蜜桃在线精品视频网| 久久成人国产精品| 亚洲AV肉丝网站一区二区无码| 美女丝袜诱惑在线播放蜜桃| 国产伦人人人人人人性| 久久综合色鬼|