亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于實(shí)例相似度檢測(cè)的算法分析及應(yīng)用

        2022-09-24 10:19:06胡晴云
        關(guān)鍵詞:語(yǔ)料實(shí)例語(yǔ)料庫(kù)

        胡晴云

        (甘肅警察職業(yè)學(xué)院 網(wǎng)安教研部,甘肅 蘭州 730000)

        0 引言

        對(duì)于自然語(yǔ)言處理過(guò)程來(lái)說(shuō),其關(guān)鍵性內(nèi)容為計(jì)算詞語(yǔ)相似度,在機(jī)器翻譯等方面有重要的應(yīng)用價(jià)值[1].詞語(yǔ)相似度在不同應(yīng)用中用途有所差異,就實(shí)例機(jī)器翻譯過(guò)程來(lái)說(shuō),詞語(yǔ)相似度能夠表現(xiàn)出文本中兩個(gè)詞語(yǔ)的可替換程度,詞語(yǔ)相似度在信息檢索中能夠?qū)⑿畔z索召回率和準(zhǔn)確率提高.在構(gòu)造統(tǒng)計(jì)語(yǔ)言模型的過(guò)程中,由于數(shù)據(jù)稀疏等問(wèn)題導(dǎo)致未登錄詞語(yǔ)統(tǒng)計(jì)信息的計(jì)算過(guò)程遭到阻礙,本文結(jié)合詞語(yǔ)相似度綜合計(jì)算詞語(yǔ)類聚,最終優(yōu)化統(tǒng)計(jì)語(yǔ)言模型,克服其中數(shù)據(jù)稀疏等問(wèn)題,提高語(yǔ)言模型的表現(xiàn)力.

        隨著現(xiàn)代交往進(jìn)程的不斷加深,當(dāng)前社會(huì)各界將研究重點(diǎn)著眼于翻譯系統(tǒng),從而生成多元化的在線翻譯系統(tǒng).當(dāng)前,開(kāi)發(fā)者思考的重點(diǎn)是提高在線翻譯質(zhì)量和翻譯系統(tǒng)使用頻率[2].機(jī)器翻譯方法較多,主要分為基于實(shí)例、基于統(tǒng)計(jì)、基于規(guī)則3種.由于不同詞語(yǔ)的構(gòu)造存在差異,可以將模型分為不同類型,包括基于詞、基于短語(yǔ)、基于句法等.基于短語(yǔ)的翻譯是指以短語(yǔ)為基本單元的模型,這種翻譯方式簡(jiǎn)單且質(zhì)量高,運(yùn)行速度較快,因此成為當(dāng)前階段機(jī)器翻譯研究進(jìn)程中的重點(diǎn).然而,基于短語(yǔ)機(jī)器翻譯過(guò)程中,精確匹配是短語(yǔ)構(gòu)造當(dāng)中最常使用的方法,這種方式會(huì)導(dǎo)致數(shù)據(jù)稀疏.所以,本文以實(shí)例相似度檢測(cè)為基礎(chǔ)展開(kāi)算法,并進(jìn)行相似度機(jī)器翻譯模型的構(gòu)建,分析其在機(jī)器翻譯中的應(yīng)用,并通過(guò)實(shí)際系統(tǒng)對(duì)其翻譯效果進(jìn)行驗(yàn)證.

        1 相關(guān)研究工作

        一般來(lái)講,可以使用兩種方法計(jì)算詞語(yǔ)語(yǔ)義的相似度:①基于語(yǔ)義知識(shí)的詞語(yǔ)相似度進(jìn)行計(jì)算;②基于統(tǒng)計(jì)的詞語(yǔ)語(yǔ)義相似度進(jìn)行計(jì)算[3],其中后者具有經(jīng)驗(yàn)主義的特征性,并以語(yǔ)言的可觀察性為基礎(chǔ)研究詞語(yǔ)的相似度,在研究過(guò)程中并不完全依靠語(yǔ)言學(xué)家的直覺(jué).以兩個(gè)相似的詞語(yǔ)語(yǔ)義為基礎(chǔ),在上下文環(huán)境中,基于相似度假設(shè),在大規(guī)模語(yǔ)料庫(kù)的基礎(chǔ)上,綜合上下文并參照詞語(yǔ)信息的相關(guān)內(nèi)容,計(jì)算語(yǔ)義相似度.沈潔等[4]針對(duì)中文短語(yǔ)相似度計(jì)算,通過(guò)模式匹配算法,從原始半結(jié)構(gòu)化文本中進(jìn)行中文短語(yǔ)的抽取,并結(jié)合領(lǐng)域依存關(guān)系,對(duì)短語(yǔ)相似度計(jì)算方法進(jìn)行改進(jìn),從而提高短語(yǔ)相似度計(jì)算可靠性.張紹陽(yáng)等[5]基于數(shù)學(xué)中的干擾修正思想,根據(jù)詞素和語(yǔ)素對(duì)相似度值進(jìn)行計(jì)算,通過(guò)相同語(yǔ)素的個(gè)數(shù)修正相似度,從而綜合得出詞語(yǔ)相似度.費(fèi)洪曉等[6]通過(guò)引入樹(shù)狀語(yǔ)料庫(kù),對(duì)詞匯相似度進(jìn)行精確定義和計(jì)算,并改進(jìn)了基于抽取關(guān)鍵詞序列的中文短語(yǔ)相似度算法,在提高中文短語(yǔ)相似度計(jì)算準(zhǔn)確率方面,該方法效果良好,符合人的直觀感覺(jué).蘇依拉等[7]針對(duì)內(nèi)蒙古地區(qū)機(jī)器翻譯技術(shù)落后、力量薄弱等現(xiàn)狀,提出一種以實(shí)例為基礎(chǔ)的翻譯方法,通過(guò)不同粒度的對(duì)齊技術(shù),處理蒙漢雙語(yǔ)語(yǔ)料庫(kù),并采用相似度算法進(jìn)行匹配、重組,同時(shí)生成譯文,實(shí)驗(yàn)表明,該方法對(duì)特定領(lǐng)域的蒙古語(yǔ)的翻譯比較有效,能在一定程度上提高翻譯質(zhì)量.張睿[8]根據(jù)計(jì)算短語(yǔ)間的相似度方法,對(duì)傳統(tǒng)精確匹配方式進(jìn)行改變,使用模糊匹配策略,從短語(yǔ)表中查找相似度較高的實(shí)例短語(yǔ),進(jìn)行漢英翻譯句子構(gòu)造,結(jié)果表明翻譯質(zhì)量得到大幅提高.

        2 短語(yǔ)相似度翻譯模型構(gòu)建

        2.1 相似度計(jì)算

        在計(jì)算相似度的過(guò)程中,衡量方法較多,例如根據(jù)詞語(yǔ)的詞義、信息、結(jié)構(gòu)等信息進(jìn)行衡量[9].一般來(lái)說(shuō),如果兩個(gè)短語(yǔ)中的相同詞概率較高,此時(shí)他們的相似度就越高.因此,本研究在進(jìn)行相似度判定時(shí),引入iDce系數(shù),見(jiàn)公式(1)、(2).

        (1)

        其中,

        (2)

        2.2 新短語(yǔ)構(gòu)造

        根據(jù)以上步驟構(gòu)造的實(shí)例新短語(yǔ)如表1所列.

        表1 實(shí)例新短語(yǔ)構(gòu)造

        由表1可知,新短語(yǔ)對(duì)的構(gòu)造充分利用了實(shí)例短語(yǔ)對(duì)齊,保留了已匹配的詞語(yǔ)譯文,通過(guò)對(duì)齊信息實(shí)現(xiàn)單次調(diào)序的過(guò)程.通過(guò)部分替換和比較的方法,構(gòu)建未登錄短語(yǔ)高質(zhì)量譯文,克服數(shù)據(jù)系數(shù)造成的各種問(wèn)題.由于一個(gè)短語(yǔ)可以擁有多個(gè)與之相適應(yīng)的相似實(shí)例短語(yǔ),一個(gè)單詞也可以擁有多個(gè)與之相適應(yīng)的翻譯,所以對(duì)于一個(gè)短語(yǔ)應(yīng)進(jìn)行多個(gè)譯文的構(gòu)造.

        2.3 翻譯概率計(jì)算

        (3)

        3 英漢機(jī)器翻譯系統(tǒng)設(shè)計(jì)

        3.1 基于實(shí)例相似度檢測(cè)的機(jī)器翻譯

        基于實(shí)例的機(jī)器翻譯方法是對(duì)人工翻譯過(guò)程進(jìn)行模仿,根據(jù)預(yù)先設(shè)定規(guī)則,系統(tǒng)切分源語(yǔ)句子,采取有效性比較的方法比對(duì)實(shí)例庫(kù)中的單詞、短語(yǔ)片段,最終得到相似度較高的匹配短語(yǔ),對(duì)這些片段進(jìn)行整合,構(gòu)成相應(yīng)的目標(biāo)端語(yǔ)句,即目標(biāo)譯文.綜合上述,就是在線性結(jié)構(gòu)的基礎(chǔ)上排布實(shí)例機(jī)器翻譯方法,通過(guò)實(shí)例短語(yǔ)和切分短語(yǔ)進(jìn)行匹配計(jì)算,獲得相應(yīng)結(jié)果,找出雙語(yǔ)句子間各詞匯位置關(guān)系,整合計(jì)算獲取的信息,最終得到最高實(shí)例分?jǐn)?shù)的目標(biāo)語(yǔ)句.實(shí)例相似度檢測(cè)機(jī)器翻譯結(jié)構(gòu)如圖1所示.

        圖1 基于實(shí)例的機(jī)器翻譯

        3.2 運(yùn)行環(huán)境

        本研究的運(yùn)行環(huán)境選取Linux平臺(tái),結(jié)合Moses工具開(kāi)發(fā)英漢機(jī)器翻譯系統(tǒng).通過(guò)GIZA + +展開(kāi)詞語(yǔ)對(duì)齊訓(xùn)練,語(yǔ)言模型訓(xùn)練通過(guò)SRILM進(jìn)行,選取LDC發(fā)布的Gigaword語(yǔ)料庫(kù)作為訓(xùn)練語(yǔ)料,語(yǔ)料庫(kù)中包含單詞量為195 M.設(shè)定抽取短語(yǔ)長(zhǎng)度為7,選擇BLEU-4作為評(píng)價(jià)指標(biāo).

        3.3 整體架構(gòu)設(shè)計(jì)

        機(jī)器翻譯系統(tǒng)整體架構(gòu)如圖2所示.

        圖2 機(jī)器翻譯整體架構(gòu)

        系統(tǒng)包括漢/英文本的輸入、文本預(yù)處理的輸入、解碼器、文本后處理的輸出、英/漢語(yǔ)言文本、英/漢單語(yǔ)語(yǔ)料、語(yǔ)言模型訓(xùn)練、漢語(yǔ)語(yǔ)言模型、訓(xùn)練語(yǔ)料庫(kù)、語(yǔ)料預(yù)處理、詞語(yǔ)對(duì)齊、短語(yǔ)抽取與相似度計(jì)算、短語(yǔ)翻譯概率表等內(nèi)容.

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 小規(guī)模語(yǔ)料實(shí)驗(yàn)

        在小規(guī)模語(yǔ)料實(shí)驗(yàn)中,測(cè)試集為NIST2011,基線系統(tǒng)Moses的BLEU-4值為0.2 445,本研究系統(tǒng)Meneius的BLEU-4值為0.2 532,提高了3.56%,具體結(jié)果如圖3所示.

        圖3 小規(guī)模實(shí)驗(yàn)所用短語(yǔ)的BLEU-4值對(duì)比

        在訓(xùn)練中,從2.95萬(wàn)句對(duì)中抽取短語(yǔ)對(duì)約1 M.Moses的短語(yǔ)采用精確匹配方法進(jìn)行,用于翻譯測(cè)試集和開(kāi)發(fā)集的短語(yǔ)對(duì)占21%,數(shù)量為0.21 M,說(shuō)明精確匹配方法未能充分運(yùn)用短語(yǔ),存在較為嚴(yán)重的浪費(fèi)現(xiàn)象.對(duì)0.21 M短語(yǔ)進(jìn)行統(tǒng)計(jì),結(jié)果顯示,當(dāng)短語(yǔ)的長(zhǎng)度>3時(shí),其所占比例達(dá)到2.33%,即存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題.以短語(yǔ)相似度模型展開(kāi)模糊匹配,從而在短語(yǔ)對(duì)的基礎(chǔ)上提高比例,達(dá)到0.865 M,占總數(shù)的86.5%,這表明通過(guò)相似度模型,短語(yǔ)利用率可提高,從而使數(shù)據(jù)稀疏問(wèn)題得到緩解.小規(guī)模實(shí)驗(yàn)的NIST2011測(cè)試集短語(yǔ)分布情況如圖4所示.

        圖4 小規(guī)模實(shí)驗(yàn)的NIST2011測(cè)試集短語(yǔ)分布

        本研究以NIST2011測(cè)試集為基礎(chǔ),分別分析了系統(tǒng)運(yùn)行的兩個(gè)不同結(jié)果,短語(yǔ)分布統(tǒng)計(jì)情況如圖5所示.

        圖5 小規(guī)模實(shí)驗(yàn)所用短語(yǔ)的分布情況

        Moses中所使用的短語(yǔ)數(shù)量為24 603個(gè),而長(zhǎng)度>3的短語(yǔ)占了0.42%,長(zhǎng)度≤3的短語(yǔ)占了99.58%,這組數(shù)據(jù)說(shuō)明在對(duì)Moses進(jìn)行解碼時(shí),長(zhǎng)短語(yǔ)實(shí)際上很難通過(guò)精確匹配策略來(lái)實(shí)現(xiàn).Mecnins當(dāng)中所適用的短語(yǔ)數(shù)量為21 211,而長(zhǎng)度>3的短語(yǔ)占比為2.36%,長(zhǎng)度≤3的短語(yǔ)占了97.64%,相似實(shí)例短語(yǔ)構(gòu)造出來(lái)的短語(yǔ)在21 211個(gè)短語(yǔ)占14.27%,即模糊匹配.綜合上述內(nèi)容可以看出,以短語(yǔ)相似度模型為基礎(chǔ),可以緩解短語(yǔ)數(shù)據(jù)稀疏問(wèn)題造成的缺陷.

        4.2 大規(guī)模語(yǔ)料實(shí)驗(yàn)

        在大規(guī)模語(yǔ)料實(shí)驗(yàn)中,基于NIST2011測(cè)試集,基線系統(tǒng)Moses的BLEU-4值為0.3 047,本研究系統(tǒng)Meneius的BLEU-4值為0.3 098,提高了1.67%,具體見(jiàn)圖6.

        圖6 大規(guī)模實(shí)驗(yàn)所用短語(yǔ)的BLEU-4值對(duì)比

        通過(guò)將訓(xùn)練語(yǔ)料庫(kù)規(guī)模加大,在一定程度上可使數(shù)據(jù)稀疏問(wèn)題得到緩解,根據(jù)精確匹配策略,當(dāng)短語(yǔ)長(zhǎng)度較長(zhǎng)時(shí)仍很難匹配.大部分短語(yǔ)很難被利用.本研究從245萬(wàn)句對(duì)抽取短語(yǔ)對(duì)約109 M,用于翻譯測(cè)試集和開(kāi)發(fā)集的短語(yǔ)對(duì)占6.61%,數(shù)量為7.2 M.在短語(yǔ)相似度模型中,可用短語(yǔ)的比例占51.5%,數(shù)量為56.1 M.這說(shuō)明通過(guò)相似度模型,短語(yǔ)利用率可得到極大提高.在模糊匹配策略的基礎(chǔ)上,對(duì)較長(zhǎng)的短語(yǔ)進(jìn)行匹配,可以得到更優(yōu)質(zhì)的譯文.使用Moses和Meneius進(jìn)行翻譯時(shí)所得到的效果差異結(jié)果如表2所列.

        表2 Moses和Meneius翻譯對(duì)比

        在表2中,短語(yǔ)劃分用“-”表示,由表2知,在測(cè)試語(yǔ)料中,“經(jīng)濟(jì)產(chǎn)出的長(zhǎng)期趨勢(shì)”短語(yǔ)未出現(xiàn),Moses將其進(jìn)行了拆分,形成“經(jīng)濟(jì)的”“產(chǎn)出”“趨勢(shì)”“長(zhǎng)期”4個(gè)短短語(yǔ),并通過(guò)調(diào)序模型做相應(yīng)的調(diào)序,如果調(diào)序不正確,就會(huì)導(dǎo)致譯文發(fā)生錯(cuò)誤.本研究借助相似度模型模糊匹配的方法,在語(yǔ)料庫(kù)中可將實(shí)例短語(yǔ)“經(jīng)濟(jì)發(fā)展的必然趨勢(shì),the inevitable trend of economic development”找到,因此,可構(gòu)造翻譯出“經(jīng)濟(jì)產(chǎn)出的長(zhǎng)期趨勢(shì)”,獲得“the long-term trend of economic output”的正確譯文.這說(shuō)明采用模糊匹配策略,相似度模型可進(jìn)行翻譯得到長(zhǎng)短語(yǔ)構(gòu)造,從而減輕短語(yǔ)調(diào)序模型的負(fù)擔(dān),提高譯文質(zhì)量.

        5 結(jié)論

        本文提出基于實(shí)例相似度檢測(cè)的算法,并進(jìn)行相似度機(jī)器翻譯模型的構(gòu)建,分析其在機(jī)器翻譯中的應(yīng)用,通過(guò)實(shí)際系統(tǒng)對(duì)其翻譯效果進(jìn)行驗(yàn)證,實(shí)驗(yàn)表明,與傳統(tǒng)的Moses短語(yǔ)系統(tǒng)相比,本研究提出的Meneius機(jī)器翻譯模型,翻譯質(zhì)量得到明顯提高.在今后的研究中,可進(jìn)一步對(duì)英文詞訓(xùn)練語(yǔ)料進(jìn)行擴(kuò)展,并進(jìn)行訓(xùn)練語(yǔ)料的詞形還原,對(duì)訓(xùn)練獲得的常用詞詞表進(jìn)行過(guò)濾,進(jìn)一步提高詞的計(jì)算效率.

        猜你喜歡
        語(yǔ)料實(shí)例語(yǔ)料庫(kù)
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
        完形填空Ⅱ
        完形填空Ⅰ
        語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
        高h纯肉无码视频在线观看| 在线亚洲国产一区二区三区| 东京热加勒比视频一区| 激情综合色五月丁香六月欧美 | 国产一区二区三区免费观看在线| 国产精品视频一区国模私拍| 精品久久久久久国产潘金莲| 亚洲av色av成人噜噜噜| 亚洲色中文字幕无码av| 日本夜爽爽一区二区三区| 亚洲精品天堂在线观看| 91精品啪在线观九色| 亚洲欧美乱日韩乱国产| 亚洲一二三区在线观看| 久久精品国产亚洲av热九| 免费亚洲老熟熟女熟女熟女 | 色老汉免费网站免费视频| 亚洲av福利天堂在线观看| 亚洲国产av一区二区三区天堂| 人妻夜夜爽天天爽三区| 国产另类综合区| 亚洲一区二区女优视频| 国产成人综合久久久久久| 中文字幕一区二区人妻| 精品一区二区三区在线视频观看| 日本韩国亚洲三级在线| 亚洲精品久久久久成人2007| 91av国产视频| 久久综合这里只有精品| 男人吃奶摸下挵进去啪啪软件| 成人做爰视频www| 91极品尤物国产在线播放| 日本美女在线一区二区| 亚洲一卡2卡3卡4卡5卡精品| 亚洲小说图区综合在线| 中文字幕丰满人妻被公强| 草色噜噜噜av在线观看香蕉| 国产亚洲精品第一综合麻豆| 无码视频一区=区| 国产一级一片内射视频播放| 亚洲乱码中文字幕综合|