亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機器翻譯技術(shù)的研究和發(fā)展

        2018-12-21 03:47:00王子航
        電子制作 2018年22期
        關(guān)鍵詞:貝葉斯語料語料庫

        王子航

        (武漢鋼鐵公司第三子弟中學(xué),湖北武漢,430000)

        0 前言

        隨著人工智能技術(shù)的不斷發(fā)展,圖像處理、內(nèi)容推薦、自然語言處理等作為其主要的應(yīng)用方向也隨之加速迭代發(fā)展。相比于其他應(yīng)用方向,自然語言處理發(fā)展還不夠完善,仍有較大的進步空間。機器翻譯技術(shù)作為自然語言處理中的一個重要分支,早在上個世紀四十年代就被提出,而后二十年間,在大量人力物力的促進推動下,取得了一定的發(fā)展,但是受限于當時計算機技術(shù)等諸多條件,未能取得實質(zhì)性的突破,機器翻譯也隨之陷入了沉寂[1]。近些年來,人工智能技術(shù)的發(fā)展、語言理論的進步以及統(tǒng)計學(xué)在翻譯技術(shù)中的廣泛應(yīng)用,加上計算機硬件以摩爾定律的速度飛速發(fā)展,已經(jīng)可以支撐海量數(shù)據(jù)的存儲和計算,這些條件使得人們對機器翻譯技術(shù)本身有了更完備的認知,新一代的處理方法在此背景之下取得了長足的發(fā)展。

        本文首先將從整體的角度介紹典型的機器翻譯技術(shù)的分類,然后從人工智能和機器翻譯結(jié)合的角度出發(fā),分別介紹機器學(xué)習(xí)和深度學(xué)習(xí)在機器翻譯中的結(jié)合方式和應(yīng)用方法。最后對當前翻譯技術(shù)存在的限制和問題作出總結(jié)合展望。

        1 典型機器翻譯技術(shù)

        機器翻譯技術(shù)的目的是為了節(jié)省人力資源,使機器能夠最大限度的替代人們重復(fù)的工作。它建立在諸多復(fù)雜的學(xué)科之上,如語言學(xué)、統(tǒng)計學(xué)、計算機科學(xué)、信息論等等。如此紛繁復(fù)雜的體系難以迅速形成一套行之有效的解決方案[2]。在機器翻譯的理論早期,研究的主流是基于規(guī)則的機器翻譯技術(shù),而后隨著概率統(tǒng)計學(xué)的引入,機器翻譯達到了新的高度。接下來,本文將對基于規(guī)則和基于統(tǒng)計兩個研究方向作以介紹。

        ■1.1 基于規(guī)則的機器翻譯技術(shù)

        在上個世紀機器翻譯技術(shù)剛剛提出時,人們對語言的認知局限于在有限的規(guī)則集內(nèi)形成的一套體系。尤其在Chomsky提出的短語結(jié)構(gòu)語法,給出了“從規(guī)則生成句子“的原則以后,基于規(guī)則的機器翻譯技術(shù)確立了其在當時的機器翻譯技術(shù)中的主流地位。

        基于規(guī)則的機器翻譯技術(shù)的指導(dǎo)思想是:語言的規(guī)則是無限的,而語言都是可以由這些無限的規(guī)則推導(dǎo)而來的。而后在基于規(guī)則的思想指導(dǎo)下,產(chǎn)生了三種主流的規(guī)則翻譯方法,分別是直譯式、轉(zhuǎn)換式和中間語言式。其中直譯式比較簡單,通過分析源語言和目標語言的對應(yīng)關(guān)系,直接進行轉(zhuǎn)換,而后對目標語言進行符合目標規(guī)則的重新排列;轉(zhuǎn)換式不僅考慮到兩種語言在單純意義上的對應(yīng),也考慮到了句子文法結(jié)構(gòu)上的對應(yīng),從詞法、語法、語義等層層遞進的分析句子的含義,它對語言的規(guī)則挖掘的更深、更完善,因此一般能取得比直譯式更加好的效果;中間語言方法采用了一種折衷的方法,既考慮句子的多層次意義,又盡量忽略語言上復(fù)雜的結(jié)構(gòu)關(guān)系,創(chuàng)造一種相對簡單的中間語言作為翻譯的過渡,先講源語言映射到中間語言相對簡單的結(jié)構(gòu)上,然后在通過中間語言進行翻譯。綜上三種基于規(guī)則的方法都要求有兩種語言的對應(yīng)語料,并且對預(yù)料在詞義和結(jié)構(gòu)上的對應(yīng)度要求都比較高,否則對結(jié)果有很大的影響。此外,基于規(guī)則的翻譯技術(shù)也有著明顯的優(yōu)點,翻譯的過程是可解釋的,并且規(guī)則和語義都是可較為直觀的表述的,這對人們更好的控制翻譯過程有著很大的幫助。

        ■1.2 基于統(tǒng)計的機器翻譯技術(shù)

        語言本身是非常復(fù)雜的,縱然假設(shè)無限的規(guī)則是可以完美表述語言本身,但是資源是有限的,無法總結(jié)并表達出無限的規(guī)則,也因此,基于規(guī)則的機器翻譯一直都無法達到理想的效果,更無法實現(xiàn)產(chǎn)業(yè)化。而隨著統(tǒng)計學(xué)、信息論的發(fā)展,研究的方向逐漸向統(tǒng)計學(xué)靠攏。一方面是因為存儲條件的發(fā)展促生了大規(guī)模語料庫,另一方面是計算資源的支持使得我們可以在海量數(shù)據(jù)中較為迅速提取有效信息。基于統(tǒng)計的機器翻譯技術(shù)也主要分為兩種,一種是利用統(tǒng)計來做語言的預(yù)處理或后處理工作,比如典型的詞性消岐、詞性標注、分詞技術(shù)等等,這些和傳統(tǒng)機器學(xué)習(xí)技術(shù)的結(jié)合較為緊密,另一種是利用統(tǒng)計的方法提取語料庫中體現(xiàn)出的重要知識,或特定任務(wù)中針對的某些特定知識,并根據(jù)這些信息來做機器翻譯,這一部分和深度學(xué)習(xí)結(jié)合較為緊密[3]。綜上來說,基于統(tǒng)計的翻譯技術(shù)應(yīng)用范圍廣且粒度很細,接下來本文將從傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)與機器翻譯不同的結(jié)合角度切入,來對基于統(tǒng)計的機器翻譯方法作出介紹。

        2 結(jié)合機器學(xué)習(xí)的機器翻譯技術(shù)

        機器翻譯技術(shù)發(fā)展至今,無論是基于規(guī)則還是統(tǒng)計方法都要求大量的對應(yīng)語料進行訓(xùn)練,語料的質(zhì)量都直接決定了翻譯效果,此外翻譯質(zhì)量的校驗和優(yōu)化也對翻譯效果有深遠的影響。傳統(tǒng)的機器學(xué)習(xí)方法在這些語料庫構(gòu)建和后處理優(yōu)化的過程中表現(xiàn)十分優(yōu)越,在當前的機器翻譯技術(shù)中得到了廣泛的應(yīng)用。

        ■2.1 機器學(xué)習(xí)算法在機器翻譯中的應(yīng)用方向

        機器學(xué)習(xí)在機器翻譯中的應(yīng)用方向充斥在各個角落中,小到參數(shù)調(diào)優(yōu),大到翻譯模型的建立,無不體現(xiàn)出機器學(xué)習(xí)的思想。下面從語料庫構(gòu)建、語言模型等方面來闡述機器學(xué)習(xí)在機器翻譯中的應(yīng)用方向。

        語料庫,顧名思義是統(tǒng)一存儲特定的格式的一種或多種語言的倉庫。對于機器翻譯來說,語料庫一般指雙語或多種語言的對應(yīng)語料,語料庫構(gòu)建需要解決多個問題,比如詞義消岐、語義消岐、對于中文還有分詞問題等等[4]。這些問題或多或少的都需要機器學(xué)習(xí)來處理。比如詞義消岐,需要借助貝葉斯模型,利用給定的語料計算待選語義的后驗概率,取其大者作為參考項;中文分詞問題則需要借助多個模型來選定最佳的分詞位置,這些都是構(gòu)建語料庫中存在的關(guān)鍵問題。語言模型,是為了表述句子出現(xiàn)的概率而創(chuàng)造的一種模型,從原理上來說是基于統(tǒng)計學(xué)、信息論等學(xué)科,但從原理上來說其推導(dǎo)和應(yīng)用的過程和監(jiān)督式機器學(xué)習(xí)基本一致。語言模型在目標翻譯語句的選擇中發(fā)揮重要的作用,其本身的概率學(xué)原理和樸素貝葉斯類似,在實際應(yīng)用中,往往不會選擇單模型來做選擇,而是選取等多個模型共同抉擇,其中涉及到的參數(shù)優(yōu)化,模型融合等無不體現(xiàn)出機器學(xué)習(xí)的思想。

        ■2.2 經(jīng)典算法與機器翻譯的結(jié)合

        經(jīng)典的機器學(xué)習(xí)算法分為兩大類,監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。前者通過學(xué)習(xí)帶標注的數(shù)據(jù)中屬性和標注存在的關(guān)聯(lián)關(guān)系,總結(jié)規(guī)律并作出預(yù)測,整體步驟一般由模型、損失函數(shù)和優(yōu)化算法三部分組成;后者是通過學(xué)習(xí)無標注的數(shù)據(jù)中屬性之間存在的潛在關(guān)系來對數(shù)據(jù)進行歸類總結(jié),進而達到分類的目的。兩種學(xué)習(xí)方式都是機器學(xué)習(xí)的重要組成部分,接下來本文將對在自然語言處理和機器翻譯中有著廣泛應(yīng)用的幾個監(jiān)督和無監(jiān)督模型,以及其與自然語言處理的聯(lián)系作出介紹。

        (1)樸素貝葉斯

        樸素貝葉斯實際上是貝葉斯模型加上了較強的獨立性假設(shè)而來的,以詞性消岐任務(wù)來說,若我們想獲取某個詞對應(yīng)詞義出現(xiàn)的概率,設(shè)待選詞義為Xi,給定語料中相關(guān)特征的集合為A,則在給定語料庫中的該語義出現(xiàn)的概率可以根據(jù)下式進行轉(zhuǎn)換:

        上式便是經(jīng)典的貝葉斯公式,其中,任務(wù)所求的是給定語料的屬性集A時待選語義出現(xiàn)的概率 P( Xi|A),可以根據(jù)上述公式轉(zhuǎn)化為在語料庫中給定待選語義Xi時屬性A出現(xiàn)的概率 P( A |Xi)與P( Xi)的乘積。在計算過程中,乘積的左項概率是由是由多個概率聯(lián)合組成 的, 即 P( A |Xi)= P( A0A1… Aj| Xi), 聯(lián) 合 概 率 非 常復(fù)雜,若嚴格按照條件概率乘積展開,參數(shù)達到了指數(shù)級別,難以計算。樸素貝葉斯模型加入了獨立性假設(shè),將其不同的特征視為互相獨立的,即將計算轉(zhuǎn)化為,因而大大減小了計算量,又有大數(shù)定理,當語料庫足夠大時用各項條件概率出現(xiàn)的頻率近似替代概率,進而可以得到上式中分子的值,由于各個計算的分母相同,故比較分子獲取最大者即為所求語義。

        樸素貝葉斯雖然忽略了語序信息,且語序信息對語義本身的影響是至關(guān)重要的,但是,樸素貝葉斯在實際工程中的應(yīng)用卻是十分廣泛,一方面是因為其模型是強可解釋的,另一方面有研究表明樸素貝葉斯的獨立性假設(shè)效果是要優(yōu)于考慮各個因素相關(guān)性,因為各個關(guān)系之間出現(xiàn)了互相抵消的效果。

        (2)K–Means

        K–Means算法是無監(jiān)督學(xué)習(xí)的經(jīng)典模型,其在自然語言處理中也有著廣泛應(yīng)用,常用于文本分類、語義識別等領(lǐng)域,用于計算不同樣本之間的相似度,進而幫助人們獲取關(guān)鍵數(shù)據(jù)信息,提升模型的效果。

        算法旨在提取樣本在特征空間中的分布信息,通過挖掘不同樣本反映出的分布信息,迭代的尋找最合適的分類方法。在執(zhí)行前需要給定幾個比較重要的超參數(shù)信息,第一個是K值,也就是目標分類數(shù),往往根據(jù)不同任務(wù)的需要而定,第二個是樣本相似度的度量標準,經(jīng)常采用的有歐式距離和皮爾遜相似度等。在確定了K值和相似度評價標準之后,在特征空間內(nèi)隨機的選取K個中心點,然后遍歷一次所有樣本,將每個樣本劃分至距離其最近的樣本中心點類,接下來對每個類別中的所有樣本計算平均值作為新的中心點,至此中心點完成了一次迭代。重復(fù)上述步驟直到中心點的無變化或者變化幅度小于某一閾值即可。

        3 結(jié)合深度學(xué)習(xí)的機器翻譯技術(shù)

        傳統(tǒng)機器學(xué)習(xí)作為統(tǒng)計機器翻譯中的重要技術(shù),雖然突破了基于規(guī)則的機器翻譯技術(shù)的限制,效果也得到了巨大的提升,但是隨著技術(shù)的進一步發(fā)展,面臨著嚴重的結(jié)構(gòu)問題。比如對特征設(shè)計依賴、對模型假設(shè)的依賴等等,都嚴重的限制了模型的效果上限。深度學(xué)習(xí)作為機器學(xué)習(xí)中的一個分支,已經(jīng)發(fā)展壯大為一個獨立的體系,其突破了模型假設(shè)和特征設(shè)計等限制,在參數(shù)量足夠的情況下,理論上可以完美逼近任何函數(shù),深度學(xué)習(xí)在自然語言處理中的應(yīng)用真正幫助機器翻譯達到了工業(yè)化的標準[5]。

        ■3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

        首先介紹經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)是處理序列問題的經(jīng)典架構(gòu),神經(jīng)網(wǎng)絡(luò)由一個神經(jīng)元構(gòu)成,神經(jīng)元的輸入由單詞和上一步的隱狀態(tài)構(gòu)成,在每一步的轉(zhuǎn)換中維護并生成一個新的隱狀態(tài),通過隱狀態(tài)的改變實現(xiàn)對序列信息的記憶[6]。在傳統(tǒng)的序列到序列的循環(huán)神經(jīng)網(wǎng)絡(luò)中,每一步的隱狀態(tài)都可以利用一次全連接產(chǎn)生輸出,但是這并不符合機器翻譯的需要。比如翻譯“今天的天空很藍”這句中文,每次輸入一個詞就產(chǎn)生翻譯的話很可能結(jié)果是“Todays sky is blue.”,顯然這種翻譯效果無法考慮到語義整體的信息,并且難以形成符合目標語言規(guī)則的翻譯結(jié)果。

        ■3.2 編碼解碼器

        編碼解碼器框架是為處理翻譯問題而設(shè)計的深度學(xué)習(xí)框架,由循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)改動而成,實現(xiàn)了利用深度學(xué)習(xí)框架來進行序列到序列的自動翻譯轉(zhuǎn)換。

        編碼–解碼器由兩部分組成,第一部分只輸入不產(chǎn)生輸出,稱為編碼部分,通過隱狀態(tài)學(xué)習(xí)并記錄輸入的信息,最終形成的隱狀態(tài)包含了所輸入語句的所有信息。然后進入架構(gòu)的第二部分,稱為解碼部分,以編碼產(chǎn)生的最終隱狀態(tài)為初始狀態(tài)開始進行解碼翻譯,每一步以上一步的輸出作為輸入并產(chǎn)生一個輸出,組合起來即為翻譯結(jié)果。編碼解碼器很好的考慮的全局信息,并且可以很好的組成符合目標語言語法的翻譯結(jié)果,由于其出色的翻譯效果,使得其在工業(yè)中獲得了廣泛的應(yīng)用。

        4 總結(jié)與展望

        機器學(xué)習(xí)從上個世紀發(fā)展至今,已經(jīng)在深度學(xué)習(xí)這一潮流之中獲得了長足的發(fā)展,基于機器翻譯技術(shù)的產(chǎn)品也如雨后春筍般接連出現(xiàn)。雖然如此,由于自然語言本身技術(shù)發(fā)展的限制,如語料庫在規(guī)模和領(lǐng)域不夠、詞義消岐的精度不足,這些都限制了翻譯模型所能達到的效果上限。因此如何繼續(xù)發(fā)展機器學(xué)習(xí)技術(shù),更好的將其應(yīng)用于自然語言處理領(lǐng)域成為至關(guān)重要的問題。本文即是在介紹了機器翻譯發(fā)展歷史和研究內(nèi)容的基礎(chǔ)上,進而從機器學(xué)習(xí)領(lǐng)域開始,逐步闡述深度學(xué)習(xí)的應(yīng)用?,F(xiàn)在的機器翻譯技術(shù)發(fā)展仍被語言復(fù)雜和多變的結(jié)構(gòu)所限制,相信隨著語言理論、計算機技術(shù)的發(fā)展,機器翻譯技術(shù)一定會一步一步趨于完善。

        猜你喜歡
        貝葉斯語料語料庫
        《語料庫翻譯文體學(xué)》評介
        貝葉斯公式及其應(yīng)用
        把課文的優(yōu)美表達存進語料庫
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        基于貝葉斯估計的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
        国产亚洲女人久久久久久| 色噜噜狠狠狠综合曰曰曰| 人妻无码一区二区三区四区| 亚洲一区二区三区av在线免费| 国产成人美涵人妖视频在线观看| 中文字幕日韩人妻少妇毛片| 亚洲精品成人网线在线播放va| 亚洲色图视频在线| 日本黄色一区二区三区视频 | 国产色在线 | 亚洲| 男人无码视频在线观看| 国内无遮码无码| 亚洲av成人久久精品| 久久久99精品免费视频| 成人综合婷婷国产精品久久蜜臀| 国产成人拍精品免费视频| 国产精品人成在线765| 国产亚洲视频在线播放| 国产精品无码专区av在线播放| 麻豆久久五月国产综合 | 亚洲中文字幕精品视频| 巨人精品福利官方导航| 少妇三级欧美久久| 国产av一区二区三区在线 | 国产午夜激情视频在线看| 精品亚洲av乱码一区二区三区| 亚洲女同一区二区| 日韩a∨精品日韩在线观看| 国产综合一区二区三区av| 成人免费在线亚洲视频| 精品国偷自产在线视频九色| 亚洲男人天堂| 挑战亚洲美女视频网站| 丝袜美腿国产一区精品| 99精品欧美一区二区三区| 久久精品国产亚洲5555| 亚洲中文字幕第一页免费| 日韩精品一区二区三区在线视频| 亚洲第一页综合图片自拍| 国产精品无码无片在线观看3D| 精品黑人一区二区三区久久hd|