亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        翻譯官羅伯特

        2017-03-09 17:27:34張睿
        第一財(cái)經(jīng) 2017年3期
        關(guān)鍵詞:搜狗語料短語

        張睿

        互聯(lián)網(wǎng)上經(jīng)常會(huì)流傳一些中文翻譯成英文時(shí)鬧出的“烏龍”。比如江西省上饒市公安局三清山分局2011年在當(dāng)?shù)仫L(fēng)景區(qū)內(nèi)豎立的一塊信息服務(wù)牌上,將“有困難,找警察”錯(cuò)誤地翻譯成“Difficult to find the police”,被眼尖的網(wǎng)友拍照發(fā)到了網(wǎng)上,變成一個(gè)尷尬的笑話。

        如果說當(dāng)年的錯(cuò)誤應(yīng)由翻譯軟件負(fù)責(zé),最近一兩年,我們?cè)絹碓诫y把責(zé)任再推給它們了。基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯已經(jīng)將翻譯的質(zhì)量提高到一個(gè)新層次—比如“有困難,找警察”,如今Google翻譯給出的英文結(jié)果是“There are difficulties,to find police”—不完美,但至少和中文的意思大體一致。這是因?yàn)閺?016年9月開始,Google采用了一種全新的方法—用Google神經(jīng)機(jī)器翻譯(GNMT)系統(tǒng)來做雙語翻譯。

        一直以來,包括Google在內(nèi),提供機(jī)器翻譯服務(wù)的公司都在追求更好的翻譯效果和更高的翻譯效率。

        此前,統(tǒng)計(jì)機(jī)器翻譯(SMT)是最主流的機(jī)器翻譯技術(shù),它通過對(duì)大量的平行語料做統(tǒng)計(jì)分析,構(gòu)建統(tǒng)計(jì)翻譯模型,然后使用該模型翻譯。

        以中文和英文之間的翻譯為例,搜狗語音交互中心技術(shù)負(fù)責(zé)人陳偉向《第一財(cái)經(jīng)周刊》解釋,“這種翻譯方式是把句子的翻譯切分成單詞、短語,建立中文、英文短語之間的影射關(guān)系,然后使用語言模型把中文短語翻譯成英文的短語。”

        也就是說,翻譯的過程實(shí)際上是計(jì)算概率統(tǒng)計(jì)的過程,翻譯引擎本身沒有規(guī)則或語法概念。Google、百度等搜索引擎公司可以搜索大量的雙語網(wǎng)頁內(nèi)容,自動(dòng)選取概率最大的詞與詞的對(duì)應(yīng)關(guān)系,最后給出翻譯結(jié) 果。

        使用這種方式,其效果就像我們常??吹降摹總€(gè)單詞的翻譯都正確,連在一起有時(shí)卻不是通順的、符合語法邏輯和理解習(xí)慣的正確句子,有時(shí)甚至出現(xiàn)意思完全相悖的情況。這是因?yàn)?,統(tǒng)計(jì)機(jī)器翻譯質(zhì)量的高低,往往取決于概率模型的好壞以及語料庫的覆蓋,一個(gè)使用技術(shù)文本訓(xùn)練的翻譯引擎,在翻譯口語化的文本時(shí)效果會(huì)很差。

        以深度學(xué)習(xí)技術(shù)為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的出現(xiàn),正在改善這一狀況。

        Google的GNMT系統(tǒng)的理論,最早公開出現(xiàn)在2014年,加拿大蒙特利爾大學(xué)Yoshua Bengio教授的研究組在開放性論文網(wǎng)站arXiv上發(fā)布了他們最新的研究成果,解釋了這一翻譯模型。

        其最基本的架構(gòu)是由一個(gè)編碼器(encoder)和一個(gè)解碼器(decoder)構(gòu)成的。首先,編碼器將漢語句子的每個(gè)詞編碼成一個(gè)向量列表,用來描述所有讀取到的詞的含義,然后解碼器從向量列表中讀取參數(shù),把這些詞向量逐個(gè)替換成譯句中的某個(gè)單詞。同時(shí),在編碼器和解碼器之間引入注意力(attention)機(jī)制,用來調(diào)整詞與詞之間的權(quán)重關(guān)系。

        兩年后,Google也發(fā)布了自己的相關(guān)論文,介紹了它在這方面的研究和實(shí)踐。在雙語評(píng)估者的幫助下,通過對(duì)維基百科和新聞網(wǎng)站例句的測(cè)定,Google發(fā)現(xiàn),在多個(gè)樣本的翻譯中,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)將誤差降低了55%至85%,甚至更多。

        “這種方式更像人類的理解方式?!庇械朗紫茖W(xué)家段亦濤對(duì)《第一財(cái)經(jīng)周刊》說,“先把句子理解了,再把它表達(dá)出來。”

        微軟也在2016年12月中旬發(fā)布了新的翻譯工具,其現(xiàn)場(chǎng)翻譯功能(Live Feature)可以支持多人、多語種之間的實(shí)時(shí)翻譯。

        現(xiàn)在,包括有道、百度、搜狗在內(nèi)的中國(guó)技術(shù)公司都開始投入到神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的研究和開發(fā)之中。實(shí)際上,這些公司使用的框架是類似的,只是在模型、數(shù)據(jù)、訓(xùn)練、場(chǎng)景等方面存在差異。

        “你的模型使用什么樣的單元、層次有多深、有沒有一些特殊的機(jī)制在里面,得到的效果都是不一樣的?!倍我酀f。每個(gè)公司都在積累和整理自己的平行語料數(shù)據(jù),雖然學(xué)術(shù)界有一些公開的數(shù)據(jù)集,但是往往比較小,訓(xùn)練的差異體現(xiàn)在如何對(duì)參數(shù)做調(diào)整。此外,不同的公司針對(duì)的場(chǎng)景又有不同。

        用來衡量機(jī)器翻譯質(zhì)量的一個(gè)通行指標(biāo)是BLEU值,其原理是比較機(jī)譯結(jié)果和人譯結(jié)果的相似度,完全一致得分為100。Google之前的統(tǒng)計(jì)型翻譯引擎的BLEU值大約維持在40標(biāo)準(zhǔn)加號(hào)的水平。

        但要橫向比較目前幾家公司機(jī)器翻譯的質(zhì)量并不容易,這一方面與它們的模型有關(guān),另一方面與測(cè)試使用的數(shù)據(jù)集有關(guān)。段亦濤說,“任何一個(gè)模型都可以針對(duì)一個(gè)數(shù)據(jù)集調(diào)到非常不錯(cuò)的水平。”也就是說,數(shù)據(jù)集的選取如果不與應(yīng)用場(chǎng)景結(jié)合,測(cè)試的結(jié)果就很難反映該模型的質(zhì)量。

        表面上看,在這項(xiàng)新技術(shù)面前,大家都處于同一條起跑線。不過段亦濤認(rèn)為,“上手容易,做好不容易,進(jìn)一步提高更難?!?/p>

        神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯對(duì)數(shù)據(jù)量和計(jì)算量的要求非常高。百度、搜狗等搜索引擎公司往往有更多的平行語料,而有道原本的翻譯服務(wù)也提供了更多有用的數(shù)據(jù)。

        “相較于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的系統(tǒng)部署所需的硬件投入至少上漲十幾倍。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)在一臺(tái)價(jià)值4萬多元的服務(wù)器上運(yùn)行,其速度和吞吐才接近于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)在3000多元的PC機(jī)上的性能?!毙∨7g的創(chuàng)始人朱靖波說。

        Google的優(yōu)勢(shì)是,它擁有專門為深度學(xué)習(xí)設(shè)計(jì)的處理器TPU(Tensor Processing Unit),原本要10秒處理的句子只需要300毫秒便可完成。

        據(jù)了解,微軟也在運(yùn)用其可編程芯片F(xiàn)PGA來執(zhí)行神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,而百度正在開發(fā)不同類型的硅片。

        更進(jìn)一步地說,如果將神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯和語音識(shí)別、語音合成結(jié)合起來,是否能取代同聲傳譯?2016年,搜狗CEO王小川在烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上演示了搜狗語音實(shí)時(shí)翻譯技術(shù),取得了不錯(cuò)的效果。

        在搜狗語音交互中心技術(shù)負(fù)責(zé)人陳偉看來,語音識(shí)別與翻譯,二者具有共通性。“技術(shù)在慢慢交疊和融合,比如端到端的技術(shù),我們發(fā)現(xiàn)語音識(shí)別和機(jī)器翻譯都是一個(gè)序列到另一個(gè)序列的學(xué)習(xí)過程。翻譯的框架,我們現(xiàn)在的語音識(shí)別也在用?!?/p>

        但在對(duì)準(zhǔn)確性和專業(yè)性要求更高的場(chǎng)合,機(jī)器翻譯尚不能被信賴,比如,當(dāng)王小川說“我會(huì)認(rèn)為搜索的未來就是問答機(jī)器人”時(shí),語音實(shí)時(shí)機(jī)器翻譯顯示的是“I will think the future of search. The QA Robot.”—這顯然不是一個(gè)令人滿意的結(jié)果。

        雖然短短一年的時(shí)間里,人工智能系統(tǒng)在圍棋領(lǐng)域已鮮有對(duì)手,但在翻譯界,它目前還未能戰(zhàn)勝人類。

        猜你喜歡
        搜狗語料短語
        騰訊擬147億元全資收購搜狗
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        搜狗三季度營(yíng)收同比增長(zhǎng)
        CHIP新電腦(2016年11期)2016-12-03 14:26:58
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        搜狗分號(hào)工具箱 輸入更便捷
        終于來WM了.搜狗手機(jī)輸入法
        久久精品无码免费不卡| 欧美大屁股xxxx高跟欧美黑人| 亚洲综合av永久无码精品一区二区 | 成人性生交大片免费看激情玛丽莎 | 日本a在线免费观看| 午夜视频福利一区二区三区 | 国产91成人精品亚洲精品| 日韩成人精品日本亚洲| 国产女人高潮的av毛片| 国产亚洲综合另类色专区| 精品一区二区三区四区国产| 97人伦色伦成人免费视频| 久久精品国产亚洲av蜜臀| 色丁香久久| 亚洲精品国产一区av| 色婷婷久久综合中文蜜桃| 国产精品高清网站| 又黄又硬又湿又刺激视频免费| 国产内射性高湖| 亚洲欧美日韩中文v在线| 精品国产一区二区三区毛片| 亚洲天堂精品成人影院| 六月丁香综合在线视频| 日本一区二区三区高清千人斩| 久久久久久久综合日本| 精品久久一区二区三区av制服| 曰韩少妇内射免费播放| 无码人妻精一区二区三区| 国产网站视频| 视频精品熟女一区二区三区| 两人前一后地插着她丰满| 欧美老妇多毛xxxxx极瑞视频| 中文字幕av无码免费一区| 久久精品国产亚洲AV成人公司| 国产日韩亚洲中文字幕| 深夜福利国产精品中文字幕| 国产无套粉嫩白浆在线观看| 18禁高潮出水呻吟娇喘蜜芽| 午夜视频网址| 日本免费三片在线播放| 国产精品久久久免费精品|