亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        捧起同聲傳譯圣杯的AI

        2019-09-10 07:22:44
        科海故事博覽·中旬刊 2019年1期
        關(guān)鍵詞:學(xué)習(xí)

        AI同傳在機(jī)器翻譯領(lǐng)域中算是一個(gè)關(guān)注度相當(dāng)廣泛的問(wèn)題,對(duì)于大眾來(lái)說(shuō),人們對(duì)其最深的印象就是科大訊飛的技術(shù)造假,對(duì)于行業(yè)內(nèi)來(lái)說(shuō),AI同傳任務(wù)處理上實(shí)時(shí)性、專(zhuān)業(yè)度的要求都極高,容錯(cuò)率也相對(duì)更低,在機(jī)器翻譯領(lǐng)域算是一個(gè)難度很大的任務(wù),甚至有人稱(chēng)之為機(jī)器翻譯的“圣杯”。是圣杯,自然少不了挑戰(zhàn)者。除了孜孜不倦的獨(dú)角獸,微軟、百度、谷歌等海內(nèi)外的AI大廠(chǎng)也都在不斷攻克這項(xiàng)難題。最近百度新推出的即時(shí)機(jī)器翻譯系統(tǒng),可以說(shuō)是給出了一些新的解決思路。

        是什么為AI同傳送上圣杯

        AI同傳之所以難度能夠達(dá)到“圣杯級(jí)別”,還是來(lái)自于語(yǔ)言本身的復(fù)雜程度和不同語(yǔ)言之間的巨大差異。給前者舉個(gè)例子。對(duì)于機(jī)器翻譯,尤其是語(yǔ)音轉(zhuǎn)碼文字的部分來(lái)說(shuō),一個(gè)很大的難點(diǎn)就是同音不同字。有的詞同音不同字并且意義差距很大,比如南方和男方。遇到同音不同字的問(wèn)題時(shí),很多同傳系統(tǒng)只要認(rèn)定了第一次識(shí)別的語(yǔ)音,很難再根據(jù)語(yǔ)境調(diào)整語(yǔ)音和文字之間對(duì)照。這就有可能導(dǎo)致整個(gè)句子在翻譯時(shí)出現(xiàn)嚴(yán)重的誤差。后者則主要體現(xiàn)在語(yǔ)序的差異上,中文上說(shuō)“她送給我的花很美”,英文上卻說(shuō)“The flowers she gave me are beautiful”, 在不聽(tīng)完整個(gè)句子之前,是很難給出準(zhǔn)確翻譯結(jié)果的,因?yàn)樵谥形闹凶鳛橹髡Z(yǔ)的“花”出現(xiàn)在“她送給我”這一定語(yǔ)之后,可英文中主語(yǔ)“The flowers”卻出現(xiàn)在句子的開(kāi)頭。所以目前大多數(shù)AI同傳,要么是等待一個(gè)完整的句子說(shuō)完后,再進(jìn)行翻譯,要么是根據(jù)當(dāng)前識(shí)別結(jié)果進(jìn)行翻譯,然后隨著識(shí)別字?jǐn)?shù)的增加,不斷修正結(jié)果。

        高質(zhì)量翻譯與低時(shí)延兩者不可兼得。可我們應(yīng)用同傳,不就是為了和整場(chǎng)對(duì)話(huà)同步獲得信息嗎?想象一下,在重要商務(wù)場(chǎng)合中你和合作伙伴談笑風(fēng)生,然而合作伙伴說(shuō)“前門(mén)樓子”AI同傳卻告訴你“胯骨軸子”……總之由于應(yīng)用場(chǎng)景相對(duì)苛刻,AI同傳的技術(shù)遲遲都沒(méi)能達(dá)到應(yīng)用條件。

        向人類(lèi)偷師,百度的即時(shí)機(jī)器

        翻譯系統(tǒng)學(xué)到了什么?這種時(shí)候,我們往往還是要師從更加專(zhuān)業(yè)的人類(lèi)。人類(lèi)譯員在進(jìn)行同傳翻譯時(shí)往往會(huì)先做大量的學(xué)習(xí)準(zhǔn)備工作,了解應(yīng)用領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ),本質(zhì)上是對(duì)自己的詞匯庫(kù)進(jìn)行 “收斂”和補(bǔ)充,減少同音近義這種錯(cuò)誤的出現(xiàn),也避免有哪些名詞自己過(guò)于陌生。建立在這種準(zhǔn)備之上,譯員在進(jìn)行翻譯時(shí)會(huì)有一定的預(yù)測(cè)性,就像“布什總統(tǒng)在莫斯科會(huì)見(jiàn)普京”這句話(huà),通過(guò)對(duì)應(yīng)用場(chǎng)景的整體理解,譯員們會(huì)知道布什總統(tǒng)在莫斯科肯定是要會(huì)見(jiàn)什么人的,所以可以同步翻譯出“President Bush meets Putin……”,這樣才可以用更少的延時(shí)滿(mǎn)足需求。

        可即便如此,人工同聲傳譯也并不是完美的。由于信息量巨大,譯員只能在保證速度的前提下?tīng)奚徊糠仲|(zhì)量。據(jù)了解,同傳譯員的譯出率僅有60%—-70%左右,即講話(huà)人講了100個(gè)句子,僅有60—70個(gè)句子的信息被完整傳遞給聽(tīng)眾。同時(shí)由于需要高度集中精神,譯員往往每15—20分鐘就需要換班休息。所以,我們從人類(lèi)工作的邏輯中找到了兩個(gè)關(guān)鍵詞——“背景知識(shí)”“預(yù)測(cè)”和“學(xué)習(xí)”。

        從背景知識(shí)的層面來(lái)講,人類(lèi)之所以能夠分辨同音近音字,是因?yàn)閷?duì)于語(yǔ)境和背景知識(shí)有著充足的了解,把不符合當(dāng)前詞匯庫(kù)的同音詞“剔除”了。所以百度這些選擇的解決方案是,提升容錯(cuò)率,忽略語(yǔ)音-文字轉(zhuǎn)碼階段的錯(cuò)誤,進(jìn)而去提升文字翻譯階段的正確率。百度同傳的“語(yǔ)音容錯(cuò)”的對(duì)抗訓(xùn)練翻譯模型,重點(diǎn)就在于有意在訓(xùn)練數(shù)據(jù)集中加入針對(duì)性的噪聲數(shù)據(jù),這樣即使模型接受到錯(cuò)誤的語(yǔ)音識(shí)別結(jié)果時(shí),也能給出正確的譯文。什么叫“針對(duì)性”的噪聲數(shù)據(jù)呢?就是把成對(duì)、成組出現(xiàn)的噪聲詞一起收錄,比如前文提到的南方和男方,再將源語(yǔ)言句子進(jìn)行替換,把“南方天氣很潮濕”替換為“男方天氣很潮濕”,而兩個(gè)句子的結(jié)果都設(shè)定為“The weather is very humid in the south”,一起用作訓(xùn)練從而提升模型的容錯(cuò)能力。

        至于預(yù)測(cè),則是這次百度推出機(jī)器同傳的重點(diǎn)技術(shù)STACL“wait-k words”,即等待講話(huà)時(shí)后的第k個(gè)詞開(kāi)始翻譯,通過(guò)對(duì)講話(huà)者的語(yǔ)言風(fēng)格數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)預(yù)測(cè)能力。同時(shí)還可以根據(jù)不同語(yǔ)種之間的差異性和不同場(chǎng)景的需求程度來(lái)調(diào)整K值,比如西班牙語(yǔ)和葡萄牙語(yǔ)在語(yǔ)法上非常接近,K值就可以被調(diào)整為1或者2,極大地提高及時(shí)性?;蛘弋?dāng)使用者位于非常嚴(yán)肅的政治會(huì)議場(chǎng)合,K值就可以被調(diào)整為5或者更高,因此來(lái)保證嚴(yán)謹(jǐn)性。

        在學(xué)習(xí)方面,正是AI的優(yōu)勢(shì)所在。在百度同傳系統(tǒng)中,提出了快速融合領(lǐng)域知識(shí)策略,建立在百度自身的互聯(lián)網(wǎng)大數(shù)據(jù)之上,百度同傳系統(tǒng)獲得最基礎(chǔ)的通用領(lǐng)域翻譯模型。而當(dāng)進(jìn)入細(xì)分領(lǐng)域時(shí),該系統(tǒng)也會(huì)像人類(lèi)一樣,針對(duì)細(xì)分領(lǐng)域進(jìn)行學(xué)習(xí)。建立在通用模型的基礎(chǔ)上,通過(guò)對(duì)某一領(lǐng)域數(shù)據(jù)的增強(qiáng)訓(xùn)練和專(zhuān)用術(shù)語(yǔ)的強(qiáng)制解碼,盡可能讓整體模型和該領(lǐng)域更加契合,從而減少同音字、多義字翻譯錯(cuò)誤等諸如此類(lèi)現(xiàn)象,提升整體效率。

        AI同傳應(yīng)該避免獨(dú)行

        當(dāng)然,即便如此,AI同傳還是面臨著很多問(wèn)題。尤其是人在口語(yǔ)表述時(shí)往往會(huì)帶有一些習(xí)慣性的語(yǔ)氣詞,AI如果通通記錄下來(lái),會(huì)嚴(yán)重影響信息接收的效率。就像曾經(jīng)有人嘗試過(guò)在法庭使用AI速記,結(jié)果發(fā)現(xiàn)AI記下了通篇的“嗯、呃、那個(gè)”等口語(yǔ)中的常用詞,尤其是當(dāng)出庭人情緒稍有些激動(dòng)時(shí),AI速記完美地記錄下一串語(yǔ)無(wú)倫次時(shí)的混亂信息。信息量倒是加大了,可信息價(jià)值卻很低。人類(lèi)譯員在進(jìn)行翻譯時(shí)會(huì)進(jìn)行書(shū)面語(yǔ)和口語(yǔ)之間的轉(zhuǎn)換,AI能否做到這種信息的匯總和提煉?

        同時(shí)口語(yǔ)中常常遇到的口音、結(jié)巴、地方俚語(yǔ)、表述水平不同等個(gè)性化的問(wèn)題,人類(lèi)譯員通??梢院芎玫亟鉀Q,最終呈現(xiàn)出適用于所有人閱讀的內(nèi)容。就拿俚語(yǔ)來(lái)講,這種極具本土文化特征的內(nèi)容,有時(shí)會(huì)在兩個(gè)語(yǔ)種中呈現(xiàn)出完全不同的形態(tài)。就像“掌上明珠”和“Apple of the eye”,從字面直譯上很難找到關(guān)聯(lián),可意義上卻相互對(duì)應(yīng)。

        AI模型能否高效地解決一切問(wèn)題,不只適用于某一標(biāo)準(zhǔn)或某一種文化下的內(nèi)容?最重要的,大部分像“wait-k words”這樣的預(yù)測(cè)模型都要提前進(jìn)行大量的數(shù)據(jù)訓(xùn)練。不光應(yīng)用成本高,對(duì)于很多缺乏豐富數(shù)據(jù)的小眾語(yǔ)種來(lái)說(shuō),還是幫不上什么忙。不過(guò)相比人類(lèi)在同聲傳譯整個(gè)學(xué)習(xí)和翻譯過(guò)程中耗費(fèi)的巨大精力,AI同傳更高效的學(xué)習(xí)能力和永不疲倦的特點(diǎn)仍然是巨大的優(yōu)勢(shì)。所以在未來(lái)的一段時(shí)間內(nèi),AI同傳應(yīng)該依靠自身優(yōu)勢(shì)來(lái)承擔(dān)人類(lèi)譯員助手的職責(zé),與人類(lèi)一同捧起圣杯。

        機(jī)器思維與人類(lèi)思維的打通

        其實(shí)我們能夠發(fā)現(xiàn),百度這次提出的機(jī)器同傳解決方案,給出了一種AI技術(shù)應(yīng)用的有趣邏輯,即把機(jī)器思維和人類(lèi)思維一起融入技術(shù)應(yīng)用。像在提升語(yǔ)音容錯(cuò)率上,就是一種典型的機(jī)器思維。如果把解決問(wèn)題分兩步,第一步是語(yǔ)音——文字,第二步是文字——翻譯。數(shù)學(xué)老師一定會(huì)告訴你“一步錯(cuò)、步步錯(cuò)”,可在機(jī)器思維中卻能實(shí)現(xiàn)“一步錯(cuò)、結(jié)果對(duì)”,即使語(yǔ)音識(shí)別中錯(cuò)了,機(jī)器翻譯的結(jié)果仍然是正確的。

        而在預(yù)測(cè)方面,就是典型的人類(lèi)思維了,結(jié)合對(duì)于事物的整體理解甚至整個(gè)世界觀,對(duì)于缺失的信息進(jìn)行預(yù)測(cè),用我們?nèi)祟?lèi)的話(huà)說(shuō),就是“直覺(jué)”。而當(dāng)機(jī)器也逐漸找到利用直覺(jué)的方式,它們所能解決的問(wèn)題才更邁上了一個(gè)臺(tái)階。有了預(yù)測(cè)能力,才能在不同語(yǔ)序的語(yǔ)種中自我生成正確的句子。畢竟我們所處的世界不是棋盤(pán)也不是電子游戲,缺乏明確的規(guī)則,更多時(shí)候我們是在信息和規(guī)則雙雙不透明的前提下去解決問(wèn)題。

        其實(shí)在今天的AI應(yīng)用上,最重要的就是人與AI的協(xié)作性,不僅僅是日常應(yīng)用方面的協(xié)作,更多的是研發(fā)思維上的協(xié)作。有時(shí)能理解機(jī)器思維的差異性,才能真正找到適合機(jī)器的問(wèn)題解決方案,而讓機(jī)器能夠?qū)W會(huì)人類(lèi)思維,才能讓機(jī)器解決問(wèn)題的方式更加配適現(xiàn)實(shí)世界。就像自動(dòng)駕駛的安全問(wèn)題一樣,有時(shí)在交通標(biāo)識(shí)上貼一張小小的貼紙,就能徹底擾亂機(jī)器的視覺(jué)系統(tǒng)。所以對(duì)于自動(dòng)駕駛來(lái)說(shuō),更高效和安全的方法并不是像人類(lèi)一樣“看到”交通標(biāo)識(shí),而是在高精地圖上提前標(biāo)注好交通標(biāo)識(shí)的位置。對(duì)人類(lèi)與機(jī)器的感知方式進(jìn)行互通和融合,幫助我們打開(kāi)了很多AI產(chǎn)業(yè)應(yīng)用的黃金大門(mén)。有趣的是,這兩種思維之間的差異和融合,其實(shí)和語(yǔ)言之間的翻譯還有點(diǎn)接近。語(yǔ)法有再多差異,彼此理解了,總能一起解決問(wèn)題。

        猜你喜歡
        學(xué)習(xí)
        淺談高中生英語(yǔ)口語(yǔ)學(xué)習(xí)的問(wèn)題與對(duì)策
        浸潤(rùn)式教學(xué)法在高職商務(wù)英語(yǔ)專(zhuān)業(yè)學(xué)習(xí)中的應(yīng)用
        淺談怎樣提高小學(xué)生學(xué)習(xí)數(shù)學(xué)的興趣
        如何培養(yǎng)學(xué)生小組合作學(xué)習(xí)的策略
        高中生物教學(xué)中學(xué)生主動(dòng)學(xué)習(xí)策略研究
        人間(2016年28期)2016-11-10 22:12:11
        小學(xué)生學(xué)習(xí)與生活分離的社工干預(yù)行動(dòng)項(xiàng)目設(shè)計(jì)
        戲劇之家(2016年20期)2016-11-09 23:55:31
        茶葉浸提液對(duì)小鼠學(xué)習(xí)記憶能力影響的初步研究
        試論在高校“產(chǎn)、學(xué)、研”中發(fā)展現(xiàn)代傳統(tǒng)手工藝文化
        人間(2016年26期)2016-11-03 18:25:32
        小學(xué)數(shù)學(xué)學(xué)習(xí)興趣的培養(yǎng)
        家庭習(xí)得環(huán)境對(duì)初中學(xué)生英語(yǔ)學(xué)習(xí)的影響研究
        在线亚洲精品国产成人二区| 国产精品va无码一区二区| 国产剧情国产精品一区| 国产又爽又黄又不遮挡视频| av免费在线国语对白| 国产情侣真实露脸在线| 色婷婷综合中文久久一本| 日韩成人精品日本亚洲| 亚洲一二三四五中文字幕| 十四以下岁毛片带血a级| 好吊色欧美一区二区三区四区| 亚洲国产香蕉视频欧美| 精品亚洲国产亚洲国产| 97一期涩涩97片久久久久久久| 亚洲欧洲偷自拍图片区| 狠狠亚洲婷婷综合色香五月| 国产影院一区二区在线| 久久亚洲精品情侣| 国产精品卡一卡二卡三| 欧洲无码一级毛片无遮挡| 手机在线观看av资源| 国产精品理论片| 国产在线手机视频| 日韩在线精品视频免费| 国产av激情舒服刺激| 一本色道久久99一综合| 亚洲欧美日韩中文v在线| 日韩中文字幕熟女人妻| 国产精品无码一区二区在线观一| 亚洲av熟妇高潮30p| 视频精品亚洲一区二区| 日本免费大片一区二区| 在线精品一区二区三区| 国产成人cao在线| 熟女人妻一区二区三区| 亚洲精品久久久久avwww潮水| www.狠狠艹| 久久天堂精品一区专区av| av无码精品一区二区三区| 欧美老熟妇欲乱高清视频| 久久久99久久久国产自输拍|