亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        英漢分詞問(wèn)題的混合翻譯系統(tǒng)設(shè)計(jì)

        2019-05-04 13:57:40仲佳琳楊宇李奕琛
        都市生活 2019年1期
        關(guān)鍵詞:機(jī)器翻譯統(tǒng)計(jì)規(guī)則

        仲佳琳 楊宇 李奕琛

        摘 要:在解決處理中文文本的分詞的問(wèn)題中,分詞是基礎(chǔ)的一項(xiàng)。本文針對(duì)分詞問(wèn)題提出統(tǒng)計(jì)與規(guī)則混合運(yùn)用的解決方法,先運(yùn)用PMI,又用語(yǔ)言規(guī)則來(lái)彌補(bǔ)統(tǒng)計(jì)方面解決不了的問(wèn)題,即混合翻譯系統(tǒng)設(shè)計(jì)。

        關(guān)鍵詞:計(jì)算語(yǔ)言學(xué) 機(jī)器翻譯 統(tǒng)計(jì) 規(guī)則

        詞的分割是中英文差異中最基本的一項(xiàng)。英文的單詞是天然分開(kāi)的,詞就是最小的能夠獨(dú)立運(yùn)用的語(yǔ)言單位。但中文句子中沒(méi)有直觀的詞的界限,詞也不是最小的語(yǔ)言單位。因此分詞在計(jì)算語(yǔ)言學(xué)中是最為基礎(chǔ)的一項(xiàng),與此同時(shí)會(huì)碰到歧義現(xiàn)象。比如:a. 她憑自己的才能得到了這份工作。b. 你這樣的人才能夠留下來(lái),是我們的幸運(yùn)。a句中的“才能”明顯是一個(gè)詞,而b句中的“人才”和“能夠”卻應(yīng)該分開(kāi)。在這個(gè)過(guò)程中,針對(duì)固定詞表進(jìn)行“一刀切”顯然不可取。

        由此本文提出了針對(duì)分詞問(wèn)題的混合機(jī)器翻譯系統(tǒng)的設(shè)計(jì):基于統(tǒng)計(jì)的機(jī)器翻譯SBMT----- 基于規(guī)則的機(jī)器翻譯系統(tǒng) RBMT。

        首先是統(tǒng)計(jì)方法中基于深度學(xué)習(xí)的點(diǎn)互信息PMI,即如何運(yùn)用PMI進(jìn)行中文分詞。從點(diǎn)互信息的定義來(lái)看,它表示某兩個(gè)字符(漢字)的組合出現(xiàn)在語(yǔ)料庫(kù)中的概率,與各自出現(xiàn)概率乘積的比的對(duì)數(shù)。點(diǎn)互信息定義如下:

        其主要基于語(yǔ)料庫(kù),并計(jì)算詞語(yǔ)間的語(yǔ)義相似度。若概率越大,兩字相關(guān)性就越緊密,關(guān)聯(lián)度越高。所以直觀上可以理解為兩個(gè)字符在語(yǔ)料庫(kù)中組成詞語(yǔ)的可能性。若兩個(gè)事件不相關(guān)也不互斥,那么同時(shí)發(fā)生的概率p(a,b)=p(a)*p(b),此時(shí)p(a,b)/p(a)*p(b)=1,PMI(a,b)=0;如果兩個(gè)事件相關(guān),那么同時(shí)發(fā)生的概率p(a,b)>p(a)*p(b),此時(shí)p(a,b)/p(a)*p(b)>1,PMI(a,b)>0;如果兩個(gè)事件互斥,同理可得PMI(a,b)<0。比如通過(guò)計(jì)算,“中國(guó)”這個(gè)詞的PMI值是1.8448,即可取;而“我病”的PMI值是-0.9099,即不成詞。

        因?yàn)闈h語(yǔ)的特殊性,在分詞的過(guò)程中也存在歧義,而不是簡(jiǎn)單詞性有可能的不同而導(dǎo)致的歧義,這與英文不同。比如以下兩個(gè)句子:

        a. 她憑自己的才能得到了這份工作。

        b. 你這樣的人才能留下來(lái),是我們的幸運(yùn)。

        通過(guò)計(jì)算,“才能”一詞在兩個(gè)句子中都有可能被標(biāo)記出來(lái),即在任何句子中都會(huì)被計(jì)算為同一個(gè)詞。但正確的分詞應(yīng)是如下: b. 你/這樣的/人才/能夠/留下來(lái),是/我們的/幸運(yùn)。如果分詞出現(xiàn)錯(cuò)誤,整個(gè)句子的翻譯會(huì)變得非常奇怪, 如:*b. 你這樣/的/人/才能/留下來(lái),是/我們/的/幸運(yùn)。

        在自然語(yǔ)言處理的過(guò)程中,句法分析既可以彌補(bǔ)基于統(tǒng)計(jì)方法分詞的漏洞問(wèn)題,又可以解決分詞后的詞語(yǔ)歧義問(wèn)題。從整個(gè)句子為單位的角度,基于語(yǔ)言規(guī)則,有效限制基于統(tǒng)計(jì)的分詞任務(wù)。若是依靠統(tǒng)計(jì)方法,就會(huì)出現(xiàn)這種機(jī)械性的計(jì)算的句子:你這樣/的/人/才能/留下來(lái),是/我們/的/幸運(yùn)。

        通常來(lái)講,句子是由一個(gè)名詞詞組加上一個(gè)動(dòng)詞詞組構(gòu)成的。那么這句話逗號(hào)前的半句話就會(huì)單獨(dú)成句,整體被歸為一個(gè)名詞短語(yǔ)和動(dòng)詞短語(yǔ)齊全的簡(jiǎn)單從句,因?yàn)椤澳氵@樣的人才能夠留下來(lái)”的確能獨(dú)立成句,但逗號(hào)后面的“是我們的幸運(yùn)”無(wú)法與其銜接。雖然前半句可以獨(dú)立成句,在語(yǔ)法上也沒(méi)有問(wèn)題,但它卻不是整句話的含義。因此,沒(méi)有了語(yǔ)言規(guī)則的界定,就無(wú)法把整個(gè)句子考慮其中。

        在人機(jī)交互的過(guò)程中,計(jì)算機(jī)沒(méi)有思維能力,而所有的指令只能是絕對(duì)精準(zhǔn)的信息 。只有通過(guò)形式語(yǔ)言的角度,才能把中英文文本處理的法則變成計(jì)算機(jī)能“理解”的信息。for循環(huán)結(jié)構(gòu)的設(shè)計(jì)就是把兩種不同的方法套用在形式語(yǔ)言for循環(huán)的思想里。在實(shí)際的機(jī)器翻譯過(guò)程中,情況會(huì)更加復(fù)雜多變,但可以確定的是,自然語(yǔ)言中的一個(gè)句子不應(yīng)存在歧義,一個(gè)句子只有一個(gè)理解。當(dāng)混合兩種解決方法設(shè)計(jì)時(shí),就涉及到對(duì)整個(gè)系統(tǒng)的反復(fù)執(zhí)行。

        最后,雖然基于規(guī)則的機(jī)器翻譯系統(tǒng)存在一定的缺陷,但要解決翻譯方面的問(wèn)題,最根本地還是要回歸到語(yǔ)言層面,而不是完全寄托于高端技術(shù)或程序設(shè)計(jì)。要取得機(jī)器翻譯的進(jìn)步也不能單單依靠語(yǔ)言學(xué)理論,更要靈活運(yùn)用統(tǒng)計(jì)模型和理論。

        參考文獻(xiàn)

        [1] John Hale. Finding Syntax in Human Encephalography with Beam Search.arXiv:1806.04127v1 [cs.CL] 11 Jun 2018.

        [2] 王金銓?zhuān)?王克非. 計(jì)算語(yǔ)言學(xué)視角下的翻譯研究.外國(guó)語(yǔ). 2008, (5).

        [3] 楊憲澤. 基于實(shí)例的機(jī)器翻譯處理方法. 計(jì)算機(jī)工程. 2003, (12).

        [4] Roger T. Bell.Translation and Translating- Theory and Practice Raymond W. Yeung. Information Theory and Network Coding[M]. Springer; 2008.

        [5] Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27(3):379-423.

        [6] Bo Zheng, Wanxiang Che, Jiang Guo, Ting Liu. Enhancing LSTM-based Word Segmentation Using Unlabeled Data.Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, 2017.

        [7] Chomsky, Noam. Aspects of the theory of syntax. Cambridge, Massachusetts: MIT Press,1965.

        作者簡(jiǎn)介:仲佳琳(1998-),女,籍貫:吉林省長(zhǎng)春市,民族:漢 職稱(chēng)(無(wú))學(xué)歷:在讀本科生。研究方向(翻譯,計(jì)算語(yǔ)言學(xué))

        第二作者姓名:楊宇 單位(南開(kāi)大學(xué)數(shù)學(xué)科學(xué)學(xué)院數(shù)學(xué)系)

        第三作者姓名:李奕琛 單位(南開(kāi)大學(xué)計(jì)算機(jī)控制與工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系)

        猜你喜歡
        機(jī)器翻譯統(tǒng)計(jì)規(guī)則
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        互聯(lián)網(wǎng)+新時(shí)代下人機(jī)翻譯模式研究
        考試周刊(2017年2期)2017-01-19 09:13:50
        “語(yǔ)聯(lián)網(wǎng)+行業(yè)” 助力中國(guó)偉大復(fù)興
        考試周刊(2017年2期)2017-01-19 09:12:54
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        大數(shù)據(jù)背景下石油科技翻譯
        2008—2015我國(guó)健美操科研論文的統(tǒng)計(jì)與分析
        人間(2016年27期)2016-11-11 17:33:19
        山東省交通運(yùn)輸投資計(jì)劃管理信息系統(tǒng)的設(shè)計(jì)
        機(jī)器翻譯不可盲取
        а天堂中文地址在线| 免费一本色道久久一区| 岛国精品一区二区三区| 日本中文字幕一区二区在线观看 | 国产精品乱码一区二区三区| 一本色道av久久精品+网站| 日韩精品视频在线观看免费| 亚洲av自偷自拍亚洲一区| 少妇太爽了在线观看免费| 在线观看免费无码专区| 怡红院免费的全部视频| 国产精品九九久久一区hh| 久久久国产精品五月天伊人| 蜜桃免费一区二区三区| 人妻在卧室被老板疯狂进入| 成人片黄网站色大片免费观看cn| 一区二区韩国福利网站| 午夜av福利亚洲写真集| av天堂最新在线播放| 国产伦人人人人人人性| 国精产品一品二品国在线| 91精品国产闺蜜国产在线| 国产av一区二区网站| 欧美疯狂性受xxxxx喷水| 无码免费一区二区三区| 久久精品国产亚洲不av麻豆| 亚洲色图视频在线观看,| 日本免费一区二区在线视频播放| 不卡av电影在线| 无码人妻丰满熟妇啪啪7774| 精品黄色av一区二区三区| 日本师生三片在线观看| 日韩一区二区三区无码影院| 日韩精品无码免费专区网站| 午夜无码熟熟妇丰满人妻| 日本a级片一区二区三区| 国产aⅴ无码专区亚洲av| 国产suv精品一区二人妻| 精品久久久久88久久久| 国产一区二区三区精品乱码不卡| 午夜熟女插插xx免费视频|