亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于平行語料庫的專利摘要術(shù)語和詞匯量化分析

        2018-11-05 09:56:46李詩品
        科教導(dǎo)刊 2018年22期
        關(guān)鍵詞:機器翻譯

        李詩品

        摘 要 谷歌專利(Google Patent)為廣大用戶提供了便利的專利檢索和翻譯服務(wù),但其(Google Patent)翻譯文本仍然存在著一定的不足。本文基于谷歌專利(Google Patent)的檢索文本,探討美國專利局專利摘要在專利詞匯層面的差異,進而探討計算機通信領(lǐng)域?qū)@写嬖诘姆g共性。本文從谷歌專利(Google Patent)中隨機選取100篇專利摘要文本,借助Antconc文本分析工具和微型平行語料庫探究其詞匯層面的翻譯共性。研究表明,谷歌專利(Google Patent)在術(shù)語的層面,雖然大多數(shù)核心詞能做到相對精確的對應(yīng),但仍存在著部分名詞的指代偏差、修飾詞搭配偏差和術(shù)語結(jié)構(gòu)順序偏差。在詞匯密度和類符比方面,美國專利局的專利摘要文本和谷歌專利摘體現(xiàn)著一定程度的翻譯共性。 關(guān)鍵詞 機器翻譯 專利摘要 平行語料庫 翻譯共性

        中圖分類號:H315.9 文獻標(biāo)識碼:A DOI:10.16400/j.cnki.kjdks.2018.08.030

        Abstract Google Patent provides a convenient patent search and translation service for users, but there are still some shortcomings in its translation. Based on the search text of Google Patent, this paper explores the differences in patent vocabulary between US Patent Office patent abstracts, and then explores the commonalities of translation in patent abstracts in computer communications. This paper randomly selects 100 patent abstract texts from Google Patent, and explores the commonality of translation at the lexical level by means of Antconc text analysis tools and micro-parallel corpus. Studies have shown that Google Patent at the level of terminology, although most of the core words can achieve a relatively accurate correspondence, there are still some nouns of the deviation of the reference, modifier collocation deviation and term structure order deviation. In terms of vocabulary density and class proportions, the US Patent Office's patent abstract text and Google patent abstracts reflect a certain degree of translation commonality.

        Keywords machine translation; patent abstracts; parallel corpus; translation commonality

        1 概述

        通信互聯(lián)網(wǎng)行業(yè)作為21世紀(jì)的新興產(chǎn)業(yè),其專利需求量與日俱增。僅從2012年到2016年,世界范圍內(nèi)戰(zhàn)略性新興產(chǎn)業(yè)領(lǐng)域的專利數(shù)量激增,全球戰(zhàn)略性新興產(chǎn)業(yè)發(fā)明專利申請量達到357萬件,五年年均增長率為 5.8% 。[1]專利不僅承擔(dān)著向特定讀者群體傳播技術(shù)發(fā)明的作用,同時可以作為預(yù)防侵權(quán)的有力證據(jù)。作為記錄授予發(fā)明人一定時間的權(quán)利的法律文件,專利對保護知識產(chǎn)權(quán)的合法權(quán)利和生產(chǎn)起著至關(guān)重要的作用。[2]而專利翻譯摘要作為專利檢索的切入點,可以助于專家總覽全文。谷歌專利(Google Patent)作為一個在線專利網(wǎng)站,其豐富的語庫可以實現(xiàn)一定程度的翻譯服務(wù),達到一定程度的翻譯對等。然而,這種對等仍然沒有實現(xiàn)賴斯 (Kantarlna Relss)所提出的功能對等。[3]在實際操作中,專利翻譯者需要注重翻譯細(xì)節(jié)和專利文獻的功能對等。隨著中國新興產(chǎn)業(yè)的迅速崛起,專利成為知識產(chǎn)權(quán)“走出去”的有力保障。探究中英文專利翻譯摘要文獻與谷歌專利(Google Patent)所生成的機器翻譯文本在術(shù)語層面的差異,不僅具有較高的學(xué)術(shù)價值,同時對實現(xiàn)專利的機助翻譯具有十分重要的意義。

        2 文獻綜述

        自20世紀(jì)50年代初,一些學(xué)者開始重視機器翻譯。江鎮(zhèn)化指出了潛在的困難,并提出了機器可用于翻譯活動的假設(shè)。[4]機器翻譯在專利領(lǐng)域的研究始于2007年,劉韌介紹了第一個專利機器翻譯引擎。[5]2011年,中國專利信息中心——北京師范大學(xué)機器翻譯聯(lián)合實驗室成立。

        此后,越來越多的學(xué)者研究機器翻譯在專利翻譯領(lǐng)域的應(yīng)用以及專利機器翻譯的優(yōu)化。[6]隨著機器翻譯的興起,翻譯語料庫應(yīng)運而生。

        語料庫(corpus)是指按照一定的語言學(xué)原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片斷。[7]梁茂成指出,存在著“基于語料庫”的研究范式和“語料庫驅(qū)動”兩研究模式。[8]前者只是將語料庫視為眾多數(shù)據(jù)種類中的一種,不排斥在必要時使用其他類型的數(shù)據(jù),而后者主張一切源自語料庫。其中,基于語料庫的翻譯語言研究十分活躍,就翻譯共性而言,胡顯耀、曾佳等發(fā)現(xiàn),翻譯語料與原創(chuàng)語相比,表現(xiàn)出明顯的簡化、顯化和范化特征;[9]而且,無論是文學(xué)還是非文學(xué)語料,翻譯語與原創(chuàng)語相比具有詞語變化度偏低、詞匯密度偏低、虛詞和指代方式顯化、常用詞頻率增加等特征。[10]

        從文本量化層面,Tsai、Y.在專利翻譯詞匯層面研究對比了中英專利文獻的字長、詞頻、關(guān)鍵詞和類型標(biāo)記率。[11]她發(fā)現(xiàn),英文專利摘要更多的使用短句,而中文專利用詞更為多樣化。然而,她只是調(diào)查了中英文專利摘要的差異,兩者區(qū)別對于機助翻譯顯得并不是那么直觀。班尼特特別關(guān)注了翻譯的問題,他認(rèn)為學(xué)術(shù)文本的寫作慣例具有準(zhǔn)確、簡潔和清晰的特點,這與專利文本的標(biāo)準(zhǔn)非常相似。[12]

        3 研究方法

        在文本選擇層面,美國專利局的專利包括實用專利、外觀設(shè)計專利和植物專利。[13]而我國將專利分為發(fā)明專利、實用新型專利和外觀設(shè)計專利。[14]因為我們根據(jù)世界知識產(chǎn)權(quán)組織(WIPO)根據(jù)合作專利分類(CPC)章程,選定了隸屬于(H4)電力通信行業(yè)范疇的專利文本。

        在語料庫層面,我們采用隨機選取的策略,在谷歌專利中設(shè)置了檢索限制。將專利文本限制在2013年1月1日到2017年12月30日。同時考慮到專利是否同時具有中英文版本,以及這些文本是否具有代表性。我們選擇了高通、華為、中興等通訊行業(yè)的巨頭作為研究對象。通過Excel 軟件做成標(biāo)題對齊、句子對齊和段落對齊的三種語料庫。

        在量化層面,我們使用了美國當(dāng)代語料庫(COCA)。同時,使用語料庫在線對于中文文本進行標(biāo)注,進而使用antconc和WordSmith探索中英文專利和機器翻譯文本在詞頻、詞密度、字長和類符比層面的差異,進而研究其翻譯共性。

        4 結(jié)果和討論

        詞法分析旨在研究目標(biāo)語中的字長、詞頻、關(guān)鍵詞和類符比。單詞長度是指一個單詞中的字符數(shù),而詞頻為每個文本提供文體特征的統(tǒng)計證據(jù)。[15]使用語料庫工具可以搜索文本中的單詞或短語,進而系統(tǒng)地展示其文本特征。

        4.1 術(shù)語差異

        專利摘要中的術(shù)語必須符合國家規(guī)定或行業(yè)內(nèi)的共識,因而其選擇是極為嚴(yán)格的,同時專利的術(shù)語通常集中在專利文摘的標(biāo)題中。[16]因此,我們隨機抽樣了100份專利摘要的標(biāo)題,并且對比了美國專利摘要和谷歌專利(Google Patent)翻譯文本的差異。實驗表明:(Google Patent)可以實現(xiàn)37%標(biāo)題完全對等,這足以顯示機器翻譯在專利術(shù)語層面的準(zhǔn)確性較高。同時26%的標(biāo)題實現(xiàn)了名詞的完全對等、只有形容詞和動詞的細(xì)微差別。

        谷歌專利(Google Patent)可以在術(shù)語選擇方面實現(xiàn)較高的準(zhǔn)確度。與美國專利局專利相比,谷歌專利(Google Patent)在相同、相似和核心詞對等的百分比已達到90%。然而僅37%的完全對等并不能滿足翻譯的要求。術(shù)語的選擇可以反映專利寫作的準(zhǔn)確性。例如在“用戶設(shè)備”中,user device和user equipment表面上看都是可以接受的。但是,事實上,當(dāng)我們使用COCA進行驗證時,結(jié)果表明user device比user equipment更容易接受。同時,user device的MI值達到3.06,超過3.0這一搭配界限。

        類似的例子,如在“系統(tǒng)裝置”中。其裝置可以通過COCA語料庫來驗證。其結(jié)果是, apparatus指代需要裝配起來的裝置,device強調(diào)已經(jīng)裝配完整的裝置。除了以上的名詞差異外,在專利中delivery method 和 delivering method也有著一定的差異。delivery method這一術(shù)語在COCA語料庫中出現(xiàn)頻率較高。雖然可以將轉(zhuǎn)化為method of delivering,但鑒于專利撰寫的簡潔性而舍棄。

        在術(shù)語層面,除了名詞術(shù)語的差異外,形容詞差異為另一個突出問題。如:

        中文:RRS由遠(yuǎn)端接口單元、射頻收發(fā)單元(TRU)和天線

        美國專利局:The RRS includes a remote interface unit, a RF transceiver unit (TRU) and an antenna

        谷歌專利局:The RRS is composed of a far-end interface unit, a radio-frequency transceiver unit (TRU) and an antenna

        三個版本除了遠(yuǎn)端 這一形容詞不同之外,其余術(shù)語基本一致。在美國專利局的摘要文本中,技術(shù)寫作者選用了remote而不是far-end。我們可以通過COCA語料庫進行驗證。結(jié)果表明,far-end一詞通常用于描述噪音,而remote多用于通信行業(yè)。而我們在COCA界面搜索remote,我們可以在5173個文本中搜索到多個MI值超過3.0的搭配。因此,遠(yuǎn)端接口中的remote更符合語料庫的表達習(xí)慣。

        4.2 詞匯密度和類符比

        詞匯密度指的是文本中實詞的數(shù)量。更準(zhǔn)確地說,詞匯密度可以反映詞匯在語境中的比例。較高的詞匯密度可以反映文本的簡潔度。另一個詞匯層面的衡量標(biāo)準(zhǔn)是類符比。類型是指文本中所有詞匯的數(shù)量,而形符是指文本中不同單詞的數(shù)量。詞匯密度和類符比可以反映文本單詞總數(shù)和樣本中使用的各種詞的數(shù)量之間的關(guān)系(見表1)。

        將100隨機選取的專利摘要平行語料庫中。我們發(fā)現(xiàn)美國專利局的詞匯類型和符號數(shù)分別1310和12016,而谷歌專利翻譯所對應(yīng)單詞類型和符號數(shù)分別為1466和14139,美國專利局類符比為10.9%,而谷歌專利機器翻譯的類符比10.2%。而中文標(biāo)注之后的文本類型和符號數(shù)分別為1273和16882,漢語原文的類符比7.5%。根據(jù)貝克的在翻譯共性中提到的翻譯簡化理論,譯者會對原語文本中的“語言 / 信息下意識地簡單化”。[17]可以看出,美國專利局的翻譯文本和谷歌專利機器翻譯的翻譯文本相比,在句長和詞匯密度方面都更為精煉、簡潔。

        結(jié)合上一具體事例,我們可以看出三種文本的情況。這從側(cè)面證實了谷歌專利翻譯在英文譯本中存在著一定的翻譯共性。即在谷歌專利(Google Patent)英文翻譯中,雖然存在著詞語變化度偏低、詞匯密度偏低、虛詞和指代方式顯化、常用詞頻率增加等特征。

        5 總結(jié)

        專利文獻摘要作為專利檢索的核心,有著舉足輕重的作用。其文本質(zhì)量不僅決定著文本能否通過,同時也決定著某一項創(chuàng)新能夠得以保護。盡管很多專家在專利翻譯的術(shù)語選擇方面進行了一定的研究。但是結(jié)合語料庫從翻譯共性和文本量化層面的研究仍然不多。本文從詞匯入手,結(jié)合語料庫的工具,探索了谷歌專利在專利摘要詞匯層面的翻譯共性,得出谷歌專利在術(shù)語層面可以實現(xiàn)較為精準(zhǔn)的對應(yīng),但在限定詞層面需要使用語料庫進行驗證。同時,在詞匯密度和類符比方面,美國專利局的專利摘要文本和谷歌專利摘雖然存在著一定的翻譯共性,但其文本詞匯密度比中文偏高。

        綜上所述,中英文專利摘要文獻在寫作中存在著很多差異??紤]到現(xiàn)實的操作性和平行語料庫的嚴(yán)格要求,專利樣本并不大。但基于選擇專利摘要的隨機性原則,所選的專利文本和實驗結(jié)果仍然具有一定的有效性。同時,這一實驗結(jié)果對我們進一步探索中英文專利文獻的寫作特點和基于機器翻譯的后期編譯具有一定的參考價值。

        參考文獻

        [1] 楊國鑫,劉磊,王奕潔,等.戰(zhàn)略性新興產(chǎn)業(yè)發(fā)明專利授權(quán)報告(2009—2013)[J].科學(xué)觀察,2016(1):27-47.

        [2] Marco A C,Toole A A, Miller R, et al. USPTO Patent Prosecution and Examiner Performance Appraisal[J].2017.

        [3] 許慶華.功能對等理論在科技英語漢譯中的應(yīng)用研究[D].吉林大學(xué),2009.

        [4] 胡韌奮.面向漢英專利機器翻譯的介詞短語自動識別策略[J].語言文字應(yīng)用,2015(1):136-144.

        [5] 江鎮(zhèn)華.怎樣閱讀及翻譯英文專利文獻.知識產(chǎn)權(quán)出版社,2010.

        [6] 薛寶.中國專利信息中心-北京師范大學(xué)機器翻譯聯(lián)合實驗室揭牌[J].北京師范大學(xué)學(xué)報:自然科學(xué)版,2011.47(2):137-137.

        [7] Sinclair J.Corpus,concordance, collocation[M].Oxford University Press,1991.Chapter 1, pp 12-35.

        [8] 梁茂成.語料庫語言學(xué)研究的兩種范式:淵源,分歧及前景[J].外語教學(xué)與研究:外國語文雙月刊,2012.44(3):323-335.

        [9] 胡顯耀,曾佳.基于語料庫的翻譯共性研究新趨勢[J].解放軍外國語學(xué)院學(xué)報,2011(1):56-62.

        [10] 王克非,胡顯耀.基于語料庫的翻譯漢語詞匯特征研究[J].中國翻譯,2008.29(6):16-21.

        [11] Tsai Y. Text analysis of patent abstracts[J].JoSTrans,2010.13:61-80.

        [12] Bennett, G., & Jessani, N. (Eds.).The knowledge translation toolkit: Bridging the know-do gap: A resource for researchers[M].IDRC,2011.

        [13] Leydesdorff L, Kushnir D, Rafols I. Interactive overlay maps for US patent (USPTO) data based on International Patent Classification (IPC)[J].Scientometrics, 2014.98(3):1583-1599.

        [14] 董濤,賀慧.中國專利質(zhì)量報告——實用新型與外觀設(shè)計專利制度實施情況研究[J].科技與法律,2017.7(2):220-305.

        [15] Popiolek M. Terminology management within a translation quality assurance process[J]. Handbook of Terminology,2015.1:341.

        [16] Tsai Y. Linguistic evaluation of translation errors in Chinese–English machine translations of patent titles[C]//FORUM. Revue internationale dinterpr ation et de traduction/International Journal of Interpretation and Translation. John Benjamins Publishing Company, 2017.15(1):142-156.

        [17] Mauranen A. Universal tendencies in translation[J]. Incorporating corpora: The linguist and the translator,2008:32-48.

        猜你喜歡
        機器翻譯
        海量數(shù)據(jù)機器單詞中關(guān)鍵語義篩選方法研究
        機器翻譯不可盲取
        青春歲月(2017年1期)2017-03-14 11:28:47
        信息時代下機器翻譯的“可譯”與“不可譯”
        互聯(lián)網(wǎng)+新時代下人機翻譯模式研究
        考試周刊(2017年2期)2017-01-19 09:13:50
        “語聯(lián)網(wǎng)+行業(yè)” 助力中國偉大復(fù)興
        考試周刊(2017年2期)2017-01-19 09:12:54
        大數(shù)據(jù)背景下石油科技翻譯
        智富時代(2016年12期)2016-12-01 17:03:10
        機器翻譯不可盲取
        基于免費在線翻譯工具的機器翻譯缺陷探討
        漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        機器翻譯句法錯誤分析
        亚洲国产中文字幕在线视频综合| 91精品国产色综合久久不卡蜜| av无码电影一区二区三区| 亚洲av色香蕉一区二区三区潮| 狠狠躁天天躁无码中文字幕图| 中文字幕一区二区三区人妻少妇| 国产剧情福利AV一区二区| 亚洲综合精品一区二区三区| 日韩中文字幕在线观看一区| 精品人妻午夜一区二区三区四区 | 亚洲精品成人无限看| 男男性恋免费视频网站| 亚洲色欲Aⅴ无码一区二区| 日本熟妇免费一区二区三区| 婷婷亚洲岛国热超碰中文字幕| 久久久久女人精品毛片| 亚洲AV肉丝网站一区二区无码| 长腿丝袜在线观看国产| 曰韩无码av一区二区免费| 久久久久久人妻一区二区三区| 亚洲三级在线播放| 国产乱人伦偷精品视频还看的| 久久伊人精品一区二区三区| 亚洲av成人精品日韩一区| 人妻av午夜综合福利视频| 在线观看麻豆精品视频| 日韩人妻无码精品久久免费一| 综合网在线视频| 美腿丝袜网址亚洲av| 亚洲av色香蕉一区二区三区| 少妇白浆高潮无码免费区| 一区二区三区国产高潮| 日本免费一二三区在线| 亚洲人成电影在线播放| 亚洲中文字幕在线一区二区三区| 午夜宅男成人影院香蕉狠狠爱| 精品露脸国产偷人在视频| a级黑人大硬长爽猛出猛进 | 91青青草久久| 人妻少妇精品视频专区二区三区| 国产精品久久国产精品99 |