亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HNC理論和自動(dòng)文摘的計(jì)算機(jī)輔助英漢科技翻譯模式

        2012-10-29 10:21:46杜玲莉紀(jì)再祥楊繼唐
        關(guān)鍵詞:文摘語(yǔ)義自動(dòng)

        杜玲莉,紀(jì)再祥,周 宏,楊繼唐,王 俐

        (1.武漢理工大學(xué) 外國(guó)語(yǔ)學(xué)院,湖北 武漢430063;2.武漢航海職業(yè)技術(shù)學(xué)院,湖北 武漢430062;3.武漢交通職業(yè)技術(shù)學(xué)院,湖北 武漢430062)

        一、研究背景

        HNC即概念層次網(wǎng)絡(luò)(Hierarchical Network of Concepts),它是黃曾陽(yáng)創(chuàng)立的用于描述自然語(yǔ)言理解的理論框架。該框架以傳統(tǒng)國(guó)學(xué)研究和現(xiàn)代語(yǔ)言學(xué)研究成果為基礎(chǔ),其核心目標(biāo)是建立一種自然語(yǔ)言的計(jì)算機(jī)表述和處理模式,使機(jī)器能夠真正實(shí)現(xiàn)模擬人腦的語(yǔ)言感知功能。[1]它以語(yǔ)義表達(dá)為方向,著眼于深層次的理解,沖破了以前相關(guān)理論基于文本語(yǔ)言形式的句法分析思路的局限性,表達(dá)呈現(xiàn)出概念化、層次化和網(wǎng)絡(luò)化的特征。它面向整個(gè)自然語(yǔ)言理解,建立了強(qiáng)大而完善的語(yǔ)義描述體系。其內(nèi)容涵蓋了語(yǔ)句處理、句群處理、篇章處理、短時(shí)記憶向長(zhǎng)時(shí)記憶擴(kuò)展處理、文本自動(dòng)學(xué)習(xí)處理等方面?!霸诳茖W(xué)上為認(rèn)知科學(xué)、語(yǔ)言學(xué)與人工智能的研究提供了一個(gè)全新的理論框架”[2]。HNC理論模擬人腦的認(rèn)知機(jī)制,特色鮮明,在自然語(yǔ)言理解領(lǐng)域獨(dú)領(lǐng)風(fēng)騷,因其在計(jì)算機(jī)理解人類自然語(yǔ)言方面開拓出的新路子而成為了國(guó)內(nèi)目前自然語(yǔ)言理解和處理的三大流派之一。

        該理論將人腦的認(rèn)知結(jié)構(gòu)劃分為局部和全局兩個(gè)聯(lián)想脈絡(luò),而語(yǔ)言深層(即語(yǔ)言的語(yǔ)義層面)的根本問題正是對(duì)聯(lián)想脈絡(luò)的表達(dá)。根據(jù)HNC理論,全球6000多種人類的自然語(yǔ)言之所以能相互理解并翻譯,是由于人類大腦中存在著一個(gè)概念空間,這正是人類賴以認(rèn)識(shí)世界和進(jìn)行思維活動(dòng)的基礎(chǔ)。而作為整個(gè)概念空間中的一個(gè)子空間,語(yǔ)言概念空間與自然語(yǔ)言的理解以及運(yùn)用都息息相關(guān)。雖然自然語(yǔ)言空間呈現(xiàn)出多種多樣的形態(tài),但人類卻有著共同的語(yǔ)言概念空間。兩者相互對(duì)應(yīng),構(gòu)成果與因、流與源的關(guān)系。前者是后者的外在表現(xiàn)形式,兩個(gè)空間之間存在著多對(duì)一的映射關(guān)系。HNC理論認(rèn)為人類語(yǔ)言之間的翻譯可以解釋為將一種自然語(yǔ)言空間映射到另一種自然語(yǔ)言空間的過程。該過程可分為兩個(gè)階段:第一階段由源語(yǔ)言向HNC語(yǔ)言概念空間映射,源語(yǔ)言的語(yǔ)詞和語(yǔ)句將分別映射為HNC概念以及句類表示符號(hào);而在第二階段中,語(yǔ)言概念空間將向目標(biāo)語(yǔ)言進(jìn)行反映射,即源語(yǔ)言中的HNC概念和句類表示符號(hào)反映射到目標(biāo)語(yǔ),成為目標(biāo)語(yǔ)中的語(yǔ)詞和語(yǔ)句(如圖1所示)。[3]

        圖1 HNC語(yǔ)言空間映射模型

        在這個(gè)模型中,第一部分即是源語(yǔ)分析過程或翻譯理解過程,而第二部分則是目標(biāo)語(yǔ)的生成過程或翻譯的形成過程。兩者的中間存在一個(gè)過渡處理過程,即運(yùn)用HNC概念和符號(hào)表述的過程。它包含句類轉(zhuǎn)換和語(yǔ)句格式轉(zhuǎn)換,即從語(yǔ)義塊感知來(lái)辨識(shí)句類,并對(duì)句類進(jìn)行假設(shè),然后依據(jù)句類先驗(yàn)知識(shí)對(duì)語(yǔ)義塊的構(gòu)成作進(jìn)一步的分析,并據(jù)此來(lái)對(duì)語(yǔ)句中存在的發(fā)音模糊、音詞轉(zhuǎn)換模糊、詞的多義模糊、語(yǔ)義塊構(gòu)成的切分模糊、指代冗缺模糊等進(jìn)行消解,涉及語(yǔ)義塊構(gòu)成變換、語(yǔ)義塊主輔變換以及輔塊和小句的排序調(diào)整等。這一系列的過渡處理是生成高質(zhì)量翻譯的必要條件。

        多年來(lái),諸如中心動(dòng)詞的辨識(shí)、語(yǔ)序的確定、詞義模糊、未登錄詞的識(shí)別等這些困擾漢語(yǔ)理解和人工語(yǔ)言處理的多個(gè)難題終于在HNC理論的句類分析方法中找到了解決方案。有了句類分析對(duì)源語(yǔ)正確理解為前提,如何進(jìn)一步提高翻譯的精度和質(zhì)量則依賴于對(duì)反映射知識(shí)庫(kù)的更廣泛和深入的挖掘。

        二、問題描述

        科技文獻(xiàn)因其強(qiáng)烈的專業(yè)性而對(duì)翻譯的有效性提出了較高要求。科技翻譯研究也走過了基于規(guī)則、基于實(shí)例、基于統(tǒng)計(jì)的不同階段。關(guān)于文本理解的研究對(duì)象和表述,從語(yǔ)詞、語(yǔ)句,再到語(yǔ)篇,語(yǔ)言學(xué)和人工智能學(xué)界多年來(lái)爭(zhēng)論不休,語(yǔ)篇語(yǔ)義的理解和表達(dá)成為了相關(guān)研究的瓶頸。那么,如何從語(yǔ)篇角度更全面地理解文本,從而有效提高翻譯時(shí)效和質(zhì)量。

        長(zhǎng)期的語(yǔ)言智能和翻譯實(shí)踐表明語(yǔ)篇的理解不等同于語(yǔ)詞或語(yǔ)句意義的簡(jiǎn)單相加。如果說HNC理論中語(yǔ)義塊概念為此提供了理論支持,那么自動(dòng)文摘技術(shù)則為這一問題的解決提供了現(xiàn)實(shí)有效的途徑。自動(dòng)文摘就是利用計(jì)算機(jī)從原始文獻(xiàn)中自動(dòng)地提取文本的主要內(nèi)容。面對(duì)信息時(shí)代大量的科技文獻(xiàn),對(duì)其進(jìn)行快速提煉和濃縮是提高信息資源獲取效率的有效手段。這一技術(shù)實(shí)際上將文本語(yǔ)義的理解和表述推向了極致。筆者大膽設(shè)想,科技文本翻譯可以從這里起步。這樣做的好處在于:借助相關(guān)技術(shù),不僅翻譯工作者可以大大提高翻譯理解階段的準(zhǔn)確度和效率,而且為機(jī)器翻譯領(lǐng)域研究減少部分因復(fù)雜的語(yǔ)言深層結(jié)構(gòu)分析所耗精力。

        自動(dòng)文摘研究在過去50多年發(fā)展歷史中吸引了世界上許多國(guó)家的學(xué)者投入研究,其領(lǐng)域橫跨了計(jì)算機(jī)科學(xué)、人工智能、情報(bào)科學(xué)和語(yǔ)言學(xué)等多個(gè)學(xué)科,并取得了很大的進(jìn)步。目前這方面的研究已形成了一定的理論與方法,其中,基于句子概率統(tǒng)計(jì)、文本結(jié)構(gòu)、領(lǐng)域理解、信息抽取和四種自動(dòng)文摘技術(shù)成為了主流方法。它們共同的設(shè)計(jì)理念都離不開對(duì)自然語(yǔ)言的分析和技術(shù)處理兩部分。這四種主流自動(dòng)文摘技術(shù)應(yīng)用中的技術(shù)難度、應(yīng)用領(lǐng)域、生成的文摘質(zhì)量方面各有優(yōu)劣,因此不少學(xué)者提出建議——采用一種綜合式的面向非受限領(lǐng)域的自動(dòng)文摘方法,既要從微觀上考慮文本的表面結(jié)構(gòu),又要從宏觀上把握篇章結(jié)構(gòu)特征。即文本形式特征將作為衡量文章中句子權(quán)值的基本方法,用篇章結(jié)構(gòu)分析替代深層的語(yǔ)義分析,從而避免機(jī)械抽取文摘內(nèi)容會(huì)遺漏的問題,最后引入句法和語(yǔ)義分析,對(duì)所抽取文摘句進(jìn)行可讀性的潤(rùn)色加工,解決文摘簡(jiǎn)潔性和連貫性不足的問題。目前,較新的研究成果就來(lái)自這種綜合式的思路。

        三、翻譯模式設(shè)計(jì)

        根據(jù)HNC理論和自動(dòng)文摘技術(shù),科技文獻(xiàn)新的翻譯模式設(shè)計(jì)如下(見圖2):

        1.文獻(xiàn)理解。首先,使用ParaConc對(duì)待譯科技文獻(xiàn)(Ts)進(jìn)行預(yù)處理——分詞處理,得到用于建立文摘的向量空間模型(VSM)的段落和詞。[4]采用向量空間模型將文本的篇章結(jié)構(gòu)進(jìn)行自動(dòng)分析,根據(jù)語(yǔ)義相似度建立段落間的關(guān)系圖,該段落與主題的關(guān)系就是段落的重要度,提取各段落的重要度信息,使用標(biāo)題或聚類的方法將意義相近的段落歸納為同一語(yǔ)義塊;依據(jù)文本中詞的頻度、句子位置、提示語(yǔ)等形式特征計(jì)算語(yǔ)義塊的權(quán)值,分別從各語(yǔ)義塊中提取權(quán)值較高的句子作為文摘句;從句法和語(yǔ)義兩方面對(duì)提取的文摘句進(jìn)行分析,解決諸如指代詞不明、表述冗余、詞句不連貫等問題,最終的文摘將具備簡(jiǎn)潔、通順、可性讀強(qiáng)等特點(diǎn)。[5]

        圖2 科技文獻(xiàn)翻譯模式圖

        2.計(jì)算機(jī)輔助翻譯(Computer Assisted Translation,CAT)。將文獻(xiàn)理解階段所獲文摘進(jìn)行中心句和關(guān)鍵詞提取,使用Yaxin或Trados等機(jī)輔翻譯軟件進(jìn)行翻譯前預(yù)處理,檢索并確定中心句和關(guān)鍵詞的譯法,利用語(yǔ)料對(duì)齊技術(shù)將確定后的雙語(yǔ)對(duì)應(yīng)翻譯文本導(dǎo)入相應(yīng)的雙語(yǔ)數(shù)據(jù)庫(kù);使用翻譯記憶庫(kù)(Translation Memory,TM)進(jìn)行機(jī)器預(yù)翻譯(Machine Translation,MT),得到初步的由源文本(Ts)映射到目標(biāo)語(yǔ)的翻譯文本(Tt);然后進(jìn)行最后也是最關(guān)鍵的由翻譯人員進(jìn)行的細(xì)致的修正過程(Human Translation,HT),從而得到翻譯初稿。修正涉及詞語(yǔ)、句法、語(yǔ)篇等各個(gè)層次,特別是語(yǔ)際分詞錯(cuò)誤、歧義、固定習(xí)語(yǔ)等機(jī)器翻譯的盲點(diǎn)。

        3.評(píng)估修正(Evaluation &Correction,EC)。對(duì)翻譯譯文的評(píng)價(jià),如果通過人工實(shí)現(xiàn)則人為因素影響很大,并且對(duì)評(píng)價(jià)人員的要求也很高,不僅實(shí)現(xiàn)起來(lái)困難,而且還導(dǎo)致了評(píng)價(jià)標(biāo)準(zhǔn)的不一致。于是設(shè)計(jì)自動(dòng)化、規(guī)范化的評(píng)價(jià)方法便成為許多學(xué)者的研究目標(biāo)。各種研究成果紛呈,基本設(shè)計(jì)方向是從TM語(yǔ)料庫(kù)中獲取翻譯知識(shí),建立n元語(yǔ)言模型,在此基礎(chǔ)上為譯文的任意句子評(píng)分。[6]

        根據(jù)HNC理論,語(yǔ)際翻譯實(shí)際上就是一個(gè)從源語(yǔ)言到目標(biāo)語(yǔ)的概念映射過程,所以系統(tǒng)評(píng)估的標(biāo)尺是語(yǔ)際映射的速度和準(zhǔn)確程度。映射規(guī)則的復(fù)雜程度決定了映射的速度,而準(zhǔn)確程度的評(píng)估參照物則是通過比對(duì)機(jī)輔翻譯文本與專家翻譯文本的相符度。兩個(gè)文本越相近,翻譯質(zhì)量就越高。這里包含了評(píng)估系統(tǒng)的兩個(gè)重要指標(biāo):準(zhǔn)確率和召回率。

        召回率是指所有機(jī)輔翻譯Tt與所有待譯的文本數(shù)的比率,其表達(dá)式如下:

        召回率(Recall)=機(jī)輔翻譯Tt中正確翻譯句子數(shù)/所有待譯的句子數(shù)

        準(zhǔn)確率是指所有機(jī)輔翻譯Tt中與專家翻譯的文本相吻合的句子所占的比率,其表達(dá)式如下:

        準(zhǔn)確率(Precision)=機(jī)輔翻譯Tt中正確翻譯句子數(shù)/專家翻譯的句子數(shù)

        召回率和準(zhǔn)確率是評(píng)估翻譯質(zhì)量的兩個(gè)重要方面,必須將兩者進(jìn)行綜合考慮。

        此外,Neubert等將語(yǔ)篇內(nèi)部和外部屬性具體概括為七個(gè)方面:意向性、可接受性、情景性、信息性、互文性、連貫性和銜接性。[7]建立評(píng)估模型時(shí),文本語(yǔ)篇層面的這些重要特征可作為相應(yīng)參數(shù),并可根據(jù)不同類型的Ts調(diào)整各參數(shù)的權(quán)重。

        四、試驗(yàn)驗(yàn)證

        為檢驗(yàn)該模型的可行性,筆者分別從PNAS(Proceedings the National Academy of Science of the USA)和中國(guó)知網(wǎng)上隨機(jī)抽取了24篇專業(yè)期刊文章進(jìn)行了對(duì)照實(shí)驗(yàn)。其中,自然科學(xué)類(涉及生物、化學(xué)等專業(yè))和人文類(包括管理、教育等專業(yè))各占50%,中英文各50%。對(duì)照組為掌握自動(dòng)文摘(AA)生成和計(jì)算機(jī)輔助翻譯軟件的翻譯者以及普通的翻譯者。試驗(yàn)方式是將24篇文章給3組被試分別用傳統(tǒng)方式(Tr)、計(jì)算機(jī)輔助翻譯方式(CAT)、文摘自動(dòng)提取加計(jì)算機(jī)輔助(AA+CAT)模式各自進(jìn)行翻譯。并將所譯文檔建成小型數(shù)據(jù)庫(kù),分析結(jié)果如下(h/p:小時(shí)/篇):

        表1

        表2

        五、結(jié) 論

        通過比較,發(fā)現(xiàn)AA+CAT模式在準(zhǔn)確率和速度方面與其他模式相比有明顯優(yōu)勢(shì),召回率與CAT模式區(qū)別不大,但比Tr模式改善不少。說明從整體效率而言,計(jì)算機(jī)輔助翻譯比傳統(tǒng)翻譯方式先進(jìn),而采用自動(dòng)文摘技術(shù)對(duì)文本進(jìn)行譯前處理又比單純使用計(jì)算機(jī)輔助翻譯技術(shù)的效率有所提高。當(dāng)然,這一結(jié)果也可能因被試的專業(yè)背景和掌握相關(guān)技術(shù)的熟練程度等因素而受影響。另外由于條件限制,試驗(yàn)樣本范圍有限,代表性有待進(jìn)一步驗(yàn)證。

        [1]黃曾陽(yáng).HNC理論與自然語(yǔ)言語(yǔ)句的理解[J].中國(guó)基礎(chǔ)科學(xué),1999,1(2):83-88.

        [2]許嘉璐.現(xiàn)狀和設(shè)想——試論中文信息處理與現(xiàn)代漢語(yǔ)研究[J].中國(guó)語(yǔ)文,2000(6):491.

        [3]張克亮,基于HNC理論的漢英機(jī)器翻譯策略研究[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2003(5):60-64.

        [4]郭王箐,萬(wàn)敏.面向非受限領(lǐng)域的綜合式自動(dòng)中文文摘方法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2002,42(1):7-9.

        [5]錢多秀.計(jì)算機(jī)輔助翻譯[M].北京:外語(yǔ)教學(xué)與研究出版社,2011:139-142.

        [6]張劍,吳際,周明.機(jī)器翻譯評(píng)測(cè)的新進(jìn)展[J].中文信息學(xué)報(bào),2003,17(6):1-8.

        [7]Neubert A,Gregory M S.Translation as Text[M].Kent:Kent State University Press,1992:117.

        猜你喜歡
        文摘語(yǔ)義自動(dòng)
        IAPA文摘
        自動(dòng)捕盜機(jī)
        語(yǔ)言與語(yǔ)義
        基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
        文摘
        寶藏(2017年2期)2017-03-20 13:16:46
        關(guān)于自動(dòng)駕駛
        汽車博覽(2016年9期)2016-10-18 13:05:41
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        Stefan Greiner:我們?yōu)槭裁葱枰詣?dòng)駕駛?
        認(rèn)知范疇模糊與語(yǔ)義模糊
        語(yǔ)義分析與漢俄副名組合
        麻豆精品国产精华液好用吗| 2020国产精品久久久久| 91日本在线精品高清观看| 成年女人午夜特黄特色毛片免| 少妇高潮久久蜜柚av| 98色婷婷在线| 99精品欧美一区二区三区| 欧美成人中文字幕| 成人综合亚洲欧美一区h| 国产精品日本一区二区三区在线| 国内自拍偷国视频系列| 小妖精又紧又湿高潮h视频69| 大陆极品少妇内射aaaaaa| 久久tv中文字幕首页| 日本韩国三级aⅴ在线观看 | 亚洲精品美女久久久久久久| 无码视频一区=区| 国产成人亚洲综合二区| 日韩av一区二区网址| 香港三级日本三级a视频| 伴郎粗大的内捧猛烈进出视频观看 | 国产无遮挡裸体免费视频| 亚洲人成网站久久久综合| 亚洲日本精品一区二区三区| 中文字幕亚洲熟女av| 久久久无码精品亚洲日韩按摩| 国内露脸中年夫妇交换| 日本高清视频在线一区二区三区| 国产一区二区三免费视频| 亚洲av成人片色在线观看高潮| 国产午夜精品一区二区三区不卡| 音影先锋色天堂av电影妓女久久| 在线观看中文字幕不卡二区| 五月开心婷婷六月综合| 精品成人av一区二区三区| 免费国产黄线在线播放| 日本伦理视频一区二区| 亚洲av天堂免费在线观看| 99精品欧美一区二区三区| 精品人妻少妇一区二区中文字幕| 亚洲大胆美女人体一二三区|