亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        口譯語料庫的編碼與標(biāo)記:以SIDB為例

        2014-06-23 16:27:29輔仁大學(xué)臺灣楊承淑
        外文研究 2014年4期
        關(guān)鍵詞:研究課題松原譯員

        輔仁大學(xué)(臺灣) 楊承淑

        口譯語料庫的編碼與標(biāo)記:以SIDB為例

        輔仁大學(xué)(臺灣) 楊承淑

        關(guān)于口譯語料庫的建置與研究,迄今以名古屋大學(xué)1999-2003年之間開發(fā)的英日/日英同步口譯語料庫(SIDB,Simultaneous Interpretation Data Base)為最大,約達(dá)100萬字。該研究團(tuán)隊(duì)在此基礎(chǔ)上,進(jìn)行了一系列檢證口譯產(chǎn)出特征的量化研究。本研究首先將針對SIDB口譯語料庫加以評估,并分析其編碼與標(biāo)記之功能及特征。其次,亦將評述前述口譯語料庫所展開的研究成果,以厘清該語料庫之定位及效益。借此,期能將現(xiàn)行語料之編碼與標(biāo)記具有之優(yōu)勢及其應(yīng)避免之劣勢,提出客觀描述與評估。

        SIDB評估;SIDB科研成果;同傳研究面向;案例分析

        一、前言

        關(guān)于口譯語料庫的建置與研究,迄今以名古屋大學(xué)1999-2003年之間開發(fā)的英日/日英同步口譯語料庫(SIDB,Simultaneous Interpretation Data Base)為最大,約達(dá)182小時(聽寫成100萬字)。該研究團(tuán)隊(duì)在此基礎(chǔ)上,自2001-2006年進(jìn)行了一系列檢證口譯產(chǎn)出特征的量化研究。

        本研究將從其建庫到研究成果產(chǎn)出的10年期間,針對該研究團(tuán)隊(duì)的學(xué)術(shù)活動,分析其成員屬性、主題分布、經(jīng)費(fèi)運(yùn)用、學(xué)術(shù)成果、主要特色等,作為今后口譯語料庫大規(guī)模建置及研究開展上的借鑒。

        其次,在掌握前述信息的基礎(chǔ)下,將以SIDB語料庫的編碼與標(biāo)記,進(jìn)一步描述其建置架構(gòu)并評估其優(yōu)勢與特色,并與其研究產(chǎn)出之間的關(guān)系提出評估報(bào)告。

        二、SIDB描述

        該團(tuán)隊(duì)核心成員松原茂樹(2001:86)的研究報(bào)告指出該語料庫是源于名古屋大學(xué)“統(tǒng)合音響情報(bào)研究據(jù)點(diǎn)”(CIAIR,Center for Integrated A-coustic Information Research)武田一哉教授(Kazuya Takeda)于1999-2003年執(zhí)行文部省COE(Center of Excellence)計(jì)劃所衍生的一項(xiàng)研究①總計(jì)劃由板倉文忠教授以“多元音響信號の統(tǒng)合的理解”為題任總主持人,武田教授所執(zhí)行的僅是其中四個子計(jì)劃之一。該子計(jì)劃5年共獲8億2260萬日元(約1000萬美元)科研直接經(jīng)費(fèi)。1999年:2億6千萬,2000年:1億8千萬,2001年1億7千萬,2002年1億900萬,2003年1億2393萬日元。。其龐大的科研經(jīng)費(fèi)主要是投入多元音響信號的綜合理解之用,包括汽車行進(jìn)間的話語辨識及過濾噪聲等研究。

        前述研究團(tuán)隊(duì)為了追求口譯自動化的目標(biāo),因而于1998-1999年開始著手雙語同傳語料庫的建置準(zhǔn)備。當(dāng)時他們所嘗試的是一種“漸進(jìn)式的英日口語翻譯手法”(松原茂樹等1998,1999),亦即順著小句的詞序,采取順句驅(qū)動的方式產(chǎn)出譯語。然而,他們認(rèn)為唯有從職業(yè)譯員獲取真實(shí)的口譯語料,才能為自動化的口譯產(chǎn)出找到最佳范本,以利系統(tǒng)的設(shè)計(jì)與運(yùn)作。以下是SIDB語料庫的概要:

        表1 SIDB語料庫概要

        該語料庫的建置除了以支持自然語言處理、認(rèn)知科學(xué)、認(rèn)知語言學(xué)、口譯研究、口譯教學(xué)、外語教學(xué)等多功能用途為其目標(biāo)之外,最大的夢想是追求口譯的自動產(chǎn)出。甚至,包括在電話、車內(nèi)等伴隨雜音的環(huán)境下,得以自動產(chǎn)生優(yōu)質(zhì)的口譯?;诖?,他們在該語料庫的語音標(biāo)記及時間信息上,格外要求精細(xì)的記載。而這也是該研究主旨——“多元音響信號的綜合理解”的落實(shí)與詮釋。

        三、SIDB的編碼與標(biāo)記

        SIDB語料庫的語料分成獨(dú)白與對話兩種類型。前者由職業(yè)譯員擔(dān)任口譯,并由真人進(jìn)入玻璃錄音室,讓譯員在可看到并聽到源語講者的情況下進(jìn)行同傳。而對話語料則采取面對面與仿真電話的非面對面形式,譯員口譯時可以聽到兩位對話者的話語內(nèi)容,以掌握完整的語境。收錄情況如下:

        圖1 語料收錄情況

        在編碼方面,研究團(tuán)隊(duì)針對收錄語料時的背景數(shù)據(jù)、語料特征、說話者與譯員及其話語媒介等信息分別加以編碼。主要可分類為:背景環(huán)境、語料特征、話語講者、話語界面。詳見表2:

        表2 SIDB編碼類別與內(nèi)容

        該語料的標(biāo)記采取的是自動化語料標(biāo)記(tagging)方式,可分話語篇章標(biāo)記、時間信息標(biāo)記、話語語流標(biāo)記。以下,將針對各項(xiàng)標(biāo)記的定義、目的、功能、特征等提出詳細(xì)描述。

        所謂“話語篇章標(biāo)記”,指的是該語料的語音聽寫方式。該團(tuán)隊(duì)采取的是日本國立國語研究所制訂的“日語口語語料庫(CSJ)”基準(zhǔn)。也就是說,以200msec以上的停頓為其切分(segment)依據(jù),并將此視為一個話語單位(松原茂樹等2001: 92)。而這樣做的目的是為了找出一個明確客觀的分割信息依據(jù),同時也可借此確定話語的基本單位。如此,就可以寫出程序,并透過程序去自動擷取及分割話語信息,而停頓兩秒以上即形成一個可客觀辨識的話語標(biāo)志(discourse marker),有助研究人員據(jù)此探究口譯產(chǎn)出時的認(rèn)知意義并加以分類。

        由于日語有漢字與假名混雜的現(xiàn)象,故除了第1行是紀(jì)錄話語的時間序列,第2行是源語的聽寫文字,第3行則是語音標(biāo)記(以片假名標(biāo)示前一行語音的加工程序)。而英語則只有兩行——時間序列與源語文字,而無語音標(biāo)記。詳參以下表示時間信息的標(biāo)記圖標(biāo)(圖2):

        圖2 SIDB英語講者對話內(nèi)容

        圖3 SIDB英日語譯員話語內(nèi)容

        在“時間信息標(biāo)記”方面,包含前述水平紀(jì)錄的時間序列與源語文字形成水平走向(圖4)及垂直方向的時間序列紀(jì)錄。(圖5)

        圖4 SIDB時間信息標(biāo)記(去除其他標(biāo)記)

        SIDB團(tuán)隊(duì)充分運(yùn)用了他們在時間標(biāo)記上的信息,在后續(xù)的研究成果中展現(xiàn)了可觀的成績。其研究課題包括:同傳譯員發(fā)聲時點(diǎn)分析、同傳與交傳的時間特征、同傳中的停頓、同傳產(chǎn)出延遲分析、語速變動分析、應(yīng)答詞的插話時機(jī)等。該團(tuán)隊(duì)在時間標(biāo)記上共提出19篇論文,其中與同傳相關(guān)的論文即達(dá)14篇??梢?,同傳研究與時間信息標(biāo)記之間的關(guān)聯(lián)性頗高。

        圖5 SIDB對話的時間信息標(biāo)記

        至于“話語語流標(biāo)記”,主要針對口語表達(dá)時的不流暢、語音異常等現(xiàn)象加以標(biāo)示。例如,發(fā)語詞(F,filler)、不完整詞語(D)、口誤(W)、元音拉長(H)、子音拉長(Q)、元音不確定(FV)、句尾(SB)。最后,在句子結(jié)束處加上的標(biāo)記(PB),則用于識別及切分之用。詳如表3:

        表3 SIDB標(biāo)記類別與內(nèi)容

        針對以上標(biāo)記,該團(tuán)隊(duì)還研發(fā)了一套可自動對齊(alignment)的支持軟件,以利標(biāo)記作業(yè)的統(tǒng)一性。其功能包括顯示雙語語料分句對齊、時間標(biāo)記(含非時間標(biāo)記的排除)、詞素分析結(jié)果等窗口。參見圖4、圖5及下頁圖6、圖7,可知表3中的各類標(biāo)記都已完整顯于其中。

        圖6 SIDB雙語語料對齊視窗

        圖7 SIDB詞素分析標(biāo)記

        四、SIDB的研究成果

        SIDB語料內(nèi)容配合前述編碼與標(biāo)記,及對齊與分析等軟件的運(yùn)作下,該團(tuán)隊(duì)以松原茂樹為核心,自1994-2012年陸續(xù)提出319篇論文①這319篇論文是以松原茂樹列名其中的論文為標(biāo)的,擷取自日本CiNii學(xué)術(shù)網(wǎng)。,其中85篇為英文,229篇為日文。主要研究課題包括以下各項(xiàng),內(nèi)容扼要摘述如下:

        以下,包括SIDB各類論文篇數(shù)、同傳研究的分布情況,及其出版高峰期等數(shù)據(jù),請?jiān)斠娤马摫?。事實(shí)上,SIDB的建置雖是1999-2003年,但顯然關(guān)于話語理解、譯法分析等研究,早在1994-1998年就已著手啟動。到了1999-2003年的計(jì)劃執(zhí)行時期,此時的研究集中在話語理解、話語分析、譯法分析、語音處理、語料庫設(shè)計(jì)等課題,亦即語料分析與工具開發(fā)上。

        而在2004-2012年之間,研究課題則偏向時間信息、話語分析、文本處理、文本分析、語料庫設(shè)計(jì)。此時的研究面向,開始以英語或日語的話語/書面的分析與處理(含自動產(chǎn)出)為目標(biāo)。顯然,可以劃分為三個主要階段。詳見下頁表6。

        而另一方面,對于同傳的研究成果及其分布情況,亦令人深感好奇。首先,我們發(fā)現(xiàn)同傳的相關(guān)成果,僅分布于1996-2009年,高峰期為2000-2009年。然后,47篇論文中篇數(shù)最多的研究課題是時間信息與語料庫設(shè)計(jì),然后則是譯法分析與話語分析。

        而同傳的相關(guān)研究中,從下頁表7可看出語料庫設(shè)計(jì)占了1/3,且集中分布于2000-2005年。同樣也占1/3分量的是語料的時間信息所衍生的研究,主要分布于2005-2009年。除此之外的連續(xù)分布則見于譯法分析,在2003-2006年之間。而對照表6可知,時間信息是同傳口譯產(chǎn)出類型的特征研究,同時也是一項(xiàng)貫穿三階段(前置、執(zhí)行、應(yīng)用),執(zhí)行期間未曾中斷的骨干內(nèi)容。

        表7是研究成果的逐年分布情況:

        表4 SIDB研究主題類別

        表5 SIDB核心成員1994-2012年研究成果一覽

        表6 SIDB各階段研究課題(1994-2012)

        表7 SIDB同傳研究課題分布一覽(1996-2009)

        然而,表7中較令人意外的是話語分析(僅6篇),且主要集中在2006年(4篇)。也就是說,同傳的話語分析在SIDB的研究推進(jìn)過程中,并非持續(xù)研究的主要課題。而事實(shí)上,在近20年的研究歷程中,話語分析是成果偏高的面向,但其中的同傳研究比重明顯偏低。此外,另一耐人尋味的現(xiàn)象則是時間信息的研究成果。主要成果是在該計(jì)劃執(zhí)行結(jié)束之后(1999-2003),才連續(xù)5年又提出了12篇論文。整體而言,SIDB近20年的研究歷程中,一貫穩(wěn)定產(chǎn)出的研究課題有下列各項(xiàng):

        表8 SIDB連續(xù)穩(wěn)定產(chǎn)出之研究課題

        而各項(xiàng)持續(xù)性研究課題的產(chǎn)出高峰期及其重疊期如下圖7。

        圖7 SIDB持續(xù)性研究課題的產(chǎn)出時期

        從表8與圖7亦可看出,SIDB團(tuán)隊(duì)發(fā)展同傳期間(1999-2003),正是各項(xiàng)持續(xù)性研究課題的第一個高峰期。然而,在此之后的研究期間,顯然圖7中的四項(xiàng)研究課題的比重日益提升。此外,英/日文書寫文本的自動抽取等加工處理,已然是其重要的核心議題。同時,配合分布于2009-2010年的人工智能與2010與2012年的認(rèn)知分析,可知發(fā)展自動翻譯系統(tǒng)應(yīng)是其主要目標(biāo)。換言之,SIDB的重心已經(jīng)從口譯逐漸轉(zhuǎn)入筆譯領(lǐng)域了。

        五、SIDB編碼與標(biāo)記及其研究成果

        若要探究何以SIDB在建置成為全球最大的同步口譯語料庫之后,其同傳研究卻消逝得如此迅速,其原因與編碼與標(biāo)記的設(shè)計(jì)密切相關(guān)。

        首先,觀察其編碼與標(biāo)記的內(nèi)容,可知并未反映在其研究成果中。例如,編碼中對于口譯員資歷的分類,并未在其后續(xù)成果中展現(xiàn)資深(3年以上)與資淺(3年以下)譯員的口譯表現(xiàn)有何差異(表2)。

        而標(biāo)記方面,關(guān)乎譯員認(rèn)知表征的口譯錯誤或失誤,如發(fā)語詞(F)、改口(R)、不完整詞語(D)、句中停頓(PS)等重要的口譯表現(xiàn),也并未在研究中提出相關(guān)成果。換言之,對于口譯的譯語內(nèi)容或技巧表現(xiàn)(performance)等,該團(tuán)隊(duì)并未賦予相應(yīng)的關(guān)注。

        其實(shí),在擁有前述編碼與標(biāo)記的情況下,其中與譯語語流相關(guān)的譯員認(rèn)知標(biāo)記及語音異常標(biāo)記,以及語料特征與譯員資歷、話語接口等編碼,對于口譯技能與策略的探究,似乎值得進(jìn)一步加以關(guān)注。以口譯技能而言,不同口譯資歷譯員(3年以上或以下),針對同一語篇的同傳表現(xiàn),必然是該團(tuán)隊(duì)當(dāng)初關(guān)注的一項(xiàng)焦點(diǎn),且因而投注的資金與心力也相當(dāng)可觀。

        然而,SIDB自1994-2012年陸續(xù)提出的319篇論文中,卻沒有任何一篇是探討不同資歷譯者技能表現(xiàn)的。這一點(diǎn),確實(shí)令人不解?;蛟S,該團(tuán)隊(duì)并未將語流的遲滯與語音的偏移,視為口譯技能發(fā)展中有意義的標(biāo)志,才導(dǎo)致該項(xiàng)研究議題產(chǎn)出不彰的結(jié)果。

        假使這一假設(shè)成立的話,只要從資深譯員是否較資淺譯員語流更為順暢、語音偏移更少,即可得知口譯技能發(fā)展程度是否與此相關(guān)。就量化研究而言,若要證明其結(jié)果,數(shù)據(jù)應(yīng)如探囊取物,可說易如反掌。

        然而,研究團(tuán)隊(duì)所關(guān)注的重點(diǎn),大都圍繞在時間信息的基礎(chǔ)上——包含語速、停頓、源語與譯語的時序落差、發(fā)語詞(F)與聽取效果的關(guān)系、日譯英/英譯日與譯語延遲的比較等。

        這些成果(共14篇)主要針對語速或停頓對于聽取理解的影響,并提出量化的測定報(bào)告(2005年3篇,2006年1篇)。同時,也運(yùn)用軟件切分語音/文本語料,提出精細(xì)的時間測定數(shù)據(jù)(2002年1篇)。如,同傳與交傳的時間效益比較(2003年1篇)、源語與譯語的時序落差(2006年1篇,2007年1篇)、自動推估單詞發(fā)聲時間(2007年1篇,2008年1篇)、日譯英/英譯日與譯語延遲比較(2007年1篇)等。其后的研究成果則集中在譯員的語速變動(2008-2009年3篇)等。

        圖8 時間信息的研究課題及其出版時期

        而譯法方面共計(jì)8篇。他們提出口譯時的主要套式、信息單位、銜接手法(分割、省略、反復(fù))、順句驅(qū)動、句構(gòu)特征、從屬句譯法、省略手法(省略、壓縮)等。(各年度論文篇數(shù)如圖9所示)

        圖9 譯法分析的研究課題及其出版時期

        而在話語特征方面共計(jì)6篇論文。1996年9月,他們首先提出對話的日語譯語特征為主題變換、分割、倒置、反復(fù)、改口(糾正)及發(fā)語詞的高頻現(xiàn)象等。只是,這樣的發(fā)現(xiàn)僅出現(xiàn)于語料庫尚未開始建置的1996年,建置初期(2000年)僅完成一篇對話語料庫分析的論文。而建置完成之后(2006年4篇),反而并未提出與最初規(guī)劃時足以呼應(yīng)且有持續(xù)性的研究成果。4篇論文主題分別是:教學(xué)應(yīng)用、發(fā)語詞對聽眾理解的影響、演講的同傳類型、對話翻譯的日語發(fā)言分割。

        圖10 話語特征研究及其出版時期

        圖11 語料庫研究課題及其出版時期

        而占相同比重(14篇)的還有語料庫設(shè)計(jì)研究,持續(xù)產(chǎn)出于2000-2005年??梢娕c同步口譯相關(guān)的工具開發(fā),與其科研項(xiàng)目的執(zhí)行是密切相關(guān)的。其中主要課題包括語料庫設(shè)計(jì)與利用和對齊手法及其評估。相對而言,這些都是比較概論性質(zhì)的論文。不過,他們在此同時也申請了兩項(xiàng)專利。分別是自動抽取摘要和翻譯套式(2004-2005)。

        回顧該語料庫的研發(fā),得之于編碼與標(biāo)記的研究成果似乎可說偏低。尤其,從總體319篇而言,更是相形見絀。

        六、結(jié)語:展望今后

        從全球首度研發(fā)完成的百萬字口譯語料庫的成果剖析看來,似乎令人不無遺憾。其癥結(jié)點(diǎn)在于口譯語料庫并非信息科學(xué)產(chǎn)品,其分析與研究若無口譯學(xué)界的加入,甚難發(fā)現(xiàn)以口譯為核心的問題意識,亦導(dǎo)致其成果受到局限。

        反之,從近幾年的口譯研究課題可知,舉凡口譯技巧、評量、策略、模式、過程研究、專技發(fā)展等,以語料庫為工具所做的分析較之過往的觀察研究,證據(jù)力與解釋性皆可大幅提升,頗值得投入此一領(lǐng)域。此外,SIDB的內(nèi)容是可價購取得的,若與中英、中日等語言組合交互運(yùn)用,其規(guī)??梢詳U(kuò)增達(dá)數(shù)倍。而且,該語料精確性極高,值得以更具兼容性的接口重制并加以引介推廣。

        松原茂樹等.2001.同時通訳コーパスの設(shè)計(jì)と構(gòu)築[J].通訳研究(1):85-102.

        松原茂樹等.1998a.漸進(jìn)的な話し言葉翻訳における翻訳処理単位の検討[A].電気関係學(xué)會東海支部連合大會講演論文集[C].

        松原茂樹等.1998b.漸進(jìn)的な機(jī)械翻訳のための文法規(guī)則の変換手法[A].言語処理學(xué)會第4回年次大會論文集[C]. 500-503.

        松原茂樹等.1999a.英日話し言葉翻訳のための漸進(jìn)的文生成手法[A].情報(bào)処理學(xué)會[ed.].情報(bào)処理學(xué)會研究報(bào)告[R].NL-132,95-100.

        松原茂樹等.1999b.文脈自由文法の変換に基づく漸進(jìn)的な話し言葉翻訳手法[A].情報(bào)処理學(xué)會[ed.].第59回情報(bào)処理學(xué)會全國大會講演論文集(2)[C].357-358.

        松原茂樹等.1999c.漸進(jìn)的構(gòu)文解析における構(gòu)文的曖昧性とその解消[A].一般社団法人情報(bào)処理學(xué)會[ed.].情報(bào)処理學(xué)會研究報(bào)告[R].NL-134,117-122.

        遠(yuǎn)山仁美,松原茂樹.2004.CIAIR同時通訳データベースの構(gòu)築と利用(セッション1)『<特集>人間による言語理解·言語処理』.

        SIDB.2006.同時通訳データベース·マニュアル獨(dú)話/対話[OL].[08-09].http://slp.el.itc.nagoya-u.ac.jp/sidb/.

        CiNii.2014.松原茂樹[OL].[10-18].http://ci.nii.ac.jp/nrid/1000020303589.

        (責(zé)任編輯 侯 健)

        H059

        A

        2095-5723(2014)04-0082-07

        2014-09-08

        本文系臺灣“國科會”專題研究項(xiàng)目“生手、新手、老手的口譯技能與策略研究”(100-2410-H-030-052-MY2,2011-2013)成果之一。

        通訊地址:24205 臺灣新北市 輔仁大學(xué)跨文化研究所

        猜你喜歡
        研究課題松原譯員
        我校徐衛(wèi)紅教授主持的教育教學(xué)改革研究課題結(jié)題
        河南松原生物科技有限公司
        中國釀造(2019年9期)2019-10-08 05:44:02
        高校學(xué)生職業(yè)生涯規(guī)劃研究課題規(guī)劃——以吉林省高校為例
        活力(2019年21期)2019-04-01 12:18:58
        愛的花旗松素 走進(jìn)吉林松原市場
        會議口譯中譯員的譯前準(zhǔn)備研究——一項(xiàng)基于上海譯員的問卷調(diào)查
        口譯中的“陷阱”
        啊,松原
        黃河之聲(2016年13期)2016-11-09 01:42:16
        論機(jī)器翻譯時代人工譯員與機(jī)器譯員的共軛相生
        外文研究(2016年3期)2016-03-17 12:41:05
        譯員與翻譯企業(yè)的勞資關(guān)系及其和諧發(fā)展
        湖南省“十三五”規(guī)劃前期重大問題研究課題通過評審驗(yàn)收等
        午夜一区二区三区在线视频| 久久久久久久久毛片精品| 中文字幕aⅴ人妻一区二区| 亚洲乳大丰满中文字幕| 性猛交╳xxx乱大交| 无码任你躁久久久久久久| 色欲麻豆国产福利精品| 日韩亚洲制服丝袜中文字幕| 亚洲双色视频在线观看| 色婷婷一区二区三区77| 精品国产中文字幕久久久| 亚洲国产成人一区二区精品区| 中文字幕一区二区三区乱码| 欧美中文字幕在线看| 激,情四虎欧美视频图片| 二区三区视频在线观看| 日本av第一区第二区| 国产精品一区久久综合| 九九在线中文字幕无码| 韩国三级中文字幕hd| 国产乱子伦精品免费无码专区 | 中文www新版资源在线| 成人午夜免费无码视频在线观看| 日韩美女高潮流白浆视频在线观看| 亚洲乱精品中文字字幕| 中文字幕高清视频婷婷| 久久精品人搡人妻人少妇| 亚洲成a∨人片在线观看不卡| 性一交一乱一伧国产女士spa| 亚州无线国产2021| av二区三区在线观看| 国产激情一区二区三区成人| 欧美性高清另类videosex| 性高朝大尺度少妇大屁股| 国产日产精品久久久久久| 亚洲综合免费在线视频| 亚洲精彩av大片在线观看| 国产91人妻一区二区三区| 国产又色又爽又高潮免费视频麻豆| 色偷偷88888欧美精品久久久| 午夜男女视频一区二区三区|