亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        口譯語料庫中副語言信息的轉(zhuǎn)寫及標注:現(xiàn)狀、問題與方法

        2014-03-13 08:19:11鄒兵王斌華
        山東外語教學 2014年4期
        關(guān)鍵詞:口譯語料語料庫

        鄒兵,王斌華

        (1.廣東外語外貿(mào)大學高級翻譯學院,廣東廣州 510420; 2.香港理工大學中文及雙語學系,香港九龍)

        口譯語料庫中副語言信息的轉(zhuǎn)寫及標注:現(xiàn)狀、問題與方法

        鄒兵1,王斌華2

        (1.廣東外語外貿(mào)大學高級翻譯學院,廣東廣州 510420; 2.香港理工大學中文及雙語學系,香港九龍)

        本文對口譯副語言信息的相關(guān)概念進行了界定,并檢視了國際范圍內(nèi)口譯語料庫中副語言信息的轉(zhuǎn)寫標注情況,發(fā)現(xiàn)現(xiàn)有研究對副語言信息的轉(zhuǎn)寫標注等口譯語料庫基礎(chǔ)建設(shè)問題缺乏關(guān)注。本文基于筆者設(shè)計和建設(shè)口譯語料庫的經(jīng)驗,歸納了口譯副語言信息轉(zhuǎn)寫及標注應(yīng)注意的問題,并從標注工具、標注步驟和后期建設(shè)幾個方面探討了口譯副語言信息的轉(zhuǎn)寫及標注方法。

        口譯語料庫;研究現(xiàn)狀及問題;副語言信息;轉(zhuǎn)寫及標注

        1.0 引言

        語料庫應(yīng)用于翻譯研究已逾20個年頭。當前基于語料庫的筆譯研究多關(guān)注語言層面,即集中于譯文語言特征研究和譯者語體/文體風格研究。對基于語料庫的口譯研究而言,語言層面之外的副語言和超語言信息也值得關(guān)注,因為這些信息對于研究者分析口譯產(chǎn)品的特點以及考察口譯過程起著關(guān)鍵作用。而在口譯語料庫建設(shè)中,語言層面之外的信息轉(zhuǎn)寫和標注是一個難題,當前關(guān)于這一難題的討論(包括轉(zhuǎn)寫內(nèi)容、方法、工具、原則與標準等)卻不多見,這一定程度上制約了語料庫口譯研究的發(fā)展。在本文中,筆者在檢視世界范圍內(nèi)主要口譯語料庫的基礎(chǔ)上,結(jié)合自身設(shè)計與建設(shè)口譯語料庫的經(jīng)驗,探討口譯語料區(qū)別于筆譯語料的特有信息——副語言信息的轉(zhuǎn)寫和標注問題,希望能對口譯語料庫建設(shè)的標準化有所貢獻。

        2.0 口譯語料中的副語言信息

        語言學中的副語言信息概念最初由 Trager (1958)在“Paralanguage:A First Approximation”一文中首次使用(梁茂成,1994:128),指在與詞匯和語法層面平行的信號層面上的非語言話語信息(陳瑞青、王巍巍,2011:5)。

        口譯語料涉及的信息大致可分為三類,即語言信息(linguistic information)、副語言信息(paralinguistic information)和超語言信息(extra-linguistic information)?;赗oach,et al.(1998)、Monti,et al.(2005)、張威(2009)等的觀點,結(jié)合口譯語料庫的特點和設(shè)計需要,筆者對這三類信息界定如下:

        1)語言信息,即口譯源語與譯語中詞句篇章各個層面的信息,包括:詞性標注、句法標注、時間標記、句子段落標記、詞句段對齊,等等。

        2)副語言信息,即源語和譯語產(chǎn)出的同時所伴隨產(chǎn)生的相關(guān)信息,包括:停頓、支吾語(猶豫)、填充語、重音、語音拖長、自我修正、打斷、話語重疊、不完整句、幽默、肢體語言,等等。

        3)超語言信息,即與口譯活動相關(guān)的環(huán)境信息,包括:①口譯背景信息,如口譯主題、口譯場合、時間地點、源語語體、專業(yè)難度、技術(shù)設(shè)備等;②講話人信息,如口音、語速、時長及字數(shù)、信息密度、國籍、性別、政治身份等;③口譯員信息,如口譯經(jīng)歷、專業(yè)級別、口譯形式、準備時間、國籍、性別、母語等;④口譯聽眾信息,如知識背景、與會目的、雙語水平等;⑤口譯活動贊助人、組織者信息,等等。

        這些信息是口譯語料庫建設(shè)時所應(yīng)轉(zhuǎn)寫和標注的基本信息。關(guān)于語言信息和超語言信息的轉(zhuǎn)寫和標注,當前筆譯語料庫建設(shè)已經(jīng)積累了較為標準化和可操作化的方法、工具和體系。口譯語言信息的標注基本可以參照筆譯或筆語語料庫的標注體系(如詞性標注集、句法標注集等),超語言信息的標注也基本可以在頭文件(text header)中統(tǒng)一處理即可。(梁茂成、許家金,2012)

        但是,口譯副語言信息的轉(zhuǎn)寫和標注問題,目前尚未引起足夠的重視,這從相關(guān)研究的缺失即可看出。有必要指出的是,副語言信息的標注對于口譯語料而言有著特殊的意義,因為副語言信息“有利于判定具體口譯策略的影響因素以及這些策略的應(yīng)用效果”(張威,2009:56),“有助于揭示口譯語體特征和譯員風格的差異”(胡開寶、陶慶,2010:52),有助于“研究非言語因素對口譯的方向性和語言特征的影響”(李婧、李德超,2010:101)。

        從筆者設(shè)計和建設(shè)口譯語料庫的經(jīng)驗以及作為口譯研究者和口譯教師對口譯語料庫功能的期待來看,口譯語料庫建設(shè)之初的設(shè)計工作應(yīng)引起極大的重視。因為口譯語料庫建設(shè)是一項耗時耗力的龐大工程,哪怕只是一個磁帶小時的口譯語料,往往需要花費數(shù)倍的時間來轉(zhuǎn)寫和標注,所以在口譯語料轉(zhuǎn)寫之前就應(yīng)當根據(jù)研制語料庫的目的確定要關(guān)注的信息類別,在轉(zhuǎn)寫的同時標注這些信息。

        3.0 現(xiàn)有口譯語料庫中副語言信息的標注

        根據(jù)筆者掌握的資料,目前世界范圍內(nèi)已建和在建的口譯語料庫僅有十多個。此處對現(xiàn)有口譯語料庫的建設(shè)情況作一檢視,重點關(guān)注其對口譯副語言信息的轉(zhuǎn)寫及標注,詳見表1的描述。

        表1 現(xiàn)有口譯語料庫建設(shè)及其副語言轉(zhuǎn)寫標注情況①

        通過考察這些口譯語料庫的建設(shè)情況,筆者發(fā)現(xiàn),其副語言信息轉(zhuǎn)寫及標注存在以下幾方面問題:

        1)轉(zhuǎn)寫及標注內(nèi)容選擇不一。表1中較大型的口譯語料庫(如 EPIC、CIAIR、CECIC、CoSi、CorIT),對副語言信息轉(zhuǎn)寫和標注較為全面,其它口譯語料庫則選擇性地轉(zhuǎn)寫和標注了停頓等部分副語言信息。各個語料庫選擇轉(zhuǎn)寫和標注的內(nèi)容重合度較低,沒有體現(xiàn)對口譯語料最基本的一些副語言特征的關(guān)注。

        2)轉(zhuǎn)寫及標注規(guī)范不統(tǒng)一。如EPIC、CECIC、 TIC按照TEI文本編碼規(guī)范(見4.1.2),ComInDat及其子庫(DiK,IiSCC,SimDik)、CoSi遵循HIAT口語文本轉(zhuǎn)寫標注規(guī)范(見4.1.2),CorIT則依據(jù)會話分析領(lǐng)域的轉(zhuǎn)寫規(guī)范,其它語料庫則根據(jù)需要自行設(shè)定了轉(zhuǎn)寫和標注符號。

        3)較少考慮語料庫兼容問題。語料庫之間的兼容體現(xiàn)在若干方面,除了要轉(zhuǎn)寫標注一些基本特征以及要遵循統(tǒng)一的轉(zhuǎn)寫標注規(guī)范之外,語料庫文件格式還要能方便地轉(zhuǎn)換為現(xiàn)在所普遍提倡的XML格式,從而方便未來的跨庫研究。而表1中只有較少語料庫(如EPIC、CECIC)考慮到了與其它語料庫的兼容問題。

        總體而言,當前多數(shù)口譯語料庫的開發(fā)者并沒有很詳細地描述其副語言信息的轉(zhuǎn)寫標注過程,再加上很多語料庫本身并不公開,因此對于其它口譯語料庫的副語言信息轉(zhuǎn)寫標注無法提供很好的指導和借鑒。

        4.0 口譯副語言信息轉(zhuǎn)寫標注的問題與方法

        上文的考察反映出,國內(nèi)外學者在探討口譯語料庫開發(fā)及建設(shè)時,都認為口譯語料深加工是需要重點關(guān)注和解決的問題,但是少有學者論及口譯副語言信息轉(zhuǎn)寫和標注的具體操作問題。下面筆者將結(jié)合自己設(shè)計和開發(fā)口譯語料庫的經(jīng)驗,探討副語言信息轉(zhuǎn)寫標注應(yīng)注意的問題和轉(zhuǎn)寫標注的方法。

        4.1 口譯副語言信息轉(zhuǎn)寫標注應(yīng)注意的問題

        4.1.1 轉(zhuǎn)寫及標注內(nèi)容的選擇

        口譯副語言信息層面可以轉(zhuǎn)寫標注的內(nèi)容,除了上文(見2.0)提及的類別之外,還可以包括口譯學習者的口譯錯誤和職業(yè)譯員的口譯策略。至于這些內(nèi)容如何選擇,則須遵循兩點原則:

        1)明確建設(shè)語料庫的最終目的。即在建庫之初,要明確口譯語料庫使用方(包括口譯研究者、口譯學習者、口譯教育者、口譯實踐者、機器口譯研發(fā)者等)的需求。面向的服務(wù)對象不同,對口譯副語言信息轉(zhuǎn)寫和標注程度的要求也有所不同。同時,轉(zhuǎn)寫和標注內(nèi)容的選擇也要考慮現(xiàn)有資源(包括語料規(guī)模、資金、人員等)以及所掌握技術(shù)的情況。

        2)體現(xiàn)對口譯基本/共性特征的關(guān)注。即對口譯活動表現(xiàn)的一些基本和共性的副語言特征表示關(guān)注。這樣做的目的是增強各個領(lǐng)域、各種形式、各個語種的口譯語料庫的可比性和兼容性,有利于未來進行跨語料庫的多語類多語種口譯比較研究。筆者認為口譯語料庫應(yīng)當轉(zhuǎn)寫和標注以下幾類基本的副語言信息:①言語行為特征,包括停頓(又可分為無聲停頓和有聲停頓)、猶豫、填充語、不完整句、自我修正、打斷、話語重疊、重復、口誤、不規(guī)范用語;②明顯的發(fā)聲特征,如拼讀錯誤、語音拖長、語音變異(口音)、語速、音量/調(diào)變化、笑聲、咳嗽等;③明顯的體態(tài)語特征,如眼神、手勢等面部表情和肢體動作;④無法辨識的現(xiàn)象,如因設(shè)備影響而聽不清、故意含混不清等現(xiàn)象;⑤突發(fā)事件;⑥轉(zhuǎn)寫者評論,如幽默、錯誤、策略等。

        4.1.2 轉(zhuǎn)寫及標注體系與規(guī)范

        當前各口譯語料庫遵循的規(guī)范大致有三類,即TEI文本編碼規(guī)范、HIAT口語文本轉(zhuǎn)寫標注規(guī)范和會話分析轉(zhuǎn)寫規(guī)范。

        TEI全稱為Text Encoding Initiative,是一個國際性的跨學科的編碼標準,提倡使用可擴充置標語言XML對數(shù)據(jù)和語料語言及結(jié)構(gòu)信息進行編碼,現(xiàn)行版本TEI P5專辟一章說明如何轉(zhuǎn)寫語音語料②。HIAT全稱為Halbinterpretative Arbeitstranskriptionen (Semi-Interpretaive Working Transcriptions),現(xiàn)已發(fā)展成為集轉(zhuǎn)寫標注格式規(guī)范和轉(zhuǎn)寫標注工具為一身的EXMARaLDA系統(tǒng),主要致力于解決口語文本的轉(zhuǎn)寫和標注問題③。語言學中的會話分析(Conversation Analysis,CA)領(lǐng)域長期關(guān)注機構(gòu)話語和日常會話的結(jié)構(gòu)、策略和風格特點,并形成了一套比較系統(tǒng)和完整的會話轉(zhuǎn)寫規(guī)范。(Schiffrin,1994)

        對口譯副語言信息而言,這三類規(guī)范各有優(yōu)勢,各大口譯語料庫對這三類規(guī)范也是各有青睞,但其彼此之間既有交叉也存在一定差異。隨著未來口譯語料庫建設(shè)日益走向標準化,還是有必要根據(jù)口譯活動自身的特點以及口譯語料庫“目標用戶”的需要,研制出一套普遍適用且能被廣泛采用的口譯語料庫副語言信息轉(zhuǎn)寫及標注體系或規(guī)范。(Cencini&Aston,2002)可以說,“語料轉(zhuǎn)寫是決定口譯語料庫代表性的一項關(guān)鍵工作,轉(zhuǎn)寫的程序與操作規(guī)范都可以成為研究課題”。(張威,2013:83)

        4.1.3 其它相關(guān)問題

        1)轉(zhuǎn)寫標注者主觀因素

        在副語言信息轉(zhuǎn)寫和標注過程中,需要注意的一個重要問題是如何避免或盡量減少轉(zhuǎn)寫標注者的主觀因素,因為這些主觀因素往往容易導致語料標注前后不一致甚至相互沖突。為此,可以采取的措施有:①在轉(zhuǎn)寫標注之前專門進行集體培訓,并進行試驗性轉(zhuǎn)寫標注,在試驗期間進行反復調(diào)試,直至完全符合要求后再正式參與轉(zhuǎn)寫標注工作;②專設(shè)核對和“質(zhì)檢”的角色,即時監(jiān)控轉(zhuǎn)寫標注過程,隨時發(fā)現(xiàn)問題隨時更正;③在工具開發(fā)上嘗試設(shè)計標準化的轉(zhuǎn)寫標注功能,對每一類副語言信息設(shè)置單獨的轉(zhuǎn)寫標注模塊,出現(xiàn)此類信息時直接點擊選擇,自動生成相應(yīng)的轉(zhuǎn)寫標注符號,從而減少插入符號時出現(xiàn)的失誤;④有些涉及口譯錯誤和口譯策略的副語言特征,本身便存在主觀判別的風險,這便需要事先進行明確定義,在操作過程中一以貫之地執(zhí)行。

        2)語料庫的兼容問題

        現(xiàn)有語料庫大多存在重復建設(shè)、轉(zhuǎn)寫標注標準不統(tǒng)一以及經(jīng)過調(diào)整也很難融合的問題,即語料庫之間的兼容性太差。當前語料庫建設(shè)普遍提倡在建庫時即采用XML置標語言,或者所建語料庫能夠方便地轉(zhuǎn)換為XML文件格式,這對于語料庫的標準化、網(wǎng)絡(luò)化十分關(guān)鍵。對于口譯副語言信息而言,具體的轉(zhuǎn)寫標注內(nèi)容和符號需要研究者結(jié)合口譯活動特點和口譯研究需要,制定一個通行的可操作性強的操作準則和細則。口譯語料庫建設(shè)尚剛剛起步,在起步之初,如果各口譯語料庫的設(shè)計者在語料選取上能夠盡量避免同質(zhì)和重復,并且能很好地遵循通行的轉(zhuǎn)寫標注規(guī)范和體系,那么隨著越來越多的語料庫形成一個大的集合,未來的口譯語料庫研究一定會發(fā)揮越來越大的作用,遠非現(xiàn)在的各自為戰(zhàn)所能比擬。

        3)語料庫的應(yīng)用問題

        語料庫建好之后如何應(yīng)用,這是在建庫之初就應(yīng)思考的問題??谧g語料庫中所轉(zhuǎn)寫標注的副語言信息如何應(yīng)用,筆者認為可以從其最終目的出發(fā)進行考慮:①若為口譯研究者服務(wù),便要清楚認識到副語言特征可以說明什么問題,如停頓、支吾語、填充語等可能與譯員當時當?shù)氐男睦砘顒佑嘘P(guān),若再針對這些副語言現(xiàn)象出現(xiàn)的規(guī)律提出一定的研究假說,與其它的實證研究手段(如TAPs、ERPs、fMRI等)結(jié)合進行三方驗證,便能很好地解釋和預測復雜口譯過程中的一些現(xiàn)象,但需要注意的是進行語料庫口譯研究時,應(yīng)特別重視方法論設(shè)計(Setton,2002);②若為口譯教育者和口譯學習者服務(wù),則需要注重語料庫調(diào)用的功能模塊設(shè)計,如在課堂上同時檢索呈現(xiàn)不同譯員停頓的位置、時長、前后語境等信息,同時還要注意與口譯多媒體教學平臺的兼容問題。

        4.2 口譯副語言信息的轉(zhuǎn)寫及標注方法

        4.2.1 轉(zhuǎn)寫及標注工具

        口譯副語言信息的轉(zhuǎn)寫和標注與語言信息和超語言信息不同,需要使用專門的工具和軟件。副語言信息通常的轉(zhuǎn)寫方法是用“…”、“-”、“*”、“p”等符號指代某類副語言特征,各類副語言信息夾雜于口譯輸出文本之中,語言信息與副語言信息相互交織。這種做法的優(yōu)點是便于線性轉(zhuǎn)寫操作,缺點在于:1)文內(nèi)的標點需要去掉或作特別處理(以免與標注符號弄混),為此不得不使用額外的符號區(qū)分語段間隔;2)較難處理多種副語言信息出現(xiàn)在同一時間節(jié)點的情況,也較難處理話語重疊等副語言現(xiàn)象;3)不便于實現(xiàn)轉(zhuǎn)寫和標注的可視化操作。

        關(guān)于副語言信息的轉(zhuǎn)寫及標注,目前已經(jīng)有一些較為成熟的工具和軟件可供利用,如Anvil、EXMARaLDA Partitur Editor、Praat等,這些軟件各有優(yōu)勢。以Anvil為例,該軟件開發(fā)的初衷是為肢體語言研究服務(wù),其操作界面如圖1所示。

        圖1 Anvil軟件轉(zhuǎn)寫及標注界面

        值得關(guān)注的是,Anvil軟件成功實現(xiàn)了副語言信息轉(zhuǎn)寫和標注的可視化操作。它允許對語言信息與副語言信息進行分層標注,不同類別的信息在不同的軌道(track)上進行標注,彼此之間互不干擾,而又通過線性時間軸相互聯(lián)系。甚至不同類別的副語言信息(如肢體動作、語音高低長短、停頓等)還可進一步細分,在不同的軌道進行單獨標注,這也避免了不同類別副語言信息在同一時間節(jié)點出現(xiàn)時不便標注的問題。講話人的輸出與口譯員的輸出也可各自占據(jù)一條軌道,因此講話人與口譯員話語重疊的問題也得到了解決。新軌道可以由轉(zhuǎn)寫標注者自行開辟,標注符號體系可以由轉(zhuǎn)寫標注者自行制定和導入,同時該軟件還提供簡單的數(shù)據(jù)統(tǒng)計分析功能,并且可以很方便地將轉(zhuǎn)寫標注好的語料導出成XML格式文件,因此也較好解決了與其它語料庫的兼容性問題。

        可惜的是該軟件使用舒適度較低(Garg et al.,2004),而且支持的影音格式和輸入語言有限。但這些都可以在未來通過對軟件的不斷更新進行完善,或者至少為口譯副語言信息轉(zhuǎn)寫標注工具的研制提供了很好的思路和方向?,F(xiàn)階段口譯副語言信息轉(zhuǎn)寫和標注可以依托現(xiàn)有工具可利用的功能,綜合利用各個工具的長處。但未來大規(guī)??谧g語料庫的建設(shè),還是有待于性能更加優(yōu)良、更符合口譯研究需要的副語言信息轉(zhuǎn)寫標注軟件的研發(fā)。

        4.2.2 轉(zhuǎn)寫及標注步驟

        基于對上述問題的探討,并根據(jù)自身建設(shè)口譯語料庫的經(jīng)驗,筆者總結(jié)了口譯語料庫副語言信息轉(zhuǎn)寫標注的步驟:

        1)明確建庫目的,初步確定其未來應(yīng)用領(lǐng)域,據(jù)此選定需要進行轉(zhuǎn)寫及標注的副語言信息類別(本文4.1.1建議的基本副語言特征應(yīng)予標注);

        2)基于文本編碼規(guī)范(TEI)、口語文本轉(zhuǎn)寫標注規(guī)范(HIAT)和會話分析(CA)領(lǐng)域的會話特征轉(zhuǎn)寫規(guī)范,編制符合當前口譯語料庫建設(shè)需要的副語言信息轉(zhuǎn)寫及標注符號體系(應(yīng)盡可能使用現(xiàn)存規(guī)范已有的標注符號);

        3)對口譯影音語料進行頭文件信息轉(zhuǎn)寫,要求盡可能多地涵蓋該口譯活動所涉及的超語言信息;

        4)根據(jù)第1)步所選取的副語言信息類別,設(shè)定轉(zhuǎn)寫標注軟件(如 Anvil)中的轉(zhuǎn)寫標注軌道(track),有幾類副語言信息就通過編寫程序設(shè)定幾個軌道;

        5)運用轉(zhuǎn)寫標注軟件(如Anvil),按照第2)步中所確定的副語言信息轉(zhuǎn)寫標注符號,對口譯影音語料同時進行語言信息和副語言信息轉(zhuǎn)寫及標注,每個轉(zhuǎn)寫標注軌道對應(yīng)一個類別的語言信息或副語言信息;

        6)從轉(zhuǎn)寫標注軟件(如Anvil)中導出已經(jīng)轉(zhuǎn)寫標注好的語料的XML格式文件,并運用語料庫建庫工具(如TEC Tools)建立口譯語料庫;

        7)運用語料庫檢索軟件(如BFSU ParaConc)以及相關(guān)統(tǒng)計分析軟件(如SPSS),基于所建立的口譯語料庫,開展相應(yīng)的研究與教學工作。

        4.2.3 后期建設(shè)

        口譯語料庫的建設(shè)往往要在前期投入大量的時間和精力,但建庫完成并不意味著建設(shè)工作的結(jié)束,后期建設(shè)同樣要引起足夠的重視。據(jù)筆者的經(jīng)驗,需要注意以下兩方面的問題。首先,口譯語料庫的維護問題。前期建設(shè)過程中難免會出現(xiàn)紕漏,比如副語言信息標注位置錯誤、標注類別錯誤等,這就需要在語料庫實際使用過程中不斷發(fā)現(xiàn)問題,不斷進行更正。有時建庫者可能還要根據(jù)教學與研究需要,追加標注更多更為細化的副語言信息,這也是后期建設(shè)的重要工作。第二,口譯語料庫的擴充問題??谧g語料庫的建設(shè)是一個長期的過程,也是一個語料從少到多不斷壯大的過程,因此后期語料規(guī)模擴大也是在建庫之初就要考慮到的問題。有些建庫者是長期依托團隊力量,讓每一屆學生參與轉(zhuǎn)寫、標注等建庫工作,這種情況下一定要注意副語言信息轉(zhuǎn)寫標注體系和方法的傳承性。

        5.0 結(jié)語

        本文只是針對口譯語料庫副語言信息轉(zhuǎn)寫及標注問題的一項探索性研究?;诳谧g語料庫開展口譯研究的意義已經(jīng)得到口譯學界的廣泛認同,但其應(yīng)用前景尚待進一步拓展?,F(xiàn)有研究多停留在使用詞匯密度、詞長、句長等書面語的參數(shù)研究口譯語言特征等問題,對口譯產(chǎn)品的口語體典型特征關(guān)注不夠(王斌華,2012),對于口譯特有的認知處理過程緊密相關(guān)的副語言信息關(guān)注不夠。另外,開展語料庫口譯研究的前提是已經(jīng)建設(shè)好經(jīng)過一定程度加工的較高質(zhì)量的口譯語料庫,而關(guān)于口譯語料庫建設(shè)的基礎(chǔ)研究目前還相當欠缺。近年來,一些學者已經(jīng)開始關(guān)注口譯語料庫建設(shè)中的轉(zhuǎn)寫和標注問題,分享了各自建庫方法和技術(shù)方面的經(jīng)驗,這對于后來者有著相當程度的參考和借鑒價值。誠如張威(2011:46)所言,“口譯語料庫的建設(shè)和相關(guān)研究也必將是口譯教學與研究未來發(fā)展的一個核心”,或者更準確地說,至少在未來相當一段時期內(nèi),口譯副語言信息的轉(zhuǎn)寫標注等口譯語料庫建設(shè)的基礎(chǔ)類研究還是大有可為的,還需要更多研究者積極參與進來。

        注釋:

        ①表1中語料庫名稱縮寫的全稱依次為:EPIC (European Parliament Interpreting Corpus);CIAIR (CIAIR Simultaneous Interpretation Corpus);CECIC (Chinese-English Conference Interpreting Corpus,漢英會議口譯語料庫);PACCEL(Parallel Corpus of Chinese EFL Learners,中國大學生英漢漢英口筆譯語料庫);DIRSI-C(Directionality in Simultaneous Interpreting Corpus);FOOTIE(Football in Europe,a corpus of press conferences of EURO 2008);CoSi/K6 (Consecutive and Simultaneous Interpreting);ComIn-Dat(Community Interpreting Database Pilot Corpus); Dik/K2(Dolmetschen im Krankenhaus[Interpreting in Hospitals]);IiSCC(a corpus of interpreter-mediated interaction in New York Small Claims Court);TIC (Television Interpreting Corpus);CorIT(Italian Television Interpreting Corpus);FPC(Formula one grand prix Press Conferences).

        ② 關(guān)于 TEI的詳細說明參見:http://www.tei-c.org/index.xml。文本編碼的國際規(guī)范還有語料庫編碼標準(Corpus Encoding Standard,CES),但其在語音語料轉(zhuǎn)寫方面尚處探索階段。

        ③關(guān)于HIAT的詳細說明參見:http://www.exmaralda.org/hiat/en_index.html。

        [1]Angermeyer,P.S.Speak English or What? Codeswitching and Interpreter Use in New York Small Claims Court[D].New York University,2006.

        [2]Angermeyer,P.S.et al.Sharing community interpreting corpora:A pilot study[A].In T.Schmidt& K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis[C].Amsterdam/Philadelphia: John Benjamins,2012.275-294.

        [3]Bendazzoli,C.From international conferences to machine-readable corpora and back:An ethno-graphic approach to simultaneous interpreter-mediated communicative events[A].In F.Straniero Sergio&C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern: Peter Lang,2012.91-118.

        [4]Bührig,K.et al.The corpus“Interpreting in hospitals”— Possible applications for research and communication trainings[A]. In T.Schmidt& K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis[C].Amsterdam/Philadelphia: John Benjamins,2012.305-318.

        [5]Cencini,M.&G.Aston.Resurrecting the corp (us|se):Towards an encoding standard for interpreting data[A].In G.Garzone&M.Viezzi (eds.).Interpreting in the 21st Century —Challenges and Opportunities[C].Amsterdam/ Philadephia:John Benjamins,2002.47-62.

        [6]Falbo,C.CorIT(Italian Television Interpreting Corpus):Classification criteria[A].In F.Straniero Sergio& C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern:Peter Lang,2012.155-186.

        [7]Garg,S.et al.Evaluation of Transcription and Annotation tools for a Multi-modal,Multi-party dialogue corpus[J/OL]. In Proceedingsof LREC 2004.http://www.dtic.mil/cgi-bin/ GetTRDoc?AD=ADA 459208.[2013-06-30]

        [8]House,J.et al.CoSi-A Corpus of Consecutive and SimultaneousInterpreting[A]. In T.Schmidt& K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis[C].Amsterdam/Philadelphia: John Benjamins,2012.295-304.

        [9]Monti,C.et al.Studying directionality in simultaneous interpreting through an electronic corpus:EPIC(European Parliament Interpreting Corpus)[J].Meta,2005,50(4):114-129.

        [10]Roach,P.et al.Transcription of prosodic and paralinguistic feature of emotional speech[J].Journal of the International Phonetic Association,1998,28(1-2):83-94.

        [11]Russo,M.et al.The European Parliament Interpreting Corpus(EPIC):Implementation and developments[A].In F.Straniero Sergio&C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern:Peter Lang,2012.53-90.

        [12]Sandrelli,A.Introducing FOOTIE(Footbal in Europe):Simultaneous interpreting in football press conferences[A].In F.Straniero Sergio&C.Falbo(eds.).Breaking Ground in Corpusbased Interpreting Studies[C].Bern: Peter Lang,2012.119-154.

        [13]Schiffrin,D.Approaches to Discourse[M].Cambridge:Blackwell Publishers,1994.

        [15]Straniero Sergio,F(xiàn).Using corpus evidence to discoverstyle in interpreters'performances[A].In F.StranieroSergio& C.Falbo (eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern:Peter Lang,2012.211-230.

        [16]Tohyama,H.et al.CIAIR Simultaneous Interpretation Corpus[J/OL].In Proceedings of the O-COCOSDA 2004.http://ir.nul.nagoya-u.ac.jp/jspui/handle/2237/15081.[2013-08-15]

        [17]Trager,G.Paralanguage:A first approximation[J].Studies in Linguistics,1958,13(1):1-12.

        [18]陳瑞青,王巍巍.口譯中的副語言信息研究芻議[J].外語藝術(shù)教育研究,2011,(3):5-9.

        [19]胡開寶,陶慶.漢英會議口譯語料庫的創(chuàng)建與應(yīng)用研究[J].中國翻譯,2010,(5):49-56.

        [20]李婧,李德超.基于語料庫的口譯研究:回顧與展望[J].中國外語,2010,(9):100-105,111.

        [21]梁茂成.副語言初論[J].徐州師范學院學報,1994,(2):128-130.

        [22]梁茂成,許家金.雙語語料庫建設(shè)中元信息的添加和段落與句子的兩極對齊[J].中國外語,2012,(11):37-42,63.

        [23]王斌華.語料庫口譯研究——口譯產(chǎn)品研究方法的突破[J].中國外語,2012,(3):94-100.

        [24]文秋芳,王金銓.中國大學生英漢漢英口筆譯語料庫[M].北京:外語教學與研究出版社,2008.

        [25]張威.口譯語料庫的開發(fā)與建設(shè):理論與實踐的若干問題[J].中國翻譯,2009,(3):54-59.

        [26]張威.近十年來口譯語料庫研究現(xiàn)狀及發(fā)展趨勢[J].浙江大學學報,2011,(10):38-49.

        [27]張威.線性時間對齊轉(zhuǎn)寫:口譯語料庫建設(shè)與研究中的應(yīng)用分析[J].外國語,2013,(2): 76-83.

        Transcription and Annotation of Paralinguistic Information in Interpreting Corpora: The Status Quo,Problems and Solutions

        ZOU Bing1,WANG Bin-h(huán)ua2
        (1.School of Interpreting and Translation Studies,Guangdong University of Foreign Studies,Guangzhou 510420,China; 2.Department of Chinese and Bilingual Studies,The Hong Kong Polytechnic University,Hong Kong)

        In this paper the authors first define some relevant concepts of paralinguistic information(PI),and then review the status quo of PI transcription and annotation in existing interpreting corpora around the world.It is found that more attention is needed for research into this issue.The authors of this paper then,integrating their experiences in interpreting corpus design and construction,summarize the major problems that need to be considered in transcribing and annotating PI,and explore the methods of PI transcription and annotation in interpreting corpora in terms of tools,procedures and post-construction maintenance.

        interpreting corpora;status quo and problems;paralinguistic information;transcription and annotation

        H059

        A

        1002-2643(2014)04-0017-07

        2013-12-06

        本研究得到香港理工大學科研項目(G-UA92)和廣東外語外貿(mào)大學研究生科研創(chuàng)新項目(14GWCXXM-41)的資助。

        鄒兵(1986-),男,廣東外語外貿(mào)大學高級翻譯學院博士生。研究方向:翻譯研究。

        王斌華(1974-),男,博士,香港理工大學中文及雙語學系助理教授(研究)。研究方向:口譯研究、翻譯研究。

        猜你喜歡
        口譯語料語料庫
        《語料庫翻譯文體學》評介
        中外口譯研究對比分析
        把課文的優(yōu)美表達存進語料庫
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        EAP視聽說對英語口譯關(guān)聯(lián)遷移的增效性——以交替?zhèn)髯g為例
        華語電影作為真實語料在翻譯教學中的應(yīng)用
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學實證研究比較:語料類型與收集方法
        論心理認知與口譯記憶
        免费超爽大片黄| 国产无套粉嫩白浆内精| 中文字幕亚洲精品专区| 精品久久久久久无码中文野结衣 | 国产午夜在线视频观看| 极品少妇一区二区三区四区| 93精91精品国产综合久久香蕉| 久久精品视频中文字幕无码| 少妇人妻精品久久888| 久久人人爽爽爽人久久久| 日本无遮挡吸乳呻吟视频| 久热re在线视频精品免费| 精品蜜桃av免费观看| 日本欧美大码a在线观看| 欲色天天网综合久久| 亚洲国产欧美另类va在线观看| 国产激情视频在线观看首页| 欧美性受xxxx黑人猛交| 国产人与禽zoz0性伦| 人妻精品久久中文字幕| 中文字幕人妻互换激情| 成人试看120秒体验区| 欧美熟妇精品一区二区三区| 九月色婷婷免费| av在线播放亚洲天堂| 久久久久久九九99精品| 亚洲福利视频一区| 杨幂二区三区免费视频| 国产精品一区二区三区卡| 无码中文字幕日韩专区视频| 亚洲成在人线电影天堂色| 亚洲av综合日韩精品久久| 西西午夜无码大胆啪啪国模| 四虎影视在线观看2413| 日韩精品一区二区av在线| 亚洲精品国产av成人精品| 边做边流奶水的人妻| 中文字幕第一页亚洲观看 | 久久日日躁夜夜躁狠狠躁| 午夜不卡av免费| 91极品尤物在线观看播放|