鄒兵,王斌華
(1.廣東外語(yǔ)外貿(mào)大學(xué)高級(jí)翻譯學(xué)院,廣東廣州 510420; 2.香港理工大學(xué)中文及雙語(yǔ)學(xué)系,香港九龍)
口譯語(yǔ)料庫(kù)中副語(yǔ)言信息的轉(zhuǎn)寫(xiě)及標(biāo)注:現(xiàn)狀、問(wèn)題與方法
鄒兵1,王斌華2
(1.廣東外語(yǔ)外貿(mào)大學(xué)高級(jí)翻譯學(xué)院,廣東廣州 510420; 2.香港理工大學(xué)中文及雙語(yǔ)學(xué)系,香港九龍)
本文對(duì)口譯副語(yǔ)言信息的相關(guān)概念進(jìn)行了界定,并檢視了國(guó)際范圍內(nèi)口譯語(yǔ)料庫(kù)中副語(yǔ)言信息的轉(zhuǎn)寫(xiě)標(biāo)注情況,發(fā)現(xiàn)現(xiàn)有研究對(duì)副語(yǔ)言信息的轉(zhuǎn)寫(xiě)標(biāo)注等口譯語(yǔ)料庫(kù)基礎(chǔ)建設(shè)問(wèn)題缺乏關(guān)注。本文基于筆者設(shè)計(jì)和建設(shè)口譯語(yǔ)料庫(kù)的經(jīng)驗(yàn),歸納了口譯副語(yǔ)言信息轉(zhuǎn)寫(xiě)及標(biāo)注應(yīng)注意的問(wèn)題,并從標(biāo)注工具、標(biāo)注步驟和后期建設(shè)幾個(gè)方面探討了口譯副語(yǔ)言信息的轉(zhuǎn)寫(xiě)及標(biāo)注方法。
口譯語(yǔ)料庫(kù);研究現(xiàn)狀及問(wèn)題;副語(yǔ)言信息;轉(zhuǎn)寫(xiě)及標(biāo)注
語(yǔ)料庫(kù)應(yīng)用于翻譯研究已逾20個(gè)年頭。當(dāng)前基于語(yǔ)料庫(kù)的筆譯研究多關(guān)注語(yǔ)言層面,即集中于譯文語(yǔ)言特征研究和譯者語(yǔ)體/文體風(fēng)格研究。對(duì)基于語(yǔ)料庫(kù)的口譯研究而言,語(yǔ)言層面之外的副語(yǔ)言和超語(yǔ)言信息也值得關(guān)注,因?yàn)檫@些信息對(duì)于研究者分析口譯產(chǎn)品的特點(diǎn)以及考察口譯過(guò)程起著關(guān)鍵作用。而在口譯語(yǔ)料庫(kù)建設(shè)中,語(yǔ)言層面之外的信息轉(zhuǎn)寫(xiě)和標(biāo)注是一個(gè)難題,當(dāng)前關(guān)于這一難題的討論(包括轉(zhuǎn)寫(xiě)內(nèi)容、方法、工具、原則與標(biāo)準(zhǔn)等)卻不多見(jiàn),這一定程度上制約了語(yǔ)料庫(kù)口譯研究的發(fā)展。在本文中,筆者在檢視世界范圍內(nèi)主要口譯語(yǔ)料庫(kù)的基礎(chǔ)上,結(jié)合自身設(shè)計(jì)與建設(shè)口譯語(yǔ)料庫(kù)的經(jīng)驗(yàn),探討口譯語(yǔ)料區(qū)別于筆譯語(yǔ)料的特有信息——副語(yǔ)言信息的轉(zhuǎn)寫(xiě)和標(biāo)注問(wèn)題,希望能對(duì)口譯語(yǔ)料庫(kù)建設(shè)的標(biāo)準(zhǔn)化有所貢獻(xiàn)。
語(yǔ)言學(xué)中的副語(yǔ)言信息概念最初由 Trager (1958)在“Paralanguage:A First Approximation”一文中首次使用(梁茂成,1994:128),指在與詞匯和語(yǔ)法層面平行的信號(hào)層面上的非語(yǔ)言話語(yǔ)信息(陳瑞青、王巍巍,2011:5)。
口譯語(yǔ)料涉及的信息大致可分為三類(lèi),即語(yǔ)言信息(linguistic information)、副語(yǔ)言信息(paralinguistic information)和超語(yǔ)言信息(extra-linguistic information)?;赗oach,et al.(1998)、Monti,et al.(2005)、張威(2009)等的觀點(diǎn),結(jié)合口譯語(yǔ)料庫(kù)的特點(diǎn)和設(shè)計(jì)需要,筆者對(duì)這三類(lèi)信息界定如下:
1)語(yǔ)言信息,即口譯源語(yǔ)與譯語(yǔ)中詞句篇章各個(gè)層面的信息,包括:詞性標(biāo)注、句法標(biāo)注、時(shí)間標(biāo)記、句子段落標(biāo)記、詞句段對(duì)齊,等等。
2)副語(yǔ)言信息,即源語(yǔ)和譯語(yǔ)產(chǎn)出的同時(shí)所伴隨產(chǎn)生的相關(guān)信息,包括:停頓、支吾語(yǔ)(猶豫)、填充語(yǔ)、重音、語(yǔ)音拖長(zhǎng)、自我修正、打斷、話語(yǔ)重疊、不完整句、幽默、肢體語(yǔ)言,等等。
3)超語(yǔ)言信息,即與口譯活動(dòng)相關(guān)的環(huán)境信息,包括:①口譯背景信息,如口譯主題、口譯場(chǎng)合、時(shí)間地點(diǎn)、源語(yǔ)語(yǔ)體、專(zhuān)業(yè)難度、技術(shù)設(shè)備等;②講話人信息,如口音、語(yǔ)速、時(shí)長(zhǎng)及字?jǐn)?shù)、信息密度、國(guó)籍、性別、政治身份等;③口譯員信息,如口譯經(jīng)歷、專(zhuān)業(yè)級(jí)別、口譯形式、準(zhǔn)備時(shí)間、國(guó)籍、性別、母語(yǔ)等;④口譯聽(tīng)眾信息,如知識(shí)背景、與會(huì)目的、雙語(yǔ)水平等;⑤口譯活動(dòng)贊助人、組織者信息,等等。
這些信息是口譯語(yǔ)料庫(kù)建設(shè)時(shí)所應(yīng)轉(zhuǎn)寫(xiě)和標(biāo)注的基本信息。關(guān)于語(yǔ)言信息和超語(yǔ)言信息的轉(zhuǎn)寫(xiě)和標(biāo)注,當(dāng)前筆譯語(yǔ)料庫(kù)建設(shè)已經(jīng)積累了較為標(biāo)準(zhǔn)化和可操作化的方法、工具和體系??谧g語(yǔ)言信息的標(biāo)注基本可以參照筆譯或筆語(yǔ)語(yǔ)料庫(kù)的標(biāo)注體系(如詞性標(biāo)注集、句法標(biāo)注集等),超語(yǔ)言信息的標(biāo)注也基本可以在頭文件(text header)中統(tǒng)一處理即可。(梁茂成、許家金,2012)
但是,口譯副語(yǔ)言信息的轉(zhuǎn)寫(xiě)和標(biāo)注問(wèn)題,目前尚未引起足夠的重視,這從相關(guān)研究的缺失即可看出。有必要指出的是,副語(yǔ)言信息的標(biāo)注對(duì)于口譯語(yǔ)料而言有著特殊的意義,因?yàn)楦闭Z(yǔ)言信息“有利于判定具體口譯策略的影響因素以及這些策略的應(yīng)用效果”(張威,2009:56),“有助于揭示口譯語(yǔ)體特征和譯員風(fēng)格的差異”(胡開(kāi)寶、陶慶,2010:52),有助于“研究非言語(yǔ)因素對(duì)口譯的方向性和語(yǔ)言特征的影響”(李婧、李德超,2010:101)。
從筆者設(shè)計(jì)和建設(shè)口譯語(yǔ)料庫(kù)的經(jīng)驗(yàn)以及作為口譯研究者和口譯教師對(duì)口譯語(yǔ)料庫(kù)功能的期待來(lái)看,口譯語(yǔ)料庫(kù)建設(shè)之初的設(shè)計(jì)工作應(yīng)引起極大的重視。因?yàn)榭谧g語(yǔ)料庫(kù)建設(shè)是一項(xiàng)耗時(shí)耗力的龐大工程,哪怕只是一個(gè)磁帶小時(shí)的口譯語(yǔ)料,往往需要花費(fèi)數(shù)倍的時(shí)間來(lái)轉(zhuǎn)寫(xiě)和標(biāo)注,所以在口譯語(yǔ)料轉(zhuǎn)寫(xiě)之前就應(yīng)當(dāng)根據(jù)研制語(yǔ)料庫(kù)的目的確定要關(guān)注的信息類(lèi)別,在轉(zhuǎn)寫(xiě)的同時(shí)標(biāo)注這些信息。
根據(jù)筆者掌握的資料,目前世界范圍內(nèi)已建和在建的口譯語(yǔ)料庫(kù)僅有十多個(gè)。此處對(duì)現(xiàn)有口譯語(yǔ)料庫(kù)的建設(shè)情況作一檢視,重點(diǎn)關(guān)注其對(duì)口譯副語(yǔ)言信息的轉(zhuǎn)寫(xiě)及標(biāo)注,詳見(jiàn)表1的描述。
表1 現(xiàn)有口譯語(yǔ)料庫(kù)建設(shè)及其副語(yǔ)言轉(zhuǎn)寫(xiě)標(biāo)注情況①
通過(guò)考察這些口譯語(yǔ)料庫(kù)的建設(shè)情況,筆者發(fā)現(xiàn),其副語(yǔ)言信息轉(zhuǎn)寫(xiě)及標(biāo)注存在以下幾方面問(wèn)題:
1)轉(zhuǎn)寫(xiě)及標(biāo)注內(nèi)容選擇不一。表1中較大型的口譯語(yǔ)料庫(kù)(如 EPIC、CIAIR、CECIC、CoSi、CorIT),對(duì)副語(yǔ)言信息轉(zhuǎn)寫(xiě)和標(biāo)注較為全面,其它口譯語(yǔ)料庫(kù)則選擇性地轉(zhuǎn)寫(xiě)和標(biāo)注了停頓等部分副語(yǔ)言信息。各個(gè)語(yǔ)料庫(kù)選擇轉(zhuǎn)寫(xiě)和標(biāo)注的內(nèi)容重合度較低,沒(méi)有體現(xiàn)對(duì)口譯語(yǔ)料最基本的一些副語(yǔ)言特征的關(guān)注。
2)轉(zhuǎn)寫(xiě)及標(biāo)注規(guī)范不統(tǒng)一。如EPIC、CECIC、 TIC按照TEI文本編碼規(guī)范(見(jiàn)4.1.2),ComInDat及其子庫(kù)(DiK,IiSCC,SimDik)、CoSi遵循HIAT口語(yǔ)文本轉(zhuǎn)寫(xiě)標(biāo)注規(guī)范(見(jiàn)4.1.2),CorIT則依據(jù)會(huì)話分析領(lǐng)域的轉(zhuǎn)寫(xiě)規(guī)范,其它語(yǔ)料庫(kù)則根據(jù)需要自行設(shè)定了轉(zhuǎn)寫(xiě)和標(biāo)注符號(hào)。
3)較少考慮語(yǔ)料庫(kù)兼容問(wèn)題。語(yǔ)料庫(kù)之間的兼容體現(xiàn)在若干方面,除了要轉(zhuǎn)寫(xiě)標(biāo)注一些基本特征以及要遵循統(tǒng)一的轉(zhuǎn)寫(xiě)標(biāo)注規(guī)范之外,語(yǔ)料庫(kù)文件格式還要能方便地轉(zhuǎn)換為現(xiàn)在所普遍提倡的XML格式,從而方便未來(lái)的跨庫(kù)研究。而表1中只有較少語(yǔ)料庫(kù)(如EPIC、CECIC)考慮到了與其它語(yǔ)料庫(kù)的兼容問(wèn)題。
總體而言,當(dāng)前多數(shù)口譯語(yǔ)料庫(kù)的開(kāi)發(fā)者并沒(méi)有很詳細(xì)地描述其副語(yǔ)言信息的轉(zhuǎn)寫(xiě)標(biāo)注過(guò)程,再加上很多語(yǔ)料庫(kù)本身并不公開(kāi),因此對(duì)于其它口譯語(yǔ)料庫(kù)的副語(yǔ)言信息轉(zhuǎn)寫(xiě)標(biāo)注無(wú)法提供很好的指導(dǎo)和借鑒。
上文的考察反映出,國(guó)內(nèi)外學(xué)者在探討口譯語(yǔ)料庫(kù)開(kāi)發(fā)及建設(shè)時(shí),都認(rèn)為口譯語(yǔ)料深加工是需要重點(diǎn)關(guān)注和解決的問(wèn)題,但是少有學(xué)者論及口譯副語(yǔ)言信息轉(zhuǎn)寫(xiě)和標(biāo)注的具體操作問(wèn)題。下面筆者將結(jié)合自己設(shè)計(jì)和開(kāi)發(fā)口譯語(yǔ)料庫(kù)的經(jīng)驗(yàn),探討副語(yǔ)言信息轉(zhuǎn)寫(xiě)標(biāo)注應(yīng)注意的問(wèn)題和轉(zhuǎn)寫(xiě)標(biāo)注的方法。
4.1 口譯副語(yǔ)言信息轉(zhuǎn)寫(xiě)標(biāo)注應(yīng)注意的問(wèn)題
4.1.1 轉(zhuǎn)寫(xiě)及標(biāo)注內(nèi)容的選擇
口譯副語(yǔ)言信息層面可以轉(zhuǎn)寫(xiě)標(biāo)注的內(nèi)容,除了上文(見(jiàn)2.0)提及的類(lèi)別之外,還可以包括口譯學(xué)習(xí)者的口譯錯(cuò)誤和職業(yè)譯員的口譯策略。至于這些內(nèi)容如何選擇,則須遵循兩點(diǎn)原則:
1)明確建設(shè)語(yǔ)料庫(kù)的最終目的。即在建庫(kù)之初,要明確口譯語(yǔ)料庫(kù)使用方(包括口譯研究者、口譯學(xué)習(xí)者、口譯教育者、口譯實(shí)踐者、機(jī)器口譯研發(fā)者等)的需求。面向的服務(wù)對(duì)象不同,對(duì)口譯副語(yǔ)言信息轉(zhuǎn)寫(xiě)和標(biāo)注程度的要求也有所不同。同時(shí),轉(zhuǎn)寫(xiě)和標(biāo)注內(nèi)容的選擇也要考慮現(xiàn)有資源(包括語(yǔ)料規(guī)模、資金、人員等)以及所掌握技術(shù)的情況。
2)體現(xiàn)對(duì)口譯基本/共性特征的關(guān)注。即對(duì)口譯活動(dòng)表現(xiàn)的一些基本和共性的副語(yǔ)言特征表示關(guān)注。這樣做的目的是增強(qiáng)各個(gè)領(lǐng)域、各種形式、各個(gè)語(yǔ)種的口譯語(yǔ)料庫(kù)的可比性和兼容性,有利于未來(lái)進(jìn)行跨語(yǔ)料庫(kù)的多語(yǔ)類(lèi)多語(yǔ)種口譯比較研究。筆者認(rèn)為口譯語(yǔ)料庫(kù)應(yīng)當(dāng)轉(zhuǎn)寫(xiě)和標(biāo)注以下幾類(lèi)基本的副語(yǔ)言信息:①言語(yǔ)行為特征,包括停頓(又可分為無(wú)聲停頓和有聲停頓)、猶豫、填充語(yǔ)、不完整句、自我修正、打斷、話語(yǔ)重疊、重復(fù)、口誤、不規(guī)范用語(yǔ);②明顯的發(fā)聲特征,如拼讀錯(cuò)誤、語(yǔ)音拖長(zhǎng)、語(yǔ)音變異(口音)、語(yǔ)速、音量/調(diào)變化、笑聲、咳嗽等;③明顯的體態(tài)語(yǔ)特征,如眼神、手勢(shì)等面部表情和肢體動(dòng)作;④無(wú)法辨識(shí)的現(xiàn)象,如因設(shè)備影響而聽(tīng)不清、故意含混不清等現(xiàn)象;⑤突發(fā)事件;⑥轉(zhuǎn)寫(xiě)者評(píng)論,如幽默、錯(cuò)誤、策略等。
4.1.2 轉(zhuǎn)寫(xiě)及標(biāo)注體系與規(guī)范
當(dāng)前各口譯語(yǔ)料庫(kù)遵循的規(guī)范大致有三類(lèi),即TEI文本編碼規(guī)范、HIAT口語(yǔ)文本轉(zhuǎn)寫(xiě)標(biāo)注規(guī)范和會(huì)話分析轉(zhuǎn)寫(xiě)規(guī)范。
TEI全稱(chēng)為T(mén)ext Encoding Initiative,是一個(gè)國(guó)際性的跨學(xué)科的編碼標(biāo)準(zhǔn),提倡使用可擴(kuò)充置標(biāo)語(yǔ)言XML對(duì)數(shù)據(jù)和語(yǔ)料語(yǔ)言及結(jié)構(gòu)信息進(jìn)行編碼,現(xiàn)行版本TEI P5專(zhuān)辟一章說(shuō)明如何轉(zhuǎn)寫(xiě)語(yǔ)音語(yǔ)料②。HIAT全稱(chēng)為Halbinterpretative Arbeitstranskriptionen (Semi-Interpretaive Working Transcriptions),現(xiàn)已發(fā)展成為集轉(zhuǎn)寫(xiě)標(biāo)注格式規(guī)范和轉(zhuǎn)寫(xiě)標(biāo)注工具為一身的EXMARaLDA系統(tǒng),主要致力于解決口語(yǔ)文本的轉(zhuǎn)寫(xiě)和標(biāo)注問(wèn)題③。語(yǔ)言學(xué)中的會(huì)話分析(Conversation Analysis,CA)領(lǐng)域長(zhǎng)期關(guān)注機(jī)構(gòu)話語(yǔ)和日常會(huì)話的結(jié)構(gòu)、策略和風(fēng)格特點(diǎn),并形成了一套比較系統(tǒng)和完整的會(huì)話轉(zhuǎn)寫(xiě)規(guī)范。(Schiffrin,1994)
對(duì)口譯副語(yǔ)言信息而言,這三類(lèi)規(guī)范各有優(yōu)勢(shì),各大口譯語(yǔ)料庫(kù)對(duì)這三類(lèi)規(guī)范也是各有青睞,但其彼此之間既有交叉也存在一定差異。隨著未來(lái)口譯語(yǔ)料庫(kù)建設(shè)日益走向標(biāo)準(zhǔn)化,還是有必要根據(jù)口譯活動(dòng)自身的特點(diǎn)以及口譯語(yǔ)料庫(kù)“目標(biāo)用戶(hù)”的需要,研制出一套普遍適用且能被廣泛采用的口譯語(yǔ)料庫(kù)副語(yǔ)言信息轉(zhuǎn)寫(xiě)及標(biāo)注體系或規(guī)范。(Cencini&Aston,2002)可以說(shuō),“語(yǔ)料轉(zhuǎn)寫(xiě)是決定口譯語(yǔ)料庫(kù)代表性的一項(xiàng)關(guān)鍵工作,轉(zhuǎn)寫(xiě)的程序與操作規(guī)范都可以成為研究課題”。(張威,2013:83)
4.1.3 其它相關(guān)問(wèn)題
1)轉(zhuǎn)寫(xiě)標(biāo)注者主觀因素
在副語(yǔ)言信息轉(zhuǎn)寫(xiě)和標(biāo)注過(guò)程中,需要注意的一個(gè)重要問(wèn)題是如何避免或盡量減少轉(zhuǎn)寫(xiě)標(biāo)注者的主觀因素,因?yàn)檫@些主觀因素往往容易導(dǎo)致語(yǔ)料標(biāo)注前后不一致甚至相互沖突。為此,可以采取的措施有:①在轉(zhuǎn)寫(xiě)標(biāo)注之前專(zhuān)門(mén)進(jìn)行集體培訓(xùn),并進(jìn)行試驗(yàn)性轉(zhuǎn)寫(xiě)標(biāo)注,在試驗(yàn)期間進(jìn)行反復(fù)調(diào)試,直至完全符合要求后再正式參與轉(zhuǎn)寫(xiě)標(biāo)注工作;②專(zhuān)設(shè)核對(duì)和“質(zhì)檢”的角色,即時(shí)監(jiān)控轉(zhuǎn)寫(xiě)標(biāo)注過(guò)程,隨時(shí)發(fā)現(xiàn)問(wèn)題隨時(shí)更正;③在工具開(kāi)發(fā)上嘗試設(shè)計(jì)標(biāo)準(zhǔn)化的轉(zhuǎn)寫(xiě)標(biāo)注功能,對(duì)每一類(lèi)副語(yǔ)言信息設(shè)置單獨(dú)的轉(zhuǎn)寫(xiě)標(biāo)注模塊,出現(xiàn)此類(lèi)信息時(shí)直接點(diǎn)擊選擇,自動(dòng)生成相應(yīng)的轉(zhuǎn)寫(xiě)標(biāo)注符號(hào),從而減少插入符號(hào)時(shí)出現(xiàn)的失誤;④有些涉及口譯錯(cuò)誤和口譯策略的副語(yǔ)言特征,本身便存在主觀判別的風(fēng)險(xiǎn),這便需要事先進(jìn)行明確定義,在操作過(guò)程中一以貫之地執(zhí)行。
2)語(yǔ)料庫(kù)的兼容問(wèn)題
現(xiàn)有語(yǔ)料庫(kù)大多存在重復(fù)建設(shè)、轉(zhuǎn)寫(xiě)標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一以及經(jīng)過(guò)調(diào)整也很難融合的問(wèn)題,即語(yǔ)料庫(kù)之間的兼容性太差。當(dāng)前語(yǔ)料庫(kù)建設(shè)普遍提倡在建庫(kù)時(shí)即采用XML置標(biāo)語(yǔ)言,或者所建語(yǔ)料庫(kù)能夠方便地轉(zhuǎn)換為XML文件格式,這對(duì)于語(yǔ)料庫(kù)的標(biāo)準(zhǔn)化、網(wǎng)絡(luò)化十分關(guān)鍵。對(duì)于口譯副語(yǔ)言信息而言,具體的轉(zhuǎn)寫(xiě)標(biāo)注內(nèi)容和符號(hào)需要研究者結(jié)合口譯活動(dòng)特點(diǎn)和口譯研究需要,制定一個(gè)通行的可操作性強(qiáng)的操作準(zhǔn)則和細(xì)則??谧g語(yǔ)料庫(kù)建設(shè)尚剛剛起步,在起步之初,如果各口譯語(yǔ)料庫(kù)的設(shè)計(jì)者在語(yǔ)料選取上能夠盡量避免同質(zhì)和重復(fù),并且能很好地遵循通行的轉(zhuǎn)寫(xiě)標(biāo)注規(guī)范和體系,那么隨著越來(lái)越多的語(yǔ)料庫(kù)形成一個(gè)大的集合,未來(lái)的口譯語(yǔ)料庫(kù)研究一定會(huì)發(fā)揮越來(lái)越大的作用,遠(yuǎn)非現(xiàn)在的各自為戰(zhàn)所能比擬。
3)語(yǔ)料庫(kù)的應(yīng)用問(wèn)題
語(yǔ)料庫(kù)建好之后如何應(yīng)用,這是在建庫(kù)之初就應(yīng)思考的問(wèn)題??谧g語(yǔ)料庫(kù)中所轉(zhuǎn)寫(xiě)標(biāo)注的副語(yǔ)言信息如何應(yīng)用,筆者認(rèn)為可以從其最終目的出發(fā)進(jìn)行考慮:①若為口譯研究者服務(wù),便要清楚認(rèn)識(shí)到副語(yǔ)言特征可以說(shuō)明什么問(wèn)題,如停頓、支吾語(yǔ)、填充語(yǔ)等可能與譯員當(dāng)時(shí)當(dāng)?shù)氐男睦砘顒?dòng)有關(guān),若再針對(duì)這些副語(yǔ)言現(xiàn)象出現(xiàn)的規(guī)律提出一定的研究假說(shuō),與其它的實(shí)證研究手段(如TAPs、ERPs、fMRI等)結(jié)合進(jìn)行三方驗(yàn)證,便能很好地解釋和預(yù)測(cè)復(fù)雜口譯過(guò)程中的一些現(xiàn)象,但需要注意的是進(jìn)行語(yǔ)料庫(kù)口譯研究時(shí),應(yīng)特別重視方法論設(shè)計(jì)(Setton,2002);②若為口譯教育者和口譯學(xué)習(xí)者服務(wù),則需要注重語(yǔ)料庫(kù)調(diào)用的功能模塊設(shè)計(jì),如在課堂上同時(shí)檢索呈現(xiàn)不同譯員停頓的位置、時(shí)長(zhǎng)、前后語(yǔ)境等信息,同時(shí)還要注意與口譯多媒體教學(xué)平臺(tái)的兼容問(wèn)題。
4.2 口譯副語(yǔ)言信息的轉(zhuǎn)寫(xiě)及標(biāo)注方法
4.2.1 轉(zhuǎn)寫(xiě)及標(biāo)注工具
口譯副語(yǔ)言信息的轉(zhuǎn)寫(xiě)和標(biāo)注與語(yǔ)言信息和超語(yǔ)言信息不同,需要使用專(zhuān)門(mén)的工具和軟件。副語(yǔ)言信息通常的轉(zhuǎn)寫(xiě)方法是用“…”、“-”、“*”、“p”等符號(hào)指代某類(lèi)副語(yǔ)言特征,各類(lèi)副語(yǔ)言信息夾雜于口譯輸出文本之中,語(yǔ)言信息與副語(yǔ)言信息相互交織。這種做法的優(yōu)點(diǎn)是便于線性轉(zhuǎn)寫(xiě)操作,缺點(diǎn)在于:1)文內(nèi)的標(biāo)點(diǎn)需要去掉或作特別處理(以免與標(biāo)注符號(hào)弄混),為此不得不使用額外的符號(hào)區(qū)分語(yǔ)段間隔;2)較難處理多種副語(yǔ)言信息出現(xiàn)在同一時(shí)間節(jié)點(diǎn)的情況,也較難處理話語(yǔ)重疊等副語(yǔ)言現(xiàn)象;3)不便于實(shí)現(xiàn)轉(zhuǎn)寫(xiě)和標(biāo)注的可視化操作。
關(guān)于副語(yǔ)言信息的轉(zhuǎn)寫(xiě)及標(biāo)注,目前已經(jīng)有一些較為成熟的工具和軟件可供利用,如Anvil、EXMARaLDA Partitur Editor、Praat等,這些軟件各有優(yōu)勢(shì)。以Anvil為例,該軟件開(kāi)發(fā)的初衷是為肢體語(yǔ)言研究服務(wù),其操作界面如圖1所示。
圖1 Anvil軟件轉(zhuǎn)寫(xiě)及標(biāo)注界面
值得關(guān)注的是,Anvil軟件成功實(shí)現(xiàn)了副語(yǔ)言信息轉(zhuǎn)寫(xiě)和標(biāo)注的可視化操作。它允許對(duì)語(yǔ)言信息與副語(yǔ)言信息進(jìn)行分層標(biāo)注,不同類(lèi)別的信息在不同的軌道(track)上進(jìn)行標(biāo)注,彼此之間互不干擾,而又通過(guò)線性時(shí)間軸相互聯(lián)系。甚至不同類(lèi)別的副語(yǔ)言信息(如肢體動(dòng)作、語(yǔ)音高低長(zhǎng)短、停頓等)還可進(jìn)一步細(xì)分,在不同的軌道進(jìn)行單獨(dú)標(biāo)注,這也避免了不同類(lèi)別副語(yǔ)言信息在同一時(shí)間節(jié)點(diǎn)出現(xiàn)時(shí)不便標(biāo)注的問(wèn)題。講話人的輸出與口譯員的輸出也可各自占據(jù)一條軌道,因此講話人與口譯員話語(yǔ)重疊的問(wèn)題也得到了解決。新軌道可以由轉(zhuǎn)寫(xiě)標(biāo)注者自行開(kāi)辟,標(biāo)注符號(hào)體系可以由轉(zhuǎn)寫(xiě)標(biāo)注者自行制定和導(dǎo)入,同時(shí)該軟件還提供簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)分析功能,并且可以很方便地將轉(zhuǎn)寫(xiě)標(biāo)注好的語(yǔ)料導(dǎo)出成XML格式文件,因此也較好解決了與其它語(yǔ)料庫(kù)的兼容性問(wèn)題。
可惜的是該軟件使用舒適度較低(Garg et al.,2004),而且支持的影音格式和輸入語(yǔ)言有限。但這些都可以在未來(lái)通過(guò)對(duì)軟件的不斷更新進(jìn)行完善,或者至少為口譯副語(yǔ)言信息轉(zhuǎn)寫(xiě)標(biāo)注工具的研制提供了很好的思路和方向?,F(xiàn)階段口譯副語(yǔ)言信息轉(zhuǎn)寫(xiě)和標(biāo)注可以依托現(xiàn)有工具可利用的功能,綜合利用各個(gè)工具的長(zhǎng)處。但未來(lái)大規(guī)模口譯語(yǔ)料庫(kù)的建設(shè),還是有待于性能更加優(yōu)良、更符合口譯研究需要的副語(yǔ)言信息轉(zhuǎn)寫(xiě)標(biāo)注軟件的研發(fā)。
4.2.2 轉(zhuǎn)寫(xiě)及標(biāo)注步驟
基于對(duì)上述問(wèn)題的探討,并根據(jù)自身建設(shè)口譯語(yǔ)料庫(kù)的經(jīng)驗(yàn),筆者總結(jié)了口譯語(yǔ)料庫(kù)副語(yǔ)言信息轉(zhuǎn)寫(xiě)標(biāo)注的步驟:
1)明確建庫(kù)目的,初步確定其未來(lái)應(yīng)用領(lǐng)域,據(jù)此選定需要進(jìn)行轉(zhuǎn)寫(xiě)及標(biāo)注的副語(yǔ)言信息類(lèi)別(本文4.1.1建議的基本副語(yǔ)言特征應(yīng)予標(biāo)注);
2)基于文本編碼規(guī)范(TEI)、口語(yǔ)文本轉(zhuǎn)寫(xiě)標(biāo)注規(guī)范(HIAT)和會(huì)話分析(CA)領(lǐng)域的會(huì)話特征轉(zhuǎn)寫(xiě)規(guī)范,編制符合當(dāng)前口譯語(yǔ)料庫(kù)建設(shè)需要的副語(yǔ)言信息轉(zhuǎn)寫(xiě)及標(biāo)注符號(hào)體系(應(yīng)盡可能使用現(xiàn)存規(guī)范已有的標(biāo)注符號(hào));
3)對(duì)口譯影音語(yǔ)料進(jìn)行頭文件信息轉(zhuǎn)寫(xiě),要求盡可能多地涵蓋該口譯活動(dòng)所涉及的超語(yǔ)言信息;
4)根據(jù)第1)步所選取的副語(yǔ)言信息類(lèi)別,設(shè)定轉(zhuǎn)寫(xiě)標(biāo)注軟件(如 Anvil)中的轉(zhuǎn)寫(xiě)標(biāo)注軌道(track),有幾類(lèi)副語(yǔ)言信息就通過(guò)編寫(xiě)程序設(shè)定幾個(gè)軌道;
5)運(yùn)用轉(zhuǎn)寫(xiě)標(biāo)注軟件(如Anvil),按照第2)步中所確定的副語(yǔ)言信息轉(zhuǎn)寫(xiě)標(biāo)注符號(hào),對(duì)口譯影音語(yǔ)料同時(shí)進(jìn)行語(yǔ)言信息和副語(yǔ)言信息轉(zhuǎn)寫(xiě)及標(biāo)注,每個(gè)轉(zhuǎn)寫(xiě)標(biāo)注軌道對(duì)應(yīng)一個(gè)類(lèi)別的語(yǔ)言信息或副語(yǔ)言信息;
6)從轉(zhuǎn)寫(xiě)標(biāo)注軟件(如Anvil)中導(dǎo)出已經(jīng)轉(zhuǎn)寫(xiě)標(biāo)注好的語(yǔ)料的XML格式文件,并運(yùn)用語(yǔ)料庫(kù)建庫(kù)工具(如TEC Tools)建立口譯語(yǔ)料庫(kù);
7)運(yùn)用語(yǔ)料庫(kù)檢索軟件(如BFSU ParaConc)以及相關(guān)統(tǒng)計(jì)分析軟件(如SPSS),基于所建立的口譯語(yǔ)料庫(kù),開(kāi)展相應(yīng)的研究與教學(xué)工作。
4.2.3 后期建設(shè)
口譯語(yǔ)料庫(kù)的建設(shè)往往要在前期投入大量的時(shí)間和精力,但建庫(kù)完成并不意味著建設(shè)工作的結(jié)束,后期建設(shè)同樣要引起足夠的重視。據(jù)筆者的經(jīng)驗(yàn),需要注意以下兩方面的問(wèn)題。首先,口譯語(yǔ)料庫(kù)的維護(hù)問(wèn)題。前期建設(shè)過(guò)程中難免會(huì)出現(xiàn)紕漏,比如副語(yǔ)言信息標(biāo)注位置錯(cuò)誤、標(biāo)注類(lèi)別錯(cuò)誤等,這就需要在語(yǔ)料庫(kù)實(shí)際使用過(guò)程中不斷發(fā)現(xiàn)問(wèn)題,不斷進(jìn)行更正。有時(shí)建庫(kù)者可能還要根據(jù)教學(xué)與研究需要,追加標(biāo)注更多更為細(xì)化的副語(yǔ)言信息,這也是后期建設(shè)的重要工作。第二,口譯語(yǔ)料庫(kù)的擴(kuò)充問(wèn)題??谧g語(yǔ)料庫(kù)的建設(shè)是一個(gè)長(zhǎng)期的過(guò)程,也是一個(gè)語(yǔ)料從少到多不斷壯大的過(guò)程,因此后期語(yǔ)料規(guī)模擴(kuò)大也是在建庫(kù)之初就要考慮到的問(wèn)題。有些建庫(kù)者是長(zhǎng)期依托團(tuán)隊(duì)力量,讓每一屆學(xué)生參與轉(zhuǎn)寫(xiě)、標(biāo)注等建庫(kù)工作,這種情況下一定要注意副語(yǔ)言信息轉(zhuǎn)寫(xiě)標(biāo)注體系和方法的傳承性。
本文只是針對(duì)口譯語(yǔ)料庫(kù)副語(yǔ)言信息轉(zhuǎn)寫(xiě)及標(biāo)注問(wèn)題的一項(xiàng)探索性研究。基于口譯語(yǔ)料庫(kù)開(kāi)展口譯研究的意義已經(jīng)得到口譯學(xué)界的廣泛認(rèn)同,但其應(yīng)用前景尚待進(jìn)一步拓展?,F(xiàn)有研究多停留在使用詞匯密度、詞長(zhǎng)、句長(zhǎng)等書(shū)面語(yǔ)的參數(shù)研究口譯語(yǔ)言特征等問(wèn)題,對(duì)口譯產(chǎn)品的口語(yǔ)體典型特征關(guān)注不夠(王斌華,2012),對(duì)于口譯特有的認(rèn)知處理過(guò)程緊密相關(guān)的副語(yǔ)言信息關(guān)注不夠。另外,開(kāi)展語(yǔ)料庫(kù)口譯研究的前提是已經(jīng)建設(shè)好經(jīng)過(guò)一定程度加工的較高質(zhì)量的口譯語(yǔ)料庫(kù),而關(guān)于口譯語(yǔ)料庫(kù)建設(shè)的基礎(chǔ)研究目前還相當(dāng)欠缺。近年來(lái),一些學(xué)者已經(jīng)開(kāi)始關(guān)注口譯語(yǔ)料庫(kù)建設(shè)中的轉(zhuǎn)寫(xiě)和標(biāo)注問(wèn)題,分享了各自建庫(kù)方法和技術(shù)方面的經(jīng)驗(yàn),這對(duì)于后來(lái)者有著相當(dāng)程度的參考和借鑒價(jià)值。誠(chéng)如張威(2011:46)所言,“口譯語(yǔ)料庫(kù)的建設(shè)和相關(guān)研究也必將是口譯教學(xué)與研究未來(lái)發(fā)展的一個(gè)核心”,或者更準(zhǔn)確地說(shuō),至少在未來(lái)相當(dāng)一段時(shí)期內(nèi),口譯副語(yǔ)言信息的轉(zhuǎn)寫(xiě)標(biāo)注等口譯語(yǔ)料庫(kù)建設(shè)的基礎(chǔ)類(lèi)研究還是大有可為的,還需要更多研究者積極參與進(jìn)來(lái)。
注釋:
①表1中語(yǔ)料庫(kù)名稱(chēng)縮寫(xiě)的全稱(chēng)依次為:EPIC (European Parliament Interpreting Corpus);CIAIR (CIAIR Simultaneous Interpretation Corpus);CECIC (Chinese-English Conference Interpreting Corpus,漢英會(huì)議口譯語(yǔ)料庫(kù));PACCEL(Parallel Corpus of Chinese EFL Learners,中國(guó)大學(xué)生英漢漢英口筆譯語(yǔ)料庫(kù));DIRSI-C(Directionality in Simultaneous Interpreting Corpus);FOOTIE(Football in Europe,a corpus of press conferences of EURO 2008);CoSi/K6 (Consecutive and Simultaneous Interpreting);ComIn-Dat(Community Interpreting Database Pilot Corpus); Dik/K2(Dolmetschen im Krankenhaus[Interpreting in Hospitals]);IiSCC(a corpus of interpreter-mediated interaction in New York Small Claims Court);TIC (Television Interpreting Corpus);CorIT(Italian Television Interpreting Corpus);FPC(Formula one grand prix Press Conferences).
② 關(guān)于 TEI的詳細(xì)說(shuō)明參見(jiàn):http://www.tei-c.org/index.xml。文本編碼的國(guó)際規(guī)范還有語(yǔ)料庫(kù)編碼標(biāo)準(zhǔn)(Corpus Encoding Standard,CES),但其在語(yǔ)音語(yǔ)料轉(zhuǎn)寫(xiě)方面尚處探索階段。
③關(guān)于HIAT的詳細(xì)說(shuō)明參見(jiàn):http://www.exmaralda.org/hiat/en_index.html。
[1]Angermeyer,P.S.Speak English or What? Codeswitching and Interpreter Use in New York Small Claims Court[D].New York University,2006.
[2]Angermeyer,P.S.et al.Sharing community interpreting corpora:A pilot study[A].In T.Schmidt& K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis[C].Amsterdam/Philadelphia: John Benjamins,2012.275-294.
[3]Bendazzoli,C.From international conferences to machine-readable corpora and back:An ethno-graphic approach to simultaneous interpreter-mediated communicative events[A].In F.Straniero Sergio&C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern: Peter Lang,2012.91-118.
[4]Bührig,K.et al.The corpus“Interpreting in hospitals”— Possible applications for research and communication trainings[A]. In T.Schmidt& K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis[C].Amsterdam/Philadelphia: John Benjamins,2012.305-318.
[5]Cencini,M.&G.Aston.Resurrecting the corp (us|se):Towards an encoding standard for interpreting data[A].In G.Garzone&M.Viezzi (eds.).Interpreting in the 21st Century —Challenges and Opportunities[C].Amsterdam/ Philadephia:John Benjamins,2002.47-62.
[6]Falbo,C.CorIT(Italian Television Interpreting Corpus):Classification criteria[A].In F.Straniero Sergio& C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern:Peter Lang,2012.155-186.
[7]Garg,S.et al.Evaluation of Transcription and Annotation tools for a Multi-modal,Multi-party dialogue corpus[J/OL]. In Proceedingsof LREC 2004.http://www.dtic.mil/cgi-bin/ GetTRDoc?AD=ADA 459208.[2013-06-30]
[8]House,J.et al.CoSi-A Corpus of Consecutive and SimultaneousInterpreting[A]. In T.Schmidt& K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis[C].Amsterdam/Philadelphia: John Benjamins,2012.295-304.
[9]Monti,C.et al.Studying directionality in simultaneous interpreting through an electronic corpus:EPIC(European Parliament Interpreting Corpus)[J].Meta,2005,50(4):114-129.
[10]Roach,P.et al.Transcription of prosodic and paralinguistic feature of emotional speech[J].Journal of the International Phonetic Association,1998,28(1-2):83-94.
[11]Russo,M.et al.The European Parliament Interpreting Corpus(EPIC):Implementation and developments[A].In F.Straniero Sergio&C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern:Peter Lang,2012.53-90.
[12]Sandrelli,A.Introducing FOOTIE(Footbal in Europe):Simultaneous interpreting in football press conferences[A].In F.Straniero Sergio&C.Falbo(eds.).Breaking Ground in Corpusbased Interpreting Studies[C].Bern: Peter Lang,2012.119-154.
[13]Schiffrin,D.Approaches to Discourse[M].Cambridge:Blackwell Publishers,1994.
[15]Straniero Sergio,F(xiàn).Using corpus evidence to discoverstyle in interpreters'performances[A].In F.StranieroSergio& C.Falbo (eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern:Peter Lang,2012.211-230.
[16]Tohyama,H.et al.CIAIR Simultaneous Interpretation Corpus[J/OL].In Proceedings of the O-COCOSDA 2004.http://ir.nul.nagoya-u.ac.jp/jspui/handle/2237/15081.[2013-08-15]
[17]Trager,G.Paralanguage:A first approximation[J].Studies in Linguistics,1958,13(1):1-12.
[18]陳瑞青,王巍巍.口譯中的副語(yǔ)言信息研究芻議[J].外語(yǔ)藝術(shù)教育研究,2011,(3):5-9.
[19]胡開(kāi)寶,陶慶.漢英會(huì)議口譯語(yǔ)料庫(kù)的創(chuàng)建與應(yīng)用研究[J].中國(guó)翻譯,2010,(5):49-56.
[20]李婧,李德超.基于語(yǔ)料庫(kù)的口譯研究:回顧與展望[J].中國(guó)外語(yǔ),2010,(9):100-105,111.
[21]梁茂成.副語(yǔ)言初論[J].徐州師范學(xué)院學(xué)報(bào),1994,(2):128-130.
[22]梁茂成,許家金.雙語(yǔ)語(yǔ)料庫(kù)建設(shè)中元信息的添加和段落與句子的兩極對(duì)齊[J].中國(guó)外語(yǔ),2012,(11):37-42,63.
[23]王斌華.語(yǔ)料庫(kù)口譯研究——口譯產(chǎn)品研究方法的突破[J].中國(guó)外語(yǔ),2012,(3):94-100.
[24]文秋芳,王金銓.中國(guó)大學(xué)生英漢漢英口筆譯語(yǔ)料庫(kù)[M].北京:外語(yǔ)教學(xué)與研究出版社,2008.
[25]張威.口譯語(yǔ)料庫(kù)的開(kāi)發(fā)與建設(shè):理論與實(shí)踐的若干問(wèn)題[J].中國(guó)翻譯,2009,(3):54-59.
[26]張威.近十年來(lái)口譯語(yǔ)料庫(kù)研究現(xiàn)狀及發(fā)展趨勢(shì)[J].浙江大學(xué)學(xué)報(bào),2011,(10):38-49.
[27]張威.線性時(shí)間對(duì)齊轉(zhuǎn)寫(xiě):口譯語(yǔ)料庫(kù)建設(shè)與研究中的應(yīng)用分析[J].外國(guó)語(yǔ),2013,(2): 76-83.
Transcription and Annotation of Paralinguistic Information in Interpreting Corpora: The Status Quo,Problems and Solutions
ZOU Bing1,WANG Bin-h(huán)ua2
(1.School of Interpreting and Translation Studies,Guangdong University of Foreign Studies,Guangzhou 510420,China; 2.Department of Chinese and Bilingual Studies,The Hong Kong Polytechnic University,Hong Kong)
In this paper the authors first define some relevant concepts of paralinguistic information(PI),and then review the status quo of PI transcription and annotation in existing interpreting corpora around the world.It is found that more attention is needed for research into this issue.The authors of this paper then,integrating their experiences in interpreting corpus design and construction,summarize the major problems that need to be considered in transcribing and annotating PI,and explore the methods of PI transcription and annotation in interpreting corpora in terms of tools,procedures and post-construction maintenance.
interpreting corpora;status quo and problems;paralinguistic information;transcription and annotation
H059
A
1002-2643(2014)04-0017-07
2013-12-06
本研究得到香港理工大學(xué)科研項(xiàng)目(G-UA92)和廣東外語(yǔ)外貿(mào)大學(xué)研究生科研創(chuàng)新項(xiàng)目(14GWCXXM-41)的資助。
鄒兵(1986-),男,廣東外語(yǔ)外貿(mào)大學(xué)高級(jí)翻譯學(xué)院博士生。研究方向:翻譯研究。
王斌華(1974-),男,博士,香港理工大學(xué)中文及雙語(yǔ)學(xué)系助理教授(研究)。研究方向:口譯研究、翻譯研究。