伍彥(安徽新華學院 外國語學院,安徽 合肥 230000)
數(shù)據(jù)驅(qū)動下的口譯學習者語料庫建設(shè)構(gòu)想*
伍彥
(安徽新華學院 外國語學院,安徽 合肥 230000)
本研究提出建設(shè)一個基于數(shù)據(jù)驅(qū)動學習理論的口譯學習者語料庫,旨在推進口譯教學現(xiàn)代化,為口譯研究提供數(shù)據(jù),并通過數(shù)據(jù)驅(qū)動的學習模式,為社會培養(yǎng)更多優(yōu)秀口譯人才。
數(shù)據(jù)驅(qū)動;口譯;語料庫
“大數(shù)據(jù)”時代,數(shù)據(jù)已成為滾滾洪流,影響著全球經(jīng)濟社會各個領(lǐng)域。隨著數(shù)據(jù)提取、存儲、搜索、共享、分析、處理技術(shù)的不斷提高,大數(shù)據(jù)與高等教育的結(jié)合逐漸成為教育發(fā)展的必然趨勢。數(shù)據(jù)驅(qū)動學習(Data-driving Learning),作為一種新的教學工具和技術(shù),最早由Tim Johns于上世紀九十年代提出,主要思想是指引學生基于語料庫數(shù)據(jù)觀察、概括和歸納語言使用現(xiàn)象。
從教學形式上,數(shù)據(jù)驅(qū)動學習逆轉(zhuǎn)了“規(guī)則第一、實踐第二”的演繹式教學方法,強調(diào)學生自己探索并歸納規(guī)則。從教學內(nèi)容上,數(shù)據(jù)驅(qū)動學習跳出了課本數(shù)據(jù)的窠臼,提供給學生的語言數(shù)據(jù)具有容量大、種類多、速度快、價值高四大特征。
(一)數(shù)據(jù)驅(qū)動學習的國內(nèi)外發(fā)展現(xiàn)狀
近十幾年,國內(nèi)外學者從不同角度對數(shù)據(jù)驅(qū)動學習的應用進行了研究。Johns[1]進一步提出了數(shù)據(jù)驅(qū)動學習所面臨的技術(shù)、語言、教學法等挑戰(zhàn),探討了在21世紀如何使數(shù)據(jù)庫更加符合學習者需求,并將數(shù)據(jù)驅(qū)動學習與互惠式學習以及互聯(lián)網(wǎng)的應用結(jié)合起來。Gilquin&Granger[2]總結(jié)了數(shù)據(jù)驅(qū)動學習的三大優(yōu)勢,包括使課堂更真實,有修正功能,使學習過程更具激勵性和趣味性。
中國學者也積極將數(shù)據(jù)驅(qū)動學習運用到課堂實踐。俞燕明[3]對數(shù)據(jù)驅(qū)動詞匯教學進行了探索,發(fā)現(xiàn)該模式能有效提高學生詞匯水平,對培養(yǎng)學生自主學習和研究性思維有一定促進作用。李德超、王克非[4]利用數(shù)據(jù)驅(qū)動學習輔助旅游翻譯教學課堂實踐,認為該學習模式能促進旅游翻譯教學理念的轉(zhuǎn)變,教學形式的多樣化,并引導學生獲得“自主學習”的樂趣。
(二)口譯語料庫的國內(nèi)外發(fā)展現(xiàn)狀
目前世界上規(guī)模最大的口譯語料庫是日本名古屋大學設(shè)計開發(fā)的英、日雙語的同傳語料庫,采編口譯錄音材料共182小時,轉(zhuǎn)寫材料約1百萬字。在建的有英語、意大利語、西班牙語的多語平行語料庫“歐洲議會口譯語料庫(EPIC)”,匯集并轉(zhuǎn)寫歐洲議會同傳的材料,由意大利博洛尼亞大學開發(fā),目前容量為18萬字。此外還有用于譯員教學和培訓的語料庫,例如歐盟口譯司開發(fā)的Speech Repository等。
國內(nèi)的口譯語料庫研究起步于2007年以后,目前已初具規(guī)模的口譯語料庫是由上海交通大學研究開發(fā)的“漢英會議口譯語料庫(CECIC)”。該語料庫是以國內(nèi)外新聞發(fā)布會口譯活動為對象的平行語料庫,包括漢英口譯語料庫、英語原語語料庫、漢語原語語料庫三個子庫,目前容量約為54萬字。此外還有一些民間發(fā)起的口譯合作平臺,例如Speechpool、Chinese Speech Bank等。
結(jié)合口譯教學實踐,構(gòu)建一個數(shù)據(jù)驅(qū)動下的口譯學習者語料庫,具有教學價值和科研意義。一方面,語料庫的構(gòu)建要求在口譯訓練中對學習者進行錄音或錄像,作為口譯監(jiān)控的一種有效方式,有助于學生在通用交傳階段完成口譯任務和口譯能力的提高。同時,基于該語料庫的數(shù)據(jù)驅(qū)動學習使學生能夠通過關(guān)鍵詞檢索,找到相關(guān)話題和演講,并使用語料庫中的音頻和視頻進行口譯練習或進行同輩反饋,節(jié)約了上網(wǎng)搜索練習素材的時間,并提供了同輩之間相互學習、教師提供指導反饋的平臺。另一方面,口譯學習者語料庫具有學術(shù)價值??谧g學習者語料庫可以為副語言研究、口譯策略研究等話題提供研究數(shù)據(jù),此外,建立口譯學習者語料庫,對比考察口譯學員和職業(yè)口譯員在口譯策略、口譯質(zhì)量等方面的差異,能夠全面顯示口譯學習與實踐對口譯技能發(fā)展的影響,對口譯教學和培訓有明顯而實際的啟示意義及應用價值[5]。
結(jié)合歐盟口譯司Speech Repository的語料庫模型,參照數(shù)據(jù)驅(qū)動語言學習的提出問題(Identify),材料分類(Classify)和歸納總結(jié)(Generalize)三階段,本口譯學習者語料庫的具體操作模式如下:
根據(jù)我國大學本科英語專業(yè)大三大四學生的實際水平和需要,本語料庫擬將涵蓋記憶練習、筆記練習和口譯應試能力練習三個訓練重點。
記憶練習的音視頻長度設(shè)計在1-2分鐘,話題難度為簡單,術(shù)語頻次低,對話題來源不做要求。以一學期16周計算,記憶練習主要安排在課程的1-3周,主要目的在于鍛煉學生的注意力、分析能力和短時記憶。相應的,學生按照上述要求,每人每周有針對性地準備1篇中文演講和1篇英文演講,課下自行錄音或錄像,經(jīng)教師審核后,上傳到數(shù)據(jù)庫平臺。課上,教師可使用該語料指導學生進行交互練習,即一個學生聽另一個學生的演講進行源語復述(中-中,英-英)或者翻譯練習(中-英,英-中)。練習結(jié)束后,教師和同輩可對具體學生的口譯表現(xiàn)進行反饋,分析該演講的邏輯結(jié)構(gòu)和記憶要點。
筆記練習的音視頻長度設(shè)計在5-8分鐘,話題難度根據(jù)學生水平可分級為入門級、中級和高級,術(shù)語頻次按級增加,話題要求涵蓋口譯工作的主要領(lǐng)域,文本內(nèi)容可以自擬,也可以參照網(wǎng)上的資料進行改寫。同樣以一學期16周計算,筆記練習主要安排在4-16周,旨在鍛煉學生的口譯筆記系統(tǒng)、分析提煉能力和篇章表達能力。類似的,學生按照上述要求,每人每周有針對性地準備1篇中文演講和1篇英文演講,課下自行錄音或錄像,經(jīng)教師審核后,上傳到數(shù)據(jù)庫平臺。課上,教師每周從語料庫中選取1篇中文演講和1篇英文演講,指導學生進行課堂練習,主要訓練并考察學生筆記系統(tǒng)的建立、有筆記交傳的譯出質(zhì)量以及相關(guān)百科知識。課下,學生進行小組練習,通過關(guān)鍵詞搜索功能調(diào)用語料庫的音視頻,輪流練習并進行相互反饋。
口譯應試能力練習的音視頻長度設(shè)計在5分鐘左右,材料來源于CATTI三級和二級的真題。材料由教師收集整理,制作成音頻或視頻,上傳至數(shù)據(jù)庫平臺。該材料的訓練側(cè)重于應試訓練,主要安排在14-16周以及假期,旨在讓學生接觸真實的考試題型和考察話題,通過練習了解CATTI證書考試的形式和內(nèi)容,從而可以查缺補漏,進行針對性練習。
針對上述數(shù)據(jù)類型和用戶層次,本數(shù)據(jù)庫初步定位于交替?zhèn)髯g訓練用途,語種為英語和漢語,語料難度分為入門、中等和高級,語料類型為演講,話題囊括會議致辭、人物訪談、信息科技、體育健康、環(huán)境保護、經(jīng)濟、社會、外交、國情等口譯工作的常見方面。教師組建工作坊,對收集到的每一篇語料進行編號,定義檢索關(guān)鍵詞,并對口譯中的原語和譯語文本進行轉(zhuǎn)寫,完成詞性附碼、標注等工作。在語料庫界面開發(fā)方面,由計算機編程人員開發(fā)針對上述數(shù)據(jù)并能夠?qū)崿F(xiàn)在線檢索功能的人機交互界面,實現(xiàn)語種、難度、領(lǐng)域選擇和關(guān)鍵詞、編號搜索等功能。
數(shù)據(jù)庫初步建立后,首先在個別高校進行教師、學生用戶公測,完善數(shù)據(jù)結(jié)構(gòu)和檢索程序,擴充數(shù)據(jù)庫語料容量、種類和適用范圍,以期為更多口譯學習者提供便利,發(fā)揮更大的價值。此外,還可以建立一套基于本數(shù)據(jù)庫語料的數(shù)據(jù)驅(qū)動口譯學習方案,把數(shù)據(jù)運用到課堂實踐,讓學生真正成為數(shù)據(jù)的貢獻者、使用者和受益者。
建設(shè)一個數(shù)據(jù)驅(qū)動下的口譯學習者語料庫是運用新技術(shù)促進口譯教學和科研發(fā)展的重要途徑。比起傳統(tǒng)的教材編寫,數(shù)據(jù)庫的建立能夠為口譯學習者和研究者提供容量更大、種類更多、速度更快、價值更高的練習和研究素材。此外,依托數(shù)據(jù)庫平臺,口譯學習從課內(nèi)延伸到課外,在搜集語料、錄制語料、使用語料進行練習和接受反饋的過程中,學生的信息篩選能力、口語表達能力和口譯技巧得到潛移默化的鍛煉。同時,通過積極參與本語料庫的建設(shè),并將其與口譯學習結(jié)合起來,學生將成為該數(shù)據(jù)驅(qū)動學習模式中最積極的因子和最大的受益方。
當然,語料庫的建設(shè)需要大量精力和時間投入。從語料庫的容量建設(shè)上來看,絕非短短幾年,憑借一屆或幾屆口譯學習者的貢獻就可以達到預期規(guī)模。此外,在技術(shù)層面上需要外語專業(yè)和信息技術(shù)等專業(yè)的合作,具體難點包括質(zhì)量監(jiān)控、程序編寫、語料標注、信息處理和互聯(lián)網(wǎng)平臺搭建等。從長遠來看,建設(shè)這樣一個數(shù)據(jù)驅(qū)動下的口譯學習者語料庫,收集與口譯學習相關(guān)的語料,搭建一個口譯練習反饋的平臺,具有較大的教育意義和應用價值。同時,數(shù)據(jù)庫的不斷更新和推廣能夠為高??谧g教學和科研提供最新的素材和數(shù)據(jù),讓口譯培訓行業(yè)跟上“大數(shù)據(jù)”時代的步伐,為社會貢獻更多高水平的口譯人才。
[1]Johns,Tim.Data-driven Learning:the Perpetual Challenge [C].Language and Computers,2000:107-117.
[2]Gilquin,G.,Granger,S.How Can Data-driven Learning be Us ed in Language Teaching[C].The Routledge Handbook of Corp us Linguistics,2010:359-370.
[3]俞燕明.數(shù)據(jù)驅(qū)動詞匯教學-基于計算機和語料庫的研究性教學探索[J].外語電化教學,2009(3):58-62.
[4]李德超,王克非.基于雙語旅游語料庫的DDL翻譯教學[J].外語電化教學,2011(1):20-26.
[5]張威.近十年來口譯語料庫研究現(xiàn)狀及發(fā)展趨勢[J].浙江大學學報(人文社會科學版),2012(2):201.
This study proposes to construct a Chinese-English corpus for interpreting learners based on Datadriven Learning theory.The corpus is aimed at pushing forward the modernization of interpreting training,providing data for interpreting researchers and cultivating more capable interpreting professionals for the society.
data-driven learning;interpreting;corpus
G642
A
2096-000X(2016)17-0131-02
安徽新華學院校級科研項目(編號:2016rw015)
伍彥(1989,09-),女,漢族,安徽潛山,碩士,助教,研究方向:口譯理論與實踐。