吳艷霞 王玲香
(江西中醫(yī)藥大學人文學院,江西 南昌 330004)
語料庫現(xiàn)在一般是指存放在計算機里的大量語料和定位檢索管理軟件的結合[1]。語料庫功能十分強大,最突出的特點是能快速而準確地提供一個或多個關鍵詞有關的批量真實語料,從而揭示語言的本質(zhì)和運用規(guī)律,對日常外語教學十分有用。
國外早在上世紀70年代便開始將語料庫應用于語言教學。到了90年代,隨著語料庫應用于語言教學的規(guī)模不斷擴大,語料庫和語言教學成為1994年語料庫語言學年會(ICAME)的主題,Wichman等人將該年會論文編輯為《教學與語言語料庫》[2]。開始于1994年的教學與語料庫國際研討會(TaLC),兩年一屆,主要研究每屆TaLC的主要議題和研究成果,語料庫應用于語言教學呈如下發(fā)展趨勢:(1)語料庫應用于教學的研究已跨出了宣傳和介紹其可能性和潛在價值的階段,落實到了如何向教學應用。(2)對普通語料庫進行教學加工,用于語言教學實踐的方方面面。(3)教學語料庫要開發(fā)適合學生水平、符合教學要求和進度的小型語料庫。(4)創(chuàng)建多模態(tài)語料庫,即語料庫與音頻和視頻相鏈接的,甚至是同步共現(xiàn)的綜合性教學資源庫。
國內(nèi),語料庫在語言教學尤其是外語教學中的應用研究,也取得了一定成果[3][4][5]。這方面貢獻比較突出的是華南師范大學的何安平教授和她的科研團隊,不僅取得了豐碩的成果,而且還建立了語料庫語言學與語言教育教學的專題網(wǎng)站。但目前國內(nèi)對語料庫在外語教學中的應用還僅局限于語音、語法、詞匯和閱讀教學,對于聽說教學,其應用價值大打折扣。目前,專門針對聽說教學的語料庫很少有人問津,是個亟待開發(fā)的領域。本文作者在中國期刊全文數(shù)據(jù)庫里分別以“語料庫聽力”、“聽力語料庫”和“視聽語料庫”為主題和關鍵詞,對2001至2012年間全部期刊進行檢索,共獲得有關聽力語料庫研究的學術論文13篇,按論文的研究內(nèi)容將其進行分類如下:(1)對純文本語料庫在聽力教學中應用的探討。(2)對聽力語料庫構建的介紹。(3)對視頻語料庫優(yōu)點的綜述和籠統(tǒng)的構想。
基于以上研究,并對學生的聽力需求做大量的調(diào)查后,本文以英語原聲電影和電視為語料,構建“影視語料庫”。電影、電視等未經(jīng)改寫的原始材料,注重語言的原生性和學習的場景性,是練習純正地道英語的首選。但往往線性播放,作為聽說材料,不利于主題的加深及圖式的構建。本文利用視頻點播系統(tǒng)和多款語料檢索工具,與教材單元主題同步,垂直整合電影、電視的精彩片段,開發(fā)“影視語料庫”,以期為學生提供真實的聽力材料并幫助學生掌握口語的主題圖式和心理詞匯,提高聽力理解和口語表達內(nèi)容。
圖1 影視語料庫的功能結構
如圖1所示,“影視語料庫”總規(guī)模約6萬詞,包括“影視視頻語料庫”和“影視文本語料庫”兩個子庫,前者重在聽說訓練,而后者重在意義的構建。兩者相輔相成,共同促進聽說水平的提高。
圖2 視頻點播系統(tǒng)主界面
“影視視頻語料庫”的設計容量為3萬詞左右,主要的語料來源為美國最近10年的動畫片、電影和電視劇。語料收集后,利用Format Factory2.7或豪杰超級解霸,截取所需的電影和電視劇的片段,每個主題(如Culture)下10個視頻片段,每個片段5分鐘左右,共計6400個視頻片段。主要根據(jù)主題并兼顧難度和語域的條件下,將其存放在四個子庫(大學英語一、二、三、四冊)。
1.視頻點播系統(tǒng)
“影視視頻語料庫”的檢索基于美萍VOD視頻點播系統(tǒng)8.4標準版[6],本視頻點播系統(tǒng)以校園局域網(wǎng)為基礎,根據(jù)流媒體傳輸原理,采用B/S模式,其主界面圖2:
視頻點播系統(tǒng)由編碼器、服務器、終端播放器三大部分組成。三大部分分工協(xié)作,共同完成語料的加載和檢索。
①編碼器:由一臺普通計算機、一塊流媒體采集卡和流媒體編碼軟件組成。流媒體采集卡負責將音視頻信息源輸入計算機;編碼軟件負責將流媒體采集卡傳送過來的音視頻信號壓縮成流媒體格式,使其成為可供服務器發(fā)布的流式文件。
②服務器:由VOD視頻服務器和一臺硬件服務器組成。這部分負責增加、刪除、修改、分發(fā)編碼器傳上來的流媒體節(jié)目。
③終端播放器:這部分由一臺普通PC和播放器組成,可以實現(xiàn)在線查找、瀏覽、點播、下載以及評論音視頻語料。我們將安裝的播放器為QQ影音或KMPlayer,這兩款播放器可以有效進行字幕顯示、隱藏以及字幕語言切換,并且具有開始、停止、暫停、和隨機播放等功能。
2.視頻語料的加載
①在要發(fā)布視頻的服務器上安裝好視頻點播系統(tǒng),然后運行視頻點播服務,這樣一個VOD點播系統(tǒng)就搭建起來了。該系統(tǒng)已將視頻點播的片源進行了詳細的分類,有電影大全、電視劇場等6大類(如上圖所示)。點擊左方任意片源的下拉列表,還可看到每大類片源的進一步細分。作者根據(jù)需要對片源進行了重新的分類和細分。操作如下:點左鍵選中第一個分類“電影大全”,再點擊右鍵,選擇彈出菜單中的“重命名”命令,重命名為“全新版大學英語(一)”,繼續(xù)點擊右鍵,選擇彈出菜單中的“新加子類”,連續(xù)加入“Culture”、“advertising”等和教材同步的16 個標題,如圖3左方列表:
圖3 “影視視頻語料庫”點播界面
②接下來為每個新加子類添加10個相同主題的視頻片段,圍繞同一主題的不同視頻往往共享一個語義場,容易形成關于該主題的心理詞庫和圖式。學習者的心理詞庫和圖式越豐富,口語表達就會“言之有物、自然流暢、恰當?shù)皿w”。我們將截取和壓縮后的音視頻語料根據(jù)主題和難度依次添加到每個片源子類中,如圖3右方列表。操作如下:選中新加的子類后,在窗口上面的標題欄中點擊“項目編輯”,在彈出菜單中選擇“項目添加”命令。在打開的項目添加對話窗口中,直接指定影片所在路徑,輸入主演、導演、影片簡介等信息。最后,在播放方式中要選中“此節(jié)目客戶機通過美萍VOD服務器點播”選項,點擊確定后,即可成功將電影添加到點播列表中。如圖4:
圖4 視頻片段添加界面
③客戶機不需要安裝客戶端程序。將美萍VOD點播系統(tǒng)目錄中的“vodclient.exe”文件拷貝到每臺客戶機上。在客戶機上運行“vodclient.exe”文件,第一次運行時,軟件會提示你輸入服務器IP地址。然后進入點播界面,雙擊你想看的節(jié)目開始點播。
文本語料庫的設計容量為3萬詞左右,與視頻語料庫大體相等。語料內(nèi)容為視頻語料的字幕文檔。
1.文本語料的預處理
文本語料庫的語料收集有兩種途徑:①通過subrip軟件將視頻中的字幕轉換成擴展名為 srt的字幕文檔;②從射手網(wǎng)直接下載srt字幕文檔。獲得字幕文檔后,再用LRC歌詞文件轉換器將字幕文檔轉化為文本格式,完成后稱為文本生語料。將文本生語料,按照大學英語一、二、三、四冊將視頻語料庫切分為四個子庫,分別存放。在我們獲得文本生語料后,還需做相應的加工和處理。這其中包括文本的清理、語料元信息標注。這里我們借助Detagging Tool實現(xiàn)清理任務;本課題標注的元信息,主要包括標題、文本類別、來源、關鍵詞四個方面。我們使用目前常見的通用標準語言XML進行元信息標注。
2.語料符碼
語法信息的標注又叫語料符碼。常見的有詞性符碼和語法符碼。本課題根據(jù)研究的需要對語料進行詞性符碼,詞性符碼指對語料里面的每一個詞都添加詞性標記。使用的符碼工具為免費的自動詞性符碼軟件TreeTagger,將符碼后的語料也按照以上四冊分別存放。
語料庫檢索的目的是導出索引行,以便我們批量觀察以下幾個方面語言現(xiàn)象:(1)最頻繁出現(xiàn)的詞匯及其最核心的意思;(2)最常用的典型組合。前者,我們通過提取主題詞和核心主題詞來實現(xiàn)。后者,我們通過提取類聯(lián)接、詞語搭配和詞塊來實現(xiàn)。這些規(guī)律的掌握有助于學生掌握覆蓋率廣的常用口語詞匯和表達,進而快速提高聽說能力。
在比較了多款語料庫檢索軟件后,我們選擇了索引軟件Wordsmith Tool 3.0v對“影視文本語料庫”進行檢索,提取主題詞和核心主題詞。通過統(tǒng)計和分析主題詞、核心主題詞的分布和內(nèi)在聯(lián)系,能夠發(fā)現(xiàn)某一主題所觸發(fā)的詞語群,進而發(fā)現(xiàn)學生在表達某一主題的心理詞匯[7]。我們使用類聯(lián)接專用分析工具Colligator來分析類聯(lián)接和搭配。Colligator由北京外國語大學的梁茂成和許家金等設計[8]。另外我們使用索引工具AntConc來分析在類聯(lián)接和搭配基礎上所形成的詞塊的使用情況[9]。
建立影視語料庫,將作為泛聽材料的電影、電視轉變?yōu)榫牪牧系囊曨l剪輯;將點播系統(tǒng)應用于“影視視頻語料庫”,提供對視頻材料的快捷、科學的檢索;使用Colligator等語料庫工具對“影視文本語料庫”進行檢索,能大大提高學生語言知識和技能體系構建的效果;將“影視視頻語料庫”和“影視文本語料庫”結合起來,能優(yōu)化聽說習得過程。只要學生每天兩個小時左右,不間斷地使用“影視語料庫”三個月,聽力水平可以達到聽懂每部電影85%到95%的水平,可以輕松聽懂老外說的英語。如果能同時做到跟讀模仿的話,三個月后,基本上可以達到口語和發(fā)音有質(zhì)的飛越,同時口語也能達到比較流利表達的水平。該語料庫的建庫方法可以推廣到日語、法語和某些難懂的漢語方言中。
[1]謝家成.論個人語料庫的構建[J].外語電化教學,2003,(91):27.
[2]Wichman,A.et al.Teaching and Language Corpora[C].London:Longman.1997.
[3]王立非,梁茂成.計算機輔助第二語言研究方法與應用[M].第1版.北京:外語教學與研究出版社,2007.
[4]梁茂成,李文中,許家金.語料庫應用教程[M].第1版.北京:外語教學與研究出版社,2010.
[5]何安平.語料庫輔助英語教學入門[M].第1版.北京:外語教學與研究出版社,2010.
[6]吳浩.VOD系統(tǒng)與技術[J].寧夏師范學院學報(自然科學),2007,(6):99-101.
[7]甄鳳超.主題詞和核心主題詞提取與外語聽力教學[J].四川外語學院學報,2002,(3):153-155.
[8]文秋芳、王立非、梁茂成.中國學生英語口筆語語料庫[M].第1版.北京:外語教學與研究出版社,2009(43-55).
[9]濮建忠.學習者動詞行為:類聯(lián)接、搭配及詞塊[M].第1版開封:河南大學出版社,2003(12-56).