■
河北農(nóng)業(yè)大學(xué)
在信息化的時代,將語料庫應(yīng)用于外語教學(xué)已經(jīng)成為一種新的趨勢。正因此,語料庫被應(yīng)用的領(lǐng)域越來越廣,類型也越來越多。到目前為止,國內(nèi)外已經(jīng)建立了很多大型語料庫,如中國學(xué)習(xí)者英語語料庫,美國當(dāng)代英語語料庫,英國國家語料庫等。
盡管大型語料庫龐大的數(shù)據(jù)支持為學(xué)者們的研究提供了很大的方便,但是大型語料庫的更新較慢很難為研究提供最新的信息。因此,一些研究者或教師會根據(jù)自身的要求建立小型或中型語料庫。在某種程度上,小型語料庫有著自身的優(yōu)勢表現(xiàn)如下:
(1)目標(biāo)明確,針對性強(qiáng)且難度適中;(2)語料更新速度快,具有時效性;(3)本地機(jī)操作,經(jīng)濟(jì)、方便、快捷,檢索語料時選擇自由;(4)自主設(shè)計,靈活標(biāo)注,應(yīng)用方便,易于發(fā)揮語料庫的功能。
通常情況下建庫者獲取材料的種類有三種。第一種:雜志或教科書。對于這種類型的材料,可以直接鍵入或在掃描儀的幫助下掃描完成錄入。第二種:音頻或視頻。在自建語料庫中,音頻和視頻的轉(zhuǎn)錄是最困難的,它需要花費大量的時間和精力。同時,這需要轉(zhuǎn)錄員有較高的聽力水平。第三種:網(wǎng)頁、電子文檔和電影字幕。網(wǎng)絡(luò)材料的數(shù)量是巨大的,而且涉及范圍很廣,為語言學(xué)習(xí)者提供了豐富的資源。
雅思寫作小作文語料庫中的材料主要是從互聯(lián)網(wǎng)上選擇的。在導(dǎo)師的幫助下,共找到176篇雅思寫作小作文的樣本,每個樣本約200個字符,語料庫的總字符約為35200。其中,作者選取了2014年至2017年8月26日發(fā)布的152篇范文。其余的樣本則是從網(wǎng)上找到的有著名考官Simon寫的。本文根據(jù)題目中的圖的類型將小作文分為6個不同的種類,他們分別是:地圖,表格,線形圖,條形圖,混合圖,流程圖。
語料的難度應(yīng)根據(jù)語料庫的應(yīng)用目的和應(yīng)用對象來決定。本文建立的雅思寫作小作文語料庫主要是為了幫助中國學(xué)生提高雅思寫作成績,提高中國學(xué)生的雅思通過率。根據(jù)統(tǒng)計來看,大部分中國學(xué)生的雅思寫作在5分左右,這使得中國學(xué)生不能成功進(jìn)入申請的院校。建立的雅思寫作小作文語料庫選取的語料均為7分左右。一方面7分能夠滿足各國家各院校對雅思寫作考試的要求;另一方面,7分略高于中國學(xué)生目前的水平,利于提高學(xué)生的寫作水平。
互聯(lián)網(wǎng)上的很多文本往往是以PDF等不可修改的文本格式呈現(xiàn)的,因此選取的文本不能直接運用到語料庫的建立中。在建立語料庫之前,為了方便語料的檢索和分析,需要對文本進(jìn)行簡單的加工。從網(wǎng)絡(luò)中獲得的雅思寫作小作文的格式各不同。所以,把這些文本轉(zhuǎn)換成統(tǒng)一的格式是非常必要的。在訊飛軟件的幫助下,將所有的文本同意轉(zhuǎn)換成了TXT格式。作者根據(jù)樣本的圖片類型和考試時間就每個文本文檔進(jìn)行了命名。如:2016年10月13日的考試為例,題目中圖片為餅圖,所以作者將這次考試的樣本命名為“pie20161013”。
按照要求對樣本進(jìn)行轉(zhuǎn)換和命名后,需要對文本進(jìn)行預(yù)處理,目的是為了保證文本詞匯的賦碼無誤、詞匯無拼寫錯誤等,文本的整理需要大量的人力和時間。因此,文本整理人員可以輔助“文本整理器”對文本進(jìn)行整理。
雅思寫作小作文語料庫可能會被應(yīng)用于核心詞匯、重要搭配和典型句式的檢索,因此本語料庫采用的是詞性賦碼。詞性賦碼指的是對樣本中所有的詞匯進(jìn)行賦碼。詞性賦碼的方式有兩種。第一種是CLAWS。另一種是由斯圖加特大學(xué)的計算語言學(xué)研究所設(shè)計的,命名為Tree Tagger。前者主要是商業(yè)應(yīng)用軟件,后者是免費的賦碼工具。雅思寫作小作文語料庫采用 Tree Tagger軟件對所有樣本進(jìn)行詞性賦碼。步驟如下:
步驟一:雙擊打開Tree Tagger3 軟件, 點擊左上角的File 菜單,選擇其中的“open File”選項,打開對話框,將雅思寫作小作文樣本載入。
步驟二:從界面上方的“English”、“French”、“Italian”中選擇“English”。
步驟三:因為載入的文本都是英語,因此選擇ANSI 對文本進(jìn)行編碼。
步驟四:點擊“Start Tagging”按鈕,軟件開始對載入的文本進(jìn)行詞性賦碼。Tree Tagger 軟件對所載入的文本詞性賦碼完成以后,會在原文本所在的文件夾形成同名文件夾,只是擴(kuò)展名變成了“.tagged”,這些文件就是賦碼后的文件。
最后,將所有的賦碼后的文本進(jìn)行整理,雅思寫作小作文語料庫就建成了。
雅思寫作小作文語料庫的構(gòu)建可以為雅思寫作教學(xué)提供大量的真實的語料,提高學(xué)生雅思寫作學(xué)習(xí)的積極性和系統(tǒng)性。因此,雅思寫作小作文語料庫的構(gòu)建非常重要。本文建立的雅思寫作小作文語料庫能夠為雅思寫作提供幫助,但是雅思考試是每周都會進(jìn)行的,因此應(yīng)不斷對該語料庫進(jìn)行更新和語料的補(bǔ)充,只用這樣才能為雅思寫作教學(xué)提供更多即時的教學(xué)材料,促進(jìn)雅思寫作的教學(xué)。
參考文獻(xiàn)
:[1]劉佳.建筑工程英語小型語料庫的構(gòu)建標(biāo)準(zhǔn)與應(yīng)用[J].建筑工程,2016(9):113~114.
[2]畢少琴.自建小型語料庫在高中英語教學(xué)與研究中的應(yīng)用[J].基礎(chǔ)教育外語教學(xué)研究,2013(11):47~53.
[3]張葦,韓江洪,夏蓓潔.基于自建語料庫的旅游英語文體特征類比研究[J].合肥工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2015(2):52~59.