摘 要:英語高頻詞匯研究屬詞匯分析的一部分,在語言研究和教學(xué)實(shí)踐中極具實(shí)用意義。本文介紹高頻詞匯的概念、采集原理及使用《英語詞匯分析工具》軟件采集英語高頻詞匯的方法。
關(guān)鍵詞:英語;詞匯分析;高頻詞匯;英語詞匯分析工具
一、 引言
詞匯在英語語言研究和教學(xué)工作中是重要的組成部分,高頻詞匯因使用頻繁而受到普遍重視。根據(jù)關(guān)注目標(biāo)不同衍生出各類英語高頻詞匯,如考試類的高考高頻詞匯和托福高頻詞匯,技術(shù)專業(yè)類的如商務(wù)英語高頻詞匯、新聞?dòng)⒄Z高頻詞匯、化工英語高頻詞匯等等。這些英語高頻詞匯面向?qū)ο蟛煌?,詞匯組成差異明顯,研究高頻詞匯可以幫助教師更多地關(guān)注這類詞匯的相關(guān)信息、更好地把握教學(xué)重點(diǎn)和更高效地訓(xùn)練學(xué)生應(yīng)對(duì)能力,提升教學(xué)質(zhì)量。
二、 高頻詞匯概念和采集一般步驟
高頻詞匯通常是指在語言交流中使用率較高的詞匯,或某領(lǐng)域使用較普遍的詞匯。它是以交流材料為計(jì)數(shù)單位,經(jīng)過對(duì)許多批次材料詞匯詞頻統(tǒng)計(jì),篩選出由頻數(shù)較高詞匯組成的一批詞匯。一份材料無論某詞匯出現(xiàn)多少次,其詞頻計(jì)數(shù)僅算1次,而頻數(shù)為100的詞匯是指在所有統(tǒng)計(jì)材料中有100份材料含有該詞匯。高頻詞匯共同特征是對(duì)材料的較高總體覆蓋率,如商務(wù)英語高頻詞匯對(duì)各種商務(wù)文書類具較高的覆蓋率,考試高頻詞匯考到的概率較大。因此,僅對(duì)一篇材料進(jìn)行詞頻統(tǒng)計(jì)或?qū)⑺胁牧辖M成一個(gè)大文件做詞頻統(tǒng)計(jì)均不適合用于高頻詞匯采集。本文以考試高頻詞匯的采集為例,介紹采集的技術(shù)要點(diǎn)和一般步驟。
考試高頻詞匯指在特定考試中按考試批次統(tǒng)計(jì)出現(xiàn)頻數(shù)較高的詞匯(覆蓋率較高)。如對(duì)20批次考試試卷進(jìn)行詞頻統(tǒng)計(jì),某詞匯在14批次考試試卷中含有,則該詞匯的統(tǒng)計(jì)頻數(shù)為14,考試覆蓋率70%,該詞匯應(yīng)屬于考試高頻詞匯??荚嚫哳l詞匯的采集首先要收集足夠批次考試試卷(統(tǒng)計(jì)學(xué)稱之為采樣的樣本量)。受考試時(shí)長和篇幅的限制,每次考試所含詞匯數(shù)量十分有限,如果用于統(tǒng)計(jì)的試卷批次數(shù)量過少則高頻詞匯采集將失去意義,考試批次越多,高頻詞匯采集工作就價(jià)值越高。采集的主要工作是制作詞頻統(tǒng)計(jì)數(shù)據(jù)表和各頻數(shù)段詞匯表,該工作一般用專用軟件在計(jì)算機(jī)上完成,詞頻統(tǒng)計(jì)數(shù)據(jù)可幫助快速框定高頻詞匯的范圍,合并框定范圍內(nèi)各頻數(shù)段詞匯表就完成了高頻詞匯的初始采集工作。高頻詞匯范圍框定一般有兩種方式,一種方式是以詞匯數(shù)量規(guī)模進(jìn)行框定,如根據(jù)詞頻數(shù)由高到低選取2000個(gè)詞匯;另一種方式是按考試覆蓋率框定,如超過半數(shù)考試含有的詞匯(考試批次覆蓋率50%)。
經(jīng)上述工作形成的高頻詞匯初始詞表的后處理是除去(Excluded Words)一些不應(yīng)包含在其中的詞匯,包括專有名詞(如U.S.A./Mrs./April)、數(shù)詞(如three/second/nineteenth)、感嘆詞(如yeah/oh/ha)、無法歸類詞(如er/th/wh)、字母符號(hào)(如a/b/l)、計(jì)量詞(如km/vol./p.)、縮寫(如b.c./a.m./ie)、代詞(如your/her)、介詞(如of/as)等等,最終完成高頻詞匯詞表。
三、 采集工具與操作
《英語詞匯分析工具》是南通大學(xué)李冬研制的英語詞匯數(shù)據(jù)采集工具,該軟件功能十分豐富,2017版除了對(duì)原有功能優(yōu)化外,首次推出了小程序功能,為以后功能不斷地豐富創(chuàng)造了條件。目前含有的小程序已達(dá)10余種,其中“txt多試卷”小程序是專門為高頻詞匯采集設(shè)計(jì),可以完成多批次材料的詞頻統(tǒng)計(jì)和對(duì)應(yīng)詞匯表生成工作。該小程序通過連續(xù)、多次導(dǎo)入各批次試卷(或材料),采集詞匯進(jìn)行詞頻統(tǒng)計(jì),生成包含各頻數(shù)段詞匯數(shù)據(jù)及對(duì)應(yīng)的詞匯表,操作十分便捷。它也適用于各專業(yè)類高頻詞匯采集(如商務(wù)英語、化工英語、醫(yī)學(xué)英語等等)。
軟件操作:啟動(dòng)軟件后(見圖1)在小程序調(diào)用輸入框直接輸入小程序名“txt多試卷”,點(diǎn)擊“運(yùn)行”按鈕啟動(dòng)該程序。
圖1
進(jìn)入該小程序操作界面后循環(huán)進(jìn)行下面4個(gè)步驟完成多批次試卷數(shù)據(jù)采集:1在彈出的窗口中點(diǎn)擊“打開文件”;2選擇導(dǎo)入試卷;3勾取“繼續(xù)導(dǎo)入試卷”復(fù)選框準(zhǔn)備下一輪采集;4回到采集初始界面(完成一份試卷數(shù)據(jù)采集循環(huán))。經(jīng)過N次循環(huán)完成N份試卷的數(shù)據(jù)采集后點(diǎn)擊“完成”按鈕結(jié)束循環(huán),顯示統(tǒng)計(jì)數(shù)據(jù)和各頻數(shù)段詞匯表。
圖2
打開程序生成的數(shù)據(jù)文件,只要根據(jù)自身情況框定高頻詞匯范圍、去除上述少量無關(guān)詞,高頻詞匯表就完成了。
四、 結(jié)語
高頻詞匯(highfrequency word)一直是英語學(xué)習(xí)者詞匯學(xué)習(xí)關(guān)注的焦點(diǎn)。英語教師往往希望根據(jù)自身教學(xué)情況獲得適合自己教學(xué)需要的特定高頻詞匯表,但是,高頻詞匯清晰的概念、采集方法及輔助工具均未見報(bào)道。本文通過介紹高頻詞匯采集及相關(guān)技術(shù),以期推動(dòng)各類高頻詞匯研究,滿足相關(guān)人士的需要。
參考文獻(xiàn):
[1]何華清,陳文存.大學(xué)生英語高頻詞匯水平實(shí)證研究[N].西華師范大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2008(2):43-47.
[2]苗麗霞.非英語專業(yè)學(xué)生基礎(chǔ)階段高頻詞匯水平發(fā)展研究[N].寧波大學(xué)學(xué)報(bào):教育科學(xué)版,2010(2):116-210.
作者簡介:
李夢圓,江蘇省泰州市,江蘇泰州學(xué)院外國語學(xué)院。