王喜艷
摘?要:本文在遵循語料庫建庫的權(quán)威性、真實(shí)性、隨機(jī)性、代表性的原則上,用Teleport?ultra從美國專利商標(biāo)局聚類抽樣了156篇與之相關(guān)的文本,建成了一個(gè)小型石油鉆井英語語料庫,然后以COCA語料庫為參照,借助Wordsmith分析了石油鉆井英語的詞匯密度、詞長(zhǎng)、詞頻,用直觀的數(shù)據(jù)探討了石油鉆井英語的高頻詞、用詞傾向等方面的特點(diǎn),這對(duì)石油鉆井英語詞匯特點(diǎn)的認(rèn)知具有重要的指導(dǎo)意義。
關(guān)鍵詞:石油鉆井英語;自建石油鉆井英語語料庫;Teleportultra;COCA語料庫;Wordsmith
中圖分類號(hào):F74?????文獻(xiàn)標(biāo)識(shí)碼:A??????doi:10.19311/j.cnki.16723198.2023.05.021
0?引言
對(duì)石油鉆井英語詞匯特征的把握有助于準(zhǔn)確地進(jìn)行翻譯,從而為專業(yè)技術(shù)人員提供更加先進(jìn)的鉆井技術(shù)以及設(shè)備和管理經(jīng)驗(yàn)等。本文由四章組成。第一章介紹了理論背景。第二章介紹了自建石油鉆井英語語料庫的具體操作。第三章對(duì)石油鉆井英語的詞匯特征分析和總結(jié)。第四章介紹了本研究的成果和意義。
1?理論背景
1.1?語料庫
語料庫源于拉丁詞“corpus”,在1828年拜占庭帝國所編纂的民法法典Body?of?Civil?Law中提到了“corpus”這個(gè)詞,指的是關(guān)于法律法規(guī)的集合,到現(xiàn)在為止,語料庫也一直沿用的這個(gè)集合的概念,語料庫概念的源流大概分為四個(gè)階段,第一階段是表示文本的匯集。第二階段表示作為研究材料的文本匯集。第三階段表示作為語言學(xué)研究資料的文本匯集。20世紀(jì)四五十年代在美國結(jié)構(gòu)主義語言學(xué)文獻(xiàn)中,開始出現(xiàn)“corpus”單獨(dú)使用表示語言研究素材庫的含義。第四階段表示作為語言學(xué)研究資料的電子文本匯集。20世紀(jì)60年代后,以布朗語料庫為代表,逐漸確立了按一定取樣方案采集、服務(wù)于語言研究目的的電子文本文庫這一概念?,F(xiàn)在對(duì)語料庫的具有代表性的定義是,“語料庫是指在隨機(jī)采樣的基礎(chǔ)上收集的有代表性的真實(shí)語言材料的集合,是語言運(yùn)用的樣本(楊惠中,2002)?!?/p>
1.2?語料庫語言學(xué)
語料庫語言學(xué)最早源自20世紀(jì)初至五六十年代的美國結(jié)構(gòu)主義,它的代表人物有Boas,?Sapir和Bloomfileld,它的核心任務(wù)是基于真實(shí)語料的語言描寫。語料庫語言學(xué)也非常注重語境,最早以Firth為代表的倫敦學(xué)派提出了對(duì)語境考察的概念。之后在Malinowski和Firth的“語境語義觀”的指導(dǎo)下,語料庫語言學(xué)主張基于語料庫,通過詞語搭配、詞類聯(lián)接、語義傾向和評(píng)價(jià)特征,尋求對(duì)語義生成機(jī)制的解釋。
1.3?基于語料庫的詞匯研究
基于語料庫的詞匯研究既深化了以往的研究,又拓寬了詞匯研究的領(lǐng)域。本部分詳述了基于語料庫的詞匯研究的各個(gè)方面,并根據(jù)研究?jī)?nèi)容將其分為三大類:詞典編纂、關(guān)鍵詞研究與形態(tài)學(xué)和構(gòu)詞法。
(1)詞典編纂。正如Kennedy(1998)所說:“語料庫在詞匯描寫方面最明顯的作用是在詞典編纂方面。”計(jì)算機(jī)技術(shù)的進(jìn)步使基于語料庫的詞典學(xué)研究更進(jìn)一步。詞典編纂者可以利用計(jì)算機(jī)從現(xiàn)有的或自建的語料庫中快速、詳盡地獲取某個(gè)詞或短語在上下文中的用法和說明。
(2)關(guān)鍵詞研究。通過語料庫研究關(guān)鍵詞可以用來分析詞匯與文本主題之間的關(guān)系,也可以用來分析詞與詞之間的搭配。關(guān)鍵詞一般指的是相較于參照語料庫,某一特定文本語料庫出現(xiàn)的高頻詞,其與文本的主題聯(lián)系非常緊密。
(3)形態(tài)學(xué)和構(gòu)詞法?;谡Z料庫的詞匯研究也有助于研究詞匯的形態(tài)學(xué)和構(gòu)詞法。有些詞典可以為研究詞匯形態(tài)或構(gòu)詞法提供一些信息,通過語料庫來研究不同形態(tài)詞匯的頻率也很重要。
2?自建小型石油鉆井英語語料庫
2.1?語料庫設(shè)計(jì)
(1)參照語料庫。本文將美國當(dāng)代英語語料庫(COCA)作為參照語料庫。從COCA官網(wǎng)對(duì)每種類型的語料隨機(jī)抽樣,共抽取16萬字的語料作為參照語料,并進(jìn)行了清洗和分詞處理。
(2)自建語料庫設(shè)計(jì)。設(shè)計(jì)語料庫要考慮是否具有代表性、權(quán)威性、可及性等。本研究用Teleport?ultra從美國專利商標(biāo)局抽樣156篇與石油鉆井英語相關(guān)的專利文本,并對(duì)這些語料進(jìn)行加工處理,自建語料庫的規(guī)模定在了15萬字左右。
2.2?語料收集
在USPTO輸入oil?drilling,完成檢索后用Teleport?Ultra抓取語料,抓取設(shè)置為僅抓取文本,原始語料為html格式。如圖1所示。
2.3?語料加工處理
(1)語料預(yù)處理。
完成抓取后,需要將文本的html格式轉(zhuǎn)換為txt格式,用textforever工具進(jìn)行格式轉(zhuǎn)換,如圖2所示:
轉(zhuǎn)換為txt格式后,用文本整理器對(duì)txt文本整理,如圖3所示。
(2)語料分詞。
將處理后的文本通過tree?tagger進(jìn)行分詞,如圖4所示。
3?石油鉆井英語詞匯特征分析
3.1?數(shù)據(jù)分析
(1)詞匯長(zhǎng)度。
一般來說,詞匯越長(zhǎng),文本就越復(fù)雜,也就越正式。詞匯長(zhǎng)度通??梢杂米帜傅臄?shù)量與詞匯的數(shù)量的比來計(jì)算。通過在wordlist中生成詞表,自建的ODEC與COCA的平均詞長(zhǎng)和標(biāo)準(zhǔn)詞長(zhǎng)對(duì)比如下表1所示。
從表1可以看出,?ODEC的平均詞長(zhǎng)和標(biāo)準(zhǔn)詞長(zhǎng)都要高于COCA。因此,ODEC的復(fù)雜程度要高于COCA。
(2)詞匯密度。詞匯密度可以用來判斷文本的難易程度和文本的信息量。Halliday(1985)提出了詞匯密度的計(jì)算公式,也就是TTR的值,TTR的計(jì)算公式如下:
TTR=(type/token)*100
Type指的是類符,是指在語料中不重復(fù)計(jì)算的形符數(shù)。Token指的是形符,是一個(gè)語言單位。類符與形符的比就是詞匯密度。但用這種方法來計(jì)算長(zhǎng)度不同的文本是不合理的,因此又引入了STTR,STTR可以用來比較不同長(zhǎng)度的文本的詞匯密度。通過wordsmith得出了ODEC和COCA的TTR和STTR,結(jié)果如下表2所示。
從以上表2可以看出,ODEC形符和類符的數(shù)量都低于COCA,但是TTR和STTR值都高于COCA。因此,自建的ODEC的詞匯密度高于COCA。也就是說,石油鉆井英語的文本是比通用英語要更為復(fù)雜,更難理解。
(3)詞頻。
詞頻表是做語料庫研究的一個(gè)基本的數(shù)據(jù)分析手段。通常來說,出現(xiàn)頻率最高的詞大多數(shù)都是功能詞。ODEC?與COCA詞頻對(duì)比如下表3所示。
從上表3可以看出,ODEC詞頻排名前15的都是功能詞,COCA排名前15的大多數(shù)都是功能詞,但是COCA還出現(xiàn)了諸如“I;?he;?you”的人稱代詞。因此可以得出結(jié)論,石油鉆井英語注重客觀表達(dá),較少使用人稱代詞。
此外,應(yīng)用wordsmith也做了ODEC和COCA的實(shí)詞的詞頻對(duì)比。結(jié)果如下表4和表5所示。
從以上表4和5可以看出,ODEC的高頻實(shí)詞都是鉆井,鉆頭,油井;井眼;修井;鉆井液以及鉆井工具組合,這些高頻詞由名詞以及動(dòng)名詞組成,這表明名詞在ODEC中扮演著重要的角色。而作為參照語料庫的COCA的高頻實(shí)詞基本都是動(dòng)詞,因此通用語料庫的動(dòng)詞比較常見。
4?結(jié)語
本文基于自建的小型石油鉆井英語語料庫,應(yīng)用wordsmith研究石油鉆井英語的詞匯特征,分別從詞匯長(zhǎng)度、詞匯密度和詞頻三方面對(duì)自建的語料庫和參照的語料庫進(jìn)行了對(duì)比,得出了石油鉆井英語通常詞匯密度大、文本較為復(fù)雜、詞長(zhǎng)長(zhǎng)、功能詞較多、注重表達(dá)客觀性、很少用人稱代詞以及多用名詞的結(jié)論,本研究對(duì)石油鉆井英語詞匯的學(xué)習(xí)、寫作以及翻譯具有重要的指導(dǎo)意義。
參考文獻(xiàn)
[1?]Halliday.Spoken?and?Written?Language?[M?].Australia:?Deakin?University,1985.
[2?]Kennedy.An?Introduction?to?Corpus?Linguistics?[M?].?Foreign?Language?Teaching?and?Research?Press,1998.
[3?]梁茂成,李文中,許家金.語料庫應(yīng)用教程?[M?].外語教學(xué)與研究出版社,2010.
[4?]王立非,梁茂成.wordsmith方法在外語教學(xué)研究中的應(yīng)用?[J?].外語電化教學(xué),2007.
[5?]楊慧中.語言學(xué)導(dǎo)論?[M?].上海外語教育出版社,2002.