何安平 郭桂杭
(廣東外語外貿大學,廣州510420/華南師范大學,廣州510631;廣東外語外貿大學,廣州510420)
《外國語言文學專業(yè)本科教學質量國家標準》關于“外語類專業(yè)可與其他相關專業(yè)結合,形成復合型專業(yè)或專業(yè)方向,以適應社會發(fā)展的需要”的專業(yè)定位推動國內對商務英語等學科英語的專業(yè)話語研究(教育部2018:58)。 同時也是國外語料庫語言學趨向專門化語篇/語料研究的發(fā)展趨勢之一(Hunston 2017)。 其中,語料庫視角下的關鍵詞研究是探究專門學科話語的重要抓手。
語料庫視角下的關鍵詞內涵近年出現(xiàn)新的延伸。 它涵蓋所有基于語料頻數(shù)驅動、計算機自動提取、能凸顯語篇關鍵性(textual keyness)的單個詞或者多 字詞叢(key?words, key?clusters, key?phrases)(Scott 2014:232,Bondi 2010:3)。 其中既包括目標語料與參照語料對比后自動產(chǎn)生的頻率顯著性高(或顯著性低)的單詞形關鍵詞(key?words,或稱主題詞),也包括那些無需與參照語料比照而直接從目標語料自動提取的,但超過預設頻數(shù)的多字詞叢(clusters,或稱n?grams,lexical bundles)。 這些關鍵性詞語都被稱為既有指向性又有可視性的“探針”(pointer),主要用來探測語料庫或語篇的主題內容(aboutness)、文體風格(style)和立場態(tài)度(stance)(Bondi 2010:7,Stubbs 2010:23, Scott 2010:51,劉輝2018:69)。 關鍵詞的這3 種功能表明,它已經(jīng)不僅是一份詞匯清單,而是“具有語篇本質屬性”(Scott,Tribble 2006:56)。 它們與系統(tǒng)功能語言學的三大元語言功能(ideational, textual 和interpersonal)異曲同工,因為都分別指向語言“表意” (what) “表結構”(how)和“表態(tài)”(why)的本質,也因此賦予關鍵詞可探究語言本體的內涵。
由于關鍵詞產(chǎn)生的機理是對比語料里面有顯著頻數(shù)差別的詞語,故瀏覽國內外眾多標題帶有corpus,keywords 字樣的文獻,發(fā)現(xiàn)所使用的語料大都指向某個學科、某種專業(yè)職場、或某類機構的專業(yè)話語(specialized discourse),即“人們在學術、專業(yè)、技術和職業(yè)等專門領域的典型語境中使用的語言”(Gotti 2008:24)。 而專業(yè)話語最突出的表征是在詞匯層面(同上:33,65),所以識別那些由話題內容和體裁特征帶出的顯著性高頻詞語“肯定成為專業(yè)話語描述的根本要素”(Bondi 2010:3)。 然而,孤立的單詞并非描述意義的最好切入點,語料庫語言學視角下的意義單位應設為可有多種變體的短語(Sinclair 2004:29-30),所以近年關鍵詞法在專業(yè)話語研究中不斷涌現(xiàn)出基于關鍵詞拓展的各種短語型式。
基于單個關鍵詞的拓展主要體現(xiàn)為關鍵詞與關鍵詞的共選、關鍵詞與周邊語境詞的共選、以及眾多同類語篇的關鍵詞共享。 其中一種可稱為“關鍵詞搭配詞叢”(keyword collocates cluster),是由單個或一批關鍵詞在cluster 工具界面呈現(xiàn)的n?字語詞叢。 詞叢中的搭配詞不一定是關鍵詞,但能揭示關鍵詞在語料中的典型相貌,同樣比單個關鍵詞更能揭示主題內涵。 例如提取題為Money as Debt 的語篇前幾個單個關鍵詞(如gold, money, bank, claim)的2-4 詞詞叢,可獲得gold and silver(真金白銀),demand for real gold(要銀行兌現(xiàn)真金),used as money(拿……當錢使),claim check holders(票據(jù)持有人),run on the bank(銀行擠兌)等一批金融管理類話題的重要術語。
另一種是“關鍵主題詞”(key Keywords,簡稱KKW),是語料庫內多個相關的獨立文本共享的關鍵詞(Scott 2014:231)。 KKW 有助于歸納同類主題或同類體裁語篇的核心詞群,以此揭示話題的體裁特征和表述某個話題的典型詞匯(李文中2003: 287, Gerbig 2010: 154)。 例 如, Gerbig(2010)對比21 世紀和20 世紀兩個旅游話語語料庫的KKW,發(fā)現(xiàn)前者核心詞群有guy(s), locals,tourist(s), backpackers, travelers, tour, walk,ride, driver, hike 等名詞,凸現(xiàn)旅游者自身及旅行方式的話題;而后者則凸現(xiàn)旅途的地貌風景,其核心詞群是hill, place, spot, stones, sea, mountain,valley, landscape, trees 等及顏色類形容詞。
第三種是“關鍵主題詞的關聯(lián)詞”(KKW as?sociates),指的是KKW 與關鍵詞的重復同現(xiàn)(Scott,Tribble 2006:85),兩者的關聯(lián)構成圍繞某一主題表達而觸發(fā)的復雜詞語網(wǎng)絡,甚至揭示說話者對話題的心理認知(李文中2003:288)。 例如,以上提及的21 世紀旅游語料庫里有3 個KKW(tourist,traveler 和backpacker),各自的高頻關聯(lián)詞中都有driver,trip,ride 等關鍵詞;但tourist另外獨有關聯(lián)詞beach(海灘),似透出這類游客的休閑愿望。 此外,tourist 和traveler 共享關聯(lián)詞tour,但backpacker 卻未共享;似透出“背包客”不太關注返回原地式的“巡游”,而更注重晝夜時間和起居等活動(因為backpacker 獨有的關聯(lián)詞是night, day, hours, food 等)。 可見KKW 的關聯(lián)詞分析還能折射出作者對話題內容的情感偏好態(tài)度(Gerbig 2010:157) 。
基于多字詞叢的拓展主要是對詞叢內部的形式結構、詞性特征和詞序連續(xù)性等作進一步分類提取。 其 中 一 種 稱 為“關 鍵 性 短 語” (key phrase),專指那些至少含有一個名詞,且結構多為N +N 和Adj +N 的多字詞叢(Panunzi et al.2008:463-468),目的是凸現(xiàn)名詞性短語對主題內容的有效揭示。 例如,源自維基百科關于1929年經(jīng)濟大蕭條話題語料中最高頻的4 個關鍵性短語(即money supply, bank failure, stock market crash, gold standard)顯然要比該語料中4 個最高頻的單個關鍵詞(即economy, bank, government,depression)更能揭示經(jīng)濟蕭條話題的核心內容(同上:264-266)。
第二種是“短語框架”(phrase frame)。 這是純粹基于頻數(shù)自動提取的非毗鄰式的多字詞叢(2-8 字),詞叢內部除有一字不同,其余的都相同(Fletcher 2012)。 短語框架內的空檔(即?)的填充詞通常不是語篇關鍵詞,但卻能揭示語篇的體裁風格。 例如,Grabowski(2015:276)曾對比藥物學中“患者用藥活頁”(PIL)和“藥品特點摘要”(SPC)兩種語篇類型的短語框架。 發(fā)現(xiàn)PIL 突顯的是由if you 構建的“虛詞類框架”,如if you?any,if you?to, if you?not,if you?a;顯示這類話語直面患者的信息組織功能。 而SPC 突顯的是由情態(tài)動詞should 構建的“動詞類框架”,如should be?by, should be?in, should be?to;而且填充詞多為動詞被動式(如reduced, adminis?tered, initiated);顯示這類語篇不摻雜個人情感、客觀性和規(guī)約性較強的話語風格。
第三種是“主題性語序”(aboutgram)。 它窮盡語料庫在2 至12 字跨距內所有詞之間的搭配頻率,自動生成一批可含排序或位置變體的2 至5 詞連貫或非連貫語序(即AB,A?B ,B???A),目的是廓清專題話語中所有詞匯的共選相貌,從中識別高頻而且有意義的短語型態(tài),以揭示主題內容和體裁風格(Warren 2010:117-118)。 例如,Warren(同上)發(fā)現(xiàn)香港理工大學工程學語料庫(HKEC)最高頻的實意詞design(133 次)就有60%可構成非毗鄰的、詞位排序不同的主題性語序;包括design/structural, building/design, analy?sis/design, design/tall 等2 詞序列(/表示兩詞的跨距為2-12 個詞)。 它們顯然要比單個詞de?sign 更清晰展示該學科話語的核心內容。
不論是基于單個關鍵詞,還是基于多字詞叢拓展的短語型式,其實都在不斷對關鍵詞進行頻數(shù)上、形式上、或語義上的分類與歸納,其深層的理據(jù)是語料庫語言學的詞匯共選理論和多型態(tài)短語理念。 這些拓展型式為揭示語篇的關鍵性,即前述的關鍵詞3 個功能,提供多樣化的分析和詮釋視角。下文進一步通過刨析3 個完整案例,評述專業(yè)話語研究中關鍵詞法的實施步驟及成果創(chuàng)新。
Philip(2010)在探討機構體裁專題話語時提出“主題隱喻”(metaphor themes) 和“關鍵隱喻”(key metaphors) 兩個新概念。 前者指在專題語料中一組有明顯語義關聯(lián),但喻詞形式不一的語言隱喻,其靶喻卻是該專題話語的關鍵詞。 后者指某主題隱喻中的源域詞在局部語境內以顯著方式與關鍵詞同現(xiàn)的隱喻(同上:188,196)。 基于10 萬詞次的意大利前國際商貿部長在任期間的講話和新聞發(fā)布語料,該研究采用一系列詞頻信息分類方法:(1)提取該語料的詞頻表,對其中排行前500 個詞作詞簇化處理(lemmatizing),以避免這500 詞之外的詞頻表里還有同詞根詞;(2)對詞頻表中詞次為3 及以下的低頻實意詞作大致語義歸類;(3)提取該語料的關鍵詞表,也對其中的實意詞作語義分類,以便歸納主話題及次話題;(4)在步驟(2)已歸好類的低頻實意詞里識別顯著不同于步驟(3)所歸納的主/次話題的語義類別詞,用索引行工具調查該類的屬下詞,看其是否與某話題(如trade)屬下的關鍵詞共選。
結果顯示,該語料的關鍵詞表內含有“國際貿易”話題(由Italy, business, commerce, interna?tional, country, China 等排行前10 位的關鍵詞構成);而低頻詞表內有一批war 類詞(如battle,fight,loser,aggressive),它們反復與上述話題的關鍵詞共選,構成international trade is war 這一主題隱喻(內含Trade is aggressive behavior, Emerging economies are a threat 等次級概念隱喻)。 進一步調查該主題隱喻的批量實例,我們發(fā)現(xiàn)其中的源域詞與靶域詞有相對固定的互選傾向(見下例句的斜體字):在談及國際貿易時,上述的war 類詞往往與東方新興經(jīng)濟大國有顯著關聯(lián)。 例如,The fear that our businesses will end up as the loser in the globalisation challenge, especially when faced with the commercial aggressiveness of the Far East.而談及貿易擴張時,與China India, Asian, Far East 共選的是invade;與Italy 共選的則是pene?trate.例如,But China is the real future of the textile industry, because it is true that it has invaded us since quotas ended... 由此形成一批立場態(tài)度鮮明的關鍵隱喻。
該案例同時從詞頻表和關鍵詞表切入,并且拓展為關鍵詞的語境詞搭配型式。 其特點是聚焦那些與話題核心內容有關的隱喻,從而既化解專業(yè)話語的抽象概念,又揭示說話者對話題的隱含立場態(tài)度。 而兩者都是學科閱讀素養(yǎng)的核心構成,由此啟示我們,在探討專題話語隱喻時,既要關注從關鍵詞表歸納出來的主次話題詞;又要關注整體詞頻表低頻部分那些與主題內容顯著不同的語義類別;因為“隱喻的源域詞通常不會是專題話語的主題詞”(Philip 2012:92)。
Malavasi 和Mazzi(2010)的研究旨在廓清不同學科話語的認知論差異。 首先假設:學科話語除了其獨特的話題和詞匯之外還有其獨特的認知模式,即不同學科構建、論證、磋商和傳播知識的獨特范式。 具體落實到學科話語對研究主體、研究內容(研究興趣)和研究方法的詞語表達(同上:169,172)。 根據(jù)認知論的內涵界定,研究者分別建立市場營銷學和歷史學兩個論文庫各240余萬詞次。 首先在兩個庫的關鍵詞表(兩庫互為參照語料)中各選出語義內涵分別指向研究主體、研究內容和研究方法的5 個關鍵詞(歷史學的是he, historians, text, science 和society;營銷學的是we, research, data, results 和effect)。 接著分別對5 個關鍵詞作局部語境中與“報告類動詞”(reporting verbs)的搭配分析;并且將這些動詞分為“研究”“認知” 和“言說”3 類(Thompson,Ye 1991;Thomas, Hawes 1994)。 然后歸納出兩個學科的關鍵詞與3 類動詞的搭配型式;再詮釋這些型式所傳遞的認知模式信息。
結果發(fā)現(xiàn),兩個學科的認知模式很不一樣。例如,從研究主體看,歷史學的主體類關鍵詞搭配型式是“historians /he +言說類動詞(如argue/emphasize/say/claim/tell/state/conclude/report/explains/suggest/stress...)”,顯示該學科研究者為思辨者的身份特征(arguer);而營銷學的搭配型式是“We +研究類動詞(如use/find/examine/test/observe/demonstrate/study)”,顯示的是行動參與者的研究身份。 從研究方式看,歷史學的型式是“written /literary/medieval /authentic... +text +reveal/convey/narrate”,似側重文獻研讀和權威考證;而營銷學的是“research /results/data+suggest /support/focus on/confirm...,似側重基于實證材料和數(shù)據(jù)結果作結論。
該案例先將關鍵詞作語義分類并選出代表詞,然后拓展其在語境中與某類動詞搭配的型式。其特點是找到關鍵詞與抽象概念的關聯(lián)途徑。 正如英國South Sussex 大學的語料庫DNA 研究團隊在2018 年題為“Quantifying Concepts in Corpus linguistics”研討會上指出:概念可內化于任何語言層面,包括語義、語用、語篇、社會文化和語法,等等。 所以,對概念的量化分析途徑要從概念的操作定義出發(fā),努力達至概念內容的可視化,即呈現(xiàn)表述概念內涵的語言資源在各段語料庫的相貌。 其中的關鍵就是找到詞匯語義對概念內涵的映射。
Cacchiani(2018)從學科認知論視角探討經(jīng)濟學術話語的詞匯語法和語篇結構機制,并將成果應用于學科語言教學。 鑒于經(jīng)濟學研究論文的核心是構建知識,其文本必內含“假設、分析、歸納、詮釋、預測”等5 類話語行為(Merlini Barbaresi 1983:3)。 研究者首先提取90 萬詞次的經(jīng)濟學論文庫的關鍵詞表,并專門關注表內那些語義與上述5 類行為話語相關的語篇結構類和研究方法類的關鍵詞(如if, estimate, case, assumed, denote,suppose, then),結果發(fā)現(xiàn)if 的關鍵值(keyness)位居前列。 于是又提取該庫的3-5 字詞叢,將其分為“研究型”“語篇型“和“參與型”(轉自Hyland 2008:13-19),同樣發(fā)現(xiàn)在“語篇型”屬下的“框架標識類”詞叢中含if 的詞叢最為突出。 由此推導該學科話語具有“基于實證作假設,基于條件作預測”的知識構建特點(Cacchiani 2018:18)。
進一步拓展這些if 詞叢的語境發(fā)現(xiàn):if 從句及其主句的動詞時態(tài)基本不吻合傳統(tǒng)英語教科書的語法搭配規(guī)則。 故轉向 Declerck 和 Reed(2001)的“Possible World 理論”,從“可能的現(xiàn)實”“可能的形式”和“可能的詮釋”等視角探討if從句的形式與功能。 結果發(fā)現(xiàn),經(jīng)濟學論文中用if 構建知識的復雜性遠遠高于其形式結構的復雜性,其中包括以下情況。
(1) 事 實 性 假 設 :If , our survey showed,these debtors are unable to pay their own debts, they are insolvent.
(2) 理論性假設:If environmental standards are reduced, production in the pollution?intensive sector becomes more efficient.
(3) 修辭性假設:Countries that produce a same commodity usually face different values and signs of this correlation coefficient (Table 1) and,therefore, different gains, if any .
基于以上發(fā)現(xiàn),教師改進對該學科研究生的英語教學。 其中包括設問,例如:
(1)當你使用if 從句時,你能在多大程度上判斷該假設“肯定能”“有可能”“差不多能”“幾乎不能”實現(xiàn)或為真;
(2)在什么情況下你可以用其他詞語替代if(例如用assuming, given that, in case)。 此外,還設計了學科語境填空,例如:
該案例的方法特點是同時從單個關鍵詞表和多字詞叢表切入,而且都僅關注其中的語篇結構類和研究類的詞義類別;然后聚焦顯著高頻的相關詞叢作拓展語境分析。 結果不僅坐實該學科構建知識的典型范式;而且深入探尋該范式的語言表達形式在學科話語與普通話語中的使用差異;進而改進教學設計。 其啟示為,學科的語言教學要涵蓋學科認知范式的內容;要實施學科語境化教學,要結合學生已有的學科背景知識設計語言活動。
圖1 if 詞叢案例圖
本文通過闡述語料庫關鍵詞的拓展內涵和展示其在專業(yè)話語研究與教學中的應用,總結其優(yōu)勢至少有3 方面。 首先,關鍵詞的研究目標直指專業(yè)語篇的本質,包括主題內容、研究范式、認知論特征、立場態(tài)度以及語篇體裁,等等。 由此表明語料庫關鍵詞絕不僅僅表明統(tǒng)計學意義上顯著性多或少的問題;而是可揭示語篇在“說什么”“怎么說”和“為什么這樣說”等本質內涵。 第二,關鍵詞的研究路徑不同于其它從語篇外部因素入手,或是僅對主觀選定的詞語作例證式分析方法;而是從語篇最底層的詞匯頻數(shù)入手,自下而上地探索語篇的本質屬性;從而使研究結果具有客觀性、量化實證性和典型性。 第三是應用價值。 通過關鍵詞研究獲取的專業(yè)話語典型特點,包括表述專題核心概念、專業(yè)體裁和認知模式等豐富語言資源,可直接應用于學科語言教學。 這一點對于我國目前學科英語教學在高校英語教育的比重不斷提升,大批通用英語教師正在向學科英語教學轉型的現(xiàn)狀尤其具有現(xiàn)實意義。
誠然,語料庫關鍵詞研究也有自身尚待解決的問題。 例如,隨著超鏈接文本的興起,應如何框定文本的邊界,如何對大批量關鍵詞的分類和歸納提供清晰指引,如何解決參照語料庫的內容和規(guī)模影響關鍵詞提取結果的問題,等等(Scott 2010:52)。 可喜的是,近年國外對關鍵詞研究不斷有成果創(chuàng)新。 其中包括:Rayson(2008)在對目標語料進行自動詞性和語義賦碼之后,通過提取語料庫或語篇的關鍵詞詞性類別和關鍵語義類別,揭示不同社團在同一體裁話語中的核心內容和立場態(tài)度差異。 Murakami 等(2017)采用“主題建?!保╰opic modeling)中的LDA 算法提取專業(yè)期刊文章的高概率共選詞表以找到各種話題的關鍵性詞群以及關鍵性語篇、從而揭示話題之間的關聯(lián)以及話題的歷時性變化。 Davies(2018)新開發(fā)的140 億詞次iWeb 語料庫(互聯(lián)網(wǎng)免費檢索),既可基于某個單詞的在線檢索走進所有以該詞作為關鍵詞的網(wǎng)頁;又可基于若干關鍵詞即時建成專門話題的虛擬網(wǎng)絡語料庫,等等。 這些無不顯示出大數(shù)據(jù)時代語料庫關鍵詞研究的廣闊前景。