于 麗
(黑龍江大學 應用外語學院, 黑龍江 哈爾濱 150080)
目前被人們熟知的大規(guī)模英語語料庫有布朗家族(BROWN)、柯林斯-伯明翰大學國際語言資料庫(COBUILD)、英語國家語料庫(BNC)、美國當代英語語料庫(COCA)等。國內較為有代表性的大規(guī)模語料庫有上海交通大學的中國英語學習者語料庫(CLEC)、中國學習者英語口語語料庫(COLSEC)、科技英語語料庫(JDEST),北京外國語大學的中國學生英語口筆語語料庫(SWECCL)、漢英對應語料庫等。除了大型語料庫外,研究者依據(jù)自身的需要建立的各類小型語料庫也很多,例如,秦建華的美劇字幕語料庫[1]、林美珍的教學競賽視頻語料庫[2]和李德超等的英語旅游文本類比語料庫[3]等。基于語料庫的研究方法已被學界廣泛接受、認同,研究領域涉及詞典編撰、語言教學、翻譯、話語分析等多個領域。
從現(xiàn)有的語料庫來看,雖然語料的選取對不同的學科門類都有所涉及,但限于研究的目的不同,缺少服務于學科英語教學的學科英語語料庫,尤其是缺少以學科群為單位建立的語料庫。為此,本研究立足服務于學科英語教學,建立以語言學、心理學、社會學與人類學英語為學科群的學科英語語料庫。
語料庫是一種以取樣的方式建立起來的文本或語音信息轉寫的集合,用以代表某一特定的語言、語言變體或其他語言范疇?;谡Z料庫的研究是一種通過大量真實的語言材料揭示語言使用規(guī)律的研究,具有概率性和對比參照性。概率性體現(xiàn)為語言選擇的傾向性,以概率的方式表達;對比參照性,是指某一個單獨的概率沒有現(xiàn)實意義,只有在與其他數(shù)值相參照的情況下,才能揭示語言使用的基本規(guī)律。也就是說,研究某一語料庫的語言使用情況,應該同時具有一個對比參照語料庫。
從學科英語語料庫的研究來看,對比可以從多層次展開,根據(jù)國家教育部學位授予和人才培養(yǎng)學科目錄(2011年),可以是學科門類間、同一級別的學科間、各級別學科內的次級學科間、學科群內的學科間等的對比參照。語言學、心理學、社會學和人類學英語研究的根本目的是為學科群英語及隸屬學科英語教學提供語言學參考路徑。學科間的對比參照可以揭示學科語言的本體特征。但是如果將研究置于教育機制內*伯恩斯坦(1990)提出教育機制,認為教育機制包括知識產(chǎn)出域、語境重構域和再生產(chǎn)域的實踐,對知識的產(chǎn)生、傳播進行社會學闡釋。,以服務于語言教學為目的,則學科間的對比參照、確定學科語言的本體特征只是研究的第一步。對比理應進一步發(fā)生在教育機制內的知識產(chǎn)出域、語境重置域和再生產(chǎn)域間,形成“學科語言本體特征-語言教學內容-學習者產(chǎn)出語言”之間的對比參照,診斷教學內容,調整教學話語。為此,以服務于教學為根本目的,學科英語的研究應立足于知識產(chǎn)出域,建立語言學、心理學、社會學和人類學英語語料庫,揭示學科群英語及其隸屬學科的本體特征;建立相關學科語境重構域和知識產(chǎn)出域內的英語語料庫;進行教育機制的各實踐域間對比研究;建構學科英語教學的教學話語。
通過知識產(chǎn)出域英語語料庫的建設,發(fā)現(xiàn)語言學、心理學、社會學和人類學英語的本體特征,是后續(xù)研究的基本參照。為此,筆者試從建庫意義、語料選擇的理據(jù)、語料庫的結構與語料來源、語料的整理與標注、標注的準確與一致性等方面逐一論證,對語料庫建設和后續(xù)統(tǒng)籌進行規(guī)劃,為系列研究提供總體參照。
語言學、心理學、社會學和人類學分屬于不同的學科門類,4個學科在研究方法上相互借鑒,研究內容上相互交叉,研究結果互為佐證,相互促動,并在學科知識發(fā)展的過程中,突破了原有的學科界限,形成了交叉學科和邊緣學科。四者在知識體系分化的同時,也出現(xiàn)了綜合化的趨勢,具有高度相關性,在實際研究和應用中具有典型的學科群特征。語言識解經(jīng)驗、學科在知識體系上的分化與綜合必然體現(xiàn)語言詞匯語法層面選擇概率的趨同與變異。
以學科群為單位進行語言研究,建立語料庫,并對語料進行系統(tǒng)的語法和語義標注,具有幾方面的意義:能夠揭示學科群的語言本體特征,深化人們對學科群語言本體的認識;能夠揭示學科群內隸屬學科的語言本體特征,深化人們對每個學科語言本體的認識;對學科群及其隸屬學科語言特征的認知,可以加強學科間的交流和溝通,促進各學科共同發(fā)展;對語言本體的認知能夠直接服務于語言教學,使教學大綱、教材等的設計和編寫更有針對性和理據(jù)性。
學科的本質是知識分類體系,與知識的生產(chǎn)聯(lián)系在一起[4]。語言學、心理學、社會學和人類學,雖然從學科的劃分來看,分別隸屬于文學類、教育學類和法學類,但在學科知識體系的產(chǎn)生、發(fā)展過程中形成了心理語言學、社會語言學、人類社會學、社會心理學和心理人類學等多個交叉學科,當然其學科歸屬也就存在著不確定性。在學科知識出現(xiàn)分化與綜合趨勢的同時,用于識解相關學科經(jīng)驗的語言及學科英語詞匯的選擇自然會在所屬群內既體現(xiàn)共性,也體現(xiàn)學科的個體性特征。
學科英語是識解學科經(jīng)驗的功能變體,它可以用語場、語旨和語式進行具體說明:語場是物理、生物、社會科學等領域的知識及其延伸、傳播和探究;語旨涉及講話者與受話者的關系,包含專家、學習者、外行3個群體,講話者和受話者可以同屬于一個群體,也可以隸屬于不同的群體;語式涉及語音或書寫,即口語與書面語[5]140。在語場,也就是學科領域相同的情況下,語旨和語式兩個變量構成的不同的組合關系所產(chǎn)生的話語都屬于該學科話語的范疇。
一個完整的學科話語語料庫,理論上應該包括系統(tǒng)內的所有話語。但在研究實踐中很難一次涉及所有話語范疇,多是優(yōu)先選擇某一話語范疇。語料的選取服務于研究需要。研究語言學、心理學、社會學和人類學英語的目的是揭示學科群及其隸屬學科英語的語言本體特征,為高校學科英語課程的設置和教學提供語言學參考路徑,即建庫的根本目的是高校的英語教育。
伯恩斯坦在20世紀90年代提出教育機制(Pedagogic device),將知識的產(chǎn)生與傳播關聯(lián)起來,認為教育機制包括知識產(chǎn)出域、語境重構域和知識再生產(chǎn)域3個領域的實踐,說的是在社會機制調節(jié)下知識的產(chǎn)生、傳播過程。知識產(chǎn)出域內的實踐是新知識的建構、改進和定位;語境重構域內的實踐是對知識產(chǎn)出域內話語的選擇、轉用(approriated)和轉化(transform),使其成為教學話語,能夠在知識再生產(chǎn)域內被傳授和學習;知識再生產(chǎn)域是教學實踐發(fā)生的場所[6]206。語境重構域和知識再生產(chǎn)域對知識的轉化與傳播,以大學、專門科研機構和科學學會等知識產(chǎn)出域的知識為前提。語言識解及學科語言識解經(jīng)驗,既包括學科知識本身,即語場、經(jīng)驗意義,也必然涉及知識的傳播與交流,即語旨、人際意義。也就是說,教育機制的每一個實踐域,語言都同時識解知識本體和域內的人際關系。即使學科知識體系相同,域內的人際關系不同,也會產(chǎn)生不同的語言表征形式。學科語言教育是使學習者在專業(yè)學習和職業(yè)崗位等不同語域中能夠用英語有效地進行交流[7]。即學習者學習的目的是能夠在知識產(chǎn)出域有效地交流,掌握相關學科知識產(chǎn)出域的知識表征方式。每一個學科知識的傳播,都受教育機制組織的制約。能夠被傳授的語言知識也必然來自知識產(chǎn)出域。為此,以服務語言教學為根本目的,語料庫中的語料應優(yōu)先選自知識產(chǎn)出域。
知識產(chǎn)出域內專家與專家之間的知識傳播與交流,以語式為依據(jù),又可進一步分為口語和書面語。依據(jù)語類,口頭交流中有學術報告、交流研討等;書面語涉及到專著、研究報告、學術論文等?;趯W科群語料庫研究的目的和特征,綜合考慮語料選擇的可比性、時代性、代表性、交叉學科的學科歸屬性等特征,在語式和語類的選擇上,最權威的語料是書面語中的學術論文。這是因為:
(1) 語類的共享性,所選語料應該是各個學科話語范疇都有所涵蓋的語類,而不應該是某一學科獨特的語類;
(2) 語料的共時性,在眾多語類中,學術論文的時效性優(yōu)于專著,同時可避免不同學科經(jīng)典教材由于出版時間帶來的語言風格上的時代差異;
(3) 學科的歸屬性,選擇發(fā)表于綜合學術期刊的學術論文,可以有效規(guī)避語料的學科主觀歸類;
(4) 語言學、心理學、社會學和人類學英語語料庫是學科群性質的語料庫,研究的重點是對學科群及其隸屬學科語言本體的認識,而不是單個學科內分支學科之間的異同,選擇綜合類期刊可以使語料的學科覆蓋面相對全面,更具有學科代表性;
(5) 在語料庫容量相對固定的情況下,選擇學術期刊為語料,可涉及多個專家學者,在一定程度上降低單一作者寫作風格的影響。
語言學、心理學、社會學和人類學英語語料庫預計總庫容量為至少100萬詞,包括4個子庫,分別為語言學英語語料庫、心理學英語語料庫、社會學英語語料庫和人類學英語語料庫,它們互為參照,每個容量為至少25萬詞。為減少期刊的個性化要求對語言選擇的影響,同時確保所選期刊的質量、學科覆蓋面、語言的共時性和真實性、樣本抽取的隨機性,每個學科的語料選自5個影響因子較高的綜合類英文期刊,每個期刊選擇2013—2017年5年間的論文,每年隨機抽選1篇文章,即每個學科25篇文章。期刊具體選擇見表1所示。
表1 語料庫結構與語料來源
語料的整理與標注是語料庫建設的關鍵環(huán)節(jié),是信息檢索、統(tǒng)計的依據(jù)。
語料庫中的語料文章通過“獨秀咨詢”獲得,均是PDF格式,需要轉換為純文本格式。由于研究的對象是單一文字模態(tài),在文本轉換過程中,需去除文章中的表格和插圖等非文字信息。另外,因是研究文章知識建構中詞匯和語法層的選擇特征,在文本整理過程中,僅保存文章標題和正文兩部分信息,其他諸如作者、期刊來源、出版日期等元信息均以子庫和命名的方式體現(xiàn)。例如,語言學子庫又以期刊類別為依據(jù)分為English Language and Linguistics,Journal of English Linguistics,J. Linguistics, Language and Linguistics和Lingua 5個子庫。期刊子庫內文章以作者和出版日期命名,例如,Saina Wuyun(2016)。
在整理的基礎上,對文本進行進一步的清理。首先,借助“文本整理器”對文字符號(全角—半角)、空格段落(多余的空格、跳格等)和標點符號等信息進行初步清理。而后,再進行逐一人工清理,確保文本的整潔,以利于信息檢索的準確。文本文件保存為UTF-8格式。
語料庫的標注是給語料添加解釋性語言信息的過程,是對語料庫的增值[7]49。語言學、心理學、社會學和人類學英語語料庫建設的目的是揭示學科群及其隸屬學科的語言本體特征。早在1989年韓禮德就在SomeGrammaticalProblemsinScientificEnglish中提出導致科學語篇難以理解的7個特征:連鎖定義、技術分類、特殊表達、詞匯密度、句法歧義、語法隱喻和語義非連續(xù)性[8]。這7個特征既是科學語篇的共性特征,也是不同學科之間異同的對比點。因韓禮德對特殊表達和語法隱喻的解釋中存在交叉,鑒于語法隱喻在科學語篇中的特殊地位,避免贅述,所以在分析標注中對其只探討固定的語法表達。
(1) 連鎖定義。是一系列術語之間的互相界定,即a is defined as an x which has feature y which is called b[9]164(對術語a的理解必須基于對術語x、y和b的理解)。
(2) 技術分類。是知識體系的組織方式,分為兩類:部分—整體關系,b is a part of y;上下義關系[9]164,a is a kind of x。
(3) 特殊表達。是一個學科獨有的技術語法,而非術語。這種特殊表達包括兩種類型:一個領域特有的固定表達,這個表達只能被整體界定,不能通過構成它的詞語得到解釋,例如在數(shù)學中,solving the open sentence over D[9]166; 語法隱喻。
(4) 詞匯密度。是依據(jù)一個語法結構中詞匯(實意詞)的緊密程度,衡量語篇信息密度的方式。
(5) 句法歧義。表現(xiàn)為在名詞詞組和小句層面的語義模糊。這種歧義主要來自小句層面和詞組級階的隱喻綜合體。例如,Higher productivity means more supporting services[9]169。既可以理解為“高產(chǎn)帶來更多的支持性服務”,也可以理解為“高產(chǎn)源自更多的支持性服務”,這是因為序列通過小句體現(xiàn),而關系詞轉為動詞、致使邏輯關系模糊,又引發(fā)小句層面句法歧義。再如,對于名詞詞組the announcement of Mary’s acceptance[9]171,沒有辦法確定是“瑪麗接受”還是“瑪麗被接受”。
(6) 語法隱喻。是在從語義成分到詞匯語法結構配置的體現(xiàn)過程中出現(xiàn)的[10],表現(xiàn)為語義層與詞匯語法層配置的錯位。在語篇中體現(xiàn)為語法隱喻的基本類型和隱喻綜合體。語法隱喻的基本類型分為13類:屬性轉為實體、過程轉為實體、環(huán)境成分轉為實體、關系詞轉為實體、過程轉為屬性、環(huán)境成分轉為屬性、關系詞轉為屬性、環(huán)境成分轉為過程、關系詞轉為過程、關系詞轉為環(huán)境成分、[無]轉為實體、[無]轉為過程和實體轉為[擴展][11]41-42。任何基本類型語法隱喻的發(fā)生,都可能影響整個小句,進而影響整個小句復合體,在級階和地位上的置換都幾乎不可避免地包括許多其他置換,形成對語法結構的重新構型,產(chǎn)生語法隱喻綜合體[12]80。
(7) 語義非連續(xù)性。是作者所做的語義跳躍,指一個語篇中首次被提及的新信息,被預設為已知信息,作為理解另一個新信息的起點。作者或許并沒有明示過程之間的邏輯關系,需要讀者通過推理得出結論[9]177。
語料標注依據(jù)上述7點逐一展開,標注中除詞匯密度中的詞性利用TreeTagger軟件自動標注外,其他6點特征均借助UAM 2.0 手工標注完成,建立連鎖定義、專門分類、特殊表達、語法隱喻、句法歧義、語義非連續(xù)性6個層次的標注系統(tǒng)和相應的賦碼方案。
對于人工標注而言,因其中涉及大量的語義標注,準確性和一致性只能是相對的。具體方案如下:
全員培訓,掌握7個維度的內含意義,商討、制定每個維度、每個類別的識別標準。
依據(jù)識別標準, 學科負責人任選學科內一篇文章試標注, 同時記錄標注過程中的不確定成分。
學科負責人之間交換文章,再次獨立標注,同樣記錄標注過程中的不確定成分。這一過程重復進行三次,直到每一個負責人完成4個學科4篇文章的標注工作。
對標注中出現(xiàn)的不同之處,標注者提供各自的理由,通過集體討論,確定最終標準。同時匯集標注中存在的問題,逐一討論,解決。
在前期準備的基礎上,對各學科文本進行獨立標注,隨時記錄不確定成分。每完成一篇文本的標注,組織交流研討,保證問題能夠及時解決,確保標注的相對準確和一致。
前期語料庫建設的主要目的是揭示學科群及其隸屬學科的語言本體特征,為高校學科英語的課程設計、設置和教學提供一個語言學的參考路徑。后續(xù)研究工作應從兩個維度展開:
通過訪談的形式,咨詢各學科領域的權威、專家、學者,在綜合考慮時代性、個體語言風格等因素的基礎上,確定學科內最具代表性的專著、教材等語言材料。
語境重構域以對語言知識進行語境重構的學科英語教材為語料,分為本科、碩士和博士3個級別。知識再生產(chǎn)域語料包括課堂教學話語和學習者產(chǎn)出的語言材料。學習者產(chǎn)出的語料庫選擇用英語完成的畢業(yè)論文或相關摘要,同樣分為本科、碩士和博士3個級別,目的在于揭示語境重構域內學科語言知識體系的發(fā)展趨向和知識再生產(chǎn)域內學習者學科語言知識體系的發(fā)展情況,與知識產(chǎn)出域的語料庫共同形成一個相對學科英語視域的教育機制。
如果說前期的研究是學科群內隸屬學科間的對比參照, 后續(xù)的研究則側重通過學科內3個子庫的互為參照, 形成系統(tǒng), 理清這4個學科英語的知識體系, 確認語境重構域內教材設計是否體現(xiàn)學科英語本體特征, 了解學習者學科英語發(fā)展狀況, 有針對性地反饋語境重構域和知識再生產(chǎn)域的實踐, 避免單獨研究某一個域內的話語而得出盲目的結論。 以服務于教育為根本目的的研究, 必然是教育機制內各實踐域的遞歸參照過程。