田丁月
渤海大學
隨著計算機技術的不斷發(fā)展,從最早的計算機語料庫BROWN(由納爾遜和庫切拉建立的美國英語語料庫)建成至今已過近六十年,語料庫語言學既可以被看作一門新興學科,又可以被看作20世紀美國結構主義語言學研究方法的延續(xù),是現代語言學的一個重要分支。
語料庫語言學有著經驗主義的哲學基礎,注重語言事實,以大量的語料素材為研究基礎是該學科的突出特點,研究者們通過計算機批量處理語料素材,形成電子語料庫,再進一步系統(tǒng)化分析形成論述成果,因而語料庫語言學與計算機技術密不可分,但也因此令人望而生畏,使很多初學者失去了了解語料庫語言學學科的興趣。
梁茂成的《什么是語料庫語言學》(上海外語教育出版社,2016)在一定程度上彌補了以上的遺憾。
本書是一本工具性很強的問答書,采用問題解答的方式,將語料庫語言學相關知識拆解成55個具體的問題,主要內容分為五個部分:
在第一部分,作者從“什么是語料庫”基本概念出發(fā),簡要介紹了語料庫的定義、建設、實用價值、類型、局限等基礎知識。作者旁征博引,為讀者構建了一個語料庫基礎知識的整體框架,為后面的四個章節(jié)作鋪墊。
在第二部分,作者以第一部分的“語料庫”為引,從語料庫語言學學科的命名過程講起,介紹了該學科的哲學基礎、與計算機技術和計算語言學的關系、學科發(fā)展、研究范式等概念。講解時注重對比,如在論述語料庫語言學的哲學基礎時,除對經驗主義的介紹外,作者還對比了與之不同的理性主義研究方法,肯定了理性主義思辨的嚴密性、解決問題流程的清晰性,并從經驗主義與理性主義雙方的優(yōu)劣勢之中做出取舍,得出“理性主義和經驗主義的融合才是語言學研究發(fā)展的必由之路”的結論。此外,本書補充了“類聯接”、“語義傾向和語義韻”、“OSTI報告”等知識,使得講授內容更加專業(yè)化。
在第三部分,語料庫的處理和加工,作者增加了專業(yè)術語的使用,問題也趨向于名詞解釋,作者開始抽象地對學科知識進行講授。在這部分,作者介紹了文本清理、元信息、語料庫的標注、分詞和詞形還原、詞性標注、句法剖析、雙語對齊七個獨立的知識點,并運用普適度較高的示例與簡明清晰的圖表輔助讀者理解。
在第四部分,全書的難點知識,是關于語料庫分析方法的介紹。作者從相對簡單的“詞表”概念出發(fā),逐步介紹了“N元分析”、“型次比”、“索引分析”、“正則表達式”等十個具體概念。
在第五部分,本書的問題重新回歸具體,把講解的重點放在了學科應用上。這部分作者主要介紹了常用的中英語語料庫、語料庫翻譯學、中介語及相關知識、詞匯大綱等知識。這部分內容結構層次清晰,比如在回答“什么是微型文本?”時,先舉出實操環(huán)節(jié)中數據驅動學習存在的困難,再基于這些困難提出微型文本的概念,使講解更加易懂。
在本書的末尾,作者列出了詳盡的參考文獻與推薦的閱讀書目,并在附錄中列出該書涉及到的語言學術語漢英對譯總覽表和CLAWS詞性標注集,方便讀者查找和學習。
語料庫語言學的發(fā)展日益興盛,我國的相關研究者也日益增多,除本書外,還有賈愛武、濮建忠主編的《語料庫語言教學與研究》、楊惠中的《語料庫語言學導論》、余國良的《語料庫語言學的研究與應用》等學術著作。
《語料庫語言教學與研究》(以下簡稱《教學與研究》)以論文集的形式呈現語料庫語言學的教學與研究方面的研究成果。全書甄選了22篇優(yōu)秀論文,內容包含范圍廣,如政府報告、演講稿、新聞報道、英語教學、英文寫作等。
《教學與研究》與《什么是語料庫語言學》(以下簡稱《什么是》)是完全不同的兩類書籍,《教學與研究》注重應用成果的展現,適合有一定英語或英語教學基礎的讀者學習,而《什么是》是一本答疑解惑的工具書,更適合初學者。
《語料庫語言學導論》(以下簡稱《導論》)是一本用于高等院校英語語言文學專業(yè)研究生教學的系列教材之一,該書中外結合,史論結合,廣泛搜集資料,有著很強的實用性、系統(tǒng)性。全書分為三部分,每一部分由專門的專家負責編撰,并由楊惠中先生做最后的審閱工作。該書第一部分主要是語料庫語言學的理論研究,分三章講解了基礎知識;第二部分是語料庫的分析方法與技術,從基本統(tǒng)計手段及原理與文本索引工具及應用兩部分,對實操的環(huán)節(jié)進行詳細的講授;第三部分則是偏向應用類的專題研究,包含英語詞語搭配種類、學術英語語體研究、學術英語語義韻研究等方面。該書在附錄部分列出了術語表、書面英語詞語類碼表、英漢術語對照表等實用價值極高的工具表,對學習者幫助極大。
《導論》相比于《什么是》,在基礎知識的詳細講解上增加了學科專業(yè)性、系統(tǒng)性,使理論與應用結合得更密切,此外,分章講解的學位論文模式是該書的內容編排特點,這樣的編排對研究生的學位論文的寫作也具有指導意義。
《語料庫語言學的研究與應用》(以下簡稱《研究與應用》)通過七個章節(jié)運用理論闡釋和實例分析的方法,對語料庫語言學進行了知識梳理。該書第一章介紹了語料庫語言學的學科概貌,明確了學科定位;第二章與第三章從語料庫的建設發(fā)展、加工利用兩個方面進行細致的講解;第四章到第七章可以看為一個整體,介紹了語料庫語言學在外語教學、翻譯、文體學等領域的具體應用與價值。
《研究與應用》與《什么是》都對語料庫的定義、分類、發(fā)展等基礎知識做了介紹。但《研究與應用》并未涉及語料庫分析方法的部分,《什么是》中的語料庫研究應用也比《研究與應用》中涵蓋的學科范圍窄,內容不如《研究與應用》豐富。此外,不同于《什么是》的解答式編排,《研究與應用》將內容的重心放在了語料庫語言學對其他學科領域的影響與應用上,該書用了將近一半的篇幅(四個章節(jié))來證明語料庫語言學的研究科學性、工具便捷性。該書還對語料庫的加工和利用展開了更細致的闡釋,關于應用的實例也比上述提及的其他著作涉獵的多,但有利有弊,應用實例較多,對于不了解語料庫語言學的初學者,理解起來可能會有困難,閱讀有定一定門檻。
以上例舉的幾本著作僅是我國語料庫語言學研究成果的一小部分,如今已有越來越多的學者以不同的角度在該領域筆耕不輟,我們相信,隨著時代的進步,語料庫語言學會有著更美好更廣闊的的發(fā)展前景。
本書以解答為重點,循序漸進地為讀者傳授語料庫語言學的知識。但因此的不足就比較明顯:不能很好的將知識系統(tǒng)化,個別問題前后之間的關聯松散,一定程度上使個別知識的前因后果不夠連貫。例如開篇對“什么是語料庫?”的介紹,僅僅解釋了語料庫的概念,概述了其他學者對語料庫的兩種認識,并未對其發(fā)展進行大致的梳理,有種“意猶未盡”之感。
在計算機技術飛速發(fā)展的今天,如何順應科技化潮流與時俱進是每門學科不可回避的問題,語言學已借助語料庫這門新技術有了累累研究碩果,觀之我們中國的漢字,雖早已通過發(fā)達的信息處理技術進入計算機之中,但漢字學的新時代創(chuàng)新仍充滿了挑戰(zhàn)。傳統(tǒng)漢字學的研究方法已不能滿足當今學者研究的需要,我們該如何利用好計算機技術這一有利工具,將傳統(tǒng)知識與新科技的結合起來,是漢字學研究者普遍面臨的問題,因而,書中提及的語料庫語言學建設方法就為漢字學的新發(fā)展提供了很好的參考范式。
不同的語言有與之對應的語料庫,那么觸類旁通,漢字則應對應有自己的漢字字料庫,字料庫漢字學正是此類新興學科,它“以真實文本中出現的漢字字料為界定和描述漢字現象的起點,通過字料的采集、存儲、標注、檢索和統(tǒng)計分析,用來提出全新的漢字學理論或驗證、修正已有的漢字學理論”(柳建鈺,2017),對漢字學的新發(fā)展有著不可忽視的貢獻,是一門富有研究價值的交叉學科。王寧在《漢字構形學導論》中,將漢字學的研究分支歸為四類:漢字構形學、漢字字體學、漢字字源學和漢字文化學,這四類分支在字料庫的輔助下勢必會有新的、卓越的發(fā)展。令人欣喜的是,這樣的預設并非空想,目前漢字學的字料庫建設與發(fā)展有著欣欣向榮之勢,已有許多學者投入到對此的建設中來,他們從字料庫的基礎定義、理論建設、實際應用等諸多方面辛勤研究著新時代漢字學理論,同時證明著字料庫的運用會給漢字學的新發(fā)展提供無限可能。
本書第三章的“語料庫的處理和加工”可為字料庫漢字學的字料信息計算機化提供參考,尤其是第一問涉及到的文本清理,本書從編碼轉換、規(guī)范格式、字符替換等方面為漢字學語料庫處理提供了詳盡的參考,例如推薦了UTFCast的編碼轉換工具,PowerGREP的拼寫檢查功能,并分享了“文本清理是一項需要細心和耐心的操作技術,需要在實踐中不斷增強意識提高操作效率”的經驗。又如“什么是語料庫的標注?”中談到的不同層面的語料標注分類:語音、語義、語用、語篇、詞類、句法,盡管語料標注在語言學研究領域是存在爭議的,但有此分類作為參考,能極大方便研究者對掌握的語料進行語言特征的分析,同時也為字料庫漢字學中的字料標注提供了參考。
本書的第五十五問“大數據時代的語料庫語言學會有什么新的特征?”也同樣引人深思,這個問題的回答不僅是針對語料庫語言學,更適用于當今語言學廣泛的相關學科。在新時代條件下,各學科在大數據的影響下,會有怎樣的發(fā)展與創(chuàng)新,讀者能在此回答上窺探一二:
(1)研究規(guī)模會發(fā)生變化,資源會越來越豐富;(2)研究內容會更龐雜,降噪會成為學科建設的重要課題之一;(3)網絡爬蟲智能化、工具便捷化;(4)研究材料的存儲方式會發(fā)生改變;(5)研究分析方法會有變化;數據的解讀更有挑戰(zhàn)性。
在當今日新月異的世界,隨著社會開放程度、人們的認識水平與認識能力的不斷提高,新思想、新技術層出不窮,促進了不同文化之間的交流融合、取長補短、互利共贏。這一點體現在學術界,便是學科與學科之間、學科與新研究方法之間的碰撞,產生了大量如“國際中文教育”、“字料庫漢字學”等等新興學科,交叉學科的興盛更是大勢所趨。
愿我們各學科之間能夠相互學習借鑒,愿我們漢字學的后輩研究者們能學好、借鑒好語料庫語言學學科的發(fā)展經驗,結合前輩們辛勤耕耘出的成果,建設好我們的字料庫,做好研究,做好創(chuàng)新,為漢字學的發(fā)展盡一份綿薄之力。