康喆文
?
《應用計算語言學》評介
康喆文
(天津外國語大學 中央文獻翻譯研究基地)
Николаев, И. С., О. В. Митренина & Т. М. Ландо. 2017. Прикладная и Компьютерная лингвистика. Москва: URSS.
計算語言學是20世紀40年代伴隨機器翻譯出現的新型交叉學科,主要通過建立形式化的數學模型來分析、處理自然語言,并在計算機上用程序來實現分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言的能力(邵艷秋,2009:25-26)。
俄羅斯是世界范圍內較早從事機器翻譯和計算語言學研究的國家,具有眾多經驗豐富的科研機構。其中,圣彼得堡國立大學數理語言學教研室是全俄公認的結構語言學、應用語言學、計算語言學及數理語言學研究中心。《應用計算語言學》一書是由該教研室編寫的一部關于現代語言學技術與應用的專著。該書由俄羅斯科學文獻出版集團URSS于2016年首次出版發(fā)行,是該領域的一部權威著作。
圣彼得堡國立大學數理語言學教研室成立于1962年,前身為數學系機器翻譯實驗室。該教研室目前主要致力于應用語言學、計算語言學和數理語言學三個方向的教學及研究,涉及語義學、句法學、術語學、數學模擬、機器詞典編纂、矢量語言學、不同語言(俄語、英語、法語、德語)的自然文本處理和自動文本生成等內容。教研室為全球知名的Google,Яндекс,PROMT等機器翻譯公司輸送了大批人才。《應用計算語言學》一書是由教研室?guī)熒摵献珜懚伞?/p>
該書分為理論研究和應用探索兩大部分,共14章節(jié)。第一部分闡釋了應用計算語言學的理論構成,包括計算詞法(Компьютерная морфология)、計算句法(Компьютерный синтаксис)、計算語義表征(Компьютерное представление значений)、言語的識別與合成(Распознавание и синтез речи)、語言學領域的機器學習(Машинное обучение в лингвистике)、語料庫語言學(Корпусная лингвистика)6個章節(jié)。第二部分從應用的角度,介紹了機器翻譯(Машинный перевод)、信息檢索(Информационный поиск)、信息提取(Извлечение информации)、對話系統(tǒng)和聊天機器人(Диалоги и чат-боты)、文本情感分析(Анализ тональности)、計算機文獻學(Компьютерная текстология)、定量語言學(Квантитативная лингвистика)、言語影響及操控(Речевое воздействие и манипулирование)八個章節(jié),書后另附術語索引部分。
第一章以計算詞法為核心,介紹了用計算機對詞語進行標準化處理、詞法分析的操作工具及如何解決詞的多義性問題。語言模式化(Языковое моделирование)是計算語言學的基本方法。如何對詞進行模式化、定性化描寫并予以可操作的形式化手段,使計算機在處理自然語言時有自動詞法分析的能力是計算語言學要解決的首要問題。作者從“如何尋找詞”切入,開篇解釋了詞例還原(Токенизация)的概念,即將句子還原為計算機可識別的詞例(Токен),如詞、標點符號、數字、表情符號等單元。其次,對詞進行詞法分析。目前自然語言處理領域采取三種方法:基于規(guī)則的方法、基于統(tǒng)計的方法和規(guī)則統(tǒng)計相結合的方法?;谝?guī)則的詞法分析器目前有俄羅斯自主研發(fā)的AOT自動文本處理(Автоматическая Обработка Текста),Pymorphy2,Mystem、可識別俄語的Tree Tagger,Stemka,FreeLing,Snowball等軟件?;诮y(tǒng)計的詞法分析借助馬爾科夫統(tǒng)計模型實現詞性自動標注。多義性是計算詞法分析目前面臨的棘手問題,作者對此提出了使用知識儲備進行上下文判斷、常用詞形分析、語音識別等方法。
第二章“計算句法”介紹了句法自動化分析(Парсинг)的方法及工具。Парсинг一詞由Parsing英譯而來,作者認為從廣義上講,句法分析可以自動處理任何文本數據;從狹義上講,句法分析是處理自然語言文本結構及句子結構的重要手段。如何獲得句子的結構信息,本章提出了三種方法:依存語法分析法(Грамматики зависимости)、直接成分分析法(Грамматики непосредственных составляющих)、組合分析法(Комбинированные теории анализа предложения)。句法分析器(Синтаксический анализатор)包括俄羅斯有名的ЭТАП機器翻譯系列、Dictum公司研發(fā)的DictaScope,ATO;非俄羅斯本土研發(fā)但支持俄語分析的Stanford NLP,RASP,OpenNLP,Link Grammar Parser,NLTK等。
第三章從計算語義的角度,介紹了計算語義的表現手段。語義分析是自動文本處理過程中最復雜的步驟,是自然語言處理的心臟。計算機對自然語言語義的加工在于如何將語義結構化,并以模板的形式儲存在計算機中。作者從表示計算意義的模型出發(fā),描述了語義網絡(Семантическая сеть)、概念圖示(Концептуальный граф)、框架及程序表(Флейм и сценарий)、知識圖譜(Граф знаний)等語義模型的具體運用。形式本體論(Формальные антологии)是計算語義領域表達語義概念的特殊手段,也稱“本體技術”,是一種能在語義和知識層次上描述概念體系的主要工具,給詞語間相似度計算帶來了新的機會(盛秋艷,2012:1238)。作者在此通過本體技術的結構、分類、構成特點、自然語言中介語、自動構建方法、現代本體論資源庫、標準化及應用評價等方面為讀者做了詳盡的介紹。
第三章最后一小節(jié),作者介紹了計算主體詞表(Компьютерный тезаурус)。主題詞表是計算語義相似度聚合關系的具體應用形式。Тезаурус也被稱為意念詞典(Идеологический тезаурус),旨在揭示詞匯單位之間的各種語義關系,以構成語言知識庫的語義描寫系統(tǒng),并使之與某個具體知識領域的概念層級系統(tǒng)對接起來,為人機通用的知識信息處理服務(傅興尚等,2009:148)。目前俄語中廣為流行的主體詞庫有RussNet,РуТез,Викисловарь等。RussNet由俄羅斯圣彼得堡國立大學И. В. Азарова在1999年組織發(fā)起,主要包括俄語詞匯系統(tǒng)、俄語中常用的核心詞匯和俄語的主要語義、語法關系等內容。РуТез自1992年起由莫斯科國立大學計算科學研究中心研發(fā),是以社會政治為主題的詞庫索引,包括經濟、政治、法律、國際關系、軍事、社會等領域的術語。Викисловарь是維基百科下屬的開放式、多語種網絡詞典,自2002年發(fā)展以來已涵蓋170個語種。將檢索詞語輸入維基詞典,可查詢到語音、詞源、詞法、句法、語義、詞的搭配信息、對應翻譯等多個內容。目前俄語維基詞典已形成了同義詞、反義詞、下位詞、轉喻詞、近音詞等綜合的詞匯關系譜系網。
第四章“言語識別與合成”主要發(fā)展了計算機的言語辨別技能。作者認為言語技術(Речевые технологии)是多學科研究方法的融合,如傳統(tǒng)語言學(語音、詞匯、語法、語義、語用)、聲學、電工學、邏輯學、信息論、概率論、語料庫語言學、心理學等。根據編纂合成法和參數合成法,言語合成通過語言文本輸入→文本處理→音標標注→聲學合成等實現由文本到語音的轉換。而言語識別的操作過程與合成恰好相反:聲音信號輸入→提取標記→聲學矢量識別→校準器對比→詞匯選擇→形成文本。作者介紹了其中涉及的方法、操作系統(tǒng)等內容,為下文的人機對話章節(jié)作出了理論鋪墊。
“機器學習”譯自于machine learning一詞,是人工智能的重要分支,研究如何使用計算機模擬人類學習活動。第五章作者將機器學習限定在語言學范圍內,主要指采用數學算法處理自然語言,因此也稱數學優(yōu)選(Математическая оптимизация)或統(tǒng)計控制理論(Теория статистического управления)。作者在介紹機器學習算法(Алгоритм)的同時指出,語言學家應當對算法結果進行人工自省和評價。
隨著語料庫建設和語料庫語言學的崛起,大規(guī)模真實文本的處理成為計算語言學的主要戰(zhàn)略目標(馮志偉,2011:15)。第六章“語料庫語言學”詳盡描述了語料庫的發(fā)展歷史、主要特點、類型、語料庫標記、語料庫軟件、如何自建語料庫、語料庫發(fā)展前景展望等前沿問題。作者在章節(jié)末分別列舉了俄語、英語、西班牙語、德語、阿拉伯語、保加利亞語、捷克語、漢語等同語種的國家語料庫名稱、容量和網頁鏈接。俄語目前常用的語料庫有:俄語國家語料庫(Национальный корпус русского языка)(http://www.ruscorpora.ru/)、俄羅斯自動文本處理АОТ(http://aot.ru/search1.html#top)研發(fā)的語料庫等。
從第二部分開始,本書的重點轉向計算語言學的應用領域。第七章的核心是機器翻譯。作者在基于規(guī)則的機器翻譯、基于統(tǒng)計的機器翻譯和混合機器翻譯三種方法的框架下,介紹了相應的翻譯模型。本章的亮點在于作者提出了機器翻譯評估的自動方法,介紹了NIST,MERT,METEOR,TER等評估體系。作者認為機器翻譯評估應當考察以下參數:譯文的充分性(полнота)和流利性(гладкость)。此外,作者分別描述了世界范圍內不同的現代機器翻譯系統(tǒng),如較為成熟的能支持五十多種語言的美國Systran,Google,Bing;美德合作的Logos和OpenLogos;德國Linguatec;瑞士IdiomaX;以色列Babylon;西班牙Apertiom;俄羅斯PROMT,Яндекс等。
第八章介紹了信息檢索的有關內容,這里的信息檢索指自動化信息檢索(Автоматизированный информационный поиск)。作者在每小節(jié)中接連提出了“在哪檢索”、“誰來檢索”、“如何檢索”、“什么是好的檢索”、“語言學的任務是什么”等系列問題,并用實例一一作了回答。語言學在信息檢索中發(fā)揮著基礎作用,詞法分析器是重要的零部件,語言學的主要任務包括詞匯分析、形態(tài)分析、句法分析和語義分析。相關性(релевантность)、完整性(полнота)和準確性(точность)是評價信息檢索系統(tǒng)的重要參數。相關性即用戶的需求(запрос)和文本(документ)的匹配程度;完整性指檢索到的文本數量占相關性文本數量的份額;準確性指相關性文本數量在檢索結果中的比重。
第九章作者從網絡工作者的角度描述了信息提取的具體操作及目前面臨的問題。信息提取包括命名實體識別、實體間的關系析出和事件析出。計算機為了從自然語言文本中獲取意義,首先要將自然語言數據轉換為結構化數據,這一過程的實現需要對標注過的句子進行命名實體識別,以便于檢索者檢索到需要的信息。“命名實體”(Именованные сущности)是指以名稱為標識的實體,通常包括實體(人名、地名、組織)、時間表達式和數字表達式。對命名實體的標注有組織(ОРГ,от организация)、人物(ПЕР,от персона)、定位(ЛОК,от локация)等。隨后計算機需要識別文本中不同實體之間的可能關系。例如,В прошлом году [Яндекс] приобрел [Кинопоиск], а [Майкрософт] купил [Скайп].(去年Яндекс公司合并了Кинопоиск公司,微軟收購了Skype公司。)需要對提到的命名實體Яндекс,КинопоискМайкрософт和Скайп進行標記,識別它們之間的相互關系,其次識別句法樹中實體之間的動詞приобретать和купить。作者還提出了事件析出的模型,以“結婚事件”舉例如下。
第九章末作者還轉門介紹了GATE,LingPipe,NLTK,OpenNLP,Standford CoreNLP等軟件的信息提取功能。對話系統(tǒng)和聊天機器人是人工智能領域的一項重要應用。
第十章作者首先分析了自然語言對話系統(tǒng)的幾個組成部分:話輪交替順序(Порядок обмена репликами)、對話者的共同背景(Общий контекст собеседников)和對話結構(Структура диалога)。其次描述了人機對話體系的構成要素,包括自然語言理解模型、對話管理和自然語言發(fā)聲模型。聊天機器人在工作時需要模擬人類對話,并使用如AIML(人工智能標記語),Java,Ruby,Python,C++等專業(yè)語言。作者在最后一節(jié)中對人機對話系統(tǒng)進行了展望,認為人工智能對話不僅可以達到問答系統(tǒng)的結合,更能實現人與虛擬對話者情感的互動。
緊接著在第十一章作者介紹了計算機如何模擬人的情感問題。文本情感分析(SentimentAnalysis/Анализ Тональности)的主旨是通過計算機技術識別和挖掘自然語言文本中的主觀信息。作者介紹了文本情感分析的主體(文本作者)、客體(文本描述對象)、客體特征、情感評價類型(積極或消極)等實際操作內容。計算機對于文本情感的分析主要基于語言規(guī)則的設定、評價詞匯詞典(Словарь оценочной лексики)、算法規(guī)則等標準。
文本鑒定(Текстология)是計算機文獻學的一個分支,以考據文本歷史,校訂文本為研究內容。文本鑒定能從歷時角度對文本進行溯源研究,是研究語言發(fā)展歷時衍變的重要參照物。在第十一章作者將計算機技術與文本鑒定相結合,介紹了自動手稿分類、自動手稿比較等內容。
第十二章的主要內容是定量語言學。作者將數學方法與語言學相結合,向讀者闡釋了“在語言和言語中可以計算什么”這一問題。作者分別提出了如何通過計算機解碼字母和音節(jié)辨別語種;如何從類型學的角度辨別詞素;如何根據文體學判斷文本類型;如何根據同源語言演變史判斷語言的年齡;如何使用頻率詞典(Частотный словарь)等。作者以О. Н. Ляшевская和С. А. Шаров主編的《現代俄語頻率詞典》(Частотный словарь современного русского языка)為例,說明了詞匯頻率和語言使用的相互關系。
最后一章作者探討了言語影響及操控的問題。作者從信息發(fā)出者和信息接收者的角度,結合俄羅斯傳統(tǒng)的心理語言學、語言文化學、語用學、跨文化交際等理論闡釋了言語交際與非言語交際對交際者意識和行為所產生的影響。言語影響和操控本是俄羅斯心理語言學研究的一項分支內容,作者在此將其與計算語言學結合,提出了“如何探究人們的交際心理,使計算機模擬人的心智,將信息發(fā)出者和接收者帶入真實的交際情景,實現計算機語言‘鮮活化’”的構想,形成了本書結尾的升華之筆。
隨著21世紀數字化時代互聯網的普及和應用,自然語言的計算機處理成為人們獲取知識和學習的主要手段。計算語言學一方面繼承了傳統(tǒng)語言學的理論和內容,另一方面又與計算機技術相結合,目的是實現計算機對人腦的模擬。俄羅斯計算語言學研究一直走在世界前列,但國內對該領域研究成果的引介并不多見。目前國內專門介紹俄羅斯計算語言學的僅有2009年語文出版社出版的《俄羅斯計算語言學與機器翻譯》一書?!稇糜嬎阏Z言學》是首本全面介紹現代語言學技術的俄文專著,為國內俄語學習者全面探索該領域提供了重要參考。該書具有以下特色。
本書具有典范教材的性質,全書始于理論導入,終于實踐應用。在章節(jié)的編排上采取理論描寫和方法闡釋并重的方式,多層次剖析,尤其是在方法介紹上采用了豐富的例證加以說明,不僅解決了“是什么”的問題,還解釋了“如何操作”的問題。例如,作者在介紹不同的機器翻譯系統(tǒng)時,不僅描述了各翻譯系統(tǒng)的發(fā)展歷程和目前的應用范圍,還通過具體的圖表展示了源語輸入和譯語輸出的過程。又如在最后一章“言語操控與影響”中,作者分別通過詞匯層面、句法層面、修辭層面的例子來說明語言使用對言語行為的影響。
本書理論研究與應用研究兩部分獨自成篇,相互關聯。第一部分以計算語言學的理論構成為主線,拓展了傳統(tǒng)語言學詞法研究、句法研究、語義研究的概念,針對計算機對自然語言的處理規(guī)則,提出了計算詞法、計算句法、計算語義等分支理論。此外,考慮到語音系統(tǒng)也是傳統(tǒng)語言學的研究重點,又將語音研究轉變?yōu)橛嬎銠C可操作的言語技術探究。語料庫語言學和機器學習則分別立足于大規(guī)模真實文本處理和具體算法,為上述理論轉換為實際操作搭建了橋梁。第二部分應用章節(jié)涵蓋內容廣泛,基本上囊括了與計算語言學相關的應用領域,包括時下較為熱門的人機對話、文本情感分析等,突出了計算機技術對傳統(tǒng)語言學研究帶來的變革。
本書由數理語言學教研室?guī)熒摵暇帉懚?,大部分作者目前工作于全球互聯網搜索引擎公司、機器翻譯公司等,撰文基本來源于工作實際,語言通俗易懂。作者在每章后專門分出小節(jié),列舉參考文獻、電子資源的具體網頁鏈接、軟件學習的網絡課程以及計算語言學相關的國際會議名稱等,為讀者提供了詳盡的網絡信息資源,如維基百科多語詞典(Wiktionary)(https://www.wiktionary.org/)、機器翻譯圖書館(Библиотека по машинному переводу)(http://www.mt-archive.info/)、俄羅斯計算語言學專題會議“對話”(Диалог)(http://www.dialog-21.ru/)等。值得一提的是,書中大量有關計算語言學的專業(yè)俄文術語為外語學習者以及該領域的研究者提供了準確參照。
語言學正在經歷著一場革命性的巨變,計算機技術和互聯網逐漸改變了傳統(tǒng)語言學的研究模式,面向當代科技的計算語言學為語言學的放飛插上了翅膀。美國文化史學家Doueihi提出了第四種人文主義:數字人文主義。Doueihi稱由于它涉及一種和人類融為一體的全球技術,生成了全新的客體,與此同時改變了我們看待所有事物的方法,數字人文主義標志著一個顯著的變革,更為重要的是,它標志著一個新學科的誕生(朱波,2017:138)。當代語言學研究離不開大數據的依托,而大數據又再一次將機器翻譯、人機對話等應用領域推向新的高潮。本書作者沿著傳統(tǒng)語言學研究框架逐一擴展計算語言學的新概念和實際應用,與此同時又突出了俄羅斯語言學的研究特色,即注重言語行為對交際的影響。從交際的視角審視計算語言學,推動了計算語言學與人工智能的緊密結合。
總之,該書以應用計算語言學為核心,全面闡釋了計算語言學的理論構成和應用研究,結構編排合理,內容廣泛豐富,語言深入淺出,是讀者了解計算語言學理論與應用的一部具有價值的參考書。
[1] 馮志偉. 2011. 計算語言學的歷史回顧與現狀分析[J]. 外國語, (1): 9-17.
[2] 傅興尚等. 2009. 俄羅斯計算語言學與機器翻譯[M]. 北京: 語文出版社.
[3] 邵艷秋. 2009.“計算語言學”及其近義術語詳解[J]. 術語標準化與信息技術, (3): 24-27.
[4] 盛秋艷. 2013. 一種基于本體的語義相似度計算方法[J]. 情報科學, (3): 1238-1241.
[5] 朱波譯. 2017. 數字化時代的翻譯[M]. 北京: 外語與教學研究出版社.
2019-01-22;
2019-02-05
康喆文,博士生,研究方向:語言學、翻譯學