尹穎堯+曹曉晨+田媛
計算語言學(xué)到底研究啥
北語的計算語言學(xué)開設(shè)于全校唯一理工科學(xué)院信息科學(xué)學(xué)院(簡稱信科)。學(xué)院副書記李超是學(xué)院首屆本科學(xué)生,作為本碩博都在這兒讀的,徹頭徹尾的土著,講起北語信科和計算語言學(xué),他滔滔不絕。
北語信科的歷史有近三十年了,前身是計算機科學(xué)與技術(shù)系,成立于2000年,再之前,是1987年成立的中國第一個以漢語信息處理為主要研究方向的“語言信息處理研究所”。2014年,北語進行了大部制改革,信科在原有的語言信息處理研究所基礎(chǔ)上,成立了另外三個研究所,分別是:大數(shù)據(jù)與語言教學(xué)研究所、語言監(jiān)測與社會計算研究所(國家語言監(jiān)測與研究平面媒體中心)和管理科學(xué)與工程研究所。幾個研究所基本上都與計算語言學(xué)學(xué)科直接相關(guān),分別對語言的教學(xué)、研究和應(yīng)用開展深入的研究。信科的主要任務(wù)是培養(yǎng)外語水平出色,具有信息處理基本素養(yǎng)的
人工智能大潮滾滾而來,語言信息處理是人工智能中最難突通用人才,在信息領(lǐng)域開展一些前沿性的研究。破和最難解決的核心技術(shù)問題之一?!罢Z言智能與技術(shù),是北語在中國語言文學(xué)一級
北京語言大學(xué)語言智能與技術(shù)(以下稱計算語言學(xué)),就是學(xué)科下,自主設(shè)置的二級學(xué)科?!崩畛f,計算語言專門做語言信息處理的。計算語言學(xué)是語言學(xué)的一個分支,學(xué)就是利用計算機對語言進行計算處理,比如要提出
某個語言現(xiàn)象,若沒有語言數(shù)據(jù)的支持,就不能成為
利用計算機對語言進行研究。不同于傳統(tǒng)的語言學(xué),它是一一個語言規(guī)律。而發(fā)現(xiàn)規(guī)律一般有兩種方法:一種基門由語言學(xué)、計算機科學(xué)和數(shù)學(xué)三者交叉的新型學(xué)科,融合于規(guī)則,如語法專家經(jīng)過研究,發(fā)現(xiàn)語言規(guī)律;另一了計算機的奧妙、語言學(xué)的神秘,還有數(shù)學(xué)的邏輯,在人工種基于統(tǒng)計,根據(jù)大規(guī)模數(shù)據(jù)提煉規(guī)則。后一種就是智能的科技大潮中,顯示出非凡的生命力和創(chuàng)造力。計算語言學(xué)主要做的事。
在這門融合了計算機科學(xué)、語言學(xué)和數(shù)學(xué)的計算語言學(xué)中,計算機科學(xué)是研究工具,語言學(xué)是處理對象,數(shù)學(xué)是建模工具,此外還會用到物理學(xué)等知識。李超進一步解釋:“計算語言學(xué),是從字、詞、句、篇章、語音等各個維度去研究語言,比如讓計算機自動評判一個留學(xué)生寫漢字寫得對不對、好不好,這項技術(shù)的核心是數(shù)學(xué)曲線在二維平面的變換;再比如研究日本人說漢語,計算機可以判斷他們說得對不對、準(zhǔn)不準(zhǔn),這項技術(shù)就利用了物理學(xué)中的聲學(xué)理論,通過發(fā)音的波形進行判斷?!庇嬎阏Z言學(xué)的應(yīng)用還有很多,最常見的比如在拼音輸入法中,有一項功能是“拼寫和語法錯誤”,一旦判定有錯誤嫌疑,系統(tǒng)就會用紅色波浪線劃出。還有讓計算機評判一篇論文寫得好不好,對不對等。
資源優(yōu)勢獨一無二
除了北語,國內(nèi)開展計算語言研究的還有清華大學(xué)、北京大學(xué)、中國科技大學(xué)、哈爾濱工業(yè)大學(xué)、復(fù)旦大學(xué)、中國科學(xué)院等名校。每所大學(xué)的研究各有側(cè)重,比如中國科技大學(xué)的科大訊飛主攻語音信息處理,特別是語音識別。語音識別的應(yīng)用也很多,比如語音輸入法,又比如語音考試,“在口語考試中,有一種題型是模仿原聲讀句子,計算機會給考生自動評分。”傳統(tǒng)牛校的計算語言研究規(guī)模大,相比之下,北語更像是小團隊作戰(zhàn),但在某些領(lǐng)域有得天獨厚的優(yōu)勢。
這優(yōu)勢就是在語言資源方面,尤其是搜集外國人的語言資源上面。李超在寫博士論文時,需要收集各國人書寫的漢字樣本做研究。當(dāng)時,他的一個師弟在英國讀博,也做著相同的研究。師弟采集樣本時跑遍了英國,還專門跑去了埃及,可是一年下來,收集的樣本規(guī)模還不如李超在北語一堂漢語課上收集得多?!霸诒闭Z,隨便推開一間教室的門,20位同學(xué)就可能來自20個國家,我只要收集每個人的漢字,就是20個國別樣本?!崩畛院赖卣f。目前,約有170多個國家和地區(qū)的學(xué)生在北語學(xué)習(xí),校園里能見到世界各地的人。在北語,研究語言信息處理根本不愁樣本,這是其他高校無法比擬的。
李超的博士論文研究外國人寫漢字。在傳統(tǒng)教學(xué)模式中,老師只能看到留學(xué)生寫完的漢字,看不到寫字過程中的筆畫順序,無法全方位判斷寫得怎么樣。李超研究時用了一種數(shù)碼筆,“它看起來和普通圓珠筆一樣,但書寫的時候,能記錄書寫者書寫漢字時的位置、速度、壓力等信息,再加上研制的算法,計算機就能告訴留學(xué)生寫的漢字到底對不對了,如果不對還能指出哪里寫得不對,給出修正意見?!?/p>
北語堅持‘專業(yè)+外語的復(fù)合型人才培養(yǎng)模式。大一到大四都開設(shè)英語課,學(xué)院本科生的英語專八考試通過率能達到70%。
此外,計算語言研究需要的理論知識,北語也有著得天獨厚的條件?!叭蚪?00所孔子學(xué)院,由北語承辦的就有17所。在培養(yǎng)漢語國際教學(xué)師資方面,北語是培訓(xùn)漢語國際教學(xué)師資的官方機構(gòu),對漢語國際教學(xué)中的各種教學(xué)研究得非常深入?!必S富的學(xué)生資源、專業(yè)的理論積累,都為北語的計算語言學(xué)提供了良好環(huán)境。
專業(yè)教學(xué)各有特色
北語計算語言學(xué)專業(yè)招收本科、碩士和博士。本科時要將基礎(chǔ)數(shù)學(xué)、物理、統(tǒng)計等基礎(chǔ)學(xué)科學(xué)扎實了,這可不簡單。在本科生眼里,高等數(shù)學(xué)、線性代數(shù)、離散數(shù)學(xué)和概率論與數(shù)理統(tǒng)計是“四座大山”。李超認為,在計算語言學(xué)專業(yè)中,數(shù)學(xué)是基礎(chǔ),所有的語言現(xiàn)象都要對應(yīng)一個語言模型。什么是語言模型?說得簡單點兒就是一個數(shù)學(xué)公式。攻克了“四座大山”,大三大四的學(xué)生就可以選人工智能、自然語言處理等選修課了,還可以參與到學(xué)院老師們的研究項目中。本科生直接申請項目或直接參與科學(xué)研究,這是北語信科的特色。
至于碩士和博士,北語的計算語言學(xué)專業(yè)文理兼收,“我們不挑人,會針對每個人的專業(yè)特長、興趣點對他們的研究方向進行專門定制?!崩畛f,多數(shù)碩士博士是理工科出身,他們會編程,但一般不懂語言學(xué),進來后要補修《語言學(xué)概論》等語言學(xué)基礎(chǔ)課程。文科背景的研究生則要補數(shù)學(xué)和計算機課程,但這沒有想象中那么痛苦,“甚至有幾位文科研究生經(jīng)過一段時間的學(xué)習(xí),成了編程大拿?!?/p>
北語計算語言學(xué)強調(diào)動手能力,本科生、碩士生和博士生有時會參加同一個研究課題,但是對他們的要求是不同的:本科生做的是基礎(chǔ)工作;研究生則是解決課題中的一兩個具體問題;對于博士生,則必須有三五個完整的創(chuàng)新點,并以此為基礎(chǔ)完成博士論文,這是畢業(yè)的硬性要求。
去向好,招生難
談起同學(xué)們的畢業(yè)去向,李超精神一振:“北語堅持‘專業(yè) +外語的復(fù)合型人才培養(yǎng)模式。信科大一到大四都開設(shè)英語課,學(xué)院本科生的英語專八考試通過率能達到70%?!边x擇就業(yè)的本科生和研究生,除了去外交部、新華社等國家級機構(gòu),以及中國銀行、工商銀行等金融單位從事信息技術(shù)相關(guān)工作外,還有不少畢業(yè)生在IBM、微軟、Google、百度、阿里巴巴、騰訊、新浪等從事軟件開發(fā)、信息管理、技術(shù)服務(wù)工作。
因為做的都是前沿研究,有意深造的同學(xué)去向也不錯,每年都有50%左右的本科畢業(yè)生赴國內(nèi)外名校讀研,如清華、北大、北航、北郵、牛津大學(xué)、斯坦福、帝國理工、加州伯克利、哥倫比亞、賓夕法尼亞、卡耐基·梅隆、東京大學(xué)等。想讀博也不難,張勁松教授門下四位2015屆研究生,一個去了日本京都大學(xué),一個去了美國伊利諾伊大學(xué)厄巴納 -香檳分校分校,一個去了澳大利亞麥考利大學(xué),還有一個去了德國德累斯頓工業(yè)大學(xué),都拿了全額獎學(xué)金。還有一個研究前后鼻韻母的2016屆研究生,聯(lián)系了西澳大利亞大學(xué)的一個大牛級教授,兩封信就談妥了讀博事宜。如今,每年都有外國高校請北語計算語言學(xué)的教授推薦博士生候選人。
“2012年,北語邀請第三方機構(gòu)調(diào)查了校友滿意度,各院系中信科校友滿意度排名第一?!崩畛院赖卣f。不過校友滿意度第一也可能是由于一個令人哭笑不得的原因:沒來信科之前,不少同學(xué)對北語的唯一理工科學(xué)院不了解甚至有怨氣,來了后卻發(fā)現(xiàn)真的很棒,不虛此行。
畢業(yè)不愁出路的計算語言學(xué),招生時卻讓學(xué)院操碎了心。考研時第一志愿填報北語計算語言學(xué)的,只要能過國家分數(shù)線就能被錄取。但每年招的30名碩士研究生,還是有近一半要靠調(diào)劑。2015年,計算語言學(xué)收到了100多個調(diào)劑申請,最后調(diào)劑生的平均分數(shù)比第一志愿錄取的還要高。
采訪手記:
這一次為報道北語計算語言學(xué),記者們采訪了八位老師和學(xué)生。自豪和無奈,是每一位被采訪者都流露出的情感。他們自豪于自己的前沿研究,自豪于自己靈活的本碩博培養(yǎng)方案,自豪于學(xué)生的就業(yè)去向,自豪于畢業(yè)生對學(xué)院的真心熱愛。但是,也無奈于本科招不滿,研究生靠調(diào)劑的局面。正如李超所堅信的,是金子的終會發(fā)光。而北語計算語言學(xué),不僅是金子,還是一座蘊藏著金子的金礦。
探索前沿,低調(diào)耕耘
采寫/本刊記者 尹穎堯 曹曉晨文字整理/陳林芩
北語計算語言學(xué)有一群大牛教師,他們的研究前沿、有趣。記者分別采訪了研究語言教學(xué)、研究和應(yīng)用的幾位代表教授。
于東副教授——讓計算機“聽懂”語言
主攻語言信息處理的于東老師研究語義計算,即讓計算機“聽懂”、并且理解人說的話。
于老師介紹,語義學(xué)歷經(jīng)了三代研究。第一代是做生物分類體系般的語詞典,通過條目分類囊括所有的詞語。第二代是制作知識圖譜,如網(wǎng)友自發(fā)編輯的百度、維基等百科,每一個詞條形成一個小數(shù)據(jù)庫。第三代則將詞義抽象表示出來,再通過計算機分析詞與詞之間千絲萬縷的關(guān)系。比如“雞蛋”,可讓計算機通過50個數(shù)字表示,表面看50個數(shù)字毫無關(guān)聯(lián),但一旦所有的食物都由50個數(shù)字表示出來后,計算機就能發(fā)現(xiàn)“雞蛋”和“母雞”間的聯(lián)系,并能將它們的關(guān)系類比為人類母親和孩子的關(guān)系。
提取個人中文簡歷中的信息,也是于老師重點負責(zé)的項目之一。對于有百度百科詞條的人,他們的信息比較完整,普通人的信息則散落在互聯(lián)網(wǎng)的各個角落,需要好好尋找。簡歷中,人們往往會寫祖籍、出生地、年齡等信息,于東和學(xué)生們將這些信息提取后建模,再在更大的互聯(lián)網(wǎng)文本中,找與這個人有關(guān)的
用計算機解決語言應(yīng)信息,比如曾經(jīng)待過的地方、做過的職位、人物關(guān)系用問題,即計算機理等等。之后逐層推導(dǎo),繪制出一份社交圖譜——以一解語言的句法結(jié)構(gòu)和個人為中心,找出與之相關(guān)的人及其職位,構(gòu)成人物語意結(jié)構(gòu),是當(dāng)前大關(guān)系網(wǎng)絡(luò)。這個項目2013年啟動,仍在進行中。熱的人工智能的一個用計算機解決語言應(yīng)用問題,即讓計算機理解方向。語言的句法結(jié)構(gòu)和語意結(jié)構(gòu),是當(dāng)前大熱的人工智能
的一個方向。餓了吃飯,臟了洗澡,這是人的常識,但計算機沒有這個常識,如何讓計算機獲取、表示,甚至運算這種常識性知識,仍是研究的一個難點。 2015年,于老師所在的大數(shù)據(jù)研究所團隊加入了國家 “863”計劃項目“面向基礎(chǔ)教育的知識能力智能測評與類人答題驗證系統(tǒng)”,2016年再次申請到國家社科重點項目資助,目標(biāo)就是以語法、語義結(jié)構(gòu)分析為核心技術(shù),幫助人工智能參加高考,并在高考科目中達到一定水平。
鏈接:在知識圖譜領(lǐng)域,清華大學(xué)和中國科學(xué)院都在做相關(guān)研究,前者注重在知識圖譜基礎(chǔ)上的知識推理,而后者關(guān)注如何從原始文本中抽取知識圖譜。北語計算語言學(xué)更多是在積累資源,從文本中挖掘知識,并著手清華和中科院都不怎么關(guān)注的常識領(lǐng)域。
荀恩東教授——寫手漂亮的漢字
信科學(xué)院大數(shù)據(jù)與語言教學(xué)研究所所長荀恩東教授的研究,主要包括兩個部分。一是用計算機幫助漢語學(xué)習(xí)。在北語這個擁有不同膚色學(xué)生的“小聯(lián)合國”,很多留學(xué)生寫漢字如同畫畫,而且沒有筆順概念。荀教授和同學(xué)們研發(fā)了幫助留學(xué)生寫好漢字的手機APP——“易漢字”,以國家規(guī)定的筆畫筆順為標(biāo)準(zhǔn),指導(dǎo)學(xué)生寫出標(biāo)準(zhǔn)的漢字。這款軟件針對的不僅僅是外國人,沒機會“練筆”的中國成年人同樣是目標(biāo)對象。
如今,人們提筆忘字的現(xiàn)象越來越嚴(yán)重,為讓人們寫得一手好字,荀教授還請來了書法家,采集其書寫漢字的過程和成型的字體,讓大家在APP上跟著書法家一筆一畫地臨摹。此外,荀教授還將師生互動從課堂上搬到了移動終端上。課前,他將課上要講的內(nèi)容發(fā)送至手機等終端,供學(xué)生預(yù)習(xí),課后,他收集學(xué)生練習(xí)的結(jié)果,作為研究的第一手資料。
與于東老師一樣,荀教授也關(guān)注人工智能中的常識問題。此外,他還牽頭建立了BCC現(xiàn)代漢語語料庫(http://bcc.blcu.edu.cn/),總字數(shù)約 150 億字,包括報刊(20億字)、文學(xué)(30億字)、微博(30億字)、科技( 30億字)、綜合( 10億字)和古漢語(20億字)等多領(lǐng)域語料,可供檢索,服務(wù)于教學(xué)、輿情等。它是目前國內(nèi)最大、被使用次數(shù)最多的語料庫,不論是博士、碩士生寫論文,還是老師做語言學(xué)研究,都能用到它。
鏈接:北京語言大學(xué)在漢語學(xué)習(xí)的理論方法領(lǐng)域做得最深入,比如漢語的字、詞、句、篇章的分析和處理技術(shù),在國內(nèi)可比肩清華大學(xué)、中國科學(xué)院大學(xué)、哈爾濱工業(yè)大學(xué)、和復(fù)旦大學(xué)等知名院校,也絲毫不比國外遜色。
荀教授和同學(xué)們研發(fā)了幫助留學(xué)生寫好漢字的手機APP——“易漢字”,以國家規(guī)定的筆畫筆順為標(biāo)準(zhǔn),指導(dǎo)學(xué)生寫出標(biāo)準(zhǔn)的漢字。
2015年,張教授的團隊在日本同學(xué)中做測試,參加測試前,日本同學(xué)發(fā)音的準(zhǔn)確率是80%,經(jīng)過一段時間的訓(xùn)練,準(zhǔn)確率達到了90%。
張勁松教授——改進洋腔洋調(diào)
張勁松教授關(guān)注計算機輔助發(fā)音教學(xué)和實用語音學(xué)。經(jīng)過調(diào)研,張教授發(fā)現(xiàn)計算機輔助發(fā)音的第一代產(chǎn)品,運用的是語音匹配技術(shù),用打分的方式判斷發(fā)音是否標(biāo)準(zhǔn),但這對學(xué)生改進和提高發(fā)音的幫助實在有限。“學(xué)生只知道自己發(fā)音的水平,卻不知道哪兒出了問題。這樣的反饋,于教學(xué)而言遠遠不夠?!?/p>
怎樣才能讓學(xué)生更好地改進發(fā)音呢?
帶著這一目標(biāo),張老師把發(fā)音分成“三個環(huán)節(jié)、五個層面”,挨個兒攻克難關(guān)。五個層面指音段、聲調(diào)、語調(diào)、語段和韻律?!叭齻€環(huán)節(jié)”的第一個環(huán)節(jié)是產(chǎn)出環(huán)節(jié)。張老師發(fā)現(xiàn),將漢語作為第二語言學(xué)習(xí),不同國家的學(xué)生有著不同程度的“洋腔洋調(diào)”。比如日本人分不清l、r和zhi、chi、shi,送氣也不足。此外,日本人講中文時,也許每個音調(diào)都正確,但他們不明白漢語的韻律、節(jié)奏,連起來說時句子聽起來十分生硬。第二個環(huán)節(jié)是知覺層面,這個層面常見的問題是在教學(xué)過程中,老師講的東西同學(xué)能理解多少,老師不能確定,如“媽”和“馬”,有的同學(xué)聽起來完全一樣。第三個層面是交際層面,這個層面也有一些容易產(chǎn)生的問題,比如,中國人與外國人聊天時,為了讓對話順利進行下去,有時會選擇性忽略外國人說中文時的錯誤,這樣一來,外國人就認為自己的錯誤表達是正確的,這是加深印象或鞏固錯誤的陷阱。
隨后,張教授帶領(lǐng)同學(xué)們有針對性地解決這些問題。在知覺環(huán)節(jié),針對日本學(xué)生陽平上聲不分的問題,團隊利用物理參數(shù)合成音高區(qū)間,并劃分了十個次級,“對母語是漢語者來說,聽 1~4 級時, 100%的人都表示聽到的是陽平;聽 7~10級時, 100%聽到的都是上聲;而聽 5或6級時,他們也會拿不準(zhǔn)。”團隊把中國人聽1~10次級的情況告訴日本同學(xué),并針對他們的薄弱環(huán)節(jié)進行針對性的訓(xùn)練。 2015年,張教授的團隊在日本同學(xué)中做測試,參加測試前,日本同學(xué)發(fā)音的準(zhǔn)確率是 80%,經(jīng)過一段時間的訓(xùn)練,準(zhǔn)確率達到了 90%。
鏈接:在計算機輔助發(fā)音教學(xué)領(lǐng)域,美國佐治亞理工學(xué)院、香港中文大學(xué)、新加坡A*STAR(Agency for Science,Technology andReseach)研究所、日本京都大學(xué)等都有相關(guān)研究。由于北語開展得比較早,目前在國內(nèi)外都處于前沿地位,研究成果在領(lǐng)域內(nèi)也極受重視。