亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

隱藏在北語的一座金礦

2017-02-10 15:57:51尹穎堯曹曉晨田媛

大學(xué)生 2017年1期

尹穎堯+曹曉晨+田媛

計算語言學(xué)到底研究啥

北語的計算語言學(xué)開設(shè)于全校唯一理工科學(xué)院信息科學(xué)學(xué)院（簡稱信科）。學(xué)院副書記李超是學(xué)院首屆本科學(xué)生，作為本碩博都在這兒讀的，徹頭徹尾的土著，講起北語信科和計算語言學(xué)，他滔滔不絕。

北語信科的歷史有近三十年了，前身是計算機科學(xué)與技術(shù)系，成立于2000年，再之前，是1987年成立的中國第一個以漢語信息處理為主要研究方向的“語言信息處理研究所”。2014年，北語進行了大部制改革，信科在原有的語言信息處理研究所基礎(chǔ)上，成立了另外三個研究所，分別是：大數(shù)據(jù)與語言教學(xué)研究所、語言監(jiān)測與社會計算研究所（國家語言監(jiān)測與研究平面媒體中心）和管理科學(xué)與工程研究所。幾個研究所基本上都與計算語言學(xué)學(xué)科直接相關(guān)，分別對語言的教學(xué)、研究和應(yīng)用開展深入的研究。信科的主要任務(wù)是培養(yǎng)外語水平出色，具有信息處理基本素養(yǎng)的

人工智能大潮滾滾而來，語言信息處理是人工智能中最難突通用人才，在信息領(lǐng)域開展一些前沿性的研究。破和最難解決的核心技術(shù)問題之一?！罢Z言智能與技術(shù)，是北語在中國語言文學(xué)一級

北京語言大學(xué)語言智能與技術(shù)（以下稱計算語言學(xué)），就是學(xué)科下，自主設(shè)置的二級學(xué)科?！崩畛f，計算語言專門做語言信息處理的。計算語言學(xué)是語言學(xué)的一個分支，學(xué)就是利用計算機對語言進行計算處理，比如要提出

某個語言現(xiàn)象，若沒有語言數(shù)據(jù)的支持，就不能成為

利用計算機對語言進行研究。不同于傳統(tǒng)的語言學(xué)，它是一一個語言規(guī)律。而發(fā)現(xiàn)規(guī)律一般有兩種方法：一種基門由語言學(xué)、計算機科學(xué)和數(shù)學(xué)三者交叉的新型學(xué)科，融合于規(guī)則，如語法專家經(jīng)過研究，發(fā)現(xiàn)語言規(guī)律；另一了計算機的奧妙、語言學(xué)的神秘，還有數(shù)學(xué)的邏輯，在人工種基于統(tǒng)計，根據(jù)大規(guī)模數(shù)據(jù)提煉規(guī)則。后一種就是智能的科技大潮中，顯示出非凡的生命力和創(chuàng)造力。計算語言學(xué)主要做的事。

在這門融合了計算機科學(xué)、語言學(xué)和數(shù)學(xué)的計算語言學(xué)中，計算機科學(xué)是研究工具，語言學(xué)是處理對象，數(shù)學(xué)是建模工具，此外還會用到物理學(xué)等知識。李超進一步解釋：“計算語言學(xué)，是從字、詞、句、篇章、語音等各個維度去研究語言，比如讓計算機自動評判一個留學(xué)生寫漢字寫得對不對、好不好，這項技術(shù)的核心是數(shù)學(xué)曲線在二維平面的變換；再比如研究日本人說漢語，計算機可以判斷他們說得對不對、準(zhǔn)不準(zhǔn)，這項技術(shù)就利用了物理學(xué)中的聲學(xué)理論，通過發(fā)音的波形進行判斷?！庇嬎阏Z言學(xué)的應(yīng)用還有很多，最常見的比如在拼音輸入法中，有一項功能是“拼寫和語法錯誤”，一旦判定有錯誤嫌疑，系統(tǒng)就會用紅色波浪線劃出。還有讓計算機評判一篇論文寫得好不好，對不對等。

資源優(yōu)勢獨一無二

除了北語，國內(nèi)開展計算語言研究的還有清華大學(xué)、北京大學(xué)、中國科技大學(xué)、哈爾濱工業(yè)大學(xué)、復(fù)旦大學(xué)、中國科學(xué)院等名校。每所大學(xué)的研究各有側(cè)重，比如中國科技大學(xué)的科大訊飛主攻語音信息處理，特別是語音識別。語音識別的應(yīng)用也很多，比如語音輸入法，又比如語音考試，“在口語考試中，有一種題型是模仿原聲讀句子，計算機會給考生自動評分。”傳統(tǒng)牛校的計算語言研究規(guī)模大，相比之下，北語更像是小團隊作戰(zhàn)，但在某些領(lǐng)域有得天獨厚的優(yōu)勢。

這優(yōu)勢就是在語言資源方面，尤其是搜集外國人的語言資源上面。李超在寫博士論文時，需要收集各國人書寫的漢字樣本做研究。當(dāng)時，他的一個師弟在英國讀博，也做著相同的研究。師弟采集樣本時跑遍了英國，還專門跑去了埃及，可是一年下來，收集的樣本規(guī)模還不如李超在北語一堂漢語課上收集得多?！霸诒闭Z，隨便推開一間教室的門，20位同學(xué)就可能來自20個國家，我只要收集每個人的漢字，就是20個國別樣本?！崩畛院赖卣f。目前，約有170多個國家和地區(qū)的學(xué)生在北語學(xué)習(xí)，校園里能見到世界各地的人。在北語，研究語言信息處理根本不愁樣本，這是其他高校無法比擬的。

李超的博士論文研究外國人寫漢字。在傳統(tǒng)教學(xué)模式中，老師只能看到留學(xué)生寫完的漢字，看不到寫字過程中的筆畫順序，無法全方位判斷寫得怎么樣。李超研究時用了一種數(shù)碼筆，“它看起來和普通圓珠筆一樣，但書寫的時候，能記錄書寫者書寫漢字時的位置、速度、壓力等信息，再加上研制的算法，計算機就能告訴留學(xué)生寫的漢字到底對不對了，如果不對還能指出哪里寫得不對，給出修正意見?！?/p>

北語堅持‘專業(yè)+外語的復(fù)合型人才培養(yǎng)模式。大一到大四都開設(shè)英語課，學(xué)院本科生的英語專八考試通過率能達到70%。

此外，計算語言研究需要的理論知識，北語也有著得天獨厚的條件?！叭蚪?00所孔子學(xué)院，由北語承辦的就有17所。在培養(yǎng)漢語國際教學(xué)師資方面，北語是培訓(xùn)漢語國際教學(xué)師資的官方機構(gòu)，對漢語國際教學(xué)中的各種教學(xué)研究得非常深入?！必S富的學(xué)生資源、專業(yè)的理論積累，都為北語的計算語言學(xué)提供了良好環(huán)境。

專業(yè)教學(xué)各有特色

北語計算語言學(xué)專業(yè)招收本科、碩士和博士。本科時要將基礎(chǔ)數(shù)學(xué)、物理、統(tǒng)計等基礎(chǔ)學(xué)科學(xué)扎實了，這可不簡單。在本科生眼里，高等數(shù)學(xué)、線性代數(shù)、離散數(shù)學(xué)和概率論與數(shù)理統(tǒng)計是“四座大山”。李超認為，在計算語言學(xué)專業(yè)中，數(shù)學(xué)是基礎(chǔ)，所有的語言現(xiàn)象都要對應(yīng)一個語言模型。什么是語言模型？說得簡單點兒就是一個數(shù)學(xué)公式。攻克了“四座大山”，大三大四的學(xué)生就可以選人工智能、自然語言處理等選修課了，還可以參與到學(xué)院老師們的研究項目中。本科生直接申請項目或直接參與科學(xué)研究，這是北語信科的特色。

至于碩士和博士，北語的計算語言學(xué)專業(yè)文理兼收，“我們不挑人，會針對每個人的專業(yè)特長、興趣點對他們的研究方向進行專門定制?！崩畛f，多數(shù)碩士博士是理工科出身，他們會編程，但一般不懂語言學(xué)，進來后要補修《語言學(xué)概論》等語言學(xué)基礎(chǔ)課程。文科背景的研究生則要補數(shù)學(xué)和計算機課程，但這沒有想象中那么痛苦，“甚至有幾位文科研究生經(jīng)過一段時間的學(xué)習(xí)，成了編程大拿?！?/p>

北語計算語言學(xué)強調(diào)動手能力，本科生、碩士生和博士生有時會參加同一個研究課題，但是對他們的要求是不同的：本科生做的是基礎(chǔ)工作；研究生則是解決課題中的一兩個具體問題；對于博士生，則必須有三五個完整的創(chuàng)新點，并以此為基礎(chǔ)完成博士論文，這是畢業(yè)的硬性要求。

去向好，招生難

談起同學(xué)們的畢業(yè)去向，李超精神一振：“北語堅持‘專業(yè) +外語的復(fù)合型人才培養(yǎng)模式。信科大一到大四都開設(shè)英語課，學(xué)院本科生的英語專八考試通過率能達到70%?！边x擇就業(yè)的本科生和研究生，除了去外交部、新華社等國家級機構(gòu)，以及中國銀行、工商銀行等金融單位從事信息技術(shù)相關(guān)工作外，還有不少畢業(yè)生在IBM、微軟、Google、百度、阿里巴巴、騰訊、新浪等從事軟件開發(fā)、信息管理、技術(shù)服務(wù)工作。

因為做的都是前沿研究，有意深造的同學(xué)去向也不錯，每年都有50%左右的本科畢業(yè)生赴國內(nèi)外名校讀研，如清華、北大、北航、北郵、牛津大學(xué)、斯坦福、帝國理工、加州伯克利、哥倫比亞、賓夕法尼亞、卡耐基·梅隆、東京大學(xué)等。想讀博也不難，張勁松教授門下四位2015屆研究生，一個去了日本京都大學(xué)，一個去了美國伊利諾伊大學(xué)厄巴納 -香檳分校分校，一個去了澳大利亞麥考利大學(xué)，還有一個去了德國德累斯頓工業(yè)大學(xué)，都拿了全額獎學(xué)金。還有一個研究前后鼻韻母的2016屆研究生，聯(lián)系了西澳大利亞大學(xué)的一個大牛級教授，兩封信就談妥了讀博事宜。如今，每年都有外國高校請北語計算語言學(xué)的教授推薦博士生候選人。

“2012年，北語邀請第三方機構(gòu)調(diào)查了校友滿意度，各院系中信科校友滿意度排名第一?！崩畛院赖卣f。不過校友滿意度第一也可能是由于一個令人哭笑不得的原因：沒來信科之前，不少同學(xué)對北語的唯一理工科學(xué)院不了解甚至有怨氣，來了后卻發(fā)現(xiàn)真的很棒，不虛此行。

畢業(yè)不愁出路的計算語言學(xué)，招生時卻讓學(xué)院操碎了心。考研時第一志愿填報北語計算語言學(xué)的，只要能過國家分數(shù)線就能被錄取。但每年招的30名碩士研究生，還是有近一半要靠調(diào)劑。2015年，計算語言學(xué)收到了100多個調(diào)劑申請，最后調(diào)劑生的平均分數(shù)比第一志愿錄取的還要高。

采訪手記：

這一次為報道北語計算語言學(xué)，記者們采訪了八位老師和學(xué)生。自豪和無奈，是每一位被采訪者都流露出的情感。他們自豪于自己的前沿研究，自豪于自己靈活的本碩博培養(yǎng)方案，自豪于學(xué)生的就業(yè)去向，自豪于畢業(yè)生對學(xué)院的真心熱愛。但是，也無奈于本科招不滿，研究生靠調(diào)劑的局面。正如李超所堅信的，是金子的終會發(fā)光。而北語計算語言學(xué)，不僅是金子，還是一座蘊藏著金子的金礦。

探索前沿，低調(diào)耕耘

采寫/本刊記者尹穎堯曹曉晨文字整理/陳林芩

北語計算語言學(xué)有一群大牛教師，他們的研究前沿、有趣。記者分別采訪了研究語言教學(xué)、研究和應(yīng)用的幾位代表教授。

于東副教授——讓計算機“聽懂”語言

主攻語言信息處理的于東老師研究語義計算，即讓計算機“聽懂”、并且理解人說的話。

于老師介紹，語義學(xué)歷經(jīng)了三代研究。第一代是做生物分類體系般的語詞典，通過條目分類囊括所有的詞語。第二代是制作知識圖譜，如網(wǎng)友自發(fā)編輯的百度、維基等百科，每一個詞條形成一個小數(shù)據(jù)庫。第三代則將詞義抽象表示出來，再通過計算機分析詞與詞之間千絲萬縷的關(guān)系。比如“雞蛋”，可讓計算機通過50個數(shù)字表示，表面看50個數(shù)字毫無關(guān)聯(lián)，但一旦所有的食物都由50個數(shù)字表示出來后，計算機就能發(fā)現(xiàn)“雞蛋”和“母雞”間的聯(lián)系，并能將它們的關(guān)系類比為人類母親和孩子的關(guān)系。

提取個人中文簡歷中的信息，也是于老師重點負責(zé)的項目之一。對于有百度百科詞條的人，他們的信息比較完整，普通人的信息則散落在互聯(lián)網(wǎng)的各個角落，需要好好尋找。簡歷中，人們往往會寫祖籍、出生地、年齡等信息，于東和學(xué)生們將這些信息提取后建模，再在更大的互聯(lián)網(wǎng)文本中，找與這個人有關(guān)的

用計算機解決語言應(yīng)信息，比如曾經(jīng)待過的地方、做過的職位、人物關(guān)系用問題，即計算機理等等。之后逐層推導(dǎo)，繪制出一份社交圖譜——以一解語言的句法結(jié)構(gòu)和個人為中心，找出與之相關(guān)的人及其職位，構(gòu)成人物語意結(jié)構(gòu)，是當(dāng)前大關(guān)系網(wǎng)絡(luò)。這個項目2013年啟動，仍在進行中。熱的人工智能的一個用計算機解決語言應(yīng)用問題，即讓計算機理解方向。語言的句法結(jié)構(gòu)和語意結(jié)構(gòu)，是當(dāng)前大熱的人工智能

的一個方向。餓了吃飯，臟了洗澡，這是人的常識，但計算機沒有這個常識，如何讓計算機獲取、表示，甚至運算這種常識性知識，仍是研究的一個難點。 2015年，于老師所在的大數(shù)據(jù)研究所團隊加入了國家 “863”計劃項目“面向基礎(chǔ)教育的知識能力智能測評與類人答題驗證系統(tǒng)”，2016年再次申請到國家社科重點項目資助，目標(biāo)就是以語法、語義結(jié)構(gòu)分析為核心技術(shù)，幫助人工智能參加高考，并在高考科目中達到一定水平。

鏈接：在知識圖譜領(lǐng)域，清華大學(xué)和中國科學(xué)院都在做相關(guān)研究，前者注重在知識圖譜基礎(chǔ)上的知識推理，而后者關(guān)注如何從原始文本中抽取知識圖譜。北語計算語言學(xué)更多是在積累資源，從文本中挖掘知識，并著手清華和中科院都不怎么關(guān)注的常識領(lǐng)域。

荀恩東教授——寫手漂亮的漢字

信科學(xué)院大數(shù)據(jù)與語言教學(xué)研究所所長荀恩東教授的研究，主要包括兩個部分。一是用計算機幫助漢語學(xué)習(xí)。在北語這個擁有不同膚色學(xué)生的“小聯(lián)合國”，很多留學(xué)生寫漢字如同畫畫，而且沒有筆順概念。荀教授和同學(xué)們研發(fā)了幫助留學(xué)生寫好漢字的手機APP——“易漢字”，以國家規(guī)定的筆畫筆順為標(biāo)準(zhǔn)，指導(dǎo)學(xué)生寫出標(biāo)準(zhǔn)的漢字。這款軟件針對的不僅僅是外國人，沒機會“練筆”的中國成年人同樣是目標(biāo)對象。

如今，人們提筆忘字的現(xiàn)象越來越嚴(yán)重，為讓人們寫得一手好字，荀教授還請來了書法家，采集其書寫漢字的過程和成型的字體，讓大家在APP上跟著書法家一筆一畫地臨摹。此外，荀教授還將師生互動從課堂上搬到了移動終端上。課前，他將課上要講的內(nèi)容發(fā)送至手機等終端，供學(xué)生預(yù)習(xí)，課后，他收集學(xué)生練習(xí)的結(jié)果，作為研究的第一手資料。

與于東老師一樣，荀教授也關(guān)注人工智能中的常識問題。此外，他還牽頭建立了BCC現(xiàn)代漢語語料庫（http：//bcc.blcu.edu.cn/），總字數(shù)約 150 億字，包括報刊（20億字）、文學(xué)（30億字）、微博（30億字）、科技（ 30億字）、綜合（ 10億字）和古漢語（20億字）等多領(lǐng)域語料，可供檢索，服務(wù)于教學(xué)、輿情等。它是目前國內(nèi)最大、被使用次數(shù)最多的語料庫，不論是博士、碩士生寫論文，還是老師做語言學(xué)研究，都能用到它。

鏈接：北京語言大學(xué)在漢語學(xué)習(xí)的理論方法領(lǐng)域做得最深入，比如漢語的字、詞、句、篇章的分析和處理技術(shù)，在國內(nèi)可比肩清華大學(xué)、中國科學(xué)院大學(xué)、哈爾濱工業(yè)大學(xué)、和復(fù)旦大學(xué)等知名院校，也絲毫不比國外遜色。

荀教授和同學(xué)們研發(fā)了幫助留學(xué)生寫好漢字的手機APP——“易漢字”，以國家規(guī)定的筆畫筆順為標(biāo)準(zhǔn)，指導(dǎo)學(xué)生寫出標(biāo)準(zhǔn)的漢字。

2015年，張教授的團隊在日本同學(xué)中做測試，參加測試前，日本同學(xué)發(fā)音的準(zhǔn)確率是80%，經(jīng)過一段時間的訓(xùn)練，準(zhǔn)確率達到了90%。

張勁松教授——改進洋腔洋調(diào)

張勁松教授關(guān)注計算機輔助發(fā)音教學(xué)和實用語音學(xué)。經(jīng)過調(diào)研，張教授發(fā)現(xiàn)計算機輔助發(fā)音的第一代產(chǎn)品，運用的是語音匹配技術(shù)，用打分的方式判斷發(fā)音是否標(biāo)準(zhǔn)，但這對學(xué)生改進和提高發(fā)音的幫助實在有限。“學(xué)生只知道自己發(fā)音的水平，卻不知道哪兒出了問題。這樣的反饋，于教學(xué)而言遠遠不夠?！?/p>

怎樣才能讓學(xué)生更好地改進發(fā)音呢？

帶著這一目標(biāo)，張老師把發(fā)音分成“三個環(huán)節(jié)、五個層面”，挨個兒攻克難關(guān)。五個層面指音段、聲調(diào)、語調(diào)、語段和韻律?！叭齻€環(huán)節(jié)”的第一個環(huán)節(jié)是產(chǎn)出環(huán)節(jié)。張老師發(fā)現(xiàn)，將漢語作為第二語言學(xué)習(xí)，不同國家的學(xué)生有著不同程度的“洋腔洋調(diào)”。比如日本人分不清l、r和zhi、chi、shi，送氣也不足。此外，日本人講中文時，也許每個音調(diào)都正確，但他們不明白漢語的韻律、節(jié)奏，連起來說時句子聽起來十分生硬。第二個環(huán)節(jié)是知覺層面，這個層面常見的問題是在教學(xué)過程中，老師講的東西同學(xué)能理解多少，老師不能確定，如“媽”和“馬”，有的同學(xué)聽起來完全一樣。第三個層面是交際層面，這個層面也有一些容易產(chǎn)生的問題，比如，中國人與外國人聊天時，為了讓對話順利進行下去，有時會選擇性忽略外國人說中文時的錯誤，這樣一來，外國人就認為自己的錯誤表達是正確的，這是加深印象或鞏固錯誤的陷阱。

隨后，張教授帶領(lǐng)同學(xué)們有針對性地解決這些問題。在知覺環(huán)節(jié)，針對日本學(xué)生陽平上聲不分的問題，團隊利用物理參數(shù)合成音高區(qū)間，并劃分了十個次級，“對母語是漢語者來說，聽 1～4 級時， 100%的人都表示聽到的是陽平；聽 7～10級時， 100%聽到的都是上聲；而聽 5或6級時，他們也會拿不準(zhǔn)。”團隊把中國人聽1～10次級的情況告訴日本同學(xué)，并針對他們的薄弱環(huán)節(jié)進行針對性的訓(xùn)練。 2015年，張教授的團隊在日本同學(xué)中做測試，參加測試前，日本同學(xué)發(fā)音的準(zhǔn)確率是 80%，經(jīng)過一段時間的訓(xùn)練，準(zhǔn)確率達到了 90%。

鏈接：在計算機輔助發(fā)音教學(xué)領(lǐng)域，美國佐治亞理工學(xué)院、香港中文大學(xué)、新加坡A*STAR（Agency for Science，Technology andReseach）研究所、日本京都大學(xué)等都有相關(guān)研究。由于北語開展得比較早，目前在國內(nèi)外都處于前沿地位，研究成果在領(lǐng)域內(nèi)也極受重視。