馮志偉
(教育部語(yǔ)言文字應(yīng)用研究所,北京 100010)
我的名字叫馮志偉,生于1939年4月15日,云南省昆明市人。今年我虛歲滿80歲了,應(yīng)《文化學(xué)刊》之約,我在這里把這80年的生活做一個(gè)總結(jié),以看到自己的成績(jī)和不足。
我于1945年在昆明東升小學(xué)讀小學(xué),1951年以第一名的成績(jī)考入昆明一中,1957年考入北京大學(xué)地球化學(xué)專業(yè)本科學(xué)習(xí),1959年棄理學(xué)文轉(zhuǎn)入北京大學(xué)中文系漢語(yǔ)專業(yè)本科學(xué)習(xí),1964年考入北京大學(xué)中文系語(yǔ)言學(xué)專業(yè)讀研究生,1967年畢業(yè),由于文化大革命的影響,改行到昆明五中當(dāng)物理教員,1978年恢復(fù)高考后,由于我的數(shù)學(xué)、物理基礎(chǔ)都很好,于是我干脆棄文學(xué)理,考入中國(guó)科學(xué)技術(shù)大學(xué)研究生院信息科學(xué)系機(jī)器翻譯專業(yè)學(xué)習(xí),接著被選派到法國(guó)格勒諾布爾理科醫(yī)科大學(xué)應(yīng)用數(shù)學(xué)研究所(IMAG)自動(dòng)翻譯中心(CETA)師從法國(guó)著名數(shù)學(xué)家、國(guó)際計(jì)算語(yǔ)言學(xué)委員會(huì)主席沃古瓦(B.Vauquois)教授專門(mén)研究數(shù)理語(yǔ)言學(xué)和機(jī)器翻譯問(wèn)題。1981年回國(guó),在中國(guó)科學(xué)技術(shù)信息研究所計(jì)算中心擔(dān)任機(jī)器翻譯研究組組長(zhǎng),由一個(gè)語(yǔ)言學(xué)家變成了一個(gè)軟件工程師。1985年國(guó)家語(yǔ)言文字工作委員會(huì)成立,需要懂得計(jì)算機(jī)的語(yǔ)言學(xué)家,于是我被調(diào)入中國(guó)社會(huì)科學(xué)院語(yǔ)言文字應(yīng)用研究所,擔(dān)任計(jì)算語(yǔ)言學(xué)研究室主任,后來(lái)語(yǔ)言文字應(yīng)用研究所改由國(guó)家教育部領(lǐng)導(dǎo),我又成了教育部下屬單位的工作人員,擔(dān)任研究員和博士生導(dǎo)師。在此期間,我于1986~1988年在德國(guó)夫瑯禾費(fèi)研究院(FhG)新信息技術(shù)與通信系統(tǒng)研究所擔(dān)任客座研究員,1990~1993年在德國(guó)特里爾大學(xué)擔(dān)任客座教授,1996年在德國(guó)康斯坦茨高等技術(shù)學(xué)院國(guó)際術(shù)語(yǔ)學(xué)和應(yīng)用語(yǔ)言學(xué)中心(CiTaL)擔(dān)任技術(shù)顧問(wèn)。我于1998年5月退休。
退休之后我仍然繼續(xù)到國(guó)外從事語(yǔ)言學(xué)和自然語(yǔ)言處理的教學(xué)和研究工作。1999年10月~2000年8月再次在德國(guó)特里爾大學(xué)擔(dān)任客座教授。2000~2001年擔(dān)任桑夏自然語(yǔ)言處理研究院高級(jí)研究員,2003年在英國(guó)伯明翰大學(xué)擔(dān)任高級(jí)研究員,2001~2002年以及2003~2004年前后兩次擔(dān)任韓國(guó)科學(xué)技術(shù)院電子工程和計(jì)算機(jī)科學(xué)系訪問(wèn)教授,用英語(yǔ)講授自然語(yǔ)言處理的博士課程。
除了上述工作之外,我在退休之后的大部分時(shí)間用于旅游,“小舟從此逝,江海度余生”,是我近20年退休生活的寫(xiě)照。這20年來(lái),我的退休生活的大部分時(shí)間都消磨在國(guó)內(nèi)外湖光山色的美景之中,看門(mén)前花開(kāi)花落,觀天空云卷云舒,盡管是虛度年華,但這是我一生中最美好的時(shí)光。
當(dāng)然,虛度年華并不是碌碌無(wú)為,作為學(xué)者,我有自己的社會(huì)責(zé)任,我要回報(bào)社會(huì)。
回顧80年的蹉跎歲月,起伏跌宕,艱辛備嘗,可是我始終笑對(duì)人生的苦難,努力工作,做到了“平生無(wú)悔”?,F(xiàn)將我的主要學(xué)術(shù)成果歸納如下:
1.首次測(cè)定漢字熵值。漢字的“熵”(entropy)是漢字所含信息量大小的數(shù)學(xué)度量。近幾十年來(lái),國(guó)外學(xué)者已陸續(xù)測(cè)出一些拼音文字字母中的熵,而漢字?jǐn)?shù)量太大,各個(gè)漢字的出現(xiàn)概率各不相同,因此,要計(jì)算包含在一個(gè)漢字中的熵是十分復(fù)雜的。在20世紀(jì)70年代初期,我提出了“漢字容量極限定律”,用嚴(yán)格的數(shù)學(xué)方法,證明了當(dāng)統(tǒng)計(jì)樣本中漢字的容量不大時(shí),包含在一個(gè)漢字中的熵會(huì)隨著漢字容量的增加而增加,當(dāng)統(tǒng)計(jì)樣本中的漢字容量達(dá)到12,366字時(shí),包含在一個(gè)漢字中的熵就不再增加了,這意味著,在測(cè)定漢字的熵的時(shí)候,統(tǒng)計(jì)樣本中漢字的容量是有極限的。這個(gè)極限值就是12,366字,超出這個(gè)極限值,測(cè)出的漢字的熵再也不會(huì)增加了。當(dāng)時(shí)我在中學(xué)教書(shū),沒(méi)有條件使用計(jì)算機(jī),我只好使用手工來(lái)計(jì)算,根據(jù)漢字容量極限定律,我在包含12,370個(gè)不同漢字的統(tǒng)計(jì)樣本的范圍內(nèi),初步估測(cè)出了在考慮語(yǔ)言符號(hào)出現(xiàn)概率差異的情況下,包含在一個(gè)漢字中的熵為9.65比特。由此得出結(jié)論:從漢語(yǔ)書(shū)面語(yǔ)總體來(lái)考慮,在全部漢語(yǔ)書(shū)面語(yǔ)中,包含在一個(gè)漢字中的熵是9.65比特。這是國(guó)內(nèi)外首次測(cè)定的漢字熵值。20世紀(jì)80年代,國(guó)內(nèi)外學(xué)者使用計(jì)算機(jī),在大規(guī)模漢字文本的基礎(chǔ)上測(cè)定的漢字熵值,與我使用手工估測(cè)的結(jié)果大致相同。1995年,我又進(jìn)一步首次測(cè)定了在充分考慮漢字上下文的影響時(shí)包含在一個(gè)漢字中的熵,這個(gè)熵叫做“極限熵”。我測(cè)得,漢字的極限熵平均為4.0462比特。我的方法是通過(guò)英漢文本字符容量的對(duì)比來(lái)間接地推算極限熵,避免了復(fù)雜的測(cè)試和計(jì)算。我在研究中還發(fā)現(xiàn),漢語(yǔ)翻譯為英語(yǔ)時(shí)與英語(yǔ)翻譯為漢語(yǔ)時(shí),英漢文本字符容量之比是不一樣的,漢譯英時(shí),英漢文本的字符容量之比為3.8,英譯漢時(shí),英漢文本的字符容量之比為2.7。熵的測(cè)定是數(shù)理語(yǔ)言學(xué)的一項(xiàng)基礎(chǔ)研究,由于漢字字符量多,測(cè)定漢字的熵和極限熵都是非常困難的工作,我的研究得到了國(guó)外的好評(píng)。美國(guó)賓夕法尼亞大學(xué)梅維恒(V. H. Mair)教授曾著文《評(píng)馮志偉教授的兩本書(shū)》(《現(xiàn)代漢字和計(jì)算機(jī)》《中文信息處理與漢語(yǔ)研究》),文中寫(xiě)道:“眾所周知,詞的概念對(duì)于有效地進(jìn)行自然語(yǔ)言處理是十分重要的??上У氖牵瑵h字連書(shū)對(duì)于明確地劃清詞的界限是極為不利的,因而漢字給信息處理專家和計(jì)算機(jī)技術(shù)人員造成了巨大的障礙。在閱讀這兩本書(shū)的時(shí)候,我認(rèn)識(shí)了現(xiàn)代標(biāo)準(zhǔn)漢語(yǔ)(MSM)中的一個(gè)新詞——‘熵’。這個(gè)新詞是用來(lái)翻譯英文‘entropy’或‘information content’的(后者也可以譯為‘信息量’)。馮志偉計(jì)算出:一個(gè)漢字的熵為9.65比特,而與其他語(yǔ)言相比,法語(yǔ)一個(gè)字母的熵為3.98比特,意大利語(yǔ)一個(gè)字母的熵為4.00比特,西班牙語(yǔ)一個(gè)字母的熵為4.01比特,英語(yǔ)一個(gè)字母的熵為4.03比特,德語(yǔ)一個(gè)字母的熵為4.12比特,俄語(yǔ)一個(gè)字母的熵為4.35比特,漢字的熵大得驚人。有些贊揚(yáng)漢字的人宣稱,漢字的熵這樣大,似乎對(duì)于信息處理大有好處。然而,馮志偉卻提出了與此完全不同而又令人信服的觀點(diǎn)。”梅維恒教授又在文章中高興地評(píng)論說(shuō):“如果一個(gè)人能夠用科技術(shù)語(yǔ)和數(shù)學(xué)方程式來(lái)論述他的對(duì)于現(xiàn)代標(biāo)準(zhǔn)漢語(yǔ)的觀點(diǎn),那么,這樣的論述當(dāng)然應(yīng)該是非常雄辯而有說(shuō)服力的。不過(guò),我卻樂(lè)于通過(guò)直覺(jué)和觀察的方法來(lái)研究,根據(jù)我的經(jīng)驗(yàn),我曾經(jīng)斷言,漢字的平均筆畫(huà)數(shù)應(yīng)該是十二畫(huà),二十年來(lái)對(duì)于漢字的這種低效率的性質(zhì)和特性的直觀感覺(jué)和細(xì)心觀察,我的研究現(xiàn)在由馮志偉在他的書(shū)中已經(jīng)證實(shí),簡(jiǎn)化漢字標(biāo)準(zhǔn)集的平均筆畫(huà)數(shù)與我在過(guò)去宣布的結(jié)論幾乎完全相同,而如果考慮到被簡(jiǎn)化的繁體字,這個(gè)平均筆畫(huà)數(shù)只是比十二畫(huà)稍微高一些。這樣的不謀而合真使我高興萬(wàn)分。”由此可見(jiàn),我做的這項(xiàng)極為重要的科學(xué)研究,不僅指明了中文信息處理的正確方向,而且對(duì)漢字的規(guī)范化也很有重要的指導(dǎo)意義。
2.首次把依存語(yǔ)法和配價(jià)語(yǔ)法應(yīng)用于機(jī)器翻譯中。我在法國(guó)留學(xué)期間,了解到法國(guó)語(yǔ)言學(xué)家泰尼埃(L. Tesnière)的依存語(yǔ)法和語(yǔ)法“價(jià)”的概念,開(kāi)始用這種語(yǔ)法來(lái)研究漢外機(jī)器翻譯問(wèn)題,首次把“價(jià)”(valence)的概念引入機(jī)器翻譯研究中,我把動(dòng)詞和形容詞的行動(dòng)元分為主體者、對(duì)象者、受益者三個(gè),把狀態(tài)元分為時(shí)刻、時(shí)段、時(shí)間起點(diǎn)、時(shí)間終點(diǎn)、空間點(diǎn)、空間段、空間起點(diǎn)、空間終點(diǎn)、初態(tài)、末態(tài)、原因、結(jié)果、目的、工具、范圍、條件、作用、內(nèi)容、論題、比較、伴隨、程度、判斷、陳述、附加、修飾等27個(gè),以此來(lái)建立多語(yǔ)言的自動(dòng)句法分析系統(tǒng),對(duì)于一些表示觀念、感情的名詞,也分別給出了它們的價(jià)。我還把依存語(yǔ)法和短語(yǔ)結(jié)構(gòu)語(yǔ)法結(jié)合起來(lái),在表示結(jié)構(gòu)關(guān)系的多叉多標(biāo)記樹(shù)形圖中,明確地指出中心語(yǔ)的位置,并用核心(GOV)、樞軸(PIVOT)等結(jié)點(diǎn)來(lái)表示中心詞。這是我國(guó)學(xué)者最早利用依存語(yǔ)法和“價(jià)”的思想來(lái)進(jìn)行自然語(yǔ)言計(jì)算機(jī)處理的嘗試。
我還根據(jù)機(jī)器翻譯的實(shí)踐,提出了表示依存語(yǔ)法的依存樹(shù)(dependence tree)應(yīng)該滿足如下五個(gè)條件:(1)單純結(jié)點(diǎn)條件:依存樹(shù)中,只有終極結(jié)點(diǎn),沒(méi)有非終極結(jié)點(diǎn),依存樹(shù)中的所有結(jié)點(diǎn)所代表的都是句子中實(shí)際出現(xiàn)的具體的單詞;(2)單一父結(jié)點(diǎn)條件:在依存樹(shù)中,除了根結(jié)點(diǎn)沒(méi)有父結(jié)點(diǎn)之外,所有的結(jié)點(diǎn)都只有一個(gè)父結(jié)點(diǎn);(3)獨(dú)根結(jié)點(diǎn)條件:一個(gè)依存樹(shù)只能有一個(gè)根結(jié)點(diǎn),這個(gè)根結(jié)點(diǎn),就是依存樹(shù)中唯一沒(méi)有父結(jié)點(diǎn)的結(jié)點(diǎn),這個(gè)根結(jié)點(diǎn)支配著其他的所有的結(jié)點(diǎn);(4)非交條件:依存樹(shù)中的樹(shù)枝不能彼此相交;(5)互斥條件:依存樹(shù)中的結(jié)點(diǎn)之間,從上到下的支配關(guān)系和從左到右的前于關(guān)系之間是互相排斥的,如果兩個(gè)結(jié)點(diǎn)之間存在著支配關(guān)系,它們之間就不能存在前于關(guān)系。我提出的這五個(gè)條件比1970年美國(guó)計(jì)算語(yǔ)言學(xué)家羅賓孫(J. Robinson)提出的依存語(yǔ)法的四條公理更加直觀,更加便于在機(jī)器翻譯中使用。
我還研究了短語(yǔ)結(jié)構(gòu)樹(shù)(phrase tree,簡(jiǎn)稱P-樹(shù))和依存樹(shù)(dependency tree,簡(jiǎn)稱D-樹(shù))之間的等價(jià)關(guān)系,在計(jì)算機(jī)上進(jìn)行P-樹(shù)到D-樹(shù)的轉(zhuǎn)換。我在20世紀(jì)90年代末期帶領(lǐng)一個(gè)精干的研究小組,研制出英日機(jī)器翻譯系統(tǒng)E-to-J,采用短語(yǔ)結(jié)構(gòu)語(yǔ)法進(jìn)行英語(yǔ)自動(dòng)分析,產(chǎn)生P-樹(shù),然后把P-樹(shù)轉(zhuǎn)換為等價(jià)D-樹(shù),然后再根據(jù)依存語(yǔ)法,從D-樹(shù)生成日語(yǔ),減少了系統(tǒng)的空間復(fù)雜度和時(shí)間復(fù)雜度,使整個(gè)系統(tǒng)達(dá)到了實(shí)用的水平。這個(gè)系統(tǒng)已經(jīng)在1998年11月正式由日本NEC公司在日本市場(chǎng)上推出。
3.研究生成語(yǔ)法的公理化方法。我對(duì)于美國(guó)語(yǔ)言學(xué)家喬姆斯基(N. Chomsky)的形式文法的數(shù)學(xué)原理有濃厚的興趣,從公理化方法的角度來(lái)研究喬姆斯基的形式文法,我把喬姆斯基的形式文法同數(shù)學(xué)中的半圖厄系統(tǒng)(semi-Thue system)相比較,指出了喬姆斯基的形式文法,不過(guò)是數(shù)學(xué)中的公理系統(tǒng)理論在語(yǔ)言分析中的應(yīng)用而已,語(yǔ)言就是由文法這一公理系統(tǒng)從初始符號(hào)出發(fā)推導(dǎo)出的無(wú)限句子的集合;文法的規(guī)則是有限的,文法中的終極符號(hào)和非終極符號(hào)的數(shù)目也是有限的,可是,由于語(yǔ)言符號(hào)具有遞歸性,文法這一公理系統(tǒng)就能夠根據(jù)有限的符號(hào),通過(guò)有限的重寫(xiě)規(guī)則,遞歸地推導(dǎo)出無(wú)限的句子來(lái)。我的這項(xiàng)研究從數(shù)學(xué)的基礎(chǔ)理論方面揭示了形式文法的實(shí)質(zhì)。
4.提出多叉多標(biāo)記樹(shù)模型,研制了世界上第一個(gè)把漢語(yǔ)自動(dòng)地翻譯成多種外語(yǔ)的多語(yǔ)言機(jī)器翻譯系統(tǒng)。喬姆斯基根據(jù)形式語(yǔ)法的原理,提出了用短語(yǔ)結(jié)構(gòu)語(yǔ)法來(lái)作為自然語(yǔ)言形式描述的一種手段,這種語(yǔ)法在自然語(yǔ)言處理中得到了廣泛的使用。國(guó)內(nèi)外的許多機(jī)器翻譯系統(tǒng)都采用喬姆斯基的短語(yǔ)結(jié)構(gòu)語(yǔ)法作為系統(tǒng)設(shè)計(jì)的基本理論依據(jù),根據(jù)喬姆斯基的短語(yǔ)結(jié)構(gòu)語(yǔ)法,表示句子結(jié)構(gòu)的樹(shù)形圖中的每一個(gè)結(jié)點(diǎn)只有一個(gè)相應(yīng)的標(biāo)記,結(jié)點(diǎn)與標(biāo)記之間的這種關(guān)系是一種單值標(biāo)記函數(shù)的關(guān)系。這種單值標(biāo)記函數(shù)表示的語(yǔ)言特征是十分有限的,因而在機(jī)器翻譯的語(yǔ)言分析和生成中,會(huì)產(chǎn)生大量的歧義結(jié)構(gòu),形成大量的不合語(yǔ)法的句子,它的分析能力有限,生成能力過(guò)強(qiáng),這是短語(yǔ)結(jié)構(gòu)語(yǔ)法的一個(gè)致命的缺點(diǎn)。我在法國(guó)研制開(kāi)發(fā)機(jī)器翻譯系統(tǒng)的實(shí)踐中,就敏銳地認(rèn)識(shí)到短語(yǔ)結(jié)構(gòu)語(yǔ)法的這種致命缺點(diǎn),經(jīng)過(guò)在計(jì)算機(jī)上編寫(xiě)程序進(jìn)行潛心鉆研和反復(fù)試驗(yàn),我提出了多叉多標(biāo)記樹(shù)模型(Multiple-branched and Multiple-labeled Tree Model,簡(jiǎn)稱MMT模型),在這個(gè)模型中,我采用多值標(biāo)記函數(shù)來(lái)代替短語(yǔ)結(jié)構(gòu)語(yǔ)法的單值標(biāo)記函數(shù),使得樹(shù)形圖中的一個(gè)結(jié)點(diǎn),不再僅僅對(duì)應(yīng)于一個(gè)標(biāo)記,而是對(duì)應(yīng)于若干個(gè)標(biāo)記,這樣便大大地提高了樹(shù)形圖的標(biāo)記能力,使得樹(shù)形圖的各個(gè)結(jié)點(diǎn)上,都能記錄足夠多的語(yǔ)法語(yǔ)義信息,把句子中所蘊(yùn)含的豐富多彩的信息充分地表示出來(lái)。這種多值標(biāo)記函數(shù)的理論,從根本上克服了喬姆斯基的短語(yǔ)結(jié)構(gòu)語(yǔ)法在描述自然語(yǔ)言時(shí)的嚴(yán)重缺點(diǎn),提高了其有限的分析能力,限制了其過(guò)強(qiáng)的生成能力。我當(dāng)時(shí)提出的MMT模型是對(duì)喬姆斯基短語(yǔ)結(jié)構(gòu)語(yǔ)法的一個(gè)帶有實(shí)質(zhì)意義的重要改進(jìn),提出后立即引起了國(guó)際語(yǔ)言學(xué)界的重視。在1982年于布拉格召開(kāi)的國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)議(COLING'82)上,在1983年于北京召開(kāi)的國(guó)際中文信息處理會(huì)議(ICCIP'83)上,在1984年于香港召開(kāi)的東南亞電腦會(huì)議(SEARCC'84)上,都討論了MMT模型。就在我提出MMT模型的同時(shí),國(guó)外一些計(jì)算語(yǔ)言學(xué)家也看到了短語(yǔ)結(jié)構(gòu)語(yǔ)法的局限性,分別提出了各種手段來(lái)改進(jìn)它。例如,1983年卡普蘭(R. M. Kaplan)和布列斯南(J. Bresnan)提出的“詞匯功能語(yǔ)法”、1983年馬丁·凱依(Martin Kay)提出的“功能合一語(yǔ)法”、1985年蓋茲達(dá)(G. Gazdar)等提出的“廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法”、1985 年珀拉德(C. Pollard)提出的“中心語(yǔ)驅(qū)動(dòng)的短語(yǔ)結(jié)構(gòu)語(yǔ)法”等,都采用了“復(fù)雜特征”來(lái)描述自然語(yǔ)言,他們所說(shuō)的所謂“復(fù)雜特征”實(shí)際上也就是我提出的“多值標(biāo)記”,名異而實(shí)同。所以,我提出的MMT模型是世界計(jì)算語(yǔ)言學(xué)者對(duì)喬姆斯基的短語(yǔ)結(jié)構(gòu)語(yǔ)法進(jìn)行改進(jìn)的一個(gè)重要方面和不可分割的組成部分,MMT模型是20世紀(jì)80年代較早提出的一個(gè)旨在改進(jìn)短語(yǔ)結(jié)構(gòu)語(yǔ)法的形式化模型,當(dāng)時(shí)我國(guó)學(xué)者在這方面的研究在國(guó)際上是處于前沿地位的。1984年荷蘭阿姆斯特丹北荷蘭出版社出版的多卷專著《計(jì)算機(jī)科學(xué)基礎(chǔ)研究》第9卷《自然語(yǔ)言處理的計(jì)算機(jī)模型》一書(shū)(由意大利米蘭大學(xué)主編)中,曾詳細(xì)介紹了我的MMT模型,并評(píng)論說(shuō):“馮氏關(guān)于獨(dú)立分析-獨(dú)立生成的主張,關(guān)于盡可能地從源語(yǔ)言分析中獲取多方面信息的主張,是當(dāng)前自然語(yǔ)言處理研究中的一個(gè)重要進(jìn)展”。
我還結(jié)合漢語(yǔ)的特點(diǎn)需要,研究了采用MMT模型來(lái)進(jìn)行漢語(yǔ)自動(dòng)分析的各種問(wèn)題。我指出,在漢語(yǔ)的自動(dòng)分析中,采用“多值標(biāo)記”的必要性更加明顯。這是因?yàn)闈h語(yǔ)的句子不能只用詞類或詞組類型等簡(jiǎn)單特征來(lái)描述,漢語(yǔ)句子各個(gè)成分的詞類、詞組類型、句法功能、語(yǔ)義關(guān)系、邏輯關(guān)系之間,存在著極為錯(cuò)綜復(fù)雜的關(guān)系,如果只采用簡(jiǎn)單特征,就無(wú)法區(qū)分各種歧義現(xiàn)象,達(dá)不到漢語(yǔ)自動(dòng)處理的目的。具體地說(shuō),這是由于:(1)漢語(yǔ)句子中的詞組類型(或詞類)與句法功能之間不存在簡(jiǎn)單的一一對(duì)應(yīng)關(guān)系;(2)漢語(yǔ)句子中詞組類型(或詞類)和句法功能相同的成分,它們與句子中其他成分的語(yǔ)義關(guān)系還可能不同,句法功能和語(yǔ)義關(guān)系之間也不是簡(jiǎn)單地一一對(duì)應(yīng)的;(3)漢語(yǔ)中單詞所固有的語(yǔ)法特征和語(yǔ)義特征,對(duì)于判別詞組結(jié)構(gòu)的性質(zhì),往往有很大的參考價(jià)值,除了詞組類型這樣的簡(jiǎn)單特征之外,再加上單詞固有的語(yǔ)法特征和語(yǔ)義特征,采用多值標(biāo)記來(lái)描述,就可以判斷詞組結(jié)構(gòu)的性質(zhì)。
我還提出了用于多值標(biāo)記的漢語(yǔ)“特征/值”系統(tǒng),特征可分為靜態(tài)特征和動(dòng)態(tài)特征兩大類,建立了漢語(yǔ)自動(dòng)分析的雙態(tài)系統(tǒng)(bi-state system)。其中,靜態(tài)特征有:詞類特征、單詞的固有語(yǔ)義特征和它的值、詞的固有語(yǔ)法特征和它的值;動(dòng)態(tài)特征有:詞組類型特征和它的值、句法功能特征、語(yǔ)義關(guān)系特征、邏輯關(guān)系特征。在自動(dòng)句法語(yǔ)義分析中,靜態(tài)特征是計(jì)算機(jī)進(jìn)行運(yùn)算的基礎(chǔ),計(jì)算機(jī)依賴于這些預(yù)先在詞典中給出的靜態(tài)特征,通過(guò)有窮步運(yùn)算,逐漸計(jì)算出各種動(dòng)態(tài)特征,從而逐步弄清楚漢語(yǔ)句子中各個(gè)語(yǔ)言成分之間的關(guān)系,達(dá)到句法語(yǔ)義分析的目的。
我使用MMT模型,在格勒諾布爾理科醫(yī)科大學(xué)應(yīng)用數(shù)學(xué)研究所的大型計(jì)算機(jī)上,完成了漢-法/英/日/俄/德多語(yǔ)言機(jī)器翻譯試驗(yàn),建立了FAJRA系統(tǒng)(FAJRA分別是法文的法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)的首字母簡(jiǎn)稱)。
當(dāng)時(shí)MMT模型采用的方法,是基于語(yǔ)言規(guī)則的理性主義方法。我學(xué)會(huì)了計(jì)算機(jī)編程技術(shù),在計(jì)算機(jī)上編寫(xiě)了漢語(yǔ)分析規(guī)則5000條左右,法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)的轉(zhuǎn)換規(guī)則和生成規(guī)則各3000條左右,一共20,000多條規(guī)則。此外,我還編制了若干部機(jī)器可讀的、代碼化的機(jī)器翻譯詞典。這個(gè)機(jī)器翻譯系統(tǒng)涉及到多種語(yǔ)言,問(wèn)題極為復(fù)雜,在研究的時(shí)候,似乎是從零數(shù)到無(wú)限大,越是往前研究,問(wèn)題就越來(lái)越多,就越覺(jué)得前面充滿了險(xiǎn)阻,困難重重,有看不到盡頭的感覺(jué)。由于問(wèn)題復(fù)雜,工作量極大,我每天工作時(shí)間都超過(guò)10小時(shí),扎扎實(shí)實(shí)苦干了三年,于1981年11月在IBM 4341大型計(jì)算機(jī)上輸出了法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)等五種語(yǔ)言的機(jī)器翻譯譯文。這是世界上第一個(gè)把漢語(yǔ)自動(dòng)地翻譯成多種外語(yǔ)的機(jī)器翻譯系統(tǒng)。
在1982年回國(guó)之后,我又繼續(xù)使用MMT模型,于1985年在北京市遙感技術(shù)研究所的大型計(jì)算機(jī)上,進(jìn)行了德-漢機(jī)器翻譯試驗(yàn)和法-漢機(jī)器翻譯試驗(yàn),建立了GCAT德-漢機(jī)器翻譯系統(tǒng)和FCAT法-漢機(jī)器翻譯系統(tǒng)。
5.首次在國(guó)內(nèi)開(kāi)設(shè)數(shù)理語(yǔ)言學(xué)課程。早在1965年,我就開(kāi)始關(guān)注數(shù)學(xué)方法在語(yǔ)言學(xué)中的應(yīng)用問(wèn)題,在中國(guó)社會(huì)科學(xué)院出版的《語(yǔ)言學(xué)資料》雜志1965年第2期上,介紹了計(jì)量語(yǔ)言學(xué)(quantitative linguistics)中著名的??怂构健_@是50多年前中國(guó)學(xué)者發(fā)表的最早的關(guān)于計(jì)量語(yǔ)言學(xué)研究的文章,開(kāi)我國(guó)計(jì)量語(yǔ)言學(xué)研究的先河。當(dāng)時(shí)我才26歲??墒遣痪镁桶l(fā)生了文化大革命,我的計(jì)量語(yǔ)言學(xué)研究之夢(mèng)就像希望的肥皂泡一樣,很快就破滅了,我只好離開(kāi)了北京大學(xué),改行到邊疆教中學(xué)。
1982年,我應(yīng)北京大學(xué)的邀請(qǐng),又重新回到北京大學(xué),在中文系漢語(yǔ)專業(yè)開(kāi)設(shè)了“語(yǔ)言學(xué)中的數(shù)學(xué)問(wèn)題”(即“數(shù)理語(yǔ)言學(xué)”[mathematic linguistics])的選修課(計(jì)量語(yǔ)言學(xué)是數(shù)理語(yǔ)言學(xué)的一個(gè)分支)。這是國(guó)內(nèi)首次在高等學(xué)校全面地、系統(tǒng)地講述數(shù)理語(yǔ)言學(xué)的課程,受到學(xué)生們的歡迎。北京大學(xué)校長(zhǎng)、著名數(shù)學(xué)家丁石孫教授在他的專著《數(shù)學(xué)與教育》一書(shū)中,對(duì)我開(kāi)設(shè)的這門(mén)課程作了如下的評(píng)價(jià):“1982年,北京大學(xué)中文系開(kāi)設(shè)了《語(yǔ)言學(xué)中的數(shù)學(xué)問(wèn)題》,這是給漢語(yǔ)專業(yè)學(xué)生開(kāi)的選修課程,許多同學(xué)對(duì)這門(mén)學(xué)科產(chǎn)生了很大的興趣,經(jīng)過(guò)一個(gè)學(xué)期的學(xué)習(xí),同學(xué)們初步認(rèn)識(shí)了現(xiàn)代數(shù)學(xué)的發(fā)展給語(yǔ)言學(xué)注入了生機(jī),覺(jué)得獲益匪淺,對(duì)語(yǔ)言學(xué)這門(mén)古老的學(xué)科分支的發(fā)展充滿了信心,而且,這一舉動(dòng)沖擊了相當(dāng)多的人的舊概念,使閉塞的中國(guó)學(xué)術(shù)界認(rèn)識(shí)到,即使在人文科學(xué)教育中,數(shù)學(xué)也在逐漸起作用?!痹诙∈瘜O校長(zhǎng)的支持下,我于1991年在湖南教育出版社出版了《數(shù)學(xué)與語(yǔ)言》一書(shū),系統(tǒng)地用數(shù)學(xué)方法來(lái)研究語(yǔ)言學(xué)問(wèn)題。
6.出版了國(guó)內(nèi)第一本《數(shù)理語(yǔ)言學(xué)》專著。我于1985年6月在上海知識(shí)出版社出版了《數(shù)理語(yǔ)言學(xué)》,這是國(guó)內(nèi)第一本數(shù)理語(yǔ)言學(xué)專著。直到1997年國(guó)內(nèi)才出版了第二本數(shù)理語(yǔ)言學(xué)的英文本專著,比我寫(xiě)的第一本專著晚12年。2012年,商務(wù)印書(shū)館出版了《數(shù)理語(yǔ)言學(xué)》的增訂本,全書(shū)分“離散數(shù)學(xué)與語(yǔ)言”“代數(shù)語(yǔ)言學(xué)”“統(tǒng)計(jì)語(yǔ)言學(xué)”“應(yīng)用數(shù)理語(yǔ)言學(xué)”四部分,全面地介紹了數(shù)理語(yǔ)言學(xué)的原理和方法,對(duì)于我國(guó)數(shù)理語(yǔ)言學(xué)的發(fā)展,起了奠基性的作用。
7.從事術(shù)語(yǔ)數(shù)據(jù)庫(kù)的開(kāi)發(fā),提出了“術(shù)語(yǔ)形成的經(jīng)濟(jì)律”。術(shù)語(yǔ)是科學(xué)知識(shí)在自然語(yǔ)言中的結(jié)晶,計(jì)算機(jī)自然語(yǔ)言處理離不開(kāi)術(shù)語(yǔ)研究。我一直關(guān)注術(shù)語(yǔ)研究,多年從事術(shù)語(yǔ)數(shù)據(jù)庫(kù)的開(kāi)發(fā)。在術(shù)語(yǔ)數(shù)據(jù)庫(kù)研制中,我證明了,在一個(gè)術(shù)語(yǔ)系統(tǒng)中,術(shù)語(yǔ)系統(tǒng)的經(jīng)濟(jì)指數(shù)與術(shù)語(yǔ)平均長(zhǎng)度的乘積恰恰等于單詞的術(shù)語(yǔ)構(gòu)成頻度之值,并提出了“FEL公式”來(lái)描述這個(gè)定律。根據(jù)FEL公式可知,在一個(gè)術(shù)語(yǔ)系統(tǒng)中,提高術(shù)語(yǔ)系統(tǒng)經(jīng)濟(jì)指數(shù)的最好方法是在盡量不過(guò)大地改變術(shù)語(yǔ)平均長(zhǎng)度的前提下,增加單詞的術(shù)語(yǔ)構(gòu)成頻度。這樣,在術(shù)語(yǔ)形成的過(guò)程中,將會(huì)產(chǎn)生大量的詞組型術(shù)語(yǔ),使得詞組型術(shù)語(yǔ)的數(shù)量大大地超過(guò)單詞型術(shù)語(yǔ)的數(shù)量,而成為術(shù)語(yǔ)系統(tǒng)中的大多數(shù)。FEL公式從數(shù)理語(yǔ)言學(xué)的角度,正確地解釋了為什么術(shù)語(yǔ)系統(tǒng)中詞組型術(shù)語(yǔ)的數(shù)目總是遠(yuǎn)遠(yuǎn)大于單詞型術(shù)語(yǔ)的數(shù)目的數(shù)學(xué)機(jī)理,它反映了語(yǔ)言中的省力原則和經(jīng)濟(jì)原則,這種原則叫做“術(shù)語(yǔ)形成的經(jīng)濟(jì)律”。這是我國(guó)學(xué)者對(duì)于數(shù)理語(yǔ)言學(xué)中齊夫定律(Zipf's law)的新發(fā)展,也是我國(guó)學(xué)者對(duì)于現(xiàn)代術(shù)語(yǔ)學(xué)理論的貢獻(xiàn)。
8.提出了“生詞增幅遞減律”。我通過(guò)仔細(xì)的觀察研究后指出,在一個(gè)術(shù)語(yǔ)系統(tǒng)中,每個(gè)單詞的絕對(duì)頻度是不同的,經(jīng)常使用的單詞是高頻詞,不經(jīng)常使用的單詞是低頻詞,隨著術(shù)語(yǔ)條目的增加,高頻詞的數(shù)目也相應(yīng)地增加,而生詞出現(xiàn)的可能性越來(lái)越小,這時(shí),盡管術(shù)語(yǔ)的條數(shù)還繼續(xù)增加,生詞總數(shù)增加的速率卻越來(lái)越慢,而高頻詞則反復(fù)地出現(xiàn),生詞的增幅有遞減的趨勢(shì)。這個(gè)“生詞增幅遞減律”不僅適用于術(shù)語(yǔ)系統(tǒng),也適用于閱讀書(shū)面文本的過(guò)程。人們?cè)陂喿x一種用自己不熟悉的語(yǔ)言寫(xiě)的文本時(shí),開(kāi)始總有大量不認(rèn)識(shí)的生詞,隨著閱讀數(shù)量的增加,生詞增加的幅度會(huì)逐漸減少,如果閱讀者能夠掌握好已經(jīng)閱讀過(guò)的生詞,閱讀將會(huì)變得越來(lái)越容易。在生詞數(shù)W與文本容量T之間存在著如下的函數(shù)關(guān)系:W=Φ(T),隨著文本容量T的增大,生詞數(shù)目W的增幅逐漸減少,反映這種函數(shù)關(guān)系的曲線也就越來(lái)越平滑,整個(gè)曲線在直角坐標(biāo)系內(nèi)呈現(xiàn)上凸的拋物線形狀。這條函數(shù)曲線也同時(shí)反映了閱讀書(shū)面語(yǔ)時(shí)生詞增加的過(guò)程,它實(shí)際上就是人們閱讀過(guò)程中生詞變化規(guī)律的數(shù)學(xué)描述,可以稱為“閱讀曲線”。
9.提出了“潛在歧義論”(Potential Ambiguity Theory,簡(jiǎn)稱PA論)。我在術(shù)語(yǔ)研究中還發(fā)現(xiàn),在中文術(shù)語(yǔ)的歧義格式中,包含著歧義性的一面,也包含著非歧義性的一面,因而這樣的歧義格式是潛在的,它只是具有歧義的可能性,而并非現(xiàn)實(shí)的歧義。潛在的歧義能否轉(zhuǎn)化成現(xiàn)實(shí)的歧義,要通過(guò)潛在歧義結(jié)構(gòu)的“實(shí)例化”(instantiation)過(guò)程來(lái)實(shí)現(xiàn),“實(shí)例化”之后,有的歧義結(jié)構(gòu)會(huì)變成真正的歧義結(jié)構(gòu),有的歧義結(jié)構(gòu)則不然。因此我提出了“潛在歧義論(PA論)”。這一理論是對(duì)傳統(tǒng)語(yǔ)言學(xué)中“類型-實(shí)例”(type-token)觀念的沖擊,深化了對(duì)于歧義格式本質(zhì)的認(rèn)識(shí)。后來(lái),我又把PA論從術(shù)語(yǔ)領(lǐng)域推廣到日常語(yǔ)言的領(lǐng)域,進(jìn)行自然語(yǔ)言處理中的歧義消解策略的研究,對(duì)于現(xiàn)代漢語(yǔ)中的潛在歧義結(jié)構(gòu)類型進(jìn)行了深入而系統(tǒng)的研究。
10.提出了漢字結(jié)構(gòu)的括號(hào)式表示法,用德文、英文、希臘文向國(guó)外介紹漢字的基礎(chǔ)知識(shí)。我把一個(gè)個(gè)的漢字按層次分解為樹(shù)形圖結(jié)構(gòu),再用括號(hào)把漢字的結(jié)構(gòu)表示出來(lái),這種漢字結(jié)構(gòu)的括號(hào)式表示法便于理解和記憶,在對(duì)外漢語(yǔ)教學(xué)中受到外國(guó)學(xué)生的歡迎,我根據(jù)這樣的方法,用德文寫(xiě)成了《漢字的歷史和現(xiàn)狀》一書(shū)在特里爾科學(xué)出版社出版。德國(guó)特里爾大學(xué)韋荷雅(Dorothea Wippermann)博士1996年在《評(píng)馮志偉新著〈漢字的歷史和現(xiàn)狀〉(德文版)》一文中指出,馮志偉“在漢字研究中引入了現(xiàn)代的成分分析法。對(duì)于這種方法,直到現(xiàn)在為止,許多在專家圈子之外的普通人還很不熟悉,所知極少。這種分析法認(rèn)為,漢字是由不同的圖形成分組合而成的一個(gè)封閉的集合,其中的每一個(gè)較大的成分都可以進(jìn)一步被拆分為較小的成分,一直被拆分到單獨(dú)的筆畫(huà)為止。漢字結(jié)構(gòu)的這種多層次的多分叉的構(gòu)造圖形可以用樹(shù)形圖來(lái)表示,這樣一來(lái),便為揭示漢字總體結(jié)構(gòu)的研究提供了一種系統(tǒng)性的理論和方法。這種在中文信息處理中行之有效的成分分析法,對(duì)于漢字的研究和學(xué)習(xí),也提供了一種新的記憶手段?!蔽矣玫挛膶?xiě)成這本《漢字的歷史和現(xiàn)狀》在國(guó)外受到歡迎,在希臘被雅典大學(xué)的克里斯丁娜(A. Christina)教授翻譯成希臘文出版。2017年我又用英文寫(xiě)成了《漢字》一書(shū)在外語(yǔ)教學(xué)與研究出版社出版,同樣受到了國(guó)內(nèi)外漢語(yǔ)學(xué)習(xí)者的好評(píng)。這些書(shū)籍的出版,對(duì)于中華傳統(tǒng)文化走出國(guó)門(mén),擴(kuò)大中華傳統(tǒng)文化在世界上的影響,起了很好的推動(dòng)作用。
11.研究現(xiàn)代語(yǔ)言學(xué)流派,寫(xiě)出了中國(guó)第一本現(xiàn)代語(yǔ)言學(xué)流派的專著。我早年師從北京大學(xué)岑麒祥教授學(xué)習(xí)理論語(yǔ)言學(xué),為了閱讀外文原著,我學(xué)會(huì)了英語(yǔ)、法語(yǔ)、德語(yǔ)、俄語(yǔ)、日語(yǔ)等外語(yǔ),曾經(jīng)認(rèn)真地閱讀過(guò)西方語(yǔ)言學(xué)的主要著作的原文本,因此,我在1984年寫(xiě)成了《現(xiàn)代語(yǔ)言學(xué)流派》一書(shū),著重介紹了索緒爾的語(yǔ)言學(xué)理論、布拉格學(xué)派、哥本哈根學(xué)派、美國(guó)描寫(xiě)語(yǔ)言學(xué)、法國(guó)功能語(yǔ)言學(xué)、英國(guó)倫敦學(xué)派、轉(zhuǎn)換生成語(yǔ)法、格語(yǔ)法、蒙塔鳩語(yǔ)法、心理語(yǔ)言學(xué)、社會(huì)語(yǔ)言學(xué)、數(shù)理語(yǔ)言學(xué)等現(xiàn)代語(yǔ)言學(xué)中的主要流派和新興學(xué)科。此書(shū)于1998年由商務(wù)印書(shū)館出修訂本,增加了葉斯柏森的語(yǔ)言理論、法蘭西學(xué)派、配價(jià)語(yǔ)法等內(nèi)容,2013年由商務(wù)印書(shū)館出增訂本,增加了莫斯科語(yǔ)義學(xué)派、語(yǔ)料庫(kù)語(yǔ)言學(xué)、語(yǔ)言類型學(xué)、認(rèn)知語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)等內(nèi)容。此書(shū)對(duì)于現(xiàn)代語(yǔ)言學(xué)知識(shí)的普及和傳播起了很好的作用,被多所大學(xué)列為語(yǔ)言學(xué)博士生入學(xué)考試的必讀書(shū)。
12.建立漢語(yǔ)文本自動(dòng)切分的形式詞理論。漢語(yǔ)書(shū)面文本的自動(dòng)切分研究中,切分單位的確定一直是懸而未決的難點(diǎn)。我系統(tǒng)地研究這個(gè)難題,建立了漢語(yǔ)文本自動(dòng)切分的形式詞理論,并提出了操作性很強(qiáng)的鑒別方法。形式詞理論深化了現(xiàn)代漢語(yǔ)書(shū)面文本的自動(dòng)切分基礎(chǔ)理論的研究。
13.出版了國(guó)內(nèi)第一本《現(xiàn)代術(shù)語(yǔ)學(xué)引論》專著。我于1997年在語(yǔ)文出版社出版了《現(xiàn)代術(shù)語(yǔ)學(xué)引論》,這是國(guó)內(nèi)第一本術(shù)語(yǔ)學(xué)的專著。2011年,商務(wù)印書(shū)館出版了《現(xiàn)代術(shù)語(yǔ)學(xué)引論》的增訂本。此書(shū)共16章,分別講述術(shù)語(yǔ)學(xué)的歷史和現(xiàn)狀、術(shù)語(yǔ)、概念系統(tǒng)和知識(shí)本體、定義、術(shù)語(yǔ)編纂、術(shù)語(yǔ)標(biāo)準(zhǔn)化、術(shù)語(yǔ)命名原則、術(shù)語(yǔ)數(shù)據(jù)的存儲(chǔ)與交換、中國(guó)的術(shù)語(yǔ)工作、中文單詞型術(shù)語(yǔ)、術(shù)語(yǔ)形成經(jīng)濟(jì)律、潛在歧義論、中文名詞詞組術(shù)語(yǔ)的結(jié)構(gòu)、中文動(dòng)詞詞組術(shù)語(yǔ)和形容詞詞組術(shù)語(yǔ)的結(jié)構(gòu)、中文名動(dòng)同形詞詞組術(shù)語(yǔ)的結(jié)構(gòu)、計(jì)算術(shù)語(yǔ)學(xué)等問(wèn)題。此書(shū)把傳統(tǒng)術(shù)語(yǔ)學(xué)中基于概念的術(shù)語(yǔ)觀推進(jìn)到了基于知識(shí)本體的術(shù)語(yǔ)觀,把傳統(tǒng)術(shù)語(yǔ)學(xué)中規(guī)范性的術(shù)語(yǔ)觀推進(jìn)到了描寫(xiě)性的術(shù)語(yǔ)觀,把傳統(tǒng)術(shù)語(yǔ)學(xué)中共時(shí)性的靜態(tài)術(shù)語(yǔ)觀推進(jìn)到了歷時(shí)性的動(dòng)態(tài)術(shù)語(yǔ)觀,為我國(guó)的現(xiàn)代術(shù)語(yǔ)學(xué)構(gòu)建了一個(gè)完整的理論框架。
14.建立了漢語(yǔ)的本體知識(shí)體系ONTOL-MT。我在研究日漢機(jī)器翻譯時(shí),根據(jù)亞里士多德的范疇分類,建立了一個(gè)體現(xiàn)了人文精神的本體知識(shí)體系ONTOL-MT。在ONTOL-MT知識(shí)本體系統(tǒng)中的概念,實(shí)際上也就是單詞本身所固有的語(yǔ)義特征,它們是獨(dú)立于單詞的上下文而存在的,因此,可以用這些概念來(lái)表示機(jī)器翻譯詞典中單詞的固有語(yǔ)義特征。在日漢機(jī)器翻譯研制中,我利用單詞固有的這些語(yǔ)義特征在機(jī)器翻譯系統(tǒng)中進(jìn)行日語(yǔ)分析中同形詞的判別,效果良好。魯東大學(xué)亢世勇教授主編《新編同義詞詞林》,請(qǐng)我擔(dān)任顧問(wèn),他們根據(jù)我提出的本體知識(shí)體系ONTOL-MT,把《新編同義詞詞林》中的單詞分為15個(gè)大類、203個(gè)中類、1477個(gè)小類,對(duì)于原來(lái)的《同義詞詞林》的分類進(jìn)行細(xì)化,《新編同義詞詞林》于2015年在上海辭書(shū)出版社出版。
15.出版了大部頭專著《自然語(yǔ)言計(jì)算機(jī)形式分析的理論和方法》。我于2010年在中國(guó)科學(xué)技術(shù)大學(xué)出版社出版了《自然語(yǔ)言處理的形式模型》,收入中國(guó)科學(xué)技術(shù)大學(xué)校友文庫(kù),受到讀者的歡迎。后來(lái)我在此書(shū)的基礎(chǔ)上進(jìn)一步重寫(xiě),根據(jù)學(xué)科的最新發(fā)展增加了大量的新內(nèi)容,完成了篇幅為110萬(wàn)字的《自然語(yǔ)言計(jì)算機(jī)形式分析的理論和方法》一書(shū),于2017年在中國(guó)科學(xué)技術(shù)大學(xué)出版社出版,收入當(dāng)代科學(xué)技術(shù)基礎(chǔ)理論和前沿問(wèn)題研究叢書(shū),屬于“十三五”國(guó)家重點(diǎn)圖書(shū)出版規(guī)劃項(xiàng)目。全書(shū)共18章,對(duì)于自然語(yǔ)言處理中的各種理論和方法進(jìn)行了系統(tǒng)的總結(jié)和梳理。首先討論了自然語(yǔ)言處理的學(xué)科定位,接著介紹了語(yǔ)言計(jì)算的一些先驅(qū)研究,然后以主要的篇幅討論自然語(yǔ)言計(jì)算機(jī)形式分析的各種理論和方法,同時(shí)還討論了自然語(yǔ)言處理系統(tǒng)的評(píng)測(cè)問(wèn)題,最后從哲學(xué)的角度討論了自然語(yǔ)言處理中的理性主義和經(jīng)驗(yàn)主義,探索理性主義方法和經(jīng)驗(yàn)主義方法結(jié)合的途徑。本書(shū)出版后好評(píng)如潮,是中國(guó)自然語(yǔ)言處理的集大成之作。
16.出版了《自然語(yǔ)言處理簡(jiǎn)明教程》,推動(dòng)了國(guó)內(nèi)的計(jì)算語(yǔ)言學(xué)跨學(xué)科教學(xué)。我于2012年在上海外語(yǔ)教育出版社出版了《自然語(yǔ)言處理簡(jiǎn)明教程》,收入現(xiàn)代語(yǔ)言學(xué)叢書(shū)。此書(shū)共18章,分別講述了自然語(yǔ)言處理與理論語(yǔ)言學(xué)、詞匯自動(dòng)處理、形態(tài)自動(dòng)處理、句法自動(dòng)處理、結(jié)構(gòu)歧義、良構(gòu)子串表與線圖、復(fù)雜特征與合一、語(yǔ)義自動(dòng)處理、馬爾可夫鏈與隱馬爾可夫模型、語(yǔ)料庫(kù)語(yǔ)言學(xué)、機(jī)器翻譯、信息自動(dòng)檢索、信息抽取和自動(dòng)文摘、文本數(shù)據(jù)挖掘、自然語(yǔ)言理解、自動(dòng)問(wèn)答與人機(jī)接口、術(shù)語(yǔ)數(shù)據(jù)庫(kù)與計(jì)算術(shù)語(yǔ)學(xué)、計(jì)算機(jī)輔助語(yǔ)言教學(xué)和語(yǔ)言測(cè)試、語(yǔ)音合成、語(yǔ)音識(shí)別和漢字識(shí)別等自然語(yǔ)言處理的基礎(chǔ)知識(shí)和技術(shù)。此書(shū)成為高等學(xué)校的自然語(yǔ)言處理課程教材,促進(jìn)了語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)的自然語(yǔ)言處理教學(xué)。
17.翻譯出版了《自然語(yǔ)言處理綜論》《統(tǒng)計(jì)語(yǔ)言學(xué)習(xí)》等國(guó)外計(jì)算語(yǔ)言學(xué)名著。我還關(guān)注國(guó)外計(jì)算語(yǔ)言學(xué)的發(fā)展情況,把國(guó)外的計(jì)算語(yǔ)言學(xué)名著翻譯成中文,分別在電子工業(yè)出版社和世界圖書(shū)出版公司出版。《自然語(yǔ)言處理總論》和《統(tǒng)計(jì)語(yǔ)言學(xué)習(xí)》都是國(guó)際上公認(rèn)的計(jì)算語(yǔ)言學(xué)優(yōu)秀教材,翻譯出版后受到計(jì)算語(yǔ)言學(xué)師生的歡迎。我還為《自然語(yǔ)言交流的計(jì)算機(jī)模型》(譯自英文)、《普通術(shù)語(yǔ)學(xué)和術(shù)語(yǔ)詞典編纂學(xué)導(dǎo)論》(譯自德文)、《術(shù)語(yǔ)學(xué)、知識(shí)論和知識(shí)技術(shù)》(譯自德文)等國(guó)外名著的譯文對(duì)照原文做審校,提高了這些著作的譯文質(zhì)量。
18.為國(guó)外語(yǔ)言學(xué)名著寫(xiě)導(dǎo)讀。我先后為國(guó)外語(yǔ)言學(xué)名著《牛津計(jì)算語(yǔ)言學(xué)手冊(cè)》《應(yīng)用語(yǔ)言學(xué)中的語(yǔ)料庫(kù)》《譯者的電子工具》《人工智能在第二語(yǔ)言教學(xué)中的應(yīng)用——提高對(duì)于偏誤的意識(shí)》《系統(tǒng)與語(yǔ)料》《語(yǔ)言學(xué)中的數(shù)學(xué)方法》《自然語(yǔ)言生成系統(tǒng)的建造》等寫(xiě)導(dǎo)讀。在寫(xiě)導(dǎo)讀之前,我要精讀原文,找出全書(shū)各部分的內(nèi)在聯(lián)系,目的在于引導(dǎo)青年語(yǔ)言學(xué)者熟悉國(guó)外語(yǔ)言學(xué)的最近動(dòng)態(tài),促進(jìn)我國(guó)語(yǔ)言學(xué)研究的國(guó)際化。
19.為青年作者的專著寫(xiě)序言。為了鼓勵(lì)青年學(xué)者從事創(chuàng)新性的語(yǔ)言學(xué)研究,我先后為《漢語(yǔ)計(jì)算語(yǔ)言學(xué)——漢語(yǔ)形式語(yǔ)法和形式分析》《現(xiàn)代韓國(guó)語(yǔ)動(dòng)詞語(yǔ)義組合關(guān)系研究》《現(xiàn)代語(yǔ)言學(xué)名著導(dǎo)讀》《統(tǒng)計(jì)自然語(yǔ)言處理》《論漢英平行語(yǔ)料的平行處理》《十三經(jīng)字頻研究》《現(xiàn)代漢語(yǔ)動(dòng)賓搭配的語(yǔ)義分析和計(jì)算》《語(yǔ)料庫(kù)語(yǔ)言學(xué)研究叢書(shū)》《基于認(rèn)知的漢語(yǔ)計(jì)算語(yǔ)言學(xué)研究》《俄羅斯計(jì)算語(yǔ)言學(xué)與機(jī)器翻譯》《基于雙語(yǔ)語(yǔ)料庫(kù)的漢英視點(diǎn)體對(duì)比研究》《面向信息檢索的漢語(yǔ)同義詞自動(dòng)識(shí)別》《句子語(yǔ)義學(xué)》《俄語(yǔ)潛在歧義研究》《依存語(yǔ)法的理論與實(shí)踐》《翻譯和本地化工程》《面向大學(xué)英語(yǔ)教學(xué)的通用計(jì)算機(jī)作文評(píng)分和反饋方法研究》《基于動(dòng)態(tài)流通語(yǔ)料庫(kù)的新詞語(yǔ)監(jiān)測(cè)研究》《英譯漢網(wǎng)上自動(dòng)評(píng)測(cè)》《語(yǔ)料庫(kù)語(yǔ)言學(xué)與計(jì)算語(yǔ)言學(xué)叢書(shū)》《漢語(yǔ)拼音詞匯(專有名詞部分)》《面向大數(shù)據(jù)的高效能垃圾文本分類》《邏輯綴詞理論與漢語(yǔ)特殊句式句法結(jié)構(gòu)》《跨學(xué)科視域下的翻譯研究》《詞語(yǔ)認(rèn)知屬性的知識(shí)庫(kù)構(gòu)建和應(yīng)用》《術(shù)語(yǔ)管理概論》《基于修辭結(jié)構(gòu)樹(shù)庫(kù)的篇章銜接標(biāo)記用法研究》等專著寫(xiě)序言。寫(xiě)每一篇序言之前,我都要仔細(xì)閱讀全書(shū),深入理解之后才動(dòng)筆。
20.推動(dòng)漢語(yǔ)拼音走向世界。為了適應(yīng)向信息時(shí)代的需要,我受國(guó)家教育部的委托,參加了國(guó)際標(biāo)準(zhǔn)ISO 7098《信息與文獻(xiàn)工作—中文羅馬字母拼寫(xiě)法》的修訂,并被國(guó)際標(biāo)準(zhǔn)化組織任命為國(guó)際標(biāo)準(zhǔn)ISO 7098的國(guó)際修訂組組長(zhǎng),先后于2011年5月、2012年5月、2013年6月、2014年5月分別到悉尼、柏林、巴黎、華盛頓參加了ISO/TC 46的國(guó)際會(huì)議。在修訂過(guò)程中,我用自己熟悉的英語(yǔ)、德語(yǔ)、法語(yǔ)、日語(yǔ)等外國(guó)語(yǔ),積極地與各國(guó)代表和應(yīng)用部門(mén)分別進(jìn)行溝通與協(xié)調(diào),克服多輪投票表決過(guò)程中遇到的重重困難和問(wèn)題,認(rèn)真應(yīng)對(duì),智慧處理,圓滿完成了這項(xiàng)體現(xiàn)國(guó)家語(yǔ)言主權(quán)和關(guān)系國(guó)家利益的重要使命。由我國(guó)主導(dǎo)的ISO 7098的修訂提案順利通過(guò)了工作組草案、委員會(huì)草案、國(guó)際標(biāo)準(zhǔn)草案等各階段投票以及委員會(huì)內(nèi)部最終投票,于2015年用英文成功出版發(fā)布。
21.培養(yǎng)了一批計(jì)算語(yǔ)言學(xué)和數(shù)理語(yǔ)言學(xué)的研究生。我在中國(guó)科學(xué)技術(shù)信息研究所培養(yǎng)了多名機(jī)器翻譯專業(yè)的理科碩士生,在教育部語(yǔ)言文字應(yīng)用研究所培養(yǎng)了多名計(jì)算語(yǔ)言學(xué)的文科碩士研究生,在中國(guó)傳媒大學(xué)培養(yǎng)了多名計(jì)算語(yǔ)言學(xué)的跨學(xué)科博士研究生。這些研究生中的不少人后來(lái)成為我國(guó)這一領(lǐng)域的帶頭人,為此我感到無(wú)比的欣慰。作為一個(gè)研究生導(dǎo)師,我們的責(zé)任,就是把我們對(duì)于科學(xué)和文化的熱愛(ài),傳授給青年學(xué)子,讓他們與我們老一代人一起來(lái)分享人類知識(shí)寶庫(kù)的知識(shí)財(cái)富,為這個(gè)知識(shí)寶庫(kù)添磚建瓦,做出我們的貢獻(xiàn),并以此來(lái)體現(xiàn)我們?nèi)松膬r(jià)值,從中得到最大的愉快。因此,我也為我國(guó)的研究生教育工作做出了微薄的貢獻(xiàn)。
我現(xiàn)在是教育部(國(guó)家語(yǔ)言文字工作委員會(huì))語(yǔ)言文字應(yīng)用研究所的研究員、學(xué)術(shù)委員會(huì)委員和博士生導(dǎo)師、中國(guó)人工智能學(xué)會(huì)理事、中國(guó)語(yǔ)文現(xiàn)代化學(xué)會(huì)顧問(wèn)、中國(guó)應(yīng)用語(yǔ)言學(xué)會(huì)常務(wù)理事、北京市語(yǔ)言學(xué)會(huì)理事、中國(guó)術(shù)語(yǔ)工作網(wǎng)副秘書(shū)長(zhǎng)、全國(guó)計(jì)算機(jī)輔助術(shù)語(yǔ)工作技術(shù)委員會(huì)常務(wù)副主任、中國(guó)外語(yǔ)教學(xué)研究中心學(xué)術(shù)委員會(huì)委員、全國(guó)術(shù)語(yǔ)標(biāo)準(zhǔn)化技術(shù)委員會(huì)委員、國(guó)家自然科學(xué)基金委員會(huì)信息科學(xué)部評(píng)審委員、國(guó)家社會(huì)科學(xué)基金語(yǔ)言學(xué)科評(píng)審委員、北京市自然科學(xué)基金評(píng)審委員,又是《中文信息學(xué)報(bào)》顧問(wèn),《中國(guó)語(yǔ)文》《語(yǔ)言文字應(yīng)用》《語(yǔ)言科學(xué)》等學(xué)術(shù)刊物的編委,《數(shù)學(xué)辭?!房偩庉嬑瘑T會(huì)委員,《中國(guó)大百科全書(shū)》的《語(yǔ)言文字卷》編輯委員會(huì)成員。我還是北京大學(xué)、浙江大學(xué)、北京外國(guó)語(yǔ)大學(xué)、杭州師范大學(xué)、華中科技大學(xué)、西安交通大學(xué)、中國(guó)傳媒大學(xué)的兼職教授,清華大學(xué)、大連海事大學(xué)的講座教授。
在國(guó)際上,我是跨歐洲語(yǔ)言資源基礎(chǔ)建設(shè)工程學(xué)會(huì)(Trans-European Language Resources Infrastructure,簡(jiǎn)稱TELRI)的顧問(wèn)委員會(huì)委員,第一、二、三屆語(yǔ)言資源與評(píng)測(cè)會(huì)議(Language Resources and Evaluation Committee,簡(jiǎn)稱LREC)的國(guó)際顧問(wèn)委員會(huì)委員,《語(yǔ)料庫(kù)語(yǔ)言學(xué)國(guó)際雜志》(International Journal of Corpus Linguistics,簡(jiǎn)稱IJCL)的編委,《中文與計(jì)算國(guó)際雜志》(International Journal of Chinese and Computing,簡(jiǎn)稱IJCC)的編委,英國(guó)Continuum出版公司系列叢書(shū)《語(yǔ)料庫(kù)與話語(yǔ)研究》(Research in Corpus and Discourse)的編委。
我是一個(gè)多語(yǔ)者,能用多種語(yǔ)言寫(xiě)作。我是在1998年退休的,僅就中文的寫(xiě)作而言,退休前我寫(xiě)了141篇中文論文,退休后寫(xiě)了248篇中文論文;退休前我寫(xiě)了16本中外文專著,退休后,我寫(xiě)了22本中外文專著。顯而易見(jiàn),在1998年退休之后,我實(shí)際上是退而不休,反而成為一個(gè)在學(xué)術(shù)上高產(chǎn)的學(xué)者。這是什么原因呢?
我深入地思考過(guò)這個(gè)問(wèn)題,我認(rèn)為,其原因在于我在退休之后擺脫了名和利的干擾。名和利就像一對(duì)可恨的影子,時(shí)時(shí)刻刻跟著我們,無(wú)法擺脫。退休之前,評(píng)職稱、評(píng)獎(jiǎng)、評(píng)基金、評(píng)名次、評(píng)津貼等與名和利密切相關(guān)的雜事總是纏繞著我,我總是受到名和利這一對(duì)影子的干擾,做什么事情都擺脫不了名和利,思想受到束縛,寫(xiě)不出很多東西來(lái)。退休之后,評(píng)職稱、評(píng)獎(jiǎng)、評(píng)基金、評(píng)名次、評(píng)津貼都與我沒(méi)有關(guān)系了,我就像走到了一棵枝葉茂密大樹(shù)下面,大樹(shù)的樹(shù)蔭把名和利這一對(duì)影子完全遮住了、吞沒(méi)了,我再也看不到名和利這一對(duì)可恨的影子了。由于擺脫了名和利的干擾,我的思想也得到解放,思路更加開(kāi)闊了,我終于獲得了獨(dú)立的人格、自由的思想,因此,我的成果比退休之前多得多。不知諸位以為然否?
八十老翁,無(wú)善可陳,平生無(wú)悔,褒貶由之。謹(jǐn)以此文作為我八十虛歲的紀(jì)念,恭請(qǐng)大家指正。
本文作者系教育部(國(guó)家語(yǔ)言文字工作委員會(huì))語(yǔ)言文字應(yīng)用研究所的研究員。