馮志偉
(教育部語言文字應(yīng)用研究所)
我是一名普通的語言學(xué)研究者,《當(dāng)代外語研究》執(zhí)行主編楊楓老師邀我寫一篇文章介紹自己的治學(xué)經(jīng)驗(yàn),我很愿意與廣大讀者交流自己學(xué)習(xí)和研究語言學(xué)的心得,因此就欣然同意了。在這里,我想講一講自己棄理學(xué)文、棄文從理,最后又棄理從文的曲折過程,談一談50多年來自己與語言學(xué)之間割舍不斷的緣分。
我于1939年4月15日出生于云南昆明。1946年考入昆明市長春路東升小學(xué),1951年以昆明市會考第一名的高分考入昆明一中。昆明一中是云南省著名的重點(diǎn)學(xué)校,曾培育了眾多的英才。獲諾貝爾獎的著名物理學(xué)家楊振寧、著名哲學(xué)家艾思奇、著名出版家黃洛峰等等,多年前都曾是該校學(xué)生。入學(xué)后,我下決心追趕這些曾經(jīng)給昆明一中帶來聲譽(yù)的前輩老校友,努力學(xué)習(xí)。從初一到高三,我每年的總平均分都名列全校第一。
1957年高中畢業(yè)時,我以云南省理科第一名的成績考入北京大學(xué)地球化學(xué)專業(yè),一心想研究化學(xué)元素在地球上的分布規(guī)律。當(dāng)時我的興趣主要是在稀有元素上,它們在元素周期表上排在較后,卻是國家很需要的自然資源。我非常熱愛地球化學(xué)專業(yè),當(dāng)時也沒有任何想從事其他學(xué)科的想法,這個學(xué)科確實(shí)也很有意思。地球化學(xué)在上世紀(jì)50年代屬于國家重點(diǎn)發(fā)展的尖端學(xué)科之一,在地球科學(xué)里,它也是屬于最先進(jìn)的學(xué)科。我入學(xué)后曾對五光十色的礦物發(fā)生了濃厚的興趣,研究這些礦物的晶體結(jié)構(gòu),如醉如癡地觀察著不同結(jié)晶形狀的各種礦物,六方晶系的金剛石、方斜晶系的石墨……,這些立體結(jié)構(gòu)不同的礦物有著差異很大的物理和化學(xué)性質(zhì)。我被大自然的奧秘深深吸引住了。
圖1 馮志偉研究員在查閱資料
就在我認(rèn)真學(xué)習(xí)地球化學(xué)之時,國外興起了數(shù)理語言學(xué)(mathematical linguistics),建立起了完善的理論和方法,并在一些大學(xué)開設(shè)了數(shù)理語言學(xué)課程,從而使數(shù)理語言學(xué)作為一個獨(dú)立的學(xué)科出現(xiàn)在現(xiàn)代語言學(xué)的百花園中,日益芬芳燦爛。1956年,我國開始注意到國外數(shù)理語言學(xué)的興起和發(fā)展,并在我國科學(xué)研究的發(fā)展規(guī)劃中確立了名稱叫做“機(jī)器翻譯,自然語言翻譯規(guī)則的建立和自然語言的數(shù)學(xué)理論”的課題。該課題包括兩部分:機(jī)器翻譯和自然語言的數(shù)學(xué)理論,統(tǒng)稱即“數(shù)理語言學(xué)”。
一個偶然的機(jī)會使我了解到數(shù)理語言學(xué)這一新興學(xué)科。1957年冬天,我在北京大學(xué)圖書館館藏的1956年出版的美國《信息論》(IRE Transaction,Information Theory)雜志上,無意中讀到了美國語言學(xué)家喬姆斯基(N. Chomsky)的論文《語言描寫的三個模型》(Three Models for the Description of Language),并很快被喬姆斯基在語言研究中的新思想深深吸引。喬姆斯基追求語言描寫的簡單性原則,為了用有限的手段描述變化無窮的自然語言,他在文章中建立了形式語言和形式文法的新概念;他把自然語言和計算機(jī)程序設(shè)計語言置于相同的平面上,用統(tǒng)一數(shù)學(xué)方法進(jìn)行解釋和定義,提出了語言描寫的三個模型。這三個抽象的模型既可用于描寫自然語言,又可描寫計算機(jī)程序設(shè)計語言,達(dá)到了“有限手段的無限運(yùn)用”的目標(biāo)。
我預(yù)感到這種語言的數(shù)學(xué)描寫方法將會把自然語言和程序設(shè)計語言緊密結(jié)合起來,在信息的處理和研究中發(fā)揮出巨大的威力。喬姆斯基當(dāng)時不到30歲,還只是一個名不見經(jīng)傳的青年學(xué)者。然而,我卻已被他和他閃耀著智慧光芒的文章征服了。
經(jīng)過反復(fù)考慮,我下決心致力于研究數(shù)學(xué)方法在語言中的應(yīng)用這個問題,并經(jīng)學(xué)校同意,棄理學(xué)文,我開始從理科轉(zhuǎn)到中文系語言學(xué)專業(yè)從事語言學(xué)的學(xué)習(xí)。
轉(zhuǎn)入語言學(xué)專業(yè)之后,情況并不像我原來預(yù)想的那樣順利。當(dāng)時的中文系語言學(xué)專業(yè)開設(shè)的多為傳統(tǒng)語言學(xué)課程,如“漢語史”、“文字學(xué)”、“音韻學(xué)”、“訓(xùn)詁學(xué)”等,還未開設(shè)任何與數(shù)理語言學(xué)有關(guān)的課程,而我的志向是用數(shù)學(xué)方法研究語言,與學(xué)校的課程安排有很大的出入。我一面要學(xué)習(xí)這些傳統(tǒng)課程,一面利用課余時間,繼續(xù)研究我感興趣的數(shù)理語言學(xué)問題。因同時需要在兩條戰(zhàn)線上作戰(zhàn),我常常感到時間不夠用,于是終日埋頭讀書,不怎么關(guān)心政治。我努力學(xué)習(xí)學(xué)校規(guī)定的這些課程,成績名列前茅,而且還學(xué)會了4門外語。但是,同學(xué)們對我這個理科轉(zhuǎn)來的學(xué)生仍不理解,有的發(fā)現(xiàn)我能夠解一些非常繁難的數(shù)學(xué)問題,感到十分奇怪。他們覺得,數(shù)學(xué)這樣好的人居然改行來中文系學(xué)語言學(xué),簡直是南轅北轍!我在班上顯得很孤立。
1961年秋天,團(tuán)中央機(jī)關(guān)建立了這樣一個制度:團(tuán)中央書記處的每位書記至少直接聯(lián)系一個團(tuán)支部,作為了解情況和結(jié)交青年朋友的一個渠道。北京市團(tuán)市委為團(tuán)中央第一書記胡耀邦選定北京大學(xué)59級語言專業(yè)團(tuán)支部作為聯(lián)系點(diǎn)。胡耀邦首先找班的團(tuán)支部書記和宣傳委員了解情況,問他們“你們同學(xué)中有學(xué)習(xí)特別專心的嗎?”他們回答說,“我們班有個叫馮志偉的學(xué)習(xí)特別好,他已經(jīng)學(xué)了英語、俄語、德語和日語,而且達(dá)到相當(dāng)水平,但是好像不怎么關(guān)心政治”。胡耀邦表示,“我希望找馮志偉同學(xué)親自談一談”。
團(tuán)中央第一書記邀請的消息傳給了我,我感到非常激動。11月11日,北大團(tuán)委安排我和其他4名同學(xué)一起到住在富強(qiáng)胡同的胡耀邦家做客。晚飯后我們乘公共汽車進(jìn)城,當(dāng)時北京的公交車數(shù)量嚴(yán)重不足,乘車的人很多,我們沒有擠上從頤和園路過北大開往西直門的32路汽車,急中生智,干脆從北大乘車到起點(diǎn)站頤和園,再從頤和園乘車直奔北京市內(nèi),我們趕到富強(qiáng)胡同時已是晚上9點(diǎn)多鐘了。胡耀邦一直在等我們,他也等得有些著急了。
我們在會客室坐下,胡耀邦給我們每個同學(xué)遞上了一個蘋果,依次詢問我們的姓名、籍貫。當(dāng)胡耀邦問到我的時候,他說,“你就是那個學(xué)了4種外國語的同學(xué)馮志偉嗎?你學(xué)習(xí)那么努力,挨批了沒有?”我回答說,“其實(shí)我學(xué)習(xí)只是出于對語言學(xué)的興趣,只是想多學(xué)點(diǎn)東西而已。”當(dāng)時的社會風(fēng)氣不主張學(xué)生學(xué)外語,認(rèn)為那是“崇洋媚外”,胡耀邦洞察秋毫,一見面就關(guān)切地問我挨批了沒有。我坦率地向胡耀邦匯報了自己的想法,講述了自己學(xué)習(xí)數(shù)理語言學(xué)的動機(jī)和過程。我也談到當(dāng)時學(xué)校的政治氣氛特別濃,不太主張學(xué)生讀書,我在別人眼里顯得有些古怪。有的同學(xué)認(rèn)為我是在走“只專不紅”的道路,對我頗有微辭;有的還說我是“孔子學(xué)生繼承牛頓事業(yè)”,認(rèn)為我的學(xué)習(xí)方向怪異。盡管我并未受到批判,但思想壓力很大,心里很不痛快。
胡耀邦帶著關(guān)注的神色耐心聽了我的介紹之后,正色對我說,“事實(shí)將證明你的道路是正確的!”他的話斬釘截鐵,擲地有聲。他嚴(yán)肅地對我們大家說,“外語學(xué)習(xí)是很重要的,我們需要對外交流,語言是很好的交流工具呀,懂了外語可以擴(kuò)大眼界?!蔽覀儗P牡伛雎犞?默默思考著,會客室的氣氛顯得特別肅穆。
接著胡耀邦換了語氣,開始和大家輕松地聊天。他告訴大家,“學(xué)生的主要任務(wù)是學(xué)習(xí)知識。我在高中的孩子寫了篇作文,老師出題目說什么是學(xué)生的主要任務(wù)?我的孩子寫道:學(xué)生的主要任務(wù)是提高政治水平。”他笑著對我們說,“現(xiàn)在不少人對學(xué)生的主要任務(wù)的認(rèn)識不很清楚,其實(shí),道理很簡單:學(xué)生的主要任務(wù)是學(xué)習(xí)?!闭勗捊Y(jié)束時已經(jīng)很晚了。我們告別了胡耀邦,一路談?wù)撝慕虒?dǎo),總算趕上末班車順利回到了學(xué)校。從這次談話后,我學(xué)習(xí)數(shù)理語言學(xué)就更理直氣壯了。
1964年,我考上了北京大學(xué)理論語言學(xué)專業(yè)的研究生,我的畢業(yè)論文題目就是《數(shù)學(xué)方法在語言研究中的應(yīng)用》,在我國語言學(xué)研究中,首次系統(tǒng)、全面地來研究數(shù)理語言學(xué)這個新興學(xué)科。這樣,我國的數(shù)理語言學(xué)研究便首先在北京大學(xué)正式開展起來?,F(xiàn)在媒體報道,北京大學(xué)的計算語言學(xué)研究是從1985年開始的,恐怕與事實(shí)不符,我覺得似乎應(yīng)當(dāng)是從1964年開始的。
北京大學(xué)中文系的著名語言學(xué)家王力先生和朱德熙先生都支持我的研究。王力先生曾對我說,“語言學(xué)不是很簡單的學(xué)問,我們應(yīng)該像趙元任先生那樣,首先做一個數(shù)學(xué)家、物理學(xué)家、文學(xué)家、音樂家,然后再做一個合格的語言學(xué)家?!敝斓挛跸壬鴮ξ艺f,“數(shù)學(xué)和語言學(xué)的研究都需要有邏輯抽象的能力,在這一方面,數(shù)學(xué)和語言學(xué)有共同性?!北本┐髮W(xué)的這些一流學(xué)者總是站在科學(xué)的最前沿來看待學(xué)術(shù)的發(fā)展,他們的鼓勵給了我巨大的力量。
但是這時候發(fā)生了一件事,就是1966年5月,第一張“馬列主義”的大字報貼到了北大飯廳的門口。我記得很清楚,那一天是5月25日,因?yàn)槟翘煳乙ベI一本法文詞典,當(dāng)時的《法漢詞典》編得很不好,很簡單,單詞太少了。我學(xué)過日文,可以閱讀日文文獻(xiàn),我的導(dǎo)師岑麒祥教授說,“你去買本《仏和詞典》①吧!”于是,我就到五道口的外文書店買了一本。中午時分,我剛在書店旁的小飯館吃完中飯回到北京大學(xué),看到學(xué)校的大飯廳前人頭攢動。我伸頭一看,大飯廳前面的墻上貼著大字報呢。上面寫著:“陸平、彭佩云你們要走往何方?”言詞很激烈,陸平是當(dāng)時北大的校長,彭佩云時任北大黨委書記,她現(xiàn)在是全國婦聯(lián)的領(lǐng)導(dǎo),他們倆當(dāng)時被認(rèn)為是北京市委的黑線人物,當(dāng)時北京市長彭真已被揪出來了。我一看到大字報,就知道我正在準(zhǔn)備答辯的畢業(yè)論文泡湯了,一場很大的革命就要來臨了。
果然,過了幾天《人民日報》就發(fā)表了社論稱“這是一張馬列主義的大字報”,一下把火點(diǎn)起來了。北大進(jìn)入“文化大革命”的混亂狀態(tài),王力先生和朱德熙先生等等都被打成反動學(xué)術(shù)權(quán)威,我的數(shù)理語言學(xué)研究也隨之失去了支持,這個新興學(xué)科的研究被這場“革命”扼殺在襁褓之中。我的數(shù)理語言學(xué)之夢破滅了。我棄理學(xué)文,意在用數(shù)學(xué)方法研究語言,現(xiàn)在,我既不能學(xué)理,也不能學(xué)文,成為了所謂的“三品學(xué)生”②。我離開了北大,到云南邊疆的一所中學(xué)當(dāng)一名物理教員,又只好棄文從理了!
在云南的這段時間里,我除了認(rèn)認(rèn)真真教好學(xué)生,努力搞好本職工作外,仍然利用一切業(yè)余時間,密切關(guān)注著國外學(xué)術(shù)發(fā)展的動向。
數(shù)理語言學(xué)仍然像磁石一樣強(qiáng)烈吸引著我。在云南邊疆那樣閉塞的環(huán)境中,我設(shè)法利用業(yè)余時間,潛心研究數(shù)理語言學(xué);在信息不足、資料缺乏的困難條件下,閱讀了我所能搜集到的各種相關(guān)資料。當(dāng)時我已掌握了英、法、德、俄、日等5種外國語,閱讀了散見于各種外文書刊的數(shù)理語言學(xué)文獻(xiàn),緊跟著世界上數(shù)理語言學(xué)發(fā)展的步伐。就在“讀書無用論”甚囂塵上之時,我總結(jié)了當(dāng)時國外數(shù)理語言學(xué)的成果,于1975年,以昆明五中教師的名義寫成了“數(shù)理語言學(xué)簡介”的長篇文章,在重慶的一家自然科學(xué)雜志《計算機(jī)應(yīng)用與應(yīng)用數(shù)學(xué)》上發(fā)表,向國內(nèi)計算機(jī)界和數(shù)學(xué)界詳細(xì)介紹了數(shù)理語言學(xué)的最新情況,這一篇文章猶如空谷足音,使當(dāng)時被文化大革命封閉了世界學(xué)術(shù)進(jìn)展的中國學(xué)術(shù)界了解到國外信息時代已經(jīng)到來的最新動態(tài)。我在文章中興奮地告訴廣大讀者,“信息時代的到來,使得語言學(xué)、數(shù)學(xué)和計算機(jī)科學(xué)結(jié)下了不解之緣,語言研究和計算機(jī)技術(shù)已經(jīng)到了非結(jié)合不可的地步了!”
在云南期間,我還有機(jī)會閱讀了一些物理學(xué)的經(jīng)典著作,如伽利略的《關(guān)于兩個世界體系的對話》和牛頓的《自然哲學(xué)之?dāng)?shù)學(xué)原理》等。這些經(jīng)典著作給了我很多啟示。伽利略認(rèn)為,人們正在構(gòu)建的理論體系是確實(shí)的真理,由于存在過多的因素和各種各樣的事物,現(xiàn)象序列往往是對真理的某種歪曲。因此,在科學(xué)研究中,最有意義的不是去考慮現(xiàn)象,而應(yīng)當(dāng)去尋求那些看起來確實(shí)能夠給予人們深刻見解的原則。伽利略告誡人們,如果事實(shí)駁斥理論的話,那么,事實(shí)可能是錯誤的。伽利略忽視或無視那些有悖于理論的事實(shí)。他舉例說,人們看到每天太陽從東方升起、從西方落下,都誤以為太陽是圍繞地球旋轉(zhuǎn)的,而實(shí)際上卻是地球圍繞太陽旋轉(zhuǎn)。因此,現(xiàn)象序列往往是對真理的某種歪曲,科學(xué)研究應(yīng)當(dāng)揭示那些隱藏在現(xiàn)象序列后面的真理,千萬不要被表面的現(xiàn)象所迷惑。
牛頓認(rèn)為,在他那個時代的科學(xué)水平下,世界本身還是不可理解的,科學(xué)研究所要做的最好的事情就是努力構(gòu)建可以被理解的理論。牛頓關(guān)注的是理論的可理解性,而不是世界本身的可理解性,科學(xué)理論不是為了滿足常識理解而構(gòu)建的,常識和直覺不足以理解科學(xué)的理論。牛頓摒棄那些無助于理論構(gòu)建的常識和直覺。
通過閱讀這些博大精深的物理學(xué)經(jīng)典著作,我認(rèn)識到,在語言學(xué)研究中,我們應(yīng)當(dāng)探索和發(fā)現(xiàn)那些在語言事實(shí)和現(xiàn)象后面掩藏著的本質(zhì)和原則,不要只是停留在對現(xiàn)象的觀察和描寫上,語言學(xué)研究的目的在于通過語言現(xiàn)象揭示語言的本質(zhì)。在這樣的思想的啟示之下,我下決心模仿Shannon研究英語字母的熵的做法,通過漢字頻度的統(tǒng)計來探測在字頻表面現(xiàn)象之后掩藏著的漢字的熵值(entropy),也就是漢字中包含的信息量。從此,我利用業(yè)余時間潛心研究漢字熵值的測定問題。
漢字熵值的測定首先需要統(tǒng)計漢字的頻度,通過頻度再計算漢字的熵值。這顯然是一個通過現(xiàn)象揭示本質(zhì)的典型的科學(xué)問題,正好與伽利略和牛頓的科學(xué)方法不謀而合。為了進(jìn)行語言文字的信息處理,必須知道文字的信息量,因此,也就必須測定文字的熵。這是信息時代語言文字處理應(yīng)該研究的基礎(chǔ)性問題。漢字的“熵”是漢字所含信息量大小的數(shù)學(xué)度量,是漢字的一個重要的本質(zhì)屬性,一旦進(jìn)入信息時代,我國必定要用計算機(jī)來處理漢字,首先遇到的就會是漢字信息量的問題。對漢字熵的研究可以為漢字進(jìn)入信息時代做好理論上的準(zhǔn)備。
近幾十年來,國外學(xué)者已陸續(xù)測出一些拼音文字字母中的熵。然而,漢字?jǐn)?shù)量太大,各個漢字的出現(xiàn)概率各不相同,因此,要計算包含在一個漢字中的熵是個十分復(fù)雜和繁難的問題。為了計算漢字的熵,首先需要統(tǒng)計漢字在文本中的出現(xiàn)頻度。上世紀(jì)70年代我們還沒有機(jī)器可讀的漢語語料庫,甚至連小規(guī)模的漢語語料庫也沒有。沒有計算機(jī),只得根據(jù)書面文本進(jìn)行手工查頻,我請了幾個志同道合的朋友用手工幫助我進(jìn)行漢字頻度的調(diào)查。我給這些朋友每人發(fā)了一箱卡片,請他們幫助統(tǒng)計在選定樣本資料中的漢字出現(xiàn)的頻度,并把這些頻度記錄在卡片上。在朋友們的幫助下,我用了將近10年的時間,對數(shù)百萬字的現(xiàn)代漢語文本(占70%)和古代漢語文本(占30%)進(jìn)行手工查頻,從小到大逐步擴(kuò)大統(tǒng)計的規(guī)模,建立了6個不同容量的漢字頻度表,最后根據(jù)這些漢字頻度表,逐步擴(kuò)大漢字的容量,終于計算出了漢字的熵。
通過漢字熵值的測定,我進(jìn)一步認(rèn)識到了科學(xué)方法論的重要性,語言學(xué)研究不能總是停留在對語言表面現(xiàn)象的描述上,而應(yīng)當(dāng)通過語言的表面現(xiàn)象深入揭示語言的根本屬性。漢字熵值的測定正好體現(xiàn)了這樣的科學(xué)方法論原則:通過漢字頻度的手工統(tǒng)計出來的數(shù)據(jù)揭示隱藏在這些數(shù)據(jù)后面的漢字的信息量的大小——漢字的熵值。
為了給漢字熵的測定建立一個堅(jiān)實(shí)的理論基礎(chǔ),我還提出了“漢字容量極限定律”,我用數(shù)學(xué)方法證明:當(dāng)統(tǒng)計樣本中漢字的容量不大時,包含在一個漢字中的熵將隨著漢字容量的增加而增加;當(dāng)統(tǒng)計樣本中的漢字容量達(dá)到12,366字時,包含在一個漢字中的熵就不再增加,這意味著,在測定漢字的熵時,統(tǒng)計樣本中漢字的容量是有極限的。這個極限值就是12,366字,超出這一極限值,測出的漢字的熵就不再會增加。在“漢字容量極限定律”的基礎(chǔ)上,我在包含12,370個不同漢字的統(tǒng)計樣本范圍內(nèi),初步測出了在考慮語言符號出現(xiàn)概率差異的情況下,包含在一個漢字中的熵為9.65比特。由此得出結(jié)論:從漢語書面語總體考慮,在現(xiàn)代漢語和古代漢語的全部漢語書面語中,包含在一個漢字中的熵是9.65比特。由于我采用的是手工查頻的方法,盡管工作十分繁重,準(zhǔn)確性還是難以得到保證,我一直認(rèn)為,我測定出的漢字熵值只是一種初步的猜測,還需要更精密的手段來進(jìn)一步檢驗(yàn)這樣的猜測。
20世紀(jì)80年代,北京航空學(xué)院計算機(jī)系劉源教授使用計算機(jī)統(tǒng)計漢字的頻度,并計算出漢字的熵為9.71比特。劉源教授使用計算機(jī)計算的結(jié)果與我通過手工測定的結(jié)果相差不大,這說明我在70年代對漢字熵的測定是科學(xué)的。
這項(xiàng)研究的結(jié)果說明,由于漢字的熵大于8比特,所以,漢字不能使用8比特的單字節(jié)編碼,而要使用16比特的雙字節(jié)編碼。這項(xiàng)研究為漢字信息的計算機(jī)處理提供了基本的數(shù)據(jù)支持,對漢字編碼、漢字改革和漢語的規(guī)范化都有一定的指導(dǎo)意義。漢字熵值的測定還使我更深入地理解了通過表面現(xiàn)象揭示隱藏在現(xiàn)象后面的本質(zhì)的科學(xué)研究方法在探索真理之路的重要性。這些都是我認(rèn)真閱讀伽利略和牛頓的物理學(xué)經(jīng)典著作而得到的收獲。
粉碎四人幫之后,迎來了科學(xué)的春天。高等學(xué)校開始招生。毛澤東主席生前對于大學(xué)招生做過指示,“大學(xué)還是要辦的”,但接著他又指示,“我這里主要說的是理工科大學(xué)還要辦”。毛澤東在他的指示中沒有說文科大學(xué)還要辦。這樣,大學(xué)招生時,首先恢復(fù)的是理工科專業(yè)招生,而文科沒有招生。我渴望著早日回到科學(xué)研究的崗位上去,因此決定,既然文科不招生,那就報考理工科,于是,我報考了中國科學(xué)技術(shù)大學(xué)研究生院,毅然參加理工科大學(xué)的入學(xué)考試。1978年,我通過了理科的入學(xué)考試,成為了這所全國一流的理工科大學(xué)的研究生。于是,我在棄理學(xué)文20年之后,又反過來?xiàng)壩膶W(xué)理,重新開始了理科的學(xué)習(xí),從云南回到了北京。
在中國科學(xué)技術(shù)大學(xué)學(xué)習(xí)期間,我很快就在理工科的雜志上發(fā)表論文。1979年,《計算機(jī)科學(xué)》雜志創(chuàng)刊,我就在該雜志創(chuàng)刊號上發(fā)表了《形式語言理論》的長篇論文,用嚴(yán)格的數(shù)學(xué)表達(dá)方式向計算機(jī)科學(xué)界說明數(shù)理語言學(xué)中的形式化方法如何推動了當(dāng)代計算機(jī)科學(xué)的發(fā)展,并且指出,在數(shù)理語言學(xué)研究中發(fā)展起來的形式語言理論,事實(shí)上已經(jīng)成為當(dāng)代計算機(jī)科學(xué)不可缺少的一塊重要的理論基石,計算機(jī)科學(xué)絕不可忽視形式語言理論。許多人認(rèn)為這篇文章一定是資深的計算機(jī)科學(xué)家寫的,后來,當(dāng)計算機(jī)界的一些專家了解到,這竟然是出自文革前北京大學(xué)中文系一個文科研究生時,感到非常驚訝。
不久,我被學(xué)校選送到法國格勒諾布爾理科醫(yī)科大學(xué)應(yīng)用數(shù)學(xué)研究所(IMAG)自動翻譯中心(GETA)學(xué)習(xí),師從當(dāng)時國際計算語言學(xué)委員會主席、法國著名數(shù)學(xué)家沃古瓦(B. Vauquois)教授,并專門研究自動翻譯和數(shù)理語言學(xué)問題。沃古瓦教授是該委員會的創(chuàng)始人,是當(dāng)時國際計算語言學(xué)的領(lǐng)軍人物,他領(lǐng)導(dǎo)的GETA在機(jī)器翻譯的理論和實(shí)踐上都做出了出色的成績。我在GETA良好的學(xué)習(xí)環(huán)境中,可以了解到機(jī)器翻譯發(fā)展的最新情況,學(xué)習(xí)到當(dāng)代機(jī)器翻譯最前沿的技術(shù)。我自幼喜歡數(shù)學(xué),而沃古瓦教授是數(shù)學(xué)家,我們一拍即合,都深知自然語言的形式理論對構(gòu)建機(jī)器翻譯系統(tǒng)的重要性。從此,我的研究重點(diǎn)逐漸由數(shù)理語言學(xué)轉(zhuǎn)到了計算語言學(xué)(computational linguistics)。
在法國留學(xué)期間,我的主要工作是進(jìn)行漢語與不同外語的機(jī)器翻譯研究。開始時,我使用的自然語言形式理論是喬姆斯基的短語結(jié)構(gòu)語法(phrase structure grammar),我試圖使用短語結(jié)構(gòu)語法來進(jìn)行漢語的自動分析。早在1957年,我就接觸到喬姆斯基的形式語言理論。喬姆斯基根據(jù)形式語法的原理,提出了短語結(jié)構(gòu)語法來作為自然語言形式描述的一種手段,這種語法在自然語言處理中得到了廣泛的使用。國內(nèi)外的許多機(jī)器翻譯系統(tǒng)都采用喬姆斯基的短語結(jié)構(gòu)語法作為系統(tǒng)設(shè)計的基本理論依據(jù)。根據(jù)這一語法,表示句子結(jié)構(gòu)的樹形圖中的每一個結(jié)點(diǎn)只有一個相應(yīng)的標(biāo)記,結(jié)點(diǎn)與標(biāo)記之間的關(guān)系是一種單值標(biāo)記函數(shù),會出現(xiàn)大量的歧義問題,難于區(qū)分句法結(jié)構(gòu)相同而語義結(jié)構(gòu)不同的漢語句子,這種分析法是短語結(jié)構(gòu)語法在分析漢語時一個致命缺點(diǎn)。
當(dāng)時我在法國研制開發(fā)機(jī)器翻譯系統(tǒng)的實(shí)踐中,就更具體地認(rèn)識到短語結(jié)構(gòu)語法的缺陷。這種單值標(biāo)記函數(shù)表示的語言特征十分有限,因而在機(jī)器翻譯中進(jìn)行漢語的自動分析時會顯得左支右絀。
有一天,沃古瓦教授和我討論漢語自動分析的問題。我坦率地對沃古瓦教授說:“喬姆斯基的短語結(jié)構(gòu)語法對于法語和英語的分析可能沒有多大問題,可是,用這種語法來分析漢語,幾乎寸步難行”。沃古瓦教授用好奇的目光看著我,他希望我進(jìn)一步闡述自己的看法。于是,我舉例對沃古瓦教授作了如下的說明:
在漢語中可以說“點(diǎn)心吃了”,實(shí)際上是“點(diǎn)心被吃了”,但漢語一般不用“被”字;漢語中還可以說“張三吃了”,實(shí)際上是“張三把點(diǎn)心吃了”?!皬埲笔莻€名詞短語NP(Noun Phrase),“點(diǎn)心”也是個NP,“吃了”是個動詞短語VP(Verb Phrase),這兩個句子的規(guī)則都是:S→NP+VP。其中,S(Sentence)表示句子,它們的層次相同、詞序相同、詞性也相同,但它們卻有截然不同的含義,一個是被動句,一個是主動句。我們怎么來解釋這樣的差異呢?如果我們使用短語結(jié)構(gòu)語法,用計算機(jī)來分析這兩個句子,計算機(jī)最后做出來的肯定是一樣的樹形圖,它們的差別只是在葉子結(jié)點(diǎn)上的詞不一樣,整個樹形圖的上層都是同樣的S→NP+VP,這樣在結(jié)構(gòu)上相同的句子為什么會有不同的語義解釋,從而產(chǎn)生不同的含義?使用短語結(jié)構(gòu)語法顯然是解釋不了的,而中文里到處都是這樣的句子,因?yàn)橹形睦锏谋粍雨P(guān)系有不同的表示方法,有時主動和被動在形式上沒有明顯區(qū)別,可以從句子的上下文和意念上來加以區(qū)分。在這種進(jìn)退兩難的局面下,唯一的出路就是根據(jù)漢語語法的特點(diǎn)來改進(jìn)喬姆斯基的短語結(jié)構(gòu)語法,設(shè)法使用一種新的方法來描述漢語。
沃古瓦教授耐心地聽完了我的說明,他從沙發(fā)上站起來驚嘆地說,“漢語真是一種langue terrible(法語:糟糕的語言)”。他說,“哪種語言能夠不分主動和被動,人吃了和被人吃了怎么能是一樣的?怎么這么亂?”
我向沃古瓦教授解釋道,其實(shí)中國人一點(diǎn)兒也不感覺到亂,我們中國人說話時對這類結(jié)構(gòu)是分辨得很清楚的,因?yàn)槲覀冎?在一般的情況下,人是不能被吃的。因此“小王吃了”的語義不能是“小王被吃了”,而點(diǎn)心不可能吃東西,所以“點(diǎn)心吃了”必定是“點(diǎn)心被吃了”。漢語是靠詞匯的固有語義來解決語法問題的,但是對你們法國人來講,并不存在這樣的問題。因此,我們不能按照法語的思考方法來處理這個漢語問題,我們必須另辟蹊徑!
沃古瓦教授是一個知識廣博、眼界開闊的學(xué)者,他鼓勵我沿著這個思路繼續(xù)探索。他對我說:“喬姆斯基的短語結(jié)構(gòu)語法也不一定永遠(yuǎn)正確嘛!”在結(jié)束談話我向他告別時,沃古瓦教授興奮地說,“我相信,你一定能找出一種漢語自動分析的新方法?!?/p>
這次和沃古瓦教授的談話使我深刻認(rèn)識到,喬姆斯基的短語結(jié)構(gòu)語法在漢語自動分析時確實(shí)出現(xiàn)了極大的困難。這種困難甚至連沃古瓦教授這樣世界一流的計算語言學(xué)家也承認(rèn)了。作為中國的科學(xué)工作者,我必須想出一種新的辦法,來克服短語結(jié)構(gòu)語法的缺點(diǎn)。不然,我現(xiàn)在進(jìn)行的漢語自動分析就很難再搞下去。
這一天夜里我很不平靜,翻來覆去總在思考這個問題。第二天清早,我走到沃古瓦教授的辦公室,明確向沃古瓦教授提出:我們正面臨一個新的挑戰(zhàn),我們必須要思考一種新的語法理論來解決這個問題。沃古瓦教授完全同意我的意見,他進(jìn)一步鼓勵我探索新的理論和方法來解決漢語自動分析中出現(xiàn)的這個困難問題。
在沃古瓦教授的鼓勵下,我對這個問題進(jìn)行了反復(fù)思考。我觀察到“小王吃了”和“點(diǎn)心吃了”這兩個貌似相同的句子在詞匯的語義上有很大的不同,“小王”在語義上是一個“人”,在一般情況下,“人”是“吃了”這個行為的主動者(agent),而“點(diǎn)心”在語義上是“食品”,在一般情況下,“食品”是“吃了”這個行為的被動者(patient),是“吃了”的對象。在短語結(jié)構(gòu)規(guī)則S→NP+VP中,如果我們不把NP看成一個不可分割的單元,而是把NP進(jìn)一步加以分割,使用若干個特征來代替NP這個單一的特征(例如,在“小王吃了”中,我們把NP分解為“NP|人”兩個特征,在“點(diǎn)心吃了”中,我們把NP分解為“NP|食品”兩個特征),這樣一來,就有可能在計算上把它們分解開來。在計算機(jī)處理語言時,特征也就是“標(biāo)記”,因此,我提出,如果我們使用“多標(biāo)記”(multiple label)來代替短語結(jié)構(gòu)語法中的“單標(biāo)記”(mono label),就有可能大大提高短語結(jié)構(gòu)語法描述語言的能力,我們就可以使用改進(jìn)后的這種語法來描述漢語,實(shí)現(xiàn)漢語的自動分析。這就是我關(guān)于“多標(biāo)記”的設(shè)想。
我對短語結(jié)構(gòu)語法的另一個改進(jìn)是使用多叉樹代替二叉樹。喬姆斯基曾提出“喬姆斯基范式”,他認(rèn)為自然語言的結(jié)構(gòu)具有二分的特性,因此他主張?jiān)谧匀徽Z言處理中使用“二叉樹”(binary-tree)。我認(rèn)為,在漢語中存在著“兼語式”和“連動式”等特殊句式,它們都不具備二分的特性,因此,我主張使用“多叉樹”來代替“二叉樹”,從而提高短語結(jié)構(gòu)語法描述漢語的能力。例如,“請小王吃飯”是一個兼語式的句子,其中的“小王”做前一個動詞“請”的賓語,又做后一個動詞“吃飯”的主語,在計算機(jī)處理時,究竟是分析為“請/小王吃飯”,還是“請小王/吃飯”,我們會感到舉棋不定,處于進(jìn)退維谷的境地,如果勉強(qiáng)分析,只會得到一棵交叉的分析樹,違反了句法樹的“非交特性”。如采取三分,把該句分析為“請/小王/吃飯”,可以避免分析樹的交叉,得到唯一的分析結(jié)果。
經(jīng)過在計算機(jī)上編寫程序進(jìn)行潛心的鉆研和反復(fù)的試驗(yàn),我提出了“多叉多標(biāo)記樹模型”(Multiple-labeled and Multiple-branched Tree Model,簡稱MMT模型)。在該模型中,我采用多值標(biāo)記函數(shù)(multiple-label function)來代替短語結(jié)構(gòu)語法的單值標(biāo)記函數(shù)(mono-label function),使得樹形圖中的一個結(jié)點(diǎn)不再僅僅對應(yīng)于一個標(biāo)記,而是對應(yīng)于若干個標(biāo)記;我還使用多叉樹來代替二叉樹,這樣便大大提高了樹形圖的標(biāo)記能力,使得樹形圖的各個結(jié)點(diǎn)上都能記錄足夠多的語法語義信息,把句子中所蘊(yùn)含的豐富多采的信息充分表示出來。這種多值標(biāo)記函數(shù)的理論從根本上克服了喬姆斯基的短語結(jié)構(gòu)語法在自然語言描述中的嚴(yán)重缺點(diǎn),提高了其有限的分析能力,限制了其過強(qiáng)的生成能力。顯而易見,MMT模型是對喬姆斯基短語結(jié)構(gòu)語法的一個帶有實(shí)質(zhì)意義的重要改進(jìn),這個模型提出后,立即引起了國際語言學(xué)界的高度重視,在1982年于布拉格召開的國際計算語言學(xué)會議(COLING’82)上、1983年于北京召開的國際中文信息處理會議(ICCIP’83)上、以及在1984年于香港召開的東南亞電腦會議(SEARCC’84)上,我都介紹了MMT模型。沃古瓦教授在那次國際計算語言學(xué)會議的大會發(fā)言中,也滿腔熱情地贊揚(yáng)了我的研究工作。
就在我提出MMT模型的同時,國外一些計算語言學(xué)家也看到了短語結(jié)構(gòu)語法的局限性,分別提出了各種手段來改進(jìn)它。例如1983年卡普蘭(R. M. Kaplan)和布列斯南(J. Bresnan)提出的“詞匯功能語法”、1983年馬丁·凱依(Martin Kay)提出的“功能合一語法”、1985年蓋茲達(dá)(G. Gazdar)等提出的“廣義短語結(jié)構(gòu)語法”、1985年珀拉德(C. Pollard)提出的“中心語驅(qū)動的短語結(jié)構(gòu)語法”等,都采用了“復(fù)雜特征”(complex features)來描述自然語言,實(shí)際上和我提出的“多值標(biāo)記”(multiple lables)名異而實(shí)同。所以,我當(dāng)時提出的MMT模型是全世界計算語言學(xué)者對喬姆斯基的短語結(jié)構(gòu)語法進(jìn)行改進(jìn)的一個重要方面和不可分割的組成部分,它是20世紀(jì)80年代較早提出的一個旨在改進(jìn)短語結(jié)構(gòu)語法的形式化模型,當(dāng)時我國學(xué)者在這方面的研究在國際上是處于前沿地位的。
1984年荷蘭阿姆斯特丹北荷蘭出版社出版的多卷專著《計算機(jī)科學(xué)基礎(chǔ)研究》第9卷《自然語言處理的計算機(jī)模型》一書(由意大利米蘭大學(xué)主編)詳細(xì)介紹了MMT模型,并評論說,“馮氏關(guān)于獨(dú)立分析—獨(dú)立生成的主張,關(guān)于盡可能地從源語言分析中獲取多方面信息的主張,是當(dāng)前自然語言處理研究中的一個重要進(jìn)展”。
我還結(jié)合漢語的特點(diǎn)需要,研究了采用MMT模型來解決漢語自動分析的各種問題。我認(rèn)為,相比之下在漢語的自動分析中,采用“多值標(biāo)記”的必要性更加明顯。這是因?yàn)?漢語的句子不能僅僅用詞類或詞組類型等簡單特征來描述,漢語句子各個成分的詞類、詞組類型、句法功能、語義關(guān)系、邏輯關(guān)系之間,存在著極為錯綜復(fù)雜的關(guān)系,如只采用簡單特征,就無法區(qū)分各種歧義現(xiàn)象,達(dá)不到漢語自動處理的目的。具體地說,這是由于:1.漢語句子中的詞組類型(或詞類)與句法功能之間不存在簡單的一一對應(yīng)關(guān)系;2.漢語句子中詞組類型(或詞類)和句法功能相同的成分與句子中其它成分的語義關(guān)系還可能不同,句法功能和語義關(guān)系之間也不是簡單地一一對應(yīng)的;3.漢語中單詞所固有的語法特征和語義特征對判別詞組結(jié)構(gòu)的性質(zhì)往往有很大的參考價值,除了詞組類型這樣的簡單特征之外,再加上單詞固有的語法特征和語義特征,采用多值標(biāo)記來描述,就可以判斷詞組結(jié)構(gòu)的性質(zhì)。
我還提出了用于多值標(biāo)記的漢語“特征—值”系統(tǒng),特征可分為靜態(tài)特征(static feature)和動態(tài)特征(dynamic feature)兩大類。其中,靜態(tài)特征有詞類特征、單詞的固有語義特征和它的值、詞的固有語法特征和它的值;動態(tài)特征有詞組類型特征和它的值、句法功能特征、語義關(guān)系特征、邏輯關(guān)系特征。在自動句法語義分析中,靜態(tài)特征是計算機(jī)進(jìn)行運(yùn)算的基礎(chǔ),計算機(jī)依賴于這些預(yù)先在詞典中給出的靜態(tài)特征,通過有窮步驟的運(yùn)算,逐漸計算出各種動態(tài)特征,從而逐步弄清楚漢語句子中各個語言成分之間的關(guān)系,達(dá)到句法語義分析的目的。這就是我的“雙態(tài)理論”(bi-states theory)。
我在法國留學(xué)期間,了解到法國語言學(xué)家泰尼埃(L. Tesniere)的從屬關(guān)系語法和語法“價”的概念,我用這種語法來研究漢外機(jī)器翻譯問題,首次把“價”(valence)概念引入我國的機(jī)器翻譯研究中。我把動詞和形容詞的行動元(actant)分為主體者、對象者、受益者三個,把狀態(tài)元(circonstant)分為時刻、時段、時間起點(diǎn)、時間終點(diǎn)、空間點(diǎn)、空間段、空間起點(diǎn)、空間終點(diǎn)、初態(tài)、末態(tài)、原因、結(jié)果、目的、工具、范圍、條件、作用、內(nèi)容、論題、比較、伴隨、程度、判斷、陳述、附加、修飾等27個,以此建立多語言的自動句法分析系統(tǒng),對一些表示觀念、感情的名詞也分別給出了它們的價。我還把從屬關(guān)系語法和短語結(jié)構(gòu)語法結(jié)合起來,在表示結(jié)構(gòu)關(guān)系的多叉多標(biāo)記樹形圖中,明確指出中心語的位置,并用核心(GOV)、樞軸(PIVOT)等結(jié)點(diǎn)來表示中心詞。這是我國學(xué)者最早利用從屬關(guān)系語法和配價語法來進(jìn)行自然語言計算機(jī)處理的嘗試。
我根據(jù)機(jī)器翻譯的實(shí)踐,提出了表示從屬關(guān)系語法的從屬樹(dependence tree)應(yīng)滿足如下5個條件即1.單純結(jié)點(diǎn)條件:從屬樹中,只有終極結(jié)點(diǎn),沒有非終極結(jié)點(diǎn),從屬樹中的所有結(jié)點(diǎn)所代表的都是句子中實(shí)際出現(xiàn)的具體單詞;2.單一父結(jié)點(diǎn)條件即在從屬樹中,除了根結(jié)點(diǎn)沒有父結(jié)點(diǎn)之外,所有結(jié)點(diǎn)都只有一個父結(jié)點(diǎn);3.獨(dú)根結(jié)點(diǎn)條件即一個從屬樹只能有一個根結(jié)點(diǎn),即從屬樹中唯一沒有父結(jié)點(diǎn)的結(jié)點(diǎn),這個根結(jié)點(diǎn)支配著其他所有的結(jié)點(diǎn),4.非交條件即從屬樹中的樹枝不能彼此相交;5.互斥條件即從屬樹中的結(jié)點(diǎn)之間從上到下的支配關(guān)系和從左到右的前于關(guān)系之間是互相排斥的,如兩個結(jié)點(diǎn)之間存在支配關(guān)系,它們之間就不能存在前于關(guān)系。我提出的這5個條件比1970年美國計算語言學(xué)家羅賓孫(J. Robinson)提出的從屬關(guān)系語法的4條公理更為直觀,更便于在機(jī)器翻譯中使用。
我在法國研究的另一個問題是生成語法的公理化方法。我從這一角度來研究喬姆斯基的形式文法,把他的形式文法同數(shù)學(xué)中的半圖厄系統(tǒng)(semi-Thue system)相比較。我提出喬姆斯基的形式文法實(shí)際上是數(shù)學(xué)中的公理系統(tǒng)理論在語言分析中的一種應(yīng)用,語言就是由文法這一公理系統(tǒng)從初始符號出發(fā)推導(dǎo)出的無限句子的集合;文法的規(guī)則是有限的,文法中的終極符號和非終極符號的數(shù)目也是有限的,可是,由于語言符號具有遞歸性,文法這一公理系統(tǒng)就能夠根據(jù)有限的符號,通過有限的重寫規(guī)則,遞歸地推導(dǎo)出無限的句子來。這樣的研究從數(shù)學(xué)的基礎(chǔ)理論方面揭示了形式文法的實(shí)質(zhì)。
根據(jù)MMT模型,我于1981年完成了漢-法/英/日/俄/德多語言機(jī)器翻譯試驗(yàn),建立了FAJRA系統(tǒng)(FAJRA是法、英、日、俄、德語的法文首字母縮寫)。在IBM-4341大型計算機(jī)上,把20多篇漢語文章自動翻譯成英、法、日、俄、德文。這是世界上第一個漢語到多種外語的機(jī)器翻譯系統(tǒng),開創(chuàng)了多語言機(jī)器翻譯系統(tǒng)之先河。
我的研究從理論和實(shí)踐上都改進(jìn)了短語結(jié)構(gòu)語法,受到沃古瓦教授的贊賞。我急著想把這些成果應(yīng)用到中國的科技信息文獻(xiàn)的大規(guī)模翻譯方面,建立一個實(shí)用的機(jī)器翻譯系統(tǒng),因此,實(shí)驗(yàn)報告一寫完,我就與沃古瓦教授告別,離開法國回到了祖國。
回到北京,我想到的第一件事就是到北京大學(xué)拜見著名語言學(xué)家王力先生,向他匯報我在法國學(xué)習(xí)的收獲。早年在我開始研究數(shù)理語言學(xué)的時候,王力先生就支持過我的研究,在北大求學(xué)期間,我曾經(jīng)認(rèn)真地聽過他講授的《古代漢語》、《漢語史》、《中國語言學(xué)史》、《清代古音學(xué)》等課程,這些課程為我后來的計算語言學(xué)研究奠定了堅(jiān)實(shí)的基礎(chǔ),我永遠(yuǎn)忘不了我的恩師王力先生。
1982年春天,我和老同學(xué)吳坤定(現(xiàn)為北京出版社編審)一起到北京大學(xué)燕南園去看望王力先生。一進(jìn)門,王力先生就高興地請我們坐下,他對我說:“聽說你到法國之后已經(jīng)改行學(xué)習(xí)自然科學(xué)了,現(xiàn)在,你有了很好的數(shù)理化基礎(chǔ),因此也就有了科學(xué)的頭腦,這些都是很寶貴的財富,在語言學(xué)研究中隨時用得著”。我向王力教授匯報了自己在法國研究多語言機(jī)器翻譯的收獲。王力先生細(xì)心聽著,他對我說:“我前年在武漢開的中國語言學(xué)會成立大會上曾經(jīng)說,我一輩子吃虧就吃虧在我不懂?dāng)?shù)理化。現(xiàn)在你懂得數(shù)理化,就不會像我這樣吃虧了,我相信你今后一定會做出更好的成績”。接著,他又說:“20多年前我曾經(jīng)對你說過,我希望你學(xué)習(xí)趙元任先生。當(dāng)然,這是很難的。趙元任先生由哲學(xué)家、物理學(xué)家、數(shù)學(xué)家、文學(xué)家、音樂家做底子,最后才成為世界著名的語言學(xué)家的。我一輩子都想學(xué)他,但是,我的數(shù)理化基礎(chǔ)差,沒有學(xué)好。你現(xiàn)在到法國學(xué)習(xí)了自然科學(xué),已經(jīng)具備學(xué)習(xí)趙元任先生的條件了,我再一次提醒你,你要向趙元任先生學(xué)習(xí),而且一定要學(xué)得比我好”。王力先生這些語重心長的話,極大地鼓勵了我,我決心按照王力先生的教導(dǎo),把數(shù)理化知識和語言學(xué)的知識結(jié)合起來,做一個信息時代的文理兼通的語言學(xué)家。
從法國回國之后,我在中國科技信息研究所計算中心擔(dān)任機(jī)器翻譯研究組的組長,我利用當(dāng)時北京遙感技術(shù)研究所的IBM-4361計算機(jī),于1985年進(jìn)行了德—漢機(jī)器翻譯試驗(yàn)和法—漢機(jī)器翻譯試驗(yàn),建立了GCAT德—漢機(jī)器翻譯系統(tǒng)和FCAT法—漢機(jī)器翻譯系統(tǒng),檢驗(yàn)了MMT模型生成漢語的能力,試驗(yàn)結(jié)果良好??上М?dāng)時由于國內(nèi)的科研資金缺乏,不能提供足夠的財力和人力來開展更大規(guī)模的實(shí)驗(yàn),我要建立實(shí)用性機(jī)器翻譯系統(tǒng)的愿望沒能馬上實(shí)現(xiàn)。
1982年秋天,我應(yīng)北京大學(xué)的邀請,在北大中文系漢語專業(yè)開設(shè)了“語言學(xué)中的數(shù)學(xué)問題”的選修課。這是國內(nèi)首次在高等學(xué)校全面、系統(tǒng)地講述數(shù)理語言學(xué)的課程,受到學(xué)生們的歡迎。北京大學(xué)前任校長、著名數(shù)學(xué)家丁石孫教授在他的專著《數(shù)學(xué)與教育》一書中,對這門課程作了如下的評價:“1982年,北京大學(xué)中文系開設(shè)了《語言學(xué)中的數(shù)學(xué)問題》,這是給漢語專業(yè)學(xué)生開的選修課程,許多同學(xué)對這門學(xué)科產(chǎn)生了很大的興趣,經(jīng)過一個學(xué)期的學(xué)習(xí),同學(xué)們初步認(rèn)識了現(xiàn)代數(shù)學(xué)的發(fā)展給語言學(xué)注入了生機(jī),覺得獲益匪淺,對語言學(xué)這門古老的學(xué)科分支的發(fā)展充滿了信心,而且這一舉動沖擊了相當(dāng)多的人的舊概念,使閉塞的中國學(xué)術(shù)界認(rèn)識到,即使在人文科學(xué)教育中,數(shù)學(xué)也在逐漸起作用?!雹?/p>
在北京大學(xué)講稿的基礎(chǔ)之上,我寫出了我國第一部數(shù)理語言學(xué)的專著,書名就叫做《數(shù)理語言學(xué)》,于1985年8月由上海知識出版社出版。接著,我又出版了《自動翻譯》的專著,深入探討自然語言機(jī)器翻譯的理論和實(shí)踐問題。這兩本專著的出版受到了我國計算語言學(xué)界的歡迎。不少出國學(xué)習(xí)計算語言學(xué)的留學(xué)生出國時都帶著這兩本書,作為入門的向?qū)А?/p>
1985年,原文字改革委員會更名為國家語言文字工作委員會,需要計算語言學(xué)方面的人材,我調(diào)入了國家語言文字工作委員會語言文字應(yīng)用研究所擔(dān)任計算語言學(xué)研究室主任,得以專門從事計算語言學(xué)的研究工作,這是我1978年棄文學(xué)理之后又一次棄理從文,我又重新回到了語言學(xué)的懷抱。與此同時,由于工作的需要,我還在中國科學(xué)院軟件研究所擔(dān)任兼職研究員。
根據(jù)中德科技合作協(xié)定,我受中國科學(xué)院軟件研究所的派遣,于1986年至1988年到德國夫瑯禾費(fèi)研究院新信息技術(shù)與通訊系統(tǒng)研究所(Fraunhofer Gesellschaft,簡稱FhG)任客座研究員,從事術(shù)語數(shù)據(jù)庫的開發(fā)。術(shù)語是人類科學(xué)技術(shù)知識在自然語言中的結(jié)晶。術(shù)語數(shù)據(jù)庫是在計算機(jī)上建立的人類科學(xué)技術(shù)的知識庫,這項(xiàng)研究屬于知識工程的研究,具有重要的意義。
當(dāng)時世界上還沒有很好的漢字輸入輸出軟件,我國自己開發(fā)的CCDOS還很不成熟,我克服了重重困難,在FhG使用UNIX操作系統(tǒng)和INGRES軟件,建立了數(shù)據(jù)處理領(lǐng)域的中文術(shù)語數(shù)據(jù)庫GLOT-C,并且把這個數(shù)據(jù)庫與FhG的其他語言的術(shù)語數(shù)據(jù)庫相連接,可以快速進(jìn)行多語言術(shù)語的查詢和檢索,而且還可以處理簡繁體的漢字。這是世界上第一個中文術(shù)語數(shù)據(jù)庫,具有開創(chuàng)作用。
在FhG研究術(shù)語數(shù)據(jù)庫的過程中,我還接觸到多種語言的大量術(shù)語,我驚異地發(fā)現(xiàn),幾乎在每一種語言中,詞組型術(shù)語的數(shù)量都大大超過了單詞型術(shù)語的數(shù)量。根據(jù)多年前我學(xué)習(xí)過的伽利略和牛頓的科學(xué)方法論,我試圖揭示出語言事實(shí)后面隱藏的本質(zhì),從理論上對這樣的語言事實(shí)進(jìn)行解釋。
為此,我把數(shù)理語言學(xué)的理論應(yīng)用到術(shù)語數(shù)據(jù)庫的研究中,提出了“術(shù)語形成的經(jīng)濟(jì)律”這一觀點(diǎn)。
我根據(jù)大量的實(shí)驗(yàn)數(shù)據(jù)證明,在一個術(shù)語系統(tǒng)中,其經(jīng)濟(jì)指數(shù)與術(shù)語平均長度的乘積正好等于單詞的術(shù)語構(gòu)成頻度之值,并提出了“FEL公式”來描述這個定律。根據(jù)FEL公式可知,在一個術(shù)語系統(tǒng)中,提高術(shù)語系統(tǒng)經(jīng)濟(jì)指數(shù)的最好方法是在盡量不過大地改變術(shù)語平均長度的前提下,增加單詞的術(shù)語構(gòu)成頻度。這樣,在術(shù)語形成的過程中,將會產(chǎn)生大量的詞組型術(shù)語,使得詞組型術(shù)語的數(shù)量大大超過單詞型術(shù)語的數(shù)量,而成為術(shù)語系統(tǒng)中的大多數(shù)。FEL公式從數(shù)理語言學(xué)的角度正確解釋了為什么術(shù)語系統(tǒng)中詞組型術(shù)語的數(shù)目總是遠(yuǎn)遠(yuǎn)大于單詞型術(shù)語的數(shù)目的數(shù)學(xué)機(jī)理,它反映了語言中的省力原則和經(jīng)濟(jì)原則,這是我國學(xué)者對數(shù)理語言學(xué)中著名的齊夫定律(Zipf’s law)的新發(fā)展,并從術(shù)語的角度說明了語言中的省力原則和經(jīng)濟(jì)原則是具有普遍意義的原則④。
“術(shù)語形成的經(jīng)濟(jì)律”提出之后,國內(nèi)外的術(shù)語學(xué)研究者根據(jù)術(shù)語數(shù)據(jù)庫的事實(shí)進(jìn)行檢驗(yàn),證明在各種語言的術(shù)語數(shù)據(jù)庫中,詞組型術(shù)語的數(shù)目都大于單詞型術(shù)語的數(shù)目。因此,“術(shù)語形成的經(jīng)濟(jì)律”是適應(yīng)于各種語言的一條普遍規(guī)律,是現(xiàn)代術(shù)語學(xué)的一條重要的基本定律。
語言是現(xiàn)實(shí)的編碼體系,術(shù)語形成的經(jīng)濟(jì)律反映了用詞作為語言材料進(jìn)行單詞型術(shù)語和詞組型術(shù)語的編碼的經(jīng)濟(jì)律,這一經(jīng)濟(jì)律也可適用于語言編碼的其他領(lǐng)域。漢語在用單字組成多字詞的時候,有限數(shù)目的單字組成了為數(shù)可觀的多字詞,多字詞以增加自身的長度為代價來保持或盡量不增加漢語中原有單字的個數(shù),體現(xiàn)了組字成詞這個編碼過程的經(jīng)濟(jì)律。多字詞也就是雙音詞或多音詞,著名語言學(xué)家呂叔湘先生指出,“北方話的語音面貌在最近幾百年里沒有多大變化,可是雙音詞的增加以近百年為甚,而且大部分是與經(jīng)濟(jì)、政治和文化生活有關(guān)的所謂‘新名詞’??梢娡粼~在現(xiàn)代主要是起消極作用,就是說,要創(chuàng)造新的單音詞是極其困難的了?!眳问逑嫦壬谶@里一方面指出了創(chuàng)造新的單音詞(即單字)的困難,一方面又指出了雙音詞(即雙字詞)大量增加的現(xiàn)象,這正是組字成詞的經(jīng)濟(jì)律的生動體現(xiàn)。
對漢字結(jié)構(gòu)及其構(gòu)成成分的統(tǒng)計與分析表明,在《辭?!?1979年版)所收的16,295個字和GB2312-80國家標(biāo)準(zhǔn)《信息交換用漢字編碼字符集·基本集》收入而《辭海》未收的43個字中,簡化字和被簡化的繁體字(包括被淘汰的異體字和計量用字)以及未簡化的漢字共有16,339個,它們是由675個不能再分解的末級部件構(gòu)成的,簡化字和未簡化的漢字(不包括被簡化的繁體字、被淘汰的異體字和計量用字)共11,837個,它們是由648個不能再分解的末級部件構(gòu)成的。由少量的部件構(gòu)成大量的漢字,體現(xiàn)了部件構(gòu)成漢字這一編碼過程的經(jīng)濟(jì)律。
因此,術(shù)語形成經(jīng)濟(jì)律實(shí)際上乃是“語言編碼的經(jīng)濟(jì)律”,這是語言學(xué)中的一個普遍規(guī)律,它支配著語言編碼的所有過程。
在研究FEL公式的同時,我還提出了“生詞增幅遞減律”這一觀點(diǎn)。我指出,在一個術(shù)語系統(tǒng)中,每個單詞的絕對頻度是不同的,經(jīng)常使用的單詞是高頻詞,不經(jīng)常使用的單詞是低頻詞,隨著術(shù)語條目的增加,高頻詞的數(shù)目也相應(yīng)增加,而生詞出現(xiàn)的可能性越來越小,這時,盡管術(shù)語的條數(shù)在繼續(xù)增加,生詞總數(shù)增加的速率卻越來越慢,而高頻詞則反復(fù)出現(xiàn),生詞的增幅有遞減的趨勢。這個“生詞增幅遞減律”不僅適用于術(shù)語系統(tǒng),也適用于閱讀書面文本的過程,人們在閱讀一種用自己不熟悉的語言寫的文本時,開始總有大量不認(rèn)識的生詞,隨著閱讀數(shù)量的增加,生詞增加的幅度會逐漸減少,如果閱讀者能夠掌握好已閱讀過的生詞,閱讀將會變得越來越容易。
我還與上海交通大學(xué)博士生李晶潔合作,基于布朗語料庫(Brown corpus)的證據(jù),考察科技英語的篇際詞匯增長模型,以篇章為計量單位,描述科技英語文本中詞匯量與累積文本容量之間的函數(shù)關(guān)系。我們注意到,國外現(xiàn)有的詞匯增長模型不能夠精確地描述科技英語的詞匯增長曲線,因此,我們通過對冪函數(shù)和對數(shù)函數(shù)的比較分析構(gòu)建了新的詞匯增長模型,并應(yīng)用此模型推導(dǎo)出科技英語的理論詞匯增長曲線及其95%雙向置信區(qū)間。
在術(shù)語研究中,我還提出了“潛在歧義論”(Potential Ambiguity Theory,簡稱PA論),指出了中文術(shù)語的歧義格式中,包含著歧義性的一面,也包含著非歧義性的一面,因而這樣的歧義格式是潛在的,它只是具有歧義的可能性,而并非現(xiàn)實(shí)的歧義,潛在的歧義能否轉(zhuǎn)化成現(xiàn)實(shí)的歧義,要通過潛在歧義結(jié)構(gòu)的“實(shí)例化”(instantiation)過程來實(shí)現(xiàn),“實(shí)例化”之后,有的歧義結(jié)構(gòu)會變成真正的歧義結(jié)構(gòu),有的則不然。這一理論是對傳統(tǒng)語言學(xué)中“類型—實(shí)例”(type-token)觀念的沖擊,深化了對歧義格式本質(zhì)的認(rèn)識,近年來,我又把PA論進(jìn)一步推廣到日常語言的領(lǐng)域,促進(jìn)了自然語言處理中的歧義消解的研究。
術(shù)語是記錄科學(xué)技術(shù)知識的基本單元,因此,術(shù)語的研究對人類知識的系統(tǒng)處理,對科學(xué)技術(shù)交流都有著重要的價值。1977年,我把這些研究術(shù)語的成果寫成《現(xiàn)代術(shù)語學(xué)引論》一書出版了,這是我國第一本關(guān)于術(shù)語學(xué)理論的專著。
1990年至1993年,我被德國特里爾大學(xué)文學(xué)院聘任為客座教授。特里爾是一座擁有2000年歷史的古城,也是馬克思的故鄉(xiāng),我因此有機(jī)會經(jīng)常到馬克思的故居了解這位無產(chǎn)階級革命導(dǎo)師的光輝業(yè)績。在特里爾任教期間,我用德語給德國學(xué)生講授《漢魏六朝散文》、《唐詩宋詞》、《中國現(xiàn)代散文》、《漢字的發(fā)展與結(jié)構(gòu)》、《漢語拼音正詞法》、《漢語詞匯史》、《機(jī)器翻譯的理論和方法》等課程。
我學(xué)過德語,有一定的德語口語交流經(jīng)驗(yàn),可是,用德語在高等學(xué)校的課堂上講課,與日常生活中用德語交流大不一樣;課堂是學(xué)術(shù)的殿堂,課堂上的語言不能有很多差錯,特別是不能在語法上出錯,而德語語法又十分復(fù)雜,需要我嚴(yán)肅對待。為了講好課,我苦練德語口語,認(rèn)真用德語備好每一節(jié)課,在上每節(jié)課之前,我都要先用德語把講課的內(nèi)容對自己敘述一遍或多遍,直到能夠熟練地背誦為止,我把“備課”當(dāng)作了“背課”。由于備課特別認(rèn)真,我的課堂教學(xué)效果越來越好,我的講課受到德國學(xué)生的一致好評。我當(dāng)時的一些德國學(xué)生現(xiàn)在已成為德國知名的語言學(xué)家。
在教學(xué)中,我發(fā)現(xiàn)德國學(xué)生學(xué)習(xí)漢語時,學(xué)講話并不困難,最困難的是學(xué)漢字。漢字?jǐn)?shù)量多,結(jié)構(gòu)復(fù)雜,因此,我開始研究如何教德國學(xué)生學(xué)習(xí)漢字的問題。我經(jīng)過反復(fù)思考,把自己在法國留學(xué)時提出的MMT模型運(yùn)用到漢字結(jié)構(gòu)的教學(xué)中,提出了漢字結(jié)構(gòu)的括號式表示法,用這種方法可以把一個漢字按層次分解為若干個部件,構(gòu)成一個樹形結(jié)構(gòu),再把這樣的樹形結(jié)構(gòu)用括號表示出來。學(xué)生只要掌握了基本的漢字部件,就可以進(jìn)一步學(xué)會由這些部件構(gòu)成的整個漢字,以簡馭繁,使?jié)h字便于理解和記憶。這樣的方法受到德國學(xué)生的歡迎。
我把這樣的嘗試寫成了科研專著《漢字的歷史和現(xiàn)狀》用德文在特里爾科學(xué)出版社出版。德國特里爾大學(xué)韋荷雅(Dorothea Wippermann)博士1996年在《評馮志偉新著〈漢字的歷史和現(xiàn)狀〉(德文版)》一文中指出,馮志偉“在漢字研究中引入了現(xiàn)代的成分分析法。對于這種方法,直到現(xiàn)在為止,許多專家圈子之外的普通人還很不熟悉,所知極少。這種分析法認(rèn)為,漢字是由不同的圖形成分組合而成的一個封閉的集合,其中的每一個較大的成分都可以進(jìn)一步被拆分為較小的成分,一直被拆分到單獨(dú)的筆畫為止。漢字結(jié)構(gòu)的這種多層次多分叉的構(gòu)造圖形可以用樹形圖來表示,這樣一來,便為揭示漢字總體結(jié)構(gòu)的研究提供了一種系統(tǒng)性的理論和方法。這種在中文信息處理中行之有效的成分分析法,對漢字的研究和學(xué)習(xí)也提供了一種新的記憶手段”。
漢字的計算機(jī)處理一直是我關(guān)注的一個重要的應(yīng)用問題。近來年,我與旅居加拿大的青年學(xué)者歐陽貴林合作,把漢字的基本字根歸納為25個,我們在這25個字根基礎(chǔ)上提出了“機(jī)寫漢字學(xué)習(xí)法”(簡稱“和碼”),這是一種以簡馭繁的漢字學(xué)習(xí)的方法。我們在加拿大和九江的兒童識字教學(xué)中進(jìn)行試驗(yàn),效果良好。
目前,漢字輸入計算機(jī)主要使用拼音輸入,拼音輸入是一種簡捷而方便的輸入法,為群眾喜聞樂見。但是,由于拼音與漢字的字形之間沒有明確關(guān)系,長期使用拼音輸入,往往會忘記漢字的字形,寫字時出現(xiàn)“提筆忘字”的情況,有人把這種情況叫做“漢字失寫癥”。我認(rèn)為,除了繼續(xù)使用和推廣拼音輸入法之外,我們還需要在計算機(jī)上根據(jù)漢字的結(jié)構(gòu)使用鍵盤來書寫漢字,從而避免“漢字失寫癥”,繼承漢字的文化傳統(tǒng)?!皺C(jī)寫漢字學(xué)習(xí)法”使用鍵盤來書寫漢字,有助于克服由于長期使用拼音輸入漢字而導(dǎo)致的“漢字失寫癥”這種文化病。
我們還開發(fā)出針對外國學(xué)生學(xué)習(xí)漢字的相關(guān)軟件,在北京語言大學(xué)的部分外國學(xué)生中進(jìn)行初步試驗(yàn),效果良好,“機(jī)寫漢字學(xué)習(xí)法”軟件讓外國學(xué)生在學(xué)習(xí)“聽說”漢語的同時,也能夠“讀寫”漢語,達(dá)到“聽說讀寫”四會的要求。
“機(jī)寫漢字學(xué)習(xí)法”為漢字的鍵盤“機(jī)寫”提供了一種方便而實(shí)用的手段,使我們在計算機(jī)上輸入漢字時,永遠(yuǎn)也不會忘記怎樣書寫漢字。這對發(fā)揚(yáng)我國漢字文化的優(yōu)秀傳統(tǒng)是大有好處的。
2001年,我應(yīng)邀到韓國科學(xué)技術(shù)研究院(Korean Advanced Institute of Science and Technology,簡稱KAIST)電子工程與計算機(jī)科學(xué)系擔(dān)任教授。KAIST是韓國著名的理工科大學(xué),大部分學(xué)生都是通過嚴(yán)格的考試和數(shù)學(xué)物理競賽選出來的精英。我不會韓國語,因此,只能用英語給該系博士研究生開“自然語言處理-Ⅱ”(Natural Language Processing-Ⅱ,簡稱NLP-Ⅱ)的課程。在這門課程中,我系統(tǒng)講授了詞匯自動分析、形態(tài)自動分析、句法自動分析、語義自動分析、語用自動分析等自然語言處理中的各種方法,受到韓國學(xué)生的歡迎,韓國科學(xué)技術(shù)研究院還特別出版了文集來紀(jì)念我的這次講學(xué)⑤。
在用英語備課的過程中,我發(fā)現(xiàn)美國Colorado大學(xué)的Daniel Jurafsky和James Martin的新著“Speech and Language Processing—An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition”(《語音和語言處理——自然語言處理,計算語言學(xué)和語音識別導(dǎo)論》)是一本很優(yōu)秀的自然語言處理教材,該書覆蓋面廣,理論分析深入,而且強(qiáng)調(diào)實(shí)用性和注重評測技術(shù),幾乎所有的例子都來自真實(shí)的語料庫。我想,如果能夠把這本優(yōu)秀的教材翻譯成中文,讓國內(nèi)的年輕學(xué)子們也能學(xué)習(xí)本書,那該是多么好的事情!
2002年,我回國參加機(jī)器翻譯的學(xué)術(shù)討論會,電子工業(yè)出版社的一位編輯找到我,說他們打算翻譯出版此書。這位編輯說,出版社已進(jìn)行過調(diào)查,目前國外絕大多數(shù)大學(xué)的計算機(jī)科學(xué)系都采用此書作為“自然語言處理”課程的研究生教材,他們希望我親自來翻譯這本書,與電子工業(yè)出版社配合,推出高質(zhì)量的中文譯本。出版社的意見與我原來的想法不謀而合,于是,我欣然接受了這本長達(dá)600多頁的英文專著的翻譯任務(wù),于2003年開始進(jìn)行翻譯。
我雖然已通讀過該書兩遍,對于這本書應(yīng)該說是有一定的理解了,但是,親自動手翻譯起來,卻不像原來想象的那樣容易,要把英文的意思表達(dá)為確切的中文,下筆時總有汲深綆短之感,大量的新術(shù)語如何用中文來表達(dá),也是頗費(fèi)周折和令人躊躇的難題。
在韓國教書期間,我利用了所有業(yè)余時間進(jìn)行翻譯,晚上加班到深夜,連續(xù)工作了11個月,當(dāng)翻譯完14章(全書三分之二)的時候,不幸患了黃斑前膜眼病,視力出現(xiàn)障礙,難于繼續(xù)翻譯下去,還剩下7章(全書三分之一)沒有翻譯,“行百里者半九十”,這7章的翻譯究竟如何來完成呢?正當(dāng)我束手無策、一籌莫展之時,中國科學(xué)院軟件研究所的一位年輕的副研究員孫樂表示愿意繼續(xù)我的工作,協(xié)助我完成本書的翻譯。孫樂把剩下的7章逐一譯成中文,通過計算機(jī)網(wǎng)絡(luò)一章一章傳到韓國,我使用語音合成裝置,讓計算機(jī)把書面的文本讀出來,通過讀出來的語音進(jìn)行譯文的校正,語音合成技術(shù)克服了我視力不濟(jì)的困擾,幫助我邁過了重重的難關(guān)。2004年,在我們兩人的通力合作下,全書的翻譯總算大功告成,由電子工業(yè)出版社以《自然語言處理綜論》的書名出版。該書的出版受到廣大讀者的歡迎,而我為此卻損害了自己的視力,不得不借助于語音合成裝置來閱讀了。
現(xiàn)在我已進(jìn)入古稀之年,不能再做很多具體的開發(fā)和研究工作了,我的視力不濟(jì),難于長時間看書。我近來主要做一些介紹和引進(jìn)外國優(yōu)秀計算語言學(xué)英文原著的工作,為這些著作寫導(dǎo)讀,以便幫助年輕學(xué)子盡快接觸到當(dāng)代計算語言學(xué)的前沿問題。我寫的導(dǎo)讀有:《應(yīng)用語言學(xué)中的語料庫》(世界圖書出版公司&劍橋大學(xué)出版社,2006年版),《譯者的電子工具》(外語教育與研究出版社,2006年版),《人工智能在第二語言教學(xué)中的應(yīng)用》(世界圖書出版公司,2007年版),《語言學(xué)中的數(shù)學(xué)方法》(世界圖書出版公司,2009年版),《自然語言生成系統(tǒng)的建造》(北京大學(xué)出版社,2010年版)。
2006年6月30日,聯(lián)合國教科文組織奧地利委員會(Austrian Commission for UNESCO)、維也納市和國際術(shù)語信息中心(INFOTERM)給我頒發(fā)了維斯特特別獎(Wüster Special Prize),以表彰我在術(shù)語學(xué)理論和術(shù)語學(xué)方法研究方面作出的突出貢獻(xiàn)。維斯特(Eugen Wüster,1898-1977)是奧地利著名科學(xué)家,是術(shù)語學(xué)和術(shù)語標(biāo)準(zhǔn)化工作的奠基人。維斯特獎是專門為那些對術(shù)語學(xué)和術(shù)語標(biāo)準(zhǔn)化工作有出色成就的科學(xué)家而設(shè)置的。
可惜的是,我的視力越來越差,當(dāng)我接受維斯特獎的時候,已經(jīng)不能看清獎?wù)律厦娴膱D案了。
我從事語言學(xué)研究已經(jīng)50多年了,在這50年中,我始而棄理學(xué)文,繼而棄文從理,后來又棄理從文,最后還是回到了語言學(xué)的隊(duì)伍,看來我與語言學(xué)之間,確實(shí)有一種割舍不斷的緣分。
1957年我第一次閱讀喬姆斯基的文章時,還是一個不諳世事的19歲小青年,喬姆斯基還是一個不滿30歲的年輕學(xué)者;現(xiàn)在,我已是年過70歲的白發(fā)蒼蒼的古稀老人,而喬姆斯基也已經(jīng)82歲了。2010年8月,喬姆斯基應(yīng)邀訪問北京,我和喬姆斯基見了面,我們這兩個老人一起合影留念。
我在喬姆斯基的影響下步入語言學(xué)的殿堂,曲曲折折地走了50多年,喬姆斯基可以說是我學(xué)習(xí)語言學(xué)的最早的啟蒙老師。我把我們的合影照附在這里,作為永遠(yuǎn)的紀(jì)念。
語言學(xué)是一門歷史悠久而博大精深的學(xué)問,50多年來,我主要是在數(shù)理語言學(xué)和計算語言學(xué)領(lǐng)域從事研究和學(xué)習(xí)。盡管我已年逾古稀,并且一天天地變老,但是,我50年來一直如癡如醉地鐘愛著的數(shù)理語言學(xué)和計算語言學(xué)依然是一門新興的學(xué)科,她還非常年輕,充滿了青春的活力,盡管她還比較幼稚嬌嫩,還不夠成熟,但是她無疑有著光輝的發(fā)展前景。我們個人的生命是有限的,而科學(xué)知識的探討和研究卻是無限的。我們個人渺小的生命與科學(xué)事業(yè)這棵常青的參天大樹相比較,顯得多么地微不足道,有如滄海之一粟。想到這些,怎不令我們感慨萬千!
“書山有路勤為徑,學(xué)海無涯苦作舟”,我們應(yīng)當(dāng)勤苦地工作,把個人有限的生命投入到無限的科學(xué)知識的探討和研究中去,從而實(shí)現(xiàn)人生的價值。
圖2 喬姆斯基與馮志偉合影留念(2010年8月14日)
附注:
① 《仏和詞典》是《法日詞典》的日語寫法。
② 當(dāng)時把文革中找不到工作的大學(xué)生叫做“舊教育制度的犧牲品,新教育制度的實(shí)驗(yàn)品,社會上的處理品”,簡稱為“三品學(xué)生”。
③ 丁石孫.1991.數(shù)學(xué)與教育[M].長沙:湖南教育出版社.
④ Feng Zhiwei, Analysis of Formation of Chinese Terms in Data Processing, Fraunhofer-Gesellschaft, Stuttgart, Germany, 1988.
⑤ KORTERM, 2001-2002 Collection of FORTERM Publication—in Honor of Professor Feng Zhiwei-, KAIST, Korea, 2002.