錢 鋒
一九六四年九月,由執(zhí)世界計算機牛耳的美國IBM公司資助,在該公司新設立的約克敦高地研究機構中召開了一次學術會議。這個會議的主題新穎而又大膽:要公開確認計算機這種先進工具在人文科學中占有一席之地。這在當時是一件吃力不討好的事:計算機剛問世十余年,機種和類型還很少,系列機IBM/360剛剛脫離實驗室的懷抱投入生產線,小型計算機還沒有為人知曉,要再過十年,世界上方才透出關于微型計算機的信息。這次會議的名稱也是空前絕后:“IBM文學數據處理會議”(IBMLiteravyDataProcessingCon-ference)。這時的人們,還處在發(fā)現計算機居然有著不可窮盡作用的巨大震驚之中;計算機,不論是在公開場合或是在日常交談中,還在被稱為“巨腦”(giantbrain)。這里的giant可說是一語雙關:一則以體形的巨,動輒就占了一間屋子;一則以能力的巨。這不用多說
在這次會議上,與會者懷著一種戰(zhàn)戰(zhàn)兢兢而又不無驕傲之感的心情,報告了他們把計算機用之于人文科學的工作。大部分研究工作集中在利用計算機編纂“勘靠燈”(Concordance)。這種東西即是呂叔湘先生所說的“‘索引,過去又叫‘通檢”,我們現在也叫逐詞索引。這種計算機索引的作用,也如呂叔湘先生所說,“可以在計算機上對語含工作者提出的任意字、詞、詞組、短語進行檢索,打印含有這些字、詞、詞組、短語的全句原文?!眳问逑嫦壬Q這種工作為“語含研究手段現代化”,“可以免除一大部分用手工搜集語言資料的勞動。對于研究文學的人,這樣一套索引,也將是很有用的”。計算機一進入文學研究的“大觀園”,所關注的就是這件研究手段現代化的大事。這件檢索鉤沉的事,以前一直是用手工做的,中國學者關在書齋里皓首窮經,外國學者也是如此,下的都是“笨功夫”,而且都頗以此為榮、為幸,在其中發(fā)現廣大的天地、無窮的樂趣。這種樂趣可能就是學者們經年累月、孜孜不倦工作的一種動力??梢耘e一個例子。姚納·楊(IoneDodsonYoung)用手工為英國詩人拜倫編了逐詞索引,整整用去了他二十五年的寶貴年華。難怪這套洋洋四卷的書在一九六五年正式出版時,他不無惋惜地說,這恐怕是手編逐詞索引的絕響了。我們這里還得要舉一個計算機編輯的例子。一九七五年有人進行了一次演示,一臺IBM公司的360/65計算機,打印美國現代小說家菲茨杰拉德的名著《偉人蓋茨比》(TheGreatGatsby)的全部逐詞索引,僅用了六分鐘!有人用計算機編制俄羅斯詩人奧西普·曼捷爾斯坦詩集的逐詞索引,加上事前編輯、編制和調試計算機程序的時間,也只用了二千個人時,即相當一年的時間。無怪乎書齋中的學者感到世風的日新月異,計算機取代手工的不可逆轉。但是,他們又感慨系之地說,手工編纂的許多樂趣,都將湮滅在沒有頭腦的機器中去了。
可以說,一九六四年IBM文學數據處理會議所昭示于世人的,正是這么一種勢頭。
隨著計算機在文科中應用的擴展,逐詞索引的概念也在擴大和進步。一九八五年在愛荷華州的格林尼爾和猶他州的普拉沃召開的兩次國際會議的兩個報告中,介紹了作為文學研究者智能工具的ETRA系統(tǒng),提出了隨機逐句索引(randomconcodance)的新概念。原來所有的書籍都是線性安排(linearorganization),這種組織當然是小說之為小說的唯一形式。但是,這對于研究者卻很不方便,線性次序把許多有用信息都掩蓋起來了。逐詞索引打破了原先的線性次序,運用信息的觀點,把信息的標引——詞和短語——取出來,并把每一信息標引下與之有關的所有有用信息——包含這個詞或短語的所有句子,一一列于這個信息標引之后,這樣,按詞或短語檢索與之有關的信息就方便了。但是,逐詞索引在打破原來的線性安排的同時,又引入了一種新的線性安排,這就是所有的詞或短語又形成了一種線性次序,要檢索到所需信息的詞或短語還得費一番折騰,也就是需要兩次檢索。隨機索引把這種線性也打破了。只要把需要其信息的詞或短語輸入,計算機就能在所存貯的有關文學作品中自動檢索,從而把包含這個詞或短語的句子打印出來。計算機編纂文學作品,甚至作家全集的逐詞索引,其方法是把這些作品用打鍵的方法輸送入計算機。這種以計算機存貯介質形式(media)出現的某一文學作品,我們稱之為文本庫(textbase)。用一套編制逐詞索引的軟件對這種文本庫進行加工,就能輸出自A到ZZZ(英文的最后一個詞,表示打鼾聲)的逐詞索引。
IBM文學數據處理會議前后,計算機應用于人文科學的另一個大宗是計算機用于辭典編纂。用計算機來編索引和編辭典,這兩種技術既有差別又有連系。編索引時只需要輸入(key-in)相應的文學作品。編辭典涉及全民語含,所以文本庫里應收入反映全民語含的語含素材;而且,關于某一詞或是短語所出現場合的句子,也應該是有關這個詞的全面的解釋。自那時以來,已經使用計算機編辭典的語種,包括英語、意大利語、荷蘭語,還包括古英語、中世英語、古蘇格蘭語、古西班牙語,甚至還有印第安語和藏語。最近,《牛津英語辭典》從英國政府和IBM公司雙方得到資助,將用計算機進行重編。計劃最大的是《法語語言寶庫辭典》(TrésordelaLangueFrancaise)。為了用計算機編纂,法國政府投資在南希大學建了一幢高樓。計劃中要把一千六百部完整的文學作品送入計算機,以便反映一七八九年法國大革命以來書面法語變化的全景和現狀。這數以千計的作品將首先用計算機編成逐詞索引。
計算機應用于文科初見成效,政府和工業(yè)界開始投資,反過來又刺激了研究人員薈萃之地——大學。有條件的大學紛紛設立了自己的計算機人文科學應用課題,他們既致力于某一專門論題的研究,又對這整個新興領域的繁榮作出貢獻。舉一些例子就可以看出,這種情況如何饒有興味,又洋洋大觀:法國盧萬大學研究宗教文獻,挪威卑爾根大學編制易卜生等挪威作家的逐詞索引,波恩大學編制康德的逐詞索引,這些大學都為此成立了專門的研究室或中心。這些中心都或緊或松地與大學新近建立的計算語言學(computationaltinguisties)系科聯系著。這是因為它們都須從計算語含學這門新興的高等學科中汲取指導思想和具體方法。另外,更多的大學雖沒有建立中心或研究所之類的專門機構,但往往是在一個學術上很活躍的教授領銜之下,組織課題小組研究。加州大學歐萬分校(UniversityofCalifornia,Irvine)的布魯納教授(Prof.T.F.Bruner)領導下的《希臘文薈》(The-saurusLingualGraecae),就是一個很好的例子?!段乃C》計劃把自荷馬開始到公元二○○年的所有現存希臘文著作都存入計算機中去。
這便又引出了計算機用于文科的另一個有趣課題:機器可讀文本(machine-readabletext)的建立。實際上,上面所說的逐詞索引、辭典等的編纂,都少不了要把相應的文字材料送入計算機,以磁性介質的形式存貯起來,這便是同一語言文字材料的機器可讀文本了。不但索引和辭典的編纂得用到機器文本;一旦有了它,也就可以利用其他專用的軟件對這些語含材料作各種分析處理。所以,機器文本的創(chuàng)建,雖說只是介質的轉換,其意義卻遠大于編輯出版一套古籍,而簡直是象大司務把菜都配好了,可以使您根據眾口的不同要求來烹調佳肴。正因為如此,機器文本本身也就成了一種研究事業(yè)。上面所談到的《法語語言寶庫辭典》、《希臘文薈》等,在一定意義上就是機器文本的問題。
計算機文科應用的另一個大有前途的領域,是在高等教育中的應用。但是,正象計算機在其他文科學科中的應用一樣,這在目前還沒有統(tǒng)一的理論,系統(tǒng)的方法;使用計算機來教大學的文科課程,也是見仁見智,各有千秋(Adhoc)。按作者的看法,統(tǒng)一的指導理論和系統(tǒng)的基本方法是絕對必要的,而且,首先得對這門科學有一個基本的界說,作者擬把計算機在文科教學(泛言之,理、工科教學也大致適用)的應用分成以學生為對象的(studentoriented)和以教師為對象的(teacheroriented)兩類。目前,國際上這方面的研究絕大部分集中在前者,而且多半又傾注于語言教學。例如,讓計算機給學生出各種操練題,學生就著計算機回答,然后計算機給出評分,等等。用計算機來代替教師,有著種種前所未有的好處,例如因材施教,學生可以根據自己的水平自定步調,計算機不會對后進學生“假以顏色”等等。但是,要讓計算機來代替教師的課堂教學活動,目前在模擬教師的智能活動方面還受著許多限制,同時,也還受著教育界某種感情上的排斥。以教師為對象的各項研究,其情況就不同了,但卻還沒有象前者那樣普及,特別沒有作為一個獨立的研究方面提出。前面所提到的ETRA系統(tǒng),就是把一個語言教師(包括文學語言研究者)的某些智力勞動加以形式化,抽象出算法,并用計算機程序加以實現。在建立了機器文本的條件下,ETRA可以幫助語言教師分析課文、選取例句和搭配關系,作統(tǒng)計等等,從而減輕了教師的手工勞動。
計算機在文科的應用應當說僅僅是開始,發(fā)展下去,前途無窮。中國的文科學者,萬勿忽視這一工具!