秦曉惠
“眾源方式”(crowdsourcing,一般譯作“眾包技術(shù)”)是由“crowd”和“outsourcing”組成的合并詞,最早由杰夫·豪(Howe 2006)提出,最初指企業(yè)(the crowdsourcer)通過公開呼吁調(diào)動和利用大眾(the crowd)的創(chuàng)意和能力,是勞動力組織的一種全新模式。“眾源方式”早期主要應(yīng)用于商業(yè)領(lǐng)域,如軟件業(yè)、服務(wù)業(yè)等,現(xiàn)已廣泛應(yīng)用于文化、地理、教育、醫(yī)學(xué)、語言等社會各個領(lǐng)域。在“眾源方式”項(xiàng)目中,廣大志愿者和業(yè)余人員,愿意利用空余時(shí)間工作,滿足于獲得小額報(bào)酬,或者暫無報(bào)酬,僅僅獲得精神滿足。從更廣泛的意義上來說,利用群體智慧完成某項(xiàng)任務(wù)或某個項(xiàng)目,都可以稱作“眾源方式”。
約翰霍普金斯大學(xué)的語言技術(shù)中心及言語處理中心(Human Language Technology Center of Excellence&Center for Language and Speech Processing)是“眾源方式”在語言學(xué)中應(yīng)用的最前沿研究中心。該中心致力于以“眾源方式”為技術(shù)核心的亞馬遜土耳其機(jī)器人(Amazon Mechanical Turk)的研究,主要探討其在大規(guī)模自然語言處理和機(jī)器翻譯中的應(yīng)用,重點(diǎn)強(qiáng)調(diào)了其在高效、低價(jià)收集海量數(shù)據(jù),建立大型語料庫等方面的優(yōu)勢(Callison-Burch&Dredze 2010)。本文擬探討“眾源方式”在語言學(xué),尤其是在詞典學(xué)上的應(yīng)用?!氨娫捶绞健钡母拍铍m說近年才被提出,但其核心理念在詞典學(xué)上卻可以追溯到19世紀(jì)。1838年由格林兄弟(Brothers Grimm)著手編纂的《德語大詞典》[1](Deutsches Wrterbuch)可以看作“眾源方式”在詞典編纂中最早的應(yīng)用。作為歐洲大陸第一部真正意義上的歷史主義詞典,該詞典招募了83位志愿者,承擔(dān)閱讀文獻(xiàn)、收集詞條引語的任務(wù)。
受《德語大詞典》的激勵和啟發(fā),基于民族自豪感和自尊心的驅(qū)動[2],《牛津英語詞典》第一版(Oxford English Dictionary1stEdition,1857—1928)于1857年由英國語文學(xué)會(Philological Society)的理查德·特倫奇(Richard Trench)正式發(fā)起。在宣讀題為“關(guān)于我們英語詞典中的若干缺陷”(“Some Deficiencies in Our English Dictionaries”)的報(bào)告時(shí)[3],特倫奇提出編纂一部呈現(xiàn)英語詞匯全貌的《新英語詞典》[4]的設(shè)想——即展現(xiàn)英語文獻(xiàn)中出現(xiàn)的每個英語詞來源、發(fā)展和現(xiàn)狀的完整歷史[5]。西方語文學(xué)及英語詞典史上的登峰造極之作《牛津英語詞典》由此緣起。這部基于歷史主義原則的鴻篇巨制,經(jīng)歷了70余年的編纂歷程。期間雖歷經(jīng)坎坷,主編幾易,但無數(shù)默默無聞的志愿者出于對英語的熱愛,貢獻(xiàn)了數(shù)百萬個詞條信息,成為《牛津英語詞典》最堅(jiān)固的基石[6]。
1857年,特倫奇在提出《新英語詞典》編纂設(shè)想時(shí)指出:“通過一大批人攜手加入到這項(xiàng)事業(yè)中來,拉開一面大網(wǎng),把無數(shù)隱匿于英語文獻(xiàn)中的詞匯收羅其中?!?轉(zhuǎn)引自Murray 1979:136)同年,在特倫奇的號召下,語言學(xué)會正式啟動了“閱讀計(jì)劃”(Reading Program),號召義務(wù)讀者(Volunteer Reader)通過閱讀已有英文文獻(xiàn)來記錄“非同尋?!钡脑~匯。大眾的反應(yīng)很熱烈,到年底時(shí),已有76位志愿者完成了121本著作的閱讀和引語摘錄。特倫奇宣讀報(bào)告兩年后,語文學(xué)會正式通過了《語文學(xué)會對出版〈新英語詞典〉的建議》(Proposal for the Publication of a New English Dictionary by the Philological Society),將文獻(xiàn)閱讀范圍限定于18、19世紀(jì)主要作家以及更早期所有作家的作品。
1860年,時(shí)任威斯敏斯特教堂(Westminster Abbey)教長的特倫奇由于教區(qū)事務(wù)繁忙,無法分身,便將編纂工作托付給了赫爾伯特·柯爾律治(大詩人塞繆爾·泰勒·柯爾律治的孫子),這位實(shí)際意義上的大詞典首任主編(盡管一些正式出版物中這一身份很少被明確)。他年輕有為但卻體弱多病。盡管他只主持了詞典項(xiàng)目一年多便因受風(fēng)寒病故,但是對未來編纂工作的影響卻是深遠(yuǎn)的。他起草了《編纂語文學(xué)會的新英語詞典時(shí)應(yīng)遵循的規(guī)則》(Canones Lexicograhici;or,Rules To Be Observed in Editing the New English Dictionary of the Philological Society),奠定了大詞典的編纂基礎(chǔ)。他將“閱讀計(jì)劃”中所涉及的書籍分為三部分:(1)1250年到1526年第一本英譯《新約全書》問世期間出版的書籍[7];(2)1526年到1647年彌爾頓去世期間出版的書籍;(3)1647年到1858年該詞典項(xiàng)目正式啟動之前出版的書籍。這三個時(shí)期在他看來分別代表中古英語(Middle English)、早期現(xiàn)代英語(Early Modern English)和現(xiàn)代英語(Modern English)(Berg 1993:101,164)。
柯爾律治制訂了最早的詞目表,列出了所有他認(rèn)為應(yīng)該收錄的語詞。他還規(guī)范了引文卡片的格式:紙張為書寫紙的一半大小,詞目詞須寫在卡片左上方,引語須寫在其下方,后接引文出處和出版信息,且每張卡片只限抄錄一條引文。這種基本格式除后來有部分細(xì)微調(diào)整外,一直沿用于大詞典整個編纂過程。他還為后人留下了自己獨(dú)創(chuàng)的有形資產(chǎn)——54格橡木鴿籠式分類資料架(pigeonholes),豎排6格,橫排9格,用來按字母順序存放義務(wù)讀者的引文資料卡。整個資料架長260英尺,可容納10萬張引文卡[8]。這項(xiàng)寶貴的遺產(chǎn)被第三任主編、也是整個詞典項(xiàng)目的核心人物詹姆斯·默里(James Murray)繼承發(fā)揚(yáng),當(dāng)然規(guī)模擴(kuò)大了幾十倍。
1861年,柯爾律治去世后不久,語文協(xié)會秘書長弗雷德里克·弗尼瓦爾接任主編。弗尼瓦爾愛好廣泛,精力充沛,卻缺乏條理。盡管由于他的反復(fù)無常和判斷失誤,大詞典工程幾乎擱淺,但整個項(xiàng)目能夠幸存和完成卻在很大程度上歸功于他的執(zhí)著和熱情。他的貢獻(xiàn)之一在于將“閱讀計(jì)劃”的范圍擴(kuò)展,認(rèn)為“不光是有價(jià)值的詞,所有的成員包括那些弱勢詞和小詞”都應(yīng)被囊括到在建的詞庫中:“將我們的門大大敞開!所有的書證,不是一條兩條,而是所有的都要進(jìn)來!”(轉(zhuǎn)引自Murray 1979:137)他排除了只重古典作家的偏見,將報(bào)刊出版物納入“閱讀計(jì)劃”的書目,認(rèn)為報(bào)刊同樣是有價(jià)值的語料來源。他留下的寶貴財(cái)產(chǎn)之一是1864年建立的早期英語文稿學(xué)會(Early English Text Society),旨在為大詞典提供早期和中古英語的文獻(xiàn)作品。他本人也不斷為大詞典提供引文例證,到1888年,他本人貢獻(xiàn)的引文卡數(shù)量達(dá)到了3萬張(Gilliver 2000:238)。他還擴(kuò)展了編輯隊(duì)伍,建立了一個新級別的編輯人員隊(duì)伍——他稱之為“義務(wù)分編”(subeditor),主要承擔(dān)引文卡分類整理等基礎(chǔ)性編纂工作。巨大的工作熱情不代表高效的工作成果。由于弗尼瓦爾興趣多變、無組織才能,大批的義務(wù)讀者和義務(wù)分編開始失去信心,并撤出了詞典項(xiàng)目。大詞典命運(yùn)未卜,直到詹姆斯·默里出現(xiàn),才將它從瀕臨破產(chǎn)的邊緣挽救回來并將其推向最終的勝利。
1879年,詹姆斯·默里正式成為第三任主編。直到1915年去世,他的大半生都奉獻(xiàn)給了大詞典項(xiàng)目。他自學(xué)成才,學(xué)識淵博,沉穩(wěn)勤奮,是大詞典主編最理想的人選。在他的管理和監(jiān)督下,“閱讀計(jì)劃”和志愿者的參與得以系統(tǒng)化和科學(xué)化。默里接手后的第一項(xiàng)任務(wù)是整理前兩任主編收集的海量引文例證卡。經(jīng)過20年的積累,這些卡片陳舊不堪,殘缺不全,雜亂無章,其混亂的狀況令人震驚[9]。默里在住所的后花園建了一個鐵制的活動房,用來收納從各地運(yùn)來的卡片,這就是著名的“繕寫室”(Scriptorium)[10]。他將鴿籠式分類資料架擴(kuò)展到了1029只。在對卡片分類整理的過程中,默里發(fā)現(xiàn),義務(wù)讀者更熱衷于罕見語詞引文的收集,而忽略了普通英語詞匯的收集[11]。同時(shí),一大批重要作品有待被分配選讀。為挽救局勢,默里起草了對整個“閱讀計(jì)劃”具有里程碑意義的《請求廣大英語使用者為語文學(xué)會的新詞典閱讀書籍和選取摘錄的呼吁書》(Appeal to the English-Speaking and English-Reading Public to Read Books and Make Extracts for the Philological Society's New Dictionary,以下簡稱《呼吁書》)。《呼吁書》附上了須查閱書目的清單,統(tǒng)一了選詞標(biāo)準(zhǔn),規(guī)范了卡片的體例和引證的格式,使得資料收集工作有了質(zhì)的改變?!逗粲鯐繁环职l(fā)到所有英語國家的書店和圖書館中,激發(fā)了無數(shù)讀者對英語的熱愛,他們貢獻(xiàn)的數(shù)百萬詞條引文信息為大詞典編纂提供了最重要的材料基礎(chǔ)。
有功于大詞典的志愿者有來自大學(xué)、研究院、協(xié)會的教授、學(xué)者,有各個學(xué)科領(lǐng)域的頂尖專家、功成名就的知名人士,更多的則是來自各行各業(yè)的普通從業(yè)人員。他們不僅擔(dān)任義務(wù)讀者的角色,還承擔(dān)了分編、次分編(re-subeditor)及清樣校對等工作,無私地貢獻(xiàn)時(shí)間和精力。默里對分編者和次分編者的責(zé)任做了明確規(guī)定:前者主要負(fù)責(zé)將引文卡按字母順序排列,將同一詞條按不同詞性分類,對引語例證進(jìn)行初步的語義分類;由于新的卡片源源不斷地輸送進(jìn)來,分編分類安排好引文卡片后,次分編負(fù)責(zé)評估新卡片信息并對原有的安排進(jìn)行適度調(diào)整。很多默里的好友、知識界的權(quán)威人士都承擔(dān)了清樣校對的工作,其中最出色的代表當(dāng)屬菲茨愛德華·霍爾(Fitzedward Hall),一位來自美國、隱居于英國的隱士[12]。自1881年起,他二十年如一日,每天至少花四個小時(shí)認(rèn)真檢查和校對大詞典的清樣,其他時(shí)間則用來閱讀文獻(xiàn)和收集例證。1901年霍爾故去后,默里在第六卷的序言中寫道:“我們不能不對他的辭世懷有最深的遺憾……他為這部大詞典迄今為止所出版的所有分冊的編寫工作都提供了非常有價(jià)值的幫助?!绷硪晃粊碜悦绹木哂袀髌嫔实牧x務(wù)讀者威廉·切斯特·邁納(William Chester Minor),是大詞典最多產(chǎn)的義務(wù)讀者之一,他也是位犯有殺人罪的精神病罪犯[13]。與霍爾不同的是,他的主要貢獻(xiàn)是文獻(xiàn)閱讀和摘錄引文例證。默里曾這樣熱情洋溢地稱贊邁納:
這個最高的榮譽(yù)……無疑非布羅德莫的邁納醫(yī)生莫屬。在過去的兩年中,他送來了不下1.2萬條例證。這些幾乎都是我和布拉德先生正在編寫的詞條所需的例證……邁納醫(yī)生在過去的十七八年中所做的貢獻(xiàn)是如此巨大,單從他的例證,我們便可描述過去四百年的語詞使用情況。(Winchester 1999:182)
由特倫奇發(fā)起,經(jīng)柯爾律治和弗尼瓦爾推行,默里規(guī)范完善的“閱讀計(jì)劃”和大眾參與方式得到了充分的沿續(xù)和發(fā)展[14]。1928年,歷經(jīng)71年艱苦卓絕的勞動,這部卷帙浩繁的十卷大詞典的最后一卷終于編訂完成。1933年由克雷吉和奧尼恩斯主編,根據(jù)默里的編寫思路和方法編纂的一卷大詞典補(bǔ)編(OED First Supplement)問世。之后,由于戰(zhàn)爭等各種原因,“閱讀計(jì)劃”一度擱淺,所有的引文例證也被封存。1957年,羅伯特·伯奇菲爾德(Robert Burchfield)主持大詞典的補(bǔ)編本編纂工作,重新啟用了“閱讀計(jì)劃”。大詞典補(bǔ)編四卷(OED Second Supplement)分別于1972年、1976年、1982年及1986年陸續(xù)出版。1989年,二十卷本《牛津英語詞典》第二版正式出版。該詞典借助現(xiàn)代計(jì)算機(jī)技術(shù),對上述三個版本的詞典文本進(jìn)行了電子化整合,并加入了5000條新詞新義。目前,應(yīng)用互聯(lián)網(wǎng)技術(shù)的大詞典第三版(也稱OED Online)的編纂工作正在進(jìn)行。歷經(jīng)不同的編纂時(shí)期,“眾源方式”的技術(shù)和手段也不斷發(fā)展,日趨成熟。如果說在第一版中大眾主要通過“信件”郵寄“引文卡片”,儲存在“鴿籠式分類資料架”的方式參與編輯,今天,在第三版中,“眾源方式”已經(jīng)發(fā)展為通過“電子郵件”發(fā)送“電子文檔”,儲存在“引文數(shù)據(jù)庫系統(tǒng)”。而通過這種方式,世界各地的義務(wù)讀者每年為該項(xiàng)目提供約60萬條引文例證(Berg 1993:164,165)。“眾源方式”在這部英語詞典編纂史上最偉大的作品中得到了完美的沿續(xù)和發(fā)展。
附 注
[1]19世紀(jì),比較語文學(xué)在歐洲大陸興起。德國格林兄弟的《德語大詞典》和法國 mile Littré的《法語大詞典》(Dictionnaire de la langue franaise)是語文學(xué)在詞典學(xué)領(lǐng)域的代表性成就?!杜=蛴⒄Z詞典》號召志愿者參與的設(shè)想就是借鑒《德語大詞典》的做法,因此筆者認(rèn)為該詞典是“眾源方式”在詞典編纂中的最早應(yīng)用。
[2]事實(shí)上,《牛津英語詞典》項(xiàng)目的提出在很大程度上是為了趕超歐洲大陸在比較語文學(xué)上的成就,重新恢復(fù)英國的國家榮譽(yù)。
[3]特倫奇分別于1857年11月5日和19日向語文學(xué)會宣讀了該文。1860年由倫敦John W.Parker&Sons再版。
[4]《牛津英語詞典》最初以“根據(jù)歷史原則并主要基于語言學(xué)會所收集的資料而編纂的新英語詞典”(“A New English Dictionary on Historical Principles,F(xiàn)ounded Mainly on Materials Collected by the Philological Society”)之名出版(1884—1928),1933年再版時(shí)正式更名為Oxford English Dictionary。
[5]在后來的編纂過程中,由于語言的無界性、新詞的不斷涌現(xiàn)、版面的限制、時(shí)間的壓力等一系列因素,無法實(shí)現(xiàn)這一理想的目標(biāo)。也可以說,《牛津英語詞典》的編纂過程是理想與現(xiàn)實(shí)不斷磨合的過程。
[6]義務(wù)讀者前后一共為大詞典項(xiàng)目貢獻(xiàn)了500多萬條引語例證,其中180多萬條被大詞典收錄。
[7]將引文例證的年限定在1250年后的做法后來被摒棄,大詞典選用的例證最早是公元9世紀(jì)的。
[8]柯爾律治對大詞典的規(guī)模顯然估計(jì)不夠,這個數(shù)字跟后來實(shí)際引用的180萬條例證相比少得可憐。
[9]默里曾在裝引文卡的麻袋里發(fā)現(xiàn)了幾只老鼠。很多麻袋因?yàn)槌睗穸l(fā)霉,很多資料因?yàn)榱x務(wù)讀者的離世而丟失。
[10]盡管其他人傾向于把這個潮濕的小房子稱為“工棚”,默里仍決定將其命名為“繕寫室”,用古代僧侶整理神圣手稿的屋子名稱來美化它。
[11]默里曾提到:“這樣一來,abusion一詞,我們在引文卡資料中就找到了約50條例證,而(很常用的)abuse一詞的例證還不到5個”(轉(zhuǎn)引自Murray 1979:178)。
[12]霍爾曾在倫敦國王學(xué)院出任梵文和印度法學(xué)教授職務(wù)。1869年因卷入一場嚴(yán)重的學(xué)術(shù)紛爭而被趕出語文學(xué)會,并被指責(zé)為學(xué)術(shù)騙子。霍爾與家人逃到了東英吉利一個名叫威克漢姆集市的村子落腳。一年后,家人離開了他。他的余生就過起了隱士的生活,以后的32年中幾乎足不出戶。
[13]邁納曾是美國軍醫(yī),參加過內(nèi)戰(zhàn),后因精神分裂被送到倫敦療養(yǎng)。1872年因病情發(fā)作開槍打死一名無辜的工人,之后由布羅德莫精神病院監(jiān)管。在囚室的20余年間,堅(jiān)持不懈地為大詞典工作。
[14]為了加快詞典編纂進(jìn)度,牛津大學(xué)出版社分別于1888年、1901年和1914年指定亨利·布拉德(Henry Bradley)、威廉·克雷吉(William Craigie)和查爾斯·奧尼恩斯(Charles Onions)三位主編。
1.Berg D L.A Guide to the Oxford English Dictionary.Oxford:Oxford University Press,1993.
2.Callison-Burch C,Dredze M.Creating Speech and Language Data with Amazon's Mechanical Turk.Paper Presented at the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk,2010.
3.Gilliver P.OED Personalia.∥Mugglestone L.(Ed.)Lexicography and the Oxford English Dictionary:Pioneers in the Untrodden Forest.Oxford:Oxford University Press,2000:232—252.
4.Howe J.The Rise of Crowdsourcing.Wired Magazine,2006(6):1—5.
5.Murray K M E.Caught in the Web of Words:James A.H.Murray and the Oxford Engish Dictionary.Oxford:Oxford University Press,1979.
6.Winchester S.The Professor and the Madman:A Tale of Murder,Insanity,and the Making of the Oxford English Dictionary.New York:Harper Perennial,1999.