江烈農(nóng)
我們主要是搞自然語(yǔ)言處理,涉及相關(guān)語(yǔ)言繁多。過(guò)去6個(gè)月,我們研究的語(yǔ)言有(深呼吸):英語(yǔ)、葡萄牙語(yǔ)(巴西葡萄牙語(yǔ)及葡萄牙本地語(yǔ))、西班牙語(yǔ)、意大利語(yǔ)、法語(yǔ)、俄語(yǔ)、德語(yǔ)、土耳其語(yǔ)、阿拉伯語(yǔ)、日語(yǔ)、希臘語(yǔ)、漢語(yǔ)普通話、波斯語(yǔ)、波蘭語(yǔ)、荷蘭語(yǔ)、瑞典語(yǔ)、塞爾維亞語(yǔ)、羅馬尼亞語(yǔ)、韓語(yǔ)、匈牙利語(yǔ)、保加利亞語(yǔ)、印地語(yǔ)、克羅地亞語(yǔ)、捷克語(yǔ)、烏克蘭語(yǔ)、芬蘭語(yǔ)、希伯來(lái)語(yǔ)、烏爾都語(yǔ)、加泰羅尼亞語(yǔ)、斯洛伐克語(yǔ)、印尼語(yǔ)、馬來(lái)語(yǔ)、越南語(yǔ)、孟加拉語(yǔ)、泰語(yǔ),以及一點(diǎn)拉脫維亞語(yǔ)、愛(ài)沙尼亞語(yǔ)、立陶宛語(yǔ)、庫(kù)爾德語(yǔ)、約魯巴語(yǔ)、阿姆哈拉語(yǔ)、祖魯語(yǔ)、豪薩語(yǔ)、哈薩克語(yǔ)、信德語(yǔ)、旁遮普語(yǔ)、他加祿語(yǔ)、宿霧語(yǔ)、丹麥語(yǔ)和納瓦霍語(yǔ)。
自然語(yǔ)言處理(Natural Lan-
guage Processing,下稱 NLP)就是要找到語(yǔ)言的模式。例如:錄入大量非結(jié)構(gòu)化的文本,自動(dòng)從中抽離結(jié)構(gòu)。NLP 有一個(gè)公開(kāi)的秘密:它極以英語(yǔ)為中心。英語(yǔ)無(wú)疑是語(yǔ)言學(xué)家研究最多的一門(mén)語(yǔ)言,于計(jì)算機(jī)科學(xué)項(xiàng)目而言,也是具有最多可用資源的一門(mén)語(yǔ)言(就計(jì)算機(jī)科學(xué)而言,數(shù)據(jù)總是越多越好)。因此,測(cè)試一個(gè) NLP 系統(tǒng)的最佳方式之一,就是換用不是英語(yǔ)的語(yǔ)言來(lái)測(cè)試。一個(gè)系統(tǒng)處理多樣化數(shù)據(jù)的能力越強(qiáng),那么其應(yīng)付未預(yù)見(jiàn)數(shù)據(jù)的能力,也就更令人有信心。
為此,我們也許可以選擇去根據(jù)英語(yǔ)的特性來(lái)定義“怪異度”。但是,這樣的定義可是相當(dāng)令人惱火。所以咱們來(lái)試試換一種方法吧。
縱觀全球,糾出“語(yǔ)言異類(lèi)”
語(yǔ)言結(jié)構(gòu)世界地圖(World
Atlas of Language Structures,
下稱 WALS)根據(jù)一大堆各種語(yǔ)言特征,評(píng)估 2676 種不同的語(yǔ)言。這些語(yǔ)言特征包括詞序、聲音種類(lèi)、否定方式,以及許多其他方面—共計(jì) 192 種不同的語(yǔ)言特征。
因此,與其采用一個(gè)以英語(yǔ)為中心的世界觀,WALS 毋寧允許我們換用一個(gè)世界性的世界觀。也就是說(shuō),我們?cè)u(píng)估每一門(mén)語(yǔ)言,根據(jù)的都是其每種語(yǔ)言特征的不尋常度。例如,英語(yǔ)的詞序是“主語(yǔ)—?jiǎng)釉~—賓語(yǔ)”, WALS 對(duì) 1377 種語(yǔ)言的詞序進(jìn)行編碼,其中 35.5% 具有“主動(dòng)賓”詞序。同時(shí),只有 8.7% 的語(yǔ)言以動(dòng)詞作為起始,比如威爾士語(yǔ)、夏威夷語(yǔ)和馬揚(yáng)語(yǔ)(Majang)。因此,從跨語(yǔ)言學(xué)角度講,以動(dòng)詞作為起始,就是不尋常。另外順帶一提,實(shí)際上全世界語(yǔ)言有 41.0% 是“主賓動(dòng)”順序。(題外話:從事了一些夏威夷語(yǔ)和馬揚(yáng)語(yǔ)的相關(guān)工作后,動(dòng)詞對(duì)我而言,簡(jiǎn)直就變成如結(jié)婚般重大的承諾:每每開(kāi)口,我卻總是還沒(méi)有做好準(zhǔn)備。)
WALS 的數(shù)據(jù)相當(dāng)稀疏,所以我們把研究限定于 165 種語(yǔ)言特征,這些特征至少要包含 100 種不同語(yǔ)言的數(shù)據(jù)。(現(xiàn)階段,就這 165 種語(yǔ)言特征而言,數(shù)據(jù)不足其中 10 種的語(yǔ)言,我們也剔除掉了。因此共計(jì)還剩 1693 種語(yǔ)言。)
現(xiàn)在,有個(gè)問(wèn)題就是,如果我們的篩選到此為止,那么數(shù)據(jù)共線性太高。之所以如此,部分是因 WALS 中列舉的語(yǔ)言特征本質(zhì)而決定—有整體考量“主語(yǔ)/動(dòng)詞/賓語(yǔ)”順序的特征項(xiàng),另又有分別考量“賓語(yǔ)/動(dòng)詞”和“主語(yǔ)/動(dòng)詞”的項(xiàng)。理想情況下,我們希望基于不相關(guān)的特征評(píng)斷怪異度。我們可以集中關(guān)注互相之間沒(méi)有很強(qiáng)相關(guān)度的語(yǔ)言特征(在兩種互相關(guān)聯(lián)的特征中,我們選擇有更多語(yǔ)言編碼的特征)。最終我們篩得總計(jì) 21 種語(yǔ)言特征。
至于某種語(yǔ)言的每項(xiàng)數(shù)據(jù)值,我們考量其他所有具備該項(xiàng)編碼的語(yǔ)言,計(jì)算該項(xiàng)值的相對(duì)頻度。因此,如果我們把“主語(yǔ)—賓語(yǔ)—?jiǎng)釉~”詞序也算進(jìn)來(lái)的話,那么英語(yǔ)得到的怪異度值就會(huì)是 0.355(實(shí)際上,我們根據(jù)每項(xiàng)語(yǔ)言特征的整體熵值對(duì)所有數(shù)據(jù)值統(tǒng)一化處理,所以這個(gè)值本身并不正好就是 0.355,但你懂這意思就行了)。因此,得到的“怪異度指數(shù)”(Weirdness Index),就是一項(xiàng)交叉考量 21 種獨(dú)特結(jié)構(gòu)特征的平均值。但是,因?yàn)椴煌奶卣鞑杉瘮?shù)值的數(shù)量不同,我們?yōu)榱藴p少統(tǒng)計(jì)偏斜,實(shí)際上取了調(diào)和平均值(又因?yàn)槲覀兿M皵?shù)字越大=越怪異”,所以終值是用 1 減去這個(gè)平均值)。本篇博文我匯報(bào)所涉及的語(yǔ)言,就這 21 項(xiàng)語(yǔ)言特征而言,至少三分之二(即 14 項(xiàng))具有數(shù)據(jù)值(即 239 種語(yǔ)言)。
答案揭曉:全世界最怪異的語(yǔ)言是——
與全世界大多數(shù)語(yǔ)言最不同的語(yǔ)言,是一種以動(dòng)詞起句的聲調(diào)語(yǔ)言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫“恰卡通戈米斯特克語(yǔ)”(Chalcatongo Mixtec),又名“大圣米格爾米斯特克語(yǔ)”(San Miguel el Grande Mixtec)。第二名在西伯利亞有 2.2 萬(wàn)人使用:涅涅茨語(yǔ)(Nenets)—英文里“派克大衣”或稱毛皮風(fēng)雪大衣(parka)一詞就來(lái)源于這種語(yǔ)言。第三名是喬克托語(yǔ)(Choctaw),約有 1 萬(wàn)人使用,大多在美國(guó)俄克拉荷馬州。
但是,難就難在這兒了—有些實(shí)際上最怪異的語(yǔ)言,是你聽(tīng)說(shuō)過(guò)的:德語(yǔ)、荷蘭語(yǔ)、挪威語(yǔ)、捷克語(yǔ)、西班牙語(yǔ),以及漢語(yǔ)普通話。而且,實(shí)際上英語(yǔ)在“語(yǔ)言怪異度指數(shù)”(Language Weirdness Index)表中也位列第 33 名。
世界上最怪異的 25 種語(yǔ)言:北美洲的,恰卡通戈米斯特克語(yǔ)、喬克托語(yǔ)、大梅薩迪埃格諾語(yǔ)(Mesa Grande Diegue?o)、庫(kù)特奈語(yǔ)(Kutenai)、索克語(yǔ)(Zoque);南美洲的,帕烏瑪利語(yǔ)(Paumarí)、特魯邁語(yǔ)(Trumai);澳洲暨大洋洲的,皮詹加加拉語(yǔ)(Pitjantjatjara)、拉伍卡萊維語(yǔ)(Lavukaleve);非洲的,哈勒爾奧羅莫語(yǔ)(Harar Oromo)、伊拉庫(kù)語(yǔ)(Iraqw)、剛果語(yǔ)、穆穆耶語(yǔ)(Mumuye)、祖候語(yǔ)(Ju|'hoan)、科伊科伊語(yǔ)(Khoekhoe);亞洲的,涅涅茨語(yǔ)、東亞美尼亞語(yǔ)、阿布哈茲語(yǔ)、拉達(dá)克語(yǔ)、普通話;以及歐洲的:德語(yǔ)、荷蘭語(yǔ)、挪威語(yǔ)、捷克語(yǔ)和西班牙語(yǔ)。
順帶一提,皮詹加加拉語(yǔ)(Pitjantjatjara),這名字還能更牛嗎?(另外,你能猜出這個(gè)拉丁化拼寫(xiě)中哪個(gè)音節(jié)不發(fā)音嗎?*)
以兩項(xiàng)特征為例:?jiǎn)柧渑c代詞
“這很怪。這很怪嗎?”
(This is odd. Is this odd?)區(qū)分各種語(yǔ)言的特征之一,是“是非問(wèn)句”的提問(wèn)方式。絕大多數(shù)語(yǔ)言都有特別的疑問(wèn)語(yǔ)助詞,添加在句中某處(例如日語(yǔ)問(wèn)句句末的“か”[ka])。在 WALS 中,有 954 種語(yǔ)言具有這項(xiàng)值的編碼,其中 584 種有疑問(wèn)語(yǔ)助詞。(譯注:又如本段段首的普通話提問(wèn)方式,添加語(yǔ)助詞“嗎”實(shí)現(xiàn)簡(jiǎn)單疑問(wèn)句提問(wèn)。)但像英語(yǔ)那樣的提問(wèn)方式,即調(diào)換詞序,其比例在所有語(yǔ)言中僅為 1.4%。也就是說(shuō),一共只有 13 種語(yǔ)言采用這樣的方式,而它們大部分都是歐洲語(yǔ)言:德語(yǔ)、捷克語(yǔ)、荷蘭語(yǔ)、瑞典語(yǔ)、挪威語(yǔ)、弗里西亞語(yǔ)、英語(yǔ)、丹麥語(yǔ)和西班牙語(yǔ)。
但還有一種語(yǔ)言,其是非問(wèn)句的提問(wèn)方式更加不走尋常路,那就是恰卡通戈米斯特克語(yǔ):提問(wèn)時(shí),什么都不變。我們調(diào)查所涉及語(yǔ)言中,唯有這種語(yǔ)言提問(wèn)時(shí)沒(méi)有疑問(wèn)語(yǔ)助詞,沒(méi)有詞序調(diào)換,沒(méi)有語(yǔ)調(diào)變換……這種語(yǔ)言就“是否”提問(wèn)時(shí),以及作簡(jiǎn)單陳述時(shí),講話真的是毫無(wú)任何區(qū)別。我花了好些時(shí)間,想象用這種語(yǔ)言做電視游戲節(jié)目會(huì)是什么樣。
語(yǔ)言還需應(yīng)付的另一個(gè)問(wèn)題,是如何處理簡(jiǎn)單主語(yǔ)代詞,比如“我”(I)、“他們/她們/
它們”(they)、“它”(it)。這些詞稱為“代詞主語(yǔ)”(而像“有關(guān)部門(mén)負(fù)責(zé)人含糊其辭”這樣的說(shuō)法則是使用了名詞主語(yǔ))。最通常的做法,是將代詞信息附加到動(dòng)詞上—所調(diào)查的 711 中語(yǔ)言中有 437 中語(yǔ)言采用這樣的做法,如西班牙語(yǔ)、意大利語(yǔ)和葡萄牙語(yǔ)。但是,荷蘭語(yǔ)、德語(yǔ)和挪威語(yǔ),與英語(yǔ)一樣,寧可使用特別的主語(yǔ)代詞,而這些代詞通?!虮仨殹诰渲谐霈F(xiàn)。不過(guò),在 WALS 有編碼的 711 種語(yǔ)言里,也只有 82 種語(yǔ)言采用這樣的處理方法。庫(kù)特奈語(yǔ)(加拿大不列顛哥倫比亞省有 100 人使用)和穆穆耶語(yǔ)(尼日利亞有 40 萬(wàn)使用者)的處理方法更不尋常:它們有類(lèi)似主語(yǔ)代詞的東西,但其在句法中的位置,則與完整名詞性短語(yǔ)的位置不同。而比這還更不尋常的,又是恰卡通戈米斯特克語(yǔ):這種語(yǔ)言混合多種不同策略,所以既有附著在動(dòng)詞上的主語(yǔ)標(biāo)記,又有代詞,而且這些代詞在句中出現(xiàn)的位置,還與完整名詞短語(yǔ)不同。
世界上最“不怪異”的語(yǔ)言
如果我現(xiàn)在請(qǐng)你考慮一下以下這幾種語(yǔ)言,你覺(jué)得它們有多怪呢?立陶宛語(yǔ)、印尼語(yǔ)、土耳其語(yǔ)、巴斯克語(yǔ),以及粵語(yǔ)。嚇一跳吧!它們的怪異指數(shù)排名相當(dāng)?shù)湍?。?duì)于語(yǔ)言學(xué)家和語(yǔ)言學(xué)習(xí)者而言,這幾種語(yǔ)言可能并不顯得典型;但就我們研究的 21 種語(yǔ)言特征而言,它們相當(dāng)隨大流。請(qǐng)注意,在怪異度各級(jí)分布中,我們有一些孤立語(yǔ)言(比如巴斯克語(yǔ))。巴斯克語(yǔ)很“典型”;但是另一種孤立語(yǔ)言,庫(kù)特奈語(yǔ),則相當(dāng)怪異。更令人驚訝的是,漢語(yǔ)普通話名列 25 大最怪異語(yǔ)言,但粵語(yǔ)卻棲身倒數(shù)十大。這與二者發(fā)音系統(tǒng)不同有關(guān):與粵語(yǔ)不同的是,普通話有小舌延續(xù)音(uvular continuants),而且在軟腭鼻音方面有一些局限(普通話同英語(yǔ)類(lèi)似,可以發(fā)出英語(yǔ)“song”詞尾的那個(gè)音,比如漢語(yǔ)“頌”[sòng];但無(wú)法將這個(gè)尾音置于單詞的詞首發(fā)音—世界性地來(lái)看,這個(gè)特定限制實(shí)屬罕見(jiàn)。)
而在怪異指數(shù)列表最末尾的幾種語(yǔ)言里,有兩種你聽(tīng)過(guò),有 3 種你可能沒(méi)聽(tīng)過(guò):匈牙利語(yǔ),
通常享有“語(yǔ)言學(xué)異類(lèi)”的美譽(yù),但在我們考量的這些維度里,卻是徹頭徹尾的典型語(yǔ)言。(我去年夏天在布達(dá)佩斯住過(guò),我發(fā)誓匈牙利語(yǔ)絕對(duì)有其怪異之處,只是隱藏在其他地方了而已。)查莫羅語(yǔ)(關(guān)島有 9.5 萬(wàn)使用者)、阿伊努語(yǔ)(僅在日本有少量使用者的瀕危語(yǔ)言),以及布雷佩查語(yǔ)(Purépecha,5.5 萬(wàn)使用者,多在墨西哥),這三種語(yǔ)言都很正常。但是,所有語(yǔ)言中最最正常、超級(jí)典型、最不詭異的一種語(yǔ)言,怪異指數(shù)僅 0.087 的語(yǔ)言,是印地語(yǔ)—只有一項(xiàng)怪異特征。
這一點(diǎn),一部分說(shuō)明,有些你想當(dāng)然以為正常的語(yǔ)言(如英語(yǔ)、西班牙語(yǔ)或德語(yǔ)),其實(shí)一貫與世界上其他語(yǔ)言格格不入。這令我想起心理學(xué)的一個(gè)基本問(wèn)題:如果我們調(diào)查研究主要基于大學(xué)生——即如約瑟夫·亨利希(Joseph Henrich)及其同事所認(rèn)為的,西方的、受過(guò)教育的、工業(yè)化的、富裕的、民主的大學(xué)生—那么這樣的研究,其概括程度到底能有多高?換句話說(shuō),有時(shí)輸入的信息本身就“不正常”,或曰怪異,那你就要問(wèn)問(wèn)自己,這是否會(huì)導(dǎo)致研究的變化。
你講英語(yǔ),你很怪
盡管這里采用的方法沒(méi)有以英語(yǔ)界定,但仍然夾帶了一些文化特異性的私貨。即是說(shuō),開(kāi)發(fā)這個(gè)系統(tǒng)以及注釋這些語(yǔ)言特征的語(yǔ)言學(xué)家,大部分都是歐洲語(yǔ)言使用者。如果換為巴布亞新幾內(nèi)亞、埃塞俄比亞或亞馬遜的某個(gè)人來(lái)做研究,最終確定的語(yǔ)言特征又是哪些呢?而且,當(dāng)然,WALS 并不具備全球約 4000 種語(yǔ)言的所有數(shù)據(jù);其所擁有數(shù)據(jù)資料的語(yǔ)言,也并不真正足夠隨機(jī)。
話雖如此,英語(yǔ)排名仍然很高,是挺不尋常的一種語(yǔ)言(排名 33 位,指數(shù)值 0.756)。如果你能帶著一個(gè)英語(yǔ)思維的大腦,去讀這篇文章英語(yǔ)原文,那你可真是怪怪噠。(譯注:你操漢語(yǔ),能讀這篇譯文,那你的腦子更怪。)
*內(nèi)容注釋?zhuān)?/p>
譯注:原文表述略有不當(dāng);皮詹加加拉語(yǔ)(Pitjantjatjara)在當(dāng)?shù)卦∶裾Z(yǔ)言中或可簡(jiǎn)稱為“皮詹加拉語(yǔ)”(Pitjantjara ['b???an?a?a]),所以這個(gè)完整的拉丁化拼寫(xiě)并非“有一個(gè)音節(jié)不發(fā)音”,而只是有一個(gè)音節(jié)“可以”省略且不發(fā)音。