提 要 語言技術(shù)影響語言的未來,關(guān)系到數(shù)字時代的語言多樣性和語言保護(hù)。雖然歐洲奉行多語主義,尊重語言文化多元,但是不同語種的語言技術(shù)開發(fā)參差不齊。良好的語言技術(shù)使英語獲得數(shù)字語言生活(尤其是網(wǎng)絡(luò)語言生活)的優(yōu)勢地位,滲透進(jìn)其他語言使用者的網(wǎng)絡(luò)空間,而薄弱的語言技術(shù)或技術(shù)缺位則使一些語言在網(wǎng)上被邊緣化,甚至陷入數(shù)字化消亡困境。從長遠(yuǎn)看,語言技術(shù)不但能解決跨語言交流問題,還有助于語言保護(hù),但語言技術(shù)面臨一系列問題,需要克服許多困難。在這方面,多語歐洲技術(shù)聯(lián)盟十多年來的努力值得借鑒,其代表性成績是出版了數(shù)字時代的32種歐洲語言白皮書。不過,從目前取得的成績來看,通過語言技術(shù)破除交際障礙、保護(hù)所有歐洲語言,依然任重道遠(yuǎn)。
關(guān)鍵詞 數(shù)字時代;語言多樣性;語言技術(shù);語言保護(hù);多語歐洲技術(shù)聯(lián)盟網(wǎng)
中圖分類號 H002 文獻(xiàn)標(biāo)識碼 A 文章編號 2096-1014(2022)04-0049-12
DOI 10.19689/j.cnki.cn10-1361/h.20220404
Language technology (LT), which exerts an impact on the fate of languages, contributes to linguistic diversity and language protection in the digital age. Despite its respect for linguistic and cultural plurality, Europe is varied in LT development across languages. Good LT support for English enables it to gain an advantage in digital language practices, particularly on the Internet, penetrating the cyberspace of speakers of other languages, while weak or no LT support results in minoritizing languages on the Internet or even digital extinction. LT contributes to the solution of communication problems as well as the protection of languages in question in the long term. LT, however, is faced with numerous challenges and difficulties that need to be overcome. In this regard, META’s decade-long efforts are valuable lessons to learn. To conclude, protecting languages in the digital age thus poses a big challenge for Europe whose burden to break barriers in communication while protecting all European languages through LT is still heavy.
digital age; linguistic diversity; language technology; language protection; META-NET
一、引 言
21世紀(jì)信息技術(shù)飛速發(fā)展,將人類帶進(jìn)了數(shù)字時代,微信聊天、收發(fā)電子郵件等,已成生活常規(guī)。人們的生活,尤其是語言生活,發(fā)生了顯著變化,交往模式、信息分享方式以及看待世界的眼光都隨之而變。數(shù)字技術(shù)創(chuàng)造出語言的另一種生存空間,影響著語言的命運(yùn)。因?yàn)椴煌Z言的數(shù)字化技術(shù)受制于諸多因素而發(fā)展不平衡,現(xiàn)有語言很難平等、同步進(jìn)入數(shù)字時代。有的語言隨著數(shù)字技術(shù)的發(fā)展擴(kuò)大了使用范圍,增強(qiáng)了活力;有的語言則因資源有限、技術(shù)落后而無法分享互聯(lián)網(wǎng)等數(shù)字語言生活,極有可能走向數(shù)字消亡。數(shù)字時代的語言保護(hù)任務(wù)非常艱巨且高度倚重語言技術(shù)。
語言技術(shù)、語言資源、語言數(shù)據(jù)、數(shù)字技術(shù)等與語言生活和語言保護(hù)密切關(guān)聯(lián)。所謂語言技術(shù)指的是語言學(xué)、計算機(jī)科學(xué)、計算語言學(xué)及相關(guān)學(xué)科專家研制開發(fā)的技術(shù),用于自動分析和生成語言的口頭、筆頭和手語形式(Rehm &Uszkoreit 2012)。作為語言技術(shù)核心的自然語言處理,一般需要語言資源、訓(xùn)練算法、語言模型等作為支撐。常見智能語言技術(shù)有語言自動識別、信息提取、機(jī)器翻譯等等。語言資源指構(gòu)建、改進(jìn)、評估自然語言處理工具的原始數(shù)據(jù),包含口筆語語料、語法和術(shù)語庫。語言數(shù)據(jù)是訓(xùn)練現(xiàn)代語言技術(shù)的關(guān)鍵(Smal et al. 2020)。訓(xùn)練算法通常指基于人工智能原則構(gòu)建的人工神經(jīng)網(wǎng)絡(luò),適應(yīng)語言特點(diǎn),分析并對語言資源建模。當(dāng)前蓬勃發(fā)展的人工智能以語言技術(shù)為核心,賦予機(jī)器讀取、分析并加工人類語言的能力。數(shù)字技術(shù)使海量信息壓縮在小型存儲設(shè)備,利用計算機(jī)及應(yīng)用軟件通過網(wǎng)絡(luò)來存儲、傳送。語言技術(shù)借語言資源、語言數(shù)據(jù)和數(shù)字技術(shù)之力,不僅成為人工智能的關(guān)鍵要素,還為真實(shí)語言的保護(hù)提供了新的途徑。
當(dāng)前數(shù)字語言生活的一大特點(diǎn)是網(wǎng)上沖浪或網(wǎng)頁瀏覽。英語在語言技術(shù)領(lǐng)域一家獨(dú)大造成了語言失衡,致使大多數(shù)其他語言在語言技術(shù)領(lǐng)域被邊緣化(Rehm et al. 2021)。全世界7000多種語言僅有四分之一出現(xiàn)在網(wǎng)絡(luò)中(Crystal 2004:220)。如果語言不能進(jìn)入數(shù)字化領(lǐng)域,結(jié)果必然是數(shù)字化消亡。
這種不容樂觀的趨勢引起了語言學(xué)界和語言技術(shù)領(lǐng)域?qū)<业年P(guān)注。一些國家和地區(qū)啟動語言保護(hù)工程,試圖扭轉(zhuǎn)語言數(shù)字化消亡的不利趨勢,保護(hù)人類文明財富。例如,中國大規(guī)模的語言資源保護(hù)工作于2015年啟動,保護(hù)對象涵蓋80多種少數(shù)民族語言、50多種漢語方言。歐洲在2012年推出維護(hù)歐洲語言多樣性的戰(zhàn)略研究計劃,發(fā)布了一系列數(shù)字時代的歐洲語言白皮書。
鑒于中國語言政策領(lǐng)域幾乎沒有文獻(xiàn)論及歐洲數(shù)字時代的語言生活及語言保護(hù),本文將從這一角度探討多語歐洲所做的嘗試,闡述歐洲語言多樣性與數(shù)字時代的語言問題、語言技術(shù)狀況等,展示推崇語言文化多元的歐洲開發(fā)語言技術(shù)以保護(hù)語言的做法及面臨的問題。
二、當(dāng)代歐洲多語主義與英語獨(dú)大趨勢
以語言劃定疆界、區(qū)別身份曾經(jīng)成就了歐洲的民族國家建設(shè)。而一國之內(nèi)的語言多樣性往往被視為問題。有的國家(如法國)曾試圖消滅語言多樣性、推崇一語。但是,世界進(jìn)入全球化時代后,尤其是在歐洲走向一體化的進(jìn)程中,尊重并保護(hù)語言文化多樣性成為語言政策與規(guī)劃領(lǐng)域的主導(dǎo)思想,是團(tuán)結(jié)歐洲國家實(shí)現(xiàn)一體化的基本原則。
(一)當(dāng)代歐洲多語主義
歐洲,特別是歐盟,以尊重語言文化多元為宗旨,承認(rèn)語言的資源價值(戴曼純2014,2017),語言多樣性被視為最重要的文化財富(Evas 2014)。多語制被視為促進(jìn)歐洲發(fā)展的文化基石,歐盟鼓勵人們學(xué)習(xí)多門語言。從語言政策的理論與實(shí)踐層面看,歐洲堪稱多語主義的試驗(yàn)場。歐洲公民一般需要掌握母語、一門其他現(xiàn)代歐洲語言,以及第三門語言(現(xiàn)代歐洲語言、古代歐洲語言或歐洲之外的語言)。
歐洲尊重語言多樣性有利于增強(qiáng)多樣性中的統(tǒng)一?!稓W洲區(qū)域或少數(shù)民族語言憲章》承認(rèn)的79種區(qū)域或小族語言涉及203個少數(shù)民族或語言群體。歐洲8億多人口中約有5500萬使用歐盟官方語言之外的語言,例如,英國就有數(shù)十萬人使用威爾士語、康沃爾語、蓋爾語和愛爾蘭語。2016年歐盟統(tǒng)計局(Eurostat)的數(shù)據(jù)顯示,歐盟勞動適齡人口中有24.8%至少掌握一門外語,且掌握最好的外語能夠達(dá)到熟練程度;接受過高等教育的勞動適齡人口有80%至少掌握一門外語。
對于多語歐洲而言,克服多語交流障礙的方法通常有語言教育(多語能力發(fā)展)、推行通用語、(即時)翻譯服務(wù)、成系統(tǒng)的文本翻譯、借助語言技術(shù)手段(語言自動轉(zhuǎn)換)等。其中前兩種為傳統(tǒng)做法,歷史悠久,后三種為數(shù)字時代的新方法,正在發(fā)展之中。傳統(tǒng)做法對歐洲目前的多語格局產(chǎn)生了重大影響,其中包括英語通過教育發(fā)展為通用語言。但是,學(xué)習(xí)外語畢竟耗時費(fèi)力,歐洲無法僅通過語言教育從根本上解決交際問題。一個歐洲人不可能學(xué)會80多種本土語言(24種歐盟官方語言和60多種其他歐洲語言),有效解決之道是開發(fā)關(guān)鍵性語言技術(shù),既能為歐洲市場、歐洲國家對外貿(mào)易帶來優(yōu)勢和利益,還能助力日常生活(Rehm &Uszkoreit 2012:14)。因此,多語歐洲語言技術(shù)變得魅力十足,多語政策從語言教育延伸至技術(shù)領(lǐng)域。
歐盟委員會(常設(shè)執(zhí)行機(jī)構(gòu))和歐洲議會(歐盟立法、監(jiān)督和咨詢機(jī)構(gòu))長期以來對維護(hù)歐洲的語言多樣性表示出關(guān)切,對語言技術(shù)寄予厚望。歐盟資助語言技術(shù)研究和創(chuàng)新,以期消除語言障礙、維護(hù)語言多樣性,期望語言技術(shù)幫助歐洲公民獲取網(wǎng)絡(luò)內(nèi)容。此類技術(shù)除機(jī)器翻譯外還有文本分析應(yīng)用、對話系統(tǒng)、搜索引擎、自動文本摘要、文本轉(zhuǎn)語音等諸多適應(yīng)人類自然語言使用場景的應(yīng)用軟件。歐洲議會在2020年的《歐洲語言日:非通用語言的數(shù)字生存》簡報中指出,歐洲非通用語言面臨嚴(yán)重的生存威脅,數(shù)字技術(shù)使其雪上加霜。年輕一代依靠網(wǎng)絡(luò)交流并獲取信息。如果網(wǎng)頁內(nèi)容只用主要語言,那么非通用語言就會面臨數(shù)字化消亡。如果數(shù)字技術(shù)用于保護(hù)語言,在線教育、在線語言學(xué)習(xí)和語言技術(shù)也能振興瀕危語言。很顯然,歐洲議會的簡報指出了數(shù)字技術(shù)的兩面性,語言間的技術(shù)失衡將威脅非通用語言的生存,而語言技術(shù)雨露均沾則可能起到保護(hù)多語的作用。
(二)英國脫歐后英語依然獨(dú)大
按照樂觀的預(yù)測,隨著語言技術(shù)的發(fā)展,語言自動轉(zhuǎn)換得以實(shí)現(xiàn),國際交流將更輕松,成本更低,歐洲乃至世界將失去維護(hù)英語作為通用語的動力。語言自動轉(zhuǎn)換(自動口譯、機(jī)器翻譯)將使語言之間越來越平等(Ostler 2015)。這種理想主義的技術(shù)論為小族語言描繪出美好的前景,似乎歐洲所有語言都有平等機(jī)會在數(shù)字時代獲得新生,但它忽略了英語從傳統(tǒng)中積累下來的絕對優(yōu)勢,這種優(yōu)勢在數(shù)字時代仍保持強(qiáng)勁,且正在影響其他語言分享互聯(lián)網(wǎng),妨礙這些語言獲得數(shù)字生存空間。英語優(yōu)勢已經(jīng)深度滲透進(jìn)當(dāng)前的數(shù)字化生活,包括鍵盤布局、語言輸入系統(tǒng)、計算機(jī)語言及軟件開發(fā)等。
英語幾乎已發(fā)展成為歐洲的通用語,維護(hù)語言多樣性無法回避英語的影響和滲透問題。英國脫歐引發(fā)過英語在歐盟地位的討論,例如2017年5月5日時任歐盟委員會主席容克在演講中指出“英語在歐洲將慢慢地但是肯定地失去其重要性”(Melvina 2019:25)。但是研究表明,英國脫歐后英語依然是歐洲人跨語言交際中最偏愛的第二語言,也是歐洲中小學(xué)越來越多人學(xué)習(xí)的第一外語(Melvina 2019)。事實(shí)上,英國脫歐對英語在歐洲大陸的影響極其微小,因?yàn)橛⒄Z在國際商務(wù)、學(xué)術(shù)界、國際教育、國際傳媒、外交、新技術(shù)、互聯(lián)網(wǎng)等領(lǐng)域依然是通用的語言,歐盟有一半以上的人除母語外還能說英語(Ananiadou et al. 2012),英語在語言市場的霸主地位目前還很難撼動。
英語之所以在歐洲和其他國家傳播如此之廣,是因?yàn)榻?jīng)濟(jì)和政治的力量確立了英語的突出地位,使其傳播具有自推力(Johnson 2009:158)。英國脫歐后的歐洲大陸成了一個統(tǒng)一依靠英語作為第二語言的多語共同體,多語歐洲人母語之外最方便使用的語言便是英語。英語的使用如此廣泛,使人認(rèn)為英國脫歐強(qiáng)化了英語的地位,英語甚至有可能演變成具有歐洲大陸特色的新英語變體,即歐洲大陸人自己的歐式英語(Euro-English)(Modiano 2017)。
當(dāng)然,關(guān)于英語的影響力(尤其是在歐洲之外的影響力)也有一些誤導(dǎo)性看法。例如,奧斯特勒(Ostler)認(rèn)為,英語通行世界的地位建立在以往的社會優(yōu)勢之上(如軍事、經(jīng)濟(jì)、文化、宗教等),而這種有利于英語使用者的社會因素正在失去往日的力量,世界多語格局有可能發(fā)生變化。成就英語通用語地位的各方力量已過巔峰,英帝國自1897年后就在走下坡路,英語在許多前殖民地(如馬來西亞、斯里蘭卡、坦桑尼亞)的地位下降了。雖然英語依然流行于印度、南非、菲律賓等地的精英階層,但是沒有成功推廣至普羅大眾。英語通過進(jìn)入家庭交流而產(chǎn)生語言轉(zhuǎn)用的模式已不復(fù)存在(Ostler 2015)。此外,格拉多爾(Graddol)在英國文化委員會關(guān)于英語未來的報告中曾預(yù)測未來世界的語言格局,認(rèn)為中文、西班牙語、英語、阿拉伯語、馬來語、印地語、俄語將瓜分天下,各自占有區(qū)域優(yōu)勢,產(chǎn)生經(jīng)濟(jì)和文化影響力(Graddol 1997,2000)。其預(yù)測考慮了經(jīng)濟(jì)這個重要因素,指出英語的未來復(fù)雜而多元,即英語的使用會出現(xiàn)增長,英語變體也會增多,英語的全球市場規(guī)模還會增大,但是市場占比會減少;英語的霸主地位將被包括西班牙語和中文在內(nèi)的其他語言代替(Graddol 1997,2000:3)。這種看衰英語的說辭表明,格拉多爾和奧斯特勒一樣,是站在維護(hù)英語利益的角度發(fā)出警示,極具誤導(dǎo)性,與英語在歐洲的獨(dú)大趨勢現(xiàn)實(shí)明顯不符。
(三)英語在互聯(lián)網(wǎng)空間的絕對優(yōu)勢
網(wǎng)絡(luò)空間的語言使用是數(shù)字化生活的主要場域。哪門語言占據(jù)了互聯(lián)網(wǎng),哪門語言就有數(shù)字生存空間。全球網(wǎng)民從1995年12月的1600萬增加至2021年3月的51億,占世界總?cè)丝诘?6%,歐洲8.29億總?cè)丝谥芯陀?.27億網(wǎng)民(占?xì)W洲總?cè)丝诘?7.7%)。歐洲是互聯(lián)網(wǎng)滲透率最高的地區(qū),網(wǎng)絡(luò)語言生活豐富,能夠比較清晰地顯示出不同語言在網(wǎng)絡(luò)空間的生存狀況?;ヂ?lián)網(wǎng)空間的語言使用是語言活力的重要指標(biāo),這種指標(biāo)通常有兩個角度:一是語言使用者數(shù)量,二是網(wǎng)站內(nèi)容使用的語言。無論從哪個角度看,英語都占絕對優(yōu)勢。
截至2020年,互聯(lián)網(wǎng)使用最多的語言(按照使用網(wǎng)民數(shù)量劃分)占比最高的是英語(25.9%),緊隨其后的是中文(19.4%)、西班牙語(7.9%)、阿拉伯語(5.2%)、馬來語和印度尼西亞語(4.3%)、葡萄牙語(3.7%)、法語(3.3%)、日語(2.6%)、俄語(2.5%)、德語(2%),其他所有語言(23.1%)。聯(lián)合國教科文組織網(wǎng)站顯示,按照網(wǎng)站內(nèi)容使用的語言劃分,英語占比高達(dá)60.5%,如圖1所示。
與其他語言相比,英語在互聯(lián)網(wǎng)上處于強(qiáng)勢傳播狀態(tài),網(wǎng)絡(luò)空間的使用占比遠(yuǎn)超其母語人口(3.79億)的占比,大范圍滲透進(jìn)其他語言母語者的數(shù)字化生活。在排名靠前的幾種歐洲語言中,英語遙遙領(lǐng)先,俄語、西班牙語、法語、德語的網(wǎng)站內(nèi)容占比遠(yuǎn)低于英語。網(wǎng)絡(luò)給多語國家和地區(qū)帶來便捷交流的同時也進(jìn)一步擴(kuò)大了英語的使用范圍,強(qiáng)化了英語的線上線下地位,加速了英語的全球傳播(Danet& Herring 2007:36)。
(四)歐洲其他語言的網(wǎng)絡(luò)空間地位
歐洲其他語言的互聯(lián)網(wǎng)空間被英語嚴(yán)重擠壓。尤其是歐洲小族語言很難平等分享數(shù)字空間,因?yàn)榫W(wǎng)絡(luò)空間的語言使用除需要技術(shù)支持外,還必須具備許多其他條件,包括語言政策支持、充足的經(jīng)費(fèi)、完備的書寫系統(tǒng)、豐富的網(wǎng)絡(luò)資源及知識庫、有效的網(wǎng)絡(luò)管理機(jī)制、眾多網(wǎng)民等。語言使用群體的優(yōu)勢條件對于語言的網(wǎng)絡(luò)傳播發(fā)揮了巨大作用。例如,瑞典語作為瑞典和芬蘭的官方語言,其母語人數(shù)在全世界語言排名中位列第85,在網(wǎng)站使用的語言排名中居第25位,被《數(shù)字時代的瑞典語》稱為“小語言、大網(wǎng)絡(luò)”(Borin et al. 2012)。然而,一般歐洲非通用語言(特別是區(qū)域或小族語言)很難擁有瑞典語的網(wǎng)絡(luò)優(yōu)勢。
歐洲小族語言的網(wǎng)絡(luò)空間地位總體上非常尷尬。即使是歐盟某些官方語言,其網(wǎng)絡(luò)上的使用情況也不容樂觀。例如,馬耳他語使用者(馬耳他有馬耳他語和英語兩種官方語言)有九成以上使用英語瀏覽網(wǎng)頁,兩成用意大利語上網(wǎng)(與使用英語的人有交叉),僅有6.5%的人只用馬耳他語上網(wǎng),究其原因不是網(wǎng)民青睞英語,而是馬耳他語網(wǎng)站有限(Rosner &Joachimsen 2012)。這一點(diǎn)與瑞典語形成鮮明對照。
雖然語言技術(shù)及互聯(lián)網(wǎng)有復(fù)活小族語言和瀕危語言的潛力,但是與大語言并存于網(wǎng)絡(luò)的小族語言前景堪憂。Danet& Herring(2007)列舉了諸多證據(jù),證明小族語言和瀕危語言在網(wǎng)絡(luò)上處于不利地位。例如:(1)據(jù)Fernandez(2001)引證他人的報告,在討論愛爾蘭未來的跟帖中,管理員警告蓋爾語發(fā)帖人將刪除蓋爾語帖子。(2)在表面看起來像巴斯克論壇的網(wǎng)站上,幾乎沒有人使用巴斯克語,大多數(shù)帖子使用的是西班牙語,盡管許多用戶是巴斯克語加西班牙語或法語的雙語使用者。(3)Cunliffe & Harries(2005)在分析威爾士語-英語雙語網(wǎng)絡(luò)社區(qū)(鼓勵雙語交流的Pen I Ben)的語言使用情況時發(fā)現(xiàn),威爾士語帖子越來越少,而英語帖子則日漸增多;坎利夫(Cunliffe)和哈里斯(Harries)指出,沒有社會支持和技術(shù)支撐,小族語言在網(wǎng)上難以為繼(Danet& Herring 2007:36)。
歐洲小族或區(qū)域語言的網(wǎng)絡(luò)生存反映出一個世界性問題,因?yàn)槌龤W洲之外,其他國家和地區(qū)同樣面臨英語擠占網(wǎng)絡(luò)空間的問題,例如,第一屆拉丁美洲互聯(lián)網(wǎng)土著語言節(jié)(Latin America Festival of Indigenous Languages on the Internet)組織者之一庫馬斯(Miguel ángelOxlajKumez)發(fā)現(xiàn),每次上網(wǎng),90%以上的網(wǎng)站內(nèi)容都是英語,另有小部分西班牙語和其他語言的網(wǎng)站,因此他只能瀏覽自己母語之外的網(wǎng)站。再加之鍵盤是根據(jù)主要語言設(shè)計形成,無法輸入或拼寫土著語言,網(wǎng)上的應(yīng)用軟件和社交平臺缺少多樣化的字母表,這就導(dǎo)致土著語言無法真正進(jìn)入線上交流。
三、多語歐洲的語言技術(shù)與語言保護(hù)面臨的問題
有專家指出,解決歐洲未來語言使用問題最令人信服的方案是采用合適的語言技術(shù)(Rehm &Uszkoreit 2012)。歐盟2013年提出的《歐洲語言多樣性線路圖》(The European Roadmap for Linguistic Diversity)重申歐盟保護(hù)歐盟各語言的承諾,將歐洲境內(nèi)的國際語言、國家語言、區(qū)域語言、小族語言、瀕危語言、移民語言視為共同財富,予以支持和推廣,其中包括利用信息技術(shù)促進(jìn)所有語言的學(xué)習(xí)和推廣,增強(qiáng)語言活力。歐盟將技術(shù)擺在“歐盟2020戰(zhàn)略”的突出位置,視其為增強(qiáng)歐洲競爭力的有效途徑。但是,并非所有歐洲語言都從語言技術(shù)中受益,區(qū)域語言、小族語言和瀕危語言在語言技術(shù)方面處于落后地位,國際語言與其他語言的差距也在拉大。即便是技術(shù)領(lǐng)先的蘋果Siri也只支持21種語言,亞馬遜Alexa支持8種,谷歌Home支持13種,谷歌翻譯截至2020年2月支持113種語言。大部分語言尚未進(jìn)入以上常用技術(shù)中。
從長遠(yuǎn)看,語言技術(shù)不但能解決跨語言交流問題,還有助于語言保護(hù)。語言技術(shù)在特定環(huán)境下發(fā)揮語言保護(hù)作用,不乏其例,比如,德國美因茲大學(xué)薩爾希馬(AnneliSarhimaa)教授指出,雖然歐洲的小族語言過去受到國家建設(shè)、城市化的影響,還受到互聯(lián)網(wǎng)通用語言的擠壓,但是從芬蘭和俄羅斯西北部的語言狀況看,數(shù)字媒體可以助力小族語言復(fù)興。通過語言技術(shù)實(shí)現(xiàn)跨語言交際和語言保護(hù)不可能一蹴而就,需要解決的問題多,難度大。
(一)語言技術(shù)面臨的問題
多語歐洲語言技術(shù)的開發(fā)取得了成績,但還有許多問題需要解決,包括行業(yè)協(xié)同合作、技術(shù)短板、資金投入、技術(shù)路徑、語言平等、技術(shù)質(zhì)量、技術(shù)的社會應(yīng)用等。
第一,雖然商業(yè)化語言技術(shù)產(chǎn)品已經(jīng)成為日常必備,但是歐洲語言技術(shù)行業(yè)分散,語言技術(shù)發(fā)展不平衡。商業(yè)化語言技術(shù)高度碎片化,大量小公司定位低,很難做大做強(qiáng)(Rehm et al. 2020)。語言技術(shù)碎片化導(dǎo)致線上市場碎片化,43%的歐洲人從未用母語之外的語言通過網(wǎng)絡(luò)購買商品和服務(wù),公共電子服務(wù)也受到國界的限制,歐盟豐富的教育文化資源僅限于同一語言共同體。開發(fā)新的語言技術(shù)可能促成個人、商業(yè)、公共機(jī)構(gòu)之間的交流實(shí)現(xiàn)跨國、跨語言的無縫對接。
第二,數(shù)字時代歐洲語言白皮書系列顯示有21種歐洲語言的數(shù)字資源嚴(yán)重不足,這些語言缺少許多方面的技術(shù)支持,有的甚至沒有建立起語料庫(Rehm et al. 2020)。
第三,語言技術(shù)的研發(fā)需要耗費(fèi)大量的人力物力。例如,為了促進(jìn)數(shù)字技術(shù)的發(fā)展,歐盟通過“數(shù)字歐洲計劃”(Digital Europe Programme,2021~2027年,投入經(jīng)費(fèi)75.9億歐元),大力支持超級計算、人工智能、網(wǎng)絡(luò)安全、高級數(shù)字技能發(fā)展,保障經(jīng)濟(jì)和社會廣泛使用數(shù)字技術(shù)。歐盟曾資助“歐洲語言網(wǎng)”項(xiàng)目(European Language Grid,2019~2022年,投入經(jīng)費(fèi)746萬歐元)創(chuàng)建語言技術(shù)主平臺,供歐洲所有語言的數(shù)百項(xiàng)商業(yè)語言技術(shù)和非商業(yè)語言技術(shù)使用,平臺旨在改進(jìn)數(shù)字單一市場的設(shè)備運(yùn)行與服務(wù)、數(shù)據(jù)集(data sets)及資源,以便解決語言技術(shù)碎片化問題。
第四,伊凡斯(Evas)指出,許多語言技術(shù)依靠不準(zhǔn)確的統(tǒng)計方法,而沒有利用更深層的語言學(xué)方法、規(guī)則和知識。句子的自動翻譯將新句子與數(shù)千個以前翻譯過的句子進(jìn)行比較,這種方法用于樣本量小的語言必然會失敗。因此,下一代語言技術(shù)必須對語言的深層結(jié)構(gòu)屬性進(jìn)行分析,這樣才能保護(hù)語言,而不是危害語言。
第五,語言技術(shù)存在不平等問題??朔Z言技術(shù)的不平等是歐洲社會面對的現(xiàn)實(shí)問題。根據(jù)歐洲議會特派調(diào)查員吉爾·埃文斯(Jill Evans,時任歐洲議會議員)(2018)的報告,保障歐洲語言平等還存在許多障礙,例如:
(1)歐洲缺少適當(dāng)?shù)恼?,資源豐富型語言和資源貧乏型語言之間的技術(shù)鴻溝還在擴(kuò)大;
(2)數(shù)字技術(shù)在過去十年對語言演變產(chǎn)生了難以估量的顯著影響,有研究表明數(shù)字通信在侵蝕成年人的讀寫技能,產(chǎn)生語法和書寫代溝,總體上在損耗語言;
(3)歐洲非通用語言在工具、資源和經(jīng)費(fèi)方面存在明顯劣勢,制約了研究范圍,也影響語言技術(shù)充分發(fā)揮作用;
(4)通用語言和非通用語言之間不斷加深的數(shù)字鴻溝、歐洲社會日益普及的數(shù)字化技術(shù)在信息獲取方面產(chǎn)生差異,對低技能、低收入的老年人和困難群體尤其如此;
(5)雖然歐洲在語言工程技術(shù)方面有扎實(shí)的科研基礎(chǔ),但是市場分化、知識和文化投入不足、科研協(xié)調(diào)欠佳、經(jīng)費(fèi)欠缺、司法存在障礙,致使歐洲的語言技術(shù)相當(dāng)滯后。當(dāng)前歐洲的數(shù)字市場掌握在非歐洲機(jī)構(gòu)和人員手中,沒有考慮多語歐洲的具體需求;
(6)出于對市場規(guī)模的考慮,語言技術(shù)產(chǎn)品主要是英語版本,全球性生產(chǎn)商、歐洲生產(chǎn)商往往開發(fā)歐洲主要語言(如西班牙語、法語、德語)的技術(shù)產(chǎn)品,缺少考慮其他語言的技術(shù)產(chǎn)品;
(7)非通用語言需要語言技術(shù)相關(guān)方面的大力支持,包括音符字體設(shè)計者、鍵盤廠商、內(nèi)容管理系統(tǒng),以便正確保存、加工并顯示這些語言的網(wǎng)頁內(nèi)容。
第六,由于以英語為核心的語言技術(shù)供應(yīng)商主要為美國公司,歐洲面臨一系列重要問題:
(1)歐洲的信息、通信和知識領(lǐng)域的基礎(chǔ)建設(shè)是否能高度依賴美國公司的壟斷性服務(wù);
(2)如果美國公司提供的語言技術(shù)服務(wù)突然中斷或出現(xiàn)安全問題,歐洲是否有應(yīng)急方案;
(3)歐洲是否在積極參與全球語言技術(shù)研究競爭;
(4)歐洲是否能指望來自其他大陸的第三方解決翻譯和知識管理問題,且滿足歐洲的交際、社會和文化需求;
(5)歐洲文化背景是否能提供更優(yōu)質(zhì)、更安全、更精準(zhǔn)、更創(chuàng)新和更有活力的高質(zhì)量語言技術(shù)來打造知識社會。
此外,語言技術(shù)還需要克服眾多社會挑戰(zhàn),包括突破語言障礙,助力老齡化人口,輔助殘障人士,方便移民與融合,增強(qiáng)個人信息服務(wù)和客戶服務(wù),促進(jìn)國際合作與交流,保護(hù)文化遺產(chǎn)和語言多樣性,豐富社交媒體和電子化參與,提高市場意識和客戶接受度,打造一個數(shù)字單一市場、多種語言模式,保障歐洲安全(Rehm &Uszkoreit 2012:14~17)。由于歐洲的獨(dú)特性和復(fù)雜性,有專家(Rehm et al. 2021)呼吁歐洲不要將多語通信和語言基礎(chǔ)設(shè)施外包給其他大陸,歐洲應(yīng)當(dāng)支持并使用自己的語言技術(shù)。
(二)技術(shù)用于保護(hù)語言需要克服的困難
采用語言技術(shù)手段對語言進(jìn)行保護(hù),需要克服許多困難,其中比較突出的有語言保護(hù)思想不統(tǒng)一、語言數(shù)量眾多、語言技術(shù)所涉語言學(xué)難題、技術(shù)質(zhì)量,以及技術(shù)與語言保護(hù)的關(guān)系等。
第一,語言保護(hù)思想尚未統(tǒng)一。歐洲委員會(非歐盟組織)30年前就出臺了《歐洲區(qū)域或少數(shù)民族語言憲章》(1992),但歐洲只有25個國家批準(zhǔn)接受憲章條款。
第二,語言本體研究是歐洲學(xué)界尚未克服的難題,阻礙語言技術(shù)的發(fā)展,進(jìn)而影響語言保護(hù)。雖然建立數(shù)字單一市場屬于歐洲的頭等大事之一,但是,在解決許多其他問題后,語言本體問題依然是最后需要克服的障礙之一。沒有解決語言本體問題的語言技術(shù)根本無法實(shí)現(xiàn)語言保護(hù)的目標(biāo),也無法真正完成數(shù)字單一市場的建設(shè)。
第三,需要通過技術(shù)保護(hù)數(shù)字空間的語言數(shù)量眾多,大量基礎(chǔ)工作需要語言學(xué)家和語言技術(shù)專家來完成。例如,許多歐洲語言缺少網(wǎng)頁內(nèi)容,不利于抓取語言數(shù)據(jù)和建設(shè)數(shù)據(jù)庫。
第四,當(dāng)前語言技術(shù)的質(zhì)量和實(shí)用性與現(xiàn)實(shí)需求相差甚遠(yuǎn),歐洲小語種在數(shù)字領(lǐng)域的研究還嚴(yán)重缺位,所有語言的技術(shù)支持還存在嚴(yán)重不足,英語在技術(shù)領(lǐng)域的優(yōu)勢使其他歐洲語言處于不利地位(Rehm &Uszkoreit 2012),降低了語言技術(shù)保護(hù)語言的效果。
第五,語言技術(shù)與語言保護(hù)是工具與目標(biāo)的關(guān)系。即使有了語言技術(shù),語言保護(hù)也需要其他方面的條件做保障,如傳統(tǒng)的語言生活、消除英語的強(qiáng)勢存在等。語言技術(shù)不是小族語言保護(hù)的唯一手段,更不能神化語言技術(shù)的語保功能,因?yàn)檎Z言技術(shù)只是手段,不等于語言傳承。小族語言傳統(tǒng)上靠家庭和朋友間的聊天得以傳承,如今的即時短信、電子郵件和社交媒體等在線交流采用書寫形式,應(yīng)用軟件一般默認(rèn)使用主要語言(特別是英語),這就使小族語言更加脆弱。即便開發(fā)出了小族語言應(yīng)用軟件,小族群體是否會棄用英語、改用母語,很難預(yù)料。因此,開發(fā)出所有語言的技術(shù)是否能降低英語滲透力,達(dá)到保護(hù)小族語言的目的,還有待時間檢驗(yàn)。
四、多語歐洲的語言技術(shù)與語言保護(hù)工作及自評
歐洲保護(hù)好多語并從中受益的唯一途徑是語言技術(shù)(即自然語言處理與語音技術(shù))(Rehm et al. 2021)。歐洲在利用語言技術(shù)維護(hù)語言多樣性、保護(hù)小族語言方面所做的努力值得借鑒。
2022年1月26日,歐盟委員會提交歐洲議會、歐洲理事會、歐洲經(jīng)濟(jì)和社會委員會與歐洲地區(qū)委員會審議的《數(shù)字十年數(shù)字權(quán)利與原則歐洲宣言》[22]稱,每個人都享有使用可信賴的、多樣的多語網(wǎng)絡(luò)環(huán)境的權(quán)利;歐盟將人民擺在數(shù)字轉(zhuǎn)型的核心位置,技術(shù)服務(wù)于所有歐洲人。2022年2月7~9日“創(chuàng)新、技術(shù)與多語”論壇在線上召開,法國文化部部長羅斯琳·巴舍洛致開幕詞,該論壇匯聚了法國及歐洲的翻譯、語言技術(shù)、數(shù)字技術(shù)和人工智能領(lǐng)域的政策制定者、從業(yè)者及利益攸關(guān)方,討論技術(shù)在支持并促進(jìn)歐洲多語制方面的作用。歐盟委員會根據(jù)《數(shù)字十年數(shù)字權(quán)利與原則歐洲宣言》的精神支持諸多項(xiàng)目,如“歐洲語言平等”項(xiàng)目(關(guān)于歐洲語言平等線路圖的戰(zhàn)略研究)和“歐洲語言資源協(xié)作”項(xiàng)目(收集所有歐盟語言、挪威語、冰島語等語言數(shù)據(jù),以支持eTranslation機(jī)器翻譯系統(tǒng)開發(fā))。
這些是歐盟利用語言技術(shù)保護(hù)語言以維護(hù)語言多樣性的最新舉措。早在十幾年前,歐洲就已經(jīng)有大規(guī)模的語言技術(shù)研發(fā)項(xiàng)目,調(diào)動語言學(xué)、語言技術(shù)領(lǐng)域的力量,啟動并完成了大量數(shù)字時代語言保護(hù)的研究工作。其中最具代表性的是推出了一系列數(shù)字時代歐洲語言白皮書的多語歐洲技術(shù)聯(lián)盟(META)。正是他們的工作使歐洲的政策制定者、社會和學(xué)界對數(shù)字時代的語言技術(shù)和語言保護(hù)有了深刻的認(rèn)識。
(一)多語歐洲技術(shù)聯(lián)盟及其使命
多語歐洲技術(shù)聯(lián)盟凝聚研究人員、商業(yè)技術(shù)供應(yīng)商、私人或公司語言技術(shù)用戶、語言專家、信息社會其他相關(guān)方的力量,推動語言技術(shù)發(fā)展,旨在實(shí)現(xiàn)將歐洲統(tǒng)一為數(shù)字單一市場和信息空間的夢想。多語歐洲技術(shù)聯(lián)盟有一個接納機(jī)構(gòu)(或公司、組織)通過網(wǎng)絡(luò)加入META的路徑,目前有1000多名入盟成員,涉及100多個成員國(人數(shù)和成員國數(shù)是動態(tài)的)。打造技術(shù)聯(lián)盟的工作網(wǎng)為多語歐洲技術(shù)聯(lián)盟網(wǎng)(META-NET),是一個由34個國家60家研究中心組成的、致力于發(fā)展多語歐洲信息社會技術(shù)基礎(chǔ)的研究組織。該聯(lián)盟開發(fā)的語言技術(shù)旨在助力跨語言交際與合作、保障任何語言的使用者平等獲取信息與知識、開發(fā)網(wǎng)絡(luò)信息技術(shù)功能。
因此,多語歐洲技術(shù)聯(lián)盟網(wǎng)有3條工作路徑。第一,建設(shè)一個目標(biāo)一致的、動態(tài)的、有影響力的團(tuán)隊(duì),開發(fā)戰(zhàn)略性研究項(xiàng)目。經(jīng)過數(shù)百位專家的研討,多語歐洲技術(shù)聯(lián)盟網(wǎng)在2012年推出了《2020多語歐洲戰(zhàn)略研究計劃》(Strategic Research Agenda for Multilingual Europe 2020),旨在提高對歐洲語言技術(shù)領(lǐng)域的認(rèn)識,使決策者在未來的政策制定中關(guān)注、支持語言技術(shù)研究。第二,創(chuàng)建資源共享與交流設(shè)施,為語言技術(shù)領(lǐng)域提供開放、廣為分布、安全、互用的基礎(chǔ)設(shè)施。共享的資源和技術(shù)按照優(yōu)先順序包括:口筆語語料等語言數(shù)據(jù),語言相關(guān)數(shù)據(jù)(如口筆語自然語言發(fā)揮重要作用的其他媒介和模態(tài)),語言加工工具、標(biāo)注工具、技術(shù)等,借助語言加工工具及技術(shù)的服務(wù),評價工具、指標(biāo)與標(biāo)準(zhǔn)、評測服務(wù),整合互用服務(wù)的工作流程。多語歐洲技術(shù)聯(lián)盟試圖把各方力量納入基礎(chǔ)設(shè)施,如語言資源和技術(shù)供應(yīng)商及用戶、整合語言技術(shù)的企業(yè)和產(chǎn)品銷售部門、語言專家、國際數(shù)據(jù)中心、語言資源存儲單位、國家及國際語言技術(shù)政策制定者、語言資源和語言技術(shù)研究資助者等。第三,搭建相關(guān)技術(shù)領(lǐng)域的橋梁,通過機(jī)器翻譯創(chuàng)新研究將相鄰的技術(shù)領(lǐng)域聯(lián)系起來,主要關(guān)注4個方面的工作:機(jī)器翻譯解決更多的語義問題,優(yōu)化混合式機(jī)器翻譯的分工,開發(fā)利用翻譯所需的語境,建立機(jī)器翻譯基地。
(二)工作自評及前景
從目前歐盟對語言技術(shù)的政策支持情況看,多語歐洲技術(shù)聯(lián)盟的呼吁產(chǎn)生了顯著效果。十年來,多語歐洲技術(shù)聯(lián)盟也取得了不菲的成績,出版了數(shù)字時代的32種歐洲語言白皮書。這些語言在機(jī)器翻譯、語言加工、文本分析、語言資源等方面的語言技術(shù)應(yīng)用水平上存在很大差距,各語言的數(shù)字化生存條件存在巨大差異,如表1所示。
如果我們把多語歐洲技術(shù)聯(lián)盟網(wǎng)站提供的機(jī)器翻譯、語言加工、文本分析、語言資源4個方面的技術(shù)水平用1(優(yōu)秀)、2(良好)、3(中等)、4(較差)、5(差)表示,則4項(xiàng)皆優(yōu)秀者得分為4,4項(xiàng)皆良好者為8,4項(xiàng)皆差者為20。換言之,得分越小,語言技術(shù)成熟度越高,反之越低。
從該表的分值可以看出,沒有任何語言的技術(shù)達(dá)到優(yōu)秀程度。英語是4個方面的語言技術(shù)開發(fā)的最好的語言,其次是法語、西班牙語、德語、荷蘭語、意大利語,其他語言與上述語言有一定的差距,甚至差距甚遠(yuǎn),如馬耳他語、冰島語、拉脫維亞語、立陶宛語、威爾士語等均屬于語言技術(shù)薄弱的語言,更不用說其他榜上無名的歐洲語言。單就機(jī)器翻譯而言,英語的技術(shù)被定為良好,法語和西班牙語為中等,德語、荷蘭語、加泰羅尼亞語、匈牙利語、意大利語、波蘭語、羅馬尼亞語為較差,其余為差。
80余種歐洲語言中有相當(dāng)數(shù)量的語言面臨數(shù)字化消亡的危險。多語歐洲技術(shù)聯(lián)盟的頂尖語言技術(shù)專家在研究了30種歐洲語言后指出,有21種語言沒有或幾乎沒有任何數(shù)字化技術(shù)支持。因此,歐洲議會在其“數(shù)字時代語言平等決議”中指出,雖然多語是歐洲最大的財富之一,但是有20余種語言面臨數(shù)字化消亡(Stasimioti 2022)。甚至有報道稱,互聯(lián)網(wǎng)是語言殺手,冰島語、拉脫維亞語、立陶宛語在網(wǎng)絡(luò)上沒有足夠的語言使用者來形成網(wǎng)絡(luò)牽引力。由于缺少足夠的資源來驅(qū)動翻譯工具、語音轉(zhuǎn)換技術(shù)、語音控制技術(shù)發(fā)展,連德語、意大利語、西班牙語和法語也面臨危機(jī)。
表1清楚地顯示,歐洲32種語言(其中挪威語分書面挪威語和新挪威語)的技術(shù)沒有做到平衡發(fā)展,名單之外的其他語言更缺乏相應(yīng)的技術(shù),技術(shù)缺位的語言在數(shù)字化生存方面將面臨更大的困難。
為了克服上述問題,歐盟還在繼續(xù)大力支持語言技術(shù)的開發(fā)。2022年3月1日“歐洲語言網(wǎng)”項(xiàng)目在領(lǐng)英和推特上宣布在其云平臺上添加新的機(jī)器翻譯模型,語言覆蓋愛沙尼亞語、烏克蘭語、荷蘭語、英語、法語、德語、希伯來語、意大利語、匈牙利語、波蘭語、葡萄牙語、俄語、西班牙語、土耳其語等等。該項(xiàng)目平臺2022年1月已增容一倍,包含87種語言12 000余個語言技術(shù)資源庫(Stasimioti 2022)。同為歐盟資助的“歐洲語言平等”項(xiàng)目(2018年9月獲歐洲議會批準(zhǔn),項(xiàng)目時間為2021年1月至2022年6月)作為對數(shù)字時代語言平等問題的回應(yīng),考慮了多語歐洲技術(shù)聯(lián)盟白皮書系列發(fā)現(xiàn)的問題,配合“歐洲語言網(wǎng)”項(xiàng)目,采用戰(zhàn)略研究、創(chuàng)新與實(shí)施、路線圖等形式,為2030年實(shí)現(xiàn)全歐洲數(shù)字語言平等目標(biāo),研制出“歐洲語言平等方案”(European Language Equality Programme)。該方案的研制聯(lián)合了歐洲語言技術(shù)界、計算語言學(xué)界、以語言為中心的人工智能界,以及有關(guān)項(xiàng)目和協(xié)會代表、語言界和區(qū)域或少數(shù)民族語言團(tuán)體。由于這些新項(xiàng)目尚未到期,目前很難評估其保護(hù)語言的實(shí)質(zhì)貢獻(xiàn)??傊Z言保護(hù)的前景很大程度上取決于語言技術(shù)的成就。
五、結(jié) 語
歐洲在通過語言技術(shù)維護(hù)語言多樣性方面所做的努力反映出兩大類問題。第一,語言技術(shù)本身的問題,包括技術(shù)有待完善、發(fā)展很不均衡等,其中部分因素屬于很難克服的障礙,如書寫系統(tǒng)缺位、小眾語言使用人口少、語言學(xué)研究缺位或不足、語言數(shù)據(jù)或資源不足等。第二,英語的滲透擠壓了其他語言的數(shù)字生存空間,英語在語言保護(hù)和語言技術(shù)發(fā)展方面的優(yōu)勢成為打破語言不平等、建立歐洲數(shù)字單一市場的巨大障礙。正如《數(shù)字時代的威爾士語》(2014)的作者伊凡斯指出的那樣,現(xiàn)在的絕大多數(shù)技術(shù)基礎(chǔ)設(shè)施使用了英語,進(jìn)一步強(qiáng)化了英語的通用地位,使小族語言面臨更大的危險。
數(shù)字時代歐洲語言白皮書系列表達(dá)出一些共同期盼:(1)語言技術(shù)是核心增能技術(shù),有助于克服語言多樣性造成的障礙;(2)語言技術(shù)有助于減少非英語母語者的個人劣勢和經(jīng)濟(jì)劣勢;(3)歐洲需要為其所有語言開發(fā)出強(qiáng)大且價格合理的語言技術(shù);(4)技術(shù)進(jìn)步有待加速;等等(Melero et al. 2012)。雖然歐洲是經(jīng)濟(jì)發(fā)達(dá)地區(qū),語言技術(shù)實(shí)力雄厚,但是從目前取得的成績來看,通過語言技術(shù)破除交際障礙、保護(hù)所有歐洲語言,依然任重道遠(yuǎn)。盡管如此,歐洲通過語言技術(shù)保護(hù)語言的理念和做法、遇到的問題等具有重要的參考價值。
參考文獻(xiàn)
戴曼純 2014 《語言政策與語言規(guī)劃的學(xué)科性質(zhì)》,《語言政策與規(guī)劃研究》第1期。
戴曼純 2017 《歐盟多語制與機(jī)構(gòu)語言政策》,《語言政策與規(guī)劃研究》第1期。
Ananiadou, S., J. Mcnaught& P. Thompson. 2012. T Heidelberg: Springer.
Borin, L., M. Brandt, J. Edlund, et al. 2012. . Heidelberg: Springer.
British Council. 2018. .
Crystal, D. 2004. . Cambridge: Cambridge University Press.
Cunliffe, D. & R. Harries. 2005. Promoting minority-language use in a bilingual online community. 11(2), 157?179.
Danet, B. & S. C. Herring. 2007. . New York: Oxford University Press.
Evas, J. 2014. The Welsh Language in the Digital Age. Heidelberg: Springer.
Fernandez, L. 2001. Patterns of linguistic discrimination in Internet discussion forums. 5(1), 22?41.
Graddol, D. 1997/2000. . London: British Council.
Johnson, A. 2009. The rise of English: The language of globalization in China and the European Union. Macalester International, 22, Article 12.
Melero, M., T. Badia& A. Moreno. 2012. . Heidelberg: Springer.
Melvina, M. 2019. The future of English after Brexit in European Union. , 25?29.
Modiano, M. 2017. English in a post-Brexit European Union. 36(3), 313?327.
Ostler, N. 2014. Introduction: Endangered languages in the New Multilingual Order per genus et differentiam. In M. Jones (Ed.), , 1?14. Cambridge: Cambridge University Press.
Rehm, G. & H. Uszkoreit. 2012. . META Technology Council. http://www.meta-net.eu/sra.
Rehm, G., K. Marheinecke, S. Hegele, et al. 2020. The European language technology landscape in 2020: Language-centric and human-centric AI for cross-cultural communication in multilingual Europe. , 3322?3332.
Rehm, G., S. Piperidis, K. Bontcheva, et al. 2021. European language grid: A joint platform for the European language technology community. , 221?230.
Rosner, M. & J. Joachimsen. 2012. . Heidelberg: Springer.
Smal, L., A. L?sch, J. van Genabith, et al. 2020. Language data sharing in European public services–overcoming obstacles and creating sustainable data sharing infrastructures. , 3443?3448.
Stasimioti, M. 2022. EU-funded language technology platform adds tools, expands language coverage. https://slator.com/eu-funded-language-technology-platform-expands-language-coverage/.
責(zé)任編輯:逯琳琳
參見:www.moe.gov.cn/s78/A19/A19_ztzl/ztzl_yxyywhcccb/ziyuanbaohu/。
歐洲國家界定的小族語言不易確定,例如意大利號稱有50種小族語言,而實(shí)際上官方把這些稱為意大利語的方言。因此,有的文獻(xiàn)稱有80種小族和區(qū)域語言,或用模糊詞表示。
參見:https://ec.europa.eu/eurostat/statistics-explained/index.php?title=Foreign_language_skills_statistics。
參見:https://digital-strategy.ec.europa.eu/policies/language-technologies-multilingualism。
參見:https://www.europarl.europa.eu/RegData/etudes/BRIE/2020/652086/EPRS_BRI(2020)652086_EN.pdf。
參見:https://www.britishcouncil.org/education/schools/support-for-languages/thought-leadership/research-report/future-of-english-eu-2025。
參見:https://firstsiteguide.com/internet-stats/。
參見:https://www.internetworldstats.com/stats4.htm。
參見:https://www.statista.com/statistics/262946/share-of-the-most-common-languages-on-the-internet/。
參見:https://zh.unesco.org/courier/2021-2/wang-luo-kong-jian-yu-yan。
庫馬斯的母語是卡科奇科爾瑪雅語言(Kaqchikel Mayan),在危地馬拉有50多萬使用者。
參見:https://www.bbc.com/future/article/20200414-the-many-lanuages-still-missing-from-the-internet。
參見:https://www.npld.eu ? Roadmap-in-English。
參見:https://cacm.acm.org/news/246618-we-need-to-talk-about-linguistic-diversity-in-ai/fulltext。
參見:https://ec.europa.eu/research-and-innovation/en/horizon-magazine/internet-helping-revive-minority-languages。
參見:http://www.rigasummit2015.eu/multilingual-dsm。
參見:https://ec.europa.eu/info/funding-tenders/find-funding/eu-funding-programmes/digital-europe-programme_en。
參見:https://cordis.europa.eu/project/id/825627。
參見:https://www.theguardian.com/education/2014/feb/17/languages。
25國為亞美尼亞、奧地利、波黑、克羅地亞、塞浦路斯、捷克、丹麥、芬蘭、德國、匈牙利、列支敦士登、盧森堡、黑山、荷蘭、挪威、波蘭、羅馬尼亞、塞爾維亞、斯洛伐克、斯洛文尼亞、西班牙、瑞典、瑞士、烏克蘭、英國。
參見:https://www.theguardian.com/education/2014/feb/17/languages;原文載:https://theconversation.com/minority-languages-fight-for-survival-in-the-digital-age-22571。
參見:https://digital-strategy.ec.europa.eu/en/library/declaration-european-digital-rights-and-principles。
參見:https://www.lr-coordination.eu/node/442。
參見:http://www.meta-net.eu/meta/about。
參見:http://www.cracking-the-language-barrier.eu/organisations/meta-net/。
參見:http://www.meta-net.eu/meta-share/index_html。
本表根據(jù)數(shù)字時代的歐洲語言白皮書及多語歐洲技術(shù)聯(lián)盟相關(guān)數(shù)據(jù)整合而成,數(shù)字賦值為本文作者所為,方便讀者理解語言間的差異。數(shù)據(jù)參見META-NET網(wǎng)和Evas 2014,Melero et al. 2012,http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison。
參見:https://www.ecommercetimes.com/story/report-the-internet-is-a-language-killer-76261.html。
參見:https://slator.com/eu-funded-language-technology-platform-expands-language-coverage/。
參見:https://libereurope.eu/project/european-language-equality-ele/。
參見:https://www.theguardian.com/education/2014/feb/17/languages。