■文/羅蓉(澳大利亞國立大學(xué))
當(dāng)前,隨著經(jīng)濟(jì)、文化的全球化,主流或通用語言更加強(qiáng)勢(shì),弱勢(shì)語言正瀕臨消亡。目前世界上大約有7000 種語言,而據(jù)語言學(xué)家預(yù)測(cè),大部分將于21 世紀(jì)末消失。如果一種語言消失了,與之對(duì)應(yīng)的整個(gè)文明也將隨之滅亡;如不及時(shí)對(duì)弱勢(shì)語言采取措施, 我們將失去對(duì)人類文化遺產(chǎn)完整記錄的機(jī)會(huì)。眾所周知,語言是人類進(jìn)行溝通交流的主要表達(dá)方式,也是文化的載體和重要表現(xiàn)形式,還是一個(gè)民族的血脈和精神家園。因此,瀕危語言的保護(hù)已經(jīng)成為一項(xiàng)重要而迫切的工作。
中國著名學(xué)者周海中先生曾經(jīng)指出:當(dāng)今處于弱勢(shì)的民族語言正面臨著強(qiáng)勢(shì)語言、全球化、互聯(lián)網(wǎng)等的沖擊,其社會(huì)使用功能正處于逐漸弱化或消失的危險(xiǎn)境地;保護(hù)民族語言,有利于人類文明的傳承和發(fā)展,也有利于民族團(tuán)結(jié)、社會(huì)安定。保護(hù)語言多樣性就是保護(hù)文化多樣性,而保護(hù)文化多樣性也是保護(hù)人類命運(yùn)共同體的多樣性??梢哉f,民族語言不僅是民族存在的最重要的特征之一,也是民族文化傳承、發(fā)展、繁榮的重要載體,更是人類文明進(jìn)步和社會(huì)和諧穩(wěn)定的重要標(biāo)志。
如今,人工智能(Artificial Intelligence,簡稱AI)在人們看來已經(jīng)不再陌生了,大家都已親身感受到它對(duì)我們?nèi)粘I畹挠绊懀喝四樧R(shí)別、語音控制、無人駕駛、智能家居、智能機(jī)器服務(wù)等;但是其實(shí),人工智能的使命遠(yuǎn)遠(yuǎn)不只是方便人類,更是守護(hù)地球文明。在瀕危語言方面,語言記錄很大程度依賴人工,然而其結(jié)構(gòu)復(fù)雜多變,想要?dú)w納完整的語音變化、語義分析、語法分析等,單靠人力是不現(xiàn)實(shí)的。另外,被研究語言的采集、文本轉(zhuǎn)寫缺乏規(guī)范也存在許多具體困難。
目前,人們正在利用人工智能技術(shù)系統(tǒng)地研究瀕危語言,實(shí)現(xiàn)對(duì)其完整的記錄。人工智能技術(shù)可建立完善的語料庫,記錄內(nèi)容包括:確定該語言的語音結(jié)構(gòu),分析該語言的句法結(jié)構(gòu)以及基本意義單位和主流語言的對(duì)應(yīng)關(guān)系等。運(yùn)用語音識(shí)別、語音轉(zhuǎn)寫、語音合成等人工智能技術(shù),口音與文字可以更好地結(jié)合,實(shí)現(xiàn)瀕危語言的的語音輸入。如此一來,即使沒有文字的瀕危語言,也有條件轉(zhuǎn)換成主流語言文本,得以記錄與傳承。
前不久,美國著名未來學(xué)家托馬斯·弗雷先生提出了“全球語言檔案館”的設(shè)想;在那里,他利用人工智能技術(shù)把不同的民族語言以視頻、音頻和書面文件的方式存檔。弗雷先生目前已經(jīng)聯(lián)合世界各地的學(xué)者收集了近4000 種語言的數(shù)據(jù),其中許多是瀕危語種。他將收集到的語言資料輸入到人工智能語言重建引擎,其能夠生成一個(gè)功能性的三維立體化身,將語言傳授給想要學(xué)習(xí)它的人。他表示,人工智能引擎將更進(jìn)一步填補(bǔ)任何語言空白,在需要時(shí)創(chuàng)建一種語言的書面形式,并提供語言之間的翻譯。
在中國,科大訊飛利用人工智能技術(shù)尋找瀕危語言中不同尺度的音節(jié)語義之間的關(guān)聯(lián)和模式,在超強(qiáng)算力的服務(wù)器的協(xié)同配合下,最終形成語音庫,實(shí)現(xiàn)了瀕危語言的留存。憑借先進(jìn)的智能語音技術(shù),該公司覆蓋多個(gè)少數(shù)民族語言及方言的語音系統(tǒng)已經(jīng)在語音輸入法、翻譯機(jī)、自動(dòng)評(píng)測(cè)以及播報(bào)中得到實(shí)際應(yīng)用,進(jìn)一步推進(jìn)民族語言、地方方言的保護(hù)和傳承,為維護(hù)語言生態(tài)多樣性做出了貢獻(xiàn)。另外,阿里巴巴AI Labs 最近宣布,正式成立方言保護(hù)專項(xiàng)小組,投入1 億元對(duì)漢語方言進(jìn)行保護(hù)和開發(fā)。
加拿大非營利慈善機(jī)構(gòu)——第一民族文化委員會(huì)(FPCC)最近為了支持不列顛哥倫比亞省的土著語言、藝術(shù)、文化和遺產(chǎn)的復(fù)興,與當(dāng)?shù)厣鐓^(qū)合作,通過其First Voice 平臺(tái)保存語言數(shù)據(jù),制作教學(xué)程序和應(yīng)用程序。First Voice 的最新創(chuàng)新是一款鍵盤應(yīng)用程序,可讓用戶在移動(dòng)設(shè)備上的任何應(yīng)用程序上輸入超過100 種當(dāng)?shù)卣Z言,包括社交媒體、電子郵件和文字處理。First Voices 將其語言數(shù)據(jù)存儲(chǔ)在Nuxeo 中,Nuxeo 是一個(gè)開源的云本地內(nèi)容服務(wù)引擎,集成了人工智能和機(jī)器學(xué)習(xí)。
澳大利亞ARC 語言動(dòng)態(tài)卓越中心(CoEDL)與美國谷歌合作,最近開發(fā)出瀕危語言人工智能平臺(tái);該平臺(tái)通過人工智能模型轉(zhuǎn)錄原住民語言,已存儲(chǔ)超過4 萬小時(shí)的錄音。這不僅節(jié)省了大量的時(shí)間,而且還提高了記錄的準(zhǔn)確率。目前,他們已經(jīng)為20 多種澳大利亞土著語言建立了人工智能模型。另外,CoEDL 為了向生活在偏遠(yuǎn)社區(qū)的兒童教授澳大利亞的土著語言,還開發(fā)了一種低成本、易于運(yùn)輸?shù)闹悄軝C(jī)器人Opie;該機(jī)器人能記錄孩子們的語言技能,供老師跟蹤他們的語言學(xué)習(xí)情況。
由于人工智能技術(shù)在語言存儲(chǔ)和學(xué)習(xí)方面的優(yōu)勢(shì),現(xiàn)在它在拯救瀕危語言的過程中變得空前重要。不過,想通過這一技術(shù)使這些語言得以保護(hù)還面臨很大的挑戰(zhàn),例如許多土著語言一般是通過口述的方式進(jìn)行傳承,如果將其轉(zhuǎn)化為文字,可能會(huì)改變或者無法完整地表達(dá)其原本含義;但是我們可以相信,在現(xiàn)代科技,尤其是人工智能技術(shù)的助力下,瀕危語言的保護(hù)問題一定能夠得以解決。最后,筆者希望有越來越多的人和機(jī)構(gòu)參與瀕危語言的保護(hù)工作,為建設(shè)語言生態(tài)文明和保護(hù)世界文化多樣性貢獻(xiàn)智慧和力量。