李宇明 王春輝
科學是第一生產(chǎn)力??茖W的發(fā)展必然會促進生產(chǎn)力的發(fā)展,進而也將對生產(chǎn)關系進行相應調(diào)整。數(shù)字科學并未將自己局限于科學領域,而是以其巨大的科學成就推動人類進入“數(shù)字經(jīng)濟”時代。數(shù)據(jù)不僅是數(shù)字科學的核心要素,也嬗變?yōu)閿?shù)字經(jīng)濟的重要生產(chǎn)要素。
在數(shù)據(jù)作為數(shù)字科技和數(shù)字經(jīng)濟關鍵生產(chǎn)要素的時代,“語言數(shù)據(jù)”必然成為學術(shù)研究的熱點,成為發(fā)展經(jīng)濟爭相擁有的對象。在英文語境中,“語言數(shù)據(jù)”(linguistic data,language data)是近幾十年來使用較為頻繁的術(shù)語,但在中文語境里還是一個較新且較少使用的概念。在網(wǎng)上檢索“語言數(shù)據(jù)”,可見2016年有“語言大數(shù)據(jù)聯(lián)盟”的消息,2020年7月有《光明日報》發(fā)表李宇明《語言數(shù)據(jù)是信息時代的生產(chǎn)要素》的文章,之后有上海外國語大學設立“語言數(shù)據(jù)科學與應用”專業(yè)的碩博士學位、成立“語言數(shù)據(jù)與智慧教育研究中心”的消息,2021年9月有浙江財經(jīng)大學的“語言數(shù)據(jù)創(chuàng)新班”招生簡章等。
“語言數(shù)據(jù)”較少見用的原因是:其一,人們已習慣使用“語言材料”“語料(庫)”“語言資源”這類說法。其二,“數(shù)據(jù)”(data)研究者,習慣用“數(shù)據(jù)”“大數(shù)據(jù)”這樣的上位概念,不需要或不能自覺區(qū)分語言數(shù)據(jù)和其他數(shù)據(jù),確需指明時才加“語言”作為限定。其三,本質(zhì)上是對“語言數(shù)據(jù)”的重要性認識不足,研究還比較薄弱。
語言數(shù)據(jù)是以語言符號體系為基礎構(gòu)成的各種數(shù)據(jù),內(nèi)部可以細分為5類。
(1)語言學科數(shù)據(jù)。指語言符號系統(tǒng)本身的各種數(shù)據(jù),如語音、語匯、語法、語篇等,也包括文字、標點符號、音標等。有必要時,還可以將其分別稱為語音數(shù)據(jù)、語法數(shù)據(jù)、文字數(shù)據(jù)等。語言學科數(shù)據(jù)是對語言這一客體進行研究而得到的各種認識,屬于語言學知識范疇,辭書、教科書、語言學論文著作等是其通常的貯存方式。
(2)話語數(shù)據(jù)。也可以稱為“言語數(shù)據(jù)”,指在語言交際中產(chǎn)生的口語和書面語等各種數(shù)據(jù)。這類數(shù)據(jù)是語言(文字)作為載體(或主要載體)所負載的各種知識與信息,存在于人類生活、工作、學習、休閑娛樂等各個領域,是語言數(shù)據(jù)中最為豐富、最為重要的一類。話語數(shù)據(jù)可以是不同領域的,可以是單語、雙語和多語的,可以是平面媒體、有聲媒體、網(wǎng)絡媒體和融媒體的。
(3)語言衍生數(shù)據(jù)。涉及語言的社會屬性、生存狀態(tài)、媒介裝備等相關數(shù)據(jù)。比如各語言(文字)的地域分布、母語和第二語言使用人口,各國的國語(或官方語言)及語言能力,各語言的重要文獻數(shù)量及翻譯狀況,語言技術(shù)水平和語言產(chǎn)業(yè)狀況,甚至也涉及各語言所擁有的非物質(zhì)文化遺產(chǎn)、語言社團的綜合實力及對人類的貢獻等。它是語言在長期社會應用中形成的一系列附屬數(shù)據(jù),對衡量一種語言的生存狀況、判斷國際語言格局具有重要意義。
(4)人工語言數(shù)據(jù)。利用語言(文字)而設計的特殊符號系統(tǒng),以及運用這些特殊符號而產(chǎn)生的各種數(shù)據(jù)。比如盲文、手語、電報代碼、旗語、燈語等,主要是將文字(或拼音符號)轉(zhuǎn)寫為特殊符號,用于特殊人群、特殊場合的交際。在符號轉(zhuǎn)換的過程中,也可加入一些特殊成分,比如手語中就加入了一些自然動作或聾人群體的傳統(tǒng)動作。
(5)語言代碼數(shù)據(jù)。指生活中、科技活動中使用的各種代碼和科技語言,它們通常具有高度形式化、可機讀(或容易轉(zhuǎn)化為機讀)的特點。如專業(yè)符號、公式、圖表、音樂曲譜、機讀語言、編程語言,還有各類號碼、條碼、標記、印章、紅綠燈、網(wǎng)絡文本中的表情包甚至插圖、水印等。這是最廣泛意義上的語言數(shù)據(jù)。在語言生活中,這些人工語言或單獨使用,或與自然語言結(jié)合使用;有些可以“翻譯”為自然語言,有些不易“翻譯”,但都需要以自然語言作為“元語言”進行定義、描述或解釋。在一個所謂的“讀圖時代”“超語時代”,這些人工語言的使用越來越頻繁,產(chǎn)生的數(shù)據(jù)越來越重要。
語言數(shù)據(jù)的研究與應用,過去主要集中在語言學、計算語言學、信息科學等領域。隨著數(shù)據(jù)科學的發(fā)展,特別是數(shù)據(jù)成為人工智能發(fā)展的主要驅(qū)動因素,語言數(shù)據(jù)的研究與應用,迅速擴展到諸多學科和社會領域,彌散到人類的各個生活空間;因為語言數(shù)據(jù)占人類數(shù)據(jù)量的大多數(shù),語言數(shù)據(jù)的技術(shù)更新,特別是利用互聯(lián)網(wǎng)收集話語數(shù)據(jù)的便利性和處理話語數(shù)據(jù)的能力的快速提高,促進了“數(shù)字科學”“數(shù)據(jù)科學”的迅速發(fā)展。在“數(shù)字科學”“數(shù)據(jù)科學”的發(fā)展中,語言數(shù)據(jù)發(fā)揮了舉足輕重的作用,因為所處理的“數(shù)字”“數(shù)據(jù)”主要是語言數(shù)據(jù)。
未來的語言數(shù)據(jù)研究,需要清醒認識語言數(shù)據(jù)所具有的數(shù)據(jù)共性和語言特性,界定清楚語言數(shù)據(jù)的內(nèi)涵與外延,研討語言數(shù)據(jù)的功能及其實現(xiàn)方式,建立語言數(shù)據(jù)(資源)學科及人才培養(yǎng)體系,推進語言數(shù)據(jù)科學的發(fā)展。語言數(shù)據(jù)在以下四大領域發(fā)揮功能最為顯著。
第一,語言保護。在語言資源保護領域,語言數(shù)據(jù)發(fā)揮了重要作用,如國家語委2008年啟動的“中國語言資源有聲數(shù)據(jù)庫建設”,2015年啟動的“中國語言資源保護工程”。但是全世界有7000多種語言,多數(shù)語言處于瀕危狀態(tài),為了全球語言保護,急需為哪些語言建立語言數(shù)據(jù)庫,依據(jù)什么標準建立什么樣的語言數(shù)據(jù)庫,怎樣集各方之力建設和開發(fā)利用語言數(shù)據(jù)庫,是需要首先解決的大問題。
第二,語言教學。在語言教學領域,語言數(shù)據(jù)發(fā)揮著決定性的作用,特別是線上教學成為主導方式的今天。要滿足母語教學、外語教學、海外華語教育、國際中文教育等各種語言教學的需求,教育界和教育產(chǎn)業(yè)界必須把相關的各種語言數(shù)據(jù),特別是語言學科數(shù)據(jù)和話語數(shù)據(jù)進行積聚整合,精準發(fā)送到使用者手中。
第三,語言學研究和語言產(chǎn)品研發(fā)。語言學研究和語言產(chǎn)品研發(fā),必須依賴語言數(shù)據(jù),比如漢語語法規(guī)律的研究離不開語料庫;評價語言的社會功能需要的語言衍生數(shù)據(jù);詞典本來就是一種特殊的語言數(shù)據(jù)庫,特別是線上詞典,詞典編纂也早過了“抄卡片”的年代。語言數(shù)據(jù)庫已成為語言學研究的基本工具,成為語言產(chǎn)品研發(fā)的基本建設。
第四,語言信息處理。語言信息處理是語言數(shù)據(jù)最重要的功能領域。其一,計算機要獲得語言智能,能夠從事“語言行為”,必須依靠大量的語言數(shù)據(jù)“飼喂”,依靠“數(shù)據(jù)驅(qū)動”;其二,計算機的“社會計算”,主要處理的就是各領域的語言數(shù)據(jù)。這一方面有許多發(fā)展中的問題,比如如何利用語言學科數(shù)據(jù),使語言智能的發(fā)展變“數(shù)據(jù)單輪驅(qū)動”為“‘數(shù)據(jù)+規(guī)則’雙輪驅(qū)動”;如何建立可以測試評價計算機語言智能和語言行為的語言數(shù)據(jù)庫;如何擴充英語之外的“雙語平行語料”,提升非通語種的自動翻譯能力;如何解決“語言小數(shù)據(jù)”問題,提升專門社會領域、專業(yè)學術(shù)領域的語言處理問題;如何利用語言數(shù)據(jù)為特殊行業(yè)、特殊人群配備人工智能助手等。
至于說語言數(shù)據(jù)作為關鍵生產(chǎn)要素,應當做哪些工作,學界業(yè)界還較少討論。也許下面這些內(nèi)容是必要的:全力支持語言數(shù)據(jù)的科學研究,大力發(fā)展語言數(shù)據(jù)產(chǎn)業(yè)與職業(yè),建立和完善市場機制,逐步建立語言數(shù)據(jù)收集、加工、交換、貯存及產(chǎn)權(quán)、收益等相關的技術(shù)標準、法律法規(guī)和政策體系,充分發(fā)揮其生產(chǎn)要素的經(jīng)濟功能和社會功能。其中語言數(shù)據(jù)庫的共建共享是首要問題,可以說,從研究生做碩士、博士學位論文到每一個科研基金語言項目,從每一個辭書編纂項目到每一項自然語言處理工程,幾乎人人都要建語言數(shù)據(jù)庫,但卻不能實現(xiàn)學界業(yè)界共享,其學力和財力的浪費已難以計算。
總之,語言數(shù)據(jù)是一個新的重要的話題,對它的研究超出了現(xiàn)有語言學的范疇,也超出了其他學科的單一學科范疇,需要多學科聯(lián)袂進行交叉研究;語言數(shù)據(jù)問題也超出了學術(shù)研究范疇,成為社會發(fā)展的重要問題,需要全社會的共同參與。本專題的幾篇文章,涉及語言數(shù)據(jù)安全、語言數(shù)據(jù)的經(jīng)濟屬性、語言數(shù)據(jù)的數(shù)字化技術(shù)、語言智能技術(shù)對于數(shù)據(jù)治理的意義等論題,是關于語言數(shù)據(jù)幾個問題的初始性研究。初始性研究的意義主要不在于解決了什么問題,而是提出問題,引發(fā)關注。希望這一期語言數(shù)據(jù)研究能得到學界的呼應和社會的支持。