提 要 數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)成為基本生產(chǎn)要素。語言數(shù)據(jù)不僅是新生產(chǎn)力,也催生了新的生產(chǎn)關(guān)系?!罢Z言數(shù)據(jù)”是以語言符號(hào)體系為基礎(chǔ)構(gòu)成的各種數(shù)據(jù),“語言數(shù)據(jù)安全”則指通過采取必要措施,確保語言數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。語言數(shù)據(jù)安全是國家語言安全的重要組成部分,是新時(shí)代國家安全體系的有機(jī)構(gòu)成。它可以依據(jù)風(fēng)險(xiǎn)級(jí)別、流程、領(lǐng)域以及是否核心等多個(gè)維度進(jìn)行類型劃分。語言數(shù)據(jù)安全當(dāng)前的幾個(gè)主要問題包括語言數(shù)據(jù)意識(shí)和語言數(shù)據(jù)安全意識(shí)不足、語言數(shù)據(jù)的泛用與確權(quán)不明、對(duì)語言數(shù)據(jù)跨境流動(dòng)關(guān)注闕如、語言數(shù)據(jù)市場安全缺乏評(píng)估等。未來,需要從治理意識(shí)和理念,治理狀態(tài)評(píng)估,技術(shù)支撐、管理建設(shè)、組織建設(shè)、人才培養(yǎng)、國際合作五大板塊,以及評(píng)價(jià)反饋等幾個(gè)方面開展語言數(shù)據(jù)安全治理。
關(guān)鍵詞 語言數(shù)據(jù);語言安全;語言治理;語言數(shù)據(jù)安全;數(shù)字時(shí)代
中圖分類號(hào) H002 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-1014(2022)04-0015-11
DOI 10.19689/j.cnki.cn10-1361/h.20220401
In the era of digital economy, data has become one of the basic production factors. Language data is not only a new productive force, but also a stimulus for new relations of production. Language data can be categorized into different types based on various criteria? i.e., form, contents, actors, process, and beneficiaries, and its production involves four levels of agency: government, enterprise, community, and individuals. Language data security is an important part of national language security and an indispensable component of the national security system in the new era. Language data security can be classified based on risk level, process, domain, and centrality. Currently, the major problems of language data security include the lack of language data awareness and language data security awareness, overuse or improper use of language data, unclarity of property rights, inattention to the cross-border flow of language data, and inadequate assessment of the security of language data market. In the future, the governance of language data security needs to be enhanced from the perspectives of governance awareness and philosophy, governance status assessment, five major construction sectors, and evaluation feedback.
language data; language security; language governance; language data security; digital age
一、引 言
語言是人類最重要的交際工具和思維工具,是身份的標(biāo)記和文化的圖騰,是重要的信息資源、人力資源、共享資源、知識(shí)資源和文化資源,是一種重要的甚至關(guān)鍵性的資源(李宇明2018;王春輝2021b)。正因如此,語言安全也就成了國家安全的基本構(gòu)成,成了國家安全學(xué)的重要組成部分(郭繼榮,楊亮2021;Chen & Breivik 2013)。歷經(jīng)農(nóng)業(yè)社會(huì)、工業(yè)社會(huì)、信息社會(huì)之后,人類正在快步邁入一個(gè)基于數(shù)字經(jīng)濟(jì)的新的社會(huì)形態(tài)——數(shù)字社會(huì)(陳剛,謝佩宏2020)。
在數(shù)字經(jīng)濟(jì)和數(shù)字社會(huì)時(shí)代,數(shù)據(jù)成為基本生產(chǎn)要素,是全球貿(mào)易的中心之一和全球政府與資本追逐的焦點(diǎn),數(shù)據(jù)安全問題已經(jīng)成為關(guān)系個(gè)人、企業(yè)和國家安全的最緊迫和最基礎(chǔ)的安全問題,加強(qiáng)數(shù)據(jù)安全治理已成為維護(hù)國家安全和國家競爭力的戰(zhàn)略需要(中國電子信息產(chǎn)業(yè)發(fā)展研究院2019)。2021年3月,世界銀行發(fā)布了《2021年世界發(fā)展報(bào)告:讓數(shù)據(jù)創(chuàng)造更好生活》(世界銀行2021)。報(bào)告力求回答兩個(gè)根本問題:其一,如何通過數(shù)據(jù)來更好地推進(jìn)發(fā)展目標(biāo);其二,需要做出何種數(shù)據(jù)治理安排來支持以安全、道德和可靠的方式生成和使用數(shù)據(jù),同時(shí)讓數(shù)據(jù)公平地造福所有人。
語言數(shù)據(jù)可以被看作領(lǐng)域數(shù)據(jù)的一種類型,語言數(shù)據(jù)安全問題目前還是一片待開拓的研究區(qū)域:以往的語言安全研究并未涉及,以往的數(shù)據(jù)安全分析也并未聚焦。本文的目的即分析語言數(shù)據(jù)安全的內(nèi)涵與類型,揭示目前存在的主要問題,并嘗試性地提出一個(gè)語言數(shù)據(jù)安全治理框架。
二、界定與類型
(一)語言數(shù)據(jù)
1.界定
數(shù)據(jù),是用來記錄客觀事物或事件的符號(hào),具體來說,是對(duì)客觀事物或事件的性質(zhì)、狀態(tài)以及相互關(guān)系等信息進(jìn)行記錄的物理符號(hào)(賽迪智庫網(wǎng)絡(luò)安全研究所2021:4)。關(guān)于語言數(shù)據(jù)的內(nèi)涵和外延,目前學(xué)界討論還不充分。李宇明(2020a)率先提出了“語言數(shù)據(jù)”這一概念并闡釋了其重要價(jià)值;李宇明(2020b)則進(jìn)一步討論了語言數(shù)據(jù)的四大類內(nèi)容:語言符號(hào)系統(tǒng);語言負(fù)載的信息;由語言延伸的各種符號(hào)與代碼;生活、藝術(shù)與科學(xué)技術(shù)符號(hào)。隨后姜國權(quán)、李一飛(2021)討論了語言數(shù)據(jù)對(duì)于“一帶一路”建設(shè)的意義。
出于研究操作層面的考慮,李宇明、王春輝(2022)指出,語言數(shù)據(jù)是以語言符號(hào)體系為基礎(chǔ)構(gòu)成的各種數(shù)據(jù),內(nèi)部可以細(xì)分為5類,即語言學(xué)科數(shù)據(jù)、話語數(shù)據(jù)、語言衍生數(shù)據(jù)、人工語言數(shù)據(jù)和語言代碼數(shù)據(jù)。本文所指語言數(shù)據(jù)主要是針對(duì)語言學(xué)科數(shù)據(jù)和語言衍生數(shù)據(jù)這兩類而言,即語言符號(hào)系統(tǒng)本身的各種數(shù)據(jù)和涉及語言的社會(huì)屬性、生存狀態(tài)、媒介裝備等的相關(guān)數(shù)據(jù)。
語言數(shù)據(jù)屬于行業(yè)數(shù)據(jù)的一種,是數(shù)字經(jīng)濟(jì)的重要構(gòu)成。
2.類型
數(shù)據(jù)分類在收集、處理和應(yīng)用數(shù)據(jù)的過程中非常重要。語言數(shù)據(jù)的分類方式很多,可以根據(jù)不同目的、不同角度等進(jìn)行多視角區(qū)分。語言數(shù)據(jù)工作者往往需要理解和掌握不同的分類方式,以便更好地進(jìn)行組織、管理、分析和應(yīng)用。茲舉以下幾種。
著眼于形式方面,可以分為非數(shù)字化語言數(shù)據(jù)和數(shù)字化語言數(shù)據(jù)。前者比如各類紙版詞典,“語言生活皮書”“中國語言文化典藏”“中國瀕危語言志”等叢書,《中國方志中語言資料集成》(全42冊(cè))、即將出版的《近代漢語方言文獻(xiàn)集成》等資料集成,二語學(xué)習(xí)者的書面語料等;后者比如國家語委各科研機(jī)構(gòu)的各類數(shù)據(jù)庫、《中國語言生活狀況報(bào)告》的“有聲媒體”數(shù)據(jù)、民族語言志網(wǎng)(Ethnologue)、世界語言結(jié)構(gòu)地圖(The World Atlas of Language Structures)、北京大學(xué)綜合型語言知識(shí)庫、美國的語言地圖集項(xiàng)目(The Linguistic Atlas Project)等。當(dāng)然,兩種形式的數(shù)據(jù)是可以相互轉(zhuǎn)化的,比如谷歌數(shù)字圖書館工程就是將非數(shù)字化數(shù)據(jù)轉(zhuǎn)換成數(shù)字化數(shù)據(jù),而將紙版方言地圖轉(zhuǎn)換成數(shù)字化存貯的也比比皆是,還有剛剛上線的殷墟甲骨文數(shù)據(jù)庫;此外,數(shù)字時(shí)代所指的“數(shù)據(jù)”,已經(jīng)越來越指向數(shù)字化的數(shù)據(jù)。
著眼于內(nèi)容方面,則可以分為語言結(jié)構(gòu)數(shù)據(jù)、語言功能數(shù)據(jù)、語言社會(huì)數(shù)據(jù)。語言結(jié)構(gòu)數(shù)據(jù)即涵蓋語言系統(tǒng)本身的語音、詞匯、語法、語義等知識(shí)的數(shù)據(jù);語言功能數(shù)據(jù)即語言使用和應(yīng)用范疇的語用、翻譯、政策文本等數(shù)據(jù);語言社會(huì)數(shù)據(jù)即語種能力、語言與社會(huì)變量互動(dòng)的社會(huì)方言、多語社會(huì)、身份認(rèn)同等數(shù)據(jù)。這3類數(shù)據(jù)其實(shí)都可以歸入實(shí)體數(shù)據(jù)和關(guān)系數(shù)據(jù)這兩大類范疇。
從數(shù)據(jù)主體和來源視角,可以分為:政府/政務(wù)語言數(shù)據(jù),即只有政府部門才有權(quán)采集、擁有、管理和發(fā)布的語言數(shù)據(jù),比如各類政府層面的語言政策、全國語言普查數(shù)據(jù)等;企業(yè)語言數(shù)據(jù),即市場機(jī)構(gòu)進(jìn)行商業(yè)活動(dòng)或因其他需求所采集、加工、整理和擁有的語言數(shù)據(jù),比如各類翻譯企業(yè)產(chǎn)生的語言數(shù)據(jù);社群語言數(shù)據(jù),即社會(huì)各類團(tuán)體機(jī)構(gòu)因某種需求所采集、加工、整理和擁有的語言數(shù)據(jù),比如語言研究組織的各類語言數(shù)據(jù);個(gè)人語言數(shù)據(jù),即自然人在網(wǎng)絡(luò)上留下的語言數(shù)據(jù),包括靜態(tài)數(shù)據(jù)和行為數(shù)據(jù),比如研究者個(gè)人或研究小組生產(chǎn)的語言數(shù)據(jù)等。
從數(shù)據(jù)加工處理的角度,可以分為原始語言數(shù)據(jù)和衍生語言數(shù)據(jù)。前者指不依賴于其他任何數(shù)據(jù)而產(chǎn)生、沒有做過任何加工的數(shù)據(jù),比如網(wǎng)絡(luò)新興詞匯、各國人口普查后的第一手語言調(diào)查信息、環(huán)北極8個(gè)國家的語言和方言調(diào)查數(shù)據(jù)、留學(xué)生的課堂或考試作文、對(duì)一名或一組兒童每天3小時(shí)視頻記錄的材料、在華國際移民的語種能力和語言學(xué)習(xí)需求數(shù)據(jù)等;后者則是對(duì)原始數(shù)據(jù)進(jìn)行加工處理后產(chǎn)生的系統(tǒng)的、有使用價(jià)值的數(shù)據(jù),比如將網(wǎng)絡(luò)新興詞匯進(jìn)行匯集編校而成的新詞新語詞典、對(duì)實(shí)地調(diào)查資料分析整理而成的語言/方言語音系統(tǒng)、標(biāo)記了語法信息的熟語料庫、根據(jù)大量原始數(shù)據(jù)而形成的世界語言概況數(shù)據(jù)、對(duì)世界4000多種語言的語法信息進(jìn)行類型學(xué)分析得到的“世界語言結(jié)構(gòu)地圖”等。當(dāng)然,衍生數(shù)據(jù)可以是一次衍生,也可能會(huì)出現(xiàn)二次甚至三次衍生。
此外,還可以從公益性視角分為收益型語言數(shù)據(jù)和公益型語言數(shù)據(jù)。需要指出的是,顯然各個(gè)類型之間是互有交叉或重疊的,只不過是區(qū)分的角度和目的不同而已。
(二)語言數(shù)據(jù)安全
1.界定
“語言數(shù)據(jù)安全”指的是通過采取必要措施,確保語言數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。這一界定至少包含相互關(guān)聯(lián)的兩層含義:語言數(shù)據(jù)自身的安全和由語言數(shù)據(jù)而引發(fā)的其他安全。語言數(shù)據(jù)安全以總體國家安全觀為背景,是國家語言安全的重要組成部分,是新時(shí)代國家安全體系的有機(jī)構(gòu)成。尤其是在人類邁入數(shù)字時(shí)代、數(shù)據(jù)成為基本生產(chǎn)要素的當(dāng)下,對(duì)語言數(shù)據(jù)安全的探索將會(huì)對(duì)整體國家安全產(chǎn)生重大影響。
當(dāng)代世界有三大構(gòu)成要素:物質(zhì)、能量和信息,也就由此有了物質(zhì)安全、能量安全和信息安全,語言數(shù)據(jù)安全應(yīng)歸入信息安全的范疇。
2.類型
如同前述語言數(shù)據(jù)的分類有不同視角,語言數(shù)據(jù)安全的分類也是如此。舉例如下。
首先,依據(jù)數(shù)據(jù)對(duì)國家安全、公共利益或者個(gè)人、組織合法權(quán)益的影響和重要程度,可將數(shù)據(jù)分為一般數(shù)據(jù)、重要數(shù)據(jù)、關(guān)鍵數(shù)據(jù)。此3類語言數(shù)據(jù)的風(fēng)險(xiǎn)級(jí)別、商業(yè)價(jià)值、隱私程度等呈現(xiàn)梯級(jí)差異,其安全等級(jí)依次增強(qiáng),開放程度依次降低。當(dāng)然,數(shù)據(jù)本身屬性上的游移也導(dǎo)致數(shù)據(jù)的安全具有相對(duì)性:一方面,在A處是一般等級(jí)的,在B處可能是重要的或關(guān)鍵的;反之亦然。另一方面,正如“馬賽克理論”(mosaic theory)所呈現(xiàn)的,一些碎片化、模糊化的一般數(shù)據(jù)被增量、組合、分析之后,有可能會(huì)轉(zhuǎn)化成危及安全的重要數(shù)據(jù)甚至關(guān)鍵數(shù)據(jù)。
其次,從語言數(shù)據(jù)流程視角來看,語言數(shù)據(jù)安全是語言數(shù)據(jù)全過程的安全,至少包括語言數(shù)據(jù)的收集、存儲(chǔ)、使用、加工、傳輸、提供和公開等環(huán)節(jié)的安全。收集安全主要指語言數(shù)據(jù)在錄入、處理、統(tǒng)計(jì)或打印中由于硬件故障、斷電、死機(jī)、人為的誤操作、程序缺陷、病毒或黑客等造成的數(shù)據(jù)庫損壞、數(shù)據(jù)丟失或數(shù)據(jù)泄密現(xiàn)象;數(shù)據(jù)采集和錄入的真實(shí)性是數(shù)據(jù)安全的本源和基礎(chǔ),如果數(shù)據(jù)都是假的,則其“安全性”將無從談起。存儲(chǔ)安全是指實(shí)體語言數(shù)據(jù)的保存或者數(shù)據(jù)庫在系統(tǒng)運(yùn)行之外的可讀性,涉及保護(hù)數(shù)據(jù)存儲(chǔ)設(shè)備、防止其他系統(tǒng)未經(jīng)授權(quán)訪問語言數(shù)據(jù)等方面。使用安全指的是語言數(shù)據(jù)在不同應(yīng)用場景和領(lǐng)域中的安全性,比如跨境語言數(shù)據(jù)。加工安全指的是對(duì)語言數(shù)據(jù)進(jìn)行二次或多次加工過程中的數(shù)據(jù)遺漏或流失,會(huì)對(duì)語言數(shù)據(jù)的精確度和關(guān)聯(lián)性造成影響。傳輸安全即語言數(shù)據(jù)在運(yùn)輸或傳輸過程中涉及的安全問題,包括語言數(shù)據(jù)發(fā)出方和接收方以及傳輸渠道的安全。提供和公開安全是指提供和公開主體行事之后的對(duì)內(nèi)和對(duì)外效應(yīng),主要涉及政府和企事業(yè)單位的重要語言數(shù)據(jù)。
再者,可以依據(jù)語言數(shù)據(jù)出現(xiàn)的領(lǐng)域而將其分為:政治語言數(shù)據(jù)安全,比如對(duì)鑄牢中華民族共同體意義重大的各民族語言和方言的數(shù)據(jù);國土語言數(shù)據(jù)安全,比如相關(guān)地圖的語言數(shù)據(jù)或邊境線和海島地名的數(shù)據(jù);軍事語言數(shù)據(jù)安全,比如軍隊(duì)和軍人的語言數(shù)據(jù)以及跨境語言的相關(guān)數(shù)據(jù);經(jīng)濟(jì)語言數(shù)據(jù)安全,比如翻譯等語言產(chǎn)業(yè)和語言經(jīng)濟(jì)的發(fā)展數(shù)據(jù);文化語言數(shù)據(jù)安全,比如涉及國際傳播能力的中華文化核心術(shù)語數(shù)據(jù)或“飯圈文化”等亞文化的語言數(shù)據(jù);社會(huì)語言數(shù)據(jù)安全,比如影響醫(yī)療診斷和治療的語種能力和語言能力數(shù)據(jù)或與刑偵辦案相關(guān)的方言數(shù)據(jù)和語言痕跡;科技語言數(shù)據(jù)安全,比如類人機(jī)器人的語種和語言能力數(shù)據(jù)或情感語言成分的計(jì)算數(shù)據(jù);網(wǎng)絡(luò)語言數(shù)據(jù)安全,比如世界語言的網(wǎng)絡(luò)文本占有率數(shù)據(jù)或中外合作語言課題項(xiàng)目成果的數(shù)字化和共享性方面的安全;資源語言數(shù)據(jù)安全,比如自然資源格局的話語體系建構(gòu)數(shù)據(jù);海外利益語言數(shù)據(jù)安全,比如海外救援人員的語言數(shù)據(jù)或影響中國國際話語權(quán)的相關(guān)語言國際標(biāo)準(zhǔn)的數(shù)據(jù);生物語言數(shù)據(jù)安全,比如各類相關(guān)會(huì)議的多語數(shù)據(jù);太空語言數(shù)據(jù)安全,比如空間站的操作語言數(shù)據(jù);極地語言數(shù)據(jù)安全,比如極地周圍國家和地區(qū)的語言數(shù)據(jù);深海語言數(shù)據(jù)安全,如相關(guān)海域及島礁的命名數(shù)據(jù);等等。
又如,根據(jù)數(shù)據(jù)安全涉及的主體,可以分為政府的、國際組織的、信息技術(shù)企業(yè)的、技術(shù)社群的、民間機(jī)構(gòu)和公民個(gè)人的等。個(gè)人語言數(shù)據(jù),包括用于語言研究或其他目的的各類數(shù)據(jù)庫、網(wǎng)上語言痕跡。當(dāng)然,語言數(shù)據(jù)安全在不同類型中效果的側(cè)重點(diǎn)會(huì)不同:對(duì)于個(gè)人語言數(shù)據(jù),可能影響主要在研究效果,個(gè)別情況會(huì)涉及個(gè)人安全,比如犯罪嫌疑人的語言刻畫、語言數(shù)據(jù)遺產(chǎn)(伊萊恩·卡斯凱特2020)等;對(duì)于企業(yè)語言數(shù)據(jù),主要在利潤方面;對(duì)于國家語言數(shù)據(jù),則往往是跟安全方面相關(guān)。
此外,《數(shù)據(jù)安全法》還提出了“國家核心數(shù)據(jù)”的概念。與此對(duì)應(yīng),可以考慮設(shè)立國家語言核心數(shù)據(jù),即關(guān)系國家安全、國民經(jīng)濟(jì)命脈、重要民生、重大公共利益等的語言數(shù)據(jù);此范疇之外的,可稱為“非國家語言核心數(shù)據(jù)”。
語言數(shù)據(jù)安全的類型還有一些其他區(qū)分維度。比如由優(yōu)勢(shì)語種的物理空間或虛擬空間霸權(quán)給人類語言數(shù)據(jù)帶來的安全威脅(王春輝2016;王春輝,高莉2009)。使用某種語言的人口是某種語言數(shù)據(jù)量的決定性因素,物理空間的語言數(shù)據(jù)也存在瀕?,F(xiàn)象,一旦一種語言沒有了說話人或者能夠理解它的人,這種語言的安全就基本歸于零了;虛擬空間雖然不存在數(shù)據(jù)消失,但是有的語言在虛擬空間幾乎沒有數(shù)據(jù)或數(shù)據(jù)很少,這些語言的安全狀態(tài)也可以基本歸于零。因此,現(xiàn)實(shí)和虛擬空間語言數(shù)據(jù)的比例,也是一個(gè)重大語言安全問題,英語的全球蔓延給很多語言帶來了生存危機(jī)。再比如語言識(shí)別數(shù)據(jù),美國國際語言暑期學(xué)院(SIL International)基于溝通度和認(rèn)知度等標(biāo)準(zhǔn)所整理的《世界的語言》認(rèn)為中國境內(nèi)的語言超過300種,而《中國的語言》《大辭?!返任墨I(xiàn)依據(jù)民族學(xué)和歷史語言學(xué)標(biāo)準(zhǔn)確認(rèn)的數(shù)量則為130種左右(孫宏開,黃行2018)。這不僅僅是數(shù)值上的差異,而且是涉及民族識(shí)別、語言認(rèn)同、文化認(rèn)同、國家認(rèn)同等重要甚至關(guān)鍵的國家安全議題。還有語言研究數(shù)據(jù)的安全,比如語言類數(shù)據(jù)庫、語言研究文獻(xiàn)數(shù)據(jù)庫。目前中國就缺少PubMed免費(fèi)論文引文數(shù)據(jù)庫平臺(tái)。此外,還可以分為傳統(tǒng)型語言數(shù)據(jù)安全和非傳統(tǒng)型語言數(shù)據(jù)安全,語言數(shù)據(jù)本身安全和語言數(shù)據(jù)引發(fā)的其他安全等類型。
三、語言數(shù)據(jù)安全的主要問題
語言數(shù)據(jù)古已有之,但是生產(chǎn)要素和安全視角的認(rèn)知和研究則是新興事物。因其新,所以就存在一些已經(jīng)顯現(xiàn)或?qū)⒁@現(xiàn)的問題。
(一)語言數(shù)據(jù)意識(shí)和語言數(shù)據(jù)安全意識(shí)不足
中國社會(huì)一直以來存在的一個(gè)“基礎(chǔ)性的問題是全社會(huì)缺乏語言意識(shí),甚至是起碼的語言意識(shí)”(李宇明2014)。近些年在國家語委等相關(guān)部門、學(xué)界專家、社會(huì)現(xiàn)實(shí)等多重因素的合力之下,政府和社會(huì)的語言意識(shí)有所提升,但是在突發(fā)事件和前沿領(lǐng)域的語言意識(shí)仍然缺乏。前者比如“在應(yīng)急語言服務(wù)領(lǐng)域,還缺乏語言意識(shí),缺乏語言覺悟”(李宇明2021b),后者比如語言數(shù)據(jù)意識(shí)和語言數(shù)據(jù)安全意識(shí)。
語言數(shù)據(jù)意識(shí),就是意識(shí)到語言數(shù)據(jù)之于人生、之于單位、之于社會(huì)、之于國家的意義。首先,要從以往的語料庫、數(shù)據(jù)庫等傳統(tǒng)觀念中跳出來,從數(shù)據(jù)成為人類生產(chǎn)要素的高度來審視語言數(shù)據(jù)。其次,要在以往的語言問題觀、權(quán)力觀、資源觀(Ruiz 1984)之外,添加上語言資產(chǎn)觀和語言資本觀。語言資產(chǎn)觀即語言數(shù)據(jù)是一種資產(chǎn),是國家、企業(yè)或個(gè)人資產(chǎn)的重要組成部分,是基本生產(chǎn)要素和創(chuàng)造財(cái)富的基礎(chǔ)。語言資本觀即語言數(shù)據(jù)的資源和資產(chǎn)特性得到進(jìn)一步發(fā)揮,與價(jià)值進(jìn)行結(jié)合,通過交易等各種流動(dòng)方式,可以最終變?yōu)橘Y本。語言數(shù)據(jù)資產(chǎn)是指經(jīng)濟(jì)活動(dòng)主體在生產(chǎn)經(jīng)營管理活動(dòng)中形成的,可擁有或可控制其產(chǎn)生及應(yīng)用全過程的、可量化的、預(yù)期能給相關(guān)利益方帶來經(jīng)濟(jì)效益的語言數(shù)據(jù)。實(shí)現(xiàn)語言數(shù)據(jù)可控制、可量化與可變現(xiàn)屬性,體現(xiàn)數(shù)據(jù)價(jià)值的過程,就是語言數(shù)據(jù)資產(chǎn)化過程。 2016年3月,《麻省理工科技評(píng)論》與甲骨文公司聯(lián)合發(fā)布了名為《數(shù)據(jù)資本的興起》的研究報(bào)告。報(bào)告指出,數(shù)據(jù)已經(jīng)成為一種資本,和金融資本一樣,能夠產(chǎn)生新的產(chǎn)品和服務(wù)。語言數(shù)據(jù)資本化的過程,就是將語言數(shù)據(jù)資產(chǎn)的價(jià)值和使用價(jià)值折算成股份或出資比例,通過數(shù)據(jù)交易和數(shù)據(jù)流動(dòng)變?yōu)橘Y本的過程(中國電子信息產(chǎn)業(yè)發(fā)展研究院2019:6~8)。
新世紀(jì)以來尤其是近十年來,語言安全成為學(xué)界研究的熱點(diǎn)話題。2014年總體國家安全觀的提出更是將國家安全和語言安全研究推向了一個(gè)新高度。檢索已有的語言安全的文獻(xiàn)可以發(fā)現(xiàn),當(dāng)前的語言安全研究主要集中在語言安全的界定和類型、國外特別是美國語言安全戰(zhàn)略的啟示、語言暴力、邊疆地區(qū)及跨境語言安全、“一帶一路”相關(guān)語言安全、作為文化安全次類的語言安全、翻譯安全等方面。但是對(duì)于語言數(shù)據(jù)安全問題,政府、學(xué)界和社會(huì)等都還處于模糊狀態(tài),意識(shí)還未跟上。而事實(shí)正如本文所述,語言數(shù)據(jù)安全對(duì)個(gè)人、機(jī)構(gòu)、國家已經(jīng)在一定程度上形成了威脅,或者可能會(huì)構(gòu)成潛在重大危險(xiǎn)。
(二)語言數(shù)據(jù)的泛用與確權(quán)不明
數(shù)據(jù)確權(quán)是數(shù)據(jù)要素化和數(shù)據(jù)產(chǎn)權(quán)交易的前提條件。一旦數(shù)據(jù)確權(quán),意味著它將有數(shù)據(jù)主體、報(bào)酬定價(jià)和流轉(zhuǎn)配置(陳肇新2021)。目前,各國法律似乎還沒有準(zhǔn)確界定數(shù)據(jù)權(quán)益的歸屬問題。語言數(shù)據(jù)的產(chǎn)權(quán)可以分解為所有權(quán)、使用權(quán)和收益權(quán)?,F(xiàn)在看來,所有權(quán)較為明確,使用權(quán)較為寬泛,而收益權(quán)則似乎異常模糊。從所有權(quán)角度看,基本上是“誰創(chuàng)造,誰擁有”,比如各類參考語法或語言研究數(shù)據(jù)、二語學(xué)習(xí)者作文語料、WALS數(shù)據(jù)庫、美國中央情報(bào)局的世界語言概況數(shù)據(jù)庫,其所有權(quán)分別歸屬于研究者個(gè)人、學(xué)習(xí)者個(gè)人、馬克斯·普朗克進(jìn)化人類學(xué)研究所、美國中情局等。從使用權(quán)角度看,理應(yīng)是“誰擁有,誰使用”,但是現(xiàn)實(shí)生活中的使用權(quán)卻并不是那么清晰,比如二語學(xué)習(xí)者學(xué)習(xí)過程中產(chǎn)生的數(shù)據(jù)也往往被搜集用于科學(xué)研究或智能產(chǎn)品研發(fā),美國中情局的世界語言概況數(shù)據(jù)庫也使用了民族語言志網(wǎng)和大量學(xué)者的研究成果,更不用說大量的個(gè)人或機(jī)構(gòu)的各種類型的免費(fèi)語料庫的語言數(shù)據(jù)。從收益權(quán)角度看,情況更是混亂,比如喬全生(待刊)在分析漢語方言歷史文獻(xiàn)長期得不到及時(shí)全面的整理和出版的原因時(shí)就提到,全國5000多個(gè)公共和高校圖書館中,藏有古文獻(xiàn)者大多以保護(hù)文獻(xiàn)為由,拒絕復(fù)制或限量復(fù)制;有的圖書館復(fù)印索價(jià)甚高。這大大限制了文獻(xiàn)的集成共享。有些個(gè)人私藏抄本文獻(xiàn),對(duì)外復(fù)制更是漫天要價(jià),條件苛刻。3個(gè)角度權(quán)益的錯(cuò)綜復(fù)雜,就使得語言數(shù)據(jù)的確權(quán)存在許多真空地帶。尤為重要的是,語言數(shù)據(jù)意識(shí)的缺乏,使得語言數(shù)據(jù)向少數(shù)機(jī)構(gòu)或公司聚攏,可能會(huì)給數(shù)據(jù)確權(quán)和數(shù)據(jù)安全帶來深層隱患。
(三)對(duì)語言數(shù)據(jù)跨境流動(dòng)關(guān)注闕如
可流動(dòng),是數(shù)據(jù)成為生產(chǎn)要素的前提之一。數(shù)字經(jīng)濟(jì)的提升加速了數(shù)據(jù)在全球范圍的流通,跨境數(shù)據(jù)流動(dòng)治理對(duì)發(fā)展數(shù)字經(jīng)濟(jì)、維護(hù)國家安全、構(gòu)建數(shù)字紅利收入分配體系至關(guān)重要,但是硬件技術(shù)的突破和新冠肺炎疫情的影響使全球數(shù)據(jù)流量和跨境數(shù)據(jù)流量的測量難上加難(聯(lián)合國2021;孫方江2021)。因此對(duì)于語言數(shù)據(jù)的國際跨境流動(dòng)需要格外注意。正如馬其家、李曉楠(2021)所指出的:“通過自由的數(shù)據(jù)跨境流動(dòng),利用大數(shù)據(jù)分析,一國可能對(duì)他國的社會(huì)狀況進(jìn)行精準(zhǔn)畫像,并有針對(duì)性地開展情報(bào)收集和研判等工作,威脅他國國家安全?!闭Z言數(shù)據(jù)的跨境流動(dòng),也同樣可能被用于精準(zhǔn)畫像,并有針對(duì)性得開展語言相關(guān)的情報(bào)收集和研判,從而威脅國家語言安全。尤其是一些涉及國際合作的科研項(xiàng)目,其中的語言數(shù)據(jù)應(yīng)該進(jìn)行安全評(píng)估。比如20世紀(jì)90年代復(fù)旦大學(xué)和日本京都外國語大學(xué)的合作項(xiàng)目《漢語方言大詞典》,收錄古今南北漢語方言詞20萬余條,字?jǐn)?shù)1500余萬。以往對(duì)于此類合作和數(shù)據(jù)的分享缺乏深入的研判和分析,未來應(yīng)該引起足夠重視。2021年10月29日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)出境安全評(píng)估辦法(征求意見稿)》,并公開征求意見,可作為參考。中國須提升對(duì)敏感語言數(shù)據(jù)泄露、違法跨境語言數(shù)據(jù)流動(dòng)等安全隱患的監(jiān)測、分析與處置能力。
與此相關(guān)的一個(gè)重要方面是語言數(shù)據(jù)跨境流動(dòng)的標(biāo)準(zhǔn)化建設(shè)。2021年6月4日,歐盟委員會(huì)發(fā)布了關(guān)于個(gè)人數(shù)據(jù)跨境傳輸?shù)男掳鏄?biāo)準(zhǔn)合同條款的最終版本。中國須提升相關(guān)國際標(biāo)準(zhǔn)的制定權(quán)和話語權(quán)。
(四)語言數(shù)據(jù)安全市場缺乏評(píng)估
隨著全球數(shù)據(jù)體量呈現(xiàn)指數(shù)型增長態(tài)勢(shì),資本市場對(duì)數(shù)據(jù)安全企業(yè)的關(guān)注度大幅提升。目前國外有近400家企業(yè)提供了數(shù)據(jù)安全和隱私保護(hù)相關(guān)產(chǎn)品及服務(wù)(中國信息通信研究院安全研究所2021)。賽迪咨詢數(shù)據(jù)顯示,2019年中國數(shù)據(jù)安全市場規(guī)模為38.1億元,年均增長率超過35%,且增速還在持續(xù)加快,預(yù)計(jì)2021年接近70億元(吳俊宇2021)。跟語言數(shù)據(jù)安全相關(guān)的市場應(yīng)包括在其中。
語言數(shù)據(jù)安全的各個(gè)方面只要涉及經(jīng)濟(jì)交換,就產(chǎn)生了數(shù)據(jù)安全的市場。它應(yīng)該是語言數(shù)據(jù)產(chǎn)業(yè)(李宇明2020b)的組成部分。目前由于語言數(shù)據(jù)安全尚未從整體數(shù)據(jù)安全中離析出來,所以語言數(shù)據(jù)安全的市場規(guī)模和相關(guān)問題,仍有待更專業(yè)和精準(zhǔn)的評(píng)估。
四、語言數(shù)據(jù)安全治理
“數(shù)據(jù)安全治理”是一個(gè)新興話題,目前大量研究還處于初期的探索階段(可參看:邵晶晶,韓曉峰2021;劉邦凡,臧梓健2021)。
跟其他領(lǐng)域的數(shù)據(jù)安全治理一樣,語言數(shù)據(jù)安全治理既有一般數(shù)據(jù)安全治理的通性,也有自身領(lǐng)域的一些特性。比如《中華人民共和國個(gè)人信息保護(hù)法》(以下簡稱《個(gè)人信息保護(hù)法》)對(duì)于個(gè)人語言數(shù)據(jù)安全有保護(hù)作用,但此法是一般法,應(yīng)用于具體領(lǐng)域場景時(shí)還是過于粗疏或者缺漏;再如《數(shù)據(jù)安全法》并未對(duì)“數(shù)據(jù)自由跨境流動(dòng)”和“數(shù)據(jù)安全跨境流動(dòng)”之間的平衡做出充分闡釋。作為領(lǐng)域語言治理的一個(gè)方面(王春輝2021a),提升語言數(shù)據(jù)安全的治理體系和治理能力勢(shì)在必行。
語言數(shù)據(jù)安全的治理不應(yīng)局限于常規(guī)的技術(shù)加管理的二元治理體系,而是需要圍繞語言數(shù)據(jù)全生命周期安全,堅(jiān)持總體國家安全觀,建立健全語言數(shù)據(jù)安全治理體系,提高語言數(shù)據(jù)安全保障能力。李躍忠(2021)、白利芳等(2021)、李曉偉等(2021)、胡國華(2021)、賽迪智庫網(wǎng)絡(luò)安全研究所(2021)、數(shù)據(jù)安全治理專業(yè)委員會(huì)(2021)等學(xué)者或機(jī)構(gòu)都推出了各自的數(shù)據(jù)安全治理體系框架。借鑒這些研究成果,筆者嘗試建構(gòu)起語言數(shù)據(jù)安全的治理體系,以期為上文列述的語言數(shù)據(jù)安全問題以及其他相關(guān)研究和實(shí)踐提供一個(gè)可能的系統(tǒng)解決方案。
語言數(shù)據(jù)安全治理體系包括治理意識(shí)和理念、治理狀態(tài)評(píng)估、建設(shè)板塊、評(píng)價(jià)反饋等4個(gè)次級(jí)體系,如圖1所示。
(一)治理意識(shí)和理念
意識(shí)和理念是行動(dòng)和實(shí)踐的前提,一方面須提升政府、學(xué)界和社會(huì)大眾對(duì)語言數(shù)據(jù)和語言數(shù)據(jù)安全的了解和認(rèn)知,使之認(rèn)識(shí)到語言數(shù)據(jù)安全的存在及其可能帶來的嚴(yán)重后果;另一方面須建構(gòu)語言數(shù)據(jù)安全治理理念/價(jià)值體系,即總體國家安全觀、復(fù)雜系統(tǒng)、動(dòng)態(tài)防護(hù)、精準(zhǔn)管控、漸次提升等。邸子桓、呂明臣(2021)分析了語言類科研人員數(shù)據(jù)素養(yǎng)培育問題,但相關(guān)研究還基本處于起始階段。
(二)治理狀態(tài)評(píng)估
即對(duì)當(dāng)下語言數(shù)據(jù)治理的目標(biāo)、技術(shù)、組織、措施、風(fēng)險(xiǎn)、服務(wù)、法律法規(guī)、體制機(jī)制、國際合作、人才培養(yǎng)等進(jìn)行立體評(píng)估,建構(gòu)語言數(shù)據(jù)安全治理狀態(tài)評(píng)估清單,為后續(xù)工作提供可靠參考。全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)于2020年3月推出了《信息安全技術(shù) 數(shù)據(jù)安全能力成熟度模型》,給出了組織數(shù)據(jù)安全能力的成熟度模型架構(gòu),規(guī)定了數(shù)據(jù)采集安全、數(shù)據(jù)傳輸安全、數(shù)據(jù)存儲(chǔ)安全、數(shù)據(jù)處理安全、數(shù)據(jù)交換安全、數(shù)據(jù)銷毀安全、通用安全的成熟度等級(jí)要求,可以作為參考。
(三)“五位一體”建設(shè)板塊
五大建設(shè)板塊是整個(gè)治理體系的核心部分。
技術(shù)支撐涉及語言數(shù)據(jù)的分級(jí)分類、安全標(biāo)記、全生命周期安全技術(shù)體系、流向追蹤、安全服務(wù)技術(shù)等。可以利用最新技術(shù)“以網(wǎng)治網(wǎng)”,比如區(qū)塊鏈技術(shù)目前已經(jīng)在數(shù)據(jù)存儲(chǔ)安全、隱私安全、數(shù)據(jù)訪問安全和數(shù)據(jù)共享安全等多個(gè)方面有了較穩(wěn)定的應(yīng)用(梁秀波,等2022),對(duì)于語言數(shù)據(jù)安全治理來說,可資借鑒。應(yīng)加強(qiáng)語言數(shù)據(jù)安全技術(shù)及產(chǎn)品研發(fā)應(yīng)用,提升語言數(shù)據(jù)安全產(chǎn)品供給能力,推動(dòng)語言數(shù)據(jù)安全產(chǎn)業(yè)發(fā)展。還可以基于大數(shù)據(jù)平臺(tái)、互聯(lián)網(wǎng)數(shù)據(jù)中心等重要網(wǎng)絡(luò)節(jié)點(diǎn),建設(shè)涵蓋行業(yè)、地方、企業(yè)的全國性語言數(shù)據(jù)安全監(jiān)測平臺(tái),形成敏感語言數(shù)據(jù)監(jiān)測發(fā)現(xiàn)、語言數(shù)據(jù)異常流動(dòng)分析、語言數(shù)據(jù)安全事件追蹤溯源等能力,建設(shè)數(shù)據(jù)安全監(jiān)測系統(tǒng)。
管理建設(shè)涵蓋語言數(shù)據(jù)安全頂層設(shè)計(jì)、法律法規(guī)體系建設(shè)、政策體系建設(shè)、國際國內(nèi)標(biāo)準(zhǔn)體系建設(shè)、流程指南、操作規(guī)程、應(yīng)急處置等方面,也包括開展數(shù)據(jù)安全能力成熟度評(píng)估、數(shù)據(jù)安全管理認(rèn)證等。語言數(shù)據(jù)技術(shù)和語言數(shù)據(jù)管理,二者不能偏廢,正所謂“三分技術(shù),七分管理”。近幾年,關(guān)于數(shù)據(jù)和信息安全的相關(guān)法律法規(guī)密集出臺(tái),比如《數(shù)據(jù)安全法》與《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》2021年9月1日施行;《個(gè)人信息保護(hù)法》2021年11月1日正式實(shí)施;國家互聯(lián)網(wǎng)信息辦公室2021年10月29日發(fā)布《數(shù)據(jù)出境安全評(píng)估辦法(征求意見稿)》,11月14日又發(fā)布《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見稿)》。未來須構(gòu)建起語言數(shù)據(jù)安全技術(shù)體系和標(biāo)準(zhǔn)體系,以及法律法規(guī)體系。在制定或修訂涉及語言文字的法律法規(guī)時(shí),則應(yīng)提升語言數(shù)據(jù)意識(shí),加入語言數(shù)據(jù)安全治理的相關(guān)內(nèi)容。此外,數(shù)據(jù)安全保障體系的規(guī)范一般須從業(yè)務(wù)數(shù)據(jù)安全需求、數(shù)據(jù)安全風(fēng)險(xiǎn)控制需要及法律法規(guī)合規(guī)性要求等幾個(gè)方面進(jìn)行梳理,最終確定數(shù)據(jù)安全防護(hù)的目標(biāo)、管理策略及具體的標(biāo)準(zhǔn)、規(guī)范、程序等。Rock(2001)、Isard(2020)等對(duì)用于研究的語言數(shù)據(jù)的匿名規(guī)范進(jìn)行了較為詳細(xì)的分析。最后,須建構(gòu)平時(shí)治理和應(yīng)急治理相融合的語言數(shù)據(jù)安全治理體系。
組織建設(shè)包括“決策層-管理層-執(zhí)行層-參與層-監(jiān)督層”的5層架構(gòu)體系,以及與此相配套的職能部門與角色、業(yè)務(wù)與權(quán)責(zé)、人員構(gòu)成與能力要求、協(xié)作與監(jiān)督等。需要考慮組織層面實(shí)體的管理團(tuán)隊(duì)及執(zhí)行團(tuán)隊(duì),根據(jù)部門職責(zé)建立不同的語言數(shù)據(jù)安全角色,以滿足數(shù)據(jù)安全建設(shè)的需求。比如語言主管部門承擔(dān)本行業(yè)、本領(lǐng)域數(shù)據(jù)安全監(jiān)管職責(zé);國家安全機(jī)關(guān)、公安機(jī)關(guān)等依照《數(shù)據(jù)安全法》和有關(guān)法律、行政法規(guī)的規(guī)定,在各自職責(zé)范圍內(nèi)承擔(dān)語言數(shù)據(jù)安全監(jiān)管職責(zé)。語言數(shù)據(jù)安全運(yùn)營管控執(zhí)行建設(shè)方面,需要重點(diǎn)關(guān)注數(shù)據(jù)安全運(yùn)維、應(yīng)急預(yù)案與演練、監(jiān)測預(yù)警、應(yīng)急處置、災(zāi)后恢復(fù)等方面。
人才培養(yǎng)涉及語言學(xué)、計(jì)算機(jī)科學(xué)、社會(huì)學(xué)、哲學(xué)等相關(guān)學(xué)科的交叉融合,須在課程體系、學(xué)科建設(shè)等方面未雨綢繆。比如在語言學(xué)及相關(guān)專業(yè)的課程體系中加入語言安全的內(nèi)容,在培養(yǎng)交叉型語言安全人才上下功夫。由工業(yè)和信息化部人才交流中心等單位聯(lián)合發(fā)布的《2021網(wǎng)絡(luò)安全產(chǎn)業(yè)人才發(fā)展報(bào)告》顯示,今年以來相關(guān)專業(yè)人才需求呈現(xiàn)高速增加趨勢(shì),需求總量較去年增長39.87%,網(wǎng)絡(luò)安全在各行業(yè)的滲透率全面提高,在人才需求結(jié)構(gòu)中的重要性顯著上升。2022年1月12日,由工業(yè)和信息化部網(wǎng)絡(luò)安全產(chǎn)業(yè)發(fā)展中心(工業(yè)和信息化部信息中心)與部人才交流中心聯(lián)合牽頭組織編制的《網(wǎng)絡(luò)安全產(chǎn)業(yè)人才崗位能力要求》標(biāo)準(zhǔn)正式發(fā)布,可以作為語言數(shù)據(jù)安全人才崗位能力的參考。
國際合作包括積極參與甚至引領(lǐng)(語言)數(shù)據(jù)安全國際規(guī)則的商討和制定,提升跨境語言數(shù)據(jù)合作治理,積極參與全球語言安全治理,增強(qiáng)(語言)數(shù)據(jù)安全規(guī)則創(chuàng)制和話語權(quán)博弈的競爭力。由于中國在數(shù)據(jù)治理領(lǐng)域起步較晚,目前仍存在立法不完善、技術(shù)創(chuàng)新能力薄弱、國際合作不足、治理乏力等問題。中國需要全面、系統(tǒng)地分析影響數(shù)據(jù)安全的各種重大風(fēng)險(xiǎn)因素,準(zhǔn)確把握全球數(shù)據(jù)安全趨勢(shì),進(jìn)一步優(yōu)化中國在全球數(shù)據(jù)安全治理中的策略選擇(闕天舒,王子玥2022)??缇痴Z言數(shù)據(jù)安全的治理,需要在語言數(shù)據(jù)出境的監(jiān)管、個(gè)人或商業(yè)語言數(shù)據(jù)的保護(hù)、法律的健全等方面用力。
(四)評(píng)價(jià)反饋
設(shè)立動(dòng)態(tài)多層評(píng)價(jià)體系,對(duì)上述五大建設(shè)板塊進(jìn)行定期評(píng)價(jià),確定建設(shè)效果和效能,予以反饋,并進(jìn)行相應(yīng)的提升和完善。在國家和社會(huì)治理體系的各個(gè)步驟中,評(píng)價(jià)反饋往往是容易被忽視的一個(gè)角落,但是事實(shí)上卻又是治理環(huán)節(jié)上重要甚至關(guān)鍵的一環(huán)。
五、余 論
數(shù)據(jù)即權(quán)力。與全球經(jīng)濟(jì)的其他要素相比,數(shù)據(jù)與權(quán)力的關(guān)系更加緊密。數(shù)據(jù)為所有掌握數(shù)據(jù)的人提供了難以置信的優(yōu)勢(shì),數(shù)據(jù)本身已成為重要的權(quán)力來源(Slaughter & McCormick 2021)。2019年6月,美國科爾尼全球商業(yè)政策委員會(huì)(GBPC)發(fā)布報(bào)告《數(shù)字秩序失衡時(shí)代下的競爭》,從全球視角和歷史維度關(guān)注數(shù)字秩序的演變歷程及其未來可能性;2022年1/2月的美國《外交事務(wù)》雜志也專題聚焦“數(shù)字失序”問題,指出政府、企業(yè)和公民現(xiàn)在都面臨無孔不入的數(shù)字威脅。數(shù)字帝國主義已然成形,它憑借對(duì)數(shù)據(jù)的壟斷,通過創(chuàng)新霸權(quán)、平臺(tái)壟斷、制造需求等方式在多個(gè)領(lǐng)域施行了新型的對(duì)外經(jīng)濟(jì)掠奪方式(劉皓琰2021)。
數(shù)據(jù)是新時(shí)代重要的生產(chǎn)要素,是國家的基礎(chǔ)性戰(zhàn)略資源。數(shù)據(jù)安全已成為數(shù)字經(jīng)濟(jì)時(shí)代最緊迫和最基礎(chǔ)的安全問題,加強(qiáng)數(shù)據(jù)安全治理已成為維護(hù)國家安全和國家競爭力的戰(zhàn)略需要。在數(shù)字時(shí)代,數(shù)據(jù)的重要性無須贅述。隨著技術(shù)發(fā)展與數(shù)據(jù)量的爆發(fā)式增長,傳統(tǒng)數(shù)據(jù)管理模式和安全技術(shù)對(duì)大數(shù)據(jù)背景下層出不窮的數(shù)據(jù)安全問題的應(yīng)對(duì)效力明顯不足。以數(shù)據(jù)為目標(biāo)的網(wǎng)絡(luò)攻擊與犯罪不斷增長,個(gè)人隱私泄露、侵犯商業(yè)機(jī)密、威脅國家安全等數(shù)據(jù)安全風(fēng)險(xiǎn)貫穿數(shù)據(jù)生產(chǎn)、存儲(chǔ)、流動(dòng)等各個(gè)環(huán)節(jié)。同時(shí),數(shù)據(jù)的融合開放也使數(shù)據(jù)權(quán)屬關(guān)系復(fù)雜化,帶來數(shù)據(jù)濫用等系列法律風(fēng)險(xiǎn)與社會(huì)治理難題。
2021年,《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》相繼頒布實(shí)施,配套的行政法規(guī)、部門規(guī)章和地方條例也在陸續(xù)制定,這表明數(shù)據(jù)安全進(jìn)入了強(qiáng)監(jiān)管時(shí)代。但是目前來看,社會(huì)各界對(duì)于語言數(shù)據(jù)安全問題的認(rèn)知亟待提升,對(duì)于語言數(shù)據(jù)安全的治理亟待加強(qiáng)。語言數(shù)據(jù)安全治理的總目標(biāo)即推進(jìn)語言數(shù)據(jù)安全治理體系和治理能力的現(xiàn)代化。語言數(shù)據(jù)安全治理體系建設(shè),須在語言數(shù)據(jù)安全的價(jià)值、結(jié)構(gòu)、功能、評(píng)估等幾個(gè)子體系上多做文章。在觀念上提升語言數(shù)據(jù)安全意識(shí),樹立私利與公益相平衡的語言數(shù)據(jù)安全觀;在技術(shù)層面建構(gòu)安全、可靠的語言數(shù)據(jù)環(huán)境;在方式上倡導(dǎo)法治、德治、自治、數(shù)治和智治的“五位一體”治理,明晰數(shù)智化治理的核心是規(guī)范數(shù)據(jù)權(quán)力和保障數(shù)據(jù)權(quán)利,提倡多元參與的協(xié)同化治理、大數(shù)據(jù)治理、動(dòng)態(tài)化治理和平臺(tái)化治理;在體制機(jī)制上,重視數(shù)字政府的頂層設(shè)計(jì),構(gòu)建高層次跨領(lǐng)域跨部門的統(tǒng)籌協(xié)調(diào)機(jī)制,加強(qiáng)相關(guān)部門的數(shù)字化轉(zhuǎn)型,完善治理機(jī)制;在制度層面,應(yīng)將語言數(shù)據(jù)主體,語言數(shù)據(jù)使用者的權(quán)利、義務(wù)、責(zé)任等明確界定,制定國家語言數(shù)據(jù)安全戰(zhàn)略、明確國家語言數(shù)據(jù)安全發(fā)展綱要,加快語言數(shù)據(jù)的確權(quán)定價(jià)、加強(qiáng)安全隱私的保護(hù),加大語言數(shù)據(jù)開放共享、規(guī)范語言數(shù)據(jù)的收集使用,加快推進(jìn)語言數(shù)據(jù)安全新基建、更好地釋放語言數(shù)據(jù)生產(chǎn)力。
在數(shù)據(jù)成為社會(huì)經(jīng)濟(jì)的基本資源的時(shí)代,數(shù)據(jù)的安全關(guān)系到從國家到個(gè)體的各個(gè)層面、從政治經(jīng)濟(jì)到外交軍事的各個(gè)領(lǐng)域,語言數(shù)據(jù)安全也是如此。學(xué)界目前針對(duì)數(shù)字社會(huì)的語言安全尤其是語言數(shù)據(jù)安全問題的研究尚處萌芽階段,亟待加強(qiáng)探索。在總體國家安全觀視野下,語言數(shù)據(jù)安全亟須增強(qiáng)意識(shí)、建構(gòu)體系、強(qiáng)化能力、增進(jìn)研究、提升保障,從而為總體國家安全系統(tǒng)的建構(gòu)和完善貢獻(xiàn)力量。
參考文獻(xiàn)
白利芳,唐 剛,閆曉麗 2021 《數(shù)據(jù)安全治理研究及實(shí)踐》,《網(wǎng)絡(luò)安全和信息化》第2期。
陳 剛,謝佩宏 2020 《信息社會(huì)還是數(shù)字社會(huì)》,《學(xué)術(shù)界》第5期。
陳肇新 2021 《要素驅(qū)動(dòng)的數(shù)據(jù)確權(quán)之法理證成》,《上海政法學(xué)院學(xué)報(bào)(法治論叢)》第4期。
戴曼純 2022 《數(shù)字時(shí)代的語言技術(shù)與語言保護(hù):以歐洲為例》,《語言戰(zhàn)略研究》第4期。
邸子桓,呂明臣 2021 《語言類科研人員數(shù)據(jù)素養(yǎng)培育機(jī)制與策略研究》,《情報(bào)科學(xué)》第6期。
郭繼榮,楊 亮 2021 《國內(nèi)語言安全研究述評(píng)》,《情報(bào)雜志》第6期。
胡國華 2021 《數(shù)據(jù)安全治理實(shí)踐探索》,《信息安全研究》第10期。
黃海瑛 2018 《云環(huán)境下的“一帶一路”語言數(shù)據(jù)版權(quán)風(fēng)險(xiǎn)》,《圖書館論壇》第7期。
姜國權(quán),李一飛 2021 《數(shù)據(jù)迎接“一帶一路”發(fā)展新挑戰(zhàn)》,《中國社會(huì)科學(xué)報(bào)》10月13日第002版。
李曉偉,吳 迎,鄒 彧,等 2021 《數(shù)據(jù)安全治理體系與技術(shù)研究》,《信息通信技術(shù)與政策》第8期。
李宇明 2014 《喚起全社會(huì)的語言意識(shí)——序〈中國語言生活狀況報(bào)告(2013)〉》,載教育部語言文字信息管理司組編,《中國語言生活狀況報(bào)告(2013)》,北京:商務(wù)印書館。
李宇明 2018 《語言學(xué)是一個(gè)學(xué)科群》,《語言戰(zhàn)略研究》第1期。
李宇明 2020a 《語言數(shù)據(jù)是信息時(shí)代的生產(chǎn)要素》,《光明日?qǐng)?bào)》7月4日第12版。
李宇明 2020b 《數(shù)據(jù)時(shí)代與語言產(chǎn)業(yè)》,《山東師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》第5期。
李宇明 2021a 《邊境語言的“睦鄰戍邊”作用》,《中國社會(huì)科學(xué)報(bào)》7月9日第A04版。
李宇明 2021b 《應(yīng)急語言服務(wù)的任務(wù)及其落實(shí)》,“中國語言服務(wù)40人論壇”年度論壇(2021)發(fā)言,“應(yīng)急語言服務(wù)”微信公眾號(hào),https://mp.weixin.qq.com/s/g6IkwiXJFZssrH_Vg8Sc4g。
李宇明,郭風(fēng)嵐 2012 《重視海疆地名研究,維護(hù)國家海洋權(quán)益》,中國國家安全論壇,北京,11月18日。
李宇明,王春輝 2022 《從數(shù)據(jù)到語言數(shù)據(jù)》,《語言戰(zhàn)略研究》第4期。
李躍忠 2021 《淺談大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)安全治理》,《中國信息化》第4期。
聯(lián)合國 2021 《“數(shù)字經(jīng)濟(jì)報(bào)告2021”跨境數(shù)據(jù)流動(dòng)與發(fā)展:數(shù)據(jù)為誰流動(dòng)》,聯(lián)合國貿(mào)易和發(fā)展會(huì)議,https://unctad.org/system/files/official-document/der2021_overview_ch.pdf。
梁秀波,吳俊涵,趙 昱,等 2022 《區(qū)塊鏈數(shù)據(jù)安全管理和隱私保護(hù)技術(shù)研究綜述》,《浙江大學(xué)學(xué)報(bào)(工學(xué)版)》第1期。
劉邦凡,臧梓健 2021 《我國數(shù)據(jù)安全治理研究(2015—2020):主題與演進(jìn)趨勢(shì)》,《通信技術(shù)》第9期。
劉皓琰 2021 《數(shù)據(jù)霸權(quán)與數(shù)字帝國主義的新型掠奪》,《當(dāng)代經(jīng)濟(jì)研究》第2期。
馬其家,李曉楠 2021 《論我國數(shù)據(jù)跨境流動(dòng)監(jiān)管規(guī)則的構(gòu)建》,《法制研究》第1期。
喬全生 待刊 《論漢語方言歷史文獻(xiàn)集成及其重要作用》。
闕天舒,王子玥 2022 《數(shù)字經(jīng)濟(jì)時(shí)代的全球數(shù)據(jù)安全治理與中國策略》,《國際安全研究》第1期。
賽迪智庫網(wǎng)絡(luò)安全研究所 2021 《數(shù)據(jù)安全治理白皮書》,https://docs.qq.com/pdf/DUGZTeUxtWE9lRWtw。
邵晶晶,韓曉峰 2021 《國內(nèi)外數(shù)據(jù)安全治理現(xiàn)狀綜述》,《信息安全研究》第10期。
世界銀行 2021 《〈2021年世界發(fā)展報(bào)告:讓數(shù)據(jù)創(chuàng)造更好生活〉概述》,https://www.worldbank.org/en/publication/wdr2021。
數(shù)據(jù)安全治理專業(yè)委員會(huì) 2021 《數(shù)據(jù)安全治理白皮書3.0》,https://view.inews.qq.com/a/20210815A06NCS00。
孫方江 2021 《跨境數(shù)據(jù)流動(dòng):數(shù)字經(jīng)濟(jì)下的全球博弈與中國選擇》,《西南金融》第1期。
孫宏開,黃 行 2018 《語言識(shí)別》,《語言戰(zhàn)略研究》第2期。
王春輝 2016 《當(dāng)代世界的語言格局》,《語言戰(zhàn)略研究》第4期。
王春輝 2021a 《學(xué)科建構(gòu)視角下的語言治理研究》,《陜西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》第6期。
王春輝 2021b 《語言文字 國之大事》,《語言文字報(bào)》12月22日第02版。
王春輝,高 莉 2009 《因特網(wǎng)上的語言多樣性問題》,《語言文字應(yīng)用》第2期。
吳俊宇 2021 《新規(guī)之下,大數(shù)據(jù)走的每一步,都得是安全路》,《財(cái)經(jīng)》,https://view.inews.qq.com/a/20211206A0ABCD00。
吳振豪,高健博,李青山,等 2021 《數(shù)據(jù)安全治理中的安全技術(shù)研究》,《信息安全研究》第10期。
伊萊恩·卡斯凱特 2020 《網(wǎng)上遺產(chǎn):被數(shù)字時(shí)代重新定義的死亡、記憶與愛》,張淼譯,福州:海峽文藝出版社。
張 婕,郭 印 2020 《基于大數(shù)據(jù)語言實(shí)驗(yàn)平臺(tái)的隱私安全研究》,《數(shù)據(jù)與計(jì)算發(fā)展前沿》第6期。
中國電子信息產(chǎn)業(yè)發(fā)展研究院 2019 《數(shù)據(jù)治理與數(shù)據(jù)安全》,北京:人民郵電出版社。
中國信息通信研究院安全研究所 2021 《數(shù)據(jù)安全技術(shù)與產(chǎn)業(yè)發(fā)展研究報(bào)告(2021)》,https://new.qq.com/omn/20220103/20220103A07SOJ00.html。
Chen, S. & A. Breivik. 2013. London: The British Academy.
Isard, A. 2020. Approaches to the anonymisation of sign language corpora. Proceedings of the 9th Workshop on the Representation and Processing of Sign Languages, 95–100, https://aclanthology.org/2020.signlang-1.15.pdf.
Rock, F. 2001. Policy and practice in the anonymisation of linguistic data. International Journal of Corpus Linguistics 6(1), 1–26.
Ruiz, R. 1984. Orientations in language planning. 8(2), 15–34.
Slaughter, M. J. & D. H. McCormick. 2021. Data is power: Washington needs to craft new rules for the digital age. 100(3), https://www.foreignaffairs.com/articles/united-states/2021-04-16/data-power-new-rules-digital-age.
責(zé)任編輯:魏曉明
黃海瑛(2018)、張婕和郭?。?020)是少有的討論過此論題的研究。
2019年11月,上海外國語大學(xué)成立語料庫研究院;2020年語料庫研究院新設(shè)語言數(shù)據(jù)科學(xué)與應(yīng)用學(xué)科,研究方向主要為語言數(shù)據(jù)與語言研究、語言數(shù)據(jù)與翻譯研究、語言數(shù)據(jù)與智慧教育以及語言數(shù)據(jù)與人工智能。
2021年11月工業(yè)和信息化部印發(fā)的《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》列出了“金融大數(shù)據(jù)”“醫(yī)療大數(shù)據(jù)”等12種行業(yè)大數(shù)據(jù),本文所提的語言數(shù)據(jù)應(yīng)該與之類似。
https://www.ethnologue.com/.
https://wals.info/.
https://opendata.pku.edu.cn/dataverse/clkb.
http://www.lap.uga.edu/.
http://obid.ancientbooks.cn/.
比如2022年4月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》用專節(jié)論述了“推進(jìn)古籍?dāng)?shù)字化”工作;2022年5月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)了《關(guān)于推進(jìn)實(shí)施國家文化數(shù)字化戰(zhàn)略的意見》,把推進(jìn)實(shí)施國家文化數(shù)字化戰(zhàn)略列入重要議事日程。
可以參見李宇明(2021a)對(duì)于語言安全的劃分。
參見國家互聯(lián)網(wǎng)信息辦公室2021年發(fā)布的《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見稿)》的分級(jí)分類。
一個(gè)典型的例子是二戰(zhàn)期間美國用納瓦霍語作為通信密碼。
李宇明、郭風(fēng)嵐(2012)曾較系統(tǒng)地論述過海疆地名規(guī)劃對(duì)于維護(hù)國家海洋權(quán)益的重要意義。
語言學(xué)者自建的語料庫可以歸入此類,比如汪涵個(gè)人籌建的湖南方言數(shù)據(jù)庫(https://www.sohu.com/a/22297965_115428)等。
比如使用微軟或搜狗輸入法而產(chǎn)生的個(gè)人語言數(shù)據(jù),公司一方面會(huì)利用大數(shù)據(jù)來改進(jìn)輸入法效能,另一方面則可以根據(jù)每個(gè)人的用詞習(xí)慣進(jìn)行詞頻調(diào)整。
相關(guān)的技術(shù)討論可參看戴曼純(2022)。
葉水送《若論文數(shù)據(jù)庫也遭美國“卡脖子”,中國如何應(yīng)對(duì)?》,“知識(shí)分子”微信公眾號(hào),2021年5月12日。https://mp.weixin.qq.com/s/mI27P3gOeDgrjC9d8N3X_w。
在這個(gè)過程中,區(qū)塊鏈等新興技術(shù)有望發(fā)揮重要作用。
https://www.cia.gov/the-world-factbook/.
2020年底通過的《刑法修正案》已經(jīng)對(duì)商業(yè)秘密的相關(guān)犯罪做了修正和補(bǔ)充,增補(bǔ)了“為境外的機(jī)構(gòu)、組織、人員竊取、刺探、收買、非法提供商業(yè)秘密”的相關(guān)罪名,還有術(shù)語的修改,如“約定”改為了“保密義務(wù)”等。
更專業(yè)的分析可參看:吳振豪等(2021),許杰等(2021)。
參見中國高新網(wǎng):http://www.chinahightech.com/html/hotnews/yaowen/2021/1015/5613490.html。
參見工業(yè)和信息化部網(wǎng)絡(luò)安全產(chǎn)業(yè)發(fā)展中心網(wǎng):http://www.miitxxzx.org.cn/art/2022/1/14/art_33_1801.html。
報(bào)告全文參見:https://www.kearney.com/web/global-business-policy-council/article/?/a/competing-in-an-age-of-digital-disorder。
參見:https://www.foreignaffairs.com/issues/2022/101/1。