張辰麟
(大理大學(xué)國際教育學(xué)院,云南大理 671003)
“一帶一路”倡議提出以來,隨著經(jīng)濟(jì)、商貿(mào)、能源、醫(yī)療衛(wèi)生、旅游等方面合作的全面展開。沿線國家對漢語教學(xué),尤其是專門用途漢語教學(xué)(CSP)的需求激增〔1-3〕。專門用途語言教學(xué),作為衡量一種外語教學(xué)成熟的標(biāo)準(zhǔn)〔4〕,是國際中文教育未來發(fā)展中不可忽視的一個問題?!耙粠б宦贰毖鼐€國家多為發(fā)展中或經(jīng)濟(jì)欠發(fā)達(dá)的國家,漢語教學(xué)資源尚存在較大缺口,漢語教材,尤其是國別化的專門用途漢語教材面臨數(shù)量稀少、更新速度慢、難成體系的問題。經(jīng)典的教材編寫模式以領(lǐng)域?qū)<覍W(xué)者為核心編委,該模式不僅需要專家學(xué)者消耗大量精力進(jìn)行分析研判,同時也面臨教材編寫周期較長的問題。在知識信息快速迭代的今天,該模式難以迅速滿足大量沿線國家的漢語教學(xué)需求,也一定程度滯后于語言更新的速度。
專門用途漢語教材往往以詞匯作為中心,以單元形式組織話題進(jìn)行特定需求場景下的漢語教學(xué)?!霸掝}—詞匯”體系,是專門用途漢語教材組織編寫過程中的核心。借助計(jì)算機(jī)科學(xué)與技術(shù)中的自然語言處理相關(guān)技術(shù)與算法、成熟模型與平臺等,可以從實(shí)時更新的特定領(lǐng)域語料中,迅速獲取關(guān)鍵詞匯、話題聚類等詞匯之間的關(guān)系,以構(gòu)建完善的專門用途漢語“話題—詞匯”體系〔5〕,以便進(jìn)行課文編寫、難度評估等任務(wù)。從而達(dá)到快速形成教材,同時保證教材的科學(xué)性、時效性的目的。本文將結(jié)合自然語言處理領(lǐng)域相關(guān)算法與成熟平臺,介紹一種全新的專門用途漢語教材的快速編寫模式,以期迎合日益增長的海外專門用途教學(xué)需要。
本文結(jié)合自然語言處理相關(guān)算法與平臺,將專門用途漢語教材編寫分為四個主要步驟,分別為:語料收集與詞表獲取、“話題—詞匯”體系構(gòu)建、需求調(diào)研與教材編寫、難度估計(jì)與本土化。圖1展示該教材編寫模式的總體流程,每個步驟的具體流程將在下文中分章節(jié)逐個論述。
圖1 專門用途漢語教材快速編寫模式示意圖
教材的編寫周期往往較長,這就造成教材所涉及的部分詞匯,尤其是具有較高時效性的科技、財(cái)經(jīng)、醫(yī)學(xué)等詞匯往往不能得到及時的更新,對專門用途漢語教材而言,該現(xiàn)象造成的影響尤為巨大。而新興領(lǐng)域詞匯的增補(bǔ),不僅考驗(yàn)教材編寫者知識的廣度,也常常需要面臨客觀性與權(quán)威性的問題。為了解決這一痛點(diǎn),獲取具有較高時效性、代表性、權(quán)威性、客觀性的領(lǐng)域詞表,我們借助自然語言處理相關(guān)技術(shù),具體工作分為如下三個步驟。
自然語言處理領(lǐng)域獲取語料的方式一般有兩種,一是使用成熟的語料庫,如CCL語料庫、人民日報語料庫等,二是通過網(wǎng)絡(luò)爬蟲技術(shù)對網(wǎng)頁的文字信息進(jìn)行爬取,目的是快速獲得大規(guī)模語料,以便進(jìn)行信息的抽取與檢索。對于專門用途語言教學(xué)的教材編寫而言,語料越新、領(lǐng)域性與專業(yè)程度越強(qiáng)、規(guī)模越大、在領(lǐng)域內(nèi)覆蓋面越廣越好,如果領(lǐng)域內(nèi)還有多個子領(lǐng)域,語料分布最好能夠相對均衡。本文以SmoothNLP〔6〕財(cái)經(jīng)新聞?wù)Z料作為研究語料,以商務(wù)漢語作例子對教材的快速編寫模式進(jìn)行說明。該語料包含了4萬篇2018年至2019年的財(cái)經(jīng)新聞與專題報道,規(guī)模約6 700萬字。
中文沒有天然的分詞,因此中文的預(yù)處理,分詞往往是第一步〔7〕,在自然語言處理領(lǐng)域中,中文分詞一直是熱門話題。分詞工具包如Jieba、NLPIR、Stanford等在中文分詞任務(wù)上正確率均超過95%,表現(xiàn)良好,可以用于對大規(guī)模語料進(jìn)行快速、自動分詞,以便進(jìn)行后續(xù)處理。以下是使用Jieba分詞工具包進(jìn)行分詞的財(cái)經(jīng)新聞示例。
【例1】新華社/石家莊/5月/16日/電/(/記者/閆起磊/、/楊帆/)/16日/,/“/為/奧運(yùn)/喝彩/”/奧林匹克/藝術(shù)/博覽會/城市/系列展/石家莊/特展/在/石家莊/美術(shù)館/開幕/。
對6 700萬字左右規(guī)模的語料而言,使用Jieba分詞工具包,全文分詞僅需要數(shù)分鐘,且正確率非??捎^。
對語料全文進(jìn)行分詞之后,需要構(gòu)建全文詞表,即整個語料庫出現(xiàn)過哪些詞,同時運(yùn)用工具包可以快速統(tǒng)計(jì)出每個詞的詞頻與出現(xiàn)在多少個篇章當(dāng)中。以往,語言學(xué)研究常以詞頻作為衡量一個詞是否常用的標(biāo)準(zhǔn)。但對于專門用途教材編寫而言,單純使用詞頻這個統(tǒng)計(jì)量無法反映出詞匯的“重要程度”。以本文使用的財(cái)經(jīng)新聞?wù)Z料為例,如果單純統(tǒng)計(jì)詞頻,并按照詞頻進(jìn)行降序排列,則高頻詞往往是如“你”“我”“的”“一”等這些不論在任何領(lǐng)域、任何語體的語料中詞頻都占絕對優(yōu)勢的漢語詞匯,進(jìn)而造成無法有效抽取出真正重要的領(lǐng)域核心詞匯。解決該問題的方法分為以下兩步。
第一,改進(jìn)算法。不單純使用詞頻,而是使用TF-IDF〔8〕倒排索引的形式來抽取詞表。TF-IDF公式如式(1)所示:
在式(1)中,i為當(dāng)前詞的序號,j為篇章序號,ni,j表示當(dāng)前詞i在任意篇章j中出現(xiàn)的詞頻總和。k為語料庫中的任意詞,Σknk,j表示所有k個詞出現(xiàn)在任意篇章j中的總詞頻,即整個語料庫詞頻的總和,|D|為篇章數(shù)量之和,|{j:ti∈dj}|表示出現(xiàn)了詞i的篇章條目數(shù),+1的作用是數(shù)據(jù)平滑。在式(1)中,TFIDF最終值越大,證明該詞對專門用途教材編寫越“重要”。使TF-IDF值變大需要兩個自變量的共同作用,一個是ni,j,即某個詞i在語料中的詞頻要盡量高;另一個是|{j:ti∈dj}|的數(shù)值不能太大,即詞i不能出現(xiàn)在過多的篇章當(dāng)中,即需要i存在一定的特殊性而非普遍性。
第二,使用停用詞表。在使用了TF-IDF進(jìn)行詞表抽取后,仍有一些漢語常用詞與領(lǐng)域詞匯無關(guān),無法被自動過濾,因此就需要使用停用詞表進(jìn)行人為過濾。一般來講,在自然語言處理任務(wù)當(dāng)中通常使用四川大學(xué)或哈爾濱工業(yè)大學(xué)編制的漢語停用詞表,其中包括了2 000多個漢語常用詞、數(shù)字、特殊符號等。
經(jīng)過以上兩步,以本文所使用的財(cái)經(jīng)新聞?wù)Z料為例,抽取的前100個詞如下所示。
公司、數(shù)據(jù)、零售、創(chuàng)新、提供、資金、戰(zhàn)略、投資者、三星、完成、企業(yè)、發(fā)展、應(yīng)用、工作、實(shí)現(xiàn)、傳統(tǒng)、價值、建設(shè)、廠商、渠道、產(chǎn)品、融資、創(chuàng)業(yè)、元、團(tuán)隊(duì)、銷售、線下、超過、獲得、設(shè)計(jì)、手機(jī)、經(jīng)濟(jì)、云、需求、行情、功能、滴滴、政策、支持、計(jì)劃、品牌、營銷、領(lǐng)域、上市、體驗(yàn)、股份、規(guī)模、國家、商品、升級、游戲、科技、同比、全球、美團(tuán)、系統(tǒng)、方式、共享、設(shè)備、網(wǎng)站、電商、微信、合作、集團(tuán)、交易、成本、顯示、員工、股東、收購、智能、消費(fèi)、媒體、管理、診股、使用、提升、活動、選擇、競爭、投資、基金、信息、人工智能、場景、資產(chǎn)、推出、社區(qū)、資源、人民幣、業(yè)務(wù)、移動、資本、蘇寧、客戶、物流、監(jiān)管、微博、搜索、商業(yè)。
從大規(guī)模財(cái)經(jīng)語料中抽取的前100詞中可以看出,其中絕大部分詞匯,做專門用途漢語教材(商務(wù)漢語)的生詞,都具有較高的質(zhì)量。該詞表不僅包括財(cái)經(jīng)商務(wù)實(shí)務(wù)中常用的詞匯如“公司”“企業(yè)”“產(chǎn)品”等,還抽取出了很多具有很高時效性的新詞,如“云”“人工智能”“電商”等。按照TF-IDF值降序排列繼續(xù)向下抽樣,第200個詞為“變化”、第500個詞為“周期”、第1 000個詞為“特朗普”、第2 000個詞為“民生”??梢钥闯觯词估^續(xù)抽樣,大部分詞匯都與財(cái)經(jīng)商務(wù)有緊密關(guān)系。
但是,在抽取的詞表中仍然存在有例如“蘇寧”“廣州”“喬布斯”等人名、地名、品牌名、機(jī)構(gòu)名等,不宜作為教材編寫中的生詞。在自然語言處理領(lǐng)域有專門研究對人名、地名、機(jī)構(gòu)名等進(jìn)行標(biāo)注的“命名實(shí)體識別”任務(wù)。通過使用工具包可以對命名實(shí)體進(jìn)行自動識別并且標(biāo)注,如“蘇寧(ORG/機(jī)構(gòu)品牌名稱)”“廣州(LOC/地名)”“喬布斯(PER/人名)”等。但不建議將這些詞匯完全剔除出詞表,因?yàn)檫@些詞匯雖然不能作為漢語生詞進(jìn)行教學(xué),在教材編寫過程中卻能夠協(xié)助構(gòu)建課文的話題和情景,因此保留命名實(shí)體對專門用途教材編寫有一定的意義。
借助自然語言處理相關(guān)技術(shù)算法與工具,可以快速高效獲取語料并抽取專門用途教材編寫所需要的核心詞匯。但專門用途教材的編寫往往是以話題為單元,因此還需要區(qū)分出“哪些詞跟哪個話題關(guān)聯(lián)更緊密”,以便構(gòu)建“話題—詞匯”體系。在自然語言處理領(lǐng)域,這種任務(wù)類似于聚類算法,但卻又不完全相同。其區(qū)別在于,對于教材編寫而言,一個詞可以與多個話題、多個教學(xué)單元相關(guān)聯(lián),而不是非此即彼的對應(yīng)關(guān)系。且專門用途教學(xué)每個單元都有一定的目的性,對應(yīng)專門用途漢語交際的特定場景,因此話題的聚類需要在語言知識的背景下有監(jiān)督地進(jìn)行。在這一步驟中,我們采用預(yù)設(shè)話題與核心詞的方法,通過計(jì)算核心詞與詞表其他詞之間的關(guān)系強(qiáng)弱并排序,以構(gòu)建一個完整的“話題—詞匯”體系。本章主要分為兩個部分工作,一是根據(jù)以往的專門用途教材,預(yù)設(shè)好話題與核心詞,二是使用自然語言處理相關(guān)算法計(jì)算詞與詞之間的關(guān)系,并進(jìn)行排序。
為了防止無監(jiān)督聚類造成聚類結(jié)果話題不明,同時也為了繼承以往專門用途漢語教材中的優(yōu)秀話題與單元。以商務(wù)漢語為例,我們將以往經(jīng)典教材中的教學(xué)單元總結(jié)為以下26個話題,并從上一章抽取到的詞表中,為每個話題匹配一個核心詞,該核心詞需要兼具較高的詞頻和較高的TF-IDF值,話題與核心詞的對照關(guān)系如表1所示。
表1 商務(wù)漢語“話題—核心詞”對照表
在獲取了每個話題的核心詞之后,需要計(jì)算每個話題的核心詞與詞表中其他所有詞的關(guān)系緊密程度,本文中使用點(diǎn)相對熵〔9〕對詞與詞之間的關(guān)系進(jìn)行度量,點(diǎn)相對熵的計(jì)算方法如式(2):
點(diǎn)相對熵是一種度量兩個詞匯在大規(guī)模語料中共現(xiàn)關(guān)系的算法。式(2)中,p(wcore)表示核心詞wcore出現(xiàn)在篇章中的概率,p(wi)表示任意一個詞wi出現(xiàn)在篇章中的概率,p(wcore,wi)表示核心詞wcore與wi同時出現(xiàn)在篇章中的概率,當(dāng)且僅當(dāng)二者盡可能共同出現(xiàn)時,二者關(guān)系密切,PMI(wcore,wi)值趨向較大。表2以物流配送這一話題為例,展示與該話題最相關(guān),PMI值最大的Top 100詞。
表2 與話題“物流配送”(核心詞:物流)相關(guān)的Top 100詞
從表2中可以看出,相關(guān)度T op 100詞中的絕大部分詞都與物流配送這一話題高度相關(guān),教材編寫者可以自由選取其中的一部分進(jìn)行課文編寫,豐富的命名實(shí)體詞匯也可以為課文編寫提供話題、人物和場景。如與快遞相關(guān)的命名實(shí)體“順豐”“菜鳥”搭配“網(wǎng)購”“下單”“快遞”“配送”“到家”等生詞,可以編寫出一則有關(guān)網(wǎng)上購物與收發(fā)快遞的課文;或使用命名實(shí)體“盒馬”“馬云”搭配“冷鏈”“生鮮”“供應(yīng)鏈”“餐飲”等詞匯,向漢語學(xué)習(xí)者介紹中國當(dāng)今買菜的“新變化”;又或者加入“無人機(jī)”“數(shù)字化”等新詞以介紹“中國智造”帶來的“文化自信”?;谧匀徽Z言處理技術(shù)對大規(guī)模語料進(jìn)行高速、自動化的處理,并建立“話題—詞匯”體系,可以極大程度上提高專門用途漢語教材編寫所使用的詞匯的客觀性、時效性。
在專門用途漢語的領(lǐng)域,構(gòu)建較為完整的“話題—詞匯”體系后,教材編寫者需要對目的國家的需求進(jìn)行調(diào)研,以便選取合適的話題構(gòu)成教材的各個單元。該部分主要分為兩個階段,一是目的國教學(xué)需求的調(diào)研與分析,二是教材課文的編寫。
各國的經(jīng)濟(jì)發(fā)展水平不同,文化背景不同,因此即使對相同的領(lǐng)域,其學(xué)習(xí)者在專門用途漢語中的需求、興趣也不盡相同。以本文所列舉的商務(wù)漢語為例,我們對來自不同國家的數(shù)名漢語學(xué)習(xí)者進(jìn)行問卷和訪談,并讓每位被調(diào)查者從26個商務(wù)漢語話題中,選取自己最感興趣、商務(wù)往來中最需要學(xué)習(xí)的12個話題(約等于一本教材的單元數(shù)量)。在發(fā)放問卷前,調(diào)查問卷均已針對受訪者母語進(jìn)行了本地化翻譯。問卷結(jié)果如表3所示。
表3 各國商務(wù)漢語話題需求Top 12
在了解目的國漢語學(xué)習(xí)者的需求后,就可以從“話題—詞匯”體系中選擇相應(yīng)的話題與相關(guān)的詞匯進(jìn)行教材編寫,以滿足國別化漢語學(xué)習(xí)者的學(xué)習(xí)需求。
教材編寫階段圍繞“話題—詞匯”體系與不同國別的漢語學(xué)習(xí)者需求展開,本節(jié)以大多數(shù)國家漢語學(xué)習(xí)者都比較關(guān)心的“行程預(yù)定”這一話題為例,該話題的核心詞為“預(yù)訂”,我們直接取前15個與話題相關(guān)度最高的詞匯(包括核心詞本身與命名實(shí)體)編寫一篇針對韓國學(xué)習(xí)者的課文“行程預(yù)定”,示例如下。
生詞:預(yù)訂、機(jī)票、民宿、預(yù)定、目的地、酒店、房東、航空公司、景區(qū)、游客、房源、旅游。命名實(shí)體:攜程(ORG)、海航(ORG)。
【例文】
王小明:金俊賢,聽說你下周要到大理來旅游,你已經(jīng)預(yù)訂好機(jī)票了嗎?
金俊賢:我已經(jīng)預(yù)訂了海航的機(jī)票,聽說這個航空公司服務(wù)不錯。
王小明:你已經(jīng)有預(yù)定好的行程了嗎?打算哪里玩?
金俊賢:還沒有具體的目的地。聽說大理的景區(qū)風(fēng)景非常不錯!
王小明:你打算待多長時間?
金俊賢:我打算待一個月。我正在攜程APP上看酒店。
王小明:你要住一個月的酒店,這不劃算。我建議你看看按月租賃的民宿的房源。這里的房東對游客都很友好!
金俊賢:謝謝你的建議!
通過使用“話題—詞匯”體系的詞匯庫,可以幫助教材編寫者快速編寫課文,同時也可以增加專門用途漢語教學(xué)課文的時效性。而命名實(shí)體則可以為教材的課文豐富會話情景,幫助漢語學(xué)習(xí)者了解中國的生活現(xiàn)狀,構(gòu)建語言學(xué)習(xí)的文化背景。
除了人工編寫課文以外,在自然語言處理領(lǐng)域,自然語言生成技術(shù)可以幫助根據(jù)關(guān)鍵詞生成段落文本,但目前自然語言生成技術(shù)能夠生成的文本,多為具有嚴(yán)格模式的“定型文體”,如天氣預(yù)報、股市行情、球賽解說等,會話的生成尚有一定的困難,句子之間的連貫性較差,因此根據(jù)若干關(guān)鍵詞生成課文會話尚有難度,不過隨著人工智能行業(yè)的飛速發(fā)展,成熟的模型和算法也將很快出現(xiàn),屆時教材編寫者可以根據(jù)詞匯庫,選取同一話題下的若干詞匯,讓計(jì)算機(jī)自動生成多份課文文本,并進(jìn)行挑選和后編輯,從而更進(jìn)一步加快教材的編寫。
漢語的難度估計(jì)、詞匯等級、易讀性研究等也是近來語言教學(xué)、計(jì)算語言學(xué)等領(lǐng)域的熱門話題,已經(jīng)有不少學(xué)者將難度的量化引入國際中文教育的研究領(lǐng)域當(dāng)中〔10-12〕。對于專門用途漢語教學(xué)而言,文本難度的量化意義尤為重要。專門用途漢語教學(xué)往往以短期班教學(xué)為主,而根據(jù)學(xué)生的漢語水平選取相應(yīng)難度的教材,則往往可以使教學(xué)效果事半功倍。因此在教材編制時,應(yīng)對課文進(jìn)行客觀的難度的量化評估,并進(jìn)行標(biāo)注。
以上一章編寫的“行程預(yù)定”這一話題的課文為例,我們使用“漢語閱讀分級指難針”〔13〕工具對課文的難度進(jìn)行評估可以得到如圖2結(jié)果。
圖2 “行程預(yù)定”課文難度分析
從難度指針給出的報告可以看出,該段對話的難度為高等五級,文本難度為3.03。屬于僅適合漢語高級學(xué)習(xí)者的文章,但實(shí)際閱讀課文不難發(fā)現(xiàn),該課文遠(yuǎn)低于高級水平,查看字詞的具體分析報告我們發(fā)現(xiàn),“漢語閱讀分級指難針”對命名實(shí)體識別能力較弱,且分詞也存在一定的問題,如無法識別命名實(shí)體中的人名“王小明”“金俊賢”,機(jī)構(gòu)名“海航”“攜程”,地名“大理”等。短語“多長時間”“一個月”等也沒有正確進(jìn)行分詞,因此無法對應(yīng)到HSK等級或者詞匯等級大綱〔14〕,從而全部判定為了“超綱詞”(上文中下劃線部分),使難度指數(shù)顯示虛高。因此建議在使用時,人為或者通過命名實(shí)體識別與標(biāo)注工具,事先將命名實(shí)體剔除,再進(jìn)行難度評估,從而使難度評估更客觀,更接近真實(shí)難度。例文剔除了命名實(shí)體之后,評估的難度如圖3所示。
圖3 修改命名實(shí)體后“行程預(yù)定”課文難度分析
剔除命名實(shí)體之后,課文文本難度指數(shù)下降為2.44,適合中等三級難度,難度評估指數(shù)與實(shí)際的經(jīng)驗(yàn)值較為吻合。
教材本土化也是教材編寫中不可忽略的一個問題。其中對于目的國家需求的調(diào)研,前文已經(jīng)講過,本部分僅對課文與生詞的翻譯,尤其是小語種的翻譯問題提出建議和看法。對于專門用途漢語教材而言,其生詞往往是來自專業(yè)領(lǐng)域的專業(yè)詞匯,教材編寫時常缺少相應(yīng)的領(lǐng)域翻譯人才,從而造成教材本土化翻譯質(zhì)量的下降。在自然語言處理領(lǐng)域,機(jī)器翻譯可以解決基本的翻譯問題,但對于小語種的翻譯,質(zhì)量也難以得到保證,“一帶一路”沿線國家,小語種較多,因此可以使用機(jī)器與人工相結(jié)合的方法,構(gòu)建“機(jī)器翻譯+后編輯”的模式,由機(jī)器翻譯系統(tǒng)先進(jìn)行翻譯,教材編寫者與目的國本土教師/學(xué)生共同進(jìn)行譯后編輯,從而提高機(jī)器翻譯的質(zhì)量,以達(dá)到較高質(zhì)量本土化翻譯的目的。
綜上,隨著“后疫情時代”的到來,世界正經(jīng)歷著百年未有之大變局。變革預(yù)示著機(jī)遇,也帶來挑戰(zhàn)。國際中文教育的勃發(fā)代表的是中國的文化軟實(shí)力,在“一帶一路”的倡議下“漢語熱”本身也代表著國際話語權(quán)〔15〕。國際中文教育教材編寫的意義也已經(jīng)不止于教材本身,而是中國“文化自信”的一種表現(xiàn)形式,是“走出去”戰(zhàn)略的一部分。隨著“一帶一路”合作的不斷加深,專門用途漢語的教學(xué)必將迎來更大的缺口,同時也會帶來更大的契機(jī)。結(jié)合自然語言處理等人工智能新技術(shù)與算法,保持專門用途漢語教學(xué)內(nèi)容、教材的時效性,是為世界全面展示蓬勃發(fā)展、與時俱進(jìn)的中國形象的一個窗口,也是未來學(xué)科發(fā)展必將要關(guān)注與研究的重要問題。期待自然語言處理相關(guān)技術(shù)和算法能給教材編寫帶來更多便利的同時,也期待越來越多的國際中文教育研究者關(guān)注新技術(shù)以及跨學(xué)科研究與合作,共同推進(jìn)國際中文教育的發(fā)展。