馬之杰 秦雅博 鄭超逸
摘要:世界上有超過6900種語言。主要語言的使用者構(gòu)成了絕大多數(shù)世界人口。其中包含了單一使用母語人士和使用第二或第三語言的人士。隨著經(jīng)濟和文化的全球化,不同語言使用者的分布也發(fā)生變化。語言者的數(shù)量可能隨時間演變而增加或減少。它們的地理分布可能同時發(fā)生變化。語言分布的變化與文化政策、移民、教育、商業(yè)關系和國際交流等都有著密切的相關性。該文考慮多重因素的影響下,預測了不同語言者分布隨時間變化的人口在地理分布規(guī)律。這些預測結(jié)果可以對商業(yè)運作提供參考性建議。
關鍵詞:馬爾科夫模型;微分方程;語言流
中圖分類號:TP3 文獻標識碼:A 文章編號:1009-3044(2018)18-0237-03
首先為了便于模型的一般性推廣,我們給定以下的一般性假設:
[·]假設全球人口增長率在不久的將來是穩(wěn)定的。
[·]假設我們所做的研究是基于可信數(shù)據(jù)的。我們僅利用現(xiàn)有數(shù)據(jù)提供可行的預測方案。
[·]忽視語言人數(shù)和移民人數(shù)由于戰(zhàn)爭、自然災害等不可抗因素導致的突然變化。
1 基于馬爾可夫模型的語言分布預測
1.1 模型組建
在馬爾科夫模型中,在某一時刻,一組對應于每個狀態(tài)的值被稱為分布序列[1]。在馬氏過程中,每個狀態(tài)中的單元有可能一步轉(zhuǎn)入另一個狀態(tài)(包括自轉(zhuǎn)移)。
我們定義各類語言的語言者分布序列[ξk=a0,a1,…]以描述語言分布,其中,[k]為年份, [ai]指第[k]年的分布序列中第[ith]狀態(tài)的的值, 我們定義其值為第[ith]種語言者的數(shù)量。每個分布序列通過轉(zhuǎn)移概率矩陣的作用后,我們得到下一年的分布序列:[ξkMk=ξk+1]其中,[k]為時間序號,轉(zhuǎn)移概率矩陣[Mk][1]單元[pij]描述在下一年從[ith]狀態(tài)轉(zhuǎn)移至[jth]狀態(tài)的概率。
[Mk=p11p12…p1np21p22…p2n......pij...pn1pn2…pnn]
在馬爾科夫模型中,矩陣的行求和概率符合歸一化限制條件,由概率的性質(zhì)給出[pij∈0,1j=1npij=1]
隨時間變化規(guī)律可以視為按年度離散的多步馬爾科夫過程,我們可以通過累乘[ξ(t+1)=ξ(1)k=1tMk]來計算多步馬爾可夫過程,其中[ξ(1)]和[ξ(t+1)]依次是初始分布和第t年分布。
針對于語言者分布的變化,自我轉(zhuǎn)移對應于語言繼承,這意味著一部分語言者在一步轉(zhuǎn)移中保持不變。相互轉(zhuǎn)移對應于語言從一個到另一個語言的演化,受到語言使用者比例(SS),移民情況(IS),文化政策(CP)和文化交流(ICC)等因素的影響,按圖1的邏輯結(jié)構(gòu)以確定本模型中各概率:
自轉(zhuǎn)移概率:由于在正常情況下,只有少數(shù)語言者會自發(fā)地轉(zhuǎn)變成另一種語言者,我們認為大多數(shù)發(fā)言者都是遵循“語言繼承”,我們給定自我轉(zhuǎn)移概率[pij=0.98i=j]
互轉(zhuǎn)移概率:由上易得語言者的總互轉(zhuǎn)移概率為2%,對應于矩陣行求和概率,每兩種語言間的轉(zhuǎn)移比例是不確定的,我們應該采取定量指標的比例來確定剩余概率:[pij=2%×Fij/j=1nj≠iFij i≠j]其中[Fij]是與語言規(guī)模,移民規(guī)模,文化政策和國際文化交流有關的綜合指標。為了獲得上述指標的量化描述,我們在模型中將上述四個方面定量調(diào)整為語言者相對規(guī)模(RSS),人文發(fā)展指數(shù)(HDI)[4],移民水平指數(shù)(ELI)[4]和全球化指數(shù)(GI)[4]。
首先,兩種語言之間的規(guī)模差距越大,較小規(guī)模的語言越有可能演化為另一個。因此,我們可以通過兩種語言的規(guī)模之比來定義語言者的相對規(guī)模:[RSS=Pj/Pi]
根據(jù)報道,人類發(fā)展指數(shù)[4]是定義在0-1區(qū)間內(nèi)的衡量人類實現(xiàn)預期壽命,教育程度和體面生活的人類發(fā)展的綜合指標:[HDIj∈0,1]對于分布在多個國家的語言,我們用這些國家的平均人文指數(shù)來描述該語言的移民水平指標。
根據(jù)目前世界移民總體趨勢[4],目前世界上最明顯的人口流動趨勢是從發(fā)展中國家到發(fā)達國家。貧困地區(qū)為主要流出地,發(fā)達地區(qū)為主要流入地。我們定義發(fā)達國家的移民水平指數(shù)為“3”,主要發(fā)展中國家為“2”,貧困發(fā)展中國家為“1”,并同樣利用分布國家的總平均值該指標:
全球化指數(shù)[4]是描述經(jīng)濟,社會和政治方面全球化的量化指標,與國際文化交流水平成正比:[GI∈0,100 ,100 代表最高國際化水平]
對于母語者來說,母語由成長環(huán)境決定,并且在成長后不會改變,所以我們認為母語人數(shù)不會受到國際文化交流的影響;對于第二語言者來說,主要受語言規(guī)模,移民局勢和國際文化交流的影響:。通過乘積來量化定義這些指標,我們最終得到[Fij]的表達式:
對綜合指標[Fij]量化后,我們能計算出轉(zhuǎn)移概率和轉(zhuǎn)移概率矩陣。由于計算母語者和第二語言者的分布存在差異,我們將這兩部分看作是獨立的馬爾可夫過程,并依次給出[Mk]、[Mk']相關的遞歸關系:
1.2 算法處理
根據(jù)馬爾可夫模型的特點,我們可以采用迭代算法[2] [3]來計算各種語言者分布的預測情況。在前一個輸出可用作下一個輸入的情況下使用迭代算法。圖2可闡述其邏輯結(jié)構(gòu)。
步驟1:輸入語言使用者的分布以及目前的RSS,HDI,DLI,GI。
步驟2:計算當年的RSS并更新一步馬爾可夫過程的傳輸概率矩陣
步驟3:轉(zhuǎn)移矩陣作用于初始分布并獲得下一年的分布情況。
步驟4:先前的輸出值作為下一年的輸入值,并重復迭代50次。
對于母語者和第二語言使用者,我們獨立地對這兩部分進行馬爾科夫預測,最后將它們相加得到語言總?cè)丝诘臄?shù)量分布。
1.3 預測結(jié)果
通過迭代算法,我們可以得到預測的未來50年每種語言在每一年的數(shù)量分布,這在附錄中給出。我們通過兩部分預測結(jié)果相加計算總語言者的分布。根據(jù)預測得到的語言分布情況,我們重新排名得到世界上十大主要語言如表1所示:
在總體語言分布中,日語取代孟加拉語進入前十名,同處于前十名的其他排名略有變化。
2 基于人口遷移差分方程模型的語言分布預測
在馬爾可夫模型中,我們只討論了不同語言之間的相互轉(zhuǎn)移,忽視了人口的自然增長,這可能會導致與實際情況有所偏差。因此,我們在考慮人口增長率的情況下調(diào)整差分方程,以此來更準確地描述語言分布的變化,由此引入基于人口遷移的差分方程模型進行預測。
根據(jù)人口流動模型,一個地區(qū)的人口增長率是由人口自然增長率、人口遷入率和遷出率決定的,因此,可建立以下差分方程:
其中[Yit]表示第i個地區(qū)的人口,a表示自然增長率,[s=YtYmax]是人口的相對增長限制,[pij]是人口遷入率。據(jù)資料顯示,我們定義[a=0.7%],[Ymax=1.5Y(1)]以及[Y(1)]是目前是語言的人口數(shù)。同時移民的過程可以看作是母語遷移的過程,因此我們假設移民的遷移率與語言遷移的概率相同。
隨后,我們研究逐年人口的變化,因此微分方程可以簡化為一個差分方程:
以初始語言人口分布作為差分方程的初始條件,我們可以得到人口的分布隨時間的變化。由于采用這一模型預測時,迭代算法的主要結(jié)構(gòu)與上一部分相近,在此不再贅述。我們主要將該部分結(jié)果用于語言的地理分布預測中。
3 基于語言流模型預測的語言地理分布變化規(guī)律
為了研究各國的主要地理語言分布變化,我們選取了幾個有代表性的國家進行了預測。我們定義每兩個國家之間的語言流函數(shù)[gpq],衡量語言從語言源傳播到目的地的概率,以百萬人為單位量化:
其中,[μp]是第i種語言中p國家的人口比例,[μq]是第j種語言中q國家的人口比例。語言流[gpq]是標量,因此我們通過兩種語言流之間的差異來計算語言的凈流向量[Gpq]:[Gpq=gpq-gqpepq],其中,[epq]是第p個國家到第q個國家的單位矢量,[Gpq]指相對矢量。根據(jù)預測的語言流量,我們可以計算每兩個主要國家之間的[Gpq]。因此,我們可以通過計算的數(shù)值對語言流進行排名來獲得主要的地理語言變化趨勢。在計算每兩種語言之間的語言凈流量之后,我們根據(jù)相同的語言來源和目的地將數(shù)據(jù)分組,然后我們按降序排列組的總流量。排名如下表2所示:
除以上表3所列數(shù)據(jù)外,我們繪制了的語言轉(zhuǎn)換圖(圖3)以直觀顯示語言的地理分布變化:
地圖中的著色部分是語言分布在地理上發(fā)生變化的區(qū)域,箭頭表示國家之間的語言流。從上面的結(jié)果中,我們可以清楚地看到,英語和英語是地理分布中最具擴張性的語言,而阿拉伯語和普通話的地區(qū)未來可能轉(zhuǎn)化為其他語言??傊?,語言的地域分配轉(zhuǎn)移方向大體一致。我們將人口遷移看作是語言群體融合的過程。
4檢驗與分析
由于我們建立了基于人口遷移理論的微分方程,理論上講,那些預測的語言說話者的總和預計將與按總體自然增長率計算的總?cè)丝谝恢拢篬Yi(t)=1+atYi(1)]我們由此計算相對誤差約為7%,表明說話者的預測數(shù)值分布是合理的,反映了自然增長率在50年內(nèi)具有代表性。由于馬爾可夫模型的自我傳遞概率被設定為占主導的概率,為了檢驗模型的穩(wěn)定性和合理性,我們通過微調(diào)自轉(zhuǎn)移概率并觀察預測結(jié)果變化,發(fā)現(xiàn)排名前四的語言保持一致。同時,排名變化主要發(fā)生在葡萄牙語-阿拉伯語,日語-俄語-孟加拉語之間。我們認為這是由于他們之間的競爭關系和相互轉(zhuǎn)移。此外,當自傳概率高達99%時,在排名前十中引入了一種新語言,這意味著該模型的最大極限穩(wěn)定性大約在98.5%和99%之間?;谌丝谠鲩L理論的模型,自然增長率和增長極限也影響微分方程模型的穩(wěn)定性。
5 結(jié)論
通過本文提供的語言數(shù)量變化及地理分布規(guī)律預測方法,在掌握有效的統(tǒng)計數(shù)據(jù)時,能夠?qū)ξ磥碚Z言人口變化趨勢進行較為合理的預測,為各類政治、經(jīng)濟、文化、商業(yè)活動提供參考依據(jù)。在條件允許的情況下,通過更多方面指標的提取,提高數(shù)據(jù)的精準度等方法均可對我們的工作進行完善。并且,針對不同應用場景,各類參數(shù)可以在合理范圍內(nèi)根據(jù)側(cè)重性做適當調(diào)整以滿足商業(yè)化應用。
參考文獻:
[1] 司守奎.數(shù)學建模算法及應用[M].北京:國防工業(yè)出版社, 2016.
[2] 姜啟源.數(shù)學模型[M].北京:高等教育出版社, 2011.
[3] 卓金武.MATLAB 在數(shù)學建模中的應用[M].北京:北京航空航天大學出版社,2014.
[4] World Economic Forum. The Global Information Technology Report, 2016.
[5] R. Liu, Improvement of Population Migration Model and Prediction of System Dynamics Simulation. 2008, 38(18-9).
[6] World map PPT material template. Retrieved from http://www.1pppt.com.
[7] https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers.
[8] National Bureau of Statistics of People's Republic of China, International Yearbook of Statistics, China Statistics Press, 2015.