黎子恒 胡垠盈 陳雪
摘 要:本文針對(duì)全球語(yǔ)言發(fā)展趨勢(shì)進(jìn)行了分析討論,建立了基于時(shí)間序列的三次指數(shù)平滑模型以及基于粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型,對(duì)人口遷移以及語(yǔ)言發(fā)展展開(kāi)了相關(guān)研究。同時(shí)考慮到影響母語(yǔ)使用者數(shù)量的因素,建立了多元線性回歸模型,預(yù)測(cè)未來(lái)50年語(yǔ)言使用人數(shù)的變化。針對(duì)全球人口遷移受經(jīng)濟(jì)和交通等因素的影響,提出了基于粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)未來(lái)50年的全球移民格局。最后得出結(jié)論:同一時(shí)期語(yǔ)言隨地理分布發(fā)生變化。
關(guān)鍵詞:時(shí)間序列 多元線性回歸 粒子群優(yōu)化 語(yǔ)言發(fā)展
引言
語(yǔ)言是文化最直觀的表達(dá)方式,目前地球上大約有6900種語(yǔ)言。其中,中文、英文、西班牙文、俄文、日文、阿拉伯文、葡萄牙文、印度文以及孟加拉文是當(dāng)今世界常用的九大語(yǔ)言,世界上大多數(shù)人都會(huì)說(shuō)除母語(yǔ)外的第二種語(yǔ)言。然而隨著時(shí)間的推移,語(yǔ)言的使用受到不同因素的影響,其可能會(huì)有所變化。
1 預(yù)測(cè)模型
首先設(shè)定時(shí)間系列: , 代表加權(quán)系數(shù), 。三次指數(shù)平滑計(jì)算如下:
其中 是指數(shù)平滑值, 是第二個(gè)指數(shù)平滑值,并且 是第三個(gè)指數(shù)平滑值。
而后建立三個(gè)指數(shù)平滑預(yù)測(cè)模型[1]為:
是預(yù)測(cè)的數(shù)量t+m ; t是已知數(shù)據(jù)的年數(shù), ; m是要預(yù)測(cè)的年數(shù)。
其次進(jìn)行多元線性回歸:
使用最小二乘法找出估計(jì)值c0 、c1、c2 …c6 ,也就是選擇估計(jì)值 ,當(dāng)cj 等于 ,j=0,1,2,…,6 ,平方誤差的總和QW 降到最低。
本文利用多元線性回歸分析建立六因素與三因素之間的關(guān)系 ,然后添加時(shí)間 影響力,來(lái)預(yù)測(cè)未來(lái)50年的語(yǔ)言數(shù)量。
2 BP神經(jīng)網(wǎng)絡(luò)模型
由于全球人口變化與時(shí)間不成線性關(guān)系,因此需要一種非線性方法來(lái)預(yù)測(cè)全球人口。 因此,本文建立了一個(gè)基于粒子群算法的BP神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)全球人口,在優(yōu)化的學(xué)習(xí)算法中,粒子矢量
每個(gè)元素的值表示BP網(wǎng)絡(luò)中神經(jīng)元的權(quán)重或閾值,其中 d是BP網(wǎng)絡(luò)中的所有權(quán)值和閾值數(shù)量。
粒子群優(yōu)化粒子適應(yīng)度函數(shù)如下:
;
其中n是樣本的數(shù)量, , 表示顆粒的數(shù)量。Yi,j 是理想的輸出i樣本和yi,j 是的實(shí)際輸出ith樣本。
根據(jù)已知全球人口數(shù)據(jù)預(yù)測(cè),應(yīng)用本文模型對(duì)未來(lái)50年全球人口進(jìn)行預(yù)測(cè)如下圖。
3 人口遷移模型
本文通過(guò)使用人口統(tǒng)計(jì)數(shù)據(jù),將50年內(nèi)語(yǔ)言變化分為以下三種情況。
①如美國(guó),所使用的語(yǔ)言在各種語(yǔ)言中影響極大,人均國(guó)內(nèi)生產(chǎn)總值、國(guó)際商業(yè)關(guān)系等指標(biāo)處于良好狀態(tài),這將導(dǎo)致進(jìn)一步增加世界上使用英語(yǔ)的人數(shù)。
②一些發(fā)展中國(guó)家,如印度、巴基斯坦和尼日利亞,由于人口迅速增長(zhǎng),其母語(yǔ)人數(shù)大幅增加。但是,它們的指標(biāo)并不像歐美等發(fā)達(dá)國(guó)家那么好,在世界范圍內(nèi)增長(zhǎng)并正在向世界先進(jìn)經(jīng)濟(jì)體轉(zhuǎn)移。
③波斯尼亞和黑塞哥維那等人口減少,指標(biāo)不像歐美等發(fā)達(dá)國(guó)家發(fā)達(dá)的國(guó)家,其使用總?cè)藬?shù)下降,并轉(zhuǎn)移到發(fā)達(dá)國(guó)家,最終可能滅絕。
首先,收集每種語(yǔ)言中用戶(hù)數(shù)量的數(shù)據(jù),利用三種指數(shù)平滑預(yù)測(cè)各類(lèi)語(yǔ)言的趨勢(shì),取權(quán)重系數(shù)值為0.6?0.8;
然后,使用多元線性回歸來(lái)表示每個(gè)因素對(duì)使用該語(yǔ)言的人數(shù)的影響,并合并時(shí)間序列以獲得預(yù)測(cè)值。由此,預(yù)測(cè)未來(lái)50年每個(gè)語(yǔ)言的母語(yǔ)人數(shù)和使用總數(shù)的變化如下:
結(jié)論
本文針對(duì)全球語(yǔ)言發(fā)展趨勢(shì)進(jìn)行了分析討論,建立了基于時(shí)間序列的三次指數(shù)平滑模型以及基于粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型,對(duì)人口遷移以及語(yǔ)言發(fā)展展開(kāi)了相關(guān)研究。本文建立的時(shí)間序列模型中可充分利用原始時(shí)間序列數(shù)據(jù),計(jì)算速度快,模型參數(shù)動(dòng)態(tài)確定能力強(qiáng),準(zhǔn)確性較好。
參考文獻(xiàn):
[1]Margaret L. Brandeau, Samuel S. Chiu. An overview of representative problems in location research [J]. Management Science. 1989,35(6):645- 674
[2]Jossef Perl, Mark S. Daskin. A unified warehouse location-routing methodology[J]. Journal of Business Logistics. 1993,5(1):92- 111