陳仕鴻 張英明
世界人口的迅速增長(zhǎng)帶來(lái)許多問(wèn)題,其中發(fā)展中國(guó)家的人口增長(zhǎng)過(guò)快對(duì)經(jīng)濟(jì)發(fā)展和社會(huì)穩(wěn)定的不利影響尤其突出。人口問(wèn)題是我國(guó)社會(huì)和經(jīng)濟(jì)發(fā)展的關(guān)鍵要素之一。在目前嚴(yán)峻的人口形勢(shì)下,人口問(wèn)題,比如老齡化、人口紅利、人口質(zhì)量等問(wèn)題也日益突出且備受關(guān)注。人口預(yù)測(cè)對(duì)于提供準(zhǔn)確的人口信息,對(duì)于國(guó)家社會(huì)發(fā)展計(jì)劃特別是制定生育政策有重要的意義。目前,我國(guó)人口預(yù)測(cè)模型主要有年齡移算模型、指數(shù)Logistic回歸模型、自回歸模型、平滑預(yù)測(cè)模型、年齡移算模型、凱菲茨矩陣方程模型、萊斯利矩陣預(yù)測(cè)模型、宋健人口發(fā)展方程、自回歸分布滯后模型、隨機(jī)人口預(yù)測(cè)模型(LTC)、灰色模型、BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型等[1][2]。人口數(shù)量的變化是一個(gè)復(fù)雜時(shí)間序列問(wèn)題,其數(shù)據(jù)特征存在著復(fù)雜的非線(xiàn)性函數(shù)關(guān)系,用傳統(tǒng)的線(xiàn)性模型來(lái)預(yù)測(cè)可能存在較大的誤差。因此,有學(xué)者選擇具有自學(xué)習(xí)能力的非線(xiàn)性的BP神經(jīng)網(wǎng)絡(luò)作為人口預(yù)測(cè)的模型[3][4][5][6]。但是BP神經(jīng)網(wǎng)絡(luò)固有的隨機(jī)性強(qiáng)、容易收斂到局部極小的缺點(diǎn),影響了人口預(yù)測(cè)的穩(wěn)定性和精確度。本文擬建立基于遺傳算法改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)模型,對(duì)我國(guó)人口總量變化進(jìn)行短期的預(yù)測(cè)。
圖1 BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP神經(jīng)網(wǎng)絡(luò)能夠在規(guī)律和機(jī)理尚不明確的前提下學(xué)習(xí)和存貯大量的輸入與輸出模式映射關(guān)系[7]。BP神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層、隱含層和輸出層,如圖1所示。
BP網(wǎng)絡(luò)的權(quán)值和閾值參數(shù)是隨機(jī)生成的,傳統(tǒng)的訓(xùn)練算法容易收斂到局部極小,使得網(wǎng)絡(luò)不穩(wěn)定。本文采用遺傳算法來(lái)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,以期解決BP網(wǎng)絡(luò)存在的問(wèn)題。
圖2 GA-BP算法的流程圖
遺傳算法(Genetic Algorithm,GA)是模擬生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過(guò)程的計(jì)算模型[8]。遺傳算法通過(guò)搜索空間的解進(jìn)行編碼,形成被比喻為染色體的個(gè)體,隨機(jī)選擇多個(gè)個(gè)體組成種群,以適應(yīng)度函數(shù)為依據(jù),經(jīng)過(guò)選擇、交叉和變異操作,對(duì)種群個(gè)體逐代擇優(yōu),最終使搜索過(guò)程收斂到全局最優(yōu)解。
遺傳算法的一般算法有以下幾步驟[9]:
1.隨機(jī)生成初始群體:從解中隨機(jī)選擇出來(lái)若干個(gè)個(gè)體構(gòu)成初始種群。
2.計(jì)算群體中每個(gè)個(gè)體的適應(yīng)度,從中找出最優(yōu)個(gè)體。
3.選擇操作。根據(jù)“適者生存”的原則,適應(yīng)度越大的個(gè)體被選中的概率越高。
4.交叉操作。根據(jù)指定的概率,從種群中選擇兩個(gè)體進(jìn)行隨機(jī)配對(duì)形成新的個(gè)體,類(lèi)似基因交換。
5.變異操作。從種群中隨機(jī)選擇一個(gè)個(gè)體,按一定概率變異得到新的個(gè)體,類(lèi)似基因突變。
6.判斷進(jìn)化是否結(jié)束。若否,返回第(2)步。
基于遺傳算法改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)模型,即采用遺傳算法對(duì)BP網(wǎng)絡(luò)的參數(shù)先行優(yōu)化。首先隨機(jī)生成若干組網(wǎng)絡(luò)參數(shù)初值,以網(wǎng)絡(luò)的誤差為適應(yīng)度,利用遺傳算法對(duì)這些網(wǎng)絡(luò)參數(shù)初值進(jìn)行適應(yīng)度計(jì)算;經(jīng)過(guò)若干代進(jìn)化之后找到最能夠適應(yīng)給定BP網(wǎng)絡(luò)的一組網(wǎng)絡(luò)參數(shù),再將這組網(wǎng)絡(luò)參數(shù)用于BP網(wǎng)絡(luò),使用訓(xùn)練數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行進(jìn)一步優(yōu)化,最終使輸出結(jié)果達(dá)到要求的精度。因此,GA-BP模型的基本結(jié)構(gòu)應(yīng)當(dāng)包括BP網(wǎng)絡(luò)和遺傳算法改進(jìn)部分兩個(gè)環(huán)節(jié)[10]。GA-BP算法的流程如圖2所示。
圖3 每代種群平均適應(yīng)度變化曲線(xiàn)圖
選取1982-2010年的人口數(shù)據(jù),數(shù)據(jù)來(lái)源于文獻(xiàn)[11]和[12],如表1所示。以前3年數(shù)據(jù)作為一個(gè)模型輸入,第4年的數(shù)據(jù)作為輸出,組成一個(gè)數(shù)據(jù)樣本;再以第2至第4年數(shù)據(jù)為輸入,第5年的為輸出,以此類(lèi)推,建立26組樣本數(shù)據(jù)。選取前24個(gè)數(shù)據(jù)樣本為訓(xùn)練樣本,后2個(gè)為測(cè)試樣本,即測(cè)試2009、2010年的預(yù)測(cè)結(jié)果。最后預(yù)測(cè)2011年的人口數(shù)據(jù)。
表1 1982-2010年人口總數(shù)(單位:億)
構(gòu)建的GA-BP網(wǎng)絡(luò)三層結(jié)構(gòu)為3—7—1,網(wǎng)絡(luò)迭代次數(shù)為100,學(xué)習(xí)率為0.1,訓(xùn)練目標(biāo)為0.0001。遺傳算法的進(jìn)化代數(shù)為50,種群規(guī)模為15,交叉概率為0.3,變異概率為0.1。程序在Matlab軟件中實(shí)現(xiàn)。GA運(yùn)行過(guò)程中,每代種群平均適應(yīng)度(即誤差)變化曲線(xiàn)如圖3所示。由圖3可知,遺傳到42代時(shí),適應(yīng)度達(dá)到穩(wěn)定狀況。
模型對(duì)2009、2010年人口檢驗(yàn)的結(jié)果分別為13.3365、13.3949,平均誤差為0.0494%,而采用BP網(wǎng)絡(luò)檢驗(yàn)的平均誤差為0.452%??梢?jiàn)經(jīng)過(guò)GA改進(jìn)的BP網(wǎng)絡(luò)模型比BP更加精確,而且更穩(wěn)定,收斂速度更快。
GA-BP人口預(yù)測(cè)模型只適合短期的人口預(yù)測(cè),因此本文采用只對(duì)2011-2020年的人口數(shù)量進(jìn)行預(yù)測(cè),結(jié)果如表2所示。
表2 2011-2020人口預(yù)測(cè)值(單位:億人)
通過(guò)表2對(duì)中國(guó)未來(lái)總?cè)丝陬A(yù)測(cè)的分析,可計(jì)算出中國(guó)每年凈增人口數(shù)將由2011年的745萬(wàn)逐步下降到2020年的20萬(wàn)左右,到2020年我國(guó)人口總數(shù)不會(huì)突破14億。
為了更直觀地體現(xiàn)我國(guó)人口在未來(lái)8年中的變化趨勢(shì),以及和以前年份的人口增長(zhǎng)情況進(jìn)行對(duì)比,現(xiàn)根據(jù)人口預(yù)測(cè)的結(jié)果計(jì)算1983-2020年人口增長(zhǎng)率的變化情況,如圖4所示。
圖4的曲線(xiàn)變化軌跡顯示我國(guó)人口增長(zhǎng)率整體上呈下降趨勢(shì),人口增長(zhǎng)由20世紀(jì)80年代1.5%以上的高速降低到2000年0.76%的中速,到2010年人口的增長(zhǎng)速度又進(jìn)一步降低到0.37%左右的低速,預(yù)計(jì)到2020年人口的增長(zhǎng)速度將降低到0.01%的超低速。
綜合以上分析可明顯看出,我國(guó)人口總數(shù)的增長(zhǎng)已得到有效的控制。如果在社會(huì)經(jīng)濟(jì)穩(wěn)定增長(zhǎng),人口素質(zhì)不斷提高的前提下,我國(guó)政府繼續(xù)堅(jiān)定有效地貫徹計(jì)劃生育方針,人口總量極限值將控制在14.5億以?xún)?nèi)。
圖4 1983-2020年我國(guó)人口增長(zhǎng)率變化趨勢(shì)圖
BP神經(jīng)網(wǎng)絡(luò)具有良好的自學(xué)習(xí)能力,避免了復(fù)雜的數(shù)學(xué)建模過(guò)程,與傳統(tǒng)的預(yù)測(cè)方法相比,基于BP神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)方法不僅計(jì)算簡(jiǎn)單、靈活,而且能提高預(yù)測(cè)的精確度。雖然BP網(wǎng)絡(luò)得到了廣泛的應(yīng)用,但它無(wú)法避免隨機(jī)性強(qiáng)、容易局部收斂、訓(xùn)練速度慢等缺點(diǎn)。本文利用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的連接權(quán)向量和閾值,構(gòu)建了GA-BP人口預(yù)測(cè)模型。經(jīng)實(shí)證分析,該模型預(yù)測(cè)結(jié)果精確度高于BP神經(jīng)網(wǎng)絡(luò),是一種可靠的人口預(yù)測(cè)方法,具有一定的實(shí)用價(jià)值。同時(shí),今后對(duì)模型的內(nèi)部結(jié)構(gòu)還需要進(jìn)一步研究,比如訓(xùn)練函數(shù)和學(xué)習(xí)函數(shù)的類(lèi)型,GA的變異算法等,以充分發(fā)揮模型的潛力,促進(jìn)其在人口預(yù)測(cè)以及其它領(lǐng)域的進(jìn)一步應(yīng)用。
[1]師瑞峰,周一民.基于數(shù)據(jù)挖掘的人口數(shù)據(jù)預(yù)測(cè)模型綜述[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(9):1-7.
[2]王鵬.中國(guó)人口預(yù)測(cè)的最優(yōu)組合模型[D].華北電力大學(xué),2009:11-24.
[3]畢小龍,袁勇.基于BP神經(jīng)網(wǎng)絡(luò)的人口預(yù)測(cè)方法研究[J].武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版),2007,31(3):556-558.
[4]賈楠,胡紅萍,白艷萍.基于BP神經(jīng)網(wǎng)絡(luò)的人口預(yù)測(cè)[J].山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,25(3):22-24.
[5]畢小龍,魏巍.基于神經(jīng)網(wǎng)絡(luò)的我國(guó)人口老齡化趨勢(shì)預(yù)測(cè)[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版),2004,26(6):182-184.
[6]何迎生,段明秀.基于RBF神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)[J].吉首大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,29(3):52-55.
[7]朱凱,王正林.精通MATLAB神經(jīng)網(wǎng)絡(luò)[M].北京:電子工業(yè)出版社,2010.1:193-200.
[8]周明,孫樹(shù)棟.遺傳算法原理及應(yīng)用[M].北京:國(guó)防工業(yè)出版社,1999.6:4-11.
[9]MATLAB中文論壇.MATLAB神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析[M].北京:北京航空航天大學(xué)出版社,2010.4:21-29.
[10]萬(wàn)玉瓊,梁俊有.基于遺傳算法改進(jìn)BP網(wǎng)絡(luò)的災(zāi)害預(yù)測(cè)模型研究[J].中國(guó)水運(yùn),2008,8(4):255-257.
[11]國(guó)家統(tǒng)計(jì)局人口統(tǒng)計(jì)司.中國(guó)人口統(tǒng)計(jì)年鑒[M].北京:中國(guó)統(tǒng)計(jì)出版社,1988-2010.[12]中國(guó)政府網(wǎng).2010年第六次全國(guó)人口普查主要數(shù)據(jù)公報(bào)[EB/OL].http://www.gov.cn/wszb/zhibo449/content_1853973.htm,2011.4.28.