張曼麗
摘 要 本文利用了廣東省的人口普查數(shù)據(jù),首先使用了混合模型將全國人口普查得到的總人口中的戶籍人口和非戶籍人口劃分出來,然后分別對戶籍人口和非戶籍人口的結構進行預測,從而得到對未來十年人口金字塔的預測。分析的過程是使用的R統(tǒng)計軟件,使用的主要的程序包有pyramid,mixtools,demography,forecast。
關鍵詞 混合模型 戶籍人口 人口結構預測 人口金字塔
本文是以廣東省的人口數(shù)據(jù)為例進行探討混合模型對人口結構的預測,數(shù)據(jù)是從廣東省政府網(wǎng)站(http://www.gdstats. gov.cn/tjnj/2012/c4.htm)下載的,廣東省人口主要由戶籍和非戶籍人口組成,這兩類人口在數(shù)據(jù)的豐富程度,數(shù)據(jù)質量方面有著不同的特征,并且具有非常不同的發(fā)展趨勢。但由于缺失戶籍的各年齡層人口的分布數(shù)據(jù),我們將基于混合模型對四普、五普和六普的數(shù)據(jù)當中的總人口進行戶籍人口和非戶籍人口的劃分,然后分別對戶籍人口和非戶籍人口的結構進行預測,從而得到對未來2020年人口金字塔的預測。使用的R語言主要的程序包①②③④有mixtools,demography,forecast主要的函數(shù)normalmixEM(),fdm()。
首先使用了混合模型將全國人口普查得到的總人口中的戶籍人口和非戶籍人口劃分出來,對于戶籍人口2020年的預測:2020年的分年齡段的人口結構變化率是由于遷移率,死亡率和出生率引起的,將1到100分成20段,間隔5作為一個年齡段,只有在最前面的一個年齡段的時候有出生率的影響,計算的時候用公式 = (1 + + ),其中的是2020年的1歲到5歲這一年齡段人口密度,是2010年的1歲到5歲這一年齡段人口密度,是2010到2020這一階段1歲到5歲的遷入率,是2010到2020這一階段1歲到5歲的死亡率,是2010到2020這一階段1歲到5歲的出生率。其它年齡段是沒有出生率的影響的,其它的部分的通用計算表達式為: = (1 + ),其中的是2020年的年齡段人口密度,是2010年的年齡段人口密度,是2010到2020這一階段的遷入率,是2010到2020這一階段的死亡率。其中根據(jù)廣東省的實際情況,將遷入分為兩種情況,第一種情況是由于廣東省經(jīng)濟結構的調整帶來了知識型人才的遷入,當然也有很多勞動型年輕人的涌入,這類人偏年輕化。由于數(shù)據(jù)收集的限制,我們用Gamma(x,22,0.6)作為大部分遷移人口偏向年輕人時遷入率的分布;第二種情況是夫妻投靠入戶或者積分制入戶,這種情況的遷移人口偏向中年化,我們使用Gamma(x,29,0.6)作為遷移人口偏向中年人時遷入率的分布。這樣根據(jù)遷入的不同我們將戶籍人口的分析又分為偏年輕化的和偏中年化兩種情況來考慮。最后展示人口金字塔的時候也是根據(jù)當遷入的情況分年輕和中年兩種情況來展示的。
對于2020年非戶籍人口年齡段的密度函數(shù)是根據(jù)混合正態(tài)模型得出的往年的擬合均值和擬合方差來估計的,具體分析如下:對于2020年的非戶籍人口擬合均值計算如下: = + (),其中代表2020年的非戶籍人口擬合均值,代表2010年的非戶籍人口擬合均值,代表2000年的非戶籍人口擬合均值;對于2020年的非戶籍人口擬合方差的計算如下: = + ()其中代表2020年非戶籍人口擬合的方差,代表2010年非戶籍人口擬合的方差,代表2000年非戶籍人口擬合的方差。得出2020年的非戶籍人口擬合的均值和方差,再根據(jù)它符合正態(tài)分布就得出2020年非戶籍人口按年齡分布的人口密度。最后將戶籍和非戶籍人口的分布情況按比例加和就可以得到最后的人口按年齡分布的情況。其中每個分部所占比例的變化也是由2000年至2010年間的變化來估計其在2010年至2020年的變化的。第一個分部所占的比例 = + (),其中是2010年時第一個分布所占的比例;是指2000年時第一個分布所占的比例;則第二個分部在2020年是所占的比例為。將戶籍和非戶籍人口的預測還有比例的預測都分析完畢以后就可以得到2020年按年齡分布的人口密度,計算公式為: 渲惺?020年按年齡分布的人口密度,是非戶籍人口年齡分布的人口密度,是戶籍人口按年齡分布的人口密度,是非戶籍人口分布所占的比例,()是戶籍人口分布所占的比例。將男性和女性都按照上述過程分析完畢以后畫出人口金字塔,進而來說明人口的結構分布情況。
根據(jù)混合模型的分離結果分別得出男性戶籍人口和非戶籍人口未來十年按年齡段所占人口的比例,基于此就可以得到男性按年齡段分布的比例,按遷入人口偏向年輕或者偏向中年來劃分的,對于女性也是按同樣的方式來分析,將男性和女性的按年齡分布的情況分析完畢,利用R統(tǒng)計軟件中的程序包pyramid中的函數(shù)pyramid(),就可以得到2020年的人口金字塔預測圖示。按照遷移人口偏年輕化還是偏中年化兩種情況來展示的,如圖1所示,由圖1(左邊表示在遷移人口年輕化時的結果,右邊表示在遷移人口中年化時的結果)可以看出,兩種情況下金字塔的共同特點是,從1990年金字塔塔頂尖、塔底寬到以后的塔底逐漸變窄向,說明廣東省人口結構向成年型轉化的趨勢逐漸明顯,出生率下降,人口老齡化的趨勢加強。從兩個圖的比較可以看出,當遷移人口偏中年化時,男性呈明顯的雙峰分布,這和高端科技人才的落戶有很大的關系,而當遷移人口偏年輕化時,雙峰分布相對來說比較弱,這與產(chǎn)業(yè)結構進一步調整有很大的關系。
混合模型在處理數(shù)據(jù)不太豐富的時候是一種非常實用而且準確的方法,它在處理人口結構方面是一種非常有用的方法。