趙欣彤,楊燕綏
(1.中國人民大學(xué) 勞動人事學(xué)院,北京 100000;2.清華大學(xué) 公共管理學(xué)院,北京 100084)
人口平均預(yù)期壽命(以下簡稱“人均壽命”)是反映一個國家、地區(qū)的人口狀況,預(yù)測人口發(fā)展趨勢、分析人口結(jié)構(gòu)、評估人口質(zhì)量的重要指標(biāo),為各國政府所重視。準(zhǔn)確、及時的人均壽命預(yù)測有助于政府決策部門科學(xué)制定養(yǎng)老金、醫(yī)療保障、養(yǎng)老服務(wù)等社會政策。人均壽命不僅受到人口出生、死亡等狹義人口學(xué)因素的影響,還是經(jīng)濟、衛(wèi)生、環(huán)境、教育、就業(yè)、福利等廣義人口學(xué)變量綜合作用的結(jié)果,具有高度非線性、高噪聲、低精度、低穩(wěn)健性等特點,預(yù)測難度較大?;趪掖笠?guī)模人口普查的人均壽命預(yù)測雖然結(jié)果準(zhǔn)確,卻存在更新周期長、滯后性嚴重等缺陷,且需要耗費大量的人力和物力[1];傳統(tǒng)的標(biāo)準(zhǔn)生命表法依賴有限參數(shù)設(shè)定且受制于基礎(chǔ)數(shù)據(jù)來源的有限性和缺失性,且計算過程較為繁瑣;多元回歸分析法模型較為單一,尤其是當(dāng)自變量因素較為復(fù)雜時,多元回歸分析法的處理難度將大大增加,導(dǎo)致預(yù)測精度有限。
神經(jīng)網(wǎng)絡(luò)是常用的數(shù)據(jù)預(yù)測方法之一,具有較好的分類能力、泛化能力和逼近性能,近年來被廣泛應(yīng)用于函數(shù)逼近、模式識別、數(shù)據(jù)分類等研究中[2]。羅榮桂等[3]利用BP算法實現(xiàn)了長江流域人口數(shù)量的預(yù)測。黃建元等[4]基于BP算法對我國人口平均壽命進行了預(yù)測研究。本文在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法的基礎(chǔ)上,提出了一種基于模糊K-Prototypes算法的改進RBF神經(jīng)網(wǎng)絡(luò)方法,提高了對人口預(yù)測中復(fù)雜自變量因素的處理能力,并將KP-RBF神經(jīng)網(wǎng)絡(luò)預(yù)測方法應(yīng)用于人口平均壽命預(yù)測。對比分析了KP-RBF神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)和CNN神經(jīng)網(wǎng)絡(luò)的性能,發(fā)現(xiàn)所設(shè)計的KP-RBF方法在預(yù)測精度和穩(wěn)健性方面均優(yōu)于其他方法。
經(jīng)典的RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由輸入層、隱藏層和輸出層三部分組成,其本質(zhì)是一個映射過程:f(x) ∶Rm→Rn,設(shè)x∈Rm為輸入向量,Ci∈Rm為基函數(shù)第i個中心節(jié)點,則每個基函數(shù)輸出值為:
其中,‖‖表示歐式距離。通常選用高斯函數(shù)作為中心點的激活函數(shù),其函數(shù)形式為:
其中,σi為第i個中心點的寬度。RBFNN的第 j個輸出 yj(x)為:
其中,l為RBF網(wǎng)絡(luò)節(jié)點個數(shù),φi(x)為第 i個輸出偏差,ω(j, i)為第 j個中心點到第i個點的權(quán)重。整體的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 RBF神經(jīng)網(wǎng)絡(luò)示意圖
K-Prototypes 算法是由 Huang(1998)提出的聚類方法。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法如RBF神經(jīng)網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)等方法在進行數(shù)據(jù)預(yù)測時,對變量之間不相關(guān)或弱耦合的假設(shè)會導(dǎo)致樣本信息利用不充分;同時神經(jīng)網(wǎng)絡(luò)基函數(shù)中心點選取敏感性較高,使得預(yù)測精度和穩(wěn)健性容易受到影響[5,6];且傳統(tǒng)的聚類分析屬于硬劃分,將每個樣本強制劃分到某一類當(dāng)中。這種算法并未考慮在實際情況下樣本并沒有嚴格的形態(tài)和屬性,而是存在不同程度的中介性。與傳統(tǒng)的聚類算法相比,K-prototypes算法最大的特點在于對非數(shù)值型屬性的距離量測改為相異度表示,能夠更好地處理混合型數(shù)據(jù)集。進一步地,模糊K-Prototypes算法是對K-Prototypes算法的有效擴展[7]。模糊K-Prototypes算法通過隸屬度函數(shù)確定聚類中心的核心對象和邊緣對象,對聚類中心進行迭代更新并進行矩陣劃分,使得目標(biāo)函數(shù)最小化,進而得到較好的聚類處理效果。該方法通過擴大捕捉有效信息的方式提高處理類中邊緣對象的估計效度,以此提高模型處理異常值和缺失數(shù)據(jù)的能力。
模糊K-Prototypes算法的原理為:假定樣本 X=[x1,x2,…,xn],其中 xi=[ ]xi1,xi2,…,xim,m為屬性值個數(shù)。在對樣本X進行聚類時,需要將n個對象劃分到K個不同的類別中,聚類準(zhǔn)則為使以下目標(biāo)函數(shù)最小:
其中,α為模糊指數(shù)。當(dāng)α>1時該聚類為模糊聚類,當(dāng) α=1時該聚類為硬聚類。d(xi, Ck)為數(shù)據(jù)對象 xi的差異測度,其定義如下:
此時,代價函數(shù)的函數(shù)形式變?yōu)椋?/p>
進一步地,劃分矩陣的更新方法如下:
同樣地,聚類中心的更新方法如下:
對于屬性Aj( )1≤j≤p :模糊K-Prototypes算法的定義可用如下定義來描述:假定樣本是有m個屬性A1,A2,…,Am描述的一組數(shù)據(jù)對象X=[x1,x2,…,xn] ,其中 xi=[xi1,xi2,…,xim]表示數(shù)據(jù)對象xi的m個屬性值。在對xi進行聚類時,使用以下代價函數(shù)將n個對象劃分到K個不同的類別中:
上 式 中 ,C=[C1,C2,…,CK] ,其 中 Ck=[ck1,ck2,…,ckm]表示聚類k的以向量形式表示的聚類中心,是 K×n的矩陣,元素 ξki為對象xi劃分到聚類k的隸屬度,滿足以下條件:
其中,α是模糊指數(shù)。當(dāng)α>1時該聚類為模糊聚類,當(dāng)α=1時該聚類為硬聚類。d(xi, Ck)為數(shù)據(jù)對象xi的差異測度,其定義如下:
此時,代價函數(shù)的函數(shù)形式變?yōu)椋?/p>
進一步地,劃分矩陣的更新方法如下:
同樣地,聚類中心的更新方法為:
由于人口平均壽命預(yù)測中所涉及的自變量因素多為社會經(jīng)濟因素,各變量之間存在強非線性關(guān)系。因此,在確定RBF第二層(隱藏層)中各結(jié)點的聚類中心Ci及劃分矩陣?時,使用模糊K-Prototypes算法進行聚類運算。具體算法如下:
(1)初始化聚類個數(shù)K、聚類中心C0和誤差ε,算出劃分矩陣?0;
(2)確定 Ci+1,若 | F(?t, Ct+1)-F(?t, Ct) |< ε,算法停止,返回 ?i,Ci+1;
(3)確定Ci+1,若 | F(?t+1, Ct+1)-F(?t, Ct+1) |< ε,算法停止,返回 ?i+1,Ci+1;
(4)令 i=i+1,返回第(2)步。
在確定初始聚類中心C0時,既有研究的做法是從全樣本中隨機選取K個樣本向量作為然后進行迭代運算。由于使用K-Prototypes算法計算得出的聚類結(jié)果對C0的選取較為敏感,在運算過程中可能會導(dǎo)致聚類結(jié)果偏離實際[8],為提高算法估計結(jié)果的信度,本文使用一種新的挑選方法確定初始聚類中心C0。
(1)將各因素變量按如下方式進行標(biāo)準(zhǔn)化,使它們的取值變?yōu)閇0 , 1]之間,從而消除不同屬性取值由量綱不同造成的差異:
其中,maxj為第 j個屬性的最大值,minj為第 j個屬性的最小值。
(3)將所有屬性分為K組,每組包含[ ]N K個數(shù)據(jù)。將剩余數(shù)據(jù)歸入最后一組中。設(shè)定初始聚類中心C0為每組中出現(xiàn)頻次最高的屬性值;結(jié)合(2)中得到的初始值,本文得到K個初始聚類中心為
通過上述方法,能夠確保選取的初始聚類中心的選取具有較好代表性,可以有效反映原始樣本的分布情況。
在確定初始聚類中心C0之后,中心點寬度σi可根據(jù)各聚類中心之間的歐氏距離計算確定。第i個中心點的寬度為 σi=κdi,其中,κ 為重疊系數(shù);di=mind(Cj-Ci),其含義為第i個點中心與其他最近的點中心之間的距離。
經(jīng)上述方法確定RBF各中心點的聚類中心Ci及寬度σi之后,對于任意的輸入值Pi,得到第 j個輸出值yj為:
將其寫成矩陣的形式:
給定 R∈Ru×n以及 T=(T1, T2,…,Tn)T∈ Rs×n,n 為樣本個數(shù),T為目標(biāo)矩陣,s為RBFNN的輸出維度。則權(quán)重值W*應(yīng)使)達到最小,由線性最小二乘法( )LLS可求得:
其中,RT表示R的轉(zhuǎn)置,R+=(RTR )-1RT為R的偽逆。
本文使用KP-RBF神經(jīng)網(wǎng)絡(luò)方法,選取1990年、2000年、2010年我國31個省份的92組數(shù)據(jù)作為研究樣本進行實證應(yīng)用。人均壽命數(shù)據(jù)來自三次全國人口普查。隨著我國經(jīng)濟的增長、醫(yī)療技術(shù)的普及、營養(yǎng)水平的提升和公共衛(wèi)生的發(fā)展,廣義的人口學(xué)變量,如社會經(jīng)濟水平、經(jīng)濟發(fā)展的不平衡性、文化教育水平、醫(yī)療衛(wèi)生條件等社會因素,對地區(qū)人均壽命具有綜合影響。因此,參考相關(guān)研究,遵循目標(biāo)性、精簡性、系統(tǒng)性和針對性的原則,選取人均GDP、城鄉(xiāng)比、文盲率、千人床位數(shù)、老年人口撫養(yǎng)比、性別比作為影響人口平均壽命的主要因素。由于所選數(shù)據(jù)的采樣時間跨度比較大,各因素方差較大,導(dǎo)致樣本分布比較合理,能夠很好地反映影響人口平均壽命的不同情況,因此所選取的各項指標(biāo)構(gòu)成的數(shù)據(jù)集對于檢驗人口平均壽命預(yù)測數(shù)據(jù)模型是一個很好的示例。
在數(shù)據(jù)處理時,本文隨機抽取不同組別數(shù)據(jù)中的2/3作為訓(xùn)練集、1/3作為檢驗集,對省級人口平均壽命進行了擬合和檢驗。由于訓(xùn)練集和檢驗集均為真實數(shù)據(jù),因此可以認為對方法的檢驗具有較高的信度。表1給出了三種方法的預(yù)測結(jié)果的平均值對比。圖2給出了檢驗集預(yù)測結(jié)果對比圖,圖3(見下頁)為檢驗集預(yù)測殘差對比圖。從預(yù)測結(jié)果中可以看出,在相同數(shù)據(jù)支持下,三種方法的預(yù)測精度排序為KP-RBF神經(jīng)網(wǎng)絡(luò)>CNN神經(jīng)網(wǎng)絡(luò)>BP神經(jīng)網(wǎng)絡(luò),預(yù)測誤差排序為CNN神經(jīng)網(wǎng)絡(luò)>BP神經(jīng)網(wǎng)絡(luò)>KP-RBF神經(jīng)網(wǎng)絡(luò)。這說明,與CNN神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)相比,KP-RBF方法在進行人均壽命預(yù)測時,預(yù)測精度較高,預(yù)測殘差較低。也就是說,KP-RBF的預(yù)測結(jié)果擬合度和穩(wěn)健性都最高,在進行人口壽命預(yù)測時,比其他方法具有更好的穩(wěn)健性。
表1 預(yù)測結(jié)果平均值對比
圖2不同算法預(yù)測結(jié)果對比圖
圖3預(yù)測殘差對比圖
得到檢驗結(jié)果并驗證其穩(wěn)健性之后,本文對2016—2030年全國人口平均壽命進行了預(yù)測。自變量變化率采用過去五年平均變化率進行線性估計?;贙P-RBF神經(jīng)網(wǎng)絡(luò)的未來15年人口平均壽命的預(yù)測結(jié)果表明,中國人口平均壽命將在2030年達到79.2歲。
本文基于模糊K-Prototypes算法提出了改進RBF神經(jīng)網(wǎng)絡(luò),將其用于人均壽命預(yù)測的研究中,并利用中國1990年以來的省級數(shù)據(jù)進行測算,給出了未來15年中國人口平均預(yù)期壽命的趨勢預(yù)測,其研究結(jié)果對于政府決策部門預(yù)測人口平均壽命、提高社會政策有效性和前瞻性具有很好的應(yīng)用價值。隨著大數(shù)據(jù)和人工智能在社會科學(xué)研究中的深入和推廣,RBF神經(jīng)網(wǎng)絡(luò)算法有望在人口預(yù)測等多個交叉學(xué)科研究中得到更為廣泛的應(yīng)用,從而為社會政策的制定和優(yōu)化提供更加科學(xué)的決策支持。