李小琳,陳傳明
(南京大學 管理學院,南京 210093)
基于貝葉斯網(wǎng)絡(luò)的長江地區(qū)人口健康素質(zhì)預(yù)測
李小琳,陳傳明
(南京大學 管理學院,南京 210093)
文章從提高人口健康水平方面研究了提高人口素質(zhì)決策的評價體系,以貝葉斯網(wǎng)絡(luò)為工具,在對長江地區(qū)人口數(shù)據(jù)進行了相應(yīng)的離散化處理后,從大量人口數(shù)據(jù)中分析人口健康素質(zhì)問題,建立了描述人口健康素質(zhì)的貝葉斯網(wǎng)絡(luò)模型,可為人口決策提供科學依據(jù)。
人口決策;人口素質(zhì);評價指標;貝葉斯網(wǎng)絡(luò);預(yù)測
人口預(yù)測和決策是一項復(fù)雜而困難的工作[1]。它具有多目標的特點,涉及經(jīng)濟和社會發(fā)展的各個方面。而影響人口發(fā)展的因素十分復(fù)雜,有些因素具有不確定性。另外,由于現(xiàn)實所限,往往使人口決策面臨著信息不全、不準的情況。因此傳統(tǒng)的定性風險管理方式和經(jīng)典的定量風險統(tǒng)計已無法滿足社會發(fā)展需求,研究和探索符合中國國情的現(xiàn)代人口決策方法和技術(shù)勢在必行。
同時,世界經(jīng)濟發(fā)展史告訴我們,人口素質(zhì)越來越成為經(jīng)濟進一步增長的關(guān)鍵,中國低生育率水平的出現(xiàn)以及經(jīng)濟增長方式由粗放型向集約型的轉(zhuǎn)變,逐漸將提高人口素質(zhì)擺到了與控制人口數(shù)量同等重要的地位。本文基于長江地區(qū)人口數(shù)據(jù)進行統(tǒng)計和分析人口健康素質(zhì)問題,利用貝葉斯網(wǎng)絡(luò)建立描述人口健康素質(zhì)的相關(guān)模型,為人口決策提供科學依據(jù)。利用貝葉斯網(wǎng)絡(luò)研究人口問題是一個較新的嘗試。
貝葉斯網(wǎng)絡(luò)[1]是聯(lián)合概率分布的圖形表示,它具有堅實的理論基礎(chǔ)、形象直觀的知識表示形式、靈活的推理能力和接近人類思維特征的決策機制,已成為機器學習和數(shù)據(jù)挖掘等領(lǐng)域中處理不確定性的主要方法之一。目前貝葉斯網(wǎng)絡(luò)已在醫(yī)療診斷、軟件智能化、金融風險分析、宏觀經(jīng)濟決策、生物信息分析及Internet信息處理等方面得到廣泛的應(yīng)用。
貝葉斯網(wǎng)絡(luò)是一個有向無環(huán)圖,在給定結(jié)點的父結(jié)點集的情況下,圖中的結(jié)點由變量及它們的條件概率表表示。聯(lián)合概率分布由如下的公式表示:
其中π(xi)是節(jié)點Xi的父節(jié)點集。
值得注意的是這個貝葉斯網(wǎng)絡(luò)并不是唯一的。一個給定的聯(lián)合概率分布能夠表示成不同的網(wǎng)絡(luò)拓撲結(jié)構(gòu),這主要依賴于我們給定的結(jié)點次序。相同的聯(lián)合概率分布大約能有n!種網(wǎng)絡(luò)結(jié)構(gòu)的表示方式。顯然,父結(jié)點集就取決于結(jié)點次序和變量間的內(nèi)在聯(lián)系。一般來說,貝葉斯網(wǎng)絡(luò)學習算法分為兩類:打分搜索法和依賴分析法。本文采取的方法屬于打分搜索方法。
我們可以利用打分函數(shù)來選擇網(wǎng)絡(luò)結(jié)構(gòu),例如:MDL(Minimum Description Length)標準[3]。 MDL 標準源于信息論中的交叉熵。用于貝葉斯網(wǎng)學習的MDL標準包括兩個部分,即貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的描述長度與數(shù)據(jù)的描述長度。它綜合考慮網(wǎng)絡(luò)結(jié)構(gòu)的描述精度和網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性兩個方面,試圖找到一個既精確又簡潔的網(wǎng)絡(luò)結(jié)構(gòu)。使用MDL標準,較好的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)具有更小的分值。同其它評分函數(shù)一樣,MDL準則是可以分解的。一個貝葉斯網(wǎng)絡(luò)模型的MDL評分是模型中每個屬性Xi的父親結(jié)點集||Π (Xi)||MDL評分的總和。由MDL標準為貝葉斯網(wǎng)絡(luò)S評分,可以表示成如式2的形式。
根據(jù)MDL標準的可分解性,式(2)可以寫成:
其中N是數(shù)據(jù)樣本的大小,||Xi||表示Xi所有可能取值的個數(shù),||Π(Xi)||是結(jié)點Xi的所有可能父親結(jié)點集取值的個數(shù)。
然后利用MDL標準對不同的模型進行評估,并利用評分結(jié)果指導(dǎo)下一輪的搜索。該過程反復(fù)進行,直到連續(xù)幾輪搜索中模型的評分不再有明顯提高為止。
為了避免陷入局部極值,算法采用了擴展的進化規(guī)劃(Evolutionary Programming,簡稱EP)方法作為搜索算法。算法采用3種變異算子(增加邊、刪除邊、轉(zhuǎn)向邊)產(chǎn)生后代,每次執(zhí)行變異操作時,3種變異操作以相同的概率被選擇。由于自適應(yīng)機制,傳統(tǒng)的EP易于陷入局部最優(yōu)值。因此,為了防止早熟收斂現(xiàn)象的發(fā)生,算法將重開始策略引入到EP中。重開始策略的主要過程是:在進化過程中,動態(tài)地監(jiān)控群體的多樣性,當群體的多樣性降到事先規(guī)定的界限之下時,就認為進化過程中出現(xiàn)了早熟收斂的趨勢,然后對當前群體進行重新初始化,以恢復(fù)群體的多樣性,使進化有效地繼續(xù)進行。我們僅重新初始化群體的一部分,這樣,引入的重開始策略不僅能夠較好地保留已獲得的有效信息,同時又能夠有效地避免早熟收斂,為下一輪進化奠定良好的基礎(chǔ)。
長江地區(qū)9個省、市總?cè)丝谡既珖?0%左右,在這里,既包括以上海為中心的較為發(fā)達的長江三角洲地區(qū),也包括還相當閉塞落后的中、西部地區(qū),因而長江地區(qū)各省、市的人口差異較大[4],適合作為樣本進行人口健康素質(zhì)方面的分析與評價。
反映健康方面的指標有:①出生時的預(yù)期壽命;②嬰兒死亡率;③死亡率、死亡原因分析、產(chǎn)婦死亡率以及發(fā)病率;④人身高、體格變化情況。
由于人口素質(zhì)預(yù)測和制定提高人口素質(zhì)決策所涉及的分析和評價指標非常復(fù)雜,為了既能反映影響人口素質(zhì)的各方面因素,又能簡化計算量,本文將對提高人口健康素質(zhì)進行研究,分別選取如下指標作為模型分析和評估的參數(shù)。
地區(qū)差異(A):長江地區(qū)各省、市(上海、江蘇、浙江、安徽、江西、湖北、湖南、重慶、四川);
城鄉(xiāng)差異(B):分為市、鎮(zhèn)、鄉(xiāng);
平均預(yù)期壽命(C):某一地區(qū)人口預(yù)期壽命平均值,單位:歲;
醫(yī)療衛(wèi)生條件(D):按照每萬人擁有衛(wèi)生機構(gòu)數(shù)量計算,單位:個;
嬰兒死亡率(E):按照每千個活產(chǎn)嬰兒中不到1歲而死亡的嬰兒數(shù)計算,單位:‰;
死亡率(F):某一地區(qū)人口死亡率,單位:‰;
人口年齡結(jié)構(gòu)類型(G):將人口按照年齡劃分為0~14歲、15~64歲、65歲及以上三組,按照老少比來確定人口年齡結(jié)構(gòu)類型 (老少比即每100名0~14歲的少年兒童相應(yīng)有多少65歲以上的老年人),15%以下為年輕型、15~30%為成年型、30%以上為老年型[5],單位:%;
標準化死亡率(H):將人口死亡率進行標準化,即以某一時間年齡結(jié)構(gòu)為標準年齡結(jié)構(gòu)計算人口的標準化死亡率,單位:‰。
在對人口數(shù)據(jù)庫中的連續(xù)數(shù)值屬性離散化中,本文采用等寬區(qū)間法和WILD (Weighted Information-Loss Discretization)算法。離散化后得到的樣本屬性如表1所示。
表1 人口健康素質(zhì)參數(shù)對應(yīng)屬性表
表2 提高人口健康素質(zhì)決策學習樣本集
圖1 提高人口健康素質(zhì)決策的貝葉斯網(wǎng)絡(luò)拓撲結(jié)構(gòu)
按照各市、鎮(zhèn)、鄉(xiāng)統(tǒng)計各屬性值后,將相關(guān)連續(xù)數(shù)據(jù)經(jīng)過離散化處理并抽取200個數(shù)據(jù)生成訓練樣本數(shù)據(jù)集,部分樣本如表2所示。
采用IB-PSO算法得到的提高人口健康素質(zhì)預(yù)測的貝葉斯網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖1所示。
提高人口健康素質(zhì)決策貝葉斯網(wǎng)絡(luò)模型能夠反映出蘊涵在大量數(shù)據(jù)中的影響人口健康素質(zhì)若干因素間的依賴關(guān)系。
概率關(guān)系描述如下:
<平均預(yù)期壽命 (C)>depends directly on<地區(qū)差異 (A)>and<城鄉(xiāng)差異(B)>;
<醫(yī)療衛(wèi)生條件(D)>depends directly on<地區(qū)差異(A)>and<城鄉(xiāng)差異(B)>;
<死亡率(F)>depends directly on<城鄉(xiāng)差異(B)>;
<嬰兒死亡率(E)>depends directly on<醫(yī)療衛(wèi)生條件(D)>;
<標準化死亡率(H)>depends directly on<死亡率(F)>and<人口年齡結(jié)構(gòu)類型(G)>。
從模型可以得到以下結(jié)論:
(1)長江地區(qū)各地區(qū)人口平均預(yù)期壽命相差較為懸殊;而各地區(qū)城鄉(xiāng)之間人口預(yù)期壽命也存在較大差異。
(2)各地區(qū)間醫(yī)療衛(wèi)生條件差距懸殊;城鄉(xiāng)之間衛(wèi)生條件差距也很大,雖然有少數(shù)經(jīng)濟較發(fā)達地區(qū)的農(nóng)村,醫(yī)療衛(wèi)生水平有所提高,但大部分農(nóng)村的醫(yī)療衛(wèi)生狀況極差,嚴重的制約了我國人口健康素質(zhì)的提高。
(3)雖然城鄉(xiāng)之間死亡率相差較為懸殊,但地區(qū)差異對死亡率影響不大,這是由于各地區(qū)年齡結(jié)構(gòu)的不同掩蓋了社會經(jīng)濟發(fā)展水平給人口健康狀況帶來的差異。綜合考慮了人口年齡結(jié)構(gòu)類型這個因素之后,從標準化死亡率就能看出,人口年齡結(jié)構(gòu)類型偏向老齡化的地區(qū)人口標準化死亡率低于死亡率。
(4)醫(yī)療衛(wèi)生條件直接影響到各地嬰兒死亡率。在醫(yī)療衛(wèi)生條件較差的地區(qū)和農(nóng)村,嬰兒死亡率遠高于其他地區(qū)和城鎮(zhèn)。
本文以貝葉斯網(wǎng)絡(luò)為工具,從人口數(shù)據(jù)中統(tǒng)計和分析了影響人口健康素質(zhì)各方面因素之間的關(guān)系,建立提高人口健康素質(zhì)的貝葉斯網(wǎng)絡(luò)模型,并對模型進行了概率依賴關(guān)系解釋和分析,并得出相應(yīng)的結(jié)論,可為制定相應(yīng)的人口政策提供依據(jù)。
[1]Pearl J.Probabilistic Reasoning in Intelligent Systems:Networks of Plausible Inference[M].San Mateo,CA:Morgan Kaufmann,1988.
[2]Lam W,Bacchus F.Learning Bayesian Belief Networks:An Approach Based on the MDL principle[J].Computational Intelligence,1994,10(4).
[3]王秀銀,鹿立,崔樹義.現(xiàn)代人口管理學[M].濟南:山東人民出版社,2001.
[4]劉國光,馬藹乃,文伏波.長江地區(qū)可持續(xù)發(fā)展研究叢書[M].武漢:武漢出版社,1999.
[5]查瑞傳等.人口普查資料分析技術(shù)[M].北京:中國人口出版社,1991.
(責任編輯/亦 民)
C93
A
1002-6487(2010)18-0041-02
國家自然科學基金資助項目(60803055);教育部人文社會科學研究資助項目(08JC630041);中國博士后科學基金資助項目(20080441031);江蘇省博士后科研資助項目(0801038C)