亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于貝葉斯網(wǎng)絡(luò)的長江地區(qū)人口健康素質(zhì)預(yù)測

2010-09-15 08:49:26李小琳陳傳明

統(tǒng)計與決策 2010年18期

關(guān)鍵詞：素質(zhì)

李小琳，陳傳明

（南京大學管理學院，南京 210093）

基于貝葉斯網(wǎng)絡(luò)的長江地區(qū)人口健康素質(zhì)預(yù)測

李小琳，陳傳明

（南京大學管理學院，南京 210093）

文章從提高人口健康水平方面研究了提高人口素質(zhì)決策的評價體系，以貝葉斯網(wǎng)絡(luò)為工具，在對長江地區(qū)人口數(shù)據(jù)進行了相應(yīng)的離散化處理后，從大量人口數(shù)據(jù)中分析人口健康素質(zhì)問題，建立了描述人口健康素質(zhì)的貝葉斯網(wǎng)絡(luò)模型，可為人口決策提供科學依據(jù)。

人口決策；人口素質(zhì)；評價指標；貝葉斯網(wǎng)絡(luò)；預(yù)測

0 引言

人口預(yù)測和決策是一項復(fù)雜而困難的工作[1]。它具有多目標的特點，涉及經(jīng)濟和社會發(fā)展的各個方面。而影響人口發(fā)展的因素十分復(fù)雜，有些因素具有不確定性。另外，由于現(xiàn)實所限，往往使人口決策面臨著信息不全、不準的情況。因此傳統(tǒng)的定性風險管理方式和經(jīng)典的定量風險統(tǒng)計已無法滿足社會發(fā)展需求，研究和探索符合中國國情的現(xiàn)代人口決策方法和技術(shù)勢在必行。

同時，世界經(jīng)濟發(fā)展史告訴我們，人口素質(zhì)越來越成為經(jīng)濟進一步增長的關(guān)鍵，中國低生育率水平的出現(xiàn)以及經(jīng)濟增長方式由粗放型向集約型的轉(zhuǎn)變，逐漸將提高人口素質(zhì)擺到了與控制人口數(shù)量同等重要的地位。本文基于長江地區(qū)人口數(shù)據(jù)進行統(tǒng)計和分析人口健康素質(zhì)問題，利用貝葉斯網(wǎng)絡(luò)建立描述人口健康素質(zhì)的相關(guān)模型，為人口決策提供科學依據(jù)。利用貝葉斯網(wǎng)絡(luò)研究人口問題是一個較新的嘗試。

1 貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習

貝葉斯網(wǎng)絡(luò)[1]是聯(lián)合概率分布的圖形表示，它具有堅實的理論基礎(chǔ)、形象直觀的知識表示形式、靈活的推理能力和接近人類思維特征的決策機制，已成為機器學習和數(shù)據(jù)挖掘等領(lǐng)域中處理不確定性的主要方法之一。目前貝葉斯網(wǎng)絡(luò)已在醫(yī)療診斷、軟件智能化、金融風險分析、宏觀經(jīng)濟決策、生物信息分析及Internet信息處理等方面得到廣泛的應(yīng)用。

貝葉斯網(wǎng)絡(luò)是一個有向無環(huán)圖，在給定結(jié)點的父結(jié)點集的情況下，圖中的結(jié)點由變量及它們的條件概率表表示。聯(lián)合概率分布由如下的公式表示：

其中π(xi)是節(jié)點Xi的父節(jié)點集。

值得注意的是這個貝葉斯網(wǎng)絡(luò)并不是唯一的。一個給定的聯(lián)合概率分布能夠表示成不同的網(wǎng)絡(luò)拓撲結(jié)構(gòu)，這主要依賴于我們給定的結(jié)點次序。相同的聯(lián)合概率分布大約能有n!種網(wǎng)絡(luò)結(jié)構(gòu)的表示方式。顯然，父結(jié)點集就取決于結(jié)點次序和變量間的內(nèi)在聯(lián)系。一般來說，貝葉斯網(wǎng)絡(luò)學習算法分為兩類：打分搜索法和依賴分析法。本文采取的方法屬于打分搜索方法。

我們可以利用打分函數(shù)來選擇網(wǎng)絡(luò)結(jié)構(gòu)，例如：MDL（Minimum Description Length)標準[3]。 MDL 標準源于信息論中的交叉熵。用于貝葉斯網(wǎng)學習的MDL標準包括兩個部分，即貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的描述長度與數(shù)據(jù)的描述長度。它綜合考慮網(wǎng)絡(luò)結(jié)構(gòu)的描述精度和網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性兩個方面，試圖找到一個既精確又簡潔的網(wǎng)絡(luò)結(jié)構(gòu)。使用MDL標準，較好的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)具有更小的分值。同其它評分函數(shù)一樣，MDL準則是可以分解的。一個貝葉斯網(wǎng)絡(luò)模型的MDL評分是模型中每個屬性Xi的父親結(jié)點集||Π (Xi)||MDL評分的總和。由MDL標準為貝葉斯網(wǎng)絡(luò)S評分，可以表示成如式2的形式。

根據(jù)MDL標準的可分解性，式（2）可以寫成：

其中N是數(shù)據(jù)樣本的大小，||Xi||表示Xi所有可能取值的個數(shù)，||Π(Xi)||是結(jié)點Xi的所有可能父親結(jié)點集取值的個數(shù)。

然后利用MDL標準對不同的模型進行評估，并利用評分結(jié)果指導(dǎo)下一輪的搜索。該過程反復(fù)進行，直到連續(xù)幾輪搜索中模型的評分不再有明顯提高為止。

為了避免陷入局部極值,算法采用了擴展的進化規(guī)劃(Evolutionary Programming,簡稱EP)方法作為搜索算法。算法采用3種變異算子(增加邊、刪除邊、轉(zhuǎn)向邊)產(chǎn)生后代,每次執(zhí)行變異操作時,3種變異操作以相同的概率被選擇。由于自適應(yīng)機制,傳統(tǒng)的EP易于陷入局部最優(yōu)值。因此,為了防止早熟收斂現(xiàn)象的發(fā)生,算法將重開始策略引入到EP中。重開始策略的主要過程是：在進化過程中,動態(tài)地監(jiān)控群體的多樣性,當群體的多樣性降到事先規(guī)定的界限之下時,就認為進化過程中出現(xiàn)了早熟收斂的趨勢,然后對當前群體進行重新初始化,以恢復(fù)群體的多樣性,使進化有效地繼續(xù)進行。我們僅重新初始化群體的一部分,這樣,引入的重開始策略不僅能夠較好地保留已獲得的有效信息,同時又能夠有效地避免早熟收斂,為下一輪進化奠定良好的基礎(chǔ)。

2 基于貝葉斯網(wǎng)絡(luò)的長江地區(qū)人口健康素質(zhì)模型與分析

長江地區(qū)9個省、市總?cè)丝谡既珖?0%左右，在這里，既包括以上海為中心的較為發(fā)達的長江三角洲地區(qū)，也包括還相當閉塞落后的中、西部地區(qū)，因而長江地區(qū)各省、市的人口差異較大[4]，適合作為樣本進行人口健康素質(zhì)方面的分析與評價。

2.1 人口健康指標

反映健康方面的指標有：①出生時的預(yù)期壽命；②嬰兒死亡率；③死亡率、死亡原因分析、產(chǎn)婦死亡率以及發(fā)病率；④人身高、體格變化情況。

由于人口素質(zhì)預(yù)測和制定提高人口素質(zhì)決策所涉及的分析和評價指標非常復(fù)雜，為了既能反映影響人口素質(zhì)的各方面因素，又能簡化計算量，本文將對提高人口健康素質(zhì)進行研究，分別選取如下指標作為模型分析和評估的參數(shù)。

地區(qū)差異（A）：長江地區(qū)各省、市（上海、江蘇、浙江、安徽、江西、湖北、湖南、重慶、四川）；

城鄉(xiāng)差異（B）：分為市、鎮(zhèn)、鄉(xiāng)；

平均預(yù)期壽命（C）：某一地區(qū)人口預(yù)期壽命平均值，單位：歲；

醫(yī)療衛(wèi)生條件（D）：按照每萬人擁有衛(wèi)生機構(gòu)數(shù)量計算，單位：個；

嬰兒死亡率（E）：按照每千個活產(chǎn)嬰兒中不到1歲而死亡的嬰兒數(shù)計算，單位：‰；

死亡率（F）：某一地區(qū)人口死亡率，單位：‰；

人口年齡結(jié)構(gòu)類型（G）：將人口按照年齡劃分為0～14歲、15～64歲、65歲及以上三組，按照老少比來確定人口年齡結(jié)構(gòu)類型（老少比即每100名0～14歲的少年兒童相應(yīng)有多少65歲以上的老年人），15%以下為年輕型、15～30%為成年型、30%以上為老年型[5]，單位：%；

標準化死亡率（H）：將人口死亡率進行標準化，即以某一時間年齡結(jié)構(gòu)為標準年齡結(jié)構(gòu)計算人口的標準化死亡率，單位：‰。

2.2 各評價指標離散化

在對人口數(shù)據(jù)庫中的連續(xù)數(shù)值屬性離散化中，本文采用等寬區(qū)間法和WILD （Weighted Information-Loss Discretization）算法。離散化后得到的樣本屬性如表1所示。

表1 人口健康素質(zhì)參數(shù)對應(yīng)屬性表

表2 提高人口健康素質(zhì)決策學習樣本集

圖1 提高人口健康素質(zhì)決策的貝葉斯網(wǎng)絡(luò)拓撲結(jié)構(gòu)

2.3 提高人口健康素質(zhì)決策的貝葉斯網(wǎng)絡(luò)模型

2.3.1 訓練樣本數(shù)據(jù)集

按照各市、鎮(zhèn)、鄉(xiāng)統(tǒng)計各屬性值后，將相關(guān)連續(xù)數(shù)據(jù)經(jīng)過離散化處理并抽取200個數(shù)據(jù)生成訓練樣本數(shù)據(jù)集，部分樣本如表2所示。

2.3.2 拓撲結(jié)構(gòu)

采用IB-PSO算法得到的提高人口健康素質(zhì)預(yù)測的貝葉斯網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖1所示。

2.3.3 提高人口健康素質(zhì)決策模型解釋

提高人口健康素質(zhì)決策貝葉斯網(wǎng)絡(luò)模型能夠反映出蘊涵在大量數(shù)據(jù)中的影響人口健康素質(zhì)若干因素間的依賴關(guān)系。

概率關(guān)系描述如下：

＜平均預(yù)期壽命 (C)＞depends directly on＜地區(qū)差異 (A)＞and＜城鄉(xiāng)差異(B)＞；

＜醫(yī)療衛(wèi)生條件(D)＞depends directly on＜地區(qū)差異(A)＞and＜城鄉(xiāng)差異(B)＞；

＜死亡率(F)＞depends directly on＜城鄉(xiāng)差異(B)＞；

＜嬰兒死亡率(E)＞depends directly on＜醫(yī)療衛(wèi)生條件(D)＞；

＜標準化死亡率(H)＞depends directly on＜死亡率(F)＞and＜人口年齡結(jié)構(gòu)類型(G)＞。

從模型可以得到以下結(jié)論：

（1）長江地區(qū)各地區(qū)人口平均預(yù)期壽命相差較為懸殊；而各地區(qū)城鄉(xiāng)之間人口預(yù)期壽命也存在較大差異。

（2）各地區(qū)間醫(yī)療衛(wèi)生條件差距懸殊；城鄉(xiāng)之間衛(wèi)生條件差距也很大，雖然有少數(shù)經(jīng)濟較發(fā)達地區(qū)的農(nóng)村，醫(yī)療衛(wèi)生水平有所提高，但大部分農(nóng)村的醫(yī)療衛(wèi)生狀況極差，嚴重的制約了我國人口健康素質(zhì)的提高。

（3）雖然城鄉(xiāng)之間死亡率相差較為懸殊，但地區(qū)差異對死亡率影響不大，這是由于各地區(qū)年齡結(jié)構(gòu)的不同掩蓋了社會經(jīng)濟發(fā)展水平給人口健康狀況帶來的差異。綜合考慮了人口年齡結(jié)構(gòu)類型這個因素之后，從標準化死亡率就能看出，人口年齡結(jié)構(gòu)類型偏向老齡化的地區(qū)人口標準化死亡率低于死亡率。

（4）醫(yī)療衛(wèi)生條件直接影響到各地嬰兒死亡率。在醫(yī)療衛(wèi)生條件較差的地區(qū)和農(nóng)村，嬰兒死亡率遠高于其他地區(qū)和城鎮(zhèn)。

3 結(jié)論

本文以貝葉斯網(wǎng)絡(luò)為工具,從人口數(shù)據(jù)中統(tǒng)計和分析了影響人口健康素質(zhì)各方面因素之間的關(guān)系,建立提高人口健康素質(zhì)的貝葉斯網(wǎng)絡(luò)模型,并對模型進行了概率依賴關(guān)系解釋和分析，并得出相應(yīng)的結(jié)論，可為制定相應(yīng)的人口政策提供依據(jù)。

[1]Pearl J.Probabilistic Reasoning in Intelligent Systems:Networks of Plausible Inference[M].San Mateo,CA:Morgan Kaufmann,1988.

[2]Lam W,Bacchus F.Learning Bayesian Belief Networks:An Approach Based on the MDL principle[J].Computational Intelligence,1994,10(4).

[3]王秀銀,鹿立,崔樹義.現(xiàn)代人口管理學[M].濟南：山東人民出版社,2001.

[4]劉國光,馬藹乃,文伏波.長江地區(qū)可持續(xù)發(fā)展研究叢書[M].武漢：武漢出版社,1999.

[5]查瑞傳等.人口普查資料分析技術(shù)[M].北京:中國人口出版社,1991.

（責任編輯/亦民）

C93

1002-6487（2010）18-0041-02

國家自然科學基金資助項目（60803055）；教育部人文社會科學研究資助項目(08JC630041)；中國博士后科學基金資助項目(20080441031)；江蘇省博士后科研資助項目(0801038C)