李冬領(lǐng)
(南京郵電大學(xué)經(jīng)濟學(xué)院,江蘇 南京 210046)
基于數(shù)據(jù)挖掘的育齡婦女二孩生育意愿預(yù)測
李冬領(lǐng)
(南京郵電大學(xué)經(jīng)濟學(xué)院,江蘇 南京 210046)
探討數(shù)據(jù)挖掘模型與傳統(tǒng)的Logistic回歸模型在育齡婦女二孩生育意愿預(yù)測上的準確性。采取五折交叉驗證法,基于正確率、查準率、查全率、AUC和Press'Q檢驗這五個指標對四種分類方法(Logistic回歸、支持向量機、決策樹和隨機森林)進行對比分析。結(jié)果表明:Press'Q的值均大于 3.84,說明所有分類方法均好于隨機分類結(jié)果;從各指標均值看,隨機森林表現(xiàn)最好,與Logistic回歸相比,其正確率高1.7%,查準率高3.2%,查全率高0.2%,ROC曲線下的面積大0.3,Press'Q的值大1.7。本研究探索的數(shù)據(jù)挖掘新方法和模型,可為今后研究類似二孩生育問題提供新的思路和嘗試。
數(shù)據(jù)挖掘;二孩生育意愿;建模;預(yù)測
從我國2013年開始實施“單獨二孩”政策, 到2015年 10月全面實施一對夫婦可生育兩個孩子的政策,二孩生育意愿一直是學(xué)者們研究的熱點問題。學(xué)者在研究育齡婦女二孩生育意愿時大都采用描述性統(tǒng)計分析和 Logistic回歸的方法,而現(xiàn)實中影響育齡婦女生育意愿因素很多,許多不顯著因素的綜合作用可能會對生育意愿產(chǎn)生較大影響,但只有顯著變量才可以引入Logistic回歸模型中,因此Logistic回歸方法不一定能夠準確的對生育意愿進行判別和預(yù)測。數(shù)據(jù)挖掘的方法廣泛應(yīng)用于分類數(shù)據(jù)的判別與預(yù)測,在自然科學(xué)研究領(lǐng)域已廣泛應(yīng)用,但在人文科學(xué)研究領(lǐng)域還很少見。本文嘗試采用數(shù)據(jù)挖掘的方法對育齡婦女二孩生育意愿進行建模和預(yù)測,以期新方法和模型可為今后類似研究提供新的思路和嘗試。
近年來,學(xué)者對育齡婦女二孩生育問題的研究較多。從研究內(nèi)容上看主要有兩個方面:一是研究生育意愿的變化[1];二是研究生育意愿的影響因素[2]。從研究方法上看,現(xiàn)有研究主要采取描述統(tǒng)計和Logistic回歸方法。生育意愿在很大程度上決定了生育行為,在宏觀層面上一般可以利用全國人口普查數(shù)據(jù)及人口抽樣調(diào)查數(shù)據(jù)對育齡婦女的生育意愿進行估算;但在微觀層面上,鮮有研究對生育意愿做出判別與預(yù)測。
數(shù)據(jù)挖掘的方法在分類的判別上已經(jīng)得到普遍應(yīng)用。主要的分類模型有決策樹、支持向量機和隨機森林等算法。決策樹模型具有可讀性高,分類速度快等優(yōu)點[3]。李傅冬等在用決策樹對意外妊娠婦女人群的流產(chǎn)方式選擇進行預(yù)測時,誤判率僅為11.90%,得出的模型較為穩(wěn)定,擬合較好[4]。張琪等用決策樹模型進行分類判別結(jié)核病治療效果時,得出的準確率為78%[5]。支持向量機模型在分類時運用較多,將向量映射到一個更高維的空間里,對非線性、多維度的小樣本數(shù)據(jù)表現(xiàn)較好[6]。李菲雅等對我國人口預(yù)測時,建立了支持向量機模型,結(jié)果表明,支持向量機比原有模型在預(yù)測查準率有了明顯改進[7]。袁勇等將支持向量機方法應(yīng)用到時間序列問題的預(yù)測上,并與神經(jīng)網(wǎng)絡(luò)模型預(yù)測的結(jié)果進行比較, 結(jié)果表明支持向量機方法有更高的查準率[8]。傅文杰等用支持向量機模型對土地利用進行分類,通過與最大似然分類算法對比,實驗結(jié)果表明支持向量機模型在分類查準率上有了很大的提高[9]。隨機森林模型是一種多數(shù)表決的分類算法,分類擬合效果較好,已得到廣泛的應(yīng)用[10]。馬玥等用隨機森林算法的農(nóng)耕區(qū)土地利用分類研究,結(jié)果表明用隨機森林算法的總體準確率為 85.54%[11]。李貞子等在隨機森林模型對卵巢良惡性腫瘤進行建模分析,結(jié)果表明,隨機森林回歸模型的結(jié)果好于多元回歸模型[12]。Jo?o Maroco在數(shù)據(jù)挖掘的方法對老年癡呆進行預(yù)測一文中,運用隨機森林、支持向量機、神經(jīng)網(wǎng)絡(luò)等多種分類方法建立模型,發(fā)現(xiàn)隨機森林模型的預(yù)測結(jié)果較好[13]。雖然支持向量機、決策樹、隨機森林的方法已經(jīng)有廣泛的應(yīng)用,但在生育意愿問題方面還沒有學(xué)者涉及,因此本文嘗試用以上幾種數(shù)據(jù)挖掘方法對育齡婦女二孩生育意愿進行建模和預(yù)測。
2.1 數(shù)據(jù)來源
本研究數(shù)據(jù)來源于2015年1月江蘇省家庭生育意愿與生育行為研究問卷。調(diào)查采用分層抽樣方法收集資料,按江蘇省地級市進行分層,分別選取江蘇省13個地級市;調(diào)查對象為20到35歲有江蘇省縣級及以下戶籍的已育一孩的婦女,共發(fā)放問卷400份,最終回收有效問卷394份。調(diào)查內(nèi)容包括四個方面:①個人與家庭基本情況,包括夫妻年齡、結(jié)婚時間、學(xué)歷、職業(yè)、家庭人口數(shù)、經(jīng)濟情況、醫(yī)療情況等。②生殖及健康,包括一孩生育時間、小孩性別、夫妻健康狀況、是否有人照顧小孩等。③對小孩的期望,包括期望小孩的文化程度、職業(yè)、成長滿意度、身體健康等。④生育意愿與行為,包括理想孩子數(shù)及性別、生育意愿、生育計劃、以及打算要或不要孩子的原因等。本文根據(jù)以往學(xué)者的研究及專家意見,選取對生育意愿有影響的29個變量為自變量,“是否愿意再生育一個孩子”為因變量;由于回答“不確定是否要生育二孩”的家庭,很大程度上是沒有考慮過要不要生育二孩,為了減少建模時的不確定性,在分析育齡婦女二孩生育意愿時,僅對有明確意愿的264份數(shù)據(jù)進行分析。
2.2 分類方法
(1)Logistic回歸算法。二項Logistic回歸是常見的分類算法,由條件概率分布P(Y/X)表示,隨機變量Y取值為1或0。它是研究二分類觀察結(jié)果與一些影響因素之間關(guān)系的一種多變量分析方法,在社會科學(xué)領(lǐng)域應(yīng)用較多[14]。
(2)決策樹算法。決策樹是一種基本的分類算法模型,模型以樹狀結(jié)構(gòu)呈現(xiàn),在分類時,基于基尼系數(shù)進行特征的選?。痪哂锌勺x性好,擬合速度快等優(yōu)點。在訓(xùn)練數(shù)據(jù)時,依據(jù)損失函數(shù)最小化的原則建立決策樹模型;預(yù)測時,根據(jù)決策樹模型對新的數(shù)據(jù)進行分類[3]。
(3)支持向量機算法。支持向量機一般通過分類器和核函數(shù)相結(jié)合的方法進行建模。通過尋求結(jié)構(gòu)化風(fēng)險最小來提高學(xué)習(xí)機泛化能力,實現(xiàn)經(jīng)驗風(fēng)險和置信范圍的最小化,從而達到在統(tǒng)計樣本量較少的情況下,亦能獲得良好統(tǒng)計規(guī)律的目的。它的基本模型是定義在特征空間上的間隔最大的線性分類器,即支持向量機的學(xué)習(xí)策略便是間隔最大化,最終可轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。支持向量機多用于分類和回歸分析,將向量映射到一個更高維的空間里,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢[6]。
(4)隨機森林算法。隨機森林是由多個決策樹組合而成的機器學(xué)習(xí)算法;首先,通過自助法采樣法,從訓(xùn)練數(shù)據(jù)中重復(fù)隨機有放回的抽取m個新的訓(xùn)練集,然后構(gòu)建m個決策樹,通過決策樹組建隨機森林,未被抽到的樣本組成 m個袋外數(shù)據(jù),進行誤差估計;每棵樹生長過程中,從所有特征變量中隨機抽取一部分,抽取變量根據(jù)基尼系數(shù)最小的原則,選取屬性最優(yōu)的進行決策樹分支;最后,根據(jù)多棵決策樹對數(shù)據(jù)進行預(yù)測,根據(jù)多數(shù)表決的方法選取票數(shù)最高的類別;隨機森林算法可以產(chǎn)生高準確度的分類器,對于不平衡分類,也能起到較好的建模效果[15]。
2.3 分類評價標準
True positives(TP)表示本身為正,實際也被預(yù)測為正的個數(shù);False positives(FP)表示本身為負,但被預(yù)測為正的個數(shù);False negatives(FN)是表示本身為正,但被預(yù)測為負的個數(shù);True negatives(TN)表示本身為負,實際被預(yù)測為負的個數(shù),混淆矩陣見表1。
表1 混淆矩陣Tab.1 Confusion matrix
本文根據(jù)以下幾個指標評價模型的性能:(1)正確率(Accuracy),Accuracy =(TP+TN)/(TP+FN+FP+TN),是正確分類的樣本數(shù)與總樣本數(shù)的比值,正確率越高,分類效果越好。(2)查準率(Precision),precision=TP/(TP+FP),是精確性的度量,表示被分為正例的樣本中實際為正的占比。(3)查全率(Recall),Recall=TP/(TP+FN),表示有多少個正例被分為正例。(4)AUC,是ROC曲線下面積,表示處于 ROC 曲線下方的那部分面積的大小,一般AUC的值在0.5到1.0之間,AUC越大,模型準確性越高。(5)Press’Q,是用來檢測模型分類結(jié)果與隨機的分類結(jié)果是否與顯著性差異,其服從自由度為1的卡方分布,因此當Press’Q的值大于3.84的時候說明其在0.05的顯著性水平上是顯著的,值越大顯著性越強其中N是總的樣本數(shù),n是被正確分類的樣本數(shù),k是分類組數(shù)。
3.1 算法步驟
為了防止使用相同的數(shù)據(jù)造成的過擬合和隨機現(xiàn)象,我們采用5折交叉驗證法,并重復(fù)10次,對4種分類器進行訓(xùn)練和測試。步驟如下:(1)把總樣本分為5份,每次取其中的4份作為訓(xùn)練集,剩余的1份作為測試集;(2)更換其中1份數(shù)據(jù),重復(fù)5次訓(xùn)練和測試;(3)重復(fù)1、2步驟10次;(4)基于50次實驗結(jié)果,比較各分類算法的性能。
3.2 模型參數(shù)設(shè)置及實現(xiàn)
(1)Logistic回歸模型,建立模型時調(diào)用 R語言軟件的“nnet”包里的“multinom”函數(shù),然后用建立的模型對預(yù)測集進預(yù)測。
(2)決策樹模型,建立模型時調(diào)用 R軟件的“rpart”包;通過設(shè)置復(fù)雜性參數(shù)CP值,對樹進行剪枝以確保其準確度,經(jīng)過多次實驗,發(fā)現(xiàn)把復(fù)雜性參數(shù)CP值確定為0.014,模型準確率最高,然后用建立的模型對預(yù)測集進行預(yù)測。
(3)支持向量機模型,建立模型時調(diào)用R語言軟件的“e1071”包,建立支持向量機模型。模型的分類器有三種:C分類、nu分類、one分類;核函數(shù)一般有四種:線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)、神經(jīng)網(wǎng)絡(luò)核函數(shù)。為了選擇較好的模型,把三種分類器和四種核函數(shù)相結(jié)合,共12種組合,分別用訓(xùn)練集建立模型,并檢驗?zāi)P偷臏蚀_性。通過實驗得到最終正確率較高的模型為 nu分類器和徑向基核函數(shù)組合的支持向量機模型,然后用建立的模型對預(yù)測集進行預(yù)測。
(4)隨機森林模型,調(diào)用 R語言軟件的“randomForest”包,建立隨機森林模型。其重要的參數(shù)“mtry”是建立隨機森林模型時每次分支時所選擇變量的個數(shù),選擇合適的“mtry”數(shù)量可以提高模型的準確率,通過多次實驗,我們確定最佳“mtry”數(shù)為15。參數(shù)“ntree”是建立模型時生成決策樹的數(shù)量,“ntree”參數(shù)設(shè)置較低時會使模型的錯誤率偏高,較高時會使模型復(fù)雜度變高,經(jīng)過實驗發(fā)現(xiàn)當“ntree”大于500時,模型的錯誤率趨于穩(wěn)定,因此我們把“ntree”設(shè)置為 500;然后用建立的模型對預(yù)測集進行預(yù)測。
5折交叉驗證法,10次實驗的平均結(jié)果如表 2所示。隨機森林的總體表現(xiàn)最好,與 Logistic回歸相比,其正確率高 1.7%,查準率高 3.2%,查全率高0.2%,ROC曲線下的面積大0.3,Press'Q的值大1.7。支持向量機在正確率、查準率、Press’Q 三個評價標準的值也好于Logistic回歸。
表2 各分類方法結(jié)果對比Tab.2 Th e results of the methods comparison
(1)正確率:圖1為四種分類方法正確率的箱線圖,可看出準確度最高的是隨機森林,然后依次是支持向量機,Logistic回歸和決策樹。隨機森林正確率結(jié)果比 Logistic回歸集中,說明隨機森林結(jié)果比較穩(wěn)定。
圖1 正確率箱線圖Fig.1 The boxplot of accuracy
(2)查準率:圖2為四種分類方法查準率箱線圖,可以看出查準率最高的是隨機森林,然后依次是支持向量機、Logistic回歸和決策樹。
圖2 查準率箱線圖Fig.2 The boxplot of precision
(3)查全率:圖3為四種分類方法查全率箱線圖,可以看出查全率最高的是隨機森林,然后依次是Logistic回歸、支持向量機和決策樹。
(4)AUC:圖4為四種分類方法AUC的大小,可以看出 AUC最高的是隨機森林,然后依次是Logistic回歸、決策樹和支持向量機。
(5)Press’Q:圖 5為四種分類方法 Press’Q 的大小,可以看出準確度最高的是隨機森林,然后依次是支持向量機、Logistic回歸和決策樹。
圖3 查全率箱線圖Fig.3 The boxplot of recall
圖4 AUC 箱線圖Fig.4 The boxplot of AUC
綜上所述,四個分類模型的Press'Q檢驗結(jié)果的中位數(shù)均大于 3.84,表明所有分類方法都好于隨機結(jié)果。在各模型中隨機森林模型在正確率,查準率、查全率、AUC和Press'Q這5個評價標準中均表現(xiàn)最好;且隨機森林結(jié)果較Logistic回歸更為穩(wěn)定。
本文利用決策樹、支持向量機、隨機森林、Logistic回歸模型,對育齡婦女二孩生育意愿建模,并對二孩再生育意愿進行預(yù)測。結(jié)果表明隨機森林模型在5個分類評價標準的表現(xiàn)均好于學(xué)者廣泛應(yīng)用的 Logistic回歸模型;支持向量機在準確率、查準率、Press’Q三個指標上也好于Logistic回歸模型,因此在研究育齡婦女二孩生育意愿時可以考慮隨機森林的方法進行建模,這種新方法和模型可為今后類似問題研究提供新的思路和嘗試。隨機森林對樣本量較大數(shù)據(jù)分類結(jié)果更好,而本研究的樣本量偏少,因此在實際研究工作中加大樣本量可提升預(yù)測的準確率。
[1] 賈志科. 20世紀50年代后我國居民生育意愿的變化[J]. 人口與經(jīng)濟, 2009(4): 24-28.Jia Zhike. The Change of Chinese Inhabitants' Willing of Fertility in the 1950s[J]. Population and Economy, 2009;(4): 24-28.
[2] 孫奎立. 農(nóng)村婦女生育意愿影響因素分析[J]. 人口學(xué)刊,2010, 2010(3): 20-24.Sun Kuili. An Analysis to the Factors Affecting the Fertility Desire of Rural Women. Journal of Population[J] , 2010;2010(3): 20-24.
[3] Breiman L, Friedman J H, Olshen R, et al. Classification and Regression Trees[J]. Biometrics, 2015, 40(3): 358.
[4] 李傅冬, 黃麗麗, 俞艷錦, 等. 決策樹結(jié)合Logistic回歸分析妊娠婦女選擇人工流產(chǎn)方式的影響因素[J]. 浙江預(yù)防醫(yī)學(xué), 2015; (4): 328-333.Li Fudong, Huang Lili, Yu Yanjin, et al. Decision factors and logistic regression analysis of influencing factors of artificial abortion to pregnant women[J]. Zhejiang Preventive Medicine, 2015; (4): 328-333.
[5] 張琪, 周琳, 陳亮, 等. 決策樹模型用于結(jié)核病治療方案的分類和預(yù)判[J]. 中華疾病控制雜志, 2015; 19(5): 510- 513.Zhang Qi, Zhou Lin, Chen Liang, et al. The decision tree model used to classify and predict tuberculosis treatment programs[J]. Chinese Journal of Disease Control, 2015; 19(5):510-513.
[6] Cortes C, Vapnik V. Support-Vector Networks. Machine Learning, 1995; 20(3): 273-297.
[7] 李菲雅, 蔣若凡. 基于主成分和支持向量機模型在人口預(yù)測中的應(yīng)用[J]. 西北人口, 2012; 33(1): 29-32.Li Feiya, Jiang Ruofan. Application of Principal Component and Support Vector Machine Model in Population Forecasting[J]. Northwest population, 2012; 33(1): 29-32.
[8] 袁勇, 王攀. 支持向量機在人口預(yù)測中的應(yīng)用[J]. 計算機與數(shù)字工程, 2006; 34(5): 9-11.Application of Support Vector Machine in Population Forecasting[J]. Computer and Digital Engineering, 2006; 34(5):9-11.
[9] 傅文杰, 洪金益, 林明森. 基于光譜相似尺度的支持向量機遙感土地利用分類[J]. 遙感技術(shù)與應(yīng)用, 2006; 21(1):25-30.Fu Wenjie, Hong Jinyi, Lin Mingsen. Remote sensing land use classification based on support vector machine[J]. Remote sensing technology and application, 2006; 21(1): 25-30.[10] Breiman L. Random Forests. Machine Learning, 2001, 45(1):5-32.
[11] 馬玥, 姜琦剛, 孟治國, 等. 基于隨機森林算法的農(nóng)耕區(qū)土地利用分類研究[J]. 農(nóng)業(yè)機械學(xué)報, 2016; 47(1):297-303.Ma Yue, Jiang Qi Gang, Meng Zhiguo, et al. Study on Land Use Classification of Farming Area Based on Random Forest Algorithm[J]. Journal of Agricultural Mechanics, 2016; 47(1):297-303.
[12] 李貞子, 張濤, 武曉巖, 等. 隨機森林回歸分析及在代謝調(diào)控關(guān)系研究中的應(yīng)用[J]. 中國衛(wèi)生統(tǒng)計, 2012; 29(2): 158-160.Li Zhenzi, Zhang Tao, Wu Xiaoyan, et al. Random Forest Regression Analysis and Its Application in the Study of Metabolic Regulation[J]. China Health Statistics, 2012; 29(2):158-160.
[13] Isabel S, Manuela G, Ana R, et al. Data mining methods in the prediction of Dementia[J]. Bmc Research Notes, 2011;4(1): 299-299.
[14] Hosmer D W J, Lemeshow S L. Applied Logistic Regression.Hoboken[J]. WILEY-INTERSCIENCE, 2000.
[15] Liaw A, Wiener M. Classification and Regression by randomForest[J]. R News, 2002, 23(23).
Prediction to the Second Childbearing Desire of Fertile Woman Based on Data Mining
LI Dong-ling
(Nanjing University of Posts and Telecommunications School of Economics, Nanjing 210046, P.R.China)
To discover the accuracy of the second childbearing desire of matured women based on the comparison between data mining methods and Logistic regression. Three classifiers derived from data mining methods (Support Vector Machines, Decision Tree and Random Forests) were compared to Logistic Regression in terms of overall classification accuracy, Precision, Recall, AUC and Press’Q. The results showed that the Press’ Q test showed that all classifiers performed better than chance alone(Press’Q >3.84). The Random Forests gained the best performance from the perspective of means, and the accuracy was 1.7% over Logistic regression, specificity 3.2%, sensitivity 0.2%, AUC 0.029 and Press’Q 1.7. The new methods and model this paper adapted would provide new perspectives for the following researches.
Data mining; Second childbearing desire; Modeling; Prediction
C924.24
A
10.3969/j.issn.1003-6970.2017.11.010
本文著錄格式:李冬領(lǐng). 基于數(shù)據(jù)挖掘的育齡婦女二孩生育意愿預(yù)測[J]. 軟件,2017,38(11):55-59
江蘇省研究生培養(yǎng)創(chuàng)新工程項目“基于數(shù)據(jù)挖掘的江蘇省育齡婦女二孩生育意愿預(yù)測(SJLX16_0318)
李冬領(lǐng)(1988-),男,中級統(tǒng)計師,研究方向:信息統(tǒng)計與數(shù)據(jù)挖掘。