李 翼,李 曉
(淮北師范大學(xué) 1.數(shù)學(xué)科學(xué)學(xué)院;2.計(jì)算機(jī)科學(xué)學(xué)院,安徽 淮北 235000)
人口生育政策一直與國(guó)家經(jīng)濟(jì)發(fā)展、民生建設(shè)、人才儲(chǔ)蓄、社會(huì)變遷等方面息息相關(guān)。我國(guó)人口生育政策經(jīng)歷六個(gè)階段:鼓勵(lì)生育階段、節(jié)制生育階段、計(jì)劃生育思想復(fù)蘇階段、計(jì)劃生育落實(shí)與發(fā)展階段、計(jì)劃生育政策改進(jìn)階段、二胎政策的實(shí)行階段[1-5]。就全球范圍來(lái)看,理想子女?dāng)?shù)減少是現(xiàn)代化社會(huì)普遍產(chǎn)生的一種趨勢(shì),人們生育二胎的意愿較低[6-9]。目前我國(guó)人口結(jié)構(gòu)失衡,帶來(lái)了諸如人口老齡化、性別比失衡、人與自然矛盾、勞動(dòng)力人口結(jié)構(gòu)性短缺等問(wèn)題。因此黨中央從2013年起開(kāi)始對(duì)我國(guó)的二胎政策適當(dāng)放寬,2016年全面施行二胎政策。然而,全面二胎政策并沒(méi)有完全解決我國(guó)目前存在的問(wèn)題,為此,許多專家對(duì)全面二胎政策未取得理想效果進(jìn)行了系統(tǒng)分析,試圖找到一條更加適合國(guó)情的道路。
為得到影響“小家”生育意愿的關(guān)鍵因素,進(jìn)而為人口學(xué)專家提供現(xiàn)實(shí)基本材料與合理化建議,本文以安徽省新晉文明城市——淮北市為例,通過(guò)問(wèn)卷調(diào)查的方式收集數(shù)據(jù),綜合考慮個(gè)人基本信息、主觀意愿、客觀條件方面等情況,建立不同模型,經(jīng)過(guò)“初篩—精篩—細(xì)篩”等環(huán)節(jié)挖掘二胎影響因素并對(duì)其進(jìn)行詳細(xì)分析。首先經(jīng)過(guò)卡方檢驗(yàn),剔除了部分自變量指標(biāo)作為初步篩選,并分析篩選結(jié)果;建立二元Logistic回歸模型,通過(guò)模型結(jié)果的顯著性大小的篩選剩下的自變量;考慮到Logistic回歸模型容易過(guò)擬合且針對(duì)非線性問(wèn)題的局限性,基于caret框架,通過(guò)trControl定義函數(shù)運(yùn)行參數(shù),對(duì)抽樣重復(fù)交叉驗(yàn)證,以避免被檢驗(yàn)樣本的數(shù)據(jù)趨向不平衡,進(jìn)一步建立SVM-RFE模型求解各特征的重要性,并對(duì)特征按照重要性進(jìn)行排序,更有針對(duì)性的提出政策建議。
二元邏輯回歸是因變量為二分類的廣義線性回歸模型。在本文的模型中,因變量為“被調(diào)查者是否愿意生育或已生育二胎。”因此,本文定義“愿意=1”,“不愿意=0”,將其帶入邏輯回歸模型進(jìn)行分析,具體公式如下。
二元Logistic回歸模型首先利用公式[10]:
(1)
再經(jīng)過(guò)Logistic函數(shù)的轉(zhuǎn)換,通過(guò)取對(duì)數(shù)發(fā)現(xiàn)其線性關(guān)系如式(2)所示。
(2)
上式中α是常量,βi是回歸系數(shù)。當(dāng)公式中的xi每向上增加一個(gè)單位后,就會(huì)對(duì)優(yōu)勢(shì)產(chǎn)生乘積效應(yīng),即能夠顯示出已育家庭生育二胎的意愿與自變量之間的關(guān)系。
SVM模型是一種分類學(xué)習(xí)算法,廣泛用于模式識(shí)別,下面先介紹SVM[11]。
SVM需要求解的優(yōu)化問(wèn)題如下式所示:
(3)
s.t.yi(ω·xi+b)≥1-ζi,1,2,…,N
(4)
ζi≥0,i=1,2,…,N
(5)
這樣最初的原始問(wèn)題就變成了對(duì)偶問(wèn)題:
(6)
(7)
0≤αi≤C,1,2,…,N
(8)
其中,αi為拉格朗日乘子。
最后ω的解為:
(9)
將支持向量機(jī)與遞歸特征消除法相結(jié)合提出的了SVM-RFE模型。SVM-RFE模型是一個(gè)基于SVM的最大間隔原理的序列后向選擇算法。通過(guò)模型訓(xùn)練樣本,對(duì)每個(gè)特征進(jìn)行得分進(jìn)行排序,去掉最小特征得分的特征,然后用剩余的特征再次訓(xùn)練模型,進(jìn)行下一次迭代,最后選出需要的特征數(shù)。特征i的重要性得分排序準(zhǔn)則如圖1所示。
圖1 SVM-RFE模型原理圖
本文基于中國(guó)人口與發(fā)展研究中心和《中國(guó)人口統(tǒng)計(jì)年鑒》以及銳思人口統(tǒng)計(jì)數(shù)據(jù)庫(kù),抽取1000份統(tǒng)計(jì)調(diào)查數(shù)據(jù),并最終選取了25個(gè)可能影響二胎的因素,主要包括三個(gè)部分:第一部分,從被調(diào)查者的個(gè)人基本情況來(lái)看;第二部分,從被調(diào)查者的家庭情況;第三部分,可能影響被調(diào)查者二胎生育意愿的社會(huì)基礎(chǔ)設(shè)施。為了更好的顯示被調(diào)查者的滿意程度,本文參考了李克特量表中題目設(shè)置的五個(gè)類別,分別從非常滿意、滿意、一般、不滿意、非常不滿意五種程度來(lái)設(shè)置選項(xiàng),從而更加準(zhǔn)確的反映被調(diào)查者對(duì)這些社會(huì)基礎(chǔ)設(shè)施的看法。
綜上三個(gè)方面,本文對(duì)影響因素進(jìn)行匯總、賦值以更加直觀清晰。如表1所示。
表1 因素賦值表
首先使用卡方檢驗(yàn)與秩和檢驗(yàn)相結(jié)合的方法對(duì)于問(wèn)卷中的影響因素進(jìn)行初步篩選??ǚ綑z驗(yàn)作為非參數(shù)檢驗(yàn),在統(tǒng)計(jì)學(xué)中用以探究變量頻數(shù)分布的擬合優(yōu)度、兩變量之間有沒(méi)有關(guān)聯(lián)性的一種方法??ǚ綑z驗(yàn)公式如下:
(10)
該公式之中i為樣本(i=1,2);R為樣本的屬性個(gè)數(shù),也就是本文問(wèn)卷調(diào)查選項(xiàng)的個(gè)數(shù);x2為2個(gè)樣本之間的卡方計(jì)算值;Ai為樣本i在屬性上的實(shí)際頻數(shù);Ti為檢驗(yàn)樣本某種屬性的理論頻數(shù)。在計(jì)算卡方值之后,再通過(guò)卡方分布表判斷樣本之間的關(guān)聯(lián)度。若p≥0.05,則樣本之間的差別“無(wú)顯著性”;若p≤0.05,則樣本之間的差別“有顯著性”。
通過(guò)卡方檢驗(yàn)剔除了X1、X4、X6、X10、X11、X15、X20以上8個(gè)自變量,接著基于剩余的自變量進(jìn)行l(wèi)ogistic模型建模。邏輯回歸建模結(jié)果如表2所示,從表2可以看出,被調(diào)查者年齡、最高學(xué)歷、家庭人均年收入、對(duì)居住地醫(yī)療條件和服務(wù)的滿意程度以及被調(diào)查者“大寶”的性別(即表1中的X2、X3、X5、X13、X22)均不能顯著影響二胎生育意愿。剩下的因素(即X7、X8、X9、X12、X14、X16、X17、X18、X19、X23、X24)均能夠顯著影響被調(diào)查者是否生育二胎。最后將這些因素代入SVM-RFE模型,進(jìn)行重要性大小的排序,深入研究影響二胎生育的關(guān)鍵因素。而X2、X3、X5、X13、X22沒(méi)通過(guò)顯著性檢驗(yàn),剔除未通過(guò)顯著性檢驗(yàn)的指標(biāo)后,考慮到二元Logistic回歸模型無(wú)法有效處理非線性問(wèn)題,且容易陷入過(guò)擬合,建立SVM-RFE模型進(jìn)一步給出各自變量的重要性大小,并給出重要性排序,結(jié)果見(jiàn)表3。
表2 二元logistic回歸表
基于R語(yǔ)言caret框架,SVM-RFE模型參數(shù)設(shè)定如下:通過(guò)trControl定義函數(shù)運(yùn)行參數(shù),并選擇重復(fù)交叉驗(yàn)證抽樣,避免了樣本數(shù)據(jù)的的不平衡性,保證了模型樣本的可靠性。數(shù)量或重抽樣的迭代次數(shù)記為10次,計(jì)算的完整折疊集的數(shù)量記為3。模型訓(xùn)練方法選擇SVM模型,作為分類判斷模型,可以有效彌補(bǔ)二元Logistic回歸模型的不足。對(duì)Logistic模型通過(guò)顯著性檢驗(yàn)的自變量建立SVM-RFE模型如表3和圖2所示。
表3 基于邏輯回歸模型篩選的SVM-RFE建模結(jié)果
圖2 基于邏輯回歸模型篩選的SVM-RFE建模結(jié)果圖
基于SVM-RFE模型的特征重要性排序之后,本文對(duì)已育家庭生育二胎的意愿研究,通過(guò)研究發(fā)現(xiàn)被調(diào)查者周圍是否有生育二胎的朋友、“大寶”的年齡、是否為城市戶口和對(duì)當(dāng)前養(yǎng)老保險(xiǎn)制度滿意度等因素對(duì)已育家庭生育二胎的影響最大;“單獨(dú)家庭“和“雙獨(dú)家庭”更偏向生育二胎;“從眾效應(yīng)”仍然是影響二胎生育的關(guān)鍵因素;城市戶口的家庭比農(nóng)村戶口的家庭更傾向生育二胎,且呈現(xiàn)城市影響農(nóng)村的趨勢(shì);二胎生育的意愿隨“大寶”的年紀(jì)增加而降低且15歲上下差距明顯;養(yǎng)老保險(xiǎn)作為二胎生育的關(guān)鍵因素需要政府加大投入;影響二胎生育意愿的其他因素;如家庭收入、學(xué)歷、政治面貌等因素對(duì)是否生育二胎影響并不明顯,表明各階層人民思想觀念正在轉(zhuǎn)變,生育二胎并不是“高學(xué)歷”“高收入”“體制內(nèi)”人員的專利。
本文為了挖掘二胎生育影響因素,構(gòu)造了Logistic-SVM-RFE模型,分別通過(guò)卡方檢驗(yàn)、二元Logistic回歸和SVM-RFE模型對(duì)自變量指標(biāo)進(jìn)行篩選,并最終得到各影響因素的重要性以及排序。結(jié)果表明,被調(diào)查者周圍是否有生育二胎的朋友、“大寶”的年齡、是否為城市戶口和對(duì)當(dāng)前養(yǎng)老保險(xiǎn)制度滿意度等因素對(duì)已育家庭生育二胎的影響最大;“單獨(dú)家庭”“雙獨(dú)家庭”以及“從眾效應(yīng)”仍然是影響二胎生育的關(guān)鍵因素;二胎生育的理念并不是“高學(xué)歷”“高收入”“體制內(nèi)”人員的專利。
計(jì)劃生育這一基本國(guó)策,雖然對(duì)中國(guó)的人口問(wèn)題和發(fā)展問(wèn)題起到了積極的作用,但是也帶來(lái)了人口老齡化問(wèn)題。而國(guó)家施行的“全面二胎”政策,對(duì)扭轉(zhuǎn)老齡化和少子化的人口新常態(tài),促進(jìn)社會(huì)、經(jīng)濟(jì)與人口協(xié)調(diào)發(fā)展起到了至關(guān)重要的作用。在“全面二胎”的政策背景下,越來(lái)越多的人開(kāi)始響應(yīng)國(guó)家號(hào)召,生育二胎。基于影響因素的重要性排序,本文給出以下政策建議。
(1)個(gè)人情況有二胎生育意愿的育齡女性必須具有良好的身體素質(zhì),有二胎生育意愿的育齡女性必須要做好充分的心理準(zhǔn)備。
(2)家庭準(zhǔn)備。第一,經(jīng)濟(jì)成本。在生育二胎之前當(dāng)事人首先應(yīng)該考慮能否保證穩(wěn)定的經(jīng)濟(jì)來(lái)源,保障家庭的正常生活。第二,時(shí)間成本。當(dāng)事人要保障有足夠的時(shí)間和精力去應(yīng)對(duì)生育二胎帶來(lái)的一系列問(wèn)題。第三,“大寶”的情緒問(wèn)題不容忽視。
(3)社會(huì)服務(wù)。第一,加強(qiáng)醫(yī)療設(shè)施和醫(yī)療服務(wù)的投資力度。第二,重視基礎(chǔ)教育建設(shè)。國(guó)家要加強(qiáng)基礎(chǔ)教育設(shè)施建設(shè),優(yōu)化教育資源配置,加大財(cái)政支出,緩解家庭教育負(fù)擔(dān),保證“優(yōu)生”“優(yōu)育”。第三,注意滿足“二胎女性”的就業(yè)需求。要保障女性在勞動(dòng)力市場(chǎng)上的差異,縮小體制內(nèi)差異,注重公平性,創(chuàng)造有利的女性就業(yè)環(huán)境。第四,重視二胎產(chǎn)婦的心理健康。有關(guān)部門要加強(qiáng)完善相關(guān)政策制度,為高齡產(chǎn)婦和孕婦及時(shí)提供心理疏導(dǎo),保證其能夠接受優(yōu)質(zhì)的醫(yī)療檢查和醫(yī)療服務(wù)。
總之,在“全面二胎”政策的落實(shí)過(guò)程中,要注意從個(gè)人、家庭和社會(huì)三個(gè)角度著手,以保證“全面二胎”政策的順利實(shí)施。