文/劉子樺 馬若炎
自殺是一種全球性的現(xiàn)象。根據(jù)WHO提供的數(shù)據(jù)顯示,2012年,自殺死亡占全世界死亡總數(shù)的1.4%,在2012年的死因排序中居于第15位。
本文利用1985-2016年世界101個(gè)國(guó)家的自殺人數(shù)以及宏觀參數(shù)的數(shù)據(jù)集,考慮時(shí)間(年),人口,HDI指數(shù),GDP指數(shù)以及其衍生變量對(duì)自殺率的影響,并且對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析,探究單個(gè)因素與總自殺率的線性相關(guān)性。最后利用多元線性回歸與隨機(jī)森林進(jìn)行預(yù)測(cè)模型的生成。
本論文主要采用皮爾森相關(guān)系數(shù)逐個(gè)分析單一變量對(duì)最后因變量(自殺率)之間的相關(guān)程度。相關(guān)計(jì)算方式如下:估算樣本的協(xié)方差和標(biāo)準(zhǔn)差,可得到樣本皮爾遜系數(shù),常用英文小寫(xiě)字母r代表:
r 亦可由(Xi,Yi)樣本點(diǎn)的標(biāo)準(zhǔn)分?jǐn)?shù)均值估計(jì),得到與上式等價(jià)的表達(dá)式:
2.2.1 自殺率與人口增長(zhǎng)速度以及年齡分布之間的關(guān)系
選取101個(gè)不同國(guó)家人口的增長(zhǎng)速度為自變量,自殺率為因變量。由計(jì)算可知,在全球的范圍內(nèi),自殺率與人口增加率之間成線性關(guān)系的擬合系數(shù)為0.0185。Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為0.131,0.217,0.135。說(shuō)明二者整體上成正相關(guān),即人口增長(zhǎng)速率增加會(huì)導(dǎo)致自殺率的增加,但是這種相關(guān)關(guān)系十分微弱。
圖1:隨機(jī)森林與多元線性回歸比較
在探究年齡分布情況時(shí),選取年齡分布為自變量,自殺率為因變量。為了能夠更好的表示一個(gè)國(guó)家的年齡分布,將5-14歲,15-24歲,25-34歲,35-54歲,55-74歲,74歲以上等不同年齡段分別賦予1-6的加權(quán)分?jǐn)?shù)并且進(jìn)行加權(quán)平均獲得一個(gè)總分。利用Sklearn對(duì)1985-2015年之間全球的年齡組成與自殺率之間的進(jìn)行線性擬合。根據(jù)相關(guān)性分析可知,在全球的范圍內(nèi),自殺率與年齡組成之間成弱中等線性關(guān)系,擬合系數(shù)R^2為0.0928。Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為-0.242,-0.206,-0.305。說(shuō)明二者整體上成負(fù)相關(guān),即年齡組成增加(老齡化)會(huì)導(dǎo)致自殺率的減少。
2.2.2 自殺率與性別組成之間的關(guān)系以及國(guó)家人類(lèi)發(fā)展指數(shù)(HDI)之間的關(guān)系
選取男女性別比例為自變量,自殺率為因變量。由線性擬合可知,在全球的范圍內(nèi),自殺率與年齡組成之間成強(qiáng)線性關(guān)系,擬合系數(shù)為0.55261。Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為0.540,0.742,0.743。說(shuō)明二者整體上成強(qiáng)正相關(guān)關(guān)系,即性別比例的增大會(huì)大概率導(dǎo)致自殺率的增大。十分具有參考性,對(duì)人口政策具有指導(dǎo)意義。
HDI指數(shù)是聯(lián)合國(guó)1990開(kāi)發(fā)計(jì)劃署創(chuàng)立了人類(lèi)發(fā)展指數(shù),以“預(yù)期壽命、教育水平和生活質(zhì)量”三項(xiàng)基礎(chǔ)變量,按照一定的計(jì)算方法,衡量各個(gè)國(guó)家人類(lèi)發(fā)展水平。本文選取不同國(guó)家HDI指數(shù)為自變量,自殺率為因變量。根據(jù)計(jì)算顯示,在全球的范圍內(nèi),自殺率與年齡組成之間成弱線性關(guān)系,擬合系數(shù)為0.578。Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為0.215、0.333、0.241。說(shuō)明二者整體上成正相關(guān),即性別比例的增大會(huì)導(dǎo)致自殺率的增大,但是這種相關(guān)關(guān)系較弱。
2.2.3 自殺率與人均GDP之間的關(guān)系
選取不同國(guó)家人均GDP為自變量,自殺率為因變量。由計(jì)算得知,在全球的范圍內(nèi),自殺率與人均GDP之間成相關(guān)關(guān)系的概率很低。擬合函數(shù)為0.021,Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為0.161,0.224,0.145,說(shuō)明二者整體上成正相關(guān),但是這種關(guān)系很弱,幾乎可以視為不相關(guān)。
對(duì)于多元線性回歸,我們應(yīng)該考慮每個(gè)特征值xj與其權(quán)重w乘積之和:
并且使用梯度下降算法,不斷縮小損失函數(shù):
計(jì)算當(dāng)L(f)最小時(shí)候,對(duì)應(yīng)的w與b的值:
在具體實(shí)施中,選取在本文中提到的人口增長(zhǎng)率、性別比例、年齡組成、以及人均GDP四個(gè)相對(duì)獨(dú)立的因素,進(jìn)行歸一化操作,然后合并作為特征向量構(gòu)成因變量,目標(biāo)變量為自殺率,生成4維向量進(jìn)行多元線性回歸。整個(gè)數(shù)據(jù)被分為90%的訓(xùn)練集以及10%的測(cè)試集。得到的多元線性回歸擬合的擬合方程如下:
利用此方程對(duì)訓(xùn)練集數(shù)據(jù)與測(cè)試集數(shù)據(jù)進(jìn)行線性擬合,結(jié)果顯示訓(xùn)練集上均方差為0.678,測(cè)試集為0.596。
隨機(jī)森林是利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類(lèi)器。在本文中,使用50個(gè)決策樹(shù)(Decison Tree)進(jìn)行概率分類(lèi),進(jìn)行投票程序,最終得到了誤差更小,使用度更高的機(jī)器學(xué)習(xí)預(yù)測(cè)模型。利用隨機(jī)森林生成的預(yù)測(cè)模型在訓(xùn)練集上的誤差為0.606,在測(cè)試集上的誤差較為理想,達(dá)到了0.098,是比較好的預(yù)測(cè)模型。如圖1所示。
本文通過(guò)開(kāi)放數(shù)據(jù)集,利用Python Pandas以及scikit-learn進(jìn)行數(shù)據(jù)探索與分析,探究了國(guó)家宏觀因素與自殺率之間的相關(guān)系數(shù)。并且建立多元回歸模型、隨機(jī)森林預(yù)測(cè)模型,其中隨機(jī)森林預(yù)測(cè)的殘差僅為0.0980,起到了很好的自殺率預(yù)測(cè)效果。