陸澤凱 王雅瑜 謝穎
[摘 要]2020 年是我國全面建成小康社會的決勝年,我國也進入了決戰(zhàn)決勝脫貧攻堅的最后階段。唯有精確的識別貧困人口,才能推進精準扶貧工作更好地開展。文章以西部內(nèi)陸省份 G 省 A 市農(nóng)村地區(qū)的調(diào)研數(shù)據(jù)為基礎(chǔ),選取了多個指標,通過隨機森林算法來精確識別貧困人口。通過研究發(fā)現(xiàn),隨機森林算法在甄別貧困人口中效果好,同時擁有較大的靈活性,能較好適應精準扶貧識別工作。
[關(guān)鍵詞]精準扶貧;機器學習;隨機森林;評價指標
[DOI]10.13939/j.cnki.zgsc.2021.25.022
1 引言
2018年2月12日,習近平總書記在打好精準脫貧攻堅戰(zhàn)座談會上強調(diào),脫貧攻堅,精準是要義。必須堅持“六個精準”,扶貧扶到點上扶到根上。但是,隨著扶貧工作難度的提高,一些缺陷日益突出。一些冒領(lǐng)扶貧款,扶貧名額變成干部“獲取民心”的工具、扶貧名額分配不均的情況時有發(fā)生。以四川省×縣為例,每個村只有十幾個指標申請貧困戶,卻經(jīng)常達到幾百號人甚至幾乎全村的人都去申請,這種情況下扶貧名額的分配往往由干部的主觀意愿決定。這種情況也不僅僅發(fā)生在西部地區(qū),在沿海發(fā)達省份廣東省 S 市也出現(xiàn)了扶貧不精確、不高效的問題。這些問題與扶貧對象的識別不夠精確有緊密關(guān)系。而文章以我國扶貧的重要攻堅點西部 G 省 A 市某一農(nóng)村為研究樣本,注重研究一種基于隨機森林模型的貧困戶精準識別評價體系。
2 隨機森林模型
隨機森林(Random Forest)是一種集成學習方法,常用于分類、回歸和其他機器學習任務(wù)[1]。它的原理是在訓練時構(gòu)建大量決策樹(Decision Tree),隨機森林的每一棵決策樹之間是沒有關(guān)聯(lián)的,當有一個新的樣本進入算法的時候,每一棵決策樹都會分別進行一下判斷,并各自識別這個樣本應該屬于哪一類別,然后根據(jù)某一類別被選擇最多,就預測這個樣本為哪一類別,隨機森林有效地糾正了決策樹擬合的問題。[2]
在統(tǒng)計學中,邏輯回歸(Logistic Regression)是最常用的分類算法,因為其易解釋性,常常是傳統(tǒng)社科文章定量分類的工具[3],然而由于一般的邏輯回歸有一定的局限性,通常需要通過增加組合項或高斯項來提高其分類性能,然而添加了各類項式后模型的解釋力度卻也下降了。同時有研究指出,在較小數(shù)據(jù)中隨機森林分類的效果優(yōu)于邏輯回歸模型,研究中重點是放在模型的精確度上而不是其解釋性上,因此文章采用了隨機森林的算法,以提高模型的分類性能。
3 問卷清洗
本次調(diào)研通過研究人員與 G 省 A 市某農(nóng)村村委會的溝通,通過該村支部的工作人員分發(fā)紙質(zhì)問卷為主要調(diào)查手段,分發(fā)了600張問卷,在該村委會的大力支持下共回收問卷 329 份,回收率達到了54%,問卷涵蓋了個人情況、家庭情況以及各種社會保險情況共三個方面。
本次問卷調(diào)研中是貧困戶的對象為 78 人,非貧困戶的對象為 251 人,調(diào)研中對象的貧困發(fā)生率約為 23.7%。由于被調(diào)查者問卷填寫不規(guī)范、對自身信息不確定、不愿公開個人信息等原因,導致問卷中存在一定數(shù)量的缺失值,為提高數(shù)據(jù)的可用性,方便進一步分析問卷數(shù)據(jù),本節(jié)對問卷問題進行描述并對問卷中的缺失值進行進一步的填補。
由于預測的目標變量——是否為貧困戶是村委會提供相應的扶貧數(shù)據(jù)并沒有出現(xiàn)缺失,研究中用的是填補后的家庭成員數(shù)量以及勞動成員數(shù)量,也不存在缺失值。
研究中對于數(shù)值型變量采用了中位數(shù)填補法,這是由于扶貧數(shù)據(jù)的特殊性所致的。扶貧對象和普通人之間往往存在收入、支出等各方面差異懸殊的情況。如果使用平均數(shù)填補法容易出現(xiàn)扶貧對象被平均的情況,導致數(shù)據(jù)失真。而在因子型變量中采用給缺失值貼新標簽的方法,則利用了機器學習分類預測的優(yōu)勢,由于目標變量始終是確定的,因此新的標簽也可以作為被機器學習使用的特征,比如說在低保戶申請上如果不選擇回答的人中的目標變量觀測值較多的是扶貧對象,他們可能出現(xiàn)難以啟齒的現(xiàn)象而選擇不回答。那么機器學習也會給這個缺失值標簽在扶貧對象的識別上更多的權(quán)重。在完成缺失值的填補后就可以利用機器學習算法進行預測了。
4 模型預測效果
將被調(diào)研的人分為兩類:第一類是獲得精準扶貧補助的貧困戶;第二類是未獲得精準扶貧補助的非貧困戶,通過隨機森林算法進行二分類預測。以前面收集到的 G 省 A市所得數(shù)據(jù)并清理好的數(shù)據(jù)進行訓練,通過隨機森林模型預測被調(diào)研者是否貧困。數(shù)據(jù)的自變量是被調(diào)研者關(guān)于 16 項問卷問題的回答,因變量則為一個是否貧困的標簽。算法中會自動將數(shù)值型數(shù)據(jù)進行標準化處理(Standardize),并將因子型變量轉(zhuǎn)換為機器識別的啞變量(Dummy Variable),隨機森林的參數(shù)如表2所示。
將數(shù)據(jù)集分為 10 折,其中 9 折作為訓練集以建立和優(yōu)化模型,1 折作為驗證集以驗證模型在新數(shù)據(jù)上的表現(xiàn),并采用自助法訓練以克服數(shù)據(jù)集較小的弱點。根據(jù)上面的參數(shù)設(shè)定隨機森林模型訓練后得到以下結(jié)果,如表3所示。
模型的準確性(Accuracy)達到了 80%,機器學習中最為關(guān)注的 ROC 曲線下方的面積大?。ˋUC)也達到了 86.59%,下圖為模型的 ROC 曲線圖。其他測量模型適應度的數(shù)值也相對比較高。模型的 Kappa值達到了 57.64%,表現(xiàn)出模型一致性較好,模型在各折數(shù)據(jù)上都表現(xiàn)出較強的魯棒性(Robust)。綜上所述,隨機森林模型訓練效果較好,能較好識別出貧困人口。之后根據(jù)模型給出的結(jié)果做出混淆矩陣(Confusion Matrix),如表4所示。可以發(fā)現(xiàn)模型在識別錯誤的兩種情況即假陽性和假陰性。假陽性為 52,在模型中表示為錯誤的將本來不是貧困戶的對象給識別為貧困戶。假陰性為 14,在模型中表現(xiàn)為將本來是貧困戶的識別為非貧困戶?,F(xiàn)實中,希望的是寧可幫錯一個也不能少幫一個。模型還是較好的符合預期,模型后續(xù)還可以加入懲罰函數(shù),對假陰性施加懲罰項,以減少識別錯誤的概率。