夏艷姣,孫 詠,焦艷菲,高 岑,田月
1(中國(guó)科學(xué)院大學(xué),北京 100049)
2(中國(guó)科學(xué)院 沈陽(yáng)計(jì)算技術(shù)研究所,沈陽(yáng) 110168)
3(沈陽(yáng)高精數(shù)控智能技術(shù)股份有限公司,沈陽(yáng) 110168)
我國(guó)扶貧開(kāi)發(fā)工作最初起源于20世紀(jì)80年代中期,經(jīng)過(guò)近幾十年的不懈努力,取得了令人矚目的成就.經(jīng)濟(jì)社會(huì)快速發(fā)展,人們的生活水平不斷提高,但是,長(zhǎng)期以來(lái),貧困居民的底數(shù)不清,情況不明,扶貧的針對(duì)性不強(qiáng)等問(wèn)題比較突出.國(guó)外BPS 使用CAPI 來(lái)進(jìn)行貧困狀況調(diào)查,但是也只是針對(duì)少數(shù)地區(qū).在國(guó)內(nèi),對(duì)于當(dāng)?shù)刎毨丝诘慕y(tǒng)計(jì)大多仍按照傳統(tǒng)方式進(jìn)行貧困數(shù)據(jù)收集,近些年開(kāi)始進(jìn)行建檔立卡工作.對(duì)于進(jìn)行貧困分類(lèi),國(guó)外專(zhuān)家提出K-均值聚類(lèi)法評(píng)估貧困等級(jí)[1];Yu BL 等利用NPP-VIIRS 數(shù)據(jù)采用線(xiàn)性回歸模型討論了ALI 值和IPI 值的關(guān)系進(jìn)而進(jìn)行貧困分類(lèi)[2];Jean N 等通過(guò)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)結(jié)合高分辨率衛(wèi)星圖像來(lái)實(shí)現(xiàn)貧困戶(hù)識(shí)別[3];李雪等提出了多層次模糊系統(tǒng)方法進(jìn)行貧困分類(lèi)[4];徐姝婧等提出了基于神經(jīng)網(wǎng)絡(luò)模型的方法實(shí)現(xiàn)貧困分類(lèi)[5].對(duì)于上述專(zhuān)家提出的方案,K-均值聚類(lèi)方法無(wú)法保證待歸類(lèi)元素找到最佳分類(lèi);回歸分析法雖然考慮到了因素間的相互依賴(lài)和相互影響關(guān)系,但是實(shí)驗(yàn)次數(shù)過(guò)于冗繁且NOAA/NGDC 發(fā)布的NPP-VIIRS 數(shù)據(jù)存在很多噪聲會(huì)影響實(shí)驗(yàn)結(jié)果;模糊系統(tǒng)方法在指標(biāo)集較大時(shí),會(huì)出現(xiàn)超模糊現(xiàn)象,無(wú)法區(qū)分隸屬度;神經(jīng)網(wǎng)絡(luò)雖然具有高度自學(xué)和自適應(yīng)能力,但是它黑匣子的性質(zhì)使得結(jié)果的可解釋性不強(qiáng),不利于后續(xù)的扶貧分析.綜上所述,建立一個(gè)科學(xué),多維,全面的評(píng)價(jià)系統(tǒng)尤為重要.本文以錄入的遼寧省某地區(qū)的家庭信息為依據(jù),提出了基于REAHCOR-GBDT的貧困等級(jí)評(píng)價(jià)模型,為當(dāng)?shù)鼐珳?zhǔn)扶貧工作順利開(kāi)展提供了更有利的保障.
隨著時(shí)代的發(fā)展,龐大的數(shù)據(jù)集應(yīng)運(yùn)而生,數(shù)據(jù)的維度和復(fù)雜性也在不斷增長(zhǎng),如何從大量繁瑣的信息中篩選有用的信息,構(gòu)造一個(gè)好的模型,提取關(guān)鍵特征顯得更為迫切.特征選擇是指從一堆與目標(biāo)變量相關(guān)的,冗余的,無(wú)關(guān)的數(shù)據(jù)中選擇出分辨能力高的特征作為最優(yōu)特征子集,從而提高分類(lèi)模型的準(zhǔn)確度.丁雪梅等介紹了改進(jìn)的ReliefF 算法進(jìn)行無(wú)監(jiān)督特征選擇[6].李葉紫,張堯等提出了關(guān)于互信息的特征選擇來(lái)提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確率[7,8].李娜娜分析了影響貧困因素[9].本文采用的Filter 算法具有速度快的優(yōu)勢(shì)且獨(dú)立于后續(xù)學(xué)習(xí)算法,其中ReliefF 是公認(rèn)效果不錯(cuò)的一種過(guò)濾式算法[6],但是考慮到ReliefF 不能夠很好的去除冗余特征以及貧困信息分類(lèi)獨(dú)有的特點(diǎn),本文提出采用ReliefF 算法結(jié)合層次分析法和相關(guān)度分析法來(lái)完成特征選擇的方法,即REAHCOR 特征選擇算法.該方法包含以下3 個(gè)階段,分別如下:
(1)ReliefF 算法會(huì)賦予每個(gè)特征不同的權(quán)重,依據(jù)是每個(gè)特征與類(lèi)別標(biāo)簽的相關(guān)性有大有小,當(dāng)計(jì)算出的特征權(quán)重值大于某個(gè)闕值時(shí),說(shuō)明它對(duì)類(lèi)別標(biāo)簽的影響程度強(qiáng),我們保留.反之,說(shuō)明其影響程度弱,該特征會(huì)被刪除.權(quán)重的大小反映了該特征值區(qū)分同類(lèi)近鄰樣本和不同類(lèi)近鄰樣本的能力.ReliefF 算法的運(yùn)算過(guò)程為從訓(xùn)練集中隨機(jī)的選取一個(gè)樣本a,然后比較樣本a同類(lèi)的b個(gè)近鄰樣本與不同類(lèi)的另外b個(gè)近鄰樣本在某個(gè)特征的距離.通過(guò)規(guī)定次數(shù)的迭代,計(jì)算出所有特征的權(quán)重平均值.其權(quán)重更新公式如下:
(2)在上一步得出相關(guān)特征之后,考慮到貧困信息的復(fù)雜性和多層次性,繼而引入認(rèn)可度較高的層次分析賦權(quán)法繼續(xù)為特征定量權(quán)重.其中在進(jìn)行一致性指標(biāo)計(jì)算時(shí)公式如下:
在進(jìn)行一致性比率CR計(jì)算時(shí)公式如下:
在計(jì)算總的層次排序時(shí)檢驗(yàn)一致性公式如下:
(3)采用特征間冗余度度量的相關(guān)性分析法進(jìn)行特征選擇.該方法的主要思想是通過(guò)度量屬性之間的相關(guān)度來(lái)衡量它們之間的冗余性.相關(guān)度越大,冗余度也就越大.任江濤等介紹了基于相關(guān)性分析的選擇算法可以作為一種借鑒[10].在本研究中,連續(xù)型數(shù)值需進(jìn)行離散化處理,然后采用信息論中的熵概念進(jìn)行度量.信息熵的定義公式如下:
已知隨機(jī)變量Y后X的信息熵定義公式如下:
如果Y和X是相互獨(dú)立的,即H(X|Y)的結(jié)果值與H(X)的結(jié)果值相同,那它們的相關(guān)度為0;如果Y和X有相關(guān)性,那么X和Y之間的互信息值越大,它們的相關(guān)性就越強(qiáng).由此信息增益值IG(X|Y)(也稱(chēng)變量x,y之間的互信息)公式如下:
另外,相關(guān)度關(guān)于變量x,y是對(duì)稱(chēng)的,所以對(duì)信息增益進(jìn)行歸一化處理,公式如下:
本文提出的 REAHCOR 方法首先運(yùn)行ReliefF 算法進(jìn)行特征初篩,該算法通過(guò)計(jì)算得到每個(gè)特征的權(quán)重Wi,將Wi值大于過(guò)濾閾值的特征保留下來(lái),放入到一個(gè)初始狀態(tài)為空的集合U中.然后將集合U中的特征采用層次加權(quán)法對(duì)貧困家庭指標(biāo)進(jìn)行定性與定量判斷并把得到的權(quán)重值放入到初始為空的集合S中.將集合U中的兩兩特征采用相關(guān)性分析法進(jìn)行冗余度度量,將其結(jié)果集中冗余度大于冗余闕值的兩特征中在集合S里權(quán)值較小的特征刪除,選出最終需要的特征子集,這些被選出的特征都是和類(lèi)別標(biāo)簽相關(guān)性很強(qiáng)的一些特征.上述算法的優(yōu)點(diǎn)是:通過(guò)使用計(jì)算效率比較快而且對(duì)數(shù)據(jù)大小和類(lèi)型沒(méi)有限制的過(guò)濾式ReliefF算法求出那些與目標(biāo)屬性不相關(guān)的特征,然后與層次分析法和相關(guān)性分析法相結(jié)合共同解決問(wèn)題.很好的規(guī)避了ReliefF 算法不能去除冗余特征的缺點(diǎn),同時(shí)能夠依據(jù)貧困信息多維度多層次的特點(diǎn),將人的主觀(guān)經(jīng)驗(yàn)和客觀(guān)事實(shí)相結(jié)合,兼顧定性與定量分析,更加貼近事實(shí)的去解決問(wèn)題,靈活性更強(qiáng).該方法與單純使用ReliefF 或Wrapper 等算法相比,可靠性高并且冗余度少,不依賴(lài)后續(xù)學(xué)習(xí)方法,同時(shí)繼承了ReliefF 算法計(jì)算速度快的優(yōu)點(diǎn),減少了盲目性和不確定性,能夠得出具有科學(xué)化且性能優(yōu)的特征參數(shù)子集.
在監(jiān)督學(xué)習(xí)的算法中,我們都希望訓(xùn)練出的模型是一個(gè)各方面穩(wěn)定性都表現(xiàn)良好的模型,但是現(xiàn)實(shí)卻往往差強(qiáng)人意,得出的模型要么方差太大導(dǎo)致魯棒性不強(qiáng),要么具有較高的偏置.而集成學(xué)習(xí)的思想就是讓一些弱學(xué)習(xí)器的方差或者偏置結(jié)合起來(lái),從而獲得比單一學(xué)習(xí)器泛化性能更好的模型.目前集成學(xué)習(xí)的策略分為兩大類(lèi),一類(lèi)是學(xué)習(xí)器與學(xué)習(xí)器之間相互獨(dú)立的Bagging 策略,一類(lèi)是用下一個(gè)學(xué)習(xí)器擬合上一個(gè)學(xué)習(xí)器殘差的Boosting 策略[11].由于隨機(jī)森林的取樣策略具有方差較小,偏差較大的特點(diǎn),所以它對(duì)于基學(xué)習(xí)器的準(zhǔn)確度要求比較嚴(yán)格.而B(niǎo)oosting 策略則可以減小模型的偏差,通過(guò)逐步提升的方法使最終模型變得更加優(yōu)秀.因此本文模型的構(gòu)建采用基于梯度提升技巧的GBDT 算法.算法流程如算法1 所示.
算法1.Lk-TreeBoost Fk0(x)=0,k=1,K For m=1 to M do:pk(x)=exp(Fk(x))/∑kl=1 exp(Fl(x)), k=1,K For k=1 to K do:yik=yik?pk(xi), i=1,N{Rklm}Ll=1=L?terminal node tree({yik,xi}Nl )rklm=k?1∑xi∈Rklmyik|), l=1,L Fkm(x)=Fk,m?1(x)+rklm(x∈Rklm)endFor endFor yik k ∑xi∈Rklm|yik|(1?|
本文提出的貧困等級(jí)評(píng)價(jià)模型分為4 個(gè)步驟實(shí)現(xiàn),如圖1所示.首先對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理,主要包括空值數(shù)據(jù)的處理、噪聲數(shù)據(jù)的處理等數(shù)據(jù)規(guī)約,數(shù)據(jù)變換過(guò)程.接著將處理好的數(shù)據(jù)集采用本文提出的REAHCOR 特征選擇算法求出最優(yōu)特征子集,然后運(yùn)用GBDT 算法進(jìn)行貧困分類(lèi).最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比對(duì)分析,驗(yàn)證本文研究方法的有效性.
圖1 貧困等級(jí)評(píng)價(jià)模型構(gòu)建
本文數(shù)據(jù)來(lái)源于實(shí)驗(yàn)室項(xiàng)目“精準(zhǔn)扶貧數(shù)據(jù)分析系統(tǒng)”,數(shù)據(jù)集中包含了遼寧省某地區(qū)近萬(wàn)戶(hù)人口的家庭信息.
將非貧困,一般貧困,極度貧困這3 種貧困類(lèi)別作為模型目標(biāo)值,對(duì)家庭信息、當(dāng)?shù)胤鲐氄吆彤?dāng)?shù)亟?jīng)濟(jì)發(fā)展?fàn)顩r等信息進(jìn)行篩選和歸納.將家庭收入、家庭消費(fèi)、食品支出、水源污染、飲水方式、教育水平、失學(xué)狀況、參加合作醫(yī)療情況、生病是否能及時(shí)就醫(yī)、脆弱性、衛(wèi)生設(shè)施、居住環(huán)境、房屋數(shù)量等信息進(jìn)行數(shù)據(jù)清洗、變換和整合,其中對(duì)缺失值用區(qū)間變量的平均值或中值填充,對(duì)于異常值和大量丟失的信息采用舍棄的方式來(lái)加快算法的執(zhí)行速度,對(duì)家庭收入,用電量等特征采用MIN-MAX 方法進(jìn)行歸一化.
貧困信息數(shù)據(jù)具有龐大而復(fù)雜的特性,如果不加以處理,可能會(huì)出現(xiàn)維度災(zāi)難.一個(gè)好的特征選擇算法,可以從原始特征子集中選取出利用性最優(yōu)的特征子集,能夠去除冗余性強(qiáng)的,選取對(duì)分類(lèi)結(jié)果影響最大的特征.基于傳統(tǒng)的過(guò)濾式(Filter)特征選擇算法,本文提出的REAHCOR 算法繼承了過(guò)濾式(Filter)算法運(yùn)行速度快,獨(dú)立于后續(xù)模型的優(yōu)點(diǎn)外,又將特征依據(jù)層次性和冗余度進(jìn)行優(yōu)化選取,彌補(bǔ)了原先算法分類(lèi)性能較差的不足.
根據(jù)本文提出的REAHCOR 算法,在進(jìn)行特征選取時(shí)計(jì)算出每個(gè)特征和類(lèi)別的相關(guān)性估值.最后按照估值高低進(jìn)行排序,選出最優(yōu)特征子集如下:家庭凈收入、家庭負(fù)債情況、家庭受資助情況、住房數(shù)量、是否參加醫(yī)療保險(xiǎn)、成年人受教育年限、衛(wèi)生設(shè)施、適齡兒童是否在學(xué)、勞動(dòng)力人數(shù)、身體是否患病、耐用消費(fèi)品資產(chǎn)數(shù)量、生活用電量、取水方式、娛樂(lè)方式.
本文模型預(yù)測(cè)的標(biāo)簽分為非貧困,一般貧困,極度貧困3 類(lèi),根據(jù)有效的特征對(duì)模型結(jié)果進(jìn)行分類(lèi).本文驗(yàn)證模型的有效性從兩個(gè)方面進(jìn)行切入:(1)驗(yàn)證REAHCOR 算法的有效性;(2)驗(yàn)證整體模型的有效性.
(1)驗(yàn)證REAHCOR 算法的有效性
在實(shí)驗(yàn)中選用ReliefF 和FCBF 算法與本文提出的REAHCOR 算法進(jìn)行性能比對(duì).在分類(lèi)器的選擇上,使用Boosting 算法中的GBDT 算法,并分別結(jié)合以上3 種特征選擇算法進(jìn)行分類(lèi)預(yù)測(cè),從而驗(yàn)證REAHCOR算法的有效性.
(2)驗(yàn)證整體模型的有效性
首先使用本文提出的REAHCOR 算法進(jìn)行特征選取,然后將選出的特征子集分別用在GBDT 算法和隨機(jī)森林算法中進(jìn)行分類(lèi)預(yù)測(cè).經(jīng)過(guò)對(duì)比,驗(yàn)證GBDT 算法對(duì)本領(lǐng)域研究范圍的有效性.
對(duì)于一個(gè)模型的好壞,除了評(píng)價(jià)實(shí)驗(yàn)估計(jì)方法,還需要衡量這個(gè)模型的泛化能力,在分類(lèi)任務(wù)中,可以用錯(cuò)誤率與精度、查準(zhǔn)率、查全率與F1、代價(jià)敏感錯(cuò)誤率和代價(jià)曲線(xiàn)、ROC 與AUC 等進(jìn)行性能度量.本實(shí)驗(yàn)采用查全率、查準(zhǔn)率和F1 值進(jìn)行評(píng)判.
其中,TP代表真正例(true positive),FP代表假正例(false positive),FN代表假反例(false negative).另外還有一個(gè)TN代表真反例(true negative),并且有TP+FP+TN+FN等于樣例總數(shù).F1 是基于查準(zhǔn)率與查全率的調(diào)和平均.
(1)在特征選擇對(duì)比實(shí)驗(yàn)中,ReliefF 算法通過(guò)迭代規(guī)定次數(shù)內(nèi)樣本與同類(lèi)近鄰樣本和不同類(lèi)近鄰樣本的距離,篩選權(quán)值高的特征作為特征子集,FCBF 算法采用后向順序搜索策略進(jìn)行快速的選取最優(yōu)特征子集.表1中展示了貧困數(shù)據(jù)集按照以上3 種方法進(jìn)行特征選擇,然后將得到的結(jié)果使用GBDT 算法進(jìn)行分類(lèi),對(duì)結(jié)果采用交叉驗(yàn)證的方法進(jìn)行比較,篩選出的特征個(gè)數(shù)用Num表示.
表1 基于不同特征選擇算法的貧困模型結(jié)果對(duì)比
從表1和圖2可以得出,本文提出的REAHCOR特征選擇算法的分類(lèi)精度可以達(dá)到94.86%,查全率為92.37%,F1 值為93.60%,分類(lèi)效果優(yōu)于其他兩種,在特征數(shù)量較少時(shí)ReliefF 算法表現(xiàn)效果最差,隨著特征數(shù)量的增多其出現(xiàn)上漲趨勢(shì),但是由于選出的特征冗余度大導(dǎo)致效果不理想,所以其在降維方面的性能比較低.FCBF 在降維方面表現(xiàn)稍好,在特征數(shù)量為13 時(shí)分類(lèi)精度達(dá)到92.72%,但是不如REAHCOR 整體表現(xiàn)效果好.
圖2 不同特征選擇算法效果對(duì)比
(2)使用隨機(jī)森林和GBDT 算法對(duì)測(cè)試集進(jìn)行分類(lèi)結(jié)果的性能比較如表2所示.
表2 GBDT 和隨機(jī)森林分類(lèi)結(jié)果對(duì)比
從表2可以得出,兩種分類(lèi)器在同一特征子集中有不同的表現(xiàn),GBDT 在precision,recall和F1 值方面都優(yōu)于隨機(jī)森林算法.
本文以農(nóng)村家庭信息數(shù)據(jù)為背景,提出了基于REAHCOR 的特征選擇算法,并應(yīng)用到具有較高分類(lèi)準(zhǔn)確度的GBDT 分類(lèi)器中,取得了分類(lèi)效果較優(yōu)的評(píng)價(jià)模型.創(chuàng)新性提出的REAHCOR 算法既可以對(duì)龐大的數(shù)據(jù)特征集進(jìn)行降維,也可以保證降維之后特征具有很強(qiáng)的分類(lèi)能力,整體模型的評(píng)估效果也得到驗(yàn)證,具有穩(wěn)定性好、靈活性強(qiáng)的優(yōu)勢(shì).在實(shí)際應(yīng)用方面,只要輸入相關(guān)的特征數(shù)據(jù),就可以得到家庭貧困等級(jí)程度的信息,對(duì)于精準(zhǔn)識(shí)別貧困戶(hù),幫助政府解決民生問(wèn)題起到了積極的導(dǎo)向作用.