吳朝霞 常慶麗 王 偉
(安陽工學(xué)院,河南 安陽 455000)
在習(xí)近平總書記提出堅決打贏脫貧攻堅戰(zhàn)后,為響應(yīng)國家的號召,各個地區(qū)開始投入資源,推進扶貧工作的實行。而傳統(tǒng)的扶貧工作存在一些問題,如信息查詢不夠方便、人工采集容易出錯等。因此需要一款針對精準(zhǔn)扶貧工作的系統(tǒng)來進行輔助,使扶貧信息管理更加細化,提升扶貧信息管理的效率,滿足扶貧機構(gòu)的相關(guān)工作需求。[1]
為了使系統(tǒng)能夠進行精準(zhǔn)識別,可以在高校精準(zhǔn)扶貧系統(tǒng)中添加決策樹算法,利用決策樹算法實現(xiàn)趨勢分析、提供輔助決策等功能,并建立相應(yīng)的信息化支撐體系。
決策樹就是數(shù)據(jù)結(jié)構(gòu)中的樹,每一個葉子節(jié)點都是一種選擇的結(jié)果,而每個分叉路代表該特征的具體內(nèi)容。決策樹算法是根據(jù)離散函數(shù)值進行分析的方法,是一種分類算法。[2]對數(shù)據(jù)進行預(yù)處理,然后歸納總結(jié)出一個可讀的規(guī)則和決策樹,根據(jù)總結(jié)的決策樹對新的數(shù)據(jù)進行預(yù)測分析,推測新數(shù)據(jù)的決策結(jié)果。本質(zhì)上決策樹就是通過數(shù)據(jù)特征歸納出的規(guī)則對數(shù)據(jù)進行分類的過程。
預(yù)測模型分類結(jié)果是決策樹其中一個用途。決策樹中的每個非葉子節(jié)點都是根據(jù)不同的分類算法在所有的特征中相互比較得出的,從根節(jié)點到葉子節(jié)點,其中的每一條路徑都是一條分類規(guī)則,決策樹就是把這些規(guī)則都統(tǒng)計組合在一起,用來進行預(yù)測。[3]
本研究采用的是以某高校經(jīng)濟困難學(xué)生數(shù)據(jù)為模型構(gòu)建的數(shù)據(jù)訓(xùn)練集。訓(xùn)練集共包含計算機科學(xué)與技術(shù)400人,獲得補助的有50人,涉及的分類屬性分別是“是否建檔立卡”、“是否最低生活保障學(xué)生”、“是否特困救助學(xué)生”、“是否孤兒”、“是否事實撫養(yǎng)兒童”、“是否烈士子女”、“是否殘疾學(xué)生”、“是否殘疾人子女”(如表1家庭情況調(diào)查表所示)。
表1 家庭情況調(diào)查表
常用的決策樹實現(xiàn)算法有下述三種。
2.2.1 ID3算法
ID3算法是選出信息增益最小的屬性作為最佳劃分屬性進行劃分,信息增益是用來度量兩種概率分布的差異,其計算公式是g(D,A)=H(D)-H(D|A),其實H(D)是集合D的熵,H(D|A)是給定條件下D的條件熵。[4]熵表示某種結(jié)果可能出現(xiàn)的程度:設(shè)Y是有限離散隨機變量,其概率為:P(Y=xi)=pi,i=1,2,3…則隨機變量Y的熵例如:一個硬幣拋10次,其中6次正面朝上,4次反面朝上,則硬幣朝上的熵為:[5]
2.2.2 C4.5算法
C4.5算法是對ID3算法進行了改進,如果X是一個連續(xù)型隨機變量,此時采用ID3算法就無法計算了,而C4.5
算法把連續(xù)型隨機變量用區(qū)間表示,這樣就可以使用ID3算法的計算過程進行計算,并在此基礎(chǔ)上計算出信息增益比來進行比較,信息增益比的計算公式:
2.2.3 CART算法
CART算法是選出基尼指數(shù)選出最大的屬性作為最佳分裂屬性進行劃分,假設(shè)有K種分類,樣本點屬于第k類的概率為pk,基尼指數(shù)為如果樣本集合D根據(jù)特征被劃分為D1和D2兩部分,此時集合D的基尼指數(shù)
由于本研究的數(shù)據(jù)不存在連續(xù)性,因此采用ID3算法進行模型的構(gòu)建。首先計算集合整體的熵[8]然后計算各個分類的條件熵和信息增益,計算結(jié)果如表2特征信息增益表所示。
表2 特征信息增益表
然后選出信息增益最大的作為根節(jié)點,根據(jù)根節(jié)點的特征取值,繼續(xù)選出下一節(jié)點。[9]直到特征值取完為止,最后生成決策樹,結(jié)果如圖1所示。決策者可以利用圖1生成的決策信息對學(xué)生進行精準(zhǔn)資助。
圖1 生成的決策樹結(jié)果圖
本文通過對高校資助學(xué)生的基礎(chǔ)數(shù)據(jù)進行研究,結(jié)合機器學(xué)習(xí)的決策樹算法,經(jīng)過大量的樣本訓(xùn)練,最后基于ID3的決策樹算法生成了基于高校精準(zhǔn)扶貧的決策樹模型。[10]為高校的扶貧資助工作提供參考,為扶貧工作的量化估計提供了解決方案。