孔艷春,蘇為斌,陳國平,徐子珺,楊雪瓊,李懿航
(1.昆明冶金高等專科學(xué)校 a.建筑工程學(xué)院;b.測繪學(xué)院;c.電氣與機(jī)械學(xué)院;d.商學(xué)院;e.后勤服務(wù)中心, 云南 昆明 650033; 2.云南工商學(xué)院智能科學(xué)與工程學(xué)院,云南 昆明 651701)
近年來,大數(shù)據(jù)助力脫貧成為了研究的熱點,然而,大數(shù)據(jù)具有“全局思維、混雜相關(guān)”的性質(zhì),不能很好地適用于具有“隨機(jī)個體、因果關(guān)聯(lián)”的扶貧小數(shù)據(jù)分析。大數(shù)據(jù)在扶貧領(lǐng)域的應(yīng)用存在諸多問題:大數(shù)據(jù)一般以網(wǎng)絡(luò)為基礎(chǔ),受限于貧困地區(qū)客觀條件,比如智能手機(jī)的使用率、網(wǎng)絡(luò)普及率低就很難實現(xiàn)“全數(shù)據(jù)”采集覆蓋;大數(shù)據(jù)并非大家都可以使用,比如涉及個人的隱私、機(jī)密等就不宜廣泛使用;大數(shù)據(jù)無論有多全面,也只能記錄人的片面行為,無法確切描述人的思維;此外在技術(shù)實現(xiàn)上,由于大數(shù)據(jù)重“相關(guān)”輕“因果”,導(dǎo)致難以全面分析農(nóng)戶致貧原因。為了從源頭根除貧困,眾多學(xué)者都認(rèn)識到“扶貧必先智志雙扶”,人的價值觀才是脫貧的最終根源。小數(shù)據(jù)從個體出發(fā),通過統(tǒng)計個人信息,觀察行為特征,挖掘分析數(shù)據(jù),提高扶貧的“精準(zhǔn)”度。該方法能夠有效檢測扶貧效果,改進(jìn)扶貧工作方法。
在大數(shù)據(jù)提出之前,數(shù)據(jù)本無大小之分。隨著大數(shù)據(jù)的火熱,越來越多的學(xué)者意識到小數(shù)據(jù)具有不可替代的價值。學(xué)術(shù)界通常把Estrin[1]于2014 年通過觀察記錄其父親去世前幾個月的行為數(shù)據(jù),認(rèn)定為小數(shù)據(jù)研究的開端。事實上關(guān)于小數(shù)據(jù)的應(yīng)用先例早已有之:“星星之火,可以燎原”是毛澤東同志于1927年革命失敗后,透過現(xiàn)象看本質(zhì),應(yīng)用唯物辯證法,科學(xué)分析國內(nèi)政治形勢和敵我力量作出的正確激勵;“關(guān)鍵少數(shù)”是習(xí)近平同志于 2015 年兩會期間提出的最新熱詞,是抓好黨員思想建設(shè)和制度保障的“精準(zhǔn)良方”。縱觀歷史,小數(shù)據(jù)總能指導(dǎo)人們在關(guān)鍵時刻作出決策,解決棘手問題。
小數(shù)據(jù)的顯著特征在于對單個個體或小團(tuán)體范圍內(nèi)人的行為的全數(shù)據(jù)記錄,它由多個時間標(biāo)簽系列的小樣本組成。在國外,Augustin[2]認(rèn)為,一個高質(zhì)量的小樣本數(shù)據(jù)要比低質(zhì)量的大樣本數(shù)據(jù)更具決策價值;O'Brien[3]認(rèn)為,小數(shù)據(jù)能夠優(yōu)化大數(shù)據(jù),實現(xiàn)客觀報告行為與自我報告態(tài)度的同步;Robertson[4]指出,通過對個人活動中心和地理社會數(shù)據(jù)的統(tǒng)計分析,可以驗證小數(shù)據(jù)高質(zhì)量樣本的“精準(zhǔn)”特性。在國內(nèi),陳廉芳[5]指出,小數(shù)據(jù)是個體用戶的“全”數(shù)據(jù),具有大數(shù)據(jù)無法替代的作用;孫紅蕾[6]認(rèn)為,小數(shù)據(jù)將為數(shù)字文化治理帶來新的機(jī)遇。
習(xí)近平總書記講到,扶貧工作不能搞大水漫灌,務(wù)必要做到“六個精準(zhǔn)”,即:因村派人精準(zhǔn)、扶持對象精準(zhǔn)、項目安排精準(zhǔn)、資金使用精準(zhǔn)、措施到位精準(zhǔn)、脫貧成效精準(zhǔn)。扶貧不是養(yǎng)懶漢,如果不能有效挖掘單個個體或小團(tuán)體范圍內(nèi)的小數(shù)據(jù),那么這些具體且特定的數(shù)據(jù)或有可能因大數(shù)據(jù)的分析方法而泛化,導(dǎo)致真正需要幫扶的人沒有得到有效幫助,那些“等、靠、要”的懶漢則一次次地獲得政策傾斜。針對該類問題,安素霞[7]指出,應(yīng)當(dāng)通過開展社會工作,解決貧困戶過度依賴扶貧收益不愿意脫貧的問題;姚展鵬[8]認(rèn)為,基層組織應(yīng)當(dāng)激勵幫扶者改進(jìn)幫扶方式、提升扶志效果;沈霞[9]提出,教育應(yīng)當(dāng)成為精準(zhǔn)扶貧的重要保障。顯然,要實現(xiàn)精準(zhǔn)扶貧助力鄉(xiāng)村振興,必須長期做好基于小數(shù)據(jù)的社會學(xué)調(diào)查統(tǒng)計工作,建立科學(xué)的小數(shù)據(jù)理論分析體系,提高精準(zhǔn)識別率。
很多學(xué)者認(rèn)為大數(shù)據(jù)與小數(shù)據(jù)是矛盾關(guān)系,但事實上,它們之間存在著互補(bǔ)與交叉。如圖1所示,學(xué)術(shù)界通常把數(shù)據(jù)間的關(guān)系定義為“因果”和“相關(guān)”。通過“獲取數(shù)據(jù)樣本→聚類→測定類間距離→獲得相關(guān)系數(shù)”的方法屬于傳統(tǒng)大數(shù)據(jù)方法;通過“個體行為的調(diào)查研究→實驗論證→得出數(shù)據(jù)因果關(guān)系”的方法屬于小數(shù)據(jù)方法。顯然在扶貧工作中對數(shù)據(jù)的界定與劃分是本文研究的首要內(nèi)容,劃分方法如下:
1)若數(shù)據(jù)與數(shù)據(jù)間具有純相關(guān)性,則送入大數(shù)據(jù)系統(tǒng),不在本項目研究范疇;
2)若數(shù)據(jù)與數(shù)據(jù)間既有相關(guān)關(guān)系,又有因果關(guān)系,則采用樸素貝葉斯機(jī)器學(xué)習(xí)算法,構(gòu)建混淆矩陣,分析準(zhǔn)確率;
3)若數(shù)據(jù)與數(shù)據(jù)間屬純因果關(guān)系,則采用確定性演繹推理方法,對駐村工作中統(tǒng)計的具有數(shù)值屬性和非數(shù)值屬性的數(shù)據(jù)進(jìn)行實驗,驗證理論可行性。
在脫貧攻堅小數(shù)據(jù)的分析過程中,依靠確定性推理能夠?qū)崿F(xiàn)問題的自動求解?!爸R表示”是實現(xiàn)確定性推理的前提條件。所謂脫貧攻堅小數(shù)據(jù)的“知識”是對國家政策規(guī)定解讀和長期的駐村扶貧工作中積累的認(rèn)識和經(jīng)驗,而“知識表示”是對這一類知識的進(jìn)一步模型化,構(gòu)建謂詞邏輯,形成產(chǎn)生式和框架表示規(guī)則[11]?!巴评怼笔菍@些知識規(guī)則,按照某種策略求解的一般過程,如表1所示。
圖1 大數(shù)據(jù)與小數(shù)據(jù)的界定與劃分Fig.1 Definition and division of big data and small data
表1 推理方式及分類Tab.1 Reasoning mode and classification
在推理的方向上,已知國家制訂的貧困線標(biāo)準(zhǔn),該標(biāo)準(zhǔn)為已知的知識庫,也稱為大前提;若有一農(nóng)戶收入水平在該標(biāo)準(zhǔn)之下,則由該農(nóng)戶數(shù)據(jù)構(gòu)造的謂詞邏輯稱為小前提;顯然得到的結(jié)論必然是該農(nóng)戶屬于貧困戶。這種由一般到個別的推理也稱正向推理,是從已知實事出發(fā)的結(jié)論構(gòu)建。
與之向反,若已知部分農(nóng)戶數(shù)據(jù)及他們向工作組反映的情況,但又找不到國家或地方相關(guān)的政策依據(jù),那么就應(yīng)當(dāng)進(jìn)行數(shù)據(jù)歸納,然后以某個假設(shè)目標(biāo)作為出發(fā)點,尋找支持該假設(shè)的證據(jù)。這種由個別到一般的推理過程也稱為逆向推理,獲得的結(jié)論有利于向農(nóng)戶提供解釋。
樸素貝葉斯(Naive Bayes Classifier, NBC)是基于貝葉斯定理特征條件獨立假設(shè)的分類方法。具有所需估計參數(shù)少,對缺失數(shù)據(jù)不敏感等特點。結(jié)合概率統(tǒng)計,既可避免先驗的主觀偏見,又可避免單獨使用樣本信息的過擬合現(xiàn)象[10]。駐村扶貧工作統(tǒng)計的原始小數(shù)據(jù)往往是時間離散、格式不統(tǒng)一的excel表格或word文檔。為了向上級呈現(xiàn)更加精練的數(shù)據(jù)信息,工作人員一般通過鄉(xiāng)鎮(zhèn)一級統(tǒng)一指揮,把整理后的數(shù)據(jù)錄入國辦數(shù)據(jù)庫系統(tǒng),存在錄入失誤和人為主觀更改等問題。對駐村工作人員的原始數(shù)據(jù)進(jìn)行上下文文本的樸素貝葉斯分類,能夠在一定程度上規(guī)避這些問題。
駐村扶貧統(tǒng)計數(shù)據(jù)屬于定性的樣本特征向量,把這些數(shù)據(jù)代入樸素貝葉斯分類器進(jìn)行訓(xùn)練,由此估計每種致貧因素類型的識別概率。貝葉斯分類器提供了分類程序的基本概率模型,例如統(tǒng)計辨別分析貝葉斯定理估計概率公式為:
(1)
(2)
(3)
公式(3)是基于小數(shù)據(jù)最終分類的樸素貝葉斯概率估計公式,其特點是在獲得一個新的貧困戶特征樣本x時可以估計出該貧困戶能否脫貧的概率。為了盡量降低錯誤的估計數(shù)量,應(yīng)當(dāng)盡可能地獲得運算結(jié)果的最大值,通常取公式(3)分子的最大值來進(jìn)行分類決策。
為了奠定小數(shù)據(jù)推理基礎(chǔ),需要把扶貧工作中駐村工作隊與村民間的談話和各級會議記錄等形成的自然語言轉(zhuǎn)換為謂詞邏輯。
謂詞是對主語的陳述或說明,指出“做什么”“是什么”或“怎么樣”,是條件表達(dá)式求值返回真或假的過程。表2以小壩村為例解析了扶貧記錄的謂詞表示。
表2 確定性知識表示謂詞公式規(guī)則
表2第一列中均出現(xiàn)了謂詞關(guān)鍵字“是”,然而卻有不同的含義。雖然人類可以輕易理解這種自然語言,但是計算機(jī)很難做到正確分析,會錯誤地把 “張老二”認(rèn)定隸屬于“張三”,錯誤地把時間“2017年”認(rèn)定為“貧困戶”。顯然,研究人工智能謂詞公式錄入規(guī)則可以解決自然語言在計算機(jī)中的知識表示能力不足的問題,利于構(gòu)建確定性扶貧小數(shù)據(jù)知識體系。
扶貧小數(shù)據(jù)確定性推理的第二項重要任務(wù)是運用“量詞”實現(xiàn)謂詞公式的建立。量詞分為2種,如表3所示。
表3 量詞規(guī)則
需要注意的是,表3中的2個例子均有泛化屬性,比如:例1泛化“小壩村的路”為x;例2泛化“魯老三”為x。泛化的充要條件是具備“個別”與“一般”的縮放條件。
“連詞”是對已知事實即前提P與結(jié)論Q之間的關(guān)系建立,具有“否定”“合取”“析取”“蘊含”“等價”5種連接關(guān)系。如表4所示,連接詞與自然語言具有相應(yīng)的對照關(guān)系。
表4 連接詞與自然語言對照Tab.4 Conjunctions and natural language
國家對脫貧的要求,必須做到“兩不愁,三保障”。對于“吃”“穿”“教育”“醫(yī)療”“住房”,若只考慮“達(dá)到”和“未達(dá)到”2個層面。假如任取一戶,存在5項中的任1項未達(dá)到,將導(dǎo)致全村無法實現(xiàn)脫貧,可描述謂詞公式為:
?(x)?(y){吃(x)∨穿(x)∨教育(x)∨醫(yī)療(x) ∨住房(x)→達(dá)到(y)}
小數(shù)據(jù)確定性推理的關(guān)鍵是把謂詞公式化為子句集的過程。該過程共分為9個步驟,謂詞公式不可滿足的充要條件是其子句集不可滿足。獲得子句集的目的是為了使用魯賓遜歸結(jié)原理(消解原理)的基本思想,建立規(guī)則、事實、求證三者之間歸結(jié)反演邏輯[10]。任一謂詞公式通過九步法可以化成一個子句集,如圖2所示,依次變換即可得到子句集。
圖2 子句集劃分步驟Fig.2 Clause set transformation
子句集的劃分是對知識的拆解,通過魯賓遜歸結(jié)反演方法[11],可以從脫貧攻堅小數(shù)據(jù)集中抽取知識實現(xiàn)針對特定問題的求證。顯然通過長期觀察并建立確定性扶貧小數(shù)據(jù)集,該方法能夠正確表達(dá)小數(shù)據(jù)確定性推理過程,提供決策輔助脫貧攻堅和鄉(xiāng)村振興。
基于小數(shù)據(jù)開展樸素貝葉斯算法可以帶來更高的分類精準(zhǔn)性。由于地區(qū)之間的語言、民族、氣候、產(chǎn)業(yè)結(jié)構(gòu)、習(xí)俗等存在差異,導(dǎo)致很難找到一個合適的訓(xùn)練數(shù)據(jù)集來支撐這種因地區(qū)差異而存在的樸素貝葉斯分類算法。本文以小壩村為例,以事實數(shù)據(jù)作為依據(jù),科學(xué)設(shè)定統(tǒng)計表格,從而求出樸素貝葉斯公式的先驗概率、似然概率和邊際概率。通過把主動訪談與事件觸發(fā)相結(jié)合的時間系列記錄數(shù)據(jù)代入樸素貝葉斯公式,求解后驗,更新先驗,不斷獲得特定貧困戶的趨勢曲線觀察。
在脫貧攻堅工作中,往往以戶為單位判斷是否為貧困戶。在該分類過程中,根據(jù)以往的經(jīng)驗,工作人員通常會將收入、民族、健康狀況、受教育程度等因素作為“經(jīng)驗”訓(xùn)練貧困戶判斷的模型要素。這一過程往往需要3個流程:
第一階段:準(zhǔn)備階段。對收入、戶籍人數(shù)、健康狀況等特征屬性進(jìn)行劃分。
第二階段:訓(xùn)練階段。該階段將計算小壩村調(diào)查數(shù)據(jù)在每個類別的訓(xùn)練樣本中的出現(xiàn)頻率,并劃分特征屬性得到每個類別的條件概率。
第三階段:應(yīng)用階段。使用分類器對新數(shù)據(jù)分類,輸入分類器和新數(shù)據(jù),輸出新數(shù)據(jù)的分類結(jié)果。
本文用于樸素貝葉斯分類實驗的小數(shù)據(jù)來自小壩村截至2019年的219戶貧困戶監(jiān)測數(shù)據(jù),如表5所示。該表列出了用于訓(xùn)練的特征屬性樣本,其中一部分具有數(shù)值屬性,比如收入;一部分為非數(shù)值屬性,比如文化程度。實驗的目的是對這些具有混合屬性的數(shù)據(jù)設(shè)計基于小數(shù)據(jù)理論的脫貧攻堅樸素貝葉斯分類器。為了保護(hù)貧困戶隱私,表中姓名進(jìn)行了加*替換。
表5 樸素貝葉斯分類器訓(xùn)練樣本表
表5訓(xùn)練樣本列出了2014—2019年每戶的人均年收入數(shù)據(jù),最后一列“脫貧評估”是人工統(tǒng)計后給出的綜合決策。表格的第一和第二列對最后一列的脫貧評估不會造成影響,其余列均是綜合評估的特征指標(biāo)。“人數(shù)”列表示該戶共有多少人口,人數(shù)較多的戶口,其人均收入水平也會較低。設(shè)計該表的初衷在于發(fā)現(xiàn)脫貧與家庭人口數(shù)、民族、文化程度、健康及技能之間的關(guān)系。表中“#N/A”表示缺失,可計算一個平均值進(jìn)行替換,否則會影響識別正確率。對于該表,首先需要進(jìn)行數(shù)據(jù)預(yù)處理,然后使用開源數(shù)據(jù)分析工具實現(xiàn)樸素貝葉斯算法的性能分析。
WEKA是一款開源的機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘軟件[13],它把需要訓(xùn)練和推理的數(shù)據(jù)分成屬性和實例2個部分。一般情況下,對應(yīng)了表格的列對應(yīng)屬性,行則對應(yīng)實例,通過把表格轉(zhuǎn)換為ARFF文件從而可以依靠該工具實現(xiàn)樸素貝葉斯分析。由于WEKA不支持中文,首先需要把表5轉(zhuǎn)換為漢語拼音表格,然后去除序號、戶名2列對最終決策毫無影響的屬性。通常這種數(shù)據(jù)預(yù)處理過程會占用大量的工作時間,本文通過Python調(diào)用excel庫,把預(yù)處理的代碼發(fā)布于CSDN[14],可通過調(diào)用該代碼重現(xiàn)。
為了防止訓(xùn)練過程中的過擬合問題,通常將數(shù)據(jù)分為訓(xùn)練和測試集。由于測試集不參與訓(xùn)練,用于模型評估,這樣就會在小數(shù)據(jù)集上浪費了這部分?jǐn)?shù)據(jù),無法使模型達(dá)到最優(yōu)。采用K-Fold 交叉驗證能夠很好地解決這個問題,進(jìn)而利用全部數(shù)據(jù)構(gòu)建模型。交叉驗證又稱循環(huán)驗證。它將原始數(shù)據(jù)分成K組,然后對每個子集數(shù)據(jù)做一次驗證,剩下的K-1組子集數(shù)據(jù)用作訓(xùn)練,即可得到K個模型。最后對這K個模型驗證評估結(jié)果。交叉驗證能夠盡可能接近模型在測試集上的表現(xiàn)優(yōu)化模型。
針對表5的219個實例,應(yīng)用WEKA選擇樸素貝葉斯分類器,設(shè)定10折交叉驗證可以得到如下數(shù)據(jù):
=== Stratified cross-validation ====== Summary ===Correctly Classified Instances17278.5388%Incorrectly Classified Instances4721.4612%Kappa statistic0.133Mean absolute error0.1332Root mean squared error0.2875Relative absolute error100.6491%Root relative squared error113.8194%Total Number of Instances219
表5源自國辦系統(tǒng)的數(shù)據(jù)導(dǎo)出,從分類正確率來看,實例樣本還有很大的提升空間。Kappa指標(biāo)與分類器正確率成正相關(guān)關(guān)系,值域為[-1,1]且越接近1越好,訓(xùn)練數(shù)據(jù)集值為0.133,說明統(tǒng)計數(shù)據(jù)對最終脫貧評估分類具有良性的支撐作用;平均絕對誤差MAE為0.133 2,均方根誤差RMSE為0.287 5,也獲得了較好的數(shù)值范圍;然而,相對絕對誤差、根相對平方誤差的值則過于欠佳。這也恰恰說明了脫貧攻堅和鄉(xiāng)村振興需要科學(xué)的小數(shù)據(jù)分析方法促進(jìn)數(shù)據(jù)精準(zhǔn)率的提升。
基于WEKA樸素貝葉斯分類器的10折交叉驗證分析該數(shù)據(jù)集,還可得到如下的混淆矩陣:
可以看出主對角線上的樣本總計172例,錯誤的肯定得到的誤報數(shù)為24例,錯誤的否定得到的誤報數(shù)為23例。此外,基于WEKA的數(shù)據(jù)集分析還可得到準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲線、PR曲線等評價指標(biāo)參數(shù),能夠?qū)δP托ЧM(jìn)行科學(xué)評價,為后續(xù)算法改進(jìn)提供思路。
運用WEKA雖然可以方便地獲取數(shù)據(jù)集分析的效果,但在特征參數(shù)選取與分類上往往存在矛盾。雖然通過數(shù)據(jù)預(yù)處理,可以一定程度上減少一些無用特征,比如序號、姓名等,但是一些特征與最終分類的權(quán)重往往不能均分,比如2014—2019年的收入。顯然2019年的收入權(quán)重更大,但也不是說2014—2018年的收入沒有多少用。若收入屬于平穩(wěn)增長,則說明其返貧的概率要小得多。此外,“民族”特征屬性對最終分類顯然沒有因果關(guān)系,但卻又有一定的相關(guān)性,所以應(yīng)當(dāng)弱化其對最終分類的權(quán)重?;诖吮疚倪\用Python語言,以樸素貝葉斯分類公式(3)作為指導(dǎo)設(shè)計分類程序。
為了驗證算法的有效性,我校5名駐村工作人員隨機(jī)調(diào)查各抽取1戶數(shù)據(jù)形成測試集,如表6所示。
表6 樸素貝葉斯分類器測試樣本表Tab.6 Reasoning sample table of Naive Bayes Classifier
由于表6中序號、戶名兩列特征對最終推理結(jié)果分類不會產(chǎn)生任何貢獻(xiàn),導(dǎo)致程序的運行分類結(jié)果為:
測試 1 是 監(jiān)測戶
測試 2 是 監(jiān)測戶
測試 3 是 監(jiān)測戶
測試 4 是 監(jiān)測戶
測試 5 是 監(jiān)測戶
正確率: 0.4
顯然可以看出這是一個錯誤的分類。這是由于第一列和第二列特征的條件概率計算值為0造成的分類錯誤。為了消除這種分類錯誤,可以改進(jìn)公式(3)如下:
(4)
公式(4)中aj的作用在于屏蔽、開啟、強(qiáng)化或弱化特征系列對分類結(jié)果造成的影響。若aj=0,則該特征對應(yīng)概率為1,即表示屏蔽了該列特征對推理結(jié)果的影響;若aj=1,則該特征對應(yīng)概率不變,既沒有被強(qiáng)化,也沒有被弱化,以本征的方式開啟了樸素貝葉斯的推理運算;若0
為了消除序號、戶名2列特征對最終推理的影響,代入aj數(shù)列,即a=[0,0,1,1,1,1,1,1,1,1,1,1,1],然后再運行程序。所得結(jié)果與表6的人工統(tǒng)計結(jié)果存在1項偏差。主要是“測試2”的人工統(tǒng)計結(jié)果為“監(jiān)測戶”,而推理識別的結(jié)果為“脫貧戶”,使得正確率為0.8。代入aj數(shù)列,屏蔽序號、戶名可以得到程序運行的最終分類結(jié)果為:
測試1是未脫貧戶
測試 2是脫貧戶
測試 3是脫貧戶
測試 4是監(jiān)測戶
測試 5是未脫貧戶
正確率: 0.8
事實上監(jiān)測戶本來就被歸納為脫貧戶,由于兩者存在細(xì)微的數(shù)據(jù)差別,很難獲得正確的分類。駐村工作人員往往通過到戶走訪,根據(jù)自身的感覺最終劃分分類。由于測試集數(shù)據(jù)過少,識別正確率的實際值,可以通過增加測試數(shù)量獲得。最科學(xué)的方法就是從訓(xùn)練集中隨機(jī)抽取1/3的數(shù)據(jù)進(jìn)行10次交叉驗證[16]。也就是每次隨機(jī)抽取訓(xùn)練集中的71條數(shù)據(jù)作為測試數(shù)據(jù)代入推理。同時位于最后一列,即2019年收入的權(quán)重相對較高,為了強(qiáng)化其作用,設(shè)定系數(shù)為0.8,即把a(bǔ)j數(shù)列設(shè)定為a=[0,0,1,1,1,1,1,1,1,1,1,1,0.8],得到了交叉驗證準(zhǔn)確率統(tǒng)計表(表7)。
表7 交叉驗證準(zhǔn)確率Tab.7 Cross validation accuracy
其算術(shù)平均準(zhǔn)確率為0.893,這是一個相對較好的統(tǒng)計數(shù)據(jù),表明該方法在脫貧攻堅小數(shù)據(jù)分析中性能優(yōu)越。
當(dāng)然這種方法適用于在特定區(qū)域、特定時間段的數(shù)據(jù)分析。因為地區(qū)收入水平、民風(fēng)、民情、自然資源等存在差異,且認(rèn)定標(biāo)準(zhǔn)會隨時間變化,駐村工作人員統(tǒng)計標(biāo)準(zhǔn)不一,所以訓(xùn)練集并不能總是一成不變,應(yīng)當(dāng)使用最新數(shù)據(jù)更新訓(xùn)練集確保正確識別率。
在國家的貧困治理工作中,實現(xiàn)精準(zhǔn)幫扶始終是核心與關(guān)鍵。隨著大數(shù)據(jù)的火熱,小數(shù)據(jù)也以其獨特的魅力讓更多的學(xué)者注意到它。小數(shù)據(jù)側(cè)重個體、決定、精準(zhǔn)、因果的特性為精準(zhǔn)幫扶工作開創(chuàng)了新路徑。它針對個體,能夠從根源上提高扶貧的“精準(zhǔn)”度,在當(dāng)前扶貧攻堅的關(guān)鍵時期,具有幫助扶貧工作者作出決策、預(yù)防“大水漫灌”的風(fēng)險、測試幫扶成效、降低返貧風(fēng)險的科學(xué)價值。
本課題組常年駐村扶貧,深刻體會到通過采集、整理獲取小數(shù)據(jù)精準(zhǔn)樣本的重要性。本文致力于構(gòu)建脫貧攻堅小數(shù)據(jù)理論體系,應(yīng)用機(jī)器學(xué)習(xí)、數(shù)據(jù)理論中的推理方法和相關(guān)性分析方法,對扶貧工作中的數(shù)據(jù)進(jìn)行分析驗證,提出基于樸素貝葉斯的小數(shù)據(jù)分析方法。通過反復(fù)實踐,證明該方法計算簡便,能夠得出扶貧成效的準(zhǔn)確率,具有推廣使用的價值。