摘要:研究了貝葉斯網(wǎng)絡(luò)模型在農(nóng)民工進(jìn)城行為去留的預(yù)測問題中的應(yīng)用。在農(nóng)民工信息行為調(diào)研數(shù)據(jù)的基礎(chǔ)上,首先進(jìn)行卡方檢驗(yàn)排除無關(guān)變量,再利用clementine 12.0數(shù)據(jù)挖掘軟件觀察對比TAN、Markov、Markov-FS三個不同的貝葉斯網(wǎng)絡(luò)模型預(yù)測效果,結(jié)果說明在相同情況下Markov-FS預(yù)測效果最好,適用于農(nóng)民工去留行為預(yù)測分析問題,從信息行為角度進(jìn)行研究,對民工荒問題的解決具有參考價值。
關(guān)鍵詞:民工荒;信息行為;貝葉斯網(wǎng)絡(luò);數(shù)據(jù)挖掘
中圖分類號:TP311.53 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 20-0000-02
1 引言
近年來,隨著內(nèi)陸經(jīng)濟(jì)的發(fā)展,中國多省市出現(xiàn)了“民工荒”現(xiàn)象。學(xué)者們對“民工荒”現(xiàn)象的原因進(jìn)行的多方面的分析,但是主要都是集中在以下幾個方面進(jìn)行分析:(1)結(jié)構(gòu)性招工短缺的矛盾;(2)新生代農(nóng)民工的性特點(diǎn);(3)中國城鄉(xiāng)二元結(jié)構(gòu);(4)金融危機(jī)的余震;(5)中國的經(jīng)濟(jì)結(jié)構(gòu)問題;(6)中國農(nóng)村教育問題;(7)農(nóng)民工待遇問題;(8)中國三農(nóng)投入的等方面進(jìn)行分析,具有一定的意義,但卻未能夠完全洞悉“民工荒”問題的根源。如果針對農(nóng)民工的各項(xiàng)服務(wù)沒有跟上,“用工荒”現(xiàn)象就難以消除,農(nóng)民工信息服務(wù)更是重要。
本文以國家社會科學(xué)基金項(xiàng)目“農(nóng)民工信息行為與信息服務(wù)策略研究”(項(xiàng)目編號:09BTQ008)為背景。以抽樣調(diào)查為基礎(chǔ),通過對廣東農(nóng)民工群體的實(shí)地調(diào)研,分析了農(nóng)民工信息行為的現(xiàn)狀。運(yùn)用SPSS 19.0對農(nóng)民工信息行為計量的主要研究內(nèi)容,包括信息需求,信息查尋渠道,獲取信息過程中遇到困難,信息獲取的動機(jī),信息吸收與信息利用,信息評價等七部分的變量進(jìn)行卡方檢驗(yàn),排除無關(guān)變量,再利用SPSS Clementine 12數(shù)據(jù)挖掘軟件,對比TAN、Markov、Markov-FS三個不同的貝葉斯網(wǎng)絡(luò)模型預(yù)測效果,選擇最好的貝葉斯網(wǎng)絡(luò)模型,為以后農(nóng)民工去留問題預(yù)測提供參考。
2 數(shù)據(jù)預(yù)處理——卡方差異性檢驗(yàn)
項(xiàng)目組采用問卷調(diào)查方式對以廣東為主輻射全國地區(qū)的農(nóng)民工進(jìn)行整群抽樣和偶遇抽樣,得到2930份有效問卷。由于變量太多,我們必須進(jìn)行預(yù)處理,排除無關(guān)的變量,我們這里就可以運(yùn)用SPSS進(jìn)行卡方檢驗(yàn):卡方獨(dú)立性檢驗(yàn)用于檢驗(yàn)兩個或兩個以上因素(各有兩項(xiàng)或以上的分類)之間是否相互影響的問題。當(dāng)相比較樣本的差別是由本身內(nèi)在因素引起而非抽樣誤差所致時,卡方值就大,相應(yīng)的P值—反映由抽樣誤差引起的樣本差別的概率就小。這時就稱兩樣本差別“有顯著性”或“有高度顯著性”。反之,卡方值越小,P值就越大,則稱兩樣本差別“無顯著性”。步驟如下:
2.1 建立檢驗(yàn)假設(shè)并確定檢驗(yàn)水準(zhǔn)
首先檢驗(yàn)農(nóng)民工在城市去留與否農(nóng)民工信息行為變量等之間的差異性,設(shè):
H0:是否離開城市與農(nóng)民工信息行為變量之間相互獨(dú)立,構(gòu)成比沒有差異。
H1:是否離開城市與農(nóng)民工信息行為變量之間不相互獨(dú)立,構(gòu)成比存在差異。
2.2 計算檢驗(yàn)統(tǒng)計量,卡方值則由下式計算
(1)
式中: 。
2.3 計算出卡方值后,再根據(jù)自由度df=(R-1)(C-1)查有關(guān)的卡方值表,從而判別各組樣本間差別的顯著性。當(dāng)x2≥x20.01時,P≤0.01,差別有高度顯著性;當(dāng)x20.01≥x2≥x20.05時,0.01≤P≤0.05,差別有顯著性;當(dāng)x2
農(nóng)民工基本信息10項(xiàng)剩下:①來自哪里,③年齡,④文化程度,⑥在城鎮(zhèn)打工時間,⑧您的個人年收入,⑨外出務(wù)工原因,⑩外出時間計劃。
信息的需求7項(xiàng)剩下:②職業(yè)培訓(xùn),③社會保障,④權(quán)益維護(hù),⑤子女教育,⑥生活文化,⑦政府政策。
信息查尋渠道12項(xiàng)剩下:②報刊、雜志,⑥廣播,⑨朋友、家人親戚或鄰居,⑩互聯(lián)網(wǎng)。
獲取信息過程中遇到困難7項(xiàng)剩下:③不知道如何使用工具(手機(jī)、互聯(lián)網(wǎng)等),⑤虛假信息太多,⑦信息獲取成本太高(如求職中介費(fèi)太貴)。
信息獲取的動機(jī)6項(xiàng)剩下:②仿照那些成功獲得信息的人,使用與他們相同的信息渠道,③獲取信息工作及生活更加便捷,④需要尋求各種職位升遷的機(jī)會,⑤金融危機(jī)下,加強(qiáng)職業(yè)技能,避免被裁退。
信息吸收與信息利用4項(xiàng)剩下:③能夠充分利用現(xiàn)有的信息渠道獲得我想要的信息,④能夠根據(jù)獲得的信息順利解決想要解決的問題。
信息服務(wù)的評價3項(xiàng)剩下:①對政府提供的關(guān)于務(wù)工人員信息服務(wù)質(zhì)量感到滿意,③持續(xù)主動搜集政府關(guān)于務(wù)工人員相關(guān)信息。
3 貝葉斯網(wǎng)絡(luò)
貝葉斯分類判斷模型是基于貝葉斯定理構(gòu)造出來的一個統(tǒng)計分類器,能夠預(yù)測數(shù)據(jù)對象類別所屬的概率。在處理規(guī)模數(shù)據(jù)庫時,貝葉斯分類判斷模型表現(xiàn)出較高的分類準(zhǔn)確性和運(yùn)算性能[1]。從理論上講,貝葉斯分類模型具有最小的錯誤率。
3.1 樹擴(kuò)展的樸素貝葉斯分類模型(TAN)
TAN貝葉斯網(wǎng)絡(luò)要求屬性結(jié)點(diǎn)除類結(jié)點(diǎn)為父結(jié)點(diǎn)外最多只能有一個屬性父結(jié)點(diǎn),其中{X,,{X1,X2,…,Xn}}構(gòu)成一棵樹,TAN貝葉斯網(wǎng)絡(luò)被這棵樹所唯一確定,而樹可被函數(shù)π:{l,……,n}→{0,l…,n}(使π(i)=0。的結(jié)點(diǎn)為父結(jié)點(diǎn),不存在序列i1,…ik使得π(ij)=ij+1(其中i≤j
(2)
具有最大似然的TAN貝葉斯網(wǎng)絡(luò)構(gòu)造過程如下:
(1)通過訓(xùn)練集計算屬性對之間的條件互信息I^pd(Ai,Aj|C)。
(2)建立一個以I^pd(Ai,Aj|C))為弧的權(quán)重的加權(quán)完全無向圖。
(3)建立一個最大權(quán)重跨度樹。
(4)選擇一個根結(jié)點(diǎn),設(shè)置所有邊的方向是由根結(jié)點(diǎn)向外,把無向樹轉(zhuǎn)換為有向樹。
(5)增加一個類變量結(jié)點(diǎn)及類變量結(jié)點(diǎn)與屬性結(jié)點(diǎn)之間的弧[2]。
3.2 馬爾可夫毯(Markov Blanket)
馬爾科夫毯[3],是滿足如下特性的一個最小特征子集:一個特征在其馬爾科夫毯條件下,與特征域中所有其他特征條件獨(dú)立。設(shè)特征T的馬爾科夫毯為MB(T),則上述可表示為:
P(T|MB(T))=P(T|Y,MB(T)) (3)
其中Y為特征域中的所有非馬爾科夫毯結(jié)點(diǎn),這是馬爾科夫毯的最直接的定義。
關(guān)于某一特征的馬爾科夫毯在貝葉斯網(wǎng)絡(luò)中的表現(xiàn)形式是該特征(即該結(jié)點(diǎn))的父結(jié)點(diǎn)、子結(jié)點(diǎn)以及子結(jié)點(diǎn)的父結(jié)點(diǎn)。普遍認(rèn)為,當(dāng)特征完全關(guān)聯(lián)時,特征是冗余的,但是在當(dāng)兩個特征部分關(guān)聯(lián)時,就不容易區(qū)分他們是否冗余。馬爾可夫毯就是根據(jù)特征冗余來進(jìn)行選擇的最優(yōu)子集計算方法。
4 貝葉斯網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)嵶C分析
我們其中一個選項(xiàng)12外出時間計劃是:①暫時隨親友做一段時間,②看一看,無合適的工作就回家,③賺到一定錢,就回家鄉(xiāng),④學(xué)到東西就回家鄉(xiāng)自己創(chuàng)業(yè),⑤有計劃在此地發(fā)展,⑥就想在此地發(fā)展、不想回家鄉(xiāng)了,⑦其它,我們將前①②③④項(xiàng)合并為是留在城市發(fā)展,⑤⑥⑦合并為不是留在城市發(fā)展。用SPSS 19.0軟件分析頻率得到:
其中有60.9%的農(nóng)民工選擇回鄉(xiāng),有39.1%的農(nóng)民工選擇留在城市發(fā)展。為了通過農(nóng)民工的基本信息以及信息行為預(yù)測其是否留在城市發(fā)展,我們利用Clementine 12.0數(shù)據(jù)挖掘軟件,對建立農(nóng)民工信息行為判斷其去留與否,首先,添加SPSS文件為源節(jié)點(diǎn),然后,構(gòu)建了多個不同類型:樹擴(kuò)展樸素貝葉斯(TAN)模型的貝葉斯網(wǎng)絡(luò),馬爾可夫毯(Markov Blanket)以及使用了特征選擇預(yù)處理的馬爾可夫毯來選擇與目標(biāo)變量有重大關(guān)聯(lián)的輸入模型,對它們進(jìn)行比較從而明確哪些模型可提供最好的預(yù)測如圖1。
運(yùn)行這三個貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)以生成模型,通過構(gòu)建一個收益圖表以及節(jié)點(diǎn)預(yù)測準(zhǔn)確率對比分析。比較模型的預(yù)測準(zhǔn)確性,如圖2所示:
由分析結(jié)果可知,相對于TAN模型以及Markov模型的準(zhǔn)確率26.69%,Markov-FS的預(yù)測準(zhǔn)確性高達(dá)91.81%,它是對于農(nóng)民工行為分析預(yù)測的有效方法。
5 結(jié)論
本文以國家社會科學(xué)基金項(xiàng)目“農(nóng)民工信息行為與信息服務(wù)策略研究”為背景。在抽樣調(diào)查的數(shù)據(jù)基礎(chǔ)上,運(yùn)用了SPSS卡方檢驗(yàn)排除無關(guān)變量,大大縮減了數(shù)據(jù)挖掘的計算量,再利用clementine 12.0數(shù)據(jù)挖掘軟件觀察對比TAN、Markov、Markov-FS三個不同的貝葉斯網(wǎng)絡(luò)模型預(yù)測效果與實(shí)際的數(shù)據(jù),結(jié)果說明在相同情況下Markov-FS預(yù)測效果最好,說明其適用于農(nóng)民工去留行為預(yù)測分析問題,從信息行為角度進(jìn)行研究,對民工荒問題的解決具有參考價值。
參考文獻(xiàn):
[1]李旭升,郭耀煌.一種新穎貝葉斯混合模型研究[J].計算機(jī)科學(xué),2006,9:125-139.
[2]張劍飛.貝葉斯網(wǎng)絡(luò)學(xué)習(xí)方法和算法研究[D].長春:東北師范大學(xué)碩士學(xué)位論文,2005:46-80
[3]王雙成,苑森淼,王輝.基于貝葉斯網(wǎng)絡(luò)的馬爾科夫毯預(yù)測學(xué)習(xí)[J].模式識別與人工智能,2004,1:17-21.