摘 要:人均純收入是反映區(qū)域經(jīng)濟(jì)發(fā)展水平的重要指標(biāo)。我國土地資源和人口資源分布不均勻以及農(nóng)村二三產(chǎn)業(yè)發(fā)展的差異性,導(dǎo)致農(nóng)村居民家庭人均純收入的不均衡。Fisher判別法和Bayes判別法具有很強(qiáng)的樣本分類能力。為全面和系統(tǒng)地研究農(nóng)村居民家庭人均純收入的情況,文章利用SPSS軟件通過Fisher判別法建立判別函數(shù),對待判樣本進(jìn)行分類,再運(yùn)用Bayes判別法對樣本進(jìn)行驗證。待判組的正確分組率為100%。原始樣本分類的正確率為96.43%,證明了聯(lián)合判別方法的有效性。
關(guān)鍵詞:判別分析 Fisher判別分析 Bayes判別分析 人均純收入
中圖分類號:O212.4 文獻(xiàn)標(biāo)識碼:A
文章編號:1004-4914(2013)07-061-03
我國是農(nóng)業(yè)大國,農(nóng)村人口總量巨大,國民經(jīng)濟(jì)要實現(xiàn)大的發(fā)展,就必須讓農(nóng)村居民收入有顯著性的增長。就目前情況看,我國地域廣博,但土地資源和人口分布密度各個區(qū)域并不相同,而且在農(nóng)村不同地域二三產(chǎn)業(yè)發(fā)展程度不同,共同導(dǎo)致農(nóng)村居民家庭人均純收入的顯著差異性。而農(nóng)村地區(qū)家庭人均純收入作為影響區(qū)域經(jīng)濟(jì)發(fā)展水平的重要指標(biāo),對其進(jìn)行研究,對地區(qū)經(jīng)濟(jì)政策的制定和調(diào)整有重要的指導(dǎo)意義。
一、費(fèi)歇判別法
(一)費(fèi)歇判別法的基本思想
Fisher判別法是利用投影技術(shù),將各組P維數(shù)據(jù)投影到某個方向,使得數(shù)據(jù)的投影組與組之間盡可能分開。
(二)費(fèi)歇判別法的基本原理
從兩個總體中抽取具有P個指標(biāo)的樣品觀測數(shù)據(jù),根據(jù)方差分析的思想造一個判別函數(shù)y=c1x1+c2x2+…+cpxp,其中系數(shù)c1,c2,…,cp確定的原則是使兩組間的區(qū)別最大,而使每個組內(nèi)部的離差最小。有了判別式后,對于一個新的樣品,將它的p個指標(biāo)值代入判別函數(shù)中求y值,然后與判別臨界值(或稱分界點(diǎn))進(jìn)行比較,就可以判別它應(yīng)屬于哪一個總體。
假設(shè)有兩個總體G1、G2,從第一個總體中抽取n1個樣品,從第二個總體中抽取n2個樣品,假設(shè)新建立的判別函數(shù)為y=c1x1+c2x2+…+cpxp,現(xiàn)將屬于不同總體的樣品觀測值代入判別函數(shù)中,得:yi(1)=c1xi1(1)+c2xi2(1)+…+cpxip(1),i=1,…n1,yi(2)=c1xi1(2)+c2xi2(2)+…+cpxip(2),i=1,…n2。
對上邊兩式分別左右相加,再除以相應(yīng)的樣品個數(shù),則有:
二、貝葉斯判別法
(一)貝葉斯判別法的基本思想
假定對研究的對象以有一定的認(rèn)識,常用先驗概率分布來描述這種認(rèn)識,然后我們?nèi)〉靡粋€樣本用樣本來修正已有的認(rèn)識,得到后驗概率分布,各種統(tǒng)計推斷都是通過后驗概率分布來進(jìn)行。將Bayes思想運(yùn)用到判別分析中的判別方法就是Bayes判別法。
(二)貝葉斯判別法的基本原理
設(shè)有兩個總體,它們的先驗概率分別為q1、q2,各總體的密度函數(shù)為f1(x)、f2(x),在觀測到一個樣本x的情況下,可用貝葉斯公式計算它來自第k個總體的后驗概率為:
三、數(shù)據(jù)選取
(一)數(shù)據(jù)來源
數(shù)據(jù)來自《中國國家統(tǒng)計局網(wǎng)站——分地區(qū)農(nóng)村居民家庭基本情況——人均純收入——2011年》。數(shù)據(jù)的含義如下:
x1:工資性收入,x2:家庭經(jīng)營純收入,x3:財產(chǎn)性收入,x4:轉(zhuǎn)移性收入。數(shù)據(jù)表見下頁。
(二)數(shù)據(jù)分類
對于表中的數(shù)據(jù),按照家庭人均純收入總額=7000作為劃分標(biāo)準(zhǔn),把遼寧、天津、北京、山東、上海、浙江、福建、廣東、吉林、黑龍江、河北歸為第一組;把內(nèi)蒙古、山西、河南、湖北、湖南、廣西、重慶、江西、海南、甘肅、寧夏、四川、云南、貴州、青海、新疆、西藏歸為第二組;把江蘇、安徽、陜西歸為待判樣品。
(三)數(shù)據(jù)處理
選擇使用SPSS19.0,該軟件擁有大量成熟的統(tǒng)計分析方法、完善的數(shù)據(jù)定義操作管理、開放的數(shù)據(jù)接口以及靈活的統(tǒng)計表格和統(tǒng)計圖形。
打開SPSS19.0選擇Type in data選項,然后按要求將原始數(shù)據(jù)輸入得到。
現(xiàn)在SPSS軟件中執(zhí)行下列操作:
1.選擇“analyze”→“classify”→“discriminate”.
2.將左邊“組別”選入“grouping variable”分組變量中,其他的解釋變量“x1”至“x4”放入因變量中。
3.選擇【define range】,范圍為1到2,最小值輸入1,最大值輸入2,然后單擊【continue】返回。
4.選擇【Independents】,單擊【Enter independents together】,然后單擊【continue】返回。
5.單擊【statistics】,選擇“function coefficients”內(nèi)所有選項,然后單擊【continue】返回。
6.單擊【classify…】,選擇“all groups equal”、“casewise results”、“within-group”,單擊【continue】返回。
7.單擊【save…】,選擇項下三欄,單擊【continue】返回,單擊【OK】確定。
(四)結(jié)果分析
總共有31個樣本,其中有28個樣本參加判別分析,3個樣本為待判樣本。
dis1_2是樣本屬于第一組的后驗概率,dis2_2是樣本屬于第二組的后驗概率。
原始數(shù)據(jù)及處理結(jié)果:
判別分析方法的判別小結(jié),v1是原分組,dis_1是實際分組,dis1_1是判別得分,dis1_2是樣本屬于第一組的后驗概率,dis2_2是樣本屬于第二組的后驗概率。對照v1和dis_1可以看出,誤判的有一個樣品:第3號(河北),它由第2類誤判為第1類。原分組的正確分組率為96.43%,錯誤率為3.57%,待判組的正確分組率為100%。
(五)結(jié)束語
判別分析是統(tǒng)計科學(xué)的一個重要分支,隨著社會的進(jìn)步,判別分析已被廣泛應(yīng)用到社會的各個領(lǐng)域。本文利用判別分析對影響地區(qū)經(jīng)濟(jì)增長的農(nóng)村居民家庭基本情況——人均純收入,進(jìn)行了比較透徹的分析。得出了以下觀點(diǎn):
第一,在有多個變量影響的分類過程中,簡單的以某個方法作為分類標(biāo)準(zhǔn),很可能會出現(xiàn)誤判。而用聯(lián)合方法對該分類問題進(jìn)行判別就能在很大程度上避免誤判。
第二,當(dāng)一個問題中所要研究的變量太多、太雜,從而使解決問題所需的計算量極大時,用多種判別方法對問題進(jìn)行處理會有助于問題的解決。
第三,人均純收入對經(jīng)濟(jì)發(fā)展有著重要的影響,各地方政府應(yīng)根據(jù)實際情況,制定有利于本地區(qū)經(jīng)濟(jì)發(fā)展的合理政策,使人民收入得到提升。
【基金項目:黑龍江科技大學(xué)教研項目,項目編號:JY13-166】
參考文獻(xiàn):
1.何曉群.多元統(tǒng)計分析(第二版)[M].北京:中國人民大學(xué)出版社,2008
2.于秀林,任雪松.多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,1999
3.孫文爽,陳蘭祥.多元統(tǒng)計分析[M].北京:高等教育出版社,1994
4.孫堯庭,方開泰.多元統(tǒng)計分析引論[M].北京:科學(xué)出版社,1999
5.張文彤,董偉.SPSS軟件分析高級教程[M].北京:高等教育出版社,2004
(作者單位:黑龍江科技大學(xué)理學(xué)院 黑龍江哈爾濱 150022)
(責(zé)編:賈偉)