□魏 赟
(蘭州城市學(xué)院電子與信息工程學(xué)院 甘肅 蘭州 730070)
甘肅省土地面積約占全國總土地面積的4.7%,域內(nèi)有黃河、長江、內(nèi)陸河三大流域,處于黃土高原、內(nèi)蒙古高原和青藏高原的交錯地帶,境內(nèi)河谷縱橫,山多川少,海拔除局部低于1 000 m 外,一般在1 000~3 000 m 之間,是山地型高原區(qū),自然條件復(fù)雜,有山地、高原、丘陵、盆地、河谷、平原等多種地貌,各市(州)區(qū)域間差異性較大。降雨量從西向東逐步增加,西部降雨量最低在50 mm 以下,最高在隴南市和甘南藏族自治州部分,在600 mm 以上,有干旱、半干旱、半濕潤、濕潤四大類型地帶。由于地區(qū)差異較大,發(fā)展理念不同,從而導(dǎo)致農(nóng)業(yè)生產(chǎn)水平、農(nóng)作物種植方式、農(nóng)業(yè)生產(chǎn)資料投入量、農(nóng)業(yè)生產(chǎn)產(chǎn)出、土地承載力、農(nóng)民勞作方式等方面存在很大差異。
為了分析甘肅省各市(州)農(nóng)業(yè)綜合實(shí)力的動態(tài)變化以及對農(nóng)村居民人均可支配收入帶來的影響,利用動態(tài)聚類分析法、貝葉斯準(zhǔn)則多類逐步判別分析方法對1995 年、2005 年、2015 年、2018 年甘肅省14 個市(州)農(nóng)業(yè)綜合生產(chǎn)力的動態(tài)變化進(jìn)行分析。
動態(tài)聚類又稱為逐步聚類方法,其聚類的步驟是,先按照一定的方法選取一批凝聚點(diǎn),然后讓其余樣品向凝聚點(diǎn)凝聚,這樣由點(diǎn)逐漸凝聚成類,得到初始的分類。但由于初始的分類不一定合理,必須進(jìn)行修改,常用的辦法是按照最近距離原則修改不合理的分類,直到分類趨于合理為止[1-3]。動態(tài)分類凝聚點(diǎn)的選擇與分類方式如下。
(1)凝聚點(diǎn)的選擇。凝聚點(diǎn)是一批被當(dāng)成類中心的具有代表性的點(diǎn)。第一種方法是根據(jù)經(jīng)驗(yàn)選擇凝聚點(diǎn),即依據(jù)專家經(jīng)驗(yàn),預(yù)先將樣品分為若干類,并從每一類中選擇一個具有代表性的樣品作為凝聚點(diǎn)。第二種方法是只確定預(yù)分的類,然后通過計(jì)算得到每一類的重心,將這些重心作為凝聚點(diǎn)。第三種方法是用密度法選擇凝聚點(diǎn),即以某個整數(shù)d為半徑,在m維空間中,落在以d為半徑的球體內(nèi)的樣品數(shù),稱為以該樣品為中心的空間中點(diǎn)的密度。當(dāng)計(jì)算好所有樣品點(diǎn)的密度后,首先選擇密度最大的樣品作為第一凝聚點(diǎn),并且人為地確定一個整數(shù)D,然后選出第二大密度的點(diǎn),如果該點(diǎn)與第一凝聚點(diǎn)的距離大于D,則作為第二凝聚點(diǎn),否則該點(diǎn)就不能作為凝聚點(diǎn),這樣依次進(jìn)行,直到全部樣品選擇完畢。第四種方法是用前K個樣品作為凝聚點(diǎn)。本研究采用第二種方法進(jìn)行動態(tài)聚類分析。
(2)初始分類。第一種方法是憑經(jīng)驗(yàn)人為地將樣品進(jìn)行初步分類。第二種方法是選擇凝聚點(diǎn)后每個樣品按照與其最近距離的凝聚點(diǎn)進(jìn)行歸類。第三種方法是選擇一批凝聚點(diǎn)后每個凝聚點(diǎn)自成一類,將樣品依次歸入其距離最近的凝聚點(diǎn)的第一類,并立即重新計(jì)算該類的重心,以代替原來的凝聚點(diǎn),再計(jì)算下一個樣品的凝聚點(diǎn),直到所有樣品都?xì)w類為止。第四種初始分類方法先將樣品的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,用Xij表示已標(biāo)準(zhǔn)化處理后的第i個樣品第j個指標(biāo)。采用第四種初始分類方法進(jìn)行處理。
欲將全部樣本分為K類,對于每一個樣本計(jì)算見下式。
如果與這個數(shù)接近的整數(shù)為k,則將樣本xi歸入第k類。
(3)分類函數(shù)。動態(tài)聚類的方法很多,有按批修改法、逐個修改法和等混合法。動態(tài)聚類的不同方法主要是以修改分類的不同原則來區(qū)分。下面主要討論按批修改方法。在按批修改法中,每一步修改都將使對應(yīng)的分類函數(shù)縮小,并且分類函數(shù)最終趨于定值,即計(jì)算過程是收斂的。
假定x1、x2、…、xn表示n個樣品點(diǎn),初始分類為K類,即G1、G2、…、Gk,重心記為,每類樣品數(shù)記為n1、n2、…、nk。
定義Xi與類GJ的距離,見下式。
定義分函數(shù),見下式。
式中:L(i)表示xi所屬類的標(biāo)號。
按批修改的原理就是,使式(6)的分類函數(shù)逐漸減小,直至不能再減小為止。該式所定義的分類函數(shù),實(shí)質(zhì)上是系統(tǒng)聚類中的離差平方和。
根據(jù)動態(tài)聚類分析法,得出對某類樣品的分類結(jié)果,但分類的結(jié)果是否完全合理,需要利用其他方法進(jìn)行驗(yàn)證分析,利用貝葉斯準(zhǔn)則多類逐步判別分析方法,對動態(tài)聚類分析結(jié)果進(jìn)行判別分類。具體計(jì)算過程:根據(jù)威爾克斯統(tǒng)計(jì)量挑選對分類影響最大的變量,在貝葉斯準(zhǔn)則下建立判別函數(shù),進(jìn)行多類判別,從而確定樣品的最可能歸類。
對于一個具有p個指標(biāo)的樣品,要判斷其歸類于m個組中的哪一組。判別分析的任務(wù)是把p維空間按照某種準(zhǔn)則劃分為互不相交的g個區(qū)域R1、R2、R3、…、Rg,并把待判樣品X看成是p維空間的一個點(diǎn),通過計(jì)算該樣品屬于m個組的條件概率大小,經(jīng)比較后將這個樣品歸入概率最大的一組內(nèi)。
分析計(jì)算中對于給定的總體先驗(yàn)概率,平均損失為最小的劃分空間規(guī)則稱為貝葉斯準(zhǔn)則,劃分結(jié)果的Ri稱為關(guān)于總體先驗(yàn)概率的貝葉斯解。
對于第i個總體的第t個子樣,一般采用下面的計(jì)算公式得到總體參數(shù)均值向量和協(xié)方差矩陣,具體見下式。
對于所建立的判別函數(shù)的檢驗(yàn),可采用維爾克斯統(tǒng)計(jì)量∧。
式中:W為組內(nèi)方差協(xié)方差矩陣,B為組間方差協(xié)方差矩陣,X為總體的均值向量,計(jì)算公式如下。
為了實(shí)現(xiàn)逐步計(jì)算,同樣利用矩陣變化法,對于T、W作如下變化,以W為例,見下式。
式中:r為待處理變量號,l為變換的步數(shù)。
如果在第l步時已入選L個變量,現(xiàn)在要檢驗(yàn)第r個變量是否應(yīng)入選,應(yīng)計(jì)算下列F統(tǒng)計(jì)量,見下式。
如果F≤F2,則認(rèn)為該判別能力不顯著,應(yīng)予以剔除,F(xiàn)2亦事先規(guī)定。在規(guī)定了F1和F2以后,利用上述方法一直繼續(xù)到既無已選變量可舍去,又無未選變量可入選為止。利用入選的一組判別變量,可按照貝葉斯準(zhǔn)則建立判別函數(shù)。
在實(shí)際計(jì)算分析時,分以下兩個過程進(jìn)行。先進(jìn)行動態(tài)聚類分析,在此基礎(chǔ)上,將已分類的結(jié)果作為貝葉斯準(zhǔn)則多類逐步判別分析的預(yù)分類,再進(jìn)行判別分析。分析時所用的數(shù)據(jù)從1995 年開始,到2018 年結(jié)束,均采用《甘肅年鑒》《甘肅發(fā)展年鑒》中的數(shù)據(jù)。農(nóng)業(yè)綜合實(shí)力由甘肅省14 個市(州)的農(nóng)業(yè)人口(萬人)、耕地面積(hm2)、農(nóng)作物播種面積(千hm2)、糧食總產(chǎn)量(萬t)、當(dāng)年出欄牛豬羊總數(shù)(萬頭只)、農(nóng)林牧漁總產(chǎn)值(萬元)、農(nóng)業(yè)總產(chǎn)值(萬元)、農(nóng)村居民人均可支配收入(元)、社會消費(fèi)品零售總額(萬元)、農(nóng)林牧漁從業(yè)人員(萬人)、農(nóng)業(yè)機(jī)械總動力(萬kW)、農(nóng)村用電量(萬kW·h)、化肥施用折純量(t)等13 個指標(biāo)構(gòu)成。
甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力的動態(tài)聚類分析采用第二種方法,預(yù)先分為4 類,即農(nóng)業(yè)綜合實(shí)力分為強(qiáng)、較強(qiáng)、較弱、弱[4]。利用甘肅省1995 年《甘肅年鑒》《甘肅發(fā)展年鑒》中的農(nóng)業(yè)生產(chǎn)數(shù)據(jù),由式(1)~式(6),對甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力進(jìn)行動態(tài)聚類分析,所得結(jié)果見表1。
根據(jù)表1 的分類結(jié)果,酒泉市、張掖市、威武市為第4 類,農(nóng)業(yè)綜合實(shí)力為強(qiáng);天水市、定西市、隴南市、平?jīng)鍪小c陽市為第3 類,農(nóng)業(yè)綜合實(shí)力為較強(qiáng);蘭州市、白銀市、臨夏回族自治州為第2 類,農(nóng)業(yè)綜合實(shí)力為較弱;嘉峪關(guān)市、金昌市、甘南藏族自治州為第1類,農(nóng)業(yè)綜合實(shí)力為弱。
表1 1995 年甘肅省14 個市(州)農(nóng)業(yè)綜合實(shí)力動態(tài)聚類分析結(jié)果
為了驗(yàn)證上述分類結(jié)果的正確性,將動態(tài)聚類分析的分類結(jié)果作為貝葉斯準(zhǔn)則多類逐步判別分析的預(yù)分類進(jìn)行判別分析,分析所用的原始數(shù)據(jù)和動態(tài)聚類分析的數(shù)據(jù)完全一樣。由式(7)~式(16),對甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力進(jìn)行貝葉斯準(zhǔn)則逐步判別分析,所得結(jié)果見表2、表3、表4。在貝葉斯準(zhǔn)則逐步判別分析的計(jì)算過程中,挑選變量和剔除變量所用的F1、F2值均為1。2005 年、2015 年、2018 年的F1、F2值完全相同。
表2 貝葉斯準(zhǔn)則逐步判別分析挑選變量的結(jié)果(1995 年)
表3 判別系數(shù)(未選入變量系數(shù)為0,1995 年)
表4 貝葉斯準(zhǔn)則逐步判別分析結(jié)果(1995 年)
1995 年對甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力進(jìn)行貝葉斯準(zhǔn)則逐步判別分析時,按照弱、較弱、較強(qiáng)、強(qiáng)4 種類型進(jìn)行分類,與之對應(yīng)的有4 類判別函數(shù)。在表3 中,第1 類、第2 類、第3 類、第4 類這4 列的14 個判別系數(shù),分別構(gòu)成農(nóng)業(yè)綜合實(shí)力為弱、較弱、較強(qiáng)、強(qiáng)4 種類型的判別函數(shù),其中對應(yīng)當(dāng)年出欄牛豬羊總數(shù)、農(nóng)業(yè)總產(chǎn)值、農(nóng)村用電量這3 個指標(biāo)的判別系數(shù)為0。
由于威爾克斯統(tǒng)計(jì)量的分布函數(shù)相當(dāng)復(fù)雜,一般采用巴特萊特近似式將其與χ2分布聯(lián)系起來。威爾克斯統(tǒng)計(jì)量和χ2的計(jì)算結(jié)果見表2 的第5 列、第6列。表2 引入變量的自由度為10×(4-1)=30,近似服從于分布χ2(30)。查表得χ20.001(30)=59.703,計(jì)算出威爾克斯統(tǒng)計(jì)量的檢驗(yàn)值χ2=100.801 271 8>χ20.001(30),說明表2 引入的10 個變量構(gòu)成的判別函數(shù)達(dá)到極顯著水平,完全能夠?qū)Ω拭C省14 個市(州)農(nóng)業(yè)綜合實(shí)力進(jìn)行判別分析。
在表4 中,第3 列“回判后新的樣品分類號”的數(shù)據(jù)是貝葉斯準(zhǔn)則逐步判別分析的結(jié)果,可見利用動態(tài)聚類分析所得結(jié)果與貝葉斯準(zhǔn)則多類逐步判別分析的結(jié)果完全一樣。由此說明,1995 年甘肅省14 個市(州)農(nóng)業(yè)綜合實(shí)力的分類結(jié)果準(zhǔn)確。
動態(tài)聚類分析、貝葉斯準(zhǔn)則逐步判別分析所采用的原始數(shù)據(jù)為2005 年甘肅省14 個市(州)的農(nóng)業(yè)生產(chǎn)數(shù)據(jù),分析方法與前面相同,計(jì)算結(jié)果分別見表5、表6、表7、表8。
表5 2005 年甘肅省14 個市(州)農(nóng)業(yè)綜合實(shí)力動態(tài)聚類分類結(jié)果
表6 貝葉斯準(zhǔn)則逐步判別分析挑選變量的結(jié)果(2005 年)
表7 判別系數(shù)(未選入變量系數(shù)為0,2005 年)
表8 貝葉斯準(zhǔn)則多類逐步判別分析結(jié)果(2005 年)
根據(jù)表5 的最終分類結(jié)果可知,張掖市、威武市為第4 類,農(nóng)業(yè)綜合實(shí)力為強(qiáng);天水市、平?jīng)鍪?、慶陽市、定西市、隴南市為第3 類,農(nóng)業(yè)綜合實(shí)力為較強(qiáng);蘭州市、白銀市、酒泉市、臨夏回族自治州為第2 類,農(nóng)業(yè)綜合實(shí)力為較弱。與表1 相比,酒泉市的分類由第4 類變?yōu)榈? 類,農(nóng)業(yè)綜合實(shí)力由強(qiáng)下降為較弱;嘉峪關(guān)市、金昌市、甘南藏族自治州為第1 類,農(nóng)業(yè)綜合實(shí)力為弱。
表6 中引入變量的自由度為5×(4-1)=15,近似服從于分布χ2(15)。查表得χ20.001(15)=37.697,計(jì)算出威爾克斯統(tǒng)計(jì)量的檢驗(yàn)值χ2=58.950 695 99>χ20.001(15),說明表6 中引入的5 個變量構(gòu)成的判別函數(shù)達(dá)到極顯著水平,對甘肅省14 個市(州)農(nóng)業(yè)綜合實(shí)力進(jìn)行判別分析,結(jié)果可信度高。
2005 年對甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力進(jìn)行貝葉斯準(zhǔn)則逐步判別分析時,分類方法同前。在表7 中,第1 類、第2 類、第3 類、第4 類這4 列的14 個判別系數(shù)分別構(gòu)成4 類判別函數(shù)。其中,對應(yīng)耕地面積、當(dāng)年出欄牛豬羊總數(shù)、農(nóng)林牧漁總產(chǎn)值、農(nóng)村居民人均可支配收入、社會消費(fèi)品零售總額、農(nóng)林牧漁從業(yè)人員、農(nóng)村用電量、化肥施用折純量8 個指標(biāo)的判別系數(shù)為0。
根據(jù)甘肅省14 個市(州)2005 年農(nóng)業(yè)生產(chǎn)數(shù)據(jù),利用貝葉斯準(zhǔn)則多類逐步判別分析進(jìn)行判別分類,與動態(tài)聚類分析的結(jié)果一致。因此,2005 年甘肅省14 個市(州)農(nóng)業(yè)綜合實(shí)力的分類結(jié)果同樣是可信的。
動態(tài)聚類分析、貝葉斯準(zhǔn)則逐步判別分析計(jì)算時所用的原始數(shù)據(jù)為2015 年甘肅省14 個市(州)的農(nóng)業(yè)生產(chǎn)數(shù)據(jù),計(jì)算方法同前,具體的結(jié)果見表9、表10、表11、表12。
表9 2015 年甘肅省14 個市(州)農(nóng)業(yè)綜合實(shí)力動態(tài)聚類分析結(jié)果
表10 逐步挑選變量過程結(jié)果(2015 年)
表11 判別系數(shù)(未入選變量系數(shù)為0,2015 年)
根據(jù)表9 的最終分類結(jié)果,與表5 的分類結(jié)果相同,說明從2005—2105 年,甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力沒有出現(xiàn)變動。
表10 中引入變量的自由度為7×(4-1)=21,近似服從于分布χ2(21)。查表得χ20.001(21)=46.797,計(jì)算出威爾克斯統(tǒng)計(jì)量的檢驗(yàn)值χ2=69.778 028 8>χ20.001(21),說明表10 引入的7 個變量構(gòu)成的判別函數(shù)達(dá)到極顯著水平,對甘肅省14 個市(州)農(nóng)業(yè)綜合實(shí)力進(jìn)行判別分析,所得結(jié)果可信度高。
2015 年對甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力進(jìn)行貝葉斯準(zhǔn)則逐步判別分析時,分類方法同前。在表11 中,由判別系數(shù)構(gòu)成的4 類判別函數(shù)中,對應(yīng)當(dāng)年出欄牛豬羊總數(shù)、農(nóng)林牧漁總產(chǎn)值、農(nóng)村居民人均可支配收入、社會消費(fèi)品零售總額、農(nóng)林牧漁從業(yè)人員、農(nóng)業(yè)機(jī)械總動力6 個指標(biāo)的判別系數(shù)為0。
據(jù)表12 可知,動態(tài)聚類分析、貝葉斯準(zhǔn)則多類逐步判別分析的分類結(jié)果完全相同。說明用動態(tài)聚類分析、貝葉斯準(zhǔn)則多類逐步判別分類后,2015 年甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力所得結(jié)果的可信度高。
表12 貝葉斯準(zhǔn)則多類逐步判別分析結(jié)果(2015 年)
根據(jù)2018 年甘肅省14 個市(州)農(nóng)業(yè)生產(chǎn)數(shù)據(jù),利用動態(tài)聚類分析、貝葉斯準(zhǔn)則逐步判別分析法,對2018 年甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力進(jìn)行分類,結(jié)果見表13、表14、表15、表16。
表13 2018 年甘肅省14 個市(州)農(nóng)業(yè)綜合實(shí)力動態(tài)聚類分析結(jié)果
表14 貝葉斯準(zhǔn)則多類逐步判別分析挑選變量的結(jié)果(2018 年)
表15 判別系數(shù)(未入選變量系數(shù)為0,2018 年)
由表13 動態(tài)分類的分析結(jié)果可知,到2018 年,白銀市的動態(tài)聚類由2 變?yōu)?,說明白銀市的農(nóng)業(yè)綜合實(shí)力由較弱提升為較強(qiáng),其余市(州)的農(nóng)業(yè)綜合實(shí)力與2015 年相同,沒有出現(xiàn)變化。
表14 中引入變量的自由度為4×(4-1)=12,近似服從于分布χ2(12)。查表得χ20.001=32.909,計(jì)算出威爾克斯統(tǒng)計(jì)量的檢驗(yàn)值χ2=45.130 499 73>χ20.001(12),說明表14 引入的4 個變量構(gòu)成的判別函數(shù)達(dá)到極顯著水平,利用判別函數(shù)對甘肅省市(州)農(nóng)業(yè)綜合實(shí)力進(jìn)行判別分析,所得結(jié)果可信度高。
2018 年對甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力進(jìn)行貝葉斯準(zhǔn)則逐步判別分析時所用分類方法同前。4 類判別函數(shù)中對應(yīng)市(州)的農(nóng)業(yè)人口、耕地面積、當(dāng)年出欄牛豬羊總數(shù)、農(nóng)業(yè)總產(chǎn)值、農(nóng)村居民人均可支配收入、農(nóng)林牧漁從業(yè)人員、農(nóng)業(yè)機(jī)械總動力、農(nóng)村用電量、化肥施用折純量9 個指標(biāo)的判別系數(shù)為0。
根據(jù)表16 貝葉斯準(zhǔn)則多類逐步判別分析的結(jié)果可以看出,在2018 年,利用動態(tài)聚類分析、貝葉斯準(zhǔn)則多類逐步判別分析,對甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力進(jìn)行聚類分析和判別分析,結(jié)果完全一致,因此,2018 年甘肅省14 個市(州)農(nóng)業(yè)綜合實(shí)力的類型劃分很準(zhǔn)確。
表16 貝葉斯準(zhǔn)則多類逐步判別分析結(jié)果(2018 年)
利用動態(tài)聚類分析、貝葉斯準(zhǔn)則多類逐步判別分析,對甘肅省14 個市(州)1995—2018 年的農(nóng)業(yè)綜合實(shí)力分別進(jìn)行了4 次聚類分析和判別分析,結(jié)果完全一致,說明對甘肅省14 個市(州)的農(nóng)業(yè)綜合實(shí)力劃分類別是可信的。經(jīng)過24 年的發(fā)展變化,14 個市(州)的農(nóng)業(yè)綜合實(shí)力屬于強(qiáng)類別的是武威市、張掖市。白銀市的農(nóng)業(yè)綜合實(shí)力,截至2018 年,分類號由2 變?yōu)?,農(nóng)業(yè)綜合實(shí)力也由較弱提升為較強(qiáng)。到2018 年農(nóng)業(yè)綜合實(shí)力屬于較強(qiáng)類別的是白銀市、天水市、平?jīng)鍪?、慶陽市、定西市、隴南市。酒泉市的農(nóng)業(yè)綜合實(shí)力起初為第4 類,屬于農(nóng)業(yè)綜合實(shí)力強(qiáng)的一類,但到2005 年下降為第2 類,屬于農(nóng)業(yè)綜合實(shí)力較弱的一類。農(nóng)業(yè)綜合實(shí)力屬于較弱類別的是蘭州市、酒泉市、臨夏回族自治州。嘉峪關(guān)市、金昌市、甘南藏族自治州3 個市(州)農(nóng)業(yè)綜合實(shí)力在1995—2018 年間未發(fā)生變化,一直屬于弱類別。中國是農(nóng)業(yè)大國,農(nóng)業(yè)綜合實(shí)力提升對當(dāng)代中國發(fā)展具有重要意義。通過相關(guān)數(shù)據(jù)分析可以看出,甘肅省14 個市(州)中,有的市(州)農(nóng)業(yè)綜合實(shí)力由弱變強(qiáng),有的市(州)農(nóng)業(yè)綜合實(shí)力由強(qiáng)變?nèi)?,這與當(dāng)?shù)卣霓r(nóng)業(yè)發(fā)展策略、資源水平等因素有關(guān),如何從中汲取具有價值及意義的策略,正是研究者亟待研究與解決的問題。