吐爾遜·買買提,謝建華
(新疆農(nóng)業(yè)大學(xué) 機(jī)械交通學(xué)院,烏魯木齊 830052)
?
基于聚類分析的農(nóng)機(jī)化效率區(qū)劃研究
吐爾遜·買買提,謝建華
(新疆農(nóng)業(yè)大學(xué) 機(jī)械交通學(xué)院,烏魯木齊 830052)
針對(duì)農(nóng)業(yè)機(jī)械化效率存在的差異,提出應(yīng)用k均值聚類算法對(duì)新疆各地州按農(nóng)機(jī)化效率進(jìn)行區(qū)劃,并以各地州2014年面板數(shù)據(jù)為研究對(duì)象進(jìn)行區(qū)劃。對(duì)區(qū)劃結(jié)果應(yīng)用誤差平方和(Sum of Squares for Error) 、輪廊系數(shù)(Silhouette Coefficient)方法進(jìn)行檢驗(yàn)和定量分析,同時(shí)對(duì)結(jié)果根據(jù)地區(qū)農(nóng)機(jī)化發(fā)展現(xiàn)狀進(jìn)行定性分析。結(jié)果表明:新疆各地州按其農(nóng)機(jī)化效率分為4組(k=4):第1組昌吉、塔城、阿勒泰、巴州,第2組克拉瑪依、博州,第3組哈密、伊犁、阿克蘇、喀什,第4組烏魯木齊、吐魯番、克州、和田;組間差異最大,組內(nèi)差異最小。該研究可為分類指導(dǎo)各地區(qū)農(nóng)機(jī)化發(fā)展提供參考。
農(nóng)機(jī)化;效率;聚類;區(qū)劃
省域不同地區(qū)或生產(chǎn)單元在農(nóng)業(yè)機(jī)械化發(fā)展中呈現(xiàn)出不同的發(fā)展趨勢(shì),其農(nóng)機(jī)化生產(chǎn)的效率表現(xiàn)出全局分異、局部聚集的特征[1]。依據(jù)多個(gè)區(qū)域農(nóng)業(yè)機(jī)械化效率的差異,對(duì)其進(jìn)行合理的區(qū)劃,有利于明確不同地區(qū)農(nóng)業(yè)機(jī)械化的發(fā)展目標(biāo)和主要任務(wù)[2-3]。目前,農(nóng)業(yè)區(qū)劃方面的研究包括水文[4]、生態(tài)[5]、自然災(zāi)害[6]、地形[7]、農(nóng)業(yè)機(jī)械化[8]、種植業(yè)、牧業(yè)、漁業(yè)區(qū)劃,以及綜合農(nóng)業(yè)區(qū)劃等[9]。
分析已有的文獻(xiàn)發(fā)現(xiàn):目前,針對(duì)新疆的農(nóng)業(yè)區(qū)劃,已有綜合自然區(qū)劃、綜合農(nóng)業(yè)區(qū)劃、農(nóng)業(yè)氣候與資源區(qū)劃、農(nóng)業(yè)地貌區(qū)劃及種植業(yè)區(qū)劃[10]等方面的成果;但針對(duì)新疆各地州農(nóng)業(yè)機(jī)械化效率的差異方面,尚無發(fā)現(xiàn)有關(guān)文獻(xiàn)。準(zhǔn)確定位區(qū)域農(nóng)業(yè)機(jī)械化效率及其水平所屬的類,可以更直接地掌握各區(qū)域農(nóng)業(yè)機(jī)械化發(fā)展的現(xiàn)狀,從而為不同地區(qū)農(nóng)業(yè)機(jī)械化和農(nóng)業(yè)現(xiàn)代化的發(fā)展制定合理的戰(zhàn)略和目標(biāo)。因此,對(duì)區(qū)域農(nóng)業(yè)機(jī)械化發(fā)展水平進(jìn)行科學(xué)的區(qū)劃,具有重要的理論意義和實(shí)踐意義。農(nóng)業(yè)機(jī)械化生產(chǎn)和管理中傳統(tǒng)的區(qū)域劃分方式一般按地理經(jīng)緯度出發(fā),缺乏對(duì)研究對(duì)象的針對(duì)性。新疆經(jīng)緯度跨度較大,南北疆各地區(qū)在農(nóng)業(yè)機(jī)械化以及其效率水平差異懸殊,對(duì)各地區(qū)農(nóng)機(jī)化效率進(jìn)行更為科學(xué)、有效的區(qū)劃將有利于充分挖掘農(nóng)業(yè)機(jī)械化發(fā)展?jié)摿?,為農(nóng)業(yè)機(jī)械化管理和政策制定提供參考。本文采用聚類方法對(duì)各地州進(jìn)行區(qū)劃分析。
聚類效果能否反映研究對(duì)象的分布趨勢(shì)取決于指標(biāo)和數(shù)據(jù)的選擇及聚類算法。地區(qū)農(nóng)業(yè)機(jī)械化效率和農(nóng)機(jī)化投入指標(biāo)及其數(shù)量有關(guān),因此參照文獻(xiàn)[11-12]及根據(jù)新疆農(nóng)機(jī)化發(fā)展現(xiàn)狀,建立以農(nóng)機(jī)總動(dòng)力Z1、農(nóng)機(jī)擁有量Z2(人/千人)、千瓦農(nóng)機(jī)作業(yè)收入Z3(元/kW)、播面頃均農(nóng)機(jī)動(dòng)力Z4(kW/hm2)、農(nóng)機(jī)人員受教育程度Z5(%)、農(nóng)機(jī)教育培訓(xùn)程度Z6(%)和農(nóng)業(yè)勞均播種Z7(hm2/人)組成的農(nóng)機(jī)化效率指標(biāo)體系。以新疆2014年統(tǒng)計(jì)年鑒、新疆2014年農(nóng)機(jī)年報(bào)作為數(shù)據(jù)源關(guān)系數(shù)據(jù)模型,如表1所示。
表1 2014年新疆各地州農(nóng)業(yè)機(jī)械化投入指標(biāo)值
Table 1 Indicator value of agricultural mechanization investment in Xinjiang Prefecture in 2014
地區(qū)Z1Z2Z3Z4Z5Z6Z7烏魯木齊307857172.87904.827.5280.1790.380.52克拉瑪依30647498.87469.873.0168.9886.182.00吐魯番528444131.81563.4912.4954.1879.170.23哈密353879195.14680.145.0595.3479.980.82昌吉2031392287.98730.323.5984.923.871.69伊犁1678863118.231074.183.1879.8289.190.86塔城2071550250.82650.894.0591.7298.711.98阿勒泰737011209.87669.723.1986.7889.191.89
續(xù)表1
2.1 聚類算法
聚類分析是數(shù)據(jù)挖掘中的重要的方法,目前常用的聚類方法有劃分聚類、層次聚類及密度聚類等。應(yīng)用聚類分析時(shí),應(yīng)根據(jù)研究對(duì)象的特征(如取值范圍、分布等)選取不同的算法。本文根據(jù)研究對(duì)象的數(shù)據(jù)量少、波動(dòng)不大等特征,結(jié)合常用的聚類算法的特點(diǎn),選取k-means聚類方法對(duì)數(shù)據(jù)進(jìn)行分析。K-means算法原理見文獻(xiàn)[13]。
2.2 聚類檢驗(yàn)
聚類分析中評(píng)估算法在聚類對(duì)象中的分簇性能是檢驗(yàn)聚類效果的有效方法。第1種聚類檢驗(yàn)方法是判斷誤差平方和(Sum of Square Error,SSE)。本文中計(jì)算k=n(n=3~8)時(shí)的SSE,即各簇內(nèi)的每個(gè)點(diǎn)到其所在簇質(zhì)心的距離之平方之和,按此方法計(jì)算所有簇SSE的平均,從而獲得k=n時(shí)總的SSE。聚類中SSE越小,可判定簇中元素越相似,聚類質(zhì)量越高。
第2種方法是輪廊系數(shù)(Silhouette Coefficient)法,是評(píng)估簇的凝聚度和分離度的參數(shù)。簇的評(píng)估中這兩個(gè)指標(biāo)用來判斷近似的、確定正確的或自然的簇個(gè)數(shù),其計(jì)算方法見文獻(xiàn)[14]。對(duì)于聚類而言,輪廊系數(shù)值在-1~1之間變化,負(fù)值表示點(diǎn)到簇內(nèi)點(diǎn)的平均距離a(i)大于顛倒其他簇的最小平均距離b(i)。分析可知:當(dāng)a(i)趨向于0、輪廊系數(shù)趨向于1時(shí),說明同一簇內(nèi)元素的凝聚度和不同簇的分離度達(dá)到理想狀態(tài)。
聚類分析中,聚類對(duì)象有時(shí)可能含一些異常點(diǎn),或其數(shù)據(jù)格式不符合聚類算法要求,因此需要通過數(shù)據(jù)清洗、離群點(diǎn)檢測(cè)等方法對(duì)其進(jìn)行預(yù)處理。另外,為了避免因?yàn)楦髯兞康牧烤V不同而引起聚類的性能下降,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
本文通過最大、最小化方法進(jìn)行標(biāo)準(zhǔn)化。根據(jù)新疆地州數(shù)量以及聚類算法自身的規(guī)則,設(shè)定最小簇?cái)?shù)和最大簇?cái)?shù)分別3和8,即k=3~8。為了降低出現(xiàn)局部最優(yōu)的概率,最大迭代次數(shù)設(shè)定為15并MatLab2014a中進(jìn)行聚類。聚類結(jié)果如表2所示。
表2 新疆各地區(qū)2014年農(nóng)業(yè)機(jī)械化區(qū)域聚類(k=3~8)
為了直觀地觀察各簇的元素的分布情況,對(duì)聚類結(jié)果進(jìn)行可視化(Visualization)。因原始為多維數(shù)據(jù),應(yīng)用文獻(xiàn)[15]中的方法對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行降維,并獲取2維的指標(biāo)數(shù)據(jù)。可視化后結(jié)果如圖1所示。
圖1 k=3~8時(shí)的聚類結(jié)果
圖1中,x軸和y軸分別為將原地區(qū)農(nóng)機(jī)化效率指標(biāo)應(yīng)用Factor analysis算法降維到2維后的結(jié)果。由于有些點(diǎn)高度相似,因而圖中存在數(shù)據(jù)點(diǎn)合并顯示的情形。
應(yīng)用2.1簇檢驗(yàn)方法檢驗(yàn)K-means算法的聚類效果,針對(duì)本文的研究對(duì)象而言,輪廊系數(shù)越小就說明分配到一個(gè)簇內(nèi)的地州農(nóng)業(yè)機(jī)械化效率指標(biāo)越接近、越相似,簇內(nèi)地區(qū)在農(nóng)業(yè)機(jī)械化效率方面有較高的相似度。通過計(jì)算可以獲得SSE和輪廊系數(shù),如表3所示。
表3 SSE和輪廊系數(shù)
表3數(shù)據(jù)表示:SSE隨著簇的個(gè)數(shù)增加,逐步變小,而輪廊系數(shù)先下降后增加。
圖2和圖3分別為SSE和輪廊系數(shù)分布曲線。由圖2、圖3可知:當(dāng)k=4時(shí),輪廊系數(shù)取最小值,且其曲線有明顯的拐點(diǎn),SSE也有一個(gè)下降趨勢(shì)放緩過程。即通過評(píng)估度量方法確定的結(jié)果是:當(dāng)k=4時(shí)獲得的4簇中,簇內(nèi)對(duì)象高度相似,而簇間不相似。通常通過SSE和輪廊曲線評(píng)價(jià)聚類效果或簇的個(gè)數(shù)時(shí),可以通過SSE和輪廊線的拐點(diǎn)、尖峰、下降點(diǎn)或上升點(diǎn)找到簇的自然個(gè)數(shù),這種方法通常在數(shù)據(jù)量較少、并簇中無復(fù)雜嵌套簇時(shí)比較實(shí)用。由于k=7、k=8時(shí)輪廊系數(shù)較高,不考慮這種分組情況下。各簇相對(duì)應(yīng)的各地州分組結(jié)果如表4所示。
圖2 誤差平方和分布
圖3 輪廊系數(shù)分布
組別k=3k=4k=5k=6第1組克拉瑪依、昌吉、塔城阿勒泰、博州、巴州昌吉、塔城、阿勒泰、巴州克拉瑪依博州吐魯番第2組烏魯木齊、吐魯番克州、和田克拉瑪依、博州烏魯木齊克州、和田伊犁、阿克蘇喀什第3組哈密、伊犁阿克蘇、喀什哈密、伊犁阿克蘇、喀什昌吉、塔城阿勒泰、巴州烏魯木齊克州、和田第4組烏魯木齊、吐魯番克州、和田哈密、伊犁、阿克蘇、喀什哈密、巴州
續(xù)表4
由于各次聚類分析中使用了統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)化、降維方法和聚類算法,所以聚類后的以上4種分類保持了較好的一致性。也就是說,在農(nóng)業(yè)機(jī)械化及效率影響因素指標(biāo)值方面,具有接近或相似特征的地區(qū)始終分到同一組。
例如:①克拉瑪依和博州始終分到同一個(gè)組。②昌吉、塔城、阿勒泰和博州分別在k=3、4、6時(shí)分配到相同的組。其中,昌吉、塔城、阿勒泰始終分配到一個(gè)組。③烏魯木齊和克州在四種聚類中分配到同一組。④作為相鄰的地區(qū),阿克蘇和喀什這4種聚類中始終呈現(xiàn)出較高的相似性,即k=3~8時(shí)被分配到相同的組。從地區(qū)農(nóng)業(yè)發(fā)展的基本面來分析可知:上述各組之間相似性較弱,而組內(nèi)在各地區(qū)相關(guān)指標(biāo)之間距離較小。
不同之處在于:①k=6時(shí),昌吉、塔城、阿勒泰構(gòu)成一組,巴州和哈密構(gòu)成一組;而k=5時(shí),這兩組被分配到同一組。②吐魯番始終被分配到單獨(dú)的一組。③k=5時(shí)的第3組成員昌吉、塔城、阿勒泰、巴州和第4組成員哈密、伊犁、阿克蘇和喀什在k=4時(shí)分別分配到第1組和第3組,這說明這兩組地區(qū)的農(nóng)業(yè)機(jī)械化效率指標(biāo)方面有較高的相似性。從當(dāng)前的地區(qū)各項(xiàng)發(fā)展現(xiàn)狀分析,哈密、伊犁、阿克蘇和喀什分配到同一組較合適,組內(nèi)相似性也較高。另外,從近年來各地區(qū)的農(nóng)業(yè)機(jī)械化發(fā)展情況來看,隨著國(guó)家對(duì)農(nóng)業(yè)的投入的加大,尤其是隨著對(duì)南疆扶持力度的加大,克州、和田等南疆地區(qū)農(nóng)業(yè)機(jī)械化方面的投入也較大,這些地區(qū)和吐魯番和烏魯木齊也具有較好的凝聚度。從輪廊系數(shù)的計(jì)算可知:k=4時(shí),各組之間的簇內(nèi)差異較小,簇間差異較大。從技術(shù)角度分析,這正好達(dá)到聚類的基本宗旨。
綜合以上的情況,加上SSE和輪廊系數(shù)的分析,本研究?jī)A向于k=4的聚類方案。即新疆各地州農(nóng)業(yè)機(jī)械化效率指標(biāo)區(qū)劃時(shí),從技術(shù)角度和地區(qū)發(fā)展水平出發(fā),分4個(gè)區(qū)是比較合理。第1組:昌吉、塔城、阿勒泰、巴州;第2組:克拉瑪依、博州;第3組:哈密、伊犁、阿克蘇、喀什;第4組:烏魯木齊、吐魯番、克州、和田。
1)區(qū)劃與地理位置的相鄰性特征不強(qiáng),傳統(tǒng)劃分方式和本文區(qū)劃結(jié)果相差較大。例如:第1組南北緯度跨度較大,即有傳統(tǒng)劃分上北疆地區(qū),也有南疆地區(qū);第3組地區(qū)分布于新疆東部哈密到西部喀什;第4組也說明此種情況,打破了傳統(tǒng)南北疆、東疆等區(qū)劃的局限性。
2)新的地域分組特征明顯,組內(nèi)差異小,組間差異大。從最近幾年農(nóng)業(yè)機(jī)械化發(fā)展情況來分析,每組都有較強(qiáng)的特征。例如,第1組中各地區(qū)屬于農(nóng)業(yè)生產(chǎn)發(fā)展較快的地區(qū),有較好的土地資源優(yōu)勢(shì);而各組之間在農(nóng)業(yè)生產(chǎn)投入、農(nóng)業(yè)生產(chǎn)資源、社會(huì)經(jīng)濟(jì)水平方面差異較大。
3)獲取的分組結(jié)果是從技術(shù)和綜合等緯度進(jìn)行分析的結(jié)果。
本研究結(jié)果基于聚類14個(gè)地區(qū)的影響農(nóng)業(yè)機(jī)械化效率影響因素指標(biāo)值、評(píng)估k值和結(jié)合地區(qū)社會(huì)經(jīng)濟(jì)發(fā)展水平分析得到,有較大的可信度。
1)以新疆各地區(qū)農(nóng)業(yè)機(jī)械化效率投入指標(biāo)作為影響農(nóng)業(yè)機(jī)械化效率的主要因素, 以2014年新疆各地區(qū)指標(biāo)值作為源數(shù)據(jù),應(yīng)用K-means聚類對(duì)14地區(qū)進(jìn)行聚類,并應(yīng)用基于技術(shù)和綜合的方法進(jìn)行分析,結(jié)果表明:k=4時(shí),組間農(nóng)業(yè)機(jī)械化效率差異大,組內(nèi)差異小,所分的組能夠反映新疆各地區(qū)農(nóng)業(yè)機(jī)械化效率實(shí)際情況。
2)和傳統(tǒng)的地區(qū)分組方法相比,本研究主要聚焦于區(qū)域農(nóng)業(yè)機(jī)械化效率的區(qū)劃,更具有針對(duì)性,且強(qiáng)調(diào)了影響農(nóng)業(yè)機(jī)械化效率的因素對(duì)農(nóng)業(yè)機(jī)械化效率的重要性。通過合理的分組,把相似性較高的地區(qū)放在第1組,提高組內(nèi)相似性。
[1] 張建升.省域全要素生產(chǎn)率地區(qū)差異的動(dòng)態(tài)演進(jìn)[J]. 經(jīng)濟(jì)經(jīng)緯,2011,28(6):37-41.
[2] 李新廣,郭文杰. 節(jié)約型農(nóng)機(jī)化生產(chǎn)體系的研究[J]. 農(nóng)機(jī)化研究,2009,31(9):241-243.
[3] 張宗毅,曹光喬. "十五"期間中國(guó)農(nóng)機(jī)化效率及其地區(qū)差異[J].農(nóng)業(yè)工程學(xué)報(bào),2008,24(7):284-289.
[4] 余世勇,王佳.中國(guó)農(nóng)業(yè)機(jī)械化效率分析[J].江蘇農(nóng)業(yè)科學(xué),2013,41(12):420-422.
[5] Yang J,Huang Z,Zhang X,et al. The Rapid Rise Of Cross-Regional Agricultural Mechanization Services In China[J].American Journal of Agricultural Economics,2013,95(5):1245-1251.
[6] 王珺鑫,楊學(xué)成.山東省糧食生產(chǎn)波動(dòng)及主要投入要素效應(yīng)的實(shí)證分析—基于17地市的面板數(shù)據(jù)[J].中國(guó)農(nóng)業(yè)資源與區(qū)劃,2015,36(3):18-23.
[7] 劉玉海,武鵬.轉(zhuǎn)型時(shí)期中國(guó)農(nóng)業(yè)全要素耕地利用效率及其影響因素分析[J].金融研究,2011(7):114-127.
[8] 錢玉皓,聶艷,羅毅.基于能值分析的縣域耕地利用效益比較研究[J].湖北大學(xué)學(xué)報(bào):自然科學(xué)版,2012,34(4):387-392.
[9] Kopp R J. The measurement of productive efficiency:reconsideration[J].the Quarterly Journal of Economics,1981,96(3):477-503.
[10] 鄧依萍,劉濤.新疆節(jié)水農(nóng)業(yè)區(qū)劃及分區(qū)對(duì)策研究[J].節(jié)水灌溉,2008(10):8-11.
[11] 李衛(wèi),薛彩霞,朱瑞祥,等. 基于前沿面理論的中國(guó)農(nóng)業(yè)機(jī)械生產(chǎn)配置效率分析[J].農(nóng)業(yè)工程學(xué)報(bào),2012,28(3):38-43.
[12] 李衛(wèi).區(qū)域格局劃分與農(nóng)業(yè)機(jī)械化發(fā)展不平衡定量研究[D].楊凌:西北農(nóng)林科技大學(xué),2015.
[13] 周愛武,于亞飛. K-Means聚類算法的研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(2):62-65.
[14] 朱連江,馬炳先,趙學(xué)泉. 基于輪廓系數(shù)的聚類有效性分析[J]. 計(jì)算機(jī)應(yīng)用,2010(S2):139-141.
[15] Maaten L J P V D,Postma E O,Herik H J V D. Dimensionality Reduction: A Comparative Review[J].Journal of Machine Learning Research,2007,10(1):2579-2605.
Regionalization of Agricultural Mechanization's Efficiency Base on Cluster Analysis
Tursun Mamat, Xie Jianhua
The regionalization approach was proposed based on k-means clustering algorithm. On the clustering experiments, the 14 regions was zoned 3, 4, 5, 6,7and 8 zone according to efficiency of agricultural mechanization of each region.The SSE (Sum of squares for error) and silhouette coefficient method was applying for validation the quality of zoning (clustering).On the same time the qualitative analysis for clustering result was applying on the basis of current situation of agricultural mechanization on each region in Xinjiang. The results show that, according to each region’s efficiency of agricultural mechanization in 2014, if the all regions in Xinjiang be zoned for 4 group(k=4), regions were in the same group(cluster)are more similar to each other than to those in other groups(cluster) ,meanwhile the better SSE and silhouette can be obtained as well. The first group included Changji, Tarbaghatay, Altay and Bazhou. The second group included Karmay, Bortala, The third group included Kumul, Yili, Ahsu and Kashghar. Urumqi, Turpan, Kezhou and Hotan were included in forth group. Our approach and results provide useful information for development of agricultural mechanization in management.
agricultural mechanization; efficiency; clustering; regionalization
2016-06-13
國(guó)家自然科學(xué)基金項(xiàng)目(51465057)
吐爾遜·買買提(1975-),男(維吾爾族),新疆阿克蘇人,講師,博士,(E-mail)tursun@xjau.edu.cn。
S23-01
A
1003-188X(2017)08-0027-05