呂志學(xué), 孫雪文, 劉鳳飛
(黑龍江省水土保持科學(xué)研究所, 黑龍江 哈爾濱 150070)
K-means聚類方法在黑龍江省低山丘陵區(qū)坡耕地類型區(qū)劃分中的應(yīng)用
呂志學(xué), 孫雪文, 劉鳳飛
(黑龍江省水土保持科學(xué)研究所, 黑龍江 哈爾濱 150070)
摘要:[目的] 探索K-means聚類方法在黑龍江省坡耕地類型區(qū)劃分上應(yīng)用的可行性,為各市(縣)坡耕地水土保持規(guī)劃和治理提供依據(jù)。[方法] 利用K-means聚類方法對黑龍江省70個低山丘陵區(qū)市(縣)進(jìn)行科學(xué)區(qū)劃。[結(jié)果] 低山區(qū)市(縣)共21個,丘陵區(qū)縣市共49個。[結(jié)論] 所選16個分類指標(biāo)的顯著性均小于0.05,證明分類結(jié)果令人滿意。
關(guān)鍵詞:K-means聚類方法; 低山丘陵區(qū); 坡耕地; 類型區(qū)劃分
中國人口眾多,人均資源較少,特別是作為人類賴以生存的耕地資源十分匱乏,人均只有0.09 hm2,為世界平均水平的1/4,美國的1/9。而且這些耕地資源中大多為低山丘陵區(qū)坡耕地,耕地質(zhì)量差,環(huán)境惡劣,直接影響中國的糧食安全[1]。中國東北黑土區(qū)是目前世界上僅有的3大黑土區(qū)之一,該地區(qū)是中國的主要商品糧基地,年生產(chǎn)糧食約占全國糧食總產(chǎn)量的20%,黑龍江省約占其中的1/2[2],如何提高作為全國重要商品糧基地—黑龍江省坡耕地的糧食產(chǎn)量,對確保中國糧食安全將起至關(guān)重要的作用。黑龍江省幅員面積較大,地貌類型多樣,坡耕地水土流失各具特色,治理措施差異顯著,特別是低山區(qū)坡耕地與丘陵區(qū)坡耕地。如低山區(qū)耕地作為山地的延伸部分,坡度大、匯流急,雨滴濺蝕地表土壤,而后出現(xiàn)超滲產(chǎn)流,產(chǎn)生水土流失。在治理措施上因該區(qū)域主要土壤以棕色針葉林土和山地暗棕壤為主,土層薄而不易于修筑水平梯田,多采用復(fù)合地埂[3]等措施進(jìn)行坡耕地水土流失治理;丘陵區(qū)坡耕地坡長坡緩,匯流面積大,地表徑流大,降雨出現(xiàn)超滲產(chǎn)流后易形成股狀匯流,不僅面蝕嚴(yán)重,在坡面匯水線處更易發(fā)生溝蝕。治理措施上因坡耕地黑土層較厚,一般根據(jù)不同坡度選擇梯田、地埂和改壟措施進(jìn)行治理[4]。因此,如何科學(xué)界定黑龍江省低山區(qū)和丘陵區(qū)市縣,對科學(xué)選擇、布設(shè)水土保持措施將起至關(guān)重要的作用。本文在黑龍江省已經(jīng)確定的70個低山丘陵區(qū)市縣的基礎(chǔ)上,選取影響坡耕地質(zhì)量的16項指標(biāo),運用成熟的聚類方法,對低山丘陵區(qū)市縣進(jìn)行了分類,旨在為不同類型區(qū)進(jìn)行科學(xué)治理創(chuàng)造條件。
1材料與方法
影響坡耕地質(zhì)量的因素很多,根據(jù)已掌握的資料,選取了市縣高程>200 m耕地加權(quán)高程、年均氣溫、5—9月平均氣溫、年降雨量、5—9月降雨量、年日照時數(shù)、≥10 ℃積溫、全氮含量、全磷含量、全鉀含量、有機(jī)質(zhì)含量、土地人口承載密度、糧食產(chǎn)量、農(nóng)用化肥施用折純量、農(nóng)用機(jī)械總動力、耕地侵蝕面積占總耕地面積比共16項指標(biāo)作為類型區(qū)劃分指標(biāo)。這些指標(biāo)分別來自于黑龍江省遙感調(diào)查數(shù)據(jù)、黑龍江省農(nóng)業(yè)地圖集[5]及研究數(shù)據(jù)。
K-means聚類是聚類方法中的一種,是常見4類聚類方法(劃分方法、層次方法、基于密度的方法和基于網(wǎng)絡(luò)的方法)中最典型的“劃分方法”,又稱作K中心聚類,屬硬聚類算法。通常我們要預(yù)先確定分類數(shù),然后才能進(jìn)行這個聚類分析?;舅枷胧浅跏茧S機(jī)給定K個簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然后按平均法重新計算各個簇的質(zhì)心,從而確定新的簇心。一直迭代,直到簇心的移動距離小于某個給定的值或達(dá)到給定的迭代次數(shù)[6]。
K-Means聚類算法主要分為3個步驟:
第1步是為待聚類的點尋找聚類中心。
第2步是計算每個點到聚類中心的距離,將每個點聚類到離該點最近的聚類中去。
第3步是計算每個聚類中所有點的坐標(biāo)平均值,并將這個平均值作為新的聚類中心。
反復(fù)執(zhí)行第2,3步,直到聚類中心不再進(jìn)行大范圍移動或者聚類次數(shù)達(dá)到要求為止。
具體操作步驟:(1) 先準(zhǔn)備好數(shù)據(jù),在打開軟件的菜單欄上選定“K-均值聚類”分類方法; (2) 輸入聚類用到的指標(biāo)變量和市縣名稱; (3) 設(shè)置聚類的類別數(shù)目。這個數(shù)目的確定主要依據(jù)工作經(jīng)驗和前人的研究證明。本研究欲將黑龍江省低山丘陵區(qū)市縣劃分成2個類型區(qū),所以設(shè)置的類別數(shù)為2; (4) 在主對話框中,設(shè)置最大迭代次數(shù),默認(rèn)值一般為10,但是數(shù)據(jù)量越大,迭代次數(shù)就應(yīng)該越多,所以我們設(shè)置為100; (5) 點擊“確定”按鈕,開始運行數(shù)據(jù),并輸出數(shù)據(jù)結(jié)果。具體操作步驟詳見圖1。
圖1 K-means聚類具體操作步驟
2結(jié)果與討論
黑龍江省低山丘陵區(qū)坡耕地類型劃分初始聚類中心見表1。它列出每一個類別初始的中心點,如低山區(qū)這個類別中,16項指標(biāo)中的“市(縣)高程>200 m耕地加權(quán)高程”這個指標(biāo)的初始中心點為-0.365 91,即該類別中所有市縣的該項指標(biāo)都是距離這個中心點相對較近,而距離丘陵區(qū)0.347 78這個中心點相對較遠(yuǎn),其他15項指標(biāo)也是如此,最終根據(jù)16項指標(biāo)的“綜合距離”確定某個市縣應(yīng)該劃歸為那個類別中,即確定初步分類結(jié)果。這些中心點都是SPSS自動生成的。
表1 黑龍江省低山丘陵區(qū)坡耕地類型劃分初始聚類中心
黑龍江省低山丘陵區(qū)坡耕地類型劃分最終聚類中心見表2。它列出每一個類別最終的中心點,如低山區(qū)這個類別中,16項指標(biāo)中的“市縣高程>200 m耕地加權(quán)高程”這個指標(biāo)的最終中心點為-0.188 21,即該類別中所有市縣的該項指標(biāo)都是距離這個中心點相對較近,而距離丘陵區(qū)0.690 09這個中心點相對較遠(yuǎn)的,其他15項指標(biāo)也是如此,最終根據(jù)16項指標(biāo)的“綜合距離”確定某個市縣應(yīng)該劃歸為那個類別中,即確定最終分類結(jié)果。依據(jù)這些最終中心點,即可自動生成最終聚類結(jié)果表。
表3是我們根據(jù)最終聚類結(jié)果表整理后的聚類結(jié)果。從表3中我們可以看出,低山區(qū)這個類別中主要包含尚志市、雞西市、雞東縣等21個市縣,主要位于黑龍江省北部和東南腳的大小興安嶺及張廣才嶺、老爺嶺低山區(qū)。該區(qū)耕地為山地的延伸部分,坡度大、匯流急,耕地總面積27 329.55 km2,耕地水土流失面積14 842.50 km2,占耕地總面積的54.31%,主要土壤以棕色針葉林土和山地暗棕壤為主;丘陵區(qū)主要包含哈爾濱市、方正縣、木蘭縣等49個市縣,主要位于松嫩平原和三江平原內(nèi)。該區(qū)耕地總面積104 726.52 km2,耕地水土流失總面積36 232.48 km2,占耕地總面積的34.60%。該區(qū)地勢波狀起伏,坡長坡緩,匯流面積大,地表徑流大,主要土壤為黑土、黑鈣土。
表2 黑龍江省低山丘陵區(qū)坡耕地類型最終聚類中心
表3 黑龍江省低山丘陵區(qū)坡耕地類型聚類結(jié)果
表4給出了計算機(jī)的原始方差分析結(jié)果。從表4中看出,自由度為一組數(shù)據(jù)中能獨立變化數(shù)據(jù)的多少。本文欲將70個市縣劃分成2類,因此總的自由度為70-1=69,即最多有69個市縣可自由劃分為1類,其余自然確定為另一類。并且,因為只劃分為2類,所以類間自由度為1,即最多只有1類可自由確定,剩下的自然為另一類;類內(nèi)自由度為68,即每類中最多有68個能獨立變化的數(shù)據(jù)[7]。F檢驗值即為類間平均方差與類內(nèi)平均方差的比值,該F值越大,即類間均方大于類內(nèi)均方,也就是類間變異量大于類內(nèi)變異量,說明各類間的差異遠(yuǎn)超出總期望值離差,代表各類的平均數(shù)存在明顯的差異,同時,F(xiàn)值越大說明其在分類中所起的作用越大[8]。如表中≥10 ℃積溫、年均氣溫等。判斷文中所選影響坡耕地質(zhì)量的16項指標(biāo)是否具有代表性取決于其顯著性檢驗結(jié)論,顯著性水平一般確定為0.05,即當(dāng)顯著性計算結(jié)果小于0.05時,所選指標(biāo)對整體具有很好的代表性,否則代表性不強(qiáng)[9]。從表4中看,所選分類指標(biāo)的顯著性均小于0.05,說明該分類指標(biāo)在統(tǒng)計學(xué)有意義,即所選分類指標(biāo)具有很好的代表性,分類結(jié)果有效。
3結(jié) 論
最初我們選擇了21個分類指標(biāo)進(jìn)行上機(jī)運算,經(jīng)多次反復(fù),篩選確定其中的16個指標(biāo)為最終分類指標(biāo),指標(biāo)涵蓋了地形地貌、自然條件、經(jīng)濟(jì)條件、社會條件和水土流失等方面。其中“市縣高程>200 m耕地加權(quán)高程”來自于課題研究結(jié)論,“耕地侵蝕面積占總耕地面積比”來自于遙感調(diào)查數(shù)據(jù),其他來自于黑龍江省農(nóng)業(yè)地圖集。該圖集資料比較完整、系統(tǒng),雖然年代較早,但仍是目前最新的圖集,其中的指標(biāo)能很好的代表黑龍江省70個低山丘陵區(qū)市縣耕地整體質(zhì)量。
表4 黑龍江省低山丘陵區(qū)坡耕地類型原始方差分析
K-means聚類算法是一種比較成熟的聚類方法,本文將該方法首次應(yīng)用在黑龍江省低山丘陵區(qū)市縣劃分上,采用計算機(jī)程序進(jìn)行運算,獲得了較為理想滿意的分類結(jié)果,通過對劃分的2個類型區(qū)進(jìn)一步統(tǒng)計分析。
可以看出低山區(qū)與丘陵區(qū)的平均數(shù)差異顯著,如山區(qū)平均土地人口承載密度為68人,市縣高程>200 m耕地加權(quán)高程為341 m,耕地侵蝕面積占總耕地面積比為54.31%。
丘陵區(qū)平均土地人口承載密度為156人,市縣高程>200 m耕地加權(quán)高程為256 m,耕地侵蝕面積占總耕地面積比為34.60%,也進(jìn)一步驗證了分類結(jié)果的可信性,這對今后不同類型區(qū)坡耕地采取分類治理具有十分現(xiàn)實的意義。
同時由于影響坡耕地質(zhì)量的因素很多,很多因素還在不斷變化,因此今后應(yīng)根據(jù)掌握的最新數(shù)據(jù)進(jìn)一步對分類結(jié)果進(jìn)行核試驗證。
[參考文獻(xiàn)]
[1]崔秀珍,吳國梁.新時期我國耕地資源總量動態(tài)平衡的維持與可持續(xù)利用的途徑[J].安徽農(nóng)業(yè)科學(xué),2006,34(2):298-299.
[2]劉興土,閻百興.東北黑土區(qū)水土流失與糧食安全[J].中國水土保持,2009(1):17-19.
[3]屈遠(yuǎn)強(qiáng),勇麗波.穆棱市水保生態(tài)建設(shè)措施體系構(gòu)建與實踐[J].水土保持應(yīng)用技術(shù),2010(3):24-26.
[4]王樹清.拜泉縣生態(tài)農(nóng)業(yè)發(fā)展戰(zhàn)略與實踐[J].中國生態(tài)農(nóng)業(yè)學(xué)報,1995(4):77-78,76.
[5]黑龍江省地圖集編纂委員會.黑龍江省農(nóng)業(yè)地圖集[M].哈爾濱:哈爾濱地圖出版社,1999.
[6]張建輝.K-means聚類算法研究及應(yīng)用[D].武漢:武漢理工大學(xué),2007.
[7]盧淑華.社會統(tǒng)計學(xué)[M].北京:北京大學(xué)出版社,2005.
[8]靳庭良,張寶青.回歸分析中t檢驗與F檢驗關(guān)系的進(jìn)一步探討[J].統(tǒng)計與決策,2009(21):7-9.
[9]孫逸敏.利用SPSS軟件分析變量間的相關(guān)性[J].新疆教育學(xué)院學(xué)報,2007,23(2):120-123.
Application of K-means Clustering Method in Regionalization of Slope Farmland in Low Mountain and Hill Area of Heilongjiang Province
Lü Zhixue, SUN Xuewen, LIU Fengfei
(HeilongjiangProvincialSoilandWaterConservationScientificResearchInstitutes,Harbin,Heilongjiang150070,China)
Abstract:[Objective] To explore the feasibility of the K-means clustering method in the classification of farmland types in Heilongjiang Province and provide support for the planning and management of soil and water conservation in slope farmland.[Methods] We made a clustering of farmlands in 70 cities(or counties) in low mountain and hilly areas in Heilongjiang Province using K-means clustering method.[Results] The cities or counties in the low mountain is 21 and hill area is 49.[Conclusion] The 16 classification indexes were significant at the level of 0.05, indicating the fitness of classification.
Keywords:K-means clustering method; low mountain and hill area; slope farmland; regionalization
文獻(xiàn)標(biāo)識碼:B
文章編號:1000-288X(2015)01-0124-04
中圖分類號:S157
收稿日期:2014-01-17修回日期:2014-02-17
資助項目:黑龍江省科技攻關(guān)項目“黑龍江省山丘區(qū)坡耕地綜合整治措施體系研究”(GC05 B304)
第一作者:呂志學(xué)(1968—),男(漢族),黑龍江省哈爾濱市人,碩士,教授級高工,主要從事水土保持基礎(chǔ)和應(yīng)用研究。E-mail:sbslzx@163.com。