孫姝藝 劉洛 胡月明
摘要:隨著新型城鎮(zhèn)化水平的不斷提高,大量耕地將會被占用。為有效遏制水田面積減少趨勢,提升耕地質(zhì)量,保障糧食安全,各地政府開始實(shí)施“旱改水”工程改造,即將同等數(shù)量的旱地改造為水田的方式間接開發(fā)水田。旱改水優(yōu)先區(qū)域選擇是實(shí)施改造先后順序的重要評判標(biāo)準(zhǔn)。借助WEKA軟件,基于空間數(shù)據(jù)挖掘的方法來選擇“旱改水”優(yōu)先區(qū):(1)通過屬性選擇獲取相關(guān)性較高的9個改造因子,實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理;(2)通過K-means聚類分析將研究對象劃分成5類簇;(3)通過Apriori關(guān)聯(lián)規(guī)則挖掘出分區(qū)因子屬性之間最強(qiáng)關(guān)聯(lián)關(guān)系作為決策挖掘出優(yōu)先改造的簇,并對結(jié)果進(jìn)行分析。應(yīng)用于我國廣東省,試驗(yàn)證明,空間數(shù)據(jù)挖掘有效地從龐大數(shù)據(jù)量中提取信息,耦合空間關(guān)系,把數(shù)據(jù)轉(zhuǎn)化為有用的知識,使用空間數(shù)據(jù)挖掘的方法選擇優(yōu)先區(qū)是可行和科學(xué)的。
關(guān)鍵詞:旱改水;優(yōu)先區(qū);空間數(shù)據(jù)挖掘;廣東省
中圖分類號:S126? 文獻(xiàn)標(biāo)志碼: A? 文章編號:1002-1302(2019)04-0216-07
耕地不僅是人類勞動的對象,也是重要的生產(chǎn)資料,是人類生存與發(fā)展的基礎(chǔ),隨著工業(yè)化、城市化的不斷發(fā)展,人地矛盾的日益尖銳,糧食需求壓力的逐步增加,迫使人們更加關(guān)注我國有限的耕地資源[1]。在嚴(yán)格的土地管理制度背景下,為保證國家糧食安全而制定的耕地保護(hù)政策——占補(bǔ)平衡制度將在未來會不斷地強(qiáng)化和完善。為貫徹黨中央、國務(wù)院關(guān)于最嚴(yán)格耕地保護(hù)制度的總體要求,明確關(guān)于建設(shè)占用耕地要“占優(yōu)補(bǔ)優(yōu)、占水田補(bǔ)水田”的規(guī)定,有效遏制水田面積減少趨勢,提升耕地質(zhì)量進(jìn)一步挖掘耕地后備資源,解決新增建設(shè)用地占用水田補(bǔ)充平衡問題,各地政府開始實(shí)施“旱改水”工程改造。“旱改水”是保護(hù)耕地提升耕地質(zhì)量的重要手段,有利于農(nóng)業(yè)增產(chǎn)、農(nóng)民增收,能夠有效提高土地的產(chǎn)出效益,形成穩(wěn)定的生產(chǎn)能力,做到藏糧于田[2-3]。
受地形地貌水源條件等因素的限制,補(bǔ)充耕地中水田比例不高,實(shí)現(xiàn)占優(yōu)補(bǔ)優(yōu)難度很大,因此選擇區(qū)位條件較好、有灌溉水源、土壤肥力較高的部分旱地改造成水田。但又受資金、社會環(huán)境、自然環(huán)境、生態(tài)等因素影響,各級政府在一定時期內(nèi)投資改造水田的規(guī)模是有限的,因此改造水田的選擇在空間和時間上存在著先后順序,而“旱改水”優(yōu)先區(qū)選擇是改造區(qū)域先后順序的重要評判標(biāo)準(zhǔn)。
現(xiàn)階段國內(nèi)關(guān)于“旱改水”分區(qū)的研究較少,與此相關(guān)的研究主要集中在通過傳統(tǒng)的“旱改水”適宜性評價來進(jìn)行潛力分區(qū)[4-6]。傳統(tǒng)的“旱改水”適宜性評價存在專家打分不確定性強(qiáng)、強(qiáng)調(diào)分值為分區(qū)依據(jù)而非空間關(guān)系、不能挖掘其區(qū)域分布規(guī)律及因子內(nèi)在聯(lián)系等缺點(diǎn),因此缺乏一種科學(xué)的、定量的方法。廣東省“旱改水”分區(qū)包括大量的空間數(shù)據(jù)分析,為了有效耦合空間位置和屬性相關(guān)性,筆者提出一種結(jié)合空間聚類和關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,選擇優(yōu)先區(qū),并進(jìn)一步發(fā)現(xiàn)優(yōu)先區(qū)域分布規(guī)律和分區(qū)因子之間的關(guān)聯(lián)關(guān)系。
空間聚類作為聚類分析的一個研究方向,是指根據(jù)空間異質(zhì)性將空間對象分成由相似對象組成的類[7]。目前,己有許多研究提出了針對不同數(shù)據(jù)類型的基于多種空間聚類算法的土地分區(qū),由于空間聚類方法能根據(jù)空間對象的屬性對空間對象進(jìn)行分類劃分,因而空間聚類方法也是土地分區(qū)的一種重要方法。迄今為止,人們已提出了大量的空間聚類算法,本研究在試驗(yàn)分析的基礎(chǔ)上,選擇適用于數(shù)值型大數(shù)據(jù)集的K-means算法對試驗(yàn)數(shù)據(jù)進(jìn)行聚類,典型的K-means算法在空間聚類各算法中一直處于核心地位,該算法以平方誤差準(zhǔn)則較好地實(shí)現(xiàn)了空間聚類,對于大數(shù)據(jù)集的處理效率較高[6]。
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究領(lǐng)域中的一個重要任務(wù),旨在挖掘事務(wù)數(shù)據(jù)庫中有意義的關(guān)聯(lián),找出隱藏在數(shù)據(jù)間的相互關(guān)系。隨著大量數(shù)據(jù)被不停地收集和存儲,從數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則顯得越來越有必要性,本研究采用最經(jīng)典的Apriori算法,求出最強(qiáng)關(guān)聯(lián)的分區(qū)因子,進(jìn)而推出他們的關(guān)系,然后將這些規(guī)則轉(zhuǎn)換來選擇優(yōu)先區(qū),為決策提供重要的依據(jù)。
1 材料與方法
1.1 研究區(qū)與數(shù)據(jù)來源
1.1.1 研究區(qū)概況 廣東省全境位于20°09′~25°31′N和109°45′~117°20′E之間。地處我國大陸最南部,東鄰福建省,北接江西省、湖南省,西連廣西省,南臨南海,珠江口東西2側(cè)分別與香港、澳門特別行政區(qū)接壤,西南部雷州半島隔瓊州海峽與海南省相望。全省擁有豐富的耕地資源,目前全省已儲備位列全國第2的可用于占補(bǔ)平衡的耕地指標(biāo)11.3萬hm2。然而,由于快速的城鎮(zhèn)化和受可開發(fā)資源所限,全省儲備的耕地指標(biāo)中水田、水澆地較少,難以滿足“占優(yōu)補(bǔ)優(yōu)、占水田補(bǔ)水田”的新要求,因此“旱改水”優(yōu)先區(qū)選擇對于提高改造效率是迫切需要的。
1.1.2 數(shù)據(jù)來源 本研究的對象為廣東省旱地、可調(diào)整地類、未利用地以及全省現(xiàn)有補(bǔ)充耕地項(xiàng)目(歷年園地山坡地開發(fā)補(bǔ)充耕地項(xiàng)目,項(xiàng)目紅線在空間上已和上述3種地類進(jìn)行疊加分析處理,空間位置不重疊),以包含13個地級市123個縣的1 683 403塊圖斑作為分區(qū)單元。基礎(chǔ)數(shù)據(jù)來源于廣東省2013年土地利用變更調(diào)查數(shù)據(jù)地類圖斑;廣東省1 ∶ 50萬DEM數(shù)字高程模型,2013年廣東省各縣(市、區(qū))耕地質(zhì)量年度更新成果用于圖層屬性的獲取;道路、居民點(diǎn)、水系等基礎(chǔ)地理數(shù)據(jù),第2次土壤普查數(shù)據(jù)、2010—2015年各年度水資源年報數(shù)據(jù)等用于相關(guān)指標(biāo)數(shù)據(jù)獲取。
1.2 研究方法
1.2.1 屬性選擇 數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的重要一環(huán),要使挖掘內(nèi)核更有效地挖掘出知識,就必須為它提供干凈、準(zhǔn)確、簡潔的數(shù)據(jù)。屬性選擇通常作為數(shù)據(jù)挖掘的一個預(yù)處理步驟,在數(shù)據(jù)選擇和為數(shù)據(jù)挖掘做準(zhǔn)備的過程中起著重要的作用[8]。這個過程就是通過搜索數(shù)據(jù)中所有可能的屬性組合,刪除不相關(guān)和(或)冗余的屬性選出1個有m(m? ? ?一般來說,屬性選擇算法由4個基本步驟組成:子集產(chǎn)生、子集評估、停止準(zhǔn)則和結(jié)果有效性驗(yàn)證[9]。屬性選擇基本步驟見圖1。
子集產(chǎn)生是一個搜索過程,它產(chǎn)生用于評估的屬性子集。子集產(chǎn)生過程所生成的每個子集都需要用事先確定的評估準(zhǔn)則進(jìn)行評估,并且與先前符合準(zhǔn)則最好的子集進(jìn)行比較,如果它更好一些,那么就用它替換前一個最優(yōu)的子集。屬性選擇過程可以在滿足以下的條件之一時停止:(1)一個預(yù)先定義所要選擇的屬性數(shù);(2)預(yù)先定義的迭代次數(shù);(3)是否增加(或刪除)任何屬性都不產(chǎn)生更好的子集;(4)已經(jīng)根據(jù)確定的評估標(biāo)準(zhǔn)獲得最優(yōu)的子集。選擇的最優(yōu)子集需要通過在所選子集和原屬性集間進(jìn)行不同的測試和比較,使用人工和現(xiàn)實(shí)世界的數(shù)據(jù)集所產(chǎn)生的結(jié)果進(jìn)行有效性驗(yàn)證。
手工選擇屬性既煩瑣又容易出錯,自動的屬性選擇方法通常更快更好。為了實(shí)現(xiàn)屬性自動化,本研究借助WEKA軟件設(shè)立的CfSubsetEval屬性評估器和BestFirst搜索方法進(jìn)行屬性選擇。(1)CfSubsetEval評估器評估每個屬性的預(yù)測能力及其相互之間的冗余度,傾向于選擇與類別屬性相關(guān)度高,但相互之間相關(guān)度低的屬性。選項(xiàng)迭代添加與類別屬性相關(guān)度最高的屬性,只要子集中不包含與當(dāng)前屬性相關(guān)度更高的屬性。評估器將缺失值視為單獨(dú)值,也可以將缺失值記為與出現(xiàn)頻率成正比的其他值。(2)BestFirst搜索方法執(zhí)行帶回溯的貪婪爬山法,用戶可以指定在系統(tǒng)回溯之前,必須連續(xù)遇到多少個無法改善的節(jié)點(diǎn)。它可以從空屬性集開始向前搜索,也可以從全集開始向后搜索,還可以從中間點(diǎn)(通過屬性索引列表指定)開始雙向搜索并考慮所有可能的單個屬性的增刪操作。
1.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化 為了統(tǒng)一量化各個因子之間的關(guān)系和對總目標(biāo)的貢獻(xiàn),首先需要對分區(qū)指標(biāo)進(jìn)行一致性處理與指標(biāo)無量綱化,將數(shù)據(jù)表進(jìn)行極差標(biāo)準(zhǔn)化和文本標(biāo)準(zhǔn)化處理。
1.2.2.1 極差標(biāo)準(zhǔn)化 由于有效土層厚度、有機(jī)質(zhì)含量、障礙層深度要求“越大越好”,采用上限效果測度,即:
式中:Atj為標(biāo)準(zhǔn)化后的指標(biāo);Xtj為原數(shù)據(jù),代表第t個單元第j個指標(biāo)。標(biāo)準(zhǔn)化之后,各要素的最大值為1,最小值為0,其余數(shù)值都在0和1之間,這樣就對所有單元的數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化。
對于中向指標(biāo)pH值,以6.0~7.9左右2邊分別進(jìn)行正向標(biāo)準(zhǔn)化和負(fù)向標(biāo)準(zhǔn)化。
1.2.2.2 文本標(biāo)準(zhǔn)化 以表層土壤質(zhì)地、剖面構(gòu)型、灌溉保證率、排水條件作為文本數(shù)據(jù),需要根據(jù)因子等級進(jìn)行賦分,然后轉(zhuǎn)換為數(shù)值型數(shù)據(jù)再進(jìn)行正向的極差標(biāo)準(zhǔn)化處理。
1.2.3 K-means空間聚類 空間聚類(spatial clustering)是要在一個較大的多維數(shù)據(jù)集中采用距離度量以標(biāo)志出聚類,使得同一聚類中的對象有較高的相似度,而不同聚類中的對象彼此不同,是空間數(shù)據(jù)挖掘的一個重要組成部分[10-11]。
K-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標(biāo),根據(jù)給定的k值隨機(jī)產(chǎn)生k個分組中心,將所有實(shí)例分為圍繞這些中心的k個分組,然后通過反復(fù)迭代不斷改進(jìn)分組,直至分組效果最佳,即組內(nèi)實(shí)例距離最近,組間實(shí)例距離最遠(yuǎn),最后形成k個簇。該算法對于數(shù)值型屬性的聚類效果較好,并且對于大數(shù)據(jù)集具有快速、簡單、效率高的優(yōu)點(diǎn),算法基本思想和一般步驟如下:(1)設(shè)數(shù)據(jù)集合D={x1,x2,…,xn},從n個地塊中隨機(jī)選取其中的k個地塊作為初始聚類中心Mi(i=1,2,…,k)。(2)分別計(jì)算各地塊xm(m=1,2,…,n)到k個初始聚類中心Mi的距離,根據(jù)最小距離劃分?jǐn)?shù)據(jù)集合,將各個元素歸到與其距離最小的類中,形成k個類簇。(3)計(jì)算各類簇中元素平均值作為新的聚類中心。(4)相似度的計(jì)算采用歐氏距離,即2點(diǎn)之間的歐式空間直線距離??紤]鄰近度為歐氏距離的數(shù)據(jù),通常使用聚類的平方誤差作為度量聚類質(zhì)量的目標(biāo)函數(shù)。聚類平方誤差E定義如下:
式中:ki為第i個類簇中包含地塊的數(shù)量,重復(fù)步驟(2)、步驟(3),直至平方誤差E穩(wěn)定在最小值,直到簇不再發(fā)生變化,最后獲得k個聚類具有各聚類內(nèi)部緊湊、聚類間相異的特點(diǎn)。
本研究在試驗(yàn)分析的基礎(chǔ)上,選擇適用于數(shù)值型大數(shù)據(jù)集的K-means算法對數(shù)據(jù)進(jìn)行聚類,在聚類中心的選取上,通過不斷調(diào)節(jié)參數(shù)使誤差平方和最小,來確定最優(yōu)k。聚類過程借助WEKA 3.8軟件和ArcGIS 10.2實(shí)現(xiàn)。
1.2.4 Apriori關(guān)聯(lián)規(guī)則 數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若2個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中的一種挖掘信息的技術(shù),是從海量的數(shù)據(jù)中找到項(xiàng)與項(xiàng)之間有用的關(guān)聯(lián)關(guān)系,關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價值描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的有關(guān)知識,有助于發(fā)現(xiàn)數(shù)據(jù)庫中不同屬性之間的聯(lián)系[12-13]。
Apriori算法是關(guān)聯(lián)分析中應(yīng)用最廣泛的一種算法,是基于關(guān)聯(lián)規(guī)則的基礎(chǔ),首先找到頻繁集,再由頻繁集推出關(guān)聯(lián)的規(guī)則。算法的核心思想是基于頻繁集理論的一種遞推方法,其目的是根據(jù)最小支持度閾值和最小置信度閾值從給定的數(shù)據(jù)集中挖掘出期望的關(guān)聯(lián)規(guī)則[9]。
該算法利用了一個層次順序搜索的循環(huán)方法來完成頻繁項(xiàng)集的挖掘工作?;具^程如下:
(1)首先計(jì)算所有的C1;(2)掃描數(shù)據(jù)庫,刪除其中的非頻繁子集,生成L1(1-頻繁項(xiàng)集);(3)將L1與自己連接生成C2(候選2-項(xiàng)集);(4)掃描數(shù)據(jù)庫,刪除C2中的非頻繁子集,生成L2(2-頻繁項(xiàng)集);(5)依此類推,通過Lk-1(k-1-頻繁項(xiàng)集)與自己連接生成Ck(候選k-項(xiàng)集),然后掃描數(shù)據(jù)庫,生成Lk(頻繁k-項(xiàng)集),直到不再有頻繁項(xiàng)集產(chǎn)生為止。
滿足最小支持度閾值和最小信任度閾值的關(guān)聯(lián)規(guī)則稱為強(qiáng)規(guī)則。通過使用數(shù)據(jù)挖掘軟件WEKA及關(guān)聯(lián)算法Apriori可以分析數(shù)據(jù)庫中一些項(xiàng)集的關(guān)聯(lián)性關(guān)系,找出某些強(qiáng)關(guān)聯(lián)規(guī)則。
2 結(jié)果與分析
2.1 分區(qū)指標(biāo)體系
作為廣東省旱地改水田區(qū)域劃分的分析研究,是基于土地適宜性評價的基礎(chǔ)上進(jìn)行篩選分區(qū)指標(biāo)。結(jié)合廣東省的實(shí)際情況,分別從地形、氣候、水源、土壤、交通、社會經(jīng)濟(jì)條件等影響因素出發(fā),參考農(nóng)用地質(zhì)量分等規(guī)程、農(nóng)用地定級規(guī)程等資料來確定,選定具有典型性和穩(wěn)定性的主導(dǎo)因子,包括高程、地形坡度、田面坡度、水源保障程度、排水條件、交通通達(dá)度、連片性、有效土層厚度、表層土壤質(zhì)地、土壤剖面構(gòu)型、pH值、障礙層次、地表巖石露頭度、土壤鹽漬化程度等可選分區(qū)因子。
通過自動屬性選擇,按照相關(guān)度的大小,選取地形坡度、有效土層厚度、表層土壤質(zhì)地、剖面構(gòu)型、有機(jī)質(zhì)含量、pH值、障礙層深度、灌溉保證率、排水條件9個屬性因子,廣東省旱改水分區(qū)指標(biāo)體系見表1。
土壤是影響耕地質(zhì)量的最基本要素[14-15]。在眾多影響土壤質(zhì)量的因素中,表土質(zhì)地、剖面構(gòu)型、pH值直接影響土壤結(jié)構(gòu)、土壤耕性、土壤陽離子交換量、土壤容重、土壤空隙狀況等其他土壤理化性狀;有效土層厚度和土壤有機(jī)質(zhì)含量是最能反映土壤自然生產(chǎn)潛力的指標(biāo)。
地形是影響耕地質(zhì)量的重要因素。根據(jù)國家規(guī)定,25°以上坡地不能開發(fā),小于25°的范圍,坡度越小,越適宜改造。地表起伏越大坡度越陡,土壤侵蝕作用越強(qiáng),水土流失越嚴(yán)重;地形起伏越小,對農(nóng)田水利化越有利。
補(bǔ)充水田潛力是改造水田的關(guān)鍵條件,灌溉保證率是灌溉用水量的保證程度,農(nóng)田排水是改善農(nóng)業(yè)生產(chǎn)條件,保證作物高產(chǎn)穩(wěn)產(chǎn)的重要措施之一。灌溉保證率和排水條件越好,說明越適宜改造。
2.2 聚類分區(qū)結(jié)果分析
在WEKA中選定SimpleK means算法,隨機(jī)選擇聚類數(shù)numClusters,設(shè)定參數(shù)為“SimpleK means N 5-S 10”,Cluster mode選取“Use training set”。經(jīng)過多次不同k值和樣本種子值運(yùn)算比較誤差大小,最終選擇k=5,seed=20時誤差平方和為最小。
聚類運(yùn)算的結(jié)果中,數(shù)據(jù)集中的區(qū)域被分為5個相似的分組,聚類中心k的各因子屬性和標(biāo)準(zhǔn)差見表2,在省級行政圖上表示出5類區(qū)域的空間分布見圖3。
各項(xiàng)標(biāo)準(zhǔn)差均不超過0.5,說明同一分組的實(shí)例間距離較近,分組有效,無須剔除異常值。
從整體分布來看,5類區(qū)域在廣東省各縣區(qū)分布比較均勻,但由于地理?xiàng)l件的差異,西部地區(qū)種類相對密集。從各分類來看,聚類0中限制性因子障礙層深度遠(yuǎn)遠(yuǎn)高于其他幾類,地形坡度、有效土層厚度值相對較低,主要分布在珠三角平原中部,粵東沿海區(qū)西北部一些坡度陡、土壤條件稍差的地區(qū);聚類1、聚類2是分布最少的2類,聚類1中地形坡度、有效土層厚度最高,但表土質(zhì)地最低,零星分布在雷州半島和珠三角南部、粵東沿海地帶一些地形平緩、土壤自然生產(chǎn)潛力較高的地區(qū),但由于海水的作用產(chǎn)生土壤鹽漬化使得土壤肥力差;而聚類2中pH值、排水條件最低,其他屬性值較均勻,處于中等位置,與聚類1分布相似,只是多為內(nèi)陸地區(qū),可能由于該地區(qū)土壤呈酸性;聚類3中地形坡度、有機(jī)質(zhì)含量、灌溉保證率、障礙層深度最低,尤其是灌溉保證率、障礙層深度為0而排水條件卻最高,均勻分布在全省各個地區(qū),以粵西沿海區(qū)東北部、粵西北山區(qū)北部、粵東沿海區(qū)東部較為集中,該地區(qū)坡度較大,土壤自然生產(chǎn)潛力較低,水源灌溉條件差,可能不適宜進(jìn)行改造;聚類4分布也較為廣泛,集中在粵西北山區(qū)大部、粵西沿海區(qū),該類地區(qū)表土質(zhì)地、剖面構(gòu)型、有機(jī)質(zhì)含量、pH值、灌溉保證率都是最高,其他幾個屬性值也都不低,該地區(qū)地勢平坦、土壤肥沃、水源豐富,比較適宜改造。
2.3 關(guān)聯(lián)規(guī)則挖掘結(jié)果分析
WEKA平臺中的Filtered Associator增加了數(shù)據(jù)過濾器,將經(jīng)過篩選轉(zhuǎn)換的數(shù)據(jù)在WEKA所支持的任意基本關(guān)聯(lián)算法中進(jìn)行分析。根據(jù)關(guān)聯(lián)規(guī)則,將研究數(shù)據(jù)設(shè)置為這樣的項(xiàng)目集:I={地形坡度、有效土層厚度、表土質(zhì)地、剖面構(gòu)型、有機(jī)質(zhì)含量、pH值、障礙層深度、灌溉保證率、排水條件}。由于Apriori算法無法對數(shù)值型數(shù)據(jù)進(jìn)行操作,在做關(guān)聯(lián)分析前將原數(shù)據(jù)類型轉(zhuǎn)換為9個類別的分類型數(shù)據(jù),數(shù)據(jù)轉(zhuǎn)換完成后,設(shè)置參數(shù)“Apriori-N 10-T 0-C 0.9-D 0.05-U 1.0-M 0.1-S-1.0-c-1”進(jìn)行關(guān)聯(lián)分析。不斷掃描數(shù)據(jù)樣本后產(chǎn)生的關(guān)聯(lián)規(guī)則如下:
Best rules found:
(1)PMGX=TTR 1 003 787==>BTZD=R 972 990lift:(1.15) lev:(0.08)[85 355]conv:(5.23);
(2)PMGX=TTR YJZHL=2-3 482 938==>BTZD=R 475 644lift:(1.17)lev:(0.05)[47 915]conv:(10.3);
(3)PMGX=TTR GGBZL=1j 467 383==>BTZD=R 458 865lift:(1.16)lev:(0.04)[45 035]conv:(9.07);
(4)PMGX=TTR PSTJ=1j 393 078==>BTZD=R 384 780lift:(1.16)lev:(0.04)[38 708]conv:(8.13);
(5)PMGX=TTR PHZ=6-7.9 381 444==>BTZD=R 372 374lift:(1.16)lev:(0.05)[49 997]conv:(6.51);
(6)PMGX=TTR ZACSD=<30 724 958==>BTZD=R 700 451lift:(1.15)lev:(0.06)[59 086]conv:(4.81);
(7)YXTCHD=>=100 PMGX=TTR ZACSD=<30 509 355==>BTZD=R 492 916lift:(1.12)lev:(0.03)[13 953]conv:(3.25);
(8)PMGX=TTR YJZHL=2-3 ZACSD=<30 104 102==>BTZD=R 102 718lift:(1.15)lev:(0.03)[13 745]conv:(10.92);
(9)PMGX=TTR GGBZL=1j ZACSD=<30 110 655==>BTZD=R 108 576lift:(1.15)lev:(0.03)[14 002]conv:(7.73);
(10)YXTCHD=>=100 PMGX=TTR ZACSD=<30 138 634==>BTZD=R 132 439lift:(1.12)lev:(0.03)[13 953]conv:(3.25)。
觀察關(guān)聯(lián)規(guī)則,每條規(guī)則的置信度均很高(表3至表5),從中可以獲取改造因子不同屬性之間的聯(lián)系,篩選置信度最高(0.98)的關(guān)聯(lián)規(guī)則得出:(1)由剖面構(gòu)型是通體壤、有機(jī)質(zhì)含量2~3、障礙層深度<30與表土質(zhì)地為壤土的關(guān)聯(lián)規(guī)則可知,剖面構(gòu)型是通體壤、有機(jī)質(zhì)含量在2~3且限制性因子障礙層深度滿 足<30 的地塊,它們的表土質(zhì)地也相對應(yīng)是最優(yōu)的壤土。(2)同樣,剖面構(gòu)型是通體壤,灌溉保證率是1級或排水條件是1級或者pH值在6.0~7.9的地塊通常表土質(zhì)地也是最優(yōu)的。
2.4 優(yōu)先區(qū)的選擇結(jié)果分析
由于空間聚類分區(qū)結(jié)果并不能直觀地表明優(yōu)先區(qū)為哪一類,為了挖掘出到底哪一類是最優(yōu)先區(qū),將9個指標(biāo)屬性的所有分區(qū)單元進(jìn)行關(guān)聯(lián)規(guī)則挖掘。土壤是影響耕地質(zhì)量的最基本要素,而表土質(zhì)地是壤土作為最頻繁項(xiàng)集,本身就是土壤的最優(yōu)條件,因此和與它形成最強(qiáng)關(guān)聯(lián)的因子屬性的組合作為選擇優(yōu)先區(qū)的決策標(biāo)準(zhǔn)。
將置信度最高的6條關(guān)聯(lián)規(guī)則作為選擇優(yōu)先區(qū)的標(biāo)準(zhǔn),基于已經(jīng)劃分好的聚類區(qū),發(fā)現(xiàn)符合最強(qiáng)關(guān)聯(lián)規(guī)則的聚類區(qū)是聚類4,廣東省旱改水改造最優(yōu)先區(qū)分布見圖4。
(1)從優(yōu)先區(qū)地塊數(shù)量來看,共涉及13個市,62個縣區(qū),408 841個地塊,共計(jì)975 628.35 hm2,占總數(shù)的28.36%。(2)從圖3可以看出,從整體分布來看,優(yōu)先區(qū)主要分布在地勢平坦、水資源充足的粵西北山區(qū)和粵西沿海區(qū),其中粵西沿海區(qū)的優(yōu)先改造區(qū)多集中在雷州半島。這些地區(qū)的旱地及耕地后備的灌溉保證率、地形坡度等條件相對優(yōu)越,并且廣東省旱地和望天田主要分布在湛江市、清遠(yuǎn)市、陽江市、韶關(guān)市等地,尤以湛江市為最,55%的耕地為旱地和望天田,較為適宜于“旱改水”工程土地整治。珠三角平原區(qū)僅在江門市、肇慶市、惠州市分布,這是因?yàn)榇说貐^(qū)河流水網(wǎng)密布,灌溉條件優(yōu)越,水田占據(jù)較大比例,開發(fā)水田的潛力已經(jīng)基本用盡。(3)從各縣區(qū)潛力來看,雷州縣、廉江縣、臺山縣、英德縣優(yōu)先區(qū)地塊占較高比例,潛力較大。這些區(qū)域距水源相對較近,地面坡度較小,有效土層相對較厚,稍經(jīng)整治便會具有較好的農(nóng)業(yè)生產(chǎn)條件。
3 討論與結(jié)論
筆者是以農(nóng)用地定級和分等規(guī)程劃分的指標(biāo)為依據(jù),基于空間數(shù)據(jù)挖掘的方法開展的“旱改水”優(yōu)先區(qū)選擇研究嘗試,在實(shí)踐中難免存在一些不足之處,并與其他分區(qū)結(jié)果有一定的差別。需要說明的是:(1)分區(qū)指標(biāo)體系中指標(biāo)沒有考慮權(quán)重,主要是因?yàn)橹笜?biāo)的篩選不是通過專家打分,而是數(shù)據(jù)的自動屬性選擇的相關(guān)性大的指標(biāo),通過數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換為數(shù)值型數(shù)據(jù)來統(tǒng)一運(yùn)算。(2)分區(qū)結(jié)果中同一縣區(qū)可能呈現(xiàn)不同類別,這是因?yàn)檠芯恳詧D斑作為分區(qū)單元而不是縣級行政區(qū),這樣可以避免同一縣區(qū)雷同性。(3)關(guān)聯(lián)規(guī)則主要作為分區(qū)結(jié)果的進(jìn)一步?jīng)Q策,更科學(xué)地表明聚類4是優(yōu)先區(qū),不作為主要的研究結(jié)果。(4)分區(qū)結(jié)果與其他學(xué)者的分區(qū)方案存在一定的差異,這主要?dú)w因于研究角度、指標(biāo)體系和分區(qū)依據(jù)等的差別。(5)本研究的目的在于為廣東省“旱改水”改造順序提供一定的科學(xué)依據(jù),對于各地詳細(xì)的改造順序,還需要在實(shí)踐中結(jié)合縣(市)的具體社會經(jīng)濟(jì)特點(diǎn)進(jìn)一步探索研究。
通過研究獲得如下結(jié)論:(1)以廣東省1 683 403塊旱地為分區(qū)單元,結(jié)合研究區(qū)域的地形、土壤、補(bǔ)充水田潛力等條件,從可選的14個指標(biāo)中通過屬性選擇相關(guān)性較高的地形條件、土壤條件和補(bǔ)充水田潛力條件9個指標(biāo),建立了“旱改水”分區(qū)指標(biāo)體系。(2)通過K-means聚類分析得到5類區(qū)域,并以Apriori關(guān)聯(lián)規(guī)則挖掘出的最強(qiáng)關(guān)聯(lián)作為決策選擇出優(yōu)先區(qū),主要分布在粵西北山區(qū)和粵西沿海區(qū),并分析了該區(qū)域的實(shí)際條件和作為優(yōu)先區(qū)的原因。(3)研究結(jié)果表明,采用空間聚類和關(guān)聯(lián)規(guī)則相結(jié)合的數(shù)據(jù)挖掘方法,科學(xué)地挖掘出“旱改水”優(yōu)先區(qū),為各級政府“旱改水”改造工作提供重要的科學(xué)依據(jù),有利于節(jié)省資金和人力物力資源。
參考文獻(xiàn):
[1]齊艷紅,潘 旭,趙映慧. 浙江省江山市旱改水適宜性評價[J]. 安徽農(nóng)業(yè)科學(xué),2016(35):202-204.
[2]劉正國,游振波,黃 俊. 江西省旱地改水田土地整治研究——以永豐縣瑤田鎮(zhèn)湖西村旱改水項(xiàng)目為例[J]. 安徽農(nóng)業(yè)科學(xué),2015(36):185-187,229.
[3]王 君. 旱地改水田項(xiàng)目中新增水田的適宜性評價方法研究——以湖南省華容縣梅田湖鎮(zhèn)北剅口村金雞村旱地改水田項(xiàng)目為例[J]. 農(nóng)業(yè)與技術(shù),2015(24):55-56.
[4]陳印軍,肖碧林,陳京香. 我國耕地“占補(bǔ)平衡”與土地開發(fā)整理效果分析與建議[J]. 中國農(nóng)業(yè)資源與區(qū)劃,2010(1):1-6.
[5]張 琳,張鳳榮,薛永森,等. 中國各省耕地?cái)?shù)量占補(bǔ)平衡趨勢預(yù)測[J]. 資源科學(xué),2007(6):114-119.
[6]胡 科,石培基. 甘肅省耕地質(zhì)量評價研究[J]. 中國土地科學(xué),2008(11):38-43.
[7]王大龍,秦 琦. 關(guān)于數(shù)據(jù)挖掘原理與算法的淺析[J]. 科技創(chuàng)新導(dǎo)報,2010(2):193-193.