郝玲 張佩 史逸民 劉瑞翔 王偉健 朱云鳳
摘要:利用江蘇省統(tǒng)計(jì)局提供的全省75個(gè)縣(市、區(qū))1981—2018年的冬小麥產(chǎn)量,基于灰色系統(tǒng)滑動(dòng)模型得到各縣(市、區(qū))冬小麥氣象產(chǎn)量。采用K-means算法對(duì)全省各縣(市、區(qū))冬小麥氣象產(chǎn)量進(jìn)行聚類分析,將全省客觀劃分為南、北2個(gè)冬小麥種植區(qū),區(qū)域連續(xù)且相互獨(dú)立。通過(guò)C4.5決策樹(shù)算法,基于130項(xiàng)前期春季氣候因子對(duì)2個(gè)種植區(qū)的冬小麥氣象產(chǎn)量“是否歉年”分別建立決策樹(shù)預(yù)測(cè)模型。在北種植區(qū)冬小麥?zhǔn)欠袂改甑念A(yù)測(cè)中,決策樹(shù)模型的自學(xué)習(xí)準(zhǔn)確率為82.0%,測(cè)試準(zhǔn)確率為90.9%;在南種植區(qū)冬小麥?zhǔn)欠袂改甑念A(yù)測(cè)中,決策樹(shù)模型的自學(xué)習(xí)準(zhǔn)確率為92.5%,測(cè)試準(zhǔn)確率為91.67%。結(jié)果表明,K-means算法和C4.5算法對(duì)江蘇省冬小麥氣象產(chǎn)量區(qū)劃和預(yù)測(cè)具有良好效果,可為江蘇省冬小麥產(chǎn)量預(yù)測(cè)提供有意義的參考。
關(guān)鍵詞:冬小麥;氣象產(chǎn)量;種植區(qū)劃;K-means算法;C4.5算法;決策樹(shù)預(yù)測(cè)模型
中圖分類號(hào):S162.5+3 文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2021)12-0162-06
收稿日期:2020-10-20
基金項(xiàng)目:江蘇省第五期“333高層次人才培養(yǎng)工程”項(xiàng)目(編號(hào):BRA2019348)。
作者簡(jiǎn)介:郝 玲(1983—),女,天津人,碩士,工程師,主要從事應(yīng)用氣象及天氣預(yù)報(bào)技術(shù)研究。E-mail:702381568@qq.com。
通信作者:劉瑞翔,碩士,工程師,主要從事氣象災(zāi)害評(píng)估與監(jiān)測(cè)研究。E-mail:261650438@qq.com。
在我國(guó)冬小麥?zhǔn)侵匾募Z食作物,在全國(guó)糧食安全中具有重要位置[1]。江蘇省位于溫帶季風(fēng)氣候與亞熱帶季風(fēng)氣候的南北過(guò)渡帶上,不同區(qū)域的氣象條件往往具有較大的差異,對(duì)農(nóng)作物的生長(zhǎng)發(fā)育往往有著不同的影響[2]。因此,對(duì)農(nóng)作物種植區(qū)進(jìn)行合理的區(qū)劃具有重要意義。沈宗瀚在1936年便依照我國(guó)的氣候、土壤條件及小麥生長(zhǎng)狀況等特點(diǎn),將全國(guó)劃分為長(zhǎng)江流域、淮河流域、隴海鐵路東段、陜西中部、豫魯北部及燕晉區(qū)6個(gè)冬小麥種植區(qū)[3];根據(jù)小麥的冬春習(xí)性、籽粒色澤及質(zhì)地軟硬,金善寶于1943年將小麥種植區(qū)劃分為紅皮春麥、硬質(zhì)冬春混合以及軟質(zhì)紅皮冬麥3個(gè)區(qū)域[4];1961年,金善寶在《中國(guó)小麥栽培學(xué)》中,依據(jù)我國(guó)的氣候特點(diǎn),特別是年平均氣溫、冬季氣溫、降水量及其分布以及小麥類型、耕作栽培制度、適宜播期和成熟期等因素,將我國(guó)的小麥種植區(qū)劃分為3個(gè)主區(qū)及10個(gè)亞區(qū)[5];金善寶在《中國(guó)小麥學(xué)》中依據(jù)地理地域、品種冬春性、籽粒特性以及栽培環(huán)境等因素的綜合影響對(duì)小麥種植區(qū)進(jìn)行區(qū)劃,將我國(guó)小麥種植區(qū)分為3個(gè)主區(qū)10個(gè)亞區(qū)和29個(gè)副區(qū)[4];趙廣才結(jié)合多年小麥栽培技術(shù)成果和生產(chǎn)實(shí)踐經(jīng)驗(yàn),在前人研究基礎(chǔ)之上對(duì)我國(guó)小麥進(jìn)行區(qū)劃研究,將我國(guó)小麥種植區(qū)劃分為4個(gè)主區(qū)及10個(gè)亞區(qū)[3,6]。眾多學(xué)者基于小麥種植區(qū)的氣候特點(diǎn)、小麥本身的特性及基于主觀的經(jīng)驗(yàn)對(duì)小麥的種植區(qū)進(jìn)行劃分。
冬小麥的產(chǎn)量受氣候條件、生產(chǎn)技術(shù)水平等多種因素影響,其生長(zhǎng)條件和環(huán)境可以看成是非常復(fù)雜的非線性系統(tǒng),因此其產(chǎn)量是受到不同生長(zhǎng)階段的多種氣象要素和生長(zhǎng)發(fā)育環(huán)境等多個(gè)影響因子相互作用的共同結(jié)果,冬小麥單產(chǎn)的提高主要依靠品種和栽培措施的改進(jìn)以及對(duì)氣象條件變化的趨利避害等方面[7]。然而,20世紀(jì)80年代以來(lái),全球氣溫普遍升高,極端天氣頻發(fā),對(duì)冬小麥產(chǎn)量造成了嚴(yán)重的負(fù)面影響[8-9]。高蘋(píng)等基于海溫和大氣環(huán)流特征對(duì)江蘇省小麥適播期進(jìn)行了預(yù)測(cè)研究[10];吳洪顏等建立了基于太平洋海溫的冬小麥濕漬害預(yù)測(cè)模型并發(fā)現(xiàn)2個(gè)高相關(guān)區(qū),即Nino區(qū)和西太平洋北部海區(qū)[11];隨著遙感技術(shù)的發(fā)展,越來(lái)越多的學(xué)者利用衛(wèi)星遙感資料預(yù)測(cè)冬小麥產(chǎn)量,李衛(wèi)國(guó)等基于遙感信息獲取小麥生理過(guò)程與氣候環(huán)境狀況建立了簡(jiǎn)化的小麥估產(chǎn)模型可對(duì)不同年份、不同區(qū)域的小麥產(chǎn)量形成情況進(jìn)行監(jiān)測(cè)與預(yù)報(bào)[12-13]。
大尺度的大氣環(huán)流系統(tǒng)強(qiáng)度和位置的調(diào)整、不同區(qū)域海溫異常變化往往能夠?qū)е麓髤^(qū)域甚至全球范圍的氣候異常,從而間接影響農(nóng)作物氣象產(chǎn)量的豐歉[14]。于彩霞等利用逐月的大尺度氣候因子對(duì)小麥白粉病進(jìn)行了效果良好的產(chǎn)期預(yù)測(cè)研究[15]。尚志云等利用74項(xiàng)大氣環(huán)流指數(shù)基于貝葉斯分類模型對(duì)河北省冬小麥白粉病建立了預(yù)測(cè)模型[16]。姜燕等利用不同膨化時(shí)段的74項(xiàng)環(huán)流指數(shù)距平值對(duì)全國(guó)小麥條銹病發(fā)病面積建立預(yù)報(bào)模型[17]。也有學(xué)者通過(guò)模擬全國(guó)小麥、玉米等農(nóng)作物在干旱等惡劣氣候環(huán)境中的產(chǎn)量評(píng)估異常氣候?qū)r(nóng)作物產(chǎn)量的影響[18]。
隨著5G互聯(lián)網(wǎng)浪潮的掀起,大數(shù)據(jù)、云計(jì)算、人工智能等新興領(lǐng)域蓬勃發(fā)展。而數(shù)據(jù)挖掘技術(shù)是人工智能的重要分支領(lǐng)域。國(guó)內(nèi)外越來(lái)越多的學(xué)者將數(shù)據(jù)挖掘技術(shù)應(yīng)用于農(nóng)業(yè)方面[19-21]。然而,目前學(xué)界對(duì)江蘇省冬小麥氣象產(chǎn)量的客觀區(qū)劃及預(yù)測(cè)的相關(guān)研究相對(duì)較少,本研究旨在利用數(shù)據(jù)挖掘中經(jīng)典的K-means聚類算法對(duì)江蘇省冬小麥氣象產(chǎn)量建立客觀合理的區(qū)劃模型,再利用前期春季的氣候指數(shù)集通過(guò)C4.5決策樹(shù)算法對(duì)不同冬小麥種植區(qū)建立產(chǎn)量歉年的預(yù)測(cè)模型,為農(nóng)產(chǎn)品氣象產(chǎn)量的區(qū)劃與預(yù)測(cè)提供新的思路。
1 材料與方法
本研究利用數(shù)據(jù)挖掘中經(jīng)典的K-means聚類算法對(duì)江蘇省75個(gè)縣(市、區(qū))的冬小麥氣象產(chǎn)量進(jìn)行聚類分析,通過(guò)各縣(市、區(qū))冬小麥氣象產(chǎn)量數(shù)據(jù)上的相似程度客觀判斷各地區(qū)所屬類別,進(jìn)而對(duì)江蘇省冬小麥氣象產(chǎn)量進(jìn)行客觀的區(qū)劃。針對(duì)不同區(qū)域,利用130項(xiàng)前期春季氣候因子,基于數(shù)據(jù)挖掘中C4.5決策樹(shù)算法,對(duì)各區(qū)域冬小麥產(chǎn)量歉年進(jìn)行預(yù)測(cè)。
1.1 資料來(lái)源
本研究使用的資料來(lái)源如下:(1)江蘇省統(tǒng)計(jì)局提供的全省75個(gè)地區(qū)1981—2018年冬小麥產(chǎn)量;(2)江蘇省氣象局提供的全省各站1981—2018年日最高氣溫、日最低氣溫、日平均氣溫、日降水量以及日照時(shí)數(shù)等氣象資料;(3)氣候指數(shù)來(lái)自國(guó)家氣候中心(NCC)整編的百項(xiàng)氣候系統(tǒng)指數(shù)集。
冬小麥氣象產(chǎn)量的處理:由于科學(xué)技術(shù)進(jìn)步和自然條件的變化,農(nóng)作物的產(chǎn)量可分離為趨勢(shì)產(chǎn)量、氣象產(chǎn)量和隨機(jī)誤差,隨機(jī)誤差可忽略不計(jì)。
y=yt+yw+ε。(1)
式中:y為作物產(chǎn)量;yw為氣象產(chǎn)量;yt為趨勢(shì)產(chǎn)量;ε為隨機(jī)誤差。計(jì)算趨勢(shì)產(chǎn)量的方法有多種,本研究采用灰色系統(tǒng)GM(1,1)滑動(dòng)模型[22]獲取。
對(duì)于冬小麥的氣象產(chǎn)量序列{yw},總樣本數(shù)為n。通過(guò)計(jì)算氣象產(chǎn)量序列標(biāo)準(zhǔn)差σ,定義當(dāng)氣象產(chǎn)量小于-0.5σ為冬小麥產(chǎn)量歉年。
1.2 方法介紹
1.2.1 K-means聚類算法
K-means算法是數(shù)據(jù)挖掘中最經(jīng)典的聚類算法,也是數(shù)據(jù)挖掘中十大算法之一[23]。聚類即根據(jù)相似性為原則對(duì)事物進(jìn)行分類,使得“類內(nèi)相似,類間相異”。K-means算法采用距離作為相似性指標(biāo),從而發(fā)現(xiàn)給定數(shù)據(jù)集中的K個(gè)類,且每個(gè)類的中心是根據(jù)類中所有數(shù)值的均值得到的,每個(gè)類的中心用聚類中心來(lái)描述。K-means不需要任何先驗(yàn)知識(shí),是無(wú)監(jiān)督算法,在人工智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域中均有廣泛應(yīng)用。
K-means算法在本研究中的描述及實(shí)現(xiàn)過(guò)程如下:
在給定的氣象產(chǎn)量數(shù)據(jù)集yw={x1,x2,…,xn}初始化K個(gè)簇C={C1,C2,…,Ck},其最小化損失函數(shù)為
E=∑ki=1∑x∈Ci‖x-μi‖2。(2)
其中Ci的中心點(diǎn):
μi=1|Ci|∑x∈Cix。(3)
在樣本中隨機(jī)選取k個(gè)樣本充當(dāng)各個(gè)簇的中心點(diǎn){η1,η2,…,ηk},計(jì)算所有樣本點(diǎn)與各個(gè)簇中心之間的距離,把樣本劃入最近的簇中。
1.2.2 C4.5算法
決策樹(shù)技術(shù)是一種對(duì)海量數(shù)據(jù)集進(jìn)行分類的非常有效的方法。通過(guò)構(gòu)造決策樹(shù)模型,從有目標(biāo)變量和預(yù)測(cè)變量的數(shù)據(jù)集中提取決策規(guī)則、模式和知識(shí)[24]。機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型;它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。 樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表某個(gè)可能的屬性值,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)所經(jīng)歷的路徑對(duì)應(yīng)一個(gè)判定測(cè)試序列。
C4.5算法是一種常用的決策樹(shù)算法,這種算法通過(guò)特殊處理方式可以恰當(dāng)?shù)剡x擇每個(gè)節(jié)點(diǎn)上的屬性變量[25]。它的目標(biāo)是監(jiān)督學(xué)習(xí):給定一個(gè)數(shù)據(jù)集,其中的每一個(gè)元組都能用一組屬性值來(lái)描述,每一個(gè)元組屬于一個(gè)互斥的類別中的某一類。C4.5的目標(biāo)是通過(guò)學(xué)習(xí),找到一個(gè)從屬性值到類別的映射關(guān)系,并且這個(gè)映射能用于對(duì)新的類別未知的實(shí)體進(jìn)行分類。這一算法的理論基礎(chǔ)是信息論中熵的概念,目標(biāo)是找到保持分類最小差異性所需最低限度的信息[26]。令S為包括s個(gè)數(shù)據(jù)樣本的訓(xùn)練集,S(Ci)為S中屬于Ci類的樣本個(gè)數(shù)(i=1,2,…,m)。此時(shí)訓(xùn)練集S的信息(熵)定義為
info(S)=∑mi=1S(Ci)slog2S(Ci)s。(4)
接著,需要通過(guò)屬性A將信息S分為{S1,S2,…,SV}(屬性A所包含不同值的數(shù)目為v)。
info(A|S)=∑Vj=1SjSinfo(S)。(5)
增益計(jì)算如下:
gainratio(A|S)=gain(A|S)info(A|S)。(6)
其中
gain(A|S)=info(S)-info(A|S)。(7)
與其他分類算法相比,決策樹(shù)算法(以C4.5算法為例)具有以下優(yōu)點(diǎn):決策樹(shù)是一種自解釋的模型,并且可以抽象出決策規(guī)則方便執(zhí)行;該模型可以同時(shí)處理離散和連續(xù)型變量;對(duì)數(shù)據(jù)中的缺失值不敏感。
2 基于K-means算法的江蘇省冬小麥氣象產(chǎn)量的區(qū)域劃分
江蘇省位于我國(guó)東部沿海,受季風(fēng)影響,冬夏較長(zhǎng),春秋偏短,地跨南北氣候帶,全省年平均氣溫均自南向北遞減。江蘇省南部和北部的季節(jié)起止時(shí)間也有明顯差異,一般蘇南地區(qū)和淮北地區(qū)相差1周左右。降水量的分布也存在南多北少,內(nèi)陸少于沿海的特征,江蘇省不同區(qū)域具備的氣候特點(diǎn)不盡相同。為了更加客觀地反映冬小麥產(chǎn)量的氣象區(qū)劃,本研究利用江蘇省75個(gè)地區(qū)的冬小麥氣象產(chǎn)量數(shù)據(jù)本身的相似程度,基于K-means聚類算法建立全省冬小麥氣象產(chǎn)量的區(qū)劃模型。
利用1981—2018年各地冬小麥產(chǎn)量,通過(guò)上文所述的灰色系統(tǒng)滑動(dòng)模型獲得各縣(市、區(qū))每年氣象產(chǎn)量,將全省氣象產(chǎn)量數(shù)據(jù)集輸入K-means算法,利用輪廓系數(shù)來(lái)確定聚類數(shù),選擇輪廓系數(shù)較大的k值[23]。
為了簡(jiǎn)潔地劃分江蘇省冬小麥種植區(qū),通過(guò)從2~5比較K值的輪廓系數(shù),輪廓系數(shù)越接近1聚類效果越好,當(dāng)k=2時(shí)輪廓系數(shù)達(dá)到0.5,聚類的效果達(dá)到最佳(圖1)。 因此筆者所在課題組將聚類數(shù)K定為2。
通過(guò)K-means算法聚類后,制作出江蘇省冬小麥氣象產(chǎn)量區(qū)劃(圖2)??梢钥闯?,2個(gè)冬小麥種植區(qū)南北分布,北種植區(qū)面積較南冬小麥種植區(qū)更大,北種植區(qū)包含全省75個(gè)縣(市、區(qū))中的47個(gè)縣(市、區(qū)),占63%。南冬小麥種植區(qū)包含全省75個(gè)縣(市、區(qū))中的28個(gè),占37%。
通過(guò)統(tǒng)計(jì)江蘇省冬小麥北南種植區(qū)的氣象產(chǎn)量(圖3),可以發(fā)現(xiàn)北種植區(qū)與南種植區(qū)冬小麥氣象產(chǎn)量的整體趨勢(shì)是近似的,不同的是南種植區(qū)的氣象產(chǎn)量隨時(shí)間變化的幅度較北種植區(qū)更大,說(shuō)明北種植區(qū)氣象條件對(duì)于冬小麥產(chǎn)量而言更加穩(wěn)定可靠。另外,在個(gè)別時(shí)間段存在反位相的情況,如1986—1988年。
綜上所述,江蘇省冬小麥氣象產(chǎn)量區(qū)劃區(qū)域具有連續(xù)性,不同種植區(qū)的產(chǎn)量具有相似的變化趨勢(shì)的同時(shí)具備一定的差異性,這樣的特點(diǎn)為本研究建立不同種植區(qū)冬小麥氣象產(chǎn)量的預(yù)測(cè)模型建立了良好的研究基礎(chǔ)。
3 基于C4.5決策樹(shù)算法的江蘇省不同種植區(qū)冬小麥氣象產(chǎn)量是否歉年的預(yù)測(cè)模型
3.1 試驗(yàn)數(shù)據(jù)的預(yù)處理
本研究使用C4.5決策樹(shù)算法,將試驗(yàn)數(shù)據(jù)分割為關(guān)系互斥的訓(xùn)練集和測(cè)試集2個(gè)部分。訓(xùn)練集約占總樣本數(shù)的80%,測(cè)試集約占20%。訓(xùn)練集用于建立決策樹(shù)模型,測(cè)試集用于檢測(cè)模型的泛化能力。筆者所在課題組將氣象產(chǎn)量不足-0.5倍標(biāo)準(zhǔn)差的年份定義為冬小麥的氣象產(chǎn)量歉年,即當(dāng)北種植區(qū)氣象產(chǎn)量不足-2.50 kg/hm2,南種植區(qū)氣象產(chǎn)量不足-4.15 kg/hm2時(shí)分別為北種植區(qū)和南種植區(qū)的冬小麥氣象產(chǎn)量歉年。筆者所在課題組將江蘇省冬小麥氣象產(chǎn)量的預(yù)測(cè)抽象成北種植區(qū)和南種植區(qū)冬小麥氣象產(chǎn)量“是否歉年”的二元分類問(wèn)題。通過(guò)統(tǒng)計(jì),在1981—2018年的38年中,北種植區(qū)有8個(gè)年份為冬小麥氣象產(chǎn)量歉年,南種植區(qū)有12個(gè)冬小麥氣象產(chǎn)量歉年,較北種植區(qū)更多(表1)。
為了盡可能不影響數(shù)據(jù)的原有分布狀況,本研究利用等距離抽樣的方式分離模型的訓(xùn)練集和測(cè)試集數(shù)據(jù)樣本(圖4),以5年為1個(gè)步長(zhǎng)抽取1個(gè)樣本作為模型的測(cè)試集,剩余的數(shù)據(jù)樣本作為模型的訓(xùn)練集。因此,訓(xùn)練集中共有31個(gè)年份,其中北種植區(qū)有6個(gè)年份為歉年,南種植區(qū)有11個(gè)年份為歉年;測(cè)試集中共有7個(gè)年份,其中北種植區(qū)有2個(gè)年份為歉年,南種植區(qū)有1個(gè)年份為歉年。
為了維持目標(biāo)屬性“是否歉年”與否樣本量間的平衡以及模型學(xué)習(xí)和測(cè)試準(zhǔn)確率更加客觀,本研究對(duì)訓(xùn)練集和測(cè)試集中的歉年樣本分別進(jìn)行有放回的抽樣,目的是在不丟失數(shù)據(jù)特征的情況下使得歉年樣本和非歉年樣本在數(shù)量層面達(dá)到平衡(表2)。根據(jù)氣候系統(tǒng)指數(shù)集中的各項(xiàng)指數(shù)春季數(shù)值(3—5月),得到春季的130項(xiàng)氣候信號(hào)指數(shù)平均數(shù)據(jù)集。通過(guò)上述處理得到建模所需的訓(xùn)練集與測(cè)試集,為建立江蘇省冬小麥氣象產(chǎn)量歉年預(yù)測(cè)模型做好數(shù)據(jù)層面的準(zhǔn)備工作。
3.2 預(yù)測(cè)模型的構(gòu)建與檢驗(yàn)
以江蘇省北、南2個(gè)種植區(qū)的冬小麥氣象產(chǎn)量是否發(fā)生歉年為目標(biāo)變量,模型的輸入變量為130項(xiàng)當(dāng)年春季氣候信號(hào)指數(shù)。將預(yù)處理好的訓(xùn)練集數(shù)據(jù)輸入C4.5算法得到北、南種植區(qū)冬小麥氣象產(chǎn)量是否歉年決策樹(shù)預(yù)測(cè)模型(圖5、圖6)。為了保證模型不過(guò)擬合,筆者所在課題組通過(guò)設(shè)定葉節(jié)點(diǎn)樣本數(shù)量來(lái)控制決策樹(shù)的深度,本研究設(shè)定樣本數(shù)量約為總樣本數(shù)的15%左右。該模型中判別江蘇省冬小麥北種植區(qū)氣象產(chǎn)量是否歉年的關(guān)鍵因子為春季北半球極渦中心經(jīng)向位置指數(shù),而預(yù)測(cè)南種植區(qū)氣象產(chǎn)量是否歉年的重要判別依據(jù)為東太平洋副高北界指數(shù)。
北種植區(qū)冬小麥氣象產(chǎn)量歉年預(yù)測(cè)模型的學(xué)習(xí)準(zhǔn)確率為82.0%,通過(guò)測(cè)試集對(duì)模型進(jìn)行檢驗(yàn),準(zhǔn)確率達(dá)到90.9%;南種植區(qū)冬小麥氣象產(chǎn)量歉年預(yù)測(cè)模型的學(xué)習(xí)準(zhǔn)確率為92.5%,通過(guò)測(cè)試集對(duì)模型進(jìn)行檢驗(yàn),測(cè)試準(zhǔn)確率達(dá)到91.7%(表3)。從決策樹(shù)可以看出,北種植區(qū)的小麥氣象產(chǎn)量歉年更容易受到極渦及太平洋中東部海溫異常的影響, 而南種植區(qū)的小麥氣象產(chǎn)量歉年更容易受到副熱帶高壓系統(tǒng)位置變化的影響。決策樹(shù)模型對(duì)江蘇省不同種植區(qū)冬小麥氣象產(chǎn)量是否歉年的預(yù)測(cè)提供了一種新的預(yù)測(cè)手段和參考依據(jù)。
決策樹(shù)簡(jiǎn)單直觀且易于理解,通過(guò)決策樹(shù)每個(gè)分支,即從根節(jié)點(diǎn)到葉節(jié)點(diǎn)(T/F)可以抽象出一條If…then…的規(guī)則,決策樹(shù)中具有上述特征的規(guī)則形成決策規(guī)則集[27](表4、表5)。
4 結(jié)論與討論
冬小麥?zhǔn)墙K省重要的糧食作物,其產(chǎn)量豐歉關(guān)系到社會(huì)穩(wěn)定、國(guó)家安全等重要領(lǐng)域。本研究利用機(jī)器學(xué)習(xí)技術(shù)中經(jīng)典的K-means聚類算法對(duì)江蘇省冬小麥種植區(qū)進(jìn)行合理、客觀的劃分,進(jìn)而對(duì)不同種植區(qū)冬小麥氣象產(chǎn)量是否歉年建立基于C4.5算法的決策樹(shù)預(yù)測(cè)模型,預(yù)測(cè)效果較好,并得
到以下結(jié)論:
(1)通過(guò)K-means算法對(duì)江蘇省各地冬小麥氣象產(chǎn)量數(shù)據(jù)的相似程度進(jìn)行判別,基于“類內(nèi)相似,類間相異”的原則將江蘇省冬小麥種植區(qū)劃分為北、南種植區(qū),2個(gè)種植區(qū)各自完整、連續(xù)且相互獨(dú)立,實(shí)現(xiàn)了客觀、合理的區(qū)劃目的。
(2)江蘇省南、北2個(gè)種植區(qū)小麥氣象產(chǎn)量的變化趨勢(shì)類似,但北種植區(qū)氣象產(chǎn)量隨時(shí)間變化較南種植區(qū)更加穩(wěn)定??梢?jiàn)北種植區(qū)和南種植區(qū)冬小麥氣象產(chǎn)量既有聯(lián)系也有差異。
(3)通過(guò)對(duì)南北種植區(qū)冬小麥氣象產(chǎn)量是否歉年分別建立C4.5決策樹(shù)預(yù)測(cè)模型,北種植區(qū)決策樹(shù)模型的學(xué)習(xí)準(zhǔn)確率為82.0%,測(cè)試準(zhǔn)確率為90.9%;南種植區(qū)決策樹(shù)模型的學(xué)習(xí)準(zhǔn)確率為92.5%,測(cè)試準(zhǔn)確率為91.7%。
(4)從北種植區(qū)和南種植區(qū)冬小麥氣象產(chǎn)量是否歉年的決策樹(shù)模型中可以看出,影響北種植區(qū)的氣候因子主要是春季極渦系統(tǒng)位置的變化以及赤道中東太平洋區(qū)域的海溫異常;影響南種植區(qū)的氣候因子主要是全球副熱帶高壓系統(tǒng)的位置變化。
隨著大數(shù)據(jù)時(shí)代的不斷推進(jìn),計(jì)算硬件與計(jì)算智能的不斷加強(qiáng)深化,數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)生產(chǎn)中也得到越來(lái)越廣泛的應(yīng)用。本研究利用機(jī)器學(xué)習(xí)技術(shù)分別對(duì)江蘇省冬小麥種植區(qū)進(jìn)行客觀區(qū)劃以及對(duì)不同種植區(qū)的氣象產(chǎn)量歉年建立有效的預(yù)測(cè)模型,為江蘇省冬小麥產(chǎn)量的預(yù)測(cè)提供了有意義的參考。然而,由于機(jī)器學(xué)習(xí)方法相比于傳統(tǒng)的數(shù)學(xué)統(tǒng)計(jì)方法對(duì)數(shù)據(jù)樣本數(shù)量的要求更大,計(jì)算設(shè)備計(jì)算速度的要求更高,需要對(duì)比更多更復(fù)雜的訓(xùn)練策略并擇優(yōu)選取,可以相信,隨著數(shù)據(jù)樣本的不斷積累,訓(xùn)練策略和參數(shù)的不斷優(yōu)化,在預(yù)測(cè)的準(zhǔn)確率上還有較大的提升空間。
參考文獻(xiàn):
[1]高 蘋(píng),居為民,陳 寧,等. 人工神經(jīng)網(wǎng)絡(luò)方法在赤霉病預(yù)報(bào)中的應(yīng)用研究[J]. 中國(guó)農(nóng)業(yè)氣象,2001,22(2):22-25.
[2]吳洪顏,高 蘋(píng),徐為根,等. 江蘇省冬小麥濕漬害的風(fēng)險(xiǎn)區(qū)劃[J]. 生態(tài)學(xué)報(bào),2012,32(6):1871-1879.
[3]趙廣才. 中國(guó)小麥種植區(qū)劃研究(一)[J]. 麥類作物學(xué)報(bào),2010,30(5):886-895.
[4]金善寶. 中國(guó)小麥學(xué)[M]. 北京:中國(guó)農(nóng)業(yè)出版社,1996.
[5]金善寶. 中國(guó)小麥栽培學(xué)[M]. 北京:農(nóng)業(yè)出版社,1961.
[6]趙廣才. 中國(guó)小麥種植區(qū)劃研究(二)[J]. 麥類作物學(xué)報(bào),2010,30(6):1140-1147.
[7]徐 敏,徐經(jīng)緯,高 蘋(píng),等. 不同統(tǒng)計(jì)模型在冬小麥產(chǎn)量預(yù)報(bào)中的預(yù)報(bào)能力評(píng)估——以江蘇麥區(qū)為例[J]. 中國(guó)生態(tài)農(nóng)業(yè)學(xué)報(bào),2020,28(3):438-447.
[8]丁一匯,戴曉蘇. 中國(guó)近百年來(lái)的溫度變化[J]. 氣象,1994(12):19-26.
[9]任國(guó)玉,郭 軍,徐銘志,等. 近50年中國(guó)地面氣候變化基本特征[J]. 氣象學(xué)報(bào),2005(6):942-956.
[10]高 蘋(píng),張 佩,謝小萍,等. 基于海溫和環(huán)流特征量的江蘇省小麥適播期預(yù)測(cè)[J]. 氣象,2012,38(12):1572-1578.
[11]吳洪顏,高 蘋(píng),劉 梅. 基于太平洋海溫的冬小麥春季濕漬害預(yù)測(cè)模型[J]. 地理研究,2013,32(8):1421-1429.
[12]李衛(wèi)國(guó),王紀(jì)華,趙春江,等. 基于遙感信息和產(chǎn)量形成過(guò)程的小麥估產(chǎn)模型[C]//中國(guó)氣象學(xué)會(huì). 2007年中國(guó)氣象年會(huì)論文集. 北京,2007:582,586.
[13]李衛(wèi)國(guó),趙春江,王紀(jì)華,等. 遙感和生長(zhǎng)模型相結(jié)合的小麥長(zhǎng)勢(shì)監(jiān)測(cè)研究現(xiàn)狀與展望[J]. 國(guó)土資源遙感,2007(2):6-9.
[14]徐 敏,徐經(jīng)緯,高 蘋(píng),等. 基于海溫和大氣環(huán)流特征量的農(nóng)業(yè)氣候年景預(yù)測(cè)[J]. 江蘇農(nóng)業(yè)科學(xué),2016,44(9):435-439.
[15]于彩霞,霍治國(guó),黃大鵬,等. 基于大尺度因子的小麥白粉病長(zhǎng)期預(yù)測(cè)模型[J]. 生態(tài)學(xué)雜志,2015,34(3):703-711.
[16]尚志云,姚樹(shù)然,王錫平,等. 基于大氣環(huán)流特征量的河北省冬小麥白粉病預(yù)報(bào)模型[J]. 中國(guó)農(nóng)業(yè)氣象,2014,35(6):669-674.
[17]姜 燕,霍治國(guó),李世奎,等. 全國(guó)小麥條銹病長(zhǎng)期預(yù)報(bào)模型比較研究[J]. 自然災(zāi)害學(xué)報(bào),2006,15(6):109-113.
[18]曹 陽(yáng). 1961—2010年潛在干旱對(duì)中國(guó)玉米、小麥產(chǎn)量影響的模擬[D]. 北京:中國(guó)農(nóng)業(yè)科學(xué)院,2014.
[19]時(shí) 雷. 基于物聯(lián)網(wǎng)的小麥生長(zhǎng)環(huán)境數(shù)據(jù)采集與數(shù)據(jù)挖掘技術(shù)研究[D]. 鄭州:河南農(nóng)業(yè)大學(xué),2013.
[20]楊凌雯. 基于數(shù)據(jù)挖掘的智慧農(nóng)業(yè)生產(chǎn)系統(tǒng)的研究[D]. 杭州:浙江理工大學(xué),2016.
[21]張晴晴. 決策樹(shù)及支持向量機(jī)回歸算法在麥蚜發(fā)生程度預(yù)測(cè)中的應(yīng)用[D]. 泰安:山東農(nóng)業(yè)大學(xué),2016.
[22]湯志成,高 蘋(píng). 江蘇省單季晚稻產(chǎn)量預(yù)報(bào)的分段加權(quán)動(dòng)態(tài)模式[J]. 氣象,1989,15(11):30-34.
[23]Wong M A,Hartigan J A. Algorithm as 136:a K-means clustering algorithm[J]. Journal of the Royal Statistical Society,1979,28(1):100-108.
[24]史達(dá)偉,耿煥同,吉 辰,等. 基于C4.5決策樹(shù)算法的道路結(jié)冰預(yù)報(bào)模型構(gòu)建及應(yīng)用[J]. 氣象科學(xué),2015,35(2):204-209.
[25]Friedl M A,Brodley C E. Decision tree classification of land cover from remotely sensed data[J]. Remote Sensing of Environment,1997,61(3):399-409.
[26]Han J,Kamber M,Pei J. Data mining:concepts and techniques[M]. Amsterdam:Elsevier,2006.
[27]史達(dá)偉,李 超,周 灝,等. 基于春季氣候信號(hào)的“臺(tái)風(fēng)是否經(jīng)過(guò)江蘇”預(yù)測(cè)研究[J]. 氣象科學(xué),2020,40(1):130-135.