李東升 邱宇婷 潘春燕
(1.黔南民族師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,貴州 都勻 558000;2.湖南師范大學(xué)附屬湘才學(xué)校,貴州 都勻 558000)
貴州省作為我國農(nóng)業(yè)大省,糧食產(chǎn)量一直是該省經(jīng)濟(jì)發(fā)展的重要指標(biāo)之一。貴州省的地理環(huán)境和氣候條件具有特殊性,影響糧食產(chǎn)量的因素也比較復(fù)雜,要進(jìn)行深入分析和研究。在此背景下,基于群組結(jié)構(gòu)算法成為一種有效的方法,能更好地預(yù)測出影響貴州省糧食產(chǎn)量的因素。
群組結(jié)構(gòu)算法是一種基于數(shù)據(jù)的分析方法,通過將數(shù)據(jù)劃分為不同群組,可揭示數(shù)據(jù)間的內(nèi)在聯(lián)系和規(guī)律。在對糧食產(chǎn)量影響因素的研究中,可對相關(guān)數(shù)據(jù)進(jìn)行分類,如自然因素、社會因素、科技因素等[1-10],利用群組結(jié)構(gòu)算法對其進(jìn)行分析,找出數(shù)據(jù)間的關(guān)系和影響因素。通過這種方法能更好地了解貴州省糧食產(chǎn)量的變化趨勢,并預(yù)測出可能的影響因素,從而為貴州省農(nóng)業(yè)生產(chǎn)提供科學(xué)依據(jù)和決策支持。
本研究將探討群組結(jié)構(gòu)算法在貴州省糧食產(chǎn)量影響因素分析中的應(yīng)用,為貴州省農(nóng)業(yè)生產(chǎn)提供有益的參考和借鑒,同時為群組結(jié)構(gòu)算法在農(nóng)業(yè)領(lǐng)域中的應(yīng)用提供實踐經(jīng)驗。
考慮自變量具有n×p維的線性回歸模型,自變量可分為J個不重疊的組結(jié)構(gòu),具體組結(jié)構(gòu)模型見式(1)。
式中:y為n×1 的向量;Xj為n×dj的矩陣;dj為自變量的j個組;回歸系數(shù)βj=(βj1,…,βjdj)為dj×1 的向量,表示第j組的回歸系數(shù);ε為隨機(jī)誤差向量。
組結(jié)構(gòu)中的懲罰函數(shù)是通過約束模型的整組參數(shù)βj來獲得最小化損失函數(shù)的,得到模型參數(shù)的估計值,并選擇重要的組變量。目標(biāo)函數(shù)一般形式見式(2)。
式中:L(β|y,X)為損失函數(shù),不同模型的損失函數(shù)是不同的,本研究選取的損失函數(shù)為L(β|y,X)=||y-Xβ||2;Pλ(|β|)為參數(shù)的懲罰函數(shù),通常單個變量的懲罰函數(shù)為Lq范數(shù),即為調(diào)整參數(shù),選擇合適的λ值,可得到最優(yōu)解。
2011 年,Ma 等[11]提出L2Group MCP(grMCP),其懲罰估計見式(3)。
2009 年,Breheny 等[12]提出composite MCP(CMCP),其懲罰估計見式(3)。
1996 年,Tibshirani[13]提出Least Absolute Shrinkage and Selection Operator(Lasso),其懲罰估計函數(shù)見式(5)。
式中:λ為調(diào)整參數(shù),其決定了對參數(shù)估計的壓縮力度,令當(dāng)λλ0時,Lasso 會將原始最小二乘法估計向零壓縮,部分系數(shù)可能會剛好壓縮到0;當(dāng)時,通過Lasso方法選擇的變量個數(shù)將近似等于全模型中變量個數(shù)的一半。
糧食安全事關(guān)國家安全和發(fā)展大局,不能有絲毫的忽視和放松,而糧食產(chǎn)量受到多個因素的影響,如自然因素、科技因素、社會因素等。為探究影響貴州省糧食產(chǎn)量的主要因素,使用上述方法來探尋影響糧食產(chǎn)量的因素,并基于2000—2021 年貴州省與糧食產(chǎn)量相關(guān)的數(shù)據(jù)(數(shù)據(jù)來自貴州省統(tǒng)計局),以糧食產(chǎn)量為因變量,從自然因素、科技因素、社會因素中選取16 個指標(biāo)來研究貴州省糧食產(chǎn)量的影響因素,具體指標(biāo)見表1。
表1 變量符號定義
其中,自然因素包括有效灌溉面積、糧食作物播種面積和農(nóng)作物受災(zāi)面積,科技因素包括農(nóng)業(yè)機(jī)械總動力、化肥施用量、農(nóng)用薄膜使用量和農(nóng)藥使用量,社會因素包括農(nóng)業(yè)生產(chǎn)支出、復(fù)種指數(shù)、耕地產(chǎn)出率、農(nóng)村全社會用電量、農(nóng)村勞動力、農(nóng)業(yè)生產(chǎn)資料價格指數(shù)、農(nóng)村常住人口數(shù)、農(nóng)村居民人均消費(fèi)性支出和農(nóng)業(yè)生產(chǎn)用水量。
為探究影響糧食產(chǎn)量的因素,本研究采用群組Lasso(Group Lasso,grLasso)、群組MCP(Group MCP,grMCP)、復(fù)合MCP(cMCP)、群組SCAD(Group SCAD,grSCAD)、Lasso、MCP 和SCAD 等分別建模,并使用模型擬合優(yōu)度R2對模型進(jìn)行評價。R2值越接近1,表明模型的擬合優(yōu)度越好。
在建模前,使用R 語言MissForest 包中的miss-Forest 函數(shù)對數(shù)據(jù)缺失值進(jìn)行補(bǔ)充,missForest 函數(shù)是一種性價比較高的缺失值補(bǔ)充方法,能同時對連續(xù)變量和離散變量進(jìn)行填補(bǔ)。在將缺失值填補(bǔ)完整后,為檢驗數(shù)據(jù)規(guī)范化是否會影響數(shù)據(jù)建模效果,先不對數(shù)據(jù)進(jìn)行歸一化處理,直接對其進(jìn)行建模,具體歸回系數(shù)和模型的擬合優(yōu)度R2見表2。
表2 未歸一化處理的多種模型回歸系數(shù)及模型擬合優(yōu)度結(jié)果
由表2 可知,從16 個指標(biāo)中選出10 個指標(biāo)作為影響糧食產(chǎn)量的因素,由不同模型的擬合優(yōu)度R2值可知,采用grMCP 法構(gòu)建的模型是最優(yōu)的,該模型的擬合優(yōu)度為0.772。由該模型可知,影響糧食產(chǎn)量的主要因素包括有效灌溉面積(x1)、糧食作物播種面積(x2)、農(nóng)作物受災(zāi)面積(x3)、農(nóng)業(yè)機(jī)械總動力(x4)、化肥施用量(x5)、農(nóng)用薄膜使用量(x6)和農(nóng)藥使用量(x7)。
由于指標(biāo)的量綱不統(tǒng)一,要對數(shù)據(jù)進(jìn)行歸一化處理,具體結(jié)果見表3。
表3 歸一化處理的多種模型回歸系數(shù)及模型擬合優(yōu)度結(jié)果
由表3 可知,從16 個指標(biāo)中選取13 個指標(biāo)作為糧食產(chǎn)量的影響因素。由不同模型的擬合優(yōu)度R2可知,對數(shù)據(jù)進(jìn)行歸一化處理后,所有模型的擬合優(yōu)度R2都出現(xiàn)小幅度上漲,表明對數(shù)據(jù)進(jìn)行歸一化處理是必要的。相比其他方法,使用Lasso 法和grMCP 法構(gòu)建的模型是最優(yōu)的,二者的擬合優(yōu)度分別為0.778 和0.772。由Lasso 模型可知,影響糧食產(chǎn)量的因素分別為有效灌溉面積(x1)、糧食作物播種面積(x2)、農(nóng)作物受災(zāi)面積(x3)、農(nóng)業(yè)機(jī)械總動力(x4)、農(nóng)用薄膜使用量(x6)、農(nóng)藥使用量(x7)、復(fù)種指數(shù)(x9)、農(nóng)村勞動力(x12)、農(nóng)業(yè)生產(chǎn)資料價格指數(shù)(x13)、農(nóng)村常住人口數(shù)(x14)和農(nóng)業(yè)生產(chǎn)用水量(x16);由grMCP 模型可知,影響糧食產(chǎn)量的因素分別為有效灌溉面積(x1)、糧食作物播種面積(x2)、農(nóng)作物受災(zāi)面積(x3)、農(nóng)業(yè)機(jī)械總動力(x4)、化肥施用量(x5)、農(nóng)用薄膜使用量(x6)和農(nóng)藥使用量(x7)。從所有模型來看,糧食作物播種面積(x2)和農(nóng)作物受災(zāi)面積(x3)為影響糧食產(chǎn)量的主要因素。
在實際生產(chǎn)中,變量為群組結(jié)構(gòu),如糧食產(chǎn)量主要受自然因素、科技因素和社會因素的影響,而這3 個維度的因素又包含16 個指標(biāo)。在這種情況下,使用單變量選擇方法會忽略分組信息,從而導(dǎo)致變量選擇效果大大降低。因此,本研究采用群組MCP(grMCP)、復(fù)合MCP(cMCP)和Lasso 等方法,對影響貴州省糧食產(chǎn)量的因素進(jìn)行建模分析。通過對7 種方法的對比可知,有效灌溉面積(x1)、糧食作物播種面積(x2)、農(nóng)作物受災(zāi)面積(x3)、農(nóng)業(yè)機(jī)械總動力(x4)、農(nóng)用薄膜使用量(x6)和農(nóng)藥使用量(x7)等因素是影響貴州省糧食產(chǎn)量的主要因素。