亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關聯(lián)規(guī)則與多元線性回歸的云南省甘蔗產(chǎn)量預測模型

        2022-02-07 02:08:34劉振洋趙家松胡仁傑劉笠溶
        廣東農(nóng)業(yè)科學 2022年12期
        關鍵詞:甘蔗線性關聯(lián)

        劉振洋,趙家松,胡仁傑,劉笠溶

        (云南農(nóng)業(yè)大學大數(shù)據(jù)學院,云南 昆明 650201)

        【研究意義】甘蔗產(chǎn)業(yè)是云南省特色產(chǎn)業(yè)之一,更是扶貧產(chǎn)業(yè)之一,云南甘蔗種植面積、產(chǎn)量和產(chǎn)糖量均居全國第二位,僅次于廣西,云南省16 個地州中有10 個地州產(chǎn)糖,主要集中在臨滄、德宏、保山、普洱、文山、西雙版納、玉溪、紅河8 個地州、市、縣,全省129 個縣(市)中有52 個縣(市、區(qū))種植甘蔗,多為沿邊少數(shù)民族地區(qū)。對云南省甘蔗產(chǎn)量的研究既有助于云南省特色產(chǎn)業(yè)的發(fā)展,也可對邊區(qū)經(jīng)濟發(fā)展起到推動作用[1]。產(chǎn)量預測模型是當前產(chǎn)量研究的重要方法之一,通過預測農(nóng)作物的產(chǎn)量,有助于農(nóng)作物的種植規(guī)劃和市場調控。目前主要的產(chǎn)量預測模型有BP 神經(jīng)網(wǎng)絡、支持向量機、Cart 回歸樹、線性回歸等,這些模型在產(chǎn)量預測方面的應用均較為成熟。

        【前人研究進展】BP 神經(jīng)網(wǎng)絡模型在產(chǎn)量預測方向的使用最為廣泛。彭秋連等[2]、許鑫等[3]將BP 神經(jīng)網(wǎng)絡模型應用于農(nóng)作物產(chǎn)量預測上,其相對誤差始終維持較低水平;李修華等[4]使用遺傳算法對BP 神經(jīng)網(wǎng)絡進行了改進,創(chuàng)新性地采用基于遺傳算法的BP 神經(jīng)網(wǎng)絡模型對甘蔗產(chǎn)量進行預測,其相對誤差和決定系數(shù)相對于BP神經(jīng)網(wǎng)絡模型,都有了較大改進。此外,胡程磊等[5]、張浩等[6]提出基于BP 神經(jīng)網(wǎng)絡的IPSO-BP 神經(jīng)網(wǎng)絡模型和AIGA-BP 神經(jīng)網(wǎng)絡模型,在糧食產(chǎn)量預測方向上的預測精度維持在一個較高水平,對比BP 神經(jīng)網(wǎng)絡模型也有極大的提升。

        支持向量機作為當前機器學習的主流算法,也被大量應用于產(chǎn)量預測研究,段東瑤等[7]將SVM 模型使用于綠茶加工含水量變化預測,模型預測精度較高,擬合度較好,具有很強的參考價值;趙桂芝等[8]、施瑤等[9]提出基于PSO 算法優(yōu)化的SVM 模型和基于SAFA 算法優(yōu)化的LSSVM模型,為糧食產(chǎn)量預測提供了新的途徑。Cart 回歸樹作為數(shù)據(jù)挖掘的經(jīng)典算法,也可以被用于產(chǎn)量預測方向,陳湘芳等[10]使用Cart 回歸樹對黃瓜產(chǎn)量進行預測,預測模型的誤差較小且具有良好的準確性?;疑P鸵脖怀S糜诋a(chǎn)量預測,余永松等[11]、張永強等[12]使用灰色模型對蔬菜和花生產(chǎn)量進行預測,其模型收斂速度較快且相對誤差較??;喬松珊等[13]還將馬爾科夫鏈用于提高灰色模型的精度,對肉類產(chǎn)量進行了很好的預測。

        基于其簡潔和穩(wěn)定的特點,線性回歸也是產(chǎn)量預測方面使用較為廣泛的算法之一。研究表明,將多元線性回歸算法用于國內(nèi)外多種農(nóng)作物的產(chǎn)量預測,利用多元線性回歸算法構建的模型在經(jīng)濟作物和糧食作物的產(chǎn)量預測上,都保持較低的誤差和較高的擬合度,證明了線性回歸算法在產(chǎn)量預測領域的可行性和實用性[14-20]。關聯(lián)規(guī)則算法作為數(shù)據(jù)挖掘的重要算法之一,在農(nóng)業(yè)數(shù)據(jù)分析上同樣取得很好的成果。徐霖[21]將關聯(lián)規(guī)則算法應用于土壤肥力評價系統(tǒng)中,計算分析得到土壤肥力與農(nóng)作物產(chǎn)量之間的關聯(lián)關系。Santosh 等[22]使用關聯(lián)規(guī)則中的Apriori 算法,開發(fā)出一套基于消費者數(shù)據(jù)和生產(chǎn)者的農(nóng)業(yè)推薦系統(tǒng),為農(nóng)業(yè)生產(chǎn)者購買生產(chǎn)資料提供推薦,降低生產(chǎn)風險;Hira 等[23]使用關聯(lián)規(guī)則算法建立多維模型,對農(nóng)業(yè)種植中的各農(nóng)業(yè)參數(shù)之間的關系進行分析,最終得到多條關聯(lián)性較強的規(guī)則,為農(nóng)業(yè)種植提供指導作用;Niketa 等[24]發(fā)現(xiàn)多種關聯(lián)規(guī)則算法在農(nóng)業(yè)中的應用,主要用于闡明不同氣候與作物生產(chǎn)之間的隱藏模式和關聯(lián)、農(nóng)業(yè)害蟲控制等;Inam 等[25]使用關聯(lián)規(guī)則發(fā)現(xiàn)多條水稻產(chǎn)量最高水平的強過濾關聯(lián)規(guī)則,對神經(jīng)網(wǎng)絡算法進行優(yōu)化,建立神經(jīng)網(wǎng)絡模型對水稻產(chǎn)量進行預測??梢姡瑢τ谵r(nóng)業(yè)數(shù)據(jù)的分析,關聯(lián)規(guī)則法具有很強的可行性和優(yōu)越性。

        【本研究切入點】從以上研究可以發(fā)現(xiàn),線性回歸算法被廣泛應用于產(chǎn)量預測模型構建,模型將產(chǎn)量作為樣本輸出,通過輸入多個樣本特征對產(chǎn)量進行預測。而關聯(lián)規(guī)則算法對農(nóng)業(yè)數(shù)據(jù)分析的應用可以被用于選擇樣本特征,選擇關聯(lián)性較強的因素作為樣本特征,可以提高產(chǎn)量預測模型的準確性?!緮M解決的關鍵問題】構建基于關聯(lián)規(guī)則和多元線性回歸的甘蔗產(chǎn)量預測模型,為云南甘蔗糖業(yè)的發(fā)展提供科學依據(jù)。

        1 材料與方法

        1.1 數(shù)據(jù)來源

        本研究所用數(shù)據(jù)來自于云南統(tǒng)計年鑒中5 個甘蔗主產(chǎn)區(qū)(普洱、臨滄、文山、紅河、德宏)2008—2020 年的甘蔗產(chǎn)量、種植條件以及氣象條件數(shù)據(jù),其中種植條件包括水庫數(shù)、氮肥用量、磷肥用量、鉀肥用量、復合肥用量、地膜使用量、甘蔗種植面積,氣象條件包括年均氣溫和年降水量。以2008—2018年的數(shù)據(jù)作為訓練集,用于模型的訓練;以2019—2020 年的數(shù)據(jù)作為測試集,用于測試模型精度,以紅河為例,具體原始數(shù)據(jù)見表1。

        表1 云南紅河2008—2020 年甘蔗產(chǎn)量、種植條件及氣象數(shù)據(jù)Table 1 Sugarcane production,planting conditions and meteorological data in Honghe from 2008 to 2020

        1.2 數(shù)據(jù)預處理

        收集數(shù)據(jù)的過程中往往會出現(xiàn)數(shù)據(jù)缺失或臟數(shù)據(jù)的情況,如果不加以處理,將會影響最終預測模型的精度。云南統(tǒng)計年鑒缺少2008—2011 年各地州平均氣溫和年降水量的數(shù)據(jù),出現(xiàn)數(shù)據(jù)缺失的情況。針對這種情況,本研究采用均值填充缺失值的預處理方法,即用2012—2018 年各地州平均氣溫和年降水量的數(shù)據(jù)取平均值對缺失數(shù)據(jù)進行補全,并對不同年份相同因素所使用的統(tǒng)計單位進行統(tǒng)一化,保證訓練集數(shù)據(jù)的精確度。

        1.3 模型構建

        1.3.1 模型算法 數(shù)據(jù)挖掘的意義在于從大量數(shù)據(jù)中通過算法搜索其中隱藏的信息,將有價值的信息總結為知識。數(shù)據(jù)挖掘的主要方法包括關聯(lián)規(guī)則、決策樹、線性回歸、神經(jīng)網(wǎng)絡等,本研究主要采用關聯(lián)規(guī)則和線性回歸構建預測模型,具體算法則采用Apriori 和多元線性回歸算法。

        Apriori 算法基于其簡便性和可靠性,已經(jīng)成為關聯(lián)規(guī)則中使用范圍最廣的算法,被廣泛應用于規(guī)則的挖掘和知識的發(fā)現(xiàn)。選用Apriori 算法可以對不同因素與甘蔗產(chǎn)量的關聯(lián)性進行分析,從中找出甘蔗產(chǎn)量的強關聯(lián)因素,由于在模型的實際構建中,弱關聯(lián)因素和無關聯(lián)因素會導致模型的精度下降和關聯(lián)性降低,因此保留強關聯(lián)因素作為構建預測模型的樣本特征,同時舍棄弱關聯(lián)和無關聯(lián)因素。

        多元線性回歸算法是當前使用最為廣泛的線性回歸算法之一,該算法在產(chǎn)量預測中應用十分廣泛。多元線性回歸算法可以表示多個樣本特征與樣本輸出之間的線性關系,其一般形式表示為:

        式中,y為樣本輸出,x1,x2,……xn為n個樣本特征,β0為常數(shù),β1,β2,……βn為回歸系數(shù)。

        多元線性回歸算法可以通過輸入多個樣本特征得到相應的樣本輸出,從而達到預測目的,因此采用多元線性回歸算法構建產(chǎn)量預測模型。在得到甘蔗產(chǎn)量的強關聯(lián)因素后,以甘蔗產(chǎn)量的強關聯(lián)因素作為多元線性回歸的樣本特征,構建多元線性回歸模型。

        1.3.2 甘蔗產(chǎn)量影響因素分析 由于Apriori 算法需要的數(shù)據(jù)格式是二元的,所以首先需要對數(shù)據(jù)進行二元化處理,轉化為Apriori 算法需要的數(shù)據(jù)格式。數(shù)據(jù)處理方法為分別將每個地區(qū)2008—2017 年的數(shù) 據(jù)轉化 為10×10 階的矩 陣S1,2009—2018 年的數(shù)據(jù)以同樣的方式轉化為10×10階的矩陣S2,將S2與S1進行比較,對應位置的數(shù)據(jù)同比上升的記錄為1,同比未上升的記錄為0,轉化結果為新的10×10 階矩陣S3。以臨滄市的甘蔗種植條件、氣象條件數(shù)據(jù)及甘蔗產(chǎn)量數(shù)據(jù)為例,具體轉化過程如圖1 所示。

        圖1 矩陣轉化過程Fig.1 Matrix transformation process

        在得到每個地區(qū)的S3后,將所有5 個地區(qū)的S3合并為一個50×10 階矩陣,記作S4,使用Apriori 算法對S4進行分析,計算每個影響因素對甘蔗產(chǎn)量的支持度、置信度、提升度,結果如表2 所示。

        1.3.3 多元線性回歸預測模型構建 關聯(lián)規(guī)則是形如A=>B 的蘊含式,其中A 稱為規(guī)則前件,B稱為規(guī)則后件。通常用支持度和置信度作為關聯(lián)規(guī)則的價值度量,其中支持度反映A 與B 同時出現(xiàn)的概率,揭示規(guī)則的有用性;置信度反映A 出現(xiàn)時B 也出現(xiàn)的可能性大小,揭示規(guī)則的可靠性。同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱為強關聯(lián)規(guī)則,本研究設置min_sup=0.4、min_conf=0.5。由表2 可知,包括種植因素和氣候因素在內(nèi),甘蔗產(chǎn)量的影響因素共有9 個,其中年均氣溫與年降水量兩個因素對甘蔗產(chǎn)量的支持度和置信度分別小于0.4 和0.5,因此年均氣溫與年降水量兩個因素對于甘蔗產(chǎn)量而言是弱關聯(lián)因素。

        表2 各影響因素關聯(lián)規(guī)則計算結果Table 2 Association rule calculation results of various influencing factors

        此外,考慮到置信度忽略了規(guī)則后件中項集的支持度,引入規(guī)則的提升度有助于解決這個問題。規(guī)則的提升度可以有效判斷規(guī)則是否有實際價值,如果A=>B 的提升度大于1,則說明A 和B 正相關。表1 中水庫數(shù)、復合肥用量兩個因素對甘蔗產(chǎn)量的提升度小于1,這兩個因素也作為弱關聯(lián)因素。

        根據(jù)上述數(shù)據(jù)分析,基于關聯(lián)規(guī)則方法,將甘蔗產(chǎn)量的影響因素由9 個縮減為5 個,使用氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積5 個與甘蔗產(chǎn)量正相關的強關聯(lián)因素作為多元線性回歸模型的樣本特征,構建多元線性回歸模型,具體模型如下式所示:

        式中,y為甘蔗產(chǎn)量,x1,x2,……x5分別為氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積,β0為常數(shù)項,β1,β2,……β5分別為對應樣本特征的回歸系數(shù)。將5 個樣本特征的訓練集數(shù)據(jù)代入模型進行訓練,可以得到不同地區(qū)預測模型的回歸系數(shù)和β0,以回歸系數(shù)和β0構建多元線性回歸模型,作為最終的甘蔗產(chǎn)量預測模型。

        2 結果與分析

        2.1 模型構建結果

        將Apriori 算法分析出的5 個強關聯(lián)因素作為樣本特征,并設置甘蔗產(chǎn)量為目標變量(樣本輸出),可以得到云南省各地州的多元線性回歸預測模型。通過代入回歸系數(shù)及β0,各地州甘蔗產(chǎn)量預測模型如表3 所示。

        表3 甘蔗產(chǎn)量預測模型Table 3 Prediction model of sugarcane yield

        2.2 模型測試與評判

        R2是評判多元線性回歸模型的重要標準之一,在多元線性回歸模型中,R2代表著多元線性回歸模型的擬合程度,R2越接近1,模型的擬合程度越好。此外,平均誤差也是評判模型精準度的重要指標,將測試集數(shù)據(jù)代入各地州甘蔗產(chǎn)量預測模型后,可以計算出預測模型的平均誤差。由表4 可知,各地州甘蔗產(chǎn)量預測模型的平均誤差處于2.1%~8.6%之間,R2處于0.857~0.997 之間,表明各地州甘蔗產(chǎn)量預測模型的平均誤差較小、擬合程度較好,該模型具有較好的參考性和研究價值。

        表4 甘蔗產(chǎn)量預測模型平均誤差及R2Table 4 Average error and R2 of prediction model of sugarcane yield

        2.3 模型對比

        BP 神經(jīng)網(wǎng)絡模型作為產(chǎn)量預測領域使用最為廣泛的模型,在產(chǎn)量預測方面有許多應用,通過與其對比可以說明基于關聯(lián)規(guī)則的多元線性回歸模型在預測精度上的優(yōu)劣勢,分別構建BP 神經(jīng)網(wǎng)絡模型和多元線性回歸模型,代入測試集數(shù)據(jù)對甘蔗產(chǎn)量進行預測用于計算平均誤差,并將兩種預測模型的平均誤差與基于關聯(lián)規(guī)則的多元線性回歸模型的平均誤差進行對比分析。取9 個樣本特征,代入訓練集數(shù)據(jù)構建兩種預測模型,并分別對兩種預測模型依次代入測試集數(shù)據(jù)進行驗證。

        在使用相同樣本特征的情況下,基于關聯(lián)規(guī)則的多元線性回歸模型的平均誤差在2.1%~8.6%之間,而多元線性回歸模型的平均誤差在10.7%~32.2%之間,BP 神經(jīng)網(wǎng)絡模型的平均誤差則在8.4%~29.6%之間,具體對比結果如表5 所示。

        表5 各模型平均誤差對比Table 5 Comparison of average errors of various models

        3 實證分析

        為驗證模型的可靠性與實用性,將2019 年云南省5 個甘蔗主產(chǎn)區(qū)(普洱、臨滄、文山、紅河、德宏)的甘蔗種植條件數(shù)據(jù)以及氣象條件數(shù)據(jù)代入模型,獲得模型的預測產(chǎn)量,并與實際的甘蔗產(chǎn)量數(shù)據(jù)進行對比,計算相對誤差,結果(表6)表明,模型預測產(chǎn)量和實際的甘蔗產(chǎn)量較為接近,相對誤差較小,具有較強的可靠性和實用性。

        表6 各地區(qū)2019 年模型預測產(chǎn)量與實際產(chǎn)量及相對誤差Table 6 Relative error between predicted output of model and actual output of each region in 2019

        4 討論

        得益于數(shù)據(jù)挖掘和人工智能技術的蓬勃發(fā)展,農(nóng)業(yè)生產(chǎn)中產(chǎn)生的大量數(shù)據(jù)得到充分的挖掘和利用,以產(chǎn)量預測為例,其中獲得的知識被反作用于農(nóng)業(yè)生產(chǎn),讓農(nóng)業(yè)生產(chǎn)逐步邁入數(shù)據(jù)時代。前人研究表明,在目前國內(nèi)外產(chǎn)量預測領域,線性回歸、BP 神經(jīng)網(wǎng)絡、支持向量機、Cart 回歸樹等算法具有大量的應用成果。但隨著樣本特征的增加和種植環(huán)境的復雜化,產(chǎn)量預測模型的擬合度會出現(xiàn)下降趨勢,Niazian 等[26]使用多元線性回歸算法構建預測模型,對阿朱萬種子產(chǎn)量進行預測,其模型訓練集R2為0.81、測試集R2為0.79。Abdipoura 等[27]使用多元線性回歸算法對紅花種子產(chǎn)量進行預測,其模型訓練集R2=0.71、測試集R2=0.686。針對這種情況,許多學者采用優(yōu)化算法對基礎模型進行優(yōu)化從而提高模型的準確率,如遺傳算法、IPSO 算法對BP 神經(jīng)網(wǎng)絡的優(yōu)化,PSO 算法和SAFA 算法對SVM 的優(yōu)化,均大大提高了模型的準確率和擬合度。本研究基于前人優(yōu)化模型理念,利用關聯(lián)規(guī)則算法對樣本特征和樣本輸出之間的關聯(lián)性進行分析,篩選出強關聯(lián)的樣本特征,對多元線性回歸算法進行優(yōu)化,降低復雜環(huán)境和多個樣本特征對多元線性回歸算法的影響,在相同條件下提高了多元線性回歸算法的準確率和擬合度。

        與其他類型的產(chǎn)量預測模型類似,本研究所提出的甘蔗產(chǎn)量預測模型在地域和時效上存在一定的局限性。對云南省甘蔗主產(chǎn)區(qū)以外的地區(qū),模型的準確率和擬合度不能得到保證,而且隨著時間的推移和種植數(shù)據(jù)的不斷增加,模型的準確率也會發(fā)生變化。為獲取更精準的預測效果,需要考慮將未來產(chǎn)生的甘蔗產(chǎn)量數(shù)據(jù)、種植條件數(shù)據(jù)以及氣象條件數(shù)據(jù)加入訓練集,對模型進行更新訓練,保證模型的可靠性與時效性。

        5 結論

        本研究構建基于關聯(lián)規(guī)則算法的多元線性回歸模型,根據(jù)測試集的測試結果可以看出,該模型精度在91%~97%之間,R2在0.857~0.997,表明基于關聯(lián)規(guī)則的多元線性回歸模型具有較高的預測精度和擬合度,預測結果較為準確,為甘蔗產(chǎn)量預測模型提供了新的方法。由于使用的數(shù)據(jù)集皆為云南統(tǒng)計年鑒的真實數(shù)據(jù),因此該模型具有一定的應用價值,可以被用于云南省的甘蔗產(chǎn)量研究。同時,該模型表明關聯(lián)規(guī)則算法對多元線性回歸算法的改進作用,可為后續(xù)的產(chǎn)量預測模型提供新的改進思路。

        猜你喜歡
        甘蔗線性關聯(lián)
        “蔗”里時光
        花式賣甘蔗
        漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
        清明甘蔗“毒過蛇”
        線性回歸方程的求解與應用
        “一帶一路”遞進,關聯(lián)民生更緊
        當代陜西(2019年15期)2019-09-02 01:52:00
        二階線性微分方程的解法
        愛咬甘蔗的百歲爺爺
        特別健康(2018年3期)2018-07-04 00:40:08
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        加勒比熟女精品一区二区av| 好日子在线观看视频大全免费动漫| 亚洲国产理论片在线播放| 国产av无码专区亚洲草草| 国产一区二区三区小向美奈子| 免费人成小说在线观看网站| 亚洲国产长腿丝袜av天堂| 欧美成人精品三级在线观看| 亚洲成av人片在久久性色av| 天堂av在线美女免费| a级毛片免费观看网站| 亚洲两性视频一三区| 亚洲成在人网站天堂日本| 18禁在线永久免费观看| 丰满老熟妇好大bbbbb| 曰韩无码二三区中文字幕| 国产小视频网址| 一区二区免费中文字幕| 久久伊人这里都是精品| 亚洲人成未满十八禁网站| 国产一级三级三级在线视| 国产av一区二区日夜精品剧情| 色与欲影视天天看综合网| 日韩精品无码av中文无码版| 人妻无码∧V一区二区| 国产精品一区二区韩国av| av无码av天天av天天爽| 久久免费国产精品| 国内自拍偷拍一区二区| 久久777国产线看观看精品| 18分钟处破好疼哭视频在线观看 | 又爽又黄又无遮挡网站| 99re6热在线精品视频播放6| 亚洲av影片一区二区三区| 色佬精品免费在线视频| 草草久久久无码国产专区| 久久精品熟女不卡av高清| 亚洲一区二区三区重口另类 | 99热这里只有精品国产66| 国产色视频在线观看了| 国产国产裸模裸模私拍视频|