張 晶,馮 波,康之增,李夢(mèng)宇,安亞剛
(1.國(guó)網(wǎng)河北省電力有限公司,河北 石家莊 050022;2.國(guó)網(wǎng)河北省電力有限公司營(yíng)銷服務(wù)中心,河北 石家莊 050035)
我國(guó)作為農(nóng)業(yè)大國(guó),農(nóng)業(yè)是基礎(chǔ)產(chǎn)業(yè),也是第一產(chǎn)業(yè)[1]。農(nóng)業(yè)的發(fā)展對(duì)我國(guó)經(jīng)濟(jì)水平的提升有較大的影響,農(nóng)業(yè)灌溉作為農(nóng)業(yè)產(chǎn)業(yè)發(fā)展中的關(guān)鍵部分在保障糧食安全和農(nóng)業(yè)可持續(xù)發(fā)展方面有著非常重要的作用,面對(duì)水資源短缺問(wèn)題,提高水資源利用率成為節(jié)約用水的必由之路[2]。然而,不同農(nóng)業(yè)灌溉用戶之間存在著巨大的差異,包括其需求、水資源利用情況和灌溉方式等。因此,準(zhǔn)確識(shí)別農(nóng)業(yè)灌溉用戶成為了優(yōu)化農(nóng)業(yè)灌溉系統(tǒng)、提高水資源利用效率的關(guān)鍵一步。
傳統(tǒng)上,農(nóng)業(yè)灌溉用戶識(shí)別主要依賴于人工調(diào)查和統(tǒng)計(jì)數(shù)據(jù)分析[3]。然而,這種方法存在著數(shù)據(jù)收集困難、成本高昂以及主觀性強(qiáng)等問(wèn)題。近年來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,基于機(jī)器學(xué)習(xí)的農(nóng)業(yè)灌溉用戶識(shí)別方法[4]逐漸受到研究者們的關(guān)注。基于機(jī)器學(xué)習(xí)的農(nóng)業(yè)灌溉用戶識(shí)別方法可以分析農(nóng)業(yè)大數(shù)據(jù)樣本,自動(dòng)識(shí)別不同類型的農(nóng)業(yè)灌溉用戶。本文首先針對(duì)種植不同作物的用戶樣本進(jìn)行統(tǒng)計(jì)分析,建立了基于特征分析的農(nóng)業(yè)灌溉用戶識(shí)別規(guī)則模型,在此基礎(chǔ)上構(gòu)建了基于隨機(jī)森林的農(nóng)業(yè)灌溉用戶識(shí)別多分類模型。
在農(nóng)業(yè)灌溉中,用戶識(shí)別與用電量有著密切的關(guān)聯(lián)。本文可以為農(nóng)業(yè)灌溉系統(tǒng)提供一個(gè)智能化的解決方案,電力大數(shù)據(jù)的應(yīng)用可以幫助我們更好地了解用戶用電情況,通過(guò)模型可以有效甄別農(nóng)業(yè)灌溉、非農(nóng)業(yè)灌溉用戶,輔助提升“以電折水”精度,同時(shí)發(fā)現(xiàn)水電檔案匹配錯(cuò)誤、灌溉用電與其他用電混合計(jì)量以及一表多井等問(wèn)題,可以優(yōu)化水資源利用效率,并最大程度地減少資源浪費(fèi),減少人力成本,提高農(nóng)業(yè)生產(chǎn)效率,促進(jìn)農(nóng)業(yè)可持續(xù)發(fā)展。
密度聚類算法是一種基于密度的聚類方法,其主要思想是通過(guò)計(jì)算樣本點(diǎn)周圍的密度來(lái)判斷樣本點(diǎn)的聚類歸屬。密度聚類算法相較傳統(tǒng)的基于距離的聚類方法,具有對(duì)噪聲數(shù)據(jù)的魯棒性以及能夠發(fā)現(xiàn)任意形狀的聚類簇的優(yōu)勢(shì)。
密度聚類算法最著名的也是最具代表性的是DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法,其通過(guò)兩個(gè)全局參數(shù)半徑ε與最小鄰居數(shù)目MinPts將具有足夠高密度的區(qū)域劃分為簇,可在帶噪聲的空間數(shù)據(jù)集中發(fā)現(xiàn)任意形狀的類簇[5]。算法的核心思想是通過(guò)計(jì)算每個(gè)樣本點(diǎn)的ε領(lǐng)域內(nèi)的樣本數(shù)目來(lái)判斷其是否為核心點(diǎn)、邊界點(diǎn)還是噪聲點(diǎn),如圖1所示。
圖1 DBSCAN算法圖解
總的來(lái)說(shuō),密度聚類算法通過(guò)計(jì)算樣本點(diǎn)的密度來(lái)判斷其聚類歸屬,具有對(duì)噪聲數(shù)據(jù)的魯棒性以及能夠發(fā)現(xiàn)任意形狀的聚類簇的優(yōu)勢(shì)。他在許多實(shí)際應(yīng)用中都表現(xiàn)出良好的聚類效果,并且在處理大規(guī)模數(shù)據(jù)集時(shí)也具有較好的可擴(kuò)展性。
機(jī)器學(xué)習(xí)是一種使計(jì)算機(jī)可以自主做出決策的科學(xué)[6]。不同學(xué)者對(duì)機(jī)器學(xué)習(xí)的定義往往不同,但最終都有一個(gè)目標(biāo),讓計(jì)算機(jī)像人類一樣做出決策。隨機(jī)森林[7]是機(jī)器學(xué)習(xí)中的一種常見的算法。他是由Leo Breiman 和Adele Cutler 于2001年提出的,被廣泛應(yīng)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域。該算法主要是通過(guò)將變量與數(shù)據(jù)進(jìn)行隨機(jī)化處理,生成大量的決策樹,每個(gè)決策樹又由各個(gè)節(jié)點(diǎn)對(duì)應(yīng)的特定屬性進(jìn)行隨機(jī)選擇來(lái)構(gòu)造,最后通過(guò)投票或平均的方式來(lái)整合結(jié)果,進(jìn)行最終的決策,如圖2所示。
圖2 隨機(jī)森林算法示意
圖3 農(nóng)業(yè)灌溉用戶用電特征
圖4 混合灌溉用戶用電特征
圖5 非灌溉用戶用電特征
圖6 概率大于0.8的用戶用電習(xí)慣
隨機(jī)森林是集成思想的一個(gè)體現(xiàn),由多棵決策樹整合而成[8],比單一決策樹具有更好的抗噪性[9],適用于分類、回歸問(wèn)題的研究,能夠在不改變計(jì)算成本的情況下能獲得良好的計(jì)算預(yù)測(cè)精度[10]。
隨機(jī)森林在處理高維數(shù)據(jù)和大規(guī)模數(shù)據(jù)時(shí)具有較好的效果,能夠處理具有復(fù)雜特征和非線性關(guān)系的數(shù)據(jù),是一種強(qiáng)大的集成學(xué)習(xí)方法。
深化農(nóng)業(yè)灌溉用戶識(shí)別分析需要對(duì)不同農(nóng)業(yè)灌溉用戶的特征進(jìn)行清楚的了解和分析[11]。本文將農(nóng)業(yè)灌溉用戶分為3種不同的類型,農(nóng)業(yè)灌溉用戶,混合灌溉用戶和非灌溉用戶。對(duì)于每種類型的用戶,其特征和需求都會(huì)有所不同。以下是對(duì)不同農(nóng)業(yè)灌溉用戶特征的一些分析。
1)農(nóng)業(yè)灌溉用戶:農(nóng)業(yè)灌溉用戶在3-7月和11月集中用電,其余月份用電量相對(duì)較少。
2)混合灌溉用戶:混合灌溉用戶月均用電1 000 k Wh以上,3-6月用電相對(duì)較多,2月用電頻次減少。
3)非灌溉用戶:非灌溉用戶月均用電2 000 k Wh以上,每月用電頻次相對(duì)穩(wěn)定,夏季電量略高于其余月份。
此外,還需要考慮其他因素對(duì)農(nóng)業(yè)灌溉用戶的影響,如地理位置、氣候條件、農(nóng)作物種類等。不同地區(qū)的農(nóng)業(yè)灌溉用戶在水資源需求、灌溉方式和技術(shù)要求等方面可能存在差異。
在深化農(nóng)業(yè)灌溉用戶識(shí)別分析中,可以采用數(shù)據(jù)分析和統(tǒng)計(jì)方法,對(duì)農(nóng)業(yè)灌溉用戶的特征進(jìn)行量化和分析。通過(guò)對(duì)這些數(shù)據(jù)分析,可以獲得不同農(nóng)業(yè)灌溉用戶的特征和需求的更清晰認(rèn)識(shí)。
針對(duì)已知種植作物的用戶,根據(jù)種植作物的不同進(jìn)行分類研究,分別統(tǒng)計(jì)各類農(nóng)戶的歷史用電量、用電頻次、種植面積等指標(biāo)特征,在所有特征參數(shù)中,通過(guò)基尼系數(shù)指標(biāo)來(lái)衡量特征重要性,選擇對(duì)農(nóng)業(yè)灌溉用戶和非農(nóng)業(yè)灌溉用戶的分類具有顯著影響的特征。
基尼系數(shù)是一種常用的特征選擇方法,可以從大量的特征中篩選出最具有代表性的特征,從而提高模型的準(zhǔn)確性和泛化能力?;嵯禂?shù)也是衡量數(shù)據(jù)集純度的一種指標(biāo),取值范圍在0~1,值越大表示數(shù)據(jù)集的純度越高。
在特征選擇中,首先計(jì)算每個(gè)特征的基尼系數(shù)評(píng)估其重要性,對(duì)于多分類問(wèn)題基尼系數(shù)的計(jì)算公式為
式中:p i表示第i類樣本的比例。
然后按照基尼系數(shù)從大到小的順序?qū)μ卣鬟M(jìn)行排序,選擇基尼系數(shù)比較高的特征。
采用Max Min數(shù)據(jù)標(biāo)準(zhǔn)化方法,用戶日用電量進(jìn)行處理,并劃分等級(jí)。將日用電量在[0,0.25]劃分為正常,(0.25,0.5]為一般,(0.5,0.75]為較大,(0.75,1]為很大。
結(jié)合降雨量等氣象數(shù)據(jù),總結(jié)農(nóng)業(yè)灌溉的通用行為規(guī)律,例如農(nóng)業(yè)灌溉電量與降雨量整體相關(guān)性強(qiáng),一般下雨后2~3天不需要再次灌溉,將降雨后出現(xiàn)用電的情況判定為非灌溉用電。具體來(lái)說(shuō),降雨等級(jí)為中雨時(shí),將用電等級(jí)為較大和很大的劃分為非灌溉用電,降雨等級(jí)為大雨時(shí),將用電等級(jí)為一般、較大和很大的劃分為非灌溉用電。此時(shí)灌溉農(nóng)業(yè)用戶概率公式為
根據(jù)具有降雨特征的農(nóng)業(yè)用戶識(shí)別模型結(jié)果,農(nóng)業(yè)用戶概率越高,表明該機(jī)井用戶與農(nóng)業(yè)灌溉用戶用電行為越相似。結(jié)合用戶日用電量曲線,選取0.80作為分類成功的閾值,將農(nóng)業(yè)用戶概率高于0.80及以上的用戶分為農(nóng)業(yè)灌溉用戶。
通過(guò)過(guò)去一年用電量、用電頻次趨勢(shì)折線圖的繪制等方式,結(jié)合各類作物的實(shí)際生長(zhǎng)周期和需水量,整合提取若干類作物的典型農(nóng)業(yè)灌溉特征,根據(jù)提取的典型作物灌溉特征和農(nóng)業(yè)灌溉的通用行為規(guī)律編寫規(guī)則,建立基于降雨特征的農(nóng)灌用戶識(shí)別規(guī)則模型,識(shí)別非農(nóng)灌用戶、農(nóng)灌用戶。
首先,依托數(shù)據(jù)中臺(tái)中用電信息采集系統(tǒng)數(shù)據(jù)、天氣系統(tǒng)數(shù)據(jù),結(jié)合水利廳提供的灌溉機(jī)井用戶檔案數(shù)據(jù),通過(guò)挖掘農(nóng)業(yè)灌溉用戶日用電趨勢(shì),在原AFM 特征:月均/次均電量、月灌溉次數(shù)、月總電量的基礎(chǔ)上,新增周電量、季度電量、方差等有效表征用戶用電趨勢(shì)的特征指標(biāo),并利用DBSCAN 密度聚類算法構(gòu)建用戶聚類分析模型,對(duì)用戶進(jìn)行自學(xué)習(xí)分類,分析聚出的簇群特點(diǎn),計(jì)算用戶類別標(biāo)簽,識(shí)別農(nóng)業(yè)灌溉用戶、非農(nóng)業(yè)灌溉用戶。
然后根據(jù)聚類結(jié)果構(gòu)建隨機(jī)森林分類模型,使用指標(biāo)特征與標(biāo)簽數(shù)據(jù)訓(xùn)練隨機(jī)森林模型,根據(jù)訓(xùn)練集的表現(xiàn)進(jìn)行調(diào)優(yōu),通過(guò)調(diào)整決策樹數(shù)量、特征子集大小等參數(shù)以提高模型的準(zhǔn)確性和泛化能力。
不育系柱頭外露情況是影響不育系異交結(jié)實(shí)的關(guān)鍵因子[4]。2017年8月中旬對(duì)EK2S和廣占63S的開花情況進(jìn)行調(diào)查,結(jié)果顯示EK2S柱頭外露率為 74.6%, 而廣占 63S僅為 50.4%,EK2S要明顯高于廣占63S,且持續(xù)張穎時(shí)間EK2S也明顯長(zhǎng)于廣占63S。本研究中廣占63S的柱頭外露率數(shù)據(jù)顯著低于楊振玉等[5]1999年在合肥調(diào)查的數(shù)據(jù),這可能是不育系的柱頭外露率除品種之間存在差異外,還受其他因素的影響,尤其是抽穗揚(yáng)花期的溫度和濕度影響較大,這也說(shuō)明雜交水稻制種選擇最適宜的地方和最佳花期可以獲得更高的制種產(chǎn)量[6]。
最后,將具有降雨特性的農(nóng)業(yè)用戶識(shí)別與具有用電特性的農(nóng)業(yè)灌溉用戶模型結(jié)果融合,構(gòu)建混合農(nóng)業(yè)灌溉用戶分類模型,如圖7所示,2個(gè)模型中均被判別為農(nóng)業(yè)灌溉用戶的用戶最終類別為農(nóng)業(yè)灌溉用戶;僅具有降雨特性或僅具有農(nóng)業(yè)灌溉用電特征的用戶最終類別為混合農(nóng)業(yè)灌溉用戶;降雨特性和農(nóng)業(yè)灌溉用電特征兩者均不具備的用戶最終類別為非農(nóng)業(yè)灌溉用戶。
圖7 混合農(nóng)業(yè)灌溉用戶分類模型
為進(jìn)一步提升農(nóng)業(yè)灌溉用戶分類模型準(zhǔn)確率,深化農(nóng)業(yè)灌溉用戶識(shí)別模型,增加節(jié)氣、峰度、波動(dòng)率等特征參數(shù),將基于降雨特征和農(nóng)業(yè)灌溉用電特征的用戶識(shí)別模型進(jìn)行融合,實(shí)現(xiàn)純農(nóng)業(yè)灌溉、混合農(nóng)業(yè)灌溉和非農(nóng)業(yè)灌溉三類用戶識(shí)別。
選取某試點(diǎn)試驗(yàn)用戶在2022年通過(guò)用電總采集系統(tǒng)得到的40萬(wàn)數(shù)據(jù)為樣本,以及試點(diǎn)已有種植作物標(biāo)簽的用戶檔案數(shù)據(jù)、用電量數(shù)據(jù)、種植面積,匹配關(guān)聯(lián)用電量數(shù)據(jù)、氣象等數(shù)據(jù);對(duì)數(shù)據(jù)進(jìn)行去重、異常值剔除、缺失值填充等數(shù)據(jù)處理操作。
機(jī)井編號(hào) 深淺層 灌溉面積/畝____種植作物日期用電量/k Wh____降雨量/mm__001淺25小麥 08-23 60.00 0 001淺25小麥 08-24 40.00 1.80 001淺25小麥 08-25 0 0 002淺40果樹 08-23 0 0 003淺13大棚蔬菜 10-03 4.55 1.10 063深66藥材 05-28 84.82 0…………………158淺65玉米 03-28 230.50 0 158___淺_________________________65玉米_10-01_____0_____________47.80
將完成特征選擇的數(shù)據(jù)按8∶2劃分為訓(xùn)練集和測(cè)試集。一般地,將大部分?jǐn)?shù)據(jù)用于訓(xùn)練模型,保留一小部分用于評(píng)估模型的性能。
選取某個(gè)區(qū)域的用戶數(shù)據(jù)作為試驗(yàn)用戶,建立基于降雨特征的農(nóng)業(yè)灌溉用戶識(shí)別模型;然后使用訓(xùn)練集數(shù)據(jù)訓(xùn)練隨機(jī)森林模型,并根據(jù)訓(xùn)練集的表現(xiàn)進(jìn)行調(diào)優(yōu),模型的性能達(dá)標(biāo)后,輸出規(guī)則分類標(biāo)簽;最后進(jìn)行模型融合,構(gòu)建混合農(nóng)業(yè)灌溉用戶分類模型,進(jìn)行農(nóng)業(yè)灌溉用戶、混合農(nóng)業(yè)灌溉用戶、非農(nóng)業(yè)灌溉用戶的判別。
根據(jù)輸出的用戶分類結(jié)果整理成清單,將清單推送至水利部門進(jìn)行下一步核查摸排。
2023年6月,建立灌溉用電與其他用電混合計(jì)量用戶識(shí)別模型,依據(jù)模型計(jì)算結(jié)果在現(xiàn)場(chǎng)核實(shí),準(zhǔn)確率達(dá)90%,相比常見基于用電數(shù)據(jù)的kmeans聚類用戶類別模型,精度顯著提升,具體見表2。
___算法模型 農(nóng)業(yè)灌溉用戶 混合用戶 非農(nóng)用戶 綜合精度本文模型精度95 84 26 90常用算法精度______82______________________________________76 53 80
將基于降雨特征和農(nóng)業(yè)灌溉用電特征的用戶識(shí)別模型進(jìn)行融合,實(shí)現(xiàn)純農(nóng)業(yè)灌溉、混合農(nóng)業(yè)灌溉和非農(nóng)業(yè)灌溉三類用戶識(shí)別。通過(guò)對(duì)已關(guān)聯(lián)匹配的30萬(wàn)用戶進(jìn)行分析,結(jié)果如圖8所示,識(shí)別農(nóng)業(yè)灌溉用戶27.3萬(wàn),占91.00%,混合農(nóng)業(yè)灌溉用戶2.24萬(wàn),占7.47%,非農(nóng)業(yè)灌溉用戶0.46萬(wàn),占1.53%。
2022年,獲取試點(diǎn)機(jī)井用戶灌溉取水量,通過(guò)用戶識(shí)別模型后剔除非農(nóng)業(yè)灌溉用戶水量,經(jīng)混合用電模型優(yōu)化后剔除混合灌溉用戶非灌溉用電,共計(jì)減少約18億m3,得到了最終測(cè)算水量。
針對(duì)農(nóng)業(yè)灌溉用戶用電識(shí)別設(shè)計(jì)了基于機(jī)器學(xué)習(xí)的算法,通過(guò)應(yīng)用電力大數(shù)據(jù),從數(shù)據(jù)特征進(jìn)行用戶類別識(shí)別,構(gòu)建農(nóng)灌用戶識(shí)別多分類模型,進(jìn)行相互驗(yàn)證,規(guī)范化機(jī)井檔案,可以更好地了解和分析這種關(guān)聯(lián),進(jìn)而提升取用水量測(cè)算精度,提高農(nóng)業(yè)灌溉的效率和節(jié)約用電成本。并且相較于單一的農(nóng)業(yè)灌溉用戶用電識(shí)別算法,此模型效果更佳??傊?基于海量用電數(shù)據(jù)的農(nóng)業(yè)灌溉用戶識(shí)別方法具有巨大潛力,能夠輔助發(fā)現(xiàn)水電檔案匹配以及一表多井等問(wèn)題,并且在優(yōu)化農(nóng)業(yè)灌溉系統(tǒng)和提高水資源利用效率方面發(fā)揮重要作用。本研究將為電力大數(shù)據(jù)在農(nóng)業(yè)灌溉用戶識(shí)別領(lǐng)域的進(jìn)一步研究和應(yīng)用提供有價(jià)值的參考和指導(dǎo)。