摘 要:以青海高原為例,通過野外調查和整合谷歌圖像的方式,收集185個光伏站點位置信息。在此基礎上,對比分類與回歸樹(CART)、隨機森林(RF)和極端梯度提升(XGBoost)這3種機器學習算法,采用受試者工作特征(ROC)曲線和統(tǒng)計指標對模型質量進行檢驗。結果表明:XGBoost具有較高的預測性能,對噪聲數據具有較強的適應性,總體表現優(yōu)于其他模型。太陽總輻射、與電網的距離和與道路的距離是影響光伏電站選址的主要影響因子。3個模型生成的光伏適宜性圖顯示,非常適宜區(qū)域主要分布在柴達木盆地和共和盆地,非常適宜和較適宜區(qū)占研究區(qū)總面積的15.31%和16.33%。
關鍵詞:光伏電站;分區(qū);資源評估;機器學習;青海高原;ArcGIS
中國分類號: TK519 " " " " " " " " "文獻標志碼:A
0 引 言
可再生能源已被公認為是解決全球環(huán)境問題、推動區(qū)域/國家能源系統(tǒng)轉型的重要途徑[1]。作為當前碳排放量最大的國家[2],中國宣布將努力在2030年前達到二氧化碳排放峰值,并在2060年前實現碳中和[3]。西北地區(qū)擁有豐富的太陽能資源和廣闊的未利用土地,因此成為太陽能發(fā)電的理想基地[4]。隨著傳統(tǒng)能源的消耗過度,溫室效應問題日益顯著[5],使得對可再生能源的需求不斷增長,因此合理評估可再生能源潛力并進行適當選址成為提高經濟效益、降低環(huán)境影響的重要途徑[6]。為充分利用太陽能資源并最小化對環(huán)境的不利影響,光伏電站的適宜性評估應考慮多個評估標準,包括資源可用性、氣候條件、并網消納條件、生態(tài)環(huán)境和社會經濟因素[7]等。許多國家的研究(如土耳其、希臘、沙特、中國、埃及)已使用多標準決策方法(multiple criteria decision analysis,MCDM)與地理信息系統(tǒng)(geographic information system,GIS)相結合的方法確定光伏電站的最佳位置[8-12]。傳統(tǒng)的評價方法具有一定主觀性,缺乏標準化的權重分配,難以定量評估結果的精度。而機器學習(machine learning,ML)是基于經驗數據和模型訓練得到的特征重要性,能更準確地計算光伏適宜性與環(huán)境因子之間復雜的多元非線性關系[13]。孫艷偉等[1]使用多層感知器、隨機森林、極端梯度增強模型對太陽能光伏裝置的位置選擇進行建模;Wimhurst- Joshua等[14]運用兩種機器學習算法對美國愛荷華州進行風力渦輪機的合適區(qū)域建模,結果表明利用數據和算法進行風電場選址是可行且有效的,展示了機器學習模型在模擬清潔能源發(fā)電廠的空間選址方面具有出色的性能和潛力。
現有的文獻研究對評估標準的選取主要關注氣候和自然地理要素,較少考慮土地利用因素,盡管Rios等[15]的研究注意到某些土地由于特殊性質不適合光伏設施建設,并在適宜性分析中將其排除在外,然而排除類型只涉及到森林、水體、冰川和濕地,并未將具體的草地類型納入考量。青海高原具有豐富的太陽能資源,在光伏開發(fā)方面具有得天獨厚的優(yōu)勢。同時,青海高原作為中國草地資源主要分布區(qū),全省天然草地面積廣闊,是中國畜牧業(yè)的重要生產基地[16]。由于其獨特的地理環(huán)境特征,草地在氣候調節(jié)、水源涵養(yǎng)、生物多樣性保護,碳匯和水土保持等方面扮演著重要的角色[17],然而在當前光伏電站適宜性評估相關研究中,未能充分考慮到這一關鍵因素的影響?;诖?,本文嘗試使用基于樹的分類器,如分類回歸樹(Classification and regression tree,CART)、極限梯度提升(extreme gradient boosting,XGBoost)和隨機森林(random forest,RF)構建光伏適宜模型,并將具體草地類型納入評估體系。在此基礎上,生成光伏適宜地圖,結合一些統(tǒng)計學指標以及受試者工作特征(receiver operating characteristic curve,ROC)曲線對模型性能進行評價。
1 數據與方法
1.1 研究區(qū)概況
青海高原地處青藏高原東北部,是中國面積第4大的地區(qū),總面積約為69.66萬km2,屬高原大陸性氣候,日照時間長,輻射強度大。年輻射總量在5860~7400 MJ/m2之間,僅次于西藏,多年平均日照時數在2336~3341 h[18]。青海的土地利用結構對光伏發(fā)電非常有利,不適宜或受限制的土地類別(如林地、耕地、水體、已建成區(qū))主要分布在東部的山區(qū)和丘陵地區(qū)。此外,保護區(qū)通常被視為限制開發(fā)區(qū),它們多位于高海拔地區(qū)或具有重要濕地資源(如三江源自然保護區(qū))。而在柴達木盆地、東部農區(qū)等地勢較低的區(qū)域,太陽電池的開發(fā)利用前景廣闊。青海高原的地理位置和地貌結構使其成為可再生能源大規(guī)模開發(fā)的理想場所[19]。近年來,青海已在共和盆地和格爾木等地建設了大量光伏電站。
1.2 評價指標選取與分級
根據已有研究結果[20-23],確定11個構建機器學習模型的影響因子。光伏影響因子包括政策因素、地形因素、成本因素和氣象因素(表1),參考王海金等[24]的研究,對所建立的光伏電廠的適宜度進行1~8的賦值分級,適宜性越好賦值越大。表2為光伏電站適宜性等級評定表?;谇笆鲞m宜度分級,在空間分析工具中利用歐氏距離和重分類功能,對以上11個因素進行分級,通過將不同的分級賦予不同的顏色值,繪制出各影響因子的分級圖(見圖2)。
1)政策因素。研究發(fā)現[25]上網電價(feed-in tariff,FIT)政策是目前推動光伏能源部署實施最廣泛的政策措施。該政策旨在通過向發(fā)電商提供長期保證的購買價格來吸引太陽能光伏發(fā)電投資[26]。然而由于中國FIT政策的不斷調整和變遷,研究無法獲得光伏政策的確切值,因此借鑒車曉靜等[27]的方法,使用虛擬變量來表征光伏政策,為1表示政府支持該地發(fā)展光伏,0表示缺乏政策支持。
2)地形因素。地形因素包括坡度、坡向。坡度反映候選區(qū)域的地形陡度。坡度越大,地形越陡峭,從事鉆孔或填挖過程所需的成本就越高。坡向的選址對光伏發(fā)電效率至關重要,對于北半球國家而言,太陽能光伏組件的最佳布局為南向。
3)成本因素。成本因素包括與道路距離、與河流距離、與電網距離、與沙塵暴源距離。光伏電站的施工、運行和傳輸均需投入大量的機械和設備,距離主干道路越遠安裝和傳輸費用就越高[28]。太陽能發(fā)電站尤其適用于那些不需大量人工作業(yè)就可接入已有電網的地區(qū),將其建在靠近已有電網及變電站的位置,可有效降低傳輸損耗[29]。此外,水的可用性通常被忽略。在沙塵暴頻發(fā)的干旱地區(qū),光伏電站需要進行周期性清洗以維持發(fā)電效率,研究發(fā)現[30]粉塵沉降不僅會影響太陽能光伏組件的性能,還會降低其使用壽命,故距離河流更近的光伏電站更易得到充足的水資源來清洗粉塵[31]。
4)氣象因素。氣象因素包括太陽總輻射、年平均降水、年平均風速、年平均積雪深度。太陽總輻射是衡量光伏電站選址經濟性和技術性的關鍵標準。太陽總輻射越高說明該地區(qū)具備更好的太陽能資源條件,對于該地區(qū)光伏的開發(fā)利用更為有利[9]。降水、風速、積雪深度會對光伏發(fā)電的穩(wěn)定性造成一定影響[32],例如強風、暴雨、暴雪等極端天氣可能會導致光伏電站的設備受損或者停機,進而影響發(fā)電效率。采用方差膨脹因子(variance inflation factor,VIF)和公差(tolerance,TOL)對變量進行多重共線性分析,以消除光伏適宜性調節(jié)因子間的冗余信息。經SPSS 21軟件統(tǒng)計分析發(fā)現,各指標的方差膨脹因子均在10以內,說明各影響因素之間并未存在嚴重的多重共線性[33]。
1.3 光伏可利用區(qū)
根據國土資源部發(fā)布的《光伏電站項目土地利用控制指標》(國土資規(guī)〔2015〕11號),將自然保護區(qū)、森林、耕地和建設用地等設置為光伏開發(fā)的限制區(qū)域[34],僅選取草地和未利用地作為光伏可利用區(qū)域。利用ArcGis軟件中“擦除”工具將限制區(qū)域從圖層中剔除,如圖3所示,圖中“
”為青海省已建大規(guī)模光伏電站。通過這樣的篩選可確保在光伏發(fā)電項目中充分保護環(huán)境和生態(tài)效益,進而實現可持續(xù)發(fā)展的目標。
1.4 光伏點和非光伏點準備
編制光伏數據清單是進行光伏適宜性區(qū)域評估的一個關鍵步驟,假設現有光伏電站的地理位置相對理想。根據已有文獻發(fā)現,大多數光伏電站都安裝在貧瘠的土地和草地上。本文進一步將草地類型劃分為9個主要類別,包括溫性荒漠草原、高寒草甸草原、高寒草原、溫性荒漠、高寒荒漠、溫性草原、低山草甸、山地草甸和高寒草甸。其中溫性草原荒漠、溫性荒漠和高寒荒漠最適合建設光伏電站,因為這些地區(qū)的植被相對較薄弱,土地利用價值較低[19]。光伏電站的建設能有效提高土地的利用率,同時為經濟發(fā)展提供支持[35]。通過整合實地調查、谷歌地球的圖像和網站的歷史記錄,編制青海省已建光伏電站清單,最終的合成數據集包含截至2020年底的185座公用事業(yè)規(guī)模的光伏電站,總裝機容量約為6716.36 MW,占全省實際光伏裝機容量的43%。根據世界銀行[36]提供的光伏潛力數據,選取光伏潛力較低的地區(qū),通過隨機點的方式產生等值匹配的非光伏節(jié)點,以建立基于機器學習的光伏裝置預測模型?;诙嘀迭c提取的光伏點和非光伏點位置制備數據集,在數據集中,“標簽”編號為1和0分別表示滿足以上3種草類的光伏點和非光伏點。最后,將光伏和非光伏點隨機分為70%和30%,以構建訓練(259個樣本)和驗證數據集(111個樣本)。
1.5 機器學習模型
1.5.1 CART決策樹分類
CART算法是基于二進制算法創(chuàng)建分類和回歸樹,用于預測分類變量(分類)和連續(xù)變量(回歸)。在決策樹算法中,廣泛使用基尼系數(Gini index,Gini)作為評估節(jié)點純度的指標,以便選擇最佳的測試變量和分割閾值[37]?;嶂笖翟叫”硎緞澐肿蛹哂械募兌仍礁?,即分類標準越好。
1.5.2 XGBoost算法
極端梯度提升是對梯度提升算法的一種改進,利用二階泰勒級數展開擴展損失函數,以實現模型的快速收斂。同時,在損失函數中添加正則化項以防止模型過度擬合[38]。該算法使用加性訓練方法來學習,由泰勒定理表示的新優(yōu)化目標函數定義如下:
[Xobj=i=1nl(y,y)+k=1KΩfk] (1)
[Ω(f)=γT+12λj=1Tω2j] (2)
式中:[i=1nl(y,y)]——模型預測值和真實值差異;[Ωfk]——目標函數正則化項;[γ]——每片葉子的復雜性;[T]——決策樹中的葉子總數;[λ]——折衷參數;[ωj]——第[j]葉上的分數。
1.5.3 RF模型
隨機森林是一種高效準確的集成學習模型,通過從單個輸入數據集構建隨機樹來實現。使用BootStrap方法,可通過從原始訓練集中有放回地抽取相同數量的樣本來創(chuàng)建具有相同特征數的子樣本,然后針對每個子樣本構建決策樹模型。最后,通過對多棵樹的結果經進行表決或平均,得出最終的預測結果[39]。
1.6 模型驗證與比較
構建機器學習模型時,評估其表現是不可或缺的一步。通用統(tǒng)計評價標準包含準確率(accuracy)、精確度(precision)、靈敏度(sensitivity)、特異度(specificity)、卡帕系數(Kappa)等。ROC曲線下面積值(AUC)是評估二分類預測效果的綜合性指標[40]。AUC值越接近于1,模型預測精度越高。另外5個指標是在混淆矩陣的基礎上所得,具體計算公式如下:
[EAcc =nTP+nTNnTP+nFP+nFN+nTN] (3)
[EPre =nTPnTP+nFP] (4)
[ESen =nTPnFP+nFN] (5)
[ESpe =nFPnFP+nTN] (6)
[EKap =P0-Pc1-Pc] (7)
[P0=nTP+nTNN] (8)
[Pc=nTP+nFNnTP+nFP+nFP+nTNnFN+nTNN2] (9)
[EAUC=nTP+nFNP+N] (10)
式中:[EAcc ]——準確率函數;[EPre ]——精確率函數;[ESen ]——靈敏度函數;[ESpe ]——特異度函數;[EKap ]——卡帕系數函數;[EAUC]——ROC曲線下面積函數;[P]——光伏點數量;[N]——非光伏點數量;[nTP]——正確劃分光伏點的像元數量;[nFN]——錯誤劃分為非光伏點的像元數量;[nTN]——正確劃分為非光伏點的像元數量;[nFP]——錯誤劃分為光伏點的像元數量。
2 結果與分析
2.1 模型評估
利用統(tǒng)計分析方法對測試數據集進行模型驗證的結果見表3。結果表明,XGBoost模型在測試數據集上的統(tǒng)計指標均高于其他模型。在Kappa系數方面,XGBoost模型的值最高(Kappa值為0.893),其次是RF模型(Kappa值為0.856),CART模型(Kappa值為0.771)。不同模型使用測試數據集的ROC曲線分析結果如圖4所示。XGBoost模型的AUC值最高(AUC值為0.991),其次是RF模型(AUC值為0.988)、CART模型(AUC值為0.956),ROC曲線的分析結果再次證實了XGBoost模型優(yōu)于其他模型。
2.2 特征變量重要性分析
量化特征重要性對于識別光伏選址中最具影響力的變量、了解光伏調節(jié)因素之間的潛在關系以及建立可解釋的適
宜性模型很有價值。通過使用XGBoost模型的屬性“feature_ importance”,可計算11個光伏調節(jié)因素的特征重要性值,這些值通常使用基尼系數或信息增益進行衡量,因子值越高對光伏決策的影響越大。結果表明,在光伏調節(jié)因子(圖5)中,太陽總輻射(13.39)、與電網距離(13.09)、與道路距離(13.06)、政策支持的影響較大。相比之下,與沙塵暴源距離、與河流距離和風速的影響程度較低。據實地調查,該地大部分光伏電站都建設在太陽輻射大于6626.67 MJ/m2,坡度小于5°,離現有傳輸路線較近的地區(qū)。因此,以上結果表明,XGBoost得到的11個調節(jié)因子的重要度排序總體上是合理的。此外,所有條件因子的貢獻均大于0,說明所有條件因子
對研究區(qū)光伏建設均有一定影響。因此,在光伏適宜性模型中應當考慮所有11個條件因素。
2.3 繪制適宜性地圖
基于上文給定的權重值進行預測,得到結果并繪制成青海高原的光伏適宜性地圖。根據Jenks自然間斷分為5個層次:不適宜、欠適宜、一般適宜、較適宜、非常適宜。基于3個模型,將太陽輻射較高、靠近電網、道路的柴達木和共和盆地確定為非常適宜區(qū)和較適宜區(qū),以往的研究[20,41]也證實這些地區(qū)非常適合光伏安裝,而南部昆侖山脈、可可西里地區(qū)、北部的祁連山區(qū)被歸類為不適宜和欠適宜地區(qū)。3種模型繪制的地圖的空間分化特征近乎相似,但各適宜水平的比例不同(圖6d)。在CART模型中,從不適宜到非常適宜的區(qū)域百分比依次為70.03%、2.27%、4.08%、2.41%和21.21%。RF模型的適宜區(qū)域百分比依次為17.05%、19.93%、26.25%、20.71%和16.05%。在XGBoost模型中,不適宜覆蓋面積最大(24.38%),其次是欠適宜(24.14%)、一般適宜(19.84%)、較適宜(16.33%)和非常適宜水平(15.31%)?;贑ART模型的不適宜和非常適宜比例高于其他兩個模型(圖6a和圖6d)。基于XGBoost模型,欠適宜占面積的24.14%,高于基于其他兩個模型獲得的結果(圖6b和圖6d)。與其他兩個模型相比,基于RF模型的一般適宜和較適宜的區(qū)域比例高于其他兩個模型,達到46.96%(圖6c和圖6d)。
3 討 論
3.1 訓練集數據誤差(噪聲)的影響
機器學習算法對訓練集中的細微差異非常敏感,從而導致不同的分裂和引起網絡結構的改變。在許多相關文獻中,研究者已注意到算法性能的“不穩(wěn)定性”[42-43]。為了模擬訓練數據中的噪聲效應,研究在總訓練樣本的10%、30%和50%的子集上進行錯誤標簽的隨機分配。實驗結果顯示,與基線情況相比,訓練數據集中較高比例的噪聲顯著降低了所有機器學習模型的總體準確性,這與尹小哲等[44]的研究結果一致。如圖7所示,噪聲僅增加10%,精度就會降低3.4%(CART)、5.2%(XGBoost)和8.8%(RF)。30%的噪聲使模型精度降低了多達23.8%(CART)。與CART和RF相比,XGBoost對噪聲的存在抵抗力最強。但是,在50%噪聲下,所有機器學習模型的精度均會有所降低。
3.2 從樣本不平衡中獲得啟示
基于機器學習的區(qū)域適宜性評估,多采用等量的正負樣本來訓練分類器,正負樣本分別來源于歷史資料和未見電站
報導的地區(qū)。如侯雅麗等[45]利用1037個縣的發(fā)電廠數據,結合多種分類器來預測秸稈發(fā)電的區(qū)域適宜性,其中負樣本在未建有發(fā)電廠的縣域隨機選?。慌c洪澇或滑坡風險評估不同,適宜性評估通常涉及個人偏好和主觀判斷,缺乏大量確切的正負樣本。在實際應用中,往往很難獲取足夠的負樣本。一些研究人員試圖解決樣本不平衡的問題,如侯雅麗等[46]提出重復隨機過采樣方法(over-sampling),通過多次采樣選擇符合設定閾值要求的負樣本,以實現對負樣本質量的優(yōu)化;然而,過采樣可能導致訓練集中存在重復信息,從而影響機器學習模型的準確性[47]。再如孫艷偉等[1]提出空間緩沖抽樣方法,根據現有光伏點在2~20 km的緩沖環(huán)內隨機選擇非光伏點,以保持地理單位的一致性。盡管可采用某些方法來提升負樣本的質量,但仍無法絕對排除負樣本處未來建立能源站點的可能性。究其原因,是因為中國能源建設的地域環(huán)境具有高度的動態(tài)性,因此在政策扶持等方面,新的光伏電站可能不斷涌現。故而,負樣本的選取應謹慎權衡,以降低對評價結果錯誤判斷的風險。總的來說,光伏適宜性問題不能簡單地看作是二元分類問題,而應看作是不平衡數據集的分類問題。這是因為一般在實踐中,非光伏樣本的數量通常比光伏樣本的數量大得多。因此,合理定義非光伏樣本成為適宜性評估的首要問題,本文結果充分利用國際上公認的全球最精確、最可靠的太陽能資源數據庫World Bank的數據集[48],在低潛力地區(qū)對青海高原非光伏點隨機選取,并將其用于光伏適宜性評價中,以期為中國今后的光伏發(fā)電項目的建設有所幫助。
3.3 與傳統(tǒng)方法的比較
本文主要針對青海地區(qū)太陽能光伏電站的適宜建設問題提出一種新穎的方法,創(chuàng)新之處在于在構建光伏評估體系時引入機器學習算法,以解決傳統(tǒng)方法中指標因子篩選和權重計算過程受到數據間復雜非線性關系影響和人為主觀因素影響過大的問題。其次在考慮土地可行性影響時,本文與以往研究方法有所不同。傳統(tǒng)做法常將土地類型劃分成幾個大類,并對每個類別進行賦分評價,最終通過權重疊加的方式來表征土地適宜性,這種方法未考慮到某些土地因其特殊的性質而不適合進行光伏裝置安裝[49]。盡管有少數學者[50-51]已注意到在有些土地利用類型(如森林、濕地、保護區(qū)等)上進行光伏系統(tǒng)的建設會使得生物多樣性喪失的風險增加而將其排除在外,例如楊忠等[52]強調發(fā)電廠不應安裝在耕地上,然而最近研究表明[53],隨著大型公共事業(yè)規(guī)模的太陽能項目不斷增加,太陽能裝置的安裝越來越集中在農業(yè)用地上,青海省作為中國五大牧區(qū)之一,擁有豐富的草原資源。
草原是青海省牧區(qū)經濟的主要組成部分,也是廣大牧民生活的基礎。然而,目前對于光伏適宜選址的研究卻很少涉及具體草地類型對選址產生的影響。在青海省擁有如此廣闊的草地背景下,對于草地指標的選擇還存在一定不足,這是一個值得關注的問題。隨著未來可再生能源項目的進一步推廣,土地可行性將成為制約太陽能光伏發(fā)電的關鍵因素,確認合適的選址將對太陽能發(fā)電場未來的發(fā)展起到至關重要的作用[54]。本文綜合前人研究成果,首先將保護區(qū)、特定土地排除,還將草地類型細分成9大類,這樣的細分有助于更準確地識別光伏發(fā)電適宜性區(qū)域,減少環(huán)境破壞,并提供更加細致的選址準則。其次,出于對生態(tài)保護政策的嚴格考量,導致得出的適宜區(qū)面積相對于青海省十四五規(guī)劃有所減小,這進一步凸顯了生態(tài)環(huán)境在適宜區(qū)劃分中的重要性。因此,在評估適宜區(qū)時,需要全面考慮各種因素,特別是生態(tài)保護方面,以確保結果具有可持續(xù)性和生態(tài)友好性。此外,研究所提出的模型是動態(tài)可復制的,可在其他地理區(qū)域和其他可再生能源領域推廣[28]。例如針對風電場選址的區(qū)位適宜性研究,可借鑒本文所述的若干準則并對其能量來源作相應調整,因此本項目的研究成果可為相關領域的政策制定提供理論依據和技術支持,以更有效地擴展太陽能光伏和其他可再生能源技術。
4 結 論
本文比較3種分類樹性能,以繪制青海高原大面積光伏適宜性地圖。結合地形、成本、氣候因素,3個分類器在包含11個離散變化類別的檢測環(huán)境中表現良好。通過機器學習算法的比較研究得出以下結論:
1)XGBoost模型不僅在AUC值上達到0.991,而且對噪聲的抵抗力也最強,相比之下,CART和RF模型更易受到噪聲的影響。
2)自然地理和基礎設施因素,如太陽總輻射、坡度、道路和電網基礎設施的可達性,對太陽能光伏發(fā)電站選址的決策影響較大。太陽能光伏電站多傾向于選址在太陽輻射強、坡度小、靠近電網等基礎設施以及有政策支持的地區(qū)。
3)利用3種機器學習模型對太陽能光伏安裝適宜性進行空間預測,得到相對一致的分布規(guī)律。高值區(qū)域主要集中在柴達木盆地和共和盆地,而低值區(qū)域則主要分布在北部祁連山和南部昆侖山脈。最優(yōu)模型結果發(fā)現,非常適宜、較適宜區(qū)域僅占評估區(qū)域的31.36%,而不適宜和欠適宜卻占評估區(qū)的48.52%。
[參考文獻]
[1] SUN Y W, ZHU D F, LI Y, et al. Spatial modelling the location choice of large-scale solar photovoltaic power plants: application of interpretable machine learning techniques " and " the " national " inventory[J]. " Energy conversion and management, 2023, 289: 117198.
[2] 劉立程, 孫中孝, 吳鋒, 等. 京津冀地區(qū)光伏開發(fā)空間適宜性及減排效益評估[J]. 地理學報, 2022, 77(3): 665-678.
LIU L C, SUN Z X, WU F, et al. Evaluation of suitability and emission reduction benefits of photovoltaic development " in " Beijing-Tianjin-Hebei " region[J]. "Acta geographica sinica, 2022, 77(3): 665-678.
[3] CHANG R, YAN Y P, WU J, et al. Projected PV plants in China’s gobi deserts would result in lower evaporation and wind[J]. Solar energy, 2023, 256: 140-150.
[4] HOU W J, LI X J, YANG L S, et al. Carrying capacity of water resources for renewable energy development in arid regions in Northwest China: a case study of Golmud, Qinghai[J]. Frontiers in environmental science, 2022, 10: 892414.
[5] 田政卿, 張勇, 劉向, 等. 光伏電站建設對陸地生態(tài)環(huán)境的影響: 研究進展與展望[J]. 環(huán)境科學, 2024, 45(1): 239-247.
TIAN Z Q, ZHANG Y, LIU X, et al. Effects of photovoltaic power station construction on terrestrial environment: retrospect and prospect[J]. Environmental science, 2024, 45(1): 239-247.
[6] QIU L H, HE L, LU H W, et al. Systematic potential analysis on renewable energy centralized co-development at high altitude: a case study in Qinghai-Tibet Plateau[J]. Energy conversion and management, 2022, 267: 115879.
[7] GIAMALAKI M, TSOUTSOS T. Sustainable siting of solar power installations in Mediterranean using a GIS/AHP approach[J]. Renewable energy, 2019, 141: 64-75.
[8] SUH J, BROWNSON J. Solar farm suitability using geographic information system fuzzy sets and analytic hierarchy processes: case study of ulleung island, Korea[J]. Energies, 2016, 9(8): 648.
[9] 張乾, 辛曉洲, 張海龍, 等. 基于遙感數據和多因子評價的中國地區(qū)建設光伏電站的適宜性分析[J]. 地球信息科學學報, 2018, 20(1): 119-127.
ZHANG Q, XIN X Z, ZHANG H L, et al. Suitability analysis of photovoltaic power plants in China using remote sensing data and multicriteria evaluation[J]. Journal of geo-information science, 2018, 20(1): 119-127.
[10] YANG Q, HUANG T Y, WANG S G, et al. A GIS-based high spatial resolution assessment of large-scale PV generation potential in China[J]. Applied energy, 2019, 247: 254-269.
[11] LIU J C, XU F Q, LIN S S. Site selection of photovoltaic power plants in a value chain based on grey cumulative prospect theory for sustainability: a case study in Northwest China[J]. Journal of cleaner production, 2017, 148: 386-397.
[12] XIAO J H, YAO Z Y, QU J J, et al. Research on an optimal site selection model for desert photovoltaic power plants based on analytic hierarchy process and geographic information " system[J]. " Journal " of " renewable " and sustainable energy, 2013, 5(2): 023132.
[13] ARABAMERI A, SAHA S, ROY J, et al. Landslide susceptibility evaluation and management using different machine learning methods in the gallicash river watershed, Iran[J]. Remote sensing, 2020, 12(3): 475.
[14] WIMHURST J J, GREENE J S, KOCH J. Predicting commercial wind farm site suitability in the conterminous United States using a logistic regression model[J]. Applied energy, 2023, 352: 121880.
[15] RIOS R, DUARTE S. Selection of ideal sites for the development of large-scale solar photovoltaic projects through analytical hierarchical process-geographic information systems (AHP-GIS) in Peru[J]. Renewable and sustainable energy reviews, 2021, 149: 111310.
[16] 蘇淑蘭, 姬海娟, 張東, 等. 青海草地生態(tài)系統(tǒng)水分利用效率特征及其影響因素分析[J]. 草地學報, 2023, 31(9): 2814-2825.
SU S L, JI H J, ZHANG D, et al. Characteristics of water use efficiency and its influencing factors of grassland ecosystem in Qinghai Province[J]. Acta agrestia sinica, 2023, 31(9): 2814-2825.
[17] 杜志勇, 叢楠. 植被與土壤特征對青藏高原不同程度退化草地的響應[J]. 生態(tài)學報, 2024, 44(6): 2504-2516.
DU Z Y, CONG N. Responses of vegetation and soil characterisitics to degraded grassland under different degrees on the Qinghai-Tibet Plateau[J]. Acta ecologica sinica, 2024, 44(6): 2504-2516.
[18] QIU L H, HE L, LU H W, et al. Spatial-temporal evolution of pumped hydro energy storage potential on the Qinghai-Tibet Plateau and its future trend under global warming[J]. Science of the total environment, 2023, 857: 159332.
[19] TANG W J, QI J W, WANG Y, et al. Dense station-based potential assessment for solar photovoltaic generation in China[J]. Journal of cleaner production, 2023, 414: 137607.
[20] HUANG T Y, WANG S G, YANG Q, et al. A GIS-based assessment of large-scale PV potential in China[J]. Energy procedia, 2018, 152: 1079-1084.
[21] COLAK H E, MEMISOGLU T, GERCEK Y. Optimal site selection for solar photovoltaic (PV) power plants using GIS and AHP: a case study of Malatya Province, Turkey[J]. Renewable energy, 2020, 149: 565-576.
[22] ELBOSHY B, ALWETAISHI M, ALY R M H, et al. A suitability mapping for the PV solar farms in Egypt based on GIS-AHP to optimize multi-criteria feasibility[J]. Ain shams engineering journal, 2022, 13(3): 101618.
[23] SUN L J, JIANG Y C, GUO Q S, et al. A GIS-based multi-criteria decision making method for the potential assessment and suitable sites selection of PV and CSP plants[J]. Resources, conservation and recycling, 2021, 168: 105306.
[24] 王海金, 唐若笠, 周雨詩, 等. 基于ArcGIS與多因子模型的光伏電站選址評估[J]. 太陽能學報, 2023, 44(11): 120-130.
WANG H J, TANG R L, ZHOU Y S, et al. Location evaluation of photovoltaic power stations based on ArcGIS and multi-criteria model[J]. Acta energiae solaris sinica, 2023, 44(11): 120-130.
[25] YE L C, RODRIGUES J F D, LIN H X. Analysis of feed-in tariff policies for solar photovoltaic in China 2011–2016[J]. Applied energy, 2017, 203: 496-505.
[26] ZHANG A H, SIRIN S M, FAN C L, et al. An analysis of the factors driving utility-scale solar PV investments in China: how effective was the feed-in tariff policy?[J]. Energy policy, 2022, 167: 113044.
[27] CHE X J, ZHOU P, WANG M. The policy effect on photovoltaic technology innovation with regional heterogeneity in China[J]. Energy economics, 2022, 115: 106385.
[28] SHRIKI N, RABINOVICI R, YAHAV K, et al. Prioritizing suitable locations for national-scale solar PV installations: Israel’s site suitability analysis as a case study[J]. Renewable energy, 2023, 205: 105-124.
[29] CHARABI Y, GASTLI A. PV site suitability analysis using GIS-based spatial fuzzy multi-criteria evaluation[J]. Renewable energy, 2011, 36(9): 2554-2561.
[30] GUPTA V, SHARMA M, PACHAURI R K, et al. Comprehensive review on effect of dust on solar photovoltaic system and mitigation techniques[J]. Solar energy, 2019, 191: 596-622.
[31] 袁紅, 易桂花, 張廷斌, 等. 基于遙感數據川西高原光伏開發(fā)適宜性研究[J]. 自然資源遙感, 2023, 35(4): 301-311.
YUAN H, YI G H, ZHANG T B, et al. Suitability of photovoltaic development in the Western Sichuan Plateau based on remote sensing data[J]. Remote sensing for natural resources, 2023, 35(4): 301-311.
[32] 孟丹, 陳正洪, 嚴國剛, 等. 光伏電站氣象災害風險評估研究: 以湖北省為例[J]. 太陽能學報, 2020, 41(5): 359-364.
MENG D, CHEN Z H, YAN G G, et al. Study on risk assessment of meteorological disaster in photovoltaic power stations: a case study of Hubei Province[J]. Acta energiae solaris sinica, 2020, 41(5): 359-364.
[33] LEE D S, LEE T G, BAE Y S, et al. Occurrence prediction of western conifer seed bug (leptoglossus occidentalis: Coreidae) and evaluation of the effects of climate change on its distribution in South Korea using machine learning methods[J]. Forests, 2023, 14(1): 117.
[34] 曹炯瑋, 魏加華, 李想, 等. 青海省太陽能-風能發(fā)電潛力評估及時空格局[J]. 太陽能學報, 2023, 44(10): 255-265.
CAO J W, WEI J H, LI X, et al. Potential assesssment and spatio-temporal pattern of solar-wind power in Qinghai province[J]. Acta energiae solaris sinica, 2023, 44(10): 255-265.
[35] LI X Y, DONG X Y, CHEN S, et al. The promising future of developing large-scale PV solar farms in China: a three-stage framework for site selection[J]. Renewable energy, 2024, 220: 119638.
[36] Global Solar Atlas. World - Photovoltaic Power Potential (PVOUT) GIS Data[EB/OL]. https://globalsolaratlas.info/map.
[37] 馮婉玲, 何立恒, 楊強. 基于CART決策樹分類的江蘇省濕地提?。跩]. 水生態(tài)學雜志, 2022, 43(3): 35-43.
FENG W L, HE L H, YANG Q. Extraction of remotely sensed wetland information for Jiangsu Province based on CART decision tree classification[J]. Journal of hydroecology, 2022, 43(3): 35-43.
[38] MA M H, ZHAO G, HE B S, et al. XGBoost-based method for flash flood risk assessment[J]. Journal of hydrology, 2021, 598: 126382.
[39] 管家琳, 黃炎和, 林金石, 等. 基于信息量模型與隨機森林模型的崩崗風險對比評估[J]. 山地學報, 2021, 39(4): 539-551.
GUAN J L, HUANG Y H, LIN J S, et al. Comparisons between Benggang risk assessments based on information model and random forest model[J]. Mountain research, 2021, 39(4): 539-551.
[40] 范天程, 汪珍亮, 李云飛, 等. 基于機器學習的溝谷地貌識別模型對比: 以黃土高原典型流域為例[J]. 水土保持學報, 2023, 37(4): 205-213.
FAN T C, WANG Z L, LI Y F, et al. Comparing the performance of machine learning models for identifying gully landforms—a case study of a typical watershed on the Chinese Loess Plateau[J]. Journal of soil and water conservation, 2023, 37(4): 205-213.
[41] QIU T Z, WANG L C, LU Y B, et al. Potential assessment of photovoltaic power generation in China[J]. Renewable and sustainable energy reviews, 2022, 154: 111900.
[42] ROGAN J, FRANKLIN J, STOW D, et al. Mapping land-cover modifications over large areas: a comparison of machine " learning " algorithms[J]. " Remote " sensing " of environment, 2008, 112(5): 2272-2283.
[43] HUANG F M, TENG Z K, GUO Z Z, et al. Uncertainties of landslide susceptibility prediction: influences of different spatial resolutions, machine learning models and proportions of training and testing dataset[J]. Rock mechanics bulletin, 2023, 2(1): 100028.
[44] YIN X Z, FALLAH-SHORSHANI M, MCCONNELL R, et al. Predicting fine spatial scale traffic noise using mobile measurements and machine learning[J]. Environmental science amp; technology, 2020, 54(20): 12860-12869.
[45] HOU Y L, WANG Q W, TAN T. Regional suitability assessment for straw-based power generation: a machine learning approach[J]. Energy strategy reviews, 2023, 49: 101173.
[46] HOU Y L, WANG Q W, ZHOU K, et al. Integrated machine learning methods with oversampling technique for regional suitability prediction of waste-to-energy incineration projects[J]. Waste management, 2024, 174: 251-262.
[47] TAO X M, LI Q, REN C, et al. Real-value negative selection over-sampling for imbalanced data set learning[J]. Expert systems with applications, 2019, 129: 118-134.
[48] HASTI F, MAMKHEZRI J, MCFERRIN R, et al. Optimal solar photovoltaic site selection using geographic information system-based modeling techniques and assessing environmental and economic impacts: the case of Kurdistan[J]. Solar energy, 2023, 262: 111807.
[49] YU S W, HAN R L, ZHANG J J. Reassessment of the potential for centralized and distributed photovoltaic power generation in China: on a prefecture-level city scale[J]. Energy, 2023, 262: 125436.
[50] DOLJAK D, STANOJEVI? G. Evaluation of natural conditions for site selection of ground-mounted photovoltaic power plants in Serbia[J]. Energy, 2017, 127: 291-300.
[51] ALMASAD A, PAVLAK G, ALQUTHAMI T, et al. Site suitability analysis for implementing solar PV power plants using GIS and fuzzy MCDM based approach[J]. Solar energy, 2023, 249: 642-650.
[52] YANG Z, GAO S M. On selecting the locations of 60MW grid-connected photovoltaic power plant[C]//2010 Symposium on Photonics and Optoelectronics. Chengdu, China, 2010: 1-4.
[53] VR?NCEANU A, GRIGORESCU I, DUMITRA?CU M, et al. Impacts of photovoltaic farms on the environment in the Romanian Plain[J]. Energies, 2019, 12(13): 2533.
[54] WATSON J J W, HUDSON M D. Regional Scale wind farm and solar farm suitability assessment using GIS-assisted multi-criteria evaluation[J]. Landscape and urban planning, 2015, 138: 20-31.
COMPARATIVE STUDY OF DIFFERENT DECISION TREE
ALGORITHMS FOR PV SUITABILITY EVALUATION IN
QINGHAI PLATEAU
Zhang Yubing1,Shen Yanbo2,3,Yao Xin1,Zhou Yawen1,Yu Wenzheng1
(1. School of Geographic Sciences, Nanjing University of Information Science and Technology, Nangjing 210044, China;
2. CMA Public Meteorological Service Centre, China Meteorological Administration, Beijing 100081, China;
3. CMA Wind and Solar Energy Resources Center, China Meteorological Administration, Beijing 100081, China)
Abstract:Taking the Qinghai Plateau as an example,a total of 185 photovoltaic sites positional information are collected through field investigation and integration of Google Images. Based on this dataset,three machine learning algorithms,namely Classification and Regression Tree (CART),Random Forest (RF),and Extreme Gradient Boosting (XGBoost),are compared and evaluated for their predictive performance is assesed using ROC curves and statistical indicators. The results reveal that XGBoost demonstrates superior predictive performance and robust adaptability to noisy data, overall outperforms the other models. Factors such as total solar radiation,distance from the power grid, and distance to roads are identified as the key factors influencing the location of photovoltaic power stations. The PV suitability maps generated by the three models indicate that the highly suitable areas are primarily distributed in the Qaidam Basin and Gonghe Basin. The highly suitable and relatively suitable areas account for 15. 31% and 16. 33% of the total area of the study area, respectively.
Keywords:photovoltaic power station; zoning; resource valuation; machine learning; Qinghai Plateau; ArcGIS