李文慧 楊穎璨* 沈海波
(1 廣東省氣象公共服務(wù)中心,廣州 510640; 2 中國南方電網(wǎng)電力調(diào)度控制中心,廣州 510799)
紫外線是波長在100~400 nm范圍內(nèi)的太陽輻射,其能量在太陽輻射能中只占很小比例,但由于其光學(xué)作用和生物效應(yīng)十分顯著,對人類健康、地球氣候以及生態(tài)環(huán)境具有重要的影響[1-2]。對人體來講,適量的紫外線輻射可以促進人體維生素D的生成,增強人體免疫力,而強度過高的紫外線輻射是引起人體皮膚癌、白內(nèi)障的主要原因,過量的紫外線輻射還將導(dǎo)致人體免疫功能變異[3-5]。另一方面,紫外線輻射還影響著地球上植物的光合作用,過量紫外線會破壞光合作用,進而對生態(tài)環(huán)境產(chǎn)生影響[6]。紫外線還影響著參與大氣光化學(xué)反應(yīng)的氮氧化物等物質(zhì),可能會導(dǎo)致這些物質(zhì)發(fā)生二次污染,進而破壞人類生存的大氣環(huán)境[7-9]。
目前對于紫外線輻射強度的估算方法主要有經(jīng)驗?zāi)P秃洼椛鋫鬏斈J絻煞N。經(jīng)驗?zāi)P?一般是基于地面獲取的紫外線輻射與常規(guī)氣象要素觀測資料,采用回歸分析等方法估算到達地面的紫外線輻射。曾艷等[10]利用到達地表的紫外輻射強度與太陽總輻射之間的關(guān)系建立了晴天紫外輻射經(jīng)驗?zāi)P?張興化等[11]利用大氣質(zhì)量數(shù)和晴空指數(shù),建立了適合于拉薩紫外輻射估量的公式。輻射傳輸模型根據(jù)紫外輻射穿過大氣層到達地表的物理機制,考慮紫外線在大氣層中的衰減過程,進行近似求解,計算到達地面的紫外線輻射。沈元芳等[12]基于大氣輻射傳輸?shù)奈锢頇C制建立了紫外線強度預(yù)報模型;鄧雪嬌等[13]運用TUV(Tropospheric Ultraviolet and Visible Radiation Model)模式模擬了到達廣州市紫外輻射強度,并指出氣溶膠對紫外輻射的衰減作用。上述經(jīng)驗?zāi)P头椒ㄓ嬎愫唵?但物理意義不夠明確,輻射傳輸模型相對較為精確,但對計算機要求較高,且部分數(shù)據(jù)獲取較困難。
近年來,隨著數(shù)據(jù)挖掘技術(shù)的興起,很多學(xué)者將機器學(xué)習(xí)方法應(yīng)用在氣象領(lǐng)域,并取得了非常出色的研究成果[14-16]。如胡春梅等[17]應(yīng)用BP神經(jīng)網(wǎng)絡(luò)模型和支持向量機回歸方法建立了重慶市主城區(qū)紫外線輻射強度客觀預(yù)報模型;并且在降水、氣溫等氣象要素預(yù)報中取得不錯的效果[18-22]。梯度提升樹(Gradient Boosting Decision Tree,GBDT)算法是一種常用的集成學(xué)習(xí)算法,該算法具有擬合精度高、解釋性強等優(yōu)勢[23]。廣州市位于廣東省中南部,屬紫外線高輻射地區(qū),進行紫外線輻射強度的研究尤為必要。因此,本文利用廣州紫外輻射觀測資料、氣象觀測數(shù)據(jù)以及環(huán)境空氣質(zhì)量監(jiān)測數(shù)據(jù),分析廣州市紫外線輻射強度變化特征及其與氣象、環(huán)境因子的相關(guān)性,并采用梯度提升樹算法估算廣州市紫外輻射強度,為評價廣州市紫外輻射強度提供參考。
所用的資料包括廣東省氣象探測數(shù)據(jù)中心提供的2019—2021年番禺站(59481)逐小時紫外輻射數(shù)據(jù);常規(guī)氣象觀測數(shù)據(jù),包括逐小時氣溫、相對濕度、露點溫度、海平面氣壓、風(fēng)速、能見度等;FY-2G總云量產(chǎn)品。廣州市環(huán)保局提供的番禺市橋站環(huán)境觀測數(shù)據(jù),包括逐小時空氣質(zhì)量指數(shù)(AQI)和二氧化硫SO2、二氧化氮NO2、臭氧O3、顆粒物PM2.5、PM10等5種污染物質(zhì)量濃度資料。
1.2.1 數(shù)據(jù)分析方法
本文采用統(tǒng)計的方法對廣州市2019—2021年紫外線輻射的變化特征進行研究,并使用相關(guān)分析、t檢驗等方法分析紫外線輻射強度與氣象、環(huán)境因子的關(guān)系,這些方法在文獻[24]中有詳細敘述,這里不再贅述。
1.2.2 天空狀況劃分
本文天空狀況按照總云量成數(shù)劃分為晴天、少云、多云、陰天,總云量成數(shù)分別為<30%、30%~40%、50%~70%、>70%。
1.2.3 梯度提升樹回歸模型
運用梯度提升樹算法建立廣州市紫外輻射擬合模型。梯度提升樹算法是由Friedman[25]提出的一種集成學(xué)習(xí)算法,由多棵決策樹組成,進行多次迭代,每次迭代在一棵決策樹中產(chǎn)生一個結(jié)果,下一棵決策樹在上一次的殘差基礎(chǔ)上進行訓(xùn)練,經(jīng)過所有決策樹后,生成最終的結(jié)果。每棵新的決策樹建立的目的是使殘差往梯度[26]方向上減少,以此最終擬合出最接近真實結(jié)果的數(shù)據(jù)。
模型通過對特征值的重要性進行評估,以便理解哪些因素對于擬合結(jié)果有關(guān)鍵影響。Friedman[26]提出特征j的全局重要度,通過特征j在單顆樹中的重要度的平均值來衡量,計算方法為:
(1)
(2)
模型通過決定系數(shù)(R2)評價模型擬合的精確度,R2越大,模型擬合結(jié)果越準(zhǔn)確,采用均方根誤差(RMSE)來評價回歸模型擬合結(jié)果與真實值差別大小的指標(biāo),均方根誤差越小,模型擬合效果越好。
決定系數(shù)計算公式為:
(3)
均方根誤差計算公式為:
(4)
本文是借助梯度提升樹算法,采用與紫外線輻射同期觀測的氣象、環(huán)境因子作為特征值,構(gòu)建了紫外線輻射擬合模型,用于估算廣州市紫外線輻射強度。
由2019—2021年廣州市紫外線輻射強度平均日變化(圖1a)可知,紫外線輻射日變化曲線呈正態(tài)分布,從06:00起逐漸增大,12:00左右為全天紫外線輻射最強時段,隨后紫外輻射強度逐漸減小,于20:00趨于0 W·m-2。09:00—16:00時段紫外線輻射強度均在15 W·m-2以上,按照中國氣象規(guī)定的紫外線等級劃分(表略),紫外線輻射強度等級達到4級以上。紫外輻射強度的變化與天空狀況密切相關(guān),06:00和20:00紫外線輻射強度基本為0 W·m-2,因此本文對06:00—20:00時段平均總云量成數(shù)進行劃分,按照晴天、少云、多云、陰天4類天空狀況對紫外線輻射強度日際變化進行分析(圖1b)??芍?在晴天和少云,紫外線輻輻射強度高且日極值大,晴天日極值可達40 W·m-2,達到紫外線輻射5級標(biāo)準(zhǔn)。在多云和陰天,紫外線輻射強度減弱且紫外輻射日極值明顯減小,陰天紫外線輻射強度最弱,日極值為15 W·m-2,且日變化幅度顯著減小。
圖1 2019—2021年廣州市紫外線輻射強度總體(a)及不同天空狀況(b)平均日變化
廣州市屬于紫外線高輻射地區(qū),由圖1a可知,廣州市09:00—16:00時段的紫外輻射強度達到4級以上標(biāo)準(zhǔn),并在晴天、少云、多云天空狀況下,此時段紫外線輻射均較強,因此本文主要對09:00—16:00時段的平均紫外線輻射強度進行月際變化分析。由2019—2021年廣州市逐月平均紫外線輻射強度變化(圖2a)可知,廣州市紫外線輻射在不同月份均較強,可達15 W·m-2以上,2020、2021年紫外輻射強度的最大值出現(xiàn)在7月,2019年出現(xiàn)在9月。2019—2021年每年有連續(xù)3個月以上紫外輻射強度超30 W·m-2。廣州市紫外線輻射強度在1—4月最小,11—12月次之,3年紫外線輻射最小值都出現(xiàn)在3月,2020年最小為15.9 W·m-2。這種分布主要與太陽高度角變化有關(guān),還與大氣污染狀況、天空狀況等諸多因素有關(guān)。圖2a顯示3—4月與9—10月的太陽高度角接近(黑色實線),但3—4月春季廣州降水量多(圖略),影響到達地面的紫外輻射強度,使到達地面的紫外線輻射強度減小。從紫外線輻射強度的季節(jié)變化(圖2b)也可知,夏季廣州市紫外輻射強度高于其他季節(jié),但春季到達地面的紫外輻射較弱,這與蔣承霖等[27]研究結(jié)論一致。
圖2 2019—2021年廣州市紫外線輻射強度月平均變化(a),季節(jié)平均變化(b)
分析廣州市紫外線輻射強度等級的逐月分布(表1)可知,2019—2021年去除缺測數(shù)據(jù),共計1087天個樣本。廣州市紫外線強度等級分布比重分別為1級天數(shù)占1.10%、2級天數(shù)占7.08%、3級天數(shù)占8.56%、4級天數(shù)占48.39%、5級天數(shù)占34.87%。紫外線輻射強度達4級的天數(shù)最多,共計526天,主要分布在1、11、12月,5級次之,共計379天,主要分布在夏季。
表1 2019—2021年廣州市紫外線強度逐月不同等級天數(shù)及占比
本文基于在紫外線輻射估算中特征因子易于獲取的原則,選取氣溫、風(fēng)速、海平面氣壓、相對濕度、能見度、總云量、溫度露點差、太陽高度角等作為常規(guī)氣象要素因子,AQI和SO2、NO2、O3、PM2.5、PM10作為環(huán)境要素因子分別與紫外線輻射強度進行相關(guān)系數(shù)計算,并分析不同變量之間相關(guān)性,選取顯著相關(guān)的影響因子并剔除冗余特征。將最終的特征值輸入梯度提升樹算法,構(gòu)建紫外線輻射擬合模型。
表2給出了紫外線輻射強度與各因子的相關(guān)系數(shù)??芍?氣象因子中氣溫與紫外線輻射強度相關(guān)性最為密切,相關(guān)系數(shù)r達0.645,其次相關(guān)性較高的因子為能見度、總云量、相對濕度、溫度露點差(0.4<|r|<0.6)。太陽高度角與紫外線輻射強度相關(guān)性較好,相關(guān)系數(shù)r為0.426,并通過了α=0.01的顯著性檢驗。環(huán)境要素中O3濃度與紫外線輻射強度相關(guān)性最為密切,相關(guān)系數(shù)r為0.589,近地面O3主要來源于汽車尾氣及工業(yè)排放氮氧化合物和揮發(fā)性有機物光化學(xué)反應(yīng)生成,太陽紫外輻射是光化學(xué)反應(yīng)的基本條件之一,高強度的紫外輻射有效促進光化學(xué)反應(yīng)生成速率,導(dǎo)致臭氧污染累積[28]。因此紫外線輻射越強,光化學(xué)反應(yīng)越劇烈,與地表臭氧濃度存在正相關(guān)關(guān)系。NO2濃度與紫外線輻射強度相關(guān)系數(shù)r為-0.393,但SO2、PM2.5、PM10、和AQI濃度與紫外線輻射強度的相關(guān)性均較低(|r|<0.1)。
表2 紫外線輻射強度與氣象環(huán)境因子的相關(guān)系數(shù)
對通過顯著性檢驗的9個因子分別進行變量間相關(guān)系數(shù)計算(圖3)可知,相對濕度和溫度露點差、海平面氣壓和氣溫具有高相關(guān)性,相關(guān)系數(shù)分別達-0.99和-0.82,并且海平面氣壓與太陽高度角、溫度露點差與總云量也達到較高的相關(guān)性,而變量間的共線性會影響對模型的解釋[29]。因此剔除溫度露點差和海平面氣壓變量,使用氣溫、能見度、總云量、相對濕度、太陽高度角、O3濃度、NO2濃度7個因子作為特征值構(gòu)建紫外線輻射擬合模型。
圖3 不同變量間相關(guān)系數(shù)
依據(jù)上述對紫外線輻射強度顯著相關(guān)的氣象及環(huán)境要素的分析,將氣溫、能見度、總云量、相對濕度、太陽高度角、O3濃度、NO2濃度作為輸入量,使用梯度提升樹算法構(gòu)建紫外輻射擬合模型。在構(gòu)建模型之前首先要劃分訓(xùn)練集與測試集, 本文選取7/10的樣本數(shù)據(jù)用于訓(xùn)練,剩余樣本用于測試。梯度提升樹模型需要調(diào)整參數(shù),包括弱學(xué)習(xí)器的最大迭代次數(shù)、損失函數(shù)、樹的最大深度等參數(shù)。在調(diào)節(jié)模型參數(shù)的過程中,通過模型測試集的決定系數(shù)R2來評判模型擬合優(yōu)劣。由不同學(xué)習(xí)率下迭代次數(shù)與模型決定系數(shù)的關(guān)系可知(圖4a),隨著迭代次數(shù)的增加,模型的精度越來越高,學(xué)習(xí)率較小時需要更大的迭代次數(shù)才能使模型達到較高的精度。迭代次數(shù)過少會導(dǎo)致模型的欠擬合,過多會導(dǎo)致模型的過擬合。綜合考慮選擇迭代次數(shù)為100,學(xué)習(xí)率0.06,損失函數(shù)采用平方損失,并采用參數(shù)搜尋的方式確定回歸樹的最大深度為 4,葉子節(jié)點最少樣本數(shù)為 5作為模型參數(shù)。進一步計算模型輸入變量的相對重要性,以便理解哪些因素對于擬合結(jié)果有關(guān)鍵影響力。圖4b為每個輸入變量的相對重要性,可知相對重要性最高的氣溫,其次分別為臭氧、總云量、太陽高度角、能見度、相對濕度、二氧化氮。
圖4 不同學(xué)習(xí)率下模型迭代次數(shù)與決定系數(shù)的關(guān)系曲線(a),輸入變量的相對重要性(b)
通過對紫外輻射強度觀測值與估算值關(guān)系進行分析(圖5),藍色點為訓(xùn)練集估算的紫外輻射強度與實際觀測值的散點分布,并擬合成線性的回歸線(藍色實線),其中決定系數(shù)R2為0.93,RMSE為2.7 W·m-2。紅色點為測試集估算的紫外輻射強度與實際觀測值的散點分布,并擬合成線性的回歸線(紅色實線),其中決定系數(shù)R2為0.80,RMSE為4.9 W·m-2,可知梯度提升樹算法構(gòu)建的模型估算廣州市紫外線輻射效果較理想。
圖5 紫外輻射強度觀測值與估算值分布
將測試集輸入模型,擬合后的紫外輻射強度與真實值進行對比,結(jié)果如圖6所示,估算值與真實值相關(guān)系數(shù)達0.89,估算值結(jié)果與實際值很接近,但存在少部分測試數(shù)據(jù)比真實值偏小, 模型對高紫外輻射強度的估算可能會低估,但整體來說模型的擬合效果較好,準(zhǔn)確度較高。進一步將紫外線輻射強度轉(zhuǎn)化為紫外線等級進行檢驗,估算等級正確的占75%,相差1級的占21%,相差2級的比例為4%,擬合結(jié)果較為理想。
圖6 紫外輻射強度觀測值與模型估算值的比較
本文基于廣州市紫外輻射觀測資料、環(huán)境空氣質(zhì)量監(jiān)測數(shù)據(jù)以及氣象觀測數(shù)據(jù),對廣州市紫外線輻射強度變化特征及與環(huán)境空氣質(zhì)量、氣象因子的關(guān)系進行統(tǒng)計分析,并采用梯度提升樹算法建立廣州市紫外輻射擬合模型。主要得到以下結(jié)論:
(1)廣州市紫外線輻射強度具有明顯的季節(jié)變化特征和日變化特征,季節(jié)變化表現(xiàn)為夏秋季高、冬春季低的趨勢。廣州市紫外線輻射在不同月份均較強,可達15 W·m-2以上。2020、2021年紫外輻射強度的最大值出現(xiàn)在7月,2019年出現(xiàn)在9月。3年紫外線輻射最小值都出現(xiàn)在3月,2020年最小值只有15.9 W·m-2。在無其他因素影響下(晴天),紫外線輻射強度日變化與太陽高度角變化相似,呈現(xiàn)出早晚小中午大的特征,于12:00左右達到最大值。廣州市紫外輻射強度全年都較高,2019—2021年廣州市紫外線強度83.26%為“強”以上級別。
(2)與紫外線輻射強度顯著相關(guān)的因子為氣溫、能見度、總云量、相對濕度、溫度露點差,太陽高度角、海平面氣壓、O3濃度、NO2濃度。氣象因子中紫外線輻射強度與氣溫的相關(guān)性最為密切,其次相關(guān)性較高的為能見度、總云量、相對濕度、溫度露點差,環(huán)境要素中O3濃度與紫外線輻射強度相關(guān)性最為密切,SO2、PM2.5、PM10和AQI與紫外線輻射強度的相關(guān)性均較低。
(3)使用氣溫、能見度、總云量、相對濕度、太陽高度角、O3濃度、NO2濃度7個因子作為特征值構(gòu)建了紫外線輻射擬合模型,模型訓(xùn)練集和測試集的決定系數(shù)R2分別為0.93、0.80,對應(yīng)的RMSE為2.7 W·m-2、4.9 W·m-2。估算值結(jié)果與實際值很接近,相關(guān)系數(shù)高達0.89,但存在少部分估算值比真實值偏小,模型對高紫外輻射強度的估算可能會低估,但整體來說模型的擬合效果較好。模型估算紫外線輻射等級正確的為75%,相差1級的占21%,相差2級的比例為4%。