陳文佳 余至成 王 婧
(1.福建省霞浦縣氣象局,福建 寧德 355100;2.福建省大氣探測技術(shù)保障中心,福建 福州 350008;3.福建省氣象信息中心,福建 福州 350001)
隨著經(jīng)濟發(fā)展及社會進步,人民群眾可支配收入增長,旅游產(chǎn)業(yè)地位不斷攀升。而氣象條件對旅游質(zhì)量和旅游安全保障等多方面均有影響,隨著旅客對旅游氣象服務(wù)的要求不斷提升,傳統(tǒng)、定時、單一的預報服務(wù)模式不能完全滿足旅客的需求,精細化、定制化的旅游氣象服務(wù)模式將逐漸成為主流趨勢[1-2]。近年來,旅游氣象服務(wù)研究工作實屬熱門,各地氣象部門均對該業(yè)務(wù)開展了各類研究。賴輝煌等[3]對2020年九仙山的日出日落時間、氣象條件等進行了統(tǒng)計分析,結(jié)果發(fā)現(xiàn),九仙山可觀賞率最高的月份為1月,最有利觀日氣象條件是前一日風向為偏西風向,為九仙山觀日旅游服務(wù)提供指導。楊春華等[4]利用茶卡鹽湖景區(qū)臨近氣象站觀測數(shù)據(jù),對景區(qū)氣象要素開展了統(tǒng)計分析,并對攝影的影響因子云量、能見度、風速和降水進行分級,確定了天空之鏡攝影氣象指數(shù)和攝影氣象條件優(yōu)劣標準。丁國香等[5]針對安徽省山岳型景區(qū)的需求,開展了氣象景觀預報,在計算各類氣象條件分級指標后,通過疊加方式確立云海出現(xiàn)的概率情況,以此方法達到定制化服務(wù),而特色景觀更多依賴于預報員的經(jīng)驗預報。
作為旅游大縣,霞浦縣的海岸線達505km,近岸還有“中國最美麗的灘涂”,配合其西高東低的復雜地勢,享有豐富的山海資源。正是由于霞浦依山傍海的天然地理環(huán)境,使其成為國內(nèi)外攝影愛好者的寵兒,而灘涂攝影、日出日落攝影等產(chǎn)業(yè)的蓬勃發(fā)展又進一步促進了霞浦旅游業(yè)的發(fā)展,到霞浦游玩的旅客數(shù)量日益增多,提供精準、及時的旅游氣象服務(wù)勢在必行。
根據(jù)前期實地調(diào)研和線上意見征集的結(jié)果,來霞旅客認為常規(guī)氣象服務(wù)形勢單一、內(nèi)容枯燥、缺乏針對性,對此,他們提出了許多意見。霞浦縣氣象局聽取反饋意見,于2020年開展了一系列精細化旅游氣象服務(wù)工作。在諸多服務(wù)中,廣受好評及熱議的是2020年10月上線的花竹日出預報服務(wù)?;ㄖ翊逦挥谙计秩虫?zhèn),素有“中國觀日地標”的美譽[6],其自然資源稟賦優(yōu)越,具有以“山、海、灘、石、島、日出”為代表的自然山水景觀[7]。作為熱門網(wǎng)紅打卡點,霞浦縣氣象局提供了花竹破曉時間、日出時間以及日出指數(shù)和氣象條件。綜合各類研究結(jié)論,其他旅游氣象類研究對實況數(shù)據(jù)進行統(tǒng)計分析,并依據(jù)分析結(jié)果建立分級指數(shù),將分級值疊加或加權(quán)后得到各類旅游指數(shù),這種方法缺少預報結(jié)論與實況的檢驗評估。本文就2021年霞浦縣氣象局花竹日出預報服務(wù)進行檢驗評估,并通過機器學習的方法建立新日出預報服務(wù)模式,為后期開展多點服務(wù)提供參考。
利用2021年5月1日至12月31日三沙國家一般氣象站和花竹自動氣象觀測站的逐小時觀測數(shù)據(jù)及實景觀測結(jié)果,對福建省霞浦縣氣象局該時段內(nèi)提供的花竹日出氣象預報數(shù)據(jù)進行檢驗,并利用Python的開源庫Sklearn中的邏輯回歸(Logistic Regression,LR)算法,將清洗過的實況數(shù)據(jù)代入算法進行模型訓練,再根據(jù)模型預測明日日出情況(實現(xiàn)二分類,即有無日出)。
邏輯回歸算法是將某事件發(fā)生結(jié)果作為因變量,將影響其結(jié)果的要素作為自變量建立的回歸模型,其因變量應具有二分特性,即結(jié)果可以用是或否(有或無)等類似判定詞描述,其取值有且僅有兩種,在計算機內(nèi)可以用0或1來表示[8]。目前被較多應用于流行性疾病判識等方面,也被嘗試引入電商環(huán)境[9],鑒于此,可以將該模式引入旅游氣象服務(wù)業(yè)務(wù)工作。以經(jīng)典糖尿病數(shù)據(jù)集為例,LR算法模型將人的BMI、年齡、血壓等作為自變量,判識該個體是否有糖尿病。通過學習這種預測模式,可以將前期收集到的花竹日出過程中的天氣情況、云量、能見度、風速、雨量、相對濕度、氣溫等數(shù)據(jù)集和實景觀測有無日出的數(shù)據(jù)集作為訓練數(shù)據(jù)集對模型進行訓練,通過計算不同訓練集的準確率、召回率等,選取最佳訓練集。也就是通過這種方式確定日出的主導影響要素。
邏輯回歸曲線計算公式[10]如下:
(1)
f(x)=α0+α1x1+α2x2+α3x3+...
(2)
當變量值通過0值時(如圖1所示),可確定函數(shù)值為0.5,這里規(guī)定當函數(shù)值大于等于0.5為正向,小于0.5為負向,從而將函數(shù)值二分類。在本研究中,x1、x2、x3……即對應氣溫、相對濕度、降水量、風速、能見度等要素,α0、α1、α2、α3等為回歸系數(shù),L(x)對應有無日出的結(jié)果。
圖1 邏輯回歸曲線示意圖
當確定主導要素后,以該模型開始預測,并再次檢驗預測效果。
本文使用的觀測數(shù)據(jù)所含要素為氣溫、相對濕度、降水量、瞬時風速、能見度,對數(shù)據(jù)進行清洗,篩除缺測和錯誤數(shù)據(jù)后,將上述數(shù)據(jù)引入隨機種子random_state=0的參數(shù)設(shè)置進行拆分,拆分為訓練集和測試集,代入編寫好的Python程序中進行模擬實驗。這里使用的是Python的Sklearn開源庫中包含的LR算法。將要素類目分為兩組,一組是包含氣溫、相對濕度、降水量、瞬時風速、能見度、海平面氣壓、24小時最高氣溫、24小時最低氣溫、露點溫度、水汽壓、人工觀測云量(以下稱試驗1),另一組包含氣溫、相對濕度、降水量、24小時最高氣溫、24小時最低氣溫、云量(以下稱試驗2)。通過對2組要素進行試驗,試驗結(jié)果如表1、表2所示。
表1 試驗1要素的模擬試驗結(jié)果
表2 試驗2要素的模擬試驗結(jié)果
將實驗模擬結(jié)果統(tǒng)計整理成混淆矩陣,如表3所示。表4為2組試驗結(jié)果的準確率、錯誤率、召回率、特異度等[11],通過對比這些數(shù)值來評估2組模擬方法擬合效果的區(qū)別。
表3 LR算法模擬試驗結(jié)果的混淆矩陣
表4 兩組試驗擬合效果統(tǒng)計值
比對2組數(shù)據(jù)的模擬效果檢驗指標可以得知,相對于試驗1,試驗2采用了更少的要素場參與擬合,從4項指標值而言,召回率和特異度較試驗1相比更優(yōu)。試驗2使用較少的氣象要素進行試驗時,雖然特異度和召回率有一定程度提升,但提升效果并不明顯,且準確率有所降低,更容易出現(xiàn)空報現(xiàn)象。通過試驗1、2結(jié)果各項的系數(shù)對比,發(fā)現(xiàn)降水量、24小時最高氣溫、24小時最低氣溫影響系數(shù)較大,起主導作用,而在模擬中,其他氣象要素的影響系數(shù)比以上3個要素偏小或小1個量級。
根據(jù)上一組試驗結(jié)果,選取最優(yōu)相關(guān)要素組代入,對使用的隨機種子randomseed進行改動,并進行檢驗,結(jié)果表明,當使用隨機數(shù)種子不同時,模擬效果也不同。通過比對各類檢驗指標發(fā)現(xiàn),當隨機種子設(shè)置小于200時,準確率和錯誤率整體浮動比較小。召回率在選擇40~200區(qū)間內(nèi)呈先增加后減少的態(tài)勢。當隨機種子選取大于200時,準確率、召回率驟然降低,特異度略有提升。因此,在預測中將隨機數(shù)種子適當設(shè)置在40~200的區(qū)間內(nèi),尤其在100左右為最佳。
召回率是指預測日出樣本數(shù)占實際日出的比重。特異度是指預測無日出占實際無日出樣本數(shù)的比重。從實際角度而言,這兩個值更能反映預報精準度質(zhì)量。從特異度角度分析可以發(fā)現(xiàn),當隨機種子數(shù)介于0~200,大部分模擬效果預報無日出的情況都可以達到80%以上的概率,在實際服務(wù)中,可以有效規(guī)避不利天氣對賞日出行規(guī)劃的影響。
在實際業(yè)務(wù)服務(wù)日出預報中,更注重召回率,即精準預測日出的情況,對于過擬合的情況,其實是對日出概率的悲觀考慮,使用隨機種子在0~200區(qū)間可以提升預報準確率,使用隨機種子在100左右效果尤佳,而且能夠從很大程度上提高日出預報中有效日出預報占比,從而提升游客對服務(wù)效果的信任度。
圖2 不同隨機數(shù)種子值模擬檢驗結(jié)果
綜合上述指標,將隨機種子值定為100,進行模擬運算,獲得式(3)、式(4)預報模型。
其中,x1是逐時平均氣溫,x2是逐時相對濕度,x3是逐時降水量,x4是24小時最高氣溫,x5是24小時最低氣溫,x6是日出時刻人工觀測云量,x7是逐時極大風速,x8是逐時能見度,x9是逐時海平面氣壓,x10是逐時露點溫度,x11是逐時水汽壓(數(shù)據(jù)時間選擇的是05—06時這一小時)。
確定隨機數(shù)種子最優(yōu)值后計算各要素回歸系數(shù),其系數(shù)值分別為-0.01417,-0.03609,-0.02613,-0.04751,0.04295,-0.06742,0.06934,-0.0001083,0.006641,0.04475,0.03082。
(3)
f(x)=-0.01417x1-0.03609x2-0.02613x3-0.04751x4+0.04295x5-0.06742x6+0.06934x7-0.0001083x8+0.006641x9+0.04475x10+0.03082x11-0.0001704
(4)
利用Python的Sklearn庫中的LR算法,對日出預報服務(wù)進行改進,將機器學習的方式引入當前業(yè)務(wù)工作中。利用自動站獲取的2021年5月1日至12月31日逐時要素數(shù)據(jù),進行機器學習算法,獲得邏輯回歸算法模型。
通過模擬試驗,可以得出以下結(jié)論:
①選取不同要素進行模擬試驗的結(jié)果表明,選取較少的氣象要素個數(shù)雖然會提升召回率但會造成準確率降低,以及空報的概率增加。選取過多的要素會造成結(jié)果過于悲觀,召回率低,故應結(jié)合實際選取要素。
②將不同隨機數(shù)種子值代入試驗結(jié)果表明,當隨機值在0~200的區(qū)間內(nèi)時,特異度和準確率均可達到80%以上,可以較好地模擬日出情況。當隨機種子處于40~200區(qū)間內(nèi),召回率呈先增加后減少的態(tài)勢,當處于100左右時達到最優(yōu)。
③選取最優(yōu)因子和最優(yōu)隨機種子值進行模擬,計算得到的回歸模型可以將模式輸出的平均氣溫、降水量、相對濕度等氣象要素代入運算,獲得預測值。預測值大于0.5,表示可見日出;預測值小于0.5,表示無日出。
本文引入機器學習中常用的LR算法對日出預報進行模擬試驗,該方法既將實況數(shù)據(jù)納入了預報中,還可滿足預報檢驗的需求,同時利用機器學習的特點,實現(xiàn)動態(tài)模型的預報模式。但這種方法還存在幾點問題:
①LR算法更多針對的是二分類數(shù)據(jù),但在實際服務(wù)中,除了有無日出,日出還有多種多樣的形態(tài),這種算法適用范圍有限。
②選取的2個站點缺乏云量自動觀測數(shù)據(jù),從第二大點的隨機值試驗的系數(shù)值中可以發(fā)現(xiàn),在最優(yōu)隨機值時,系數(shù)較大的其中一項氣象要素為云量,文中使用的云量為人工觀測,后期可以借助衛(wèi)星遙感的數(shù)據(jù)對云量數(shù)據(jù)進行改進,實現(xiàn)自動預報的學習模式。