亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林原理的鄭州汛期降水量預(yù)報(bào)

        2022-11-19 06:15:36陳欣影
        農(nóng)業(yè)災(zāi)害研究 2022年9期
        關(guān)鍵詞:剪枝環(huán)流決策樹

        陳欣影,叢 源,錢 池

        文登區(qū)氣象局,山東威海 264400

        降水是整個(gè)世界水循環(huán)過程中至關(guān)重要的一環(huán),對于人們的生產(chǎn)活動(dòng)和經(jīng)濟(jì)社會(huì)的平衡與發(fā)展來說至關(guān)重要。形成降水需要有較豐富的水汽、上升運(yùn)動(dòng)以及數(shù)量較多的凝結(jié)核,而影響降水量的各種因素也涉及地形、氣壓、西風(fēng)帶、海陸位置、人類活動(dòng)等各個(gè)方面。諸多影響因子的共同作用給降水量的預(yù)報(bào)工作增加了難度,近年來,因?yàn)閺?qiáng)降水造成的城市內(nèi)澇、山洪、泥石流等氣象災(zāi)害時(shí)有發(fā)生,在一定程度上危害著社會(huì)經(jīng)濟(jì)的正常發(fā)展。因此,提高降水量預(yù)報(bào)準(zhǔn)確度迫在眉睫。

        鄭州市地處河南省中北部,黃河中、下游分界處,屬于溫帶大陸性季風(fēng)氣候,特點(diǎn)是四季分明。春季干旱少雨,多旱春,冷暖多變,多大風(fēng)天氣;夏季炎熱,降水集中;秋季較短,多涼爽天氣;冬季漫長干冷,雨雪很少。降水主要集中在每年6—8月,以8月最多。因此,汛期降水的預(yù)測十分重要,不僅事關(guān)人們生產(chǎn)生活,還事關(guān)做好防汛抗旱工作,更為精準(zhǔn)的預(yù)報(bào)方法有待研究。

        目前,降水量的預(yù)報(bào)方式主要包括:經(jīng)驗(yàn)統(tǒng)計(jì)方法、物理統(tǒng)計(jì)方法、數(shù)值模式方法、動(dòng)力與統(tǒng)計(jì)預(yù)測相結(jié)合的方法。在人工智能不斷發(fā)展的過程中,降水量預(yù)報(bào)中逐步開始應(yīng)用各類機(jī)器學(xué)習(xí)方法,主要包括回歸分析、時(shí)間序列分析、頻譜分析、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。回歸分析、時(shí)間序列分析以及頻譜分析所得到的降水量預(yù)報(bào)結(jié)果往往與真實(shí)值有較大的不同,而使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的降水量預(yù)報(bào)更加依賴于初始權(quán)值,具有較強(qiáng)的不穩(wěn)定性,支持向量機(jī)是一種機(jī)器學(xué)習(xí)的預(yù)報(bào)方法,相比于其他模型,它更加適合處理小樣本數(shù)據(jù),在處理較大的樣本上存在一定的困難。隨機(jī)森林是一門可以通過bootstrap重抽樣構(gòu)建決策樹的組合分類器模型,更適合處理大樣本數(shù)據(jù),同時(shí)避免了過度擬合的問題[1]。介紹隨機(jī)森林的基本原理,以鄭州汛期降水量預(yù)報(bào)為著眼點(diǎn),將隨機(jī)森林用于降水量的預(yù)報(bào),構(gòu)建基于隨機(jī)森林的降水量預(yù)報(bào)模型,并將其與傳統(tǒng)方法比較,檢驗(yàn)預(yù)報(bào)模型的精度,評價(jià)模型的優(yōu)劣程度。

        1 隨機(jī)森林

        1.1 隨機(jī)森林的基本原理

        1.1.1 決策樹決策樹是一種樹結(jié)構(gòu)的預(yù)測模型,能夠直接反映自變量與因變量之間的對應(yīng)關(guān)系,樹中每個(gè)節(jié)點(diǎn)表示一次測試,而每個(gè)樹枝則代表測試結(jié)果。決策樹采用遞歸法自上而下地構(gòu)造樹結(jié)構(gòu),完成決策。按其功能的不同,決策樹分為分類樹、回歸樹及CART(calssificationg and regression tree)。決策樹根據(jù)信息增益或者信息增益率來尋找最優(yōu)特征和最優(yōu)候選值[2]。

        1.1.2 自舉法自舉法(bootstrap)又稱為自助法,是利用重抽樣構(gòu)建樣本的統(tǒng)計(jì)方法。核心思想:對一個(gè)樣本大小為n的樣本進(jìn)行有放回的重復(fù)抽樣,生成一系列樣本大小同樣為n的新樣本的方法,在建立決策樹的過程中,隨機(jī)森林采用bootstrap構(gòu)建分類樹和回歸樹。

        1.1.3 剪枝剪枝是決策樹中的停止決策樹分類的一種方法,可以消減訓(xùn)練集樣本的噪聲,包括預(yù)剪枝和后剪枝[3]。預(yù)剪枝是在決策樹產(chǎn)生前構(gòu)建剪枝標(biāo)準(zhǔn),當(dāng)決策樹分類達(dá)到此標(biāo)準(zhǔn)時(shí),決策樹停止分支,存在“視覺局限”。后剪枝是在決策樹產(chǎn)生后進(jìn)行剪枝,保證了決策樹的充分生成,使得葉節(jié)點(diǎn)的純度值最小,相對預(yù)剪枝而言,突破了“視覺局限”,并且不需要保留用于交叉驗(yàn)證的樣本,缺點(diǎn)是增加了大量的計(jì)算量。

        隨機(jī)森林中存在2個(gè)隨機(jī)過程:在產(chǎn)生每棵樹的過程中,在訓(xùn)練數(shù)據(jù)集中都可以使用bootstrap抽樣;在決策樹的各個(gè)節(jié)點(diǎn)上,通過隨機(jī)選取劃分特征。正是因?yàn)檫@2個(gè)隨機(jī)過程的存在,在形成決策樹的整個(gè)過程中,隨機(jī)森林即使不對決策樹進(jìn)行剪枝,也避免了overfitting(過度擬合)的問題[4]。

        1.1.4 集成學(xué)習(xí)方法“集成學(xué)習(xí)”方法是一種能產(chǎn)生許多分類器并匯總其結(jié)果的學(xué)習(xí)方法。其中,2種眾所周知的方法是增強(qiáng)分類樹和裝袋[5-6]。在助推中,連續(xù)的樹會(huì)給以前的預(yù)測變量錯(cuò)誤預(yù)測點(diǎn)增加重量。最后,加權(quán)投票進(jìn)行預(yù)測。在裝袋時(shí),連續(xù)的樹木不依賴于早期的樹木,每個(gè)都是使用數(shù)據(jù)集的自舉樣本獨(dú)立構(gòu)建的。按照少數(shù)服從多數(shù)進(jìn)行投票得到預(yù)測結(jié)果。

        隨機(jī)森林的套袋還添加了一個(gè)附加的隨機(jī)性,除了能夠通過不同的bootstrap樣本數(shù)據(jù)構(gòu)建每棵樹之外,隨機(jī)森林也能夠改變分類樹回歸樹的構(gòu)建方法。在標(biāo)準(zhǔn)樹中,每個(gè)節(jié)點(diǎn)使用所有變量之間的最佳分割進(jìn)行分割。在隨機(jī)森林中,每個(gè)節(jié)點(diǎn)使用在該節(jié)點(diǎn)隨機(jī)選擇的預(yù)測變量的子集中的最佳值進(jìn)行分割。

        隨機(jī)森林是一種通過利用不同的bootstrap樣本數(shù)據(jù)建立分類樹和回歸樹的組合分類器模型,是采用集成學(xué)習(xí)方法組合決策樹的機(jī)器學(xué)習(xí)方法,相比于傳統(tǒng)的組合分類器,在對樣本進(jìn)行分類判別生成多棵決策樹的過程中,隨機(jī)森林不對已經(jīng)生成的決策樹進(jìn)行剪枝(由于隨機(jī)森林在生成訓(xùn)練集的過程中對樣本進(jìn)行的是隨機(jī)抽樣,選擇劃分特征時(shí)也是隨機(jī)的,因此不需要進(jìn)行剪枝)。在生成過程中,隨機(jī)森林產(chǎn)生了大量的決策樹,并進(jìn)行匯總,以少數(shù)服從多數(shù)的投票選擇最佳的預(yù)測效果,從而提高預(yù)測的精度。

        1.2 袋外數(shù)據(jù)和袋外數(shù)據(jù)誤差

        隨機(jī)森林通過bagging方法產(chǎn)生k個(gè)訓(xùn)練集,即在隨機(jī)森林中,對初始樣本數(shù)據(jù)只用bootstrap抽樣的方法得到k個(gè)訓(xùn)練集,對每個(gè)訓(xùn)練集都使用特征選取的方式得到k棵決策樹,并不對新生成的決策樹進(jìn)行剪枝,最終分類(或回歸)結(jié)果是k棵決策樹的結(jié)果的多數(shù)投票(或平均)。在使用bootstrap抽樣時(shí),每次抽取的樣本數(shù)與訓(xùn)練集大小都相同,假設(shè)為n,則每次抽樣中,每個(gè)樣本未被抽中的概率為,經(jīng)過n次抽樣后,每個(gè)樣本未被抽中的概率為,在n無限大的情況下,每個(gè)樣本在未被抽中的概率為≈0.368,也就是說原始樣本數(shù)據(jù)中有接近1/3的數(shù)據(jù)是抽不到的,這部分未被抽中的數(shù)據(jù)稱為袋外數(shù)據(jù),即所謂“out-of-bag”數(shù)據(jù)(OOB數(shù)據(jù))[7]。

        在隨機(jī)森林中,OOB數(shù)據(jù)并未參加模型的構(gòu)建,可以作為檢驗(yàn)隨機(jī)森林性能的重要支撐,相關(guān)方法為:將OOB數(shù)據(jù)輸入隨機(jī)森林分類器,由于這部分?jǐn)?shù)據(jù)類型已知,可以通過比較隨機(jī)森林分類器分類結(jié)果與OOB數(shù)據(jù)自身的分類情況,得出隨機(jī)森林錯(cuò)誤分類數(shù)目,袋外數(shù)據(jù)誤差為錯(cuò)誤分類數(shù)目/袋外數(shù)據(jù)數(shù)目。

        2 降水量預(yù)測

        2.1 資料與方法

        選取1951—2016年鄭州汛期降水量逐月降水量數(shù)據(jù),處理成汛期降水總量,并將50個(gè)環(huán)流因子的逐月數(shù)據(jù)處理成1951—2016年66年的春季環(huán)流因子數(shù)據(jù)。

        采用Matlab,構(gòu)建以隨機(jī)森林為依據(jù)的汛期降水量預(yù)測模型,選取1951—2006年的降水量和環(huán)流因子數(shù)據(jù)作為訓(xùn)練期,將2007—2016年的降水量和環(huán)流因子數(shù)據(jù)作為檢驗(yàn)期,利用隨機(jī)森林的回歸功能,建立了訓(xùn)練期內(nèi)降水量和環(huán)流因子的關(guān)系,并根據(jù)這種關(guān)系,使用檢驗(yàn)期內(nèi)的環(huán)流因子數(shù)據(jù)預(yù)報(bào)鄭州汛期降水量。

        2.2 隨機(jī)森林的2個(gè)重要因子

        決策樹數(shù)目和預(yù)選變量個(gè)數(shù)是隨機(jī)森林的2個(gè)重要參數(shù),隨機(jī)森林的決策樹數(shù)目n通常大于等于100。預(yù)選變量個(gè)數(shù)用來表示每個(gè)樹分類器選取變量的數(shù)目。比較變量數(shù)目不同的情況下回歸樹的均方誤差,以尋找最佳變量數(shù)目。由圖1可知,所選擇的變量個(gè)數(shù)越小,回歸樹的均方誤差就越小,回歸樹中的預(yù)選變量個(gè)數(shù)一般選為5??刂祁A(yù)選變量個(gè)數(shù)為5,比較不同決策樹數(shù)目下均方誤差。由圖2可知,隨著決策樹數(shù)目的增加,均方誤差波動(dòng)減小,可以理解為當(dāng)以少數(shù)服從多數(shù)的原則進(jìn)行投票的對象越多時(shí),投票結(jié)果越好。當(dāng)決策樹數(shù)目超過100時(shí),袋外數(shù)據(jù)均方誤差減少量很小,但程序運(yùn)行時(shí)間增加了很多,因此決策樹數(shù)目取100。

        圖1 預(yù)選變量為5的條件下決策樹數(shù)目與袋外數(shù)據(jù)均方誤差的關(guān)系

        圖2 不同預(yù)選變量數(shù)條件下決策樹數(shù)目與均方誤差的關(guān)系

        2.3 變量重要程度衡量

        隨機(jī)森林能夠從眾多因子中挑選出重要性更強(qiáng)的因子,在隨機(jī)森林中,每個(gè)變量的重要程度都受到與其他變量相互作用的影響,使用隨機(jī)森林衡量某個(gè)變量重要程度時(shí),需要利用OOB數(shù)據(jù)。相關(guān)方法為置換某個(gè)變量的取值,并保證其他變量值不變,計(jì)算置換后的預(yù)測誤差(OOB均方誤差)與置換前的預(yù)測誤差(OOB均方誤差)的差值,預(yù)測誤差增加越多,則說明該因子重要程度越高,能夠被用作預(yù)報(bào)因子[8]。

        2.4 預(yù)測因子選取

        預(yù)測因子的優(yōu)劣程度取決于該因子的重要程度,通過控制其他預(yù)測因子不變,置換該預(yù)測因子,觀察該因子被置換后袋外數(shù)據(jù)均方誤差的增長程度來判斷該因子的重要性。利用此方法評價(jià)50個(gè)環(huán)流因子的重要程度,OOB均方誤差增加越多,該因子對鄭州汛期降水量的影響程度越大,該環(huán)流因子的變化將在很大程度上影響鄭州汛期的降水量。

        由前文可知,隨機(jī)森林的預(yù)選變量個(gè)數(shù)應(yīng)為5,根據(jù)變量重要性度量原理,從50個(gè)環(huán)流因子中選取了5個(gè)對鄭州汛期降水量影響最大的環(huán)流因子,依次是北非—北大西洋—北美副高脊線位置指數(shù)、東太平洋副高脊線位置指數(shù)、南海副高脊線位置指數(shù)、北太平洋遙相關(guān)型指數(shù)以及850 hPa中太平洋信風(fēng)指數(shù)(圖3)。

        圖3 50個(gè)環(huán)流因子的袋外數(shù)據(jù)均方誤差

        2.5 模型優(yōu)劣評價(jià)

        評價(jià)模型優(yōu)劣程度的相關(guān)指標(biāo)為平均相對誤差絕對值MMRE、均方根誤差RRMSE、確定性系數(shù)R2以及預(yù)報(bào)結(jié)果相對變化程度E,分別從模型預(yù)報(bào)精確程度和模型的穩(wěn)定度2個(gè)方面來比較模型預(yù)報(bào)效果的優(yōu)劣。平均相對誤差絕對值越小,均方根誤差越小,確定性系數(shù)越大,則模型的精度就越高。預(yù)報(bào)結(jié)果相對變化程度越低,模型的穩(wěn)定度越高。

        基于隨機(jī)森林,利用50個(gè)環(huán)流因子預(yù)報(bào)鄭州汛期降水量,將最終的預(yù)報(bào)結(jié)果與基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)報(bào)進(jìn)行對比,對比結(jié)果見圖4。隨機(jī)森林模型的預(yù)報(bào)結(jié)果比BP神經(jīng)網(wǎng)絡(luò)更加接近于原始數(shù)據(jù),在極端降水年份,隨機(jī)森林的預(yù)報(bào)效果較差,但仍優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。

        圖4 基于隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)的預(yù)報(bào)結(jié)果與原始數(shù)據(jù)的對比

        同樣是基于50個(gè)環(huán)流因子預(yù)報(bào)鄭州汛期的降水量,在分析隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)的預(yù)報(bào)效果時(shí)得到表1,在平均相對誤差絕對值、確定性系數(shù)、均方根誤差及預(yù)報(bào)結(jié)果相對變化程度上,隨機(jī)森林均小于BP神經(jīng)網(wǎng)絡(luò),說明隨機(jī)森林的預(yù)報(bào)精度和穩(wěn)定度均要高于BP神經(jīng)網(wǎng)絡(luò),但在降水量變化趨勢的擬合上存在一定的不足。

        表1 隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)預(yù)報(bào)性能對比

        3 對“基于隨機(jī)森林的鄭州汛期降水量預(yù)報(bào)”的綜合評價(jià)

        3.1 缺點(diǎn)及不足

        通過上文對隨機(jī)森林預(yù)報(bào)結(jié)果的檢驗(yàn),發(fā)現(xiàn)基于隨機(jī)森林的鄭州汛期降水量預(yù)報(bào)結(jié)果仍然存在一些不足之處。在對極端降水量的預(yù)報(bào)上雖然優(yōu)于BP神經(jīng)網(wǎng)絡(luò),但預(yù)報(bào)精度比正常年份低,有待改進(jìn)。

        造成模型預(yù)報(bào)效果較差有2個(gè)原因:第一個(gè)原因是影響因子選擇不全面,在基于這種模型進(jìn)行預(yù)報(bào)時(shí),僅僅考慮了環(huán)流因子的影響,但是影響降水的因子種類很多,包括海陸位置、地形、氣壓帶、風(fēng)帶、季風(fēng)、氣旋、鋒面、下墊面、洋流、人類活動(dòng)等。第二個(gè)原因是極端因素對降水的影響,極端降水的產(chǎn)生不僅僅是因?yàn)槠胀ㄒ蜃拥南嗷プ饔茫€是因?yàn)橛绊懸蜃拥耐蛔兓蛘吣撤N極端因素的突然出現(xiàn),要想做好極端降水的預(yù)報(bào),則必須將這些突變因子和極端因子作為預(yù)報(bào)因子。

        3.2 結(jié)論

        選擇了50個(gè)環(huán)流因子作為鄭州汛期降水的影響因子,并根據(jù)50個(gè)環(huán)流因子對鄭州汛期降水量的影響的重要程度進(jìn)行排序,在使用隨機(jī)森林比較因子的優(yōu)劣程度后,從中優(yōu)選出5個(gè)環(huán)流因子進(jìn)行預(yù)報(bào),依次是、北非—北大西洋—北美副高脊線位置指數(shù)、東太平洋副高脊線位置指數(shù)、南海副高脊線位置指數(shù)、北太平洋遙相關(guān)型指數(shù)以及850 hPa中太平洋信風(fēng)指數(shù)。將隨機(jī)森林預(yù)報(bào)結(jié)果與BP神經(jīng)網(wǎng)絡(luò)預(yù)報(bào)結(jié)果進(jìn)行對比發(fā)現(xiàn):作為一種新型預(yù)報(bào)模型,隨機(jī)森林在降水量預(yù)報(bào)的精度和穩(wěn)定度上明顯優(yōu)于BP神經(jīng)網(wǎng)絡(luò),同時(shí)具備泛化性強(qiáng)、收斂快等特點(diǎn)。

        猜你喜歡
        剪枝環(huán)流決策樹
        人到晚年宜“剪枝”
        內(nèi)環(huán)流控溫技術(shù)應(yīng)用實(shí)踐與發(fā)展前景
        基于YOLOv4-Tiny模型剪枝算法
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        熱鹽環(huán)流方程全局弱解的存在性
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        謎底大揭秘
        基于決策樹的出租車乘客出行目的識別
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        国产亚洲精品久久久久久| 亚洲成a人片在线观看中| 亚洲高清国产品国语在线观看| 国产精品欧美视频另类专区| 黑丝国产精品一区二区| 亚洲日本一区二区三区四区| 国产成人无码精品久久久露脸| 国产成本人片无码免费2020| 乱人伦视频中文字幕| 天美麻花果冻视频大全英文版| 另类专区欧美在线亚洲免费| 亚洲男人天堂av在线| 我和丰满老女人性销魂| 亚洲自拍偷拍色图综合| 日韩在线永久免费播放| aaa级久久久精品无码片| 免费一级毛片在线播放不收费| 久久国产成人免费网站| 精品人妻av区乱码| 国产色av一区二区三区| 国产一品二品三品精品在线| 狠狠噜狠狠狠狠丁香五月| 国精产品一区二区三区| 亚洲乱妇老熟女爽到高潮的片| 国产精品女同学| 国产一区二区av免费观看| 亚洲精品久久久久中文字幕| 欧美aa大片免费观看视频| 欧美成人三级网站在线观看 | aa日韩免费精品视频一| 国偷自拍av一区二区三区| 久久伊人少妇熟女大香线蕉| 日日摸夜夜添狠狠添欧美| 极品人妻少妇一区二区| 男女主共患难日久生情的古言 | 中国农村妇女hdxxxx| 欧美午夜精品久久久久久浪潮 | 免费a级毛片在线播放不收费| 精品深夜av无码一区二区| 国产黄页网站在线观看免费视频 | 成人免费无码a毛片|