亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林算法的福建省降雨預(yù)測

        2023-08-20 06:26:00朱宏宇
        黑龍江科學(xué) 2023年14期
        關(guān)鍵詞:特征區(qū)域模型

        朱宏宇,劉 群

        (閩南師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,福建 漳州 363000)

        福建省沿海地形較平坦,對夏季風(fēng)抬升作用相對較弱,降水較少一些,西部有武夷山脈,對夏季風(fēng)阻擋抬升作用較強(qiáng),武夷山東南側(cè)降水較多,故福建省的降雨量空間分布特征為東南沿海降水偏少,向西北內(nèi)陸方向降雨增多,降水分布不均衡[1]。利用隨機(jī)森林算法[2-4],對福建省是否降雨進(jìn)行預(yù)測研究。

        1 數(shù)據(jù)集

        使用的數(shù)據(jù)來自美國國家大氣研究中心、計(jì)算與信息系統(tǒng)實(shí)驗(yàn)室公開網(wǎng)站,其檔案中的NCEP GDAS/FN(https://rda.ucar.edu/datasets/ds094.0/#sfol-wl-/data/ds094.0?p=33)業(yè)務(wù)為全球分析及訂正數(shù)據(jù)。該數(shù)據(jù)為水平分辨率0.5×0.5的網(wǎng)格氣象數(shù)據(jù),時(shí)間頻率為每1 h從原始數(shù)據(jù)集sfluxgrbl中通過經(jīng)緯度選取整個(gè)福建省的氣象數(shù)據(jù),時(shí)間跨度為2021年6月1日24時(shí)至2022年5月31日24時(shí),為每小時(shí)觀測數(shù)據(jù),共記錄8760個(gè)數(shù)據(jù)。通過經(jīng)緯度網(wǎng)格劃分,網(wǎng)格精度水平分辨率為0.5×0.5,將福建省劃分為5大區(qū)域,分別為龍巖、南平、福州寧德、泉州莆田三明及廈門漳州。使用變量見數(shù)據(jù)集sfluxgrbl。

        選取云層氣象數(shù)據(jù)具有更好的特征,對降雨的影響可解釋性更高。各區(qū)域數(shù)據(jù)量及特征數(shù)量如表1所示。

        表1 各區(qū)域原始降雨數(shù)據(jù)

        2 研究方法

        隨機(jī)森林(random forest)的基本組成單元是決策樹,又稱為分類回歸樹(CART)[5]。分類回歸樹的基本思想是一種二分遞歸分割方法,在計(jì)算過程中充分利用二叉樹,在一定的分割規(guī)則下將當(dāng)前樣本集分割為兩個(gè)子樣本集,令生成的決策樹的每個(gè)非葉節(jié)點(diǎn)都有兩個(gè)分枝,這個(gè)過程在子樣本集上重復(fù)進(jìn)行,直至不可再分為葉節(jié)點(diǎn)為止。由于單棵決策樹精度不高,容易出現(xiàn)過擬合的問題,故需通過聚集多個(gè)模型來提高訂正精度。隨機(jī)森林采用Bagging[6-7]方法來組合決策樹,利用Bootstrap[8]重抽樣方法從原始樣本中抽取多個(gè)樣本,對每個(gè)樣本進(jìn)行決策樹建模,組合多棵決策樹的預(yù)測,通過投票得出最終預(yù)測結(jié)果。

        圖1 隨機(jī)森林示意圖Fig.1 Schematic diagram of random forest

        3 分類模型的建立與評估

        3.1 隨機(jī)森林分類模型的建立

        按照經(jīng)緯度,將福建省一年之間的逐小時(shí)氣象數(shù)據(jù)劃分為5個(gè)區(qū)域,分別為南平、福州寧德、龍巖、泉州莆田三明及廈門漳州。其中,福州寧德與廈門漳州兩大區(qū)域除目標(biāo)特征label(是否降雨)之外,有54個(gè)氣象特征,南平、龍巖及泉州莆田三明三大區(qū)域除目標(biāo)特征label之外,有84個(gè)氣象特征。每個(gè)區(qū)域降雨(非降雨)數(shù)據(jù)量分布如表2所示。

        表2 各區(qū)域降雨(非降雨)數(shù)據(jù)量分布

        對各區(qū)域數(shù)據(jù)建立隨機(jī)森林分類模型,將5個(gè)區(qū)域的數(shù)據(jù)通過隨機(jī)抽樣分別按照7∶3的比例隨機(jī)劃分,其中70%作為訓(xùn)練數(shù)據(jù),30%作為測試數(shù)據(jù)。分別選取10%特征數(shù)、30%特征數(shù)、50%特征數(shù)、70%特征數(shù),CART決策樹從0~200變化時(shí)觀察模型的誤差變化情況[如圖2、圖3、圖4、圖5所示(南平區(qū)域)]。圖中橫坐標(biāo)表示決策樹的數(shù)量,縱坐標(biāo)表示模型的分類誤差率,其中error0實(shí)線表示非降雨(標(biāo)簽為0)的誤差率,error1短虛線表示降雨的誤差率(標(biāo)簽為1),errorOOB長虛線表示袋外數(shù)據(jù)兩種類別綜合的誤差率。觀察圖2、圖3、圖4、圖5、圖6,隨著決策樹數(shù)量的增加,袋外數(shù)據(jù)的誤差率先減小后趨于穩(wěn)定。對比各特征數(shù)的模型,選取決策樹100棵、50%特征作為最終模型。

        圖2 10%特征數(shù)Fig.2 10% feature number

        圖3 30%特征數(shù)Fig.3 30% feature number

        圖4 50%特征數(shù)Fig.4 50% feature number

        圖5 70%特征數(shù)Fig.5 70% feature number

        圖6 南平區(qū)域變量重要性排序Fig.6 Importance ranking of variables in Nanping Region

        隨機(jī)森林模型在擬合數(shù)據(jù)后會(huì)對數(shù)據(jù)特征有一個(gè)重要性的度量,對應(yīng)隨機(jī)森林模型認(rèn)為訓(xùn)練特征的重要程度。圖6展現(xiàn)的是隨機(jī)森林分類模型對南平區(qū)域的數(shù)據(jù)擬合后生成的變量重要性的排序,取前30個(gè),橫坐標(biāo)為平均下降基尼系數(shù)(Mean Decrease Gini),計(jì)算每個(gè)變量對分類樹每個(gè)節(jié)點(diǎn)上觀測值異質(zhì)性的影響,該值越大表示變量的重要性越大。

        對5個(gè)區(qū)域輸出影響是否降雨的前30個(gè)特征,結(jié)果表明,每個(gè)區(qū)域的重要性均不同,按重要性排序(選取影響較大的特征),福州寧德區(qū)域?yàn)榈驮莆豢傇屏俊⑦吔鐚涌傇屏?、中云位總云量、大氣總云量、大氣晴空頂部向上長波通量,龍巖區(qū)域?yàn)榈乇斫邓俾省⒋髿庵乒瘮?shù)、中云位總云量、低云位總云量、地表植物冠層地表水,泉州莆田三明區(qū)域?yàn)榈乇肀┯甑乇韽搅?、低云位總云量、中云位總云量、地表植物冠層地表?廈門漳州區(qū)域?yàn)橹性莆豢傇屏?、低云位總云量、大氣頂部晴空向上長波通量,南平區(qū)域?yàn)榈乇碇参锕趯拥乇硭?、中云位總云量、地表暴雨地表徑流、低云位總云量?/p>

        3.2 性能評估

        建立隨機(jī)森林分類模型后,對比各區(qū)域誤差率在不同特征下隨著決策樹數(shù)量的變化,選取誤差率最小的參數(shù)訓(xùn)練模型,如表3所示,其中南平、龍巖兩個(gè)區(qū)域選取50%特征數(shù)用來訓(xùn)練模型,福州寧德與泉州莆田三明兩個(gè)區(qū)域選取30%特征數(shù),廈門漳州區(qū)域選取70%特征數(shù)。決策樹數(shù)量南平、福州寧德、泉州莆田三明3個(gè)區(qū)域均選取100棵,廈門漳州區(qū)域取130棵決策樹,龍巖區(qū)域選擇150棵決策樹作為最終的模型參數(shù)。

        表3 各區(qū)域隨機(jī)森林分類模型參數(shù)

        表4為模型在5個(gè)區(qū)域袋外數(shù)據(jù)的混淆矩陣及各類別上的錯(cuò)誤率、訓(xùn)練集袋外數(shù)據(jù)的誤差率及測試集的準(zhǔn)確率。觀察表4可知,各區(qū)域的測試集準(zhǔn)確率均達(dá)到96%以上,其中龍巖區(qū)域的OOB誤差在1%以下,測試集準(zhǔn)確率達(dá)到99.5%,訂正效果最好。

        表4 各區(qū)域袋外數(shù)據(jù)混淆矩陣及準(zhǔn)確率

        4 結(jié)論

        利用隨機(jī)森林分類算法對福建省降雨進(jìn)行預(yù)測研究,得出了以下結(jié)論:隨機(jī)森林在對是否降雨的分類預(yù)測上能夠表現(xiàn)出較好的效果,對福建省各區(qū)域是否降雨的判斷準(zhǔn)確率均達(dá)到96%以上。在是否降雨的預(yù)測上,不同區(qū)域的特征重要性程度不一,其中中云位總云量、低云位總云量、地表植物冠層地表水3個(gè)特征對各個(gè)區(qū)域是否降雨的影響較重要。

        猜你喜歡
        特征區(qū)域模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        關(guān)于四色猜想
        分區(qū)域
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        電測與儀表(2015年5期)2015-04-09 11:30:52
        一本色道久久综合中文字幕| 国产在线精品成人一区二区三区 | 国产女合集小岁9三部| 9丨精品国产高清自在线看| 亚洲女同性恋第二区av| 免费大片黄国产在线观看| 依依成人精品视频在线观看| 日韩av一区二区毛片| 日本一级三级在线观看| 乱老年女人伦免费视频| 亚洲中久无码永久在线观看同| 精精国产xxxx视频在线播放器| 久久国产精品色av免费看| 久久精品国产清自在天天线| 天堂在线www中文| 中文字幕偷拍亚洲九色| 久久在一区二区三区视频免费观看| 中字幕人妻一区二区三区| 亚洲一级黄色毛片| 人妻少妇激情久久综合| 99国产精品久久久久久久成人热| 国产人妻久久精品二区三区| 国产亚洲精品hd网站| 人妻中文字幕一区二区视频| 未满十八勿入av网免费| 欧美日韩电影一区| 国产亚洲精品视频在线| 中文字幕av久久亚洲精品| 热re99久久精品国产99热| 亚洲九九九| 亚洲AV无码久久精品国产老人| 亚洲天堂av在线免费播放 | 人妻少妇偷人精品久久人妻 | 欧美激情五月| 久久精品国产福利亚洲av| 日本顶级metart裸体全部| 高潮毛片无遮挡高清免费| 厕所极品偷拍一区二区三区视频 | 国产毛多水多高潮高清| 四虎影院在线观看| 和少妇人妻邻居做爰完整版|