亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征選擇算法的建筑能耗預(yù)測集成模型

        2020-11-02 11:52:36楊執(zhí)鈞
        計算機工程與設(shè)計 2020年10期
        關(guān)鍵詞:特征選擇子集能耗

        白 雪,劉 剛+,黃 蕾,鐘 韜,喬 丹,楊執(zhí)鈞

        (1.上海電力大學 自動化工程學院,上海 200090; 2.上海電力大學 圖書館,上海 200090)

        0 引 言

        在世界能源消耗和相關(guān)二氧化碳排放量中,建筑能耗占據(jù)著相當?shù)谋壤?。相關(guān)研究結(jié)果表明[1],建筑能能耗約占我國整體能耗的1/3,因此建筑節(jié)能管理變得尤為重要。研究者們自20世紀90年代早期開始開發(fā)建筑能耗預(yù)測仿真工具,這些仿真工具可以進一步劃分為工程方法、智能算法以及混合方法3類[2],其中智能算法具有計算速度快、模型簡單、學習能力強等優(yōu)勢,逐漸成為研究重點。

        智能算法預(yù)測建筑能耗可分為使用單一學習算法進行預(yù)測和集成多種基礎(chǔ)預(yù)測方法以提高預(yù)測精度的集成模型預(yù)測方法,其中集成模型提供了一種克服假設(shè)空間中表征性不足的方法,成為更好的選擇[3,4]。與單一預(yù)測模型相比,集成預(yù)測方法具有更高的預(yù)測精度,成為近年來的研究熱點。Fan等初步開發(fā)了基于數(shù)據(jù)挖掘的集成模型來預(yù)測第二天的能耗和峰值功率需求[5];周峰等建立基于支持向量機的大型公共建筑能耗預(yù)測模型,分析并預(yù)測建筑的逐日能耗[6];何春華等分別用人工神經(jīng)網(wǎng)絡(luò)中的前饋神經(jīng)網(wǎng)絡(luò)和物理原理建立預(yù)測模型,對兩種方法進行評估后發(fā)現(xiàn)兩種模型均適用且內(nèi)部負荷對預(yù)測的影響更大[7];姚麗麗等通過建立一種基于BP神經(jīng)網(wǎng)絡(luò)的模型配置方法,創(chuàng)建可配置化的預(yù)測模型[8]。

        在建筑能耗預(yù)測中,高維度的數(shù)據(jù)會導(dǎo)致算法運行性能以及準確性的降低,選擇有效的特征子集能夠優(yōu)化集成模型的效果。本文提出一種基于隨機森林特征選擇算法的集成回歸模型(RF-GBDT)建筑能源預(yù)測方法,利用隨機森林特征選擇算法選取分類正確率最高的特征子集作為數(shù)據(jù)集,建立集成模型并進行測試,實驗結(jié)果表明,提出的RF-GBDT模型比傳統(tǒng)集成模型性能有大幅提升。

        1 模型建立

        1.1 隨機森林特征選擇算法

        隨機森林(random forest,RF)算法由Breiman開發(fā)用于分類和回歸問題[9]。RF已被證明非常適合處理高維問題方面,有良好的泛化性能[10]。

        本文采用隨機森林算法的變量重要性度量對特征進行排序,然后使用序列后向選擇方法(sequential backward selection,SBS)從特征的全集開始搜索,每次從特征子集中去掉一個特征,選出分類準確率最高的特征子集作為集成模型的輸入數(shù)據(jù)集。為驗證分類性能,本文采用10折交叉驗證法將數(shù)據(jù)集分為訓練集和驗證集。算法過程如下:

        (1)輸入完整的數(shù)據(jù)集S

        1) 設(shè)置最大分類正確率TGMaxAcc=0

        2) For(ft in N-2)

        3) 將S隨機劃分為10等份

        4) 設(shè)置局部最大分類準確率TLMaxAcc=0

        5) 設(shè)置局部平均分類準確率

        TLMeanAcc=0

        6) 初始化10折交叉驗證中每次迭代的分類準確率

        TLAcc[1:10]=0

        (2)For(i in 1:10)

        1) 在S訓練集上使用隨機森林算法創(chuàng)建分類器

        2) 在測試集上進行分類并比較結(jié)果,計算準確率TLAcc

        3) TLMeanAcc=TLMeanAcc+TLAcc[i]/10

        4) If(TLMaxAcc<=TLAcc[i])

        則TLMaxAcc=TLAcc[i]

        對特征按變量重要性排序得到FSort

        5) If(TGMaxAcc<=TLMeanAcc)

        則TGMaxAcc=TLMeanAcc

        FGSort=MAS

        6) 從MAS中去掉特征重要性得分最低的特征成為新的S

        (3)輸出分類準確率最高的特征子集MAS

        其中ft代表循環(huán)變量,N為數(shù)據(jù)集中所有特征的個數(shù)

        1.2 梯度提升決策樹集成算法

        基于基礎(chǔ)算法的選擇,集成預(yù)測模型可以進一步分為兩種類型,即同構(gòu)集成模型和異質(zhì)集成模型,同構(gòu)集成模型由一種算法對不同數(shù)據(jù)子集進行學習后集成,異構(gòu)集成模型是不同算法對同一訓練集學習后集成[11]。本文使用異構(gòu)集成模型,選取6個常用機器學習算法作為基礎(chǔ)算法進行集成。由于每種預(yù)測算法都有各自的優(yōu)缺點,因此集成模型能夠使基本模型互相補充,從而有助于提高泛化性能。

        梯度提升決策樹(gradient boosting decision tree,GBDT)是由Friedman提出并改進的集成學習算法[12],主要思想是基于之前建立的基學習器的損失函數(shù)的梯度下降方向來建立下一個新的基學習器,不斷縮小損失函數(shù),使得模型的回歸預(yù)測性能不斷提高。算法如下

        (1)初始化弱學習器

        (1)

        輸入訓練樣本T={((xi,yi)(i=1,2,…N))}最大迭代次數(shù)M,γ為使損失函數(shù)L最小化的常數(shù),損失函數(shù)L選取平方誤差損失函數(shù)

        (2)

        其中,yi為實際值,g(xi)為預(yù)測值。

        (2)對迭代輪數(shù)m=1,2,…M有:

        1)對每個樣本i=1,2,…,N,計算負梯度

        (3)

        2)將上一步計算的數(shù)據(jù)(xi,γim)(i=1,2,…N,m=1,2,…M)作為下棵樹的訓練數(shù)據(jù),得到一顆新的回歸樹fm(x),其對應(yīng)的葉子節(jié)點區(qū)域為Rm,j,j=1,2,…J。其中J為回歸樹m的葉子節(jié)點的個數(shù)。

        3)對葉子區(qū)域j=1,2,…,J計算最佳擬合值

        γmj=argmin∑xi∈RmjL(yi,fm-1(xi)+γ)

        (4)

        4)更新強學習器

        (5)

        (3)得到強學習器f(x)

        (6)

        1.3 模型建立

        本文使用基于隨機森林的特征選擇算法生成最優(yōu)特征子集,然后采用梯度提升決策樹算法(GBDT)建立的RF-GBDT集成回歸模型流程如圖1所示。

        圖1 RF-GBDT模型

        2 實驗設(shè)置

        2.1 數(shù)據(jù)描述

        本文選取某校園建筑兩年的小時耗電量數(shù)據(jù)集,包括溫度、濕度比、氣壓等環(huán)境特性、居住比特性等14個特征屬性。表1是14個特征屬性描述。

        表1 特征屬性描述

        其中coshour將每個小時相對于一天內(nèi)的時間量化為一個-1到1之間的數(shù)值,即

        (7)

        2.2 實驗設(shè)置

        本文通過對比使用原始數(shù)據(jù)集和以Pearson數(shù)據(jù)相關(guān)性以及隨機森林兩種特征選擇方法選出的特征子集訓練的3種集成模型的性能來驗證RF-GBDT,使用python語言編程實現(xiàn)。

        Pearson相關(guān)性的計算公式如下

        (8)

        集成模型選擇6個常用機器算法作為基礎(chǔ)算法,分別是MLR(多元線性回歸)、LASSO(套索回歸)、EN(彈性網(wǎng)絡(luò)回歸)、SVM(支持向量機)、KNN(K近鄰算法)、CART(分類與回歸樹)其中MLR、LASSO、EN為線性算法,CART、SVM、KNN為非線性算法。

        進行多次調(diào)參實驗后,建立的模型相關(guān)參數(shù)如下:基礎(chǔ)算法中的KNN經(jīng)近鄰個數(shù)為7,集成算法GBDT主要參數(shù):弱學習器最大迭代次數(shù)為7370,每個弱學習器的步長為0.1,決策樹深度為3,內(nèi)部節(jié)點再劃分所需最小樣本數(shù)5,特征子集分為70%訓練集和30%測試集。

        2.3 性能評價指標

        本文的評價指標使用均方根誤差(root mean square error,RMSE)和決定系數(shù)(R-square,R2),兩個指標的定義如式(9)、式(10)所示

        RMSE

        (9)

        R2

        (10)

        3 實驗結(jié)果與分析

        使用Pearson相關(guān)性分析和隨機森林特征選擇算法從原始數(shù)據(jù)集中篩選出的特征子集見表2,可以看出無論是從數(shù)據(jù)相關(guān)性還是從特征重要性來看,用電量與時間點(coshour)和居住者行為的關(guān)系都相當密切,這與實際的生活情況也是相吻合的;開始測量和結(jié)束測量的時間點與用電量的數(shù)據(jù)Pearson相關(guān)性較低,但在使用隨機森林算法進行特征選擇時在所有數(shù)據(jù)特征中位居前列,這是因為其與時間點(coshour)密切相關(guān)。而外部環(huán)境因素中,光照、溫度、壓強、濕度對預(yù)測結(jié)果有著較大的影響。

        表2 Pearson特征子集與MAS特征子集

        分別將兩種特征子集作為輸入數(shù)據(jù)集所建立的集成模型的預(yù)測結(jié)果見表3,使用數(shù)據(jù)相關(guān)性較高的特征作為數(shù)據(jù)集時,得到的預(yù)測結(jié)果相比于全部特征的預(yù)測精度要低,而使用隨機森林特征選擇算法選出的特征子集(MAS)作為數(shù)據(jù)集進行預(yù)測所得到的預(yù)測結(jié)果精度要略高于其它兩組。圖2表示兩個特征子集建立的集成模型的預(yù)測結(jié)果與實際值的對比,使用隨機森林特征選擇算法篩選出的MAS子集的模型的預(yù)測精度要明顯高于基于Pearson相關(guān)性分析篩選出的特征子集。觀察Pearson相關(guān)性分析子集的預(yù)測曲線發(fā)現(xiàn)其在某些時間段的較低能耗值的預(yù)測結(jié)果呈規(guī)律性的預(yù)測偏差,其原因與子集中的某些特征有關(guān)。

        表3 不同特征數(shù)據(jù)集預(yù)測精度對比

        圖2 兩種輸入數(shù)據(jù)集的預(yù)測效果對比

        為了進一步驗證RF-GBDT模型的性能,本文通過實驗對比了使用不同集成算法進行集成的模型的性能以及RF-GBDT模型中的基礎(chǔ)算法在集成前后的性能,實驗結(jié)果見表4、表5。相比隨機森林(random forest,RF)和Adaboost集成算法,RF-GBDT模型的性能表現(xiàn)要優(yōu)秀得多。預(yù)測結(jié)果顯示RF-GBDT集成回歸模型的性能要明顯優(yōu)于單一預(yù)測算法,而單一模型中SVM、KNN的表現(xiàn)優(yōu)于MLR、LASSO、EN,可見建筑能源預(yù)測這一問題更多表現(xiàn)為非線性。集成后各基礎(chǔ)算法的表現(xiàn)不一,且并不是所有的算法性能都得到了提高,相反,有些算法的精度反而下降了。

        表4 集成算法優(yōu)化性能對比

        表5 基礎(chǔ)算法性能對比

        由表4、表5數(shù)據(jù)分析可得,集成后的RF-GBDT模型相比單一算法的預(yù)測RMSE平均減小了64.9%,R2平均提高了42.5%,預(yù)測性能有了大幅度的提升。集成前后單一算法的預(yù)測性能有小幅波動,LASSO、MLR等線性回歸算法的性能普遍有所提升,而KNN、SVM等非線性算法的性能變化不大甚至略有下降,可見集成模型性能的優(yōu)化并不是靠簡單的提升單一算法預(yù)測精度來實現(xiàn)的。

        4 結(jié)束語

        本文提出一種基于隨機森林特征選擇算法的集成回歸模型(RF-GBDT)建筑能源預(yù)測方法,使用基于隨機森林的特征選擇算法生成最優(yōu)特征子集,采用梯度提升決策樹算法集成6種基本算法,并采用該模型對某校園建筑兩年的小時耗電量數(shù)據(jù)進行預(yù)測分析。實驗結(jié)果表明,該集成回歸模型精度不僅明顯優(yōu)于基本模型,且優(yōu)于使用隨機森林(random forest,RF)和Adaboost集成算法建立的集成回歸模型。

        利用神經(jīng)網(wǎng)絡(luò)模型,依據(jù)各算法預(yù)測精度來確定每個基本算法的權(quán)重并進行優(yōu)化后集成,從而進一步提高集成算法的性能是下一步的研究內(nèi)容。

        猜你喜歡
        特征選擇子集能耗
        由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
        120t轉(zhuǎn)爐降低工序能耗生產(chǎn)實踐
        昆鋼科技(2022年2期)2022-07-08 06:36:14
        能耗雙控下,漲價潮再度來襲!
        拓撲空間中緊致子集的性質(zhì)研究
        探討如何設(shè)計零能耗住宅
        關(guān)于奇數(shù)階二元子集的分離序列
        日本先進的“零能耗住宅”
        華人時刊(2018年15期)2018-11-10 03:25:26
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標特征選擇算法
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        亚洲欧美性另类春色| 97精品久久久久中文字幕| 狠狠色噜噜狠狠狠888米奇视频| 国产久视频国内精品999| 亚洲国产精品第一区二区三区 | 摸进她的内裤里疯狂揉她动图视频 | 国产精品综合色区在线观看| 日本午夜免费福利视频| 免费va国产高清不卡大片| 麻豆视频黄片在线免费观看| 天天爽夜夜爽夜夜爽精品视频| 午夜男女爽爽爽在线视频| 久久国产欧美日韩高清专区| 亚洲天堂线上免费av| 九九综合va免费看| 久久综合九色综合网站| 中文字幕乱偷乱码亚洲| 能看不卡视频网站在线| 亚洲精品久久激情国产片| 成人小说亚洲一区二区三区| 国产欧美亚洲另类第一页| 高清中文字幕一区二区三区| 国产精品无码久久综合网| 欧美z0zo人禽交欧美人禽交| 日本一区二区三区资源视频| av影片在线免费观看| 边啃奶头边躁狠狠躁| 国产99页| 亚洲熟妇av一区二区三区hd| 国产av无码国产av毛片| 18级成人毛片免费观看| 久久精品国产一区二区涩涩 | 色欲人妻aaaaaaa无码| 国产白嫩美女在线观看| 亚洲精品国产熟女久久| 一区在线视频免费播放| 久久久久香蕉国产线看观看伊| 天天干夜夜躁| 国产91精品一区二区麻豆亚洲 | 国产精品186在线观看在线播放| 精品无码国产污污污免费网站|