亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征工程的建設(shè)工程造價指數(shù)預測模型構(gòu)建

        2023-10-09 09:42:34耘,
        科技和產(chǎn)業(yè) 2023年16期
        關(guān)鍵詞:子集神經(jīng)網(wǎng)絡誤差

        劉 耘, 陸 軍

        (新疆大學 建筑工程學院, 烏魯木齊 830046)

        工程造價指數(shù)是常見的投資估算指標,是一種反映特定時期下,人工費、材料費、機械材料租賃費用等要素對工程造價影響的一種指數(shù)。造價指數(shù)具有時限性,且只能反映特定時間內(nèi)工程造價的變動趨勢,由于建設(shè)周期較長,在建設(shè)項目投機估算階段需要將未來幾年工期內(nèi)造價指數(shù)作為參考指標,因此需要對工程指數(shù)進行預測。造價指數(shù)預測主要方法包括定性專家預測法、主觀概率法、交叉影響法、定量時間序列預測法、回歸預測法、灰色預測法[1]。基于機器學習的回歸預測作為一種回歸預測方法,已經(jīng)被廣泛地應用到生產(chǎn)生活之中。相比于傳統(tǒng)預測方法,機器學習預測學習能力強,預測誤差小,能夠更好地處理復雜的數(shù)據(jù)預測問題。

        1 相關(guān)研究

        基于機器學習的造價指數(shù)預測模型構(gòu)建,國內(nèi)學者主要研究方向在選定算法后的參數(shù)優(yōu)化,來提升模型的預測精度。選擇較多的有神經(jīng)網(wǎng)絡和集成模型。

        神經(jīng)網(wǎng)絡是根據(jù)模擬人腦神經(jīng)信息傳遞、處理等機制的算法,基礎(chǔ)神經(jīng)網(wǎng)絡模型有BP(back propagation)神經(jīng)網(wǎng)絡模型、卷積神經(jīng)網(wǎng)絡網(wǎng)絡模型等,其中BP神經(jīng)網(wǎng)絡模型是通過誤差反向傳播加快收斂速度的模型。羅澤民和布優(yōu)月[2]選用GM(1,1)和BP神經(jīng)網(wǎng)絡,通過參數(shù)優(yōu)化對神經(jīng)網(wǎng)絡組合模型進行了研究。劉偉軍和李念[3]結(jié)合了GM(1,1)模型、思維進化算法和神經(jīng)網(wǎng)絡算法,利用思維進化算法提升模型的預測精度。朱曦等[4]在公路運價指數(shù)預測中選用極限學習機神經(jīng)網(wǎng)絡快速高效地完成了模型構(gòu)建并提升預測能力。劉傳和陳彥暉[5]在股指波動率的長短期記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡模型構(gòu)建前用經(jīng)驗模態(tài)分解和樣本熵對數(shù)據(jù)進行了預處理,從而提高了模型的預測效果。

        集成學習是指將多個弱學習模型或多個模型進行結(jié)合構(gòu)成一個具有更強學習能力的模型,基于弱學習器的有隨機森林算法、極端梯度提升(extreme gradient boosting,XGBoost)和神經(jīng)網(wǎng)絡梯度提升(neural network gradient boosting,NGBoost)等。張旺等[6]在變電站基礎(chǔ)設(shè)施項目投資算預測模型中選用XGBoost構(gòu)建預測模型,結(jié)果表明XGBoost的預測精度高于線性回歸模型和神經(jīng)網(wǎng)絡。羅鳳娥等[7]在基于數(shù)據(jù)挖掘技術(shù)的航班預測綜述中提出隨機森林算法的優(yōu)點在于高維數(shù)據(jù)處理上的優(yōu)異性,但由于數(shù)據(jù)噪音易導致模型過擬合。黃穎和楊會杰[8]在金融時間預測模型中選用XGBoost對數(shù)據(jù)中的特征進行提取。多模型集成中Meseret等[9]集成了線性回歸、支持向量機(support vector machine,SVM)和梯度增強算法來進行公路項目的成本預測。Sharma等[10]在數(shù)據(jù)優(yōu)化的基礎(chǔ)上,利用機器學習的工具,構(gòu)建一個關(guān)于工程造價的環(huán)境、資源和時間構(gòu)成的函數(shù),結(jié)果表明梯度增強樹在與隨機森林、神經(jīng)網(wǎng)絡、高斯回歸對比中,在各個方面都具有最佳的性能。

        指數(shù)預測的模型構(gòu)建以模型為主,通過模型優(yōu)化對模型效果進行提升,并根據(jù)不同的數(shù)據(jù)特征進行模型合理選擇,數(shù)據(jù)處理是模型構(gòu)建和優(yōu)化的重要思路,數(shù)據(jù)特征的處理反映了研究人員數(shù)據(jù)的理解程度和數(shù)據(jù)的重要特征,基于特征工程構(gòu)建模型能深度挖掘數(shù)據(jù)中信息的同時也能對后續(xù)的相關(guān)研究數(shù)據(jù)的處理提供重要的參考價值。

        為構(gòu)建一個能夠應用于實際工程的造價指數(shù)預測模型,本文重點研究基于特征工程和參數(shù)優(yōu)化的模型構(gòu)建,在優(yōu)化基礎(chǔ)算法基礎(chǔ)上,通過特征篩選和特征填充,為造價指數(shù)預測模型選擇合適的特征工程處理方式和模型優(yōu)化參數(shù),從而構(gòu)建一個預測能力較好的預測模型。

        2 數(shù)據(jù)與指標選取和預處理

        2.1 數(shù)據(jù)來源

        本文研究對象是U市造價指數(shù)預測,數(shù)據(jù)來源主要是U市工程信息信息網(wǎng)發(fā)布的U市2012年1月至2021年10月建設(shè)工程綜合價格信息和建設(shè)工程造價信息網(wǎng)發(fā)布的2021—2012年省會城市住宅建安工程造價指標,單位為元/m2。

        主要數(shù)據(jù)特征包括時間、材料費、人工費和機器租賃費10年間變化趨勢。

        2.2 數(shù)據(jù)特征工程

        模型構(gòu)建前的數(shù)據(jù)挖掘包括數(shù)據(jù)收集與過濾、數(shù)據(jù)預處理、數(shù)據(jù)變換等[12]。其中的數(shù)據(jù)特征工程是專門對數(shù)據(jù)挖掘中特征處理方法,特征工程的特征處理包括特征清洗、特征預處理和特征衍生,其中特征預處理包括單特征的數(shù)據(jù)歸一化、離散連續(xù)化和缺失值處理、多特征的降維和特征篩選等。

        2.2.1 數(shù)據(jù)基本描述

        數(shù)據(jù)樣本量為118個,578個數(shù)據(jù)特征,數(shù)據(jù)結(jié)構(gòu)為小樣本、高緯度數(shù)據(jù)集。

        2.2.2 數(shù)據(jù)填充

        針對數(shù)據(jù)缺失問題,處理方法是對數(shù)據(jù)進行填充或?qū)Υ罅咳笔卣餍畔⑦M行刪除,為保證信息完整性,進行缺失數(shù)據(jù)填充。通過單變量插補和多變量插補,生成了最初兩組數(shù)據(jù),分別是均值填充數(shù)據(jù)集和隨機森林填充數(shù)據(jù)集。

        2.2.3 特征選擇

        由于高緯度數(shù)據(jù)特征易導致模型學習成本增加,導致模型擬合能力差,通過特征工程需要對數(shù)據(jù)特征進行篩選,減少特征數(shù)量。

        采用過濾法的F檢驗是指通過計算特征相關(guān)性和閾值,選取閾值之內(nèi)的特征,采用嵌入法中的樹模型將特征選擇嵌入模型的構(gòu)建,通過模型選擇重要性較高的特征,采用包裹法的遞歸特征消除法(recursive feature elimination, RFE),通過每次選擇不同的特征子集組合并評價,最終選擇最優(yōu)的特征子集。

        2.2.4 特征降維

        選用主成分分析法(principal components analysis,PCA)通過數(shù)學變換將原本高緯度的數(shù)據(jù)映射在低緯度空間之上,從而便于計算和提高部分模型的整體性能。

        2.2.5 特征子集構(gòu)建

        通過特征工程數(shù)據(jù)填充,特征選擇和特征降維數(shù)據(jù)特征子集如表1所示。由表1特征數(shù)量可知,不同特征處理方式下,數(shù)據(jù)特征數(shù)量不同,為模型構(gòu)建提供不同特征子集。

        表1 特征工程處理后的特征子集

        2.3 模型構(gòu)建和模型評估

        2.3.1 模型評價指標

        將造價數(shù)據(jù)分為訓練集和測試集。取2012—2020年的數(shù)據(jù)作為模型的訓練集,同時對模型進行交叉驗證(cross validation,CV),作為模型穩(wěn)定性的評價指標,5折交叉驗證是指將數(shù)據(jù)分成5份,依次使用其中的一份數(shù)據(jù)作為測試集數(shù)據(jù),其余4份為訓練集,平均測試集上預測結(jié)果作為模型的交叉驗證值。測試集為2021年10個月的數(shù)據(jù),作為模型泛化能力參考。

        預測模型誤差一般選用均方根誤差(root mean square error,RMSE)表示,用以衡量機器學習中觀測值和真實值之間誤差的標準,表達式為

        (1)

        平均絕對百分比誤差(mean absolute percentage error,MAPE)是一種描述預測精準度的指標,表達式為

        (2)

        式中:f(xi)為第i個樣本的預測值;yi為第i個樣本的真實值;m為樣本量。

        2.3.2 XGBoost模型構(gòu)建

        XGBoost是一種極端梯度提升樹模型。不同于一般梯度提升樹模型,XGBoost參數(shù)量多,性能提升空間大,需要對模型參數(shù)空間進行參數(shù)搜索,尋找參數(shù)之間的較優(yōu)組合,對模型性能進行優(yōu)化,采用貝葉斯優(yōu)化搜索的參數(shù)有最大深度(max_depth)、樹模型生成數(shù)量(num_boost_round)、學習率(eta)、重采樣(subsample)、節(jié)點樣本二階導和的最小值(min_child_weight)、L1正則化系數(shù)(alpha)、L2正則化系數(shù)(lambda),模型默認參數(shù)為XGBoost庫下默認設(shè)置,設(shè)置num_boost_round為100,搜索空間為XGBoost庫文檔給出的參考空間。經(jīng)過參數(shù)優(yōu)化后(表2),各個特征子集最優(yōu)參數(shù)模型和模型預測誤差如表3所示。默認參數(shù)構(gòu)建的訓練集、測試集和交叉驗證集誤差分別記為default_xgb_train、default_xgb_test、default_xgb_cv;參數(shù)優(yōu)化后的訓練集、測試集和交叉驗證集誤差分別記為opt_xgb_train、opt_xgb_test、opt_xgb_cv。

        表2 XGBoost各特征子集優(yōu)化后參數(shù)

        表3 XGBoost和神經(jīng)網(wǎng)絡誤差對照

        2.3.3 神經(jīng)網(wǎng)絡模型搭建

        通過PyTorch構(gòu)建一個4層神經(jīng)網(wǎng)絡,層級結(jié)構(gòu)為全連接反向傳播神經(jīng)網(wǎng)絡,分為輸入層、隱藏層和輸出層。輸入層輸入數(shù)據(jù)特征,隱藏層為4層,每層神經(jīng)元數(shù)量通過超參數(shù)優(yōu)化得出,輸出層為1個神經(jīng)元。默認神經(jīng)網(wǎng)絡模型的神經(jīng)元個數(shù)為100個/層,不設(shè)置梯度提升算法和學習率,迭代次數(shù)為500次。

        采用貝葉斯優(yōu)化對每個特征子集構(gòu)建的模型進行參數(shù)搜索,參數(shù)空間為[1,100],梯度提升算法的搜索空間為Adam算法、AdaDelta算法和AdaGrad算法,學習率搜索空間為[0.000 01,0.1]。

        模型參數(shù)搜索完成后,參數(shù)如表4所示,對模型的預測誤差進行對比,如圖1所示默認參數(shù)構(gòu)建的訓練集、測試集和交叉驗證集誤差分別是default_ANN_train、default_ANN_test、default_ANN_cv;參數(shù)優(yōu)化后的訓練集、測試集和交叉驗證集誤差分別是opt_ANN_train、opt_ANN_test、opt_ANN_cv,神經(jīng)網(wǎng)絡默認參數(shù)和優(yōu)化后的模型誤差如圖2神經(jīng)網(wǎng)絡誤差所示。

        圖1 隨機森林填充后的各個模型誤差

        圖2 均值填充后的各個模型誤差

        表4 神經(jīng)網(wǎng)絡各特征子集優(yōu)化后參數(shù)

        2.3.4 模型選擇和評估

        首先,根據(jù)數(shù)據(jù)缺失值處理和特征選擇,完成模型構(gòu)建前的數(shù)據(jù)準備工作;其次是模型參數(shù)優(yōu)化;最后,對模型擬合能力、泛化能力和穩(wěn)定性進行評價,遴選合適的特征工程方式并構(gòu)建模型。

        神經(jīng)網(wǎng)絡默認參數(shù)下,隨機森林填充訓練誤差小于均值填充誤差。

        2)特征篩選。如圖1和圖2所示,特征篩選后的大部分模型預測誤差有降低但整體降低不明顯,在特定模型上的提升效果明顯,如均值填充后,優(yōu)化后的XGBoost模型在訓練集上得到了較大的提升。但也有模型在特征篩選后預測誤差增加,如默認參數(shù)下神經(jīng)網(wǎng)絡訓練誤差。因此,特征篩選需要根據(jù)具體模型效果進行使用。

        3)參數(shù)優(yōu)化。由表3、圖3和圖4可知,參數(shù)優(yōu)化后的XGBoost模型訓練誤差和交叉驗證誤差顯著下降,測試集誤差大部分有所下降。如表3、圖5和圖6所示,相比于默認參數(shù)模型,除了數(shù)據(jù)降維后的模型,參數(shù)優(yōu)化后的神經(jīng)網(wǎng)絡模型在訓練誤差、測試誤差和交叉驗證誤差都有了顯著地降低。

        圖3 默認參數(shù)下各個XGBoost的誤差

        圖4 優(yōu)化參數(shù)后各個XGBoost模型的誤差

        圖5 默認參數(shù)下各個神經(jīng)網(wǎng)絡模型的誤差

        圖6 優(yōu)化參數(shù)后各個神經(jīng)網(wǎng)絡模型的誤差

        4)模型構(gòu)建和評價。模型評價主要參考表3的3個誤差值,其中訓練和測試集誤差反映模型對數(shù)據(jù)學習程度和預測能力,驗證誤差反映不同數(shù)據(jù)上的預測誤差,也叫泛化能力或者魯棒性。

        由圖1和圖2可知,XGBoost的各項誤差整體比神經(jīng)網(wǎng)絡低。從模型訓練、測試誤差和交叉驗證值看,XGBoost模型能夠準確地擬合數(shù)據(jù),預測精度高,模型泛化能力好。

        對比了整體算法之間的差異,還需對比最優(yōu)特征子集的模型效果構(gòu)建模型。選取3個誤差值相對較小的模型(圖7),兩個模型基于最優(yōu)特征子集構(gòu)建的模型分別是基于樹模型特征選擇和隨機森林填充的XGBoost模型XGB_tree_rf和基于樹模型特征選擇和均值填充的神經(jīng)網(wǎng)絡模型ANN_tree_mean。

        圖7 最優(yōu)特征子集模型預測結(jié)果

        XGBoost和神經(jīng)網(wǎng)絡的預測結(jié)果如表5所示,在小數(shù)據(jù)、高緯度和數(shù)據(jù)缺失數(shù)據(jù)集上,XGBoost模型在訓練集和測試集上的誤差均小于10%,構(gòu)建的XGBoost模型交叉驗證誤差小,說明模型的預測能力和泛化能力都達到實際工程中造價指數(shù)預測模型的標準。

        表5 算法的最優(yōu)模型的模型性能對比

        3 結(jié)論

        通過數(shù)據(jù)填充和特征篩選得到多個數(shù)據(jù)集,以此為基礎(chǔ)構(gòu)建基于不同算法的預測模型,對比不同模型之間誤差和模型穩(wěn)定性,選擇最優(yōu)特征子集。基于參數(shù)優(yōu)化后的樹模型特征篩選和均值填充的XGBoost模型,測試集上的相對誤差為7.30%,訓練集相對誤差為0.80%,交叉驗證誤差為46.73。因此,XGBoost作為預測造價指數(shù)的模型,數(shù)據(jù)擬合效果好,誤差小,模型穩(wěn)定,適合作為實際工程中造價指數(shù)預測模型。

        猜你喜歡
        子集神經(jīng)網(wǎng)絡誤差
        由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
        拓撲空間中緊致子集的性質(zhì)研究
        角接觸球軸承接觸角誤差控制
        哈爾濱軸承(2020年2期)2020-11-06 09:22:26
        Beidou, le système de navigation par satellite compatible et interopérable
        關(guān)于奇數(shù)階二元子集的分離序列
        神經(jīng)網(wǎng)絡抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        壓力容器制造誤差探究
        基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        九十億分之一的“生死”誤差
        山東青年(2016年2期)2016-02-28 14:25:41
        復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
        隔壁的日本人妻bd高清中字 | 亚洲av福利天堂在线观看| 人妻体体内射精一区中文字幕| 亚洲国产精品一区二区| 少妇人妻精品久久888| 国产青青草在线观看视频| 免费国产黄网站在线观看视频| 亚洲av永久无码精品国产精品| 中文字幕亚洲无线码高清| 亚洲国产综合精品一区| 亚洲av综合色区无码专区桃色| 丰满人妻一区二区三区视频53| 无码人妻黑人中文字幕| 免费国产一级特黄aa大片在线 | 亚洲香蕉视频| 日本免费一区精品推荐| 文字幕精品一区二区三区老狼| 久久久久人妻精品一区蜜桃| 日日摸日日碰人妻无码老牲| 亚洲国产一区二区精品| 亚洲综合国产成人丁香五月激情| 日本免费一区二区三区| 成人午夜视频一区二区无码| 啪啪视频免费看一区二区| 日韩在线精品视频一区| 日韩精品无码中文字幕电影| 久久婷婷国产剧情内射白浆| 4hu44四虎www在线影院麻豆| 亚洲第一页在线免费观看| 久久亚洲av成人无码国产最大| 67194熟妇在线永久免费观看| 日本高清不在线一区二区色| 亚洲一区二区三区久久久| 国产精品黑丝美女啪啪啪| 国产69精品久久久久999小说| 国产日本在线视频| 久久91精品国产一区二区| 色噜噜久久综合伊人一本| 亚洲美女影院| 久久国产高潮流白浆免费观看| 国产区女主播一区在线|