亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        預(yù)測(cè)造紙廢水出水指標(biāo)的隨機(jī)森林建模方法

        2019-09-11 06:49:34劉鴻斌
        中國(guó)造紙 2019年8期
        關(guān)鍵詞:決策樹(shù)建模變量

        辛 辰 劉鴻斌,2,*

        (1.南京林業(yè)大學(xué)林業(yè)資源高效加工利用協(xié)同創(chuàng)新中心,江蘇南京,210037;2.華南理工大學(xué)制漿造紙工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,廣東廣州,510640)

        在造紙廢水處理工藝中,往往需要根據(jù)出水指標(biāo)來(lái)及時(shí)調(diào)整工藝條件,達(dá)到對(duì)污水的安全排放。然而考慮到造紙廢水處理過(guò)程中大多包含具有時(shí)變性與復(fù)雜性的化學(xué)過(guò)程,傳統(tǒng)化學(xué)成分檢測(cè)儀表存在價(jià)格高昂、維護(hù)成本高以及檢測(cè)不靈敏等缺點(diǎn)。近年來(lái),基于數(shù)據(jù)驅(qū)動(dòng)的軟測(cè)量建模方法可通過(guò)建立輸入與輸出數(shù)據(jù)的關(guān)系來(lái)完成易測(cè)變量對(duì)難測(cè)變量的預(yù)測(cè)[1],也可以對(duì)造紙廢水處理過(guò)程中出現(xiàn)的故障進(jìn)行檢測(cè)[2],因而得到廣泛的應(yīng)用。

        常見(jiàn)的軟測(cè)量建模方法有人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)、支持向量回歸(Support Vector Regression,SVR)、偏最小二乘法(Partial Least Squares,PLS)[3]。PLS具有克服變量相關(guān)性和噪聲干擾等優(yōu)點(diǎn),因此PLS在工業(yè)生產(chǎn)過(guò)程中應(yīng)用較廣,但該方法屬于線性方法,對(duì)于具備典型非線性特征的造紙廢水處理過(guò)程,其預(yù)測(cè)精度明顯下降?;诖?,楊浩等人[4]在PLS的基礎(chǔ)上研究改進(jìn)得到了遞歸偏最小二乘法(RPLS),有效地提高了模型的預(yù)測(cè)精度。ANN模型的工作方式類似于人腦神經(jīng)元處理信息的方式[5],Zeng等人[6]提出將ANN預(yù)測(cè)模型應(yīng)用于造紙廢水處理過(guò)程。李曉東等人[7]利用ANN模型對(duì)城市廢水排放量進(jìn)行了預(yù)測(cè)研究。雖然ANN對(duì)于預(yù)測(cè)過(guò)程中的非線性特征具備較強(qiáng)的解釋能力,但該方法也存在一定的缺點(diǎn)。如為了得到最好的網(wǎng)絡(luò)結(jié)構(gòu),需要通過(guò)大量的排列組合去尋優(yōu);網(wǎng)絡(luò)權(quán)值在線調(diào)整比較困難,可能出現(xiàn)訓(xùn)練過(guò)早結(jié)束,權(quán)值衰退現(xiàn)象[8];此外,模型的過(guò)擬合問(wèn)題也難以避免[9]。相比ANN模型,SVR模型在輸入數(shù)據(jù)中有選擇的尋找有限向量,比ANN對(duì)全體樣本迭代計(jì)算速度快[10]。汪瑤等人[11]通過(guò)粒子群優(yōu)化算法對(duì)SVR模型進(jìn)行參數(shù)優(yōu)化,優(yōu)化后的模型相比ANN模型預(yù)測(cè)精度顯著提高。張世峰等人[12]以溶解氧為控制對(duì)象,提出一種支持向量機(jī)(SVM)與PID結(jié)合的復(fù)合控制系統(tǒng)。支持向量機(jī)模型除了可以用于預(yù)測(cè)真實(shí)數(shù)據(jù)外,還可以在已知故障分類下預(yù)測(cè)數(shù)據(jù)的故障類型[13]。但當(dāng)樣本離散程度較高且樣本數(shù)過(guò)少時(shí),模型難以有效還原總體的全部信息,預(yù)測(cè)精度不高[14]。

        隨機(jī)森林(Random Forest,RF)模型是由Leo Breiman與Adele Cutler在2001年提出的一種統(tǒng)計(jì)學(xué)習(xí)模型[15],是一種結(jié)合Bagging和隨機(jī)選擇特征的高效新型的組合方法,廣泛用于樣本數(shù)據(jù)的分類和回歸預(yù)測(cè)。相比于上述機(jī)器學(xué)習(xí)模型,RF模型泛化能力更強(qiáng),在不結(jié)合其他優(yōu)化方法的前提下仍有較高的預(yù)測(cè)精度,且建模過(guò)程中需要調(diào)整的參數(shù)較少。RF模型在金融學(xué)、生物學(xué)、醫(yī)學(xué)、電力通信領(lǐng)域中有著廣泛的應(yīng)用[16-18],但在廢水出水指標(biāo)預(yù)測(cè)方面并未得到應(yīng)用。因此,本課題應(yīng)用RF模型對(duì)出水化學(xué)需氧量(COD)與出水固形物含量(SS)進(jìn)行預(yù)測(cè)并分析預(yù)測(cè)效果,同時(shí)對(duì)比了ANN、SVR、PLS方法的預(yù)測(cè)效果。

        1 RF模型建模原理和評(píng)價(jià)指標(biāo)

        1.1 建模原理

        RF模型由K棵決策樹(shù){h=(X,θK),K=1,2,…,k}組成,其中{θK,K=1,2,…,k}是一個(gè)隨機(jī)變量序列。當(dāng)模型用于分類時(shí),RF模型中的決策樹(shù)使用分類樹(shù)(一般使用C4.5),最終通過(guò)少數(shù)服從多數(shù)的原則決定分類結(jié)果,當(dāng)模型用于回歸預(yù)測(cè)時(shí),決策樹(shù)使用回歸樹(shù)(一般用CART),最終將所有決策樹(shù)輸出值的平均值作為預(yù)測(cè)結(jié)果[15]。RF模型最大的優(yōu)勢(shì)便是其多樣性,依照集成學(xué)理論來(lái)說(shuō),基學(xué)習(xí)器的多樣性越強(qiáng),其泛化能力就越好。RF模型的隨機(jī)思想主要體現(xiàn)在以下兩方面。

        (1)Bagging思想[15]

        在原始訓(xùn)練集中,利用Bootstrap抽樣方法有放回地抽取若干個(gè)大小相同的數(shù)據(jù)集樣本。原始訓(xùn)練集中每個(gè)樣本未被抽到的概率為(1-1/N)N,所以當(dāng)N足夠大時(shí),(1-1/N)N將收斂于1/e≈0.368。這部分占比接近37%的數(shù)據(jù)即為袋外數(shù)據(jù),使用這些袋外數(shù)據(jù)可以對(duì)已有模型進(jìn)行檢驗(yàn)。于是,每棵決策樹(shù)對(duì)應(yīng)一個(gè)誤差率,即OOB(out-of-bag)誤差率,根據(jù)誤差率可進(jìn)一步優(yōu)化模型。

        (2)隨機(jī)特征思想[19]

        為保證RF模型的隨機(jī)性最大化,每棵樹(shù)在節(jié)點(diǎn)分裂的過(guò)程中,都會(huì)從所有特征中選出最優(yōu)特征作為參考指標(biāo)。對(duì)于RF模型而言,如果選擇過(guò)少的特征,則會(huì)導(dǎo)致模型的精度降低。如果選擇的特征過(guò)多,則會(huì)弱化模型在分裂節(jié)點(diǎn)處的隨機(jī)性[20]。本課題采用基尼指數(shù)(Gini)[21]作為選擇依據(jù)選出最佳特征數(shù)。

        1.2 RF模型的建模步驟

        (1)在原始訓(xùn)練集S中,通過(guò)Bootstrap重抽樣的方法取出n個(gè)數(shù)據(jù)集樣本,然后將每個(gè)數(shù)據(jù)集樣本分為抽中樣本即袋內(nèi)數(shù)據(jù)(in-bag)和未被抽中樣本即袋外數(shù)據(jù)(out-of-bag)。

        (2)從樣本的所有屬性中隨機(jī)抽取m個(gè)屬性,根據(jù)Gini指標(biāo)進(jìn)行節(jié)點(diǎn)分裂,用袋內(nèi)數(shù)據(jù)訓(xùn)練構(gòu)建CART樹(shù)。在構(gòu)建的過(guò)程中不進(jìn)行修剪,使得每一棵CART樹(shù)充分地生長(zhǎng)。

        (3)用未參與建模的袋外數(shù)據(jù)去檢驗(yàn)對(duì)應(yīng)的CART樹(shù),通過(guò)袋外數(shù)據(jù)的預(yù)測(cè)誤差確定最佳決策樹(shù)數(shù)量。

        (4)利用建好的模型去預(yù)測(cè)測(cè)試集中的新數(shù)據(jù),將所有CART樹(shù)的預(yù)測(cè)結(jié)果平均值作為最終的預(yù)測(cè)結(jié)果。

        RF模型建模流程圖如圖1所示。

        1.3 預(yù)測(cè)模型的性能評(píng)價(jià)指標(biāo)

        實(shí)驗(yàn)引入相關(guān)系數(shù)(r)、平均絕對(duì)百分比誤差(MAPE)與均方根誤差(RMSE)作為模型評(píng)價(jià)指標(biāo),通過(guò)對(duì)比其他預(yù)測(cè)模型,發(fā)現(xiàn)RF模型在預(yù)測(cè)性能方面有明顯優(yōu)勢(shì)。其中r越大,MAPE與RMSE越小,表明模型的預(yù)測(cè)效果越好,對(duì)應(yīng)的計(jì)算公式如公式(1)所示。

        圖1 隨機(jī)森林建模流程

        式中,yt為測(cè)量值,為模型預(yù)測(cè)值分別為yt與的平均值。

        2 實(shí)驗(yàn)過(guò)程與結(jié)果

        2.1 造紙廢水?dāng)?shù)據(jù)分析

        實(shí)驗(yàn)通過(guò)利用如圖2所示的某造紙廢水處理廠的170組樣本數(shù)據(jù)進(jìn)行研究,每組數(shù)據(jù)包括8個(gè)變量,分別為:廢水總流量Q、進(jìn)水懸浮固形物含量SSin、溫度T、進(jìn)水化學(xué)需氧量CODin、pH值、溶解氧含量DO、出水化學(xué)需氧量CODeff、出水懸浮固形物含量SSeff。將CODeff、SSeff作為預(yù)測(cè)模型的輸出變量,Q、SSin、CODin、pH值、T、DO作為輸入變量。按照時(shí)間先后的順序,將前120組數(shù)據(jù)作為訓(xùn)練集樣本,后50組數(shù)據(jù)作為測(cè)試樣本,建立RF回歸模型,確立預(yù)測(cè)變量與其影響變量之間的非線性關(guān)系。

        圖2 造紙廢水處理過(guò)程數(shù)據(jù)

        2.2 RF模型及其對(duì)比模型的建立

        2.2.1 RF模型的建立

        建模的主要函數(shù)為R語(yǔ)言中randomForest包中的randomForest函數(shù)。該函數(shù)中需要尋優(yōu)的主要參數(shù)有2個(gè),分別為決策樹(shù)的棵數(shù)n_tree與樹(shù)節(jié)點(diǎn)的變量個(gè)數(shù)m_try,其默認(rèn)參數(shù)分別為n_tree=500,m_try=M/3(M為變量總個(gè)數(shù))。參數(shù)的可調(diào)范圍分別為n_tree∈[1,500],m_try∈[1,M]??紤]到較少的決策樹(shù)使得模型效果無(wú)法完全發(fā)揮,模型錯(cuò)誤率偏高,而較多的決策樹(shù)則會(huì)提升模型復(fù)雜程度,使得模型訓(xùn)練與預(yù)測(cè)速度下降,并有可能出現(xiàn)輕微的過(guò)擬合現(xiàn)象。本課題通過(guò)調(diào)用R語(yǔ)言自帶函數(shù)plot對(duì)模型錯(cuò)誤率與決策樹(shù)數(shù)量的關(guān)系可視化處理如圖3所示。由圖3可知,RF模型中樹(shù)的棵數(shù)n_tree取200時(shí),OOB(out-of-bag)誤差波動(dòng)已經(jīng)趨于穩(wěn)定,即實(shí)驗(yàn)可以選用n_tree=200。選出最優(yōu)決策樹(shù)棵數(shù)后繼續(xù)做了補(bǔ)充驗(yàn)證實(shí)驗(yàn),即不斷增加決策樹(shù)的棵數(shù)到500棵并觀察模型預(yù)測(cè)效果。結(jié)果表明,模型預(yù)測(cè)效果變化不明顯甚至有輕微下降的趨勢(shì),證明了決策樹(shù)最優(yōu)棵數(shù)為200。樹(shù)節(jié)點(diǎn)預(yù)選的變量數(shù)m_try根據(jù)基尼指數(shù)選取最優(yōu)值,基尼指數(shù)越大表明樣本屬于某類的不確定性就越大。因?yàn)楸敬螌?shí)驗(yàn)數(shù)據(jù)的變量個(gè)數(shù)較少,所以依次計(jì)算了不同變量數(shù)對(duì)應(yīng)的基尼指數(shù),基尼指數(shù)最小時(shí)對(duì)應(yīng)的節(jié)點(diǎn)變量數(shù)為m_try=4。為了進(jìn)一步驗(yàn)證所選的節(jié)點(diǎn)變量數(shù)為最優(yōu)變量數(shù),后續(xù)補(bǔ)充實(shí)驗(yàn)分別用m_try=1、m_try=2、m_try=3、m_try=5、m_try=6進(jìn)行建模,觀察模型最后的預(yù)測(cè)效果即相關(guān)系數(shù)(r)、平均絕對(duì)百分比誤差(MAPE)與均方根誤差(RMSE)等指標(biāo),結(jié)果同樣表明當(dāng)m_try=4時(shí),預(yù)測(cè)效果最好。

        圖3 模型錯(cuò)誤率與決策樹(shù)數(shù)量關(guān)系圖

        2.2.2 對(duì)比模型的建立

        建立3種對(duì)比模型前先需要將數(shù)據(jù)標(biāo)準(zhǔn)化處理,之后用前120組數(shù)據(jù)進(jìn)行建模,后50組數(shù)據(jù)用來(lái)檢驗(yàn)預(yù)測(cè)效果。SVR模型所利用的主要程序包為R語(yǔ)言中的rminer包,其中模型參數(shù)選用SVM。ANN模型建模所利用的程序包主要為AMORE包。通過(guò)大量的實(shí)驗(yàn)選出構(gòu)建模型的最佳參數(shù)為:模型的網(wǎng)絡(luò)總層數(shù)為3層,包含1個(gè)輸入層、1個(gè)隱含層和1個(gè)輸出層,其中輸入層節(jié)點(diǎn)數(shù)為6,隱含層節(jié)點(diǎn)數(shù)為2,輸出層節(jié)點(diǎn)數(shù)為1,隱含層采用tansig激活函數(shù),輸出層采用purelin激活函數(shù)。根據(jù)赤池信息量準(zhǔn)則,PLS模型最終選擇了3個(gè)與預(yù)測(cè)變量相關(guān)度最大的自變量作為輸入變量,分別為CODin、SSin、DO。

        2.3 結(jié)果與討論

        經(jīng)過(guò)模型的建立及后續(xù)的優(yōu)化后,表1列出了RF模型與其他3種模型的預(yù)測(cè)結(jié)果。對(duì)測(cè)試集CODeff的預(yù)測(cè)效果進(jìn)行比較,相關(guān)性方面,RF模型對(duì)應(yīng)的r為 0.7954,ANN、SVR、PLS,對(duì)應(yīng)的r分別為0.6936、0.7183、0.7305;誤差方面,RF模型對(duì)應(yīng)的RMSE與MAPE最小,分別為4.2471和5.2606,相比于ANN、SVR、PLS,其RMSE與MAPE分別降低了19.18%和7.55%、19.20%和15.75%、12.06%和7.67%。對(duì)測(cè)試集SSeff的預(yù)測(cè)效果進(jìn)行比較,相關(guān)性方面,RF模型對(duì)應(yīng)的r為0.8551,ANN、SVR、PLS對(duì)應(yīng)的r分別為0.6538、0.6882、0.7408;誤差方面,RF模型對(duì)應(yīng)的RMSE與MAPE最小,分別為0.6687和 2.0633,相比于 ANN、SVR、PLS,其RMSE與MAPE分別降低了20.69%和26.21%、17.03%和29.83%、17.35%和28.60%。

        表1 不同模型對(duì)CODeff和出水SSeff的預(yù)測(cè)結(jié)果

        總體而言,RF模型在預(yù)測(cè)精準(zhǔn)度方面都優(yōu)于其他3種常用的回歸預(yù)測(cè)模型,圖4為RF模型對(duì)CODeff和SSeff的預(yù)測(cè)效果圖。

        RF模型比其他3種模型預(yù)測(cè)效果好的主要原因在于RF模型的泛化能力更強(qiáng),實(shí)驗(yàn)中所用到的RF模型包含200棵決策樹(shù),而每棵決策樹(shù)的生長(zhǎng)只利用了訓(xùn)練集中的一部分樣本,同時(shí)只抽取樣本屬性中的部分屬性。采用該方法極大地提高了決策樹(shù)的多樣性,弱化了各棵決策樹(shù)的相關(guān)性。同時(shí),RF模型需要調(diào)整的主要參數(shù)只有2個(gè),即決策樹(shù)的棵數(shù)與樹(shù)節(jié)點(diǎn)預(yù)選的變量個(gè)數(shù),且易于尋找最優(yōu)參數(shù)。

        圖4 RF模型對(duì)SSeff和CODeff的預(yù)測(cè)結(jié)果

        相比之下,雖然ANN模型具有較強(qiáng)的非線性擬合能力,但在構(gòu)建模型的過(guò)程中,所要考慮的參數(shù)種類過(guò)多,在初始值、動(dòng)量因子、網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點(diǎn)個(gè)數(shù)等參數(shù)方面沒(méi)有統(tǒng)一規(guī)范的尋優(yōu)方法,嘗試通過(guò)原理推導(dǎo)或?qū)嶒?yàn)結(jié)果比較進(jìn)行尋找最優(yōu)參數(shù)是一件耗時(shí)費(fèi)力的工作,往往會(huì)出現(xiàn)訓(xùn)練集預(yù)測(cè)效果較好,但測(cè)試集預(yù)測(cè)效果時(shí)好時(shí)壞的情況,容易出現(xiàn)過(guò)擬合現(xiàn)象,模型的泛化能力一般。SVR雖然相比于ANN過(guò)擬合現(xiàn)象得到了弱化,但根據(jù)實(shí)驗(yàn)預(yù)測(cè)效果來(lái)看并不是很理想,想要進(jìn)一步提升預(yù)測(cè)效果還需要在原始模型上增添優(yōu)化函數(shù)。PLS模型預(yù)測(cè)效果雖然比ANN模型與SVR模型好,但其線性模型的本質(zhì)限制了它進(jìn)一步優(yōu)化的空間,且實(shí)驗(yàn)結(jié)果證明PLS模型只適合選擇3個(gè)自變量作為輸入變量,并不能充分地利用收集到的數(shù)據(jù)所蘊(yùn)含的信息。

        ANN、SVR、PLS在進(jìn)行預(yù)測(cè)前,也都需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,實(shí)驗(yàn)中統(tǒng)一用z-score方法標(biāo)準(zhǔn)化,目的就是為了在建模過(guò)程中讓不同的自變量具有相同的尺度,對(duì)因變量的影響程度基本相同。RF模型與上述3種方法相比省去了這一步驟,因?yàn)槊靠脹Q策樹(shù)的生成過(guò)程都是依次用到部分自變量,所以不同尺度的自變量之間互不影響。

        3 結(jié)論

        本課題分別采用隨機(jī)森林(RF)模型、偏最小二乘(PLS)模型、支持向量回歸(SVR)模型與人工神經(jīng)網(wǎng)絡(luò)(ANN)模型對(duì)造紙廢水中的CODeff與SSeff指標(biāo)進(jìn)行了回歸預(yù)測(cè)。

        3.1 通過(guò)與其他3種模型的預(yù)測(cè)結(jié)果比較得出:基于隨機(jī)森林回歸模型的預(yù)測(cè)效果最好,預(yù)測(cè)值與真實(shí)值之間不僅相關(guān)性更高,且誤差更小,泛化能力更強(qiáng)。

        3.2 隨機(jī)森林回歸模型相比其他3種模型,數(shù)據(jù)無(wú)需標(biāo)準(zhǔn)化處理,尋找最優(yōu)參數(shù)時(shí)所要調(diào)整的參數(shù)較少且容易尋優(yōu),易于進(jìn)一步的推廣。

        猜你喜歡
        決策樹(shù)建模變量
        抓住不變量解題
        聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
        也談分離變量
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        不對(duì)稱半橋變換器的建模與仿真
        基于決策樹(shù)的出租車乘客出行目的識(shí)別
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        日本一卡二卡3卡四卡免费观影2022| a级毛片无码免费真人| 亚洲av成人无码精品电影在线| 久久精品噜噜噜成人| 男女啪啪无遮挡免费网站| 日产精品久久久久久久性色| 国产肉体ⅹxxx137大胆| 亚洲妓女综合网99| 激情人妻网址| 久久2020精品免费网站| 国产一区二区三区不卡视频| 日本精品久久不卡一区二区| 亚洲sm另类一区二区三区| 校园春色综合久久精品中文字幕| 日本xxxx色视频在线观看 | 国内熟女啪啪自拍| 日本黑人亚洲一区二区 | 亚洲福利视频一区二区三区| 亚洲日产乱码在线中文字幕| 午夜福利视频一区二区二区| 中文字幕日韩人妻少妇毛片 | 人妻中出精品久久久一区二| 人妻无码AⅤ不卡中文字幕| 亚洲成Av人片不卡无码观看| 亚洲一二三四五区中文字幕 | 国模无码一区二区三区不卡| 国产真实伦在线观看| 伊人色综合视频一区二区三区 | 国产精品久久久久9999| 十八禁在线观看视频播放免费 | 天堂网www在线资源| 窄裙美女教师在线观看视频| 色偷偷av一区二区三区人妖| 久久免费看视频少妇高潮| 黄色精品一区二区三区| 国产一区二区三区av天堂| 国产精品日本一区二区在线播放| 中国老熟女重囗味hdxx| 99久久国产福利自产拍| 九九精品无码专区免费| 成人无码激情视频在线观看|