劉海軍,劉韻鋒,陳 僑,劉小玲,郭柏帆,趙文鋒(通訊作者)
(華南農(nóng)業(yè)大學(xué)電子工程學(xué)院<華南農(nóng)業(yè)大學(xué)人工智能學(xué)院> 廣東 廣州 510642)
水污染處理是當(dāng)今全球性問題,由于水體污染物中包含重金屬、有毒有害易長期積累的有機物、放射性污染物等,對用水安全產(chǎn)生了極大地威脅。1972年以來,研究人員開展了大量光催化降解污染物的實驗,由于化學(xué)反應(yīng)的發(fā)生與結(jié)果往往取決于反應(yīng)物與實驗環(huán)境,具有高度的不確定性,需要反復(fù)地實驗,不斷地試錯以獲取期望的結(jié)果,顯然這種方法在資源消耗與取得成果上不具備優(yōu)勢。
隨著數(shù)據(jù)科學(xué)的興起,各種機器學(xué)習(xí)模型也被用到化學(xué)反應(yīng)的預(yù)測工作。在多種機器學(xué)習(xí)模型中,人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)對水污染處理效果的預(yù)測模型受到越來越多研究人員的關(guān)注。張浩等[1]為獲取高效的甲醛氣體去除率,運用正交實驗設(shè)計結(jié)合反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)優(yōu)化TiO2的改性方案,并通過該模型進行預(yù)測和優(yōu)選,得到了最佳的活性炭改性方案。袁軍座等[2]以BP神經(jīng)網(wǎng)絡(luò)作為模型的主體結(jié)構(gòu),指數(shù)平滑法作為預(yù)測模型的輸入,利用網(wǎng)絡(luò)自學(xué)習(xí)獲取模型輸入權(quán)重,建立Cu-Ce/TiO2光催化性能組合預(yù)測模型。
但是,傳統(tǒng)ANN算法是基于漸近理論,模型的準確預(yù)測建立在大量數(shù)據(jù)支撐的基礎(chǔ)上,同時容易陷入局部最值,以及對樣本的依賴性和初始權(quán)重的敏感度較高等因素,使得模型的處理精度和速度達不到預(yù)期。進而有研究人員開始利用集成學(xué)習(xí)(Ensemble Learning)方法去搭建預(yù)測模型。鄭偉達等[3]建立隨機森林、嶺回歸、基于徑向基核函數(shù)和線性核函數(shù)的支持向量回歸等4種機器學(xué)習(xí)算法的預(yù)測模型,對鈣鈦礦材料數(shù)據(jù)集中的密度、形成能、帶隙、晶體體積等4種性能參數(shù)進行預(yù)測。SUUO J等[4]利用隨機森林算法實現(xiàn)了不對稱催化氫化反應(yīng)對映選擇性的預(yù)測。
在本項工作中,我們提出基于隨機森林(Random Forest,RF)與貝葉斯優(yōu)化的高精度預(yù)測模型,闡述了模型的基本原理及實現(xiàn)過程,并與ANN搭建的模型進行對比分析,驗證了該模型的可行性和可靠性。
數(shù)據(jù)集包含408個數(shù)據(jù)點,來自于公開發(fā)表的論文報告[5-7]。每個數(shù)據(jù)點包含6個輸入變量,分別是有機污染物類型(OC)、污染物初始濃度(Co)、紫外光強度(I,mWcm-2)、實驗溫度(T,℃)、TiO2用量(D,gL-1)和溶液初始pH(pH),輸出為光降解速率常數(shù)(k,min-1),將其轉(zhuǎn)換為以10為底的對數(shù)-log(k),以便更好地可視化小數(shù)據(jù)。
除了有機污染物類型外,其他5個變量和1個響應(yīng)都是數(shù)值數(shù)據(jù),對于計算機語言來說是直接可讀的。為了使污染物類型對于模型可讀,需要使用分子指紋將它們轉(zhuǎn)換成一個二元矢量,如(000101…0)。分子指紋將化合物的化學(xué)結(jié)構(gòu)特征編碼成只含有0和1的二元載體,0表示化合物中沒有一定的化學(xué)結(jié)構(gòu),而1表示其存在,可以作為機器學(xué)習(xí)模型的輸入,能夠直接鏈接到化學(xué)特征。向量的長度是可調(diào)的,長度越長,就會存儲越多的結(jié)構(gòu)特征,因此不同化合物的特征重疊的可能性就越小。這對模型的可靠性有很大的影響,可通過后續(xù)的研究內(nèi)容進行確定。
在本工作中,我們將數(shù)據(jù)集按照4:1的比例隨機劃分為訓(xùn)練集和測試集,其中訓(xùn)練集樣本326份,測試集樣本82份。利用均方根誤差(RMSE,公式1)和決定系數(shù)(R2,公式2)來評估所開發(fā)模型的性能。RMSE是殘差的標準偏差,即預(yù)測值與真實值的誤差,其值越低越好。當(dāng)決定系數(shù)(R2)應(yīng)用于測試集時,其值等于外部解釋的方差,可用于判斷模型的好壞。一般來說,RMSE越低,R2值越高,說明模型擬合效果越好。
2.2.1 人工神經(jīng)網(wǎng)絡(luò)模型(Artificial Neural Network)
ANN是由大量神經(jīng)元互相連接而形成的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),以類似于人類神經(jīng)系統(tǒng)的方式學(xué)習(xí)輸入到神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù),是一種具有分布式并行信息處理的特征抽象數(shù)學(xué)模型[8]。
典型的神經(jīng)網(wǎng)絡(luò)由幾到數(shù)百萬個神經(jīng)元組成,他們排列在一系列的層中。輸入層用于接收外部的數(shù)據(jù),輸入層的神經(jīng)元數(shù)目正好是我們輸入變量的數(shù)目,例如本工作中的CO、I、T、D、Co、pH。最后一層為輸出層,輸出層的神經(jīng)元數(shù)目等于響應(yīng)的數(shù)目,例如本工作中的-logk。在輸入層和輸出層之間,存在著一系列的隱藏層,通過激活函數(shù)連接從輸入到輸出層的信息,層與層之間的任意兩個神經(jīng)元都通過權(quán)重連接起來,這些權(quán)重表示這兩個神經(jīng)元之間信息的強度。
過擬合是調(diào)試ANN經(jīng)常遇到的問題,其外部表現(xiàn)為模型在訓(xùn)練集的準確率很高而在測試集的準確率很低,內(nèi)部表現(xiàn)為模型泛化能力差,參數(shù)過多擬合某一個或多個方向。在本項工作中,我們使用Dropout方法防止過擬合,Dropout是一種在正向訓(xùn)練階段隨機讓某一個神經(jīng)元暫時退出或者丟棄,從而降低模型的復(fù)雜度,防止訓(xùn)練數(shù)據(jù)的過匹配的方法,這可能會導(dǎo)致訓(xùn)練時間上升,但能夠抑制過擬合的可能性,提高神經(jīng)網(wǎng)絡(luò)模型泛化力。
一般認為,ANN模型的質(zhì)量極大地取決于它的超參數(shù)。因此,要獲得一個可靠的ANN模型,就必須對網(wǎng)絡(luò)的超參數(shù)進行優(yōu)化,找到最佳參數(shù),這將在后面的研究內(nèi)容中提到。
2.2.2 隨機森林模型(Random Forest)
隨機森林是一種基于分類樹的高效集成學(xué)習(xí)算法,它通過隨機選擇訓(xùn)練樣本和特征的子集來構(gòu)建眾多獨立的決策樹,然后收集這些決策樹的結(jié)果。對于新的輸入進行預(yù)測,需要遍歷每顆決策樹,將每棵樹的結(jié)果取平均作為最終結(jié)果,這使得模型具有更穩(wěn)定的預(yù)測能力。
該算法的優(yōu)點體現(xiàn)在學(xué)習(xí)過程較快,對于大規(guī)模數(shù)據(jù)集,是一種高效的處理算法,且對數(shù)據(jù)集中的噪聲有較強的魯棒性。與傳統(tǒng)的機器學(xué)習(xí)方法相比,RF不需要顧慮一般回歸分析面臨的多元共線性的問題,便于非線性數(shù)據(jù)處理,算法具有預(yù)測精度高、收斂速度快、調(diào)節(jié)參數(shù)少以及能有效避免“過擬合”風(fēng)險等優(yōu)點,適用于超高維特征向量空間,因此在眾多領(lǐng)域中得到了廣泛應(yīng)用。
RF的參數(shù)中,n_estimators為決策樹的數(shù)目,太少容易欠擬合,通常決策樹的數(shù)目越多,算法效果越好,但是計算時間也會隨之增加,當(dāng)樹的數(shù)量超過一個臨界值,算法的效果并不會顯著變好;max_features為最大特征數(shù),即構(gòu)建決策樹最優(yōu)模型時考慮的最大特征數(shù),是分割節(jié)點時考慮特征隨機子集的大小,這個值越低,方差減小得越多,但是偏差的增大也越多;min_samples_split為節(jié)點可分的最小樣本數(shù);max_depth為決策樹最大深度。同樣地,我們需要對RF的參數(shù)進行調(diào)優(yōu),以便獲得最佳參數(shù),這將在后面的研究內(nèi)容中提到。
2.2.3 貝葉斯優(yōu)化
針對機器學(xué)習(xí)超參數(shù)進行優(yōu)化的算法有很多,常用的有網(wǎng)格搜索、隨機搜索和貝葉斯優(yōu)化。相比于網(wǎng)格搜索和隨機搜索,貝葉斯優(yōu)化能夠以更少的迭代次數(shù)獲得更優(yōu)的結(jié)果,快速而準確地尋找超參數(shù)的最優(yōu)解,因此在參數(shù)組合尋優(yōu)問題上被廣泛應(yīng)用。
使用貝葉斯方法優(yōu)化ANN的超參數(shù),所使用的激活函數(shù)是ReLU,優(yōu)化器是Adam,每個batch大小為64,周期為500,通過5倍交叉驗證的方法對ANN模型進行訓(xùn)練,該方法將數(shù)據(jù)隨機分成5個近似大小相等的子組。每次保留一個數(shù)據(jù)組用于驗證,其他4個數(shù)據(jù)組用于訓(xùn)練,這個過程重復(fù)5次,計算結(jié)果可以使用每次的模型評估分數(shù)取平均,用RMSE和R2對ANN模型的性能進行評估。
同樣地,使用貝葉斯優(yōu)化RF的超參數(shù),通過5倍交叉驗證方法對RF模型進行訓(xùn)練,用RMSE和R2對RF模型的性能進行評估。
采用貝葉斯優(yōu)化方法對ANN模型參數(shù)進行優(yōu)化,在本項工作中,ANN模型參數(shù)包括隱藏層的數(shù)量、每個神經(jīng)元的數(shù)量、Dropout率以及分子指紋的半徑和長度。
隨著貝葉斯迭代的進行,RMSE就會收斂。優(yōu)化后的對應(yīng)模型參數(shù)如下,網(wǎng)絡(luò)層數(shù)為8層,其中隱藏層7層,輸出層1層,每個隱藏層中的神經(jīng)元數(shù)為512,Dropout率為0.2,分子半徑為1.0,分子指紋長度為128,使用貝葉斯優(yōu)化后的參數(shù)作為ANN模型的初始超參數(shù)進行訓(xùn)練。此外,我們還使用測試集對模型的性能進行評估,結(jié)果為:RMSE為0.21,R2為0.86,預(yù)測值和真實值的對比折線圖和散點圖見圖1。
圖1 ANN的預(yù)測值和真實值對比圖
采用貝葉斯優(yōu)化方法進行了RF模型參數(shù)的優(yōu)化,模型參數(shù)如下:決策樹數(shù)目為387,最大特征數(shù)為0.703,最小樣本數(shù)為2,最大深度為84,分子半徑為1.0,分子指紋長度為128。使用測試集對模型的性能進行評估,結(jié)果為:RMSE為0.16,R2為0.92,預(yù)測值和真實值的對比折線圖和散點圖見圖2。
圖2 RF的預(yù)測值和真實值對比圖
通過對比兩個模型預(yù)測值和真實值對比圖(圖1和圖2),可知RF模型預(yù)測值和真實值的折線圖重疊程度更高,預(yù)測值和真實值的散點更緊密分布于直線的兩側(cè),具有較小的方差和偏差,充分證明了RF模型的準確率更高,可靠性更強,擬合和泛化能力也更強。
ANN模型和RF模型性能指標對比,見表1,使用相同的數(shù)據(jù)集進行訓(xùn)練和測試,結(jié)果表明:RF模型的RMSE更小,R2更高,RF模型性能明顯優(yōu)于ANN模型。
表1 ANN和RF模型性能對比
在本項工作中,我們提出了ANN和RF兩個模型,用于水污染物光降解速率常數(shù)的預(yù)測。模型的輸入特征基本上涵蓋了光催化降解過程的大部分實驗條件,輸出為光降解速率常數(shù)。以均方根誤差(RMSE)和決定系數(shù)(R2)作為模型的評測指標,結(jié)果表明,相比于ANN模型,本工作提出的基于隨機森林和貝葉斯優(yōu)化的光降解速率常數(shù)預(yù)測的建模方法避免了冗余信息和干擾噪聲等因素對模型準確率的不利影響,在具有較高的預(yù)測精度和可靠性的同時,增強了模型的泛化能力和魯棒性。