董曉冬 陳麗紅 林芙 李惠平 黃慧
摘要:利用現(xiàn)有文獻(xiàn)中的碳基材料對(duì)水中四環(huán)素的吸附量的數(shù)據(jù),以機(jī)器學(xué)習(xí)為方法準(zhǔn)確地預(yù)測(cè)了不同碳基材料在不同環(huán)境條件下對(duì)水中四環(huán)素的吸附量。其中梯度提升樹(shù)(CBDT)對(duì)四環(huán)素的吸附量預(yù)測(cè)效果最好(R2>0.99)。比表面積和孔容積是決定碳基材料對(duì)四環(huán)素吸附量的最主要的特征。除pH與pHpzc對(duì)吸附量的貢獻(xiàn)為負(fù)外,其余變量對(duì)吸附量均為正貢獻(xiàn),即特征重要性越明顯時(shí),對(duì)吸附量的提升越有利。整體而言,四環(huán)素在碳基材料上的吸附是一個(gè)物理過(guò)程,受吸附劑的物理特性和環(huán)境因素影響較大,而受碳基材料的化學(xué)特性的影響較小。
關(guān)鍵詞:四環(huán)素吸附;機(jī)器學(xué)習(xí);碳基材料;模型解釋
中圖分類號(hào):X703 文獻(xiàn)標(biāo)志碼:B
前言
長(zhǎng)期暴露在一定濃度的四環(huán)素的刺激下會(huì)對(duì)人體的腎臟、眼球、胃腸道等器官造成傷害。由于四環(huán)素的濫用,天然水體中已有較高濃度的四環(huán)素檢出,因此亟需去除水體中的四環(huán)素。利用碳基吸附劑可以高效地吸附水中四環(huán)素。各類碳基吸附劑被大量開(kāi)發(fā)并應(yīng)用于吸附水體中的四環(huán)素和其他污染物。然而評(píng)價(jià)碳基吸附劑對(duì)水體中四環(huán)素的去除效果則需要大量的實(shí)驗(yàn)投入才能獲得較為準(zhǔn)確的性能概覽。因此,如何能高效快速地預(yù)測(cè)碳基吸附劑對(duì)水中四環(huán)素的吸附效果對(duì)于節(jié)省冗長(zhǎng)枯燥的實(shí)驗(yàn)工作量有著至關(guān)重要的意義。
機(jī)器學(xué)習(xí)在以數(shù)據(jù)為基礎(chǔ)的問(wèn)題領(lǐng)域有著廣泛的應(yīng)用前景。并且機(jī)器學(xué)習(xí)目前在環(huán)境領(lǐng)域中的應(yīng)用也有所開(kāi)展。但以機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)吸附劑對(duì)水中污染物的去除目前仍處在初級(jí)階段。因此,以機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)水中四環(huán)素在碳基吸附劑上的吸附可以有助于更好地理解影響吸附的關(guān)鍵變量,并為設(shè)計(jì)高效吸附劑提供合理指導(dǎo)或者思路。
研究中以現(xiàn)有文獻(xiàn)數(shù)據(jù)為基礎(chǔ),通過(guò)整理現(xiàn)有數(shù)據(jù)作為機(jī)器學(xué)習(xí)的數(shù)據(jù)集進(jìn)行模型訓(xùn)練。并對(duì)訓(xùn)練結(jié)果以及模型的可解釋性進(jìn)行了分析,討論了決定四環(huán)素在碳基材料上的吸附效果的影響因素。
1 數(shù)據(jù)與方法
1.1 數(shù)據(jù)收集
研究所需文獻(xiàn)來(lái)自Web of Science數(shù)據(jù)庫(kù),共計(jì)獲得有效數(shù)據(jù)686條。數(shù)據(jù)集以四環(huán)素的吸附量(mmol/g)為因變量,并以10個(gè)物理化學(xué)特征和環(huán)境因素為自變量。其中物理特征包括比表面積(Surface area,m2/g)、孔容積(Volume,cm3/g)和孔徑(Pore diameter,nm)?;瘜W(xué)特征包括零電荷點(diǎn)(pHpzc)、C的質(zhì)量百分比(C,wt%)和0的質(zhì)量百分比(0,wt%)。環(huán)境因素包括投加量(Dosage,g/L)、初始濃度(C0,mmol/L)、溶液pH(pH)和溶液溫度(T,K)。
1.2 數(shù)據(jù)預(yù)處理與模型選擇
由于不同自變量之問(wèn)的差異較大,如比表面積的范圍為1-2000m2/g,而孔容積的范圍為0.001-2cm3/g,為減小不同量綱對(duì)預(yù)測(cè)帶來(lái)的影響以及節(jié)省算力,對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,即使得原始數(shù)據(jù)符合均值為0方差為1的分布,如式(1)所示:
xnew=(x-μ)/σ 式(1)
式(1)中,xnew和x分別為標(biāo)準(zhǔn)化后的數(shù)據(jù)和原始數(shù)據(jù)。μ為數(shù)據(jù)樣本的均值,σ為數(shù)據(jù)樣本的標(biāo)準(zhǔn)差。
對(duì)于標(biāo)準(zhǔn)化后的數(shù)據(jù)首先進(jìn)行特征間的兩兩相瓦皮爾遜相關(guān)性分析(見(jiàn)式2),當(dāng)皮爾遜相關(guān)系數(shù)的絕對(duì)值趨近于1時(shí),表明兩個(gè)特征之間的線性相關(guān)越強(qiáng)。研究中,若絕對(duì)值大于0.95,則這兩個(gè)特征高度線性相關(guān),應(yīng)予以額外處理,包括數(shù)據(jù)降維或者刪除一個(gè)特征。
式(2)中,rxy是皮爾遜相關(guān)系數(shù),Cov(X,Y)為兩個(gè)特征之間的協(xié)方差矩陣,Var(X)和Var(Y)是X和Y的方差。
對(duì)于數(shù)據(jù)集進(jìn)一步劃分為訓(xùn)練集和測(cè)試集,其中樣本數(shù)量占比為4:1。訓(xùn)練集用于模型訓(xùn)練,測(cè)試集則用于驗(yàn)證模型泛化能力。研究中,共選擇了K近鄰算法(KNN)、支持向量機(jī)(SVM)和梯度提升樹(shù)(CBDT)三種算法來(lái)預(yù)測(cè)。對(duì)于算法中的超參的選擇則利用網(wǎng)格搜索模式尋找最佳超參。
1.3 模型可解釋性
利用Shapley方法可求得每個(gè)具體特征在所有特征組合的集合中的邊際貢獻(xiàn)的加權(quán)平均值,作為該特征對(duì)于整體模型的貢獻(xiàn)程度的解讀,該方法有效地避免了分配的平均主義。Shapley值的計(jì)算如式(3)所示:
其中,g(Z')是解釋模型,f(x)是原機(jī)器學(xué)習(xí)模型,Z'j={0,1}M表示相應(yīng)特征是否被觀察到,M是輸入特征的數(shù)目,φj是每個(gè)特征的歸因值,φ0是解釋模型的常數(shù)。
此外,利用個(gè)體條件期望圖(Individual Condi-tional Expectation Plot,ICE)對(duì)每一個(gè)個(gè)體是如何受到單一特征影響做出解釋。而ICE的平均值則為部分依賴圖(Partial Dependence Plot,PDP)可以從全局的角度解讀單一變量對(duì)輸出結(jié)果的影響。
1.4 模型運(yùn)行與評(píng)價(jià)
研究中所有數(shù)據(jù)預(yù)處理和模型構(gòu)建均在Py-thon3.10上運(yùn)行,并調(diào)用Scikit-Leam、Numpy、Pan-das、Shap、Matplotlib和Seahom包對(duì)數(shù)據(jù)進(jìn)行運(yùn)算以及圖像呈現(xiàn)。決定系數(shù)(R2)和均方根誤差(RMSE)作為評(píng)價(jià)模型預(yù)測(cè)效果的指標(biāo)。R2越接近于1表明模型預(yù)測(cè)效果越好,RMSE的值越小表明模型預(yù)測(cè)效果越好。
其中,y'i是預(yù)測(cè)值,yi為對(duì)應(yīng)真值,yave為樣本平均值。ypredi是預(yù)測(cè)值,yreali為對(duì)應(yīng)真值,N為樣本數(shù)量。
2 結(jié)果與討論
2.1 數(shù)據(jù)分布
碳基材料的孔隙結(jié)構(gòu)較為符合正態(tài)分布,比表面積主要集中在100-500m2/g,孔容積主要集中在0.01-0.5cm3/g,而孔徑主要集中在5nm左右。環(huán)境變量中,初始濃度和pH較為符合正態(tài)分布,而溫度與投加量則出現(xiàn)不規(guī)則分布?;瘜W(xué)因素中,pHpzc類似兩個(gè)正態(tài)分布的疊加,中心值分別在3和7。這主要與碳基材料的制備方式有關(guān),目前的在制備碳基材料時(shí)為了使得表面多孔,通常會(huì)使用強(qiáng)酸強(qiáng)堿來(lái)對(duì)碳基材料進(jìn)行活化,因此pHpzc會(huì)由于活化藥品的不同表面呈現(xiàn)出偏酸性或偏堿性的特點(diǎn),造成零電荷點(diǎn)在3和7這兩個(gè)值附近集中。C和O的分布則表現(xiàn)為不規(guī)則的數(shù)據(jù)分布,說(shuō)明碳基材料表面官能團(tuán)的種類與占比變化大,表面化學(xué)性狀豐富。(見(jiàn)圖1)
皮爾遜相關(guān)系數(shù)矩陣熱圖(如圖2所示),所有特征之間均沒(méi)有表現(xiàn)出會(huì)影響結(jié)果的強(qiáng)相關(guān)性,即絕對(duì)數(shù)值均小于0.95。因此不需要對(duì)特征進(jìn)行刪減或者對(duì)特征進(jìn)行降維處理。僅比表面積和孔容積之間的相關(guān)系數(shù)較大,為0.86,但是仍在可控范圍之內(nèi)。由圖2(b)可知,孔容積與比表面積呈現(xiàn)出一定的n線性正相關(guān),即比表面積越大,孔容積越大。
2.2 模型預(yù)測(cè)效果和模型可解釋性
KNN、SVM和GBDT算法不論是在訓(xùn)練集還是在測(cè)試集對(duì)于四環(huán)素的吸附量均能達(dá)到很好的預(yù)測(cè)效果(如表1所示),說(shuō)明模型的準(zhǔn)確度與泛化性都能夠得到有效的保證。KNN模型是一種精準(zhǔn)度高,對(duì)異常值不敏感的算法,非常適用于數(shù)值型和標(biāo)稱型的回歸。SVM則擅長(zhǎng)于解決高維特征的分類問(wèn)題和回歸問(wèn)題,在特征維度大于樣本數(shù)時(shí)依然有很好的效果。GBDT算法則是一種強(qiáng)力的集成算法,雖然以弱學(xué)習(xí)器為基礎(chǔ)學(xué)習(xí)器,但是通過(guò)梯度提升對(duì)每次迭代的殘差進(jìn)行消除,使得最終的學(xué)習(xí)器成為強(qiáng)學(xué)習(xí)器。再結(jié)合決策樹(shù)的優(yōu)勢(shì),使得GBDT能夠在多數(shù)分類和同歸預(yù)測(cè)中表現(xiàn)出極佳的準(zhǔn)確度??芍狦BDT模型的預(yù)測(cè)精度為最高,因此后續(xù)分析所用的模型以GBDT模型為基準(zhǔn)。如圖3所示直觀地展現(xiàn)了實(shí)際值與測(cè)試值之間的關(guān)系,從中可以看出二者高度線性相關(guān)。此外,訓(xùn)練集與測(cè)試集的分布也表現(xiàn)出相似的分布特點(diǎn),因此,數(shù)據(jù)集劃分合理,模型驗(yàn)證效果有效。
通過(guò)對(duì)比模型中各個(gè)特征Shapley值對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)程度可以發(fā)現(xiàn),比表面積是最主要的特征,且呈現(xiàn)出明顯的正貢獻(xiàn),即比表面積越大,四環(huán)素的吸附量也會(huì)越高??兹莘e是另一個(gè)重要的特征,總體而言也是較為明顯的正貢獻(xiàn),但是有部分樣品表現(xiàn)出負(fù)貢獻(xiàn)。初始濃度的重要性排在第三位,也表現(xiàn)出正貢獻(xiàn)。pH的貢獻(xiàn)度位于第四位,但是其對(duì)吸附量的貢獻(xiàn)表現(xiàn)出負(fù)貢獻(xiàn),即pH越大,吸附量越小。溫度則位于第五位,也是正貢獻(xiàn)為主。其余因素對(duì)于四環(huán)素的吸附貢獻(xiàn)相對(duì)較小。與部分研究結(jié)果有所不同的是,Shapley的結(jié)果表明碳基材料的化學(xué)特征對(duì)于四環(huán)素的吸附貢獻(xiàn)程度非常有限,如圖4所示,pHpzc為第7位,C含量為第9位,0含量為第10位。這說(shuō)明四環(huán)素在碳基材料上的吸附并非是一個(gè)化學(xué)作用力主導(dǎo)的過(guò)程。同時(shí)也解釋了大多數(shù)碳基材料對(duì)四環(huán)素的吸附都會(huì)包含大量的物理吸附的特性。
ICE和PDP圖可以看出四環(huán)素吸附量對(duì)于大部分的因素依賴并未展現(xiàn)出單一的依賴性,說(shuō)明四環(huán)素的吸附是多個(gè)特征綜合作用的過(guò)程。這其中,比表面積在小于100m2/g時(shí),對(duì)四環(huán)素的吸附量促進(jìn)作用較大,但超過(guò)100m2/g時(shí),吸附量提高的邊際效益大幅減弱。因此在設(shè)計(jì)碳基吸附劑時(shí),比表面積設(shè)置在100m2/g時(shí)即可,無(wú)需過(guò)多追求更大的比表面積。此外,四環(huán)素吸附量對(duì)初始濃度的變化表現(xiàn)出高度依賴,尤其是在初始濃度未0.5-0.75mmol/L之間時(shí),依賴程度極其明顯。
整體而言,碳基吸附劑的物理特性以及環(huán)境變量對(duì)四環(huán)素的吸附具有更大的影響,而化學(xué)因素對(duì)于四環(huán)素的吸附的影響則較弱,這也是為什么絕大多數(shù)報(bào)導(dǎo)的碳基吸附劑對(duì)于四環(huán)素的吸附偏向于物理吸附為主的原因。而所有特征中比表面積和孔容積為最重要的貢獻(xiàn)特征,這說(shuō)明孔隙填充是碳基材料吸附四環(huán)素的主要機(jī)制。為了探究化學(xué)因素是否對(duì)預(yù)測(cè)起到的作用較小,對(duì)于輸入的10個(gè)特征剔除pHpzc、C含量和O含量,并再次進(jìn)行模型訓(xùn)練。由表1可知在沒(méi)有任何化學(xué)特征輸入的情況下,雖然KNN、SVM和GBDT模型對(duì)四環(huán)素吸附的預(yù)測(cè)精確度有所下降,但是下降十分有限。因此僅碳基材料的物理特性和環(huán)境因素的輸入就可以十分精確的預(yù)測(cè)四環(huán)素的吸附量。同時(shí)也再次證明四環(huán)素在碳基材料上的吸附是一個(gè)純粹的物理吸附行為,碳基材料表面化學(xué)官能團(tuán)以及等電點(diǎn)的分布對(duì)于四環(huán)素的吸附極其有限。此外,無(wú)需化學(xué)特征的采集即可獲得非常精確的預(yù)測(cè)效果對(duì)于縮減數(shù)據(jù)采集時(shí)間具有重要意義,這一點(diǎn)在需要緊急預(yù)測(cè)的狀況下極為重要。(見(jiàn)圖5)
3 結(jié)論
研究通過(guò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行采集與整理,建立了碳基材料對(duì)水中四環(huán)素的吸附量的精準(zhǔn)預(yù)測(cè)。在KNN、SVM、GBDT算法中,GBDT算法無(wú)論是在訓(xùn)練集還是在測(cè)試集都表現(xiàn)極佳,R2都大于0.98,RMSE都小于0.1。通過(guò)對(duì)Shapley值分析發(fā)現(xiàn),特征重要性按照如下順序排列:比表面積>孔容積>初始濃度>pH>溫度>投加量>pHpzc>C含量>孔徑>0含量。且pH和pHpzc對(duì)四環(huán)素吸附量表現(xiàn)出負(fù)貢獻(xiàn),其余特征表現(xiàn)為正貢獻(xiàn)。整體而言,四環(huán)素在碳基吸附劑上的吸附主要受到物理特性和環(huán)境因素的影響較大,是一個(gè)物理吸附占據(jù)主導(dǎo)地位的過(guò)程。在緊急狀況下,僅輸入碳基材料的物理特征和環(huán)境因素即可實(shí)現(xiàn)精確的四環(huán)素吸附的預(yù)測(cè),無(wú)需化學(xué)特征的輸入,有效縮短了數(shù)據(jù)采集時(shí)間。
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)項(xiàng)目(No.202IYFC3200805):甘肅省科技計(jì)劃項(xiàng)目自然科學(xué)資助(20JR10RA441);甘肅省科技廳軟科學(xué)專項(xiàng)(20CX9ZA026)