邱予驍,楊莉軍,鄧茹薈,張垚霖
(北京印刷學(xué)院,北京 102600)
催化劑是一種改變反應(yīng)速率但不改變反應(yīng)總標(biāo)準(zhǔn)吉布斯自由能的物質(zhì),在用乙醇催化偶合制備C4烯烴的過程中,催化劑會以降低反應(yīng)所需活化能的方式改變乙醇的轉(zhuǎn)化率和C4烯烴的選擇性。因此催化劑的組成不同,用乙醇制備C4烯烴的工藝條件不同。為了研究出制備C4烯烴最佳的催化劑組合和溫度,首先要探究不同催化劑組合對乙醇轉(zhuǎn)化率及C4烯烴選擇性的影響。因此可以利用控制變量法分組研究,每組做出相應(yīng)的乙醇轉(zhuǎn)化率隨溫度變化曲線和C4烯烴選擇性隨溫度變化曲線并進(jìn)行對比,最終得出結(jié)論:在催化劑組合為200mg 1wt% Co/SiO2-200mg HAP-乙醇濃度0.9mL/min時效果較好。而實際生產(chǎn)生活中催化劑對溫度極為敏感,每種化學(xué)反應(yīng)的反應(yīng)溫度都被嚴(yán)格控制在一個固定區(qū)間。針對“溫度對C4烯烴轉(zhuǎn)化率的影響”這一問題,僅憑直覺確定溫度-轉(zhuǎn)化率函數(shù)的擬合階數(shù)顯然是不準(zhǔn)確的,在實際生產(chǎn)生活中也并不可取。[1]因此為了深入確定擬合曲線的具體參數(shù),就要確認(rèn)擬合時所用曲線的階數(shù),首先對原始數(shù)據(jù)(表1)進(jìn)行初步擬合分析。
表1 原始數(shù)據(jù)
通過分析可知:一階函數(shù)擬合(圖1)效果最差;四階函數(shù)(圖4)雖然擬合效果最好,但與三階函數(shù)擬合(圖3)效果相差甚微,且容易引起過擬合,增加了實際生產(chǎn)過程中的復(fù)雜度。
因此,經(jīng)過初步分析可以排除一階導(dǎo)數(shù)擬合和四階導(dǎo)數(shù)擬合。
為了確定最終是用二階擬合還是三階擬合,根據(jù)機(jī)器學(xué)習(xí)原理,[1-3]將np.polyfit(x,y,2),np.polyfit(x,y,3)視為兩個學(xué)習(xí)機(jī),用統(tǒng)計假設(shè)檢驗的方法,分別計算出兩個學(xué)習(xí)機(jī)在對給定樣本模擬中的測試錯誤率從而推出兩個學(xué)習(xí)機(jī)的泛化錯誤率,通過比較其泛化錯誤率來確定學(xué)習(xí)機(jī)的優(yōu)劣,從而確定溫度對C4烯烴轉(zhuǎn)化率的影響采用二階擬合還是三階擬合。[4-7]
設(shè)二階模擬對應(yīng)的測試錯誤率為?2,三階模擬對應(yīng)的測試錯誤率為?3。首先選取樣本點個數(shù)最多的A3組對兩個學(xué)習(xí)機(jī)進(jìn)行檢驗,結(jié)果如圖5、圖6所示。[8]
通過擬合,可以得到預(yù)測值與樣本點差值的集合。在實際生產(chǎn)生活中,人們往往難以接受誤差值較大的模擬,這會給生產(chǎn)帶來極大的不確定性。這里引入均方誤差MSE:
yi為真實樣本值,^yi為預(yù)測值,m為樣本點個數(shù)。最 終 求 得MSE2=26.178627,MSE3=9.873714。隨后,計算每種學(xué)習(xí)機(jī)的決定系數(shù)R2,其中R2的定義為
yi是實際值,fi是預(yù)測值,是實際值的平均值。FVU為fraction of variance unexplained,RSS為Residual sum of squares,TSS為Total sum of squares。
一般地,R2越接近1,表示回歸分析中自變量對因變量的解釋越好[5-6]。最終求得=0.9663,=0.9873。
結(jié)合MSE2與MSE3的對照,可見三階函數(shù)的擬合效果更加理想。對于二階擬合曲線,將誤差值明顯較大的第四次、第六次、第七次模擬稱為誤判。對于三階擬合曲線,將誤差值明顯較大的第五次模擬以及第六次模擬稱為誤判。由此可得學(xué)習(xí)機(jī)np.polyfit(x,y,2)的測試錯誤率?2=3/7=42.86%,np.polyfit(x,y,3)的測試錯誤率?3=2/7=28.57%。
泛化錯誤率為?′的學(xué)習(xí)機(jī)在一個樣本上犯錯的概率是?,測試錯誤率E意味著在m個測試樣本中恰有E×m個被誤分類。假定測試樣本是從樣本總體分布中獨立采樣而得,那么泛化錯誤率為?′的學(xué)習(xí)機(jī)將其中m′個樣本誤分類、其余樣本全都分類正確的概率為
由此可估算出其恰將^?×m個樣本誤分類的概率如式(4),這也表達(dá)了在包含m個樣本的測試集上,泛化錯誤率為?′的學(xué)習(xí)器被測得測試錯誤率為^?的概率為
已知學(xué)習(xí)機(jī)np.polyfit(x,y,2),np.polyfit(x,y,3)的測試錯誤率,則解式(5)
可知,P(^?;?′)在?′=^?是最大,|?′-^?|增大時P(^?;?)減小。這符合二項(binomial)分布,對于學(xué)習(xí)機(jī)np.polyfit(x,y,2),其測試錯誤率?=42.86%,則7個樣本中測得3個被誤分類的概率最大。對于學(xué)習(xí)機(jī)np.polyfit(x,y,3),其測試錯誤率?=0.2857,則7個樣本中測得2個被誤分類的概率最大。
圖7是程序模擬學(xué)習(xí)機(jī)np.polyfit(x,y,2)二項分布的結(jié)果圖,圖8是程序模擬學(xué)習(xí)機(jī)np.polyfit(x,y,3)二項分布的結(jié)果圖:
綜上,最終確定以三階函數(shù)Y=ax3+bx2+cx+d作為樣本擬合的通用函數(shù)模型。
可用“二項檢驗”(binomial test)來對“?≤0.3”(即“泛化錯誤率是否不大于0.3”)這樣的假設(shè)進(jìn)行檢驗。
更一般地,考慮假設(shè)“?≤?0”,則在1-α的概率內(nèi)所能觀測到的最大錯誤率如式6計算。這里1-α反映了結(jié)論的“置信度”(confidence)。
此時若測試錯誤率^?小于臨界值ˉ?,則根據(jù)二項檢驗可得出結(jié)論:在α的顯著度下,假設(shè)“?≤?0”不能被拒絕,即能以1-α的置信度認(rèn)為,學(xué)習(xí)器的泛化錯誤率不大于?0;否則該假設(shè)可被拒絕,即在α的顯著度下可認(rèn)為學(xué)習(xí)器的泛化錯誤率大于?0。
我們也可以將所有的催化劑組合對應(yīng)的樣本數(shù)據(jù)對學(xué)習(xí)機(jī)進(jìn)行多次測試,這樣會得到多個測試錯誤率,此時可使用“t檢驗”(t-test)。針對本題,我們可以得到了k個測試錯誤率,其中k=21,^?1,^?1,…^?k(k=0,1,2,3…,20,21),則平均測試錯誤率μ和方差σ2為:
考慮到這21個測試錯誤率可看作泛化錯誤率?0的獨立采樣,則變量
服從自由度為k-1=20的t分布。對假設(shè)“μ=?0”和顯著度α,我們可計算出當(dāng)測試錯誤率均值為?0時,在1-α概率內(nèi)能觀測到的最大錯誤率。
該模型能充分說明三階函數(shù)擬合的優(yōu)點,且三階函數(shù)模型在題目給定的溫度區(qū)間內(nèi)有著極好的穩(wěn)定性,決定系數(shù)R2極接近1。同時學(xué)習(xí)機(jī)np.polyfit(x,y,3)二項分布的結(jié)果圖相比np.polyfit(x,y,2)二項分布的結(jié)果圖整體更靠近y軸,說明三階擬合函數(shù)對樣本趨勢的預(yù)測更加準(zhǔn)確。但該模型需要大量樣本進(jìn)行測試,對樣本數(shù)量較少的催化劑組合的預(yù)測不能充分發(fā)揮該模型的優(yōu)勢。