徐靜安 彭東輝
技術講壇
第六講均勻設計應用案例解讀
徐靜安彭東輝
案例取自《正交與試驗設計》2001版。在專業(yè)知識指導下,選定考察的變量因子及其范圍,那么如何合理選擇均勻設計表?如何安排變量水平?如何正確控制、記錄實驗條件?......如何進行中心化變換回歸建模?如何追加、拓展實驗?
自2013年以來,筆者有幸對吳向陽、彭東輝兩位教授帶教的在讀研究生的研究課題以及該專業(yè)組從事的超導基帶表面電化學精飾研究、甲醇汽油防腐蝕研究有過長期的接觸,幾乎每周都有討論、溝通。彭東輝教授及其專業(yè)組成員積極學習、應用均勻設計等數(shù)理統(tǒng)計知識及數(shù)據(jù)處理技術,在研發(fā)工作中已經(jīng)取得了初步成績,涉及該案例的若干知識點,也得到了有效的應用。為此,我們合作進行本案例的解讀。
案例:在某化工的合成工藝中,為了提高產(chǎn)量,試驗者選了3個因素:原料配比(x1),某有機物的吡啶量(x2)和反應時間(x3),每個因素均選取了7個水平:
原料配比(%):1.0,1.4,1.8,2.2,2.6,3.0,3.4
吡啶量(mL):10,13,16,19,23,,25,28
反應時間(h):0.5,I.0,1.5,2.0,2.5,3.0,3.5
選用均勻設計U7(73)見表1,實驗結果見表2。
表1 U7(73)
在作回歸建模時,將自變量中心化。
表2 化工試驗方案和相應收率
考慮二次模型
運用篩選變量的回歸技術,得
統(tǒng)計模型的方差分析見表3。
y的極大值不難求得,當x1=3.4,x3=3.5時,y=91. 87%達到極大值。在x1=3.4,x2=19,x3=3.5追加了3次試驗,相應的收率分別為91.05%,92.11%,91.53%,其均值91.56%與預報值相距很近,因此模型比較符合實際情形。
變量水平值應該按單調(diào)增或單調(diào)減排列。該案例水平值采用單調(diào)增排列,如原料配比%,水平值1.0,1.4,1.8,......3.4。不能隨意地1.0,1.8,1.4,...... 3.4,把1.8作為2水平放在1水平1.0和3水平1.4之間。這樣安排將增加均勻設計表的不均勻性D值,影響模型的穩(wěn)定性。
變量水平間可以采用等步長,也可以采用不等步長。在專業(yè)知識及探索試驗指導下,變化劇烈的區(qū)域步長小,平穩(wěn)區(qū)域步長大,對建模更有利。
表3 化工試驗的方差分析表(SAS輸出)
均勻設計變量的每個水平只做一次實驗,所以具體實驗時要如實記錄實驗時的水平值。如表2第3號實驗x3設計反應時間為3.0 h,由于種種原因它只要在前后步長的1/2范圍內(nèi)波動,就如實記錄。即實際操作是3.1 h,記錄并用于統(tǒng)計建模,反而能減少誤差。這對反應溫度、壓力、微量滴加等難以控制的場合很有實際應用意義。
由于該案例應用在20世紀90年代,均勻設計法還處于不斷完善階段。按現(xiàn)在的觀點,盡量選用帶*號的均勻設計表。見表4~7。
表4 U7(74)
表5 U7(74)的使用表
因素數(shù)列號D 2 1 3 0 . 2 3 9 8 3 1 2 3 0 . 3 7 2 1 4 1 2 3 4 0 . 4 7 6 0
每張均勻設計表都配有相應的使用表。從表4的U7(74)安排考察3個因素。不均勻性D=0.372 1;表6的(74)考察3個因素。不均勻性D=0.213 2。我們應選用帶*號、且D≤0.3的均勻設計表。
表6 (74)
表6?。?4)
1 2 3 4 1 1 3 5 7 2 2 6 2 6 3 3 1 7 5 4 4 4 4 4 5 5 7 1 3 6 6 2 6 2 7 7 5 3 1
表7?。?4)的使用表
表7?。?4)的使用表
因素數(shù)列號D 2 1 3 0 . 1 5 8 2 3 1 2 3 0 . 2 1 3 2
在試驗設計時,需考察的變量因子相對剛性,而水平數(shù)通過改變間隔步長則相對彈性。由于受變量范圍及儀表控制精度限制,各變量水平數(shù)不同的混合均勻設計,另行討論。
本文案例是變量等水平的案例。因為均勻設計的變量水平數(shù)決定了實驗次數(shù),針對案例考察了3個變量可供選擇的均勻設計方案,有(64)表、(74)表以及(85)表等,表8~9為(85)及其使用表。
筆者推廣應用的體會:
(1)如果新的研究領域、新的實驗平臺、選試驗次數(shù)大一些的均勻表,不致于某一次實驗誤差,對統(tǒng)計建模影響的太大;
(2)做過單因素考察的探索實驗,可選用小一些的均勻表;
(3)本文案例考察變量數(shù)m=3,用二次多項式擬合建模:
表8?。?5)
表8?。?5)
1 2 3 4 5 1 1 2 4 7 8 2 2 4 8 5 7 3 3 6 3 3 6 4 4 8 7 1 5 5 5 1 2 8 4 6 6 3 6 6 3 7 7 5 1 4 2 8 8 7 5 2 1
表9?。?5)的使用表
表9 (85)的使用表
因素數(shù)列號D 2 1 3 0 . 1 4 4 5 3 1 3 4 0 . 2 0 0 0 4 1 2 3 5 0 . 2 7 0 9
回歸方程可能形成9項變量,一般估計通過逐步回歸有1/3~1/2顯著變量項進入模型,即模型顯著變量項可能占有自由度的3~5。大家知道,F(xiàn)檢驗誤差自由度為1是不敏感的,希望誤差自由度≥2~3。這樣就要求選用的均勻設計表有5~8個自由度。而均勻設計表的自由度是f=實驗次數(shù)N-1。所以要選用實驗次數(shù)大一些的均勻表。綜上分析,從應用角度建議選擇均勻表實驗次數(shù)N=2~2.5m。
由于化工實驗可能存在時間周期長,隨著時間延續(xù),環(huán)境溫度、濕度升高或降低;高壓氣體鋼瓶使用中氣體含H2O量增加;實驗原料輕度氧化;配制溶液少量沉淀;陳化時間拉長;菌種有可能退化......。
均勻設計表中往往有第一列變量因子水平排列和序號是一致的,有的表還有最后一列的排列是完全相反的。如本文案例表2,按試驗的自然序號進行實驗,自然序號與x1水平序號相同,上述討論的“隨著時間延續(xù),環(huán)境溫度、濕度升高或降低;高壓氣體鋼瓶使用中氣體含H2O量增加;實驗原料輕度氧化;配制溶液少量沉淀;陳化時間拉長;菌種有可能退化......”都會混雜到x1變量因子中去,因此使分析失真。
表10 (94)
表10 (94)
1 2 3 4 1 1 3 7 9 2 2 6 4 8 3 3 9 1 7 4 4 2 8 6 5 5 5 5 5 6 6 8 2 4 7 7 1 9 3 8 8 4 6 2 9 9 7 3 1
表11 (94)的使用表
表11 (94)的使用表
因素數(shù)列號D 2 1 3 0 . 1 5 8 2 3 1 2 3 0 . 2 1 3 2
本案例表2以第4號實驗收率y=81.95%為最高。由于均勻設計在研究考察的多維空間范圍內(nèi),代表性地均勻布點,一般會出現(xiàn)接近研究期望的“好點”。再通過回歸分析處理數(shù)據(jù),尋求優(yōu)化點。如果沒有出現(xiàn)接近研究期望的“好點”,就要從專業(yè)上重新審查所選變量因子及其范圍的合理性。
均勻設計的數(shù)據(jù)處理需要采用回歸分析。回歸分析時,為什么常常采用二次多項式擬合?如何采用逐步回歸篩選變量?如何評價回歸模型統(tǒng)計上的顯著性?由于篇幅關系,在此不再展開,請閱讀本刊2016年第5期刊登的第一講——統(tǒng)計模型的假定和變量水平的設定;2016年第8期刊登的第四講——回歸分析中的變量篩選技術及統(tǒng)計檢驗。
在二次多項式擬合時,一些著作均提出要對自變量進行中心化處理,但在同一本著作的其他案例中沒有進行中心化處理,亦取得較好的統(tǒng)計建模效果。筆者從應用角度理解,在自變量數(shù)據(jù)中心化處理后有利于提高矩陣運算的計算精度,有利于提高統(tǒng)計模型的預報穩(wěn)定性。針對本文案例,李志剛碩士研究生用DPS軟件進行自變量非中心化、中心化處理的對照計算分析。
(1)非中心化計算
計算用數(shù)據(jù),見表2。
結果見表12。
表12 非中心化計算結果
(2)中心化計算
計算用數(shù)據(jù),見表13。
結果見表14。
上述非中心化,中心化計算結果表明,均通過回歸分析各項統(tǒng)計檢驗,具有顯著性意義。也就是說,對同一批研究數(shù)據(jù),自變量的非中心化、中心化處理回歸模型的擬合效果都不錯,甚至非中心化的某些統(tǒng)計指標稍好些。上述中心化變換案例用SAS軟件計算,本文用DPS軟件計算,結果完全一致。
表13 中心化計算用數(shù)據(jù)
非中心化計算和中心化計算的最大差異,一是統(tǒng)計模型的構成,非中心化計算進入模型的交互作用項為x1x2;中心化進入模型的交互作用項為x1x3。二是由此引起的最高指標時各個因素組合及y有明顯不同,非中心化計算預報優(yōu)化值y=86.57%,而中心化計算預報優(yōu)化值y=91.95%。也就是兩種計算擬合效果均有統(tǒng)計上顯著意義的基礎上,非中心化計算可能丟失預報更優(yōu)的優(yōu)化點信息,值得引起重視。
從回歸分析計算角度,及本案例中心化計算優(yōu)化點預報被驗證實驗驗證說明,二次多項式回歸的自變量中心化變換是科學、合理的。
回歸模型的殘差分析現(xiàn)在受到了重視,限于本文篇幅,可查閱相關著作,如《六西格碼管理統(tǒng)計指南——MINITAB使用指導》。
原文案例采用自變量中心化變換進行二次多項式統(tǒng)計建模,模型中沒有出現(xiàn)x2,即統(tǒng)計檢驗不顯著。從專業(yè)角度,吡啶是許多有機物的優(yōu)良溶劑,并能溶解許多無機鹽類,是一些有機反應的常用溶劑。但其蒸汽與空氣混合物的爆炸極限為1.8%~12.4%(體積)。x2統(tǒng)計檢驗不顯著,沒有進入y=F(x)的統(tǒng)計模型,并非y和x2無關,而是表示x2在實驗范圍內(nèi)10~28mL內(nèi),對收率y的影響不顯著,在實驗范圍內(nèi)可隨機取值。
對于工程型研究,對選定的“好點”或推薦的優(yōu)化點,進行驗證實驗這是很重要的研究環(huán)節(jié)。原文案例自變量中心化變換統(tǒng)計建模后,推薦預報的優(yōu)化工藝組合,經(jīng)過三次重復驗證實驗,平均值為91.56%。驗證試驗三次比較規(guī)范。
原文案例認為:“其均值91.56%與預報值相距很近,故模型比較符合實際情形”。那么預報值和驗證值二者“相距很近”如何判斷呢?
按數(shù)理統(tǒng)計要求,驗證值在預報值±2.5S范圍內(nèi),屬于“相距很近”,正常。也有文章報道,按不同專業(yè)的要求,驗證值和預報值相對偏差控制在約5%。
現(xiàn)在問題又轉(zhuǎn)化到如果驗證實驗和預報值“相距甚遠”,不符合“相距很近”又怎么辦呢?重新安排實驗,廢掉已做的實驗,工作量不小??紤]其他模型又缺乏“好點”方向。
相關資料未作展開討論。按筆者推廣應用中實踐體會,模型具有學習、修正的潛力。具體操作方法是把驗證實驗作為NO.8組實驗和案例(74)7組數(shù)據(jù)一起,進行回歸建模,產(chǎn)生新的優(yōu)化預報值,再進行驗證。序貫進行,修正2~3次就能得到期望的結果,如果仍然“相距甚遠”,則需要從專業(yè)上,實驗平臺、實驗設計及數(shù)據(jù)處理上重新審查研究工作。
由于計算機和數(shù)據(jù)處理軟件的普及,對于預報值和驗證值“相距很近”,驗證通過的案例,筆者建議把驗證實驗作為NO.8組實驗,對原統(tǒng)計模型作進一步完善。DPS軟件計算用數(shù)據(jù)見表15,結果見表16。
表15 DPS軟件計算用數(shù)據(jù)
表16 DPS軟件計算結果
計算結果表明,統(tǒng)計模型得到了完善,預報指標穩(wěn)定。
在一輪試驗設計和數(shù)據(jù)處理后,有多種情況需要追加試驗。本文僅結合案例解讀進行追加實驗的方案。
原文案例通過對統(tǒng)計建模判斷x1、x3優(yōu)化點已在實驗范圍界面,需界面拓展,追加實驗,探索更優(yōu)空間。其實對多因素統(tǒng)計模型預報最高指標時,已給出實驗范圍界面值,由此可作判斷。
原文案例對x1、x3界面拓展,追加試驗,建議選用U4(42)均勻表。一則在均勻設計不能推薦此類小表,不均勻性D值較大。最主要的問題是追加實驗的數(shù)據(jù)不能和原設計U7(73)的數(shù)據(jù)一起統(tǒng)計建模,數(shù)據(jù)利用率不高。
筆者建議在原設計的基礎上,引入序貫設計概念進行界面拓展,追加實驗。結合本案例,設計操作如表17所示。即把x1、x3界面拓展的水平值填入原設計表NO.4、NO.7的空白處,仍保持試驗設計的均勻性。作為追加的實驗條件,所得結果為NO.8、NO. 9,可以和原U7(73)數(shù)據(jù)一起統(tǒng)計建模。
表17 設計操作數(shù)據(jù)
推廣應用的實踐證明,此拓展方法盡管專著中沒有展開討論,但實際應用效率很高,效果很好。