張 瑋,李立毅,張林林
(太原理工大學(xué) 化學(xué)化工學(xué)院,太原030024)
PV型旋風(fēng)分離器是一種高效的氣固分離器[1]。目前已廣泛應(yīng)用于高溫高壓和高含塵濃度條件的工業(yè)領(lǐng)域中。PV型旋風(fēng)分離器的結(jié)構(gòu)如圖1所示,主要參數(shù)為:入口高度a、入口寬度b、排氣管直徑dr、排氣管插入深度S、筒徑D、筒體高度H1、錐體高度H2.
圖1 PV型旋風(fēng)分離器結(jié)構(gòu)Fig.1 Structure of PV cyclone separator
分離效率是評(píng)價(jià)一臺(tái)PV型旋風(fēng)分離器性能的重要參數(shù)。因此,獲得一個(gè)能夠準(zhǔn)確預(yù)測(cè)效率與結(jié)構(gòu)參數(shù)、操作條件之間復(fù)雜非線(xiàn)性關(guān)系的數(shù)學(xué)模型對(duì)于工業(yè)生產(chǎn)是非常必要的?,F(xiàn)在用于計(jì)算旋風(fēng)分離器效率的各種理論模型[2-4],都是基于單個(gè)顆粒的運(yùn)動(dòng),并沒(méi)有考慮顆粒群之間的相互作用,例如團(tuán)聚、夾帶及碰撞[6]。此外,這些模型尚未涉及結(jié)構(gòu)參數(shù)對(duì)旋風(fēng)分離器性能的影響,因此它們不是通用的。由于從理論上解決這類(lèi)問(wèn)題具有難度,羅曉蘭等[6]應(yīng)用相似理論并對(duì)大量實(shí)驗(yàn)數(shù)據(jù)進(jìn)行回歸分析,得到了與各種相似準(zhǔn)數(shù)相關(guān)聯(lián)的PV型旋風(fēng)分離器的粒級(jí)效率計(jì)算公式。但是,由于這種計(jì)算方法的假設(shè)并不一定符合真實(shí)情況,而且回歸模型的準(zhǔn)確度是需要大量的數(shù)據(jù)來(lái)進(jìn)行彌補(bǔ)的。
近年來(lái),機(jī)器學(xué)習(xí)算法正在成為新的研究熱點(diǎn),這些方法可以在不了解現(xiàn)象本質(zhì)的情況下利用樣本數(shù)據(jù)來(lái)處理復(fù)雜非線(xiàn)性關(guān)系的數(shù)學(xué)模型。目前,有些學(xué)者利用計(jì)算流體動(dòng)力學(xué)(computational fluid dynamics,CFD)模擬得到數(shù)據(jù)樣本或?qū)嶒?yàn)得到數(shù)據(jù)樣本,然后將BP神經(jīng)網(wǎng)絡(luò)、徑向基神經(jīng)網(wǎng)絡(luò)(RBF)、廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)和SVR等算法成功應(yīng)用到了對(duì)切向進(jìn)口的旋風(fēng)分離器的壓降和效率建模[7-14]。但是,利用CFD模擬來(lái)獲得建模數(shù)據(jù)需要付出巨大的時(shí)間成本。另外,這些工作在建模的前期確定模型輸入因素時(shí)會(huì)根據(jù)理論和實(shí)驗(yàn)分析把一些對(duì)輸出因素影響程度較小的輸入因素人為刪除掉,這樣會(huì)導(dǎo)致部分信息的損失。由于在PV型旋風(fēng)分離器效率方面理論研究的欠缺,同時(shí)為了提高模型的通用性和準(zhǔn)確性,本文利用文獻(xiàn)中收集的217組實(shí)驗(yàn)數(shù)據(jù)[5,6,15],取對(duì) PV 型旋風(fēng)分離器效率影響最大的8個(gè)因素作為輸入變量,這8個(gè)因素分別是筒徑D、入口截面比Ka=πD2/4ab,排氣口下口直徑比~dr=dr/D,入口氣速vi、入口濃度ci、粒徑δ、顆粒密度ρp、中位粒徑δm,粒級(jí)效率ηi作為輸出變量,建立了一種基于PCA-PSO-SVR的PV型旋風(fēng)分離器的粒級(jí)效率模型,并將該模型與PV型旋風(fēng)分離器的粒級(jí)效率的多元回歸模型和其它幾種混合模型進(jìn)行了對(duì)比。
支持向量機(jī)(support vector machine,SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法,它在數(shù)據(jù)樣本量較少時(shí),也能得到良好的統(tǒng)計(jì)規(guī)律[16]。SVR基本思想是:將線(xiàn)性不可回歸的樣本點(diǎn)通過(guò)升維實(shí)現(xiàn)線(xiàn)性化。在SVR中,目標(biāo)函數(shù)是凸的,這意味著始終可以達(dá)到全局最優(yōu)。引入核函數(shù)概念的SVR問(wèn)題可以用圖2來(lái)表示。解決非線(xiàn)性回歸問(wèn)題其實(shí)就是求解權(quán)重ωi和閾值b的過(guò)程。
圖2 支持向量回歸示意圖Fig.2 Schematic diagram of support vector regression
求解權(quán)重ωi和閾值b的過(guò)程就是對(duì)式(1)的二次規(guī)劃問(wèn)題進(jìn)行求解:
式中:C為懲罰系數(shù),我們需要選取一個(gè)合適的懲罰系數(shù)來(lái)平衡模型復(fù)雜度和經(jīng)驗(yàn)風(fēng)險(xiǎn)[17];ω為權(quán)重向量;1/2‖ω‖2表示模型復(fù)雜度;m表示樣本容量;ξi、ξ*i表示松弛變量;ε為不敏感損失系數(shù),它表示模型的容錯(cuò)程度。采用拉格朗日乘數(shù)法和KKT條件可以將式(1)的二次規(guī)劃問(wèn)題轉(zhuǎn)換為式(2)的對(duì)偶最優(yōu)化問(wèn)題:
式中:αi,α*i,αj,α*j表示拉格朗日算子;K(xi,xj)表示核函數(shù)。
最終得到的逼近函數(shù)為式(3):
樣本的非線(xiàn)性映射受核函數(shù)的影響,因此選取一個(gè)合適的核函數(shù)對(duì)支持向量回歸非常關(guān)鍵。當(dāng)前,可以在SVR算法中使用的核函數(shù)分別是多項(xiàng)式函數(shù)、高斯徑向基函數(shù)(RBF)、Sigmoid(S形)核函數(shù)等[18]。因?yàn)镽BF泛化性能強(qiáng),形式簡(jiǎn)單、且支持非線(xiàn)性回歸,因此,本文選用RBF作為SVR的核函數(shù),它的表達(dá)行式如(4)[19]:
K(x,xj)=exp(-g‖x-xi‖2). (4)式中:g為核函數(shù)參數(shù)。通過(guò)改變g的值就可以決定模型的復(fù)雜度及性能。
利用PCA-PSO-SVR對(duì)粒級(jí)效率建模的具體流程圖如圖3所示。
圖3 PCA-PSO-SVR流程圖Fig.3 Flow chart of PCA-PSO-SVR
其中,主元分析法(PCA)是一種最常用的無(wú)監(jiān)督降維算法,它可以根據(jù)最大方差理論將m維特征映射到更低的n維上,這n維特征稱(chēng)為主元,它們之間沒(méi)有相關(guān)性但是能夠反映出樣本空間的大部分信息。
PSO算法是由EBERHART和KENNEDY[20]根據(jù)鳥(niǎo)類(lèi)捕食行為開(kāi)發(fā)出的一種進(jìn)化優(yōu)化算法。在尋優(yōu)過(guò)程中,每一個(gè)粒子都有各自的速度、位置和由目標(biāo)函數(shù)決定的適應(yīng)度值。在迭代過(guò)程中,每個(gè)粒子通過(guò)個(gè)體極值Pid和全局極值Gid來(lái)更新自己的速度和位置。速度和位置更新公式如下:
式中:i表示第i個(gè)粒子,d表示維度,t表示迭代次數(shù),c1和c2表示學(xué)習(xí)因子,r1和r2表示0到1之間的隨機(jī)數(shù),ω表示線(xiàn)性遞減的慣性權(quán)重,Pid表示第i個(gè)粒子在第d維上的個(gè)體極值,Gid表示所有粒子到目前為止的全局極值。在經(jīng)過(guò)n次迭代后的全局最優(yōu)位置就是算法尋找到的最優(yōu)解。
2.1.1 輸入變量
影響旋風(fēng)分離器分離效率的主要因素有以下兩個(gè)方面:結(jié)構(gòu)參數(shù)和操作參數(shù)。其中,筒徑、入口截面比和排氣管下口直徑比是對(duì)分離效率有重要影響的三個(gè)結(jié)構(gòu)參數(shù);入口氣速vi、粒徑δ、入口濃度ci、中位粒徑δm、顆粒密度ρp和粉塵粒度分布均方差σ是對(duì)收集效率有影響的主要操作參數(shù)。其中,粉塵粒度分布均方差σ對(duì)分離性能的影響可以忽略。綜上所述,輸入變量總共有8個(gè)。
2.1.2 輸出變量
描述旋風(fēng)分離器收集效果的參數(shù)有粒級(jí)效率ηi和總效率η.如果用總效率建模需要考慮顆粒的粒徑分布,增加了建模的難度,所以輸出變量選擇為粒級(jí)效率ηi.
綜上所述,SVR模型的輸入輸出變量及部分?jǐn)?shù)據(jù)如下表1所示。確定好輸入和輸出變量之后,SVR模型訓(xùn)練的目的就是找到一個(gè)合適的函數(shù)f(·)使其滿(mǎn)足公式(7):
在使用統(tǒng)計(jì)分析方法的研究中,太多的變量會(huì)增加問(wèn)題的復(fù)雜性,并且計(jì)算量也會(huì)增大。因此,本研究采用主元分析法來(lái)對(duì)原始數(shù)據(jù)集進(jìn)行降維處理。
本文中利用PCA降維的方法將8維的特征空間矩陣降到了5維,這5個(gè)主成分所占整個(gè)信息的百分比可以達(dá)到99.85%.
表1 支持向量機(jī)回歸模型的輸入和輸出變量及部分樣本數(shù)據(jù)Table 1 Input and output variables of support vector regression model and some sample data
在建模時(shí),SVR的預(yù)測(cè)精度主要取決于3個(gè)超參數(shù):懲罰因子C,核函數(shù)參數(shù)g和不敏感損失函數(shù)ε.這些參數(shù)僅憑先驗(yàn)知識(shí)很難確定適當(dāng)值,因此本文采用PSO算法優(yōu)化這3個(gè)參數(shù)。
本文中粒子群算法通過(guò)5-fold交叉驗(yàn)證來(lái)評(píng)估每個(gè)粒子的適應(yīng)度值[21]。為了防止SVR模型過(guò)度擬合,在粒子群優(yōu)化過(guò)程中為均方根誤差(RMSE)設(shè)置一個(gè)下限,并且當(dāng)RMSE開(kāi)始小于這個(gè)下限的時(shí)候?qū)?yōu)結(jié)束。
式中:n為樣本個(gè)數(shù);yi表示真實(shí)值;f(xi)表示模型的預(yù)測(cè)值。
本文中采用PSO對(duì)SVR參數(shù)優(yōu)化的流程[22]如下:
1)初始化PSO算法的各個(gè)參數(shù),如下表2所示。
表2 PSO參數(shù)設(shè)置Table 2 Parameter setting of PSO
2)利用訓(xùn)練集結(jié)合5-fold交叉驗(yàn)證來(lái)計(jì)算不同參數(shù)組合對(duì)應(yīng)的適應(yīng)度值,作為初始的個(gè)體極值,計(jì)算全局極值。
3)根據(jù)公式(5),(6)更新粒子的速度和位置,并計(jì)算粒子的適應(yīng)度值,更新個(gè)體極值和全局極值。
4)重復(fù)步驟3直至滿(mǎn)足結(jié)束條件,得到最優(yōu)的參數(shù)組合。
尋優(yōu)結(jié)果隨迭代次數(shù)的變化如圖4所示。通過(guò)迭代50次后,訓(xùn)練集通過(guò)5-fold交叉驗(yàn)證得到的均方根誤差達(dá)到3.123×10-4,最后的尋優(yōu)結(jié)果中C、g和ε的值分別是660,0.673和0.026.
圖4 適應(yīng)度曲線(xiàn)Fig.4 Fitness curve
為了評(píng)估模型的好壞,我們引用了均方誤差MSE和相關(guān)系數(shù)R2兩個(gè)性能參數(shù)來(lái)評(píng)估。公式(12)和(13)介紹了這兩個(gè)參數(shù)的計(jì)算方法:
式中:n表示樣本數(shù)目;yi表示真實(shí)值;f(xi)表示模型的預(yù)測(cè)值;ˉy表示真實(shí)值的平均値;ˉf表示預(yù)測(cè)值的平均值。
本文建立的PCA-PSO-SVR模型對(duì)粒級(jí)效率的預(yù)測(cè)值與實(shí)際實(shí)驗(yàn)數(shù)據(jù)對(duì)比如圖5所示。橫坐標(biāo)是文獻(xiàn)中報(bào)道的粒級(jí)效率實(shí)驗(yàn)值,縱坐標(biāo)是PCAPSO-SVR模型輸出的預(yù)測(cè)值,圓形數(shù)據(jù)點(diǎn)和三角形數(shù)據(jù)點(diǎn)分別表明PCA-PSO-SVR模型對(duì)訓(xùn)練樣本和測(cè)試集的模擬結(jié)果??梢钥闯?,PCA-PSO-SVR模型在訓(xùn)練階段的均方誤差MSE為4.192×10-4,相關(guān)系數(shù)為R2為0.988,能夠達(dá)到較高的訓(xùn)練精度。在測(cè)試階段的均方誤差MSE為6.948×10-4,相關(guān)系數(shù)為R2為0.982時(shí),預(yù)測(cè)結(jié)果仍然較好。結(jié)果表明,PCA-PSO-SVR模型具有很好的泛化能力和魯棒性,能夠有效地?cái)M合粒級(jí)效率和不同影響因素之間的復(fù)雜非線(xiàn)性關(guān)系。
圖5 PCA-PSO-SVR模型模擬結(jié)果與實(shí)驗(yàn)數(shù)據(jù)對(duì)比Fig.5 Comparison of PCA-PSO-SVR model simulation results with experimental data
羅曉蘭等[6]針對(duì)傳統(tǒng)的旋風(fēng)分離器效率通用性不好等缺點(diǎn),對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了回歸分析,得到了一系列PV型旋風(fēng)分離器的粒級(jí)效率多元回歸公式。本文對(duì)兩種模型的模擬結(jié)果進(jìn)行了對(duì)比,如圖6所示。圖中橫坐標(biāo)為測(cè)試樣本,縱坐標(biāo)為粒級(jí)效率的值。圖中的棕色菱形點(diǎn)表示多元回歸模型的預(yù)測(cè)結(jié)果,它的均方誤差和相關(guān)系數(shù)分別為0.026 1和0.892.綠色圓點(diǎn)表示PCA-PSO-SVR模型的預(yù)測(cè)結(jié)果,均方誤差和相關(guān)系數(shù)分別為6.948×10-4和0.982.通過(guò)與紅色圓點(diǎn)(實(shí)驗(yàn)值)的對(duì)比,結(jié)果表明,PCA-PSO-SVR模型在處理小樣本和提高模型的泛化能力方面具有顯著的優(yōu)勢(shì)。
圖6 PCA-PSO-SVR模型與多元回歸模型預(yù)測(cè)結(jié)果對(duì)比Fig.6 Comparison of prediction results between PCA-PSO-SVR model and multiple regression model
圖7 顯示了使用SVR的各種改進(jìn)算法對(duì)PV旋風(fēng)分離器粒級(jí)效率進(jìn)行建模的模型預(yù)測(cè)結(jié)果的對(duì)比。PCA-PSO-SVR模型與其它模型相比有著更小的均方誤差和更高的相關(guān)系數(shù)。從算法運(yùn)行一次的平均時(shí)間上來(lái)看,采用標(biāo)準(zhǔn)網(wǎng)格法優(yōu)化的SVR模型用時(shí)145.07s;改用PSO優(yōu)化SVR后,用時(shí)降低,僅為25.63s;PCA-SVR由于需要反復(fù)迭代,用時(shí)最長(zhǎng),為3 508.85s;采用粒子群優(yōu)化后,PCA-PSOSVR模型用時(shí)為502.65s.綜上所述,主元分析法(PCA)有效地減少了特征空間的維數(shù),降低了模型的復(fù)雜度,提高了泛化能力。在尋找SVR的超參數(shù)時(shí),粒子群優(yōu)化算法(PSO)不僅可以提高尋優(yōu)速度,而且能夠提升模型的準(zhǔn)確性。
圖7 PCA-PSO-SVR模型與PCA-SVR模型、PSO-SVR模型和SVR模型預(yù)測(cè)結(jié)果對(duì)比Fig.7 Comparison of prediction results between PCA-PSO-SVR model and PCA-SVR model,PSO-SVR model,SVR model
針對(duì)現(xiàn)有旋風(fēng)分離器粒級(jí)效率模型在通用性、準(zhǔn)確性等方面的不足,以及對(duì)PV型旋風(fēng)分離器效率模型研究手段的單一,本文提出了根據(jù)實(shí)驗(yàn)數(shù)據(jù),利用PCA-PSO-SVR算法對(duì)PV型旋風(fēng)分離器的粒級(jí)效率進(jìn)行建模的方法。建模結(jié)果顯示:主元分析法(PCA)能夠有效減少特征空間的維數(shù),去除一些噪聲數(shù)據(jù),使模型的復(fù)雜度降低,泛化能力提升;PSO作為一種優(yōu)化算法可以很好地優(yōu)化SVR模型的參數(shù);優(yōu)化好參數(shù)的SVR模型可以成功地預(yù)測(cè)PV型旋風(fēng)分離器的粒級(jí)效率,由PCA-PSO-SVR建立的PV型旋風(fēng)分離器粒級(jí)效率模型要比其他模型預(yù)測(cè)能力更好、穩(wěn)定性更高、泛化能力和魯棒性更好。