孫順遠, 周 乾
(1.江南大學 物聯(lián)網(wǎng)工程學院,江蘇 無錫 214122; 2.輕工過程先進控制教育部重點實驗室,江蘇 無錫 214122)
由于工業(yè)現(xiàn)場高溫高壓、強酸強堿、強干擾等惡劣環(huán)境,很難直接采用硬件傳感器監(jiān)測關鍵質量變量。通過軟測量技術,構建輔助變量和主導變量之間的數(shù)學模型,能夠對關鍵質量變量進行實時準確地預測,解決生產過程中質量變量測量滯后、在線分析儀表價格昂貴的問題。因此對于軟測量的研究[1~4]至關重要。目前,常用的建模方法有支持向量機(support vector machines,SVM)[5]、高斯過程回歸(Gaussian process regression,GPR)[6]、極限學習機(extreme learning machine,ELM)[7,8]等。在軟測量建模算法中,ELM具有結構簡單、學習速度快、參數(shù)少等優(yōu)點,并克服傳統(tǒng)神經網(wǎng)絡多次迭代的缺陷,收斂速度快,常應用在基于數(shù)據(jù)驅動的軟測量建模中。ELM雖能取得較好的建模效果,然而其建模過程中很難精確找到最優(yōu)參數(shù),導致學習能力不足,影響到ELM的預測精度及穩(wěn)定性。因此,需要對ELM的參數(shù)進行尋優(yōu),以提高ELM建模的預測精度?;旌贤芴惴?shuffled frog leaping algorithm, SFLA)[9,10]利用種群內青蛙的數(shù)次迭代,找到局部最優(yōu)解,再進行混合跳躍,進行全局信息的交換,如此循環(huán)多次,找到一個全局最優(yōu)解。SFLA能夠跳出局部最優(yōu)的困境,增強全局搜索能力,是一種被廣泛應用的智能優(yōu)化算法。
本文運用SFLA對極限學習機進行優(yōu)化,尋找最優(yōu)的激活函數(shù)速率參數(shù)和位移參數(shù)以及嶺回歸中的乘法因子。SFLA能加快對全局最優(yōu)解的搜索,加快網(wǎng)絡收斂速度,從而克服ELM預測不穩(wěn)定、參數(shù)難確定的問題。最后,將SFLA-ELM應用于脫丁烷塔塔底丁烷濃度的預測和污水處理過程中生物需氧量的預測中,與不同的建模方法比較,驗證了SFLA-ELM的有效性、準確性。
圖1 ELM結構
ELM的訓練目標是最小化預測誤差,從而求得輸出權重,可表示為
(1)
式中λ為懲罰因子,ei為預測誤差。
將約束項代入第一項,得到等價無約束優(yōu)化問題并轉換為嶺回歸問題,將LELM相對于β的梯度設為零,整理后得到
β=(HTH+λI)-1HTY
(2)
式中H為隱含層輸出矩陣。
SFLA是模擬自然界中青蛙覓食過程而產生的啟發(fā)式搜索算法。將青蛙分成若干個種群,在同一種群中的青蛙可以進行信息傳遞,向食物源靠近,實現(xiàn)局部尋優(yōu)。每隔一段時間,混合策略將各種群中的局部信息進行全局信息交換,然后重新進行分組尋優(yōu)。將局部信息和全局信息更替迭代尋優(yōu),直至尋找到食物。
SFLA的過程如下:
步驟1 初始化青蛙種群,確定青蛙數(shù)量F,種群個數(shù)m,青蛙位置的維度d,子種群內部迭代次數(shù)nei,青蛙種群全局混合迭代次數(shù)Nei。
步驟2 確定適應度函數(shù)q(x),計算每只青蛙對應的適應度值。
步驟3 根據(jù)F只青蛙的適應度函數(shù)值進行升序排列,并均勻分配到m個種群中。得到每個子種群中的最好個體Xb和最差個體Xw以及局最好個體Xg。
步驟5 達到總種群的迭代次數(shù),輸出總種群中位置最佳的青蛙,即全局最優(yōu)解。
在ELM的軟測量建模中,需要先確定隱含層神經元的個數(shù),再隨機賦值給輸入權值和偏置,接著根據(jù)激活函數(shù)計算出隱含層的神經元輸出矩陣H。ELM中激活函數(shù)的選取對模型的訓練效果有著重要影響。激活函數(shù)有以下幾種形式
(3)
傳統(tǒng)的激活函數(shù)為g1(x),其函數(shù)圖像如圖2所示。
圖2 g1(x)的曲線圖
在傳統(tǒng)的激活函數(shù)g1(x)的基礎上添加速率參數(shù)a可控制其變化速度變成g2(x)。圖3(a)為參數(shù)a<1時g2(x)的函數(shù)圖像,圖3(b)為參數(shù)a>1時g2(x)的函數(shù)圖像。結合圖1,圖2,和g1(x),g2(x)添加參數(shù)a后,可以控制曲線上升的變化速度,當a<1時,曲線的變化得相對平緩;反之,當a>1時,曲線變化得相對陡峭。
圖3 g2(x)曲線圖
更進一步,在g2(x)的基礎上增加位移參量c使之成為g3(x)。g3(x)的函數(shù)圖像如圖4所示,可以發(fā)現(xiàn)位移參量c能夠對g2(x)進行平移。
圖4 g3(x)曲線圖
綜合分析激活函數(shù)的三種形式以及圖2~圖4可得,引入了參數(shù)a后,可以控制函數(shù)上升的速度,對于樣本數(shù)據(jù)中較接近的數(shù)據(jù),加入?yún)?shù)a后的適應度函數(shù)值差距不大,有利于尋優(yōu)效果;而位移參量c能夠對函數(shù)圖像進行平移,當數(shù)據(jù)樣本分布不集中,能夠有效計算出相應的適應度函數(shù)值。因此,本文運用尋優(yōu)能力強的混合蛙跳優(yōu)化算法,對速率參數(shù)a,位移參數(shù)c以及懲罰系數(shù)λ進行優(yōu)化,使得預測誤差降到最低。
為了驗證本文方法的有效性,進行污水處理過程的仿真實驗,使用三種不同的建模方法進行建模:方法一是包含激活函數(shù)g1(x)的極限學習機軟測量模型;方法二是包含激活函數(shù)g3(x)的ELM軟測量模型;方法三是基于SFLA的ELM軟測量模型,其中激活函數(shù)同方法二。
工業(yè)過程中常使用活性污泥進行污水處理,由于污泥中的微生物降解有機物過程中需要相應的溶解氧量,故用生物需氧量(BOD)作為衡量水質污染程度的關鍵參數(shù)。工業(yè)廢水處理常用的工藝是活性污水處理法,主要包括5個部分:預處理,初沉,曝氣,二次沉淀和污泥回流[11],其過程如圖5所示。
圖5 活性污泥法工藝示意
為驗證本文建模方法的有效性,采用加州大學數(shù)據(jù)庫(UCI)的污水數(shù)據(jù)庫,其中,19個輔助變量,各個輔助變量的描述如表1所示,1個主導變量為出水BOD含量。共194組數(shù)據(jù)樣本,選取其中的97組作為訓練樣本集,剩余97組作為測試樣本集。采用均方根誤差(RMSE)和相關性系數(shù)(COR)衡量建模的精度
(4)
表1 污水處理過程選取的輔助變量表
三種方法對應的預測性能指標如表2所示。對比方法二,方法一的各項性能指標都較低,表明采用傳統(tǒng)激活函數(shù)g1(x)的模型不能充分挖掘數(shù)據(jù)樣本間的聯(lián)系;而方法二中的激活函數(shù)g3(x)能有效結合數(shù)據(jù)樣本的非線性特征,進而提高模型的預測精度;對比方法二,可看出方法三具有明顯優(yōu)勢,表明方法三能夠解決工業(yè)過程中數(shù)據(jù)復雜的問題,通過SFLA算法尋找到適合模型的最優(yōu)參數(shù)從而建立精度最高的模型。
表2 兩種方法的RMSE
圖6為三種建模方法的預測結果。
圖6 三種方法對BOD含量的仿真效果
對比方法一,在數(shù)據(jù)樣本的峰值區(qū)域附近方法二的輸出值與實際值較接近,訓練效果更好,說明方法二能較好地處理非線性數(shù)據(jù);對比方法二,方法三利用SFLA算法全局尋優(yōu)的性能得到模型的最優(yōu)參數(shù),并將其作為模型的最終參數(shù),該種模型訓練效果最佳,預測精度亦最高。
由于工業(yè)過程中關鍵質量變量難以獲取,于是將易測得的過程輔助變量對質量變量進行軟測量建模。由于ELM模型中參數(shù)選取的隨機性,易造成模型精度不穩(wěn)定的問題。因此,本文運用SFLA優(yōu)化ELM網(wǎng)絡中激活函數(shù)的速率參數(shù)a和位移參量c以及最小二乘中的懲罰因子λ,加強了模型的準確性和可靠性。通過對污水處理和脫丁烷塔過程的仿真實驗,驗證了本文方法的有效性。