亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于即時(shí)學(xué)習(xí)與輸出相關(guān)的變量加權(quán)研究

2020-11-12 11:25:54顏丙云

自動(dòng)化儀表 2020年9期

顏丙云，于飛

(青島科技大學(xué)自動(dòng)化與電子工程學(xué)院,山東青島 266061)

0 引言

工業(yè)工廠中的傳感器，為過程監(jiān)控提供了大量的測(cè)量數(shù)據(jù)。工業(yè)生產(chǎn)過程中惡劣的測(cè)量環(huán)境、昂貴的設(shè)備儀器和時(shí)間滯后性等因素，導(dǎo)致了一些關(guān)鍵變量難以直接測(cè)量[1]。近年來，軟傳感器在工業(yè)生產(chǎn)過程中的廣泛應(yīng)用有效地解決了這一問題。軟傳感器的核心是建模，通常分為基于機(jī)理的建模和基于數(shù)據(jù)驅(qū)動(dòng)的建模[2]。基于機(jī)理的建模由于需要特定的化學(xué)原理而不適用于復(fù)雜的非線性過程，而基于數(shù)據(jù)驅(qū)動(dòng)的建模是通過測(cè)量易于測(cè)量的變量(輔助變量)，建立輔助變量和難以測(cè)量的變量之間的數(shù)學(xué)模型，從而實(shí)現(xiàn)用輔助變量來估計(jì)難以測(cè)量的變量的目的[3-5]。該方法不需要了解太多的過程知識(shí)，因而被廣泛應(yīng)用[2]。常用的基于數(shù)據(jù)驅(qū)動(dòng)的建模方法有主成分回歸(principal component regression,PCA)、偏最小二乘回歸(partial least squares,PLS)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)和支持向量機(jī)(support vector machines,SVM)等。

即時(shí)學(xué)習(xí)是非線性過程中常見的軟測(cè)量建模方法[6]。相比于全局模型和傳統(tǒng)的局部模型，即時(shí)學(xué)習(xí)能夠很好地解決工業(yè)過程中的強(qiáng)非線性和時(shí)變性。即時(shí)學(xué)習(xí)通過從歷史數(shù)據(jù)中，找到與查詢變量模態(tài)最匹配的數(shù)據(jù)樣本并進(jìn)行局部建模，從而得到較高的預(yù)測(cè)精度[7]。因此，相似性樣本的選擇是即時(shí)學(xué)習(xí)能否取得良好的建模效果關(guān)鍵因素。相似性樣本的選擇往往基于數(shù)據(jù)樣本之間的距離計(jì)算，忽略了變量之間的關(guān)系。文獻(xiàn)[8]探討并驗(yàn)證了基于回歸系數(shù)和相關(guān)系數(shù)的兩種變量加權(quán)方法能夠取得更好的預(yù)測(cè)結(jié)果。在計(jì)算距離后，還需要指定樣本的權(quán)重值。而不同的權(quán)重函數(shù)，所得到的權(quán)重值不同。同一權(quán)重函數(shù)的權(quán)重值指數(shù)的次數(shù)不同，模型的預(yù)測(cè)結(jié)果就會(huì)不同。因此，本文將探討不同權(quán)重函數(shù)和權(quán)重系數(shù)的指數(shù)次數(shù)對(duì)模型預(yù)測(cè)精度的影響。

本文結(jié)構(gòu)安排如下。第1章簡單介紹了與輸出相關(guān)的給變量加權(quán)的算法的研究；探討了基于與輸出相關(guān)的變量權(quán)重的不同階次。第2章分別通過一個(gè)數(shù)值例子和一個(gè)實(shí)際例子的仿真，分析預(yù)測(cè)結(jié)果。第3章探討了基于與輸出相關(guān)的變量的不同權(quán)重函數(shù)對(duì)預(yù)測(cè)精度的影響，分別進(jìn)行了數(shù)值和實(shí)際工業(yè)過程仿真。第4章給出了本文的結(jié)論。

1 與輸出相關(guān)的變量加權(quán)算法的研究

傳統(tǒng)的即時(shí)學(xué)習(xí)方法在進(jìn)行變量選擇時(shí)往往只考慮了輸入變量之間的關(guān)系，而忽略了輸入變量和輸出變量之間的關(guān)系。變量選擇相關(guān)性的重要程度往往直接影響預(yù)測(cè)結(jié)果的準(zhǔn)確性。文獻(xiàn)[8]總結(jié)了兩種與輸出相關(guān)的變量加權(quán)的方法。研究表明，將輸入變量和輸出變量之間關(guān)系考慮在內(nèi)的變量的選擇方法的預(yù)測(cè)精度明顯高于傳統(tǒng)的建模方法。

基于即時(shí)學(xué)習(xí)與輸出相關(guān)的變量加權(quán)的算法是在傳統(tǒng)的局部加權(quán)最小二乘(locally weighted partial least squares,LW-PLS)算法的基礎(chǔ)上考慮了輸入變量和輸出變量之間的關(guān)系。一種方法是用回歸系數(shù)作為權(quán)重給變量加權(quán)，另一種方法是用相關(guān)系數(shù)作為權(quán)重給變量加權(quán)。這兩種算法的詳細(xì)步驟見文獻(xiàn)[8]。在LW-PLS中，輸入數(shù)據(jù)XN×M和輸出數(shù)據(jù)YN×L儲(chǔ)存在歷史數(shù)據(jù)庫中。當(dāng)需要預(yù)測(cè)查詢變量xq的輸出時(shí)，首先要計(jì)算查詢變量xq和數(shù)據(jù)庫中的樣本數(shù)據(jù)xn(n=0,1,…,N)的相似性，然后局部PLS將會(huì)用來進(jìn)行輸出預(yù)測(cè)。相似性樣本ωn的選擇通常采用歐氏距離，而基于與輸出相關(guān)的相似性樣本的選擇是在歐氏距離的基礎(chǔ)上進(jìn)行計(jì)算的，具體如下所示[8]。

(1)

(2)

Θ=diag(θ1,θ2,…,θM)

(3)

式中：φ為局部調(diào)節(jié)參數(shù)，通過調(diào)節(jié)φ來確定最優(yōu)預(yù)測(cè)精度；N為數(shù)據(jù)庫中數(shù)據(jù)樣本的數(shù)量；M和L分別為輸入變量和輸出變量的維度；Θ為權(quán)重矩陣；θM為M維輸入變量的權(quán)重系數(shù)；diag為取對(duì)角矩陣。

在基于與輸出相關(guān)的給變量加權(quán)的基礎(chǔ)上，探討了基于與輸出相關(guān)的變量權(quán)重的不同階次對(duì)預(yù)測(cè)精度的影響。具體算法步驟如1.1節(jié)和1.2節(jié)所示。

1.1 基于回歸系數(shù)給變量加權(quán)的步驟

① 標(biāo)準(zhǔn)化輸入數(shù)據(jù)XN×M和輸出數(shù)據(jù)YN×L并計(jì)算歐氏距離。

(4)

式中：Θ矩陣為最原始的單位矩陣。

②應(yīng)用局部回歸方法，獲得最初的回歸模型，詳細(xì)步驟參見文獻(xiàn)[9]。

(5)

③計(jì)算新的權(quán)重矩陣Θ。

Θ=diag[θ1(0)p,θ2(0)p,…,θM(0)p]

(6)

(7)

式中：p為指數(shù)的偶數(shù)次；dn(1)為根據(jù)輸入變量與輸出變量之間的相關(guān)性程度來計(jì)算得到的距離值；Θ的元素還可以取回歸系數(shù)的絕對(duì)值[10]，即指數(shù)次數(shù)為0。

④再次采用局部回歸方法，獲得新的回歸模型：

(8)

⑤計(jì)算均方誤差M。

(9)

⑥改變指數(shù)次數(shù)p，轉(zhuǎn)至執(zhí)行步驟③，直至p=10。

1.2 基于相關(guān)系數(shù)給變量加權(quán)的步驟

①標(biāo)準(zhǔn)化輸入數(shù)據(jù)XN×M和輸出數(shù)據(jù)YN×L，并計(jì)算歐氏距離。

(10)

式中：Θ為最原始的單位矩陣。

②根據(jù)歐氏距離，選擇相關(guān)局部數(shù)據(jù)點(diǎn)。

d≤c

(11)

式中：c為一個(gè)可調(diào)常數(shù)，c越大，選擇的局部數(shù)據(jù)點(diǎn)越多。

③計(jì)算輸入變量和輸出變量的相關(guān)系數(shù)ρyxM。

④計(jì)算新的權(quán)重矩陣Θ。

(12)

(13)

⑤應(yīng)用局部回歸方法，獲得回歸預(yù)測(cè)模型。

(14)

⑥計(jì)算均方誤差M。

(15)

⑦改變指數(shù)次數(shù)p，轉(zhuǎn)至執(zhí)行步驟④，直至p=10。

2 變量權(quán)重不同階次的研究

本節(jié)主要探討了用回歸系數(shù)和相關(guān)系數(shù)的不同階次作為權(quán)重時(shí)，對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確度的影響。

2.1 關(guān)于權(quán)重的階次的介紹

相似性測(cè)量在即時(shí)學(xué)習(xí)中起著非常重要的作用。與輸出相關(guān)的相似性的選擇能明顯提高模型的預(yù)測(cè)精度[8]。權(quán)重系數(shù)的階次不同，樣本數(shù)據(jù)在模型中所占比重不同，對(duì)模型的預(yù)測(cè)結(jié)果就不同。換言之，與查詢變量和輸出變量相關(guān)性越強(qiáng)，樣本數(shù)據(jù)的權(quán)重越大；與查詢變量和輸出變量相關(guān)性越弱樣本數(shù)據(jù)，權(quán)重越小，模型的預(yù)測(cè)精度就越高。

2.2 仿真研究

本節(jié)分別通過一個(gè)仿真例子和一個(gè)實(shí)際工業(yè)例子，探討權(quán)重階次對(duì)模型精度的影響。

2.2.1 數(shù)值仿真

本例一共產(chǎn)生了六個(gè)輸入變量。六個(gè)獨(dú)立變量均由隨機(jī)高斯分布隨機(jī)產(chǎn)生，輸出為前三個(gè)輸入變量的非線性函數(shù)關(guān)系。輸入和輸出的具體設(shè)置如下[9-11]：

圖1 兩種算法在數(shù)值例子中的預(yù)測(cè)結(jié)果Fig.1 Prediction results of the two algorithms in numerical examples

從圖1可以看出，不論是基于相關(guān)系數(shù)，還是回歸系數(shù)的給變量加權(quán)的算法中，取權(quán)重系數(shù)的4次冪作為權(quán)重都能夠取得最好的預(yù)測(cè)結(jié)果。仿真證明，并不是指數(shù)的次數(shù)越高，預(yù)測(cè)的結(jié)果就越好。指數(shù)的次數(shù)為4是最適合該數(shù)值例子的指數(shù)次數(shù)。

2.2.2 硫回收單元

硫回收單元是煉油廠中控制硫排放的重要裝置[12]。在硫回收單元中，酸性氣體流在排放到大氣之前需要去除環(huán)境中的污染物，同時(shí)，要對(duì)硫元素進(jìn)行回收[7]。硫回收單元的基本結(jié)構(gòu)流程如圖2所示。

圖2 硫回收單元的基本結(jié)構(gòu)流程圖Fig.2 Basic structure flow chart of sulfur recovery unit

為了控制過程空氣的進(jìn)料比和檢測(cè)過程的運(yùn)行，需要對(duì)平臺(tái)排放尾氣中的H2S和SO2氣體濃度進(jìn)行測(cè)量分析。然而，在線分析儀的可靠性會(huì)隨著時(shí)間的推移而降低，并且設(shè)備的維護(hù)和檢修也耗時(shí)耗力。所以，軟測(cè)量技術(shù)可以建模，以預(yù)測(cè)這兩種氣體的濃度。為了測(cè)量這兩種氣體的濃度，5個(gè)輔助輸入變量分別為MEA區(qū)氣體流量、MEA區(qū)第一空氣流量、MEA區(qū)第二空氣流量、SWS區(qū)氣體流量和SWS區(qū)空氣流量[12]，輸出變量分別為H2S濃度和SO2濃度。

本節(jié)以H2S的濃度為例，一共從硫回收單元的過程中采集了800個(gè)數(shù)據(jù)。兩種算法在實(shí)際過程中的預(yù)測(cè)結(jié)果如圖3所示。

圖3 兩種算法在實(shí)際過程中的預(yù)測(cè)結(jié)果Fig.3 Prediction results of the two algorithms in the actual process

從圖3可以看出，在硫回收單元中，由于過程的復(fù)雜性和非線性，在測(cè)量過程中也可能存在異常值。在基于相關(guān)系數(shù)的給變量加權(quán)的方法中，權(quán)重系數(shù)的絕對(duì)值變量加權(quán)的預(yù)測(cè)結(jié)果最好。在基于回歸系數(shù)給變量加權(quán)的方法中，權(quán)重系數(shù)的指數(shù)次數(shù)為2的預(yù)測(cè)結(jié)果最好。模型的預(yù)測(cè)結(jié)果與權(quán)重系數(shù)的指數(shù)次數(shù)有關(guān)系，但并不是指數(shù)次數(shù)越高越好。在異常值比較多的復(fù)雜非線性過程中，取權(quán)重系數(shù)的絕對(duì)值或者指數(shù)次數(shù)較低的情況下的預(yù)測(cè)結(jié)果反而更好。

3 變量權(quán)重的權(quán)重函數(shù)的研究

在LW-PLS中，相似性樣本的選擇是即時(shí)學(xué)習(xí)的關(guān)鍵問題，進(jìn)行相似性樣本的選擇時(shí)不僅要考慮輸入變量之間的相關(guān)性，還要考慮輸入變量和輸出變量之間的相關(guān)性。本節(jié)所用的距離計(jì)算公式為歐氏距離，給變量加權(quán)的方法為基于相關(guān)系數(shù)的加權(quán)方法和基于回歸系數(shù)的加權(quán)方法。而在進(jìn)行距離計(jì)算后，往往還要指定各個(gè)樣本的權(quán)重。權(quán)重函數(shù)一般為距離的函數(shù)，并且隨著距離的增大，歷史樣本和查詢樣本之間的相似性應(yīng)該越來越小，所以其權(quán)重系數(shù)也應(yīng)該越來越小。接下來將探討一些常見的權(quán)重函數(shù)對(duì)模型預(yù)測(cè)精度的影響。

3.1 關(guān)于權(quán)重函數(shù)的介紹

距離反映了歷史樣本和查詢樣本之間的相似性大小。權(quán)重函數(shù)根據(jù)距離的大小來分配權(quán)重，使得與查詢變量相似性大的歷史樣本的權(quán)重大，與查詢變量相似性小的歷史樣本的權(quán)重小甚至趨于零，從而減少無關(guān)樣本數(shù)據(jù)的影響、提高模型的預(yù)測(cè)精度。常見的權(quán)重函數(shù)圖像如圖4所示。

圖4 常見的權(quán)重函數(shù)圖像Fig 4 A common image of a weight function

3.2 仿真研究

在本節(jié)中，分別通過一個(gè)仿真例子和一個(gè)實(shí)際工業(yè)例子來探討不同的權(quán)重函數(shù)對(duì)模型預(yù)測(cè)精度的影響。

3.2.1 數(shù)值仿真

本數(shù)值例子采用文獻(xiàn)[11]中所用例子，輸入輸出都有時(shí)變特征。本例共產(chǎn)生400個(gè)采樣數(shù)據(jù)。其中，每個(gè)樣本包含6個(gè)輔助變量x1～x6和一個(gè)輸出變量y。前3個(gè)輔助變量分別由3個(gè)隱變量z1、z2和z3生成，三隱變量均隨機(jī)產(chǎn)生于均勻分布區(qū)間[0,1]。輔助變量的具體設(shè)置如下[12]：

(16)

式中：N(0,0.1)為均值為0、方差為0.1的高斯正態(tài)分布。

為了仿真工業(yè)過程中的輸入輸出時(shí)變特性變化，將輸出變量定義為：

(17)

從式(17)可以看出，在這個(gè)數(shù)值實(shí)例中，過程存在變量關(guān)系非線性和特性時(shí)變等特征。

為了建立模型和輸出預(yù)測(cè)，本例中共采集了400個(gè)數(shù)據(jù)。其中，200個(gè)數(shù)據(jù)作為歷史數(shù)據(jù)用來建立模型，另外200個(gè)數(shù)據(jù)用來進(jìn)行模型的驗(yàn)證。表1給出了數(shù)值例子中4種權(quán)重函數(shù)在不同算法中的均方誤差。

表1 數(shù)值例子中4種權(quán)重函數(shù)在不同算法中的均方誤差Tab.1 Mean square error of the four weight functions in different algorithms in the numerical examples

從表1可以看出，對(duì)于具有時(shí)變特性的非線性過程，無論是傳統(tǒng)的LW-PLS算法，還是改進(jìn)的基于回歸系數(shù)給變量加權(quán)的LW-PLS算法，權(quán)重函數(shù)為反比例函數(shù)的模型的預(yù)測(cè)精度都要高于其他三種權(quán)重函數(shù)的模型。這可以說明給權(quán)重函數(shù)為反比例函數(shù)的模型設(shè)置合適的參數(shù)在一定程度上可以解決過程時(shí)變特性的問題。而在基于相關(guān)系數(shù)的給變量加權(quán)的LW-PLS中，高斯函數(shù)作為權(quán)重函數(shù)的模型的預(yù)測(cè)結(jié)果要好于其他函數(shù)作為權(quán)重函數(shù)的模型。

3.2.2 硫回收單元

硫回收單元的基本原理如2.2.2節(jié)所示。本文以H2S的濃度為例。為了建立和驗(yàn)證模型，一共從過程中采集了800個(gè)數(shù)據(jù)。其中500個(gè)數(shù)據(jù)用來進(jìn)行模型建立，300個(gè)數(shù)據(jù)用來進(jìn)行模型驗(yàn)證。反復(fù)調(diào)節(jié)模型參數(shù)r，直至取得最佳的預(yù)測(cè)結(jié)果。表2給出了硫回收單元中4種權(quán)重函數(shù)在不同算法中的均方誤差。

表2 硫回收單元中4種權(quán)重函數(shù)在不同算法中的均方誤差Tab.2 Mean square error of four weight functions in different algorithms in sulfur recovery unit

如表2所示，在硫回收單元中的預(yù)測(cè)結(jié)果與數(shù)值例子中的一致，無論是在傳統(tǒng)的LW-PLS，還是基于回歸系數(shù)給變量加權(quán)的LW-PLS中，權(quán)重函數(shù)為反比例函數(shù)模型的算法預(yù)測(cè)精度都高于其他算法。而在基于相關(guān)系數(shù)給變量加權(quán)的LW-PLS中，高斯函數(shù)為權(quán)重函數(shù)的算法在這幾種權(quán)重函數(shù)中仍然是預(yù)測(cè)精度最高的。

4 結(jié)論

本文在基于與輸出相關(guān)給變量加權(quán)即時(shí)學(xué)習(xí)的算法基礎(chǔ)上，分別探討了同一權(quán)重函數(shù)權(quán)重的不同階次和不同權(quán)重函數(shù)對(duì)模型的預(yù)測(cè)精度影響。模型的預(yù)測(cè)結(jié)果與權(quán)重系數(shù)的指數(shù)次數(shù)存在一定的關(guān)系。在一定范圍內(nèi)，權(quán)重的指數(shù)次數(shù)變高，模型的預(yù)測(cè)精度可能會(huì)提高。但這并不意味著指數(shù)次數(shù)越高越好。在異常值比較多的復(fù)雜非線性過程中，取權(quán)重系數(shù)的絕對(duì)值或者指數(shù)次數(shù)較低的情況下的預(yù)測(cè)結(jié)果反而更好。

對(duì)于常見的幾種權(quán)重函數(shù)，在具有時(shí)變特性的復(fù)雜非線性工業(yè)過程中，傳統(tǒng)的LW-PLS和基于回歸系數(shù)給變量加權(quán)的LW-PLS中，權(quán)重函數(shù)為反比例的模型的預(yù)測(cè)精度都要高于其他幾種權(quán)重函數(shù)的模型，說明給權(quán)重函數(shù)為反比例函數(shù)的模型在一定程度上可以解決過程時(shí)變特性的問題。而在基于相關(guān)系數(shù)的給變量加權(quán)的LW-PLS中，高斯函數(shù)作為權(quán)重函數(shù)的模型的預(yù)測(cè)結(jié)果要好于其他函數(shù)作為權(quán)重函數(shù)的模型。