李欣銅,陳志冰,魏志強,李蘇桐,陳旭,宋凱
(1 天津大學化工學院,天津 300350;2 航天長征化學工程股份有限公司,北京 100176;3 巨化清安檢測科技有限公司,浙江 衢州 324004;4 巨化股份有限公司,浙江 衢州 324004)
在現(xiàn)代化工行業(yè)中,尤其是對于產(chǎn)品廣泛應用于工業(yè)、日常生活、醫(yī)學和核工業(yè)等各個領域的氟化工而言,產(chǎn)品質量控制格外重要。工業(yè)生產(chǎn)上的質量測量往往需要通過昂貴的儀器、實驗室分析和其他額外工作來實現(xiàn)。盡管在線成分分析儀的應用日益廣泛,但受限于成本,工業(yè)實踐中通常是多套設備輪流共享一個在線成分分析儀。因此,重要成分質量測量過程中高成本、低效率和滯后性大的缺點,仍然嚴重阻礙了質量控制水平的進一步提高。另一方面,隨著大數(shù)據(jù)技術的飛速發(fā)展,集散控制系統(tǒng)(distributed control system,DCS)在線收集過程數(shù)據(jù)的能力越來越強。目前,開發(fā)質量預測模型來提取變量中蘊含的大量特征信息,實現(xiàn)對產(chǎn)品質量的精準預測,或者說實現(xiàn)質量變量的軟測量,又一次成為了研究熱點?,F(xiàn)階段常用的質量預測方法主要包括:多元線性回歸(MLR)、主成分回歸(PCR)、偏 最 小 二 乘 法 (PLS)、 Fisher 判 別 分 析(FDA)、獨立成分回歸(ICR)等線性回歸方法。這些方法通常將原始測量數(shù)據(jù)投影到低維線性子空間上提取可變特征,然后在低維子空間內構建預測模型,從而有效處理具有多重共線性的高維數(shù)據(jù)。此外,還包括適用于非線性問題的神經(jīng)網(wǎng)絡PLS、徑向基函數(shù)PLS、核函數(shù)PLS、核函數(shù)PCR、核函數(shù)ICR 等非線性回歸方法。雖然這些研究已為實現(xiàn)在線產(chǎn)品質量預測做出了開創(chuàng)性工作,但由于氟化工多種變量之間復雜的非線性關系,工業(yè)應用仍然困難重重。更重要的是,氟化工過程中重要零件或設備的腐蝕、老化、結垢等變化具有不同的時間尺度特性。多種時間尺度特性的共存,使其成為一個時變特性非常復雜的過程。這種非線性與強時變特性復雜的耦合使得非線性方法甚至是常規(guī)的機器學習方法難以完成質量預測任務。
隨著計算機技術(即計算速度、存儲容量)的快速發(fā)展,深度學習方法在質量預測實踐中的應用越來越普遍。在過去的幾年中,相比其他數(shù)據(jù)驅動方法,深度學習方法在許多領域吸引了更多的研究關注并展示出更佳的性能。Hinton 等證明了具有多個隱藏層的人工神經(jīng)網(wǎng)絡(ANN)所學習的特征對數(shù)據(jù)表征更為本質,這有助于提高分類性能。同時,“分層預訓練”策略有效克服了訓練深度神經(jīng)網(wǎng)絡的困難。這些提議激發(fā)了學術界和工業(yè)界關于深度學習研究應用的新熱潮,并逐步發(fā)展出深度人工 神 經(jīng) 網(wǎng) 絡 (DANN)、 深 度 置 信 網(wǎng) 絡(DBN)、深度卷積神經(jīng)網(wǎng)絡(CNN)等。
CNN 能夠根據(jù)不同時間軸上輸入數(shù)據(jù)的特性進行參數(shù)的自適應調整,以實現(xiàn)模型訓練動態(tài)迭代。換句話說,CNN 是一種在數(shù)據(jù)處理過程中實現(xiàn)動態(tài)建模的方法。因此,CNN 非常適用于時間序列預測任務,如工業(yè)過程的質量預測任務。然而,由于氟化工過程的上述特征,常規(guī)CNN 的性能仍然不足以實現(xiàn)精準的質量預測。
立足于上述氟化工過程所面臨的實際困難,本文提出了具有輸入數(shù)據(jù)注意力機制的卷積神經(jīng)網(wǎng)絡算法(ACNN),針對性地解決了氟化工數(shù)據(jù)帶有復雜而強烈時變特性的質量預測難點問題,以滿足工業(yè)過程高水平質量控制的需要。一方面,該算法作為基礎框架,可推廣到各類具有強時變特性過程的質量預測任務當中;另一方面,訓練過程無需任何時變特性的先驗知識,最大限度地簡化了實際工業(yè)生產(chǎn)過程中訓練、部署模型的步驟。雖然該方法作為深度學習算法在實踐中應用尚存在一定挑戰(zhàn),例如,對計算機硬件水平的高要求、模型泛化性和訓練時間等,但是其能夠充分利用氟化工生產(chǎn)過程中的海量數(shù)據(jù),具有大幅提高工業(yè)控制水平的潛力。將該方法應用于氟化工生產(chǎn)數(shù)據(jù)和Tennessee Eastman(TE)模擬數(shù)據(jù),證實了算法的有效性,揭示了良好的工業(yè)應用前景。
卷積神經(jīng)網(wǎng)絡(CNN)是一種典型的深度學習算法,受到生物過程的啟發(fā),其神經(jīng)元之間的連通性模式類似于動物視皮層的組織。越來越多的應用有力地證明了CNN 在非線性監(jiān)督學習應用中的優(yōu)越性。
常規(guī)的CNN 結構包括一個輸入層、一個輸出層以及多個隱藏層。這些隱藏層通常由一系列卷積層、池化層、全連接層和歸一化層組成。卷積層的基本功能是特征提取,這是CNN 最重要的功能。常見的卷積核為正方形(即3×3、5×5等),以便從行和列中均勻提取變量特征。連續(xù)幾個卷積層之后添加一個池化層,以壓縮數(shù)據(jù)和減少參數(shù)數(shù)量,進而提高網(wǎng)絡學習的速度并避免過度擬合。通過多重卷積和池化提取到的特征圖被輸入全連接層,歸一為預測值,從而實現(xiàn)從輸入到最終輸出的特征提取及預測任務。常用的訓練方法有Adam 算法、高級隨機梯度下降(SGD)算法和其他梯度下降方法等。另外,為了防止過度擬合,CNN 訓練過程中還使用dropout算法。
相對于其他簡單的化工過程,氟化工過程的數(shù)據(jù)具有更復雜的時變特性。而這類時變特性往往體現(xiàn)在不同長度的時間跨度之中,無法被某一個時間序列所表征。受限于輸入數(shù)據(jù)矩陣X的固定,常規(guī)CNN 僅能提取有限時段的單一時變特性,因此不利于把握整體時變特性,無法準確預測氟化工過程的產(chǎn)品質量?;诖耍疚奶岢鼍哂休斎霐?shù)據(jù)注意力機制的CNN算法。利用輸入數(shù)據(jù)注意力機制,自適應地提取不同跨度的時變特性,從而對輸入數(shù)據(jù)加權優(yōu)化后,再進行特征提取完成質量預測,以提高其預測精度。
本文提出的ACNN算法中,CNN的輸入數(shù)據(jù)不再是單個的矩陣,而是多個不同時間跨度的矩陣。如圖1(a)所示,這些矩陣被儲存在個不同的通道之中,作為CNN 的一次輸入。借鑒SE-NET設計了輸入數(shù)據(jù)的注意力層,如圖1(b)所示。首先進行擠壓(squeeze)操作,即利用全局池化(global pooling)逐通道壓縮特征,以表征特征通道上的全局分布,由式(1)求得。
圖1 輸入數(shù)據(jù)注意力機制
再通過激勵(excitation)操作為每個特征通道生成優(yōu)化權重。為了降低模型復雜度并提升泛化能力,設計了兩個全連接層,從而保證重要尺度的特征不會因其他尺度特征的加入而被削弱。整個過程如式(2)所示。
最后,將sigmoid激活后的權重作為每個特征通道的重要性,經(jīng)乘法逐通道加權到先前的特征上,完成對原始特征在通道維度上的加權標定,如式(3)所示。
在具有輸入數(shù)據(jù)注意力機制卷積神經(jīng)網(wǎng)絡模型訓練時,不同通道的權重會根據(jù)最終的預測值在反向傳播中自適應地調整。因此,模型能夠通過不斷調整各個通道的權重來充分利用各個跨度時間序列內的特征信息。
不同通道內數(shù)據(jù)長度的不一致,影響了下一步卷積的進行。本文采用多通道異步長的卷積方式,通過對較長數(shù)據(jù)序列等距采樣,克服不同通道內輸入數(shù)據(jù)尺寸不一致問題,方法如圖2(a)所示。對于常規(guī)圖像處理任務而言,正方形卷積核通常非常有效。但是,在本文的研究中,輸入工業(yè)數(shù)據(jù)矩陣X=[(),(),…,x()]由在個采樣時間點的個過程變量組成。顯然,X的行和列包含完全不同的信息:每行包含同一時間采樣的不同變量的值,而每列包含不同時間采樣的同一變量的值。相應地,行(變量)之間和列(變量的時間序列)之間的相關性完全不同。由于正方形卷積核容易混淆變量和時間的特征關系,采用了沿變量方向的長方形卷積核(如1×3、1×5 等),如圖2(b)所示。其運算如式(4)所示。
式中,是沿可變方向構造的長方形卷積核;和分別是輸入和輸出矩陣;是的列數(shù)。為了盡可能全面地提取高維特征,ACNN在一個卷積層中使用了多個卷積核。相應地,卷積層的輸出可以由式(5)計算。
式中,表示激活函數(shù);是第個卷積層的卷積核數(shù);x
是第層的第個輸出特征圖;xl是第-1層的第個輸入特征圖;是卷積核;bl是第個卷積核的偏置。
類似地,為了盡可能多地保留變量在時間序列中所包含的時變信息,以獲得更好的在線質量預測性能,ACNN使用了沿時間方向(列)的長方形池化層,如圖2(c)所示。
圖2 ACNN卷積操作
損失函數(shù)是卷積神經(jīng)網(wǎng)絡訓練過程中的關鍵因素之一,因此需要針對不同的問題選擇不同的損失函數(shù)。損失函數(shù)是模型對數(shù)據(jù)擬合程度的體現(xiàn),擬合程度越好,損失函數(shù)的值也越小。同時,損失函數(shù)的值越大,其對應的梯度也越大,變量更新的速度就越快,根據(jù)梯度下降進行的訓練越迅速。因而ACNN 中使用了擬合效果良好的均方誤差(MSE),如式(6)所示。
TE 模型是化工生產(chǎn)過程的模擬程序,其可以為高級過程控制研究提供大量的模擬工業(yè)數(shù)據(jù)而無需任何損耗。另外,現(xiàn)階段應用于TE 模型的算法很多,便于對算法效果進行橫向比較。因此先在TE 模型上對上述方法的有效性進行了驗證。圖3為TE 模型的示意圖,它包含5 個主要單元:反應器、汽提塔、冷凝器、循環(huán)壓縮機和分離器。
圖3 TE模型流程
本研究中使用模式3 中反應動力學漂移故障(故障13)來模擬具有緩慢時變的波動特性。由于模式3中的兩個過程操作變量是常量,因此僅使用剩余46 個連續(xù)變量來預測最終產(chǎn)物的成分分析數(shù)據(jù)。連續(xù)變量采樣間隔為200 個樣本/h,成分分析數(shù)據(jù)采樣間隔為4 個樣本/h。所有數(shù)據(jù)連續(xù)收集500h,并用前400h 作4E3A 訓練集,后100h 作為測試集。
ACNN 結構優(yōu)化為Conv(32)-Conv(64)-Pool-Conv(128)-Conv(128)-Pool-FC(1024)-FC(1),同時將前兩個卷積層的“Padding”參數(shù)設置為“VALID”。為了驗證該方法的性能,將預測結果與其他方法(如KPLS、O-ICA-KPLS、常規(guī)的CNN、SE-NET)應用于TE模型的最佳結果進行了比較。3種深度學習方法均采用相同模型結構和參數(shù),以證實輸入數(shù)據(jù)注意力機制的有效性。表1總結了不同方法對組分D的預測結果,其評價指標為MSE。
表1 不同方法TE模型質量預測結果比較
總的來說,ACNN在訓練集和測試集上都表現(xiàn)出最低的MSE 值,分別為0.0094 和0.013。普通非線性方法與深度學習方法的差距明顯,KPLS 方法和O-ICA-KPLS方法在測試集上結果僅為0.5260和0.2285,基本難以準確預測,而各類深度學習方法均獲得較低MSE。盡管3種深度學習方法選用的模型結構和參數(shù)完全一致,但是由于SE-NET 和ACNN方法分別引入不同的注意力機制,因而精度上呈現(xiàn)較大差異。常規(guī)CNN 方法在訓練時表現(xiàn)良好,但其在測試集上的性能不佳,僅為0.028。SE-NET與常規(guī)CNN方法類似,受到訓練集為包含的特征干擾時無法有效把握整體的波動特性,測試集上結果為0.026。ACNN 取得最佳結果,證實了ACNN獨特的輸入數(shù)據(jù)注意力機制使其能夠更準確地提取不同時間尺度上的故障波動特征,并做出更精確的數(shù)據(jù)預測趨勢。
3.2.1 R-22生產(chǎn)流程簡介
R-22 也稱為HCFC-22,是主要的氟化物之一。盡管R-22 作為制冷劑或推進劑的應用一直存在爭議,但由于其是四氟乙烯(TFE,主要用于聚四氟乙烯樹脂、共聚物和食品氣霧劑)以及其他含氟聚合物產(chǎn)品的主要原材料,全世界對R-22 的需求量一直穩(wěn)定增長。
AHF(無水氫氟酸)和氯仿反應生成R-22 粗產(chǎn)物,再通過水和堿純化除去殘留的HCl 和HF 獲得精細產(chǎn)品。R-22 生產(chǎn)過程的主要操作單元包括進料、反應器、兩個精餾塔,水洗塔和分離器,如圖4所示。
圖4 R-22生產(chǎn)流程
主要產(chǎn)品R-22 的質量分數(shù)是衡量產(chǎn)品質量高低的主要指標,影響后續(xù)一系列氟化物的生產(chǎn),因而,精確的R-22 產(chǎn)品質量預測手段對工業(yè)流程的整體效益至關重要。另外,過程變量中存在的強烈時變特征以及變量之間復雜的非線性耦合關系使得常規(guī)質量預測方法的性能遠遠不能令人滿意。因此,選用R-22 生產(chǎn)過程來驗證上述具有輸入數(shù)據(jù)注意力機制的CNN模型的有效性。
3.2.2 氟化工過程數(shù)據(jù)集構建
使用R-22 生產(chǎn)過程的真實數(shù)據(jù)來驗證該方法的有效性,所有數(shù)據(jù)均來自位于中國衢州的氟化工廠。根據(jù)保密協(xié)議,僅使用了對整個生產(chǎn)過程影響最大的R-301反應器相關過程變量,見表2。所有DCS 數(shù)據(jù)均以1min 的采樣間隔進行采樣,從2020年1月到9月,共274天。成分分析數(shù)據(jù)為R-22產(chǎn)物質量分數(shù),通過人工測量每8h一次。使用前8個月的數(shù)據(jù)構建訓練集訓練模型,并用第9個月數(shù)據(jù)構建測試集進行驗證。
表2 R-22生產(chǎn)過程中R-301反應器的相關變量
3.2.3 氟化工過程模型結構參數(shù)調整
與其他深度學習算法一樣,設計ACNN的難點在于沒有統(tǒng)一的指導原則。因而由淺及深設計并驗證了6種不同的網(wǎng)絡結構,不同結構下的最優(yōu)解見表3。模型性能的優(yōu)劣由損失函數(shù)MSE確定。
適當?shù)卦黾泳矸e神經(jīng)網(wǎng)絡的深度可以提高預測精度,增強模型學習能力,在測試集上獲得較好的結果。但是,過度復雜的網(wǎng)絡結構反而導致過擬合現(xiàn)象,降低模型性能。如表3所示,模型4具有適當?shù)木W(wǎng)絡深度,在測試集上MSE 值最小,具有良好的擬合能力。下文內容中將使用模型4進一步分析討論。
表3 不同卷積神經(jīng)網(wǎng)絡結構下的預測結果
在模型4 中,輸入數(shù)據(jù)尺寸為(480, 240,120)×10,其中“(480,240,120)”分別代表對應通道中矩陣的時間序列長度,“10”代表變量的數(shù)量。卷積核和池化層尺寸分別優(yōu)化為1×2和2×1。這種設計可以突出不同變量之間的相關性,并在考慮計算負擔的情況下最大程度地提取不同時間序列中包含的特征信息。將卷積層的“Padding”參數(shù)設置為“SAME”,以解決對輸入數(shù)據(jù)邊緣信息提取不足的問題。另外,為避免過度擬合,“dropout”設置為0.5。
3.2.4 氟化工過程質量預測結果
為了驗證本文方法在質量預測任務中的準確性,表4 中列出了最佳性能下的KPLS、O-ICAKPLS,常規(guī)的CNN、SE-NET 以及ACNN 方法的預測結果MSE,3種深度學習模型采用完全相同的模型結構和參數(shù)。一般任務中常用的非線性方法KPLS 和O-ICA-KPLS 無法適應氟化工過程復雜的非線性特征,對R-22 過程質量預測不準確。常規(guī)CNN與SE-NET作為深度學習方法已經(jīng)遠遠強于之前的非線性回歸方法,但是仍有部分氟化工時變特征信息無法被其合理應用。ACNN由于引入獨特的輸入數(shù)據(jù)注意力機制,在測試集表現(xiàn)上遠優(yōu)于常規(guī)CNN,MSE值低55%。
表4 不同方法R-22過程質量預測結果比較
為了更為直觀地展示性能的提升,R-22 真實值、ACNN 預測值和常規(guī)CNN 預測值如圖5 所示??梢园l(fā)現(xiàn),ACNN和常規(guī)CNN均能夠在一定程度上跟蹤質量變化。其中,ACNN擬合更為精確,尤其對第23、52、89 個點上的強烈跳變也做出了準確的預測。相比之下,常規(guī)CNN 在整體擬合趨勢上出現(xiàn)偏差,且在部分點響應遲鈍??傮w而言,ACNN質量預測結果具有更高的準確性,能夠更加準確地反映時變特性對產(chǎn)品質量的影響。
圖5 R-22真實值、ACNN預測值和常規(guī)CNN預測值的、比較(根據(jù)保密協(xié)議,不顯示縱坐標具體取值)
為了提高復雜非線性與強時變特性耦合的氟化工過程的質量預測性能,克服質量變量測量滯后的局限性,本文提出了一種具有輸入數(shù)據(jù)注意力機制的卷積神經(jīng)網(wǎng)絡(ACNN)的質量預測方法。通過引入輸入數(shù)據(jù)注意力機制,達到無需先驗知識即可針對性地提取原始數(shù)據(jù)中復雜時變特性的目的,克服了卷積神經(jīng)網(wǎng)絡輸入矩陣尺寸單一而無法準確跟蹤復雜時變特性的缺點。同時,針對工業(yè)數(shù)據(jù)特點,構造的長方形卷積核和池化層進一步提高了ACNN 的特征提取能力。該方法在TE 模型中進行了初步的驗證,在異常波動狀態(tài)下的MSE 為0.013,遠優(yōu)于常規(guī)CNN 和SE-NET。在氟化工R-22 過程的應用結果表明,在無任何先驗知識的情況下,ACNN的特征提取能力明顯優(yōu)于常規(guī)CNN和SE-NET,取得更佳的質量預測結果,在總體預測和其中強烈跳變點的結果上更為可靠。以上結果證明,該方法的泛化性良好,可推廣到具有強時變特性或波動特征的實際工業(yè)過程,具有良好的工業(yè)應用前景。雖然深度學習模型的訓練過程中參數(shù)量過大,對計算機硬件的要求較高,是制約其工業(yè)應用的最主要原因。但是,隨著產(chǎn)業(yè)轉型升級,控制系統(tǒng)的更新?lián)Q代,深度學習先進控制方法必定在工業(yè)控制領域大放異彩。