亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

現(xiàn)代流程工業(yè)的機(jī)器學(xué)習(xí)建模

2019-01-18 19:17:28趙順毅陳子豪欒小麗

自動化儀表 2019年9期

趙順毅，陳子豪，張瑾，欒小麗，劉飛

(江南大學(xué)自動化研究所，輕工過程先進(jìn)控制教育部重點實驗室，江蘇無錫 214122)

0 引言

流程工業(yè)是通過反應(yīng)、分離、混合、成型等物理、化學(xué)變化，使生產(chǎn)原材料增值的行業(yè)。圍繞流程工業(yè)對象的建模工作，既是過程控制和優(yōu)化的基礎(chǔ)，又是流程工業(yè)向智能化轉(zhuǎn)型的基石。然而，隨著工業(yè)制造技術(shù)向智能化的發(fā)展和革新，現(xiàn)代化的流程工業(yè)裝置集成度日漸提高，結(jié)構(gòu)漸趨復(fù)雜，工藝復(fù)雜度上升，從單變量簡單系統(tǒng)向兼有非線性、強(qiáng)耦合性及不確定性等多重性質(zhì)的多變量復(fù)雜系統(tǒng)變遷。通常，為反映過程的主要變化規(guī)律及清晰地描述系統(tǒng)行為，需在流程工藝機(jī)理分析的基礎(chǔ)上，依據(jù)物料平衡、熱量平衡及化學(xué)、生物反應(yīng)動力學(xué)，建立對象的機(jī)理數(shù)學(xué)模型。一方面，機(jī)理模型可反映流程工業(yè)生產(chǎn)過程中性能指標(biāo)與各變量的相互關(guān)系，便于分析輸入與輸出裝置工況并量化各環(huán)節(jié)中的綜合指標(biāo)；另一方面，機(jī)理模型可以指導(dǎo)生產(chǎn)工藝及設(shè)備的設(shè)計，通過對設(shè)備數(shù)學(xué)模型的分析和仿真，追溯影響被控過程動態(tài)特性的主要因素。然而，機(jī)理建模很大程度上依賴于對過程機(jī)理的認(rèn)知。由于有現(xiàn)代流程工業(yè)中往往伴隨著復(fù)雜的物理化學(xué)甚至生物變化，很難建立其準(zhǔn)確的機(jī)理模型。另外，由于內(nèi)外因素影響常常具有非平衡、非穩(wěn)定和強(qiáng)非線性等特點，造成機(jī)理建模成本高、難度大，準(zhǔn)確性和可靠性難以保證，還容易導(dǎo)致失配等問題。

數(shù)據(jù)驅(qū)動是解決機(jī)理不清晰對象建模的有效方法。該方法利用離線、在線數(shù)據(jù)來描述對象的運(yùn)行規(guī)律和相關(guān)模式，可以實現(xiàn)流程工業(yè)過程對象的性能指標(biāo)建模。在諸多數(shù)據(jù)驅(qū)動建模方法中，以機(jī)器學(xué)習(xí)為核心的策略近年來已成為流程工業(yè)中的研究熱點[1-4]。本文聚焦現(xiàn)代流程工業(yè)，概述機(jī)器學(xué)習(xí)算法的基本理論和研究應(yīng)用，依次闡述典型單層機(jī)器學(xué)習(xí)算法研究及應(yīng)用，深度學(xué)習(xí)模型構(gòu)筑的基本理論、算法基礎(chǔ)和變式應(yīng)用以及基于流形學(xué)習(xí)方法的流程工業(yè)對象建模研究和應(yīng)用。

1 單層機(jī)器學(xué)習(xí)

單層機(jī)器學(xué)習(xí)區(qū)別于深度學(xué)習(xí)，是對沒有逐層提取層次特征機(jī)器學(xué)習(xí)算法的一種統(tǒng)稱。從另一個角度來看，機(jī)器學(xué)習(xí)算法又可分為無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。由于單層無監(jiān)督機(jī)器學(xué)習(xí)算法在流程工業(yè)中已有廣泛探討，本文側(cè)重于有監(jiān)督單層機(jī)器學(xué)習(xí)，主要目標(biāo)任務(wù)為分類與回歸。

1.1 分類

分類算法多用于實現(xiàn)流程工業(yè)對象的故障檢測、識別和診斷，常用的分類算法有k-近鄰(k-nearest neighbor,kNN)算法、支持向量機(jī)(support vector machines,SVM)、樸素貝葉斯、隨機(jī)森林。

1.1.1 kNN算法

kNN算法是一種可用于分類的懶惰學(xué)習(xí)方法[5]，在給定測試集的情況下，該方法利用某種距離度量來挑選和測試集最相似的k個訓(xùn)練樣本，然后基于這k個鄰居的信息來預(yù)測新樣本的歸屬。對于分類任務(wù)，預(yù)測往往基于“投票法”，即新樣本的類別標(biāo)簽根據(jù)k個訓(xùn)練樣本出現(xiàn)最多的類別來選定。

kNN的理論依據(jù)非常簡單，易于理解，適合處理非線性數(shù)據(jù)集的多分類問題，被廣泛地應(yīng)用于流程工業(yè)故障檢測和診斷中。例如，為了適應(yīng)多模態(tài)批量軌跡非線性和非高斯分布的工業(yè)對象，2007年，He等提出了一種基于kNN的故障檢測方法[6]。針對FD-kNN密集計算量大、存儲量大、不利于在線過程監(jiān)控的問題，Yang等人提出了一種基于陸地標(biāo)記的譜聚類的kNN故障檢測方法[7]。2015年，Zhou等考慮到主成分分析(principal component analysis,PCA)降維可能扭曲樣本軌跡之間的距離，提出了一種基于距離保持的隨機(jī)投影算法和kNN的故障檢測方法[8]。

基于kNN的故障檢測方法對非線性多模態(tài)數(shù)據(jù)集具有適應(yīng)性，借助PCA等特征提取算法可有效地解決由遍歷未知樣本到所有已知樣本的距離而引起的時間復(fù)雜度問題。然而，數(shù)據(jù)維度越高，基于歐式距離的kNN算法的區(qū)分能力就越弱。同時，kNN算法可解釋性差，無法給出分類的明確規(guī)則。

1.1.2 隨機(jī)森林

隨機(jī)森林(random forest,RF)算法是一種由決策樹構(gòu)成的機(jī)器學(xué)習(xí)算法，它將弱分類器組合成森林，從而減小模型中參數(shù)估計的偏差。對高維數(shù)據(jù)、特征遺失數(shù)據(jù)、不平衡數(shù)據(jù)的處理是隨機(jī)森林的長處[9-10]。模型的多樣性和每個模型的強(qiáng)度被認(rèn)為是隨機(jī)森林學(xué)習(xí)性能的兩個關(guān)鍵命題。為提高分類樹之間的多樣性和隨機(jī)森林中個體分類樹的性能，采用層次聚類方法對隨機(jī)森林中的離線模型進(jìn)行選擇，可以同時降低在線故障分類復(fù)雜度。

在諸多RF算法中，基于Bagging的隨機(jī)森林算法在分類任務(wù)上具有得天獨(dú)厚的泛化能力。為適應(yīng)不同的工業(yè)對象，也出現(xiàn)了諸多不同融合與變式算法。例如，2018年Liu等提出了一種基于層次聚類選擇的加權(quán)隨機(jī)森林方案，用于復(fù)雜工業(yè)過程中的故障分類[11]；Zhang等結(jié)合風(fēng)力發(fā)電流程背景提出了一種結(jié)合XGBoost的隨機(jī)森林故障檢測框架[12]。值得指出的是，對于樣本數(shù)較少的工業(yè)數(shù)據(jù)集，基于Bagging的隨機(jī)森林不能產(chǎn)生很好的分類結(jié)果。

1.1.3 SVM

SVM是一種利用超平面劃分樣本的分類算法。若存在非線性關(guān)系時，SVM還可通過核函數(shù)將數(shù)據(jù)映射到高維特征空間進(jìn)行分類。對于樣本少、高維、非線性數(shù)據(jù)集等情形，SVM有著不可替代的優(yōu)勢。在集成學(xué)習(xí)和基于深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之前，SVM基本占據(jù)了分類模型的主流。特別在流程工業(yè)領(lǐng)域中，故障樣本數(shù)量相對較少，但信號數(shù)據(jù)易于采集的情況下，SVM算法在連續(xù)過程故障檢測和診斷任務(wù)上應(yīng)用非常廣泛[13]。

針對過程數(shù)據(jù)中正常和各故障下樣本不平衡，單類支持向量機(jī)作為一般SVM的一種變式，能夠在過程數(shù)據(jù)維度很高或?qū)ο嚓P(guān)數(shù)據(jù)分布沒有任何假設(shè)的情況下，檢測奇異樣本或者離群樣本。典型應(yīng)用有Mahadevan等提出的一種基于遞歸特征剔除單類支持向量機(jī)的故障檢測與診斷方法[14]。2014年，Yin等提出了一種魯棒性單類支持向量機(jī)，使離群樣本對單類 SVM的決策邊界影響較小，同時也引入了距離度量和相應(yīng)的閾值[15]。由于工業(yè)中故障數(shù)據(jù)存在高相關(guān)性以及噪聲，Nor等結(jié)合了小波分析、核Fisher判別和SVM算法等優(yōu)勢，提出多尺度故障分類診斷方法[16]；Ghalyani在多標(biāo)簽SVM的基礎(chǔ)上融入模糊思想，在工廠的冷卻循環(huán)露點過程中取得不錯的效果[17]。針對存在變量漂移的動態(tài)過程， Gul等使用增量支持向量機(jī)使得SVM能夠適應(yīng)變量的變化趨勢[18]。

1.1.4 貝葉斯網(wǎng)絡(luò)

貝葉斯網(wǎng)絡(luò)(Bayesian network,BN)是一種簡單的因果推理模型。Gonzalez 等利用貝葉斯網(wǎng)代替PCA和獨(dú)立主成分分析(independent component analysis,ICA)來進(jìn)行過程監(jiān)測，使得提取后的變量具有可解釋性，并結(jié)合核密度估計方法來處理非高斯過程的數(shù)據(jù)[19]；Dey等利用貝葉斯網(wǎng)絡(luò)診斷加工過程中狀態(tài)變化的根本原因[20]。為了改善貝葉斯網(wǎng)絡(luò)的效果，Zhao等提出了三層網(wǎng)絡(luò)結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò)來進(jìn)行冷水機(jī)的故障檢測和診斷[21]。Cai等建立了一種與故障層直接相連的新層，稱為觀測信息層，提高了故障診斷的準(zhǔn)確性，并將其應(yīng)用于多傳感器數(shù)據(jù)融合的地源熱泵故障診斷[22]。Adedigba等提出基于利用PCA 和BN 的綜合動態(tài)失效預(yù)測分析方法[23]；Yang等將案例推理與BN結(jié)合，提出了一種基于故障模式及影響分析的案例推理方法[24]。

針對整個工廠的大規(guī)模過程，Zhu等提出系統(tǒng)的分布式貝葉斯網(wǎng)絡(luò)建模方法[25]?？紤]數(shù)據(jù)復(fù)雜性和過程不確定性，Wang等改進(jìn)了BN算法，使用過程知識和數(shù)據(jù)驅(qū)動相關(guān)分析結(jié)合的混合技術(shù)來確定BN網(wǎng)絡(luò)結(jié)構(gòu)[26]。針對過程的動態(tài)特性，Amin等提出了基于動態(tài)貝葉斯網(wǎng)的故障檢測、根源診斷和故障傳播路徑識別方案[27]。

1.2 回歸

在流程工業(yè)中，回歸分析常用于軟測量和質(zhì)量監(jiān)測。較為廣泛使用的有監(jiān)督回歸算法包括：主成分回歸法(principal component regression,PCR)、偏最小二乘回歸(partial least squares regression,PLSR)、支持向量回歸(support vector regression,SVR)。

1.2.1 PCR

PCR是一種針對高維數(shù)據(jù)的回歸算法，其核心思想是通過數(shù)據(jù)降維，消除自變量中相關(guān)性的重復(fù)?？紤]流程工業(yè)數(shù)據(jù)集的不規(guī)則采樣；Ge等人引入貝葉斯正則化的基于半監(jiān)督主成分回歸的軟測量建模方法，有效地融合了未標(biāo)記過程數(shù)據(jù)信息[28]；Yuan等提出了一種在實時學(xué)習(xí)框架下的基于局部加權(quán)核主成分分析的軟測量方法，使模型具有對非線性關(guān)系的擬合能力和實時更新能力[29]。考慮數(shù)據(jù)集樣本不均衡、多工況非線性對象；Zhu等提出了一種基于混合半監(jiān)督貝葉斯主成分分析的軟測量模型[30]。

主成分分析僅考慮了過程變量之間的相關(guān)性，并沒有將過程變量與目標(biāo)變量之間的相關(guān)性納入模型范疇。這使得工業(yè)數(shù)據(jù)特有的過程變量信息冗余性的問題沒有得到解決。

1.2.2 PLSR

PLSR是一種可用于多因變量對多自變量建模的分析方法。在軟測量建模中，若數(shù)據(jù)量小于變量維數(shù)，其效果一般優(yōu)于主成分回歸[31]。在諸多應(yīng)用場景中，PLSR已被證明能夠捕捉局部工況或者模式下的過程數(shù)據(jù)和指標(biāo)之間的線性關(guān)系?？紤]過程數(shù)據(jù)中的動態(tài)變化，Wang等基于石化工業(yè)產(chǎn)品質(zhì)量實時軟測量背景，在建模過程中覆蓋過程數(shù)據(jù)中的動態(tài)變化，實現(xiàn)動態(tài)偏最小二乘(dynamic partial least squares,DPLS)軟測量[32]；Galicia等為DPLS提供了理論分析與驗證并提出了一種基于降階DPLS的軟測量方法[33]。除基于DPLS外，Kaneko等也提出了利用基于ICA的故障檢測與分類模型對目標(biāo)變量進(jìn)行預(yù)測，對PLSR模型進(jìn)行適當(dāng)?shù)哪Ｐ透耓34]；Liu提出快速移動窗口算法來實現(xiàn)PLSR模型的實時更新，并應(yīng)用于預(yù)測空氣分離過程中的氧濃度[35]；Poerio等提出了一種基于高度重疊的遞歸PLS的軟測量方法，以多局部模型集成、遞歸的形式，提高在線更新和對動態(tài)過程數(shù)據(jù)的魯棒性[36]。針對不規(guī)則采樣的問題，Zheng等提出了一種基于半監(jiān)督概率偏最小二乘的軟測量模型，對聚丙烯生產(chǎn)工藝流程進(jìn)行分析[37]。

值得注意，無論是PCR或是PLSR，其特征提取均只捕捉了變量間的線性關(guān)系，并不能有效地將非線性關(guān)系納入考慮范疇。為此，提出了各類核函數(shù)的方法，但所涉及核函數(shù)的種類和伴隨而來的超參數(shù)對于一般過程數(shù)據(jù)很難實現(xiàn)自適應(yīng)。

1.2.3 SVR

SVR是一種常用的非線性建模方法，其策略是運(yùn)用非線性變換函數(shù)將非線性數(shù)據(jù)映射到高維特征空間，再利用線性回歸方法進(jìn)行建模。為應(yīng)對流程工業(yè)對象發(fā)生漂移工況，Kaneko提出了一種基于結(jié)合時間變量的在線SVR的軟測量模型[38]；并基于預(yù)測精度和計算時間選擇合適的超參數(shù)和窗口大小，對上述軟測量方法進(jìn)行優(yōu)化與理論分析[39]。針對間歇過程，Jin等提出了一種基于局部學(xué)習(xí)和在線SVR的批處理多模型自適應(yīng)軟測量方法[40]。基于同策略，Zhang等提出了一種基于局部目標(biāo)集參數(shù)優(yōu)化的最小二乘支持向量機(jī)的軟測量模型及該方法的分布并列式框架[41]。

2 深度學(xué)習(xí)

近年來，深度學(xué)習(xí)作為一種基于大量可用數(shù)據(jù)與計算機(jī)強(qiáng)大計算能力的特征提取方法，進(jìn)入了人們的視線，其深層結(jié)構(gòu)所獨(dú)有的特征重用、抽象以及不變性等特征，能夠較好地適應(yīng)復(fù)雜結(jié)構(gòu)和高維大樣本的特征提取。具體說，特征提取算法旨在從原始復(fù)雜數(shù)據(jù)中最大限度地提取出蘊(yùn)含特異性信息的不變性特征。相較于傳統(tǒng)機(jī)器學(xué)習(xí)，深度學(xué)習(xí)僅需要處理一階原始特征，模型結(jié)構(gòu)會自發(fā)地學(xué)習(xí)到對象或系統(tǒng)的抽象特征表示[42-44]。

根據(jù)不同的特征提取原理，典型的深度學(xué)習(xí)結(jié)構(gòu)有自編碼器、深度置信網(wǎng)和卷積神經(jīng)網(wǎng)絡(luò)。

2.1 自動編碼器

作為PCA的衍生，2006年由Hinton提出的自動編碼器(autoencoder,AE)是一種無監(jiān)督的深度學(xué)習(xí)算法，可根據(jù)項目的特定需求，自動地將輸入數(shù)據(jù)轉(zhuǎn)換為不同維度的編碼[45]。一般地，自編碼器的優(yōu)化是通過反向傳播重構(gòu)輸入與原始輸入之間的重構(gòu)誤差實現(xiàn)的。重構(gòu)誤差可以作為數(shù)據(jù)壓縮過程中信息丟失的度量。它可以通過計算重構(gòu)輸入和原始輸入之間的均方根誤差以及交叉熵等來量化。最終通過AE對特征提取模型進(jìn)行貪婪逐層預(yù)訓(xùn)練[46]，以確定每層自動編碼器權(quán)值矩陣的初始參數(shù)值?；谀繕?biāo)變量的標(biāo)簽值，通過最后一層全連接層以誤差反向傳播的形式，以微調(diào)整個深度神經(jīng)網(wǎng)絡(luò)。

受模型復(fù)雜度、訓(xùn)練集數(shù)據(jù)量以及數(shù)據(jù)噪聲等因素的影響，通過AE得到的初始模型往往存在過擬合的風(fēng)險。降噪自動編碼器(denoising autoencoder，DAE)是AE的一個特殊版本[47]，力圖在盡可能保留關(guān)于原始輸入的本征信息的同時，消除應(yīng)用于AE輸入數(shù)據(jù)的隨機(jī)噪聲或損壞的影響。DAE兼具深度網(wǎng)絡(luò)結(jié)構(gòu)和降噪功能所提供的泛化能力和對有限輸入擾動的魯棒性，故在流程工業(yè)領(lǐng)域中魯棒建模、軟測量亦或是過程故障檢測和診斷都有著其應(yīng)用的優(yōu)勢。Zhang等提出了一種基于疊加去噪自動編碼器(stacked denoising autoencoder,SDAE)和kNN的非線性過程監(jiān)測方法[48]；Yan等提出了一種基于DAE的軟測量建模方法，采用改進(jìn)的梯度下降法對深度網(wǎng)絡(luò)結(jié)構(gòu)模型的參數(shù)進(jìn)行迭代更新[49]。

2.2 深度置信網(wǎng)絡(luò)

深度置信網(wǎng)絡(luò)(deep belief networks,DBNs)是一個無監(jiān)督概率生成模型。與傳統(tǒng)判別模型相對，生成模型是建立觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布的評估[50]。受限玻爾茲曼機(jī)(restricted boltzmann machines,RBMs)是深度置信網(wǎng)絡(luò)的基礎(chǔ)模塊。DBNs是一種圖形模型，它學(xué)習(xí)提取訓(xùn)練數(shù)據(jù)的深層抽象表示，兼有對先驗知識和后驗知識學(xué)習(xí)與評估的特性，因此適用于故障識別和診斷等需要考慮因果關(guān)系的任務(wù)。例如，Gan等針對機(jī)械系統(tǒng)的多層次故障診斷任務(wù)，提出了一種具有小波包能量特征的層次故障診斷網(wǎng)絡(luò)[51]。Tao等提出了一種結(jié)合多振動信號和DBNs的故障診斷方法，利用DBNs的特征提取能力，自適應(yīng)融合多特征數(shù)據(jù)，識別各種軸承故障[52]。相似地， Zhang等提出了一種基于DBNs和多傳感器數(shù)據(jù)融合的智能球螺旋退化識別方法[53]；Sha等以滾動軸承為對象，提出了一種局部線性嵌入連續(xù)DBNs的故障檢測方法，以適應(yīng)高維非線性結(jié)構(gòu)的數(shù)據(jù)[54]。

2.3 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)，訓(xùn)練時可以選擇依據(jù)標(biāo)簽或目標(biāo)變量的監(jiān)督學(xué)習(xí)，也可選擇無標(biāo)簽或目標(biāo)變量的非監(jiān)督學(xué)習(xí)。其隱含層由共享參數(shù)的卷積核的卷積層和具有稀疏性的池化層組成，使得卷積神經(jīng)網(wǎng)絡(luò)能夠在訓(xùn)練過程中以較小的計算量對格點化特征進(jìn)行學(xué)習(xí)，且對輸入數(shù)據(jù)的特征沒有額外要求。一般地，CNN由以下三種層結(jié)構(gòu)構(gòu)成：①卷積層由若干卷積單元組成;②池化層由非線性池化函數(shù)組成，旨在實現(xiàn)對特征的降采樣;③全連接層位于網(wǎng)絡(luò)末端，由一般的全連接網(wǎng)絡(luò)組成，旨在特征提取完成后，完成分類任務(wù)。

CNN對具有格點化特征的圖像數(shù)據(jù)進(jìn)行特征提取有著獨(dú)有的優(yōu)勢。即針對先進(jìn)檢測儀器所采集的數(shù)據(jù)，例如光譜數(shù)據(jù)和熱成像數(shù)據(jù)等，CNN可表現(xiàn)出超越其他特征提取算法的優(yōu)越性。2018年Le等提出一種基于光譜分析儀的卷積神經(jīng)網(wǎng)絡(luò)-極端學(xué)習(xí)機(jī)(convolutional neural network-extreme learning machine, CNN-ELM)煤樣分析方法。采用該方法對煤樣的水分(%)、灰分(%)、揮發(fā)性物質(zhì)(%)、固定碳(%)、硫(%)含量及低熱值(J/g)進(jìn)行了回歸分析[55]；Wen提出了一種CNN故障診斷方法，通過將信號轉(zhuǎn)換為二維圖像，提取轉(zhuǎn)換后的二維圖像特征，并在電機(jī)軸承數(shù)據(jù)集、自吸離心泵數(shù)據(jù)集和軸向柱塞液壓泵數(shù)據(jù)集上取得了良好的故障診斷準(zhǔn)確率[56]。

3 流形學(xué)習(xí)

根據(jù)流形分布定律——高維數(shù)據(jù)往往分布在低維流形附近，流形學(xué)習(xí)能直接學(xué)習(xí)這種流形結(jié)構(gòu)，從而提取數(shù)據(jù)中的目標(biāo)信息。相比其他維數(shù)約簡的方法，流形學(xué)習(xí)不再使用均值和方差這類的統(tǒng)計性質(zhì)，而是直接使用流形的幾何性質(zhì)，如測地線距離、局部歐式空間性質(zhì)、切平面性質(zhì)[57-58]等。

在過程監(jiān)測和故障診斷中，典型多元統(tǒng)計方法PCA和PLS學(xué)習(xí)的是高維數(shù)據(jù)的全局性質(zhì)，而流形學(xué)習(xí)針對的是數(shù)據(jù)的局部信息。典型流形學(xué)習(xí)算法有鄰域保持嵌入和局部保持投影。它們分別保留了與局部線性嵌入和拉普拉斯特征映射相同的學(xué)習(xí)非線性流形結(jié)構(gòu)的能力，還可以對函數(shù)進(jìn)行線性估計，具有良好的泛化能力。

3.1 局部保持投影

局部保持投影(locality preserving projection,LPP)是一種能較好保持非線性流行結(jié)構(gòu)的線性流形學(xué)習(xí)方法，它的特點是觀察空間里相鄰的點在投影后也能保持相鄰關(guān)系。

作為一種線性流形學(xué)習(xí)方法，LPP已經(jīng)成功應(yīng)用于流程工業(yè)中，如批次過程監(jiān)測。為了同時保留數(shù)據(jù)的全局和局部性質(zhì)，Yu將LPP的思想引入PCA，提出局部和全局主成分分析算法[59]；Luo利用PCA的優(yōu)勢改進(jìn)LPP提出全局和局部保持投影算法[60]。近年來，許多研究者針對LPP提出了更多的改進(jìn)方法，使其適用于更廣泛的過程監(jiān)測。Zhong等為了利用測量數(shù)據(jù)和質(zhì)量指標(biāo)數(shù)據(jù)之間的關(guān)系，同時捕捉他們的流形并進(jìn)行分析，提出質(zhì)量相關(guān)的全局和局部偏最小二乘映射[61]；Song等為進(jìn)一步提升監(jiān)測效果，提出時空全局和局部映射方法，同時利用數(shù)據(jù)的時間和空間信息來構(gòu)建領(lǐng)域，進(jìn)而更好地捕捉數(shù)據(jù)的流形結(jié)構(gòu)[62]。

3.2 鄰域保持嵌入

鄰域保持嵌入(neighborhood preserving embedding,NPE)是一種局部線性嵌入維數(shù)約簡方法。該方法首先構(gòu)建一個矩陣來描述樣本點之間的局部歐氏空間性質(zhì)，然后尋找一個使得局部性質(zhì)能夠最大程度被保留線性映射。NPE及其改進(jìn)算法在流程工業(yè)中的應(yīng)用非常普遍，如Ma等考慮數(shù)據(jù)的全局和局部信息，提出了局部和全局嵌入算法[63]。Song等在NPE只考慮重構(gòu)誤差的基礎(chǔ)上，提出雙重權(quán)重矩陣和強(qiáng)化的目標(biāo)函數(shù)[64]?？紤]到非單峰高斯分布的過程數(shù)據(jù)，Li等利用基于局部信息的統(tǒng)計方法學(xué)習(xí)多元高斯分布數(shù)據(jù)的優(yōu)點，結(jié)合NPE提出空間局部統(tǒng)計方法進(jìn)行過程監(jiān)測[65]；針對動態(tài)過程，Hu等提出動態(tài)多路NPE進(jìn)行補(bǔ)料間歇過程監(jiān)測[66]。

4 結(jié)束語

目前，深度學(xué)習(xí)正在向流程工業(yè)領(lǐng)域滲透。深層網(wǎng)絡(luò)結(jié)構(gòu)的算法所具有的靈活性是不可估量的。但深度學(xué)習(xí)仍存在其固有缺陷：①深度學(xué)習(xí)的深層網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致訓(xùn)練用時增加，使得深度學(xué)習(xí)的在線更新難以實現(xiàn)；②隨著深度的增加，人為選定的每一層網(wǎng)絡(luò)神經(jīng)元個數(shù)、激活函數(shù)、網(wǎng)絡(luò)層數(shù)等決定了模型所能達(dá)到的上限；③深度結(jié)構(gòu)對于大數(shù)據(jù)量(或稱大信息量)的數(shù)據(jù)集具有強(qiáng)依賴性。

直接使用幾何性質(zhì)的流形學(xué)習(xí)區(qū)別于基于統(tǒng)計理論的特征提取算法，在機(jī)器學(xué)習(xí)領(lǐng)域獨(dú)樹一幟，通過保留結(jié)構(gòu)化數(shù)據(jù)的局部性質(zhì)而非全局性質(zhì)，以保留數(shù)據(jù)流形結(jié)構(gòu)的幾何性質(zhì)。流形學(xué)習(xí)在流程工業(yè)過程中的廣泛應(yīng)用，還有諸多方面值得進(jìn)一步探討：①在構(gòu)建鄰域時，鄰域參數(shù)如何選??；②鄰域構(gòu)建搜索算法的計算復(fù)雜度問題；③在流形學(xué)習(xí)的超參數(shù)中數(shù)據(jù)固有維數(shù)對學(xué)習(xí)效果影響；④流形學(xué)習(xí)算法多集中于無監(jiān)督學(xué)習(xí)，如何利用樣本標(biāo)簽的類別信息。

綜上，雖然機(jī)器學(xué)習(xí)在過程控制與優(yōu)化領(lǐng)域中正逐步發(fā)揮不可替代的作用，但僅依賴于數(shù)據(jù)驅(qū)動模型也會為過程安全保障帶來風(fēng)險。如何使機(jī)器學(xué)習(xí)更好地應(yīng)用于流程工業(yè)，還需多學(xué)科進(jìn)一步協(xié)同攻關(guān)。