亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于PLS子空間對齊的2,6-二甲酚純度遷移學習建模

2022-11-07 07:55:56鄔云飛欒小麗

光譜學與光譜分析 2022年11期

鄔云飛，欒小麗，劉飛

江南大學自動化研究所，輕工過程先進控制教育部重點實驗室，江蘇無錫 214122

引言

物質(zhì)濃度在線測量是產(chǎn)品質(zhì)量控制的關鍵，主要通過測量樣品體系中隨物質(zhì)濃度改變而變化的物理化學性質(zhì)關聯(lián)得到[1]。近紅外光譜是一種先進的在線過程檢測技術，其原理是使用13 333～4 000 cm-1波長范圍的電磁輻射探測樣品獲得光譜信息[2]，通過化學計量學方法建立光譜信息與物質(zhì)濃度之間的關系，已被廣泛用于化工[3-4]、制藥[5]、生物[6]、食品[7]和醫(yī)療[8]等行業(yè)。近紅外光譜檢測結(jié)果的準確性與模型的質(zhì)量密切相關，研究人員已經(jīng)提出了很多方法來構建校正模型，比如偏最小二乘回歸、多元線性回歸、主成分回歸等。隨著機器學習技術的發(fā)展，Chen等[9]提出了一種用于建立光譜校正模型的貝葉斯方法，建立的貝葉斯模型具有較低的預測誤差；Bian等[10]引入極限學習機算法用于復雜樣品的光譜定量分析，兼顧了模型的預測精度和穩(wěn)定性；Yang等[11]將深度學習用于光譜分析，提高了對數(shù)據(jù)集的特征提取能力，但是對樣本量的需求較大。

在使用近紅外光譜進行在線測量時，需要足夠多的歷史樣本離線構建模型。然而在實際工業(yè)生產(chǎn)過程的最后階段，樣品的純度越來越高，樣本的多樣性不足，物質(zhì)濃度與光譜之間缺乏相關性。在這樣的數(shù)據(jù)條件下，傳統(tǒng)方法建立的模型很難達到期望的預測性能。例如，在重要的化工中間體2,6-二甲酚(2,6-dimethylphenol，2,6-DMP)的生產(chǎn)過程中，由于產(chǎn)品塔的產(chǎn)品純度較高，近紅外檢測數(shù)據(jù)缺乏多樣性，模型的泛化能力較弱。針對高質(zhì)量訓練數(shù)據(jù)較少的問題，遷移學習能夠從相關領域遷移信息來改進目標領域的模型性能，從而減少對目標領域數(shù)據(jù)數(shù)量和質(zhì)量的依賴[12]。Liu等[13]采用遷移學習策略，擴展了樣本的數(shù)量和多樣性，提高了故障診斷結(jié)果的穩(wěn)定性和準確性；Wang等[14]運用基于局部相似特征選擇的遷移學習方法，對不同原油在不同檢測條件下的近紅外光譜數(shù)據(jù)實現(xiàn)了快速建模；褚菲等[15]將遷移學習方法與多尺度核學習方法相結(jié)合，改善了間歇過程產(chǎn)品質(zhì)量的預測精度。

借鑒遷移學習中不同數(shù)據(jù)域的知識傳遞思想，本研究針對高純度的產(chǎn)品塔2,6-DMP在線檢測問題，利用其他塔的光譜數(shù)據(jù)和產(chǎn)品塔光譜數(shù)據(jù)的相似性，提出了一種基于偏最小二乘(PLS)子空間對齊的遷移學習建模方法。首先借助偏最小二乘為產(chǎn)品塔和其他塔的數(shù)據(jù)集創(chuàng)建子空間，然后學習其他塔到產(chǎn)品塔數(shù)據(jù)集子空間的映射函數(shù)，并將其他塔的樣本數(shù)據(jù)投影到對齊之后的子空間以生成新的特征表示，最后采用遷移之后的新特征建立模型?；谧涌臻g的遷移學習中，通常采取尋找公共子空間或者構建一組中間表示的策略，不僅可能代價高昂，還會造成源域和目標域信息的損失。通過PLS子空間對齊可以直接比較各數(shù)據(jù)域的樣本特征，無需進行其他的投影。該方法可以充分利用其他塔多樣性較好的光譜數(shù)據(jù)，為產(chǎn)品塔建立具有可靠性和高預測精度的模型，從而實現(xiàn)2,6-DMP產(chǎn)品質(zhì)量的實時調(diào)控。

1 實驗部分

1.1 偏最小二乘回歸算法

在產(chǎn)品分離提純過程中，混合體系由多組分構成，組分的種類和含量未知，不同種類物質(zhì)的近紅外光譜特征吸收峰存在重疊，不能對一系列標準溶液做出校正曲線。偏最小二乘(partial least squares，PLS)方法通過在特征空間內(nèi)提取主成分來描述光譜數(shù)據(jù)與純度值之間的關系，適用于樣本數(shù)較少而變量數(shù)較多的過程建模，能夠用于產(chǎn)品純度的在線測量[1]。

光譜數(shù)據(jù)X={xi;i=1，…，n}，與2,6-DMP純度Y={yi;i=1，…,n}，其中n是樣本數(shù)目。PLS分別從X和Y中提取主成分t1和u1，它們必須滿足：

(1)t1和u1應該分別攜帶盡可能多的X和Y的變異信息，即var(t1)→max，var(u1)→max；

(2)t1和u1之間的相關性最大，即r(t1，u1)→max。

上述兩個條件綜合起來，即要求t1和u1的協(xié)方差達到最大

(1)

式(1)中，cov(·，·)表示協(xié)方差，var(·)表示方差，r(·，·)表示相關系數(shù)。式(1)可轉(zhuǎn)化成下列優(yōu)化問題

(2)

提取第一個主成分后，建立E0，F(xiàn)0對t1的回歸模型，然后運用E0，F(xiàn)0被t1解釋后的殘差信息提取第二個主成分t2，重復該過程，直到提取A個主成分滿足精度要求。PLS算法提取主成分過程如下(i=1∶A)：

(1) 通過特征值分解法獲得wi和ci；

(2) 計算主成分ti，載荷向量pi，系數(shù)向量ri以及殘差信息Ei和Fi：

ti=Ei-1wi

通過以上步驟，提取到主成分T=(t1, …，tA)，獲得載荷矩陣P=(p1, …，pA)，系數(shù)矩陣R=(r1, …，rA)和W=(w1, …，wA)。

主成分與矩陣E0的關系為

T=E0V

(3)

式(3)中，V=W(PTW)-1表示投影矩陣。

最終可以得到模型回歸系數(shù)，見式(4)

β=VRT

(4)

1.2 基于PLS的子空間對齊方法

子空間對齊(subspace alignment，SA)方法使用主成分分析(principal component analysis，PCA)為源域數(shù)據(jù)和目標域數(shù)據(jù)提取d個特征向量，作為源域和目標域子空間的基，用ZS和ZT表示。然后使用映射矩陣M∈Rd×d對齊兩個域的基向量，將源域子空間坐標系轉(zhuǎn)換為目標域子空間坐標系，矩陣M通過最小化布雷格曼矩陣散度(Bregman matrix divergence)獲得，見式(5)

(5)

(6)

主成分回歸進行降維時僅考慮光譜數(shù)據(jù)X，而在偏最小二乘回歸中考慮了光譜數(shù)據(jù)X與純度值Y之間的關系，不僅能概括光譜數(shù)據(jù)中所包含的信息，也能更好地解釋純度值。將子空間對齊方法拓展到偏最小二乘回歸中，具體描述如下：

(1) 輸入：其他塔的樣本集(XS，YS)，產(chǎn)品塔樣本集(XT，YT)，標準化處理后分別為(ES，F(xiàn)S)和(ET，F(xiàn)T)。

(2) 首先采用PLS算法分別獲得其他塔和產(chǎn)品塔各自子空間的投影矩陣VS和VT；

(7)

式(7)中，“+”表示廣義逆；

(4) 計算遷移后其他塔的投影矩陣Vtrans和主成分Ttrans，見式(8)

Ttrans=XSVtrans

(8)

(5) 計算遷移后其他塔的載荷矩陣Ptrans和系數(shù)矩陣Rtrans(i=1∶A)

ti=Ttrans(∶,i)

Ptrans(∶,i)=pi

Rtrans(∶,i)=ri

(6) 計算遷移后的回歸系數(shù)，見式(9)

(9)

(7) 輸出：采用競爭學習加權策略(winner-takes-all based weighting method)[16]，即計算產(chǎn)品塔回歸系數(shù)βt和遷移后其他塔回歸系數(shù)βtrans對應的交叉驗證均方根誤差，選擇誤差較小的作為最終的模型回歸系數(shù)βf，算法流程如圖1所示。

圖1 遷移學習算法建模流程圖Fig.1 Modeling flow diagram of transfer learning algorithm

2 結(jié)果與討論

2.1 過程描述

目前國內(nèi)外合成2,6-DMP的主要方法有天然分離法、苯胺重氮化水解法、甲苯氯化水解法及苯酚烷基化法。工業(yè)上常用苯酚烷基化法，該方法選擇性較高且成本較低，適宜連續(xù)生產(chǎn)，本文研究的2,6-DMP制備過程如圖2(a)所示。

圖2 工藝流程與反應原理 (a)：工藝流程圖；(b)：反應原理圖Fig.2 Process flow diagrams and Reactive principle sketch (a)：Process flow diagram；(b): Reactive principle sketch

以苯酚和甲醇為原料，選擇合適的催化劑后在固定床管式反應器進行烷基化反應，反應原理如圖2(b)所示。反應氣依次經(jīng)過脫醇水塔、脫苯酚塔和鄰甲酚粗品塔，到達2,6-DMP產(chǎn)品塔，在產(chǎn)品塔頂部獲得產(chǎn)品2,6-DMP。由圖2(b)可知，產(chǎn)物含有鄰甲酚及其他雜質(zhì)，為了在線檢測生產(chǎn)流程中各組分的含量，分別在脫苯酚塔的底部、鄰甲酚粗品塔的底部和2,6-DMP產(chǎn)品塔的頂部安裝了近紅外光譜儀和檢測探頭，在線收集管道中物料的近紅外光譜數(shù)據(jù)，通過已建立的模型得到產(chǎn)品純度的預測值。

2,6-DMP產(chǎn)品塔的產(chǎn)品純度高，化驗室通過氣相色譜法標注的純度值分布在一個較小的區(qū)間內(nèi)，且存在很高的重復性，傳統(tǒng)的建模方法無法精確建模。在產(chǎn)品2,6-DMP的精餾提純過程中，不同檢測點處樣品有機物的含量和種類不同，脫苯酚塔和鄰甲酚粗品塔檢測點采集的光譜數(shù)據(jù)與產(chǎn)品塔存在差異，但是樣品中有機成分種類有重合，近紅外光譜在相同波數(shù)處存在相似的的吸收峰，如圖3所示。本工作提出的一種基于PLS子空間對齊的遷移學習建模方法能夠利用這種相似性，借助其他檢測點的光譜數(shù)據(jù)，有效提升產(chǎn)品塔檢測點模型的性能。

圖3 不同檢測點處的光譜比較Fig.3 Spectral comparison at different detecting points

2.2 數(shù)據(jù)

建模所用的原始光譜來自某合成材料公司的2,6-DMP制備過程。使用布魯克在線近紅外光譜儀采集樣本光譜，掃描光譜范圍為12 500～4 000 cm-1，實際使用范圍11 000～5 000 cm-1。近紅外光譜數(shù)據(jù)集對應的2,6-DMP純度值由化驗室通過氣相色譜法分析離線獲得，各個檢測點的純度值數(shù)據(jù)特征如表1所示。采用變異系數(shù)來衡量樣本離散程度，因為標準差是一個絕對指標，當用其來對同一總體的不同時期進行對比時，由于平均值不同，缺乏可比性。變異系數(shù)是標準差與平均值的比值，可以消除平均值不同對樣本集離散程度對比的影響。通過比較變異系數(shù)發(fā)現(xiàn)，產(chǎn)品塔的變異系數(shù)明顯小于脫苯酚塔和鄰甲酚粗品塔，說明產(chǎn)品塔的樣本區(qū)分度低。

表1 不同檢測點的2,6-DMP純度值特征Table 1 2,6-DMP purity distribution at differentdetecting points

2.3 實驗結(jié)果

(1)將2,6-DMP產(chǎn)品塔檢測點獲得的數(shù)據(jù)集中30組數(shù)據(jù)作為訓練集，20組數(shù)據(jù)作為測試集。模型性能的評價指標采用近紅外光譜分析方法中最常用的預測均方根誤差(root mean square error of prediction，RMSEP)[2]，計算公式如式(10)

(10)

為了更直觀地觀察PLS子空間對齊方法的效果，引入指標性能提升百分比IP，計算公式如式(11)所示。

(11)

式(11)中，RMSEPPLS為僅使用產(chǎn)品塔訓練集訓練PLS模型的預測均方根誤差，RMSEPPLS-SA為使用PLS子空間對齊方法訓練模型的預測均方根誤差。

(2)分析不同數(shù)量的輔助光譜對2,6-DMP產(chǎn)品塔模型性能的影響，將脫苯酚塔檢測點和鄰甲酚粗品塔檢測點采集的光譜數(shù)據(jù)，按照不同數(shù)量(30～300)依次加入到產(chǎn)品塔訓練集中。為了證明PLS子空間對齊方法的有效性，與傳統(tǒng)機器學習方法支持向量機回歸和BP神經(jīng)網(wǎng)絡進行了比較，支持向量機回歸選擇高斯核函數(shù)，脫苯酚塔樣本作為輔助數(shù)據(jù)時核參數(shù)選擇4.5，鄰甲酚粗品塔樣本作為輔助數(shù)據(jù)時核參數(shù)選擇5.5；BP神經(jīng)網(wǎng)絡隱藏層神經(jīng)元個數(shù)選擇5，最大迭代次數(shù)為100。

PLS子空間對齊方法中唯一的參數(shù)是主成分數(shù)，選取與產(chǎn)品塔訓練集同樣數(shù)目的脫苯酚塔樣本和鄰甲酚粗品塔樣本，比較不同主成分數(shù)下的模型性能，結(jié)果如圖4所示。在主成分數(shù)較少時，模型的預測均方根誤差較小，性能較高，最后選擇因子數(shù)為7，此時僅使用產(chǎn)品塔訓練集構建模型的預測均方根誤差值為0.059 4。

圖4 不同主成分數(shù)對模型性能的影響Fig.4 Different principal component numbersimpact on model performance

圖5(a)和圖6(a)分別是遷移脫苯酚塔不同數(shù)量樣本輔助建模所得的建模誤差和遷移鄰甲酚粗品塔不同數(shù)量樣本輔助建模所得的建模誤差，紅色曲線表示運用PLS子空間對齊方法的建模誤差，藍色曲線表示其他塔樣本與產(chǎn)品塔樣本合并后運用PLS算法的建模誤差，黑色曲線表示運用支持向量機回歸算法的建模誤差，綠色曲線表示使用BP神經(jīng)網(wǎng)絡算法的建模誤差。圖5(b)和圖6(b)分別是遷移脫苯酚塔樣本數(shù)據(jù)后的性能提升百分比和遷移鄰甲酚粗品塔樣本數(shù)據(jù)后的性能提升百分比。

從圖5和圖6中可以看出，相較于傳統(tǒng)方法，PLS子空間對齊方法對產(chǎn)品塔的模型性能有明顯的提升。隨著樣本數(shù)的增加，模型的性能提升呈下降趨勢，且脫苯酚塔的樣本作為輔助數(shù)據(jù)，在樣本量超過240時，對模型性能已沒有提升，表明隨著輔助數(shù)據(jù)數(shù)量的增加，引入了對產(chǎn)品塔模型有害的樣本，導致了負遷移。

觀察圖5和圖6可知，借助鄰甲酚粗品塔30個樣本時，模型性能的提升最大，此時預測均方根誤差為0.028 4，性能提升百分比為52.19%。圖7(a)是此時的模型曲線，圖7(b)是預測值與實際值的散點圖。從圖7可以看出，PLS子空間對齊方法建立的模型預測效果更好。

3 結(jié) 論

針對產(chǎn)品生產(chǎn)最后階段物質(zhì)濃度提高，樣本區(qū)分度低，多樣性不足，無法精確建模的問題，提出了一種基于PLS子空間對齊的遷移學習建模方法。在偏最小二乘回歸算法的基礎上，為兩個域創(chuàng)建子空間，然后最小化布雷格曼矩陣散度從而獲得源子空間到目標子空間的映射，完成源域特征到目標域特征的遷移。在某公司制備2,6-二甲酚過程的近紅外檢測數(shù)據(jù)集上進行了仿真驗證，結(jié)果表明，所提方法能夠借助其他塔的數(shù)據(jù)來提升產(chǎn)品塔高濃度產(chǎn)品檢測模型的穩(wěn)定性和準確性，具有一定的實用價值。在后續(xù)的工作中將進一步研究遷移模型性能與樣本數(shù)量之間的定量關系以及如何避免負遷移。

圖5 遷移脫苯酚塔不同樣本數(shù)對模型性能的影響 (a)：遷移脫苯酚塔不同樣本數(shù)對模型性能的影響；(b)：遷移脫苯酚塔不同樣本數(shù)的模型性能提升百分比Fig.5 Different sample numbers of dephenolization tower impact on model performance (a)：Impact on model performance for transferring different sample numbers of dephenolization tower； (b): Model performance improvement percentage for transferring different sample numbers of dephenolization tower

圖6 遷移鄰甲酚粗品塔不同樣本數(shù)對模型性能的影響 (a)：遷移鄰甲酚粗品塔不同樣本數(shù)對模型性能的影響；(b)：遷移鄰甲酚粗品塔不同樣本數(shù)的模型性能提升百分比Fig.6 Different sample numbers of o-cresol tower impact on model performance (a)：Impact on model performance for transferring different sample numbers of o-cresol tower； (b): Model performance improvement percentage for transferring different sample numbers of o-cresol tower

圖7 模型曲線與散點圖 (a)模型曲線；(b)：預測值與實際值散點圖Fig.7 Model curve and Scatter plot (a)：Model curve；(b): Scatter plot of prediceted and actual values