亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

聚谷氨酸發(fā)酵過程中ATR-FTIR光譜信號的分?jǐn)?shù)階基線校正

2022-06-06 10:24:58賀忠海王巧云李志剛

光譜學(xué)與光譜分析 2022年6期

關(guān)鍵詞：模型

何年，單鵬，賀忠海，王巧云，李志剛，吳綴

東北大學(xué)秦皇島分校控制工程學(xué)院，河北秦皇島 066000

引言

發(fā)酵過程中對物料濃度的在線檢測是保證產(chǎn)品質(zhì)量的關(guān)鍵，目前仍有大部分的工廠采用傳統(tǒng)的分離分析方法，費(fèi)時(shí)繁瑣，無法實(shí)現(xiàn)發(fā)酵的實(shí)時(shí)控制。而衰減全反射傅里葉變換紅外光譜(attenuation reflectance Fourier transformation infrared spectrometry, ATR-FTIR)技術(shù)具有快速、綠色、無損等優(yōu)點(diǎn)，應(yīng)用廣泛[1-3]，十分適合發(fā)酵過程中參數(shù)的在線檢測。本文通過對聚谷氨酸發(fā)酵過程中采集的ATR-FTIR光譜與建立的多元校正模型間接的測量發(fā)酵過程中主要底物葡萄糖和谷氨酸鈉的濃度。因光譜中存在基線漂移，影響定量分析精度，所以在建立多元校正模型前需進(jìn)行光譜預(yù)處理，去除噪聲和基線。

其中基于WS平滑算法的基線校正算法應(yīng)用廣泛，已成功應(yīng)用于各種光譜分析中。Eilers等首先將WS算法應(yīng)用于信號的平滑和插值[4]，隨后通過添加非對稱權(quán)重，在峰值信號處實(shí)現(xiàn)較強(qiáng)的光滑，將光滑曲線作為擬合基線，提出非對稱最小二乘基線校正算法[5](asymmetric least squares, AsLS)；Zhang等通過改進(jìn)非對稱權(quán)重，實(shí)現(xiàn)自適應(yīng)迭代，提出自適應(yīng)迭代加權(quán)懲罰最小二乘[6](adaptive iteratively reweighted penalized least squares, airpls)；Baek[7]等將權(quán)重按logistic函數(shù)分配，實(shí)現(xiàn)權(quán)重信息柔化。(asymmetrically reweighted penalized least squares smoothing, arpls)；姜安[8]等通過引入擬合殘差的一階導(dǎo)數(shù)作為新的懲罰項(xiàng)，用直方圖估計(jì)背景設(shè)定閾值，加快迭代速度(jiang improved asymmetric least squares baseline correction algorithm, jasls)；He[9]等通過改進(jìn)jasls的閾值，形成(improved asymmetric least squares method, iasls)；近年Xu[10]等給懲罰項(xiàng)加上新的權(quán)重，形成重加權(quán)懲罰基線校正(doubly reweighted penalized least squares, drpls)；Ye[11]等通過改進(jìn)arpls的權(quán)重賦值函數(shù)，實(shí)現(xiàn)進(jìn)一步優(yōu)化(improved asymmetrically reweighted penalized least squares, iarpls)。

這些算法多是以改變權(quán)重或自動迭代權(quán)重的方式進(jìn)行改進(jìn)，但對基線的約束都采取相同策略，選擇階次較低的整數(shù)階微分；此外還引入新的懲罰項(xiàng)來改進(jìn)算法性能。這種改進(jìn)可以通過引入不同的懲罰項(xiàng)，實(shí)現(xiàn)對基線不同的約束，原模型中的懲罰項(xiàng)是對基線的粗糙度進(jìn)行約束，在jpls算法中加入了真實(shí)光譜和擬合基線殘差的一階微分作為新的懲罰項(xiàng)，他們認(rèn)為擬合出的基線不僅與原始數(shù)據(jù)之間的誤差很小，而且還要求它們的一階導(dǎo)數(shù)很接近。這使得對擬合基線的約束性更強(qiáng)，能夠適應(yīng)不同的光譜。

上述提及的各種改進(jìn)算法都未曾涉及對粗糙度描述方法進(jìn)行改進(jìn)，都沿用整數(shù)階微分或直接固定階次，使得對基線的約束不夠靈活。低階整數(shù)階微分通常只取1，2和3階，可選擇性極差；同時(shí)考慮到整數(shù)階微分不能很好的描述基線的特點(diǎn)，且在實(shí)際信號中整數(shù)階階次的信號很少見。故引入分?jǐn)?shù)階微分的概念，提高算法靈活性，擴(kuò)展對粗糙度的描述，從而進(jìn)一步研究微分階次對基線校正效果的影響。我們提出的分?jǐn)?shù)階基線校正算法涵蓋了原來的整數(shù)階算法，理論上認(rèn)為分?jǐn)?shù)階基線校正效果不會差于整數(shù)階基線校正效果；這一推斷在γ-PGA發(fā)酵光譜分析中進(jìn)行了仔細(xì)的檢驗(yàn)。

1 原理

1.1 AsLS基線校正算法原理

AsLS基線校正是在WS平滑算法的基礎(chǔ)上改進(jìn)而來，首先對WS平滑算法進(jìn)行簡單介紹[4]。WS優(yōu)化目標(biāo)如式(1)

(1)

式(1)中，yi為原始信號的第i個(gè)點(diǎn)，zi為平滑序列的第i個(gè)點(diǎn)，λ為正則化系數(shù)，Δ為微分算子，一階微分可表示Δzi=Δzi-Δzi-1。Eilers在文中將最小化目標(biāo)函數(shù)的第一項(xiàng)稱為保真度，第二項(xiàng)稱為粗糙度。通過調(diào)節(jié)λ得到合適的平滑序列。當(dāng)λ越大，對粗糙度的懲罰越大，就要求序列越平滑。對于一階微分，當(dāng)λ越大時(shí)，平滑序列z就越趨向于一條水平的直線。同理二階微分，在λ越大時(shí)，滑序列z就越趨向于一條傾斜的直線。

為簡化代數(shù)運(yùn)算用矩陣表示目標(biāo)函數(shù)

Q=|y-z|2+λ|Ddz|2

(2)

最小化式(2)可得

式(2)中，y為原始信號列向量，z為平滑序列列向量，E為單位矩陣，Dd為微分矩陣，只能表示整數(shù)階。當(dāng)信號長度為5，取整數(shù)一階、二階微分時(shí)，表示如下

AsLS在WS算法基礎(chǔ)上引入非對稱權(quán)重作用于保真度[5]

Q=W|y-z|2+λ|Ddz|2

(3)

最小化式(3)可得

式(3)中，W為權(quán)重對角矩陣，式中權(quán)重系數(shù)Wi根據(jù)非對稱的方式選擇

一般p取值范圍為0.001～0.1。λ取值范圍為102～109，固定迭代次數(shù)，W一般迭代10次。

AsLS也可以看作是平滑算法，通過對含有峰的光譜信號進(jìn)行平滑，得到一條光滑的不含有峰的曲線作為基線，這種基線校正方法不需要任何的先驗(yàn)信息，只需要通過調(diào)節(jié)反對稱權(quán)重和正則化系數(shù)就能得到一條適合的基線。

1.2 基于分?jǐn)?shù)階的基線校正算法原理

AsLS算法中的Dd微分算子只適用于整數(shù)階，在Dd的基礎(chǔ)上擴(kuò)展到分?jǐn)?shù)階，較為簡便的實(shí)現(xiàn)分?jǐn)?shù)階基線校正。分?jǐn)?shù)階微分定義有不同的形式，為了更好的包含原有整數(shù)階，選用Grumwald-Letnikov(GL)分?jǐn)?shù)階微分定義，表示如式(4)[12-14]

(4)

式(4)中：α為階數(shù)；h為微分步長；t與a分別為微分的上、下限；Γ(x)為Gamma函數(shù)。當(dāng)函數(shù)f(x)定義域?yàn)閤∈[a,t]且h=1時(shí)，由式(4)可得出f(x)的分?jǐn)?shù)階微分表達(dá)式

(5)

式(5)中：α為階數(shù)，f(x)的0階微分為f(x)本身。同樣的將微分差值運(yùn)算構(gòu)造成矩陣的形式，記為Dα。

實(shí)驗(yàn)表明，當(dāng)k較小時(shí)，基線校正效果較差，一般取20以上的值。但計(jì)算速度會隨k的增大而變慢。用Dα替換Dd即可實(shí)現(xiàn)分?jǐn)?shù)階基線校正(fractional differential asymmetric least squares, FdAsLS)。當(dāng)α取整數(shù)階時(shí)，比原來的整數(shù)階微分矩陣多了幾項(xiàng)，這對于一些信號的校正是不利的，因?yàn)槠鹗疾糠贮c(diǎn)的微分變化較大，容易造成基線的突變，但對于原始信號起始部分基本為零的光譜信號，并不會產(chǎn)生影響。在取分?jǐn)?shù)階時(shí)，該現(xiàn)象尤為明顯，因?yàn)榍発行的微分表達(dá)式都是不相同的，從矩陣的前k行，可以明顯的觀察到。GL定義下的整數(shù)階矩陣相比于原來整數(shù)階矩陣，略有不同。當(dāng)信號長度為5，GL定義下的整數(shù)一階、二階微分時(shí)，表示如下

2 實(shí)驗(yàn)部分

2.1 數(shù)據(jù)采集

對于γ-PGA發(fā)酵實(shí)驗(yàn)，選用的菌種為枯草芽孢桿菌亞種，從中國工業(yè)微生物菌種保藏管理中心(China Center of Industrial Culture Collection, CICC)購買，菌種編號為20643。將以凍干粉的形式存儲的菌種先進(jìn)行活化培養(yǎng)，然后在培養(yǎng)好的固體菌落中，用接種環(huán)挑選一株生長狀態(tài)良好的菌體，接種于種子培養(yǎng)基(500 mL三角瓶裝液量100 mL)，然后在37 ℃和180 r·min-1的恒溫振蕩培養(yǎng)箱中(THZ-92A，躍進(jìn)醫(yī)療器械有限公司，中國上海)中培養(yǎng)10～16 h。所用種子培養(yǎng)基為：葡萄糖(10 g·L-1)，蛋白胨(10 g·L-1)，牛肉膏(5 g·L-1)，氯化鈉(5 g·L-1)。發(fā)酵培養(yǎng)基由葡萄糖(40 g·L-1)，酵母膏(5 g·L-1)，谷氨酸鈉(35 g·L-1)，氯化銨(2 g·L-1)，磷酸氫二鉀(5 g·L-1)和硫酸鎂組成(0.5 g·L-1)組成。種子培養(yǎng)基和發(fā)酵培養(yǎng)基均在121 ℃下滅菌20 min。將經(jīng)過種子培養(yǎng)的菌株接種到接種量為2%的發(fā)酵培養(yǎng)基中，并將3 L的發(fā)酵培養(yǎng)液放入工作容積為5 L的發(fā)酵罐(GRJB-5D，綠色生物工程有限公司，中國鎮(zhèn)江)中，在37 ℃恒溫和300 r·min-1攪拌速度的條件下進(jìn)行發(fā)酵。

用配備有水平鉑金鉆石ATR采樣附件(ZnSe，單反射)的布魯克Alpha型傅里葉變換紅外光譜儀(德國，埃特林根)上收集光譜數(shù)據(jù)。在35 ℃下，以8 cm-1的分辨率在4 000～600 cm-1的波數(shù)范圍內(nèi)進(jìn)行64次掃描。每個(gè)樣品測量之前，用蒸餾水作為參考獲取背景光譜。對于每個(gè)樣品，重復(fù)測量兩次。所得的平均光譜用于進(jìn)一步分析。作為主要底物，葡萄糖(g·L-1)和谷氨酸鈉(g·L-1)是用于監(jiān)測γ-PGA發(fā)酵的參數(shù)。總共進(jìn)行了48 h的5次發(fā)酵實(shí)驗(yàn)，獲得151個(gè)樣品的光譜及其發(fā)酵參數(shù)的標(biāo)準(zhǔn)值。各批次樣本數(shù)分別為14，27，40，40和30，它們的光譜如圖1所示。

圖1 各批次光譜

2.2 模型建立

各批次樣本根據(jù)Kennard-Stone(KS)算法，按3∶1比例劃分樣本，3份作為校正集，建立模型。其余1份構(gòu)成測試集，驗(yàn)證模型。多元校正模型選擇偏最小二乘回歸(partial least squares regression，PLS)[15]，PLS采用5折交叉驗(yàn)證，從1～15中選出最佳潛變量個(gè)數(shù)。評價(jià)指標(biāo)選擇PLS模型的校正集均方根誤差(root mean square error of calibration, RMSEC)和測試集均方根誤差(root mean square error of prediction, RMSEP)。對5個(gè)批次數(shù)據(jù)分別建立原始光譜、原始光譜+FdAsLS預(yù)處理、原始光譜+AsLS預(yù)處理的PLS模型。最后合并所有批次樣本，重新劃分校正集和測試集，建模過程不變。

3 結(jié)果與討論

為驗(yàn)證分?jǐn)?shù)階基線校正效果，進(jìn)行六組實(shí)驗(yàn)。每組實(shí)驗(yàn)以PLS模型的RMSEP為評價(jià)指標(biāo)。固定反對稱權(quán)重p=0.001和分?jǐn)?shù)階微分長度k=20。微分階次從0.5到4.5，間隔0.1，共41個(gè)階次；λ從100到109，冪指數(shù)間隔0.5，共19個(gè)數(shù)，通過網(wǎng)格搜索法篩選出最佳參數(shù)組合。為了比較分?jǐn)?shù)階和整數(shù)階基線校正算法性能的優(yōu)劣，我們將所有整數(shù)階參數(shù)組合(其中0階是用未經(jīng)過基線校正的原始數(shù)據(jù)建模)和最佳分?jǐn)?shù)階參數(shù)組合(對應(yīng)最小的RMSEP)在六組實(shí)驗(yàn)上的結(jié)果進(jìn)行了匯總(見表1)。考慮到兩種整數(shù)階微分表示不同，所有實(shí)驗(yàn)，在取整數(shù)階時(shí)，選擇AsLS中的原始定義。其中只有批次2的預(yù)測模型誤差減小最多所對應(yīng)的基線校正微分階次為整數(shù)階，其余模型最佳階次都為分?jǐn)?shù)階。可以反映出分?jǐn)?shù)階微分基線校正有著不低于整數(shù)階的校正效果，大多數(shù)情況下都超過了整數(shù)階。同時(shí)分?jǐn)?shù)階微分階次取值任意，運(yùn)用靈活。通過網(wǎng)格搜索法得到的最佳階次中，取值基本沒有重復(fù)，足以說明分?jǐn)?shù)階微分具有自適應(yīng)性，能夠靈活地提取真實(shí)基線，因此相比于從前單一的整數(shù)階微分，分?jǐn)?shù)階微分能夠充分發(fā)揮基線校正的優(yōu)勢，能最大限度的提高多元校正模型的預(yù)測精度。在批次1中，底物的預(yù)測誤差大幅減小，葡萄糖預(yù)測模型的RMSEP從2.098降到0.857，預(yù)測精度提高較多。同時(shí)其他批次預(yù)測精度都大幅提升，表明了基線校正有助于后續(xù)光譜定量分析。將5個(gè)批次的樣本合并后建立模型(未進(jìn)行預(yù)處理的原始數(shù)據(jù))，可以明顯地觀察到，全局模型的預(yù)測結(jié)果不如各批次單獨(dú)建模(批次3除外)的局部模型；且各批次合并后的樣本即使經(jīng)過基線校正后，模型精度提升也遠(yuǎn)差于各批次單獨(dú)進(jìn)行基線校正后的預(yù)測精度，即校正效果不明顯。這一現(xiàn)象的產(chǎn)生可以歸因于不同發(fā)酵批次的基線是不相同的，通過固定一組參數(shù)對所有批次光譜進(jìn)行相同的基線校正是不合理的。從實(shí)際情況來考慮，在不同的發(fā)酵批次過程中，很多因素(如：谷草芽孢桿菌的活性、測量條件、儀器性能的差異等)都會造成基線的變化，因此應(yīng)該對不同批次光譜單獨(dú)進(jìn)行基線校正，才能充分發(fā)揮基線校正的效果。

表1 不同階次的基線校正效果比較

以批次3為例，對原始光譜建立PLS模型，發(fā)現(xiàn)預(yù)測結(jié)果很差，但經(jīng)過基線校正以后，預(yù)測均方根誤差減小，圖2可以直觀的反映出這種變化，其余各批次經(jīng)過基線校正以后，結(jié)果如圖3和圖4所示，其中圖3是預(yù)測葡萄糖濃度RMSEP最小時(shí)所對應(yīng)的基線校正處理后的結(jié)果，圖4對應(yīng)于谷氨酸鈉。

圖2 偏最小二乘回歸分析

圖3 葡萄糖RMSEP最小時(shí)對應(yīng)各批次基線校正后的光譜

圖4 谷氨酸鈉RMSEP最小時(shí)對應(yīng)各批次基線校正后的光譜

經(jīng)過基線校正后的光譜相較于原始光譜，除批次4用以預(yù)測谷氨酸鈉濃度的校正光譜還保留負(fù)的水峰，其余校正光譜基本不含或含有少量負(fù)的水峰。因此認(rèn)為峰信號全部是有用的，通常AsLS被用于只含有全部為正峰或全部為負(fù)峰的信號的校正，但是對于用水溶液測得的ATR光譜，負(fù)的水峰對于后續(xù)的分析是無用的甚至是有害的，所以可以通過AsLS基線校正將水峰扣除。改進(jìn)后的FdAsLS同樣具有該效果，且對負(fù)峰的扣除效果更好。

各批次校正后的光譜各不相同，間接反映出發(fā)酵過程的特殊性。且校正后的光譜各批次存在較大的差異，如批次4預(yù)測谷氨酸鈉時(shí)，基線校正效果作用不大，校正后的光譜基本不變，且經(jīng)過基線校正后，RMSEC反而變差了。理論上RMSEC應(yīng)該小于RMSEP，但是在該數(shù)據(jù)中，各批次經(jīng)過基線校正后部分批次出現(xiàn)RMSEP小于RMSEC的情況。這可能是樣本太小所造成的，同時(shí)測試集樣本中個(gè)別樣本預(yù)測很差，但經(jīng)過基線校正后，預(yù)測精度立刻提升，圖2(a, b)中紅色標(biāo)記的測試集樣本就屬于這種情況。圖2(a)中存在明顯偏離斜線y=x(x，y分別為測量值和PLS模型預(yù)測值。樣本點(diǎn)越偏離斜線，說明模型預(yù)測精度越差，反之預(yù)測精度越高)的點(diǎn)，但經(jīng)過基線校正[圖2(b)]，紅色點(diǎn)十分貼近斜線且基本均勻分布在斜線的兩側(cè)。一方面樣本的均勻分布，說明KS算法樣本劃分合理；另一方面樣本點(diǎn)經(jīng)過基線校正后靠近斜線，說明分?jǐn)?shù)階基線校正算法的有效性。當(dāng)樣本量變大時(shí)，即所有批次合并后，重新劃分校正集測試集，所得實(shí)驗(yàn)結(jié)果與理論相符。

4 結(jié) 論

基于WS平滑算法的各種基線校正算法(包括WS平滑算法)都可以通過微分算子擴(kuò)展至任意階次，具有更好的靈活性和可選擇性，從而進(jìn)一步提高多元校正模型的預(yù)測精度。γ-PGA發(fā)酵實(shí)驗(yàn)的光譜數(shù)據(jù)分析結(jié)果表明，分?jǐn)?shù)階微分基線校正效果優(yōu)于整數(shù)階。同時(shí)發(fā)現(xiàn)AsLS和FdAsLS基線校正算法在去除基線的同時(shí)，實(shí)現(xiàn)了對ATR光譜水峰的扣除，消除水峰對后續(xù)光譜定量的影響，擴(kuò)展了該基線校正算法應(yīng)用范圍。同時(shí)為用水溶液測得的ATR光譜消除水峰提供了新的思路。