亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于規(guī)則的深度分類器結(jié)合近紅外光譜技術(shù)判別煙用香精香料

2019-04-04 04:27:26**

分析儀器 2019年2期

* *

(1.陜西中煙工業(yè)有限責任公司，寶雞 721013；2.中國農(nóng)業(yè)大學，北京 100193)

香精香料具有改善卷煙吸味品質(zhì)，賦予卷煙特征香氣的作用，是構(gòu)成卷煙品牌風格和保證卷煙產(chǎn)品質(zhì)量的重要因素。目前煙用香精香料質(zhì)量分析方法主要有理化指標測定(相對密度、折光系數(shù)、揮發(fā)分總量、酸值、乙醇、丙二醇、丙三醇)與四類指標(外觀、混溶度、香氣與香味質(zhì)量)感官評價兩大類方法。這些檢測方法技術(shù)要求高、涉及分析儀器多，且過程非常繁瑣，檢測周期長、允差范圍較大和重復性較差；煙草企業(yè)通常需要的香精香料品種繁多，且香精香料質(zhì)量受到原料、加工等多種因素的影響，加上香料的成分通常又過于復雜，這給原料管理和質(zhì)量保證造成極大的困難，因此，香精香料種類現(xiàn)場快速識別對于原料確認和卷煙質(zhì)量保證具有重要的意義。

近紅外光譜技術(shù)具有速度快、無損、無前處理、成本低、樣品損耗量少等特點，非常適合產(chǎn)品質(zhì)量現(xiàn)場分析，已廣泛應用于煙草行業(yè)的諸多領(lǐng)域，如在煙草化學指標測定、產(chǎn)地溯源、品種識別、葉片部位和等級鑒定等方面，但在煙用香精香料質(zhì)量分析上僅有個別定量模型分析的報道。由于近紅外光譜特征峰較寬，重疊嚴重，指紋圖譜特征性不夠明顯，對復雜樣品辨識度不足。在香精香料樣品中，主要是乙醇、丙二醇等溶劑，天然香氣成分含量通常在5%以下，要實現(xiàn)較大種類低含量香精香料的分類識別，無論是分析技術(shù)本身還是模式識別算法均存在較大困難。

監(jiān)督模式識別算法包括k最近鄰法[1]、貝葉斯分類器、軟獨立建模聚類分析(Soft Independent Modelling of Class Analogies,SIMCA)、線性判別分析(Linear Discriminant Analysis, LDA)、非負矩陣分解[2]等。對線性不可分體系，可采用支持向量機、神經(jīng)網(wǎng)絡分類器、隨機森林等算法用于解決非線性分類問題，還有些新改進模式識別算法[3]主要是解決收斂過程慢、過程調(diào)試參數(shù)多的問題。目前較為熱門的模式識別算法有最優(yōu)路徑森林算法(Optimal-path Forest)[4]、基于規(guī)則深度分類法(Deep Rule-Based Classifier, DRB)[5]等?；谝?guī)則深度分類法是一種新型的深度學習分類器，與傳統(tǒng)的分類算法不同，其無需設置多個參數(shù)，通過自組織學習并建立“類別云”，可有效地對未知樣品進行分類。在遙感方面不同屬性場地、手寫字識別準確率均較好于傳統(tǒng)模式識別方法。

綜上所述，本實驗采用DRB算法結(jié)合近紅外光譜技術(shù)對57類715個香精香料進行種類識別方法研究，并與SIMCA模型結(jié)果進行了比較。

2 實驗材料與方法

2.1 實驗材料

成品煙用香精香料進廠時，根據(jù)行業(yè)抽樣的標準[6]抽取香精香料并將其按行業(yè)標準進行存儲[7]。共收集715個批次的樣品，其中大于5批次的樣品共57類。潤寶包括潤寶-B和潤寶-C，歸為一類的緣由在于使用ICR-FT-MS(傅里葉變換離子回旋共振質(zhì)譜儀,Fourier-Transform Ion Cyclotron Resonance Mass Spectrometry)發(fā)現(xiàn)其組成成分相似。圖1中上半部分為潤寶-B的質(zhì)譜圖，下半部分為潤寶-C的質(zhì)譜圖。

圖1 潤寶-B與潤寶-C的質(zhì)譜圖

2.2 實驗方法

傅里葉近紅外光譜儀(ThermoFisher IS5N，美國)；光譜范圍10000cm-1～4000cm-1，分辨率為16cm-1，掃描次數(shù)為48次，液體漫透射法測試，比色杯厚度為1mm。每個樣品重復測試3次。

2.3 DRB算法原理

DRB是由Plamen P. Angelov于2017年提出,主要運用于圖像的多分類問題。該算法基于樣本數(shù)據(jù)特征矢量進行模型訓練，核心類別判定規(guī)則為‘IF OR THEN’模糊尺度；同時，基于圖像原型使用‘one-pass’類型訓練模型。本實驗中數(shù)據(jù)處理軟件為Matlab R2014a，可以把二維光譜數(shù)據(jù)構(gòu)造成三維數(shù)據(jù)，再使用該軟件對數(shù)據(jù)進行類別判定。具體算法實行步驟如下：

(1)近紅外光譜數(shù)據(jù)圖像顯示；

(2)DRB系統(tǒng)的訓練；

(a)系統(tǒng)初始化：將光譜數(shù)據(jù)進行規(guī)范化。對每條光譜數(shù)據(jù)進行平方并加和，再進行開根號取值，獲得規(guī)范化數(shù)值。接著對該矢量的所有數(shù)據(jù)點進行規(guī)范化數(shù)值規(guī)范。

(b)數(shù)據(jù)云及系統(tǒng)升級：數(shù)據(jù)云的構(gòu)建主要是基于公式(1)。本實驗采用的θ為30°,將定義數(shù)據(jù)云邊緣的最大相似程度。系統(tǒng)升級階段則是通過兩個條件來約束，條件約束如(2)與(3)。約束條件(2)主要檢驗未知樣本是否為新型的密度樣本，其中D為數(shù)據(jù)密度值；約束條件(3)主要用于某一類別訓練集樣本的更新,當絕對值小于rc,Nc，則表明無需類內(nèi)更新，反之絕對值大于rc,Nc，則需要模型更新。

(1)

If(D(Ic,k)>max(D(Pc,j)))or
(D(Ic,k)

(2)

If(||Xc,k—pc,n||≤rc,Nc)
THEN(Ic,kisassignedtoPc,n)

(3)

(3)模糊規(guī)則的產(chǎn)生：當訓練進程結(jié)束，系統(tǒng)將是基于原形識別的‘AnYa’模糊規(guī)則。規(guī)則如(4)：

Rulec:IF(I～Pc,1)OR(I～Pc,2)OR…
OR(I～Pc,Nc)THEN(classc)

(4)

式中：Rulec為類別C的規(guī)則。I為未知類別的樣本矢量數(shù)據(jù)。Pc,1、Pc,2……Pc,Nc為C類別的矢量數(shù)據(jù)。當未知樣本符合C類規(guī)則，則將未知樣本歸類到C類。

(3)Lambda的獲得：通過已建立的系統(tǒng)對未知樣本進行分類。未知樣本與系統(tǒng)中的每個類別之間可以產(chǎn)生一個最大的Lambda。Lambda的計算如下公式(5)。式中，x為未知樣本向量；Pc,j為系統(tǒng)第C類第j個矢量數(shù)據(jù)。

LambdacI=argmaxexp-x-pc,j2

(5)

(4)類別決策機制：采用“winner-takes-all”原則進行未知樣本的類別判定。即未知樣本與不同類別間分別有個最大的Lambda。將這些Lambda進行大小比較，最大的Lambda所對應的類別則將該未知樣本歸類到此類當中。該算法與傳統(tǒng)模式識別算法有較大的區(qū)別在于其未訓練模型、無迭代訓練樣本，高度地展現(xiàn)出計算互不干擾能力與計算效率。算法運行示意流程如圖2所示。對于判定未知類別樣本的類別時，DRB分類器的運行機理如圖3所示。

圖2 DRB算法運行示意流程圖

圖3 未知類別樣本DRB運行示意流程圖

3 結(jié)果與討論

3.1 異常光譜的剔除

為使系統(tǒng)更具有穩(wěn)定性、提升模型的預測能力，需要對異常光譜數(shù)據(jù)進行剔除。因此，需要在系統(tǒng)生成之前對異常數(shù)據(jù)進行檢測并剔除。本研究濾去異常值的方法為杠桿值法，濾去高杠桿值的光譜數(shù)據(jù)，再建立類別判定系統(tǒng)。高杠桿值法主要通過兩個參數(shù)主成分數(shù)和杠桿限制值來測試異常光譜數(shù)據(jù)。本研究采用的主成分數(shù)為1，杠桿限制值為3，剔除后光譜數(shù)據(jù)1294張，共57類樣品。剔除異常光譜圖4所示，剔除結(jié)果圖5所示?？梢郧逦乜匆姽庾V數(shù)據(jù)質(zhì)量有明顯提升。兩種模式識別算法都以80%作為校正集，20%作為預測集。這就意味著1035張光譜作為校正集，使用259張光譜作為預測集。

圖4 剔除異常光譜數(shù)據(jù)

圖5 吸光度VS變量上半部分未剔除異常光譜；下半部分剔除異常光譜

3.2 數(shù)據(jù)處理結(jié)果

上文提到，SIMCA算法擬采用F檢驗來判定未知光譜類別。置信水平采用6個層次，分別為75%、80%、85%、90%、95%及97%。結(jié)果如表1所示，可以發(fā)現(xiàn)置信水平達到97%，校正集準確度與預測集準確度都達到最高，分別為87.923%與83.398%。采用DRB算法，校正集準確度與預測集準確度分別為95.07%與88.8%。識別準確度優(yōu)于SIMCA算法的結(jié)果。由于DRB算法是基于原始圖像的分類，所以其無須進行迭代與參數(shù)優(yōu)化。因此，訓練速度相比于其他模式識別算法快。

圖6(A)中是兩類相似香精香料的SIMCA樣本投影圖，其中橫坐標為第一主成分，縱坐標為第二主成分，可以發(fā)現(xiàn)不同類別香精香料的投影基本不可分。與之相對應的DRB算法給出的結(jié)果(圖6(B))則正好相反，其中橫坐標為樣本數(shù)目，縱坐標為Lambda值。符號‘+’與‘o’代表的是第16類樣本，區(qū)別在于符號‘+’為第16類云系統(tǒng)對于第16類樣本Lambda值的預測，而‘o’則是第26類云系統(tǒng)對于第16類樣本Lambda值的預測。符號‘▽’與‘☆’代表的是第26類樣本，區(qū)別在于符號‘▽’為第26類云系統(tǒng)對于第26類樣本Lambda值的預測，而‘☆’則是第16類云系統(tǒng)對于第26類樣本Lambda值的預測?？梢园l(fā)現(xiàn)，第16類云系統(tǒng)計算第26類樣品的Lambda值較第26類云系統(tǒng)計算第26類樣本的低，反之亦是，說明近紅外光譜圖相似的兩個樣品可實現(xiàn)有效判別。實際上，第16類樣品與第26類樣品的近紅外光譜圖如圖7所示，就譜圖峰的形狀、吸光度大小可以發(fā)現(xiàn)二者非常相似。

表1 不同置信水平SIMCA判定結(jié)果

圖6 (A)相似香精香料主成分投影圖及(B)基于DRB算法的Lambda值

圖7 第16類樣品與第26類樣品的近紅外光譜圖疊加

3.3 結(jié)果的理論分析

對于SIMCA算法來說，主要是為了尋找一個投影面(或稱為載荷矩陣)，使得參與建模的樣本能盡可能的在這個投影面盡量散開。因此，當光譜比較相似的時候，通過投影面投影很有可能就落在這些樣本點中間。第16類樣品的第一載荷矢量與第26類樣品的第一載荷矢量的標準偏差如圖8所示?？梢园l(fā)現(xiàn)標準偏差很小，說明二類的第一載荷矢量很是相似，故導致二者不可分。相反的，DRB則是基于歐式距離分別計算未知樣本與不同類別樣本的距離，通過公式(3)計算Lambda，再依據(jù)Lambda值將未知樣本歸類，避開了樣本投影最大化問題。因此，在分類能力上優(yōu)越于SIMCA算法，圖6(B)即可表明克服SIMCA算法存在的問題。

圖8 第16類樣品與第26類樣品的第一載荷矩陣的標準偏差

3.4 分類器優(yōu)化

在對光譜矩陣進行模式識別之前，首先需要考慮到近紅外光譜除樣品自身信息外還包含許多無關(guān)信息，有電噪聲、樣品背景等，而這些噪聲或無關(guān)信息會降低模型的穩(wěn)健性。因此，有必要對光譜數(shù)據(jù)進行預處理以提高模型的穩(wěn)健性。大量研究結(jié)果表明：首先對光譜數(shù)據(jù)進行預處理再建立起的模型，提升了模型穩(wěn)健性以及預測類別的準確度、降低指標建模的預測均方根誤差。采用的預處理方法包括S-G一階導數(shù)法(5點、7點、9點及11點)、標準正態(tài)變量變換(SNV,Standard Normal Variate transformation)、S-G移動窗口法(5點、7點、9點及11點)、多元散射校正算法(MSC, Multiple Scattering Correctionalgorithm)、矢量歸一化(NOR)、標準化法(Auto-scaling)。結(jié)果如表2所示,從表2中可以發(fā)現(xiàn)，不同預處理方法，對結(jié)果準確度有較大影響，其中一階導(S-G,7)效果最佳，校正集與驗證集的識別準確度分別為98.74%與98.07%。與無預處理的預測集準確度相比高了近10%。說明采用漫透反射附件，存在譜圖基線漂移的現(xiàn)象。因此有必要對數(shù)據(jù)進行預處理后再進行類別歸屬。說明為了降低光譜基線對識別準確率的影響，有必要采用的預處理方法為一階導數(shù)法。

表2 不同預處理方法與準確度的關(guān)系

4 結(jié)論

分別采用了典型模式識別SIMCA算法與新型模式識別DRB算法對不同類別煙用香精香料進行類別判定。首先采用高杠桿值法篩選并剔除異常光譜，光譜數(shù)據(jù)得到明顯改善，可提高模型的穩(wěn)健性。比對不同模式識別的準確度，由于DRB算法不基于方差最大化，因而算法DRB在不同類別樣品的分類效果更為出色。同時，基于DRB算法，采用不同預處理方法，準確度發(fā)生明顯變化，原因在于其選擇漫透反射附件導致光譜基線漂移。采用DRB算法校正集與驗證集的識別準確率最優(yōu)可達到98.74%與98.07%。說明可以基于DRB模式識別結(jié)合近紅外光譜技術(shù)可做到很好的定性分析，近紅外光譜技術(shù)可達成‘一譜多用’的目標。