亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        對比變分自編碼器的近紅外光譜測量及其在液態(tài)樣品檢測中的應用

        2022-11-07 07:56:26董大明
        光譜學與光譜分析 2022年11期
        關鍵詞:背景模型

        袁 壯,董大明

        1. 廣西大學,廣西 南寧 530004 2. 智能裝備技術研究中心,北京市農林科學院,北京 100097

        引 言

        近紅外光譜是發(fā)展快、 具有廣闊前途的成分分析技術之一,以其方便、 快速、 高效、 準確、 無污染和在線預測的優(yōu)點,一直處于食品分析的前沿[1-2]。由于近紅外光譜反應的主要是分子中官能團振動的倍頻和合頻的吸收,光譜特征不明顯,特征之間存在多重共線性,對近紅外光譜進行分析往往需借助化學計量學軟件和機器學習算法的輔助。數據降維和特征提取是分析高維數據的有效手段,利用降維結果還可以進行可視化分析。常見的數據降維算法有:奇異值分解(SVD)[3]、 主成分分析(PCA)[4]、 線性判別分析(LDA)[5]、 因子分析(FA)[6]、 獨立成分分析(ICA)[7]。然而,這些算法都被設計為一次只能分析一個數據集,當數據集個數較多或者一個數據集中有多個不同的背景因素影響時,它們只能單獨作用然后需要手動分析比較數據集之間特征的相同點和不同點[3]。cPCA是PCA的對比學習變體,它能夠將需要分析的數據集(目標集)與干擾因素(背景集)進行比較、 學習到兩個集合的差異(研究人員想要的特征信息),已經在不同水果的農藥殘留判別中得到優(yōu)良的效果[8-9]。主成分只能通過線性的方式組合生成新特征,特征提取效果存在局限性,而在一些復雜條件下,非線性的新特征可能在下游模型中取得更好的效果,并且cPCA基于數據集方差最大化,在對背景集進行約束時需要合理選擇對比參數,實際使用時存在不確定性。

        普通的自編碼器在理論上可以在低維度空間中完全擬合原始數據,但是不具備任何生成能力,對新樣本無法進行適應[10-11]。變分自編碼器通過對模型進行概率化,添加正則化項對低維隱變量Z的編碼空間進行約束,使得模型既能一定程度上擬合原始樣本,又具備了可靠的生成能力[12]。Z被稱為隱變量,因為它是由模型編碼器部分給出的低維編碼,我們不一定知道編碼中的哪些具體設置促進生成了輸出。對比變分自編碼器是變分自編碼器的多輸入型的變體,它主要利用了變分自編碼器能夠提取隱含空間特征信息的能力和神經網絡多輸入和多輸出的特點,同時對兩個不同的數據集進行擬合。cVAE在手寫數字圖片受背景干擾的情況下進行數字識別、 受不同檢測批次影響的骨髓移植前后RNA信息判別分析,以及面部圖像特征提取中得到了比較好的改進效果。我們將cVAE用于受不同品牌和批次影響的純牛奶中是否摻假三聚氰胺的檢測,實現了非線性對比學習算法結合近紅外光譜在液態(tài)食品樣品中的首次應用。

        1 實驗部分

        1.1 材料

        三元、 伊利兩種品牌的全脂純牛奶,國標號為GB25190,前后兩個日期購置于北京市海淀區(qū)某超市(日期新鮮、 包裝完好、 國內大品牌)。純牛奶買回后置于常溫環(huán)境中,由于其中脂肪球和蛋白質顆粒隨環(huán)境變化和時間推移發(fā)生不同程度的聚集,造成成分不均勻。在制備樣本前使用超聲振蕩20 min,使其中成分盡可能均勻分布。摻假牛奶的制備過程為:往試劑瓶中稱取90 mg的三聚氰胺粉末(小于常溫下三聚氰胺在水中溶解度0.33 g,也符合摻假廠商實際牟利目的),隨后向其中添加30 mL純牛奶,將所有樣本充分搖勻后靜置,等待光譜采集,上述操作與采集過程同步且連貫。每次制備的樣本分為目標數據集與背景數據集??紤]牛奶成分的非均勻性和光譜采集方式的限制,每個樣本采集10條光譜。重復前后五次,各個類型的樣本及數目如表1所示。

        表1 數據集中樣本的組成Table 1 The composition of the samples in the data set

        1.2 儀器

        選用傅里葉變換型近紅外光譜儀(美國賽默飛,Antaris Ⅱ)采集純牛奶光譜,采集方式為積分球漫反射,分辨率為16 cm-1,采集次數設置為64次,每次采集扣除內置背景,采集范圍為4 000~10 000 cm-1。光譜分析使用Unscrambler X10.4(CAMO)。使用基于python3.6.8的Jupyter Notebook構建對比學習分類模型,神經網絡框架基于Tensorflow 2.0。

        1.3 光譜采集

        將上述數據集中的樣本使用FT-NIR儀器進行掃描,為了使觀察更加清楚,隨機選取目標數據集中四種不同樣本中的一條原始光譜圖,如圖1所示。從圖中可以看出,4 700~5 300,5 400~5 600和6 200~7 200 cm-1這三個波數段的吸光度值明顯大于其他波數段,反映了純牛奶中主要成分的光譜信息(水、 蛋白質、 脂肪等)。四類牛奶的光譜從直觀看來并無明顯差異,原始光譜曲線平滑基本無噪聲,故不進行預處理直接使用原始光譜建模。

        圖1 四類樣本的4 000~10 000 cm-1光譜圖Fig.1 Spectra of four types of samples at 4 000~10 000 cm-1

        2 結果與討論

        2.1 算法描述和模型訓練

        考慮到純牛奶成分的非均勻性,和本實驗所用均質方法的實際效果,為了削弱不均勻性對近紅外光譜重復性的影響,我們選擇接近有關文獻中確定的牛奶中摻雜三聚氰胺等不同目標物的特征分類區(qū)間4 200~4 800 cm-1,增大目標物對光譜的影響[13]。同時為了盡可能多的保留變量個數,經過選擇后,波段為4 000~6 000 cm-1,共有259個波長,隨機選取四個不同類樣本的一條光譜,其間譜線如圖2所示。

        圖2 四類樣本的4 000~6 000 cm-1光譜圖Fig.2 Spectra of four types of samples at 4 000~6 000 cm-1

        將選擇后的數據代入cVAE模型進行分析,多輸入神經網絡結構如圖3所示。隱藏層采用128個神經元的全連接層,使用ReLU激活函數。其中S為我們感興趣的編碼(也稱為隱變量或特征信息),Z為不感興趣的編碼。x為目標數據集,b為背景數據集。

        圖3 cVAE神經網絡結構Fig.3 cVAE neural network structure

        神經網絡的具體訓練過程如下:

        (1)對目標數據集和背景數據集光譜數據進行最大值歸一化;

        (2)設置batch大小為100個的單批次數據大?。?/p>

        (3)背景數據集自動根據目標數據集大小進行倍數復制;

        (4)定義神經網絡損失函數,優(yōu)化器;

        (5)將目標數據集、 背景數據集同時放入神經網絡進行訓練;

        (6)根據loss下降情況和評價指標分析分類效果。

        對比變分自編碼器的loss函數總共包含以下幾項:

        (1)重構損失:包含兩項,分別為目標數據集x和背景數據集b的重構損失;

        (2)正則化項:包含三項,分別是目標數據集隱變量Zx和Sx,背景數據集中隱變量Zb,他們分別對提取的隱變量空間進行正則化約束;

        (3)全局相關損失:為了增加隱變量S和Z之間的不相關性添加的損失;

        (4)判別器損失:為了方便計算全局相關損失,另外構建了單獨的判別器,利用分類概率估計該項。該判別器與cVAE的編碼器和解碼器同時訓練,因此需要添加進總的損失函數。

        2.2 不同純牛奶和有無摻假純牛奶的VAE分析

        實驗的主要目的是為了在不同品牌和批次生產的純牛奶中區(qū)分出摻假三聚氰胺和未摻假三聚氰胺的純牛奶。將200個摻假的三元牌純牛奶、 未摻假的三元牌純牛奶、 摻假的伊利牌純牛奶、 未摻假的伊利牌純牛奶混合后輸入模型,畫出二維隱空間中的散點圖,如圖4所示。

        從圖4中可以發(fā)現,VAE學習到的特征信息主要包含了純牛奶的不同品牌和批次的信息,這兩者都會使得牛奶中成分信息不同。對于是否摻假三聚氰胺這一重要信息,VAE無法提取。

        2.3 不同純牛奶和有無摻假純牛奶的cVAE分析

        造成VAE無法對摻假牛奶進行判別的主要原因是數據集中包含了純牛奶品牌及批次這兩個重要變量的信息,導致不相關信息占據了數據變化的絕大部分。

        我們考慮利用cVAE提取感興趣的數據變化,將目標數據集200個樣本混合形成驗證集輸入經過訓練的模型,畫出二維隱變量空間的數據散點圖,如圖5所示。從圖5中可以發(fā)現,藍色和紅色點聚成一類(分別代表三元摻假牛奶、 伊利摻假牛奶),綠色和黃色點聚成另一類(分別代表三元未摻假牛奶、 伊利未摻假牛奶),表明此時特征信息主要反應了純牛奶中有無摻假三聚氰胺,品牌和批次差異的無關背景信號被消除。分類邊界存在少量不明確的樣本點,這可能與神經網絡的隨機初始化參數有關,需進一步優(yōu)化模型。

        圖4 VAE二維隱變量空間樣本分布Fig.4 VAE two-dimensional latent variablespace sample distribution

        圖5 cVAE二維隱變量空間樣本分布Fig.5 cVAE two-dimensional latent variablespace sample distribution

        為了進一步驗證cVAE同時改善了聚類的效果,我們使用輪廓系數(sihouette score)去定量評估降維結果與真實標簽更接近的聚集程度。輪廓系數的值介于[-1,1],越接近1代表內聚度和分離度都相對較優(yōu),最后將所有數據點的輪廓系數求平均,就是該聚類效果總的輪廓系數。重復訓練100次,VAE與cVAE的相應輪廓系數的比較如圖6所示,可以發(fā)現cVAE的輪廓系數相比VAE有了明顯提升,表明cVAE提取特征后對樣本的聚類效果要優(yōu)于VAE。

        3 結 論

        cVAE利用神經網絡的非線性特點,同時組合概率生成模型和對比學習的優(yōu)點,是一種能夠通過引入背景數據集,來提取分析多個數據集中感興趣信息的新型數據降維方法。在對受品牌和批次干擾的純牛奶中是否摻假三聚氰胺進行分析時,使用VAE算法只能區(qū)分出不同品牌和批次的純牛奶這一背景信息,而使用cVAE算法能夠將純牛奶中是否摻假三聚氰胺這一關鍵信息提取出來,說明cVAE能夠提取非線性的對比特征。并通過聚類評估指標對二者聚類效果進行評價,結果表明cVAE提取到的低維空間信息對樣本的聚類效果優(yōu)于VAE。神經網絡的可擴展性和對海量數據的依賴性使得這一算法有更大的進步空間,我們可以通過增加神經元數量和層數增大網絡容量,通過增加更多的新數據使得模型

        圖6 VAE和cVAE輪廓系數對比Fig.6 Comparison of VAE aod cVAE silhouette scores

        的泛化性能更優(yōu),提取到的關鍵特征可以用于下游模型的建立,該算法在近紅外光譜分析中有著廣闊的應用前景。

        猜你喜歡
        背景模型
        一半模型
        “新四化”背景下汽車NVH的發(fā)展趨勢
        《論持久戰(zhàn)》的寫作背景
        當代陜西(2020年14期)2021-01-08 09:30:42
        重要模型『一線三等角』
        黑洞背景知識
        重尾非線性自回歸模型自加權M-估計的漸近分布
        晚清外語翻譯人才培養(yǎng)的背景
        3D打印中的模型分割與打包
        背景鏈接
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        国产精品日韩av一区二区三区| 亚洲AV一二三四区四色婷婷| 在线你懂| 国产亚洲一二三区精品| 中国妇女做爰视频| 18成人片黄网站www| 日本成人字幕在线不卡| 国产优质av一区二区三区| 亚洲综合天堂av网站在线观看| 久久亚洲精品成人av| 高清国产美女一级a毛片在线| av一区二区三区有码| 免费人成小说在线观看网站| 国产精品麻豆成人av电影艾秋| 精品人妻丰满久久久a| 日本高清在线播放一区二区| 天堂在线资源中文在线8| 亚洲最大av资源站无码av网址| 精品一区二区三区在线视频观看| 国产一区二区三区男人吃奶| 少妇性俱乐部纵欲狂欢电影| 一本色道久久综合狠狠躁| 一区二区三区四区亚洲综合| 开心五月激情五月五月天| 九九热线有精品视频86| 日本亚洲欧美在线观看| 激情偷拍视频一区二区| www夜插内射视频网站| 夜夜嗨av一区二区三区| 国产av天堂亚洲国产av麻豆| 国产精品黑丝美腿美臀| 我把护士日出水了视频90分钟| 日韩二三区| 国产少妇露脸精品自拍网站| 亚洲色图片区| 富婆如狼似虎找黑人老外| 黑人免费一区二区三区| 国产av激情舒服刺激| 国产高清乱理伦片| 国产裸体AV久无码无遮挡| 国产精品国产三级国产专播下|