亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于拉曼光譜和機(jī)器學(xué)習(xí)的百合分類識(shí)別

        2023-02-01 01:23:44王志新王慧薈張文波李月娥
        光譜學(xué)與光譜分析 2023年1期
        關(guān)鍵詞:特征提取分類模型

        王志新,王慧薈,張文波,王 忠,李月娥

        蘭州大學(xué)信息科學(xué)與工程學(xué)院,甘肅 蘭州 730000

        引 言

        百合是百合科(Liliaceae)百合屬(Lilium)植物, 其多年生草本球根生長(zhǎng)的肥厚鱗片構(gòu)成的地下變態(tài)莖稱為百合鱗莖[1]。甘肅蘭州、江蘇宜興、江西萬(wàn)載等地栽培百合鱗莖的歷史悠久, 其產(chǎn)量、質(zhì)量與產(chǎn)地有密切聯(lián)系[2-3]。百合鱗莖有著高蛋白、低脂肪的特點(diǎn),是十分理想的保健食品,同時(shí)百合鱗莖具有廣泛的藥理作用, 如抗腫瘤、抗抑郁、降血糖、提高免疫力等[4-5],產(chǎn)地不明或混淆使用會(huì)導(dǎo)致百合制品的質(zhì)量不穩(wěn)定,影響藥理作用的發(fā)揮[6]。因此,實(shí)現(xiàn)精準(zhǔn)產(chǎn)地和質(zhì)量鑒別分析對(duì)促進(jìn)百合鱗莖市場(chǎng)化發(fā)展具有重要意義。

        傳統(tǒng)檢驗(yàn)依賴感官經(jīng)驗(yàn),通過(guò)外觀、色澤、滋味及香氣等感官指標(biāo)實(shí)現(xiàn)產(chǎn)地和質(zhì)量的鑒別分析,但當(dāng)前市面上的百合品種眾多,又存在種植條件和存儲(chǔ)方式不同導(dǎo)致的外在差異,導(dǎo)致基于人工經(jīng)驗(yàn)的感官評(píng)審模式無(wú)法實(shí)現(xiàn)快速、精確、無(wú)損的檢測(cè)[7]。目前,除了傳統(tǒng)的檢驗(yàn)方式以外,還可用大型儀器結(jié)合化學(xué)計(jì)量學(xué)分析的方法,如高效毛細(xì)管電泳法(HPCE)[8]、高效液相色譜法(HPLC)[5]、液相色譜質(zhì)譜聯(lián)用法(LC-MS)、液相二級(jí)質(zhì)譜法(LC-MS-MS)[9]、氣相色譜法(GC)[10-11]等。袁志鷹[12]等采用傅里葉變換衰減全反射紅外光譜(ATR-FTIR)技術(shù)采集百合的紅外光譜,并使用層次聚類分析(HCA)區(qū)分幾類百合粉末。上述方法樣品前期處理過(guò)程復(fù)雜,操作繁瑣且耗時(shí)長(zhǎng),會(huì)產(chǎn)生較高的現(xiàn)場(chǎng)倉(cāng)儲(chǔ)成本及檢測(cè)成本,不能無(wú)損檢測(cè)而且難以滿足產(chǎn)地鑒別這一要求[13]。

        拉曼光譜(Raman spectroscopy)是一種基于振動(dòng)分子對(duì)光的非彈性散射的光學(xué)技術(shù),基于拉曼光譜可以提供細(xì)胞、組織或生物液體的化學(xué)指紋圖譜,做快速準(zhǔn)確的無(wú)損檢測(cè),相比于其他光譜技術(shù),拉曼光譜對(duì)水的敏感性較低,檢測(cè)過(guò)程不易受到水的干擾,這為含水生物樣本的檢測(cè)提供了很大的方便性,現(xiàn)已在農(nóng)牧業(yè)生產(chǎn)過(guò)程中獲得廣泛的應(yīng)用[14-17]。

        研究將拉曼光譜與機(jī)器學(xué)習(xí)算法相結(jié)合,建立了我國(guó)分布最為廣泛的三種百合鱗莖(蘭州百合、宜興百合和龍牙百合)的產(chǎn)地分類模型,提出了一種基于拉曼光譜的成分含量定量估計(jì)的方法。采用了人工先驗(yàn)方法、主成分分析和t-分布隨機(jī)鄰域嵌入三種方法提取光譜數(shù)據(jù)特征,并分別應(yīng)用到支持向量機(jī)、決策樹(shù)和隨機(jī)森林等算法。此外,拉曼光譜數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)算法可以快速識(shí)別和鑒定百合鱗莖的產(chǎn)地,可為現(xiàn)代化生產(chǎn)的產(chǎn)地鑒別和百合鱗莖質(zhì)量分析提供新方法。

        1 實(shí)驗(yàn)部分

        1.1 儀器

        研究所用波長(zhǎng)為532 nm激光(Verdi v-6)作為激發(fā)源的Alpha共聚焦拉曼顯微鏡系統(tǒng)(WITec,德國(guó))和配備Pixis Spec 10-100× CCD相機(jī)(Princeton Instruments,Trenton,NJ)的ACTON 300i光譜儀采集拉曼光譜。激光束通過(guò)蔡司LD EC Epiplan-Neofluar 50×物鏡(NA=0.55)聚焦到樣品中(日本尼康)。

        1.2 樣本采集

        樣本選取甘肅省蘭州市的蘭州百合、江西省萬(wàn)載縣的龍牙百合和江蘇省宜興市的宜興百合,按照百合鱗莖采挖時(shí)間和保存情況進(jìn)行分組,樣本信息如表1所示。

        表1 樣本信息

        百合鱗莖在采摘后通常冷藏貯存,為了模擬真實(shí)的過(guò)程,所有的樣品存放于(3±0.5)℃的冷藏室中。百合鱗莖的所有內(nèi)部鱗片樣品都取自百合的中心鱗片上,選擇較平整位置,用刀片切下厚度約為2 mm的組織,緊貼于載玻片上。

        1.3 光譜采集

        首先用單晶硅片作為待測(cè)物對(duì)光譜系統(tǒng)進(jìn)行校準(zhǔn),然后選取激光功率為10 mW,單點(diǎn)測(cè)量積分時(shí)間為5 s,積分次數(shù)為3次。對(duì)每一個(gè)樣品隨機(jī)選取多點(diǎn)進(jìn)行測(cè)量獲取數(shù)據(jù)集,每次測(cè)量時(shí)調(diào)整位置使激光光斑進(jìn)入樣品內(nèi)部的深度相同。對(duì)于單光譜測(cè)量的樣品,調(diào)整到合適的視野后隨機(jī)選取約10個(gè)點(diǎn),計(jì)算這些光譜的平均譜,將其作為該樣品的典型拉曼光譜。

        1.4 光譜數(shù)據(jù)預(yù)處理

        由于存在背景噪聲、人工操作因素以及受到樣品自身相關(guān)性質(zhì)的影響,拉曼光譜上會(huì)表現(xiàn)出冗余的信息,熒光、噪聲、宇宙射線等都會(huì)影響分析結(jié)果。因此,初次采集到的原始拉曼光譜需要進(jìn)行預(yù)處理操作。

        除宇宙射線(CRR)和波數(shù)校準(zhǔn)使用WITec共聚焦拉曼光譜儀的同系列軟件Project FIVE,隨后采用四階多項(xiàng)式擬合法基本上去除了熒光背景,機(jī)器學(xué)習(xí)過(guò)程中對(duì)所有的光譜進(jìn)行歸一化處理,使光譜的強(qiáng)度均落在[0,1]之間,其計(jì)算公式為

        (1)

        最后,去除光譜中非拉曼光譜的部分,即完成了拉曼光譜預(yù)處理,整體流程如圖1所示。

        圖1 拉曼光譜預(yù)處理過(guò)程

        2 結(jié)果與討論

        2.1 拉曼光譜采集及預(yù)處理

        選取三大百合鱗莖產(chǎn)區(qū)的20份樣本(表1)進(jìn)行光譜采集,并進(jìn)行了光譜數(shù)據(jù)預(yù)處理,典型拉曼光譜如圖2所示。

        圖2 三種百合鱗莖的典型拉曼光譜

        2.2 光譜數(shù)據(jù)降維及特征提取

        百合鱗莖的拉曼光譜中的波長(zhǎng)范圍較大,重點(diǎn)區(qū)域含有1 650個(gè)波長(zhǎng)點(diǎn),建模難度較高。這些特征峰之間存在一定的相關(guān)性,因此首先對(duì)數(shù)據(jù)進(jìn)行特征提取來(lái)降維運(yùn)算。

        首先歸納了百合鱗莖的光譜和物質(zhì)對(duì)應(yīng)特點(diǎn),使用了人工提取法確定代表物質(zhì),通過(guò)對(duì)國(guó)內(nèi)外學(xué)者在植物組織中的糖類、蛋白質(zhì)類、脂類、氨基酸類等物質(zhì)的研究文獻(xiàn)進(jìn)行分析比較,提取出樣品拉曼光譜中各個(gè)特征峰的波數(shù)和強(qiáng)度等信息,歸納了百合鱗莖的拉曼光譜中出現(xiàn)的特征峰以及其對(duì)應(yīng)的化學(xué)鍵和物質(zhì)種類,詳見(jiàn)表2。

        經(jīng)過(guò)篩選,本研究選取了光譜數(shù)據(jù)中的27個(gè)特征,拉曼位移分別為436,479,518,520,525,832,874,876,896,942,952,1 054,1 082,1 096,1 120,1 127,1 262,1 265,1 320,1 343,1 374,1 382,1 455,1 457,1 606,1 635和1 640 cm-1。

        將獲得的特征使用主成分分析(principal component analysis, PCA)和t-分布隨機(jī)鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)進(jìn)行特征提取。

        主成分分析是一種常見(jiàn)的降維方法,對(duì)三類百合鱗莖樣品的拉曼光譜數(shù)據(jù)進(jìn)行特征提取。各主成分的貢獻(xiàn)率及累積貢獻(xiàn)率如圖3所示, 第一主成分PC1和第二主成分PC2的貢獻(xiàn)率分別為42.06%和20.56%,前6個(gè)主成分累積貢獻(xiàn)率達(dá)到了81.33%。

        圖3 三種百合拉曼光譜各個(gè)主成分的貢獻(xiàn)率和累積貢獻(xiàn)率

        t-分布隨機(jī)鄰域嵌入是一種無(wú)監(jiān)督降維方法,本研究執(zhí)行t-SNE時(shí)選取參數(shù)值:嵌入空間維度為2,困惑度perplexity=30,數(shù)據(jù)初步降維的PCA維度為50。利用t-SNE算法對(duì)上述三種百合的拉曼光譜數(shù)據(jù)進(jìn)行降維。

        2.3 模型建立過(guò)程

        采用了不同的算法對(duì)三種百合共1690個(gè)樣本的拉曼光譜進(jìn)行了特征提取,包括蘭州百合數(shù)據(jù)500條、宜興百合數(shù)據(jù)650條、龍牙百合數(shù)據(jù)540條。

        使用“留出法”將采集到的數(shù)據(jù)集分為兩個(gè)互斥的集合,其中一個(gè)作為訓(xùn)練集,另一個(gè)作為測(cè)試集,兩者保持?jǐn)?shù)據(jù)分布的一致性。本研究采用k折交叉驗(yàn)證法和“留一法”(leave-one-out, LOO)進(jìn)行模型訓(xùn)練,將訓(xùn)練集S平均分成k份,輪流將其中的k-1份作為訓(xùn)練集,剩下的一份作為驗(yàn)證集,訓(xùn)練k次后的平均驗(yàn)證誤差作為該模型的誤差。

        上述1 690條數(shù)據(jù),其中1 260條數(shù)據(jù)作為訓(xùn)練集,剩下的430條作為測(cè)試集。以5折交叉驗(yàn)證為例,數(shù)據(jù)集的劃分及訓(xùn)練過(guò)程如圖4所示。

        圖4 數(shù)據(jù)集的劃分和訓(xùn)練示意圖

        2.4 基于支持向量機(jī)的分類模型

        支持向量機(jī)(SVM)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的線性分類器,分別使用人工先驗(yàn)方法提取的特征、PCA提取的主成分和t-SNE提取的特征建立百合分類的SVM模型。

        使用人工先驗(yàn)方法提取的27個(gè)特征,建立百合分類的SVM模型。將訓(xùn)練集的光譜數(shù)據(jù)作為自變量,使用參數(shù)為γ的徑向基函數(shù)(RBF)作為核函數(shù)替換實(shí)例和實(shí)例之間的內(nèi)積,定義為

        K(xi,xj)=exp[-γ‖xi-xj‖]2

        (2)

        最優(yōu)判別函數(shù)為

        (3)

        式中,sgn為階躍函數(shù),x為輸入的特征向量;xi為輸出的第i個(gè)支持向量。

        在進(jìn)行分類時(shí),首先需要通過(guò)訓(xùn)練確定核函數(shù)參數(shù)γ和誤差項(xiàng)懲罰因子C,使得模型訓(xùn)練正確率最高。ζ為松弛變量,ζ和γ都是為了解決線性不可分問(wèn)題,在SVM模型中C和ζ為模型精度的決定因素。

        經(jīng)過(guò)多次實(shí)驗(yàn)表明,當(dāng)C∈(22, 23),γ∈(2-2,1)時(shí)模型訓(xùn)練精度較高,在此范圍內(nèi)確定超參數(shù),結(jié)果如表3所示。顯然,當(dāng)C=6、γ=0.9時(shí),分類模型性能最好,此時(shí)訓(xùn)練分類正確率為91.2%,測(cè)試集的分類正確率為89.1%。

        表3 不同超參數(shù)組合下的SVM模型訓(xùn)練精度

        利用PCA提取的前60個(gè)主成分,建立百合分類的SVM模型。首先用同樣的網(wǎng)格搜索方法確定超參數(shù),經(jīng)多次實(shí)驗(yàn)得最佳參數(shù)為C=7,γ=1.3,此時(shí)訓(xùn)練準(zhǔn)確率為96.8%。隨后選取不同的主成分個(gè)數(shù)進(jìn)行五折交叉驗(yàn)證,結(jié)果如圖5所示,選取PCA的前22個(gè)主成分作為輸入時(shí),測(cè)試數(shù)據(jù)的分類正確率最高,達(dá)到了91.2%。

        圖5 基于PCA特征提取的SVM模型分類正確率

        利用t-SNE提取的特征,建立百合分類的SVM模型。仍然使用同樣的網(wǎng)格搜索方法確定超參數(shù),經(jīng)多次實(shí)驗(yàn)得最佳參數(shù)為C=92.2,γ=512,此時(shí)模型訓(xùn)練準(zhǔn)確率為95.7%,測(cè)試集的分類正確率為93.7%,與前兩種特征提取方法相比,正確率有了明顯的特高。

        2.5 基于決策樹(shù)的分類模型

        為了進(jìn)行對(duì)比,本研究采用決策樹(shù)算法進(jìn)行百合分類模型的訓(xùn)練。經(jīng)過(guò)多次實(shí)驗(yàn),基于人工先驗(yàn)的特征提取方法應(yīng)用于決策樹(shù)模型時(shí)最佳參數(shù)lAP=13,基于PCA的特征提取方法應(yīng)用于決策樹(shù)模型時(shí)最佳參數(shù)lPCA=13,基于t-SNE的特征提取方法應(yīng)用于決策樹(shù)模型時(shí)最佳參數(shù)lt-SNE=17,如圖6所示。在最后進(jìn)行剪枝優(yōu)化后,基于人工先驗(yàn)的特征提取方法的決策樹(shù)分類模型正確率為78.8%,基于PCA的特征提取方法的決策樹(shù)模型正確率為91.7%,基于t-SNE的特征提取方法的決策樹(shù)模型正確率為86.7%。

        圖6 葉子節(jié)點(diǎn)的最小樣本數(shù)對(duì)決策樹(shù)性能的影響

        2.6 基于隨機(jī)森林的分類模型

        決策樹(shù)算法進(jìn)行分類時(shí)思想十分樸素,分類速度較快,但這也決定了它的泛化能力較弱。因此,本研究建立了基于RF算法的三種百合光譜數(shù)據(jù)分類模型。

        利用人工先驗(yàn)方法提取的27個(gè)特征,結(jié)合RF進(jìn)行模型訓(xùn)練。采用五折交叉驗(yàn)證結(jié)果表明,人工先驗(yàn)的特征結(jié)合RF分類模型在測(cè)試集上的最高正確率為90.2%;選取不同的PCA主成分個(gè)數(shù),并結(jié)合RF進(jìn)行分類模型訓(xùn)練,選擇前8個(gè)主成分作為分類模型的輸入時(shí),在測(cè)試集數(shù)據(jù)上的平均正確率為95.8%,且選取更多主成分時(shí),準(zhǔn)確率的提升不再顯著;利用t-SNE提取的特征,結(jié)合RF進(jìn)行分類模型訓(xùn)練,采用五折交叉驗(yàn)證多次實(shí)驗(yàn)表明,模型的平均預(yù)測(cè)準(zhǔn)確率為90.7%。本處展示效果最佳的基于PCA特征提取的RF模型,如圖7所示。

        圖7 基于PCA特征提取的RF模型分類正確率

        2.7 模型準(zhǔn)確性評(píng)估

        在分類問(wèn)題中,精度(accuracy)、查準(zhǔn)率(precision)、召回率(recall)和F1分?jǐn)?shù)是最常見(jiàn)的性能度量值,反映了使用該模型進(jìn)行分類預(yù)測(cè)時(shí)的基本表現(xiàn)情況。

        若將預(yù)測(cè)為1的樣本稱為陽(yáng)性(positive),預(yù)測(cè)為0的樣本稱為陰性(negative),對(duì)比模型預(yù)測(cè)的類別和測(cè)試集樣本的真實(shí)類別,所有測(cè)試集樣本可以分為真陽(yáng)性(true positive,TP)、假陽(yáng)性(false positive,F(xiàn)P)、真陰性(true negative,TN)和假陰性(false negative,F(xiàn)N)。

        將正確率Acc、查準(zhǔn)率P和召回率R定義為

        (4)

        (5)

        (6)

        由此可見(jiàn),查準(zhǔn)率是指所有被模型預(yù)測(cè)為陽(yáng)性的樣例中,有多少預(yù)測(cè)正確;查全率是指所有實(shí)際為陽(yáng)性的樣例中,有多少被預(yù)測(cè)出來(lái),也就是敏感性(sensitivity)。這兩個(gè)指標(biāo)實(shí)際上是相對(duì)矛盾的,為了調(diào)和P和R,我們引入了F1分?jǐn)?shù),表示為

        (7)

        化簡(jiǎn),得

        (8)

        在本研究中,每個(gè)模型都可以得到三個(gè)混淆矩陣,分別計(jì)算得到三組P和R,計(jì)算各自的均值,得

        (9)

        (10)

        (11)

        三種特征提取方法和三種機(jī)器學(xué)習(xí)算法相結(jié)合,建立了共9種百合拉曼光譜分類模型,在同一個(gè)測(cè)試集上的分類精度如表5和圖8所示,當(dāng)采用基于PCA提取的前8個(gè)主成分結(jié)合RF建立百合分類模型時(shí),計(jì)算量較小且準(zhǔn)確率最高,達(dá)到了95.8%。

        表4 不同模型方法組合下的模型評(píng)價(jià)結(jié)果

        表5 所有模型的分類準(zhǔn)確率

        圖8 所有模型的分類準(zhǔn)確率對(duì)比圖

        3 結(jié) 論

        基于三種百合在400~2 000 cm-1拉曼譜峰信息,將拉曼光譜與機(jī)器學(xué)習(xí)算法相結(jié)合,提出了現(xiàn)場(chǎng)快速識(shí)別和鑒定百合鱗莖產(chǎn)地的方法模型。實(shí)驗(yàn)結(jié)果表明該模型可以有效鑒定百合鱗莖質(zhì)量,篩選不同產(chǎn)地樣本的特征,為百合鱗莖的產(chǎn)地鑒別及溯源分析提供新思路。

        猜你喜歡
        特征提取分類模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        3D打印中的模型分割與打包
        国产三级av在线播放| 国产精品亚洲一区二区三区妖精| 亚洲精品中文字幕乱码无线| 极品美女扒开粉嫩小泬图片| 麻豆精品久久久久久久99蜜桃| 精品第一页| 国产一区二区三区av香蕉| 日韩亚洲无吗av一区二区| 亚欧美日韩香蕉在线播放视频| 猫咪www免费人成网最新网站| 挑战亚洲美女视频网站| 不卡一区二区三区国产| 午夜福利理论片在线观看| 久久亚洲sm情趣捆绑调教| 精品黄色av一区二区三区| 国产一区二区免费在线视频| 偷国产乱人伦偷精品视频| 男女男在线精品网站免费观看| 中文字幕偷拍亚洲九色| 亚洲中文字幕乱码第一页| 国产成人一区二区三区| 中文字幕天堂在线| 日韩精品一区二区三区含羞含羞草| 国产免费av手机在线观看片| 国产女人高潮视频在线观看| 亚洲AV成人无码久久精品四虎| 五月综合丁香婷婷久久| 性无码一区二区三区在线观看 | 久久精品国产亚洲av麻豆会员| 亚洲老妈激情一区二区三区| 最新精品国偷自产在线婷婷| 日韩三级一区二区三区四区| 久久偷看各类wc女厕嘘嘘偷窃| 国产精品区一区第一页| 久久精品国产亚洲av成人擦边| 亚洲精品有码日本久久久| 中文字幕一区二区人妻性色| 青青国产成人久久91| 精品国产亚洲av高清日韩专区| 欧美丰满熟妇bbb久久久| 中国一级毛片在线观看|